- 博客(69)
- 资源 (3)
- 收藏
- 关注
原创 ubantu python完整安装示例(ubantu16.04 python3.7.1演示)、包含cmake完整安装流程(主要适用于arm linux机器)
本文主要介绍了ubantu python源码编译安装的完整流程(使用python3.7.1演示安装),同时也介绍了常规的安装方法。
2023-02-21 12:02:18 4396 3
原创 音乐推荐系统设计
移动网络和数字多媒体技术的飞速发展促进了数字音乐产业的共享与广泛传播.对用户而言,在海量的音乐库中寻找个人喜欢的音乐需要花费大量的时间和精力。音乐推荐系统的目的是将用户从这项繁琐的工作中解脱出来,从而有效地提高用户体验,为音乐平台创造经济收益。使用基于协同过滤的经典推荐算法,如矩阵因子分解方法,其数据的来源是用户的历史交互数据。协同过滤的应用非常广泛,但同时也面临着数据稀疏和冷启动等问题,同时,由于协同过滤的模型所限,在特征提取方面存在着很多不足,从而会限制推荐系统的准确率。音乐作为一种艺术形式,吸引用户、
2022-12-16 14:46:45 2971 1
原创 2022Flink大数据比赛项目-焦点科技大数据编程大赛
本文主要是针对有一定flink经验的同学,想巩固基础或者提升学习使用。本文解答也用了flink的大部分基础知识,像是窗口,状态编程,水位线,多流join等等,希望能给你带来一些启发。
2022-11-28 13:58:59 823
原创 解决from d2l import torch as d2l报pandas,numpy的相关问题
本文主要解决19 del hard_dependencies, dependency, missing_dependencies 21 # numpy compat---> 22 from pandas.compat.numpy import ( 23 np_version_under1p17 as _np_version_under1p17, 24 np_version_under1p18 as _np_version_under1p18,
2022-11-27 10:56:11 1766
原创 解决jupyter下载好了库,但无法使用的问题。以及补充jupyter如何下载新的库。
本文主要解决jupyter下载好了库,但是无法使用的问题。以及补充jupyter如何下载新的库。
2022-11-23 17:14:39 4967
转载 jupyter notebook密码配置
6.在第2步jupyter_notebook_config.py配置文件中找到“c.NotebookApp.password“(要去掉#号),等于刚生成的那个Hash密码sha1。1.windows下,打开命令行CMD窗口,重新生成一个jupyter配置文件,并给出了生成的文件位置。Enter password: #写入密码,密码不会显示。,设置明文密码XXXXXX,得到对应的Hash密码。,输入明文密码XXXXXX即可登陆。4.回到windows命令行,运行。
2022-11-20 15:10:07 5276 1
原创 高性能MPI编程实验
而MPI仅仅是一个并行计算标准,没有相应的分布式文件系统的支撑,在大数据场景下大文件的存储及访问都会成为一个问题,同时用户还需要考虑集群节点之间的通信协调、容错等问题,这些使得MPI的编程难度比较大,集群本身的规模也很难做到像MapReduce那样的超大规模。2.使用虚拟进程,虚拟进程(MPI_ PROC_ NULL)是不存在的假想进程,在MPI中的主要作用是充当真实进程通信的目或源,引入虚拟进程的目的是为了在某些情况下编写通信语句的方便。MPI是一种基于消息传递的并行编程技术,而不是一种具体的编程语言。
2022-10-20 00:00:00 870
原创 详细介绍区块链发展-比特币,以太坊
本篇文章重点介绍了区块链1.0和2.0的核心技术(像智能合约,Ghost协议,Pow和Pos算法等)以及他们的典型应用比特币和以太坊。最后介绍了区块链目前在各行业的应用有哪些。
2022-10-17 17:30:13 376
原创 详解大中小数据常用数据库的SQL语句、函数以及常见优化
本篇文章主要介绍目前我在目前项目中使用过的一些数据库的用法,像关系型数据库Sql Server,大数据数据库Hive,Hbase。总体上,文章内容偏基础,适用于那些需要使用数据库做开发或者课程设计实践的同学。本文重点介绍了关系型数据库,大数据数据库实际会使用到的一些Sql语句,Sql函数,定时任务以及数据库调优等。
2022-10-16 11:59:26 361
原创 Flink SQL常见问题
首先是双流关联的大状态问题,FlinkSQL 的双流关联会保留左右流的历史数据来互相关联,需要关联的时间间隔越长,保存的历史数据就会越多,状态也就会越大。比如,要关联订单的下单事件和退款事件,并保证计算结果的正确性,需要考虑这两个事件发生的间隔,可能是一个月甚至更久。上图左侧是一个双流关联的有状态 SQL 作业,图中的 Mem 和 Disk 组成了 SQL 作业的 TaskManager 节点,SQL 作业状态后端使用 RocksDB,状态持久化在 HDFS 文件系统上。一开始我们尝试把 SQL 作业的状态
2022-06-28 18:17:47 1334
原创 快速幂(python实现)
前言使用快速幂的原因,针对高次幂计算,如果使用循环遍历的方法,时间开销比较大eg:8^10000000000 而使用快速幂的方法可以在O(log(次幂))的复杂度内完成。实现import timestart=time.time()p=1000000007def quick_count(a,b): sum=1 while b!=0: if b&1: sum=sum*a%p b>>=1 a*=
2022-03-19 13:21:14 2505
原创 优先级队列实现的两种方法(python实现)
关于优先级队列在python的最常用的两种方法(heapq和queue.PriorityQueue)。主要说明了优先级队列的创建,入队,出队,设置优先级,设置降序(即大顶堆)的方法。
2022-03-19 12:54:30 2438
原创 hbase建表,删表,修改,查询(get,scan,布隆过滤器)
hbase关于表使用的具体流程,涉及到表的创建,删除,修改,查询(get,scan,布隆过滤器)
2021-12-30 21:07:34 1967
原创 使用matplotlib做动态排名图
数据源数据过程:1.先将数据保存使用pandas的read_csv函数从网页端直接读取数据,并筛选部分数据url = 'https://gist.githubusercontent.com/johnburnmurdoch/4199dbe55095c3e13de8d5b2e5e5307a/raw/fa018b25c24b7b5f47fd0568937ff6c04e384786/city_populations'df = pd.read_csv(url, usecols=['name'
2021-12-20 14:33:19 404
原创 大数据存储项目-基于Flink的高速公路ETC入深圳数据实时分析平台
大数据项目总体流程分为以下4个方面:数据采集,数据存储与管理,数据处理与分析,数据解释与可视化。数据源下载 高速公路ETC入深圳数据,数据量:178396条https://opendata.sz.gov.cn/data/dataSet/toDataDetails/29200_00403621要求(1)每秒产生50+条数据,可以采用网络压力测试工具产生多点并发的高速数据流https://blog.csdn.net/moonpure/article/details/72674374,例如JMeter
2021-12-18 20:38:25 2899 5
原创 mysql navicat如何为表添加外键?
mysql navicat如何为表添加外键?1.使用Navicat设置打开设计表项:点击外键项:外键是当前表可以指向其他表的主键或数据唯一属性的属性。当前表的sno属性是一个外键,它参考的是student表的id属性...
2021-12-13 21:48:50 1962
原创 mycat从0到成功进行分表操作
内容包括:安装mysql,使用mycat操作mysql时出现mysql的权限不足如何解决,mycat服务启动不了,或者启动后关闭如何解决,mycat主从节点复制(一般用于集群统一mysql表数据),mycat分表,mycat join表,can't find (root) parent sharding node for sql(最坑人的地方!!!!!)如何解决。
2021-11-23 21:17:08 737
原创 优先级队列应用-称检测点查询
#include<iostream>#include<algorithm>#include<vector>#include<queue>using namespace std;struct node{ pair<int,int> a; bool operator<(const node&b)const{ if(a.first==b.a.first){ return a.
2021-11-21 11:10:36 439
原创 flink与flink-client的版本对应
目前flink版本从0.6~1.14.0对应的flink-client版本对应 无版本号,2.10,2.11,2.12先说无版本号的是flink0.9版本即以前(太老了不做介绍)2.10对应flink(0.9以上带有hadoop版本 如:flink1.0.1-hadoop1)2.11对应flink(0.9~1.6.4非hadoop版本 如:flink1.6.4)2.12对应flink(1.7.0~最新版本 如:flink1.13.3)依赖添加方法:<!-- https://mvnrepo
2021-11-02 21:42:14 3971
原创 spark实验遇到的问题
问题1.0.0.0.0.8032这种问题一般是自己配置出错了,仔细检查前面的配置信息(从前到后,即使是前面配置的,也很可能当前错误是由它造成的,因为前面的运行案例都没有使用到这个配置信息),包括字母出错都可能导致这种情况。检查完成之后再重新启动一次集群。不要去尝试改变yarn集群配置(比如在yarn-site.xml中加上master:8032…),只要你之前yarn是正常启动了的,后面一般都不会修改yarn来纠正错误。除非确实该软件需要配置yarn时(如hadoop).问题2.idea编辑java程序
2021-11-02 21:18:21 329
原创 算法设计与分析-实验3
问题 A: algorithm-数据加密[命题人 : 080063]时间限制 : 1.000 sec 内存限制 : 128 MB题目描述密码学是研究编制密码和破译密码的技术科学。研究密码变化的客观规律,应用于编制密码以保守通信秘密的,称为编码学;应用于破译密码以获取通信情报的,称为破译学,总称密码学。密码是通信双方按约定的法则进行信息特殊变换的一种重要保密手段。依照这些法则,变明文为密文,称为加密变换;变密文为明文,称为脱密变换。密码在早期仅对文字或数码进行加、脱密变换,随着通信技术的发展,对语音
2021-10-30 12:01:20 735
原创 算法设计与分析-实验2
问题 A: algorithm-迷宫游戏题目描述你来到一个迷宫前。该迷宫由若干个房间组成,每个房间都有一个得分,第一次进入这个房间,你就可以得到这个分数。还有若干双向道路连结这些房间,你沿着这些道路从一个房间走到另外一个房间需要一些时间。游戏规定了你的起点和终点房间,你首要目标是从起点尽快到达终点,在满足首要目标的前提下,使得你的得分总和尽可能大。现在问题来了,给定房间、道路、分数、起点和终点等全部信息,你能计算在尽快离开迷宫的前提下,你的最大得分是多少么?输入第一行4个整数n (<=500)
2021-10-23 22:33:15 881
原创 背包问题,为什么使用倒叙、顺序分别优化01背包和完全背包.
一.背景0-1背包与完全背包的唯一的区别在于0-1背包每个物品只能使用一次,但是完全背包可以重复使用。二.0-1背包空间优化假设物品编号1~n重量w[i]价值v[i]0-1背包使用的倒叙遍历就是为了避免重复使用同一个物品。**1)**先从反面说明,假设使用顺序遍历,dp[4]=dp[3]+v[2] ,dp[5]=dp[4]+v[2] 将dp[4]带入dp[5]可以得到dp[5]=dp[3]+2*v[2]即会使用到2个2号物品,不满足0-1背包的要求,即每个物品只使用一次。**2)**使用倒叙
2021-10-23 19:14:32 1964 1
原创 OpenBase关于一致性,可用性,分区容错性(CAP)分析
OceanBase 的 CAP 分析单元化架构中的成千山万的应用就像是计算器,本身无 CAP 限制,其 CAP 限制下沉到了其数据库层,也就是蚂蚁自研的分布式数据库 OceanBase(本节简称 OB)。在 OB 体系中,每个数据库实例都具备读写能力,具体是读是写可以动态配置。实际情况下大部分时候,对于某一类数据(固定用户号段的数据)任意时刻只有一个单元会负责写入某个节点,其他节点要么是实时库间同步,要么是异步数据同步。OB 也采用了 PAXOS 共识协议。实时库间同步的节点(包含自己)个数至少需要
2021-10-21 17:23:52 730
转载 PAXOS协议
最近几年分布式协议在数据库产品中飞速发展,各大公司都有基于特定场景相应的分布式数据产品出现,国内典型的包括腾讯的基于Paxos的PhxSQL,阿里的X-Paxos AliSQL,以及官方的Group Replication,还有percona 分支的基于Galera 协议的PXC。因此,理解分布式协议尤其重要,深入的理解之后,才能知道它存在的适用场景,才能在合适的业务上充分发挥它的功能。本文不讲解其他的分布式协议,包括zookeeper的ZAB协议,以及Paxos的简化版raft的协议,重在讲解分布式协议
2021-10-21 16:29:24 3359
原创 素数环-dfs回溯+二维数组记录(c++实现)
标题## 问题描述:给你n(2<=n<=16)个正整数1,2,3…n,你的任务是把这n个正整数组成一个环,使得任意相邻的两个整数之和为一个素数,输出有多少种合法方案。输入多组输入数据,每组数据只有一个正整数n(2<=n<=16)代表有n个正整数 1,2,3…n输出对每组数据,输出一个整数,代表有多少种不同的可行方案数。样例输入68样例输出24...
2021-10-20 20:06:12 914
原创 Mapreduce,mapper任务无输出以及相关问题解决,日志的正确用法
问题提出在执行MR任务时,mapper和reducer都正常运行,但是hdfs输出文件为空。(任务是关于MR执行排序任务的)数据如下:排查经历1.查看core-site.xml是不是路径(hadoop.tmp.dir属性)配置错误了,导致数据放错了位置。然而 不是2.因为没有报错**(输出空文件之前遇到过ArrayIndexOutOfBoundsException->数组越界的错误,解决也很简单:加上判断语句 。其实当时是有些怀疑是不是读取数据错误了,但是考虑可能是最后一行空值数据可能被读
2021-10-14 00:27:40 5279 1
原创 Dp问题:奶牛的聚会
题目描述农历新年马上就要到了,奶牛们计划举办一次聚会庆祝新年的到来。但是,奶牛们并不喜欢走太远的路,这会给他们的聚会带来消极情绪,当一头奶牛的消极指数为Wi,他参加聚会所需行走的距离为si,那么他就会给聚会带来Si3*Wi的消极情绪。所有奶牛所在位置都在一条直线上,已知所有奶牛的坐标和消极指数,求如何确定聚会地点,使得所有奶牛给聚会带来的消极情绪之和最小,输出消极情绪之和的最小值。输入第一行包含一个整数 Ca(Ca<=20) ,表示有 Ca 组测试数据。对于每组测试数据:第一行包含一个整数n(
2021-10-13 18:27:34 242
原创 关于pygame和tkinter窗口的那件事-线程
pygame与tkinter关于窗口的问题pygame和tkinter实际上都是一个可视化界面,在第一层父窗口上几乎没有区别,tkinter使用Tk()+mainloop()+按键对象+放置 而pygame使用set_mode+update+按键对象+按键对象属性设置(一般是位置),但是关于使用子窗口是有明显区别的。tkinter创建子窗口时如果只是显示,不对窗口操作(点击按钮,输入等),则直接使用Tk()创建窗口即可。如一些数据展示窗口。但是如果需要对子窗口进行操作eg:数据写入,按钮+响应等等,就需
2021-10-11 22:39:11 3242 1
原创 github文件上传全流程-新手入门系列(超详细!!!)
本文完整介绍了github的入门操作,包括网络连接,登录,创建仓库,使用仓库,上传代码等等。1.网络连接2.进入github官网创建个人账号3.进入github内部创建个人仓库4.创建仓库5.上传文件、代码
2021-09-21 14:05:03 17830
原创 程序图形化界面刷新以及如何从tkinter窗口中正确读出数据
1.问题提出在做图形化编程时经常遇到界面刷新函数,如python tkinter中的mainloop,java线程new和remove并用等等。但是想要使用图形化界面的数据(输入的文本数据或其他)时却出现了无法将其读出/使用的问题。2.问题解决以python tkinter包中的mainloop图形界面刷新函数为例,如果我们将使用图形界面数据的操作放在刷新函数之前,那么只能得到原数据,不会得到图形界面的任何输入数据。eg:str=""win=tk.Tk()tk.Button(.....).pl
2021-09-10 10:35:22 1214
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人