自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (3)
  • 收藏
  • 关注

原创 数据采集之安装Flume、Kafka、Sqoop

文章目录安装Flume1.7以root用户登录进入home目录下载flume1.7到本地解压配置环境变量使环境变量生效进入Flume的配置目录拷贝flume-env.sh的模板文件配置flume-env.sh文件使环境配置生效验证安装Flume成功Flume使用使用Flume接收AvroSource信息创建Agent配置文件启动日志控制台新建一个命令窗口,创建包含hello world的log文件并发送给Flume切回日志控制台的命令窗口接收到消息使用Flume接收NetcatSource信息创建agent

2020-11-10 20:34:39 759

原创 CentOS6.7下Hive和MySql安装及问题汇总

环境:Hadoop2.7.3、HBase1.2.5、Zookeeper3.4.6、

2020-11-04 20:29:21 389

原创 Python实现Linux环境下Hbase操作

步骤一、安装依赖环境yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel | gcc下载python安装环境(3.6更具兼容性)https://www.python.org/ftp/python/进入python文件夹,生成编译脚本(指定安装目录):./co

2020-11-02 11:03:00 1879 6

原创 HBase安装注意事项及使用问题

首先要确保所下载的Hbase与Hadoop版本对应支持,支持如下表https://blog.csdn.net/shuaigexiaobo/article/details/78114221http://hbase.apache.org/downloads.html

2020-10-13 10:56:26 704 1

原创 Git学习——指令集合

文章目录码云添加公钥添加整个文件夹及内容添加目录中所有某种类型的文件设置less的编码设置提交信息的编码设置输出 log 的编码配置用户名及邮箱创建版本库:git库中添加文件:当前分支的当前版本回退之前版本:git库撤销修改:git库删除文件:git库恢复文件添加远程库查看已关联的远程库向远程库推送修改克隆远程库(用于多人协作)切换并创建远程库分支抓取远程库当前分支的最新提交建立远程库分支与本地分支的关联推送标签到远程库推送所有标签到远程库删除远程库标签删除远程分支删除远程库查看包括远程库的所有分支创建分支

2020-10-11 20:06:41 120

原创 K-近邻(KNN)分类器(一)

文章目录前言正文算法流程实现流程优缺点例题数据实现要点前言自此开始机器学习篇,先从最简单的分类器——K-近邻分类器开始正文算法流程K-近邻算法伪代码如下,对未知类别属性的数据集中的每个点依次执行以下操作:(1) 计算已知类别数据集中的点与当前点之间的距离;(2) 按照距离递增次序排序;(3) 选取与当前点距离最小的k个点;(4) 确定前k个点所在类别的出现频率;(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。实现流程(1) 收集数据:可以使用任何方法。(2) 准备数据

2020-09-26 18:47:35 977 1

原创 安装使用Vmware及Hadoop出现的问题及解决方案

报类似如下错误时解决方案首先进入该页面获得虚拟机所在位置删除.ick后缀的文件,该文件应该是保存了虚拟机上次运行时的运行状态然后Ctrl+Alt+Delete键打开任务管理器,键盘敲入v快速查找和Vmware相关的进程,然后结束这些进程,有些进程无法关闭,可以不管。关闭完所有Vmware相关进程后,重启电脑即可进入虚拟机开启共享文件夹进入虚拟机配置页面设置本地作为共享文件夹的目录进入虚拟机页面,使用超级用户权限cd /mnt/hfgs/共享文件目录即可找到共享目录可本地主

2020-09-22 23:24:18 1718 1

原创 基础网页布局到设计练习1

文章目录前言练习内容实现步骤小结前言由于选修了Bootstrap前端课程,就又开始了前端之旅,和之前的老师不同,这门课的老师讲授方式和技术水平都很不错,也算是学会了一些基础的网页设计理念,在此记录。练习内容模仿实现下面的网页效果图实现步骤建立整体框架稍微细心留意下,可发现该页面可大致分为4部分:页头、导航栏、文章内容、页尾,如下示意图。进一步细化整体框架的内部框架,如下图所示。填充框架内容,注意父子元素之间的宽度和高度的传递,实现得到下图。小结虽然之前也有过类似做法设计网页,但

2020-09-22 21:10:26 441 1

原创 P-R曲线、ROC曲线、AUC及代价(CC)曲线

P-R曲线ROC曲线与AUC代价(CC)曲线

2020-09-22 09:46:30 2218 1

原创 Java图形界面化设计(Swing)--推箱子小游戏

由于一直想着自己做个小游戏,最近放假有时间就照着别人思路写了一个,借鉴自这里,有所创新,算是第一次做图形化界面的程序。首先我用的地图数据和人物地图素材包和我借鉴的博主用的一样,不过我找到了个更全一点的素材包,最后也加了背景音乐和游戏音效,感觉第一次做的还行。这是我用的素材包和音乐背景音乐用的都是秦时明月的,这四首背景音乐还有一个推箱子音效和过关音效我是看了学校发的Java书上面的S...

2020-01-28 01:48:25 2772 1

原创 2020 CCPC Wannafly Winter Camp Day1 H最大公约数

题目链接:输入描述:输入第一行是一个整数 T(1 ≤T ≤ 50)。对于每组数据,输入一行两个整数 n,k(1≤k≤n≤500)。输出描述:对于每组数据,输出一行一个整数,表示答案。如果满足条件的 y 不存在,则输出 -1。思路:看了别人博客后自己再想了下,首先题目意思为要验证gcd(k,y)与gcd(x,y)是否相等(假定k为A说的,x为B口中说的),因为A、B共同知晓的x范围限定在...

2020-01-21 17:19:56 230

原创 关于计算机中的原码,反码和补码

写这个的主要原因是为了总结(主要是对于IDE来说):首先计算机为了解决用原码或反码运算时所带来的不变,引入补码来进行计算机中的基本运算.比如对于C语言中的一个int变量一般占4字节,也就是32bits,对应着计算机里面的01的位数,而在计算机中为了方便直接让数字按照补码形式存储,也就是说对于1来说在计算机中用00…001存储(0有31个),而-1则用1111…111(32个1)存储.进一步,...

2020-01-19 19:49:56 495

原创 对floyd算法理解

最基础的floyd写法for(int k=1;k<=n;k++)for(int i=1;i<=n;i++)for(int j=1;j<=n;j++)if(e[i][j]>e[i][k]+e[k][j])e[i][j]=e[i][k]+e[k][j];看了一两篇文章,总结一下,首先floyd求的是多源最短路,思想是:一开始用来存图的邻接矩阵对于两个点之间没有其他...

2019-11-14 20:24:30 621

原创 查询之前是否查询过某个数

先前cf做题时,碰到了一些困惑,就此记下。首先数组里面查询某个数的复杂度已经确定,一种是无序时,O(n)遍历查找,一种是有序是二分O(logn)查找。那么如果要查询之前是否查询过该数,有那些方法呢?方法一:待查询数组a,新建一个数组b存储之前查询过的数字。然后在b数组里面查找,如果需要立即输出结果,则O(n)去遍历,不然可以排好序,再二分查找。方法二:待查询数组a,新建一个map对象...

2019-08-27 16:03:57 141

原创 康拓展开,逆展开(全排列求第n个)

定义:实质是计算当前排列在所有由小到大全排列中的顺序,因此是可逆的。解决问题:举例由12345–>34251,问34251是全排列的第几个?(按字典序小的开始全排列)计算方法:首先我们可以发现由12345–>25431是比较好计算全排列数的,也就可以看成是算由12345–>15432(需要4!次),由21345–>25431(也需要4!次),所以12345–&gt...

2019-08-25 01:03:03 536

原创 Codeforces Round #579 (Div. 3)--F2. Complete the Projects (hard version)(贪心,dp)

题目链接题意:给定n个任务和一个初始评级r,对于每个任务都有一个评级要求,当且仅当达到评级要求及以上时才能去做任务,做完一个任务评级都会发生相应改变,增加或减少。可以跳过当前要完成的任务,去做其他任务,问这种条件下完成每一个任务之后评级都是非负数,且完成最后一个任务时评级也是非负数,所能完成的最多任务数。分析:之前的F1已经让我们解决了如何把所有任务排成尽可能多完成的顺序,所以可以照搬F1...

2019-08-22 00:19:23 189

原创 Codeforces Round #579 (Div. 3)--F1. Complete the Projects (easy version)(贪心,排序)

题目链接题意:给定n个任务和一个初始评级r,对于每个任务都有一个评级要求,当且仅当达到评级要求及以上时才能去做任务,做完一个任务评级都会发生相应改变,增加或减少。问是否存在一种做任务的顺序,使得完成每一个任务之后评级都是非负数,当完成最后一个任务时评级也是非负数。题目条件:1<=n<=100,1<=r<=30000,1<=ai<=30000(评级要求),...

2019-08-18 09:15:59 172

原创 Codeforces Round #579 (Div. 3)--Boxers(贪心,排序)

题目链接题意:给定n个质量为ai的盒子,每个盒子质量都可以改变不超过1的单位质量,求能够选出的互不相同的质量的盒子的最大数目。题目条件:1<=n<=150000,1<=ai<=150000。分析:贪心策略就是:选择尽可能大的质量的盒子,(情况一)让它质量加一(如果可以),这样选择后面的物品的时候,较其他选法,后面的盒子可选区间范围变大,能够选择的盒子也就越多(根...

2019-08-18 00:06:21 104

原创 Codeforces Round #579 (Div. 3)--Remove the Substring(贪心)

题目链接题意:给定两个字符串s和t,保证t是s的子序列(子序列和子串不同),问最多可以删除s中多少个连续字符,使得t仍是s的子序列。题目条件:D1:1<=t.size()<=s.size()<=200。D2:1<=t.size()<=s.size()<=200000。分析:虚拟补题的时候以为题目说的是子串,然后就直接wa了,之后仔细看才发现是指的子...

2019-08-17 00:21:24 98

原创 Codeforces Round #579 (Div. 3)--Common Divisors(gcd,约数个数,质因数分解)

题目链接题意:给定个数为n的一串数字序列,找出所有数字的公共因子个数。题目条件:1<=n<=4*10 ^5,1<=ai<=10 ^12。分析:经过仔细思考,不难想到首先应当计算出所有数字的最大公约数,只需对所有数字算一遍gcd即可,然后就想一想,其实就是求所有数字最大公约数的因子个数,那么只需要进行质因数分解即可,可以先打素数表,再质因数分解,也可直接试除法分解...

2019-08-16 00:58:08 163

原创 Light OJ1341--Aladdin and the Flying Carpet(素数筛选,约数个数,唯一分解定理)

题目链接题意:一块面积为a的长方形毯子,最小的边长为b,求最小边长大于等于b的长方形方案数。题目条件:1<=b<=a<=1e12分析:由题目给出的样例可以不难发现,实际上是要求一对约数中最小约数大于等于b的约数对数。再看到题目条件范围,可以直接对a进行质因数分解,试除法复杂度O(根号n),这里直接埃式素数打表,范围1e6差不多。然后就是对a进行唯一素数分解,利用约数个...

2019-08-15 00:44:19 173

原创 c++对拍程序(bat文件版)

昨天碰到一道题目,样例过了,但是一交就wa,所以就想着能不能找出错的测试数据,又因为之前一直听说可以用对拍来检测程序正确性,所以昨天就看了别人博客学了下对拍。接下来介绍下简单的bat文件对拍,用c++程序对拍的暂时还不会 。整体步骤:首先对拍,需要有产生测试数据的程序,暴力方法的程序(或者已ac的程序),需要对拍的程序,先写好这些程序,再分别编译生成可执行的exe文件,然后就是新建一个dat...

2019-08-13 14:53:10 1855

原创 洛谷P1182 --数列分段 Section II(二分答案)最大值问题最小化

题目链接题意:从n个数中选出连续的m个区间,对于每种选择方案都有一个最大的区间和,求在所有可行方案中最大区间和最小为多少。分析:做的时候,最后写代码的时候卡了好久。最后意识到之前的对二分答案的理解有些差错,//Gold bless me.#pragma GCC optimize(3) //#include <bits/stdc++.h>#include <vec...

2019-08-10 09:07:39 309

原创 洛谷P1316 --丢瓶盖(二分答案+贪心)最小值最大化问题

题目链接题意:一条直线上有a个瓶盖,要选取b个瓶盖,使得选取的瓶盖中最近距离的两个瓶盖距离在所有可行方案中最大。题目条件:(b<=a<=100000)分析:一开始没看清题意,以为是要找到某个方案中,所有相邻瓶盖距离都最大,然后求这些距离中的最大距离,然后就各种想不通,最后才发现是读了个假题意。。。正确理解就是求所有可行方案中,各个方案的最小距离的最大值,那么就是最小值最大化...

2019-08-09 12:33:45 415

原创 POJ2785-4 Values whose Sum is 0(二分基础)

题目链接题意:给定四个长度均为n的数字序列,从这四个序列中各任选一个数字,设分别为a,b,c,d,求a+b+c+d=0有多少种可能的方案。(各个序列间数字的选择是相互独立的)题目条件:n<=4000,|Xi|<=2^28。(Xi表示选择的数字)分析:因为之前在挑战程序设计竞赛书上看过原题,但是解答当时并未全部理解,这次碰到了就好好分析一下。首先看完题目,想到暴力遍历四层的f...

2019-08-09 01:32:46 115

原创 POJ2823-Sliding Window

待完成//Gold bless me.#pragma GCC optimize(3) //#include <bits/stdc++.h>#include <vector>#include <list>#include <map>#include <set>#include <deque>#include ...

2019-08-08 01:08:40 64

原创 POJ3579-Median(入门二分答案)

题目链接题意:给定n个数字,任意两个数字都有|Xi-Xj|(差值的绝对值),这样共有C(n,2)个差值,对这些差值进行排序,要求找出这些差值的中位数,设差值个数为m,对每个差值从1~m编号,若m为偶数,则中位数编号应为m/2,反之应为(m+1)/2。条件:Xi ≤ 1,000,000,000 3 ≤ N ≤ 1,00,000分析:因为根据题目条件复杂度至多为O(nlogn),然后刚开始...

2019-08-07 03:44:12 343

原创 hdu4004- The Frog's Games(二分答案)

题目链接题意:有只青蛙要跳过一条长L的河,其间有n块石头,最多可以跳m次,途中可以借助石头跳到对岸,也可以直接跳到对岸,给出石头距岸边的距离,青蛙每次跳都有一个跳跃距离,跳跃距离必须等于当前位置距要跳的石头或者是对岸的距离才能跳到那个位置,问青蛙在所有可行方案(能跳到对岸,且满足上述条件)中跳的最远的距离至少为多少。条件:1<=L <= 1000000000,0<= n &...

2019-08-06 14:05:34 228

Mysql5.7.13.zip

Mysql5.7.13.zip

2020-11-04

thrift_forPython3_0.9.3

python3连接hbase1.2.x所需的hbase连接库基于python3语法的修改版

2020-11-01

KNN分类器算法实现

#KNN分类器算法实现 #Python K-近邻算法伪代码如下, 对未知类别属性的数据集中的每个点依次执行以下操作: (1) 计算已知类别数据集中的点与当前点之间的距离; (2) 按照距离递增次序排序; (3) 选取与当前点距离最小的k个点; (4) 确定前k个点所在类别的出现频率; (5) 返回前k个点出现频率最高的类别作为当前点的预测分类。

2020-09-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除