2 ChanKamShing

尚未进行身份认证

暂无相关简介

等级
TA的排名 7w+

HBase的容错机制

一、HBase系统架构图先来认识以下HBase是如何操作数据的。读数据:Client首先向ZK发送读取数据的请求,ZK返回HRegion的元数据信息给Client,元数据信息包括数据HRgion所在的HRegionServer位置信息,数据的rowkey信息等;Client带着元数据信息请求对应的HRegionServer,HRegionServer返回...

2019-10-18 17:54:36

高效查找素数

素数:一个数如果只能被1和它本身整除,那么这个数就是素数第一版:思路:遍历[2,n)每个数,判断每个数是否是素数,判断素数的思路是一次将该数被从2到num-1整除,如果其中某个数可以整除,直接返回false,说明不是素数,如果返回true,说明是素数,所以count+=1./***统计[2,n)之间有多少个素数*@paramn*@retur...

2019-10-14 17:23:33

Log4j配置文件

#log4j.rootLogger=INFO,stdoutlog4j.rootLogger=debug,stdout,D,E#日志输出到consolelog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target=System.outlog4j.appender.st...

2019-10-13 21:09:14

SparkStreaming与SparkSql整合使用

SparkStreaming的数据是DStream的形式,本质上是RDD类型数据,而SparkSql则是DataFrame的数据类型,所以要使用DataFrame,就需要创建SparkSession会话。SparkStreaming和SparkSession的创建都会用到SparkConf,为了一致性,所以两者需要公用一个SparkConf。一、创建一个SparkSession...

2019-10-13 11:14:47

SparkStreaming黑名单过滤

一、思路1、获取黑名单数据,处理成RDD形式一般情况,黑名单数据存储在数据库里面,获取之后将每个黑名单数据处理成(blackName,true)的Tuple形式;2、接收数据,处理成(k,v)形式从数据源接收到数据之后,取出name作为key,整条数据作为value,譬如:输入数据为"20190929zhangsan18",那么处理后为(zhan...

2019-10-13 08:55:09

Spark Streaming到Mysql

packagecom.cjsimportjava.sql.DriverManagerimportorg.apache.log4j.{Level,Logger}importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apac...

2019-10-12 19:27:01

Spark Streaming消费Kafka消息的两种方式

一、Receiver方式Receiver方式,消息的offset存储在zookeeper。由Receiver维护,Receiver所扮演的角色是数据接收器。数据从Kafka传到Receiver中,Receiver将数据存储在内存或者磁盘,然后记录在容错日志文件系统中,同时将消息的offset更新到zookeeper中,元数据信息传给Driver。其使用的是Kafka高阶AP...

2019-10-10 11:33:06

Java实现双向链表

本篇介绍Java实现双向链表的peak(获取第一个节点对象)、removeFirst(删除第一个节点)、find(查找指定节点)、insertLast(从尾部插入节点)等方法。一、创建节点类packagelinkedList;/***节点类*数据有id、nextNode*nextNode用于指向下一个节点对象*/publicclassL...

2019-10-09 23:30:54

Shuffle的两种写操作

一、简介在Hadoop的MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map的输出要被使用到Reduce中必须经过Shuffle这个环节。由于Shuffle阶段涉及磁盘的读写和网络传输,因此Shuffle的性能高低直接影响到整个程序的性能和吞吐量。在MapReduce过程中,需要各个节点上的同一类数据汇集到某个节点进行计算,把这些分布在不同节点的...

2019-10-09 13:11:12

Java实现单向链表

本篇介绍Java实现单向链表的peak(获取第一个节点对象)、removeFirst(删除第一个节点)、find(查找指定节点)、remove(移除链表中指定节点对象)等方法。一、创建节点类packagelinkedList;/***节点类*数据有id、nextNode*nextNode用于指向下一个节点对象*/publicclassLi...

2019-10-09 00:16:12

Spark Streaming容错性

在一个SparkStreaming应用开始时,相关的StreamingContext使用SparkContext启动接收器Reciver成为长驻运行任务。这些接收器接收并保存流数据到Spark内存中以供处理。如上图:接收数据:BlockIntervalTimer会每隔一段时间(默认200ms)将收集到的数据打包成一个block,存储到Executor的内存或者磁盘中。如果...

2019-10-07 16:38:04

回归算法

一、概念回归分析利用样本(已知数据),产生拟合方程(根本作用),从而对未知数据进行预测。如果用自变量x和因变量y表示他们两者的关系,可以表示为:,为关系方程的参数,此外,还受到噪声(误差)的影响:如,一组随机变量,和另一组随机变量,那么研究和之间的关系的统计方法,就叫作回归分析。假设和只是一个单一的映射关系,那么又可以称之为一元回...

2019-09-11 10:08:49

LR与Sigmod函数

在使用LR时,经常用Sigmod函数来表示一个概率,为什么LR可以使用Sigmod函数呢?首先,LR的假设只有一个,就是两个类别的特征服从均值不等、方差相等的高斯分布。为什么假设它服从高斯分布?一方面,高斯分布容易理解;另一方面,从信息论的角度看,当均值和方差已知时,高斯分布是熵最大的分布。当熵分布最大时,可以平摊风险。就如二分查找法,每次都将中间作为查找点,目...

2019-09-21 20:56:29

决策树的构建

(项目地址:https://github.com/ChanKamShing/decisionTree.git)一、概念决策树可分为两类:回归决策树和分类决策树。回归决策树:对连续变量构建决策树; 分类决策树:对离散变量构建决策树。1、信息增益决策树必须涉及到一个概念,就是信息增益。信息增益又基于信息熵的知识(可参考里面关于信息熵的部分内容:htt...

2019-09-20 11:18:30

K最近邻算法

一、原理K最近邻算法(K-NearestNeighbor,KNN)是最基本的分类算法,其基本原理是:从最近的K个邻居(样本)中,选择出现次数最多的类别作为判定类别。K最近邻算法可以理解为是一个分类算法,常用于标签的预测,如性别。实现KNN算法核心的一般思路:相似度计算——计算未知样本和每个训练样本的距离; 排序——按照距离的递增关系排序; 统计标签——得到距离最...

2019-09-18 17:52:11

相似度计算

相似度计算在数据挖掘和推荐系统中有着广泛的应用场景。例如:CF协同过滤算法中,可以利用相似度计算用户之间(User-Based)或者物品之间(Item-Based)的相似度; 在利用k-means进行聚类时,判断个体所属类别,可以使用相似度计算公式计算个体到簇类中心的距离; 利用KNN进行分类时,也可以利用相似度计算个体与已知类别之间的相似性,判断个体所属的类别;1、欧式距离...

2019-09-18 07:47:37

数据离散化与Python实现

一、原理数据离散化(也称,数据分组),指将连续的数据进行分组,使其变为一段离散化的区间。根据离散化过程中是否考虑类别属性,可以将离散化算法分为:有监督算法和无监督算法。事实证明,由于有监督算法充分利用了类别属性的信息,所以再分类中能获得较高的正确率。常用的数据离散化方法:等宽分组 等频分组 单变量分组 基于信息熵分组数据离散化...

2019-09-17 11:48:27

数据标准化与Python实现

一、原理数据标准化(Normalization):将数据按照一定比例进行缩放,使其落入到一个特定的小区间。数据标准化的类别:Min-Max标准化 Z-Score标准化(StandardScore,标准分数) 小数定标(Decimalscaling)标准化 均值归一化 向量归一化 指数转换1、Min-Max标准化Min-Max标准化,指...

2019-09-16 19:09:51

LaTex数学公式语法

转发链接:https://blog.csdn.net/so_so_y/article/details/77371446下面为个人补充:希腊字母:符号 语法 符号 语法 符号 语法 符号 语法 \mu \sigma \gamma \delta \zeta \et...

2019-09-16 20:05:52

Item协同过滤(基于Python实现)

在众多召回策略里面,基于Item与基于User(可参考:https://blog.csdn.net/weixin_39400271/article/details/100052023)在实现上非常相似。所以这里使用了跟基于User协同过滤的数据u.data。u.data数据格式(user_id,item_id,rating,timestamp)实现原理:...

2019-09-04 23:20:11

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。