3 ChanKamShing

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 6w+

Idea使用SVN提交报错:“svn: Commit blocked by pre-commit hook (exit code 1) with output: Can't get Mantis_K”

出现这种情况一般是两种原因和解决办法:1,提交的注释必须要按照固定的格式,这只能问公司的同事了2,可能是提交的注释字符长度不够,这样就需要麻烦把这次提交的内容说的详细一点了.点开右下角的“Event Log”:提示信息说Log信息不可为空,并且大于4个字符,这里说的Log Message指的是commit注释信息,所以提交的时候,添加上就可以。...

2020-01-15 17:49:32

数据结构——二叉树

一、基本概念二叉树:每个节点最多有两个子树的结构; 满二叉树:除了最后一层没有任何节点外,每一层的所有节点都有两个子节点的二叉树; 完全二叉树:结构与满二叉树类似,不同点在于最后一层可以不满,但最后一层的节点必须连续集中再最左边; 二叉搜索树:各节点的值有大小要求的二叉树,左节点的值<中节点的值<右节点的值。二、树的存储方式1、数组形式 使用数组存储,...

2019-12-20 12:14:37

Hive中的各种存储格式的区别

hive包含的文件存储格式有:textFile、SequenceFile、RCfile、ORCFile,parquet。textFile: 默认的文件格式,行存储。 优点:最简单的数据格式,便于和其它工具(pig,grep,awk)共享数据,便于查看和编辑;加载快; 缺点:存储空间占用较大,I/O性能低;不可对数据进行切割、...

2019-11-16 13:24:19

CF中User-Based与Item-Based的区别

先来了解以下两者的实现思路:User-Based算法基本思路:找到与目标用户购买过相(同)类似商品的用户,作为相似用户; 得到相似用户评价很高的,并且目标用户没有评分过(购买过)的Item,并推荐给目标用户;Item-Based算法基本思路:计算目标用户评分过(购买过)的Item与其他Item的相似度; 根据目标用户的历史行为和物品的相似度,为目标用户生成推荐列表; ...

2019-11-05 12:53:46

在线实验——ABTest

ABTest是为了确认两种方案中哪一种方案更适合。原理,让一部分用户使用A方案,另一部分用户使用B方案,记录下两部分用户的反馈情况,然后根据相应的指标确认A,还是B更适合。 在推荐系统中,为了对比不同的算法、不同数据集对最终结果的影响,通过一定的规则将用户随机分成几组,并对不同组才去不同的召回或推荐算法,最终通过不同组的用户的各种评估指标来对比分析。基本流程:...

2019-11-05 12:01:55

HDFS的读写过程

一、HDFS的写过程 Client节点,调用create方法创建DistributedFileSystem对象,然后向NameNode发送写请求,NameNode允许之后,返回DataNode节点信息给Client节点,接着Client调用write方法,创建FSDataOutputStream对象,根据NameNode返回的DataNode节点信息,开始向指定的DataNo...

2019-10-28 12:10:31

Spark的Yarn CLuster与Yarn Client区别

一、Yarn Cluster模式二、Yarn Client模式 对比两种模式的架构图,可以看出,两者的本质区别:AM进程的区别。 Cluster模式下,driver运行在AM中,负责向Yarn(RM)申请资源,并监督Application的运行情况,当Client(这里的Client指的是Master节点)提交作业后,就会关掉Client,作业会继续...

2019-10-24 14:36:12

HBase的容错机制

一、HBase系统架构图 先来认识以下HBase是如何操作数据的。 读数据:Client首先向ZK发送读取数据的请求,ZK返回metaData表所在的HRegionServer的元数据信息给Client,Client到metaData表所在的HRegionServer请求数据的元数据信息,包括数据HRgion所在的HRegionServer位置信息,数据的r...

2019-10-18 17:54:36

高效查找素数

素数:一个数如果只能被1和它本身整除,那么这个数就是素数第一版:思路:遍历[2,n)每个数,判断每个数是否是素数,判断素数的思路是一次将该数被从2到num-1整除,如果其中某个数可以整除,直接返回false,说明不是素数,如果返回true,说明是素数,所以count+=1./** * 统计[2,n)之间有多少个素数 * @param n * @retur...

2019-10-14 17:23:33

Log4j配置文件

# log4j.rootLogger=INFO,stdoutlog4j.rootLogger = debug,stdout,D,E# 日志输出到consolelog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender.st...

2019-10-13 21:09:14

SparkStreaming与SparkSql整合使用

SparkStreaming的数据是DStream的形式,本质上是RDD类型数据,而SparkSql则是DataFrame的数据类型,所以要使用DataFrame,就需要创建SparkSession会话。SparkStreaming和SparkSession的创建都会用到SparkConf,为了一致性,所以两者需要公用一个SparkConf。一、创建一个SparkSession...

2019-10-13 11:14:47

SparkStreaming黑名单过滤

一、思路1、获取黑名单数据,处理成RDD形式 一般情况,黑名单数据存储在数据库里面,获取之后将每个黑名单数据处理成(blackName,true)的Tuple形式;2、接收数据,处理成(k,v)形式 从数据源接收到数据之后,取出name作为key,整条数据作为value,譬如:输入数据为"20190929zhangsan 18",那么处理后为(zhan...

2019-10-13 08:55:09

Spark Streaming到Mysql

package com.cjsimport java.sql.DriverManagerimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apac...

2019-10-12 19:27:01

Spark Streaming消费Kafka消息的两种方式

一、Receiver方式 Receiver方式,消息的offset存储在zookeeper。由Receiver维护,Receiver所扮演的角色是数据接收器。数据从Kafka传到Receiver中,Receiver将数据存储在内存或者磁盘,然后记录在容错日志文件系统中,同时将消息的offset更新到zookeeper中,元数据信息传给Driver。其使用的是Kafka高阶AP...

2019-10-10 11:33:06

Java实现双向链表

本篇介绍Java实现双向链表的peak(获取第一个节点对象)、removeFirst(删除第一个节点)、find(查找指定节点)、insertLast(从尾部插入节点)等方法。一、创建节点类package linkedList; /** * 节点类 * 数据有id、nextNode * nextNode用于指向下一个节点对象 */public class L...

2019-10-09 23:30:54

Shuffle的两种写操作

一、简介 在Hadoop的MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map的输出要被使用到Reduce中必须经过Shuffle这个环节。由于Shuffle阶段涉及磁盘的读写和网络传输,因此Shuffle的性能高低直接影响到整个程序的性能和吞吐量。在MapReduce过程中,需要各个节点上的同一类数据汇集到某个节点进行计算,把这些分布在不同节点的...

2019-10-09 13:11:12

Java实现单向链表

本篇介绍Java实现单向链表的peak(获取第一个节点对象)、removeFirst(删除第一个节点)、find(查找指定节点)、remove(移除链表中指定节点对象)等方法。一、创建节点类package linkedList;/** * 节点类 * 数据有id、nextNode * nextNode用于指向下一个节点对象 */public class Li...

2019-10-09 00:16:12

Spark Streaming容错性

在一个Spark Streaming应用开始时,相关的StreamingContext使用SparkContext启动接收器Reciver成为长驻运行任务。这些接收器接收并保存流数据到Spark内存中以供处理。如上图:接收数据:BlockIntervalTimer会每隔一段时间(默认200ms)将收集到的数据打包成一个block,存储到Executor的内存或者磁盘中。如果...

2019-10-07 16:38:04

回归算法

一、概念 回归分析利用样本(已知数据),产生拟合方程(根本作用),从而对未知数据进行预测。 如果用自变量x和因变量y表示他们两者的关系,可以表示为:,为关系方程的参数,此外,还受到噪声(误差)的影响: 如,一组随机变量,和另一组随机变量,那么研究和之间的关系的统计方法,就叫作回归分析。假设和只是一个单一的映射关系,那么又可以称之为一元回...

2019-09-11 10:08:49

LR与Sigmod函数

在使用LR时,经常用Sigmod函数来表示一个概率,为什么LR可以使用Sigmod函数呢? 首先,LR的假设只有一个,就是两个类别的特征服从均值不等、方差相等的高斯分布。为什么假设它服从高斯分布?一方面,高斯分布容易理解;另一方面,从信息论的角度看,当均值和方差已知时,高斯分布是熵最大的分布。当熵分布最大时,可以平摊风险。就如二分查找法,每次都将中间作为查找点,目...

2019-09-21 20:56:29

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。