11 baiyangfu

尚未进行身份认证

我要认证

富贵有定数,学问则无定数。求一分,便得一分。一个大牛说的,共勉

等级
TA的排名 1w+

kafka 日常操作

做个备忘1、启动  daemon方式          sudo -ukafka bin/kafka-server-start.sh -daemon config/server.properties2、关闭          sudo -ukafka bin/kafka-server-stopsh3、创建topic          bin/kafka-topics

2017-10-26 12:03:02

hadoop ipc server 分析

最近遇见namenode 响应时间变慢,分析一下namenode 的 ipc server源码,记录一下ipc server的机制

2017-10-25 20:30:37

hadoop2.2.0 balance机制总结

最近在搞balance优化,借此机会,整理总结一下balance的机制。

2017-10-24 20:18:22

hive 模拟update 操作

在使用hive构建数据仓库的时候,经常会遇到从mysql或者oracle数据导入到hive中。一般情况下,每天导一次数据,有些数据需要更新操作,最典型的例子就是订单数据,比如:订单创建时间订单导入hive时间订单更新时间2015-07-01 12:09:112015-07-02 00:30:002015-07-02 20:07:12

2015-07-13 19:55:52

hive 使用心得

1、遇到内存不够怎么办一般情况下是reduce端内存溢出,设置以下参数:         set mapreduce.reduce.java.opts=-Xmx10000M; set mapreduce.reduce.memory.mb=10000; set mapreduce.reduce.tasks=64;2、遇到异常数据,比如

2015-04-15 19:28:58

scala fold系列函数及 sparkRDD fold 操作解析

scala 的fold系列 函数用起来比较方便,这里对比总结一下。foldfold 的定义:def fold[A1 >: A](z: A1)(op: (A1, A1) => A1): A1foldLeftfoldLeft 的定义:def foldLeft[B](z: B)(op: (B, A) => B): BfoldRightfold

2014-12-19 11:48:02

spark sql udf 解析json数据表的嵌套数组

使用spark sql 的时候,加载json数据作为表的基础数据。发现其中的json数据中有些字段对应的是一个嵌套数组:{“schema1”:"hello",“schema2” : [ {"a":1","b":"11"}, {“a”:"2","b":"22"}…… ]将json数据加载到spark sql 中:val sqlContext = new org.apache.spark.

2014-12-15 19:03:00

深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却

2014-11-20 18:29:02

hadoop streaming python 处理 lzo 文件遇到的问题

一个小需求,不想写java的mapreduce的程序,想用streaming + python 处理一下

2014-11-18 16:03:49

感知机学习算法——统计学习方法笔记,代码实现

看了李航博士的《统计学习算法》,做一个笔记,

2014-11-17 18:14:28

SVM-支持向量机算法概述

(一)SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accu

2014-11-13 11:06:56

贝叶斯学习,spark mlib 朴素贝叶斯使用

贝叶斯算法属于监督类机器学习算法,他的原理很简单,但是他的用处很

2014-11-11 18:49:21

spark 配置整理

spark 的配置有很多,这里一方面总结一下官方文档中的内容,一方面

2014-10-28 20:32:37

执行spark sql 遇到的问题

总结一下执行spark sql遇到的问题:没

2014-10-23 20:33:18

vc维

转于:http://blog.csdn.net/carson2005/article/details/6453098为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛的速度,统计学习理论定义了一系列有关函数集学习性能的指标,它们包括:随机熵、VC熵、退火的VC熵、生长函数、VC维等。尽管随机熵、VC熵、退火的VC熵、生长函数等在统计学习理论的发展过程中起到了一定的作用,但由于

2014-10-10 17:53:23

spark 几种transformation 的计算逻辑和测试

1、union(otherRDD)      union() 与mysql中的union 操作类型,

2014-10-10 16:52:35

hbase0.98 源码分析-读数据流程

我们的客户端程序读取数据(以get为例)

2014-09-26 16:30:47

hbase 高频插入实践

最近遇到hbase高频插入的需求,有些注意的点简单记录一下:1、

2014-09-17 19:56:10

hbase replication 原理

查看文档,分析了一下 hbase replication的原理,简单

2014-08-19 15:25:17

hbase coprocessor 实践:observer

hbase 的 coprocessor分为observer和endpoint两种方式,具体的区别和应用场景

2014-07-25 20:58:58

查看更多

勋章 我的勋章
    暂无奖章