baiyangfu-CSDN博客

原创 kafka 日常操作

做个备忘1、启动 daemon方式 sudo -ukafka bin/kafka-server-start.sh -daemon config/server.properties2、关闭 sudo -ukafka bin/kafka-server-stopsh3、创建topic bin/kafka-topics

2017-10-26 12:03:02 464

原创 hadoop ipc server 分析

最近遇见namenode 响应时间变慢，分析一下namenode 的 ipc server源码，记录一下ipc server的机制

2017-10-25 20:30:37 6214

原创 hadoop2.2.0 balance机制总结

最近在搞balance优化，借此机会，整理总结一下balance的机制。

2017-10-24 20:18:22 1248

原创 hive 模拟update 操作

在使用hive构建数据仓库的时候，经常会遇到从mysql或者oracle数据导入到hive中。一般情况下，每天导一次数据，有些数据需要更新操作，最典型的例子就是订单数据，比如：订单创建时间订单导入hive时间订单更新时间2015-07-01 12:09:112015-07-02 00:30:002015-07-02 20:07:12

2015-07-13 19:55:52 5118

原创 hive 使用心得

1、遇到内存不够怎么办一般情况下是reduce端内存溢出，设置以下参数： set mapreduce.reduce.java.opts=-Xmx10000M; set mapreduce.reduce.memory.mb=10000; set mapreduce.reduce.tasks=64;2、遇到异常数据，比如

2015-04-15 19:28:58 1327

原创 scala fold系列函数及 sparkRDD fold 操作解析

scala 的fold系列函数用起来比较方便，这里对比总结一下。foldfold 的定义：def fold[A1 >: A](z: A1)(op: (A1, A1) => A1): A1foldLeftfoldLeft 的定义：def foldLeft[B](z: B)(op: (B, A) => B): BfoldRightfold

2014-12-19 11:48:02 7077

原创 spark sql udf 解析json数据表的嵌套数组

使用spark sql 的时候，加载json数据作为表的基础数据。发现其中的json数据中有些字段对应的是一个嵌套数组：{“schema1”:"hello"，“schema2” : [ {"a":1"，"b":"11"}, {“a”:"2","b":"22"}…… ]将json数据加载到spark sql 中：val sqlContext = new org.apache.spark.

2014-12-15 19:03:00 7134

转载深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却

2014-11-20 18:29:02 1536

原创 hadoop streaming python 处理 lzo 文件遇到的问题

一个小需求，不想写java的mapreduce的程序，想用streaming + python 处理一下

2014-11-18 16:03:49 3803

原创感知机学习算法——统计学习方法笔记，代码实现

看了李航博士的《统计学习算法》，做一个笔记，

2014-11-17 18:14:28 1598

转载 SVM-支持向量机算法概述

（一）SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accu

2014-11-13 11:06:56 1030

原创贝叶斯学习，spark mlib 朴素贝叶斯使用

贝叶斯算法属于监督类机器学习算法，他的原理很简单，但是他的用处很

2014-11-11 18:49:21 4980 2

原创 spark 配置整理

spark 的配置有很多，这里一方面总结一下官方文档中的内容，一方面

2014-10-28 20:32:37 4364

原创执行spark sql 遇到的问题

总结一下执行spark sql遇到的问题：没

2014-10-23 20:33:18 12551 1

转载 vc维

转于：http://blog.csdn.net/carson2005/article/details/6453098为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛的速度，统计学习理论定义了一系列有关函数集学习性能的指标，它们包括：随机熵、VC熵、退火的VC熵、生长函数、VC维等。尽管随机熵、VC熵、退火的VC熵、生长函数等在统计学习理论的发展过程中起到了一定的作用，但由于

2014-10-10 17:53:23 1410

原创 spark 几种transformation 的计算逻辑和测试

1、union(otherRDD) union() 与mysql中的union 操作类型，

2014-10-10 16:52:35 5477

原创 hbase0.98 源码分析-读数据流程

我们的客户端程序读取数据（以get为例）

2014-09-26 16:30:47 2757

原创 hbase 高频插入实践

最近遇到hbase高频插入的需求，有些注意的点简单记录一下：1、

2014-09-17 19:56:10 3566

原创 hbase replication 原理

查看文档，分析了一下 hbase replication的原理，简单

2014-08-19 15:25:17 6363 1

原创 hbase coprocessor 实践：observer

hbase 的 coprocessor分为observer和endpoint两种方式，具体的区别和应用场景

2014-07-25 20:58:58 3795

原创 spark 1.0 安装

最近忙其他的工作，多日已经不弄spark，发现最新版本

2014-07-11 12:11:14 1372

原创 google protobuf 编程学习

最近分析hbase源码，其中用到google protobuf来作为消息

2014-07-04 14:18:35 1075

原创 maven 编译 spark1.0.0

首先，下载源码：

2014-06-20 20:44:48 1375

转载 shark 简介

1、shark 是什么？

2014-04-17 12:04:15 4352

原创 shark 安装遇到的问题

shark官网：http://shark.cs.berkeley.edu/

2014-04-15 18:59:12 5748 7

原创 spark 编程学习

众所周知，spark编程中最重要的的rdd，关于rdd

2014-04-11 20:02:31 1523

转载 Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象

本文是阅读《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》过程中，抽了局部一些关注点翻译出来的文章，没有将全文都翻译。希望这些碎片化甚至不通顺的记录，可以帮助读者取代阅读原论文。论文地址http://www.cs.berkeley.edu/~matei/p

2014-04-11 15:15:20 1182

原创 spark任务error 一例

14/04/10 20:07:13 INFO ui.SparkUI: Started Spark Web UI at http://hadoop01:5929914/04/10 20:07:13 ERROR spark.SparkContext: Error adding jar (java.io.FileNotFoundException: wordcount.jar (没有那个文件或目录))

2014-04-10 20:10:16 1853 2

原创 java nio 笔记

最近工作中用到了java nio的知识，总结一下。先发一个师兄的总结文章，再根据遇到的问题写一下自己的心得。亮亮师兄的 java nio 四篇文章：java nio （1）java nio （2）java nio （3）java nio （4）

2014-02-12 11:54:09 995

原创 java7 新特性

1、语法糖：数字中的下划线：比如 int a=100_000_000; 能让比较大的数字看起来更清晰二进制文本： java7可以直接使用二进制数字，比如用二进制表示十进制的102，java7之前需要这样写： int x = Integer.parseInt("1100110",2); 现在可以写成： int

2014-01-20 22:43:27 1129

转载 hbase 调优

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer

2013-12-27 17:23:04 1030 1

原创 hadoop2.2.0 和 hbase0.94.12 平台使用phoenix

phoenix使hbase的数据可以通过sql语句进行操作，提供查询对话框和类jdbc的java中间件，非常方便。phoenix 的wiki：https://github.com/forcedotcom/phoenix/wikiphoenix的github：https://github.com/forcedotcom/phoenix目前，phoenix不支持hbase0.96版本，推荐

2013-12-26 15:42:48 3055 5

转载 hbase 常用操作

转自：http://blog.csdn.net/kirayuan/article/details/8646517一，基本命令：建表：create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如：create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => '

2013-12-25 14:50:31 1018

原创 BDTC 参会总结

今天有幸能参加大数据技术会议，感受国内外的前沿技术，感觉很兴奋。来回跑了几个会场，听了11个议题，简单做个总结，做个记录，也希望能对没有参加会议的技术朋友有点帮助。带着相机去的，我所看到的ppt都有照片，有的没有听全，所以有点小缺陷。1、Hbase and HOYA 这个是Hortonworks的工程师 Ted Yu（很著名）做的演讲，去的时候已经讲了十几分钟。国外的大数据公司还是很有

2013-12-07 00:08:20 1705 1

原创 hive 元数据升级

hadoop集群升级到HA模式，core-site.xml 的配置：fs.defaultFS 会变成 hdfs://clusterid 的形式，与之前的 hdfs://{namenode hostname} 的形式有很大的区别。而对于hive旧的matadata，表的存储路径还是hdfs://{namenode hostname} 会造成，从hdfs上load到表的时候出现类似问题：

2013-12-05 11:41:21 4022 3

原创 hadoop2.2.0 的fairscheduler 遇到的一个问题

在使用hadoop2.2.0 的 fairscheduler的时候，出现了下面的一个问题：当多个客户端提交任务的时候，发现生成的appatempt 没有进入fairscheduler的 eventQueue，导致fairscheduler没有对该任务进行调度，而当am向scheduler请求这个作业的信息时，出现下面的问题，而且是打了很多这样的log：2013-11-27 14:27:02

2013-11-28 16:30:38 4797

转载 static class 静态类（Java）

转自： http://klcwt.iteye.com/blog/452834一般情况下是不可以用static修饰类的。如果一定要用static修饰类的话，通常static修饰的是匿名内部类。在一个类中创建另外一个类，叫做成员内部类。这个成员内部类可以静态的（利用static关键字修饰），也可以是非静态的。由于静态的内部类在定义、使用的时候会有种种的限制。所以在实际工作中用到的并

2013-11-28 11:35:53 1009

转载 hive 自带 function

hive 自带了很多函数，从网上搜集了一些，总结一下。主要的资料来源：http://www.oratea.net/?cat=15&paged=2hive 的自带函数LIKE比较: LIKE语法: A LIKE B操作类型: strings描述: 如果字符串A或者字符串B为NULL，则返回NULL；如果字符串A符合表达式B的正则语法，则为TRUE

2013-11-22 18:52:49 4279

原创 hive 优化遇到的一个问题：hive.auto.convert.join

hive的join 有一种优化的方式：map join但是，使用这种优化的时候要小心一点，先说一下优化配置的参数：set hive.optimize.correlation=trueset hive.auto.convert.join=true当运行一个比较大的join时候，出现了下面的问题：at org.apache.hadoop.hive.ql.exec.MapOperato

2013-11-21 17:29:34 16701

原创 hadoop2.0 ha failover 遇到的问题

最近在测试hadoop2.0 的ha，当failover的时候，standby namenode 会同步active namenode的edit日志。如果edit文件比较多的时候，standby namenode会频繁的访问journalnode，由于没有同步带宽没有限制，standby namenode会将journalnode的带宽占完，导致active namenode 无法访问jour

2013-11-15 20:11:27 3024

Data Science for Business

空空如也