10 安金龙

尚未进行身份认证

目前就职于滴滴出行,从事大数据方向研究,喜欢算法、数据挖掘、机器学习

等级
TA的排名 5k+

HDFS 写流程

待写,敬请期待

2017-07-10 21:30:02

hadoop HDFS Federation

参考文档:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/Federation.html

2017-07-10 21:28:35

Hadoop partitioner及自定义partitioner

一、hadooppartitioner所有partitioner都继承自抽象类Partitioner ,实现getPartition(KEYvar1,VALUEvar2,intvar3),hadoop自带的partitioner有:(1)TotalOrderPartitioner(2)KeyFieldBasedPartitioner(3)BinaryPartiti

2017-07-10 21:06:07

Hadoop MapReduce 修改输出文件名 MultipleOutputs

需求:修改mapreduce的输出文件名称为自己想要的名字工具:MultipleOutputs默认文件名:part-r-xxx或者000178_0修改后为:自定义名字-r-xxx后边的r-xxx还没有去掉主要流程:声明multipleOutputs在setup方法中初始化在reduce方法中调用publicvoidwrite(KEYOUTkey,VALUEOUTvalue,StringbaseOutputPath)在cleanup放中close

2017-07-07 22:45:49

HBase源码分析 -- HBase Region 拆分(split)

代码版本:hbase-1.2.6工程:hbase-server类:org.apache.hadoop.hbase.regionserver.HRegion1、判断是否需要切分方法: checkSplit返回值: splitpoint做了一些判断后,其实是调用:byte[]ret=splitPolicy.getSplitPoint();2、切分策略o

2017-07-01 23:34:02

hive优化总结

1、列裁剪、分区裁剪只查询需要的字段和分区,不使用select*2、join优化小表放左边3、空值处理(1)NULL和数字相加的问题,为避免这种情况先nvl 或者coalesce 先处理(2)NULL 值关联时,可排除掉不参与关联,也可随机分散开避免倾斜4.    排序优化不需要全局排序时,可用distributebysortby  而不用

2017-06-11 11:48:22

一次hive reduce oom 处理:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTas

问题:hivejob失败,现象reduce失败,起了新的reduc而后还是失败,最终job失败错误:2017-06-07 16:43:20 INFO Examining task ID: task_*** (and more) from job job_***2017-06-07 16:43:21 INFO FAILED: Execution Error, return code

2017-06-11 11:04:22

hive2.0 存储过程 hplsql

在hive2.0中集成了hplsql,可用用hplsql命令执行存储过程。hplsql是一个开源项目,地址:http://www.hplsql.org/home,现在集成到hive2.0了。使用方式:hplsql-fscript.sqlhplsql-e"sql"hplsql-e"PRINTa||','||b"-da=Hello-db=worl

2016-08-28 10:28:14

LLAP

全称: LiveLongandProcess(LLAP)在hive2.0中添加了LLAP功能(HIVE-7926),文档jira是HIVE-9850。配置LLAP可以参考 ConfigurationProperties.中的llap部分概览在最近几年,hive的速度有了显著的提升,这要感谢社区贡献的多种特征和提升其中包括Tez和CBO,下边是我们要把h

2016-08-28 09:58:05

hive源码分析--row_number源码分析

前言row_nubmer使用说明:row_number接收到的数据是已经分区排序的数据, row_number()OVER(PARTITION BY c ORDER BY d)description=@Description(name="row_number",value="_FUNC_()-TheROW_NUMBERfunctionas

2016-08-13 19:46:54

hive源码分析--导入到eclipse

先去hive官网下载源代码,我现在阅读hive2.1.0官网: http://mirrors.cnnic.cn/apache/hive/通过importmaven工程后需要修改两个地方:1、修改.project hive-exec org.eclipse.jdt.core.javabuilder org.ecli

2016-08-13 19:30:08

java线程池ThreadPoolExecutor

importjava.util.concurrent.ArrayBlockingQueue;importjava.util.concurrent.ThreadPoolExecutor;importjava.util.concurrent.TimeUnit;publicclassThreadPoolTest{publicstaticvoidmain(String[

2016-03-26 23:03:05

清除 git 上某个文件的历史

gitfilter-branch--force--index-filter'gitrm--cached--ignore-unmatch文件名'--prune-empty--tag-name-filtercat----allgitpushoriginmaster--forcerm-rf.git/refs/original/gitreflogexpir

2016-03-26 22:53:29

Spring boot 入门 实例

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗Ctrl+B斜体Ctrl+I引用Ctrl

2016-03-26 22:49:06

Spark运行架构

基本概念:Application:用户写的spark程序DriverProgram:运行app的main()函数并创建SparkContextRDDGraph:RDD是Spark的数据结构,可以通过算子进行操作(Transformation和Action)。当RDD遇到Action算子时将之前的所有算子形成有向无环图(DAG),再在spark中转化为job提交到集群执行。一个app

2015-11-28 10:40:37

hadoop 无法查看job信息 8088无法访问

需要配置一些8088ThehttpaddressoftheRMwebapplication.yarn.resourcemanager.webapp.address${yarn.resourcemanager.hostname}:8088

2015-09-12 23:24:33

hadoop2.7配置HA,使用zk和journal

本文使用前提:从noha到ha机器分配:nn1namenode,DFSZKFailoverControllernn2namenode,DFSZKFailoverControllerslave1datanode,zookeeper,journalnodeslave2datanode,zookeeper,journalnode

2015-08-29 13:14:46

hadoop做HA后,hbase修改

由于hadoop做了HA,namenode可能进行切换,hbase中的配置要做修改:hbase-site.xml中,rootdir改为和hadoop的dfs.nameservices一样,并将hadoop的core-site.xml和hdfs-site.xml拷贝到hbase的conf下,然后重启hbasehbase.rootdirhdfs://masters/hbase

2015-08-29 12:36:39

Python 基础语法(一)

Python基础语法(一)Python的特点  1. 简单    Python是一种代表简单思想的语言。  2. 易学    Python有极其简单的语法。  3. 免费、开源    Python是FLOSS(自由/开放源码软件)之一。  4. 高层语言    使用Python编写程序时无需考虑如何管理程序使用的内存一类的底层细节。  5. 可移植性

2015-08-22 13:44:09

windows7 配置 python开发环境

1、安装python2.7  官网下载,安装,配置环境变量path,命令行运行python2、easy_install安装win764位必须使用ez_setup.py进行安装。方法是下载ez_setup.py后,在cmd下执行pythonez_setup.py,即可自动安装setuptools。下载完成后双击执行安装文件,即可在D:\ProgramFi

2015-08-22 13:42:56

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!