自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

转载 Total Order Partitioner

http://blog.csdn.net/xuefei2/article/details/51678531   博客地址就非常好!!!

2017-02-11 21:52:14 485

原创 spark的一点总结

1.要知道1个线程也是可以运行多个task的!只不过如果同时运行多个task就会出现运行一会儿这个,运行一会儿那个,这样轮流运行的情况!2.读取本地文件和hdfs文件的分区数(partition数)是不一样的!3.可以用sparkconf在setMaster之后设置并行度,也就是线程数,同时也可以设置分区数(也就是partition数量),所以会出现一个线程运行多个partition的情况

2016-12-09 15:37:07 965

原创 kafka

1.安装zk集群2.config/server.propertites添加zk地址:zookeeper.connect=node01:2181,node-02/;2181,node-03/:2181修改broker.id(唯一的):broker.id=03.启动bin/kafka-server-start.sh config/server.properties

2016-12-07 09:46:29 438

原创 sparkStreaming与storm的简单对比

1.sparkStreaming其实也是准实时的,而storm是实时的,storm是来一条处理一条,sparkstreaming是每次处理一堆数据,但是sparkstreaming的优势是吞吐量有优势!

2016-12-06 16:27:00 670

原创 Spark的cache与checkpoint优化

1.SPARK中一些通用的或者重要的RDD最好是做一个cache缓存,缓存到内存或者硬盘中,这样下次用到这个RDD数据的时候就不用从头开始计算了,直接从缓存读取即可!2由于某种原因也可能我们用cache或者Persist缓存的RDD数据,也可能会出现缓存这些数据的一部分机子突然挂掉等,如果此时还想更保险的保存该RDD的结果,最好就checkpoint一下,将checkpointDir设置为HD

2016-12-05 20:37:14 1592

原创 大数据的大公司

要想进大数据公司的大公司,他要求你的基本功要扎实,比如快速排序,二分法查找,红黑树,二叉树,单例模式,多线程,JVM都要会写!

2016-12-05 10:57:30 417

原创 Spark自定义排序

1.Spark的自定义排序只需要实现Ordered trait,T传入当前类即可,并实现里面的compare方法,并且实现Serializable trait即可!2.当然也可以用隐世转换的形式!

2016-12-05 10:07:29 366

原创 Spark分区器HashPartitioner

在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None的。注:有的时候,HashPartitioner存在 分区碰撞问题,即不同的值可

2016-12-04 22:31:33 1041

原创 Spark随记

重要:http://homePage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html上面这个网址可以学习好多spark的API函数的具体使用,简单易学!当spark程序从HDFS上读取数据时,默认是一个block生成一个分区!当然这是直接用textFile且没有指定分区的情况下,如果这里我们指定了分区那么就按照我们指定的个数

2016-12-04 21:25:01 330

转载 Spark常用函数:transformation和action

1、RDD提供了两种类型的操作:transformation和action所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDDmap(func):对调用map的RDD数

2016-12-04 18:33:46 617

转载 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可

2016-12-04 14:59:42 369

转载 Hadoop文件系统元数据fsimage和编辑日志edits

在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:1current/2|-- VERSION3|-- edits_*

2016-12-03 14:59:10 392

原创 MapReduce端的二次排序以及对移动计算而不是移动数据的理解

,1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的,所以我们的数据在硬盘上可以sort排序,而且在map执行完任务之后数据就不见了),那么当程序执行到reduce之后,reduce端shu

2016-12-02 22:28:06 8427 3

转载 scala的抽象类、抽象字段、抽象方法

1.抽象类是声明用abstract2.方法是抽象方法在抽象类中只需要定义方法,没有实现3.字段是抽象方法在抽象类中不给字段进行赋值4.代码packagecom.jn.scala.oop/** * @authoradmin */classAbstractClassOps{   varid: Int = _//使用

2016-11-22 10:24:35 1818

原创 scala入门之变量定义

看看下面这个地址中的一些说明:  https://my.oschina.net/fhd/blog/273952

2016-11-22 08:55:43 580 1

原创 nginx一些内置的变量

HTTP核心模块支持一些内置变量,变量名与apache里的对应。比如 $http_user_agent,$http_cookie等表示HTTP请求信息的变量。更多变量:$args, 请求中的参数; $content_length, HTTP请求信息里的"Content-Length"; $content_type, 请求信息里的"Content-Type"; $document

2016-11-18 10:55:40 366

原创 Hbase中的Rowkey设计原则

收藏一个地址:http://blog.csdn.net/javajxz008/article/details/51892967上面这个博客里讲到的Hbase的rowkey的设计原则还可以

2016-11-18 10:48:26 571

原创 Flume

1.在java中,类的成员变量不用初始化即可直接使用,JVM会自动初始化,原始变量如int char short long byte初始化为0,float double初始化为0.0,boolean初始化为false,对象初始化为null2.flume的关键点:source、channel、sink三个阶段!3.两个flume或者多个flume之间用Avro协议,实际上RPC协

2016-11-17 17:18:47 372

原创 电商Hadoop项目第一天

1.通过页面埋点将数据带回到服务器端!    window.navigator.userAgent可以获得浏览器,操作系统的信息!    window.navigator.language 可以获取语言信息(F12搜索)    2.通过客户端ip获取地域信息!3.ETL除了处理脏数据,还会处理ip到地域的转换4.Sdk指通过页面埋点js,或者java收集!

2016-11-17 10:52:05 2171

原创 zookeeper

1.YARN主要包括:ResourceManager,NodeManager,ApplicationMaster,Container;  MapReduce作业提交之后,在nodeManager节点首先会new 一个ApplicationMaster,然后ApplicationMaster向ResourceManager申请资源,ResourceManager将ApplicationMaste

2016-11-15 19:54:42 1470

原创 oozie

看到一篇博客感觉不错!  http://blog.csdn.net/youzhouliu/article/details/52384112============================OOZIE===========================================================  1.    • Oozie是用于 Hadoop 平

2016-11-14 17:39:45 608

原创 Impala

1.impala也支持Hive标准,即在Hive中的语句也可以在Impala中执行!2.impala可以共用hive的元数据库,impala离开hive就活不下去了,即添加一个impala服务就要添加一个hive服务13.impala是基于内存计算的,所以速度非常快,而hive是转换成MR执行,所以Impala比较耗内存,Impala有数据仓库的特性就是因为它依赖于hive特性!

2016-11-14 17:37:40 832

原创 Impala简介

收集了一篇文章:https://my.oschina.net/rosetta/blog/749927

2016-11-14 10:59:49 168

原创 HDFS+MapReduce+HBase整合

4.MapReduce+Hbase+HDFS的整合(补充):  public class WCJob {    public static void main(String[] args) throws Exception {        // 默认加载src下的配置文件        Configuration conf = new Configuration();

2016-11-10 17:37:05 449

原创 Hbase代码优化总结

========================================================================================================================1    FileInputFormat指定的输入是从HDFS上的,当然我们也可以从其它地方例如:HBASE上,或者存储单元上的数据!    Fil

2016-11-10 17:34:01 370

原创 Hbase优化

=====================================================优化======================================================Hbase默认只有一级索引,就是rowkey!如果要建立二级索引,需要自己维护!1.potocol buffers 可以序列化结构化数据!  利用protocol

2016-11-10 17:32:52 214

原创 Hbase表的设计

设计hbase表(表的查询相对于表的删除更多,所以设计表的时候要优先考虑查询)  实际上描述了:多对多的对应关系:两张表(如下:人员-角色表的设计)!1、人员-角色    1.人员有多个角色,角色优先级    2.角色有多个人员    3.人员 删除添加角色    4.角色 可以添加删除人员    5.人员 角色 删除添加     

2016-11-10 17:30:23 585

原创 iaas paas saas三种云服务区别

随着云计算的大热,向我咨询云计算相关问题的童鞋也越来越多,其中最近问的比较多的一个问题便是云计算中的pass是什么意思?整好今天有空,统一给大家解释下pass是什么意思?和Iass、Sass之间有什么区别呢?其实搞懂这个问题也不难,我们可以把云计算理解成一栋大楼,而这栋楼又可以分为顶楼、中间、低层三大块。那么我们就可以把Iass(基础设施)、Pass(平台)、Sass(软件)理解成这栋楼的三部

2016-11-09 18:50:31 24783 1

原创 Hbase简介

1.flume:离线数据处理的时候,用于收集数据!  sqoop: 完成关系型数据和非关系型数据库之间的转换(1.将最终结果都存放到关系型数据库中;2.将关系型数据库中的数据导入到非关系型数据中)!  mahout:对机器学习的算法用MapReduce来了个分布式的开源实现(分布式计算,提高效率,针对大数据量)!  2.Hbase的数据最终也是放到HDFS上!3.在Ha

2016-11-09 18:40:02 431

转载 CDH(Cloudera)与hadoop(Apache)对比

问题导读:1.hadoop有几个版本?2.CDH有几种安装方式?3.CDH在安装认证方面做了什么改变?Cloudera的CDH和Apache的Hadoop的区别  目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Includ

2016-11-08 17:47:12 292

原创 Hive入门

===================HIVE中的HQL练习=========================================================================================1.一定要考虑yum源,把它换成本地的,网络问题(公司有多个人都下载很大的文件时就有问题了),软件版本问题,都是事!2.分区可以按时间,每个月,每

2016-11-08 17:19:44 370

原创 Hadoop的一点点积累

Hadoop简单实现全排序    基础知识:    1. TeraSort思想:    关于terasort的文章很多,我没有找到那篇经典的原创。大体思想可以参看:http://hi.baidu.com/dt_zhangwei/item/c2a80032c7dbc5ff96f88dbf    我的理解:    (1)如果reducer的个数为1,那么输出一定是一个文

2016-11-08 14:10:12 216

原创 Hive简介及安装

======================================================================Hive================================================================================================= 1.数据库存储业务数据,而数据仓库存储的是历史数

2016-11-08 14:09:26 224

原创 ElasticSearch大概(不全,还需努力)

1.ElasticSearch可以 处理上亿甚至是几十亿、几百亿的搜索问题!底层基于luncene,但是它是实时,分布式的!luncene也就几百万的搜索数据量就慢了!2.关系型数据库也就存储几千万数据就差不多很慢了!3.搜索集群基本上就是ES(ElasticSearch)!4.一份url对应一个资源,你只要返回一个json,或者xml格式的数据返回给我,它不依赖于我的程序是否

2016-11-08 07:58:05 601

原创 MR 代码优化及Hive优化(Hive中的存储格式与压缩格式)

请百度:MapReduce的压缩优化,看看别人的博客!如:http://blog.csdn.net/erli11/article/details/40396257http://www.cnblogs.com/zhengrunjian/p/4527269.html

2016-11-05 20:41:47 460

原创 Luncene、solr浅析

1.SQL语句like会锁表,超过几万甚至几十万的时候就很慢,大数据支持差!lucene应运而生,当有几十亿的时候,就要用ElasticSearch!2.不用Lucene的时候,我们的HTTP请求到达web项目,web项目如果直接调用后台数据库,后台数据库就会直接进行like查询,它会利用正则表达式进行从上到下的匹配!  用了Luncene之后,它给你建立起了倒排索引,先建立索引(对词

2016-11-04 19:34:26 1049

原创 MapReduce融会贯通版

===================================================================================================================  经过自己反复验证:终于搞通了MapReduce的工作流程!  MapReduce的工作流程:  Mapper中的Map方法------>Par

2016-11-03 13:46:32 229

原创 MapReduce的注意点

20.ResourceManager的高可用也是用ZKFC实现的?不是,ResourceManager的高可用是靠zookeeper来实现的!   ZKFC只是在处理NameNode的高可用的时候用到了,没有在ResourceManager的高可用的时候用到!1.writable接口:序列化和反序列化的接口!  Comparable接口:排序的接口:排序和分组归根结底都是比较!

2016-11-02 17:59:35 933

原创 HDFS2.X的HA+Resourcemanager的HA

21.           NN     DN     JN    ZK    ZKFC   RS   NM(NodeManager)node1   1                           1       1node2   1     1        1         1       1                    1node3        

2016-11-02 09:55:12 210

原创 HDFS的Federation以及HA+YARN+ResourceManagerHA

1.Hadoop 1.x存在两个问题:           HDFS存在的问题:NameNode的内存受限,压力过大,影响系统拓展性;以及NameNode的单点故障问题,难以应用于在线场景!            MapReduce存在问题:                      2. Hadoop 2.0产生背景    – Hadoop 1.0中HDFS和MapRed

2016-11-01 18:24:04 747

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除