51_big_data-CSDN博客

原创 Hadoop深度分析

1、HDFS写文件过程分析http://shiyanjun.cn/archives/942.html2、Hadoop Pipeline详解http://dj1211.com/?p=1783、Hadoop深入学习：解析HDFS的写文件流程http://flyingdutchman.iteye.com/blog/19005364、HDFS 1. 读写流程剖析https://www.jia...

2019-02-25 18:01:27 226

原创大数据学习网站

https://www.iteblog.com/

2019-01-23 18:02:47 248

原创 Cloudera Manager离线部署CDH

一、说明操作系统：CentOS 6JDK版本：1.7.0_80所需安装包及版本说明：CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcelCDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel.shamanifest.jsoncloudera-manager-el6-cm5.4.3_x86_64.tar.gzCloudera Manager下...

2019-01-15 19:07:03 271

原创 lucene

1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架，而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么：本质就是给搜索内容定位要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，就是你给它若干个...

2019-01-15 16:59:41 505

原创 hive和hbase整合

hive和hbase同步https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration1、把hive中的lib下的hive-hbase-handler-1.2.1.jar cp到hbase/lib 下同时把hbase中的lib下的所有的jar，cp到hive/lib2、在hive的配置文件增加属性： hive-site....

2019-01-14 13:03:06 220

原创 Sqoop

Sqoop:将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具官网：http://sqoop.apache.org/版本：（两个版本完全不兼容，sqoop1使用最多）sqoop1：1.4.xsqoop2：1.99.x同类产品DataX：阿里顶级数据交换工具sqoop架构非常简单，是hadoop生态系统的架构最简单的框架。sqoop1...

2019-01-14 12:43:30 125

原创 Yarn

YARNMRv2：On YARNYARN：解耦资源与计算ResourceManager主，核心集群节点资源管理NodeManager与RM汇报资源管理Container生命周期计算框架中的角色都以Container表示Container：【节点NM，CPU,MEM,I/O大小，启动命令】默认NodeManager启动线程监控Container大小，超出申请资源额度，kill...

2019-01-13 17:04:49 120

原创 Flume

http://flume.apache.org/安装1、上传2、解压3、修改conf/flume-env.sh 文件中的JDK目录注意：JAVA_OPTS 配置如果我们传输文件过大报内存溢出时需要修改这个配置项4、验证安装是否成功 ./flume-ng version5、配置环境变量export FLUME_HOME=/home/apache-flume-1.6.0-b...

2019-01-13 15:33:51 81

原创分布式文件系统HDFS

Hadoop-HDFS存储模型：字节文件线性切割成块（Block）:偏移量 offset （byte）Block分散存储在集群节点中单一文件Block大小一致，文件与文件可以不一致Block可以设置副本数，副本分散在不同节点中副本数不要超过节点数量文件上传可以设置Block大小和副本数已上传的文件Block副本数可以调整，大小不变只支持一次写入多次读取，同一时刻只有一个写入者...

2019-01-12 20:02:48 249

MR原语：输入(格式化k,v)数据集map映射成一个中间数据集(k,v)reduce“相同”的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算排序比较遍历计算为什么叫MapReduce：MapTask &amp;amp;amp; ReduceTaskblock &amp;amp;gt; split1:1N:11:Nsplit &amp;amp;gt; map1:1map &a

2019-01-12 19:23:06 168

原创 Hive中metastore的三种方式区别和搭建

Hive中metastore（元数据存储）的三种方式：a)内嵌Derby方式b)Local方式c)Remote方式1.本地模式（derby）这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration....

2019-01-12 08:39:16 913 1

原创 Hive优化

Hive 优化核心思想：把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain 显示执行计划EXPLAIN [EXTENDED] queryHive运行方式：本地模式集群模式本地模式开启本地模式：set hive.exec.mode.local.auto=true...

2019-01-11 11:43:49 98

原创 Hive

Hive简介Hive的产生：非java编程者对hdfs的数据做mapreduce操作Hive : 数据仓库。Hive：解释器，编译器，优化器等。Hive 运行时，元数据存储在关系型数据库里面。Hive架构Hive的架构（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连...

2019-01-11 11:04:43 227

原创 HBase性能优化方法总结

表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。有关预分...

2019-01-10 11:40:49 134

原创 HBase

Hbase简介Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）HBase 数据模型ROW KEY决定一行数据按照字典...

2019-01-10 11:26:05 97

原创 Kafka

1.kafka是什么？使用场景？kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。2.kafka生产消息、存储消息、消费消息Kafka架构是由producer（消息生产者）、consumer（消息消费者）、borker(kafka集群的server，...

2019-01-09 12:45:34 94

原创 SparkStreaming+Kafka

1.receiver模式receiver模式原理图receiver模式理解：在SparkStreaming程序运行起来后，Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改。receiver task对接收过来的数据进行存储和备份，这个过程会有节点之间的数据传输。备份完成后...

2019-01-09 12:34:00 98

原创 SparkStreaming

1.SparkStreaming简介SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数...

2019-01-09 11:56:21 154

原创 SparkSQL

1.SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shar...

2019-01-08 18:35:26 102

原创 Spark调优

1.资源调优 1).搭建集群在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2).提交任务的时候提交命令选项：（在提交Application的时候使用选项） --executor-cores --executor-memory...

2019-01-08 12:49:55 84

原创 Standalone模式两种提交任务方式和Yarn模式两种提交任务方式

1.Standalone-client提交任务方式提交命令./spark-submit–master spark://node1:7077–class org.apache.spark.examples.SparkPi…/lib/spark-examples-1.6.0-hadoop2.6.0.jar1000或者./spark-submit–master spark://node...

2019-01-08 12:40:13 340

原创术语解释

2019-01-08 09:23:18 138

原创窄依赖和宽依赖

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。宽窄依赖图理...

2019-01-08 09:21:34 156

原创历史日志服务器与Master HA

1.配置historyServer临时配置，对本次提交的应用程序起作用./spark-shell --master spark://node1:7077–name myapp1–conf spark.eventLog.enabled=true–conf spark.eventLog.dir=hdfs://node1:9000/spark/test停止程序，在Web Ui中Complet...

2019-01-07 20:02:13 157

原创广播变量和累加器

1.广播变量广播变量理解图广播变量使用val conf = new SparkConf()conf.setMaster(“local”).setAppName(“brocast”)val sc = new SparkContext(conf)val list = List(“hello xasxt”)val broadCast = sc.broadcast(list)val li...

2019-01-07 19:29:35 177

原创二次排序与分组取TopN

二次排序SparkConf sparkConf = new SparkConf().setMaster(“local”).setAppName(“SecondarySortTest”);final JavaSparkContext sc = new JavaSparkContext(sparkConf);JavaRDD secondRDD = sc.textFile(“secondSor...

2019-01-07 18:50:14 198

原创资源调度源码分析和任务调度源码分析

1.资源调度源码分析资源请求简单图资源调度Master路径：路径：spark-1.6.0/core/src/main/scala/org.apache.spark/deploy/Master/Master.scala提交应用程序，submit的路径：路径：spark-1.6.0/core/src/main/scala/org.apache.spark/ deploy/SparkSu...

2019-01-07 15:00:01 235

原创 Stage

StageSpark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。stage是由一组并...

2019-01-07 12:46:07 121

原创 Spark资源调度和任务调度

Spark资源调度和任务调度Spark资源调度和任务调度的流程：启动集群后，Worker节点会向Master节点汇报资源情况，Master掌握了集群资源情况。当Spark提交一个Application后，根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后，Spark会在Driver端创建两个对象：DAGScheduler和TaskScheduler，DAGS...

2019-01-07 12:31:59 98

原创 SparkShuffle

1.SparkShuffle概念reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是&lt;key,value&gt;对的形式，这样每一个key对应一个聚合起来的value。问题：聚合之前，每一个key对应的value不一定都是在一个partition中，也不太可能在同一个节点上，因为RDD是分布式的弹性的数据集，R...

2019-01-07 10:58:13 199 1

原创 Spark算子

Spark算子总结1.Transformations转换算子：概念：Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。Transformation类算子：filter过滤符合条件的记录数，true保留，false过滤掉。map将一个RDD中的每个数据项...

2019-01-06 18:39:34 169

qq_20174285的博客