大跃ET-CSDN博客

原创【spark 源码】Spark2.4.6 RDD stage划分源码解析

以wordcount代码为例解析Spark RDD stage划分源码程序代码: System.setProperty("hadoop.home.dir","C:\\hadoop") val sparkConf = new SparkConf().setMaster("local").setAppName("wordCount") sparkConf.set("spark.network.timeout","600") sparkConf.set("spark.ex

2020-08-21 18:25:44 206

转载关于KAFKA OFFSET的存储位置问题

注意：从kafka-0.9版本及以后，kafka的消费者组和offset信息就不存zookeeper了，而是存到broker服务器上，所以，如果你为某个消费者指定了一个消费者组名称（group.id），那么，一旦这个消费者启动，这个消费者组名和它要消费的那个topic的offset信息就会被记录在broker服务器上1.概述Kafka版本[0.10.1.1]，已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实，早在 0.8.2.

2021-08-04 10:10:46 4160

转载 Hadoop所支持的几种压缩格式

1 gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。缺点：不支持split。应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件，运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序，streaming程序，和java写

2021-07-01 14:54:22 1711

转载合伙人（GP）有限合伙人（LP）是什么意思？

一、首先是GP，LP普通合伙人（General Partner，GP）：大多数时候，GP，LP是同时存在的。而且他们主要存在在一些需要大额度资金投资的公司里，比如私募基金（PE，Private Equity），对冲基金（Hedge Fund），风险投资（Venture Capital）这些公司。你可以简单的理解为GP就是公司内部人员。话句话说，GP是那些进行投资决策以及公司内部管理的人。举个例子：现在投资公司A共有GP1，GP2，GP3，GP4四个普通合伙人，他们共同拥有投资公司A的100％股份。因

2021-04-29 10:15:41 22307

转载 git学习(九) idea git stash操作

在前面说过，git stash 命令的作用就是将目前还不想提交的但是已经修改的内容进行保存至堆栈中，后续可以在某个分支上恢复出堆栈中的内容；git stash 作用的范围包括工作区和暂存区中的内容，没有提交的内容都会保存至堆栈中；例如突然线上出现 bug，我们需要先切换到 master 分支，但当前分支的代码没有提交，直接切换分支，会将当前分支的新增的代码也会增加到 master 分支，而代码又不能此时 commit ，于是这时候就可以使用 git stash ； git stash 代码暂存　

2021-04-23 15:53:33 2462

转载 git学习(十) idea git reset 操作

git reset 是回滚操作，在 idea 中使用如下：　　　　　　　　　　　　　　　　　　　　　　　　Reset Type 有三种： Mixed 默认方式，只保留源码，回退 commit 和 index 信息 Soft 回退到某个版本，只回退了 commit 的信息，之前写的代码还是保留的，不会恢复到 index file 一级。如果还要提交，直接 commit Hard 彻底回退，本地源码也会变成上一个版本内容，不保留之前 commit 的代码...

2021-04-23 15:51:46 745

转载 Hadoop的元数据治理--Apache Atlas0.8

Hadoop的元数据治理--Apache AtlasApache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。Apache Atlas目前是Apache下的孵化项目，最新版本为Apache Atlas 0.8:本文将分以下部分为大家介绍Atlas的架构和核心功能：－概述－核心特性－架构与组件－部署与配置－类.

2021-04-14 11:55:13 587

转载什么是主数据

2021-04-13 16:02:57 117

转载 DataHub——实时数据治理平台

DataHub首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面，还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量，数据管理，数据资产，数据安全等等。而数据治理的关键就在于元数据管理，我们要知道数据的来龙去脉，才能对数据进行全方位的管理，监控，洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。提到LinkedIn，不得不想到大名鼎鼎的Kafk.

2021-04-07 17:30:29 1653

转载数据治理方案技术调研 Atlas VS Datahub VS Amundsen

数据治理意义重大，传统的数据治理采用文档的形式进行管理，已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。大数据下的数据治理作为很多企业的一个巨大的难题，能找到的数据的解决方案并不多，但是好在近几年，很多公司已经进行了尝试并开源了出来，本文将详细分析这些数据发现平台，在国外已经有了十几种的实现方案。数据发现平台可以解决的问题为什么需要一个数据发现平台？在数据治理过程中，经常会遇到这些问题：数据都存在哪？该如何使用这些数据？数据是做什么的？数.

2021-04-07 16:11:11 1138

原创编译metacat 报错

问题：* What went wrong:Could not compile build file 'D:\github\metacat-master\build.gradle'.> startup failed: build file 'D:\github\metacat-master\build.gradle': 39: argument list must be exactly 1 literal non empty string解决：gradle 版本太低。...

2021-04-02 16:03:07 694

转载漫谈数据仓库之维度建模

0x00 前言下面的内容，是笔者在学习和工作中的一些总结，其中概念性的内容大多来自书中，实践性的内容大多来自自己的工作和个人理解。由于资历尚浅，难免会有很多错误，望批评指正！概述数据仓库包含的内容很多，它可以包括架构、建模和方法论。对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法，如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大，在数据仓库体

2020-12-17 10:26:03 281

转载数据仓库建模方法论

建模方法论数仓的建模或者分层，其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话，所有的划分都是为了更好的管理。小到JVM 内存区域的划分，JVM 中堆空间的划分(年轻代、老年代、方法区等)，大到国家的省市区的划分，无一例外的都是为了更好的组织管理访问性能：能够快速查询所需的数据，减少数据I/O。数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本。使用效率：改善用户应用体验，提高使用数据的效率。数据质量：改善数据统计口径的

2020-12-16 14:10:07 313

转载【数据仓库】维度建模的优缺点

维度建模就是：按照事实表，维度表来构建数据仓库，数据集市。这种方法的最被人广泛知晓的名字就是星型模式（Star-schema）、雪花模型（Snow-schema）。优点：a) 维度建模是可预测的标准框架。允许数据库系统和最终用户查询工具在数据方面生成强大的假设条件，这些数据主要在表现和性能方面起作用。——后期数据产品性能好b) 星型连接模式的可预测框架能够忍受不可预知的用户行为变化。——切换使用不同的维度查询很方便c) 具有非常好的可扩展性，以便容纳不可预知的新数据源和新的设计决策。可以很方

2020-12-16 11:44:29 1749 2

转载 MapReduce Shuffle 和 Spark Shuffle 原理概述

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。在shuffle之前，也就是在map阶段，MapReduce会对要处理的数据进行分片（split）操作，为每一个分片分配一个MapTask任务。

2020-12-15 15:59:38 256

原创小内存大文件排序案例+代码

使用外部排序完成小内存大文件的排序：内存极少的情况下，利用分治策略，利用外存保存中间结果，再用多路归并来排序.1.分内存中维护一个极小的核心缓冲区memBuffer，将大文件bigdata按行读入，搜集到memBuffer满或者大文件读完时，对memBuffer中的数据调用内排进行排序，排序后将有序结果写入磁盘文件bigdata.xxx.part.sorted.循环利用memBuffer直到大文件处理完毕，得到n个有序的磁盘文件：2.合现在有了n个有序...

2020-11-23 17:56:07 1258 1

转载彻底搞懂spark的shuffle过程（shuffle write）

什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, A <-------s------ B <--n----`-- G对应的划分后的RDD结构为：最终我们得到了整个执行过程：中间就涉及...

2020-11-19 17:24:26 3428

原创 spark设置读取文件分区数

spark sql 设置参数 spark.sql.files.maxPartitionBytes 增加spark的并行度

2020-11-18 15:36:25 2455

转载适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot

适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot在这篇文章中，我想比较ClickHouse，Druid和Pinot，这三个开源数据存储区，他们通过交互延迟对大量数据运行分析查询。警告：这篇文章很大，您可能只想阅读最后的“摘要”部分。信息来源我从核心开发人员之一Alexey Zatelepin那里了解了ClickHouse的实现细节。用英语提供的最好的材料是本文档页面的最后四个部分，但是非常稀缺。我是Druid的提交者，但是我对这个系统没有既得利益（实际上

2020-11-17 16:12:36 1198

转载 Lambda架构，Kappa架构和去ETL化的IOTA架构

经过这么多年的发展，已经从大数据1.0的BI/Datawarehouse时代，经过大数据2.0的Web/APP过渡，进入到了IOT的大数据3.0时代，而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构，它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的Lambda架构如下：Lambda架构数据从底层的数据源开始，经过各种各样的格式进入大数据平台，在大数据平台中经过Kafka、Flume等数据组件进行收集，然后分成两

2020-11-15 18:21:10 396

转载大数据处理中的Lambda架构和Kappa架构

首先我们来看一个典型的互联网大数据平台的架构，如下图所示：在这张架构图中，大数据平台里面向用户的在线业务处理组件用褐色标示出来，这部分是属于互联网在线应用的部分，其他蓝色的部分属于大数据相关组件，使用开源大数据产品或者自己开发相关大数据组件。你可以看到，大数据平台由上到下，可分为三个部分：数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中，由于数据源不同，这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop，日志同步可以...

2020-11-15 18:08:45 328

原创【Spark】error: value foreach is not a member of Object

spark项目，scala 从2.11 升级到2.12 编译报错：error: value foreach is not a member of Object代码：df.foreachPartition{iter=> iter.foreach{row => }}升级2.12之后，Dataset的foreachPartition 里面不能处理Row的Iterator；解决方法1、就是先把 Row 转换为 case class 用RDD的方式解决2...

2020-11-05 15:40:55 3364 1

原创【spark 2.4.6 源码解析】Spark on yarn 任务执行全流程时序图分析

1.概述本文是基于spark on yarn的执行分析spark整体执行流程是怎么样的。我们知道spark程序提交的任务，会拆分成ShuffleMapStage,ResultStage。首先会执行ShuffleMapStage，再执行ResultStage，那么问题来了：1）当Executor执行SchuffleMapstage任务的时候 driver端在做什么？2）当一个ShuffleMapStage执行完是如何启动下一个ResultStage的计算？3) 当一个stage中分区数..

2020-08-29 22:30:54 509 3

原创【spark 2.4.6 源码】设置RDD缓存的执行流程分析（rdd.persist()）

之前分析了shuffle详解。现在通过跟踪源码弄清楚rdd.cache流程：首先思考：1）rdd的数据如何缓存起来的2）第二个的任务（走缓存的job）是如何跳过 shuffleMapStage，直接执行ResultStage2.执行的案例代码 val sparkConf = new SparkConf().setMaster("local").setAppName("wordCount")val sc =new SparkContext(spark...

2020-08-29 11:07:27 237

原创【spark 源码解析】spark2.4.6 shuffle 读写详细图解

spark 读写操作详解，以wordcount为例：1.代码：System.setProperty("hadoop.home.dir","C:\\hadoop") val sparkConf = new SparkConf().setMaster("local").setAppName("wordCount") sparkConf.set("spark.network.timeout","600") sparkConf.set("spark.executor...

2020-08-25 18:17:33 388

原创 hive order by,sort by, distribute by,cluster by 区别

4个by的区别1）order by ：全局排序，一个MapReduce.2）Sort By：内部排序，每个MapReduce内部进行排序，对全局结果集来说不是排序。1．设置reduce个数hive (default)> set mapreduce.job.reduces=3;2．查看设置reduce个数hive (default)> set mapreduce.job.reduces;3．根据部门编号降序查看员工信息hive (default)>...

2020-08-17 21:39:02 240

原创 [Spark]spark3.0.0 on yarn 安装测试

spark3.0.0 on yarn 安装测试版本：hive 3.1.1spark 3.0.0hadoop3.0.0从spark3.0.0版本开始支持hadoop3。hive3 也支持hadoop，完美的组合。3.1.下载spark3.0.0https://mirror.bit.edu.cn/apache/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz版本支持：scala2.12版本(其实不装scala也可以运行，但...

2020-08-14 17:07:26 890

原创 Zeppelin带有Kerberos认证的Hive解释器的配置

2.zeppelin连接Hive安装配置zeppelin 版本0.8.2 ，hive版本：3.0.02.1.安装启动hive3 略2.1.配置hiveserver2如果需要配置zeppelin与hive的集成，我们需要启动hive的metastore服务以及hiveserver2服务。首先为hive配置hiveserver2conf/hive-site.xml<property> <name>hive.server2.thrift.port...

2020-08-14 13:58:18 647

原创 Spark UDF处理Array＜struct＞结构

2020-08-13 18:19:34 2176

原创 Hive启动报错：Specified key was too long； max key length is 767 bytes)

启动hive metastore 报错：启动脚本：bin/hive --service metastore &报错内容：com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes)原因：hive的mysql 库只能使用latin1字符集解决：MariaDB [hive_metadata]> alt.

2020-08-10 15:08:16 234

原创 spark读取hdfs的文件如何分区

spark读取hdfs的文件是怎么分区的，读取代码如下：val df = sc.textFile("data/wc.txt",3)一.分析spark读取hdfs的文件分区跟hadoop的分区完全相同,因为底层使用的就是Hadoop的TextInputFormat，考虑两内容：1)关于文件分区数量计算：指定的预分区数量是最小分区数量，如：代码中的参数3。真正的分区计算：每个分区字节数 = 文件字节数/预分区数量如果没有整除，判断余数是否大于分区字节数 * 0.1，如果大于则会新

2020-08-10 14:04:57 1407

原创一句话概括 Spark的工作机制

网上很多人写spark的工作机制往往长篇大论，让人搞不清重点，以下是我的总结。欢迎留言讨论。下面总结了spark的工作机制（原理）：spark是基于内存运行的分布计算引擎。其核心的数据结构-RDD封装计算逻辑、依赖、分区列表、分区器、优先计算位置。1.根据rdd间的依赖关系划分stage，生成有向无环图。2.每个stage根据分区列表转化成执行任务集。3.根据优先计算位置把计算逻辑发送到数据存储位置进行计算。4. 如果任务执行失败根据RDD的血缘关系提供容错机制，重新计算失败的分区。5.根

2020-08-07 16:13:22 832

原创【Shell编程】遍历指定日期范围内的日期

shell编程小工具，遍历指定日期范围内的日期，每天再遍历24小时。start="2020-07-16"end="2020-07-23"start_seconds=`date -d$start +%-s`end_seconds=`date -d$end +%-s`start_time=$startwhile [ $start_seconds -le $end_seconds ]do for hour in $(seq 0 23) do e...

2020-08-05 11:01:37 1310

原创 java线程并发库总结

今天看一下juc 总结。1.volatile 关键字内存可见性问题：每个线程有独立的缓存，两个线程操作共享数据是时，彼此不可见。如何解决可见性问题：使用同步锁解决，但效率低。 volatile关键字：两个线程操作共享数据是时，彼此可见的。每次向主存更新，每次读取主存。区别：volatile 不具备互斥性，不保证原子性。2原子性问题int i =1；i=i++；结果为1i++ 分为三步操作：读，改，写。操作流程：int temp = i;i = i + ...

2020-07-30 08:33:54 140

原创【spark】通过yarn rest api 监控spark任务

yarn提供了rest api 可以监控，管理跑在yarn上的任务。可以通过这些rest api 管理，监控spark on yarn任务以下的几个简单操作：官方详细rest api地址：https://hadoop.apache.org/docs/r2.9.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html一.spark任务监控1.监控指定应用：curl -s "http://rm2.yarn.ns1.svc.xx.com:.

2020-07-30 08:11:14 1656

原创【spark，rdd，2】RDD基本转换算子

TransformationMeaningmap(func)Return a new distributed dataset formed by passing each element of the source through a functionfunc.filter(func)Return a new dataset formed

2017-07-21 22:43:13 940

原创【spark，RDD，1】弹性分布式数据集RDD介绍

参考地址：http://lxw1234.com/archives/2015/06/328.htm1.RDD简介RDD弹性分布式数据集,一个RDD代表一个被分区的只读数据集。RDD是spark的核心数据结构。通过RDD的依赖关系形成spark的调度顺序，通过对RDD的操作形成整个spark程序。RDD的本质：在并行计算的各个阶段进行有效的数据共享(减少

2017-07-21 22:40:35 722

原创【storm，2】storm安装(单机安装+集群安装)

1.开发环境的安装：(在linux搭建storm环境)配置一个storm的开发环境，总的来看有下面几个步骤：（1）.下载storm的release版本，解压，并且把bin/目录加到环境变量PATH里面去。（2）.为了让我们可以启动/停止远端storm集群上的topology, 把集群的信息配置在~/.storm/storm.yaml里面。配置：nimbus.

2015-03-30 17:27:12 2047

原创【10】启动 Integration Service 服务时报错

错误信息：LM_44229 Failed to authenticate login. [PCSF_10342] [PCSF_10342] Exception occurred: [[AUTHEN_10000] The Service Manager failed to authenticate user [ADMIN] in security domain [Native].].

2015-01-02 18:35:14 2913

转载 linux 书籍

入门篇《LINUX权威指南》书不错，写的很全面也比较广，涉及的不深，做为入门书籍不错，可以比较全面的了解linux 。另外比较热门的也可以看看《鸟哥的私房菜》等书，偏管理类的书。如果想做server方向的可以找来看看。驱动篇《LINUX设备驱动程序》就是网上说的“LDD”，经典之作，必备书籍。国产经典《Linux驱动详细解》也是一本非常不错的书，很实用，书中源代码分析比较

2014-12-04 17:16:40 662