5 aijiudu

尚未进行身份认证

数据研发工程师

等级
博文 24
排名 6w+

箱形图(python画箱线图)

学习笔记目录箱形图价值局限性Python画图箱形图如下灰色框里的就是箱形图(英文:Boxplot):又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。五数概括法:即用下面的五个数来概括数据(最小值;第1四分位数(Q1);中位...

2019-04-18 21:34:17

上亿条数据,如何比对并发现两个表数据差异

目录一、背景二、分析流程三、验数方法3.1数据量级比对3.2一致性比对3.2.1勾稽验证+md5方法3.2.2暴力比对法3.3差异数据发现四、总结一、背景做数据,经常遇到数据验证,很烦很枯燥,即耗时又耗人,但又必须去做。如何去做数据验证,并标准化整个流程,让验数变得轻松。二、分析流程……相同表结构数据验证:比如修改表逻辑相似表结...

2019-04-13 12:22:17

Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段本文于2017-07-16号书写Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一...

2018-07-24 11:15:33

hive表新增字段和字段注释修改

hive表新增字段,修改字段的注释

2018-01-15 17:24:50

Spark cache/persist区别和cache使用误区分析

Sparkcache的用法及其误区:一、使用Cache注意下面三点(1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。(2)cache不是一个action,运行它的时候没有执行一个作业。(3)cache缓存如何让它失效:unpersist,它是立即执行的。persist是lazy级别的(没有计...

2018-01-11 17:59:00

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30

spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

1、背景:  控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfsfsckviewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999-files-blocks;stripe个数查看命令...

2017-11-23 16:37:49

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误java.lang.UnsupportedOperationException:NoEncoderfoundfororg.apache.spark.sql.Row解决办1、错误描述:Exceptioninthread"main"java.lang.UnsupportedOperationException:NoEncoderfoundfor...

2017-10-11 16:41:56

Spark统一内存管理:UnifiedMemoryManager

@DT大数据梦工厂Spark统一内存管理:UnifiedMemoryManager,内存管理图:Spark静态内存管理:StaticMemoryManager请看:http://blog.csdn.net/aijiudu/article/details/77885953一、统一内存管理:Execution和Storage之间是软边界,任一方都可以从另一方借用内存。Execution...

2017-09-19 17:39:09

Spark静态内存管理:StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小。这两个区域是完全分离的,使得两者都不能从另一个借用内存。例如Executor的可用Heap大小是10G,实际上Spark只能使用90%,也就是9G的大小,是由spark.storag...

2017-09-07 20:00:58

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

SparkShuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40

Yarn的基本工作流程

Yarn基本工作流程图和步骤解释

2017-07-15 23:11:33

Hadoop内存溢出(OOM)分类、参数调优化(代码模拟内存溢出类型并分析原因)

MapReduce作业运行过程中内存溢出错误分类1、        Mapper/Reducer阶段JVM内存溢出(一般都是堆)1)      JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常:第一种:“java.lang.OutOfMemoryError:”GCoverheadlimitexceeded;第二种:“Error: Javaheapspace

2017-07-15 17:16:45

JVM架构和GC垃圾回收机制(JVM面试不用愁)

JVM架构和GC垃圾回收机制详解JVM架构图分析下图:参考网络+书籍,如有侵权请见谅(想了解Hadoop内存溢出请看:Hadoop内存溢出(OOM)分类、参数调优化)JVM被分为三个主要的子系统(1)类加载器子系统(2)运行时数据区(3)执行引擎1.类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时(不是编译时)首次引用一个类时,它加载、链...

2017-06-10 16:49:15

MapReduce过程详解及其性能优化

废话不说直接来一张图如下:从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;Mapper数太小,并发度过小,Job执行时间过长,无...

2017-05-16 21:40:07

Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化对spark广播、累加器和RDD持久化的介绍,并且通过代码实战演示

2017-02-19 21:02:28

第五课:彻底精通Scala隐式转换和并发编程及Spark源码阅读

彻底精通Scala隐式转换和并发编程及Spark源码阅读

2016-12-12 13:22:17

第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等

为什么要队列设置???因为Hadoop大数据生态系统上面会运行很多作业,为了更好的管理资源限制的要求Hadoop提出了队列,队列就是不同类型资源分配和使用的标签。JVM重用Hadoop的JVM是可以重用的,相当于spark的线程的重用。JVM重用在有很多小文件的时候非常有用hive>EXPLAINselect*fromemployeeforhaving;OK...

2016-12-10 18:19:57

第93课:Hive中的内置函数、UDF、UDAF实战

Hive中的内置函数、UDF、UDAF实战

2016-12-10 18:17:36

第92课,Hive中的Array,Map,Struct及自定义数据类型案例实战。

Hive中的Array,Map,Struct及自定义数据类型案例实战。

2016-12-10 18:13:43
奖章
  • 领英
    领英
    绑定领英第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。