5 aijiudu

尚未进行身份认证

数据研发工程师

等级
TA的排名 6w+

SparkSQL in中使用子查询耗时高如何优化

目录一、背景二、用join替代in三、用join替换in且map端Join​四、用Join替换in的坑一、背景经常遇到MySQL表太大,频繁查询影响性能,需要把MySQL数据同步到hive(通过解析MySQLbinlog同步数据到hive),MySQL表一般会有create_time和update_time字段,如何同步到hive方便查询呢?我们采用的方式是按天快照,更新...

2019-08-08 13:35:50

chrome全屏模式书签栏/工具栏消失如何处理

chrome全屏模式书签栏/工具栏消失如何处理最上方的‘视图’--‘在全屏模式下始终显示工具栏'切换全屏模式快捷键:control+command+f快捷键全屏模式下显示工具栏快捷键:shift+command+f快捷键...

2019-07-23 14:57:23

Presto如何使用md5

selectmd5(to_utf8(concat(if(idisnull,'-',cast(idasVARCHAR)),if(city_idisnull,'-',cast(city_idasVARCHAR)),if(user_idisnull,'-',cast(user_idasVARCHAR)),...

2019-06-18 19:54:54

箱形图(python画箱线图)

学习笔记目录箱形图价值局限性Python画图箱形图如下灰色框里的就是箱形图(英文:Boxplot):又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。五数概括法:即用下面的五个数来概括数据(最小值;第1四分位数(Q1);中位...

2019-04-18 21:34:17

上亿条数据,如何比对并发现两个表数据差异

目录一、背景二、分析流程三、验数方法3.1数据量级比对3.2一致性比对3.2.1勾稽验证+md5方法3.2.2暴力比对法3.3差异数据发现四、总结一、背景做数据,经常遇到数据验证,很烦很枯燥,即耗时又耗人,但又必须去做。如何去做数据验证,并标准化整个流程,让验数变得轻松。二、分析流程……相同表结构数据验证:比如修改表逻辑相似表结...

2019-04-13 12:22:17

Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段本文于2017-07-16号书写Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一...

2018-07-24 11:15:33

hive表新增字段和字段注释修改

hive表新增字段,修改字段的注释

2018-01-15 17:24:50

Spark cache/persist区别和cache使用误区分析

Sparkcache的用法及其误区:一、使用Cache注意下面三点(1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。(2)cache不是一个action,运行它的时候没有执行一个作业。(3)cache缓存如何让它失效:unpersist,它是立即执行的。persist是lazy级别的(没有计...

2018-01-11 17:59:00

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30

spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

1、背景:  控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfsfsckviewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999-files-blocks;stripe个数查看命令...

2017-11-23 16:37:49

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误java.lang.UnsupportedOperationException:NoEncoderfoundfororg.apache.spark.sql.Row解决办1、错误描述:Exceptioninthread"main"java.lang.UnsupportedOperationException:NoEncoderfoundfor...

2017-10-11 16:41:56

Spark统一内存管理:UnifiedMemoryManager

@DT大数据梦工厂Spark统一内存管理:UnifiedMemoryManager,内存管理图:Spark静态内存管理:StaticMemoryManager请看:http://blog.csdn.net/aijiudu/article/details/77885953一、统一内存管理:Execution和Storage之间是软边界,任一方都可以从另一方借用内存。Execution...

2017-09-19 17:39:09

Spark静态内存管理:StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小。这两个区域是完全分离的,使得两者都不能从另一个借用内存。例如Executor的可用Heap大小是10G,实际上Spark只能使用90%,也就是9G的大小,是由spark.storag...

2017-09-07 20:00:58

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

SparkShuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40

Yarn的基本工作流程

Yarn基本工作流程图和步骤解释

2017-07-15 23:11:33

Hadoop内存溢出(OOM)分类、参数调优化(代码模拟内存溢出类型并分析原因)

MapReduce作业运行过程中内存溢出错误分类1、        Mapper/Reducer阶段JVM内存溢出(一般都是堆)1)      JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常:第一种:“java.lang.OutOfMemoryError:”GCoverheadlimitexceeded;第二种:“Error: Javaheapspace

2017-07-15 17:16:45

JVM架构和GC垃圾回收机制(JVM面试不用愁)

JVM架构和GC垃圾回收机制详解JVM架构图分析下图:参考网络+书籍,如有侵权请见谅(想了解Hadoop内存溢出请看:Hadoop内存溢出(OOM)分类、参数调优化)JVM被分为三个主要的子系统(1)类加载器子系统(2)运行时数据区(3)执行引擎1.类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时(不是编译时)首次引用一个类时,它加载、链...

2017-06-10 16:49:15

MapReduce过程详解及其性能优化

废话不说直接来一张图如下:从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;Mapper数太小,并发度过小,Job执行时间过长,无...

2017-05-16 21:40:07

Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化对spark广播、累加器和RDD持久化的介绍,并且通过代码实战演示

2017-02-19 21:02:28

第五课:彻底精通Scala隐式转换和并发编程及Spark源码阅读

彻底精通Scala隐式转换和并发编程及Spark源码阅读

2016-12-12 13:22:17

查看更多

勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。