九度--CSDN博客

原创考拉验数(自动化验数)设计方案和实现

目录前言一、背景&现状二、目标三、收益&效果衡量四、技术方案&实现五、技术实现六、系统展示前言首先说一下名字的由来，憨萌憨萌的考拉 ???????????? 考拉考拉（验数）特点憨萌小考拉特性提高业务、开发人员的工作效率，用了考拉（验数工具）提高了效率，有很多的时间可以用来休息喽它每天18个小时处于睡

2021-04-08 14:48:25 2157 7

原创百亿条数据复杂业务场景下通用归因模型设计实现

1 背景互联网流量应用的一个重要方面是计算各页面、入口的转化，深度洞察用户行为轨迹，数据驱动精细化运营，对一些大公司来说也是如此。如何建设公司级统一口径转化导流分析数据，满足多个业务对转化数据的需求，为公司各业务部门提供转化分析数据（各入口或者页面带来的商家、活动页、预定、订单），基于此我们设计了转化归因来满足业务需求。归因又叫挂单：用户打开某一APP，在浏览N个页面之后，遇到有下单意向的...

2019-10-23 10:50:21 2198

原创 SparkSQL in中使用子查询耗时高如何优化

目录一、背景二、用join替代in三、用join替换in且map端Join四、用Join替换in的坑一、背景经常遇到MySQL表太大，频繁查询影响性能，需要把MySQL数据同步到hive（通过解析MySQL binlog同步数据到hive），MySQL表一般会有create_time和update_time字段，如何同步到hive方便查询呢？我们采用的方式是按天快照，更新...

2019-08-08 13:35:50 5517

原创 JVM架构和GC垃圾回收机制(JVM面试不用愁)

JVM架构和GC垃圾回收机制详解JVM架构图分析下图：参考网络+书籍，如有侵权请见谅（想了解Hadoop内存溢出请看： Hadoop内存溢出(OOM)分类、参数调优化）JVM被分为三个主要的子系统（1）类加载器子系统（2）运行时数据区（3）执行引擎1. 类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时（不是编译时）首次引用一个类时，它加载、链...

2017-06-10 16:49:15 110150 41

原创 MapReduce过程详解及其性能优化

废话不说直接来一张图如下：从JVM的角度看Map和ReduceMap阶段包括：第一读数据：从HDFS读取数据1、问题:读取数据产生多少个Mapper？？ Mapper数据过大的话，会产生大量的小文件，由于Mapper是基于虚拟机的，过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源； Mapper数太小，并发度过小，Job执行时间过长，无...

2017-05-16 21:40:07 41116 18

原创 Mac发现有的软件不能上网的破解之法

Mac发现有的软件不能上网的破解之法

2023-08-21 19:57:45 2219

原创维度建模基本流程总结

数据RD进行业务调研和数据现状调研，产出符合相关模版规范的业务知识文档和数据现状文档。数据PM也会调研相关业务产出需求设计文档，三方参与需求评审，评审通过后基建数据RD进行需求拆解，产出技术方案，三方进行技术方案评审，如果技术方案评审通过进入基建需求池、排期、开发、上线并做相关数据运营动作。

2023-02-21 10:07:33 1211 1

原创数仓建模（维度建模）

本文主要介绍什么是建模？模型的好处？建模的方法和维度建模。从基本概念、维度、事实、为何分层和建模步骤等角度详细介绍维度建模。

2022-07-25 21:39:17 2848

原创 git 把代码恢复到某个提交的版本

git 把代码恢复到某个提交的版本

2022-06-15 14:25:13 734

原创 Kafka架构、高性能和高可用性分析

本文主要介绍Kafka架构、高性能、高可用以及mac本地安装kafka

2022-02-21 20:33:51 5714

原创 mac升级monterey后，根目录无法写入文件，亲测有效

mac升级后，根目录无法写入文件，无法创建data文件夹等。

2022-02-16 16:04:39 3401 1

原创 hive编译、调度执行原理和Join、group by、distribute by及排序原理

本文首先介绍hive系统架构、编译过程和查询执行流程，接下来介绍hive编译形成的MRjob调度过程和MR原理，最后介绍了常见算子Join、group by、distribute by及排序的原理。一、hive编译和执行1.1 hive系统架构1.2hive编译过程1.3hive查询执行流程二、job调度Application在Yarn中的执行过程，如需了解详细执行过程请点击：Yarn的执行过程细分三、job执行引擎（MapReduce原理）MapRedu..

2021-05-04 15:23:19 1505 1

原创 hive常用窗口函数和行列转化函数

一、Hive常用窗口函数排序类：ROW_NUMBER()、RANK()、DENSE_RANK()等取值类：FIRST_VALUE(col)、LAST_VALUE(col)、LEAD(col,n,DEFAULT)、LAG(col,n,DEFAULT)等聚合类：COUNT()、SUM()、MIN()、MAX()、AVG()等二、应用场景用于分组排序、动态Group By、Top N、累计计算、层次查询。三、应用举例3.1 分组排序窗口函数举例分组排序解释 ROW_NUMB

2021-05-04 15:10:26 852 1

原创 Hive基本语法、基本原理和优化方法

背景为方便很多新同学的学习，介绍企业常用的hive工具，帮助大家快速的融入。一、Hive简介1.1 怎么来Facebook有一帮人牛人觉得写MapReduce任务太费事了，然后搞了一个支持类SQL开发工具，把sql转化为MapReduce任务，并发执行。1.2 是什么基于Hadoop的一个数据仓库工具；结构化数据映射成表，通过类SQL语言查询和分析数据，称为HiveQL(HQL)；Hive将SQL编译转化为MapReduce job，通过Hadoop集群执行。如下如：hive

2021-04-28 20:40:59 2374

原创 Hadoop和Spark区别，为什么Spark比Hadoop处理速度快？

h s 原理（并行计算 MR原理） Hadoop作业称为Job，Job分为Map、Shuffle和Reduce阶段，MAP和Reduce的Task都基于JVM进程运行的。MAP阶段：从HDFS读取数据，split文件产生task，通过对应数量的map处理，map输出的每一个键值对通过key的hash值计算一个partition，数据通过环形缓冲区，sort、spill、merge生成data和...

2021-04-20 20:36:31 1679

原创 ES读写原理详解和hive推送ES案例

目录一、ES使用场景1.1 存储数据（基础）1.2 搜索（核心能力）1.3 数据分析和可视化（核心能力）二、ES的原理2.1 ES如何实现分布式？2.2 ES读写数据的原理2.2.1 写入相关的几个问题2.2.2 写入过程2.2.3 写入shard2.2.4 merge策略2.2.5 存储目录结构2.2.5 ES读取数据的过程2.3 E...

2020-04-22 11:04:38 3921

原创 spark toDS() toDF()和import spark.implicits._ 报红，无法导入

因为是toDS() toDF() 从import spark.implicits._ 里面来的错误代码问题就出现在这里的spark上，这里的spark不是某个包下面的，而是SparkSession.builder()对应的变量值，下面是正确的写法...

2019-10-24 16:41:47 6277

转载 Spark Executor内存管理

我们都知道 Spark 能够有效的利用内存并进行分布式计算，其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark，深入地理解其内存管理模型具有非常重要的意义，这有助于我们对 Spark 进行更好的调优；在出现各种内存问题时，能够摸清头脑，找到哪块内存区域出现问题。首先我们知道在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种...

2019-10-23 21:00:27 2917

原创 chrome全屏模式书签栏/工具栏消失如何处理

chrome全屏模式书签栏/工具栏消失如何处理最上方的‘视图’--‘在全屏模式下始终显示工具栏'切换全屏模式快捷键：control+command+f 快捷键全屏模式下显示工具栏快捷键：shift+command+f 快捷键...

2019-07-23 14:57:23 26737 1

原创 Presto如何使用md5

selectmd5(to_utf8(concat( if(id is null, '-', cast(id as VARCHAR)), if(city_id is null, '-', cast(city_id as VARCHAR)), if(user_id is null, '-', cast(user_id as VARCHAR)), ...

2019-06-18 19:54:54 2716 1

原创箱形图（python画箱线图）

学习笔记目录箱形图价值局限性Python画图箱形图如下灰色框里的就是箱形图（英文：Box plot）：又称为盒须图、盒式图、盒状图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图最大的优点就是不受异常值的影响，可以以一种相对稳定的方式描述数据的离散分布情况。五数概括法：即用下面的五个数来概括数据（最小值；第1四分位数(Q1)；中位...

2019-04-18 21:34:17 88756 7

原创上亿条数据，如何比对并发现两个表数据差异

目录一、背景二、分析流程三、验数方法3.1 数据量级比对3.2 一致性比对3.2.1勾稽验证+md5方法3.2.2 暴力比对法3.3差异数据发现四、总结一、背景做数据，经常遇到数据验证，很烦很枯燥，即耗时又耗人，但又必须去做。如何去做数据验证，并标准化整个流程，让验数变得轻松。二、分析流程……相同表结构数据验证：比如修改表逻辑相似表结...

2019-04-13 12:22:17 15126 5

原创 Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战，并成功将程序的速度提升一倍（涉及到敏感信息本文在2018-07-04号将其删除，阅读上可能显得不完整）下面介绍一些基本的优化手段本文于2017-07-16号书写Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一...

2018-07-24 11:15:33 19701 9

原创 hive表新增字段和字段注释修改

hive表新增字段，修改字段的注释

2018-01-15 17:24:50 142567 2

原创 Spark cache/persist区别和cache使用误区分析

Spark cache的用法及其误区:一、使用Cache注意下面三点（1）cache之后一定不能立即有其它算子，不能直接去接算子。因为在实际工作的时候，cache后有算子的话，它每次都会重新触发这个计算过程。（2）cache不是一个action，运行它的时候没有执行一个作业。（3）cache缓存如何让它失效：unpersist，它是立即执行的。persist是lazy级别的（没有计...

2018-01-11 17:59:00 21044 5

原创 Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30 3698

原创 spark 读取ORC文件时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案

1、背景：控制上游文件个数每天7000个，每个文件大小小于256M，50亿条+，orc格式。查看每个文件的stripe个数，500个左右，查询命令：hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999 -files -blocks;stripe个数查看命令...

2017-11-23 16:37:49 11675 9

原创 spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决办1、错误描述：Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for...

2017-10-11 16:41:56 14471 2

原创 Spark统一内存管理：UnifiedMemoryManager

@DT大数据梦工厂Spark统一内存管理：UnifiedMemoryManager，内存管理图：Spark静态内存管理：StaticMemoryManager请看：http://blog.csdn.net/aijiudu/article/details/77885953一、统一内存管理：Execution和Storage之间是软边界，任一方都可以从另一方借用内存。Execution...

2017-09-19 17:39:09 2170

原创 Spark静态内存管理：StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小。这两个区域是完全分离的，使得两者都不能从另一个借用内存。例如Executor的可用Heap大小是10G，实际上Spark只能使用90%，也就是9G的大小，是由spark.storag...

2017-09-07 20:00:58 843

原创 Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40 2076

原创 Yarn的基本工作流程

Yarn基本工作流程图和步骤解释

2017-07-15 23:11:33 2555

原创 Hadoop内存溢出(OOM)分类、参数调优化（代码模拟内存溢出类型并分析原因）

MapReduce作业运行过程中内存溢出错误分类1、 Mapper/Reducer阶段JVM内存溢出（一般都是堆）1) JVM堆(Heap)内存溢出：堆内存不足时，一般会抛出如下异常：第一种：“java.lang.OutOfMemoryError:” GC overhead limit exceeded；第二种：“Error: Java heapspace

2017-07-15 17:16:45 14822 1

原创 Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化对spark广播、累加器和RDD持久化的介绍，并且通过代码实战演示

2017-02-19 21:02:28 5645

原创第五课：彻底精通Scala隐式转换和并发编程及Spark源码阅读

彻底精通Scala隐式转换和并发编程及Spark源码阅读

2016-12-12 13:22:17 591

原创第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等

为什么要队列设置？？？因为Hadoop大数据生态系统上面会运行很多作业，为了更好的管理资源限制的要求Hadoop提出了队列，队列就是不同类型资源分配和使用的标签。JVM重用Hadoop的JVM是可以重用的，相当于spark的线程的重用。JVM 重用在有很多小文件的时候非常有用hive> EXPLAIN select * from employeeforhaving;OK...

2016-12-10 18:19:57 3581

原创第93课：Hive中的内置函数、UDF、UDAF实战

Hive中的内置函数、UDF、UDAF实战

2016-12-10 18:17:36 1278

原创第92课，Hive中的Array,Map,Struct及自定义数据类型案例实战。

Hive中的Array,Map,Struct及自定义数据类型案例实战。

2016-12-10 18:13:43 3058

原创第91课：Hive中Index和Bucket案例实战及存储类型实战详解

Hive中Index和Bucket案例实战及存储类型实战详解

2016-12-10 18:04:00 779

原创 Scala模式匹配、类型系统彻底精通与Spark源码阅读

Scala模式匹配、类型系统彻底精通与Spark源码阅读

2016-12-09 21:21:50 610

Checkstyle压缩包和使用说明

JAVA源代码分析工具比较

六台机器集群，40M数据就报错，spark streaming运行例子程序wordcount