自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

转载 大数据架构相关资料

收藏一些大厂大数据架构相关资料美团外卖流量数据的采集加工和应用https://mp.weixin.qq.com/s/HoEjcTSLHclIl7fc-3uxaA

2020-11-23 17:31:31 302

原创 presto查询hive文件错误

由于hive 创建内部表默认开启事务异常信息:修改以下参数:# 建内部表取消默认开启事务 #hive.strict.managed.tables=falsehive.create.as.insert.only=false##################

2021-09-17 10:28:13 223

原创 地图经纬度坐标相互转换

google地图、高德地图、百度地图经纬度相互转换代码如下:# -*- coding: utf-8 -*-import jsonimport urllibimport mathx_pi = 3.14159265358979324 * 3000.0 / 180.0pi = 3.1415926535897932384626 # πa = 6378245.0 # 长半轴...

2020-04-15 14:48:25 573

原创 亚线性算法

亚线性算法的定义亚线性时间算法 亚线性时间近似算法 性质检测算法亚线性空间算法数据流算法亚线性时间问题例子给定一个社交网络,如何平均每个人的朋友个数,即在图中计算其节点的平均度(如果随机抽取样本的方式 有些度很大的点将会抽不到)能否在不访问所有顶点的情况下完成次任务?精确计算需要访问最少n-1个 顶点亚线性空间算法 例子一个(源源不断的...

2018-12-29 16:28:44 1193

转载 spark性能调优——shuffle调优

目录 调优概述ShuffleManager发展概述HashShuffleManager运行原理未经优化的HashShuffleManager优化后的HashShuffleManagerSortShuffleManager运行原理普通运行机制bypass运行机制shuffle相关参数调优spark.shuffle.file.bufferspark.re...

2018-12-26 14:36:35 233 1

转载 spark性能调优——数据倾斜调优

目录 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合...

2018-12-26 14:34:05 237 2

转载 spark性能调优——资源调优

资源调优目录资源调优调优概述Spark作业基本运行原理资源参数调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.memoryFractionspark.shuffle.memoryFraction资源参数参...

2018-12-26 14:28:28 168

转载 JVM调优总结

转载  史上最详细的jvm调优总结https://www.cnblogs.com/andy-zhou/p/5327288.html#_caption_12

2018-12-26 14:20:54 103

转载 经典编程书籍大全

计算机系统与网络《图灵的秘密:他的生平、思想及论文解读》 《计算机系统概论》 《深入理解Linux内核》 《深入Linux内核架构》 《TCP/IP详解 卷1:协议》 《Linux系统编程(第2版)》 《Linux内核设计与实现(第3版)》 《深入理解计算机系统(原书第3版)》 《计算机程序的构造和解释(原书第2版)》 《编码:隐匿在计算机软硬件背后的语言》 《性能之颠:洞...

2018-12-26 14:17:09 498

转载 spark性能调优——开发调优

开发调优目录开发调优概述原则一:避免创建重复的RDD一个简单的例子原则二:尽可能复用同一个RDD一个简单的例子原则三:对多次使用的RDD进行持久化对多次使用的RDD进行持久化的代码示例Spark的持久化级别如何选择一种最合适的持久化策略原则四:尽量避免使用shuffle类算子Broadcast与map进行join代码示例原则五:使用map-s...

2018-12-26 12:59:52 215

原创 spark调优总览

spark调优整体分为四个部分 一、开发调优https://blog.csdn.net/fzyedu1111/article/details/85260255二、资源调优https://blog.csdn.net/fzyedu1111/article/details/85261487三、数据倾斜调优https://blog.csdn.net/fzyedu1111/art...

2018-12-26 11:56:09 310 5

spark pdf大全

本文档收录了全面的spark数据pdf版,其中有源码详解的书,苏浙如果想在spark这条道路上越走越远,这些文档可以提供较好的技术支持,欢迎大家下载

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除