自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 Hive分区修复命令MSCK使用1

场景:如果事先建立了一张分区表,然后手动(比如使用 cp 或者 mv )将分区数据拷贝到刚刚新建的表进行数据初始化;但是对于分区表,需要在hive里面手动将刚刚初始化的数据分区加入到hive里面,这样才能够查询使用。通常的做法是使用 alter table add partition命令手动添加分区;但是如果初始化的分区太多,这样一条一条地手动添加分区不免过于麻烦(虽然可以写个脚本生成添加分区的...

2018-12-05 11:01:00 1127

原创 Spark 之 sql 缓存

hkl曰:缓存对于一些复用程度很高的rdd来说是很有用的,可以很大程度上提高效率。 1.几种缓存数据的方法 例如有一张Hive表叫做activity1.CACHE TABLE  //缓存全表 sqlContext.sql("CACHE TABLE activity")   //缓存过滤结果 sqlContext.sql("CACHE...

2018-10-12 14:57:58 1459

转载 maven 对spark 源码进行编译(基于Centos 7 )

maven 对spark 源码进行编译(基于Centos 7 )1 、写在前面的话    有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示:    Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能...

2018-05-30 10:01:36 579

转载 Spark性能优化篇四:shuffle调优

Spark性能优化篇四:shuffle调优shuffle调优调优概述      大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整...

2018-05-30 09:55:43 237 2

转载 Spark性能优化篇一:资源调优

Spark性能优化篇一:资源调优     所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。num-executors参数说明:该参数用于设置Spark作业总共要用多少个Exe...

2018-05-30 09:53:52 352

转载 Spark性能优化篇三:数据倾斜调优

Spark性能优化篇三:数据倾斜调优前言   继 Spark性能优化篇二: 开发调优和 Spark性能优化篇一:资源调优讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述      有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,...

2018-05-30 09:53:00 302

转载 Spark性能优化篇二: 开发调优

Spark性能优化篇二: 开发调优1、前言      在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很...

2018-05-30 09:51:48 385 2

原创 schedule 任务调度偶发不执行问题

实验一我们先看下下面这段简单的代码。如下:public class ExecutoryServiceTest {        private static ScheduledExecutorService executorService = Executors.newScheduledThreadPool(10);        public static void main(Strin...

2018-03-16 11:09:17 3071

原创 Mac OS 终端利器 iTerm2

Mac OS 终端利器 iTerm2之前一直使用 Mac OS 自带的终端,用起来虽然有些不太方便,但总体来说还是可以接受的,是有想换个终端的想法,然后今天偶然看到一个终端利器 iTerm2,发现真的很强大,也非常的好用,按照网上配置了主题什么的,还是有些坑的,这边再记录下,以便后面查阅。1. 安装 iTerm2下载地址:https://www.iterm2.com/downloads.html下...

2018-03-15 10:01:43 1081

原创 Maven项目mybatis Invalid bound statement (not found)解决方法

最近因为工作需要,要学习mybatis框架。在添加好一些依赖之后,通过mybatis进行数据库的crud操作。但是在测试的时候总是报mybatis:Invalid bound statement (not found)。在网上搜索了好久,最后终于发现了问题的所在,现在把它记录下来,供大家参考:在mapper代理的开发中,程序员需要遵守一些规范,mybatis才能实现mapper接口的代理对象。 它...

2018-03-09 12:07:47 660

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除