1 南宫紫攸

尚未进行身份认证

努力,奋斗!

等级
TA的排名 12w+

CDH开启静态资源池后报错

开启静态资源池后报错main : run as user is nobodymain : requested yarn user is rootCan't create directory /data1/yarn/nm/usercache/root/appcache/application_1566281848337_0001 - Permission deniedCan't cre...

2020-02-05 15:24:20

Hue webUI设置中文界面

修改desktop下的setting.pycd /opt/cloudera/parcels/CDH/lib/hue/desktop/core/src/desktop/vimsetting.py修改LANGUAGE_CODE = 'zh_CN'#LANGUAGE_CODE = 'en-us'LANGUAGES = [ ('de', ('German')), ('...

2020-02-05 15:23:35

CDH升级后 /etc/alternatives 软链接指向旧版本问题

CDH6.0.1升级6.2.0后,使用hdfs命令发现不存在,检查发现 /etc/alternatives 下的相关软链接仍然指向6.0.1。修改alternatives --config 例如修改zookeeper-server输入相应版本的编号 enter确定,再查看,变成绿色可用状态OK了。alternatives --configzoo...

2020-02-05 15:23:11

CDH 交换分区报警

配置环境时已经设置交换区使用为0# 查看cat /proc/sys/vm/swappiness# 0 # 修改echo "vm.swappiness = 0" >> /etc/sysctl.conf # 生效sysctl -p报警情况 :解决办法# 查看swap使用情况free -h# 查看swap挂载swapon -s...

2020-02-05 15:22:35

CDH 邮件通知警报

CM Service 设置警报smtp,用户名和发件人填邮箱名,密码是授权密码,而不是登录邮箱的密码发件邮箱开启 stmp测试如果不成功可以监听 Alert publisher 日志查看错误原因,大多报错都是密码不是填写的授权密码tail -F /var/log/cloudera-scm-alertpublish...

2020-02-05 15:20:57

CDH 外网IP无法访问 HDFS WebUI

服务器搬迁机房,与个人电脑不在同一局域网,无法访问HDFS WebUI。监听端口,发现监听的是内网IPnetstat -nltp | grep 9870CDH HDFS 中,将 NameNode 绑定到通配符地址,修改为勾选,重启服务。再查看,已经更改为监听 0.0.0.0:9870,可以成功访问 HDFS WebUI。另外Y...

2020-02-05 15:20:13

Spark资源优化

提交Spark程序时,资源调优是必须的,否则会默认运行2个executor,每个executor内存1G。这里主要针对资源利用做个总结。主要涉及--num-executors--executor-memory--executor-cores--conf spark.default.parallelism服务器节点YARN可用资源服务器 单节点cores 总c...

2020-01-20 16:11:09

Spark性能测试Terasort

上次做了Hadoop集群的性能测试,因为主要的大数据开发工作在Spark上,这次做一下Spark的性能测试。CDH6.0.1环境Hadoop集群性能测试代码参考:spark-terasort因为使用的CDH6.0.1,Spark版本2.2.0,代码需要做一些修改,这里已经在Spark2.3源码下修改好并编译打包,放到了Spark的examples里,可以替换Spark的exampl...

2020-01-20 16:10:45

Spark2.4.3源码解析之总目录

1. Spark源码解析之启动脚本解析 2.Spark源码解析之org.apache.spark.launcher.Main源码解析 3. Spark源码解析之Master启动流程解析 4. Spark源码解析之Master实例化流程解析 5.Spark源码解析之worker启动流程解析 6. Spark源码解析之Worker实例化流程解析 7. Spark源码解析之org.apa...

2020-01-20 16:10:10

Spark源码解析之org.apache.spark.launcher.Main源码解析

不管是启动spark-shell,或者通过spark-submit提交jar,还是其他其他master或者worker的脚本,最后都会进入spark-class,并调用launch.main方法构建执行命令。java -Xmx128m -cp ...jars org.apache.spark.launcher.Main "$@"也就是说org.apache.spark.launcher....

2020-01-20 16:09:36

Spark源码解析之org.apache.spark.deploy.SparkSubmit源码解析

前面解读launch.main的时候已经了解了spark-submit的提交流程,这里大概看下流程。当打jar提交到集群运行的时候,一般会设置一些参数,例如本地提交examples的SparkPi:spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://192.168.2.1:7077 \D...

2020-01-20 16:08:59

IDEA本地启动Spark的Master和Worker

在Windows环境IDEA上解读Spark源码的时候,为了查看参数传递,总是连接服务器很麻烦。简单实现从本地启动Spark的Master和Worker,方便源码解读。1. 添加Maven依赖在spark-parent的pom.xml中添加guava依赖<!-- https://mvnrepository.com/artifact/com.google.guava/guav...

2020-01-19 15:16:19

Spark源码解析之Yarn Cluster模式启动流程源码解析

这里解读当sparksubmit提交模式为Yarn Cluster模式时的启动流程。SparkSubmit类的runMain()中执行到start()时,本地模式会进入本地提交的--class类的main中开始执行。 // 启动实例 app.start(childArgs.toArray, sparkConf)而Yarn Cluster模式,在prep...

2020-01-19 15:15:08

CDH环境Spark on Hue

Hue设置 --hue_safety_valve.ini[desktop] app_blacklist= use_new_editor=true [notebook] show_notebooks=true enable_batch_execute=true enable_query_builder=true[[interpreters]][[[hive...

2020-01-19 15:14:08

SparkSql 读写Hive 分区表(数据清洗类)

主要使用 SparkSql 对 Hive 分区表使用动态分区进行操作,根据规则对数据进行清洗等,除了刚导入数据时指定date范围清洗,后期按天进行清洗。package com.sm.cleandataimport java.io.Fileimport java.util.Propertiesimport com.sm.conf.ConfigurationManageri...

2020-01-19 15:13:12

Spark 读取 MySQL 的 tinyint(1) 类型字段数据为 true 和 false

场景Spark 读取 MySQL 数据写入Hive。MySQL 中存在字段类型为tinyint(1) 。Spark读取结果为写入Hive 后,结果为 0 和 1,除了 0 以外数值都为1。原因MySQL 中 Boolean 的类型为 tinyint(1),1 表示true,0 表示 false。即boolean = tinyint(1)。解决...

2020-01-19 15:11:23

十大经典排序算法

转载自:十大经典排序算法(动图演示)目录0、算法概述1、冒泡排序(Bubble Sort)2、选择排序(Selection Sort)3、插入排序(Insertion Sort)4、希尔排序(Shell Sort)5、归并排序(Merge Sort)6、快速排序(Quick Sort)7、堆排序(Heap Sort)8、计数排序(Counting Sort)...

2020-01-17 16:16:06

Oozie常用系统常量

常量表示形式 含义说明 ${coord:minutes(int n)} 返回日期时间:从一开始,周期执行n分钟 ${coord:hours(int n)} 返回日期时间:从一开始,周期执行n * 60分钟 ${coord:days(int n)} ...

2020-01-17 16:13:11

Oozie可视化JS安装

CDH中打开Oozie webUI提示以下信息:Oozie web console is disabled.To enable Oozie web console install the Ext JS library.Refer toOozie Quick Startdocumentation for details.安装Oozie可视化JS:版本:根据文...

2020-01-17 16:12:46

Oozie基于Hue全流程调度

使用任务调度框架Oozie调度业务数仓全流程。目录准备创建工作流定时调度Bundle准备1. 数仓流程说明业务数仓整个流程大致分为六个阶段,每个阶段都依赖于上阶段的计算结果,所以必须要上阶段执行完成再执行下一阶段:大致流程:MySQL -> HDFS -> ODS -> DWD -> DWS -> ADS -> ...

2020-01-17 16:12:17

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。