8 Rilakkuma

尚未进行身份认证

学习,创造。Think Different

等级
博文 66
排名 5w+

Apache Beam编译&运行Demo

ApacheBeam源码变异#调整下build.gradle//mavenCentral()maven{url'http://maven.aliyun.com/nexus/content/groups/public/'}#编译spark-runner./gradlewbeam-runners-spark:buildgradle命令学习./gradlewtasks...

2019-04-09 19:18:39

Spark Streaming 基于Yarn集群提交任务疑惑

参考项目:https://github.com/LiShuMing/spark-demos疑惑一、Spark提交任务依赖包问题?使用Spark打jar包是个比较头疼的问题:*不能包冗余的依赖(比如hadoop/hbase)放到jar包里,有可能导致运行环境污染;*不能太少:如果缺少必要的jar包,则会抛NoClassFoundException;所以,在使用场...

2018-05-17 10:52:29

Spark支持kerberos环境下的Kafka、Hbase传输

一、准备环境:创建KafkaTopic和HBase表1.在kerberos环境下创建KafkaTopic1.1因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需要变更其通信协议:在${KAFKA_HOME}/config/producer.properties和config/consumer.properties下添加security.pr...

2018-05-14 19:46:32

Yarn下CGroups对CPU限制的理解

好奇YarnCGroup限制是怎么样对CPU做限制的?CGroup对CPU的限制cpushares隔离:给我们提供了一种可以按权重比率弹性分配cpu时间资源的手段;当cpu空闲的时候,某一个要占用cpu的cgroup可以完全占用剩余cpu时间,充分利用资源。而当其他cgroup需要占用的时候,每个cgroup都能保证其最低占用时间比率,达到资源隔离的效果。cpuset隔...

2018-04-25 20:00:06

Java环境下编译支持Debian/Centos系统安装镜像

项目需要编译镜像安装,现在梳理下在Debian/Centos系统下编译可安装镜像的方法。在项目中配置pom.xml如下,支持deb/centos系统:<plugins><plugin><groupId>org.codehaus.mojo</groupId>...

2018-04-20 11:43:05

NameNode JVM配置详解

NameNodeJVM配置详解线上NameNodeJVM如下/home/hadoop/java-current/bin/java-Dhadoop.log.dir=/mnt/dfs/5/hdfs/logs-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/home/hadoop/hdfs-2.7.3-Dhadoop.id.str=r...

2018-04-20 11:27:08

在Hive表中支持HBase操作

非Kerberos环境环境部署将HBaseMaster/lib下的一下jar包复制到到hiveserver/lib下:root@hzadg-mammut-platform7:/usr/ndp/current/hive_server2/lib/hive-jars#ls-alhtotal14Mdrwxr-xr-x2rootroot4.0KApr20...

2018-04-20 11:24:18

Zookeeper服务开启jmx通过jconsole进行监控

配置在./bin/zkServer.sh中添加开启jmx的命令如下:if["x$JMXLOCALONLY"="x"]thenJMXLOCALONLY=falsefiif["x$JMXDISABLE"="x"]thenecho"JMXenabledbydefault">&2#forsomereaso

2018-03-30 17:01:47

在github/gitlab上打一个pull的patch

梳理比如这样一个请求(MergeRequest):https://github.com/apache/spark/commit/c68ec4e6a1ed9ea13345c7705ea60ff4df7aec7b在这个commit后面添加patch,并保存该patch文件https://github.com/apache/spark/commit/c68ec4e6a1e...

2018-03-29 14:52:35

HBase Master启动认证kerberos失败&问题解决

1.问题复原在kerberos环境下启动HBase时,包如下错误:2018-03-2911:59:12,828INFO[main-SendThread(hadoop2497.jd.163.org:2181)]zookeeper.ClientCnxn:Socketconnectionestablishedtohadoop2497.jd.163.org/10.196.67...

2018-03-29 14:33:33

基于Ambari 滚动、快速升级实现调研(内源版本)

背景当前现状当前的Ambari自身仍然不支持版本的升级,所以下一个版本NDP-3.3.0该如何升级存在着疑问:比如说当前的NDP-3.2.0,如果猛犸上线新的的mammut4.16对应的的NDP-3.3.0版本,该怎么操作?或者在NDP-3.3.0版本中做了hadoop从2.7.3到2.8.2的升级,这个时候该如何操作?尽管内部开发了支持包替换的升级方式,但该方法只能做...

2018-03-28 17:02:39

基于角色权限管理系统数据库表设计结构(常用电商客户管理后台)

表结构用户表各种角色用户基本信息表:客户、店主、管理员均使用本表;+---------------------+-------------+------+-----+---------------------+-----------------------------+|Field|Type|Null|Key...

2018-03-28 16:41:45

Ambari日常运维操作命令收集

AmbariRESTAPI查询相关获取集群配置信息:http://hzadg-mammut-platform1.server.163.org:8080/api/v1/clusters/cluster1?fields=Clusters/desired_configs特定配置信息(cluster-env):http://hzadg-mammut-platform1.server.163.o...

2018-03-28 16:35:41

Spark2.3.0之pyspark实现原理分析

背景PySparkPerformanceEnhancements:[SPARK-22216][SPARK-21187]Significantimprovementsinpythonperformanceandinteroperabilitybyfastdataserializationandvectorizedexecution.SPARK-222...

2018-03-06 16:15:18

Spark 2.3.0支持ORC Vectorized矢量化源码分析

VectorizedORCReader:[SPARK-16060]AddssupportfornewORCreaderthatsubstantiallyimprovestheORCscanthroughputthroughvectorization(2-5x).Toenablethereader,userscansetspark.sql....

2018-03-05 22:22:32

Hive及Spark中Join中过滤下推优化分析

前言:在SparkSQL中有一条PushPredicateThroughJoin优化规则,其原理是参考Hive中的Join规则完成的,具体参考本文的规则1/2。DefinitionsPreservedRowtable:ThetableinanOuterJointhatmustreturnallrows.Forleftouterjoinsth...

2018-02-24 11:49:34

Ambari之metainfo.xml详解

metainfo.xml定义了Ambari管理Service的一些配置内容,该文件对应Service定义起着至关重要的作用。结构一级结构FieldUsageSampleValuesnameservice的名称,该名称必须保障在stackservices中是唯一的HDFSdisplayName该servic...

2018-02-23 16:40:47

Ambari之自定义Stack和Service

背景可以从/ambari-server/src/main/resources/stacks源码中查找Stack的相关定义;当安装完ambari-server后,可以在/var/lib/ambari-server/resources/stacks目录下查找stack相关定义;Stack配置stack必须包含或者集成以下两个配置:stack_feature...

2018-02-23 16:40:10

Structured Streaming Programming Abstraction, Semantics, and APIs

介绍通过过去三年里部署、运维SparkStreaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“StructStreaming”的实时计算项目。语义我们提出来一个简单的模型“repeatedqueries(RQ)”。基于该模型用户可以从原静态表以及SQL/DataFrames的一些概念推广至StructStreaming上。工作原理...

2018-02-23 16:38:39

Facebook Spark 60TB Spark应用场景总结学习

可用性调优SPARK-13793之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedRDD从而可以更优雅地处理fetch错误,使得job可以从失败中恢复;SPARK-13369可配置最大fetch失败次数,对于长时间运行的服务,由于机器重启导致fetch失败的次数可能会显著增加,这里增加了一个可配置fetc...

2018-02-23 16:37:48
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!