Rilakkuma-CSDN博客

原创 Apache Beam编译&运行Demo

ApacheBeam源码变异# 调整下build.gradle// mavenCentral()maven { url 'http://maven.aliyun.com/nexus/content/groups/public/'}# 编译spark-runner ./gradlew beam-runners-spark:buildgradle命令学习./gradlew tasks...

2019-04-09 19:18:39 1206

原创 Spark Streaming 基于Yarn集群提交任务疑惑

参考项目： https://github.com/LiShuMing/spark-demos疑惑一、Spark提交任务依赖包问题？使用Spark打jar包是个比较头疼的问题： * 不能包冗余的依赖（比如hadoop/hbase）放到jar包里，有可能导致运行环境污染； * 不能太少：如果缺少必要的jar包，则会抛NoClassFoundException；所以，在使用场...

2018-05-17 10:52:29 1238

原创 Spark支持kerberos环境下的Kafka、Hbase传输

一、准备环境：创建Kafka Topic和HBase表1. 在kerberos环境下创建Kafka Topic1.1 因为kafka默认使用的协议为PLAINTEXT，在kerberos环境下需要变更其通信协议：在${KAFKA_HOME}/config/producer.properties和config/consumer.properties下添加security.pr...

2018-05-14 19:46:32 2469

原创 Yarn下CGroups对CPU限制的理解

好奇Yarn CGroup限制是怎么样对CPU做限制的？CGroup对CPU的限制cpushares隔离: 给我们提供了一种可以按权重比率弹性分配cpu时间资源的手段;当cpu空闲的时候，某一个要占用cpu的cgroup可以完全占用剩余cpu时间，充分利用资源。而当其他cgroup需要占用的时候，每个cgroup都能保证其最低占用时间比率，达到资源隔离的效果。cpuset隔...

2018-04-25 20:00:06 1620

原创 Java环境下编译支持Debian/Centos系统安装镜像

项目需要编译镜像安装，现在梳理下在Debian/Centos系统下编译可安装镜像的方法。在项目中配置pom.xml如下，支持deb/centos系统： <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> ...

2018-04-20 11:43:05 499 1

原创 NameNode JVM配置详解

NameNode JVM配置详解线上NameNode JVM如下/home/hadoop/java-current/bin/java-Dhadoop.log.dir=/mnt/dfs/5/hdfs/logs-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/home/hadoop/hdfs-2.7.3-Dhadoop.id.str=r...

2018-04-20 11:27:08 2302 1

原创在Hive表中支持HBase操作

非Kerberos环境环境部署将HBase Master/lib下的一下jar包复制到到hiveserver/lib下：root@hzadg-mammut-platform7:/usr/ndp/current/hive_server2/lib/hive-jars# ls -alhtotal 14Mdrwxr-xr-x 2 root root 4.0K Apr 20 ...

2018-04-20 11:24:18 274

原创 Zookeeper服务开启jmx通过jconsole进行监控

配置在./bin/zkServer.sh中添加开启jmx的命令如下：if [ "x$JMXLOCALONLY" = "x" ]then JMXLOCALONLY=falsefiif [ "x$JMXDISABLE" = "x" ]then echo "JMX enabled by default" >&2 # for some reaso

2018-03-30 17:01:47 2057

原创在github/gitlab上打一个pull的patch

梳理比如这样一个请求(Merge Request): https://github.com/apache/spark/commit/c68ec4e6a1ed9ea13345c7705ea60ff4df7aec7b在这个commit后面添加patch，并保存该patch文件 https://github.com/apache/spark/commit/c68ec4e6a1e...

2018-03-29 14:52:35 2135

原创 HBase Master启动认证kerberos失败&问题解决

1. 问题复原在kerberos环境下启动HBase时，包如下错误：2018-03-29 11:59:12,828 INFO [main-SendThread(hadoop2497.jd.163.org:2181)] zookeeper.ClientCnxn: Socket connection established to hadoop2497.jd.163.org/10.196.67...

2018-03-29 14:33:33 2263

原创基于Ambari 滚动、快速升级实现调研(内源版本)

背景当前现状当前的Ambari自身仍然不支持版本的升级，所以下一个版本NDP-3.3.0该如何升级存在着疑问：比如说当前的NDP-3.2.0，如果猛犸上线新的的mammut 4.16对应的的NDP-3.3.0版本，该怎么操作？或者在NDP-3.3.0版本中做了hadoop从2.7.3到2.8.2的升级，这个时候该如何操作？尽管内部开发了支持包替换的升级方式，但该方法只能做...

2018-03-28 17:02:39 1134

原创基于角色权限管理系统数据库表设计结构(常用电商客户管理后台)

表结构用户表各种角色用户基本信息表：客户、店主、管理员均使用本表； +---------------------+-------------+------+-----+---------------------+-----------------------------+| Field | Type | Null | Key...

2018-03-28 16:41:45 7299

原创 Ambari日常运维操作命令收集

Ambari REST API查询相关获取集群配置信息：http://hzadg-mammut-platform1.server.163.org:8080/api/v1/clusters/cluster1?fields=Clusters/desired_configs特定配置信息(cluster-env)：http://hzadg-mammut-platform1.server.163.o...

2018-03-28 16:35:41 1720

原创 Spark2.3.0之pyspark实现原理分析

背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data serialization and vectorized execution.SPARK-222...

2018-03-06 16:15:18 2475

原创 Spark 2.3.0支持ORC Vectorized矢量化源码分析

Vectorized ORC Reader: [SPARK-16060] Adds support for new ORC reader that substantially improves the ORC scan throughput through vectorization (2-5x). To enable the reader, users can set spark.sql....

2018-03-05 22:22:32 2882

原创 Hive及Spark中Join中过滤下推优化分析

前言：在Spark SQL中有一条PushPredicateThroughJoin优化规则，其原理是参考Hive中的Join规则完成的，具体参考本文的规则1/2。DefinitionsPreserved Row table: The table in an Outer Join that must return all rows. For left outer joins th...

2018-02-24 11:49:34 860

原创 Ambari之metainfo.xml详解

metainfo.xml定义了Ambari管理Service的一些配置内容，该文件对应Service定义起着至关重要的作用。结构一级结构 Field Usage Sample Values name service的名称，该名称必须保障在stack services中是唯一的 HDFS displayName 该servic...

2018-02-23 16:40:47 1851

原创 Ambari之自定义Stack和Service

背景可以从/ambari-server/src/main/resources/stacks源码中查找Stack的相关定义；当安装完ambari-server后，可以在/var/lib/ambari-server/resources/stacks目录下查找stack相关定义； Stack配置stack必须包含或者集成以下两个配置： stack_feature...

2018-02-23 16:40:10 2022

原创 Structured Streaming Programming Abstraction, Semantics, and APIs

介绍通过过去三年里部署、运维Spark Streaming的积累，我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。语义我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原静态表以及SQL/DataFrames的一些概念推广至Struct Streaming上。工作原理...

2018-02-23 16:38:39 312

原创 Facebook Spark 60TB Spark应用场景总结学习

可用性调优SPARK-13793 之前的PipedRDD实现容错性较差，只要发生fetch错误时，整个job就会失败，该PR改进了PipedRDD从而可以更优雅地处理fetch错误，使得job可以从失败中恢复；SPARK-13369 可配置最大fetch失败次数，对于长时间运行的服务，由于机器重启导致fetch失败的次数可能会显著增加，这里增加了一个可配置fetc...

2018-02-23 16:37:48 367

原创 Kafka常用命令整理

kinit 环境登录 kinit -kt /etc/security/keytabs/kafka.service.keytab kafka/[email protected]; 基本操作./bin/kafka-console-producer.sh --broker-list 10.201.168.136...

2018-02-23 15:49:06 667

原创 [TODO]Kafka及Kafka Streaming架构熟悉

基本概念名称解释 Broker 消息中间件处理节点，一个Kafka节点就是一个broker，一个或者多个Broker可以组成一个Kafka集群 Topic Kafka根据topic对消息进行归类，发布到Kafka集群的每条消息都需要指定一个topic Producer 消息生产者，向Broker发送消息的客户端 Consumer ...

2018-02-23 15:45:09 4489 1

原创关于Spark关注的一些问题

Issuesspark.storage.replication.proactive 针对RDD，开启block proactive(主动)复制机制：当Cached RDD在executor处理上失败时，如果有可用复制集则可以恢复过来，恢复至replica factor的数量；spark.storage.replication.topologyMapperspar...

2018-02-23 15:39:49 324

原创 Pyhon源码编译安装

下载版本python下载源码python2.7.11安装(记得要下载python 2.7版本的)，下载地址:http://www.python.org/download/安装步骤为（python 2.7的安装对是否能成功安装skyeye有决定性作用）：编译注意：没有这个两个编译选项，你会发现有无穷无尽的错误在等着你解决，不过我仍然相信你乐于去解决。 ./config...

2018-02-23 15:33:29 311

原创 [TODO]HBase及Phoenix环境熟悉

HBaseHLogSnapShot参考： http://www.cnblogs.com/cenyuhai/p/3712943.html写入/读取CompactionFiltershbase(main):075:0>show_filtersColumnPrefixFilterTimestampsFilterPageFilterMultip...

2018-02-23 15:31:48 399

原创 Ambari Metrics基于源码编译使用

编译(2.4.2)参考：https://cwiki.apache.org/confluence/display/AMBARI/Installation+Guide+for+Ambari+2.4.2wget http://www.apache.org/dist/ambari/ambari-2.4.2/apache-ambari-2.4.2-src.tar.gz (use the sugg...

2018-02-23 15:24:13 493

原创 HDFS Federation基于Ambari部署安装（调研文档）

一、 HDFS Federation架构* 在有Federation之前的HDFS架构NameSpace层: 管理路径、文件以及blocks的关系，同时支持文件系统的操作比如mkdir/put/get等； BlockStorage层： - Block Management: 维护Datanode中存储的映射关系，主要是支持block层的创建、删除、修改及副本的放置等； - Phy...

2018-02-23 15:18:43 1430 1

原创 [WIP] 大数据技术博客收藏

技术博客July结构之法、算法之道：http://blog.csdn.net/v_july_vdocker:https://www.docker.com刘未鹏： http://mindhacks.cnhttps://coolshell.cn/featuredhttp://dancres.github.io/Pages/http://blog.csdn.net/bluishglcS...

2018-02-23 15:04:04 486

原创 Spark HiveThriftServer2启动流程源码分析

本文从Beeline连接HiveThriftServer2开始，梳理下执行SQL的流程。分析借助重载方法，将原本执行在Hive上的任务，转变成SparkSession.sql()操作的。

2017-05-06 17:30:08 3877 2

原创 Spark On YARN启动流程源码分析

1. Spark On Yarn启动 ApplicationMaster;2. Sparn On Yarn启动 Executor;3. Spark On Yarn真实运行Driver/ApplicationMaster/Exector日志；

2017-05-06 13:43:03 3168 3

原创 Ubuntu14.04 下安装配置php5和nginx问题解决

1. 尝试了源码编译php5.3 configure install;2. 尝试了手动编译添加php-gd；3. 因为apt-get install php5有很多问题，尝试着这种方式安装；因为时间太晚了，就把浏览的网页放到这里，等有时间了再细细总结#在stackflow上，跟我遇到的问题一样，不过没有解决方案http://stackoverflow.com/q

2015-08-06 00:11:45 815

原创【leetcode刷题】栈的方式先序二叉树

问题：5.1.1 Binary Tree Preorder Traversal描述Given a binary tree, return the preorder traversal of its nodes’ values.For example: Given binary tree{1,#,2,3},1\2/3

2014-08-29 17:03:30 694

原创 Symfony安装配置失败

本来因为Symfony的强大，所以想瞅瞅看看，无奈官网

2014-07-02 00:23:59 2085

原创操作系统学习之进程通信（PCI）

MMIO(Memory mapping I/O)即内存映射I/O，它是PCI规范的一部分，I/O设备被放置在内存空间而不是I/O空间。从处理器的角度看，内存映射I/O后系统设备访问起来和内存一样。这样访问AGP/PCI-E显卡上的帧缓存，BIOS，PCI设备就可以使用读写内存一样的汇编指令完成，简化了程序设计的难度和接口的复杂性。I/O作为CPU和外设交流的一个渠道，主要分为两种，一种是P

2014-05-25 20:29:38 1366

转载 vim下注释多行或重复操作的学习

今天在调试一个小脚本时想要注掉几行代码，:(. how？刚接触shell, vim, 还没习惯其思考方式。google了一下，最简单的就是vim中的查找替换了。比如注释掉10到20行：:10,20s/^/^#/g 又想起来以前看过vim里有个录制宏的功能，温习了一下，步骤如下。将光标移至想要注释掉的第一行行首->ESC->qa->i->#->ESC->j->q　　

2014-05-21 23:12:46 1212

转载 Chrome插件的学习入门

参考网页：http://www.ituring.com.cn/article/60134我们准备编写一款显示用户计算机当前时间的扩展，这应该比Hello World有趣得多。设计思路是在浏览器的工具栏中显示一个时钟的图标，当用户点击这个图标时显示一个实时显示计算机时间的界面。首先新建一个名为my_clock的文件夹，在此文件夹中新建一个名为manifest.json的文件，内容如下：

2014-05-21 23:06:17 874

原创搜索引擎xunsearch的配置、安装

前言搜索引擎、文本识别这一块自己suo'ra

2014-05-21 23:01:24 1891

Python2.7 GDAL（win7 64位平台）之安装

GDAL VS2010 win7(64位)安装、使用说明（图文解析）

Professional Java Server Programming（ j2Ee Edition）

Robust quadrature filters

空空如也