自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

A Vimer's World

Cogito, ergo sum.

  • 博客(69)
  • 资源 (4)
  • 收藏
  • 关注

原创 【摘要】Cpp核心指南

Cpp核心指南摘要

2022-07-28 16:09:41 981

原创 【WIP】Seastar框架学习

Seastar框架学习基础。

2022-07-28 12:15:49 507

原创 【计算引擎日报】20220728

【计算引擎日报】20220728

2022-07-28 07:01:41 181

原创 Apache Beam编译&运行Demo

ApacheBeam源码变异# 调整下build.gradle// mavenCentral()maven { url 'http://maven.aliyun.com/nexus/content/groups/public/'}# 编译spark-runner ./gradlew beam-runners-spark:buildgradle命令学习./gradlew tasks...

2019-04-09 19:18:39 1206

原创 Spark Streaming 基于Yarn集群提交任务疑惑

参考项目: https://github.com/LiShuMing/spark-demos疑惑一、Spark提交任务依赖包问题?使用Spark打jar包是个比较头疼的问题: * 不能包冗余的依赖(比如hadoop/hbase)放到jar包里,有可能导致运行环境污染; * 不能太少:如果缺少必要的jar包,则会抛NoClassFoundException;所以,在使用场...

2018-05-17 10:52:29 1238

原创 Spark支持kerberos环境下的Kafka、Hbase传输

一、准备环境: 创建Kafka Topic和HBase表1. 在kerberos环境下创建Kafka Topic1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需要变更其通信协议: 在${KAFKA_HOME}/config/producer.properties和config/consumer.properties下添加security.pr...

2018-05-14 19:46:32 2469

原创 Yarn下CGroups对CPU限制的理解

好奇Yarn CGroup限制是怎么样对CPU做限制的?CGroup对CPU的限制cpushares隔离: 给我们提供了一种可以按权重比率弹性分配cpu时间资源的手段;当cpu空闲的时候,某一个要占用cpu的cgroup可以完全占用剩余cpu时间,充分利用资源。而当其他cgroup需要占用的时候,每个cgroup都能保证其最低占用时间比率,达到资源隔离的效果。cpuset隔...

2018-04-25 20:00:06 1620

原创 Java环境下编译支持Debian/Centos系统安装镜像

项目需要编译镜像安装,现在梳理下在Debian/Centos系统下编译可安装镜像的方法。在项目中配置pom.xml如下,支持deb/centos系统: <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> ...

2018-04-20 11:43:05 499 1

原创 NameNode JVM配置详解

NameNode JVM配置详解线上NameNode JVM如下/home/hadoop/java-current/bin/java-Dhadoop.log.dir=/mnt/dfs/5/hdfs/logs-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/home/hadoop/hdfs-2.7.3-Dhadoop.id.str=r...

2018-04-20 11:27:08 2302 1

原创 在Hive表中支持HBase操作

非Kerberos环境环境部署将HBase Master/lib下的一下jar包复制到到hiveserver/lib下:root@hzadg-mammut-platform7:/usr/ndp/current/hive_server2/lib/hive-jars# ls -alhtotal 14Mdrwxr-xr-x 2 root root 4.0K Apr 20 ...

2018-04-20 11:24:18 274

原创 Zookeeper服务开启jmx通过jconsole进行监控

配置在./bin/zkServer.sh中添加开启jmx的命令如下:if [ "x$JMXLOCALONLY" = "x" ]then JMXLOCALONLY=falsefiif [ "x$JMXDISABLE" = "x" ]then echo "JMX enabled by default" >&2 # for some reaso

2018-03-30 17:01:47 2057

原创 在github/gitlab上打一个pull的patch

梳理比如这样一个请求(Merge Request): https://github.com/apache/spark/commit/c68ec4e6a1ed9ea13345c7705ea60ff4df7aec7b在这个commit后面添加patch,并保存该patch文件 https://github.com/apache/spark/commit/c68ec4e6a1e...

2018-03-29 14:52:35 2135

原创 HBase Master启动认证kerberos失败&问题解决

1. 问题复原在kerberos环境下启动HBase时,包如下错误:2018-03-29 11:59:12,828 INFO [main-SendThread(hadoop2497.jd.163.org:2181)] zookeeper.ClientCnxn: Socket connection established to hadoop2497.jd.163.org/10.196.67...

2018-03-29 14:33:33 2263

原创 基于Ambari 滚动、快速升级实现调研(内源版本)

背景当前现状当前的Ambari自身仍然不支持版本的升级,所以下一个版本NDP-3.3.0该如何升级存在着疑问:比如说当前的NDP-3.2.0,如果猛犸上线新的的mammut 4.16对应的的NDP-3.3.0版本,该怎么操作?或者在NDP-3.3.0版本中做了hadoop从2.7.3到2.8.2的升级,这个时候该如何操作?尽管内部开发了支持包替换的升级方式,但该方法只能做...

2018-03-28 17:02:39 1134

原创 基于角色权限管理系统数据库表设计结构(常用电商客户管理后台)

表结构用户表 各种角色用户基本信息表:客户、店主、管理员均使用本表; +---------------------+-------------+------+-----+---------------------+-----------------------------+| Field | Type | Null | Key...

2018-03-28 16:41:45 7299

原创 Ambari日常运维操作命令收集

Ambari REST API查询相关获取集群配置信息:http://hzadg-mammut-platform1.server.163.org:8080/api/v1/clusters/cluster1?fields=Clusters/desired_configs特定配置信息(cluster-env):http://hzadg-mammut-platform1.server.163.o...

2018-03-28 16:35:41 1720

原创 Spark2.3.0之pyspark实现原理分析

背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data serialization and vectorized execution.SPARK-222...

2018-03-06 16:15:18 2475

原创 Spark 2.3.0支持ORC Vectorized矢量化源码分析

Vectorized ORC Reader: [SPARK-16060] Adds support for new ORC reader that substantially improves the ORC scan throughput through vectorization (2-5x). To enable the reader, users can set spark.sql....

2018-03-05 22:22:32 2882

原创 Hive及Spark中Join中过滤下推优化分析

前言: 在Spark SQL中有一条PushPredicateThroughJoin优化规则,其原理是参考Hive中的Join规则完成的,具体参考本文的规则1/2。DefinitionsPreserved Row table: The table in an Outer Join that must return all rows. For left outer joins th...

2018-02-24 11:49:34 860

原创 Ambari之metainfo.xml详解

metainfo.xml定义了Ambari管理Service的一些配置内容,该文件对应Service定义起着至关重要的作用。结构一级结构 Field Usage Sample Values name service的名称,该名称必须保障在stack services中是唯一的 HDFS displayName 该servic...

2018-02-23 16:40:47 1851

原创 Ambari之自定义Stack和Service

背景 可以从/ambari-server/src/main/resources/stacks源码中查找Stack的相关定义; 当安装完ambari-server后,可以在/var/lib/ambari-server/resources/stacks目录下查找stack相关定义; Stack配置stack必须包含或者集成以下两个配置: stack_feature...

2018-02-23 16:40:10 2022

原创 Structured Streaming Programming Abstraction, Semantics, and APIs

介绍通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。语义我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原静态表以及SQL/DataFrames的一些概念推广至Struct Streaming上。工作原理...

2018-02-23 16:38:39 312

原创 Facebook Spark 60TB Spark应用场景总结学习

可用性调优SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedRDD从而可以更优雅地处理fetch错误,使得job可以从失败中恢复;SPARK-13369 可配置最大fetch失败次数,对于长时间运行的服务,由于机器重启导致fetch失败的次数可能会显著增加,这里增加了一个可配置fetc...

2018-02-23 16:37:48 367

原创 Kafka常用命令整理

kinit 环境登录 kinit -kt /etc/security/keytabs/kafka.service.keytab kafka/[email protected]; 基本操作./bin/kafka-console-producer.sh --broker-list 10.201.168.136...

2018-02-23 15:49:06 667

原创 [TODO]Kafka及Kafka Streaming架构熟悉

基本概念 名称 解释 Broker 消息中间件处理节点,一个Kafka节点就是一个broker,一个或者多个Broker可以组成一个Kafka集群 Topic Kafka根据topic对消息进行归类,发布到Kafka集群的每条消息都需要指定一个topic Producer 消息生产者,向Broker发送消息的客户端 Consumer ...

2018-02-23 15:45:09 4489 1

原创 关于Spark关注的一些问题

Issuesspark.storage.replication.proactive 针对RDD,开启block proactive(主动)复制机制: 当Cached RDD在executor处理上失败时,如果有可用复制集则可以恢复过来,恢复至replica factor的数量;spark.storage.replication.topologyMapperspar...

2018-02-23 15:39:49 324

原创 Pyhon源码编译安装

下载版本python下载源码python2.7.11安装(记得要下载python 2.7版本的),下载地址:http://www.python.org/download/安装步骤为(python 2.7的安装对是否能成功安装skyeye有决定性作用):编译注意:没有这个两个编译选项,你会发现有无穷无尽的错误在等着你解决,不过我仍然相信你乐于去解决。 ./config...

2018-02-23 15:33:29 311

原创 [TODO]HBase及Phoenix环境熟悉

HBaseHLogSnapShot参考: http://www.cnblogs.com/cenyuhai/p/3712943.html写入/读取CompactionFiltershbase(main):075:0>show_filtersColumnPrefixFilterTimestampsFilterPageFilterMultip...

2018-02-23 15:31:48 399

原创 Ambari Metrics基于源码编译使用

编译(2.4.2)参考:https://cwiki.apache.org/confluence/display/AMBARI/Installation+Guide+for+Ambari+2.4.2wget http://www.apache.org/dist/ambari/ambari-2.4.2/apache-ambari-2.4.2-src.tar.gz (use the sugg...

2018-02-23 15:24:13 493

原创 HDFS Federation基于Ambari部署安装(调研文档)

一、 HDFS Federation架构* 在有Federation之前的HDFS架构NameSpace层: 管理路径、文件以及blocks的关系,同时支持文件系统的操作比如mkdir/put/get等; BlockStorage层: - Block Management: 维护Datanode中存储的映射关系,主要是支持block层的创建、删除、修改及副本的放置等; - Phy...

2018-02-23 15:18:43 1430 1

原创 [WIP] 大数据技术博客收藏

技术博客July结构之法、算法之道:http://blog.csdn.net/v_july_vdocker:https://www.docker.com刘未鹏: http://mindhacks.cnhttps://coolshell.cn/featuredhttp://dancres.github.io/Pages/http://blog.csdn.net/bluishglcS...

2018-02-23 15:04:04 486

原创 Spark HiveThriftServer2启动流程源码分析

本文从Beeline连接HiveThriftServer2开始,梳理下执行SQL的流程。分析借助重载方法,将原本执行在Hive上的任务,转变成SparkSession.sql()操作的。

2017-05-06 17:30:08 3877 2

原创 Spark On YARN启动流程源码分析

1. Spark On Yarn启动 ApplicationMaster;2. Sparn On Yarn启动 Executor;3. Spark On Yarn真实运行Driver/ApplicationMaster/Exector日志;

2017-05-06 13:43:03 3168 3

原创 Ubuntu14.04 下安装配置php5和nginx问题解决

1. 尝试了源码编译php5.3 configure install;2. 尝试了手动编译添加php-gd;3. 因为apt-get install php5有很多问题,尝试着这种方式安装;因为时间太晚了,就把浏览的网页放到这里,等有时间了再细细总结#在stackflow上,跟我遇到的问题一样,不过没有解决方案http://stackoverflow.com/q

2015-08-06 00:11:45 815

原创 【leetcode刷题】栈的方式先序二叉树

问题:5.1.1 Binary Tree Preorder Traversal描述Given a binary tree, return the preorder traversal of its nodes’ values.For example: Given binary tree{1,#,2,3},1\2/3

2014-08-29 17:03:30 694

原创 Symfony安装配置失败

本来因为Symfony的强大,所以想瞅瞅看看,无奈官网

2014-07-02 00:23:59 2085

原创 操作系统学习之进程通信(PCI)

MMIO(Memory mapping I/O)即内存映射I/O,它是PCI规范的一部分,I/O设备被放置在内存空间而不是I/O空间。从处理器的角度看,内存映射I/O后系统设备访问起来和内存一样。这样访问AGP/PCI-E显卡上的帧缓存,BIOS,PCI设备就可以使用读写内存一样的汇编指令完成,简化了程序设计的难度和接口的复杂性。I/O作为CPU和外设交流的一个渠道,主要分为两种,一种是P

2014-05-25 20:29:38 1366

转载 vim下注释多行或重复操作的学习

今天在调试一个小脚本时想要注掉几行代码,:(. how?刚接触shell, vim, 还没习惯其思考方式。google了一下,最简单的就是vim中的查找替换了。 比如注释掉10到20行::10,20s/^/^#/g 又想起来以前看过vim里有个录制宏的功能,温习了一下,步骤如下。将光标移至想要注释掉的第一行行首->ESC->qa->i->#->ESC->j->q  

2014-05-21 23:12:46 1212

转载 Chrome插件的学习入门

参考网页:http://www.ituring.com.cn/article/60134我们准备编写一款显示用户计算机当前时间的扩展,这应该比Hello World有趣得多。设计思路是在浏览器的工具栏中显示一个时钟的图标,当用户点击这个图标时显示一个实时显示计算机时间的界面。首先新建一个名为my_clock的文件夹,在此文件夹中新建一个名为manifest.json的文件,内容如下:

2014-05-21 23:06:17 874

原创 搜索引擎xunsearch的配置、安装

前言搜索引擎、文本识别这一块自己suo'ra

2014-05-21 23:01:24 1891

Python2.7 GDAL(win7 64位平台)之安装

Python2.7 GDAL(win7 64位平台)之安装

2013-08-03

GDAL VS2010 win7(64位)安装、使用说明(图文解析)

GDAL VS2010 win7(64位)安装、使用说明(图文解析)

2013-08-03

Professional Java Server Programming( j2Ee Edition)

Danny Ayers的《Java 服务器 高级编程》,在网上找了好久才找到的原文代码。书比较老的,但内容覆盖:XML,EJB,JDBC,JNDC,JavaMail,RMI,CORBA,Jini/JavaSpase,Apache。资源共享,希望对学习有帮助。

2013-06-09

Robust quadrature filters

关于马尔科夫随机场的复数滤波,Marroqain的。

2012-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除