xqy1522-CSDN博客

原创 Heron（二）—-系统架构

Heron的总体架构如图1所示，用户开发的代码通过aurora scheduler的命令行进行提交，aurora schedule是一个跑在mesos上的框架。图1topology会以一个aurora任务的方式运行，topology包含持有一些container。如图2所示。第一个container运行的进程叫topology Master。其余的contai

2015-06-19 13:30:08 1113

原创 Heron(一)—-storm的一些短板

twitter在使用storm过程中发现了一些storm的弊端，开发Herons相对storm需要提升的几个特性：1）更好的扩展性， 2）更容易调试 3）更高的性能 4）更好管理–可以和其他系统复用资源

2015-06-18 18:24:01 3312

转载 Eclipse上GIT插件EGIT使用手册之八_解决推送冲突

多人协作开发的情况下，往服务器推送更新时难免出现冲突，所以推送之前需要解决服务器端的最新版本和本地仓库的冲突。Pull操作就是把服务器端的更新拉拢到本地仓库进行合并，解决好合并冲突后，就可以顺利push到服务器分支了。假设现在Mairo兄弟在用GIT协作开发NewSuperMairoBro游戏，目前服务器端的mushroom.java文件的内容如下：MairoBro克隆出代

2013-09-08 18:44:18 1087

翻译 Trident API概述

Storm Trident的核心数据模型是一批一批被处理的“流”，“流”在集群的分区在集群的节点上，对“流”的操作也是并行的在每个分区上进行。 Trident有五种对“流”的操作：1. 不需要网络传输的本地批次运算2. 需要网络传输的“重分布”操作，不改变数据的内容3. 聚合操作，网络传输是该操作的一部分4. “流”分组（grouby

2013-01-19 16:09:29 4749 5

转载 Ganglia安装

转自：http://share.blog.51cto.com/278008/577554一、所需要软件二、安装过程 1、Ganglia运行平台的安装 2、Ganglia依赖库的安装 3、RRDTool的安装 4、Ganglia的安装 (包括使用yum方式安装)三、简单配置四、启动与访问五、被监控节点上安装Ganglia (包括

2012-12-26 16:45:57 5999 1

原创 zk四字命令

zk命令描述conf输出相关服务配置详细信息cons列出所有连接到服务端的客户端的连接/会话的详细信息。包括“接受/发送”包数据，回话ID，网络延迟，最后执行的操作等信息dump列出未经处理的回话和临时节点envi输出关于服务环境的详细信息（区别于conf命令）reqs列出未经处理的请求ruok测试

2012-12-18 09:24:31 3077

转载 JVM 各种OOM问题与解决方法

转自：http://zhaohe162.blog.163.com/blog/static/38216797201110232341953/1、OOM for Heap=>例如：java.lang.OutOfMemoryError: Java heap space【分析】此OOM是由于JVM中heap的最大值不满足需要，将设置heap的最大值调高即可，参数样例为：-Xmx2G【解决

2012-12-11 16:17:08 1480

转载 Storm zk目录结构

转自：http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面，nimbus通过在zookeeper上面写状态信息来分配任务，supervisor，task通过从zookeeper中读状态来领取任务，同时supe

2012-12-06 10:08:04 1571

转载 linux忘记root密码处理方法

转自：http://www.linuxso.com/linuxrumen/598.html一、在系统进入单用户状态，直接用passwd root去更改；　　1、 lilo　　在出现 lilo: 提示时键入 linux single　　画面显示 lilo: linux single　　回车可直接进入linux命令行　　#vi /etc/shadow　　将第一行，即以roo

2012-08-30 13:41:12 712

原创 storm自定义grouping

storm有很多种grouping方案storm wiki上面对各种grouping的说明如下：Stream groupingsPart of defining a topology is specifying for each bolt which streams it should receive as input. A stream grouping defines ho

2012-08-29 16:44:49 7886 1

转载 java LRUCache

2012-08-27 16:15:43 1410

原创 bloom filter简单实现

再流计算中计算UV是个相当麻烦的事情，特别数据量很大的时候，中间存储就大的吓人。最近项目中遇到分类目计算UV，UV量大概在7000W，有20w多个类目。如果使用简单的存储中间结果再去重，如果使用内存内存打不下，使用Hbase的话HBASE的吞吐又不够。于是准备使用bloom近似计算UV。写了个bloom filter的demo程序，由于uid都为数字在计算hash值时碰撞率比较搞，于是

2012-08-23 18:42:07 1652

原创 java bitmap实现

public class BitArray { private int[] bits = null; private long length; private final int[] bitValue = { 0x80000000, 0x40000000,

2012-08-23 18:31:50 6489 1

转载 twitter storm 配置项

转自：http://blog.csdn.net/larrylgq/article/details/7230871配置项配置说明storm.zookeeper.serversZooKeeper服务器列表storm.zookeeper.portZooKeeper连接端口storm.local.dirstorm使用的本地文件系统目录

2012-07-16 11:09:51 1594

转载 centOS安装ZeroMQ

centOS安装ZeroMQ所需组件及工具：yum install gccyum install gcc-c++yum install makeyum install uuid-develyum install libuuid-devel JZMQ安装过程中错误及所需组件：错误：autogen.sh: error: could not

2012-05-14 12:21:19 2235

转载使用hdfsAPI读写hdfs

转自：http://blog.csdn.net/zhangzhaokun/article/details/55974331、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件，不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了，最初我就是在这里吃了大亏，所以我死活连不上HDFS，文件无法创建、读取。

2012-05-03 14:50:23 4058

转载如何设计插件式结构的程序，兼谈Python语言的动态性

转自：http://besteam.im/blogs/article/81/为了扩充软件的功能，通常我们会把软件设计成插件式结构。Python这样的动态语言天生就支持插件式编程。与C++相比，Python已经定义好模块的接口，想要载入一个插件，一个__import__()就能很轻松地搞定。不需要特定的底层知识。而且与C++等静态语言相比，Python的插件式结构更显灵活。因为插件载入后，可

2012-04-25 12:18:40 4867

原创 Hive.g文件的编译

对hive进行二次开发的过程中可能需要修改hive.g文件，需要使用antrl重新编译生成HiveLexer.java和HiveLexer.java文件，对编译过程做一个简单的记录编译需要文件：antlr-2.7.7.jar http://www.java2s.com/Code/Jar/a/Downloadantlr277jar.htm 下载antlr-3.0.1.j

2012-04-17 10:39:57 3609

转载 Hadoop中TeraSort算法分析

本文转自：http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/1、概述1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业，在2008年，Hadoop在1TB排序基准评估中赢得第一名，耗时209秒。那么Terasort在Hadoop中是怎样实现的呢？本文主要

2012-03-21 09:50:36 839

转载 Hive-0.5中UDF和UDAF简述

本文转自：http://blog.csdn.net/dajuezhao/article/details/5753001一、UDF1、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integ

2012-03-20 13:58:32 884

转载 hadoop错误INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1

hadoop安装完成后，必须要用haddop namenode format格式化后，才能使用，如果重启机器在启动hadoop后，用hadoop fs -ls命令老是报 10/09/25 18:35:29 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s).

2012-03-07 10:37:32 27271 3

原创 postgresql分区表笔记

最近在做oracle数据库向pg迁移的事情，非分区表使用ora2pg很容易迁移，遇到分区表的时候，发现由于oracle中的分区表分区表都采用的“P_日期”作为分区名，ora2pg导出的sql中pg子表名成为“p_日期”，导致大量的表名重复出错，只有在ora2pg到处的文件上进行手工修改，这里整理一下pg分区表的知识。###################################

2012-02-06 18:15:08 1920

原创 linux Pljava源码安装笔记

由于最近要使用postgresql处理一些java的数据类型，主备使用pljiava。准备：1. Postgresql预先安装好（我使用的版本是9.1）2. 准备pljiava安装文件，可以到http://pgfoundry.org/frs/?group_id=1000038下载，我使用的是pljava-src-1.4.3.tar.gz3. 准备java1.4或1.5 （java

2012-01-11 16:51:51 1621

原创 linux下postgresql数据库debug环境搭建

1.准备下载postgresql安装文件，从http://www.postgresql.org/download/下载需要的版本安装readline（非必须）。如果需要使用zlib，ssl等则需要先安装zlib，ssl库，不需要使用则可以不安装。2. 创建用户groupadd postgresuseradd -g postgres postgres3.安装

2012-01-09 21:27:36 2905

转载 postgresql 维护与优化

原文：http://ruimemo.wordpress.com/2010/03/31/postgresql-performance-and-maintenance-%EF%BC%88postgres-%E4%BC%98%E5%8C%96%E4%B8%8E%E7%BB%B4%E6%8A%A4/每次看postgresql的设定，好像每次都忘记。过一段时间又要看。今天终于决定，开始blog吧

2011-12-20 16:58:15 1428

转载 postgresql/greenplum查询依赖于表上的视图

本文转自：http://blog.csdn.net/scutshuxue/article/details/6791213#quote 在postgresql、greenplum中，我们经常需要重建某张表，为了方便回滚，我们一般将原表rename掉，然后重建原表。这样子，就会有一个问题：依赖于原表的视图还是依赖于rename的表，没有依赖于新表。这是因为视图定义的时

2011-12-19 18:12:29 1654

转载 greenplum(postgresql)之数据字典

本文转自：http://blog.csdn.net/scutshuxue/article/details/6371803 greenplum是基于postgresql开发的分布式数据库，里面大部分的数据字典是一样的。我们在维护gp的时候对gp的数据字典比较熟悉，特此分享给大家。在这里不会详细介绍每个字典的内容，只会介绍常见的应用以及一些已经封装好了的函数。具体的介绍大家可以去看postgr

2011-12-19 18:10:45 4558

转载 [PostgreSQL] PG91 的 Replication + Hot Stanby 配

转自：http://godbms.blogspot.com/2011/11/pg91-replication-hot-stanby.html1. 初始化$ initdb -D path/to/pg911-prim --encoding=UTF-8 --no-locale --pwprompt --auth=md52. 免密码设置(hostname:port:da

2011-12-14 13:52:35 1884

转载 postgres数据库坏块修复

转自：http://www.redgres.com/web/node/17 由于磁盘坏道或者是内存问题等硬件上的原因，有时候会导致数据库的数据文件的一些数据块的损坏，使得某些表不能正常访问，本文谈一下PostgreSQL数据块损坏时候，表数据的恢复方法 PostgreSQL采用一个表存放在一个或者多个物理文件，所以数据块的损坏一般只会影响到一个表，使得该表的数据不能查询或者是备份，下

2011-11-10 10:03:24 4418

转载 HBase存储架构

转自：http://blog.csdn.net/trend_cdc_spn/article/details/5755620 HBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问题向你抱怨，但是如果你想学习哪些高级的配置选项并了解它们的意思，你可能就需要来了解一下这个存储问题了。“怎样才能把HBase调整到最适合我需求的状态？”你可能对于这样一系列类

2011-11-08 10:40:20 827

转载 LevelDB内部实现

作者：Jeff Dean, Sanjay Ghemawat原文：leveldb.googlecode.com译者：phylips@bmy译文：duanple.blog.163.comFilesLevelDB的实现本质上类似于Bigtable中的tablet(参见Bigtable论文5.3节)。但是，与论文中的具体的文件组织方式稍有不同，解释如下：每个

2011-11-07 14:57:25 949

转载 protobuf和thrift对比

本文转自：http://liuchangit.com/development/346.html数据类型protobufthriftprotobufthriftprotobufthriftprotobufthriftdoubledoublefloat

2011-11-07 09:52:11 19756 1

原创 postgresql与mysql使用dblink联通

posrgresql默认的dblink只能联通posrgresql的不同数据库，不能进行异构数据库的联通，本文将介绍使用mysql_fdw联通posrgresql和mysql。mysql_fdw官网为：http://pgxn.org/dist/mysql_fdw/1.0.0/

2011-10-10 16:13:50 4323

原创 postgresql建立外表

POSTGRESQL9.1 版本支持了外表，今天进行一个简单的测试：1. 导入外表插件：pgdb1=# create extension file_fdw;CREATE EXTENSIONcreate extension参见手册：http://www.postgre

2011-09-21 18:02:20 3840

转载 Linux文件系统Ext2,Ext3,Ext4性能大比拼

转自：http://www.weste.net/2009/2-2/19320553262.htmlLinux kernel 自 2.6.28 开始正式支持新的文件系统 Ext4。 Ext4 是 Ext3 的改进版，修改了 Ext3 中部分重要的数据结构，而不仅仅像 Ext3

2011-09-19 18:05:20 1184

转载软件raid配置

转自：http://opkeep.com/system/linux/linux_raid.html安装程序实现软件RAID代替硬件RAID的方法，今天再进一步谈谈手动创建软RAID和日常维护的方法。mdadm使用的也是md驱动，由于其拥有多种模式，而且单一工具，不依赖

2011-09-19 17:17:50 1680

原创堆表和索引组织表区别

堆表（heap table）数据插入时时存储位置是随机的，主要是数据库内部块的空闲情况决定，获取数据是按照命中率计算，全表扫表时不见得先插入的数据先查到。索引表（iot）数据存储是把表按照索引的方式存储的，数据是有序的，数据的位置是预先定好的，与插入的顺序没有关系。索引表

2011-09-05 16:52:34 14810 1

原创 mysql ERROR2002(HY000):can't connect to local MYSQL server through socket '/var/run/mysql/mysql.soc'

今天准备将hive的元数据库改为mysql，于是安装了mysql，遇到写问题，顺便记录下。安装完成后执行：#mysql ERROR2002(HY000):can't connect to local MYSQL server through socket

2011-09-02 18:18:11 2404 1

转载 hive 参数设定

本文转自：http://www.oschina.net/question/12_9024开发Hive应用时，不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率，或帮助定位问题。然而实践中经常遇到的一个问题是，为什么设定的参数没有起作用？

2011-09-02 15:09:02 1761

原创 hive源码结构分析（编译器）

本文转自：http://samuschen.iteye.com/blog/860809Hive 是将 SQL 语句转换成 hadoop 的 MapReduce 程序，通常在客户端执行 hive 命令，然后输入 SQL 语句后， hive 将 SQL 语句生成多个 MR 的 j

2011-09-01 17:22:13 1954

空空如也

空空如也