小桥-CSDN博客

转载 Kafka剖析（一）：Kafka背景及架构介绍

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展，“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建

2015-03-19 21:49:23 1077

转载 Linux流量监控工具 - iftop (最全面的iftop教程)

在类Unix系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量，监控TCP/IP连接等，则可以使用iftop。一、iftop是什么？iftop是类似于top的实时流量监控工具。官方网站：http://www.ex-parrot.com/~pdw/iftop/二、iftop有什么用？

2015-03-06 14:00:59 734

转载 Linux网络流量实时监控ifstat iftop命令详解

ifstat介绍ifstat工具是个网络接口监测工具,比较简单看网络流量实例默认使用#ifstat eth0 eth1 KB/s in KB/s out KB/s in KB/s out 0.07 0.20 0.00 0.00 0.07

2015-02-09 18:05:06 1044

转载 linux下iftop安装使用

在类linux系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量，监控TCP/IP连接等，则可以使用iftop.一、iftop是什么？iftop是类似于top的实时流量监控工具。官方网站：http://www.ex-parrot.com/~pdw/iftop/二、iftop有什么用？iftop可以用

2015-02-09 17:15:09 1915

转载 zookeeper代码解析

zookeeper代码解析ZooKeeper是近期比较热门的一个类Paxos实现。也是一个逐渐得到广泛应用的开源的分布式锁服务实现。被认为是Chubby的开源版，虽然具体实现有很多差异。ZooKeeper概要的介绍可以看官方文档：http://hadoop.apache.org/zookeeper 这里我们重点来看下它的内部实现。ZooKeeper集群中的每个server都

2014-11-26 21:20:06 749

原创 kafka 2.10-8.1.1安装

1. 解压安装包2. 配置server.properties (现在线上配置)目录在 config 下，修改配置信息修改 broker.id 为不同的值0 ，1 ，2 ...host.name 设置IP 供连接使用zookeeper.connect 设置 zk 地址例如：zkhost1:port1,zkhost2:port2,zkhost3:port3/kafk

2014-11-20 17:00:08 1818

转载 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonSe

2014-11-12 20:38:54 681

转载 HBase性能优化方法总结（四）：数据计算

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第四部分内容：数据计算相关的优化方法。4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端，各个Regions保持对与其相关的coprocessor实现类的

2014-11-12 18:00:27 729

转载 HBase性能优化方法总结（三）：读表操作

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容：读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作，提高读数据的吞吐量，一个例子：static final Configurat

2014-11-12 17:59:39 869

转载 HBase性能优化方法总结（二）：写表操作

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容：写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作，提高写数据的吞吐量，一个例子：static final Configurat

2014-11-12 17:58:46 676

转载 HBase性能优化方法总结（一）：表的设计

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容：表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户

2014-11-12 17:56:30 621

原创 kafka 集群运维和使用

最近在维护kafka集群，遇到了很多问题都需要记录下，1. kafka 的topic 级别的配置修改

2014-11-08 14:43:19 17582 13

转载使用zssh远程传送文件

zssh的全名叫ZMODEM SSH.看名字就知道，使用的zmodem，我们习惯了SecureCRT,直接就可以用来发送文件，比使用scp方便很多。zmodem协议方便主要表示在以下点其一,不需要输入很长的命令和密码，直接使用rz,sz加文件名，就能实现文件的收发。速度还很快。其二,在中转了一台主机时，要在目标主机和本地主机之类，要传送文件，scp相当的麻烦，需要输入多次命

2014-10-27 13:02:01 1112

转载 linux 机器之间 zssh, rz, sz互相传输 ( How to install zssh in Ubuntu 13.10 (Saucy))

zssh 用法是：像用ssh命令一样用zssh登录主机；在命令输入状态中按下ctrl+2(@键)进入zssh状态； $sz 本地文件名 [可选参数-be:二进制方式] 上传文件完成（我在用时输出了一些乱码，但没影响上传）下载是反出来的，先sz文件再ctrl+2再输入rz 更新：在archlinux上安装zssh须在AUR中找包，安装时依赖没有解决好，还需要安装lrzsz，否则

2014-10-27 13:00:50 1199

转载 HBase条件查询（多条件查询）

Author：Pirate LeomyBlog: http://blog.csdn.net/pirateleo/myEmail: [email protected]转载请注明出处，谢谢。文中可能涉及到的API：Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase: http:

2014-10-24 16:02:04 712

转载 Storm实战常见问题及解决方案

该文档为实实在在的原创文档，转载请注明:http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html类型详细备注该文档是群里几个朋友在storm实战中遇到的一些问题，及其对应解决办法。相关描述² 其他相关文档请参考新浪博客http://blo

2014-10-18 15:19:40 1140

转载 kafka 监控之Mx4jLoader

接上一篇kafka监控的博文讲起，在kafka 源码kafka/utils中有Mx4jLoader.scala源码，源码注释功能如下：?123456789/** * If mx4j-tools is in the classpath call maybeLoad to load the HTTP interface

2014-10-15 09:50:01 2119

转载 Solr开发文档:Solr详细介绍

Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中，将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境：System：WindowsWebBrowser：IE6+、Firefox3+JDK：1.6+JavaEE Server：tomcat5

2014-08-25 22:45:56 855

转载 Hadoop web编程--REST API

1 介绍 Hadoop提供了一个Java native API来支持对文件系统进行创建，重命名，删除文件或者目录，打开读取或者写文件，设置文件权限等操作。这对于运行在hadoop集群中的应用程序来说是挺棒的，但是，也有许多外部的应用程序需要操作HDFS的情况，怎么办？如果解决这种问题呢？Hortonworks 开发了一些额外的API来支持这些基于标准REST功能的需求。

2014-08-25 22:29:52 1051

转载国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程

前言 hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。 hadoop2出来后，解决了hadoop1的几个固有缺陷，比如单点故障、资源利用率低、支持作业类型少等问题，结构发生了很大变化，是hadoop未来使用的一个趋势。当然，配置也更加复杂

2014-08-21 14:27:39 948

转载 hadoop用MultipleInputs/MultiInputFormat实现一个mapreduce job中读取不同格式的文件

hadoop中提供了 MultiOutputFormat 能将结果数据输出到不同的目录，也提供了 FileInputFormat 来一次读取多个目录的数据，但是默认一个job只能使用 job.setInputFormatClass 设置使用一个inputfomat处理一种格式的数据。如果需要实现在一个job中同时读取来自不同目录的不同格式文件的功能，就需要自己实现一个 MultiInput

2014-08-14 23:49:30 2028

转载如何使用Hadoop的ChainMapper和ChainReducer

Hadoop的MR作业支持链式处理，类似在一个生产牛奶的流水线上，每一个阶段都有特定的任务要处理，比如提供牛奶盒，装入牛奶，封盒，打印出厂日期，等等，通过这样进一步的分工，从而提高了生产效率，那么在我们的Hadoop的MapReduce中也是如此，支持链式的处理方式，这些Mapper像Linux管道一样，前一个Mapper的输出结果直接重定向到下一个Mapper的输入，形成一个流水线，而这一点与L

2014-08-14 23:47:25 625

转载 hadoop 一个Job多个MAP与REDUCE的执行

在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理，再进行reduce，经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理，这样的Job是不会保存中间结果的，并大大减少了I/O操作。例如：在一个Job中，按顺序执行 MAP1->MAP2->REDUCE->MAP3->MAP4 在这种链式结构中，要将MAP2与REDUCE看成这个MAPRE

2014-08-14 23:46:27 2608

转载腾讯深度学习平台（译）

1 介绍1.1 背景腾讯提供了一些列Internet服务，比如拥有3.9亿左右月激活用户的微信(WeChat)、以及8.4亿左右QQ用户和6.4亿左右的QZone用户。这些数据是来自于2014年第一季度。腾讯拥有超过100PB数据，这些数据由不同的应用以及不同的用户产生的，用户生成的数据比如有照片、语音和视频。近些年深度学习在大数据挖掘已经成为一个热点，也在不同领域取得了突破性

2014-08-14 09:23:30 2042

转载 Ceph：一个 Linux PB 级分布式文件系统

作为一名存储行业的架构师，我对文件系统情有独钟。这些系统用来存储系统的用户界面，虽然它们倾向于提供一系列类似的功能，但它们还能够提供差异显著的功能。Ceph 也不例外，它还提供一些您能在文件系统中找到的最有趣的功能。Ceph 最初是一项关于存储系统的 PhD 研究项目，由 Sage Weil 在 University of California, Santa Cruz（UCSC）实施。但是

2014-08-07 08:47:46 1166

转载 MapReduce on Avro Data Files

MapReduce on Avro Data Files时间2014-03-10 13:11:41 Architects Zone原文 http://java.dzone.com/articles/mapreduce-avro-data-files Related MicroZone ResourcesBuild Big Data Apps with

2014-08-04 11:38:37 1115

转载一个完整的Avro数据序列化例子

1.环境准备: 在Avro官网下载Avro的jar文件，以最新版本1.7.4为例，分别下载avro-1.7.4.jar和avro-tool-1.7.4.jar;并下载JSON的jar文件core-asl和mapper-asl。将以上四个文件放入${HADOOP_HOME}/lib目录下(当前为/usr/local/hadoop/lib，为了以后hadoop项目方便)。2

2014-07-22 17:15:52 6952

转载 kafak学习之分享ppt

组内分享Kafak的ppt，希望大家多提建议：

2014-07-16 22:53:49 1927

转载 Java高速、多线程虚拟内存

本文作者Alex已经从事Java开发15年了，最近帮助开发了COBOL和Magik语言的JVM 。当前，他正致力于Micro Focus的Java性能测试工具。在本文中，他阐述了在标准硬件中实现高速、多线程虚拟内存的可能性及方案。原文内容如下。你想在标准硬件上运行TB级甚至PB级内存的JVM吗？你想与内存交互一样读写文件，且无需关心文件的打开、关闭、读、写吗？ JVM的64位地址

2014-07-16 22:48:00 652

转载 Hive Server 2 调研，安装和部署

背景我们使用Hive Server 1已经很长时间了，用户ad-hoc query，hive-web, wormhole，运营工具等都是通过hive server来提交语句。但是hive server极其不稳定，经常会莫名奇妙假死，导致client端所有的connection都被block住了。对此我们不得不配置一个crontab检查脚本，会不断执行"show tables

2014-07-14 17:33:17 964

转载使用daemontools监控Zookeeper服务

daemontools(http://cr.yp.to/daemontools.html)是一个管理UNIX下服务的工具集。supervise监视一个服务。它启动一个服务、当服务停掉时它会重起服务。Zookeeper在运行过程中，如果出现一些无法处理的异常，会直接退出进程，也就是所谓的快速失败（fail fast）模式。daemontools 能够帮助你监控ZK进程，一旦进程退出后，能够自

2014-05-16 13:43:01 1163 1

转载 hadoop集群配置机架感知

自己搭建的hadoop集群一般默认不具备机架感知能力，为了提高hadoop集群的网络性能，我们常常需要配置机架感知。下面是以下步骤：一、修改配置文件core-site.xml，添加配置属性： topology.script.file.name/home/r203/hadoop-0.20.2/rackaware.py　　二、编写自己的脚本rackaware.py：

2014-05-15 13:26:41 1089

转载 HDFS 的Trash回收站功能的配置、使用

文件的删除和恢复和Linux系统的回收站设计一样，HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户通过Shell删除的文件/目录，在系统回收站中都一个周期，也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话，HDFS就会自动的把这个文件/目录彻底删除，之后，用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就

2014-05-15 13:26:06 1317

转载 hadoop使用lzo压缩文件笔记 (CDH3u1)

LZO性能编译LZO下载： http://www.oberhumer.com/opensource/lzo/download/ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装：tar -zxf lzo-2.06.

2014-05-06 14:37:51 1389

转载 MapReduce的自制Writable分组输出及组内排序

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://computerdragon.blog.51cto.com/6235984/1287721问题描述：输入文件格式如下：name1 2name3 4name1 6name1 1name3 3

2014-05-06 14:26:22 795

转载如何使用Hadoop的MultipleOutputs进行多文件输出

有时候，我们使用Hadoop处理数据时，在Reduce阶段，我们可能想对每一个输出的key进行单独输出一个目录或文件，这样方便数据分析，比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用MultipleOutputs类，来搞定这件事，下面，先来看下散仙的测试数据： Java代码中国;我们美国;他们中国;123 中

2014-05-06 14:01:57 1575

转载 [MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录

本文主要讲解三个问题： 1 使用Java编写MapReduce程序时，如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何

2014-04-28 21:30:03 7014

转载 HDFS中文件的压缩与解压

文件的压缩有两大好处：1、可以减少存储文件所需要的磁盘空间；2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时，这两大好处是相当重要的。　　下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩，压缩后为/user/hadoop/text.gz

2014-04-21 17:10:37 5704 1

转载 Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用

自定义实现RCFileOutputFormat.java 1.import java.io.IOException; 2. 3.import org.apache.Hadoop.conf.Configuration; 4.import org.apache.hadoop.fs.FileSystem; 5.import org.apache.hadoop.fs.P

2014-04-21 10:43:02 1104

腾讯深度学习平台（译）

腾讯深度开发平台翻译文档，介绍深度学习平台架构等，有很好的学习价值，值得大家学习一下

2014-08-14

MFS文件系统使用手册.pdf

MFS文件系统使用手册，新手学习还是很不错的，大家可以学习一下

2014-01-09

基于事件的 NIO 多线程服务器（源码）

基于事件的 NIO 多线程服务器（源码）可以根据博客中的描述对照学习

2013-07-22

VMware-ESXI-5.0.0 key

2013-01-10

Oracle知识库

1.Oracle知识 2.DBA 3.Exp vs Imp 4.SQL技巧 5.Oracle错误 6.Oracle初学者入门 7.Oracle安装与删除 8.Oracle安全性问题 9.Oracle系统设置，优化，链接 10.索引，序列，快照，数据库链路，触发器 11.Oracle及其其他数据库比较 12.linux vs unix 13.Develop 2000

2012-10-24