imworry-CSDN博客

原创 Hadoop集群部署配置文档（第2部分）

1. CentOS配置1.1 同步时间1) 配置时间同步crontab -e 5 2 * * * /usr/sbin/ntpdate cn.pool.ntp.org && /sbin/hwclock -w2) 手动同步时间/usr/sbin/ntpdate cn.pool.ntp.org1.2 关闭防火墙1.3 调整openfiles1) 查看： ulimi

2013-06-02 18:52:55 2691

原创 Hadoop集群部署配置文档（第1部分）

1. 概述本文档是hadoop集群的部署配置文档，详细描述了hadoop生产集群的安装步骤与配置参数。本文档涉及软件版本如下：序号软件版本1操作系统CentOS5.52JDKJDK1.6.0_313hadoopClo

2013-06-02 18:45:29 1744

原创 Apache Flume - HDFSSink

这篇文章是关于Flume HDFSSink的，以Flume-1.3.1版为依据。Flume设计目标是：高效收集聚合大量的日志数据。Fluem是一个可靠的、可用的、分布式日志收集聚合系统。Flume体系结构基于流式数据流设计。其中Flume Sink主要承担将数据传输到下一跳或最终目的的任务。 HDFSSink用来将数据写入Hadoop分布式文件系统（HDFS）中

2013-06-02 12:44:10 3077

翻译 Apache Flume - File通道

原文链接：https://blogs.apache.org/flume/entry/apache_flume_filechannel说明：翻译在尽量符合原文表达的基础上，尽量保证行文流畅。水平有限，请多指正！这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的可靠机制

2013-05-30 19:14:31 5380

原创 flume ng配置拓扑图

生产环境flume ng配置拓扑图。超级详细

2013-05-28 22:25:17 2855 1

原创 Flume1.3.1配置-汇聚节点

#===newlog-collector CONFIG START=======================================================================================newlog-collector.sources = updatelognewlog-collector.sinks = updatelog

2013-05-28 22:11:14 1659 1

原创 Flume1.3.1配置-日志节点

#====flume1.3.1带负载均衡的配置==========================================================================================newlog-agent.sources=updatelognewlog-agent.sinks=updatelog updatelog2newlog-a

2013-05-28 22:07:29 1946

原创使用Flume NG构建数据收集系统(第一部分 Flume介绍)

Flume是什么收集、聚合事件流数据的分布式框架通常用于log数据采用ad-hoc方案，明显优点如下：可靠的、可伸缩、可管理、可定制、高性能声明式配置，可以动态更新配置提供上下文路由功能支持负载均衡和故障转移功能丰富完全的可扩展核心概念EventClientAgentSources、Channels、Sinks其他组件：Interceptors、

2013-05-28 21:04:49 4679 2

转载什么是oozie

Oozie是一种Java Web应用程序，它运行在Java servlet容器——即Tomcat——中，并使用数据库来存储以下内容：工作流定义当前运行的工作流实例，包括实例的状态和变量Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行

2013-05-16 21:56:47 890

原创安装Apache Pig

Pig 安装配置过程还是很简单的，在已有的 Hadoop 集群环境(需要首先安装hadoop和配置hadoop环境变量)下具体的操作过程如下：1、安装版本 pig-0.11.1 最新版本可以从http://pig.apache.org/releases.html#Download下载2、安装目录 /usr/local/pig-0.11.13、安

2013-05-15 23:28:21 1227

原创什么是Apache Pig

Apache Pig为大数据集的处理提供了更高层次的抽象，提供类SQL的数据处理脚本语言。配合Hadoop使用，可以在处理海量数据时达到事半功倍的效果；简化map-reduce编程，比使用Java等语言编写map-reduce程序处理大规模数据的难度要小N倍，实现同样的效果的代码量也小N倍。Pig包括：Pig Latin, 类SQL数据处理语言在Hadoop上运行的Pig

2013-05-15 23:09:18 1419

使用ffmpeg可以非常方便的生成视频截图，命令行下的mplayer也可以做视频截图，只不过mplayer在本质上还是调用ffmpeg来实现。ffmpeg 通过指定 -vcodec 参数为 mjpeg，或者指定 -f 参数为 mjpeg时，可以输出 jpg截图，指定 -vcodec参数为png，或者指定输出文件扩展名为png，可输出png截图。如果参数指定不当，会导致ffmpeg处理速度非常缓慢，

2013-04-15 17:07:47 22219 1

原创 Hadoop测试环境安装记录

2013-03-28 18:23:13 1781

翻译 mahout in action[中文] 第2章推荐系统简介

本章涵盖mahout中，推荐是什么首先看一下实战中的推荐系统评价一个引擎的准确率和召回率在真实数据集GroupLens上评价推荐系统我们每天都会对喜欢的、不喜欢的、甚至不关心的事情有很多观点。这些事情往往发生的不知不觉。你在收音机上听歌，因为它容易记住或者因为听起来可怕而关注它 -- 又或者根本不去关注它。同样的事情有可能发生在T恤衫，色拉，发型，滑雪胜地，面孔，电视节

2013-01-15 21:38:06 1016

翻译 mahout in action[中文] 第一部分推荐

本书的第一部分，包括第2章到第6章，探究mahout机器学习实现的三个核心之一：协同过滤和推荐。用这些技术，你能理解一个人的tastes并且自动的为他发现新的令他满意的内容。这一部分也是本书剩余部分的一个预热，这将要依赖于重量级的hadoop分布式计算框架。你会遇到在mahout中的机器学习技术，先用简单的java，然后在hadoop中。第2章介绍推荐引擎，在mahout中的实

2013-01-15 21:35:24 1047

原创 tasktracker不能启动报Tasktracker disallowed by JobTracker信息

1、背景描述为了保证接入hadoop集群datanode和tasktracker的可信，增加集群安全，增加如下配置 a、在hdfs-site.xml中增加datanode许可列表 dfs.hosts /data0/hadoop/hosts/include

2012-10-11 10:42:53 1564

原创 oozie安装手记

系统需求Unix (在Linux和Mac OS X上做过测试)Java 1.6+hadoop-0.20.2-cdh3u3ExtJS library (optional, to enable Oozie webconsole)ExtJS 2.2Oozie Server安装版本：oozie-2.3.2-cdh3u3创建 oozie 组和用户/usr/sbin/

2012-10-10 16:55:01 2721

转载 Storm指南

Storm这是一个分布式的、容错的实时计算系统，它被托管在GitHub上，遵循Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统，BackType现在已在Twitter麾下，基本是用Clojure写的。 Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的

2012-09-29 13:10:58 1518

原创利用Sqoop从HDFS导出数据到DB

需求hadoop分析完的结果数据最终要呈现给用户，其中一些结果可能需要导入DB。这里大部分是insert操作，但是有些时候可能还需要update。最好是如果存在就update，不存在就insert。目标将一系列HDFS中的文件导出到RDBMS。这里要求RDBMS的表必须提前创建。文件中的数据通过指定的分割符被解析为表中的记录。支持insert、update和in

2012-09-19 09:39:03 1744 3

扑腾蛾子