dufman-CSDN博客

原创 hadoop学习（九）Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(2)

这篇文章，主要是针对zookeeper和hadoop集群的整体测试，以及自己在实际过程遇到的问题和解决思路。整个过程是，痛苦、无奈和纠结的。伴随着N多夜晚。总结的过程就超过10个小时。还有很多问题都没有写完，后续会继续跟近，也欢迎与读者讨论交谈。读者有益，写着有劳。关爱身边每一个人，热爱身体，珍惜生命，且行且珍惜。

2014-04-13 13:09:44 10733 5

原创 hadoop学习（八）Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(1)

Hadoop2.2.0+HA+zookeeper3.4.5+体系结构+错误处理心血之作，在熟悉hadoop2架构的过程耽误了太长时间，在搭建环境过程遇到一些问题，这些问题一直卡在那儿，不得以解决，耽误了时间。最后，千寻万寻，把问题解决，多谢在过程提供帮助的大侠。这篇文章中，我也会把自己遇到的问题给列出来，帮助后来者进一步的学习。这篇文章结合自己实际测试过程，花费太多心血整理。转载注明出处：

2014-04-13 00:31:07 8515 3

原创 hadoop学习（七）WordCount+Block+Split+Shuffle+Map+Reduce技术详解

纯干货：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。在上篇博客中简单给出了Shuffle的概念，稍提了一下split，但没有谈block。在了解Shuffle之间我们要先了解一下block与split。Shuffle给出的定义是copy，copy一片数据，这里的一片数据你可以理解成一个split数据。但数据上传到HDFS中，数据被分块，被分成一个个的block块，这就引出了什么是block，什

2014-03-24 01:04:10 5885 2

原创 hadoop学习（六）WordCount示例深度学习MapReduce过程（1）

本篇博客主要是想通过一个简单的Wordcount程序，来认识Hadoop，并深入了解MapReduce的详细过程。在Thinking in BigDate（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解文中我们已经很大概梳理一下，Hadoop内部集群架构，并对MapReduce也有初步的了解，这里我们以WourdCount程序来深入的探讨MapReduce的过程。通过对WourdCount的介绍示例，总结Map、Reduce的整个过程。大致把整个

2014-03-22 18:15:31 6050

原创 hadoop学习（五）Hadoop2.2.0完全分布式安装详解（1）

如果你决定花点时间去读这篇文章了，请大家仔细读一下，因为每一个点，我们都在上面耽误了一些时间，梳理一下，大家如果遇到相应的问题，也算给大家提供了一个解决方案。前言在寒假前的一段时间，开始调研Hadoop2.2.0搭建过程,当时苦于没有机器，只是在3台笔记本上，简单跑通一些数据。一转眼一两个月过去了，有些东西对已经忘了。现在学校这边实验室申请下来了，分了10台机器（4G+500G），这足够我们玩的了。开始搭建Hadoop2.2.0分布式集群，也趁着这个机会把整个流程梳理一下。在很多博客中有关于

2014-03-20 17:59:22 4315 2

原创 Thinking in BigData（14）大数据之DM经典模型（5）

数据挖掘与统计学之间的区别，我在上面的一篇博客中细细谈到过，这里不多赘述。实际上，所有的数据挖掘技术都是以概率论和统计学为基础的。下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物，那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似，其得分就越高。主要介绍：相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-09 23:24:44 7060 2

原创 Thinking in BigDate（13）大数据之DM经典模型（4）

数据挖掘与统计学之间的区别，我在上面的一篇博客中细细谈到过，这里不多赘述。实际上，所有的数据挖掘技术都是以概率论和统计学为基础的。下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物，那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似，其得分就越高。主要介绍：相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-08 09:42:07 4833

原创 Thinking in BigData（12）大数据之有指导数据挖掘方法模型序（3）

数据挖掘的目的，就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型，以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型，首先要理解和定义一些模型试图估计的目标变量。一个典型的案例，二元响应模型，如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据，这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户，以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中，首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-07 11:13:59 3558

原创 Thinking in BigData（11）大数据之有指导数据挖掘方法模型序（2）

数据挖掘的目的，就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型，以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型，首先要理解和定义一些模型试图估计的目标变量。一个典型的案例，二元响应模型，如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据，这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户，以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中，首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-06 12:40:27 3379

原创 Thinking in BigData（十）大数据之数据挖掘技术（1）

我们的定位，是将传统数据挖掘的数据转移到达数据平台上去处理，去节省时间，节省资源。但问题是，当我们没有这么大的数据，或我们又这么大数据，我们应该从哪一步入手。这就是我们接下来的几篇博客，要探讨的问题。也是大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？作为初学者的概念梳理是很有必要的。如果是大牛，这些博客就略过吧。

2014-03-05 23:30:17 5497

原创 Thinking in BigData（九）大数据hadoop集群下离线数据存储和挖掘架构

基于大数据hadoop集群下离线数据存储和挖掘分析架构：可以分为五个层次：1、数据存储层；2、集群架构层；3、分布式计算引擎层；4、算法合成层；5、数据可视化层；五个层次，组成了，如何把基于传统数据挖掘过程，移植到Hadoop集群中。还有重要的一点，说了这么多废话，其实就是为了引出，基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作梳理好要做的内容，提供方向。在五个核心的范畴中，没有过多的涉及细节，只是提供方案，提供方向。

2014-03-03 16:37:03 6223 3

原创 Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

纯干货：Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。通过这一阶段的调研总结，对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的所有技术核心。从体系架构到数据定义到数据存储再到数据处理，从宏观到微观的系统介绍，为Hadoop平台上大规模的数据存储和任务处理打下基础。

2014-02-14 00:13:40 21404 6

原创 Thinking in BigData（七）大数据技术核心之NoSql(一)

为什么，传统关系型数据库开始遇到瓶颈，哪些瓶颈？为什么数据增多，会伴随着非结构性数据的的增多?什么是非结构性数据？NoSql是什么？支持NoSql数据的数据库有哪些？NoSql数据库与关系型数据库的区别？NoSql挑战是什么？为何它会引起关注？什么样的人更应该关注NoSql？等等。大致介绍了三种不同风格的面向聚合的数据模型。三者共同点：集群上运行，聚合是中心环节，因为数据库必须保证将聚合内的数据存放在同一个节点上。聚合是“更新”操作的最小数据单位，对事务控制来说，以聚合为操作单元。

2014-02-11 14:41:51 10228

原创 Thinking in BigData（六）大数据技术核心之ETL

接下来的四篇文章，抛开大数据的概念与基本知识，进入核心。我们从：数据采集、数据存储、数据管理、数据分析与挖掘，四个方面讨论大数据在实际应用中涉及的技术与知识点。核心技术：架构挑战、分析技术、存储、解决方案、大数据与云计算、大数据平台架构、大数据技术之数据采集ETL；在这里涉及到ETL中，我们只要有一个清晰的认识，它不是想象中的简单一蹴而就，在实际的过程，你可以会遇到各种各样的问题，甚至是沟通的问题。在给它定义到占据整个数据挖掘或分析的过程中50%-70%是不足为过的。后期项目涉及ETL过程，会

2014-02-10 18:45:27 20283 1

原创 Thinking in BigData（五）大数据之统计学与数据挖掘

原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者：David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们，开始了解大数据处理的最基本的技术概念吧。说明：前段时间这篇文章，对于数据挖掘工作者来所，很有价值的一篇文章，但是翻译的很拗口。希望通过自己的语言总结一下，可以把一些概念理清。如有错误，后会继续完善。今天回来，在原来的文章中，添加了一些数据挖掘方面的概念。

2014-01-28 23:09:22 10004 2

原创 Thinking in BigData（四）大数据之“大”的来源与价值

大数据之“大”的来源与价值在上篇博客中,我们仅仅是从一个简单的利用案例，谈到了大数据的机理和趋势。但我们更多的人，还是对大数据模糊。究竟多少算是“大”？大数据究竟来源于哪些产业？大数据在哪些公司应用更广泛？大数据的价值是什么？大数据阻碍了哪些商业的发展？又究竟给哪些产业带来新的活力？大数据的兴起，正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的。而AI、ML又是在为DM服务。致使在整个过程形成了：将信号转化为数据，将数据分析为信息，将信息提炼为知识，以知识促成决策和行动。所

2014-01-27 23:26:12 7032

原创 Thinking in BigData（三）大数据运作机理与趋势

Thinking in BigData（三）大数据运作机理与趋势 2013年12月5-6日,在北京召开的，中国大数据技术大会。从一开始，这个名词似乎已经预示着，这将是再一次将大数据的影响力进一步拉大。集结上百名国内外技术专家，在一起谈到它带给我们的价值。在这里，我们不去过多的探讨，会议将会对14年大数据的转型带来什么风向标，但有一点必须肯定，一年的疯狂乱抄过后，必是开始技术实施的阶段。这也就是，为什么印刷时代经历了几百年的积累，在工业革命只需要几十年的技术革新，再到如今的互联网、移动互联网时代，

2014-01-26 17:57:52 7411

原创 Thinking in BigData（二）大数据时代下的变革

大数据时代的思维变革 A Revolution That Will Transform How WeLive, Work, and Think. 不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代，我们都站在这个时代改革的前沿，而作为互联网最具爆发力的一种媒介，它给我传递着什么资讯？如果说我们错过了2000左右的互联网浪潮，错过电商竞争的时代，但我们赶上了云计算和大数据的兴起，这将是一次难得的转型与立足机会。而它的到来，会给我们带来什么转变？

2014-01-25 20:28:00 6650

原创 Thinking in BigData（一）前序

Thinking in BigDate 前序　　谁也无法说服他人改变，因为我们每一个人都守着一扇只能从内开启的改变之门，不论动之以情或说之以理，我们都不能替别人开门。　——弗格森　　BigDate这一名词,第一次蹦出脑袋应该是13年3月份，一次地铁悄然而遇。自此11个月之后至今，它可能俨然成为这个时代阶段性的代言词。也在你的思维与轨迹中产生深远的影响，以至于你的生活与生存方式也将为此改变。这之中，它蕴含着什么信息、又蕴含着什么。乃至整个圈子都在讨论，都在揣测，它到底是什么？到底带来的什么？

2014-01-23 16:57:06 7200 4

转载 MySQL百万级数据库优化

1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is null可以在num上设置默认值0，确保表中num列没有null值，然后这样查询：select id f

2014-01-22 17:34:30 1892 1

原创 hadoop学习（四）Map/Reduce数据分析简述-示例-电话通讯清单

假如我们集群和伪分布式hadoop系统已经搭建完毕。我们都会根据官网或一些资料提供的wordcount函数来测试我们系统是否能正常工作。假设，我们在执行wordcount函数，都没有问题。那我们就可以开始写M/R程序，开始数据分析了。因为，hadoop集群，还有其他一些组件需要我们去安装，这里还没有涉及，暂时不考虑。你要做的就是，把要分析的数据上传到HDFS中。至于其余组件，遇到的时候，在学习。这里对概念，不做太多的介绍。必要的概念，和程序执行步骤，这个是必须了解的。电话通讯清单

2014-01-22 16:57:31 3616 1

原创 hadoop学习（三）hadoop集群从windows移植到linux中问题与技巧

在开始讲Map-Reduce数据分析之前，首先讲解一下，这两天遇到的问题，自己在这上面确实是耽误了很多时间：希望为自己或后来者提供经验。scp 的利用hadoop集群，局域网，hosts文件的配置。

2014-01-22 14:14:48 2213

原创 hadoop学习（二）ubuntu下安装virtual box 问题与解决

在官网下载virtual box linux版本。我选择的是32位的系统。http://download.virtualbox.org/virtualbox/4.3.6/virtualbox-4.3_4.3.6-91406~Ubuntu~lucid_i386.deb

2014-01-20 14:15:05 5393

原创 hadoop学习（一）hadoop-1.2.1伪分布式配置及遇到的问题

简化可行安装：如果一遍有问题，在来一遍，再一遍，三遍过后，第四遍，你知道问题出现在哪儿了了！1.JDK 安装：下载路径 http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html下载为最新版本的jdk，这里为32位：jdk-7u45-linux-i586.tar.gz不需

2013-12-03 09:47:48 4576

原创知识图谱技术的演进

知识图谱技术的演进简述　　　　“图谱”是指进过系统编辑并根据实物描述或摄制的图，是研究某一学科所用的资料。“图谱”中的“图”指的是地图，“谱”指系统，图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律，往往以系列图的形式表示时空动态变化[12]。　　知识图谱，也被称为科学知识图谱、知识域可视化或

2013-11-28 21:35:57 7065

转载一位数据挖掘成功人士给数据挖掘在读研究生的建议

关于数据挖掘方面的研究，我原来也走过一些弯路。其实从数据挖掘的起源可以发现，它并不是一门崭新的科学，而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成，同时与专家系统、知识管理等研究方向不同的是，数据挖掘更侧重于应用的层。关于数据挖掘方面的研究，我原来也走过一些弯路。其实从数据挖掘的起源可以发现，它并不是一门崭新的科学，而是综合了统计分析、机器学习、人工智能、数据库等诸多方

2013-11-27 23:07:46 4451

原创 Javascript 面向对象编程

今天在看项目文件的时候，看到最基本的一句话：可能是以前学的东西都忘得差不多了，现在需要补救了，初学者。下面是关于看到一片博客中提到的，很有价值；Javascript 面向对象编程（一）：封装学习Javascript，最难的地方是什么？我觉得，Object（对象）最难。因为Javascript的Object模型很独特，和其他语言都不一样，

2013-11-27 16:15:24 1039

原创基于fluentd和mongod实现CloudFoundry的日志收集过程中遇到的问题！（切身感受，遇到什么写什么了）

1、在启动fluentd 的时候，进入到fluent.conf 目录下，执行fluentd -c fluent.conf 如果启动失败，出现error 大概问题有：（1）unexpected error error="Address already in use - bind(2)" 说明你fluentd 可能已经启动起来了。很多时候都是因为你已经启动了fluent 在不知道

2013-11-27 16:13:36 3057

原创选择的感触

选择的感触前天，早上9:30一切正常的开完会。向超哥，问了点昨天出现的正则如何匹配的问题。然后问了下刘老师，出现的问题。回来，不到半个小时，然后是接到刘老师的电话，在QQ上没接到。让我上去一下，上去之后，什么也没有说，带我去了另一个办公室，说给我调组，那边的人，想见我一下。一切都未然的开始，接下来，等后来回想一下，才明白那到到底是怎么回事。加上老曹和另外的三个人

2013-04-25 21:41:40 1108

转载怎样花两年时间去面试一个人

怎样花两年时间去面试一个人第一次，从哥哥那里知道一篇博客，就是文章的题目。一开始我并没有太注意文章的作者，后来到了第一家公司开始实习，在一次学习报告会上，知道一本书《暗时间》，知道一个人，刘未鹏。但我并不知道他是谁，直到后来我再次看这篇博客，我才知道，从一开始，我就在按照这个人说的写的在做：如果说，一篇博客你多了多少遍，这篇，我不知道自己读了多少遍。但每一次，我都

2013-04-21 10:40:51 1473

翻译 fluentd学习——fluent-plugin-rewrite插件重写

fluent-plugin-rewrite https://github.com/kentaro/fluent-plugin-rewrite#fluent-plugin-rewrite所谓的插件重写，以为现在做的项目理解来说：客户端要向服务器端提交数据，重写是指在我把数据（一般指固定的格式，这个由正则表达式来匹配）上传之前，我要把数据的格式重写（增加删除字段就要用到rewrite插

2013-04-18 08:57:34 3106

翻译 fluentd学习——tail（输入插件）

tail（输入插件）http://docs.fluentd.org/articles/in_tailtail Input PluginThe in_tail Input plugin allows Fluentd to read events from the tail of text files. Its behavior is similar to the tail -F comm

2013-04-17 08:52:59 14206 3

翻译 fluentd学习——High Availability （多级fluentd配置）

High Availability （多级fluentd配置）http://docs.fluentd.org/articles/high-availabilityFluentd High Availability ConfigurationFor high-traffic websites, we recommend using a high availability configur

2013-04-17 08:44:31 4387 1

翻译 fluentd学习——配置文件Config File（关键）

配置文件Config File（关键） http://docs.fluentd.org/articles/config-fileOverview 概述The configuration file allows the user to control the input and output behavior of Fluentd by (1) selecting in

2013-04-17 08:38:44 17557

转载一件事情，如果你不能说清楚，十有八九你就作不好

一件事情，如果你不能说清楚，十有八九你就作不好杨军杨军在 TopLanguage 上也曾分享了三篇非常棒的学习心得的文章，字字珠玑：[1] 有些事情做起来比想象中容易[2] 有关读书方法的一点想法[3] 一件事情如果你没有说清楚，十有八九不能做

2013-04-14 11:33:43 2800

原创再给我点时间

再给我点时间到周末了，他们可以回去安心的休息两天了。我，可以坐下来，安静的想想了。总告诉自己，是时候该总结了。我想记录下这一段时间的心路历程，不是想以后能为其所用，只是想真实的想告诉自己，每一步都很艰难，但没有止步。时间定在，二月末三月初。看似一切都很顺利的面试过程，一路走到了总裁面试，加上笔试共四次面试，让我们能感觉到，这家公司应该很正

2013-04-12 20:13:35 1296 1

原创回来

回来今天，算是起来的最早的一天吗？但已有人早早的出门了。有的时候，真的想去多想想，以前的日子，但是又同时提醒自己打住。那都已经过去了。人，总是会在别人的眼中发现自己。以前总是一种，桀骜不驯的，无所谓的态度。到现在看来，也许就是这种态度，让你所有的生活看起来，都是那么的散碎，一提起，就散落一地，永远拾不起来。人，也总会时不时的提醒自己，这段时间你懈怠了，你要

2013-04-09 09:06:41 948

yczws1的专栏