自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 hadoop学习(九)Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(2)

这篇文章,主要是针对zookeeper和hadoop集群的整体测试,以及自己在实际过程遇到的问题和解决思路。 整个过程是,痛苦、无奈和纠结的。伴随着N多夜晚。总结的过程就超过10个小时。还有很多问题都没有写完,后续会继续跟近,也欢迎与读者讨论交谈。 读者有益,写着有劳。关爱身边每一个人,热爱身体,珍惜生命,且行且珍惜。

2014-04-13 13:09:44 10733 5

原创 hadoop学习(八)Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(1)

Hadoop2.2.0+HA+zookeeper3.4.5+体系结构+错误处理 心血之作,在熟悉hadoop2架构的过程耽误了太长时间,在搭建环境过程遇到一些问题,这些问题一直卡在那儿,不得以解决,耽误了时间。最后,千寻万寻,把问题解决,多谢在过程提供帮助的大侠。这篇文章中,我也会把自己遇到的问题给列出来,帮助后来者进一步的学习。这篇文章结合自己实际测试过程,花费太多心血整理。转载注明出处:

2014-04-13 00:31:07 8515 3

原创 hadoop学习(七)WordCount+Block+Split+Shuffle+Map+Reduce技术详解

纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。 在上篇博客中简单给出了Shuffle的概念,稍提了一下split,但没有谈block。在了解Shuffle之间我们要先了解一下block与split。Shuffle给出的定义是copy,copy一片数据,这里的一片数据你可以理解成一个split数据。但数据上传到HDFS中,数据被分块,被分成一个个的block块,这就引出了什么是block,什

2014-03-24 01:04:10 5885 2

原创 hadoop学习(六)WordCount示例深度学习MapReduce过程(1)

本篇博客主要是想通过一个简单的Wordcount程序,来认识Hadoop,并深入了解MapReduce的详细过程。在Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解 文中我们已经很大概梳理一下,Hadoop内部集群架构,并对MapReduce也有初步的了解,这里我们以WourdCount程序来深入的探讨MapReduce的过程。 通过对WourdCount的介绍示例,总结Map、Reduce的整个过程。大致把整个

2014-03-22 18:15:31 6050

原创 hadoop学习(五)Hadoop2.2.0完全分布式安装详解(1)

如果你决定花点时间去读这篇文章了,请大家仔细读一下,因为每一个点,我们都在上面耽误了一些时间,梳理一下,大家如果遇到相应的问题,也算给大家提供了一个解决方案。前言 在寒假前的一段时间,开始调研Hadoop2.2.0搭建过程,当时苦于没有机器,只是在3台笔记本上,简单跑通一些数据。一转眼一两个月过去了,有些东西对已经忘了。现在学校这边实验室申请下来了,分了10台机器(4G+500G),这足够我们玩的了。开始搭建Hadoop2.2.0分布式集群,也趁着这个机会把整个流程梳理一下。在很多博客中有关于

2014-03-20 17:59:22 4315 2

原创 Thinking in BigData(14)大数据之DM经典模型(5)

数据挖掘与统计学之间的区别,我在上面的一篇博客中细细谈到过,这里不多赘述。实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 主要介绍:相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-09 23:24:44 7060 2

原创 Thinking in BigDate(13)大数据之DM经典模型(4)

数据挖掘与统计学之间的区别,我在上面的一篇博客中细细谈到过,这里不多赘述。实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 主要介绍:相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-08 09:42:07 4833

原创 Thinking in BigData(12)大数据之有指导数据挖掘方法模型序(3)

数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-07 11:13:59 3558

原创 Thinking in BigData(11)大数据之有指导数据挖掘方法模型序(2)

数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-06 12:40:27 3379

原创 Thinking in BigData(十)大数据之数据挖掘技术(1)

我们的定位,是将传统数据挖掘的数据转移到达数据平台上去处理,去节省时间,节省资源。但问题是,当我们没有这么大的数据,或我们又这么大数据,我们应该从哪一步入手。这就是我们接下来的几篇博客,要探讨的问题。也是大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不关心是什么是数据挖掘,我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西,而我们更关心的是这个过程是什么?如何开始? 作为初学者的概念梳理是很有必要的。如果是大牛,这些博客就略过吧。

2014-03-05 23:30:17 5497

原创 Thinking in BigData(九)大数据hadoop集群下离线数据存储和挖掘架构

基于大数据hadoop集群下离线数据存储和挖掘分析架构: 可以分为五个层次:1、数据存储层;2、集群架构层;3、分布式计算引擎层;4、算法合成层;5、数据可视化层;五个层次,组成了,如何把基于传统数据挖掘过程,移植到Hadoop集群中。还有重要的一点,说了这么多废话,其实就是为了引出,基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作梳理好要做的内容,提供方向。 在五个核心的范畴中,没有过多的涉及细节,只是提供方案,提供方向。

2014-03-03 16:37:03 6223 3

原创 Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。 通过这一阶段的调研总结,对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的所有技术核心。从体系架构到数据定义到数据存储再到数据处理,从宏观到微观的系统介绍,为Hadoop平台上大规模的数据存储和任务处理打下基础。

2014-02-14 00:13:40 21404 6

原创 Thinking in BigData(七)大数据技术核心之NoSql(一)

为什么,传统关系型数据库开始遇到瓶颈,哪些瓶颈?为什么数据增多,会伴随着非结构性数据的的增多?什么是非结构性数据?NoSql是什么?支持NoSql数据的数据库有哪些?NoSql数据库与关系型数据库的区别?NoSql挑战是什么?为何它会引起关注?什么样的人更应该关注NoSql?等等。 大致介绍了三种不同风格的面向聚合的数据模型。三者共同点:集群上运行,聚合是中心环节,因为数据库必须保证将聚合内的数据存放在同一个节点上。聚合是“更新”操作的最小数据单位,对事务控制来说,以聚合为操作单元。

2014-02-11 14:41:51 10228

原创 Thinking in BigData(六)大数据技术核心之ETL

接下来的四篇文章,抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。核心技术:架构挑战、分析技术、存储、解决方案、大数据与云计算、大数据平台架构、大数据技术之数据采集ETL; 在这里涉及到ETL中,我们只要有一个清晰的认识,它不是想象中的简单一蹴而就,在实际的过程,你可以会遇到各种各样的问题,甚至是沟通的问题。在给它定义到占据整个数据挖掘或分析的过程中50%-70%是不足为过的。后期项目涉及ETL过程,会

2014-02-10 18:45:27 20283 1

原创 Thinking in BigData(五)大数据之统计学与数据挖掘

原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者:David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们,开始了解大数据处理的最基本的技术概念吧。 说明:前段时间这篇文章,对于数据挖掘工作者来所,很有价值的一篇文章,但是翻译的很拗口。希望通过自己的语言总结一下,可以把一些概念理清。如有错误, 后会继续完善。 今天回来,在原来的文章中,添加了一些数据挖掘方面的概念。

2014-01-28 23:09:22 10004 2

原创 Thinking in BigData(四)大数据之“大”的来源与价值

大数据之“大”的来源与价值 在上篇博客中,我们仅仅是从一个简单的利用案例,谈到了大数据的机理和趋势。但我们更多的人,还是对大数据模糊。究竟多少算是“大”?大数据究竟来源于哪些产业?大数据在哪些公司应用更广泛?大数据的价值是什么?大数据阻碍了哪些商业的发展?又究竟给哪些产业带来新的活力? 大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的。而AI、ML又是在为DM服务。致使在整个过程形成了:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所

2014-01-27 23:26:12 7032

原创 Thinking in BigData(三)大数据运作机理与趋势

Thinking in BigData(三)大数据运作机理与趋势 2013年12月5-6日,在北京召开的,中国大数据技术大会。从一开始,这个名词似乎已经预示着,这将是再一次将大数据的影响力进一步拉大。集结上百名国内外技术专家,在一起谈到它带给我们的价值。在这里,我们不去过多的探讨,会议将会对14年大数据的转型带来什么风向标,但有一点必须肯定,一年的疯狂乱抄过后,必是开始技术实施的阶段。这也就是,为什么印刷时代经历了几百年的积累,在工业革命只需要几十年的技术革新,再到如今的互联网、移动互联网时代,

2014-01-26 17:57:52 7411

原创 Thinking in BigData(二)大数据时代下的变革

大数据时代的思维变革 A Revolution That Will Transform How WeLive, Work, and Think. 不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代,我们都站在这个时代改革的前沿,而作为互联网最具爆发力的一种媒介,它给我传递着什么资讯?如果说我们错过了2000左右的互联网浪潮,错过电商竞争的时代,但我们赶上了云计算和大数据的兴起,这将是一次难得的转型与立足机会。而它的到来,会给我们带来什么转变?

2014-01-25 20:28:00 6650

原创 Thinking in BigData(一)前序

Thinking in BigDate 前序  谁也无法说服他人改变,因为我们每一个人都守着一扇只能从内开启的改变之门,不论动之以情或说之以理,我们都不能替别人开门。 ——弗格森  BigDate这一名词,第一次蹦出脑袋应该是13年3月份,一次地铁悄然而遇。自此11个月之后至今,它可能俨然成为这个时代阶段性的代言词。也在你的思维与轨迹中产生深远的影响,以至于你的生活与生存方式也将为此改变。这之中,它蕴含着什么信息、又蕴含着什么。乃至整个圈子都在讨论,都在揣测,它到底是什么?到底带来的什么?

2014-01-23 16:57:06 7200 4

转载 MySQL百万级数据库优化

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id f

2014-01-22 17:34:30 1892 1

原创 hadoop学习(四)Map/Reduce数据分析简述-示例-电话通讯清单

假如我们集群和伪分布式hadoop系统已经搭建完毕。我们都会根据官网或一些资料提供的wordcount函数来测试我们系统是否能正常工作。假设,我们在执行wordcount函数,都没有问题。那我们就可以开始写M/R程序,开始数据分析了。 因为,hadoop集群,还有其他一些组件需要我们去安装,这里还没有涉及,暂时不考虑。你要做的就是,把要分析的数据上传到HDFS中。至于其余组件,遇到的时候,在学习。这里对概念,不做太多的介绍。必要的概念,和程序执行步骤,这个是必须了解的。 电话通讯清单

2014-01-22 16:57:31 3616 1

原创 hadoop学习(三)hadoop集群从windows移植到linux中问题与技巧

在开始讲Map-Reduce数据分析之前,首先讲解一下,这两天遇到的问题,自己在这上面确实是耽误了很多时间:希望为自己或后来者提供经验。scp 的利用hadoop集群,局域网,hosts文件的配置。

2014-01-22 14:14:48 2213

原创 hadoop学习(二)ubuntu下安装virtual box 问题与解决

在官网下载virtual box linux版本。我选择的是32位的系统。http://download.virtualbox.org/virtualbox/4.3.6/virtualbox-4.3_4.3.6-91406~Ubuntu~lucid_i386.deb

2014-01-20 14:15:05 5393

原创 hadoop学习(一)hadoop-1.2.1伪分布式配置及遇到的问题

简化可行安装:如果一遍有问题,在来一遍,再一遍,三遍过后,第四遍,你知道问题出现在哪儿了了!1.JDK 安装:下载路径 http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html下载为最新版本的jdk,这里为32位:jdk-7u45-linux-i586.tar.gz不需

2013-12-03 09:47:48 4576

原创 知识图谱技术的演进

知识图谱技术的演进简述    “图谱”是指进过系统编辑并根据实物描述或摄制的图,是研究某一学科所用的资料。“图谱”中的“图”指的是地图,“谱”指系统,图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律,往往以系列图的形式表示时空动态变化[12]。  知识图谱,也被称为科学知识图谱、知识域可视化或

2013-11-28 21:35:57 7065

转载 一位数据挖掘成功人士给数据挖掘在读研究生的建议

关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层。关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方

2013-11-27 23:07:46 4451

原创 Javascript 面向对象编程

今天在看项目文件的时候,看到最基本的一句话: 可能是以前学的东西都忘得差不多了,现在需要补救了,初学者。下面是关于看到一片博客中提到的,很有价值;Javascript 面向对象编程(一):封装    学习Javascript,最难的地方是什么?    我觉得,Object(对象)最难。因为Javascript的Object模型很独特,和其他语言都不一样,

2013-11-27 16:15:24 1039

原创 基于fluentd和mongod实现CloudFoundry的日志收集过程中遇到的问题!(切身感受,遇到什么写什么了)

1、在启动fluentd 的时候,进入到fluent.conf 目录下,执行fluentd -c fluent.conf 如果启动失败,出现error   大概问题有: (1)unexpected error error="Address already in use - bind(2)"  说明你fluentd  可能已经启动起来了。很多时候都是因为你已经启动了fluent 在不知道

2013-11-27 16:13:36 3057

原创 选择的感触

选择的感触    前天,早上9:30一切正常的开完会。向超哥,问了点昨天出现的正则如何匹配的问题。然后问了下刘老师,出现的问题。回来,不到半个小时,然后是接到刘老师的电话,在QQ上没接到。让我上去一下,上去之后,什么也没有说,带我去了另一个办公室,说给我调组,那边的人,想见我一下。    一切都未然的开始,接下来,等后来回想一下,才明白那到到底是怎么回事。加上老曹和另外的三个人

2013-04-25 21:41:40 1108

转载 怎样花两年时间去面试一个人

怎样花两年时间去面试一个人             第一次,从哥哥那里知道一篇博客,就是文章的题目。一开始我并没有太注意文章的作者,后来到了第一家公司开始实习,在一次学习报告会上,知道一本书《暗时间》,知道一个人,刘未鹏。但我并不知道他是谁,直到后来我再次看这篇博客,我才知道,从一开始,我就在按照这个人说的写的在做:如果说,一篇博客你多了多少遍,这篇,我不知道自己读了多少遍。但每一次,我都

2013-04-21 10:40:51 1473

翻译 fluentd学习——fluent-plugin-rewrite插件重写

fluent-plugin-rewrite https://github.com/kentaro/fluent-plugin-rewrite#fluent-plugin-rewrite所谓的插件重写,以为现在做的项目理解来说:客户端要向服务器端提交数据,重写是指在我把数据(一般指固定的格式,这个由正则表达式来匹配)上传之前,我要把数据的格式重写(增加删除字段就要用到rewrite插

2013-04-18 08:57:34 3106

翻译 fluentd学习——tail(输入插件)

tail(输入插件)http://docs.fluentd.org/articles/in_tailtail Input PluginThe in_tail Input plugin allows Fluentd to read events from the tail of text files. Its behavior is similar to the tail -F comm

2013-04-17 08:52:59 14206 3

翻译 fluentd学习——High Availability (多级fluentd配置)

High Availability (多级fluentd配置)http://docs.fluentd.org/articles/high-availabilityFluentd High Availability ConfigurationFor high-traffic websites, we recommend using a high availability configur

2013-04-17 08:44:31 4387 1

翻译 fluentd学习——配置文件Config File(关键)

配置文件Config File(关键)  http://docs.fluentd.org/articles/config-fileOverview 概述The configuration file allows the user to control the input and output behavior of Fluentd by (1) selecting in

2013-04-17 08:38:44 17557

转载 一件事情,如果你不能说清楚,十有八九你就作不好

一件事情,如果你不能说清楚,十有八九你就作不好                                                                    杨军杨军在 TopLanguage 上也曾分享了三篇非常棒的学习心得的文章,字字珠玑:[1] 有些事情做起来比想象中容易[2] 有关读书方法的一点想法[3] 一件事情如果你没有说清楚,十有八九不能做

2013-04-14 11:33:43 2800

原创 再给我点时间

再给我点时间    到周末了,他们可以回去安心的休息两天了。我,可以坐下来,安静的想想了。    总告诉自己,是时候该总结了。我想记录下这一段时间的心路历程,不是想以后能为其所用,只是想真实的想告诉自己,每一步都很艰难,但没有止步。    时间定在,二月末三月初。看似一切都很顺利的面试过程,一路走到了总裁面试,加上笔试共四次面试,让我们能感觉到,这家公司应该很正

2013-04-12 20:13:35 1296 1

原创 回来

回来    今天,算是起来的最早的一天吗?但已有人早早的出门了。有的时候,真的想去多想想,以前的日子,但是又同时提醒自己打住。那都已经过去了。     人,总是会在别人的眼中发现自己。以前总是一种,桀骜不驯的,无所谓的态度。到现在看来,也许就是这种态度,让你所有的生活看起来,都是那么的散碎,一提起,就散落一地,永远拾不起来。人,也总会时不时的提醒自己,这段时间你懈怠了,你要

2013-04-09 09:06:41 948

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除