自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tao_cuichen的博客

知识的路上,愿与伙伴们共勉 ^_^

  • 博客(40)
  • 资源 (2)
  • 收藏
  • 关注

原创 Ganglia环境搭建并监控Hadoop分布式集群

Ganglia环境搭建并监控Hadoop分布式集群    简介Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。   环境搭建流程 1、我们先在主机master01上面搭建好Ganglia环境2、在master01主机上解

2016-05-09 19:51:38 6346 1

原创 Python字符串操作汇总

Python字符串操作汇总    字符串操作复制字符串sStr1 = 'Alice'sStr2 = sStr1print sStr2 #打印结果 :Alice连接字符串sStr1 = 'Alice'sStr2 = ' Bob'sStr1 += sStr2print sStr1 #打印结果 :Alice Bob查找字符串

2016-05-07 18:53:49 2717 1

原创 爬虫程序定时执行和监控示例

爬虫程序定时执行和监控示例    简介我们的爬虫程序在执行过程中,可能需要满足以下条件:1、可以每天定时执行,爬取指定电商等网站内容。2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。 下面我们来介绍如何实现这两个功能。 注意:这里我们主要演示定时执行和监控功能,所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫,可以参考如

2016-05-06 19:23:20 24309 3

原创 Zookeeper分布式安装配置

Zookeeper分布式安装配置   Zookeeper介绍概述1、ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。2、ZooKeeper的目标就是封装好复杂易出

2016-05-06 00:05:46 6958

原创 Redis主从复制和集群配置

Redis主从复制和集群配置    redis主从复制概述1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库(master)一类是从数据库(slave),主数据库可以进行读写操作,当发生写操作的时候自动将数据同步到从数据库,而从数据库一般是只读的,并接收主数据库同步过来的数据,一个主数据库可以有多个从数据库,而一个从数据库只能有一个主数据库。2、

2016-05-03 19:58:30 67028 9

原创 Redis高级特性及应用场景

Redis高级特性及应用场景    redis中键的生存时间(expire)redis中可以使用expire命令设置一个键的生存时间,到时间后redis会自动删除它。过期时间可以设置为秒或者毫秒精度。过期时间分辨率总是 1 毫秒。过期信息被复制和持久化到磁盘,当 Redis 停止时时间仍然在计算 (也就是说 Redis 保存了过期时间)。 expir

2016-05-03 10:50:23 33733 8

原创 爬取京东本周热卖商品所有用户评价存入MySQL

爬取京东本周热卖商品所有用户评价存入MySQL   说明本项目是对(爬取京东本周热卖商品基本信息存入MySQL)项目的追加,所以会有一些内容上的衔接,例如工具的使用方法等在此篇就不赘述,大家可以直接去看上一个项目中的介绍。爬取京东本周热卖商品基本信息存入MySQL的链接:http://blog.csdn.net/u011204847/article/details/51

2016-05-02 01:50:06 11067 1

原创 爬取京东本周热卖商品基本信息存入MySQL

爬取京东本周热卖商品基本信息存入MySQL    网络爬虫介绍概述网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。  产生背景随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息

2016-05-02 01:13:38 13962 3

原创 Redis安装及使用

Redis安装及使用   Redis简介:概述1、Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。官网:http://redis.io/ 2、redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、l

2016-04-29 15:38:50 8058 1

翻译 Spark 数据ETL

Spark 数据ETL    说明1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。2、本文一些内容基于http://blog.csdn.net/u011204847/article/details/51224383。3、大家如果有看不懂的地方可以参考原书(网上可以搜到)。   数据处理以及转化1、

2016-04-26 01:12:54 15727

原创 PySpark处理数据并图表分析

PySpark处理数据并图表分析    PySpark简介官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark

2016-04-23 01:57:58 25140

原创 Awk使用及网站日志分析

Awk使用及网站日志分析    Awk简介概述awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。awk程序的报告生成能力

2016-04-21 00:27:58 14515

原创 Shell编程详解

Shell编程详解   Shell简介 概述Shell是一种具备特殊功能的程序,它提供了用户与内核进行交互操作的一种接口。它接收用户输入的命令,并把它送入内核去执行。内核是Linux系统的心脏,从开机自检就驻留在计算机的内存中,直到计算机关闭为止,而用户的应用程序存储在计算机的硬盘上,仅当需要时才被调入内存。Shell是一种应用程序,当用户登录Linux系统时,Shel

2016-04-19 00:39:31 53986 5

原创 Java正则表达式

Java正则表达式    正则表达式简介概述正则表达式定义了字符串的模式,可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别。Java的正则表达式和Perl的是最为相似的。 特点正则表达式的特点是:灵活性、逻辑性和功能性非常的强;可以迅速地用极简单的方式达到字符串的复杂控制。 可读性比较差。

2016-04-18 00:43:31 11649 1

原创 Java网络详解

Java网络详解   Java网络基本概念网络基础知识  1、计算机网络形式多样,内容繁杂。网络上的计算机要互相通信,必须遵循一定的协议。目前使用最广泛的网络协议是Internet上所使用的TCP/IP协议  2、网络编程的目的就是指直接或间接地通过网络协议与其他计算机进行通讯。网络编程中有两个主要的问题,一个是如何准确的定位网络上一台或多台主机,另一个就是找到

2016-04-16 23:56:23 5829

原创 Java IO流

Java IO流    Java IO简介概述流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输特性将流抽象为各种类,方便更直观的进行数据操作。根据处理数据类型的不同分为:字符流和字节流根据数据流向不同分为:输入流和输出流  字符流和字节流字符流的由来: 因为

2016-04-15 23:25:18 5109

原创 Java多线程详解

Java多线程详解    多线程简介概述多线程(multithreading),是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理或同时多线程处理器。在一个程序中,这些独立运行的程序片段叫作“线程”(Thread),利用

2016-04-12 20:55:01 3453 2

原创 Java面向对象

Java面向对象   面向对象面向对象在开发中是一种运用对象、类、继承、封装、聚合、消息传递、多态等概念来构造系统的软件开发方法。 面向对象其实是相对于面向过程而言。 面向对象在开发中的优点:减少软件的复杂性可维护性可扩展性可重用性表述非常自然将数据和功能并在一起考虑分析和实现的隔阂变得非常小面向对象特征:

2016-04-11 03:30:05 1460

原创 Scala Actor通信

Scala Actor通信    简介Actor提供了并发程序中与传统的基于锁的结构不同的另一种选择。通过尽可能避免锁和共享状态,Actor使得我们能够更加容易设计出正确、没有死锁或争用状态的程序。Scala类库提供了一个Actor模型的简单实现,除此之外还有其他更高级的Actor类库,比如Akka(http://akka.io)。  创建和启动Actora

2016-04-10 19:11:31 3469

原创 Scala XML处理

Scala XML处理   简介XML是一种半结构化数据的形式。它比单纯的字符串更为结构化,因为它把数据内容组织成了树结构。尽管如此,单纯的XML的结构化程度依然比不上编程语言的对象,因为它允许在标签之间存在自由格式的文本,并且它缺少类型系统。任何在你需要序列化程序数据以保存到文件或通过网络运输的时候,半结构化的数据都将非常有用。你无须把结构化的数据直接“降解”为字节,

2016-04-10 13:07:02 6006

原创 Scala IO操作

Scala IO操作    Scala IO操作有执行常用的文件处理任务,比如从文件中读取所有行或单词,或者读取包含数字的文件等。 读取行 要读取文件中所有行,可以调用scala.io.Source对象的getLines方法://导入Scala的IO包import scala.io.Source//以指定的UTF-8字符集读取文件,第一个参数

2016-04-09 23:24:48 3669

原创 Scala模式匹配

Scala模式匹配     模式匹配简介 简介Scala模式匹配机制十分强大,可以应用在很多场合:switch语句、类型查询,以及“析构”(获取复杂表达式中不同的部分)。除此之外,Scala还提供了样例类,对模式匹配进行了优化。 要点match表达式是一个更好的switch,不会有意外掉入下一个分支的问题。如果没有模式能够匹配,会抛出Matc

2016-04-09 20:07:02 1898

原创 Scala类与对象

Scala类与对象   类简介简介类是对象的蓝图。一旦你定义了类,就可以用关键字new根据类的蓝图创建对象。在类的定义里,可以放置字段和方法,这些被笼统地称为成员。对于字段,不管是val还是var定义的,都是指向对象的变量。对于方法,用def定义,包含了可执行代码。字段保留了对象的状态或数据,而方法使用这些数据执行对象的运算工作。当类被实例化的时候,运行时环境会预留一些内存

2016-04-09 15:23:05 8067

原创 Scala集合类型详解

Scala集合类型详解   Scala集合Scala提供了一套很好的集合实现,提供了一些集合类型的抽象。Scala 集合分为可变的和不可变的集合。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。而不可变集合类永远不会改变。不过,你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同时使原来的集合不发生改

2016-04-08 20:30:36 18890 3

原创 Scala数组

Scala数组    简介Scala 语言中提供的数组是用来存储固定大小的同类型元素,数组对于每一门编辑应语言来说都是重要的数据结构之一。声明数组变量并不是声明 number0、number1、...、number99 一个个单独的变量,而是声明一个就像 numbers 这样的变量,然后使用 numbers[0]、numbers[1]、...、numbers[99]

2016-04-07 22:57:49 1825

原创 Java泛型

Java泛型    泛型介绍Java 泛型(generics)是 JDK 5 中引入的一个新特性, 泛型提供了编译时类型安全检测机制,该机制允许程序员在编译时检测到非法的类型。泛型的本质是参数化类型,也就是说所操作的数据类型被指定为一个参数。假定我们有这样一个需求:写一个排序方法,能够对整形数组、字符串数组甚至其他任何类型的数组进行排序,该如何实现?答案是可

2016-04-07 17:07:10 1294

原创 Java集合详解(二):Map

Java集合详解(二):Map    Collection和Map比较Collection--->是一个单列的集合 Mapmap中需要存放两个元素一个是K:Key-->键一个是V:Value--->Value----->map是一个双列的集合每一个K和V之间存在着映射关系Map的特点:map的每一个对元素都是以

2016-04-06 23:34:03 1620 1

原创 Java集合详解(一):Collection

Java集合详解(一):Collection     1.集合简介集合类的由来:对象用于封装特有数据,对象多了需要存储,如果对象的个数不确定。就使用集合容器进行存储。   集合的特点:用于存储对象的容器。集合的长度是可变的。集合中不可以存储基本数据类型值。  集合容器因为内部的数据结构不同,有多种具体容器。不断的向

2016-04-06 22:22:02 1686

原创 Scala函数

Scala函数   Scala函数简介:在程序变得庞大时,需要将其分割成更小、更易管理的片段。为分割控制流,Scala为有经验的程序员提供了熟悉的方式:把代码分割成函数。Scala提供了许多Java中没有定义函数的方式。除了作为对象成员函数方法之外,还有内嵌在函数中的函数,函数字面量和函数值。定义函数最通用的方法是作为某个对象的成员。函数示例:def main(args

2016-04-05 21:46:26 1327

原创 Scala流程控制

Scala流程控制   1.Scala 内建的控制结构屈指可数 ,仅有 if 、while 、for ,  try 、match 和语句块而已。如此之少的理由是,Scala 从语法层而支持函数字面面量。因此 ,代之以在基本语法之上逐一添加高级的内建控制结构,Scala 可以把它们实现在函数库中。2.可能你已经发现 ,几乎所有的 Scala的控制结构都会产生某个值。这是函

2016-04-04 20:26:25 2557

原创 Scala语言基础

Scala语言基础    1. Scala词法Scala 程序使用的字符集是 Unicode 的基本多文种平面字符集; 下面定义了 Scala 词法的两种模式:Scala 模式与 XML 模式。 如果没有特别说明,以下对 Scala 符号的描述均指 Scala 模式,常量字符‘c’指 ASCII 段\u0000-\u007F。在 Scala 模式中,十六进制 Unico

2016-04-03 18:32:33 5670

原创 Scala环境配置

Scala环境配置   1.安装前提Scala 语言可以运行在Window、Linux、Mac OS X等系统上。基于Java,大量使用Java的类库和变量,所以使用Scala之前必须要先安装JDK。JDK的安装参考:http://blog.csdn.net/u011204847/article/details/51002072  2.Scala包下载

2016-04-02 19:16:50 1740

原创 Java字符串详解

Java字符串详解  Java字符串类是Java中使用最多的类,也是最为特殊的一个类,很多时候,我们对它既熟悉又陌生。下面将对String、StringBuffer和StringBuilder三种字符串类详细介绍:1. java.lang.String类和字符串池首先,我建议先看看String类的源码实现,这是从本质上认识String类的根本出发点。从中可以看到

2016-03-31 01:18:34 1868

原创 Scala简介

1:Scala简介1. Scala概述    官方网址:http://www.scala-lang.org/1. Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Scala 发音为(/ˈskɑːlə, ˈskeɪlə/)。Scala编程语言为很多开发者所喜爱。如果你粗略浏览Sc

2016-03-30 20:42:18 4652

原创 Spark简介

Spark简介1. Spark概述1. 什么是Spark?Spark作为Apache顶级的开源项目,是一个快速、通用的大规模数据处理引擎,和Hadoop的MapReduce计算框架类似,但是相对于MapReduce,Spark凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop上任何格式数据的优势,进行批处理时更加高效,并有更低的延迟。相对于“one stack to rule 

2016-03-29 23:01:10 14761

原创 Java语言基础

Java语言基础关键字Java中一些赋以特定的含义、并用做专门用途的单词称为关键字(keyword)或保留字。如下表所示: 标识符标识符用作给变量、类和方法命名。 标识符命名的要求如下:1:可以使用26个大小写字母以及数据0-9,以及字符_$组合2:不能以数字开头3:不能使用关键字4:不能有空格,@,#等符号5:大小写敏感Java中标识符的名称规范:

2016-03-28 23:25:09 1328

原创 Java环境搭建

二:Java环境搭建JRE与JDKJRE  (Java Runtime Environment    Java运行环境)包括Java虚拟机(JVM Java Virtual Machine)和Java程序所需的核心类库,如果想要运行一个开发好的Java程序,计算机中只需要安装JRE即可。JDK  (Java Development Kit    Java开发工具包)JDK是提供

2016-03-28 22:58:47 1638

原创 Java简介

Java简介Java语言概述1. Java是由Sun公司推出的Java面向对象程序设计语言和Java平台的总称。由James Gosling和同事们共同研发,并在1995年正式推出。与传统程序不同,Sun 公司在推出 Java 之初就将其作为一种开放的技术。全球数以万计的 Java 开发公司被要求所设计的 Java软件必须相互兼容。2. 后来Sun公司被Oracle公司收购。Ora

2016-03-28 22:37:34 6530

原创 Hadoop HA(高可用)环境的搭建

Hadoop HA(高可用)环境的搭建:集群布局:集群描述: 集群中有两个NameNode,两个ResourceManager。实现了NameNode的HA方案以及ResourceManager单点故障的解决。Hadoop的HA介绍: hadoop2中的NameNode有两个。每一个都有相同的职能。一个是active状态的,一个是standby状态的。当集群运行时,只有active状态的N

2016-03-18 21:43:22 3387

原创 在VMware Workstation 12 PRO上安装CentOS 7 Minimal版

在VMware Workstation 12 PRO上安装CentOS Minimal版测试的系统环境: Windows 7 Ultimate Sp1 x64 VMware Workstation 12 PRO CentOS 7 系统: CentOS-7-x86_64-DVD-1503-01.iso (CentOS官网可下载)CentOS Minimal版安装包括安装和配置IP地址,

2016-03-18 19:37:26 8924 1

Machine Learning with Spark

Machine Learning with Spark,喜欢数据分析的朋友们可以下载看看,写得还是不错的。

2016-04-26

测试的日志文件

这是一些日志文件,感兴趣的朋友可以下载下来做一些数据分析!

2016-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除