自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 问答 (3)
  • 收藏
  • 关注

原创 scrapy使用记录

下载以后打开scrapy命令行: 命令行选项中:可以通过startproject或genspider开启爬虫,前者是创建一个如下目录结构的工程,后者是按模板创建一个Spider,也可以自己写一个类继承Spider,得到一个Scrapy Spider;两种创建方式分别对应crawl和runspider两种运行方式;预定义的Spider模板有:CrawlSpider,XMLFeedSpide

2017-05-05 15:55:13 391

原创 记录一下python中遇到的问题

为什么推荐用__name__ == ‘__main__’:RuntimeError: Attempt to start a new process before the current process has finished its bootstrapping phase. This probably means that

2017-05-05 15:39:46 424

原创 大数据软件体系结构

2017-05-05 15:28:53 841

原创 Kafka使用调研

章节导航Kafka是什么?Kafka使用场景及特性Kafka架构Kafka配置使用Kafka的两种方式:命令行和APIKafka是什么?试想一下我们现在有一个分布式的网站流量分析系统,我们有多台用于记录用户行为的服务器,前端经过负载均衡将用户行为记录在这些服务器上,每台服务器拥有一部分纪录。 然后问题来了,如何做到实时分析?不可能在每台机上部署一个分析程序,这样会存在数据同步和容错问题

2017-03-25 20:15:01 991

原创 在linux上安装mysql

#环境:centos 7需要安装mysqlserver和mysql client安装mysqlserver有两种方法:在官网下载离线安装包,后缀是tar,解压以后在$MySQL/bin目录下会看到一些脚本,其中包括mysql_install_db,运行它来安装:管理InnoDB的系统表空间和相关数据结构、系统表、sys schema、mysql管理员账户等yum install mysql-se

2017-02-07 16:21:34 296

原创 一次python多线程使用经历

multiprocessing、threading

2017-01-18 15:26:54 4634 1

原创 hadoop二次排序

package example;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.

2016-11-11 00:00:13 307

原创 在eclipse中搭建solr工程的步骤

环境:solr 6.1.0; eclipse luna; tomcat 8.01. 创建一个空的dynamic web project,如果之前没有创建server,那创建一个server,并且双击tomcat的名字打开属性页,把tomcat的属性改成use tomcat installation,注意tomcat一定要是运行状态并且底下没有部署任何web工程server locati

2016-10-24 15:53:07 750

原创 Text和String的区别

Text和String的区别主要在于几个关于位置和长度的方法(lenght、indexOf(find)、charAt)所针对的对象不同,Text的位置是UTF-8编码后的字节偏移量,长度是UTF-8编码后的字节数组大小,而String针对的是Java char(String有一个codePointAt方法可以获得和Text的charAt一样的效果)。一个来自《Hadoop 权威指南》的例子:

2016-05-28 10:38:34 7533 1

原创 JAVA中的枚举类型

提要:1.枚举类型介绍与简单使用2.枚举类型中常用的方法3.枚举类型嵌套4.EnumSet与EnumMap1.枚举类型介绍与简单使用从java 1.5开始有的枚举类型,基本使用方法是用enum关键字定义,所有的枚举类型都继承自Enum类,除了不能继承之外,enum拥有几乎所有类的特性,比如说它可以添加成员变量成员方

2016-05-25 17:54:17 465

原创 在使用hadoop中遇到的一些有关linux的问题

1.关于ssh通过ps -e | grep ssh命令查看本机有没有装openssh,没有就用apt-get install装一下:apt-get install openssh-serverSSH要求服务端和客户端各有两个密钥,为:服务端私钥/公钥客户端私钥/公钥认证过程分为两个步骤:1)获得会话密钥客户端请求连接,服务端接到请求后将自己的公钥和一个会话ID发送给

2016-05-14 00:34:27 373

原创 sqoop使用报告:安装、向oracle导数据

前面的废话:准备换工作了,开始整理这份工作中的笔记。使用sqoop的契机是公司有从hdfs往oracle导数据的需求,于是本白板小号硬着头皮网上搜寻了一圈,找到了sqoop,赶时间就没有细究官方文档了,好在网上资料不少,我要求也不高,最后总算是成功了,特此记录,以供自己以后温习。这次只是导出数据,所以对sqoop的研究很浅,之后有所获再继续补充。开发环境:1.cen

2016-05-12 10:50:47 571

翻译 外网渣翻意会Jackson - Java to JSON and back

原址:http://www.studytrails.com/java/json/jackson-create-json.jspJackson - Creating JSON from JavaJackson提供了一些类实现JSON和JAVA对象的互相转换,在这个例子里我们将看到怎样通过JAVA对象来创建JSON结构。我们将从一个简单的类开始,然后逐渐在它的基础上加大复杂度。现在

2016-02-16 14:33:21 289

原创 eclipse远程调试搭载在Linux上的Hadoop的步骤

开发环境:1.hadoop-0.20.02.eclipse 3.6.23.linux的版本是centos 6.2在开始配置eclipse之前,先要在Linux上安装并配置好hadoop。我在装hadoop的时候出现过运行start-all.sh报permission denied错误的问题,当时我使用的是root账户,百度说hadoop有自己的权限系统,需要给root账

2015-08-18 14:56:58 1293 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除