xyz2011-CSDN博客

原创认真阅读hadoop源码

从新复习hadoop,认真阅读hadoop源码，有兴趣的朋友可以加我:282215036

2012-11-01 16:00:17 240

awk平时使用心得

1、cat exe1 | awk '{a[$1]+=$2}END{for(i in a) print i,a[i]}'aaa 6bbb 2ccc 42、awk '{a[$0]++}END{l=asorti(a);for(i=1;i<l;i++)print a[i]}' exe2aaabbccdddefffkmmnn3、[@83_20 exercise]$ awk '{a[$1]+...

2012-07-09 17:49:31 475

原创 Java并发编程总结---Hadoop核心源码实例解读

程序设计需要同步(synchronization),原因：1）复杂的功能要求的需要使用多线程编程，线程之间存在读写共享变量。2）读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素干扰。3...

2012-04-01 15:46:11 250

原创铁道部售票网站怎么啦？

乐淘CTO李勇：库存同步是难点我的判断，除了一般的优化之外，最大的难点应该是库存同步问题。推测应该有一个全国唯一的核心库，负责维护所有车次所有座位的票务状态，完成库存查询、锁定、出入库操作。之前只是对内部的各售票点开放（估计有几万个），波动小的情况。突然对公众开放就出问题了，会达到百万并发，根本无法承受。做这种系统的，应该是跟铁道部有多年合作经验，善于做内部系统的集成公司（网上看...

2012-01-10 10:25:05 176

原创 eclipse启动报错jvm terminated. Exit code=1

转载链接： http://wxmfly.iteye.com/blog/233421

2011-10-11 08:55:28 177

原创做有气质的男人

这里提到男人应该具有的一些品质吧，偶然看到的，觉得说得有道理（尽管没做到的还很多），忍不住转一下。一：沉稳（1）不要随便显露你的情绪。（2）不要逢人就诉说你的困难和遭遇。（3）在征询别人的意见之前，自己先思考，但不要先讲。（4）不要一有机会就唠叨你的不满。（5）重要的决定尽量有别人商量，最好隔一天再发布。（6）讲话不要有任何的慌张，走路也是。二：细心（1）对身边发生的事情，常思考它们的因果关系。（...

2011-09-29 09:39:25 221 1

加油啦！

8月18日入职搜狐，负责汽车事业部数据。看来压力不小啊，加油干吧！

2011-09-22 16:02:19 123

ireport中获取当前时间

一。 iReport 中获取系统当前时间1，选择TextField类型为 java.util.Date2，在pattern中点在Date中选择你要的日期格式如下图 3，在TextField Expression中写 java.util.Calendar.getInstance().getTime() 如下图 ...

2011-08-28 11:53:39 288

ireport引java bean database

今天帮一同事调试程序，他们的报表工具用的是ireport4.0.2,在使用java bean 作为数据源时一直没找到，原因很简单：就是没找对所编译的class 路径。如果使用的eclipse来编译的话，一般class文件都放在项目/bin/class 下面截一个图：最下面的一个是class 所存放的地方 ...

2011-08-27 10:38:37 131

原创知足最好

钱多钱少，够吃就好。人丑人美，顺眼就好。人老人少，健康就好。家穷家富，和气就好。老公晚归，回来就好。老婆唠叨，顾家就好。孩子从小，就要教好。博士也好，卖菜也好。长大以后，心安就好。房屋大小，能住就好。名不名牌，能穿就好。两轮四轮，能驾就好。老板不好，能忍就好。一切烦恼，能解就好。坚持执着，放下最好。人的一生，平安就好。不是有钱，一定会好。心好行好，命能改好。谁是谁非，天知就好。修福修慧，来世更好。...

2011-08-25 10:50:15 129

原创几个比较重要的句子

1.说话要用脑子,做事慎言,话多无益.讲话不要只顾一时痛快.信口开河,以为人家给你笑脸就是欣赏,没完没了的把掏心窝子的话都讲出来,结果让人家彻底摸清了家底.还偷笑你.2.遇事不要急于下结论,即便有了答案也要等等,也许有更好的解决方式,站在不同的角度就有不同答案,要学会换位思维.3.对小人一定要忍让,退一步海阔天空,实在不行把属于自己的空间也关给他们,站他们如莺燕舞般陶醉吧.大人大度量.惹着...

2011-08-25 10:49:39 155

使用hadoop的lzo问题!

使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如下特点：我们这使用的是hadoop客户端。1.压缩解压的速度很快2.lzo压缩是基于block分块的。这样，一个大文件(在hadoop上可能会占用多个block),就可以有多个 MapReduce并行来进行处理。虽然Lzo的压缩比没有Gzip高，不过由于其前2个特性，在Hadoop上使用Lzo还是能整体提升集群的性能的。能提高效率的即是...

2011-08-24 17:12:28 188

原创 hive中partition如何使用

网上有篇关于hive的partition的使用讲解的比较好，转载了：一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitio...

2011-08-23 23:35:38 1091

hive中配置使用derby.

hive-default.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby，create为true表示自动创建数...

2011-08-23 23:20:56 257

原创 hive中UDF和UDAF使用说明

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/St...

2011-08-23 23:04:54 591

原创 hive的distribute by应用

hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，根据reduce的个数进行数据分发，默认是采用hash算法。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。hive> select * from test09;OK100 tom...

2011-08-23 17:08:59 732

原创 hive的sort by应用

在hive中不光有order by操作，还有个sort by操作。两者执行的都是排序的操作，但有存在很大的不同。还是用上次order by的例子来说明。测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 secondshive> select * from test09...

2011-08-23 17:02:38 415

原创 hive的order by应用

hive中的order by也是对一个结果集合进行排序，但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。hive的参数hive.mapred.mode是控制hive执行mapred的方式的，有两个选项：strict和nonstrict，默认值是nonstrict。这个两个值对order by的执行有着很大的影响。测试用例hive> select * from ...

2011-08-23 16:56:41 157

原创 solr是如何存储索引的

我发现一直理解错了，我一直以为分布式索引和分布式搜索是两个不同的事情，其实是一样的.把索引分布在多台计算机上，不就是正好实现了分布式搜索吗?既然索引已经分布式存储了，,因为搜索就是基于索引的，那搜索就自然是分布式的啦。.前面看网上一些理解，一直以为分布式索引和分布式搜索是两个独立分开的过程，不知道理解的对不对? 调研了一下，发现索引文件的数据结构相当复杂，这个好像是每提交一次建索引，就...

2011-08-15 22:43:20 385

原创谈谈爬虫的设计

网络蜘蛛现在开源的已经有好几个了，Larbin，Nutch，Heritrix都各有用户之地，要做一个自己的爬虫要解决好多个问题，比如调度算法、更新策略、分布式存储等，我们来一一看一下。一个爬虫要做的事主要有以下这些从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；获取每个页面的源码保存在磁盘或者数据库里；遍历抓下来的网页进行处理，比如提取正文，消...

2011-08-07 22:27:43 113

jvm研究第一篇

最近在找工作，利用时间把jvm好好研究下，以前自己只是知道一点内存溢出，通常抛出OutOfmerry等等异常，印象中知道要改动-Xmx:*** 和-Xms这两个参数。其实它们里卖的药还挺深的，夜已经很深了快24:00了，今天先看个头，随后几篇文章会有更详细的阐述！...

2011-08-03 00:01:45 92

nutch-1.2在搜索HDFS过程中高并发的处理

紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索，在高并发的情况下，搜索的速度如何提升。1、其实通过看nutch-1.2中的NutchBean源码程序不难发现，它在搜索的时候，有几个实现类，RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean，和NutchBea...

2011-07-14 17:17:32 102

nutch-1.2结合hadoop分布式搜索

nutch-1.2结合hadoop分布式搜索。1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的，我这里也给一个连接<<nutch分布式搜索配置>>2、在这里主要想写下工作过程当中遇到的一些问题：------0-------------1-------------2-------------3-------java...

2011-07-13 10:50:18 137

原创大数据量的走向趋势

时至今日，“Bigdata”（大数据）时代的来临已经毋庸置疑，尤其是在电信、金融等行业，几乎已经到了“数据就是业务本身”的地步。在这其中，还挟裹着一个更为重要的趋势，即数据的社会化（Socialization of Data）。从博客论坛到游戏社区再到微博，从互联网到移动互联网再到物联网，人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲，他们需要关...

2011-07-08 10:26:16 296

hive执行查询出现：Error while making MR scratch directory - check filesystem解决办法

进入 $hadoop_home vi conf/core-site.xml之前的配置是hdfs://192.168.10.145:9060但是在hive命令行下面查询一直出错：错误信息如下：FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - c...

2011-07-07 15:34:28 210

原创 secondarynamenode配置使用总结

一、环境Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候，由于操作系统的原因，导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是，出问题的机器就是Master。当时心里就凉了半截，因为secondarynamenode配置也是在这个机器上（默认的，没改过）。不过万幸的是这个集群是测试环境，所以问题不大。借这个缘由，我将sec...

2011-07-07 08:37:13 1087

原创 Map/Reduce中的Combiner的使用

一、作用1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)2、combiner还具有类似本地的reduce功能.例如h...

2011-07-07 08:36:30 134

原创 Map/Reduce中的Partiotioner使用

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner，主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观，同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容如下(1条数据内容少，1条数据内容超长，3条数据内容正常)：kaka 1 28hua 0 26chao 1tao ...

2011-07-07 08:35:26 159

原创 hadoop如何添加节点

1.部署hadoop 和普通的datanode一样。安装jdk，ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 4.在新节点的机器上，启动服务 Java代码 [root@slave-004 hadoop]# ./bin/hadoop-dae...

2011-07-06 12:43:52 130

原创 Hbase使用已经安装的zookeeper

.修改conf/hbase-env.sh，添加jdk支持 Java代码 export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false2.拷贝zookeep...

2011-07-06 12:42:39 268

原创 zookeeper集群的安装

前提是安装完成hadoop 1）下载zookeeper-3.2.2.tar.gz 解压到每台服务器的/data/soft 解压 Java代码 root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.g...

2011-07-06 12:39:11 86

原创 hbase配置手册

Hbase配置手册 1）下载hbase 解压到每台服务器的/data/soft 解压 Java代码 root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz建立软连 Java代码 root@ma...

2011-07-06 12:37:54 118

原创 hadoop如何恢复namenode

Namenode恢复 1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.checkpoint.period</name> <value>3600</value> <des...

2011-07-06 12:36:44 320

原创 Hadoop删除节点（Decommissioning Nodes）

1.集群配置修改conf/hdfs-site.xml文件 Xml代码 <property> <name>dfs.hosts.exclude</name> <value>/data/soft/hadoop/conf/excludes</value> <descrip...

2011-07-06 11:52:23 798

原创 hadoop知识点整理

1. Hadoop 是什么？Hadoop 是一种使用 Java 编写的分布式计算平台。它吸收了 Google 文件系统和 MapReduce 等产品的特性。详情参见 HadoopMapReduce。2. Hadoop 运行于什么平台？1. Java 1.5.x 或更高版本（推荐使用 Sun 的实现版本）；2.支持 Linux 与 Windows 操作系统。在 BSD、Mac OS/...

2011-07-06 11:51:19 189

nutch-1.x分布式索引指定

1、nutch-1.x中在crawl.java中。最后有这么一句话。 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));它会把crawldb，linkdb以及segments，进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的d...

2011-07-04 17:15:40 111

原创喜欢hadoop的同学们值得一看

海量数据正在不断生成，对于急需改变自己传统IT架构的企业而言，面对海量数据，如何分析并有效利用其价值，同时优化企业业务已成为现代企业转型过程中不可避免的问题。作为海量数据处理的一个重要工具——Hadoop也开始受到了越来越多人的关注。第四届Hadoop大会——Hadoop Summit 2011大会6月29日在Santa Clara举行了，备受关注的Yahoo新成立的子公司——Horton...

2011-07-03 15:50:22 123

原创 hadoop优化

一. conf/hadoop-site.xml配置, 略过. 二. 注重job重用, 主要是设计key和自定义OutputFormat, 将能合并的mapred job合并.举例 : 用户访问行为(userid, ip, cookie), 分别统计每个用户的ip数和cookie数.(a). 把userid和字段存储到key中public class UserKey implements Writa...

2011-07-03 15:43:00 86

原创 lucene与数据库结合使用

转帖：http://jushi1988.iteye.com/blog/693188 --- 2010-06-18 17:00 代码修改：修改重复创建索引，添加双字段高亮。今天发一个简单的和数据库交互的Lucene示例，只是初步的靠Lucene自带的分词实现中文分词,效果肯定没有网上琳琅的分词器相媲美，只为了示例，用了自带的高亮。页面不好看，将就一下哦。主要是...

2011-06-10 14:14:22 262