自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

runlin的专栏

专注技术,专注生活

  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 优化小计

1. 网络带宽Hadoop集群的服务器在规划时就在统一的交换机下,这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限,所以在客户端遇到了HDFS访问速度慢的问题。把操作集群的客户端也联入DataNode的交换机内部,解决了这个问题。2. 系统参数对ulimit -c的修改也是官方文档建议的修改,在集群只有10台服务器时,并没有遇到问题。随着机器增

2015-05-10 17:17:38 410

原创 hadoop优化调整

io.file.buffer.size  hadoop访问文件的IO操作都需要通过代码库。因此,在很多情况下,io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以设置为64KB(65536byte

2015-05-10 16:43:20 1825

原创 vi与vim区别

看到同事用vim,菜鸟的我,今天搜了下,vi与vim的区别,整理如下它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅兼容vi的所有指令,而且还有一些新的特性在里面。vim的这些优势主要体现在以下几个方面:1、多级撤消我们知道在vi里,按 u只能撤消上次命令,而在vim里可以无限制的撤消。2、易用性vi只能运行于unix中,而vim不仅可以运行于unix,windows

2013-09-15 17:08:50 602

原创 shell中变量自增的实现方法

bash中,目前有五种方法:1. i=`expr $i + 1`;2. let i+=1;3. ((i++));4. i=$[$i+1];5. i=$(( $i + 1 ))另外,对于固定次数的循环,可以通过seq命令来实现,就不需要变量的自增了;实例如下:#!/bin/bashfor j in $(seq 1 5)do  ech

2013-09-10 18:57:44 652

原创 linux 路径问题

路径分为绝对路径和相对路径:  绝对路径:  在Linux中,绝对路径是从/(也被称为根目录)开始的,比如/usr、/etc/X11。如果一个路径是从/开始的,它一定是绝对路径,这样就好理解了;  [root@localhost ~]# pwd 注:判断用户当前所处的位置,也就是说他到底位于哪?  /root 注:用户当前位于/root;  [root@lo

2013-09-10 11:40:55 562

转载 hive表信息,以及查看数据的些

感觉会用户,然后 查看hive表具体信息的时候,可以用 desc extended tablename; (by run)通常用户在HIVE中用SELECT语句出来结果,无法确定结果是来自哪个文件或者具体位置信息,HIVE中考虑到了这点,在Virtual Column虚列中可以指定三个静态列:1.  INPUT__FILE__NAME    

2013-09-09 18:23:51 2684

原创 oracle hint

1. /*+ALL_ROWS*/表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化.例如:SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO=’SCOTT’;2. /*+FIRST_ROWS*/表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化.例如:SE

2013-09-09 17:46:06 667

原创 sed

sed 是一种在线编辑器:理解:1,它一次处理一行内容,把当前处理的行存储在临时缓冲区中,接着用sed命令处理缓冲区中的内容;2,对源文件的内容没有任何改变,其实只是把处理的内容放在缓冲里,然后对想要的数据进行重定向输出就ok~

2013-09-09 17:28:29 510

转载 MapReduce概念(转)

转,这个博主貌似女的,写文章很清晰呀,mapreduce的基本概念,~参考原文:http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.htmlMapReduce其实是两个分离的概念:map和reduce。首先看一个简单的例子。例如,现在需要计算1w篇文章中字母‘w’的数量。这些文章

2013-09-04 10:37:33 536

转载 [Hadoop源码解读](二)MapReduce篇之Mapper类(转)

csdn用的不爽的地方就是不能转载,  这篇博主写的很清晰,留着看~  前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。  这一篇里,开始对Mapper.class的子类进行解读。  先回忆一下。Mapper有setup(),map(),cleanup()和run(

2013-09-03 11:11:34 690

转载 hadoop -mapper的4个方法

Hadoop的MapReduce框架中,Map动作通过Mapper类来抽象。一般来说,我们会实现自己特殊的Mapper,并注册到系统中,执行时,我们的Mapper会被MapReduce框架调用。内部类Context继承自MapContext,并没有引入任何新的方法。Mapper的四个方法是setup,map,cleanup和run。其中,setup和cleanup用于管

2013-09-03 10:47:25 4377

转载 DistributedCache In Hadoop(转)

看yuying代码,看到这个distributedCache,然后搜到这篇文章,很赞,~1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息

2013-08-31 17:35:06 493

原创 小煮窗台~

早上看着 窗外不想起床,突然有点灵感, 小诗一首独在景中心欲静,秋风吹拂使人怡,低头不语略幽思,人生之幸遇到你。

2013-08-31 16:11:15 385

转载 (转)Lucene,Nutch,Hadoop 之间有什么关系?

描述的比较详细~1. Nutch是基于Lucene的,Lucene是提供全文文本搜索的开源函数库,Lucene为Nutch提供了文本索引和搜索的API。2.Hadoop起源于Nutch项目,最先是Nutch的一部分,是Nutch的分布式计算模块,后来分离出来,独立发展了。3.Nutch是一个系统的搜索框架,包括爬虫、索引、查询等,而Hadoop只是让Nutch可以以分布式的方式去工

2013-08-26 15:48:05 1716

原创 大数据之新人在新浪

今天部门人,差不多都走了,难得清静,突发感触,想写点东西,来纪念下来了新浪这些日子,而且总结这段时间的对hadoop的体会。

2013-08-22 21:13:28 767

opencms建站手册.doc

Opencms是一个内容管理系统,是一个完全开源的软件,由德国的Alkacon Software 公司负责OpenCms 的开发和维护,适合网站的建设,比如门户网站等等,但不适合业务系统的建设。

2013-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除