润蛋-CSDN博客

原创优化小计

1. 网络带宽Hadoop集群的服务器在规划时就在统一的交换机下，这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限，所以在客户端遇到了HDFS访问速度慢的问题。把操作集群的客户端也联入DataNode的交换机内部，解决了这个问题。2. 系统参数对ulimit -c的修改也是官方文档建议的修改，在集群只有10台服务器时，并没有遇到问题。随着机器增

2015-05-10 17:17:38 410

原创 hadoop优化调整

io.file.buffer.size　　hadoop访问文件的IO操作都需要通过代码库。因此，在很多情况下，io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数，以byte为单位，默认值是4KB，一般情况下，可以设置为64KB（65536byte

2015-05-10 16:43:20 1825

原创 vi与vim区别

看到同事用vim，菜鸟的我，今天搜了下，vi与vim的区别，整理如下它们都是多模式编辑器，不同的是vim 是vi的升级版本，它不仅兼容vi的所有指令，而且还有一些新的特性在里面。vim的这些优势主要体现在以下几个方面：1、多级撤消我们知道在vi里，按 u只能撤消上次命令，而在vim里可以无限制的撤消。2、易用性vi只能运行于unix中，而vim不仅可以运行于unix,windows

2013-09-15 17:08:50 602

原创 shell中变量自增的实现方法

bash中，目前有五种方法：1. i=`expr $i + 1`;2. let i+=1;3. ((i++));4. i=$[$i+1];5. i=$(( $i + 1 ))另外，对于固定次数的循环，可以通过seq命令来实现，就不需要变量的自增了；实例如下：#!/bin/bashfor j in $(seq 1 5)do ech

2013-09-10 18:57:44 652

原创 linux 路径问题

路径分为绝对路径和相对路径：　　绝对路径:　　在Linux中，绝对路径是从/(也被称为根目录)开始的，比如/usr、/etc/X11。如果一个路径是从/开始的，它一定是绝对路径，这样就好理解了;　　[root@localhost ~]# pwd 注：判断用户当前所处的位置，也就是说他到底位于哪？　　/root 注：用户当前位于/root;　　[root@lo

2013-09-10 11:40:55 562

转载 hive表信息，以及查看数据的些

感觉会用户，然后查看hive表具体信息的时候，可以用 desc extended tablename；（by run）通常用户在HIVE中用SELECT语句出来结果，无法确定结果是来自哪个文件或者具体位置信息，HIVE中考虑到了这点，在Virtual Column虚列中可以指定三个静态列:1. INPUT__FILE__NAME

2013-09-09 18:23:51 2684

原创 oracle hint

1. /*+ALL_ROWS*/表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化.例如:SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO=’SCOTT’;2. /*+FIRST_ROWS*/表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化.例如:SE

2013-09-09 17:46:06 667

原创 sed

sed 是一种在线编辑器：理解：1，它一次处理一行内容，把当前处理的行存储在临时缓冲区中，接着用sed命令处理缓冲区中的内容；2，对源文件的内容没有任何改变，其实只是把处理的内容放在缓冲里，然后对想要的数据进行重定向输出就ok~

2013-09-09 17:28:29 510

转载 MapReduce概念（转）

转，这个博主貌似女的，写文章很清晰呀，mapreduce的基本概念，~参考原文：http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.htmlMapReduce其实是两个分离的概念：map和reduce。首先看一个简单的例子。例如，现在需要计算1w篇文章中字母‘w’的数量。这些文章

2013-09-04 10:37:33 536

转载 [Hadoop源码解读]（二）MapReduce篇之Mapper类（转）

csdn用的不爽的地方就是不能转载，这篇博主写的很清晰，留着看~ 前面在讲InputFormat的时候，讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。这一篇里，开始对Mapper.class的子类进行解读。先回忆一下。Mapper有setup()，map()，cleanup()和run(

2013-09-03 11:11:34 690

转载 hadoop -mapper的4个方法

Hadoop的MapReduce框架中，Map动作通过Mapper类来抽象。一般来说，我们会实现自己特殊的Mapper，并注册到系统中，执行时，我们的Mapper会被MapReduce框架调用。内部类Context继承自MapContext，并没有引入任何新的方法。Mapper的四个方法是setup，map，cleanup和run。其中，setup和cleanup用于管

2013-09-03 10:47:25 4377

转载 DistributedCache In Hadoop（转）

看yuying代码，看到这个distributedCache，然后搜到这篇文章，很赞，~1、DistributedCache In Hadoop此篇文章主要是前一篇的后续，主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache，它可以方便map task之间或者reduce task之间共享一些信息

2013-08-31 17:35:06 493

原创小煮窗台~

早上看着窗外不想起床，突然有点灵感，小诗一首独在景中心欲静，秋风吹拂使人怡，低头不语略幽思，人生之幸遇到你。

2013-08-31 16:11:15 385

转载 (转)Lucene,Nutch,Hadoop 之间有什么关系？

描述的比较详细~1. Nutch是基于Lucene的,Lucene是提供全文文本搜索的开源函数库,Lucene为Nutch提供了文本索引和搜索的API。2.Hadoop起源于Nutch项目，最先是Nutch的一部分，是Nutch的分布式计算模块，后来分离出来，独立发展了。3.Nutch是一个系统的搜索框架,包括爬虫、索引、查询等，而Hadoop只是让Nutch可以以分布式的方式去工

2013-08-26 15:48:05 1716

原创大数据之新人在新浪

今天部门人，差不多都走了，难得清静，突发感触，想写点东西，来纪念下来了新浪这些日子，而且总结这段时间的对hadoop的体会。

2013-08-22 21:13:28 767

opencms建站手册.doc

Opencms是一个内容管理系统，是一个完全开源的软件，由德国的Alkacon Software 公司负责OpenCms 的开发和维护，适合网站的建设，比如门户网站等等，但不适合业务系统的建设。

2013-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人