- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 Tachyon简介
Tachyon 是一个高容错的分布式内存文件系统,允许文件以内存的速度在集群框架(如spark,hadoop)中进行可靠的共享,其通过使用lineage信息和内存获得更高的性能。Tachyon将文件放入内存中,避免到磁盘中频繁加载数据,Tachyon以常见的Master/worker的方式组织集群,由Master节点负责管理维护文件系统MetaData,文件数据维护在Worker节点的内存中。容错
2015-08-27 10:09:40 606
原创 基于Hadoop的带词频属性的文档倒排索引
Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents)。例如:如果考虑单词在每个文档中出现的词频、位置、对应Web文档的URL等诸多属性,简单的倒排算法就不足以有效工作。我们把这些词频、位置等诸多属性称为有效负载(Payload)。
2013-04-24 16:40:50 3071
原创 hadoop (1.0.4) Path 详解
Path 对路径进行解析,将参数转换为标准的URI格式,对Path的参数作判断,标准化,字符化等操作。为了便于理解Path,各位可以先参看URI的详解,链接http://www.cnblogs.com/springside5/archive/2012/05/06/2486245.htmlimport java.net.*;import java.io.*;im
2013-04-21 10:51:02 1665
原创 hadoop (1.0.4) IntWritable 详解
package org.apache.hadoop.io;import java.io.*;/** A WritableComparable for ints. */public class IntWritable implements WritableComparable { private int value; /
2013-04-19 20:08:59 3033
原创 hadoop (1.0.4) Text 类详解
Text的部分代码:(有兴趣的同学可以直接查看其源码)public class Text extends BinaryComparable implements WritableComparable {private static ThreadLocal ENCODER_FACTORY = new ThreadLocal() { protected Cha
2013-04-19 19:43:30 1765
原创 hadoop(1.0.4) RawComparable详解
package org.apache.hadoop.io;import java.util.Comparator;import org.apache.hadoop.io.serializer.DeserializerComparator;public interface RawComparator extends Comparator { public int compare(b
2013-04-19 18:35:01 599
原创 hadoop(1.0.4) writable 接口详解
package org.apache.hadoop.io;import java.io.DataOutput;import java.io.DataInput;import java.io.IOException;public interface Writable { void write(DataOutput out) throws IOException;//Serialize
2013-04-19 16:47:33 669
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人