gpcuster-CSDN博客

原创关于HFile的思考

0.90.x版本的HBase中的文件是存储在HFile中的。关于HFile文件的详细介绍，可以查看这篇文章：http://www.data-works.org/download/hfile.pdf这篇文章中介绍了以下五点内容：HFile的作用。HFile的格式

2011-07-05 23:11:26 2547

原创深入Redis，读redis-from-the-ground-up有感

网上有一篇介绍Redis的文章，由浅入深地讲解了Redis：http://blog.mjrusso.com/2010/10/17/redis-from-the-ground-up.html。强烈建议对Redis有兴趣或需要使用的朋友阅读这篇文章。 提到Redis，第一反应就是内存k/v缓存，并且很多人会拿它与Memcached相比较，毕竟他们都是以内存作为存储介质的。如果简单地比较Redis与Memcached的区别，大多数都会得到以下观点： 1 Redis不仅仅支持简单

2010-10-21 14:32:00 3256 1

原创如何用好NoSQL？Database-as-a-Service

为什么说NoSQL重要 SQL语言和关系型数据库（MySQL，PostgreSQL，Oracle，等等）是通用的数据解决方案，占用绝大多数的市场。不过在最近兴起的NoSQL运动中，涌现出来了一批具备高可用性，支持线性扩展，支持Map／Reduce操作等等特性的数据产品，它们具有如下特性：频繁的写入操作，相对较少的读取统计信息的操作（比如一个web访问计数器）应该使用基于内存的key／value存储系统，比如Redis，或者是具备本地更新特性的文档存储系统，如MongoD

2010-10-20 23:24:00 4156 14

原创 MongoDB的内部构造 From 《MongoDB The Definitive Guide》

今天下载了《MongoDB The Definitive Guide》电子版，浏览了里面的内容，还是挺丰富的。是官网文档实际应用方面的一个补充。和官方文档类似，介绍MongoDB的内容是少之又少，只有在附录的一个章节中介绍了相关内容。对于大多数的MongoDB的用户来说，MongoDB就像是一个大黑盒，但是如果你能够了解到MongoDB内部一些构造的话，将有利于你更好地理解和使用MongoDB。BSON在MongoDB中，文档是对数据的抽象，它被使用在Client端和Server端的交互中。所有的Clien

2010-10-04 12:20:00 1294

原创 Java分布式内存开源实现：Hazelcast

Hazelcast是一个Java的开源分布式内存实现，它具有以下特性：01 Distributed implementations of java.util.{Queue, Set, List, Map}02 Distributed implementation of java.util.concurrent.ExecutorService03 Distributed implementation of java.util.concurrency.locks.Lock04 Distr

2010-09-26 15:19:00 2730 1

原创 Cassandra-0.7.0-beta1中的新特性

前一阵子Cassandra-0.7.0-beta1发布了，今天把代码拿下来粗略浏览了一下，发现主要有以下几点变化： 1 数据模型中的Keyspace和ColumnFamily可以动态修改： 之前的版本中，如果想在Cassandra中修改Keyspace和ColumnFamily，必须先停掉Cassandra，然后修改配置文件，最后再重启Cassandra才能生效。 在现在的版本中，我们只需要定义新的Keyspace和ColumnFamily，

2010-08-20 14:15:00 2625 1

原创 Cassandra集群数据初始化方案的构想

一个Cassandra集群需要投入时候，绝大多数时候都是会有初始化数据的，比如博客网站中所有的博客数据，数据分析网站中所有的网页信息，电子商务网站中所有的商品信息等等。这些初始化数据往往量的都非常大，不适用直接使用Thrift API的方式（谈谈Cassandra的客户端）直接导入。Facebook曾经使用了叫做BinaryMemTable的方式导入（使用Binary Memtable将大量数据导入Cassandra）。 我们在集群中安装Hadoop和Cassandra，假设我们需要初

2010-07-03 14:15:00 1915 1

原创使用RingCache提高Cassandra读写效率

我们在之前的文章（谈谈Cassandra的客户端）中讲解了如何在Client端查询Cassandra中的数据。为什么要使用RingCache Cassandra的内部读写流程大概是这样的： 1 Client端先随机找到Cassandra集群中的一台机器，然后将查询请求发送给这台Cassandra机器。 2 接收到查询请求的Cassandra机器会判断需要查询的数据是否在本机中：如果在本机中，直接查询；如果不在本机中，将请求转发给另外一台机器来查询，并等待另外一台机器

2010-06-23 23:17:00 1217

原创 Cassandra的限制

大家在使用Cassandra的时候，往往容易忽视Cassandra本身的限制。 在Wiki中，我们可以看到Cassandra的限制：CassandraLimitationsCassandra的设计限制 这一类限制是在当前的体系架构中无法改变的。 每一个key对应的value不能超过磁盘本身的容量限制。 这是因为Cassandra是将每一个key对应的value存储在本地磁盘上面的，所以当某一个key对应的vaule的大小超过了本地磁盘的容量上限，那么当Ca

2010-06-19 15:14:00 1096

原创在Eclipse中开发Cassandra

在之前的文章中，我们讲解了Cassandra如何安装于配置：如何安装和配置Cassandra 在这篇文章中，我们将从svn中下载Cassandra的源代码，完成编译，并执行相应的单元测试。配置环境 1 安装jdk6，ant。 2 安装Eclipse3.5 3 在Eclipse中安装http://subclipse.tigris.org/update_1.6.x 在Eclipse的菜单选择:Help –> Install New Software<

2010-06-06 16:15:00 1402

原创 Hadoop基本操作命令

Hadoop基本操作命令 在这篇文章中，我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。 假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/start-all.sh关闭Hadoop 1. 进入HADOOP_HOME目录。

2010-06-04 16:05:00 2002

原创整合Cassandra与Hadoop MapReduce

看到这个标题，大家一定会问了。这个整合如何定义？ 我个人认为，所谓的整合是指：我们可以编写MapReduce程序，从HDFS中读取数据然后插入到Cassandra中。也可以是直接从Cassandra中读取数据，然后进行相应的计算。从HDFS中读取数据然后插入到Cassandra中 对于这种类型，我们可以按照以下几个步骤来操作。 1 将需要插入Cassandra的数据上传到HDFS中。 2 启动MapReduce程序。 这种类型的整合其实和Cass

2010-06-01 16:19:00 3072 4

空空如也

空空如也