8 fumin

尚未进行身份认证

暂无相关描述

等级
博文 25
排名 3w+

Redis的内存碎片

Redis默认使用jemalloc分配内存,根据fast'14的最佳论文的说法,当遇到变长key-value负载时,会出现碎片问题:内存利用率低,实际分配的内存比所需要的内存多。因此我用YCSB对Redis的内存进行了测试。实验的第1阶段:向Redis插入100万条记录,key为20字节,value为100字节,皆为定长,理论上的有效数据大约是120MB。阶段2:产生90万个update请

2014-10-29 16:02:02

Linux下几个比较好用的软件

在这里记录下几个比较好用的linux软件,不间断更新。1.Mendeley一句话广告:It’stimetochangethewaywedoresearch.Mendeley是一个免费的引用管理和学术社交网络。而MendeleyDesktop是一个管理文献的客户端,我们可以用它管理文献、阅读文献、分享文献、同步文献等。客户端支持windows、Linux等多种操作系统

2012-05-08 20:20:20

谷歌技术"三宝"之BigTable

2006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如GoogleEarth和GoogleAnalytics,因此它和GFS、MapRed

2012-05-04 22:09:29

谷歌技术"三宝"之MapReduce

江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来介绍一下

2012-04-26 22:01:57

谷歌技术"三宝"之谷歌文件系统

题记:初学分布式文件系统,写篇博客加深点印象。GFS的特点是使用一堆廉价的商用计算机支撑大规模数据处理。虽然"TheGoogleFileSystem" 是03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,是基于过去很多实验观察的,并提出了很多假设作为前提,这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时,一定要

2012-04-21 17:28:31

使用math库遇到的错误

程序里需要使用pow函数,虽然我已经#include,但是make的时候仍然出现错误:undefinedreferenceto'pow'。在网上查找了一些解决方案,明白了math库是需要手动加上-lm链接的,但是仍有些问题不明白。Q1:pow的参数如果是两个常数,则不加-lm也是正确的,why?Q2:-lm的位置似乎有讲究,gcc$(OBJS)-oexbin-lm可以链

2012-04-09 22:03:26

三种二叉树遍历的非递归实现

今天偶然翻出了很久以前写的一篇博客,是关于三种二叉树遍历的非递归实现的,转到这儿来吧。程序都是伪代码,因为是考研复习期间写的,数据结构参考了严蔚敏的《数据结构》。先看递归实现:voidTraverse(BiTreeT){if(T){//visit,先序遍历Traverse(T->lchild);//visit,中序遍历Travers

2012-04-09 20:43:02

主文件系统 vs 二级文件系统 (EMC篇)

文主要基于FAST11和FAST12的两篇论文:Astudyofpracticaldeduplication和Characteristicsofbackupworkloadsinproductionsystems。前者来自微软,主要分析的是用于主存储系统的文件系统;后者来自EMC,分析的是用于二级存储系统(如备份、归档)的文件系统。两篇论文共同的特点是实验的数据集都非常庞大,因

2012-03-19 21:32:15

主文件系统 vs 二级文件系统 (微软篇)

本文主要基于FAST11和FAST12的两篇论文:Astudyofpracticaldeduplication和Characteristicsofbackupworkloadsinproductionsystems。前者来自微软,主要分析的是用于主存储系统的文件系统;后者来自EMC,分析的是用于二级存储系统(如备份、归档)的文件系统。两篇论文共同的特点是实验的数据集都非常庞大,

2012-03-18 11:02:00

最佳论文:构建高性能的重复数据删除系统

USENIX年度会议(USENIXAnnualTechnicalConference)是计算机体系结构的顶级会议之一,每年举办一次。2011年ATC会议的最佳论文奖被来自赛门铁克的一篇论文摘得:BuildingaHigh-performanceDeduplicationSystem。最近几年关于重复数据删除的研究达到了高潮,2011年FAST的最佳论文是一篇来自微软的关于重复数据删除

2011-12-26 15:05:19

磁盘分区

有台服务器的分区不太合理,今天重新给分了一下,顺便整理一下资料。1概念通常新买回来的电脑,都习惯先对磁盘进行分区。磁盘分区就是将一块物理磁盘分为好几个逻辑存储单元,这几个单元之间互相独立,从外部看就好像有多块物理磁盘。分区编辑软件(比如fdisk)可以对磁盘执行创建、删除分区等操作。每个分区都可以有自己的文件系统。对磁盘进行分区有很多的好处。保护和孤立数据,一个分区损坏了并不

2011-12-22 15:57:09

大话存储

这本书买了一年了,最近终于比较完整的读了一遍,感觉收获不少,应该写一篇读后感吧。首先这本书是讲存储的,市面上关于存储的书少之又少,好书就更是稀缺资源,这本书可以说一定程度上弥补了资料的缺失。书里几乎涉及到了存储的方方面面,涵盖了磁盘、RAID、FC、SAN、NAS、备份等各个方向。这本书里不仅对各个技术的概念、原理进行了讲解,还包括了一些产品的实践,就称它为理论联系实际吧。入学的时候,自己是完

2011-12-09 21:11:51

关联规则挖掘(二):Apriori算法

1算法简介在数据挖掘领域,Apriori算法是挖掘关联规则的经典算法。Apriori算法采用的是自底向上的方法,从1-频繁集开始,逐步找出高阶频繁集。它的基本流程是:第一次扫描交易数据库D时,产生1-频繁集。在此基础上经过连接、修剪产生2-频繁集。以此类推,直到无法产生更高阶的频繁集为止。在第k次循环中,也就是产生k-频繁集的时候,首先产生k-候选集,k-候选集中每一个项集都是对两个

2011-12-08 21:11:04

关联规则挖掘(一):基本概念

本文主要来自《数据仓库和数据挖掘》一书,这本书讲的和维基百科里的非常相似,怀疑是从某本外文书籍里翻译过来的。关联规则挖掘(Associationrulemining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。这里有一则沃尔玛超市的趣闻。沃尔玛曾今对数据仓库中一年多的原始交易数据进行了详细的分析,发现与尿布一起被

2011-12-07 11:04:44

Linux文件系统

从图书馆借的《Linux文件系统》,作者是MosheBar,他还写了另一本书叫《Linuxinternals》,应该说还是挺牛的。但是翻看了几页后,终于忍不住给还了回去,因为翻译太烂了,而且有些古老。首先说说翻译,除了有些不流畅外,最让人不能忍受的是通篇充斥了缓冲区、缓冲区缓存、缓存这样的模糊不清的翻译,不了解的人很难区分这些词语的意思。抱怨一下,国内有很多翻译过来的经典书籍(谁让

2011-12-06 14:16:19

谁养鱼(四):遗传算法的实现

1简介根据达尔文的进化论,生物种群从低级、简单的类型逐渐发展成为高级、复杂的类型。各种生物要生存下去就必须进行生存斗争,具有较强生存能力的生物个体容易存活下来,并有较多的机会产生后代;具有较低生存能力的生物则被淘汰,或者产生后代的机会越来越少,直至消亡。遗传算法借鉴了生物界自然选择、遗传变异机制,将种群代表一组问题的解,通过对当前种群施加选择、交叉和变异等一系列遗传操作,从而产生新一

2011-11-28 19:13:30

谁养鱼(三):如何让计算机认识线索

在谁养鱼问题中给出了15条线索,如何让计算机识别这些线索,并作出正确的判断呢?因为房子的顺序是固定,给它们编号1、2、3、4、5。每个房子都有五种类型的属性,分别是颜色、国籍、饮料、宠物、香烟,并且不同的房子之间相同类型的属性是不同的。通过观察可以发现,线索可以分为三类:固定线索,绑定线索和相邻线索。固定线索指的将某个属性固定在某个序号的房子,比如线索8和线索9,分别将牛奶固定在中间房

2011-11-25 21:52:44

谁养鱼(二):如何将排列映射到整数域

今天又考虑了一下谁养鱼的问题,觉得用遗传算法来解题值得一试,但是主要的难点有三:如何让计算机理解线索?即如何表示绑定、相邻等关系?比如丹麦人喝茶的绑定关系,绿房子在白房子左边的左相邻关系等。问题空间和遗传空间如何转换?问题空间是红黄蓝绿白这样的排列,如何将其转换成遗传空间的二进制编码?也就是编码问题。遗传算法如何设计?包括种群规模,初始化,适应度函数,选择、交差、变异算子,终止条件等。

2011-11-23 14:59:41

谁养鱼(一):人工解法

题目:据说有五个不同颜色的房间排成一排,每个房间里分别住着一个不同国籍的人,每个人都喝一种特定品牌的饮料,抽一种特定品牌的烟,养一种宠物,没有任意两个人抽相同品牌的香烟,或喝相同品牌的饮料,或养相同的宠物,问题是谁在养鱼作为宠物?为了寻找答案,给出了十五条线索:英国人住在红色的房子里;瑞典人养狗作为宠物;丹麦人喝茶;绿房子紧挨着白房子,在白房子的左边;绿房子的主人喝咖啡;抽Pall

2011-11-21 23:02:05

图灵机和NP难度问题

这学期选了NP难度这门课,挺感兴趣。但是在和同学讨论问题的时候,发现大家对NP难度的认识非常模糊,什么是P!=NP?什么是NP完全?什么是NP难度?都有自己的一套说法。于是自己去查阅了一些资料,可能存在理解不正确的地方,但尽量要把这些问题讲清楚。关于NP方面的知识涉及到很多哲学和数学的内容,有非常多的定理,很难理解,这里只介绍一些基本概念。下面就从最最基本的图灵机开始说起。1图灵机图

2011-11-19 19:57:14
奖章
    暂无奖章