自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (5)
  • 收藏
  • 关注

转载 海量数据处理常用思路和方法

1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。

2013-01-14 10:48:13 370

转载 Java 如何将数据追加写入到文件

import java.io.*;String path=request.getRealPath("/example/filetest"); RandomAccessFile rf=new RandomAccessFile(path + "\\WriteData.txt","rw"); //定义一个类RandomAccessFile的对象,并实例化 rf.seek(rf.l

2012-12-27 21:53:11 895

转载 【转】 POJ推荐50题以及ACM训练方案

2010-08-21 21:05转载自 wade_wang最终编辑 000lzlPOJ 推荐50题第一类动态规划(至少6题,2479 和 2593 必做)2479 和 2593,1015,1042(可贪心),1141,1050,1080,1221,1260,2411(稍难),1276第二类 搜索(至少4题) 1011,1033,1129,2049,2056,24

2012-12-14 19:57:28 593

转载 大数据量,海量数据 处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.B

2012-12-04 17:12:52 540

转载 LevelDB 理论基础

说明:这篇文章主要介绍了理解LevelDB所需要的一些基础知识,主要是一些基础代码和基本机制。了解这些有助于对LevelDB的理解 ,同时这些实现基本上都出自Sanjay和Jeff Dean(Google GFS MapReduce Bigtable的缔造者)之手,其中的很多实现都非常不错,值得学习。转载请注明:作者:phylips@bmy 出处:http://duanple.

2012-11-29 15:45:28 2612 1

转载 LevelDB:一个快速轻量级的key-value存储库(译)

作者:Jeff Dean, Sanjay Ghemawat原文:http://leveldb.googlecode.com/svn/trunk/doc/index.html译者:phylips@bmy 2011-8-16译文:http://duanple.blog.163.com/blog/static/70971767201171705113636/LevelDB

2012-11-29 15:44:46 629

转载 数据库随机IO优化总结

IO性能衡量标准:1. IOPS: 每秒的读写次数, 对于随机IO的应用, IOPS是主要的衡量标准.2. 吞吐量: 单位时间内的数据传输量, 对于顺序IO的应用, 吞吐量是主要的衡量标准. 影响IOPS和吞吐量的磁盘性能要素:1. 寻道时间: 读写磁头移动至正确的磁道上所需要的时间, 当前磁盘寻道时间一般为3ms-15ms.2. 旋转延迟: 盘片旋

2012-11-29 09:23:43 500

转载 抽象类和接口的区别

.Net提供了接口,这个不同于Class或者Struct的类型定义。接口有些情况,看似和抽象类一样,因此有些人认为在.Net可以完全用接口来替换抽象类。其实不然,接口和抽象类各有长处和缺陷,因此往往在应用当中,两者要结合来使用,从而互补长短。   接下来先说说抽象类和接口的区别。  区别一,两者表达的概念不一样。抽象类是一类事物的高度聚合,那么对于继承抽象类的子类来说,对于抽象类来说,

2012-11-20 19:38:01 294

转载 高性能key-value数据库nessDB介绍

nessDB是一个小巧、高性能、可嵌入式的key/value存储引擎,使用标准C开发,支持Linux, *BSD, OS X and Solaris等系统,无第三方库依赖。本文来自nessDB作者@BohuTANG 的投稿分享,推荐给大家。同时nessDB还提供一个服务端,支持Redis的 PING, SET, MSET, GET, MGET, DEL, EXISTS, INFO,

2012-11-19 10:08:40 827

转载 MySQL索引背后的数据结构及算法原理

原文地址:http://www.codinglabs.org/html/theory-of-mysql-index.html摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混

2012-11-14 22:32:13 811

转载 NoSQL 数据建模技术

2012年5月15日陈皓  全文译自墙外文章“NoSQL Data Modeling Techniques”,译得不好,还请见谅。这篇文章看完之后,你可能会对NoSQL的数据结构会有些感觉。我的感觉是,关系型数据库想把一致性,完整性,索引,CRUD都干好,NoSQL只干某一种事,但是牺牲了很多别的东西。总体来说,我觉得NoSQL更适合做Cache。下面是正文——NoSQL 数据

2012-11-08 10:44:44 651

转载 NoSQL总结分类

源地址:http://www.jdon.com/38312NoSQL数据库异军突起,随着Digg和 sf.net大型应用不断采取NoSQL,NoSQL运动已经蓬勃发展,NoSQL数据库很多,如何对他们分类,以便方便地根据自己应用特色选择不同的NoSQL数据库呢?NoSQL = HVSP 无(传统关系数据库的)join或明显事务的高容量简单处理。按照数据模型保存性

2012-11-08 10:43:03 391

转载 qsort和sort的区别

First  qsort基本快速排序的方法,每次把数组分成两分和中间的一个划分值,而对于有多个重复值的数组来说,基本排序的效率较低。集成在C语言库函数里面的的qsort函数,使用 三路划分的方法解决这个问题。所谓三路划分,是指把数组划分成小于划分值,等于划分值和大于划分值的三个部分。函数对buf 指向的数据按升序排序。使用方法: void qsort( void*base,

2012-10-30 21:09:51 268

转载 cin和scanf在使用时的注意事项

(注:本文中的源代码没有包含头文件,实验时请自己编辑。)请边看边操作,这样才能真正明白其中的窍门:  一,scanf(): 常用的有 (1)scanf("%s",a);//a为字符串的指针;例: int main(){       chara[20];       scanf("%s",a);       printf("%s",a);//输出字

2012-10-29 20:56:43 934

转载 详细解说 STL 排序(Sort)

详细解说 STL排序(Sort)详细解说 STL 排序(Sort)作者Winter·      详细解说 STL 排序(Sort)o 0前言:STL,为什么你必须掌握o 1 STL提供的Sort算法§  1.1 所有sort算法介绍§  1.2 sort 中的比较函数§  1.3 sort 的稳定性§

2012-10-25 10:35:01 533

转载 海量数据处理:十道面试题与十个海量数据处理方法总结

第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。     此题,在我之前的一篇文章:十一、从头到尾彻底解析Hash表算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。     再详细介绍下此方案:首先是这一天,并且是访问百度的日

2012-10-15 23:19:54 383

转载 机器学习的数学体系和相关书籍

最近被一篇JMLR的论文折磨得欲仙欲死,想想还是数学没学好,翻出以前看过的一个博客,希望对想做机器学习的有点帮助。特别是我们系的新生,你们刚入学某系老师肯定会告诉你统计现在多么牛逼,多么交叉学科,应用广泛。但是他们什么都不懂,除了告诉你几个八十年代的名词和一些误人子弟的“心得”。这篇博客主要写了机器学习的数学体系,统计里面很多,如Bayesian,statistical learnin

2012-10-13 09:45:19 662

转载 背包问题九讲(1)

题目有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使价值总和最大。基本思路这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状态转移方程便是:f[i][v]=max{f[i-1][v],f[i-

2012-01-30 11:48:06 231

SVN使用教程

有关Tortoise SVN的入门教程,涉及安装,更新,提交的内容

2013-03-26

《骗分导论》

有关NOI竞赛的资料,对学习算法很有帮助

2013-03-26

THU树状数组课件

清华ACM竞赛培训资料,来自课堂第一线的内容

2012-09-05

DP状态设计与方程总结

动态规划算法的参考资料,总结的很全,非常有帮助

2012-01-31

《ACM程序设计 》

浙大出的ACM教材,详细介绍了C++的STL编程,很经典的书

2012-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除