8 liang_wen_bo

尚未进行身份认证

暂无相关简介

等级
TA的排名 21w+

面试知识点必备

基础篇:操作系统、计算机网络、设计模式一:操作系统1. 进程的有哪几种状态,状态转换图,及导致转换的事件。2. 进程与线程的区别。3. 进程通信的几种方式。4. 线程同步几种方式。(一定要会写生产者、消费者问题,完全消化理解)5. 线程的实现方式. (也就是用户线程与内核线程的区别)6. 用户态和核心态的区别。7. 用户栈和内核栈的区别。8. 内存池、进程池

2013-10-02 11:24:26

min_hash

在计算机科学领域,最小哈希(或最小哈希式独立排列局部性敏感哈希)方法是一种快速判断两个集合是否相似的技术。这种方法是由Andrei Broder (1997),[1]发明的,最初在AltaVista搜索引擎中用于在搜索结果中检测并消除重复Web页面。[2]它同样也应用于大规模聚类问题,比如通过文档间包含的词语相似性进行聚类。[1]目录 [隐藏] 1雅

2013-05-07 12:24:48

数据挖掘数据集下载网站

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp

2013-05-07 12:20:14

聚类算法

聚类算法算法methods数据挖掘数据库网格工具目录(?)[+]聚类聚类算法分类K-MEANS算法K-MEDOIDS算法Clara算法Clarans算法转自:http://baike.baidu.com/view/69222.htm聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量

2013-05-07 11:59:09

LSH之1

包括lsh的详细介绍以及针对不同距离函数的LSH。作用:解决的问题:相似性计算,避免两两计算,提供一组Hash函数,将相似的pair放在一个bucket里面,降低计算规模。约束:Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate2.识别candidate paire的效率要比从所有pair中识别candidate pair效率高(利用mi

2013-05-07 11:34:37

LSH之2

互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂度。考虑一下,我们是不是

2013-05-07 11:31:41

局部敏感哈希LSH

(转)局部敏感哈希LSH网上转的关于LSH(局部敏感哈希)的介绍 一、原始LSH1、概述  LSH主要用来解决高维空间中点的近似最近邻搜索问题,即Approximate Nearest Neighbor。LSH将原始空间中的点嵌入到Hamming空间中,即原始空间中点的表达形式转换成Hamming空间中点的表达形式,原始空间中的距离度量转换成Hamming空

2013-05-02 09:58:10

巧用MapReduce+HDFS,海量数据去重的五大策略

摘要:随着收集到数据体积的激增,去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。在存储架构中,删除重复数据的常用方法包括哈希、二进制比较和增量差分;而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都

2013-04-24 09:29:44

GDB多线程调试

原文:http://www.cnblogs.com/xuxm2007/archive/2011/04/01/2002162.html先介绍一下GDB多线程调试的基本命令。info threads 显示当前可调试的所有线程,每个线程会有一个GDB为其分配的ID,后面操作线程的时候会用到这个ID。 前面有*的是当前调试的线程。thread ID 切换当前调试的线程为指定

2013-04-19 22:04:13

liunx下.core文件的使用

前面转载了一篇文章关于core文件的产生和调试使用的设置,但在使用有一些需要注意的问题,如 在什么情况 才会正确地产生core文件。      列出一些常见问题:一,如何使用core文件1. 使用core文件在core文件所在目录下键入:gdb -c core它会启动GNU的调试器,来调试core文件,并且会显示生成此core文件的程序名,中止此程序的信号等等。如果

2013-04-19 22:01:31

sizeof,union在32位系统中的对齐问题

8、从union的sizeof问题看cpu的对界    考虑下面问题:(默认对齐方式)union u{double a;int b;};union u2{char a[13];int b;};union u3{char a[13];char b;};coutcoutcout    都知道unio

2013-04-18 10:31:40

malloc() free()函数 和 new delete运算符的区别

malloc() free()函数 和  new  delete运算符的区别 (1)C语言中是呀malloc()函数分配动态内存空间,使用free()函数释放动态内存空间。C++语言中是呀new运算符分配动态内存空间,使用delete运算符释放动态内存空间。(2)C语言malloc()函数分配的空间无法得知存放的数据类型,返回的是void类型的指针,因此还需要做强制类型转换。

2013-04-16 08:28:35

老鼠毒药问题

科学方法论--信息论、老鼠毒药问题、称球问题(全文)  一道有关用老鼠检测毒药瓶的附加题: 有100只一模一样的瓶子,编号1-100。其中99瓶是水,一瓶是看起来像水的毒药。只要老鼠喝下一小口毒药,一天后则死亡。现在,你有7只老鼠和一天的时间,如何检验出哪个号码瓶子里是毒药? 这儿把它叫做‘问题1’,解决此题的方法可谓二进制应用的经典: 首先,将瓶子的10进制编

2013-04-13 18:25:02

霍夫曼树

1.基本概念霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的带权路径长度:设一棵二叉树有 n 个叶子结点,每个叶子结点拥有一个权值W 1 ,W 2 , ...... W n ,从根结点到每个叶子结点的路径长度分别为 L1 , L2...

2013-04-12 23:11:27

UFLDL教程

UFLDL教程说明:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。本教程假定机器学习的基本知识(特别是熟悉的监督学习,逻辑回归,梯度下降的想法),如果你不熟悉这些想法,我们建议你去这里机器学习课程,并先完成第II,III,IV章(到逻辑回归)。

2013-04-10 10:19:38

4.一致性事务

Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。Transactional Topology目前已经不再维护,由Trident来实现事务性topology,但是原理相同。5

2013-04-09 20:56:28

3.消息的可靠处理

4.1 简介storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。4.2 理解消息被完整处理一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。我们来思考一下流式的“单词统计”的例子:storm任务从数据源(Kes

2013-04-09 20:52:41

0.storm介绍

1.1   实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。随着互联网的更进一步发展,从P

2013-04-09 20:50:37

2.Storm入门教程 第三章 Storm安装部署步骤

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimbus

2013-04-09 20:44:23

1.Storm基本概念

在运行一个Storm任务之前,需要了解一些概念:Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configuration Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(topology),这两

2013-04-09 19:55:04
勋章 我的勋章
    暂无奖章