自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

转载 对互联网海量数据实时计算的理解 ——摘抄自http://tech.ddvip.com/2011-10/1319783898169602.html

对互联网海量数据实时计算的理解1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1)  数据源是实时的不间断的,要求对用户的响应时间也是实时的。主要用于互联网流式数据处

2013-07-28 16:55:12 613

转载 python VS java 摘自http://www.ej38.com/showinfo/Python-209370.html

谈到了Python语句的两种执行方式,实际上,这两种运行方式在本质 上是相同的,它们都是由解释器来解释执行我们提供的Python语句。 这里所说的解释执行是相对于编译执行而言的。我们知道,使用诸如 C或C++之类的编译性语言编写的程序可以从源文件转换成计算机使用 的机器语言, 经连接器连接后形成二进制可执行文件。当我们运行二进制可执行程 序的时候,因为已经编译好了,所以加载器软件把二进制程序从硬盘

2013-07-26 23:18:48 861

转载 网页去重-算法篇

网页去重-算法篇  摘抄与:http://zz.shangdu.com/index-htm-m-cms-q-view-id-691.htmlhttp://zz.shangdu.com/index-htm-m-cms-q-view-id-692.htmlhttp://zz.shangdu.com/index-htm-m-cms-q-view-id-693.html前一篇(网页

2013-04-09 09:53:01 825

原创 集体智慧编程读书笔记——第二章 提供推荐

1. 概念:协作性过滤算法是对一大群人进行搜索,并从中找出与我们品味相近的一小群人。算反对这些人所偏爱的其他内容进行考察,并将它们组合起来构造出一个经过排名的推荐列表。2. 表示方法:书中的例子用嵌套字典表示用户的喜好数据。{"person":{"item1":score, "item2":score}}。PS:形式化是很重的步骤,机器学习最难的步骤之一。3. 用户相识度计算欧

2013-03-29 11:30:56 686

原创 推荐算法(2)——常用的预测算法

推荐算法莫过于预测用户的想要的东西给予推荐。常用的预测算法有:slope one算法,hmm算法,1. slope one算法slope one算法是一种简单的协同过滤算法。基本原理是通过平均值预测对某个事物的喜好程度,因为slope one算法认为平均值可以代替某2个未知个体之间的打分差异。如:户         对事物A打分对事物B打分X

2013-03-28 14:37:55 2545

原创 推荐算法(1)——常用的推荐方法

互谅网行业,推荐无处不在。推荐的方法大致分为2类——基于用户相识度的推荐,基于物品关联的推荐。1. 基于用户相识度的推荐用户相识度计算是通过用户的行为计算用户的“距离”。用户行为有多个维度,比如对某个商品的打分,用户的年龄、职业,用户浏览的站点等等。就购买行为来讲,有用户的购买商品,浏览的商品,购买商品的价格,购买商品的关联等。比如一个男士买啤酒后,又买了尿布,很可能说明他家里有个

2013-03-28 14:04:58 1662

原创 nodejs安装

安装:前提:安装好python2.6或2.7,我安装的是2.6.6下载:http://nodejs.org/dist/v0.6.1/node-v0.6.1.tar.gz解压: tar -xvf node-v0.6.1.tar.gzcd node-v0.6.1./configuemakesudo make install检查是否安装成功:node -v显示:v

2013-03-08 14:01:12 1092

原创 python程序关键路径测试

参考文献:http://docs.python.org/library/profile.html#module-cProfilecProfile——  is recommended for most users; it’s a C extension with reasonable overhead that makes it suitable for profiling long

2013-03-06 23:36:24 1147

原创 python变量前加*号的含义

1. 关键字参数:在参数名之前使用2个星号来支持任意多的关键字参数。>>> def accept(**kwargs):...     for keyword, value in kwargs.items():...         print "%s => %r" % (keyword, value)...>>> accept(foo='bar', spam='eggs')

2013-03-06 23:35:26 8322

原创 python yield语句

前言:理解yield首先要理解generator, 要理解generator又先要理解可迭代对象iterables.1. 可迭代对象:创建一个list的时候,可以逐个去读取其中的元素,这就是一个可迭代对象。generator也是一个可迭代对象,但是只能读取一次。它并不把所欲的值都存在内存里面,而是实时的产生。yield返回一个generator。当函数需要返回许多数据,并且

2013-03-06 23:34:48 916

原创 防爬机制

一、手工识别和拒绝爬虫的访问最简单的方法就是用netstat检查80端口的连接netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -n   什么命令可以按照80端口连接数量对来源ip进行排序。1.1 用iptable拒绝访问:i

2013-03-06 23:33:14 1357

原创 python版爬虫

python爬虫的三个版本:1. 基于urllib, urllib2基于http请求响应的封装。有局限性,因为不能处理动态的脚本如js,一些操作无法实现。2. 内嵌webbrowser如pyqt的webkit,pamie, spynner(基于webkit)这种内嵌的方式类似于com调用,支持所有浏览器的操作,兼容性好,但不如urllib快捷。3. web test fra

2013-03-06 23:32:30 530

原创 redis数据类型描述+为什么耗内存+为什么容易崩溃

1. 数据类型:string, list, hash, set, sorted set.2. 数据内存描述:redisObject对象表示所有的key和value。redisObject主要的信息如图表示:type表示一个value对象具体是何种数据类型,encoding是不同数据类型在redis内部的存储方式。VM字段只有打开了redis虚拟内存功能后,此字段才会真正的非

2013-03-06 23:30:29 3284

原创 redis学习笔记

1. redis的数据类型可以是:string, hash, set, list, set, sorted set.2.redis两种文件格式:全量数据和增量数据请求。全量数据格式将内存中的数据写入磁盘,下次读取文件进行加载;增量请求文件把内存中的数据序列化为操作请求,用于读取文件进行replay得到数据,序列化操作包括set, rpush,sadd,zadd.3. redis

2013-03-06 23:28:05 531

原创 redis数据结构图

展示Redis内部DB的实现和其支持的各种data types在redis DB内的存储方式

2013-03-06 23:25:34 2051

转载 一淘架构

一淘架构抓取系统:包括网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都 是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。离线处理系统:一个功能众多、可灵活定制的Pipeline,其主要功能有:网页编码识别与转换、网页解析与内容抽取、购物相关站点发现、列 表页识别、网页分类与消重、链接提取与合并、关键词提取

2013-03-06 23:22:23 827

原创 一个设计良好的爬虫架构必须满足的要求

(1)分布式:爬虫应该能够在多台机器上分布执行;(2)可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度;(3)性能和有效性:爬虫系统必须有效地使用各种系统资源,例如,处理器、存储空间和网络带宽。(4)质量:鉴于互联网的发展速度,大部分网页都不可能及时出现在用户查询中,所以爬虫应该首先抓区有用的网页。(5)新鲜性:在许多应用中,爬虫应该持续运行而不是只遍历一次。(

2013-03-06 23:20:53 639

转载 spider的问题点

Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。随着各种垂直搜索引擎的不断发展,整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦 Spider。两

2013-03-06 23:17:14 501

原创 hadoop单机版安装

前提:安装好jdk.1. 下载1.0.4版本 : http://apache.etoak.com/hadoop/common/hadoop-1.0.4/hadoop-1.0.4.tar.gz2. 新建hadoop用户,名字可以自己取,比如hadooper。3. 切换到hadoop用户下,将安装包放到hadoop用户根目录下。4. 修改conf/core-site.xml,

2013-03-06 23:12:29 418

数据挖掘贝叶斯算法C++实现

用贝叶斯算法解决数据挖掘中分类的问题,通过训练集先训练出分类规则后,再输入测试集进行测试

2009-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除