自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CSDN

-推荐系统,数据挖掘,搜索引擎,自然语言处理,C/C++,Linux,算法

  • 博客(160)
  • 资源 (2)
  • 收藏
  • 关注

原创 智能Web算法第二版前言和译者序

在众多有关机器学习和数据挖掘的书籍里,《智能Web算法》一书是颇为经典的一本,其特点之一是内容覆盖面很全,《智能Web算法》(第二版)从数据采集、存储,到降维运算和结构抽取,以及涉及模式识别的聚类和分类、统计机器学习理论等,还有面向互联网应用的推荐系统、搜索引擎、广告点击预测等,包括配套的效果评估机制也有专门的章节进行了讲解

2017-07-11 14:44:06 1884

原创 详细分析推荐系统和搜索引擎的差异陈运文

详细分析推荐系统和搜索引擎的差异陈运文 从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还是在线下的场景里,搜索和推荐这两种方式都大量并存,那么推荐系统和搜索引擎这两个系统到底有什么关系?区别和相似的地方有哪些?本文作者有幸同时具有搜索引擎和推荐系统一线的技术产品开发经验,结合自己的实践经验来为大家阐述两者之间的关系、分享自己的体会(达观数据陈运文博士)

2015-12-29 00:12:06 18242 2

转载 创业者探访腾讯8小时后说:仰望中激发内心坚持

【背景】在6月15日的腾讯云“云+计划”的媒体发布会上,腾讯云和深创投、真格基金、创新工场、凯鹏华盈共同发布“云+众创”计划,推出业界力度最大的一次创业云扶持。作为计划的一个重要组成部分,6月26日,腾讯云&腾讯大学联合举办“深创投走进腾讯”活动,这是“云+众创”创业者学员探访腾讯的第一期活动。这一天,来自全国各地创业者与腾讯云、微信、QQ空间、广点通的大咖面对面交流,探访活动持续8小时,

2015-06-30 21:51:47 2551 1

转载 大规模机器学习的运用-实践之谈

张夏天的这篇文章写得很好,面向实际运用的时候,大数据的用法、方向,和学术研究有很大的不同。这里介绍的大量工作和我们在腾讯/盛大的工作非常接近,所以特别有共鸣。原文地址如下:http://blog.talkingdata.net/?p=3228作者简介:张夏天,TalkingData首席数据科学家,负责TalkingData机器学习和数据挖掘工作,为TalkingData

2015-06-26 10:59:43 4193 1

转载 什么样的SaaS公司是健康的SaaS公司

什么样的SaaS公司是健康的SaaS公司?  SaaS是指按需提供软件服务的公司,通常以网站的形式出现,Salesforce、Gmail、Linkedin、ServiceNow、Basecamp和Asana等均是SaaS的典范。大部分的SaaS公司以月费和年费的方式获取收益,很多SaaS服务提供商将服务分层出售,并按单元计费,每单元月费也随着所提供功能的不同而不同。月费在国外一般叫做MRR

2015-04-09 13:55:24 3788

原创 很高兴获得了CIKM Competition数据挖掘竞赛的冠军

再次证明了我们团队在算法研发方面的一流水准!关于CIKM Competition比赛的介绍和我们所使用的方法,

2014-11-23 20:14:10 4712 2

原创 计算机会议排名等级

CORE Computer Science Conference RankingsAcronymStandard NameRankAAAINational Conference of the American Association for Artificial IntelligenceA+AAMASInternational

2014-10-27 15:39:18 355195 19

转载 机器学习资源大全

推荐!国外程序员整理的机器学习资源大全本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操

2014-08-25 18:57:31 4040

原创 数据挖掘算法源代码:很好的参考资料

Kaggle Competition Past Solutions2 Replies[edit: last update at 2014/06/27. My apologies, have been very busy the past few months.]We learn more from code, and from great code. Not nec

2014-08-06 11:57:49 9165 1

转载 团队管理的一篇文章:海底捞是如何做员工管理和激励的

ben'w转载自虎嗅网最近看到一个奇葩卧底日记,知名餐饮公司西贝莜面村的一名员工卧底海底捞几个月,写了一个几万字的长篇海底捞经验总结,很干货,很内部,这是真的揭秘。海底捞有一个很厉害的哲学:把员工当人。要知道,小米也曾把海底捞当做学习对象。小米联合创始人黎万强最近写了本小米的内部手册《参与感》,其中甚至提到一句话:团队第一,产品第二。海底捞是传统企业里把“团队第一,

2014-07-15 18:25:27 36635

原创 阿里的推荐算法竞赛的宣传稿写得很不错,很生动,吸引眼球

穿越到甄嬛传,你有几分胜算?又是一年选秀开始,于是宫里宫外又开始了明争暗斗。如何才能挑出合皇上口味的好秀女,当好主子的左膀右臂?可能还要花很多功夫。你知道皇上喜欢聪明的嬛嬛,喜欢明艳的华妃,喜欢得体的皇后,那你怎么知道皇上喜不喜欢新来的秀女呢?(皇上,左边是不是别有一番风味?——你一定是在逗我(╯‵□′)╯︵┻━┻)好吧,现代的审美在宫里估计是站不住脚,但如果运用现

2014-05-26 13:41:06 6429

转载 Cloudera旗下的机器学习开源工具Oryx

Cloudera为Hadoop带来机器学习开源工具OryxHadoop发行商Cloudera去年收购伦敦的创业公司Myrrix时,并未引起业界太多关注,其后Cloudera也很少宣传公司在机器学习方面的技术。但是Myrrix的的技术和其创始人Sean Owen在机器学习方面的价值和影响力不容小觑。Owen目前正在开发一个开源机器学习项目——Oryx(大羚羊,Cloudera还销

2014-05-25 15:54:26 3883 1

转载 新一代Hadoop大数据挖掘平台和生态介绍

大数据革命正以Apache Hadoop为中心如火如荼的进行着。自从开源分布式数据处理平台在5年前发布时讨论之声就不绝于耳。在过去的一年中,Hadoop赢得了客户的认可,并得到众多商业化的支持以及众多数据库和数据集成软件商的整合。 Hadoop可以管理结构化数据,以及诸如服务器日志文件和Web点击流的数据。同时还可以管理以非结构化文本为中心的数据,如Facebook和T

2014-03-23 12:10:23 7949

原创 300高手的失败,附一点感言

今天在水木BBS的置顶文章区,一眼看到了下面的这篇文章,原作者是谁不重要,但是写得还是很客观的,很多观点我深深赞同。盛大创新院的确曾经聚集了一批国内互联网界的技术高手,我所在的团队,曾经放眼望去,各个都是独当一面的技术好手,哪怕招聘的为数不多的应届生,也很快成长起来成为某个领域的技术尖兵。而且从技术团队构成的角度来说,从前端到后端工程师、甚至到美工,无一不缺,团队的士气一开始也很不错,团队氛围

2014-03-23 12:03:02 2966 1

原创 Linux服务器间信任关系建立方法

Linux两台服务器间建立信任关系的方法在Linux服务器之间建立信任关系,是很多线上服务系统的基础性工作,这样能便于程序在多台服务器之间自动传输数据,或者方便用户不输入密码就可以在不同的主机间完成登录或者各种操作。网上关于建立Linux信任关系(ssh trust)的中文文章有一些,但是写得都不太详细,这里汇总了方方面面的资料,把多机信任关系建立方法说说清楚(文/

2014-01-20 15:57:58 27702 1

转载 数据分析和《古惑仔》电影中总结出的流氓数据陷阱

今天碰巧看到的一篇文章,作者:快刀青衣。文笔非常生动,把数据分析和香港古惑仔电影联系到了一起。一些观点细想未必有道理,但是读来觉得有趣就很好了转载如下---------------------------------------------------------------------------------------------------------------

2014-01-03 15:11:43 4289

转载 转载:有关京东和刘强东的一篇文章

看上去像是京东的公关稿,但是文笔觉得很不错,读来气势磅礴。电商行业阿里和京东的猫狗大战,让普通消费者也享受到了很大的便利,有竞争才有发展。文章贴在这里,接下来的几年看看两大巨头发展究竟如何---------------------------------------------------------------------------------沉寂一阵的电商江湖沸腾了,刘强东游

2013-12-26 10:58:21 3940

原创 很高兴获得了今年QCon的优秀讲师奖

很高兴被评为了今年QCon的优秀讲师,听众给予的打分非常高,得到大家的肯定 真是非常开心啊。会议之前熬了几天夜修改PPT,虽然挺累的,但是一点都不觉得辛苦刚收到了InfoQ霍泰稳和彭超寄来的优秀讲师的奖品,收快递的时候看外包装还以为是巧克力,准备分给组里的兄弟们吃了拆开发现是最新版的Kindlle,据说是泰稳放在麻袋里亲自从美国背回来的,呵呵另外今年QCon会议

2013-12-10 15:55:18 3499

原创 推荐首老歌,杨坤的"过站不停"

推荐首老歌,杨坤的"过站不停",词写得真好,旋律也很动听过站不停http://music.baidu.com/song/13744511?fm=altg3作词:何厚华 作曲:杨坤演唱:杨坤曾经 有一条路 带我 要去向何处我以为 总有幸福 等在某一个转弯处沿途 有风有雾 (而)我 从不踌躇偶尔孤独 仍坚持 却偏偏让岁月虚度过站不停

2013-11-15 17:04:00 2589

原创 QCon 2013推荐系统的slides分享

微盘地址:http://vdisk.weibo.com/s/A0GI9rYhX2XN/1383551023

2013-11-07 15:55:53 2346

转载 用nc命令来进行文件传输

从官博上转载过来,很有用的一个小技巧工作中,由于开发机与线上机器分属不同的机房,需要跳板机进行登录,而跳板机的scp功能貌似受限,导致线上和线下机器传输数据非常麻烦,速度还较慢。得高手指点,nc也可用于文件传输,且不依赖于scp。用法很简单:1、从跳板机传文件至开发机:在跳板机上: nc -l  端口号 在开发机上: nc  跳板机ip 端口号

2013-11-07 15:54:43 15661

原创 推荐系统开源软件列表汇总和点评

我收集和整理的目前互联网上所能找到的所有开源推荐系统,并附上了个人的一些简单点评(未必全面准确),这方面的中文资料很少见,希望对国内的朋友了解掌握推荐系统有帮助陈运文  SVDFeature由上海交大的同学开发的,C++语言,代码质量很高 。去年我们参加KDD竞赛时用过,非常好用,而且出自咱们国人之手,所以置顶推荐!项目地址:http://svdfeatur

2013-11-06 18:35:47 51727 7

原创 挺有意思的一副对联

看到群里有同学在转的一副对联,写得很有趣,也反映了当今社会的浮躁心态很多人都觉得为什么好机会为什么没有砸到自己脑袋上。但是一分耕耘一分收获,不管在哪个时代、哪个行业,这个道理都是不过时的上联:黄忠60岁跟刘备混;德川家康70岁打天下;姜子牙80岁为丞相;佘太君100岁挂帅;孙悟空500岁西天取经;白素贞1000多岁才下山谈恋爱;年轻人,你说你急个球!

2013-11-04 11:56:12 2392

原创 盛大创新院的官方Blog

盛大创新院的官方Blogurl地址是http://in.sdo.com/内容都是咱们的同学们自己写的,简单质朴,也为大家贡献了我们工作生活中真实的所思所想,内容也很丰富,希望能一直坚持下去BTW,我还设计了blog的title image:

2013-10-31 11:53:41 1535

原创 推荐系统的混合技术

推荐系统的效果提升是一个长期积累的过程,在这个过程里,个人觉得各种混合技术是很重要的。这方面中文的资料实在太少,最近结合自己实践中的一些体会,也查了一些文献,写了篇文章,介绍了在推荐系统的各个方面,例如架构、数据、特征、算法、推荐结果等,来运用混合技术的一些思路。文章会发表在最近一期的《程序员》杂志上。

2013-09-18 15:47:34 2369 1

转载 百度视频提供的用户偏好统计数据

来源: 网易科技报道 随着大屏手机、Pad等移动设备的快速普及,使用移动设备观看视频成为一种新的生活时尚。移动终端可以实现24小时无缝衔接,上下班路上、睡觉前等日常生活中碎片化时间,都可以随时随地接入网络播放视频。如今,在手机上看视频已经成为许多人生活中必不可少的娱乐享受。近日,百度视频手机版发布了2013年7月的海量用户统计数据,对移动视频用户的内容偏好、搜索热词等多个维度进行了立体分析

2013-08-20 01:24:01 3972

原创 360搜索和百度搜索的简单对比

今天机缘巧合,刚巧尝试用了下360的搜索引擎:http://www.so.com并没有专业的评测,结合自己对百度搜索的了解,简单记录些体会:1 360的类聚系统站点类聚和内容类聚的结果,和百度搜素的结果居然一模一样。怀疑这种现象有两种可能,一种是360采用了百度相同的类聚代码,一种是360在搜索结果上爬取并参考了百度的搜索结果。2 360后台的索引长

2013-08-01 14:18:59 9423

原创 大数据挖掘的淘金之旅-Kaggle应用介绍

引言Kaggle是创办于美国硅谷的一个近年来风头正劲的数据挖掘竞赛平台,汇集了全球83000多名数据科学家,致力于通过数据挖掘技术解决各种各样现实的问题。文本挑选了Kaggle上若干个有趣实例,让大家了解如何从海量的、看似模糊而随机的实际应用数据中,挖掘出隐含其中的有巨大价值的信息和知识,并指导我们的认知和决策的(作者:陈运文 博士)你的职位该给多少薪酬?薪水的高低恐怕是职

2013-06-04 18:23:54 3954

转载 张小龙产品理念访谈

日前,最新一期《腾讯月刊》刊发了以《产品之上的世界观》为题的张小龙专访,其中,张小龙从实践经验出发,分享了他对互联网产品开发的体会,以及微信下一步的思考。腾讯科技“启示录”栏目从中精选了核心内容,希望通过张小龙的所思所想让产品经理、业务管理者们获得一些启发。针对很多文章所讨论的“微信功能多了会不会变得越来越臃肿”问题,张小龙认为,一个东西是不是很臃肿并不取决于它有多少功能,而取决于它最终展

2013-04-03 09:47:36 1790

原创 Context-aware Ensemble of Multifaceted Factorization Models for Recommendation

Context-aware Ensemble of Multifaceted Factorization Models for Recommendation Prediction in Social NetworksYunwen Chen,  Zuotao Liu, Daqi Ji, Yingwei Xin, Wenguang Wang, Lu Yao, Yi Zou Abstract

2013-03-17 14:52:00 1963

转载 Redis认识的几个误区

Redis几个认识误区http://timyang.net/data/redis-misunderstanding/前几天微博发生了一起大的系统故障,很多技术的朋友都比较关心,其中的原因不会超出James Hamilton在On Designing and Deploying Internet-Scale Service(1)概括的那几个范围,James第一条经验“Design for f

2013-03-17 14:37:10 1156

原创 2012年终回顾:一期一会

[动荡]过去的一年实在太动荡了,光工位就搬了4次。。。。从年初到年末,每个月工作境况都不一样,心境也各不相同,真令人难以想象这其中的酸甜苦辣,实在一言难尽。如果我将来退休后想写回忆录,那么2012年绝对会是着墨最多的一年[难忘]最难忘的就是参加KDD和Hackathon的那段时间了,刚好天时、地利、人和都合适,再加上功夫不负有心人,努力最终收获了果实。经过了这段

2013-02-07 22:02:33 1067

原创 《程序员》杂志:成功开发推荐系统的十个关键点

成功开发推荐系统的十个关键点应《程序员》杂志邀请写了篇文章,发表在今年第11期上,总结了一些推荐系统的开发体会,希望能对大家有帮助

2012-12-24 21:43:41 1834 1

转载 XXTEA Python版代码

############################################################  #                                                          #  # The implementation of PHPRPC Protocol 3.0                #  #

2012-11-29 14:25:33 6487

原创 看到了以前一位老师的新闻,很高兴

认识吴老师是他02年刚从美国回国不久,第一次见面就对他儒雅的气质留下了深刻的印象。他讲话不紧不慢,有点轻微的闽南口音,有时引经据典,有时小幽默,饱读诗书,博闻强记,绝对是位大智大慧的人,让人打心里敬佩。印象最深的第一次去他的办公室,当时是在系楼一楼拐角的地方,一进去就被shock到了。因为满书架的中国古代文献,里面文房四宝皆备,案头厚厚的四库全书,完全想象不出这是位海归的数学教授!学贯中西

2012-11-25 12:21:59 1320 1

转载 需格外注意的五点用户体验

【编者按】本文转载自周鸿祎的博客,其内容是2012年11月9日周鸿祎在UPA用户体验大会上的演讲。技术人员出身的产品经理非常有潜力,因为他懂技术,跟技术人员能更好的挑选技术方案。但我看到很多技术人员在做产品中犯的一个共同错误,太想要把自己的技术展现给用户,把先进的技术概念给用户。这就是忘了从用户角度出发,用户到今天,特别是体验时代,什么叫体验时代?在电脑还是即刻时代的时候,电脑越复

2012-11-22 16:49:03 1437 1

原创 开发中国最好的视频推荐系统

最近把国内主要的视频网站翻了一遍,发现这些网站的视频推荐系统,都还做得不够好很多甚至没有真正用心做,只是有一个能用的系统而已,完全没有质量可言这次我们新开发的系统,一定要能有突破

2012-11-01 16:21:18 3266

原创 大战前夕~

又一个重要的项目要开工了,目标非常明确,就看这一仗能否拿下阵地了这次又是个只许成功不许失败的项目,而且责任更重大,开弓没有回头箭,不管结局如何,只能一路向前了并不是每一份努力都会得到回报,并不是每一次坚持都会有人看到,并不是没一点付出都会收获果实,但即便如此,坚持到底,用心做好每件事情,对我来说就够了

2012-10-16 19:43:21 1078

原创 新系统初步上线

效果比预计的还要好很多,还是很振奋人心的。再一次验证了“强大的算法和引擎+合理的展现方式+深入人心的推荐理由”,组合起来能发挥巨大的价值!另外,推荐系统一定是一个系统工程,多个方面的作用发挥合力才能产生价值,没有算法是不行的,但只靠算法也还不够

2012-10-11 11:03:28 1108

转载 介绍Kaggle上各种数据挖掘应用的文章

转载一篇介绍Kaggle上各种数据挖掘应用的文章假设你想知道价格上涨5%之后会导致多少顾客流失,或者是预测市场对大量抛售股票的反应,又或者是估算一下借款人拖欠还款的可能性,试试卡歌网(Kaggle)吧。这是一家位于美国旧金山的初创企业,在线经营商业模式的竞赛。该网站在2010年启动,获得了1,100万美元的风险投资。网站让参与竞赛的人根据一系列的数据提交预测运算法则,并且将预测

2012-10-08 16:42:30 7132 1

Linux gcc2.96版

gcc是linux平台下的c/C++编译器。不同版本的gcc编译生成的程序可能互不兼容,因此特定版本的gcc非常重要。这里上传gcc-2.96-110.i386.rpm安装文件,给需要该特定版本的朋友

2011-03-04

winmd5sum.exe

WinMD5Sum是一款非常小巧的MD5校验值计算工具值。 计算出文件的MD5值后,我们需要与别人提供的参照值进行对比。我们知道,MD5校验值是一个长度为32的字串,逐字进行人工对比的话是一件烦琐的事情,该软件的特色就在于简化了对比操作。

2011-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除