自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大魁的专栏

推荐系统、计算广告、机器学习、计算机视觉;fancyspeed@weibo; fancyspeed@github

  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 推荐系统小结

许久不做推荐系统了,但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路,顺便把自己过去几年对这个方向的理解做个小结吧。

2014-08-28 00:18:46 4790

原创 各大推荐引擎资料汇总

最近在做一个推荐的任务,头绪繁多,回头看看同行的工作,希望能有些帮助。零零碎碎看过好多资料,有些已经忘记了,会慢慢补全。也欢迎大家留言补充,尤其是关于豆瓣、新浪微博等的系统经验。之前在推荐系统大会上听过土豆、淘宝和点评的报告,收获不少。欢迎同行加我微博进行交流。视频类Netflix:很多方法的融合,策略可以参考我翻译的blog,架构参考小鱼儿师兄的blog。Hulu

2012-08-28 09:36:44 14109 2

翻译 Netflix推荐系统:从评分预测到消费者法则

原文链接:Netflix recommendations: beyond the 5 stars (Part 1), (Part 2)原文作者:Xavier Amatriain and Justin Basilico 翻译:大魁前言Nexflix是一家提供在线视频流媒体服务和DVD租赁业务的公司,也是著名的Netflix大奖赛的发起者。如果读者希望进一步了解Netfli

2012-06-27 17:29:26 27582

原创 CIKM2014参会印象

陆奇information, service, interactionlinked web graph, real social graph, precise spatial graph, realtime temporal data(sns)natural UI: in-context, properchallenges: nlp, intent, user model, knowled

2014-11-16 15:51:45 3157 1

原创 聚类算法总结

最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。

2014-09-12 22:27:26 10822

原创 《计算广告学(刘鹏)》听课笔记4-6

网址: http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435079&courseId=321007 4.1 位置拍卖理论搜索广告:多个位置联合拍卖,可以一个不出展示广告:单个位置,通常一定要出对称纳什均衡:广告系统的设计目标定价机制VCG机制:收

2014-01-01 18:45:13 6678

原创 《计算广告学(刘鹏)》听课笔记1-3

网址:http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=3210071.1 广告的目的三个主体:advertiser medium audience广告是非人员的、低成本的用户接触(reach)品牌(brank)广告 vs 效果(di

2014-01-01 18:43:48 6913

转载 Netflix:使用大数据驱动业务决策

2013年旧金山QCon大会上,Netflix的数据平台架构经理Jeff Magnusson做了一场关于Netflix数据平台即服务(Data Platform as a Service)的演讲。沿着这场演讲的线索,我们将尝试进一步探寻技术栈的组成,以及它如何帮助Netflix做出重要的业务决策。在全球范围里,Netflix拥有超过三千万订阅用户。访问Netflix网站过程中,每位用户都会

2013-12-15 17:55:52 3273

翻译 Foursquare: 如何构建我们的模型训练引擎(Model Training Engine)

英文原文地址:How we built our Model Training Engine翻译:大魁,时间短暂,翻译的比较粗糙在Foursquare,我们面临大规模的机器学习任务。例如,要从低质量的GPS信号中确认用户签到的场所;个性化推荐;根据用户或者他们的好友去过的地方来推送打折和促销信息。几乎app的每一个功能都或多或少用到了机器学习。所有这些服务都具有海量的规模:每天一

2013-12-15 17:05:04 3085

转载 最大似然估计和最大后验概率

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结

2013-08-21 07:23:51 15759 2

转载 Logistic Regression及其参数估计

原文链接: http://hi.baidu.com/justin_jia/item/abbc25d478db76e6785daa72在统计分析还有机器学习中,logistic regression都一种比较基本的工具。说基本也是相对的,在专业领域里很基础,但是logistic regression在通常的课程中还是不如linear regression更加基础一些。这也是为什么

2013-08-21 06:50:42 5181

原创 在sae上用wordpress搭了个blog

以前用gae搭过一个个人页面,后来appspot被墙了。。最近用sae的人蛮多,甚至百度也出了个duapp,跟风在sae上搭了个个人博客。打算写一点读书心得,分享些资料。

2013-06-20 12:01:06 2670 1

转载 使用Python MrJob的MapReduce实现电影推荐系统

原文链接:http://www.sobuhu.com/archives/567最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言,如果任务需要大量的IO相关操作(如数据库查询、文件读写等),使用Python还是Java、C++,性能差别不大,而如果需

2013-04-09 15:12:40 18016 1

原创 Twitter的用户推荐算法

关于Twitter的用户推荐算法,Quora上的文章有一个说明。算法基本分4步:First and foremost, we looked at who your friends follow, who they talk to, who they RT as gauges of your interest.Then we applied either positive/negative

2013-04-03 11:46:39 10639

转载 七年过去了,让我们重新审视一下Twitter

Twitter是由Jack Dorsey在2006年3月创立的,2006年6月网站对外发布,创立至今已经7年了。原文链接: 7 years later, another look at Twitter原文作者: Matthew PanzarinoI don’t know exactly when I joined Twitter. The account t

2013-03-26 11:20:05 3969

原创 今年cvpr和icml的论文清单

好久没读paper了,闲来无事整理下最新的论文清单,挑几篇读一下。ICML 2013WWW 2013CVPR 2013, cvpapers上每年都会把下载链接整理好,今年还没出来

2013-03-12 18:06:47 5142

转载 你应该知道的Linux技巧

原文链接:http://coolshell.cn/articles/8883.html基础学习 Bash 。你可以man bash来看看bash的东西,并不复杂也并不长。你用别的shell也行,但是bash是很强大的并且也是系统默认的。(学习zsh或tsch只会让你在很多情况下受到限制)学习 vim 。在Linux下,基本没有什么可与之竞争的编译辑器(就算你是一

2013-01-15 19:44:42 2139

转载 一些强大的Shell命令(Where there is a shell,there is a way!)

转载并截取自:http://coolshell.cn/articles/8619.html!$!$是一个特殊的环境变量,它代表了上一个命令的最后一个字符串。如:你可能会这样:$mkdir mydir$mv mydir yourdir$cd yourdir可以改成:$mkdir mydir$mv !$ yourdir$cd !$sudo !!以

2013-01-15 18:00:05 4799

转载 HP大中华区总裁孙振耀退休感言

转载。最近心态有点浮躁,运动也减少了,自勉吧。一、关于工作与生活 我有个有趣的观察,外企公司多的是25-35岁的白领,40岁以上的员工很少,二三十岁的外企员工是意气风发的,但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽,最后大多跳到民企,比方说,唐骏。外企员工的成功很大程度上是公司的成功,并非个人的成功,西门子的确比国美大,但并不代表西门子

2012-11-19 11:39:51 2802

转载 周鸿祎在360新员工入职培训上的讲话

(重新读了一下,周说的太好了。推荐大家看看周的博客:http://blog.sina.com.cn/zhouhongyi)我想给新入职的同事讲一讲我的期望,再提几个建议。我这个人喜欢说真话,不喜欢说漂亮话,因为漂亮话没用。但说真话,大家可能不爱听。  首先,大家一定要明白,你自己来360到底想获得什么。  我觉得,第一你一定得在360学到能力,学到本事才行,因为

2012-11-16 12:10:19 2610

原创 linux之间建立信任关系

建立从机器F(From)到机器T(To)的无密码访问,步骤如下:1. F:ssh-keygen -t rsa一路回车2. F: chmod 755 ~/.ssh2. F: scp ~/.ssh/id_rsa.pub user@T:3. T: mkdir ~/.sshchmod 755 ~/.ssh4. T: cat id_rsa.pub >>

2012-09-27 11:16:36 2115

原创 开源爬虫larbin安装配置指南

larbin是一个开源的爬虫,有几个优点:首先抓取效率很高,其次支持对网站进行镜像存储。不过正因为效率高,使用larbin时要非常注意,不要把硬盘搞爆。larbin使用c++开发的,如果需要python版本的爬虫,建议使用scrapy,模块化做的比较好,很容易定制抓取任务。larbin已经停止维护了,网上资料也很少。之前在学校的时候用larbin下载网页,整理过一个文档,顺便发出来吧。

2012-09-14 20:23:47 6726

转载 R,不仅仅是一种语言

打算抽时间学习R了,每次都写一堆琐碎的python实在太痛苦了。原文链接:http://www.wentrue.net/blog/?p=1083R,不仅仅是一种语言本文原载于《程序员》杂志2010年第8期,因篇幅所限,有所删减,这里刊登的是全文。简介:R是什么工欲善其事,必先利其器,作为一个战斗在IT界第一线的工程师,C/C++、java

2012-08-28 17:20:49 5304

原创 论文笔记-recsys'12-Xbox推荐系统: Bayesian MF

1. 论文简介下载地址:http://www.eng.tau.ac.il/~noamk/papers/KNPS12.pdf文章发表在Recsys 2012上,作者是微软以色列Herzliya研发中心的。2. 论文场景主要为了解决微软Xbox Live Marketplace上的游戏和电影推荐。因此希望推荐算法能够做到跨领域(cross-domain)。3. 数据特点Xb

2012-08-28 08:05:40 2901 1

原创 单机模式处理大数据,搜集一些好用的开源利器

1. LibFM项目主页:http://www.libfm.org/2. Svdfeature项目主页:http://apex.sjtu.edu.cn/apex_wiki/svdfeature3. Libsvm和Liblinearlibsvm项目主页:http://www.csie.ntu.edu.tw/~cjlin/libsvm/liblinear项目

2012-08-27 19:28:42 4668 3

翻译 Collaborative filtering with GraphChi

原文链接:Collaborative filtering with GraphChi本文是GraphChi平台的协同过滤工具箱的快速指南。到目前为止,已经支持ALS(最小二乘法)、SGD(随机梯度下降)、bias-SGD(带偏置的随机梯度下降)、SVD++、NMF(非负矩阵分解)、SVD(restarted Lanczos、one sided Lanczos,svd可以参考left

2012-08-27 19:07:01 9377

原创 度量学习(Distance Metric Learning)介绍

一直以来都想写一篇metric learning(DML)的综述文章,对DML的意义、方法论和经典论文做一个介绍,同时对我的研究经历和思考做一个总结。可惜一直没有把握自己能够写好,因此拖到现在。先烈一些DML的参考资源,以后有时间再详细谈谈。1. Wikipedia2. CMU的Liu Yang总结的关于DML的综述页面。对DML的经典算法进行了分类总结,其中她总结的论文非常有

2012-08-19 23:52:43 43829 14

原创 KDD2012参会小结

KDD的全称为ACM SIGKDD conference on Knowledge Discovery and Data Mining,今年的会期是8.12-8.16,在北京的国家会议中心。这是KDD第一次在亚洲举办,机会难得;加之我们组幸运的被邀请在KDDCUP的workshop上做一个报告,我们5位同学就欢快地从上海赶赴北京学习、腐败了。今年参会人数有1000多人,虽然不能跟SIG

2012-08-19 12:27:07 9301 6

原创 在线广告的exploration/exploitation trade-off(勘探和开采问题)

刚刚在看ICML 2010的一篇关于搜索广告CTR预估的文章:Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine上周跟中科院的同学吃饭时,他们说在KDDCUP竞赛时,这篇文章的算法效果非常好。当时就想好好读一

2012-08-05 15:12:25 5116 2

原创 近两年顶级会议上关于Distance Metric Learning的paper清单

上次大师兄回上海,跟导师以及师兄弟吃饭。谈到我研究生时选的DML的方向,我还是觉得这个领域相对比较艰深,近几年一直没有大的进展,而且凭直觉认为DML相关的最近的paper不会特别多。导师笑而不语。回来做了一点功课,搜罗了这2年顶级会议上度量学习相关的论文,数量之多,颇受震动。这其中怕是不乏灌水炒作新概念的文章,看来DML大有前几年sparse coding的势头啊。ICML 2012M

2012-08-05 10:48:37 11931 7

翻译 卫报:如何预测用户对某首歌曲的喜好

原文刊登于英国卫报: Datablog: Can you predict who will love a song?作者Jeremy Howard是数据分析和模型预测平台Kaggle的总裁和首席科学家本来想翻译的,后来觉得保留原文更好。本文关键词:百代唱片、音乐推荐、盛大创新院、Kaggle。以下是原文:Data science communitie

2012-07-31 13:36:09 2876

原创 EMI音乐推荐竞赛

本届EMI音乐推荐竞赛(EMI Music Data Science Hackathon)的目的,是预测一个用户是否会喜欢新发行的专辑或单曲。数据是由百代唱片提供的真实的采访数据,历时两年,一共涉及5万多个不同的用户。这次赛事的主会场设在伦敦,也吸引了来自世界各地的队伍在网上同时参与竞争。参赛队伍中不乏来自剑桥、牛津、密歇根大学以及澳洲国立大学等国际知名院校的顶尖学者,其中,德国康斯坦茨大学的

2012-07-22 23:15:52 2265 1

转载 推荐引擎:如何解决新用户“冷启动”

作者:Paolo Massa, Paolo Avesani期刊:Lecture Notes in Computer Science, 2004, Vol. 3290, pp. 492‐508.下载:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.5213&rep=rep1&type=pdf本文动机推荐系统旨

2012-06-27 17:30:46 3571

原创 关于产品设计

在一个十分重要的页面上:我们为了提高某个功能的曝光而增加了xx模块,为了提高诱导用户交互而增加了zz模块。好吧,那我反问一句:为了提升用户体验,我们做了什么?如果一个网站不把用户的体验放在第一位,不把满足用户的某些个需求作为自己的宗旨,而只是为了沉淀用户而布满诱导用户注册登录的陷阱,我实在看不到用户留存下来的理由。从用户的需求中找到自己的定位,从掌握的资源中确定自己的特长,以此为基础,踏踏实实

2012-06-27 16:10:18 1090

graphchi 0.1.2源码

graphchi是卡内基梅隆大学开发的,单机模式进行大规模数据挖掘的工具

2012-09-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除