大魁-CSDN博客

原创推荐系统小结

许久不做推荐系统了，但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路，顺便把自己过去几年对这个方向的理解做个小结吧。

2014-08-28 00:18:46 4790

原创各大推荐引擎资料汇总

最近在做一个推荐的任务，头绪繁多，回头看看同行的工作，希望能有些帮助。零零碎碎看过好多资料，有些已经忘记了，会慢慢补全。也欢迎大家留言补充，尤其是关于豆瓣、新浪微博等的系统经验。之前在推荐系统大会上听过土豆、淘宝和点评的报告，收获不少。欢迎同行加我微博进行交流。视频类Netflix：很多方法的融合，策略可以参考我翻译的blog，架构参考小鱼儿师兄的blog。Hulu

2012-08-28 09:36:44 14109 2

翻译 Netflix推荐系统：从评分预测到消费者法则

原文链接：Netflix recommendations: beyond the 5 stars (Part 1), (Part 2)原文作者：Xavier Amatriain and Justin Basilico 翻译：大魁前言Nexflix是一家提供在线视频流媒体服务和DVD租赁业务的公司，也是著名的Netflix大奖赛的发起者。如果读者希望进一步了解Netfli

2012-06-27 17:29:26 27582

原创 CIKM2014参会印象

陆奇information, service, interactionlinked web graph, real social graph, precise spatial graph, realtime temporal data(sns)natural UI: in-context, properchallenges: nlp, intent, user model, knowled

2014-11-16 15:51:45 3157 1

原创聚类算法总结

最近要在spark上做一个聚类的项目，数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans，并使用kmeans++来初始化类中心。这样算法的执行速度比较快，而且效果相对靠谱。

2014-09-12 22:27:26 10822

原创《计算广告学（刘鹏）》听课笔记4-6

网址： http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435079&courseId=321007 4.1 位置拍卖理论搜索广告：多个位置联合拍卖，可以一个不出展示广告：单个位置，通常一定要出对称纳什均衡：广告系统的设计目标定价机制VCG机制：收

2014-01-01 18:45:13 6678

原创《计算广告学（刘鹏）》听课笔记1-3

网址：http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=3210071.1 广告的目的三个主体：advertiser medium audience广告是非人员的、低成本的用户接触（reach）品牌（brank）广告 vs 效果（di

2014-01-01 18:43:48 6913

转载 Netflix：使用大数据驱动业务决策

2013年旧金山QCon大会上，Netflix的数据平台架构经理Jeff Magnusson做了一场关于Netflix数据平台即服务（Data Platform as a Service）的演讲。沿着这场演讲的线索，我们将尝试进一步探寻技术栈的组成，以及它如何帮助Netflix做出重要的业务决策。在全球范围里，Netflix拥有超过三千万订阅用户。访问Netflix网站过程中，每位用户都会

2013-12-15 17:55:52 3273

翻译 Foursquare: 如何构建我们的模型训练引擎（Model Training Engine）

英文原文地址：How we built our Model Training Engine翻译：大魁，时间短暂，翻译的比较粗糙在Foursquare，我们面临大规模的机器学习任务。例如，要从低质量的GPS信号中确认用户签到的场所；个性化推荐；根据用户或者他们的好友去过的地方来推送打折和促销信息。几乎app的每一个功能都或多或少用到了机器学习。所有这些服务都具有海量的规模：每天一

2013-12-15 17:05:04 3085

转载最大似然估计和最大后验概率

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为，参数是客观存在的，只是未知而矣。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了，极大似然估计如下所示:D表示训练数据集，是模型参数相反的，贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结

2013-08-21 07:23:51 15759 2

转载 Logistic Regression及其参数估计

原文链接： http://hi.baidu.com/justin_jia/item/abbc25d478db76e6785daa72在统计分析还有机器学习中，logistic regression都一种比较基本的工具。说基本也是相对的，在专业领域里很基础，但是logistic regression在通常的课程中还是不如linear regression更加基础一些。这也是为什么

2013-08-21 06:50:42 5181

原创在sae上用wordpress搭了个blog

以前用gae搭过一个个人页面，后来appspot被墙了。。最近用sae的人蛮多，甚至百度也出了个duapp，跟风在sae上搭了个个人博客。打算写一点读书心得，分享些资料。

2013-06-20 12:01:06 2670 1

转载使用Python MrJob的MapReduce实现电影推荐系统

原文链接：http://www.sobuhu.com/archives/567最近发现一个很好玩的Python库，可以方便的使用在Python下编写MapReduce任务，直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言，如果任务需要大量的IO相关操作（如数据库查询、文件读写等），使用Python还是Java、C++，性能差别不大，而如果需

2013-04-09 15:12:40 18016 1

原创 Twitter的用户推荐算法

关于Twitter的用户推荐算法，Quora上的文章有一个说明。算法基本分4步：First and foremost, we looked at who your friends follow, who they talk to, who they RT as gauges of your interest.Then we applied either positive/negative

2013-04-03 11:46:39 10639

转载七年过去了，让我们重新审视一下Twitter

Twitter是由Jack Dorsey在2006年3月创立的，2006年6月网站对外发布，创立至今已经7年了。原文链接： 7 years later, another look at Twitter原文作者： Matthew PanzarinoI don’t know exactly when I joined Twitter. The account t

2013-03-26 11:20:05 3969

原创今年cvpr和icml的论文清单

好久没读paper了，闲来无事整理下最新的论文清单，挑几篇读一下。ICML 2013WWW 2013CVPR 2013， cvpapers上每年都会把下载链接整理好，今年还没出来

2013-03-12 18:06:47 5142

转载你应该知道的Linux技巧

原文链接：http://coolshell.cn/articles/8883.html基础学习 Bash 。你可以man bash来看看bash的东西，并不复杂也并不长。你用别的shell也行，但是bash是很强大的并且也是系统默认的。（学习zsh或tsch只会让你在很多情况下受到限制）学习 vim 。在Linux下，基本没有什么可与之竞争的编译辑器（就算你是一

2013-01-15 19:44:42 2139

转载一些强大的Shell命令（Where there is a shell，there is a way!）

转载并截取自：http://coolshell.cn/articles/8619.html!$!$是一个特殊的环境变量，它代表了上一个命令的最后一个字符串。如：你可能会这样：$mkdir mydir$mv mydir yourdir$cd yourdir可以改成：$mkdir mydir$mv !$ yourdir$cd !$sudo !!以

2013-01-15 18:00:05 4799

转载 HP大中华区总裁孙振耀退休感言

转载。最近心态有点浮躁，运动也减少了，自勉吧。一、关于工作与生活我有个有趣的观察，外企公司多的是25-35岁的白领，40岁以上的员工很少，二三十岁的外企员工是意气风发的，但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽，最后大多跳到民企，比方说，唐骏。外企员工的成功很大程度上是公司的成功，并非个人的成功，西门子的确比国美大，但并不代表西门子

2012-11-19 11:39:51 2802

转载周鸿祎在360新员工入职培训上的讲话

（重新读了一下，周说的太好了。推荐大家看看周的博客：http://blog.sina.com.cn/zhouhongyi）我想给新入职的同事讲一讲我的期望，再提几个建议。我这个人喜欢说真话，不喜欢说漂亮话，因为漂亮话没用。但说真话，大家可能不爱听。　　首先，大家一定要明白，你自己来360到底想获得什么。　　我觉得，第一你一定得在360学到能力，学到本事才行，因为

2012-11-16 12:10:19 2610

原创 linux之间建立信任关系

建立从机器F（From）到机器T（To）的无密码访问，步骤如下：1. F：ssh-keygen -t rsa一路回车2. F: chmod 755 ~/.ssh2. F: scp ~/.ssh/id_rsa.pub user@T:3. T: mkdir ~/.sshchmod 755 ~/.ssh4. T: cat id_rsa.pub >>

2012-09-27 11:16:36 2115

原创开源爬虫larbin安装配置指南

larbin是一个开源的爬虫，有几个优点：首先抓取效率很高，其次支持对网站进行镜像存储。不过正因为效率高，使用larbin时要非常注意，不要把硬盘搞爆。larbin使用c++开发的，如果需要python版本的爬虫，建议使用scrapy，模块化做的比较好，很容易定制抓取任务。larbin已经停止维护了，网上资料也很少。之前在学校的时候用larbin下载网页，整理过一个文档，顺便发出来吧。

2012-09-14 20:23:47 6726

转载 R，不仅仅是一种语言

打算抽时间学习R了，每次都写一堆琐碎的python实在太痛苦了。原文链接：http://www.wentrue.net/blog/?p=1083R，不仅仅是一种语言本文原载于《程序员》杂志2010年第8期，因篇幅所限，有所删减，这里刊登的是全文。简介：R是什么工欲善其事，必先利其器，作为一个战斗在IT界第一线的工程师，C/C++、java

2012-08-28 17:20:49 5304

原创论文笔记-recsys'12-Xbox推荐系统: Bayesian MF

1. 论文简介下载地址：http://www.eng.tau.ac.il/~noamk/papers/KNPS12.pdf文章发表在Recsys 2012上，作者是微软以色列Herzliya研发中心的。2. 论文场景主要为了解决微软Xbox Live Marketplace上的游戏和电影推荐。因此希望推荐算法能够做到跨领域（cross-domain）。3. 数据特点Xb

2012-08-28 08:05:40 2901 1

原创单机模式处理大数据，搜集一些好用的开源利器

1. LibFM项目主页：http://www.libfm.org/2. Svdfeature项目主页：http://apex.sjtu.edu.cn/apex_wiki/svdfeature3. Libsvm和Liblinearlibsvm项目主页：http://www.csie.ntu.edu.tw/~cjlin/libsvm/liblinear项目

2012-08-27 19:28:42 4668 3

翻译 Collaborative filtering with GraphChi

原文链接：Collaborative filtering with GraphChi本文是GraphChi平台的协同过滤工具箱的快速指南。到目前为止，已经支持ALS（最小二乘法）、SGD（随机梯度下降）、bias-SGD（带偏置的随机梯度下降）、SVD++、NMF（非负矩阵分解）、SVD（restarted Lanczos、one sided Lanczos，svd可以参考left

2012-08-27 19:07:01 9377

原创度量学习（Distance Metric Learning）介绍

一直以来都想写一篇metric learning（DML）的综述文章，对DML的意义、方法论和经典论文做一个介绍，同时对我的研究经历和思考做一个总结。可惜一直没有把握自己能够写好，因此拖到现在。先烈一些DML的参考资源，以后有时间再详细谈谈。1. Wikipedia2. CMU的Liu Yang总结的关于DML的综述页面。对DML的经典算法进行了分类总结，其中她总结的论文非常有

2012-08-19 23:52:43 43829 14

原创 KDD2012参会小结

KDD的全称为ACM SIGKDD conference on Knowledge Discovery and Data Mining，今年的会期是8.12-8.16，在北京的国家会议中心。这是KDD第一次在亚洲举办，机会难得；加之我们组幸运的被邀请在KDDCUP的workshop上做一个报告，我们5位同学就欢快地从上海赶赴北京学习、腐败了。今年参会人数有1000多人，虽然不能跟SIG

2012-08-19 12:27:07 9301 6

原创在线广告的exploration/exploitation trade-off（勘探和开采问题）

刚刚在看ICML 2010的一篇关于搜索广告CTR预估的文章：Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine上周跟中科院的同学吃饭时，他们说在KDDCUP竞赛时，这篇文章的算法效果非常好。当时就想好好读一

2012-08-05 15:12:25 5116 2

原创近两年顶级会议上关于Distance Metric Learning的paper清单

上次大师兄回上海，跟导师以及师兄弟吃饭。谈到我研究生时选的DML的方向，我还是觉得这个领域相对比较艰深，近几年一直没有大的进展，而且凭直觉认为DML相关的最近的paper不会特别多。导师笑而不语。回来做了一点功课，搜罗了这2年顶级会议上度量学习相关的论文，数量之多，颇受震动。这其中怕是不乏灌水炒作新概念的文章，看来DML大有前几年sparse coding的势头啊。ICML 2012M

2012-08-05 10:48:37 11931 7

翻译卫报：如何预测用户对某首歌曲的喜好

原文刊登于英国卫报： Datablog: Can you predict who will love a song?作者Jeremy Howard是数据分析和模型预测平台Kaggle的总裁和首席科学家本来想翻译的，后来觉得保留原文更好。本文关键词：百代唱片、音乐推荐、盛大创新院、Kaggle。以下是原文：Data science communitie

2012-07-31 13:36:09 2876

原创 EMI音乐推荐竞赛

本届EMI音乐推荐竞赛（EMI Music Data Science Hackathon）的目的，是预测一个用户是否会喜欢新发行的专辑或单曲。数据是由百代唱片提供的真实的采访数据，历时两年，一共涉及5万多个不同的用户。这次赛事的主会场设在伦敦，也吸引了来自世界各地的队伍在网上同时参与竞争。参赛队伍中不乏来自剑桥、牛津、密歇根大学以及澳洲国立大学等国际知名院校的顶尖学者，其中，德国康斯坦茨大学的

2012-07-22 23:15:52 2265 1

转载推荐引擎：如何解决新用户“冷启动”

作者：Paolo Massa, Paolo Avesani期刊：Lecture Notes in Computer Science, 2004, Vol. 3290, pp. 492‐508.下载：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.5213&rep=rep1&type=pdf本文动机推荐系统旨

2012-06-27 17:30:46 3571

原创关于产品设计

在一个十分重要的页面上：我们为了提高某个功能的曝光而增加了xx模块，为了提高诱导用户交互而增加了zz模块。好吧，那我反问一句：为了提升用户体验，我们做了什么？如果一个网站不把用户的体验放在第一位，不把满足用户的某些个需求作为自己的宗旨，而只是为了沉淀用户而布满诱导用户注册登录的陷阱，我实在看不到用户留存下来的理由。从用户的需求中找到自己的定位，从掌握的资源中确定自己的特长，以此为基础，踏踏实实

2012-06-27 16:10:18 1090

大魁的专栏