8 大魁

尚未进行身份认证

关注推荐系统, 计算广告, 机器学习

等级
TA的排名 3w+

CIKM2014参会印象

陆奇information, service, interactionlinked web graph, real social graph, precise spatial graph, realtime temporal data(sns)natural UI: in-context, properchallenges: nlp, intent, user model, knowled

2014-11-16 15:51:45

聚类算法总结

最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。

2014-09-12 22:27:26

推荐系统小结

许久不做推荐系统了,但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路,顺便把自己过去几年对这个方向的理解做个小结吧。

2014-08-28 00:18:46

《计算广告学(刘鹏)》听课笔记4-6

网址: http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435079&courseId=321007 4.1 位置拍卖理论搜索广告:多个位置联合拍卖,可以一个不出展示广告:单个位置,通常一定要出对称纳什均衡:广告系统的设计目标定价机制VCG机制:收

2014-01-01 18:45:13

《计算广告学(刘鹏)》听课笔记1-3

网址:http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=3210071.1 广告的目的三个主体:advertiser medium audience广告是非人员的、低成本的用户接触(reach)品牌(brank)广告 vs 效果(di

2014-01-01 18:43:48

Netflix:使用大数据驱动业务决策

2013年旧金山QCon大会上,Netflix的数据平台架构经理Jeff Magnusson做了一场关于Netflix数据平台即服务(Data Platform as a Service)的演讲。沿着这场演讲的线索,我们将尝试进一步探寻技术栈的组成,以及它如何帮助Netflix做出重要的业务决策。在全球范围里,Netflix拥有超过三千万订阅用户。访问Netflix网站过程中,每位用户都会

2013-12-15 17:55:52

Foursquare: 如何构建我们的模型训练引擎(Model Training Engine)

英文原文地址:How we built our Model Training Engine翻译:大魁,时间短暂,翻译的比较粗糙在Foursquare,我们面临大规模的机器学习任务。例如,要从低质量的GPS信号中确认用户签到的场所;个性化推荐;根据用户或者他们的好友去过的地方来推送打折和促销信息。几乎app的每一个功能都或多或少用到了机器学习。所有这些服务都具有海量的规模:每天一

2013-12-15 17:05:04

最大似然估计和最大后验概率

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结

2013-08-21 07:23:51

Logistic Regression及其参数估计

原文链接: http://hi.baidu.com/justin_jia/item/abbc25d478db76e6785daa72在统计分析还有机器学习中,logistic regression都一种比较基本的工具。说基本也是相对的,在专业领域里很基础,但是logistic regression在通常的课程中还是不如linear regression更加基础一些。这也是为什么

2013-08-21 06:50:42

在sae上用wordpress搭了个blog

以前用gae搭过一个个人页面,后来appspot被墙了。。最近用sae的人蛮多,甚至百度也出了个duapp,跟风在sae上搭了个个人博客。打算写一点读书心得,分享些资料。

2013-06-20 12:01:06

使用Python MrJob的MapReduce实现电影推荐系统

原文链接:http://www.sobuhu.com/archives/567最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言,如果任务需要大量的IO相关操作(如数据库查询、文件读写等),使用Python还是Java、C++,性能差别不大,而如果需

2013-04-09 15:12:40

Twitter的用户推荐算法

关于Twitter的用户推荐算法,Quora上的文章有一个说明。算法基本分4步:First and foremost, we looked at who your friends follow, who they talk to, who they RT as gauges of your interest.Then we applied either positive/negative

2013-04-03 11:46:39

七年过去了,让我们重新审视一下Twitter

Twitter是由Jack Dorsey在2006年3月创立的,2006年6月网站对外发布,创立至今已经7年了。原文链接: 7 years later, another look at Twitter原文作者: Matthew PanzarinoI don’t know exactly when I joined Twitter. The account t

2013-03-26 11:20:05

今年cvpr和icml的论文清单

好久没读paper了,闲来无事整理下最新的论文清单,挑几篇读一下。ICML 2013WWW 2013CVPR 2013, cvpapers上每年都会把下载链接整理好,今年还没出来

2013-03-12 18:06:47

你应该知道的Linux技巧

原文链接:http://coolshell.cn/articles/8883.html基础学习 Bash 。你可以man bash来看看bash的东西,并不复杂也并不长。你用别的shell也行,但是bash是很强大的并且也是系统默认的。(学习zsh或tsch只会让你在很多情况下受到限制)学习 vim 。在Linux下,基本没有什么可与之竞争的编译辑器(就算你是一

2013-01-15 19:44:42

一些强大的Shell命令(Where there is a shell,there is a way!)

转载并截取自:http://coolshell.cn/articles/8619.html!$!$是一个特殊的环境变量,它代表了上一个命令的最后一个字符串。如:你可能会这样:$mkdir mydir$mv mydir yourdir$cd yourdir可以改成:$mkdir mydir$mv !$ yourdir$cd !$sudo !!以

2013-01-15 18:00:05

HP大中华区总裁孙振耀退休感言

转载。最近心态有点浮躁,运动也减少了,自勉吧。一、关于工作与生活 我有个有趣的观察,外企公司多的是25-35岁的白领,40岁以上的员工很少,二三十岁的外企员工是意气风发的,但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽,最后大多跳到民企,比方说,唐骏。外企员工的成功很大程度上是公司的成功,并非个人的成功,西门子的确比国美大,但并不代表西门子

2012-11-19 11:39:51

周鸿祎在360新员工入职培训上的讲话

(重新读了一下,周说的太好了。推荐大家看看周的博客:http://blog.sina.com.cn/zhouhongyi)我想给新入职的同事讲一讲我的期望,再提几个建议。我这个人喜欢说真话,不喜欢说漂亮话,因为漂亮话没用。但说真话,大家可能不爱听。  首先,大家一定要明白,你自己来360到底想获得什么。  我觉得,第一你一定得在360学到能力,学到本事才行,因为

2012-11-16 12:10:19

linux之间建立信任关系

建立从机器F(From)到机器T(To)的无密码访问,步骤如下:1. F:ssh-keygen -t rsa一路回车2. F: chmod 755 ~/.ssh2. F: scp ~/.ssh/id_rsa.pub user@T:3. T: mkdir ~/.sshchmod 755 ~/.ssh4. T: cat id_rsa.pub >>

2012-09-27 11:16:36

开源爬虫larbin安装配置指南

larbin是一个开源的爬虫,有几个优点:首先抓取效率很高,其次支持对网站进行镜像存储。不过正因为效率高,使用larbin时要非常注意,不要把硬盘搞爆。larbin使用c++开发的,如果需要python版本的爬虫,建议使用scrapy,模块化做的比较好,很容易定制抓取任务。larbin已经停止维护了,网上资料也很少。之前在学校的时候用larbin下载网页,整理过一个文档,顺便发出来吧。

2012-09-14 20:23:47

查看更多

勋章 我的勋章
    暂无奖章