7 阿宣22

尚未进行身份认证

暂无相关描述

等级
博文 32
排名 8w+

FM的快速增量算法猜想

背景接触FM方法时间也算是很久了,虽然没有持续在上面做非常深入的研究,但是做的几个项目中,多次使用后也算是也算是业余玩家中的高端玩家了。在前期的一个项目中深入的参与了spark中的ALS推荐模型(其实本质是FM,als是指其中最优化的算法),其中主要参与解决的问题就是增量推荐(场景中是解决新用户的推荐问题),其中具体的思路就是固定住物品矩阵单独训练每个用户的评分内容,具体就不赘述。但是该方法效率非常

2017-11-28 20:18:08

top100峰会有感

top100峰会——百箱大战的联想百箱大战的箱指的是“小爱同学““天猫精灵“等这类具备一定人工(机器)智能的音箱,称之为大前端的产物或许才更能说明他的重要性。大前端:前端的亦即UI,就是人机交互,大前端就是指人工智能时代或者未来时代更方便的交互方式。更方便的交互:人是怎么向人表达意图呢?0.文字符号:工作中常用的沟通方式。1.语音:日常生活中最常用的交互方式就是语音沟通

2017-11-10 21:05:52

协同过滤中显性反馈 与 隐性反馈 的区别(附ALS最优化)

协同过滤中显性反馈与隐性反馈的区别1.特质上的区别显性反馈行为:用户明确表示对物品喜好的行为。隐性反馈行为:不能明确反映用户喜好的行为。隐性反馈的特性没有负反馈。隐性反馈无法判断是否不喜欢。而显性反馈,明显能区分是喜欢还是不喜欢。先天性具有噪声。用户购买了某物品,并不代表他喜欢,也许是送礼,也许买了之后发现不喜欢。显性反馈数值代表偏好程度,隐性反馈数值代表置信度。隐性反馈的数值通常

2017-07-07 18:52:03

提问的礼仪

提问的礼仪1.谷歌、百度前三页大多数的技术问题都能在百度、谷歌、官方文档、博客找到答案,如果中文找不到答案可以试试英文。2.清晰的提问在GoogleCode社区提问的时候,会自动生成一个模板:Whatstepswillreproducetheproblem?该问题的重现步骤是什么?Whatistheexpectedoutput?Whatdoyousee

2017-07-07 18:15:43

集合的最优分组问题

问题仓库人员需要按照订单上的信息将商品从货架上拣选出来,这些订单大致形态如下:订单1:{商品1、商品2、商品3}订单2:{商品2、商品3、商品5、商品6、商品7}订单3:{商品1、商品4}……订单10000:{商品239、商品445、商品500}假定总共1万订单,商品种类500种。在这些订单中的商品不大于10种,至少有1种,以1-5种商品组合的订单数量为最多,很多订单的商品组合可能很

2017-01-18 16:49:55

GBDT 学习

这么多乱七八糟的“算法”,为什么要学GBDT呢?主要是最近听到这个名词比较多,想了。那么为什么要再写GBDT呢(鉴于各种牛人满天飞,我怎么就好意思献丑了)?着实是看看了网上一些博客后,有很多疑问,后来自己把这些疑问解决了,就想着分享一下,减少大家的学习成本。所以我就不再从头说起了,新朋友可以参拜一下以下文章。

2016-05-01 17:04:27

数据理想国

0.絮前些阵子去听了一个和大数据有关的会议,发言人中有两拨:第一拨人:极力宣扬大数据的威力,用各种案例来阐述大数据的高深莫测。第二拨人:在说大数据之前,和大数据划清界限。就像是对待伪科学一样谨慎。至于是非善恶咱就不掺合,我只负责打工。不过有一点是比较明确地:大数据时代尚处在成长期。倘若眼里看到的是20年后(或许只有10年)成熟期的大数据时代,我倒是以为:怎么吹嘘都不为过。突然想

2016-01-31 16:16:12

推荐系统学习之概率算法及其增量算法

谈到推荐吧,我知道的也很少,总括的这种就不吹了。第一个和概率有关的推荐算法应该是**“关联规则挖掘”**,就是置信度、支持度那个,我就不多言了,接下来一个的则是**“PageRank”**,这一个方法曾经被广泛的用于搜索引擎的网页排名中,亦是本文将要关注的重点对象。而选择这一个**tooyoungtoonaive**的算法出发的原因就是**itissimpleandbeautiful**。

2016-01-25 19:30:59

小样本分析(三)

虔诚的我提出一个问题,希望知识能给我答案,然而他以一个新的问题作为回答。导读:这篇是继前两篇小概率估算的后续,很多地方没有说,建议先粗略看一下前面的,了解一下估算的思路。由于公式较多直接从word截图偷个闲。条件极值:【注:拉格朗日乘数法我也忘记得差不多了,在网上找到的例子也主要是只有一个约束条件,这里到两个约束的拓展有点不确定,但是先做了】不难发现在al

2015-10-07 19:04:34

SVD 梯度下降

#coding=utf-8importnumpyasnpimporttimeimportmath__author__='01053185'#2015年9月25日classXMatrix():def__init__(self,m=1000,n=100,step=4):self.zero_like=0.01#伪零:

2015-09-25 21:53:30

证明:贝叶斯多条件的独立化的基础理论

花絮:       非常喜欢《天才J》这部小剧,里面有个的偶然公式,包含3个要素:时间、空间、守恒。这个公式最后被J破解掉了,破解的思路却很有意思:当观察一个个体的时候偶然性是必然的,但是观察一个大的群体时,偶然性又会消失。这个剧的作者估计也是学过概率论的。独立→正交:       我们假设有事件A,B相互独立,每次测量时A发生的概率是p,B发生的概率是q;测量n后,

2015-09-21 18:53:07

朴素贝叶斯的拓展

花絮:      前阵子我养了一非常笨的鱼,我花了好久好久教他爬树,猜结果怎么着?他死了,死在树上了。哎,有些事情就是这么毋庸置疑——有一条鱼笨死在树上。     几天前有人做了一个数据挖掘算法的培训,由于是泛泛而谈,我也是听了等于没听——说的都知道,不知道的也没说。不过回去的路上却对贝叶斯做了一番思考,自以为有所斩获,分享之。可谓温故而知新……贝叶斯的成立条件——条件独立性:

2015-09-20 22:03:05

SVD奇异值分解

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 今天看了这篇博客博主的一些文章,感觉很有收获。突然想到自己也写过svd的东西,就来看看自己的,才发现被之前不小心删除了。理论方面的东西就不多说了,这里会贴上两个不同实现方法的一段源码,然后分析一下异同。svd的源码1:     这一份源码是根据《recomm

2015-07-30 18:04:12

小样本分析(二)

东西写好之后,确认了几件事情,今天拿出来水一下。公式这个真是麻烦死了,markDown也不好用,只好把word里面的公式都去掉,重新写一点。引子:    一个暗盒子里面装满了球(认为足够多),拿出一个球发现是红球,再拿出一个还是红球的概率是多少?小样本分析主要回答的就是这一类问题。在以前的遇到这些问题时往往会以抽样样本数量太少不具备统计学意义为理由,拒绝回答这类“没有意义”的问题

2015-07-21 07:50:21

小样本时的概率估算

本文严重参考了《FoundationsofStatisticalNaturalLanguageProcessing》和《MaximumEntropyLanguagewithNon-LocalDependencies》(吴军);侵权则删。本文本着传播信息的不失真的理念,主要对其中的知识进行了原封不动的诠释,并无其他改变。(编辑公式太坑了,直接从word上截图的,大家凑合一下)

2015-07-06 09:09:42

穆勒五法——因果关系

穆勒五法:数据分析往往提到“相关关系”,但是鄙人仍然是一个“因果关系”的追随者。去网上找了一下因果关系的东西,最后发现了“穆勒五法”。这个总结非常到位,日常生活中我们经常用,但是很少把他提升到一个方法论的高度来关注。大家可以百度一下穆勒五法,主要还是通过对比来找原因,本文就不赘述了。下面谈谈个人见解。 因果关系的时序性:说白了,就是“原因发生在结果之前”。比如“我今天衣服穿得较

2015-05-23 15:44:14

强规则

外传:最近我在《统计自然语言处理基础》中看到的一个处理概率的问题,和我之前想的有相同之处:利用贝叶斯理论,但是原假设上我们确不同。感新区的朋友可以去看看该书的2.1.10贝叶斯统计章节。什么是强规则?顾名思义,强规则就是很强的规则,一般来说就是指凌驾于一切规则之上的规则,他是最基础、最本质、最接近真理的规则。强规则是什么?由于本人术业所限,自然就是指机器学习这一块的强规则。本

2015-05-06 11:12:23

文本分类(power 8算法挑战赛第五期)

这一期比赛可以说是刚好对上我胃口,总算和是和机器学习沾上边了。我的这个方法是采用的是贝叶斯方法,效果达到85.5%,这里给出来分享一下,其他训练方法的朋友也可以交流一下。先说一点题外话:之前写的“小样本理论”已经在近期完善了(在连续几个月的时间里,我一想这个问题脑袋就一片浆糊),但是我想在了解一下其他人在该方面的处理方法后再来吹牛,因此这里这么久都没有写后半部分。在这次的文本分类中

2015-04-26 11:44:53

质数计算2

质数计算这一个我也是想了很久,网上参考偏少,但是自己也是想到了不少觉得值得分享的东西。下面就简介一下。1、合数分类的方法不是只有一个。2、一定范围内的合数必定由两个质数相乘。3、周期性。针对以上的特点我一共开发了10个不同的计算质数的版本。由于C++掌握的不好,这里贴两个源码给大家看看。1)合数的分类不止一种方法。我们先来说最直接的分类法,我们先排除2的所有倍数,

2015-04-01 09:04:11

第四期POWER8大赛(计算质数)

这是一个实现计算素数的问题。但由于这个问题本身的特殊性(输出某范围内所有素数),我给出一个方案,或许和大家的一样。bool数组A:A[i]=True表示2*i+1为素数。如果要找10亿以内的素数,就要申请一个5亿bit的bool数组A,占用空间略小于100M,这种小范围的情况还是可用的。A全部初始化为TRUE;解法就很简单,按照下面的步骤来做就行了:1.首先把A[0]=FALSE

2015-03-14 03:31:11
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!