自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

axuanwu的专栏

好读书 不求甚解

  • 博客(32)
  • 资源 (2)
  • 收藏
  • 关注

原创 FM的快速增量算法猜想

背景接触FM方法时间也算是很久了,虽然没有持续在上面做非常深入的研究,但是做的几个项目中,多次使用后也算是也算是业余玩家中的高端玩家了。在前期的一个项目中深入的参与了spark中的ALS推荐模型(其实本质是FM,als是指其中最优化的算法),其中主要参与解决的问题就是增量推荐(场景中是解决新用户的推荐问题),其中具体的思路就是固定住物品矩阵单独训练每个用户的评分内容,具体就不赘述。但是该方法效率非常

2017-11-28 20:18:08 771

原创 top100峰会有感

top100峰会——百箱大战的联想百箱大战的箱指的是“小爱同学“ “天猫精灵“等这类具备一定人工(机器)智能的音箱,称之为大前端的产物或许才更能说明他的重要性。大前端:前端的亦即 UI ,就是人机交互,大前端就是指人工智能时代或者未来时代更方便的交互方式。 更方便的交互: 人是怎么向人表达意图呢? 0. 文字符号 :工作中常用的沟通方式。 1. 语音: 日常生活中最常用的交互方式就是语音沟通

2017-11-10 21:05:52 442

原创 协同过滤中显性反馈 与 隐性反馈 的区别(附ALS最优化)

协同过滤中显性反馈 与 隐性反馈 的区别1. 特质上的区别显性反馈行为:用户明确表示对物品喜好的行为。 隐性反馈行为:不能明确反映用户喜好的行为。隐性反馈的特性没有负反馈。隐性反馈无法判断是否不喜欢。而显性反馈,明显能区分是喜欢还是不喜欢。先天性具有噪声。用户购买了某物品,并不代表他喜欢,也许是送礼,也许买了之后发现不喜欢。显性反馈数值代表偏好程度,隐性反馈数值代表置信度。隐性反馈的数值通常

2017-07-07 18:52:03 5833

原创 提问的礼仪

提问的礼仪1. 谷歌、百度 前三页大多数的技术问题都能在百度、谷歌、官方文档、博客 找到答案,如果中文找不到答案可以试试英文。2. 清晰的提问在Google Code社区提问的时候,会自动生成一个模板: What steps will reproduce the problem? 该问题的重现步骤是什么?What is the expected output? What do you see

2017-07-07 18:15:43 976

原创 集合的最优分组问题

问题仓库人员需要按照订单上的信息将商品从货架上拣选出来,这些订单大致形态如下:订单1:{商品1、商品2、商品3} 订单2:{商品2、商品3、商品5、商品6、商品7} 订单3:{商品1、商品4} …… 订单10000:{商品239、商品445、商品500}假定总共1万订单,商品种类500种。在这些订单中的商品不大于10种,至少有1种,以1-5种商品组合的订单数量为最多,很多订单的商品组合可能很

2017-01-18 16:49:55 3398

原创 GBDT 学习

这么多乱七八糟的“算法”,为什么要学GBDT呢?主要是最近听到这个名词比较多,想了。那么为什么要再写GBDT呢(鉴于各种牛人满天飞,我怎么就好意思献丑了)?着实是看看了网上一些博客后,有很多疑问,后来自己把这些疑问解决了,就想着分享一下,减少大家的学习成本。所以我就不再从头说起了,新朋友可以参拜一下以下文章。

2016-05-01 17:04:27 3661

原创 数据理想国

0. 絮前些阵子去听了一个和大数据有关的会议,发言人中有两拨:第一拨人:极力宣扬大数据的威力,用各种案例来阐述大数据的高深莫测。第二拨人:在说大数据之前,和大数据划清界限。就像是对待伪科学一样谨慎。至于是非善恶咱就不掺合,我只负责打工。不过有一点是比较明确地:大数据时代尚处在成长期。倘若眼里看到的是20年后(或许只有10年)成熟期的大数据时代,我倒是以为:怎么吹嘘都不为过。突然想

2016-01-31 16:16:12 790

原创 推荐系统学习之概率算法及其增量算法

谈到推荐吧,我知道的也很少,总括的这种就不吹了。第一个和概率有关的推荐算法应该是**“关联规则挖掘”**,就是置信度、支持度那个,我就不多言了,接下来一个的则是**“Page Rank”**,这一个方法曾经被广泛的用于搜索引擎的网页排名中,亦是本文将要关注的重点对象。而选择这一个**too young too naive**的算法出发的原因就是**it is simple and beautiful**。

2016-01-25 19:30:59 3548

原创 小样本分析(三)

虔诚的我提出一个问题,希望知识能给我答案,然而他以一个新的问题作为回答。导读:这篇是继前两篇小概率估算的后续,很多地方没有说,建议先粗略看一下前面的,了解一下估算的思路。由于公式较多直接从word截图偷个闲。条件极值:【注:拉格朗日乘数法我也忘记得差不多了,在网上找到的例子也主要是只有一个约束条件,这里到两个约束的拓展有点不确定,但是先做了】不难发现在 al

2015-10-07 19:04:34 4430

原创 SVD 梯度下降

# coding=utf-8import numpy as npimport timeimport math__author__ = '01053185'# 2015年 9 月 25 日class XMatrix(): def __init__(self, m=1000, n=100, step=4): self.zero_like = 0.01 # 伪零:

2015-09-25 21:53:30 3695 2

原创 证明:贝叶斯多条件的独立化的基础理论

花絮:        非常喜欢《天才J》这部小剧,里面有个的偶然公式,包含3个要素:时间、空间、守恒。这个公式最后被J破解掉了,破解的思路却很有意思:当观察一个个体的时候偶然性是必然的,但是观察一个大的群体时,偶然性又会消失。这个剧的作者估计也是学过概率论的。独立→正交:        我们假设有事件A,B相互独立,每次测量时 A发生的概率是p,B发生的概率是q;测量n后,

2015-09-21 18:53:07 2261

原创 朴素贝叶斯的拓展

花絮:       前阵子我养了一非常笨的鱼,我花了好久好久教他爬树,猜结果怎么着?他死了,死在树上了。哎,有些事情就是这么毋庸置疑——有一条鱼笨死在树上。      几天前有人做了一个数据挖掘算法的培训,由于是泛泛而谈,我也是听了等于没听——说的都知道,不知道的也没说。不过回去的路上却对贝叶斯做了一番思考,自以为有所斩获,分享之。可谓温故而知新……贝叶斯的成立条件——条件独立性:

2015-09-20 22:03:05 1459

原创 SVD奇异值分解

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html  今天看了这篇博客博主的一些文章,感觉很有收获。突然想到自己也写过svd的东西,就来看看自己的,才发现被之前不小心删除了。理论方面的东西就不多说了,这里会贴上两个不同实现方法的一段源码,然后分析一下异同。svd的源码1:      这一份源码是根据《recomm

2015-07-30 18:04:12 583

原创 小样本分析(二)

东西写好之后,确认了几件事情,今天拿出来水一下。公式这个真是麻烦死了,markDown也不好用,只好把word里面的公式都去掉,重新写一点。引子:       一个暗盒子里面装满了球(认为足够多),拿出一个球发现是红球,再拿出一个还是红球的概率是多少?小样本分析主要回答的就是这一类问题。在以前的遇到这些问题时往往会以抽样样本数量太少不具备统计学意义为理由,拒绝回答这类“没有意义”的问题

2015-07-21 07:50:21 3718 2

原创 小样本时的概率估算

本文严重参考了《Foundations of Statistical Natural Language Processing》和《MaximumEntropy Language with Non-Local Dependencies》(吴军);侵权则删。本文本着传播信息的不失真的理念,主要对其中的知识进行了原封不动的诠释,并无其他改变。(编辑公式太坑了,直接从word上截图的,大家凑合一下)

2015-07-06 09:09:42 2186 1

原创 穆勒五法——因果关系

穆勒五法:数据分析往往提到“相关关系”,但是鄙人仍然是一个“因果关系”的追随者。去网上找了一下因果关系的东西,最后发现了“穆勒五法”。这个总结非常到位,日常生活中我们经常用,但是很少把他提升到一个方法论的高度来关注。大家可以百度一下穆勒五法,主要还是通过对比来找原因,本文就不赘述了。下面谈谈个人见解。 因果关系的时序性:说白了,就是“原因发生在结果之前”。比如“我今天衣服穿得较

2015-05-23 15:44:14 4318

原创 强规则

外传:最近我在《统计自然语言处理基础》中看到的一个处理概率的问题,和我之前想的有相同之处:利用贝叶斯理论,但是原假设上我们确不同。感新区的朋友可以去看看该书的2.1.10 贝叶斯统计章节。什么是强规则?顾名思义,强规则就是很强的规则,一般来说就是指凌驾于一切规则之上的规则,他是最基础、最本质、最接近真理的规则。强规则是什么?由于本人术业所限,自然就是指机器学习这一块的强规则。本

2015-05-06 11:12:23 2186

原创 文本分类(power 8算法挑战赛第五期)

这一期比赛可以说是刚好对上我胃口,总算和是和机器学习沾上边了。我的这个方法是采用的是贝叶斯方法,效果达到85.5%,这里给出来分享一下,其他训练方法的朋友也可以交流一下。先说一点题外话:之前写的“小样本理论”已经在近期完善了(在连续几个月的时间里,我一想这个问题脑袋就一片浆糊),但是我想在了解一下其他人在该方面的处理方法后再来吹牛,因此这里这么久都没有写后半部分。在这次的文本分类中

2015-04-26 11:44:53 1574

原创 质数计算2

质数计算这一个我也是想了很久,网上参考偏少,但是自己也是想到了不少觉得值得分享的东西。下面就简介一下。1、合数分类的方法不是只有一个。2、一定范围内的合数必定由两个质数相乘。3、周期性。针对以上的特点我一共开发了10个不同的计算质数的版本。由于C++掌握的不好,这里贴两个源码给大家看看。1) 合数的分类不止一种方法。我们先来说最直接的分类法,我们先排除2的所有倍数,

2015-04-01 09:04:11 913

原创 第四期POWER8大赛(计算质数)

这是一个实现计算素数的问题。但由于这 个问题本身的特殊性(输出某范围内所有素数),我给出一个方案,或许和大家的一样。bool数组A:A[i]=True表示 2*i+1 为素数。如果要找10亿以内的素数,就要申请一个5亿bit的bool数组A,占用空间略小于100M,这种小范围的情况还是可用的。A全部初始化为TRUE;解法就很简单,按照下面的步骤来做就行了:1.首先把A[0]=FALSE

2015-03-14 03:31:11 663

原创 电子圈存的秘密——去中心化的一个例子

之前听说有一种消费叫插卡消费,也即闪付;总感觉挺鸡肋的,因为我们明明可以刷卡。最近突然想明白了,分享之。插卡消费与刷卡消费的过程对比:刷卡消费:刷卡后刷卡机读取卡片的身份信息,与交易详情、用户密码等一起发送给数据中心,数据中心确认密码后,对银行账户进行操作,并返馈刷卡机是否操作成功。插卡消费:插卡后刷机器读取ic芯片内容,包含账户余额等信息,用户输入密码后,刷卡机会直接修改ic

2015-02-07 17:59:43 1762

原创 小样本分析

投石问路:我们先从简单问题开始。有一个袋子里面有2个球,随机拿出一个来,是红球(不放回),那么再拿出一个,这个球还是红球的概率是多少?请读者们仔细想想怎么回答这个概率问题。

2015-02-07 16:08:48 7949 2

原创 数学题:证明AB+AC>DB+DC(D为三角形内一点)

http://blog.csdn.net/yxnk/article/details/2101242 在这篇博客看到一个问题:证明:AB+AC>DB+DC(D为三角形ABC的一个内点)。由于他说 90%的人要花1个小时以上,我不得不发起挑战了!我赶紧找了张纸画了几个图,做了一些辅助线。发现有三点是易知的:1)三角形BCD的面积比三角形BCA的面积小。2)角∠BAC 小于角∠B

2015-01-30 15:25:47 2033

原创 程序员之伤——一个加法题

最近两次看到类似的东西。因此分享之:1、http://student.csdn.net/mcs/question_detail/6742、http://www.cnblogs.com/stublue/archive/2010/02/02/1662185.html第一个链接是一个题,第二个是某一个特殊情况求解。我这里给出一个解,但是和算法无关,只与数学有关。为了方便我们引入函数 f,

2015-01-29 16:00:58 510

原创 hash 与 随机数(二)

__author__ = 'axuanwu'import Mcardcard = Mcard.Mcard()# card.setbase()card.set_card(8000)for i in xrange(1, 2001): if i == 999: card.update_card('999') else: card.update_

2015-01-27 12:54:02 1597

原创 正则匹配问题(power8竞赛敏感词过滤)

这个赛事我是写了一个,python单线程60秒左右,虽然不知道别人3秒是怎么做的,但是论复杂度,这的方法已经是线性时间复杂度了,所以这里写个分享,供大家指正。线性复杂度:这里所说的线性复杂度指的是和需要匹配的敏感词(主要是简单的模糊匹配)数量无关,只与需要匹配的文本线性相关。如果你已经做到了这一点可以了解一下别人的方法,如果没做到,也可以参考一下本文的方法。这一方法的主要特点是把所有敏感词同时

2015-01-24 16:19:49 2246

原创 数据挖掘的若干问题

设计VS训练:博数据VS

2014-11-24 12:32:45 639

原创 误差的时空域转化

前言:这是一个简单的问题

2014-11-16 16:21:04 823

原创 社交网络分析之网络分解(小世界划分)

略谈社交网络:

2014-11-03 22:42:26 4722

原创 中文分词之姓名标注

中科院中文分词系统ICTCLAS之人名识别词典分析

2014-06-28 05:07:53 4816 1

原创 HASH 与 随机数

本文主要介绍hash与多值

2014-05-17 17:00:29 13025 2

原创 网络安全略谈——你的密码是否安全?

最近一直都在学习网络安全方面的知识,也使用wireshark抓了一些报文仔细观察了一下。对于网络安全有了更多的了解,于是便在这儿和大家分享一下。当我们打开一个网页,登陆的时候,或者cookie直接帮我们登陆的时候,我们的密码或者密码相关的信息就会被发送到另一个服务器接受验证。于是问题就产生了:可能一个不怀好意的人正在偷听你和另一台服务器的谈话——包括你的密码。 究竟什么是秘密?

2014-03-23 03:54:06 1023

R+hadoop进行大数据分析

数据分析R,英文版。主要说明R和hadoop结合起来处理大数据。

2014-07-31

推荐系统手册

比较详细的介绍了推荐系统的实现及其优化过111程,其中主要包含协同过滤 .

2013-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除