10 范涛

尚未进行身份认证

1:硕士毕业于中国科学技术大学; 2:曾就职深圳腾讯,现在就职百度 3:sina微博http://www.weibo.com/1680645085/ 4:关注机器学习,数据挖掘,推荐系统和金融风险模型

等级
TA的排名 2w+

图模型在欺诈检测应用一点看法

背景为什么是图模型?(1)现实世界,实体之间本身就是存在自然关联的。(2)欺诈者容易改变自身欺诈手法,逃避风控规则,但是他难以改变的全部关联关系,以及难以掌握全局视图,难以让他所在网络群体同步执行相同操作来躲避风控。还有一句话"天网恢恢,疏而不漏",当关联网络覆盖到一个很大范围时候,欺诈者即使再小心,可能也会无意中暴露出一点蛛丝马迹。在一个大型关联网络中,是十分容易发现

2017-12-07 20:12:22

Google Smart Reply笔记: Automated Response Suggestion for Email

AutomatedResponseSuggestionforEmail

2017-09-25 20:40:39

深度学习之图像目标检测(Object Detection)

这里分享下之前关于深度学习在图像目标识别检测上一些主流技术以及在家装类别上识别效果demo。

2017-04-22 13:58:42

深度学习之Autoencoder

告诉大家什么是Autoencoder?他的形式有哪几种?对于Autoencoder,相信大家开始听到这个名字并熟悉是因为深度学习火起来后。由于深度神经网络网络层数越来越多,反向传播算法(BP)在模型参数学习时候十分容易陷入局部最小和梯度消散,使得模型训练难度增大。Autoencoder正式因为这样的原因而被引入到深度学习中,通过先预训练的方式来缓解BP的一系列问题。

2017-04-22 13:17:08

海量数据相似查找系列2 -- Annoy算法

上面一章说了下高维稀疏数据如何通过learningtohash的方法来进行相似查找,这种主要想说下另外一种情况,稠密向量如何进行快速相似查找呢?还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示,以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式,那如何从海量文本中快速查找出相似的TopN文本呢?所以这里重点想说下Annoy(ApproximateNearestNeighborsOhYeah)这个快速算法,这个在实际应用中发现无论计算速度和准确

2017-04-19 21:27:02

海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

这一节重点针对高维稀疏数据情况,说如何通过哈希技术进行快速进行相似查找。试想个案例,就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的TopN相似item呢?同样海量文本场景,文本集合可以看成doc-word稀疏矩阵,如何求解每个文档的TopN相似文档?

2017-04-19 21:11:08

LDA工程化之快速采样算法

LDA是一种topicmodel,相信对大多数人工业界研发人员来说,LDA是一种让人望而却步的东西。LDA背后的数学理论是相对复杂的,但是LDA的最终计算公式却很简单,物理意义也很好理解。在互联网行业,主题模型经常用于query语义分析,广告query-bid触发匹配等。我们知道主流搜索公司,querylog日志数量是惊人的。如何快速进行再海量文本学习主题模型,至关重要,也直接影响到主题模型是否可以在工业界应用。这里重点介绍下目前业界用的比较多的几种快速采样算法,包括SparseLDA,AliasL

2017-04-14 23:44:55

突发事件检测: kleinberg 状态机模型

背景    现实中,我们接触到各种文本信息,大多是以相应的事件来组织的。针对每个特定事件,涉及的相关文档都会有相应的时间信息,我们称这种时间信息为文档的到达时间。那针对某个特定事件,涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息,通过这种时序信息,我们能观察到事件是何时发生的,何时突然爆发,又何时衰退的,比如“天津爆炸案”。在TDT(topic

2017-04-08 17:42:48

EM-Tree + Paragraph2vector 实现大规模文档聚类

主要分享下《ParallelStreamingSignatureEM-tree:AClusteringAlgorithmforWebScaleApplications》这篇文章。15年末的时候,组内同事分享过这个算法,当时吸引大家眼球的是文章号称可以对亿级别的文档进行单机并行聚类,速度快并scaleable,支持单机并行和分布式。当时我正好在做事件聚类相关的项目,十分需要一

2017-04-08 15:26:01

《Document Classification by Inversion of Distributed Language Representations》分享

前面分享了word2vector,这里想再提下这篇文章,这篇文章是ACL2015上面的一篇paper。之前在用word2vector一直在想,怎么把词向量用在分类模型中?一篇文档可以用各个词的词向量加权平均或者直接用paragraph2vector构建文档向量,再利用lr,gbdt等分类模型就可以了。但是这里面还有些问题:(1)word2vector忽略了文档词序;(2)如果分类样本比较少,直

2017-04-07 22:15:46

word2vector & paragraph2vector 技术分享

前言    在FastText那章节,提到了word2vector。这里就专门分享下word2vector的一些技术细节吧。第一次深入调研word2vector是在15年下半年的时候,当时团队leader希望我来负责这块技术在文本挖掘项目的的落地。15年那会,我调研的时候,这块技术在国内已经传播很广泛了,各种技术应用和分享都很多,这对我来说是一件非常利好的事情(站在巨人的肩膀上,哈哈)

2017-04-07 21:38:18

Facebook:FastText 理解和在query意图识别的应用

Facebook在2016年第一次对外公开FastText算法时候,应该是引起很大一番讨论,因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒,因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务,语料也是几百万。最开始拿的是NavieBayies做baseline,NavieBayies这种生成模型在大语料下不仅训练耗时,关键让人失望的是,预测速度变得也不那么快。基于当时的现状,我觉得我可以接受些许准确率损

2017-04-06 22:55:16

深度学习之《社交网络问答系统-问题重复检测任务》实现

quoraduplicatequestions:SemanticQuestionMatchingwithDeepLearning 本文参考了quora duplicatequestions技术文档:https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learninghttp:

2017-04-05 19:50:40

总结下这几年在文本挖掘领域的一些技术积累

今年春节过后,一直想找个时间把过去几年在文本挖掘领域在工业界的应用的一些看法和经验进行下总结。争取能按照一些线条来梳理吧,能形成一个相对完成行业解决方案那是最好。后面的总结可能但不局限于以下领域:文本意图的识别,大规模事件聚合,突发检测,文本主题挖掘等等。会对现实的工业界问题进行分解和合理的抽象,然后针对这些抽象进行讨论。这里面因为一些因素,更多是一种探讨,会涉及到各种常规的方法,

2017-04-05 19:41:49

《Credit Risk Scorecard》第八章: Scorecard Implementation

第八章:ScorecardDevelopmentProcess,Stage6:ScorecardImplementation这章主要涉及开发后期的分析和处理,主要涉及三个方面:(1)理解评分卡实现的一些分析(比如稳定性分析)和和商业考虑; (2)理解评分卡和管理报告如何应用?(3)基于评分卡模型策略制定。PreimplementationVa

2017-03-31 17:11:17

《Credit Risk Scorecard》 第六章: Scorecard Development

第六章:ScorecardDevelopmentProcess,Stage4:ScorecardDevelopment开发流程:对于申请评分卡(A卡)来说,下面是整个开发流程。对于行为评分卡(B卡)来说,除了没有拒绝推断外,基本是一样的。ExploreData :数据收集和处理相关的。之前章节已经提到过Missin

2017-03-31 17:07:15

《Credit Risk Scorecard》第五章: Development Database Creation

第五章:ScorecardDevelopmentProcess,Stage3:DevelopmentDatabaseCreationSelectionofCharacteristics 特征选择需要考虑:(1)有预测能力;(2)可靠并且鲁棒性;(3)易于收集;(4)可解释性; SamplingDevelopment/Valid

2017-03-31 16:36:34

《Credit Risk Scorecards》读书笔记

因为有些相关工作原因,之前把《CreditRiskScorecards》这本英文原著好好看下了,也做了些笔记。这本书基本整个信用风险评分卡模型构建流程都说了下,相当详细。十分值得阅读和参考。在读这本书的时候,我顺便也搜集了一些这个领域相关其他资料,补充到笔记中。近期,准备把其中有价值的笔记放在博客上,算作个备忘录吧,也方便讨论和交流。下面贴个这本书封面

2017-03-31 16:22:50

《Credit Risk Scorecard》第四章:Data Review and Project Parameters

一:dataavaliablityandquality数据获取,数量和质量,可靠和干净的数据是需要的。数据数量需要满足多样性,统计显著和随机。具体数量大小,目前不是关键,依赖坏样本定义。对于申请评分卡(applicationscorecard),俗称A卡,需要包含拒绝的样本。通过拒绝推断(rejectinference)技术去推断拒绝样本中好样本和坏样本。数据源

2017-03-31 16:11:45

Spark Graphx 进行团伙的识别(community detection)

在金融科技领域,尤其风控领域,会有各种重要的关联网络,并且这种网络图十分庞大。下面以设备间关联网络为例,采用Graphx做一个设备团伙挖掘demo。团伙识别的算法采用的是Graphx自带的LabelPropagation算法

2017-03-31 10:57:57

查看更多

勋章 我的勋章
    暂无奖章