范涛-CSDN博客

原创图模型在欺诈检测应用一点看法

背景为什么是图模型？（1）现实世界，实体之间本身就是存在自然关联的。（2）欺诈者容易改变自身欺诈手法，逃避风控规则，但是他难以改变的全部关联关系，以及难以掌握全局视图，难以让他所在网络群体同步执行相同操作来躲避风控。还有一句话"天网恢恢，疏而不漏"，当关联网络覆盖到一个很大范围时候，欺诈者即使再小心，可能也会无意中暴露出一点蛛丝马迹。在一个大型关联网络中，是十分容易发现

2017-12-07 20:12:22 17176 2

原创 Google Smart Reply笔记： Automated Response Suggestion for Email

Automated Response Suggestion for Email

2017-09-25 20:40:39 3479 2

原创深度学习之图像目标检测（Object Detection）

这里分享下之前关于深度学习在图像目标识别检测上一些主流技术以及在家装类别上识别效果demo。

2017-04-22 13:58:42 12167 1

原创深度学习之Autoencoder

告诉大家什么是Autoencoder？他的形式有哪几种？对于Autoencoder，相信大家开始听到这个名字并熟悉是因为深度学习火起来后。由于深度神经网络网络层数越来越多，反向传播算法（BP）在模型参数学习时候十分容易陷入局部最小和梯度消散，使得模型训练难度增大。Autoencoder正式因为这样的原因而被引入到深度学习中，通过先预训练的方式来缓解BP的一系列问题。

2017-04-22 13:17:08 2590

上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找，这种主要想说下另外一种情况，稠密向量如何进行快速相似查找呢？还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示，以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式，那如何从海量文本中快速查找出相似的Top N 文本呢?所以这里重点想说下Annoy（Approximate Nearest Neighbors Oh Yeah）这个快速算法，这个在实际应用中发现无论计算速度和准确

2017-04-19 21:27:02 23089 8

原创海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

这一节重点针对高维稀疏数据情况，说如何通过哈希技术进行快速进行相似查找。试想个案例，就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别，user是千万级别，这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢？同样海量文本场景，文本集合可以看成doc-word 稀疏矩阵，如何求解每个文档的Top N相似文档？

2017-04-19 21:11:08 7651

原创 LDA工程化之快速采样算法

LDA 是一种topic model，相信对大多数人工业界研发人员来说，LDA是一种让人望而却步的东西。LDA背后的数学理论是相对复杂的，但是LDA的最终计算公式却很简单，物理意义也很好理解。在互联网行业，主题模型经常用于query语义分析，广告query-bid触发匹配等。我们知道主流搜索公司，querylog日志数量是惊人的。如何快速进行再海量文本学习主题模型，至关重要，也直接影响到主题模型是否可以在工业界应用。这里重点介绍下目前业界用的比较多的几种快速采样算法，包括Sparse LDA，Alias L

2017-04-14 23:44:55 4110

原创突发事件检测： kleinberg 状态机模型

背景现实中，我们接触到各种文本信息，大多是以相应的事件来组织的。针对每个特定事件，涉及的相关文档都会有相应的时间信息，我们称这种时间信息为文档的到达时间。那针对某个特定事件，涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息，通过这种时序信息，我们能观察到事件是何时发生的，何时突然爆发，又何时衰退的，比如“天津爆炸案”。在TDT（topic

2017-04-08 17:42:48 9253 6

原创 EM-Tree + Paragraph2vector 实现大规模文档聚类

主要分享下《Parallel Streaming Signature EM-tree: A Clustering Algorithm for Web Scale Applications》这篇文章。15年末的时候，组内同事分享过这个算法，当时吸引大家眼球的是文章号称可以对亿级别的文档进行单机并行聚类，速度快并scaleable，支持单机并行和分布式。当时我正好在做事件聚类相关的项目，十分需要一

2017-04-08 15:26:01 2413

原创《Document Classiﬁcation by Inversion of Distributed Language Representations》分享

前面分享了word2vector，这里想再提下这篇文章，这篇文章是ACL2015上面的一篇paper。之前在用word2vector一直在想，怎么把词向量用在分类模型中？一篇文档可以用各个词的词向量加权平均或者直接用paragraph2vector构建文档向量，再利用lr，gbdt等分类模型就可以了。但是这里面还有些问题：（1）word2vector忽略了文档词序；（2）如果分类样本比较少，直

2017-04-07 22:15:46 1069

原创 word2vector & paragraph2vector 技术分享

前言在FastText 那章节，提到了word2vector。这里就专门分享下word2vector的一些技术细节吧。第一次深入调研word2vector是在15年下半年的时候，当时团队leader希望我来负责这块技术在文本挖掘项目的的落地。15年那会，我调研的时候，这块技术在国内已经传播很广泛了，各种技术应用和分享都很多，这对我来说是一件非常利好的事情（站在巨人的肩膀上，哈哈）

2017-04-07 21:38:18 4161

原创 Facebook：FastText 理解和在query意图识别的应用

Facebook 在2016年第一次对外公开FastText算法时候，应该是引起很大一番讨论，因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒，因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务，语料也是几百万。最开始拿的是Navie Bayies做baseline，Navie Bayies这种生成模型在大语料下不仅训练耗时，关键让人失望的是，预测速度变得也不那么快。基于当时的现状，我觉得我可以接受些许准确率损

2017-04-06 22:55:16 8160 2

原创深度学习之《社交网络问答系统-问题重复检测任务》实现

quora duplicate questions：Semantic Question Matching with Deep Learning 本文参考了quora duplicate questions 技术文档：https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learninghttp:

2017-04-05 19:50:40 4039 2

原创总结下这几年在文本挖掘领域的一些技术积累

今年春节过后，一直想找个时间把过去几年在文本挖掘领域在工业界的应用的一些看法和经验进行下总结。争取能按照一些线条来梳理吧，能形成一个相对完成行业解决方案那是最好。后面的总结可能但不局限于以下领域：文本意图的识别，大规模事件聚合，突发检测，文本主题挖掘等等。会对现实的工业界问题进行分解和合理的抽象，然后针对这些抽象进行讨论。这里面因为一些因素，更多是一种探讨，会涉及到各种常规的方法，

2017-04-05 19:41:49 1952

原创《Credit Risk Scorecard》第八章： Scorecard Implementation

第八章： Scorecard Development Process, Stage 6: Scorecard Implementation这章主要涉及开发后期的分析和处理，主要涉及三个方面：（1）理解评分卡实现的一些分析（比如稳定性分析）和和商业考虑；（2）理解评分卡和管理报告如何应用？（3）基于评分卡模型策略制定。Preimplementation Va

2017-03-31 17:11:17 2050

原创《Credit Risk Scorecard》第六章: Scorecard Development

第六章：Scorecard Development Process, Stage 4: Scorecard Development开发流程：对于申请评分卡（A 卡）来说，下面是整个开发流程。对于行为评分卡（B卡）来说，除了没有拒绝推断外，基本是一样的。Explore Data ：数据收集和处理相关的。之前章节已经提到过Missin

2017-03-31 17:07:15 5867 3

原创《Credit Risk Scorecard》第五章： Development Database Creation

第五章：Scorecard Development Process, Stage 3: Development Database CreationSelection of Characteristics 特征选择需要考虑：（1）有预测能力；（2）可靠并且鲁棒性；（3）易于收集；（4）可解释性； SamplingDevelopment/Valid

2017-03-31 16:36:34 1612 3

原创《Credit Risk Scorecards》读书笔记

因为有些相关工作原因，之前把《Credit Risk Scorecards》这本英文原著好好看下了，也做了些笔记。这本书基本整个信用风险评分卡模型构建流程都说了下，相当详细。十分值得阅读和参考。在读这本书的时候，我顺便也搜集了一些这个领域相关其他资料，补充到笔记中。近期，准备把其中有价值的笔记放在博客上，算作个备忘录吧，也方便讨论和交流。下面贴个这本书封面

2017-03-31 16:22:50 3267

原创《Credit Risk Scorecard》第四章：Data Review and Project Parameters

一： data avaliablity and quality数据获取，数量和质量，可靠和干净的数据是需要的。数据数量需要满足多样性，统计显著和随机。具体数量大小，目前不是关键，依赖坏样本定义。对于申请评分卡（application scorecard），俗称A卡，需要包含拒绝的样本。通过拒绝推断（reject inference）技术去推断拒绝样本中好样本和坏样本。数据源

2017-03-31 16:11:45 3042

原创 Spark Graphx 进行团伙的识别（community detection）

在金融科技领域，尤其风控领域，会有各种重要的关联网络，并且这种网络图十分庞大。下面以设备间关联网络为例，采用Graphx做一个设备团伙挖掘demo。团伙识别的算法采用的是Graphx自带的LabelPropagation算法

2017-03-31 10:57:57 11106 4

原创 LIME：模型预测结果是否值得信任？

LIME：模型是否值得信任？我们在建立模型的时候，经常会思考我们的模型是不是够稳定，会不会出现样本偏差效应， p>>N时候会不会过拟合？我们检查模型稳定，我们进行一些cross-validation来看看各项评估指标方差大不大。可是如果样本一开始因为采样偏差导致样本有偏，导致模型和实际情况有差异，这个就不太好评估了。同样，p>>N也会有类似的问题，尤其在文本挖掘领域。一般情况，如果特征不是很多的话，尤其像logistic regression这样的model，我们会把模型权重给打印出来看看，看看训

2016-04-10 23:21:37 11642 2

原创余额支付风控 -- 风控评分模型篇

余额支付风控风控评分模型篇 by dylanfan at 2015-2-11一概述余额支付的风险识别模型分为两类：（1）盗号交易识别风险和（2）盗卡交易识别风险。其中盗卡交易识别风险和余额有关主要是由于骗子注册号码帮盗来的卡，然后进行充值到余额，通过余额支付销赃。（1）和（2）两种针对的情景不一样，采用的特

2015-03-07 22:20:29 7640

原创余额支付风控--整体篇

余额支付风控--整体篇什么是风控？在支付行业的的风控是通过一定手段来对平台的业务风险进行控制，偏业务安全领域。风控和技术安全还是不太一样，技术安全更多关注系统漏洞，是否被攻击，是否被拖库。所以，风控更加注重对业务的理解，数据分析，模型，以及风险打击策略的制定。

2015-03-07 22:08:18 4062

原创 Kaggle ： Display Advertising Challenge( ctr 预估 )

CriteoLabs kaggle 展示广告ctr预估比赛

2015-01-15 20:26:43 37981 18

原创 OWL-QN算法：求解L1正则优化

在机器学习模型中，OWL-QN求解

2014-09-16 19:36:21 6131 1

原创重读网络挖掘中community detection 文章--Fast unfolding of communities in large networks

community detection 社区发现算法

2014-08-29 20:25:15 4449 1

原创 LDA gibbs

今天看了几个不错的博客和文档说的是lda topic model。其实最早接触这个是我在百分点实习的那会，那会

2014-07-12 22:55:29 1240

原创不平衡学习方法理论和实战总结

不平衡学习方法一: 采样方法1. 随机重采样(random oversampling): 样本不平衡时候，对小类样本就行随机重采样，以达到平衡。这种方法只是对小类样本进行简单的拷贝，缺点是容易over-fit，比如在决策树分类的时候，很有可能一个终端叶子节点的样本都是一个样本的拷贝而已，扩展性不足，这可能会提高模型训练的精度，但是对未知测试样本的预测可能是很差的。 2.

2014-06-29 13:28:05 4606

原创连续特征离散化和归一化

连续特征进行离散化处理。

2014-06-25 22:12:33 85386 7

原创二分类问题特征选择的常用两个方法

二分类问题特征选择的常用两个方法 2014-6-25 （1）互信息。值越大，相关性越强 w是特征，t是目标。反应的是特征出现和不出现对目标值的影响。（2）卡方检验其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =0,

2014-06-25 22:04:13 8847

原创 Loan default predictor（贷款违约预测）

Loan default predictor （贷款违约预测）--- dylan at 2014-3-16 一：背景Kaggle发布了一个涉及贷款违约预测的比赛，时间周期2个月（2014/01/17 -- 2014/03/14）。其实，之前kaggle很久之前有过关于贷款相关信用预测的比赛。但是，这次和上次的情况很不同，挑战也更大。传统的金融相关的算法，其实是个典型二分类问

2014-06-25 21:36:27 8194 1

原创模型集成方法： Stacked generation

Stacked generation分为两个阶段 1. Level-0 generalizersLevel-0 generalizers阶段生成Level-1 generalizers阶段的输入数据。我们有K个简单的分类模型，然后如何ensemble这些模型的结果，等价于这些模型的权重是多少？一种就是根据把训练集分割一定比率来训练这K个简单模型，用这个K的模型预测剩下部分的训练集

2014-06-22 23:24:03 3554

原创从今天开始，把之前做的项目整理发到博客上

从今天开始，把之前做的项目整理发到博客上

2014-06-22 15:26:01 1230

原创 kaggle ： StumbleUpon Evergreen Classification Challenge

StumbleUpon Evergreen Classification Challenge------2013/08/16 -- 2013/10/31一背景Build a classifier to categorize webpages as evergreen or non-evergreen Stumbleupon是美国的UGC网站，用户分享内容，网站通过用户行为数据

2014-06-22 15:19:31 3367 1

原创 FaceBook: Text Tag Recommendation

Text Tag Recommendation 一：背景Kaggle上 facebook招聘比赛III。任务要求是给定文本中抽取关键词，这里称作tag吧。训练集是Stack Exchange sites上面的大量问答文本，每个post上面有网页的title ,body, 用户打的tags。

2014-06-22 15:03:11 2095 3

原创求子序列的长度

子序列的定义：对于一个序列a=a[1],a[2],......a[n]，则非空序列a'=a[p1],a[p2]......a[pm]为a的一个子序列，其中1例如：4,14,2,3和14,1,2,3都为4,13,14,1,2,3的子序列。对于给出序列a，有些子序列可能是相同的，这里只算做1个，要求输出a的不同子序列的数量。输入：长度为n的数组1

2013-09-24 16:59:32 1064

原创给定长度为n的整数数列：a0,a1,..,an-1，以及整数S。这个数列会有连续的子序列的整数总和大于S的，求这些数列中，最小的长度。

给定长度为n的整数数列：a0,a1,..,an-1，以及整数S。这个数列会有连续的子序列的整数总和大于S的，求这些数列中，最小的长度。#include using namespace std;int min_seri_len(int *a, int n, int S){ int i = 0; int j = 0; int min_len = 0; int * sum

2013-09-21 19:09:45 5680

原创删除字符串中的“b”和“ac”

删除字符串中的“b”和“ac”，需要满足如下的条件：字符串只能遍历一次；不能够实用额外的空间。例如：acbac ==> ""；aaac ==> aa；ababac ==> aa；bbbbd ==> d #include using namespace std;void delete_chars(char * str){ int location = 0; int

2013-09-21 15:02:40 2102

原创给定两个有序的n长度的数组，如何找出这两个数组合并后的中位数？

给定两个有序的n长度的数组，如何找出这两个数组合并后的中位数？（1） o(n)的时间复杂度。这个就像两个有序链表合并一样，设定一个变量，记录合并数的索引，一旦等于n，即停止，当前值卫中位数。（2）log（n）时间复杂度。通过比较两个数组中位数的大小，可以把查找范围缩小一半。#include using namespace std;//log(n) time;int

2013-09-21 14:08:19 1054

原创平衡三进制的转换问题

给定一个数，如何把用三进制表示，就像5= 9-3-1？ #include using namespace std;void transform_ternary3 (int num){ int m = 0; vector seri; if (!num){ cout << 0 <<endl; return; } int flag = 1;

2013-09-21 13:58:55 1595

fcntl函数的功能介绍

空空如也