kevin7561-CSDN博客

原创数据挖掘模型中的IV和WOE详解

1.IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？挑选入模变

2016-03-02 15:36:16 247898 47

转载探索推荐引擎内部的秘密-第 3 部分: 深入推荐引擎相关算法 - 聚类

智能推荐大都基于海量数据的计算和处理，然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的，在面对解决这个问题的过程中，大家提出了很多减少计算量的方法，而聚类无疑是其中最优的选择之一。聚类 (Clustering) 是一个数据挖掘的经典问题，它的目的是将数据分为多个簇 (Cluster)，在同一个簇中的对象之间有较高的相似度，而不同簇的对象差别较大。聚类

2014-04-16 10:36:49 1267

转载探索推荐引擎内部的秘密-第 2 部分: 深入推荐引擎相关算法 - 协同过滤

本系列的第一篇为读者概要介绍了推荐引擎，下面几篇文章将深入介绍推荐引擎的相关算法，并帮助读者高效的实现这些算法。在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单，数据依赖性低，数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密，并给出基于 Apache Mahout 的协同过滤算法的高效实现

2014-04-16 09:34:10 1350

随着 Web 技术的发展，使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具，也广泛的被人们所使用，但搜索引擎并不能完全满足用户对信息发现的需求，原因一是用户很难用恰当的关键词描述自己的需求，二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现，使用户获

2014-04-15 14:34:56 1121

原创数据挖掘模型介绍之四：最近邻方法和基于记忆的推理

1．原理最近邻方法的基本原理是：距离最近的个体之间是最相似的，会表现出相同的行为。比如，如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。基于记忆的推理算法和协同过滤算法都是基于这个基本思想的。基于记忆的推理算法，是在过去的个体中，找到和当前样本最相似的一个或者多个个体，用这些个体的结果作为当前样本的预测结果。

2014-04-15 10:58:05 3300

原创数据挖掘模型介绍之三：决策树

1．适用的场景（1）分析对某种响应可能性影响最大的因素，比如判断具有什么特征的客户流失概率更高；（2）为其他模型筛选变量。决策树找到的变量是对目标变量影响很大的变量。所以可以作为筛选变量的手段。注：1）决策树筛选的变量之间的独立性可能不够，因为决策树每次选择变量时不会考虑变量和其他变量的相关性。所以，如果其他模型自变量的相关性很敏感，用决策树筛选变量时需要检查变量的相关性。2

2014-03-03 16:18:51 16676

原创数据挖掘模型介绍之二：表查询模型（查询表格模型）

1．表查询模型的基本思想：表查询模型基本上基于这样一个基本思想：在多个已知属性上上相似的个体，在其他属性上也会相似。比如个体A和个体B的三个属性x1，x2，x3相似，那么另外一个属性y很可能也相似。注：（1）这种相似性的关联是有限制的，主要的限制就是x1，x2，x3和y应该具有比较高的相关性。如果x1，x2，x3和y没有相关性，那么，即使两个个体在x1，x2，x3属性上都非常相

2014-02-19 11:24:18 2533

原创数据挖掘模型介绍之一：相似度模型

1. 相似度模型的应用场景简单的说，相似度模型的应用场景就是，需要找到和某个实体相似的其他实体。比如：（1）商铺选址：某公司要在新城市开新的店铺，需要选址，可以使用相似度模型，找到和现有市场中表现好的商铺地址相似的地点；（2）广告宣传：其实和商铺选址类似，要选择一个好的宣传地点，可以使用相似度模型，找到和现有最好的宣传地点最相似的地点；（3）个性化推荐：这是现在互联网领域，尤其

2014-02-17 16:45:30 17765 1

一些杂七杂八的想法