我很平凡的-CSDN博客

原创 mrmr 最大关联度-最小冗余度特征选择

在做特征选择时，可能面临两个问题：特征与类别预测有多大相关性，特征之间有多大冗余度。在特征选择中，“最好的m个特征不一定是m个最好的特征”，从相关度与冗余度来看，最好的m个特征是指与分类最相关的特征，但由于最好的m个特征之间可能存在冗余，因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出，特征选择可以分为两个过程：1、怎样度量特征相关性。2、怎样解决特征之间的冗余。 1、互信

2017-03-05 11:05:16 7270

原创随机森林&特征选择

根据模型的生成过程，随机森林可分为Forest-RI、Forest-RC等不同类型。这里对Forest-RI、Forest-RC进行简单的介绍。 1、Forest-RI：在节点分裂时，随机的选择F个特征作为候选分裂特征，然后从这随机选择的F特征中挑选出最佳分裂特征。以此种方式生成决策树，进而得到随机森林。可见F值对模型的性能是有影响的。[1]通过实验讨论了F值对模型效果的影响：Forest-RI

2017-03-04 15:47:39 16283

原创提升树算法

这篇博文主要参考了李航《统计学习方法》与论文：GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE。这里简单记录下对提升树的简单理解。 1、梯度提升算法有关梯度提升算法的细节请参考上述论文，这里直接贴出梯度提升算法的过程：简单谈谈对该算法的理解：第三行表示组合模型为Fm-1时，下一步迭代的最速下降方向。第四行表示弱分类器

2017-02-25 12:04:31 1382

原创推荐系统新用户引导

在推荐系统中，新用户的冷启动是一个比较棘手的问题。如何通过适当的引导策略使新用户产生更多的点击行为，从而能够快速的学习用户的兴趣偏好，是一个具有挑战与实际意义的问题。本文结合短视频推荐场景，罗列一些可能的引导方法。 1、question/answer：该方法通过事先让新用户做出选择进而学习用户的兴趣偏好。例如，用户在第一次登录新浪微博时，系统会让用户选择一些其感兴趣的类目。该方法需要用户参与调查，

2017-01-24 15:33:08 1786 1

原创 Learning from Imbalanced Data 非均衡数据学习问题

本文分什么是非均衡数据、非均衡数据对算法的影响、怎样处理非均衡学习以及非均衡学习评估这四个方面进行叙述。在这里，正例或者星号代表多数类，负例或者圆圈代表少数类。 1、非均衡问题非均衡问题有多重形式：（1）intrinsic：数据固有属性，数据集中的正负样本数目不太可能相等（2）extrinsic：由于传输等外部问题造成的非均衡数据集（3）relativ imbalanced：负例数

2017-01-21 11:56:45 6200 1

原创广告CTR：Decision tree + LR 混合模型

文章指出高质量的用户特征、广告特征以及合适的模型是非常重要的，相比较而言，data freshness 、learning rate schema 与data sampling对效果的提升贡献比较小。 1、EXPERIMENTAL SETUP 实验用的评价指标是Normalized Entropy（NE）和 Calibration，关于这两个指标在此不再赘述 2、PREDICTION

2017-01-15 09:20:53 1661 1

原创机器学习特征工程

本文聊一聊机器学习的大致过程，探讨下机器学习中常见的问题。本文借助了广告CTR预估这条主线，大概流程及内容如图所示：详细参见此博文 1.想特征想特征主要靠一些经验，这些经验可能来源于以前做过的项目、特征选择、特征构建等一些实践或知识。大概的方向是想出的特征要具有区分性。比如现在要预测用户对篮球点击的概率，性别就可以作为一个特征，因为根据我们的常识：男性打篮球的可能性比女性要大。那么就引出

2017-01-07 11:58:34 1807

原创机器学习特征工程特征离散化

如果想深入研究特征离散化，请直接阅读博文最后的英文文献，以免浪费您的时间！一、什么是特征离散化简单的说，就是把连续特征分段，每一段内的原始连续特征无差别的看成同一个新特征二、为什么进行离散化 1、离散化的特征更易于理解 2、离散化的特征能够提高模型准确度，提高运行速度。使得规则或模型更加简洁 3、有些归纳方法比较适于处理离散化特征三、特征离散化方法 1、认识数据数据可以分

2016-12-31 18:54:03 8600 2

原创推荐系统用户画像标签聚类个性化搜索

最近在做短视频推荐，和别的部门配合着做，我们部门做用户画像这一部分。回头看看，我们部门以前做的用户画像只能称之为“所谓的用户画像”。如果一个人不懂用户画像还好指挥来指挥去真的让人无言，不知道其他公司的有没有这样的人儿那，哈哈，扯远了，言归正传。这篇文章只是对文献[1]的一个总结与实践,像我这种才学浅显的人只能照猫画虎了。 1、标签&标签问题用户可以对物品打标签，这些标签存在：（1）标签冗余

2016-12-18 16:51:44 11492 2

原创推荐系统：标签兴趣计算

最近在做一个短视频推荐项目，需要计算出用户对那些标签真正感兴、对哪些标签不感兴趣、对那些标签可能感兴趣。例如，对用户张三而言，感兴趣的标签列表<民谣、历史、音乐、军事、文学>，不感兴趣的标签<周杰伦、好声音、那英>,不能确定是否感兴趣的标签<搞笑、惊悚>。当然，在计算用户对标签的感兴趣程度时要对标签进行预处理，是标签质量有所提升，不要出现大量拼写错误、语义模糊、标签冗余等情况。这里介绍下文献[1]的

2016-12-17 15:18:30 1318

原创推荐系统之标签相关

在推荐系统中，社会化标签越来越重要。标签是用户对物品的偏好的展示，是用户对物品的看法。因此，标签既可以反映用户的偏好，也可以反映物品的特性。然而标签存在像语意不明、噪音等诸多问题。本文把问题缩小，谈谈标签的一些应用。 1、标签之用户画像一个用户的兴趣可以通过一系列标签展现出来，然而，如何通过标签展示用户的兴趣并不简单。（1）出现最多的K个标签展示用户兴趣。该方法简单，然而，由于标签是用户随

2016-12-10 16:49:06 2237 1

原创机器学习过拟合问题

在机器学习的过程中，经常会出现过拟合导致算法性能下降的问题。那么，什么是过拟合，导致过拟合问题的原因与解决过拟合问题的方法都有那些呢？在此，做个简短总结。 1、什么是过拟合欠拟合是指模型没有能够很好的表现数据的结构，而出现的拟合度不高的情况。过拟合是指模型过分的拟合训练样本，但对测试样本预测准确率不高的情况，也就是说模型泛化能力很差。如下图所示： 2、过拟合的原因（1）数据特征的

2016-11-29 18:03:32 1038

原创数据挖掘：属性

数据对数据挖掘是至关重要的，只有充分认识数据才能选择合适的挖掘方法，进而得到不错的挖掘效果。 1、属性与度量[详细内容参考《introduction to data mining》] 属性是对象的特性，它因对象而异，或随时间而变化。测量标度是将数值与符号值与对象属性相关联的规则。属性与属性值是不一样的，例如用户的ID属性用整数表示，ID属性是没有加减操作的，而ID属性值是可以加减的，但这种操作是

2016-11-27 16:34:29 1668

原创机器学习 hard concepts 特征构建(feature construction)

最近在看关于特征构建的文章，在此做下学习记录。接下来的关于特征构建的博文将按[1]的过程进行记录，并在记录的过程中补充涉及特征构建的其他文献。谈到特征构建，我们就会问什么是特征构建、为什么进行特征构建。下面首先回答为什么要做特征构建。1、为什么要进行特征构建首先，对术语进行相关说明。 selective induction (SI)：SI假设具有相似属性的instance具

2016-11-19 16:41:24 3634

原创机器学习&数据挖掘：特征选择之 wrapper approach

在前面简要介绍了特征选择的Filter方法，由于Filter方法还有很多，在此不能一一介绍。Filter方法从原始特征中选择特征子集，用于后续的机器学习算法。由于Filter在特征选择时，没有考虑到所用的机器学习算法模型，可能会导致选择出的特征子集不适合后续的学习算法从而影响性能（这里指准确率）。因此，wrapper方法结合后续的机器学习算法，选择出能使最终的算法达到较高性能的特征子集。wrappe

2016-11-18 16:16:52 15053

原创机器学习&数据挖掘：特征选择之Filter ： Focus Approach

Focus Approach[1]方法是基于穷举搜索的Filter方法，该方法倾向于选择能够区分样本的最小特征子集。Focus Approach特征选择的度量是一致性度量。通俗来说，特征选择的一致性是：给定两个样本，若它们在特征x1与x2的取值一样但这两个样本不属于同一类别，则特征子集{x1，x2}不是最终要选择的特征子集。 Focus Approach的步骤如图所示: 可以看出，Fo

2016-11-14 18:30:47 3094

原创机器学习：特征选择之 Filter ：Relief方法

Relief特征选择方法是一种filter方法。filter方法的过程如下：下面结合论文[1]谈下Relief算法。该算法的流程如下图：其中第一个参数S是训练集，第二个m是S的大小，第三个t为相关判定阈值，0<=t<=1. 1、Relief认为什么样的特征是相关的那，换句话说什么样的特征对类别具有区分性那？以二分类为例，如果一个特征对区分0/1是有帮助的，那么该特征的分布应该不

2016-11-14 16:30:48 6169

原创机器学习特征选择笔记前言

最近学习特征选择，在此记录下学习过程，一是为加强理解，一是为学习交流。本人能力有限，望多多指教。特征选择前言什么是特征选择：本系列学习笔记所说的特征选择是指从已有特征中选择部分特征用以机器学习、数据挖掘，不涉及新特征的构建。特征选择的意义：有很多资料对特征选择的意义作了总结，不在赘述。在此举例说明下特征选择对算法的影响。在某些情况下，不相关特征对c4.5算法影响很大

2016-11-10 16:56:21 928 1