自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (3)
  • 收藏
  • 关注

原创 获取np数组前N大值索引

较新的 NumPy 版本(1.8 及更高版本)为此有一个名为argpartition的函数。 要获得四个最大元素的索引,请执行>>> a = np.array([9, 4, 4, 3, 3, 9, 0, 4, 6, 0])>>> aarray([9, 4, 4, 3, 3, 9, 0, 4, 6, 0])>>> ind = np.argpartition(a, -4)[-4:]>>> indarray([1, 5, 8,

2021-10-08 16:22:50 1089

原创 pandas中cumsum的用法

看了网上流传的讲解,太多雷同和错误,自己尝试了一下,做个记录:1.首先定义一个df,包含两列2.根据class列进行分组后,统计score列的累积值df['result']=df.groupby['class']['score'].cumsum()3.结果4.总结网上的df['score'].groupby['class']cumsum()写法会报错,应该是新版本的问题吧...

2021-08-25 11:41:33 1003

原创 银行借贷评分卡项目

一、数据预处理1、读入数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata=pd.read_csv(r'rankingcard.csv',index_col=0)data.head()看一下冰山一角的真实数据,像年龄,收入这样连续型的数据,肯定是需要先做个分箱操作的(先提一下)。2 、简单的预处理去重 重置索引 填补缺失值这里家庭成员数(NumberOfDependen

2020-11-27 23:48:24 868

原创 置信度

所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度。概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。向左转|向右转扩展资...

2019-12-31 15:19:25 8723

转载 mnist实战笔记了解官方mnist数据格式

我们都知道tensorflow自带的mnist库,那么这个库里面的文件是以什么形式保存的呢?我们该怎么把mnist里面数据转化成图像呢?首先看mnist数据格式from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("MNIST_data/", one_hot=Tr...

2019-06-14 13:58:05 647

转载 简单的交叉熵损失函数,你真的懂了吗?

说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:L=−[ylogŷ+(1−y)log(1−ŷ)]我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答...

2019-06-12 18:26:15 639 1

转载 LR的故事

写作计划:线性模型LR(没有考虑特征间的关联)——>LR +多项式模型(特征组合,不适用于特征稀疏场景,泛化能力弱)——>FM(适用于稀疏特征场景*,泛化能力强)——>FFM【省去零值特征,提高FFM模型训练和预测的速度,这也是稀疏样本采用FFM的显著优势】0.前言逻辑回归(LR,Logistic Regression)是传统机器学习中的一种分类模型,由于LR算法...

2019-06-12 15:58:12 319

转载 python中的路径问题,“\”引起的问题

print('C:\users\desktop')  出现这个报错:SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape  “\”在python中表示转义,而”\”打算将u转义为有意义的符号,而”\”并未能如愿...

2019-03-11 20:56:18 458

转载 LSTM原理及实现

转载:https://blog.csdn.net/gzj_1101/article/details/79376798LSTM网络long short term memory,即我们所称呼的LSTM,是为了解决长期以来问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。LSTM 同样是这...

2019-03-01 16:43:43 334

转载 连续特征如何离散化,为什么要离散化,常用于逻辑回归模型

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的快速迭代。(离散...

2018-08-10 14:34:23 2813

转载 XGBoost-Python完全调参指南-参数解释篇

在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost in Python>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parame...

2018-07-08 00:44:46 197

转载 我所理解的协方差矩阵

1.前言看论文的时候又看到了协方差矩阵这个破东西,以前看图像处理的书籍的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来。2.拼出身—统计学的定义学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,…,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而...

2018-07-02 19:10:34 236

转载 损失函数、风险函数、经验风险最小化、结构风险最小化

摘自李航《统计学习方法》损失函数损失函数(loss function)或代价函数(cost function)用以度量预测错误的程度。损失函数式f(X)f(X)和yy的非负实值函数,记作L(Y,f(X))L(Y,f(X))。 统计学中常用的损失函数有以下几种:0-1损失函数(0-1 loss function)L(Y,f(X)={1,0,Y≠f(X)Y=f(X)L(Y,f(X)={1,Y≠f(X)...

2018-06-28 15:00:08 898

转载 Maven之(一)Maven是什么

首先,Maven的正确发音是[ˈmevən],而不是“马瘟”以及其他什么瘟。Maven在美国是一个口语化的词语,代表专家、内行的意思,约等于北京话中的老炮儿。一个对Maven比较正式的定义是这么说的:Maven是一个项目管理工具,它包含了一个项目对象模型 (POM:Project Object Model),一组标准集合,一个项目生命周期(Project Lifecycle),一个依赖管理系统(D...

2018-06-27 17:49:31 200

转载 SSE,MSE,RMSE,R-square指标讲解

SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom adjusted...

2018-06-27 09:49:38 1125

转载 逻辑回归(logistic regression)和线性回归(linear regression)

序号逻辑回归线性回归模型归类离散选择法模型回归分析数值类型二元一元或多元公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β)) 逻辑回归Logit模型(Logit model,也译作“评定模型”,“分类评定模型”,又作Logistic regression,“逻辑回归”)是离散选择法模型之一,Logit模型是最早的离散选择模型,也是目前应用最广的模型。是社会学、生物统计学、临床、数量...

2018-06-26 09:17:34 2101

转载 机器学习总结(一):常见的损失函数

这是博主的第一篇博客,mark一下,希望今后能够坚持下去。博主是机器学习菜鸟,将来希望从事机器学习的工作,最近在整理机器学习的知识点,将这些总结的文字以博客的形式展现出来,一是便于复习,二是分享出来希望能对别人会有一点点帮助。最近搜集了一些机器学习常见的面试问题,将问题和回答整理出来,做到有备无患。(随时进行补充)常见的损失函数梯度消失和梯度爆炸产生的原因SVM的原理RF,SVM和NN的优缺点模型...

2018-06-17 18:22:58 335

转载 交叉熵代价函数(损失函数)及其求导推导

本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。 首先,我们二话不说,先放出交叉熵的公式: J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))), 以及J(θ)对参数θ的偏导数(用于诸如梯度下降法等优化算法的参数更新),如下: ∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j 但是在大多论文或...

2018-06-17 16:21:11 646

转载 决策树--信息增益,信息增益比,Geni指数的理解

决策树 是表示基于特征对实例进行分类的树形结构      从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。 决策树算法3要素:特征选择决策树生成决策树剪枝 部分理解: 关于决策树生成决策树的生成过程就是 使用满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程。对于当前数据集D的每一次的划分...

2018-06-14 22:09:14 13167 5

转载 决策树(ID3、C4.5、CART、随机森林)

原文地址:http://blog.csdn.net/gumpeng/article/details/51397737注:本篇文章也是多个博客的综合整理。1、决策树基本问题1.1 定义我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收...

2018-06-14 11:16:24 533

转载 为什么要用交叉验证

本文结构:什么是交叉验证法?为什么用交叉验证法?主要有哪些方法?优缺点?各方法应用举例?什么是交叉验证法?它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。为什么用交叉验证法?交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。主要有哪些方法?1. ...

2018-06-14 10:13:15 607

转载 Boosted Tree

本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖局  兄邀请写这篇文章。作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到...

2018-06-14 01:04:28 247

原创 集成学习—boosting和bagging异同

集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;...

2018-06-13 17:31:46 186

原创 集成学习—boosting和bagging异同

集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;...

2018-06-13 17:13:09 426

转载 ROC与AUC的定义与使用详解

分类模型评估:指标描述Scikit-learn函数Precision精准度from sklearn.metrics import precision_scoreRecall召回率from sklearn.metrics import recall_scoreF1F1值from sklearn.metrics import f1_scoreConfusion Matrix混淆矩阵from sklea...

2018-06-13 16:21:20 209

转载 Regularized Regression: A Bayesian point of view

过拟合谈正则化之前,我们先来看一看过拟合问题。以一维的回归分析为例,如上图,如果用高阶多项式去拟合数据的话,可以使得训练误差EinEin很小,但是在测试集上的误差就可能很大。造成这种现象的原因就是因为我们使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生EinEin(Bias)很低,但EoutEout(Variance)1很高的情形.贝叶斯角度谈正则化解决 overfitting 最...

2018-06-13 08:15:20 333

转载 机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)

1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示。损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项,通常如下所示: θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ...

2018-06-13 07:40:40 453

转载 训练集、验证集和测试集的意义

在有监督的机器学习中,经常会说到训练集(train)、验证集(validation)和测试集(test),这三个集合的区分可能会让人糊涂,特别是,有些读者搞不清楚验证集和测试集有什么区别。1划分如果我们自己已经有了一个大的标注数据集,想要完成一个有监督模型的测试,那么通常使用均匀随机抽样的方式,将数据集划分为训练集、验证集、测试集,这三个集合不能有交集,常见的比例是8:1:1,当然比例是人为的。从...

2018-06-13 00:21:53 395

课堂课件(1-12全课).zip

机器学习-菜菜的sklearn课堂(1-12全课) 附视频地址 完整版视频地址非试听版:https://www.bilibili.com/video/BV1MA411J7wm/?spm_id_from=333.788.b_7265636f5f6c697374.2

2021-02-15

word2vector

nlp自然语言日益火爆,在各个方面都可以实现丰富的功能,努力学习吧,这是一篇很好的硕士论文

2019-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除