4 Cherzhoucheer

尚未进行身份认证

我要认证

道阻且长

等级
TA的排名 3w+

机器学习可解释性方法Lime小结

机器学习相对简单线性模型有更优异的效果,但是其复杂的原理让模型并不容易理解和解释。可解释的方法有很多众,大概可以分为全局解释和局部解释,以及与模型适配和与模型无关的方法,本文对一种局部的、与模型无关的方法Lime进行介绍,尝试从原理并结合python的Lime工具包进行梳理。原理介绍Lime(Local Interpretable Model-Agnostic Explanations)是使用训练的局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型,取关注的实例样本,在其附近进行扰动生成新

2020-08-24 16:57:45

二代征信报告解读及信贷风控中的应用

今年一月中旬起,征信中心面向社会公众和金融机构提供二代格式信用报告查询服务,相比一代征信系统,二代征信系统又做了哪些升级?提供的信用报告又有哪些变化?相对于一代征信报告,大家更加急切地想知道二代征信报告内容,因此这里对一代和二代征信进行详细的对比解读。二代征信报告解读征信系统与一代征信系统相比,二代征信系统在信息采集、产品加工、技术架构和安全防护方面,均进行了优化改进。一是优化丰富信息内容,更为全面、准确地反映信息主体信用状况;二是优化信用报告展示形式 和生成机制,提升信用报告的易读性...

2020-08-04 22:48:29

特征重要性与shap值

在模型的训练过程中,往往会需求更加优异的模型性能指标如准确率、召回等,但在实际生产中,随着模型上线使用产生衰减,又需要快速定位问题进行修复,因此了解模型如何运作、哪些特征起到了关键作用有着重要意义。同时,可解释的模型能够让业务方也就是模型使用者,能够更加信任和熟悉模型的决策过程。尤其在风控领域,基于金融机构的监管层要求以及信贷业务的稳健发展方面,都需要在信贷业务流程中部署的风控模型具有良好的解释性。机器学习效果往往会优于传统的评分卡模型,相对于可以对每个入模变量赋予权重的逻辑回归方法来说,机器学习的训练

2020-07-23 19:42:30

基于风控角度的个人征信报告解读

征信数据背景构建征信体系对扩展消费信贷业务的起到积极作用,征信数据为借贷机构提供借款人的基本信用画像,从而作出可靠的信贷决策。征信数据的相关链路包括,上游的数据生产者(各银行、消金公司等金融机构上报)、中游的征信机构(整合数据输出征信报告)及下游的征信信息使用者(个人或企业查询征信报告)。信贷机构,即征信信息使用者,在查询到申请人的信用报告中,需要解析得到详细字段,并从中直接或者间接得到征信变量,获取用户不同维度画像。因此需要对征信报告进行解析,并从征信报告中提取信息构建征信特征,从多种维.

2020-06-18 14:49:17

jupyter配置——添加目录

jupyter超实用功能:在做统计分析或者建模过程中,需要来回查看前后代码和中间步骤结果,目录栏功能能够快速定位到位置,能够大大提升工作效率。这里记录下安装过程,需要时方便查找。1.第一步, 安装 Jupyter Notebook建议直接安装anaconda2.第二步, 安装Jupyter Notebook extensionsconda install -c conda-forge jupyter_contrib_nbextensions3.第三步, 开启toc2插件..

2020-05-16 21:55:19

【CS224n课程笔记】Lecture 01 Introduction and Word Vectors

word vectors词向量有时被称为词嵌入word embeddings或词表示word representations,Word2vec本质上是一个学习单词向量的框架,为每个单词构建一个密集的向量,使其与出现在相似上下文中的单词向量相似。例如, ...

2020-03-01 19:00:11

【统计学习方法笔记】第一章统计学习概论

1.1统计学习统计学习包括:监督学习,非监督学习,半监督学习,强化学习,本书主要讨论监督学习。1.2 统计学习的分类重点为监督学习:监督学习的实现步骤 得到一个有限的训练数据集合; 确定模型的假设空间,也就是所有的备选模型; 确定模型选择的准则,即学习的策略; 实现求解最优模型的算法; 通过学习方法选择最优模型; 利用学习...

2020-02-29 20:43:55

python re.compile()和findall() sub

https://blog.csdn.net/sjyttkl/article/details/84853000re.compile 函数compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。语法格式为:re.compile(pattern[ , flags])参数: pattern...

2019-12-23 22:21:35

fasttext算法原理及使用

1. FastText原理fastText是一种简单高效的文本表征方法,性能与深度学习比肩。fastText的核心思想就是:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层Softmax分类。主要功能在于:文本分类:有监督学习 词向量表征:无监督学习1.1 模型框架(Model a...

2019-12-21 22:30:17

Python eval()函数

eval() 函数用来执行一个字符串表达式,并返回表达式的值。通常,将字符串的内容表示为表达式时,便需要使用eval() 函数,特别是批量表示变量名或者dataframe内容时。eval(expression[, globals[, locals]])参数expression -- 表达式。 globals -- 变量作用域,全局命名空间,如果被提供,则必须是一个字典对象。...

2019-12-10 20:27:14

jieba 中文分词介绍及使用

目录基本介绍功能及使用1. 分词2. 添加自定义词典2.1 载入词典2.2 调整词典3. 关键词提取3.1 基于 TF-IDF 算法的关键词抽取3.2 基于 TextRank 算法的关键词抽取4. 词性标注5. 并行分词6. kenize:返回词语在原文的起止位置基本介绍支持 3 种分词模式 1)精确模式:将句子最精确的分开,适...

2019-12-09 21:13:09

从词袋到 tf-idf

复习一下文本处理的一些基本概念。词袋:Bag-of-words,基于单词数量统计的 最简单的文本特征表示方法。对于文本数据,词袋可以理解为单词数量的统计列表。文本“it is a puppy and it is extremely cute”具有下图中的词袋表示。原始文本是一个单词序列,但词袋中没有任何序列,它只记录每个单词在文本中出现的次数。n元词袋:(bag-of-n-g...

2019-11-23 23:01:03

python函数参数传递(params, *params, **params)

一般最开始接触也就是最简单的函数参数形如 def fuc(x) ,但是也有复杂的函数参数传递方式,总结一下python的传参方式,先介绍一下参数的基本类型,最后讲到最复杂的(**params)类型。1. 位置参数一个最简单的函数形式,其中x,y就是位置参数:def add_both(x, y): return x+y2. 默认参数最大的好处是能降低调用函数的难度;...

2019-11-05 11:57:26

时间切片特征衍生

在sql中比较容易处理类似“近n个月金额之和/最大值/最小值/平均值” 这样的变量,使用sum(case when date then amount else 0 end) 即可,如果是出差在外只能处理离线数据不能使用数据库时,这个时候就要用python去构造时间切片类的特征。整理了自己之前写过的代码,往往都太笨拙和重复。import pandas as pdimport numpy a...

2019-10-28 20:31:48

LightGBM参数

LightGBM的优势。 更快的训练速度和更高的效率: LightGBM使用基于直方图的算法。例如,它将连续的特征值分桶(buckets)装进离散的箱子(bins),这是的训练过程中变得更快。 更低的内存占用:使用离散的箱子(bins)保存并替换连续值导致更少的内存占用。 更高的准确率(相比于其他任何提升算法) : 它通过leaf-wise分裂方法产生比level-wis...

2019-01-17 00:34:11

表的复用

以前很少用到这种结构,mark一下。题目描述:对所有员工的当前(to_date='9999-01-01')薪水按照salary进行按照1-N的排名,相同salary并列且按照emp_no升序排列CREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` d

2017-09-30 21:00:45

《机器学习实战》之Adaboost

首先抛出问题,如何解决不均衡分类问题?这个问题我觉得应该从原理上和实际调参两个方面来回答,原理部分从adboost入手,实践部分则是sklearn相关参数(这个后面遇到了再补充)。什么是boosting?通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。那么问题又来了,对于提升方法来说,有两个问题需要回答:(1)每一轮如和改变训练样本的权值和概率分布?

2017-09-30 16:57:37

LeetCode500. Keyboard Row

Given a List of words, return the words that can be typed using letters of alphabet on only one row's of American keyboard like the image below.【题目】对于输入的单词list,如果单词的每个字母都是在键盘上的一行内,则返回这种单词的list

2017-08-01 21:19:29

LeetCode561. Array Partition I

Given an array of 2n integers, your task is to group these integers into n pairs of integer, say (a1, b1), (a2, b2), ..., (an, bn) which makes sum of min(ai, bi) for all i from 1 to n as large as po

2017-07-31 20:52:41

LeetCode617. Merge Two Binary Trees

Given two binary trees and imagine that when you put one of them to cover the other, some nodes of the two trees are overlapped while the others are not.You need to merge them into a new binary tree

2017-07-31 19:52:09

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。