自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 imputer.fit填充时报错:not supported between instances of ‘str‘ and ‘float‘

但是,如果我单独imputer.fit()bool类型这一列,就不会报错。包含了bool类型运行正常,不会报错,但是我如果fit所有列就会失败。将其修正为int类型之后,就可以正常运行。存在一列bool类型。

2024-04-17 09:36:44 181

原创 关于python docx的一部分简单应用。

这是由于默认是自适应调整列宽,因此加入以下代码,取消自适应调整列宽。默认是True,但是我看其他很多里面也没有提到,不知道是不是版本的问题。由于表格数据较长的话,一行无法保留,如果用代码自适应的话,生成可能很糟糕,其他数据都是一行,而单独一列单元格内好几行。解决方法:打开原word文档,手动添加一个表格并且保存退出。此时word文档可以进行添加有边框含格式的表格操作。原因可能就是word只有你添加了对应的格式,相应的代码才会有效。最简单的格式也不起作用,生成的永远都是无边框表格;1、添加表格设定表格格式。

2023-05-19 14:10:38 128

原创 mysql 日期、时间函数汇总

1、获得当前时间 now(),CURRENT_DATE(),CURRENT_TIME(),CURRENT_TIMESTAMP()select now(), CURRENT_DATE(),CURRENT_TIME(),CURRENT_TIMESTAMP()2021-06-16 14:23:43 2021-06-16 14:23:43 2021-06-16 14:23:432、日期转字符串格式,字符串转日期格式date_format(now(),'%Y%m%d %H%i%s')#日期转字符串2

2021-06-16 14:53:27 175

原创 方差、标准差、均方误差、均方根误差

1、方差,与均值之差的平方和与数量比,衡量数据的离散程度;2、标准差,与均值之差的平方和与数量比的平方根,衡量数据的离散程度,方差的平方导致量纲与源数据不同;3、均方误差,预测值与真实值的平方和与数量比,衡量预测的偏差程度。4、均方根误差,预测值与真实值的平方和与数量比的平方根,衡量预测的偏差程度...

2021-06-08 18:02:45 1015

原创 过拟合小结

1、过拟合的定义过拟合即过度学习,在当前数据集适应力较强,但是在新的数据集中表现性差,即泛化能力弱,鲁棒性差;过拟合无法避免,只能缓解;2、过拟合的原因模型复杂度与数据量的相对比例;当模型越复杂,对特征过度利用,数据量越少越容易过拟合。例子:决策树没有剪枝的话很容易过拟合,对每一个特征都尽可能的利用,可能很多叶子节点最后只有个别样本,这就是过拟合;3、过拟合的解决方法1、降低模型复杂度(避免对特征过度利用)1)、简化模型2)、正则化通过正则化,在损失函数中,增加W变大的惩罚;3)、模

2021-06-02 16:23:42 366

原创 数据不平衡的一点总结

#以二分类为例1、什么是数据不平衡 数据不平衡往往指的是数据集中分类不平衡,A类与B类占比相差较大。这时候的模型训练出来往往会偏向比例多的一类2、数据处理方法1)、增加低比例样本; 1、对低比例进行过采样 2、对低比例类,选取k点,以其均值或众数进行数据生成 3、smote算法2)、减少高比例样本 1、欠采样3)、算法 1、修改算法的阈值,比如将比例多的类别阈值划分到0.7;3、不平衡数据评价标准 不能使用准确率,因为即使模型全部预测占比多的类别,准确率也会比较高; 建

2021-06-01 18:01:14 221

原创 sklearn fit()、 transform、 fit_transform()函数区别

1、在数据预处理阶段,利用sklearn StandardScaler类,fit()函数是对数据样本的基本属性进行计算,例如:均值、方差等等当初始化一个StandardScaler类之后ss = StandardScaler()dir(ss)Out[11]: ['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute

2021-05-13 16:07:38 466

原创 西瓜书第二章课后习题

2.1 数据集包含 1000 个样本,其中 500 个正例、 500 个反例,将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估,估算有多少种划分方式。答:(C350、500)**22.2 数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。10折交叉验证按照比例取样例,则10折交叉验证互斥,每次挑选的9个训练集都是正返利各一半,

2021-03-19 17:27:10 1013

原创 python 发送支持多人包含html页面、添加附件的邮件

```pythonfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.base import MIMEBasefrom email import encodersimport email as emlimport smtplib as smpdef _format_addr(s): name, addr = eml.utils.parsea.

2021-02-19 13:49:13 146

原创 风控催收的几个概念 ,入催率、出催率

*入催率($):当月应还但未还账户剩余本金/当月应还账户剩余本金*出催率($):当月出催账户剩余本金/当月总在催账户剩余本金1、入催率,分子:当月应还但未还账户剩余本金分母:当月应还账户剩余本金例如计算2020年10月份的入催率计算方法,先把还款记录回溯到2020年10月份末,即还款日期小于11月的所有历史还款拼接还款计划表。首先筛选分母,1)、找出第一期还款日期小于11月的订单,2)、找出这部分订单,并且还款日期大于10月的所有期数,既是当月应还账户剩余本金。筛选分子1)、首先筛选分

2020-12-23 10:19:39 9428 4

原创 python selenium 彻底清除文本框内容的方法

python selenium 彻底清除文本框内容python selenium 彻底清除文本框内容方法一from selenium import webdriverimport selenium.webdriver.common.keys as keyselement=driver.by....#后面省略,反正是一个文本框element.clear()但是有时候文本框比较特殊,利用clear函数会有缺陷,文本框默认存在一个初始值,导致没办法真正清空,解决方法见法二。方法二from s

2020-12-03 10:41:32 7783 3

原创 对接三方数据公司注意事项

1、数据公司资质如何,有何背景。2、公司产品种类是否需要。3、了解产品,包括,数据来源、数据合规性、数据覆盖度等等。4、走保密协议。5、测试。6、对接

2020-10-21 14:07:34 660

原创 概率论与数理统计加法公式

加法公式:继续扩展到三个事件:p(AUBUC)=P(A)+P(BUC)-P(A(BUC))=P(A)+P(B)+P(C)-P(BC)-P(ABUBC)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)主要用了集合运算的分配律。

2020-10-16 16:19:59 4066 1

原创 Kaggle竞赛,初级入门,泰坦尼克号

Kaggle竞赛,初级入门,泰坦尼克号kaggle泰坦尼克号一、训练数据探索1、观察数据维度import pandas as pdimport pandas_profilingfrom autoviz.AutoViz_Class import AutoViz_Classdata=pd.read_csv('.\\train.csv')维度:‘PassengerId’, ‘Survived’, ‘Pclass’, ‘Name’, ‘Sex’, ‘Age’, ‘SibSp’,‘Parch’,

2020-09-24 11:01:12 131

原创 数据分箱概念与python实现

数据分箱指的是将连续数据离散化。离散化对异常值具有鲁棒性,运算更快方便存储,而且特征可变性更强方便迭代,特征离散后的模型更加稳定。在这里主要介绍卡方分箱:1.先确定最终分几个箱,也就是最后分几个离散值。2.如果变量样本大于100,那么先等距的划分为100箱。3.计算每一对相邻箱间的卡方值4.将卡方值最小的两个区间合并,一直重复3-4直到满足最终分箱个数。...

2019-11-05 10:32:00 1031

原创 统计学变量的相关性检验

相关性反应的是变量之间的变换趋势和程度。范围在-1,+1之间,正值为正相关,负值为负相关,在样本数量充足的情况下,0即意味着两个变量是完全独立的。1.皮尔森系数(peaarson)皮尔森系数是利用协方差与变量标准差乘积之比。所以两个变量的标准差不能为0,即每个变量对于所有样本的值不能相同,即变量X不能是[1,1,1,1,1]这种类型.当皮尔逊相关系数通常用r或ρ表示,度量两...

2019-11-05 08:15:04 3569

原创 如何进行规范性爬虫(笔记)

最近多家第三方大数据机构被查,起因是非法爬取并出售客户金融隐私数据。主要是为了整治套路贷和暴力催收的数据源头。基于法律规定和近期执法背景,理清大数据爬虫的合规边界和红线。数据爬取行为分为“企业与用户、企业与第三方平台”两个场景,数据交易行为分为“数据提供方企业忽和数据接收方企业”;两个维度。在数据产业链上下游中,企业咋爱恋孤单,从参与角色分既可以是数据提供方也可以是数据接收方。...

2019-11-01 16:45:10 324

原创 消费金融产品风控入门

1.背景 当前社会消费金融优质客户集中于头部平台手中,中小型平台获得次级客户资源,最差的客户资源即违约风险最高的群体资源则由劣质平台承包。而客户群体质量越低,平台为了保障利润所需求的利率也越高。传统的个人信贷业务主要是通过用户金融画像:画像由借款人身份证信息,收入信息,征信信息,其他借贷信息等身份,在加上白名单/黑名单,年龄限制,多头借贷限制(不允许同时借贷的平台数量超过限制),借贷金额限制等...

2019-11-01 14:37:47 448

原创 python 裁剪图片中心区域并提取颜色矩

from PIL import Imageimport numpy as npimport osimport pandas as pd#处理图像,返回裁剪中心区域的图像的rgb三通道矩阵。def getimage(path): img=Image.open(path) M,N=img.size print(M,N) r,g,b=img.split() ...

2019-10-09 10:08:19 2059

原创 利用concat来合并数据

concat原函数参数pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True)objs属性objs即是合并的对象列表。pd.concat([left,right...

2019-10-08 19:08:26 753

原创 数据聚类离散化

通过聚类##import pandas as pdfrom sklearn.cluster import KMeans#倒入k均值算法data=pd.read_excel('../data/data.xls')k=4#聚类算法分类数print(data.columns)m='A'result=pd.DataFrame()for i in data.columns[:6]: ...

2019-10-08 13:12:25 1978

原创 数据预处理环节

数据挖掘中,海量的原始数据存在着大量不完整(缺失值)、不一致、有一场的数据,这会严重影响建模的效率和准确客观性,所以进行数据预处理尤其重要。数据预处理包括:数据清洗、集成、转换、规约操作。1.数据清洗数据清洗主要是删除原始数据集中的无关数据。重复数据。平滑噪声数据,筛选掉与挖掘主题无关的数据,处理确实值。异常值等。1.1 缺失值处理方法分为三类:删除、插补、不处理1.2 异常值处理、异...

2019-10-05 13:37:08 1122

原创 python 拉格朗日插值法

python拉格朗日插值法拉格朗日插值法理论python实现拉格朗日插值法理论根据数学知识可知,对于平面上已知的n个点们可以找到一个n-1次多项式y=a0+a1x+…+an-1x**n-1.python实现```pythonimport pandas as pdfrom scipy.interpolate import lagrange#拉格朗日差值函数data=pd.read_...

2019-10-02 13:55:21 1031

原创 利润评分

1.利润评分要求新建的模型不仅能够评估风险,还能够评估利润。其中细节包括动态模型如何评估购买其他金融产品,转移到其他贷款机构和提前贷款的可能性...

2019-10-01 07:18:10 275

原创 简单粗暴的理解梯度下降

先来理解理解什么是梯度。梯度即在微积分里面,对于多元函数参数求偏导数,把求得的各个参数的偏导数以向量的形式写出来,这就是梯度。这个梯度的意义就在于反应的是当前增加最快的方向,沿着当前梯度向量方向就更容易找到最大值,而反过来利用-f(x)求得的梯度向量就可以更容易得到f(x)的最小值,也就是降低最快的方向。而在一元函数中只需要一个+或-梯度就可以得到增加最快的方向,但在多元函数中,随...

2019-09-29 07:18:27 55

原创 方差,标准差,协方差

1.方差与标准差都是用于衡量数据的离散程度,方差的层次是数据平方,而标准差则和数据同一量纲。标准差和方差都是用来衡量样本离散程度的量,那么为什么要有标准差呢? 因为方差和样本的量纲不一样。换句话说不在一个层次,怎么理解这个层次,从公式来看方差是样本和均值差的平方和的平均。这里有一个平方运算,这是导致量纲不在一个层次的原因。而标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更...

2019-09-27 10:18:38 734

原创 pandas模块学习第三篇——缺失值处理

1.缺失值处理。inplace参数为True则取代当前df,否则返回一个执行函数的df的复制。2.但是nan填充值具体是什么呢,可以根据现有的数据经过计算来选择,更符合当前数据的规律。iloc,即index locate 用index索引进行定位,所以参数是整型,如:df.iloc[10:20, 3:5]loc,则可以使用column名和inde...

2019-09-27 10:17:29 202

原创 pandas模块学习第二篇——DataFrame

1.DataFrame的创建1。1通过二维数组创建1.2 通过字典创建(字典中的值需要至少一个有数组形式,否则会被认定为Series)2.DataFrame数据获取DataFRAME和Series一样都是有索引对象的,index可以通过Series[索引名]和DataFrame[索引名,索引名]获取数据,也可以对index进行重新赋值rename方法可以利用字典修改单...

2019-09-26 19:02:37 82

原创 pandas模块学习笔记

1.pandas基本数据结构pandas有两种基本的数据结构:Series,DataFrame1.1:Series:是一种根据一维数组创建的对象,由一为数组和一组索引组成。并且索引值是可以重复的。1.2:DataFrame:是一个表格型数据结构,一维数组不能够直接使用,需要先将自身利用reshape(-1,1)转变为二维数组方可使用。DataFrame可以看作是Series的聚合体,比...

2019-09-26 18:28:32 110

原创 大数值。

基本的整数和浮点数,尤其是浮点数精度达不到需求,此时可以使用java.math包的BigInteger和BigDecimal。能实现任意精度的整数和浮点数运算。但是不能直接用算术运算符处理,而是需要使用类中自带的add和multiply方法。可以使用valueOf()方法将普通的整数和浮点数转化为对应的Big形式...

2019-08-01 13:18:52 232

原创 java精度损失

关于精度损失的原理可以很简单的讲,首先一个正整数在计算机中表示使用01010形式表示的,浮点数也不例外。    比如11,11除以2等于5余1         5除以2等于2余1         2除以2等于1余0         1除以2等于0余1所以正整数可以完整地表述出来。但是小数,0.5使用二进制表示0.1,如果是0.990.99*2——10.98*2—...

2019-07-29 21:51:07 355

原创 Tensorflow:sess.run():参数 feed_dict

feed_dict参数的作用是替换图中的某个tensor的值。例如:a = tf.add(2, 5)b = tf.multiply(a, 3)with tf.Session() as sess: sess.run(b)此时b=21但是如果 replace_dict = {a: 15} sess.run(b, feed_dict = replace_dict)...

2019-04-01 22:57:37 1787

原创 tensorflow简单教程,及session的使用(实现一个计数器)

import tensorflow as tfstate = tf.Variable(0, name="counter")# 创建一个 op, 其作用是使 state 增加 1one = tf.constant(1)new_value = tf.add(state, one)new_value1=tf.add(new_value,one)update=tf.assign(stat...

2019-03-30 17:45:13 421

原创 python 大整数乘法

大整数乘法的实现重点在于,分开来一位一位的计算,第i位和第j位相乘,就放在i+j-1和i+j位上。def multy(n1,n2): n1=str(n1) n2=str(n2) n3=[] for i in range(len(n1+n2)): n3.append(0) for i2 in range(len(n1)): ...

2019-03-23 14:06:05 2216

原创 tcp三次握手和四次分手

三次握手:第一次握手: 客户端想服务器端发送链接请求报文段,syn位置为1。sequence number=x;然后客户端进入syn—-send阶段,等待回应第二次握手:服务器端接收到了客户端的请求报文段,需要确认这个请求,令knowledgement number=x+1,ack=1;与此同时,还要发送请求信息,syn=1,sequence number=y;还要将它们放到一个报文段即s...

2019-03-22 23:00:59 261

原创 osi七层模型的主要功能

应用层:用户接口:应用层是用户与网络,以及应用程序与网络间的直接接口,使得用户能够与网络进行交互式联系。实现各种服务:该层具有的各种应用程序可以完成和实现用户请求的各种服务。表示层:表示层(Presentation Layer)是OSI模型的第六层,它对来自应用层的命令和数据进行解释,对各种语法赋予相应的含义,并按照一定的格式传送给会话层。其主要功能是“处理用户信息的表示问题,如编码、...

2019-03-22 19:43:22 2182

原创 python copy模块复制

copy模块的copy方法可以复制任何对象和其包含的任何引用,但不复制内嵌对象,但是内嵌对象并不会复制,我们称其为浅复制在绝大多数情况,我们需要的是完全复制,所以还有一个深复制:deepcopy方法...

2019-03-21 19:19:20 378

原创 python MD5文件内容检测

def chick_md5(file): md5 = hashlib.md5() with open(file, 'rb') as f: while True: content = f.read(8192) if content: ...

2019-03-21 17:22:30 256

原创 python 文件

1.读和写fout = open('output.txt','w')如果有该文件则清空旧数据重新开始没有则新建一个open返回的是一个文件对象,提供操作文件的方法。其中write方法可以将数据写入文本中fout.write(line1)这个方法有一个返回值,返回写入的字符数目。文件对象会记录写到哪里,所以当再次调用write方法,他会在结尾处添加新的数据。当写入完毕后应...

2019-03-20 17:48:30 75

原创 python笔试题

装饰器(什么是AOP/面向切面编程)、 迭代器与生成器的区别什么 Python代码执行原理 Python的int是怎么实现的 解释Python的对象 如何自己实现一个字典 什么是GIL、为什么要加GIL、如何理解Python多线程 什么是协程 Python的IO多路复用是怎么实现的 什么是上下文管理器 你知道右加么(__radd__) 什么是闭包 python中一般的...

2019-03-15 21:47:35 245

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除