6 lishangyin88

尚未进行身份认证

我要认证

多一些坚持。

等级
TA的排名 3w+

分箱合并的标准

数据如下图所示,当bad_rate为0时,与最小的非0的bad_rate行合并。即home_ownership 取NONE和取MORTGAGE的情况。 regroup = regroup.sort_values(by='bad_rate',ascending=False)# 先进行排序regroup.index = range(regroup.shape[0])#重新调整序号。这个方法...

2018-11-20 14:26:40

dataframe 判断是否为空的解决方式,即判断是否为NAN

利用pd.read_table 读出来的数据,如果存在空值的,补充为-1。若x是dataframe中emp_length列里面的其中一个值,判断其是否为空用什么?x is None?   没起作用len(x)==0?   提示float 没有lennp.isnull(x)?  提示不可用到底用哪个? np.nan !!def careeyear(x):    if x...

2018-10-24 17:27:53

python中 dataframe 、ndarry 、list 数据类型之间的转化

2018-10-10 17:22:02

根据基尼指数生成决策树代码

根据基尼指数生成决策树时,要注意几个问题:一、需要判断数据是分类型的还是数值型的,对分类型的拆分子集需判断值是否相等,而对数值型的则需要先计算出区分的值,比较数据与区分值的大小进行拆分。二、如果是分类型还要注意一个问题,因为基尼指数生成的都是二叉树。所以当类别大于3时,情况会比较多,比如特征的取值有4个的话,需要分成6类。但本例子,是按照特征取值最多为3类的情况来写的。如果类别多于3个,还...

2018-09-12 16:23:52

CART 决策树的计算方法

数据集: 序号 是否有房 婚姻状况 年收入 是否拖欠贷款 1 是 单身 12.5 否 2 否 已婚 10 ...

2018-08-28 11:38:16

手敲决策树---ID3代码

学习算法的最好方式,莫过于亲手敲,程序跑一遍。也许代码不精炼,也许比较费时。但学习这事情,如果怕麻烦还怎么学的好。本次手敲的代码是按照信息增益的大小,来决定决策树的分支。这里先说几个关键的点:1.决策树的每个分支都要用到上一步的计算结果,故采用递归的循环方式。2.要注意递归的终止条件。一是分支的数据里面就只有一种分类,比如二分类的话,返回的结果要么全为是,要么全为否,就需要终止了。二是...

2018-08-21 10:42:36

取并集的函数set.union()的用法

 关键点是set.union()括号内的不能是list格式,必须转为set的格式。a=[1,2,3,23]b=[2,3,4]set(a)&set(b){2, 3}set(a)|set(b){1, 2, 3, 4}set.union(*[{1,2,3,23},{2,3,4}])#正常出结果{1, 2, 3, 4, 23}set.union(*[[1,2,3,23...

2018-08-10 17:49:18

matplot 画条形图

import matplotlib.pyplot as pltimport numpy as npimport pandas as pdtz_counts[:10]America/New_York 1251Unknown 521America/Chicago 400America/Los_Angeles 382America/...

2018-06-12 22:24:33

Python 立体图形的画法(一)

1.条形图的立体画法import random import numpy as npimport matplotlib as mplimport matplotlib.pyplot as plt import matplotlib.dates as mdatesmpl.rcParams['font.size']=10# 坐标轴标签的字体大小fig=plt.figure(figsize=...

2018-06-08 17:48:31

python等高线图的画法

等高线图的画法。关键点:显示哪些等高线要清楚,知道如何显示等高线的图例和数值。import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.axes_grid1 import ImageGridimport matplotlib as mpldef process_signals(x,y): return (...

2018-06-03 22:52:44

python 绘图的图线阴影的添加

方法一:标准方法主要是利用了位移函数matpltlib.transforms.ScaledTransformation(xtr,ytr,figure.dpi_scale_trans)。这个只是写明了调整幅度。还要用原来的坐标系axes.transData与之相加,得到了最终的偏移坐标。import numpy as npimport pandas as pdimport matplotlib....

2018-05-21 22:57:45

python 作图中的图标题title 和坐标轴标签的axes的调整

这里主要是调整title和坐标轴的样式。要注意抓住设定的套路和规律,不要被复杂的外表所迷惑。import matplotlib.pyplot as pltimport numpy as npfrom matplotlib import patheffectsimport numpy as np%matplotlib inlinedata=np.random.rand(70)fontsi...

2018-05-11 23:26:30

python直方图/饼图/散点图的画法

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inlinefrom matplotlib.pyplot import *1.直方图x=np.arange(0,10,1)y=np.log(x)xe=0.1*np.abs(np.random.randn(len(y)))p...

2018-05-10 23:12:53

python绘图之图例的添加和坐标轴的移动大法

1.图例的添加plt.legend(bbox_to_anchor=(0,1.02,1,0),ncol=2,loc=0,mode='expand',borderaxespad=0)import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib#在调整坐标轴的标签时用到%matplotlib i...

2018-05-09 22:50:51

python 基础绘图(关于随时间序列变动的图的画法)

画这种图要考虑两点:1.如何生成连续的时间轴2.如何在图中适当的显示轴标签的样式和数量。import matplotlib.pyplot as pltimport matplotlib as mplimport numpy as np% matplotlib inlineimport datetime#这个包很关键#设定开始和结束时间start=datetime.datetime(20...

2018-05-06 22:48:06

RandomForestClassifier随机森林补充缺失值(以TItanic数据集为例)

上一篇是分类填补缺失值,用了循环函数。这此呢,我们利用随机森林补充缺失数据。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.ensemble import RandomForestClassifierdf=pd.read_csv('E:\\Users\\Administrat...

2018-05-03 23:27:14

Python 缺失值的填补(以TItanic数据集为例)

一、普通青年的缺失值填补(自己举的例子)raw=[1,2,3,np.nan,4,6,5,8]sds=[3,2,7,5,4,8,3,5]raw1=pd.DataFrame([raw,sds],columns=list('abcdefgh'))raw1.set_index=list('AB')raw1.iloc[1,4]=np.nanraw1.iloc[1,3]=np.nanraw1 a ...

2018-05-02 16:27:08

python 分组统计图(以Titanic数据集为例)

#导入所需的包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt% matplotlib inline#读取Titanic数据data=pd.read_csv('E:\\Users\\Administrator\\Desktop\\pythonNotebook\\train.csv',index_col...

2018-05-01 13:27:07

类的定义、使用与继承

#关于类,个人的理解就是,类像一个包,而包里面又可以定义多个函数。类里面的函数在定义时,一定不要忘记self,尽管self 本身并不能当作一个参数,就当它是规则所要求吧。1.定义类的方法:class Ball: def setName(self,name):#其实里面只有name一个参数,self不算参数的,但又必不可少 self.mm=name#赋值,赋给self.m...

2018-03-20 21:21:54

anaconda中安装新的包

下载anaconda后,如果后续希望安装新的包该如何做呢?使用     !+pip install +包名!pip install EasyGui#注意不要忘记加上‘!’。在cmd里面是不必要添加的,而在anaconda之中是不能忘记写的。#输出结果:Collecting EasyGui Downloading easygui-0.98.1-py2.py3-none-any.whl (90...

2018-03-20 10:31:04

查看更多

勋章 我的勋章
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得