5 菀青

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 16w+

逻辑回归(Logistic回归)

逻辑回归Logit函数h(x)被称为logistic回归模型将线性回归模型的预测值经过非线性的logistic函数转换为(0,1]之间的概率值,因变量取1和0的条件概率分别用h(x)和1-h(x)表示将logistic回归模型还原成线性回归:优势odds,发生比概率值是关于h(X)的函数,即事件发生的概率函数,当某个事件发生时,y=1,h(X)1.最大似然估计为了求解\...

2019-09-28 15:04:00

LASSO回归

逻辑回归添加l2正则的惩罚项,不管怎么缩减,都会保留建模时的所有变量,无法降低模型复杂度。LASSO回归,不重要的回归系数缩减为0。LASSO回归模型的目标函数:使用坐标轴下降法:迭代算法,坐标轴下降法是沿着坐标轴下降,梯度下降是沿着梯度的负方向下降,对于p维参数的可微凸函数J(B)而言,如果存在一点B,使得函数J(B)在每个坐标轴上均达到最小值,则J(B)就是B上的全局最小值。坐标...

2019-09-27 19:23:29

岭回归

岭回归线性回归模型的参数估计公式得到B的前提是矩阵可逆。出现自变量个数多余样本量或者自变量间存在多重共线性,无法根据公式计算回归系数的估计值B。#行列式等于或近似为0,逆矩阵趋于无穷大,回归系数也放大。1.参数求解在线性回归模型的目标函树上添加l2正则项(惩罚项)其中\lambda为非负数,当\lambda=0时,该目标函数就退化为线性回归模型的目标函数,当\lambda趋于正无...

2019-09-18 18:50:38

线性回归预测模型

一元线性回归模型:ε:模型误差项,平衡等号两边值import seaborn as snsincome = pd.read_csv(r'Salary_Date.csv')sns.lmplot(x='YearExperience',y='Salary', data=income,ci=None)plt.show()线性拟合求解:误差项最小,转换为误差平方项最小最小时,偏...

2019-08-09 15:36:30

数据挖掘笔记之数据可视化(多个图表合并)

Prod_Trade.xlsximport numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Fal...

2019-08-01 14:25:31

数据挖掘笔记之数据可视化(热力图)

热力图heatmap(data,vmin,vmax,cmap,center,annot,fmt,annot_kws,linewidth, linecolor,cbar,cbar_kws,square,xticklabels,yticklabels,mask,ax)vmin,vmax:图例最大和最小显示值cmap:热力图填充色center:颜色深浅annot:每个单元显示数值fmt...

2019-07-31 16:38:21

数据挖掘笔记之数据可视化(散点图)

散点图matplotlibscatter(x,y,s,c,marker,cmap,norm,vmin,vmax,alpha,linewidth,edgecolors)s:散点图点的大小,传入数值型c:点的颜色marker:点的形状cmap:某点colormap值norm:数据亮度vmin,vmax:亮度设置alpha:散点透明度iris.csvimport matplot...

2019-07-31 15:58:27

数据挖掘笔记之数据可视化(折线图)

折线图matplotlibplt.plot(x,y,linestyle,color,marker,markersize,markeredgecolor,markerfactcolor, markeredgewidth,label)marker:点形状wechat.xlsx#两种x轴显示间隔日期方法import matplotlib.dates as matespd.to_da...

2019-07-29 17:04:09

数据挖掘笔记之数据可视化(小提琴图)

小提琴图小提琴图由核密度曲线和箱线组合而成一般使用seabornsns.violinplot(x,y,hue,data,order,hue_order,bw,cut,scale,scale_hue,gridsize, width,inner,split,dodge,orient,linewidth,color,palette,saturation,ax)hue:分组order:数...

2019-07-29 10:10:28

数据挖掘笔记之数据可视化(箱线图)

箱线图下四分位:Q1上四分位:Q3数据的下须值:Q1-1.5IQR上须值:Q3+1.5IQRmatplotlibplt.boxplot(x,north,sym,vert,whis,positions,widths,path_artist,meanline,showmeans, showcaps,showbox,showfliers,boxprops,labels,flierspr...

2019-07-29 09:53:54

数据挖掘笔记之数据可视化(直方图)

直方图matplotlibplt.hist(x,bins,range,normed,weight,cumulative,bottom,histtype,align, orientation,rwidth,log,color,label,stacked)bins:条形个数range:上下边界normed:频数转为频率cumulative:计数累计bottom:基准线histty...

2019-07-28 15:55:40

数据挖掘笔记之数据可视化(条形图)

条形图matplotlibimport matplotlib as pltplt.bar(left,height,width,bottom,color,edgecolor,linewidth,tick_label, xerr,yerr,label,ecolor,align,log,**kwargs)left:x轴上的刻度值height:y轴上的刻度width:条形图宽度默认0.8...

2019-07-27 17:04:51

数据挖掘之数据可视化(饼图)

饼图matplotlibimport matplotlib as pltplt.pie(x,explode,labels,colors,autopct,pctdistance,shadow,labeldistance,startangle,radius,counterclock,wedgeprops,textprops,center,frame)explode:突出显示autopct...

2019-07-27 13:45:13

数据挖掘笔记之表处理

透视表diamonds.csv透视表pd.pivot_table(data,values,index,columns,aggfunc,fill_value,margins,dropna,margins_name)values:拉入统计项的字段index:拉入行标签columns:拉入列标签aggfunc:统计函数fill_values:填充缺失值margins:显示总计值...

2019-07-27 08:39:28

数据挖掘笔记之简单数据清洗

判断数据是否有重复值any(df.deplicated())#any函数:在多个条件判断中,只要有一个条件为True,any的结果为True。删除重复项df.drop_deplicates(inplace=True)缺失值删除法:比例小于5%或大于85%替换法:连续变量使用均值和中位数,离散使用众数插补法:回归插补,K邻近插补,拉格朗日插补判断是否有缺失值any(df.is...

2019-07-26 16:33:54

数据挖掘笔记之Pandas

Pandas索引方式:ser = pd.Series([1,2,3,4])ser[[0,1]]读取txt,csv:pd.read_table(filepath,sep,header,names,index_col,usecols,dtype,converters,skiprows, skipfooter,nrows,na_values,skip_blank_lines,parse_...

2019-07-26 10:48:30

数据挖掘笔记之Numpy

数组np.array(((1,2))) #二维数组arr[1,2] #取第二行、第三列的元素arr[np.ix_([0,1],[1,2])] #取第一二行和第二三行列np.genfromtxt(fname,dtype,comments,delimiter,skip_header,skip_footer,converters,missing_values,filling_valu...

2019-07-25 10:35:29

自定义函数的参数

自定义函数的几种参数:①必选参数②默认参数③可变参数#任意个数据和def adds(*args): print(args) s = sum(args) return s*args:可变参数,接纳任意个数的实参,捆绑为元组。④关键字参数#组装到一个字典中def info_collection(tel,birthday,**kargs): user_info = {} u...

2019-07-24 21:22:51

数据挖掘笔记之基本数据格式(列表和字典)

列表列表的索引方式:①切片索引[start:end:step]包括start,不包括end。无法取得最后一个元素。②无限索引[::step]列表基本语法:list.append(1) #只能添加一个元素list.extend([]) #列表添加list.pop() #删除末尾元素list.pop(1) #删除指定位置list.remove() #删除指定元素lis...

2019-07-23 21:49:16

爬虫学习笔记

URL统一资源定位符,是对互联网上得到的资源位置和访问方法的表示,是网上标准资源的地址。由三部分组成:①协议,②存有该资源的主机IP地址,③主机资源的具体地址。import urllibresponse = urllib.request.urlopen('http://www.baidu.com')print(response.read())urlopen(url, data, tim...

2019-07-01 09:28:58

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。