4 菀青

尚未进行身份认证

暂无相关描述

等级
TA的排名 28w+

线性回归预测模型

一元线性回归模型:ε:模型误差项,平衡等号两边值importseabornassnsincome=pd.read_csv(r'Salary_Date.csv')sns.lmplot(x='YearExperience',y='Salary', data=income,ci=None)plt.show()线性拟合求解:误差项最小,转换为误差平方项最小最小时,偏...

2019-08-09 15:36:30

数据挖掘笔记之数据可视化(多个图表合并)

Prod_Trade.xlsximportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Fal...

2019-08-01 14:25:31

数据挖掘笔记之数据可视化(热力图)

热力图heatmap(data,vmin,vmax,cmap,center,annot,fmt,annot_kws,linewidth, linecolor,cbar,cbar_kws,square,xticklabels,yticklabels,mask,ax)vmin,vmax:图例最大和最小显示值cmap:热力图填充色center:颜色深浅annot:每个单元显示数值fmt...

2019-07-31 16:38:21

数据挖掘笔记之数据可视化(散点图)

散点图matplotlibscatter(x,y,s,c,marker,cmap,norm,vmin,vmax,alpha,linewidth,edgecolors)s:散点图点的大小,传入数值型c:点的颜色marker:点的形状cmap:某点colormap值norm:数据亮度vmin,vmax:亮度设置alpha:散点透明度iris.csvimportmatplot...

2019-07-31 15:58:27

数据挖掘笔记之数据可视化(折线图)

折线图matplotlibplt.plot(x,y,linestyle,color,marker,markersize,markeredgecolor,markerfactcolor, markeredgewidth,label)marker:点形状wechat.xlsx#两种x轴显示间隔日期方法importmatplotlib.datesasmatespd.to_da...

2019-07-29 17:04:09

数据挖掘笔记之数据可视化(小提琴图)

小提琴图小提琴图由核密度曲线和箱线组合而成一般使用seabornsns.violinplot(x,y,hue,data,order,hue_order,bw,cut,scale,scale_hue,gridsize, width,inner,split,dodge,orient,linewidth,color,palette,saturation,ax)hue:分组order:数...

2019-07-29 10:10:28

数据挖掘笔记之数据可视化(箱线图)

箱线图下四分位:Q1上四分位:Q3数据的下须值:Q1-1.5IQR上须值:Q3+1.5IQRmatplotlibplt.boxplot(x,north,sym,vert,whis,positions,widths,path_artist,meanline,showmeans, showcaps,showbox,showfliers,boxprops,labels,flierspr...

2019-07-29 09:53:54

数据挖掘笔记之数据可视化(直方图)

直方图matplotlibplt.hist(x,bins,range,normed,weight,cumulative,bottom,histtype,align, orientation,rwidth,log,color,label,stacked)bins:条形个数range:上下边界normed:频数转为频率cumulative:计数累计bottom:基准线histty...

2019-07-28 15:55:40

数据挖掘笔记之数据可视化(条形图)

条形图matplotlibimportmatplotlibaspltplt.bar(left,height,width,bottom,color,edgecolor,linewidth,tick_label, xerr,yerr,label,ecolor,align,log,**kwargs)left:x轴上的刻度值height:y轴上的刻度width:条形图宽度默认0.8...

2019-07-27 17:04:51

数据挖掘之数据可视化(饼图)

饼图matplotlibimportmatplotlibaspltplt.pie(x,explode,labels,colors,autopct,pctdistance,shadow,labeldistance,startangle,radius,counterclock,wedgeprops,textprops,center,frame)explode:突出显示autopct...

2019-07-27 13:45:13

数据挖掘笔记之表处理

透视表diamonds.csv透视表pd.pivot_table(data,values,index,columns,aggfunc,fill_value,margins,dropna,margins_name)values:拉入统计项的字段index:拉入行标签columns:拉入列标签aggfunc:统计函数fill_values:填充缺失值margins:显示总计值...

2019-07-27 08:39:28

数据挖掘笔记之简单数据清洗

判断数据是否有重复值any(df.deplicated())#any函数:在多个条件判断中,只要有一个条件为True,any的结果为True。删除重复项df.drop_deplicates(inplace=True)缺失值删除法:比例小于5%或大于85%替换法:连续变量使用均值和中位数,离散使用众数插补法:回归插补,K邻近插补,拉格朗日插补判断是否有缺失值any(df.is...

2019-07-26 16:33:54

数据挖掘笔记之Pandas

Pandas索引方式:ser=pd.Series([1,2,3,4])ser[[0,1]]读取txt,csv:pd.read_table(filepath,sep,header,names,index_col,usecols,dtype,converters,skiprows, skipfooter,nrows,na_values,skip_blank_lines,parse_...

2019-07-26 10:48:30

数据挖掘笔记之Numpy

数组np.array(((1,2))) #二维数组arr[1,2] #取第二行、第三列的元素arr[np.ix_([0,1],[1,2])] #取第一二行和第二三行列np.genfromtxt(fname,dtype,comments,delimiter,skip_header,skip_footer,converters,missing_values,filling_valu...

2019-07-25 10:35:29

自定义函数的参数

自定义函数的几种参数:①必选参数②默认参数③可变参数#任意个数据和defadds(*args): print(args) s=sum(args) returns*args:可变参数,接纳任意个数的实参,捆绑为元组。④关键字参数#组装到一个字典中definfo_collection(tel,birthday,**kargs): user_info={} u...

2019-07-24 21:22:51

数据挖掘笔记之基本数据格式(列表和字典)

列表列表的索引方式:①切片索引[start:end:step]包括start,不包括end。无法取得最后一个元素。②无限索引[::step]列表基本语法:list.append(1) #只能添加一个元素list.extend([]) #列表添加list.pop() #删除末尾元素list.pop(1) #删除指定位置list.remove() #删除指定元素lis...

2019-07-23 21:49:16

爬虫学习笔记

URL统一资源定位符,是对互联网上得到的资源位置和访问方法的表示,是网上标准资源的地址。由三部分组成:①协议,②存有该资源的主机IP地址,③主机资源的具体地址。importurllibresponse=urllib.request.urlopen('http://www.baidu.com')print(response.read())urlopen(url,data,tim...

2019-07-01 09:28:58

正则表达式笔记

对字符串操作的逻辑公式。语法规则.匹配除\n之外的字符\转义符,使用r[…]字符集,任意字符,可逐个列出,可范围[^…]取反预定义字符集,可写在[…]中\d[0-9]\D[^\d]\s空白字符,\t\r\n\f\v\S非空白字符[^\s]\w单词字符[A-Za-z0-9]\...

2019-06-28 17:30:03

机器学习之概率论

概率论处理不确定性或随机数据,借助概率论概率分布来描述随机变量或一组随机变量在每一个可能取得的状态可能性大小,随机变量的概率分布可以用离散型函数或连续函数表示。①条件概率某个事件在其他事件发生情况下出现的概率。给定x=X时,y=Y发生的条件概率P(y=Y|x=X):P(y=Y|x=X)=P(y=Y,x=X)/P(x=X)②条件概率的链式法则多维随机变量的联合概率分布,分解成只有一...

2019-06-25 17:09:32

数据结构

研究数据信息如何表示、组织、存储、加工和数据之间的逻辑关系。分为线性结构和非线性结构。1.线性结构线性结构:元素与元素之前是一对一的关系。分为线性表、栈和队列。(1)线性表a0→a1→…→an存在唯一的第一元素a0存在唯一的最后元素an各元素均有唯一的后继各元素均有唯一的前驱(2)栈操作受限的线性表LIFO:后进先出限定仅在表尾进行插入或删除操作的线性表,后进先出。入栈...

2019-06-11 18:41:07

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。