1 maymay_

尚未进行身份认证

暂无相关描述

等级
TA的排名 5w+

python 数据合并 merge , join , concat的区别

merge,join,concat的区别merge:与sql的join类似,有leftjoin,rightjoin,outerjoin,连接字段可以是索引可以是一个列join:连接字段是索引,或者两个连接字段的列名一样。其他与merge相同mergeisafunctioninthepandasnamespace,anditisals...

2019-05-16 21:03:21

MySQL 日期函数-转换时间戳

MySQL日期函数-转换时间戳from_unixtime:unix_timestampfrom_unixtime:from_unixtime(unixtime,format))用途:将数字型的unix时间日期值转为DE日期值参数说明:●unixtime:bigint类型,秒数,unix格式的日期时间值,若输入为string,double类型会隐式转换为bigint后参与运...

2019-05-11 16:28:09

独热编码的应用实例

独热编码的应用实例独热编码处理OneHotEncoder只要传给OneHotEncoder就会进行处理,自动认为是分类变量只对需要的列进行处理如果只使用LabelEncoder进行处理Labelencoder与OneHotEndoer一起使用利用pandas的get_dummies进行处理独热编码处理fromsklearn.preprocessingimportStandar...

2018-12-22 09:40:46

numpy中argsort函数用法

argsort函数返回的是数组值从小到大的索引值x=np.array([6,4,5])np.argsort(x)#按升序排列array([1,2,0])np.argsort(-x)#按降序排列array([0,2,1])6,4,5从小到大排序就是4,5,6。4的index是15的index是26的index是0所以返回[1,2,0]a=...

2018-05-30 16:04:51

Python3.0 + 机器学习实战-第二章knn例子

使用k-近邻算法快速判定她是不是你喜欢的类型?问题描述比如你的朋友经常上约会网站寻找自己的约会对象,你的朋友选定约会对象的时候主要看重三点“每年飞行的旅程数”、“玩游戏所耗时间百分比”、“每个月看书的数目”,你阅人无数的朋友已经约会过很多个对象了,并且把这些对象分为三类“她是我喜欢的类型”、“一般喜欢”,“她不是我喜欢的类型”,经过无数次的约会之后,你的朋友心已经很累了,他想能否输入某人的...

2018-05-26 10:27:37

关于假设检验

关于假设检验  假设检验(HypothesisTesting),或者叫做显著性检验(SignificanceTesting)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设:  H0:原假设或零假设(nullhypothe...

2018-05-21 20:31:00

中心极限定理-纯理解无公式

什么是中心极限定理(CentralLimitTheorem)中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取n个抽样,一共抽m次。然后把这m组抽样分别求出平均值。这些平均值的分布接近正态分布。也就是说:大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限意思就是当满足某些条件的时候,比如SampleSize比较大,采样次数区域无穷大的...

2018-05-18 14:05:02

Apriori关联分析

啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤酒与尿布》,虽然说这个故事是哈弗商学院杜撰出来的,但确实能很好的解释关联规则挖掘的原理。很多的时候,我们都需要从大量数据中提取出有用的信息,从大规模数据中寻找物品间的隐含关系叫做关联分析(associationanalysis)或者关联规则学习(associationrulelearning)。比如在平时的购物中,...

2018-05-15 16:40:36

Python之numpy高维索引与newaxis的用法

对于高维数组,索引位置上的元素不再是标量而是低一维的数组例子:X=np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])print('X[:,3]:',X[:,3])print('\n'*1)#仅仅是为了打印的时候空出一行,好看。print('X[:,3].shape:',X[:,3].sh...

2018-05-11 20:43:57

svm 函数间隔与几何间隔的认识

在超平面w⋅x+b=0w⋅x+b=0w\cdotx+b=0确定的情况下,|w⋅x+b||w⋅x+b||w\cdotx+b|可以相对地表示点x距离超平面的远近。对于两类分类问题,如果w⋅x+b>0w⋅x+b>0w\cdotx+b>0,则xxx的类别被判定为1;否则判定为-1。所以如果y(w⋅x+b)>0y(w⋅x+b)>0y(w\cdotx+b)>0,则认为x...

2018-05-10 10:29:02

Logistic Regression(逻辑回归)原理及公式推导

逻辑回归是广义线性模型广义线性模型:是指让模型的预测值去逼近y的衍生物,譬如说,假设我们认为示例所对应的输出标记是在指数尺度上的变化,那就可以将输出标记的对数作为线性模型逼近目标,即lny=w2x+blny=w2x+blny=w^{2}x+b更一般的考虑单调可微函数g()令y=g−1(wTx+b)y=g−1(wTx+b)y=g^{-1}(w^{T}x+b),这样得到的模型称为广义线性模...

2018-05-09 20:30:05

pandas中 DataFrame.align 的使用

官方文档将轴上的两个对象与每个轴索引的指定连接方法连接DataFrame.align(other,join='outer',axis=None,level=None,copy=True,fill_value=None,method=None,limit=None,fill_axis=0,broadcast_axis=None例子:data1=pd.Data...

2018-05-09 14:21:58

pandas.中 Series.asof的使用

官方文档解释:最后一行不是NaN值的值(或没有NaN的最后一行只考虑DataFrame情况下的列的子集)通俗的说:假如我有一组数据,某个点的时候这个值是NaN,那就求这个值之前最近一个不是NaN的值是多少Series.asof(where,subset=None)参数:where:日期或日期数组subset:字符串或字符串列表,默认为None,如果不是No...

2018-05-09 13:53:02

19. Remove Nth Node From End of List--python

题目:Givenalinkedlist,removethen-thnodefromtheendoflistandreturnitshead.Example:Givenlinkedlist:1->2->3->4->5,andn=2.Afterremovingthesecondnodefromtheen...

2018-05-08 17:58:26

pandas --移动窗口rolling的概念

概念:​​为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。给个例子好理解一点:importpandasaspds=[1,2,3,5,6,10,12,14,12,30]pd.Series(s).rolling(window=3...

2018-05-08 16:23:00

pandas中pivot_table透视表

官方文档pandas.pivot_table(data,values=None,index=None,columns=None,aggfunc='mean',fill_value=None,margins=False,dropna=True,margins_name='All')data:创建透视表的dataframevalues:要聚合的值,optional...

2018-05-07 20:11:38

Pandas中的map(), apply()和applymap()的应用

它们的区别在于应用的对象不同。1、map()map()是一个Series的函数,DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。例子:df=pd.DataFrame({'key1':['a','a','b','b','a'],'key2'...

2018-05-07 17:43:08

SQL server 中 return,break和continue的使用及例子

1、continue:重新开始WHILE循环。在CONTINUE关键字之后的任何语句都将被忽略。例子:计算1-10的偶数和DECLARE@SUMINT,@IINTSET@SUM=0SET@I=1WHILE(@I<=10)BEGINIF(@I%2=1)BEGIN...

2018-05-06 22:10:20

pandas 中 rank 的用法

官方文档例子:importpandasaspdimportnumpyasnpa=pd.DataFrame(np.arange(12).reshape(3,4),columns=list("abdc"))a=a.sort_index(axis=1,ascending=False)a1、直接rank()a.rank()显示了排名,...

2018-05-05 21:24:47

python windows下导入含有中文的csv文件报错

我的数据集是这样的:有很多中文,当你用pandas导入数据的时候容易报错>>>data=pd.read_csv("C:/Desktop/watermelon3_0_Ch.csv")UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0xd4inposition2:invalidcontinuati...

2018-05-05 16:22:43

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。