自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 pandas.DataFrame 中的insert(), pop()

在pandas中,del、drop和pop方法都可以用来删除数据,insert可以在指定位置插入数据。import pandas as pd from pandas import DataFrame, Seriesdata = DataFrame({'name':['yang', 'jian', 'yj'], 'age':[23, 34, 22], 'gender':['male', 'ma...

2019-08-22 11:49:33 3563

原创 常用的linux命令(Cent OS)

1.关机 (系统的关机、重启以及登出 ) 的命令shutdown -h now 关闭系统(1)init 0 关闭系统(2)telinit 0 关闭系统(3)shutdown -h hours:minutes & 按预定时间关闭系统shutdown -c 取消按预定时间关闭系统shutdown -r now 重启(1)reboot 重启(2)logout 注销...

2019-08-16 15:30:18 762

原创 Pandas中resample方法详解,处理datetime 分时间段统计问题

Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。方法的格式是:DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention=‘start’,kind=None, loffset=No...

2019-08-01 18:12:10 8073

转载 Pandas的set_index和reset_index用法

set_index():函数原型:DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)参数解释:keys:列标签或列标签/数组列表,需要设置为索引的列drop:默认为True,删除用作新索引的列append:默认为False,是否将列附加到现有索引inplace...

2019-07-30 19:05:54 459

转载 python selenium chrome有界面与无界面模式

驱动下载地址http://chromedriver.storage.googleapis.com/index.html?from selenium.webdriver.chrome.options import Optionsfrom selenium import webdriver # 无界面模式def ChromeDriverNOBrowser(): chrome_o...

2019-05-15 18:56:51 450

原创 python和pandas空值不同之处以及缺失值空值的处理方法总结(一)

空值:python‘’,[],(),None,Null,等容器对象只要是空的默认就是falsepandas当类型为数值型时,Nan代表代表为空值,当类型为字符型的时候,None代表的是空字符串isnull(),notnull()函数只会识别这两个为空,‘’,[],(),Null都默认为是有值的,而又在 python中,nan又会认为是有值的字符串,它们是不能相互包容的。下面我们用例子来...

2019-05-09 11:29:23 2357

转载 详解Python中where()函数的用法

where()的用法首先强调一下,where()函数对于不同的输入,返回的只是不同的。0.返回的是一个数组元素的元组对象1当数组是一维数组时,返回的值是一维的索引,所以只有一组索引数组2当数组是二维数组时,满足条件的数组值返回的是值的位置索引,因此会有两组索引数组来表示值的位置例如? 1 2 3 4 5 6 7 ...

2019-02-11 14:42:44 5529

转载 DataFrame的创建---多级索引

多级索引:在一个轴上有多个(两个以上)的索引,能够以低维度形式来表示高维度的数据。单级索引是Index对象,多级索引是MultiIndex对象。一、创建多级索引方法一:隐式创建,即给DataFrame的index或columns参数传递两个或更多的数组。 df1 = pd.DataFrame(np.random.randint(80, 120, size=(2, 4)), ...

2019-01-18 16:38:27 5055

转载 数据处理常用到的一些方法/drop_duplicates()/映射map()/replace()/rename()/分箱/过滤异常值/随机抽样take()/random.permutation()

1、删除重复元素使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为Trueimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt%matplotli...

2018-12-25 18:35:20 409

原创 Series中str属性的方法用途

在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。 下面我们来详细了解一下,Series类的str自带的方法有哪些。1、cat() 拼接字符串例子:>>> Series([‘a‘, ‘b‘, ‘c‘]).str.ca...

2018-12-25 18:24:04 3554

原创 mongodb中 pymongo的使用方法

#!/usr/bin/env python# -*- coding:utf-8 -*-"""MongoDB存储 在这里我们来看一下Python3下MongoDB的存储操作,在本节开始之前请确保你已经安装好了MongoDB并启动了其服务,另外安装好了Python 的PyMongo库。 连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的Mongo...

2018-11-01 11:00:36 269

转载 PCA降维原理和作用

降维的作用①数据在低维下更容易处理、更容易使用;②相关特征,特别是重要特征更能在数据中明确的显示出来;如果只有两维或者三维的话,更便于可视化展示;③去除数据噪声④降低算法开销降维通俗点的解释一些高维度的数据,比如淘宝交易数据,为便于解释降维作用,我们在这假设有下单数,付款数,商品类别,售价四个维度,数据量上百万条,对于下单数和付款数,我们可以认为两者是线性相关的,即知道下单数,我们可以...

2018-10-31 20:19:04 2229

转载 L1,L2正则化

正则化引入的思想其实和奥卡姆剃刀原理很相像,奥卡姆剃刀原理:切勿浪费较多东西,去做,用较少的东西,同样可以做好的事情。正则化的目的:避免出现过拟合(over-fitting)经验风险最小化 + 正则化项 = 结构风险最小化经验风险最小化(ERM),是为了让拟合的误差足够小,即:对训练数据的预测误差很小。但是,我们学习得到的模型,当然是希望对未知数据有很好的预测能力(泛化能力),这样才更有意...

2018-10-31 20:16:51 167

转载 聚类算法-K-means

K-means算法******步骤:1.从训练数据中随机选取k个初始点,作为k个初始簇的中心点2.计算每个点到中心点的欧式距离,将其归并到距离最近的簇中,直至所有点划分完成3.计算每个簇新的中心点4.如果相对于原来中心点没有变化或者变化数值小于给定阈值,则算法结束,获得k个簇,否则以计算出的新的中心点为新的簇的中心,继续进行2,3操作,直至满足终止条件关于k值的选择**********...

2018-10-31 20:14:47 340

转载 二分类模型评价指标-AUC

AUC的含义和计算*****AUC针对二分类模型效果进行评价,二分类模型有时可能得到的是一个概率值,这个概率值表明为(0或1类)的可能性(不同于决策树分类,我们会直接得到一个确切分类),我们划定一个具体概率值p,大于则为正,小于则为负,然后使用acc或其他指标评价,其实这样做有很大漏洞,我们不能准确找到这个具体概率值p来确定正负样本的概率分界,这样得到的评价指标信服力和准确性都不稳定,于是我们提...

2018-10-31 20:08:41 1003

转载 机器学习特征选择方法

有一句话这么说,特征决定上限,模型逼近上限。特征选择对后面的模型训练很重要,选择合适重要的特征,对问题求解尤为重要,下面介绍一些常见的特征选择方法。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。①相关系数...

2018-10-31 20:08:02 379 1

转载 什么是随机森林

随机森林概述******在我们学习随机森林前,要对决策树有一定了解,尤其对其中决策树生成算法要做理解,详见博客。森林顾名思义,由很多棵树组成,这一颗颗树就是我们需要构造的决策树,由这些树组成的森林就是随机森林,当我们输入一个要预测分类的数据时,每个决策树都会接收数据并产生一个分类结果,然后采用‘投票机制’,认为哪个结果出现次数最多就归为哪一类。随机森林构造过程*随机森林构造过程分为四步:...

2018-10-31 20:07:08 1931

转载 python_pandas中的get_dummies使用

python_pandas中的get_dummies使用虚拟变量(dummy variables)虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用...

2018-10-28 21:29:48 1338

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除