a_2435542821-CSDN博客

原创 pandas.DataFrame 中的insert(), pop()

在pandas中，del、drop和pop方法都可以用来删除数据，insert可以在指定位置插入数据。import pandas as pd from pandas import DataFrame, Seriesdata = DataFrame({'name':['yang', 'jian', 'yj'], 'age':[23, 34, 22], 'gender':['male', 'ma...

2019-08-22 11:49:33 3563

原创常用的linux命令（Cent OS）

1.关机 (系统的关机、重启以及登出 ) 的命令shutdown -h now 关闭系统(1)init 0 关闭系统(2)telinit 0 关闭系统(3)shutdown -h hours:minutes & 按预定时间关闭系统shutdown -c 取消按预定时间关闭系统shutdown -r now 重启(1)reboot 重启(2)logout 注销...

2019-08-16 15:30:18 762

原创 Pandas中resample方法详解，处理datetime 分时间段统计问题

Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。方法的格式是：DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention=‘start’,kind=None, loffset=No...

2019-08-01 18:12:10 8073

转载 Pandas的set_index和reset_index用法

set_index():函数原型：DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)参数解释：keys：列标签或列标签/数组列表，需要设置为索引的列drop：默认为True，删除用作新索引的列append：默认为False，是否将列附加到现有索引inplace...

2019-07-30 19:05:54 459

转载 python selenium chrome有界面与无界面模式

驱动下载地址http://chromedriver.storage.googleapis.com/index.html?from selenium.webdriver.chrome.options import Optionsfrom selenium import webdriver # 无界面模式def ChromeDriverNOBrowser(): chrome_o...

2019-05-15 18:56:51 450

原创 python和pandas空值不同之处以及缺失值空值的处理方法总结（一）

空值：python‘’,[],(),None,Null,等容器对象只要是空的默认就是falsepandas当类型为数值型时，Nan代表代表为空值，当类型为字符型的时候，None代表的是空字符串isnull(),notnull()函数只会识别这两个为空，‘’,[],(),Null都默认为是有值的，而又在 python中，nan又会认为是有值的字符串，它们是不能相互包容的。下面我们用例子来...

2019-05-09 11:29:23 2357

转载详解Python中where()函数的用法

where（）的用法首先强调一下，where()函数对于不同的输入，返回的只是不同的。0.返回的是一个数组元素的元组对象1当数组是一维数组时，返回的值是一维的索引，所以只有一组索引数组2当数组是二维数组时，满足条件的数组值返回的是值的位置索引，因此会有两组索引数组来表示值的位置例如? 1 2 3 4 5 6 7 ...

2019-02-11 14:42:44 5529

转载 DataFrame的创建---多级索引

多级索引：在一个轴上有多个(两个以上）的索引，能够以低维度形式来表示高维度的数据。单级索引是Index对象，多级索引是MultiIndex对象。一、创建多级索引方法一：隐式创建，即给DataFrame的index或columns参数传递两个或更多的数组。 df1 = pd.DataFrame(np.random.randint(80, 120, size=(2, 4)), ...

2019-01-18 16:38:27 5055

转载数据处理常用到的一些方法/drop_duplicates()/映射map()/replace()/rename()/分箱/过滤异常值/随机抽样take()/random.permutation()

1、删除重复元素使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为Trueimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt%matplotli...

2018-12-25 18:35:20 409

原创 Series中str属性的方法用途

在使用pandas框架的DataFrame的过程中，如果需要处理一些字符串的特性，例如判断某列是否包含一些关键字，某列的字符长度是否小于3等等这种需求，如果掌握str列内置的方法，处理起来会方便很多。下面我们来详细了解一下，Series类的str自带的方法有哪些。1、cat() 拼接字符串例子：>>> Series([‘a‘, ‘b‘, ‘c‘]).str.ca...

2018-12-25 18:24:04 3554

原创 mongodb中 pymongo的使用方法

#!/usr/bin/env python# -*- coding:utf-8 -*-"""MongoDB存储在这里我们来看一下Python3下MongoDB的存储操作，在本节开始之前请确保你已经安装好了MongoDB并启动了其服务，另外安装好了Python 的PyMongo库。连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的Mongo...

2018-11-01 11:00:36 269

转载 PCA降维原理和作用

降维的作用①数据在低维下更容易处理、更容易使用；②相关特征，特别是重要特征更能在数据中明确的显示出来；如果只有两维或者三维的话，更便于可视化展示；③去除数据噪声④降低算法开销降维通俗点的解释一些高维度的数据，比如淘宝交易数据，为便于解释降维作用，我们在这假设有下单数，付款数，商品类别，售价四个维度，数据量上百万条，对于下单数和付款数，我们可以认为两者是线性相关的，即知道下单数，我们可以...

2018-10-31 20:19:04 2229

转载 L1，L2正则化

正则化引入的思想其实和奥卡姆剃刀原理很相像，奥卡姆剃刀原理：切勿浪费较多东西，去做，用较少的东西，同样可以做好的事情。正则化的目的：避免出现过拟合（over-fitting）经验风险最小化 + 正则化项 = 结构风险最小化经验风险最小化（ERM），是为了让拟合的误差足够小，即：对训练数据的预测误差很小。但是，我们学习得到的模型，当然是希望对未知数据有很好的预测能力（泛化能力），这样才更有意...

2018-10-31 20:16:51 167

转载聚类算法-K-means

K-means算法******步骤：1.从训练数据中随机选取k个初始点，作为k个初始簇的中心点2.计算每个点到中心点的欧式距离，将其归并到距离最近的簇中，直至所有点划分完成3.计算每个簇新的中心点4.如果相对于原来中心点没有变化或者变化数值小于给定阈值，则算法结束，获得k个簇，否则以计算出的新的中心点为新的簇的中心，继续进行2,3操作，直至满足终止条件关于k值的选择**********...

2018-10-31 20:14:47 340

转载二分类模型评价指标-AUC

AUC的含义和计算*****AUC针对二分类模型效果进行评价，二分类模型有时可能得到的是一个概率值，这个概率值表明为（0或1类）的可能性（不同于决策树分类，我们会直接得到一个确切分类），我们划定一个具体概率值p，大于则为正，小于则为负，然后使用acc或其他指标评价，其实这样做有很大漏洞，我们不能准确找到这个具体概率值p来确定正负样本的概率分界，这样得到的评价指标信服力和准确性都不稳定，于是我们提...

2018-10-31 20:08:41 1003

转载机器学习特征选择方法

有一句话这么说，特征决定上限，模型逼近上限。特征选择对后面的模型训练很重要，选择合适重要的特征，对问题求解尤为重要，下面介绍一些常见的特征选择方法。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。①相关系数...

2018-10-31 20:08:02 379 1

转载什么是随机森林

随机森林概述******在我们学习随机森林前，要对决策树有一定了解，尤其对其中决策树生成算法要做理解，详见博客。森林顾名思义，由很多棵树组成，这一颗颗树就是我们需要构造的决策树，由这些树组成的森林就是随机森林，当我们输入一个要预测分类的数据时，每个决策树都会接收数据并产生一个分类结果，然后采用‘投票机制’，认为哪个结果出现次数最多就归为哪一类。随机森林构造过程*随机森林构造过程分为四步：...

2018-10-31 20:07:08 1931

转载 python_pandas中的get_dummies使用

python_pandas中的get_dummies使用虚拟变量(dummy variables)虚拟变量，也叫哑变量和离散特征编码，可用来表示分类变量、非数量因素可能产生的影响。离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用...

2018-10-28 21:29:48 1338

a_2435542821的博客