Monkey*王-CSDN博客

原创利用python对数据进行分组统计

SQL经常将聚合函数与GROUP BY进行组合，对数据进行分组统计分析，python在分析数据中也可以实现相同的功能，而且python汇总这个函数名称也是GROUPBY()函数首先创建一个数据表import pandas as pdimport numpy as npvalue = {'用户ID':['001','002','003','004','005','006'], '用户类型':['大','小','中','大','小','中'], '区域':['

2021-04-30 17:07:40 16921 2

原创 dataframe横向和纵向拼接

横向拼接import pandas as pdimport numpy as npdf1 = pd.DataFrame([['Tom','2001',98], ['Jack','2002',63], ['Lucy','2003',88], ['Nick','2004',100]],columns=['姓名','学号','成绩'])df2 = pd.DataFrame([

2021-04-28 23:35:43 5628 1

原创 SQL中PIVOT函数和CASE方法实现透视表的差异

为了解释清楚之间的差异，创建如下所示数据表CREATE TABLE 销售(商店名 VARCHAR(50), 商品类型 VARCHAR(50), 销售量 INT, 日期 DATE)INSERT INTO 销售VALUES ('李宁','短袖',30,'2021/4/27'),('李宁','短袖',40,'2021/4/28'), ('李宁','短袖',50,'2021/4/29'), ('李宁','裤子',60,'2021-4-27'),('李宁','裤子',80,'2021-4-

2021-04-27 10:51:47 508

原创数据分析_python进行数据筛选1_行筛选

以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据import pandas as pd import numpy as np df = pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df = df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索引：行索引]筛选出单行，这里的行索引可以是行索引的名称如df

2021-04-26 16:10:30 3171

原创数据分析_python进行数据筛选1_列筛选

以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据import pandas as pd import numpy as npdf = pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df = df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g'] PassengerId Survived Pclass ...

2021-04-26 15:39:22 3942

原创数据分析_python进行数据预处理3_处理异常值

数据预处理主要包括缺失值处理、重复值处理和异常值的处理异常值首先创建一个实例import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedf=pd.DataFrame()np.random.seed(100)df['name']=pd.Series([str(i) for i in np.arange(100)])df['age']=pd.Series(np.ran

2021-04-24 12:11:57 539

原创数据分析_python进行数据预处理2_处理重复值

数据预处理主要包括缺失值处理、重复值处理和异常值的处理重复值首先创建一个实例df=pd.DataFrame(data=[['A1','张通',101,'2018-08-08'] ,['A2','李谷',102,'2018-08-09'] ,['A3','孙凤',103,'2018-08-10'] ,['A3','孙凤',103,'2018-08-10']

2021-04-24 11:37:10 579

原创数据分析_python进行数据预处理1_处理缺失值

数据预处理主要包括缺失值处理、重复值处理和异常值的处理缺失值首先创建一个实例数据import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedata=[[np.nan,54,'男','2018/8/8'], [np.nan,16,np.nan,'2018/8/9'], ['A3',47,'女','2018/8/10'], ['A4',41

2021-04-24 09:04:34 493 1

Monkey_wang_的博客