hello rpa-CSDN博客

原创 45. Pandas实现模糊匹配Merge数据的方法

Pandas实现模糊匹配Merge数据的方法import pandas as pdimport numpy as npimport re1. 两份数据# 关键词数据df_keyword = pd.DataFrame({ "keyid": np.arange(5), "keyword": ["numpy", "pandas", "matplotlib", "sklearn", "tensorflow"]})df_keyword

2021-03-22 11:21:14 5780

原创 43. Pandas查询数据的简便方法df.query

Pandas查询数据的简便方法df.query怎样进行复杂组合条件对数据查询：方式1. 使用df[(df[“a”] > 3) & (df[“b”]<5)]的方式；方式2. 使用df.query(“a>3 & b<5”)的方式；方法2的语法更加简洁性能对比：当数据量小时，方法1更快；当数据量大时，因为方法2直接用C语言实现，节省方法1临时数组的多次复制，方法2更快；import pandas as pdprint(pd.__version__)

2021-03-22 11:20:44 1967 2

原创 44. Pandas按行遍历DataFrame的3种方法

Pandas按行遍历DataFrame的3种方法import pandas as pdimport numpy as npimport collectionsdf = pd.DataFrame( np.random.random(size=(100000, 4)), columns=list('ABCD'))df.head(3) A B C D 0

2021-03-22 11:20:25 575

原创 42. Python处理Excel一列变多列

Python处理Excel一列变多列1. 读取数据import pandas as pddf = pd.read_excel("./course_datas/c42_split_onecolumn_tomany/学生数据表.xlsx")df.head() 学号数据 0 S001 怠涵:女:23:山东 1 S002

2021-03-22 11:19:41 640

原创 41. Pandas读取Excel绘制直方图

Pandas读取Excel绘制直方图直方图(Histogram)：直方图是数值数据分布的精确图形表示，是一个连续变量（定量变量）的概率分布的估计，它是一种条形图。为了构建直方图，第一步是将值的范围分段，即将整个值的范围分成一系列间隔，然后计算每个间隔中有多少值。1. 读取数据波斯顿房价数据集import pandas as pdimport numpy as npdf = pd.read_excel("./datas/boston-house-prices/housing.xlsx")

2021-02-19 09:29:10 1369

原创 40. Pandas怎样实现groupby聚合后字符串列的合并

Pandas怎样实现groupby聚合后字符串列的合并需求：计算每个月的最高温度、最低温度、出现的风向列表、出现的空气质量列表数据输入数据输出读取数据import pandas as pdfpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head(3) ymd bWendu yWendu

2021-02-19 09:27:41 1558

原创 39. Pandas处理Excel复杂多列到多行转换

Pandas处理Excel - 复杂多列到多行转换用户需求图片分析：一行变多行，可以用explode实现；要使用explode，需要先将多列变成一列；注意有的列为空，需要做空值过滤；1. 读取数据import pandas as pdfile_path = "./course_datas/c39_explode_to_manyrows/读者提供的数据-输入.xlsx"df = pd.read_excel(file_path)df

2021-02-19 09:27:15 659

原创 38. Python批量翻译英语单词

Python批量翻译英语单词用途：对批量的英语文本，生成英语-汉语翻译的单词本，提供Excel下载本代码实现：提供一个英文文章URL，自动下载网页；实现网页中所有英语单词的翻译；下载翻译结果的Excel涉及技术：pandas的读取csv、多数据merge、输出Excelrequests库下载HTML网页BeautifulSoup解析HTML网页Python正则表达式实现英文分词1. 读取英语-汉语翻译词典文件词典文件来自：https://github.com/skywind

2021-02-19 09:26:46 1777

原创 37. Python使用Pandas将Excel存入MySQL

Python使用Pandas将Excel存入MySQL一个典型的数据处理流：Pandas从多方数据源读取数据，比如excel、csv、mysql、爬虫等等Pandas对数据做过滤、统计分析Pandas将数据存储到MySQL，用于Web页面展示、后续的进一步SQL分析等等官网文档：https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html#pandas.DataFrame.to_sql数据准备：学生信息E

2021-02-19 09:25:56 535

原创 35. Pandas实现groupby聚合后不同列数据统计

Pandas实现groupby聚合后不同列数据统计电影评分数据集（UserID，MovieID，Rating，Timestamp）聚合后单列-单指标统计：每个MovieID的平均评分df.groupby(“MovieID”)[“Rating”].mean()聚合后单列-多指标统计：每个MoiveID的最高评分、最低评分、平均评分df.groupby(“MovieID”)[“Rating”].agg(mean=“mean”, max=“max”, min=np.min)df.groupby(“Mo

2021-02-19 09:25:37 2016

原创 34. Pandas和数据库查询语言SQL的对比

Pandas和数据库查询语言SQL的对比Pandas：Python最流行的数据处理与数据分析的类库SQL：结构化查询语言，用于对MySQL、Oracle等关系型数据库的增删改查两者都是对“表格型”数据的操作和查询，所以很多语法都能对应起来对比列表：SELECT数据查询WHERE按条件查询in和not in的条件查询groupby分组统计JOIN数据关联UNION数据合并Order Limit先排序后分页取每个分组group的top nUPDATE数据更新DELETE删除数据

2021-02-19 09:25:06 357

原创 33. Pandas计算同比环比指标的3种方法

Pandas计算同比环比指标的3种方法同比和环比：环比和同比用于描述统计数据的变化情况环比：表示本次统计段与相连的上次统计段之间的比较。比如2010年中国第一季度GDP为G2010Q1亿元，第二季度GDP为G2010Q2亿元，则第二季度GDP环比增长（G2010Q2-G2010Q1)/G2010Q1；同比：即同期相比，表示某个特定统计段今年与去年之间的比较。比如2009年中国第一季度GDP为G2009Q1亿元，则2010年第一季度的GDP同比增长为（G2010Q1-G2009Q1)/G2

2021-02-19 09:24:34 1589

原创 32. Pandas借助Python爬虫读取HTML网页表格存储到Excel文件

Pandas借助Python爬虫读取HTML网页表格存储到Excel文件实现目标：网易有道词典可以用于英语单词查询，可以将查询的单词加入到单词本;当前没有导出全部单词列表的功能。为了复习方便，可以爬取所有的单词列表，存入Excel方便复习涉及技术：Pandas：Python语言最强大的数据处理和数据分析库Python爬虫：可以将网页下载下来然后解析，使用requests库实现，需要绕过登录验证import requestsimport requests.cookiesimport

2021-02-19 09:22:53 1591

原创 31. Pandas使用explode实现一行变多行统计

Pandas使用explode实现一行变多行统计解决实际问题：一个字段包含多个值，怎样将这个值拆分成多行，然后实现统计比如：一个电影有多个分类、一个人有多个喜好，需要按分类、喜好做统计1、读取数据import pandas as pddf = pd.read_csv( "./datas/movielens-1m/movies.dat", header=None, names="MovieID::Title::Genres".split("::"), sep="::

2021-02-19 09:22:31 620

原创 28. Pandas的Categorical数据类型可以降低数据存储提升计算速度

Pandas的Categorical数据类型可以降低数据存储提升计算速度1、读取数据import pandas as pddf = pd.read_csv("./datas/movielens-1m/users.dat", sep="::", engine="python", header=None, names="UserID::Gender::Age::Occ

2021-02-09 10:28:09 149

原创 27. Pandas怎样找出最影响结果的那些特征？

Pandas怎样找出最影响结果的那些特征？应用场景：机器学习的特征选择，去除无用的特征，可以提升模型效果、降低训练时间等等数据分析领域，找出收入波动的最大因素！！实例演示：泰坦尼克沉船事件中，最影响生死的因素有哪些？1、导入相关的包import pandas as pdimport numpy as np# 特征最影响结果的K个特征from sklearn.feature_selection import SelectKBest# 卡方检验，作为SelectKBest的参数fr

2021-02-09 10:27:38 566

原创 26. Pandas处理分析网站原始访问日志

Pandas处理分析网站原始访问日志目标：真实项目的实战，探索Pandas的数据处理与分析实例：数据来源：我自己的wordpress博客http://www.crazyant.net/ 的访问日志实现步骤：1、读取数据、清理、格式化2、统计爬虫spider的访问比例，输出柱状图3、统计http状态码的访问占比，输出饼图4、统计按小时、按天的PV/UV流量趋势，输出折线图1、读取数据并清理格式化import pandas as pdimport numpy as nppd.set_o

2021-02-09 10:27:12 318

原创 25. Pandas结合Sklearn实现泰坦尼克存活率预测

Pandas结合Sklearn实现泰坦尼克存活率预测实例目标：实现泰坦尼克存活预测处理步骤：1、输入数据：使用Pandas读取训练数据(历史数据，特点是已经知道了这个人最后有没有活下来)2、训练模型：使用Sklearn训练模型3、使用模型：对于一个新的不知道存活的人，预估他存活的概率步骤1：读取训练数据import pandas as pddf_train = pd.read_csv("./datas/titanic/titanic_train.csv")df_train.head()

2021-02-09 10:26:50 230

原创 24. Pandas怎样结合Pyecharts绘制折线图

Pandas怎样结合Pyecharts绘制交互性折线图？背景：Pandas是Python用于数据分析领域的超级牛的库Echarts是百度开源的非常好用强大的可视化图表库，Pyecharts是它的Python库版本1、读取数据import pandas as pdxlsx_path = "./datas/stocks/baidu_stocks.xlsx"df = pd.read_excel(xlsx_path, index_col="datetime", parse_dates=True)

2021-02-09 10:26:30 777

原创 22. Pandas怎么处理日期索引的缺失

Pandas怎么处理日期索引的缺失？问题：按日期统计的数据，缺失了某天，导致数据不全该怎么补充日期？公众号：蚂蚁学Python可以用两种方法实现：1、DataFrame.reindex，调整dataframe的索引以适应新的索引2、DataFrame.resample，可以对时间序列重采样，支持补充缺失值问题：如果缺失了索引该怎么填充？import pandas as pd%matplotlib inlinedf = pd.DataFrame({ "pdate": ["2019-

2021-02-09 10:25:47 478

原创 23. Pandas怎样实现Excel的vlookup并且在指定列后面输出？

Pandas怎样实现Excel的vlookup并且在指定列后面输出？背景：有两个excel，他们有相同的一个列；按照这个列合并成一个大的excel，即vlookup功能，要求：只需要第二个excel的少量的列，比如从40个列中挑选2个列新增的来自第二个excel的列需要放到第一个excel指定的列后面；将结果输出到一个新的excel;微信公众号：蚂蚁学Python步骤1：读取两个数据表import pandas as pd# 学生成绩表df_grade = pd.read_

2021-02-09 10:25:00 525

原创 21. Pandas怎样快捷方便的处理日期数据

Pandas怎样快捷方便的处理日期数据Pandas日期处理的作用：将2018-01-01、1/1/2018等多种日期格式映射成统一的格式对象，在该对象上提供强大的功能支持几个概念：pd.to_datetime：pandas的一个函数，能将字符串、列表、series变成日期形式Timestamp：pandas表示日期的对象形式DatetimeIndex：pandas表示日期的对象列表形式其中：DatetimeIndex是Timestamp的列表形式pd.to_datetime对单个日期字

2021-02-09 10:24:26 181 1

原创 20. Pandas的stack和pivot实现数据透视

Pandas的stack和pivot实现数据透视经过统计得到多维度指标数据使用unstack实现数据二维透视使用pivot简化透视stack、unstack、pivot的语法1. 经过统计得到多维度指标数据非常常见的统计场景，指定多个维度，计算聚合后的指标实例：统计得到“电影评分数据集”，每个月份的每个分数被评分多少次：（月份、分数1~5、次数）import pandas as pdimport numpy as np%matplotlib inlinedf = pd.read

2021-02-09 10:23:27 218

原创 19. Pandas怎样对每个分组应用apply函数

Pandas怎样对每个分组应用apply函数?知识：Pandas的GroupBy遵从split、apply、combine模式这里的split指的是pandas的groupby，我们自己实现apply函数，apply返回的结果由pandas进行combine得到结果GroupBy.apply(function)function的第一个参数是dataframefunction的返回结果，可是dataframe、series、单个值，甚至和输入dataframe完全没关系本次实例演示：怎样

2021-02-09 10:21:31 196

原创 18. Pandas的数据转换函数map&apply&applymap

Pandas的数据转换函数map、apply、applymap数据转换函数对比：map、apply、applymap：map：只用于Series，实现每个值->值的映射；apply：用于Series实现每个值的处理，用于Dataframe实现某个轴的Series的处理；applymap：只能用于DataFrame，用于处理该DataFrame的每个元素；1. map用于Series值的转换实例：将股票代码英文转换成中文名字Series.map(dict) or Series.map(

2021-01-26 09:17:50 156 1

原创 17. Pandas的分层索引MultiIndex

Pandas的分层索引MultiIndex为什么要学习分层索引MultiIndex？分层索引：在一个轴向上拥有多个索引层级，可以表达更高维度数据的形式；可以更方便的进行数据筛选，如果有序则性能更好；groupby等操作的结果，如果是多KEY，结果是分层索引，需要会使用一般不需要自己创建分层索引(MultiIndex有构造函数但一般不用)演示数据：百度、阿里巴巴、爱奇艺、京东四家公司的10天股票数据数据来自：英为财经https://cn.investing.com/本次演示提纲：一、S

2021-01-25 14:31:59 309

转载 16. Pandas的分组聚合groupby

Pandas怎样实现groupby分组统计类似SQL：select city,max(temperature) from city_weather group by city;groupby：先对数据分组，然后在每个分组上应用聚合函数、转换函数本次演示：一、分组使用聚合函数做数据统计二、遍历groupby的结果理解执行流程三、实例分组探索天气数据import pandas as pdimport numpy as np# 加上这一句，能在jupyter notebook展示matplot

2021-01-25 14:31:45 295

原创 15. Pandas批量拆分与合并Excel

Pandas批量拆分Excel与合并Excel实例演示：将一个大Excel等份拆成多个Excel将多个小Excel合并成一个大Excel并标记来源work_dir="./course_datas/c15_excel_split_merge"splits_dir=f"{work_dir}/splits"import osif not os.path.exists(splits_dir): os.mkdir(splits_dir)0、读取源Excel到Pandasimport

2021-01-25 14:31:30 498

原创 14. Pandas实现数据的合并concat

Pandas实现数据的合并concat使用场景：批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列一句话说明concat语法：使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)把多个Pandas对象(DataFrame/Series)合并成一个。concat语法：pandas.concat(objs, axis=0, join=‘outer’, ignore_index=False)objs：一个列表，内容可以是DataFram

2021-01-21 15:18:22 162

原创 13. Pandas怎样实现DataFrame的Merge

Pandas怎样实现DataFrame的MergePandas的Merge，相当于Sql的Join，将不同的表按key关联到一个表merge的语法：pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=(’_x’, ‘_y’), copy=True, indicator=False,validat

2021-01-21 11:01:30 229

原创 12. Pandas的索引的用途

Pandas的索引index的用途把数据存储于普通的column列也能用于数据查询，那使用index有什么好处？index的用途总结：更方便的数据查询；使用index可以获得性能提升；自动的数据对齐功能；更多更强大的数据结构支持；import pandas as pddf = pd.read_csv("./datas/ml-latest-small/ratings.csv")df.head() userId movieI

2021-01-21 11:00:57 436

原创 11. Pandas的axis参数怎么理解？

Pandas的axis参数怎么理解？axis=0或者"index"：如果是单行操作，就指的是某一行如果是聚合操作，指的是跨行cross rowsaxis=1或者"columns"：如果是单列操作，就指的是某一列如果是聚合操作，指的是跨列cross columns按哪个axis，就是这个axis要动起来(类似被for遍历)，其它的axis保持不动import pandas as pdimport numpy as npdf = pd.DataFrame( n

2021-01-21 11:00:31 139 1

原创 10. Pandas字符串处理

Pandas字符串处理前面我们已经使用了字符串的处理函数：df[“bWendu”].str.replace(“℃”, “”).astype(‘int32’)Pandas的字符串处理：使用方法：先获取Series的str属性，然后在属性上调用函数；只能在字符串列上使用，不能数字列上使用；Dataframe上没有str属性和处理方法Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生str很相似；Series.str字符串方法列表参考文档:https://

2021-01-21 11:00:04 443

原创 pandas删除最后几行

df.drop(df.tail(n).index) #从尾部去掉 n 行df.dorp(df.head(n).index) #从头去掉 n 行#可以加上 inplace=True 直接修改原 dataFrame，不过函数返回是 None也可以这样子PageDF = PageDF[:-1]

2021-01-20 15:16:42 10922 3

原创 pandas 设置字符串为索引,不会转成int

month_df = pd.read_excel(month,dtype={"营业部代码":str},skiprows=2,index_col=0)month_df.set_index(dfr["营业部代码"],inplace=True)

2021-01-20 15:15:02 445

原创 09. Pandas数据排序

Pandas数据排序Series的排序：Series.sort_values(ascending=True, inplace=False)参数说明：ascending：默认为True升序排序，为False降序排序inplace：是否修改原始SeriesDataFrame的排序：DataFrame.sort_values(by, ascending=True, inplace=False)参数说明：by：字符串或者List<字符串>，单列排序或者多列排序ascending

2021-01-20 12:20:22 151

原创 08. Pandas的SettingWithCopyWarning报警怎么解决

Pandas的SettingWithCopyWarning报警0、读取数据import pandas as pdfpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head() ymd bWendu yWendu tianqi fengxiang fengli a

2021-01-19 21:16:27 178

原创 07. Pandas缺失值处理

Pandas对缺失值的处理Pandas使用这些函数处理缺失值：isnull和notnull：检测是否是空值，可用于df和seriesdropna：丢弃、删除缺失值axis : 删除行还是列，{0 or ‘index’, 1 or ‘columns’}, default 0how : 如果等于any则任何值为空都删除，如果等于all则所有值都为空才删除inplace : 如果为True则修改当前df，否则返回新的dffillna：填充空值value：用于填充的值，可以是单个值，或者字

2021-01-19 21:15:43 208

原创 06. Pandas数据统计函数

Pandas数据统计函数汇总类统计唯一去重和按值计数相关系数和协方差import pandas as pd0、读取csv数据fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head(3) ymd bWendu yWendu tianqi fengxiang fe

2021-01-19 21:14:09 189

原创 05. Pandas新增数据列

Pandas怎样新增数据列？在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析。直接赋值df.apply方法df.assign方法按条件选择分组分别赋值微信公众号：蚂蚁学Pythonimport pandas as pd0、读取csv数据到dataframefpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head()

2021-01-19 21:13:04 209

空空如也

空空如也