自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 收藏
  • 关注

原创 45. Pandas实现模糊匹配Merge数据的方法

Pandas实现模糊匹配Merge数据的方法import pandas as pdimport numpy as npimport re1. 两份数据# 关键词数据df_keyword = pd.DataFrame({ "keyid": np.arange(5), "keyword": ["numpy", "pandas", "matplotlib", "sklearn", "tensorflow"]})df_keyword

2021-03-22 11:21:14 5780

原创 43. Pandas查询数据的简便方法df.query

Pandas查询数据的简便方法df.query怎样进行复杂组合条件对数据查询:方式1. 使用df[(df[“a”] > 3) & (df[“b”]<5)]的方式;方式2. 使用df.query(“a>3 & b<5”)的方式;方法2的语法更加简洁性能对比:当数据量小时,方法1更快;当数据量大时,因为方法2直接用C语言实现,节省方法1临时数组的多次复制,方法2更快;import pandas as pdprint(pd.__version__)

2021-03-22 11:20:44 1967 2

原创 44. Pandas按行遍历DataFrame的3种方法

Pandas按行遍历DataFrame的3种方法import pandas as pdimport numpy as npimport collectionsdf = pd.DataFrame( np.random.random(size=(100000, 4)), columns=list('ABCD'))df.head(3) A B C D 0

2021-03-22 11:20:25 575

原创 42. Python处理Excel一列变多列

Python处理Excel一列变多列1. 读取数据import pandas as pddf = pd.read_excel("./course_datas/c42_split_onecolumn_tomany/学生数据表.xlsx")df.head() 学号 数据 0 S001 怠涵:女:23:山东 1 S002

2021-03-22 11:19:41 640

原创 41. Pandas读取Excel绘制直方图

Pandas读取Excel绘制直方图直方图(Histogram):直方图是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计,它是一种条形图。为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。1. 读取数据波斯顿房价数据集import pandas as pdimport numpy as npdf = pd.read_excel("./datas/boston-house-prices/housing.xlsx")

2021-02-19 09:29:10 1369

原创 40. Pandas怎样实现groupby聚合后字符串列的合并

Pandas怎样实现groupby聚合后字符串列的合并需求:计算每个月的最高温度、最低温度、出现的风向列表、出现的空气质量列表数据输入数据输出读取数据import pandas as pdfpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head(3) ymd bWendu yWendu

2021-02-19 09:27:41 1558

原创 39. Pandas处理Excel复杂多列到多行转换

Pandas处理Excel - 复杂多列到多行转换用户需求图片分析:一行变多行,可以用explode实现;要使用explode,需要先将多列变成一列;注意有的列为空,需要做空值过滤;1. 读取数据import pandas as pdfile_path = "./course_datas/c39_explode_to_manyrows/读者提供的数据-输入.xlsx"df = pd.read_excel(file_path)df

2021-02-19 09:27:15 659

原创 38. Python批量翻译英语单词

Python批量翻译英语单词用途:对批量的英语文本,生成英语-汉语翻译的单词本,提供Excel下载本代码实现:提供一个英文文章URL,自动下载网页;实现网页中所有英语单词的翻译;下载翻译结果的Excel涉及技术:pandas的读取csv、多数据merge、输出Excelrequests库下载HTML网页BeautifulSoup解析HTML网页Python正则表达式实现英文分词1. 读取英语-汉语翻译词典文件词典文件来自:https://github.com/skywind

2021-02-19 09:26:46 1777

原创 37. Python使用Pandas将Excel存入MySQL

Python使用Pandas将Excel存入MySQL一个典型的数据处理流:Pandas从多方数据源读取数据,比如excel、csv、mysql、爬虫等等Pandas对数据做过滤、统计分析Pandas将数据存储到MySQL,用于Web页面展示、后续的进一步SQL分析等等官网文档:https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html#pandas.DataFrame.to_sql数据准备:学生信息E

2021-02-19 09:25:56 535

原创 35. Pandas实现groupby聚合后不同列数据统计

Pandas实现groupby聚合后不同列数据统计电影评分数据集(UserID,MovieID,Rating,Timestamp)聚合后单列-单指标统计:每个MovieID的平均评分df.groupby(“MovieID”)[“Rating”].mean()聚合后单列-多指标统计:每个MoiveID的最高评分、最低评分、平均评分df.groupby(“MovieID”)[“Rating”].agg(mean=“mean”, max=“max”, min=np.min)df.groupby(“Mo

2021-02-19 09:25:37 2016

原创 34. Pandas和数据库查询语言SQL的对比

Pandas和数据库查询语言SQL的对比Pandas:Python最流行的数据处理与数据分析的类库SQL:结构化查询语言,用于对MySQL、Oracle等关系型数据库的增删改查两者都是对“表格型”数据的操作和查询,所以很多语法都能对应起来对比列表:SELECT数据查询WHERE按条件查询in和not in的条件查询groupby分组统计JOIN数据关联UNION数据合并Order Limit先排序后分页取每个分组group的top nUPDATE数据更新DELETE删除数据

2021-02-19 09:25:06 357

原创 33. Pandas计算同比环比指标的3种方法

Pandas计算同比环比指标的3种方法同比和环比:环比和同比用于描述统计数据的变化情况环比:表示本次统计段与相连的上次统计段之间的比较。比如2010年中国第一季度GDP为G2010Q1亿元,第二季度GDP为G2010Q2亿元,则第二季度GDP环比增长(G2010Q2-G2010Q1)/G2010Q1;同比:即同期相比,表示某个特定统计段今年与去年之间的比较。比如2009年中国第一季度GDP为G2009Q1亿元,则2010年第一季度的GDP同比增长为(G2010Q1-G2009Q1)/G2

2021-02-19 09:24:34 1589

原创 32. Pandas借助Python爬虫读取HTML网页表格存储到Excel文件

Pandas借助Python爬虫读取HTML网页表格存储到Excel文件实现目标:网易有道词典可以用于英语单词查询,可以将查询的单词加入到单词本;当前没有导出全部单词列表的功能。为了复习方便,可以爬取所有的单词列表,存入Excel方便复习涉及技术:Pandas:Python语言最强大的数据处理和数据分析库Python爬虫:可以将网页下载下来然后解析,使用requests库实现,需要绕过登录验证import requestsimport requests.cookiesimport

2021-02-19 09:22:53 1591

原创 31. Pandas使用explode实现一行变多行统计

Pandas使用explode实现一行变多行统计解决实际问题:一个字段包含多个值,怎样将这个值拆分成多行,然后实现统计比如:一个电影有多个分类、一个人有多个喜好,需要按分类、喜好做统计1、读取数据import pandas as pddf = pd.read_csv( "./datas/movielens-1m/movies.dat", header=None, names="MovieID::Title::Genres".split("::"), sep="::

2021-02-19 09:22:31 620

原创 28. Pandas的Categorical数据类型可以降低数据存储提升计算速度

Pandas的Categorical数据类型可以降低数据存储提升计算速度1、读取数据import pandas as pddf = pd.read_csv("./datas/movielens-1m/users.dat", sep="::", engine="python", header=None, names="UserID::Gender::Age::Occ

2021-02-09 10:28:09 149

原创 27. Pandas怎样找出最影响结果的那些特征?

Pandas怎样找出最影响结果的那些特征?应用场景:机器学习的特征选择,去除无用的特征,可以提升模型效果、降低训练时间等等数据分析领域,找出收入波动的最大因素!!实例演示:泰坦尼克沉船事件中,最影响生死的因素有哪些?1、导入相关的包import pandas as pdimport numpy as np# 特征最影响结果的K个特征from sklearn.feature_selection import SelectKBest# 卡方检验,作为SelectKBest的参数fr

2021-02-09 10:27:38 566

原创 26. Pandas处理分析网站原始访问日志

Pandas处理分析网站原始访问日志目标:真实项目的实战,探索Pandas的数据处理与分析实例:数据来源:我自己的wordpress博客http://www.crazyant.net/ 的访问日志实现步骤:1、读取数据、清理、格式化2、统计爬虫spider的访问比例,输出柱状图3、统计http状态码的访问占比,输出饼图4、统计按小时、按天的PV/UV流量趋势,输出折线图1、读取数据并清理格式化import pandas as pdimport numpy as nppd.set_o

2021-02-09 10:27:12 318

原创 25. Pandas结合Sklearn实现泰坦尼克存活率预测

Pandas结合Sklearn实现泰坦尼克存活率预测实例目标:实现泰坦尼克存活预测处理步骤:1、输入数据:使用Pandas读取训练数据(历史数据,特点是已经知道了这个人最后有没有活下来)2、训练模型:使用Sklearn训练模型3、使用模型:对于一个新的不知道存活的人,预估他存活的概率步骤1:读取训练数据import pandas as pddf_train = pd.read_csv("./datas/titanic/titanic_train.csv")df_train.head()

2021-02-09 10:26:50 230

原创 24. Pandas怎样结合Pyecharts绘制折线图

Pandas怎样结合Pyecharts绘制交互性折线图?背景:Pandas是Python用于数据分析领域的超级牛的库Echarts是百度开源的非常好用强大的可视化图表库,Pyecharts是它的Python库版本1、读取数据import pandas as pdxlsx_path = "./datas/stocks/baidu_stocks.xlsx"df = pd.read_excel(xlsx_path, index_col="datetime", parse_dates=True)

2021-02-09 10:26:30 777

原创 22. Pandas怎么处理日期索引的缺失

Pandas怎么处理日期索引的缺失?问题:按日期统计的数据,缺失了某天,导致数据不全该怎么补充日期?公众号:蚂蚁学Python可以用两种方法实现:1、DataFrame.reindex,调整dataframe的索引以适应新的索引2、DataFrame.resample,可以对时间序列重采样,支持补充缺失值问题:如果缺失了索引该怎么填充?import pandas as pd%matplotlib inlinedf = pd.DataFrame({ "pdate": ["2019-

2021-02-09 10:25:47 478

原创 23. Pandas怎样实现Excel的vlookup并且在指定列后面输出?

Pandas怎样实现Excel的vlookup并且在指定列后面输出?背景:有两个excel,他们有相同的一个列;按照这个列合并成一个大的excel,即vlookup功能,要求:只需要第二个excel的少量的列,比如从40个列中挑选2个列新增的来自第二个excel的列需要放到第一个excel指定的列后面;将结果输出到一个新的excel;微信公众号:蚂蚁学Python步骤1:读取两个数据表import pandas as pd# 学生成绩表df_grade = pd.read_

2021-02-09 10:25:00 525

原创 21. Pandas怎样快捷方便的处理日期数据

Pandas怎样快捷方便的处理日期数据Pandas日期处理的作用:将2018-01-01、1/1/2018等多种日期格式映射成统一的格式对象,在该对象上提供强大的功能支持几个概念:pd.to_datetime:pandas的一个函数,能将字符串、列表、series变成日期形式Timestamp:pandas表示日期的对象形式DatetimeIndex:pandas表示日期的对象列表形式其中:DatetimeIndex是Timestamp的列表形式pd.to_datetime对单个日期字

2021-02-09 10:24:26 181 1

原创 20. Pandas的stack和pivot实现数据透视

Pandas的stack和pivot实现数据透视经过统计得到多维度指标数据使用unstack实现数据二维透视使用pivot简化透视stack、unstack、pivot的语法1. 经过统计得到多维度指标数据非常常见的统计场景,指定多个维度,计算聚合后的指标实例:统计得到“电影评分数据集”,每个月份的每个分数被评分多少次:(月份、分数1~5、次数)import pandas as pdimport numpy as np%matplotlib inlinedf = pd.read

2021-02-09 10:23:27 218

原创 19. Pandas怎样对每个分组应用apply函数

Pandas怎样对每个分组应用apply函数?知识:Pandas的GroupBy遵从split、apply、combine模式这里的split指的是pandas的groupby,我们自己实现apply函数,apply返回的结果由pandas进行combine得到结果GroupBy.apply(function)function的第一个参数是dataframefunction的返回结果,可是dataframe、series、单个值,甚至和输入dataframe完全没关系本次实例演示:怎样

2021-02-09 10:21:31 196

原创 18. Pandas的数据转换函数map&apply&applymap

Pandas的数据转换函数map、apply、applymap数据转换函数对比:map、apply、applymap:map:只用于Series,实现每个值->值的映射;apply:用于Series实现每个值的处理,用于Dataframe实现某个轴的Series的处理;applymap:只能用于DataFrame,用于处理该DataFrame的每个元素;1. map用于Series值的转换实例:将股票代码英文转换成中文名字Series.map(dict) or Series.map(

2021-01-26 09:17:50 156 1

原创 17. Pandas的分层索引MultiIndex

Pandas的分层索引MultiIndex为什么要学习分层索引MultiIndex?分层索引:在一个轴向上拥有多个索引层级,可以表达更高维度数据的形式;可以更方便的进行数据筛选,如果有序则性能更好;groupby等操作的结果,如果是多KEY,结果是分层索引,需要会使用一般不需要自己创建分层索引(MultiIndex有构造函数但一般不用)演示数据:百度、阿里巴巴、爱奇艺、京东四家公司的10天股票数据数据来自:英为财经https://cn.investing.com/本次演示提纲:一、S

2021-01-25 14:31:59 309

转载 16. Pandas的分组聚合groupby

Pandas怎样实现groupby分组统计类似SQL:select city,max(temperature) from city_weather group by city;groupby:先对数据分组,然后在每个分组上应用聚合函数、转换函数本次演示:一、分组使用聚合函数做数据统计二、遍历groupby的结果理解执行流程三、实例分组探索天气数据import pandas as pdimport numpy as np# 加上这一句,能在jupyter notebook展示matplot

2021-01-25 14:31:45 295

原创 15. Pandas批量拆分与合并Excel

Pandas批量拆分Excel与合并Excel实例演示:将一个大Excel等份拆成多个Excel将多个小Excel合并成一个大Excel并标记来源work_dir="./course_datas/c15_excel_split_merge"splits_dir=f"{work_dir}/splits"import osif not os.path.exists(splits_dir): os.mkdir(splits_dir)0、读取源Excel到Pandasimport

2021-01-25 14:31:30 498

原创 14. Pandas实现数据的合并concat

Pandas实现数据的合并concat使用场景:批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列一句话说明concat语法:使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)把多个Pandas对象(DataFrame/Series)合并成一个。concat语法:pandas.concat(objs, axis=0, join=‘outer’, ignore_index=False)objs:一个列表,内容可以是DataFram

2021-01-21 15:18:22 162

原创 13. Pandas怎样实现DataFrame的Merge

Pandas怎样实现DataFrame的MergePandas的Merge,相当于Sql的Join,将不同的表按key关联到一个表merge的语法:pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=(’_x’, ‘_y’), copy=True, indicator=False,validat

2021-01-21 11:01:30 229

原创 12. Pandas的索引的用途

Pandas的索引index的用途把数据存储于普通的column列也能用于数据查询,那使用index有什么好处?index的用途总结:更方便的数据查询;使用index可以获得性能提升;自动的数据对齐功能;更多更强大的数据结构支持;import pandas as pddf = pd.read_csv("./datas/ml-latest-small/ratings.csv")df.head() userId movieI

2021-01-21 11:00:57 436

原创 11. Pandas的axis参数怎么理解?

Pandas的axis参数怎么理解?axis=0或者"index":如果是单行操作,就指的是某一行如果是聚合操作,指的是跨行cross rowsaxis=1或者"columns":如果是单列操作,就指的是某一列如果是聚合操作,指的是跨列cross columns按哪个axis,就是这个axis要动起来(类似被for遍历),其它的axis保持不动import pandas as pdimport numpy as npdf = pd.DataFrame( n

2021-01-21 11:00:31 139 1

原创 10. Pandas字符串处理

Pandas字符串处理前面我们已经使用了字符串的处理函数:df[“bWendu”].str.replace(“℃”, “”).astype(‘int32’)Pandas的字符串处理:使用方法:先获取Series的str属性,然后在属性上调用函数;只能在字符串列上使用,不能数字列上使用;Dataframe上没有str属性和处理方法Series.str并不是Python原生字符串,而是自己的一套方法,不过大部分和原生str很相似;Series.str字符串方法列表参考文档:https://

2021-01-21 11:00:04 443

原创 pandas删除最后几行

df.drop(df.tail(n).index) #从尾部去掉 n 行df.dorp(df.head(n).index) #从头去掉 n 行#可以加上 inplace=True 直接修改原 dataFrame,不过函数返回是 None也可以这样子PageDF = PageDF[:-1]

2021-01-20 15:16:42 10922 3

原创 pandas 设置字符串为索引,不会转成int

month_df = pd.read_excel(month,dtype={"营业部代码":str},skiprows=2,index_col=0)month_df.set_index(dfr["营业部代码"],inplace=True)

2021-01-20 15:15:02 445

原创 09. Pandas数据排序

Pandas数据排序Series的排序:Series.sort_values(ascending=True, inplace=False)参数说明:ascending:默认为True升序排序,为False降序排序inplace:是否修改原始SeriesDataFrame的排序:DataFrame.sort_values(by, ascending=True, inplace=False)参数说明:by:字符串或者List<字符串>,单列排序或者多列排序ascending

2021-01-20 12:20:22 151

原创 08. Pandas的SettingWithCopyWarning报警怎么解决

Pandas的SettingWithCopyWarning报警0、读取数据import pandas as pdfpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head() ymd bWendu yWendu tianqi fengxiang fengli a

2021-01-19 21:16:27 178

原创 07. Pandas缺失值处理

Pandas对缺失值的处理Pandas使用这些函数处理缺失值:isnull和notnull:检测是否是空值,可用于df和seriesdropna:丢弃、删除缺失值axis : 删除行还是列,{0 or ‘index’, 1 or ‘columns’}, default 0how : 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除inplace : 如果为True则修改当前df,否则返回新的dffillna:填充空值value:用于填充的值,可以是单个值,或者字

2021-01-19 21:15:43 208

原创 06. Pandas数据统计函数

Pandas数据统计函数汇总类统计唯一去重和按值计数相关系数和协方差import pandas as pd0、读取csv数据fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head(3) ymd bWendu yWendu tianqi fengxiang fe

2021-01-19 21:14:09 189

原创 05. Pandas新增数据列

Pandas怎样新增数据列?在进行数据分析时,经常需要按照一定条件创建新的数据列,然后进行进一步分析。直接赋值df.apply方法df.assign方法按条件选择分组分别赋值微信公众号:蚂蚁学Pythonimport pandas as pd0、读取csv数据到dataframefpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)df.head()

2021-01-19 21:13:04 209

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除