fightingoyo-CSDN博客

原创 Pandas中DataFrame重置索引

在Pandas中，自定义索引后，有时候又需要恢复默认索引。import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(20).reshape(5,4),columns=['a','b','c','d'])df a b c d 0 0 1 2 3

2020-07-07 11:10:44 13136 1

一、报错看到其他的文章在写可以使用seaborn的数据集，通过sns.load_dataset的方式获取数据集进行练习和分析，但是当我输入：sns.load_dataset('tips')却出现如下报错信息：在网上搜了一遍发现，是我的seaborn-data里面是空的(没有那些库文件数据，所以无法加载出来）二、解决方法github下载数据压缩包去github下载seaborn-data，然后解压后，将文件拖进电脑中seaborn-data的空文件夹里即可。github地址：https

2020-06-23 12:31:28 13639 8

转载 Pandas数据处理——map、apply、applymap的异同

在日常的数据处理中，经常会对一个DataFrame进行逐行、逐列和逐元素的操作，对应这些操作，Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。import pandas as pdimport numpy as np# 创建数据集boolean = ['True','False']gender = ['男','女']color = ['white','black','green']data = pd.DataFrame({ 'height':n

2020-06-20 17:33:52 603 1

转载理解Pandas的Transform

Pandas具有丰富的功能，transform是与groupby（pandas中最有用的操作之一）组合使用的。一般情况下，我们在groupby之后使用aggregate , filter 或 apply来汇总数据，transform可能稍难理解。aggregation会返回数据的缩减版本，而transformation能返回完整数据的某一变换版本供我们重组。这样的transformation，输出的形状和输入一致。一个常见的例子是通过减去分组平均值来居中数据。实践加载数据import panda

2020-06-20 16:14:33 647

转载 Seaborn常见图形绘制（kdeplot、distplot）

seaborn是基于matplotlib的Python可视化库，在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，不需要经过大量的调整就能让图变得精致好看。一、kdeplot（核密度估计图）核密度估计（kernel density estimation）是在概率论中用来估计未知的密度函数，属于非参数检验的方法之一。通过核密度估计图可以比较直观地看出数据样本本身的分布特征。seaborn.kdeplot(data,data2=None,shade=False,vertical

2020-06-20 15:49:28 16506

原创 Python爬虫第十二课：复习及总结

一、爬虫总复习这张图，它被用来描述浏览器的工作原理：请求和响应可以说贯穿了我们后面的所有学习内容。一开始，我们给爬虫下了一个定义：利用程序在网上获取对我们有用的数据。而获取数据最关键的步骤正是“请求”和“响应”。由此，我们将爬虫大致分成了四个步骤：获取数据（包含请求和响应两个动作）、解析数据、提取数据、存储数据。首先我们学习了最简单的请求方式：requests.get()import requestsurl = '（网址）'response = requests.get(url)工

2020-06-19 16:07:35 1021

原创 Python爬虫第十一课：Scrapy框架（2）——存储数据

在Scrapy的整个架构中，引擎是可以说有着最高的权利，管理着调度器、下载器、爬虫和数据管道四个重要的组成部分。这四个组成部分都听命于引擎，一丝不苟的执行引擎下发的命令。本次，我们使用Scrapy爬取职友集的招聘信息，让我们更加熟练的掌握Scrapy的用法。一、明确目标职友集可以通过索引的方式，搜索到全国上百家招聘网站的最新职位：https://www.jobui.com/rank/company/我们要获取排行榜中的公司名称、招聘职位名称、工作地点和招聘要求。二、代码实现（1）创建项目.

2020-06-18 18:29:15 1215 1

原创 Python爬虫第十课：Scrapy框架（1）

前面的关卡中，我们学习了如何用协程来提升爬虫的速度，并且通过项目实操，将协程运用于抓取HI运动的食物数据。不知道你会不会有这样一种感觉：要写出一个完整的爬虫程序需要做很多琐碎的工作。比如，要针对不同的网站制定不同的解析方式；要导入不同功能的模块；还要编写各种爬取流程的代码。我们在日常工作中会使用PPT模板来制作PPT。那么有没有一个现成的爬虫模板，让我们能够改之即用，也就是说对这个模板进行适当的修改，就能完成一个爬虫项目的开发呢？这种模板在Python中还真的存在，只不过我们一般称之为框架。就像PP

2020-06-17 17:56:24 754 1

原创 Python数据分析第十四课：数据分析知识总结

在前面的学习中，我们了解了什么是数据分析：就是从数据里面寻求真正有价值的信息，并对实际的工作或者生活有一定的指导作用，这个过程就叫数据分析。由此，我们总结了数据分析的基本流程：Series和DataFrame接下来，我们主要学习了Python最重要的数据分析工具包Pandas。在Pandas中，我们首先了解了它的两种数据结构，一个Series数据就是Excel中的一条数据，一个DataFrame数据就是Excel中的一张表。接着我们学习了，利用索引值以及切片我们可以获取两种数据结构的数据。fr

2020-06-16 16:28:40 582

原创 Python数据分析第十三课：数据分析实战

一个专业的数据分析，他的定位应该是一个“谋士”，所谓谋士，应该运筹帷幄，决胜千里，不出五尺书堂，便知天下大势。我们现在已经从IT（Information Technology）时代进入了DT（Data Technology）时代。我们有能力低成本的收集和存储大量的数据，从而衍生出数据分析这个行业。数据分析最重要的作用是从数据里面寻求真正有价值的信息，并帮助我们作出合理的决策。为了更好的了解数据分析师这个岗位，本节课我们将以某招聘网站的2017年数据分析师职位数据为基础，进行数据分析。一、数据基本情况

2020-06-13 18:21:34 1531

原创 Python数据分析第十二课：单变量、双变量及多变量分析图

一、单变量分析绘图什么是单变量分析？单变量其实就是我们通常接触到的数据集中的一列数据。单变量分析是数据分析中最简单的形式，其中被分析的数据只包含一个变量。因为它是一个单一的变量，它不处理原因或关系单变量分析的主要目的是描述数据并找出其中存在的模式，也就是“用最简单的概括形式反映出大量数据资料所容纳的基本信息”。本节我们研究的是连续数值型数据的分布。那么什么样的数据是连续数值型数据呢？什么样的数据是离散型数据呢？连续型数据一般应用在计算机领域，在数据挖掘、数据分类时会遇到此类数据，因其数据不

2020-06-11 18:21:20 19105 2

原创 Python数据分析第十一课：初识Seaborn

前面我们学习了Pandas如何处理数据以及用Matplotlib对数据进行可视化，在今天的课程中我们再来感受一个更具魅力的绘图工具，它叫做Seaborn。一、Seaborn简介Seaborn 是基于 Python 且非常受欢迎的图形可视化库，并且在 Matplotlib 的基础上，进行了更高级的封装，使得作图更加方便快捷。可以通过极简的代码，做出具有分析价值而又十分美观的图形。我们先来看一下Seaborn绘制的图形。首先，我们来了解一下seanborn.set()函数：import seabo

2020-06-11 13:17:43 747 1

原创 Python数据分析第十课：绘制双Y轴和改变坐标轴默认显示方式

前面我们学习了Matplotlib的绘图流程和常用设置以及常见统计图的绘制方法。同时，我们也发现Matplotlib绘制出的图形中会存在一些问题，例如：如何绘制双Y轴坐标系？如何去掉图形默认的边框？以及如何移动坐标到指定位置？一、绘制双Y轴坐标系在进行数据分析时，有时候我们需要在同一个坐标图中比较两种数据在时间序列上的关系。由于两种数据的单位和数据并不统一，也是不同的类型的数据，因此我们不能用一个Y轴来共同衡量两类不同的数据，这时候我们就需要绘制双Y轴图。%matplotlib inlineim

2020-06-08 15:14:47 5355

原创 Python数据分析第九课：常见图形的绘制

一、柱状图柱状图使用场合是二维数据集（每个数据点包括两个值x和y），但只有一个维度需要比较。例如：年销售而，“年份”和“销售额”就是它的两个纬度，但只需要比较“销售额”这一个维度。柱状图利用柱子的高度，反映数据的差异。肉眼对高度差异很敏感，辨识效果非常好。import matplotlib.pyplot as pltx = ['战狼2','哪吒之魔童降世','红海行动','美人鱼','流浪地球','中国机长']y = [56.39,49.34,36.22,33.9,46.18,28.84]现

2020-06-06 15:05:07 1584

原创 Python数据分析补充：数据的分组与汇总（数据透视）

数据汇总是指基于已有的明细数据做进一步的统计计算，这是数据分析过程中必备的基础知识，也是学习或工作中经常使用到的知识点，类似于Excel中透视表说完成的数据汇总以及数据库中实现的分组聚合。Pandas模块既提供了Excel透视表的功能，也提供了数据库中的分组聚合功能。一、透视表功能该功能的主要目的就是实现数据的汇总统计，例如按照某个分组变量统计商品的平均价格、销售数量、最大利润等，或者按照某两个分组变量构成统计学中的列联表（计数统计），甚至基于多个分组变量统计各组合下的均值、中位数、总和等。Pand

2020-06-05 16:25:50 3207 3

原创 Python数据分析补充：多表合并与连接

在平时的学习或工作中可能会涉及多张表的操作，例如：将表结构先沟通（即变量个数和变量类型均仙童）的多张表纵向合并到一张长表中。将多张表的变量水平扩展到一张宽表中。如果对数据SQL语法比较熟悉，那表之间的合并和连接就非常简单了，对于多张表的合并，只需要使用UNION或NION ALL关键词，对于多张表之间的连接只需要使用INNER JOIN或LEFT JOIN即可。需要注意的是对于多表之间的纵向合并，必须确保夺标的列数和数据类型一致；对于多表之间的水平扩展，则必须保证多表之间拥有共同的匹配变量。

2020-06-05 16:24:47 4595

原创 Python数据分析补充：数据的引用

在Pandas模块中，可以使用iloc、loc方法方便地实现数据的筛选。import pandas as pddf1 = pd.DataFrame({'name':['甲','乙','丙','丁'], 'gender':['男','女','女','男'], 'age':[23,26,22,25], 'edu':['本科','本科','硕士','硕士']})df1

2020-06-05 16:23:31 471

原创 Python数据分析补充：数据概览与清洗

从外部导入数据后，第一件事就是要了解数据，例如数据的规模、各变量的数据类型、数据中是否存在重复值与缺失值等。一、数据类型的判断和转换我们读取一份数据，查看其数据规模、数据中各变量的数据类型。1. 数据类型的判断与转换import pandas as pd# 读取外部数据data = pd.read_excel(r'C:\Users\lin-a\Desktop\【数据分析从入门到进阶】配套数据\第5章\datas\data3.xlsx')# 查看数据规模print(data.shape)

2020-06-05 16:22:14 465

原创 Python数据分析补充：数据的读取（文本、Excel、数据库）

一、文本文件读取对于csv或txt文本文件，可以使用pandas模块中的read_table函数或者read_csv函数，它们的功能相同，区别在于各自函数中sep参数（即用于指定变量之间的分隔符）默认值不同，具体的参数如下所示：read_tabel(filepath_or_buffer,sep='\t',header='infer',names=None,index_col=None,usecols=None,dtype=None,converters=None,skiprows=None,skipf

2020-06-05 16:18:11 929

原创 Python数据分析第八课：初识Matplotlib

俗话说：“文不如表，表不如图”，如果我们将海量的数据绘制成图，就可以让我们的数据更加直观的呈现，更具说服力。在“互联网+时代”，90%的信息传到大脑，其实都是通过视觉形式来传过来的，而且可视化信息被人脑接受的速度比文字信息要快6万倍，所以，将海量的数据转换成可视化的图形是我们数据分析师必备技能。一、Matplotlib是什么Matplotlib是一个Python 2D绘图库，它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形。Matplotlib试图让简单的事情变得更简单，让无法

2020-05-31 20:42:30 731

原创 Python数据分析第七课：时间序列数据的处理

在金融、经济、物理学等领域，都需要在多个时间点观测或者测量数据，这样就产生了关于时间序列的数据。时间序列数据（Time Series Data）是在不同时间上收集到的数据，这类数据是按时间顺序收集到的，用于描述现象随时间变化的情况。学会如何对时间序列数据进行巧妙的处理非常重要，Pandas为我们提供了强大的时间序列数据处理的方法。一、日期和时间数据类型Python标准库包含了日期和时间数据的数据类型，datetime模块是开始处理时间数据最广泛的。下面我们先简单的了解下python日期和时间数据类

2020-05-31 15:26:39 2435

原创 Python数据分析第六课：多层索引

多层索引是Pandas中一个比较核心的概念，允许你在一个轴向上拥有多个索引层级，许多同学不能处理复杂的数据，最大的问题在于没法灵活的处理多层索引。而gruopby()方法可以生成带有多层索引的结果。一、多层索引的创建我们先看看Series多层索引的创建方法。import pandas as pdse = pd.Series([1,2,3,4,5,6],index=[['张三','张三','李四','李四','王五','王五'],

2020-05-31 09:54:18 5002 1

原创 Python数据分析第四课：数据的处理（数据合并、数据筛选、数据排序）

一、数据合并数据合并主要包括两种操作：轴向连接（concatenation）：pd.concat()可以沿一个轴将多个DataFrame对象连接在一起，形成一个新的DataFrame对象融合（merging）：pd.merge()方法可以根据一个或多个键将不同的DataFrame中的行连接在一起1. 轴向连接pd.concatpd.concat()函数可以将根据不同的轴进行合并，常用参数如下：pd.concat(objs,axis=0,join='outer')objs：Series、D

2020-05-26 17:47:10 2941

原创 Python数据分析第三课：数据的处理（删除数据及空值、重复数据的处理）

我们分析的数据来源有很多种，例如：爬取、公司数据库、数据公司等。但是这些数据中有些数据项是我们不需要的，甚至可能会存在重复数据和空值的情况。一、删除数据import pandas as pddf = pd.read_excel(r'C:\Users\lin-a\Desktop\data\rate.xlsx')print(df.shape)print(df.head())# 输出结果：(219, 15) CountryName Country Code 1990

2020-05-23 17:30:11 5283

原创 Excel操作：分析工具库

Excel数据分析工具，相比于主流的专业统计分析软件SPSS、SAS，其优势如下：与Excel无缝结合，操作简单，容易上手；聚合多种统计函数，其中部分工具在生成输出结果表格时，同时还能生成相应图表，有助于对统计结果的理解；使用这个现成的数据分析工具，不尽快与提高分析效率，还能够大幅度降低出错的概率。劣势如下：数据处理量有限；只能处理简单的统计分析，如果是大型数据或复杂的统计分析，还是需要使用专业的统计分析软件。一、安装分析工具库在Excel选项，中，选择加载项，在管理下拉框中，选择

2020-05-12 18:30:21 5454

原创 Excel数据分析工具：PowerPivot

数据分析有三大作用：现状分析原因分析预测分析大多数情况下，用Excel的数据透视表进行汇总分析即可，但数据量一大，Excel就跑不动了，那可以采用Access数据库和Microsoft Query，可以使用SQL语句进行查询汇总分析。数据分析归纳起来有两大类：一类是呈现现状的描述性分析。主要通过对比与细分进行现状和原因分析，可以制作数据透视表，求和、求平均值以及数据分组了解其构成...

2020-05-06 18:27:49 3170

原创 Microsoft Query：基本操作

Microsoft Query是用于将数据从外部数据源检索到其他Microsoft Office应用（特别是Microsoft Excel）中的一种程序。通过使用Microsoft Query可以从企业的数据库和文件中检索数据，而不必在Excel中重新输入需要分析的数据。也可以在每次更新数据库时，自动通过源数据库中的数据来更新Excel报表和汇总数据。一、Microsoft Query的数据源类...

2020-05-05 18:26:07 10389 1

原创 Access操作与SQL语句：数据分析

前面我们学习了Access数据库中的数据合并、数据计算、数据分组、重复数据处理四大常用的数据处理方式。数据处理的目的就是将采集到的的数据，用适当的处理方法整理加工，形成适合数据分析要求的样式，也就是一维表，为数据分析做好准备工作。我们日常工作中所做的数据分析，主要指通过对比与细分进行现状分析及原因分析，通过数据分组了解其数据构成，甚至通过不同时间维度的对比，查找数据变化的原因，最后通过制作相关...

2020-05-05 16:26:26 1505 1

原创 Access操作与SQL语句：重复数据处理

在EXCEL中处理重复数据有如下几种方法：函数条件格式标识高级筛选数据透视表那么，在Access中，处理重复数据的方法包含重复项查询、不重复项查询以及数据去重查询，同样可以通过菜单操作、SQL语句两种方式完成。重复项查询1. 菜单操作法在新建简单查询时，对话框中就有一项“查找重复项查询向导”功能，那么，就可以使用这个功能来查找数据重复项。以“订购明细表”中重复的用户ID为例...

2020-05-05 14:58:59 8209

原创 Access操作与SQL语句：数据分组

数据分析三大基本方法分别是：对比细分预测现在我们学习一下细分的方法：数据分组。进行数据分析时不仅要对总体的数量特征和数量关系记性分析，还要深入总体的内部进行分组分析。数据分组是一种重要的数据分析方法，这种方法根据数据分析对象的特征，按照一定的标志（指标），如业务、用户属性、时间等维度，把数据分析对象划分为不同的部分和类型来进行研究，以揭示其内在的联系和规律性。常用的数据分组方式主要...

2020-05-05 11:14:31 2481

原创 Access操作与SQL语句：快速实现数据计算

数据计算包括简单计算与函数计算：简单计算就是加、减、乘、除等简单算术计算函数计算就是通过软件内置的函数进行计算，比如求和，求平均值、最大值、最小值等。一、简单计算以订购明细表为例，在表中有产品、单价、数量、订购金额，订购金额即为单价乘以数量得到的。假设没有订购金额字段，需要通过简单计算来新增订购金额字段。1. 菜单操作法单击【创建】选项卡，在【查询】组中单击【查询设计】按钮；在...

2020-05-04 18:08:43 5468

原创 Access操作与SQL语句：数据合并

数据处理是根据数据分析的目的，将采集到的数据，用适当的处理方法整理和加工，形成适合数据分析要求的样式。是数据分析前必不可少的阶段，数据处理包括数据合并、数据计算、数据分组、数据去重等操作。一、数据合并1. 横向合并横向合并，就是从多个表中，根据各表共有的字段，把个表所需的记录一一对应起来。相当于Excel中的VLOOUP函数。我们之前导入了“订购明细”表，它只记录了用户订购单的信息，而用户...

2020-05-04 17:17:43 4679

原创 Access操作：基础知识与文件导入

首先，回顾一下数据分析的三大作用：现状分析告诉我们过去发生了什么原因分析告诉我们为什么发生预测分析告诉我们将来会发生什么为什么不继续采用Excel作为数据分析的工具呢？因为Excel对数据行和列数都有限制。现在数据动不动就是几百万条，Excel已经满足不了数据处理与分析的需求了！一、数据库的那些事儿数据库（Database）是按照数据结构来组织、存储和管理数据的仓库。它利用...

2020-04-25 09:53:42 2062

原创 MySQL操作：常用数据类型

一、常用数据类型数据类型是指某个变量或值的类型，通常情况下，绝大多数的变量都属于数值型、字符型和日期时间型三种。1. 数值型数值型是指变量或值以数字的形式呈现，通常情况下这些数字在经过某种四则运算后，也是具有含义的。例如用户的收入、年龄、净资产、消费频次、可支配收入等，它们都属于数值型数据。数值型数据可以细分为整数型和浮点型（即实数型），以上表格中的前5种类型均为整数型，后2种为浮点型。...

2020-04-22 18:43:50 171

原创 Excel操作：VBA基础语法

一、常见的数据类型与声明方法数据类型就是对同一类数据的统称，如整数、日期、字符串等。VBA里的数据类型有字节型（Byte）、整数型（Integer）、长整数型（Long）、单精度浮点型（Single）、双精度浮点型（Double）、货币型（Currency）、小数型（Decimal）、字符串型（String）、日期型（Date）、布尔型（Boolean）等。详见下表所示：VBA变量声明1...

2020-04-21 18:01:48 4297 1

原创 Python数据分析第二课：数据的写入与读取

一数据的写入我们可以将数据写入到文件中进行永久性的保存，支持的文件格式有HTML、CSV、JSON、Excel。csv是最为常见的以纯文本文件存储数据文件的格式，它的优点是通用性很强，不受操作系统以及具体的软件的限制。我们以写入csv为例，看一下pandas是如何是将数据写入csv文件中。from pandas import Series, DataFrameimport pandas...

2020-03-28 17:44:24 1024

原创 Python数据分析第一课：Pandas初入门

一. Pandas简介Pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。了解了Pandas的基本概念，再看一下Pandas在数据分析方面有哪些作用呢？Pandas提供的数据结构和函数的设计，将使表格化数据的工作快...

2020-03-26 15:36:00 651 1

原创 Excel操作：制作复合动态图

Excel操作：制作复合动态图**案例：**将以下数据生成图表，查看时可切换及复合查看在D列增加增长率字段在开发者工具中，插入3个复选框分别设置3个复选框的格式，链接到1月销量、2月销量、增长率所在的列将表头和商品名称复制到TRUE/FALSE的下方单元格区域中在B12单元格，也就是洗衣机的一月销量单元格，输入公式：=IF(B$9,B2,"")，即当条件为真...

2020-03-22 16:01:10 597

原创 Excel操作：制作to do list

Excel操作：制作to do list**案例：**根据以下表格制作to do list，并形成完成比例与未完成比例及图表操作步骤如下：选中D4单元格，打开开发者工具，插入“复选框”；右键单击“复选框”选中，再次单击右键-设置控件格式在弹出的窗口中，将单元格链接设置为“D4”。D5-D13的单元格参照如上的步骤，依次类推进行操作。设置后的效果如下所示，在单元格内有FA...

2020-03-22 15:22:33 9310

原创 Excel操作：使用offset函数让数据透视表动态更新

一、offset函数offset函数是一个引用函数，表示引用某一个单元格或者区域offset函数是以指定的应用为参考系，通过上下左右偏移得到新的区域的引用。返回的引用可以是一个单元格也可以是一个区域。并且可以引用指定行列数的区域。offset函数的参数如下所示：=OFFSET（基准位置，向下或上偏移几行，向右或左偏移几列，引用区域的高度，引用区域的宽度）二、使用offset定义名称选...

2020-03-16 22:20:45 3339

空空如也

空空如也