- 博客(124)
- 资源 (1)
- 收藏
- 关注
原创 【Pyecharts|GEO】Pyecharts实现微博签到中国/Pyecharts中使用scatterGL详解
前言之前在【Pyecharts Gallery】中看不中用的可视化作品集合~发布过一个可视化作品——微博签到中国,不过当时存在一个比较严重的问题,数据加载太慢了,图表中总共包含了30W+个点,渲染完所有的点都得一两分钟,在图例筛选上也存在非常严重的卡顿,用户体验实在太差,最近得空又重新研究捣鼓了下,终于解决了,这次也尽可能详细的讲解下我的解决办法;Echarts在17年发布了GL,对于量级较大的数据支持性能上有了质的提升,所以理论上我们只要GEO-Scatter图表更换成GEO-scatter
2021-01-23 22:56:37 1257 2
原创 【Python爬虫】爬取英雄联盟所有皮肤图片实现千图成像~
前文本文主要分为两个部分一部分是爬虫,这边是选择爬取英雄联盟官网英雄资料中的英雄皮肤图片,如下为新英雄seraphine的页面,包含英雄对应的所有皮肤;另一部分是图片的合成,先将所有英雄皮肤图片拼接成为一张图作为背景,然后与另一张图片进行合成,效果如下:爬虫思路整理F12打开控制台后刷新页面(https://lol.qq.com/data/info-defail.shtml?id=147),既然是找图片,直接在img标签下找就好了;获取到图片的地址之后(https://game.g
2020-11-08 00:32:09 5460 15
原创 【爬虫教程】吐血整理,最详细的爬虫入门教程~
初识爬虫学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通俗来讲,假如你需要互联网上的信息,如商品价格,图片视频资源等,但你又不想或者不能自己一个一个自己去打开网页收集,这时候你便写了一个程序,让程序按照你指定好的规则去互联网上收...
2019-12-02 21:06:08 6273 5
原创 【SQL教程|01】SQL简介——什么是SQL
SQL是一门用来操作数据库系统的语言,但我们熟知的数据库其实很多种,比如常见的Mysql,Oracle,SQLServer,近几年比较火热的clickhouse,doris DB等等。不同的数据库系统可以应用不同的使用场景,但这样也就造成了,虽然都是SQL语言,但也会存在很多不同的版本。但好在现有SQL都会去遵循ANSI 89的标准(ANSI, 美国国家标准化组织),能够保证基本命令(,,,,等等)的用法都是一致的,这也保证了我们数据从业人员在不同数据库系统之间迁移的学习成本不会太高。当然除了SQL的标准
2022-12-03 15:47:57 1293 1
原创 【Seaborn】组合图表:PairPlot和JointPlot
会自动根据数据集中的度量字段自动生成图表,而不需要我们依次去绑定数据;默认对角线是使用直方图,两侧散点图;如一样,一样也会根据数据集的度量字段自动生成图表,而不需要依次去指定;...
2022-06-04 10:46:22 895 1
原创 【Seaborn】组合图表:FacetGrid、JointGrid、PairGrid
Seaborn中有几种特殊的组合图表:、、,不同于我们在上一章讲到的组合图表,这三种组合图表是Seaborn中根据我们常用的统计场景已经将图表组合封装好了,我们只需要简单的绑定我们的数据即可完成绘制。会根据我们数据集中的维度字段快速的将一份图表复制多份。是根据数据集的维度去创建多个图表的话,那么就是根据数据集中的度量字段去生成多个坐标系;我们同样还是使用相同的数据集:我们也可以通过和分别去指定对角线的图表和非对角线的图表;如下所示,我们指定对角线的4个图表使用,非对角线的图表使用;你会发现这样对
2022-06-03 17:20:39 356
原创 【Seaborn】组合图表、多子图的实现
介绍seaborn可以非常便捷的将各种图表组合起来,如在上一章使用row和col参数可以非常快速的根据数据生成多个图表;本章主要介绍根据我们自己的个性需求生成组合图表,这里组合图表分成两种形式:多子图:在一个画布上绘制多个坐标系;图表重叠:将多个图表在一个坐标系展示;多子图在之前的内容中我们讲到了seaborn的图表层级,axes-level图表是可以添加到matplotlib的复杂figure中的,seaborn中的axes-level都有添加一个ax参数用于指定在figure中的绘图位置
2022-05-28 16:06:06 2532
原创 【Seaborn】Seaborn中的三类图表——相关性(relplot)、分布型(displot)和分类型(catplot)图表
介绍本章主要介绍在Seaborn中的三种图表类型:相关性图表(relplot)分布型图表(displot)分类型图表(catplot)相关性图表相关性图表主要是散点图和折线图,散点图用于相关性分析相比大家都会比较熟悉,seaborn中的线图主要是用于连续性数值的分析;在上一章的内容中提到过,seaborn有figure-level和axes-levle层级的两种图表,在相关性分析的图表中我们通常会使用relplot,relplot是figure-level的图表,散点图和线图我们可以通
2022-05-22 17:07:17 1627
原创 【Seaborn】初识Searborn
初识SearbonSeaborn是一个基于Matplotlib编写的可视化图形库,也能快速支持Pandas、numpy的数据结构;相较于Matplotlib90年代的绘图风格以及复杂的API,Seaborn可以更加快速便捷的绘制出更加复杂更加好看的可视化图表;就像seaborn的官方文档说的,希望通过Seaborn能够可以让你更加专注于数据本身,而不是如何去绘制整个图表;第一个例子# 引入seaborn和matplotlibimport seaborn as snsimpor
2022-05-21 15:55:06 478
原创 【Matplotlib】多子图&不均匀分布子图|subplot、subplots和add_subplot的用法
介绍本站主要介绍如何在画布(figure)中常见多个图表(axes);均匀分布子图不均匀分布子图简单例子import matplotlib.pyplot as pltplt.style.use(['ggplot']) # 设置图表风格plt.rcParams['font.sans-serif'] = ['Heiti TC']x = ["深圳", "广州", "北京", "上海"]y = [1, 3, 2, 5]ax1 = plt.subplot(2, 2, 1)ax1.ba
2022-05-21 11:26:27 888
原创 【Matplotlib】图表元素
介绍本章主要介绍在Matplotlib中的图表元素添加与配置方法,包含:画布大小标题坐标轴标题图例数据标签网格线等等基础例子在后续的例子都会基于下面这个折线图去进行配置:import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['Heiti TC']x = ['1月', '2月', '3月', '4月', '5月', '6月', '7月', '8月', '9月', '10月', '11月', '12月
2022-05-15 15:26:32 310
原创 【Maplotlib】基础图表介绍
基础图表本章内容主要在Matplotlib的基础图表。折线图折线图通常用于展示一段时间内的趋势,可以通过plot()进行折线图的绘制;import matplotlib.pyplot as plt# 设置中文字体plt.rcParams['font.sans-serif'] = ['Heiti TC']plt.plot( ["深圳", "广州", "北京", "上海"], [1, 4, 2, 3], linestyle='-.', # 线型 linewid
2022-05-08 18:05:36 530
原创 【Matplotlib】关于Matplotlib需要理解的知识&解决中文方块问题
介绍Matplotlib可以说是Python可视化领域的泰斗,如果你想学习Python可视化,那么Matplotlib肯定是没办法绕过去的。Matplotlib 是 Python 的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。Matplotlib 可以用来绘制各种静态,动态,交互式的图表,我们熟知的Seaborn,Pandas的绘图接口也是基于Matplotlib做了更高级的封装。Matplotlib 是一个非常强大的 Python 画图工具,我们可以使用该工具将很多数据
2022-05-08 14:05:31 310
原创 【爬虫+可视化】爬取S11期间EDG百度指数变化形成可视化图表
前言文章分为两个部分:爬虫&可视化爬虫根据关键词获取百度指数的数据,百度指数官网:https://index.baidu.com/我们打开F12打开控制台之后,在百度指数页面随便搜一个关键词,就可以在后台中轻易的找到请求:定睛一看,发现事情没那么简单:首先百度接口返回来的数据明显是经过加密的,所以想用的话,还必须得之后怎么去进行解密接着我们便通过关键词decrypt去页面中调用的js文件中进行查找,然后就找到了这么一个方法:看起来是像是用来解密的,需要两个参数,我们便可以大胆的
2021-11-13 13:52:09 1660
原创 【Pyecharts | Timeline】美国疫情蔓延趋势图(自动轮播)
实现效果根据时间趋势更新每日疫情信息;首先我们可以对整个可视化作品进行一个拆分:要在Pyecharts中实现自动轮播的话,首先他会包含一个Timeline组件; 其次可以看到,在每天的图像中是由一个Bar和一个Map组合而成的; 那么如何将Bar和Map组合起来呢?通过Grid就可以完成;整体结构示意图如下:接下来我们从简单的开始,首先来实现Bar先看代码:t = [['North Carolina', 1008036], ['New Jersey', 10
2021-11-06 15:03:27 724
原创 【datashader】使用datashader完成大型地理空间数据可视化
前言这篇文章来源于datashader一个官方的示例,原文地址https://examples.pyviz.org/census/census.html,这个notebook算是将其复现了一下(有些小改动);数据集可以访问https://www.heywhale.com/mw/dataset/61569b59b97cc600181fe0c1/file进行下载。整个项目依赖模块较多,而且对于版本有些限制,可以参考我的环境信息:模块导入import datashader as dsimport
2021-10-03 16:17:37 1123 1
原创 【Pyecharts | Map3D】带光影效果的3D地图 | 深圳地区二手房房价地图~
效果先看看最终实现的效果:通过Pyecharts做的一个3D地图,用户展现深圳各个小区的平均房价数据,数据是来自于和鲸社区。分步讲解模块引入import pandas as pdfrom pyecharts.charts import *from pyecharts import options as optsfrom pyecharts.commons.utils import JsCode数据处理# 读取数据,编码指定为GBKdf = pd.read_csv('/home/
2021-09-25 20:11:51 899
原创 【配色方案】可视化图表不知道怎么配色,来参考下顶尖公司的Logo配色方案~~
前言不知道大家有没有这种感觉,一个可视化图表做的好不好看,基本都取决于图表的配色,虽然当前的一些流行的可视化框架、工具,如Echarts,tableau等等,都提供了不错的配色方案,但看得多了也难免会审美疲劳,所以如果想做一个让人眼前一亮的图表,还是需要我们自己在配色上下点功夫。可是对于很多没有艺术细胞的理工男,程序员,要设计出一款不错的配色方案的概率基本等于瞎猫碰上死耗子。那该如何设计出一款不错的配色呢?今天就来给大家提供一种思路——使用顶级公司Logo的配色方案~本文将会整理17个公
2021-08-22 14:37:21 1672
原创 【Pyecharts | Line】2020年中国奥运会夺金记录!
前言通过时间线展示中国代表队每个金牌的获奖选手和项目名称;截止文章发布的时间,目前中国队获得22枚金牌,位列奖牌榜第一位;话不多说,我们先来看下最终实现的效果:有多少人能看出来这是通过折线图(Line)来实现的~实现细节数据来源首先奖牌数据是通过咪咕视频的接口数据获取的。咪咕视频夺金时刻页面:直接通过后台接口请求即可,没有碰到什么反爬虫措施,获取的数据是Json,为方便后期处理,通过Pandas转为DataFrame,代码如下:import request.
2021-08-01 13:49:59 771
原创 【2020东京奥运会】奥运榜单以及各国参赛运动员数据可视化~
奖牌榜数据通过咪咕视频的接口获取奖牌榜单的数据,貌似也没做什么反爬虫,直接就可以获取到数据:import requests rank_url = 'https://app-sc.miguvideo.com/vms-livedata/olympic-medal/total-table/15/110000004609'data = requests.get(rank_url).json()数据处理,将json数据转化为dataframe:df = pd.DataFrame()for
2021-08-01 09:57:46 12969 5
原创 关于Youtube榜单数据的探索,排名第一的视频播放次数已接近90亿次!
数据来源数据来源于维基百科——List_of_most-viewed_YouTube_videos,数据统计截止时间在2021年7月份左右(不同榜单时间会有不一样)。没有梯子的同学可以去https://www.heywhale.com自取。最多播放的视频排名第一的是一首儿歌,总播放次数达到了近90亿次播放,平均每个地球人播放了1.5次,恐怖如斯。 在榜的视频大多都是MV,其中Ed Sheeran,Maroon5,Katy Perry多次上榜;在榜时间最长的视频榜单明细:柱状图
2021-07-18 18:46:13 4442 2
原创 【plotly+ datashader+mapbox】Uber纽约上车点可视化/解决超大量地理数据可视化
前言大部分时间我都是使用Pyecharts去做可视化,不过一直有个比较头疼的问题没法解决。在pyecharts中是需要把所有的坐标点的数据加载到图表中,当数据量特别大的时候,那么这样一个图表可能会有好几百MB,使用起来会非常卡顿。虽然在Echarts中有ScatterGL来支持大数据量大可视化,不过在Pyecharts中没法直接支持,只能找一些曲线救国的方法,改善效果也不是很明显。最近使用了一下plotly,发现了超大地理数据集可视化的解决办法,我们先来看下效果:数据总共包含100W个数
2021-07-11 18:03:55 928 1
原创 【PyG2Plot】来试一下蚂蚁开源的图表库PyG2Plot效果如何~~
前言???? PyG2Plot 是 @AntV/G2Plot 在 Python3 上的封装。 G2Plot 是一套简单、易用、并具备一定扩展能力和组合能力的统计图表库,基于图形语法理论搭建而成。G2Plot是蚂蚁开源的一款可视化图标库,官方地址:https://antv-g2plot.gitee.io/zh ,因为PyG2Plot没做什么二次开发,所以文档直接看G2Plot的文档就行;...
2021-07-04 17:14:26 1258 1
原创 【Pyecharts | PictorialBar】StockX球鞋溢价排行TOP10~
前言效果展示:图表使用了Pyecharts中的象形图(PictorialBar) ,虽然是一组数据,其实是包含了两个系列:“山”样式的象形图展示数据 通过象形图展示球鞋的图片来替代坐标轴标签关键代码上文说到了,其实整个图表是通过两个系列的数据组合来完成,接下来我们将整个图表进行解耦,分开进行说明:坐标轴标签首先说明一下,在象形图中我们是可以通过图片来作为symbol的,在本项目中球鞋的图片都是来自于StockX网站,不过StockX获取的图片都是白底的,如下样式:当把
2021-07-03 12:46:20 414
原创 【Pyecharts | TreeMap】中国各省市拥有高校数量对比图~
前言效果如下,使用了Pyecharts中的TreeMap实现,可以通过点击下钻到各个省市查看高效数量~关键代码数据格式首先使用TreeMap我们得按照格式将数据准备好。TreeMap所需的数据格式如下:data = [ {"name": "湖南", "itemStyle": {"color": "#da0d68"}, "children": [ {"name": "长沙", "value
2021-06-19 17:15:42 593
原创 【Pyecharts | heatmap】解决GEO-Heatmap图表中热力区域混成一堆的情况
前言在做GEO-Heatmap时是不是遇到过如下情况:# 新建GEO实例geo = Geo( init_opts=opts.InitOpts( theme='light', width='980px', height='800px' ))data_pair = []for idx, data_item in enumerate(data): geo.add_coordinate(idx, data_item[0], da
2021-05-30 10:37:10 1370 4
原创 【Pyecharts | Map3D】带光影效果的3D地图~
前言先看效果:2020年全国GDP数据可视化关键代码基础配置我们先看下,默认效果下的Map3D效果如何。下面代码中只进行了一些基础的配置,如:图表尺寸,主题配置;图形样式,标题配置;VisualMap配置;Label文本格式配置;由于我们本次的重点是讲图表的光影效果实现,此部分代码就不多做赘述。chart = Map3D(init_opts=opts.InitOpts( width='1000px', height='600px', them
2021-05-23 14:55:28 1003 2
原创 【第七次全国人口普查 | Pyecharts】数据可视化~
前言关于第七次全国人口普查数据的探索~人口普查数据 & 可视化代码请访问和鲸社区获取~概览人口总量。全国人口共 141178 万人,与 2010 年(第六次全国人口 普查数据,下同)的 133972 万人相比,增加 7206 万人,增长 5.38%,年平均增长率为 0.53%,比 2000 年到 2010 年的年平均增长率 0.57%下降 0.04 个百分点。数据表明,我国人口 10 年来继续保持低速增长态势。户别人口。全国共有家庭户 49416 万户,家庭户人口为 1292
2021-05-23 11:35:01 11897 28
原创 【Pyecharts | Scatter】气泡图实现 / 1990 与 2015 年各国家人均寿命与GDP
前言先看效果:这个是来自Echarts官方的可视化作品,???? 点我跳转,通过Scatter来实现的,本文将通过pyecharts来实现。关键代码绘制1990年的数据先画一个散点图来展示1990年的数据~为什么不一起添加1990年和2015年的数据呢?因为在直角坐标系数据中,你必须共用一个x轴的数据才能通过.add_axis()分别添加两个系列的数据,但这两个年份的x轴数据(人均GDP)显然是不一样的,所以只能分别绘制之后然后通过overlap组合在一起~scatter
2021-05-07 16:50:53 2569
原创 【pyecharts | 颜色配置】关于pyecharts中自定义颜色问题详解
前言最近微信上经常有小伙伴问到pyecharts颜色配置的问题,其实pyecharts颜色配置很简单,不过由于可以配置的方式有点多,经常让人混淆,所以本文汇总一下在pyecharts中可以配置的颜色的方法,简单做个对比!准备工作模块导入from pyecharts.charts import *from pyecharts import options as opts示例数据# 虚假数据x_data = ['Apple', 'Huawei', 'Xiaomi', 'Oppo', 'Vivo
2021-05-06 20:06:05 27698 10
原创 【SQL | 03】数据表关联「left join / right join / inner join / full join / cross join」
前言在取数分析工作中,往往需要用到多个表的数据,比如付费的表和用户注册表关联来计算注册付费率等等,这样在写SQL过程中就会涉及到表的关联。目前的关联方法有left join / right join / inner join / full join / cross join五种,根据不同的关联方式会呈现不同的关联效果。我们通过示意图来对比:现在我们有两张表Table A和Table B:A left join B:A表中的记录全部保留,B表中未关联上的记录全部舍弃;A right j
2021-05-06 16:10:36 1015
原创 【SQL | 02】SQL中查询效率优化
前言这里会总结一些在日常工作中提升查询效率的一些优化方法!注意:此部分优化适用于Oracle,Hive-SQL并不适用~使用索引首先我们看下百度百科上的解释:在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。索引是独立于表的一中物理存储结构,当我们语句中用到索引的字段的时候,数据库会首先去索引中查
2021-05-03 15:16:23 497
原创 【Pandas | 05】窗口函数「rolling,expanding」
前言Pandas中的窗口函数应用—— .rolling()和.expanding()。.rolling().rolling()表示相邻的N个数据项为一个窗口,可以进一步对窗口内的数据做聚合运算。示例数据ser = pd.Series([1,2,3,None,4,None,6])print(ser)"""0 1.01 2.02 3.03 NaN4 4.05 NaN6 6.0dtype: float64""".rolling()
2021-05-03 15:02:14 1208
原创 【Pyecharts | MAP】美国大选数据可视化~
前言整体效果如下:整个图表是通过Map,Bar,PictorialBar三个图标组合起来完成的。为了方便理解,下面我会将图表拆解来进行说明。关键代码票数对比第一部分是最上方的特朗普与拜登的票数对比,这个地方其实是用了一个Bar用于显示对比条,头像是通过PictorialBar来定位完成。先看直方图:相比于默认直方图需要做如下配置:添加阴影和白框,可以让图表看起来更立体一点;拜登和特朗普的数据项通过两个系列添加,并使用堆叠效果,实现对比效果;关闭坐标轴显示,并固定最
2021-04-26 13:32:07 943
原创 【SQL40例】吐血整理,数据分析师入门SQL训练题40例!!
前言SQL50例为面向数据分析师的SQL训练语句,包含50个由易到难的SQL查询(select)实例。准备工作安装Mysql这个网上教程很多,可以自己根据自己的系统去搜索对应的安装教程。官网下载:https://dev.mysql.com/downloads/mysql/,windows用户推荐下载msi安装包;在安装过程中,MySQL会自动创建一个root用户,并提示输入root口令,这将是你后期用于连接Mysql的账号密码,不要忘记了~安装教程Linux & Windows
2021-04-19 18:30:08 1148 1
原创 【梯度下降】通过一元线性回归模型理解梯度下降法
前言关于线性回归相信各位都不会陌生,当我们有一组数据(譬如房价和面积),我们输入到excel,spss等软件,我们很快就会得到一个拟合函数:hθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1xhθ(x)=θ0+θ1x但我们有没有去想过,这个函数是如何得到的?如果数学底子还不错的同学应该知道,当维数不多的时候,是可以通过正规方程法求得的,但如果维数过多的话,像图像识别/自然语言处理等领域,正规方程法就没法满足需求了,这时候便需要***梯度下降法***来实现了。梯度
2021-04-19 14:31:41 548
原创 【机器学习 | Naive Bayes】通过简单例子来理解朴素贝叶斯算法~
朴素贝叶斯(Naive Bayes)简单理解我们可以先通过一个简单的例子来了解什么是朴素贝叶斯算法。我们现在有如下数据:颜色水果红水果A黄水果B红水果A黄水果B黄水果B红水果B那么我现在手上有一个黄色的水果,我需要去预测它是哪种水果。根据上面的样本数据,我们分别计算出颜色为黄色情况下,是水果A和水果B的概率:P(水果A∣黄色)=33=1P(水果A|黄色) = \frac{3}{3} = 1P(水果A∣黄色)=33=1P(水果
2021-04-19 13:52:03 474
原创 【爬虫】爬取天天基金历史净值数据&基金收益可视化~
目录前言爬虫接口获取完整代码数据可视化完整代码前言如需转载请先私信联系!!!全文分为两个部分:一部分为爬虫,根据基金代码爬取历史净值数据;一部分为可视化,通过pyecharts绘制基金收益图表;爬虫这边以诺安成长混合基金为例,其他基金也一样;接口获取打开http://fundf10.eastmoney.com/jjjz_320007.html,然后F12打开控制台,找到下面窗口进行翻页操作,注意顺序不要颠倒;每次翻页操作在后台就会出现一个新的请求,点击preview可以发
2021-04-19 00:20:54 5659 4
原创 解决「pyecharts使用pandas数据时,图表空白,只有坐标轴」的问题
错误示例在数据处理的过程中,我们会经常用到pandas,如果直接将pandas中的数据直接传入Pyecharts中使用,会发现图表是空白的,只剩坐标轴。如下:df = pd.DataFrame( dict(Brand=['Apple', 'Huawei', 'Xiaomi', 'Oppo', 'Vivo', 'Meizu'], sales=[123, 153, 89, 107, 98, 23]))bar = (Bar() .add_xaxis(df['Br
2021-04-11 16:18:04 2049
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人