自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 MySQL教程五——SQL高级处理

一、窗口函数1. 窗口函数概念及基本的使用方法窗口函数也称为OLAP函数。OLAP 是 OnLineAnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。为了便于理解,称之为 窗口函数。常规的SELECT语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。窗口函数的通用形式:<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY &l

2021-12-23 21:01:05 117

原创 Matplotlib学习教程五

目录一、matplotlib的绘图样式(style)1.matplotlib预先定义样式2.用户自定义stylesheet3.设置rcparams4.修改matplotlibrc文件二、matplotlib的色彩设置(color)1.RGB或RGBA2.HEX RGB 或 RGBA3.灰度色阶4.单字符基本颜色5.颜色名称6.使用colormap设置一组颜色本节详细介绍matplotlib中样式和颜色的使用,绘图样式和颜色是丰富可视化图表的重要手段,因此熟练掌握本章可以让可视化图表变得更美观,突出重点和凸

2021-12-23 11:05:30 229

原创 MySQL教程四——集合运算

一、表的加减法1. 什么是集合运算?集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。在标准 SQL 中, 分别对检索结果使用 UNION, INTERSECT, EXCEPT 来将检索结果进行并,交和差运算, 像UNION,INTERSECT, EXCEPT这种用来进行集合运算的运算符称为集合运算符。2. 表的加法–UNION接下来我们演示UNION的具体用法及查询结果:...

2021-12-22 22:25:00 1604

原创 Matplotlib学习教程四

一、Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API:matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(self, x, y, s

2021-12-21 20:49:48 414

原创 Matplotlib学习教程三

首先做一些设置:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号一、子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,

2021-12-20 16:46:01 80

原创 Matplotlib学习教程二

一、概述1. matplotlib的三层apimatplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似:准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas 代表了绘图区,所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器,可以近似理解为画笔

2021-12-19 20:43:08 173

原创 MySQL教程三 复杂一点的查询

1.视图1.1 什么是视图视图是一个虚拟的表,不同于直接操作数据表,视图是依据SELECT语句来创建的(会在下面具体介绍),所以操作视图时会根据创建视图的SELECT语句生成一张虚拟表,然后在这张虚拟表上做SQL操作。1.2 视图与表有什么区别视图是基于真实表的一张虚拟的表,其数据来源均建立在真实表的基础上。视图不是表,视图是虚表,视图依赖于表。1.3 为什么会存在视图通过定义视图可以将频繁使用的SELECT语句保存以提高效率。通过定义视图可以使用户看到的数据更加清晰。通过定义视图可以不对

2021-12-18 22:33:54 153

原创 MySQL教程二 基础查询与排序

1. SELECT语句基础1.1 从表中选取数据基本SELECT语句包含了SELECT和FROM两个子句(clause)。示例如下:SELECT <列名> FROM <表名>;#例如SELECT product_name FROM products;其中,SELECT子句中列举了希望从表中查询出的列的名称,而FROM子句则指定了选取出数据的表的名称。products是上一篇内容里创建的表格。1.2 从表中选取符合条件的数据SELECT 语句通过WHERE子句来指定

2021-12-16 20:19:09 193

原创 Matplotlib学习教程一

Matplotlib学习教程系列用来记录本人跟随datawhale系统学习Matplotlib的全过程。下图是该项目的大纲,总共五个章节介绍整个Fantastic-Matplotlib数据可视化项目。1.认识MatplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib是Python数据可视化库中的泰斗,它已经成为python中公认的数据可视化工具,我们所熟知的pan

2021-12-14 21:58:26 386

原创 MySQL教程一

MySQL教程系列主要用来记录一个完整的MySQL学习过程.1.环境配置MySQL 官网上的社区版软件的下载地址, 选择MySQL Installer for Windows可以下载 windows 操作系统下的最新版 MySQL安装文件. 如果需要安装历史版本, 可以选择最后的Download Archives后选择MySQL Installer,然后在新页面里选择所需历史版本的社区版。详细的安装步骤可参考详细安装步骤最后将MySQL Workbench 连接 MySQL。MySQL Workbe

2021-12-14 16:06:35 94

原创 第三课 条件判断

条件判断计算机沟通的逻辑,明确的让计算机知道,在什么条件下,该去做什么。单向判断:if例1:# 为钱包赋值money = 1000# 条件:如果有1000块钱以上(包含1000块),就去吃日料if money>=1000: # 结果:显示‘你去吃日料’的结果 print('金刚狼带凤凰女去吃日料') 双向判断:if…else…例2:# 赋值语句:为体重赋值weight = 98# 条件:满足体重超过90(包含90)if weight

2021-12-14 14:32:32 438

原创 第二课 数据类型与三个函数str() int() float()

例子:请运用所给变量,使用数据转换 str()、int()、float()及数据拼接符号+,要求打印结果如下:美国队长2该片于2014年4月4日在北美与中国同步上映name = '美国队长'num = '2.5' word = '该片于2014年4月4日在北美与中国同步上映。'print(name + str(int(float(num))) + word)解题思路:可将 num 变量先用 float()转为浮点型,然后转为 int()类型,最后再转为str()类型,然后就可以拼接了,..

2021-12-13 23:57:52 881

原创 第一课print()输出函数(包含心形图案代码)

第一课训练营主要内容:print()函数以及单引号、双引号和三引号的用法,单引号和双引号的区别在于:可以在双引号里编辑包含单引号的内容,例如print("Let's go!")其他的用法单双引号完全一致!三引号能够保持内容的分行,当然单双引号也可以通过转义字符\n进行分行.#1. 分别用单引号,双引号打印输出一句:print('大数据为人才赋能,AI引领未来')print("大数据为人才赋能,AI引领未来")#2. 使用三引号打印 :print(''' 先立一个小目标,

2021-12-12 22:51:29 2372

原创 二手车价格预测——Task5 模型融合

文章目录前言一、代码示例1.引入库2.读入数据3.建立模型4.加权融合总结前言当我们在做数据挖掘的时候,往往会发现单个模型的预测结果总是不如人意,这个时候我们不妨尝试模型融合,把多个模型通过加权融合或stacking融合的方法进行融合.往往这样我们能够得到更好的效果.详细的stacking理论可以参考以下链接:[link](https://blog.csdn.net/wstcjf/article/details/77989963)或者是参考以下链接:https://blog.csdn.n..

2021-04-21 20:32:29 293 1

原创 二手车价格预测——Task4 建模调参

文章目录前言一、代码示例1.读取数据2.线性回归 & 五折交叉验证 & 模拟真实业务情况3 多种模型对比5.模型调参总结前言利用前面筛选留下来的特征和为模型准备好的数据,就可以开始建立模型了。当然模型也有很多,一般我们会建立多个单模,然后进行比较,选择效果比较好的,进行调参。相关的模型算法参考如下:线性回归模型-https://zhuanlan.zhihu.com/p/49480391决策树模型-https://zhuanlan.zhihu.com/p/6530479

2021-04-12 22:05:08 179

原创 二手车价格预测——task3 特征工程

文章目录前言一、代码示例1.引入库2.读入数据3.删除异常值3.特征构造4 特征筛选总结前言特征工程在数据挖掘中占有至关重要的地位,尤其是在数据挖掘竞赛中,特征工程基本上都是提分的关键点。本次二手车价格预测比赛,数据里的特征较多,当然需要我们去筛选一些特征,以及针对响应的模型,挖掘更多的特征。提示:以下是本篇文章正文内容,下面案例可供参考一、代码示例1.引入库代码如下(示例):import pandas as pdimport numpy as npimport matplotlib.

2021-04-12 15:06:24 169

原创 二手车价格预测——task2 数据分析

文章目录前言一、代码示例1.引入库2.读入数据3.总体数据概览4.判断数据缺失和异常5.了解预测值的分布6 特征分为类别特征和数字特征,并对类别特征查看unique分布7 数字特征分析8 类别特征分析9 用pandas_profiling生成数据报告总结前言对于数据建模来说,数据分析是必不可少的一部分:EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值..

2021-04-12 00:16:06 432

原创 二手车价格预测——task1 赛题理解及baseline

文章目录前言一、赛题理解1.1 赛题概况1.2 预测指标二、baseline1.引入库2.读入数据3.特征与标签构建4.模型训练与预测总结前言本次比赛是天池数据平台组织的数据分析新手学习者开发赛,比赛的内容是二手车价格预测,数据由天池平台提供,初看到这个题目的时候,我第一反应是使用线性回归方法,当然这是最简单的,可能得到的结果不是特别好,因此我们这里使用的是lgb,下面一起来看一下吧.提示:以下是本篇文章正文内容,下面案例可供参考一、赛题理解1.1 赛题概况比赛要求参赛选手根据给定..

2021-04-11 18:29:22 589

原创 心电图信号分类预测——Task5 模型融合

文章目录前言一、模型融合是什么?二、使用步骤1.引入库2.引入一个降存函数3.读入数据4.stacking融合总结前言这次是我第一次接触到模型融合,之前没打过什么比赛,也没有什么人教,沟通交流的人也少,自从发现datawhale这个组织之后,发现里面很多宝藏男孩、宝藏女孩,从中学习到了很多东西,包括数据挖掘、数据分析、特征工程等等.今天又到了新一期学习的最后一个任务,这个任务真的还是蛮难的,我花了挺多时间 代码操作还是有问题.提示:以下是本篇文章正文内容,下面案例可供参考一、模型融合是什..

2021-03-29 01:18:09 453 4

原创 心电图信号分类预测——Task4 建模与调参

文章目录前言一、目前常见的模型及评价、调参方法二、代码示例1.引入库2.读入数据总结前言经过Task3的特征提取正常情况下我们可以得到训练集的特征,但我的电脑没能跑出来数据,因此使用的是小伙伴分享的特征数据集train_features_file.pkl,下面开始尝试选择合适的模型以及参数.提示:以下是本篇文章正文内容,下面案例可供参考一、目前常见的模型及评价、调参方法1.1 逻辑回归优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从..

2021-03-25 20:58:49 686 1

原创 心电图信号分类预测——Task3 特征提取

文章目录前言一、学习目标二、内容介绍总结前言此部分为零基础入门数据挖掘-心跳信号分类预测的 Task3 特征工程部分,带你来了解时间序列特征工程以及分析方法提示:以下是本篇文章正文内容,下面案例可供参考一、学习目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用二、内容介绍1.数据预处理时间序列数据格式处理加入时间步特征time2.特征工程时间序列特征构造特征筛选使用 tsfresh 进行时间序..

2021-03-22 20:23:52 1502 1

原创 心电图信号分类预测——Task2 数据分析

文章目录前言一、EDA目标二、内容介绍三、代码示例总结前言我们上一篇文章已经读入了数据,并且使用head()、以及shape()简单的了解了一下数据的一个形式,接下来的话我们需要进一步对数据的缺失值、异常值等进行检验,并解决这些问题,为下一步特征提取做准备.提示:以下是本篇文章正文内容,下面案例可供参考一、EDA目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相..

2021-03-17 16:20:34 579 2

原创 多分类算法

多分类算法常见的评估指标如下:其实多分类的评价指标的计算方式与二分类完全一样,只不过我们计算的是针对于每一类来说的召回率、精确度、准确率和 F1分数。1.混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测为

2021-03-15 20:53:31 1389

原创 心电图心跳信号多分类预测——赛题理解及baseline学习

文章目录前言Taks1——赛题理解1.1 学习目标1.2 了解赛题1.2.1 赛题概况1.2.2 数据概况1.2.3 预测指标1.3 代码示例1.3.1读入数据总结前言赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。详情可参见链接:https://tianchi.aliyun.com/competition/entrance/531883/introduction提示:以下是本篇文章正文内容,..

2021-03-15 20:42:43 1439 1

原创 DataWhale数据分析组队学习——Day7

DataWhale数据分析组队学习——Day7文章目录DataWhale数据分析组队学习——Day7前言社交⽹络分析图类型图统计指标数据处理步骤具体代码如下总结前言今天学习的内容是学术前沿分析的Task5——作者信息关联.具体任务如下:学习主题:作者关联(数据建模任务),对论⽂作者关系进⾏建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论⽂作者知识图谱、图关系挖掘社交⽹络分析图是复杂⽹络研究中的⼀个重要概念。Graph是⽤点和线来刻画离散事物集合中的每对事物

2021-01-17 21:33:54 232

原创 DataWhale数据分析组队学习Day6

DataWhale数据分析组队学习Day6文章目录DataWhale数据分析组队学习Day6前言文本分类思路数据处理步骤思路1思路2总结前言今天学习数据分析之学术前沿分析的第四个任务——论文种类分类.学习主题:论⽂分类(数据建模任务),利⽤已有数据建模,对新论⽂进⾏类别分类;学习内容:使⽤论⽂标题完成类别分类;学习成果:学会⽂本分类的基本⽅法、 TF-IDF 等;关于TF-IDF的更多内容可参考[机器学习]TF-IDF是什么.文本分类思路思路1:TF-IDF+机器学习分类器直接使⽤

2021-01-16 23:05:12 242 1

原创 DataWhale——数据分析组队学习Day5

DataWhale——数据分析组队学习Day5文章目录DataWhale——数据分析组队学习Day5前言数据处理数据处理步骤代码实现总结前言今天要学习本次组队学习的第三部分:任务主题:论⽂代码统计,统计所有论⽂出现代码的相关统计;任务内容:使⽤正则表达式统计代码连接、⻚数和图表数据;任务成果:学习正则表达式统计;下面来看详细的操作:数据处理在原始arxiv数据集中作者经常会在论⽂的 comments 或 abstract 字段中给出具体的代码链接,所以我们需要从这些字段⾥⾯找出代码的链

2021-01-15 22:47:28 119

原创 DataWhale——数据分析组队学习Day4

DataWhale——数据分析组队学习Day4前言这一节是第二个任务了,论文作者统计.任务主题:论⽂作者统计,统计所有论⽂作者出现评率Top10的姓名;任务内容:论⽂作者的统计、使⽤ Pandas 读取数据并使⽤字符串操作;任务成果:学习 Pandas 的字符串操作;数据读取import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析data = []with open("arxiv-metadata-oai-2019.js

2021-01-14 23:04:42 57

原创 DataWhale——数据分析组队学习(Day3)

DataWhale——数据分析组队学习(Day3)前言今天是第三天了,继续淦.今天的任务是继续上一天数据预处理的内容,从数据中提取出来2019年以后的论文内容,以及数据分析和可视化的内容.一、数据预处理我们的任务要求对于2019年以后的paper进⾏分析,所以⾸先对于时间特征进⾏预处理,从⽽得到2019年以后的所有种类的论⽂:data["year"] = pd.to_datetime(data["update_date"]).dt.year #将update_date从例如2019-02-2

2021-01-14 00:06:16 106

原创 DataWhale数据分析组队学习——Day2

DataWhale数据分析组队学习——Day2引言读取数据数据预处理总结引言今天是第二天,花了很多时间去搜索网页爬虫的资料,具体有几种方法,要考虑到从不同的网页抓取有不同的方法,一般用的方法有requests,下面的话一种方法是使用bs4的BeautifulSoup,另外一种方法需要找到我们要爬取内容的路径,找路径需要网页的开发者模式。但是自己还是没有能短时间内掌握,所以还是老实把数据下载了下来,实属无奈。读取数据# 读入数据data = [] #初始化#使用with语句优势:1.自动关闭文件句

2021-01-12 23:15:53 273

原创 DataWhale——21期数据分析组队学习

DataWhale——21期数据分析组队学习Day1前言一、今天做了什么?二、使用步骤1.引入库2.读入数据总结Day1前言今天是参加DataWhale——21期数据分析组队学习的第一天,在参加这个组队学习之前我心里是很犹豫的,因为我的Python基础不是很好,虽然我自学了Python基础,但是我还没有真正用到案例上的经历,并且很多东西因为用的少,学习的时间长了有点淡忘了,如果我以后要从事数据分析类的工作的话几乎就没有机会了,虽然我一直有好好学习数据挖掘和数据分析的打算,那么参加这个组队学习

2021-01-11 23:16:37 90 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除