自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 DataWhale_Matplotlib_Matplotlib初相识

0.序本人从事交通大数据的数据清洗及分析工作,工作中会需要实时观查数据同步的异常情况,并且需要分析数据质量。故通常将各个监测指标可视化,分区并实时观察数据同步及分布情况。所以我想做一个可视化的面板,实现自动可视化报表监测。将统计结果直观的展现出来,并根据预设的阈值触发报警推送机制。本文为本次学习任务的Task01,旨在对matplotlib的功能有个最初步的了解和认识,希望能够帮助到有需要的learner!1.导入三方模块import pandas as pdimport matplotlib.p

2020-12-14 22:41:46 172 1

原创 机器学习训练_金融风控_Task5_模型融合

序模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升。# 简单加权平均-结果直接融合'''生成一些简单的样本数据,test_prei - 代表第i个模型的预测值y_test_true - 代表真实值'''test_pre1 = [1.2, 3.2, 2.1, 6.2]test_pre2 = [0.9, 3.1, 2.0, 5.9]test_pre3 = [

2020-09-28 00:56:24 3330

原创 机器学习训练_金融风控_Task4_建模调参

序特征工程之后,我们基本了解了数据集的概貌,通过缺失值处理、异常值处理、归一化、独热编码、特征构造等一系列方法对数据进行了预处理,并根据不同模型的数据要求对数据进行了一定的转化,从而进行下一步模型的学习过程。以下就是对数据进行处理后,训练模型的过程代码。其实可以先使用随机森林等方法先做一步特征筛选的工作,我这里没有做特征的筛选,而且先复现了数据准备,模型构造和调参的过程。若是模型初步表现不错且较稳定,我会后续做特征筛选或特征构造,进一步提高模型的分数。数据准备导入第三方库import pandas

2020-09-24 14:42:06 1511 2

原创 DataWhale_Matplotlib_布局格式定方圆

0 序这一章主要讲解了子图种类和子图上的方法。对于数据分析来说,针对某一类数据往往需要给出不同维度的图表分析,以形成可视化看板,所以子图的排版以及操作方法的熟练掌握就显的尤为重要了。章节内容不多,但是同样重要,上代码~1 导入三方模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 解决中文乱码的问题plt.rcParams['font.sans-serif'] = ['SimHei']# 解决负

2020-12-20 21:10:28 250 1

原创 DataWhale_Pandas_pandas基础

0 序这一章节对pandas的基本属性和相关函数做了了解,包括Seires,DataFrame的用法等。话不多说,直接来学把~

2020-12-19 23:19:06 323 2

原创 DataWhale_Matplotlib_艺术画笔见乾坤

0 序这一章节对matplotlib的框架做了详细的介绍,包括matplotlib的三个API分别是什么,有什么作用?matplotlib都有哪些对象容器,分别有什么联系和关系,又包含了哪些功能等等。接下来,我们就一起来看看,俗话说得好,磨刀不误砍柴工,打基础至关重要呀~1 概述1.1 matplotlib的三层apimatplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas - 绘图区matplotlib.backend_bases.Re

2020-12-19 00:30:28 377 2

原创 DataWhale_Pandas_预备知识

0.序pandas对数据分析来说,可以说是可以起到至关重要的作用;熟练运用pandas既可以大大提升我们的工作效率,还能轻而易举的和其他工作产生联动性。这一专题是跟随datawhale学习pandas的打卡学习专题,也希望能对读者有帮助;这一章节,做个预热,学习一些python及numpy模块的知识;一.Python基础先导入第三方模块import numpy as npimport timeit1.列表推导式与条件赋值L = []'''当我们想要生成一个递增数字序列,可以先定义一个函数

2020-12-16 22:11:59 285 1

原创 DataWhale强化学习(二)

序上一章节简述了agent和environment的交互过程,以及强化学习涉及到的策略函数,价值函数和模型的关系。这章节主要讲述马尔可夫决策过程。马尔可夫过程如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。比如说我们这里有一个 h_t,它包含了之前的所有状态。但是这里的转移从当前 s_t转到 s_{t+1}状态,它是直接就等于它之前所有的状态。如果某一个过程满足马尔可夫性质(Markov Property),就是说未来的转移跟过去是

2020-10-23 23:45:07 162

原创 DataWhale带你入门强化学习

序强化学习讨论的核心是agent(智能体)和environment(环境)间的交互行为。主要是解决agent如何在一个复杂且不确定的environment中去极大化它所获得的奖励。本篇博文代码部分较少,主要是解释强化学习的概念以及其应用领域。强化学习和监督学习的对比监督学习举个图片分类的例子,我们的数据事先会有标定,如车/飞机/火箭/轮船等等。这些图片都打好了确定的标签。通过训练分类器(如神经网络),把真实的标签告诉分类器(如我告诉这张图片是一个飞机),当训练器做出了错误的判断(如输出了汽车),那

2020-10-20 21:58:20 630

原创 机器学习训练_金融风控_Task3_特征工程

特征工程特征工程为建模提前加工原料,不同的模型对数据的类型和形式也有所不同,对数据的处理也不尽相同。下面主要以代码展示特征工程环节,为下一节的建模调参做准备。导入第三方模块import pandas as pdimport numpy as npimport missingno as msnoimport matplotlib.pyplot as pltimport seaborn as snsfrom tqdm import tqdmfrom sklearn.preprocessing

2020-09-22 00:06:40 512

原创 机器学习训练_金融风控_Task2_EDA

此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约目的:1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备这里主要记录了代码部分一、导入第三方模块import pandas as pdimport nu

2020-09-18 22:54:04 1028

原创 机器学习训练_金融风控_Task1_赛题理解

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, \ precision_recall_curve, roc_curve, roc_auc_score# 读取数据train = pd.read_cs

2020-09-16 10:01:21 401

原创 原创 零基础入门NLP之新闻文本分类_Task6

由于深度学习没有经过系统性的学习,所以这个章节基本就是对学习资料内容的通读和代码复现。学习目标了解了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetuneTransformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但

2020-08-01 11:19:53 482

原创 零基础入门NLP之新闻文本分类_Task5

Word2Vec的使用和基础原理Word2Vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,Word2Vec模型可以方便地从新增预料中学习到新增词的向量表达,是一种高效地在线学习方法。本文主要通过代码的形式,介绍Word2Vec的使用和原理。导入第三方模块from gensim.models.word2vec import Word2Vecimport logging # 提供日

2020-07-31 23:21:10 371

原创 零基础入门NLP之新闻文本分类_Task4

与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。这一TASK主要演示了如何利用深度学习来完成文本表示。本章主要使用FastText来完成深度学习词向量的表示。FastText通过Embedding层将单词映射到稠密空间,然后将句子中的所有单词在Embedding层空间进行平均,进而完成分类工作。所以FastText层是一个三层的神经网络:输入层、隐含层和输出层。下图是使用Keras实现的FastText网络结构以下是通过FastText完成词文本分类的代码和释义,通过代码复现

2020-07-27 21:45:08 344

原创 零基础入门NLP之新闻文本分类_Task3

在自然语言领域中,文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。1.One-hot 将所有句子的字进行索引,然后每个字转换成稀疏向量,即将每一个单次用一个离散的向量表示。2.Bag of Words 词袋表示,也称为Count Vectors。即每个文档的字或词可以使用出现次数来进行表示。3.N-gram 与CountVectors类似,不过加入了相邻单词组合成为了新的单词,并进行计数。4..

2020-07-24 12:53:52 419

原创 零基础入门NLP之新闻文本分类_Task2

零基础入门NLP之新闻文本分类_Task2Taks2中要完成的主要是对新闻数据的分布规律进行探索和了解。这里主要是对代码进行了复现与详解。1.导入第三方模块import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom collections import Counter # python中自带的计数器2.读取训练集,这里我导入了全量训练集train_df = pd.read_csv(r'D:\

2020-07-23 09:18:43 645

原创 零基础入门NLP之新闻文本分类

零基础入门NLP之新闻文本分类1.赛题目标了解NLP从数据处理到建模,再到训练调参等等步骤的细节和关键点。2.赛题任务对新闻文本进行分类。3.数据此次数据为新闻文本数据,且数据在下载前已经进行了脱敏处理,这也是这次赛题的难点。总体来说,数据分为14类:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。数据由训练集和测试集(A/B)构成,训练集包括20W条新闻数据,测试集A与测试集B分别包括5W条数据。有两个测试集是因为保证赛制变化后所有参赛选手的公平性。4.

2020-07-21 21:54:39 993 1

原创 零基础入门CV赛事- 街景字符编码识别_TASK1

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第二场 —— ***零基础入门CV赛事之街景字符识别***赛题以计算机视觉中字符识别为背景,要求预测真实场景下的字符识别,这是一个典型的字符识别问题赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集blog仅记录代码部分导入模块import json # 方便对JSON格式数据的处理import nump

2020-05-18 21:57:01 536

原创 二手车交易价格预测_Task5_模型融合

模型融合_代码示例部分#导入工具包import numpy as npimport pandas as pdfrom sklearn import metricsfrom sklearn import linear_modelfrom sklearn.datasets import make_blobs # 这是打包好的波士顿房价数据集from sklearn import...

2020-04-04 21:35:17 576

原创 二手车交易价格预测_Task4_建模与调参

建模与调参_代码示例部分# 导入工具包import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore') # 代码可以正常运行但是会提示警告,很烦人,有了这行代码就能忽略警告了pd.set_option('display.max_columns', None) # 显示...

2020-03-31 12:08:53 2140

原创 二手车交易价格预测_Task3_特征工程

特征工程_代码示例部分1.导入数据# 导入第三方工具包import pandas as pdimport numpy as npfrom sklearn import preprocessingimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom operator import item...

2020-03-27 16:35:13 601

原创 二手车交易价格预测_Task2_EDA - 数据探索性分析

EDA - 数据探索性分析_代码示例部分代码示例1.载入各种数据科学以及可视化库import warnings # 利用过滤器实现忽略警告语句import pandas as pdimport numpy as npimport scipy.stats as stimport pandas_profilingimport seaborn as snsimport miss...

2020-03-24 16:14:04 461

原创 Python--Numpy库学习笔记

ndarraynadrray就是N维数组对象,是一个快速灵活的大数据集容器可以用这种数组(ndarray)对整块数据执行数学运算导入Nump库的代码import numpy as np生成一些随机数据data = np.random.randn(2, 3)–numpy.random.randn()randn函数返回一个或一组样本,具有标准正态分布标准正态分布又称为u分...

2019-07-24 11:51:55 493

原创 MySQL学习笔记打卡-4

4.1 MySQL 实战#学习内容#数据导入导出将之前创建的任意一张MySQL表导出,且是CSV/XLS格式再将CSV/XLS表导入数据库–导出表(email表,xls格式)右键单击-导出向导-选择Excel数据表(.xls)-设置导出路径和文件名称-一直下一步-导出成功*–结果–导入上一步导出的email(*.xls)表右键目标数据库下的表,选择导入向导选择Excel文...

2019-04-12 23:34:07 236

原创 MYSQL学习笔记-打卡2

MYSQL学习笔记-打卡22.1 MySQL 基础 (二)- 表操作#学习内容#MySQL表数据类型用SQL语句创建表语句解释设定列类型 、大小、约束设定主键用SQL语句向表中添加数据语句解释多种添加方式(指定列名;不指定列名)用SQL语句删除表语句解释DELETEDROPTRUNCATE不同方式的区别用SQL语句修改表修改列名修改表中数据删除行删除列...

2019-04-04 21:27:01 287

原创 MYSQL学习笔记-打卡1

Task 1(3天)1.1 - MySQL 软件安装及数据库基础学习内容:1.软件安装及服务器设置。http://www.runoob.com/mysql/mysql-install.html2.使用图形界面软件 Navicat for SQL3数据库基础知识a.数据库定义b.关系型数据库c二维表d.行e.列f.主键g.外键4.MySQL 数据库管理系统a.数据库b....

2019-04-01 21:56:50 479

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除