自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 动手学数据分析 task5

1、各模块作用?Image 模块提供了同名的类用来表示PIL的图像。Image模块还提供了许多工厂(factory)函数,包块从文件加载图像的函数,以及创建新图像的函数。numpy:支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。pandas 有两种数据类型:Series,DataFrame,pandas则是对上述数据类型的各类操作(基本操作、运算操作、特征类操作、关联类操作)matplotlib:可视化图形工具seaborn:是在matplotlib基础上面的封装,方便直

2020-08-28 23:30:36 175

原创 动手学数据分析task4

最基本的可视化图案有哪些?分别适用于那些场景?1柱状图展示多个分类的数据变化和同类别各变量之间的比较情况。适用:对比分类数据。局限:分类过多则无法展示数据特点。相似图表:堆积柱状图。比较同类别各变量和不同类别变量总和差异。百分比堆积柱状图。适合展示同类别的每个变量的比例。2条形图类似柱状图,只不过两根轴对调了一下。适用:类别名称过长,将有大量空白位置标示每个类别的名称。局限:分类过多则无法展示数据特点 。相似图表:堆积条形图。比较同类别各变量和不同类别变量总和差异。百分比堆积

2020-08-25 23:40:48 148

原创 动手学数据分析 task3 数据重构

一、数据合并1、使用pd.concat(objs, axis=0, join=‘outer’, […])objs: series,dataframe构成的序列 listaxis: 需要合并链接的轴,0是行,1是列join:连接的方式 inner,或者outerlist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)result_up.head()2、使用DataFrame自带的方法join方法和a

2020-08-23 22:40:36 163

原创 动手学数据分析 task2

1、检索空缺值用np.nan VS None:2、dropna和fillna有哪些参数,分别如何使用呢?填充/替换缺失数据.fillna()清除缺失值:dropna()

2020-08-22 00:00:13 122

原创 动手学数据分析task1

1、相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录import osos.getcwd()2、逐块读取read_csv()函数有一个chunkSize参数,通过指定一个chunk Size分块大小来读取文件,返回的是一个可迭代的对象Text FileReader为什么要逐块读取?电脑内存不足,不能一次性的读取时,此时就可以对csv文件进行分块读取。#写入代码chunker = pd.read_csv('train.csv', chunksize=1000)3、将

2020-08-17 23:40:27 119

原创 街景字符编码识别_Task05模型集成

提高预测精度1、集成学习方法可提高预测精度,常见集成学习方法有:Stacking、Bagging、Boosting等2、数据集扩增(简称TTA)也可提高精度,对同一个样本预测三次再求平均3、实验可知,长度为5的字符样本非常少,将定长设置为4可提高精度...

2020-06-02 23:31:31 173

原创 街景字符编码识别_Task04模型训练与验证

1 欠拟合和过拟合欠拟合:即模型没有很好地捕捉到数据特征,不能够很好地拟合数据;过拟合:即模型把数据学习的太彻底,导致测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。过拟合原因:常见是模型复杂度太高解决过拟合:构建一个与测试集尽可能分布相似的样本,训练过程不断验证模型在验证集上的精度,来控制模型的训练。因此可以划分验证集来进行验证,2 评估方法留出法:把数据集D划分为两个互斥的集合,其中一个是训练集,一个是测试集。书中给出的参考划分比例是,训练集66.6%~80%交叉验证

2020-05-30 23:38:03 215

原创 街景字符编码识别_Task03字符识别模型

1 CNN原理卷积神经网络CNN主要用于图像识别。神经网络前向传播过程:一般而言,输入的图像数据经过若干层卷积和池化处理,映射出特征向量/feature map,将特征向量传入全连接层中,得出分类识别的结果。当输出的结果与我们的期望值相符时,输出最后结果。卷积:作用是提取特征图池化:又称降采样/down_sampling,包括最大池化/max pooling、平均池化average pooling等,作用是降维全连接:将学到的“分布式特征表示”映射到样本标记空间;对前层是全连接的全连接层可以转化

2020-05-26 23:29:57 156

原创 街景字符编码识别_Task02数据读取与扩增

1 Python中读取数据的库:Pillow:Pillow是图像处理函式库PIL的一个分支;官方文档:https://pillow.readthedocs.io/en/stable/OpenCV:包含很多图像处理功能以及图像特征处理算法,如关键点监测、边缘检测和直线检测OpenCV官网:https://opencv.org/2 数据扩增方法数据扩充一般从图像的颜色、尺寸、形态、空间和像素等角度进行变换(torchvision为例)3 数据扩增库torchvision:扩充方法种类少、

2020-05-23 23:39:50 173

原创 街景字符编码识别_Task01赛题理解

赛题理解1 赛题了解赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。训练集数据包括3W张照片,验证集数据包括1W张照片,测试集A/B包括4W张照片,每张照片包括颜色图像和对应的编码类别和具体位置。所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。评价标准为准确率,选手提交结果与实际图片的

2020-05-20 23:23:52 252

原创 阿里天池新人赛_二手车交易价格预测

链接:https://tianchi.aliyun.com/competition/entrance/231784/informationtask2-EDA目录1 载入各种数据科学以及可视化库数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;其他2 载入数据载入训练集和测试集;3 数据总览简略观察数据;通过describ...

2020-03-24 21:22:08 752

原创 Pycharm运行报错:Process finished with exit code -1073741515 (0xC0000135)

解决方法修改Python版本配置:    

2018-08-29 22:52:48 8802

原创 【学习笔记】统计学入门(7/7)——假设检验

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026 索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 七、假设检验1、做假设检验的目的:结果知规律,样本推总体1.1 方法参数估计:推估样本所在总体的特征。先判断是否正态分...

2018-08-12 16:27:21 8723

原创 【学习笔记】统计学入门(6/7)——参数估计与可信区间

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 六、抽样估计与可信区间 1、抽样误差与统计推断1.1 统计推断/统计估计(statiscal inference...

2018-07-20 22:48:25 7639

原创 【学习笔记】统计学入门(5/7)——二项分布

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 五、二项分布1、二项分布的基本特征PS:两分类变量并非一定会服从二项分布Bernoulli试验:出现的结果只有两...

2018-07-19 21:43:47 2549

原创 【学习笔记】统计学入门(4/7)——正态分布

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 四、正态分布1、从样本频数分布到概率分布     直方图/频率图的性质:(1)直条的面积实质上是频率(或者百分比...

2018-07-19 21:41:59 7090

原创 【学习笔记】统计学入门(3/7 )——分类变量的统计描述

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026索引——基本概念连续变量的统计描述分类变量的统计描述正太分布二项分布参数估计与可信区间假设检验...

2018-07-15 16:35:51 10360

原创 【学习笔记】统计学入门(2/7)——连续变量的统计描述

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正太分布 二项分布 参数估计与可信区间 假设检验  二、连续变量的统计描述 1、统计方法     1.1 频数表     组数:不宜过多或过少,保证大多数...

2018-07-15 09:43:12 7028

原创 【学习笔记】统计学入门(1/7)——基本概念

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正太分布 二项分布 参数估计与可信区间 假设检验 一、基本概念 1、个体、变量与变异     个体:统计分析中的观察对象或者观察单位          变量:对...

2018-07-14 20:07:20 1611

Machine Learning System(机器学习)

Machine Learning System(机器学习)作者:Jeff Smith,全英版。

2018-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除