自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 Python描述性统计

描述性统计是对数据的性质进行描述,就像看一群群山峰,通过描述性统计我们可以知道山峰的高度总体状况,比如均值描述了山峰的总体高度,而方差描述了山峰的高度差距,在此基础上进一步可以做出更重要的判断和预测,我们可以从多个方面看数据,体验数据的多重样貌!学习了描述数据集中趋势和离散程度的度量方法,具有代表性的是均值和方差,另外还有峰度、偏度的计算及正态性检验以及识别出数据的异常值并进行处理。

2023-09-19 17:37:35 181 3

原创 matplotlib绘图

通过强大的Python语言和神奇的matplotlib库,将枯燥的商业数据变成绚丽多彩的图形,让数据跃然纸上,为企业决策提供更直观、更清晰的依据。学会运用matplotlib库为绘制折线图、柱状图、散点图等图形,利用可视化的图形去展示数据,解决例如某公司员工年龄分布、年龄与销售情况以及性别与销售情况等一系列问题。

2023-09-13 16:50:46 269 2

原创 Python商业数据存取

通过简单实例学习了数据分析的全流程,即数据读取、数据预览、数据清洗、数据保存,另外在学习过程中,也看到了数据可视化能够清晰的反映数据的变化情况,以及根据实际需要对数据进行分组、聚合分析等。… …

2023-09-06 14:11:57 163

原创 商业数据分析概论

导入数据是进行数据分析的第一步,通常来说,数据一般是 csv 格式,在 Python 中,利用pd.read_csv()导入数据;有数据之后,就要进行数据变换。通常会在这一步移除分析中的非必要数据,在移除之前首先需要查看一下已有数据,包括查看数据的前几行、后几行以及选择特定列的数据;通过df.isna().sum()查找缺失值数量,并按照实际需要对缺失值进行删除或填充;

2023-09-04 17:55:38 889

原创 李立宗《讲给入门者的深度学习》

以取暖为例,来说明三者的不同之处。传统方法:通过火炉生火,需要生火、添柴、通风等,过程复杂。机器学习:空调,设置温度、湿度等参数值。根据数据提取特征。深度学习:智能空调,设置“清爽”、“温暖’”等模式。对特征进行学习,从中找到有用的特征。深度学习是一种端到端的机器学习,通过神经网络学习数据的特征,得到最终的答案。

2022-11-21 11:24:46 699 1

原创 第十章 时序数据

第四,会出现日期偏置(Date offsets)的概念,假设你只知道9月的第一个周一早上8点要去上课,但不知道具体的日期,那么就需要一个类型来处理此类需求。第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在。日期偏置是一种和日历相关的特殊时间差,例如回到第一节中的两个问题:如何求2020年9月第一个周一的日期,以及如何求2020年9月7日后的第30个工作日是哪一天。

2022-09-25 10:02:21 810 1

原创 第九章 分类数据

互相转化,需要注意的是后者传入的参数必须是由当前序列的无序类别构成的列表,不能够增加新的类别,也不能缺少原来的类别,并且必须指定参数。一个等差的区间序列由起点、终点、区间个数和区间长度决定,其中三个量确定的情况下,剩下一个量就确定了,在第二章中,曾提到了字符串和数值类型序列的排序,此时就要说明分类变量的排序:只需把列的类型修改为。方法进行构造的,这两个函数能够把原序列的数值特征进行装箱,即用区间位置来代替原来的具体数值。四类大小关系的比较,比较的对象和第一种类似,但是所有参与比较的元素必须属于原序列的。

2022-09-21 16:01:27 355 2

原创 第八章 文本数据

对象先把整个元素转为字面意义的字符串,例如对于列表而言,第一个元素即 “{”,而对于最后一个字符串元素而言,恰好转化前后的表示方法一致,因此结果和。索引,因此对于字典而言,返回temp_1字符串,对于列表则返回第二个值,而第三个为不可迭代对象,返回缺失值,第四个是对字符串进行。上的属性,专门用于处理每个元素的文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其。其中,第一类函数一共有三种,它们分别是。对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过。

2022-09-19 10:48:48 243

原创 如何打一个 CV 比赛 V2.0

首先我们需要定义如何读取数据,这里我们定义了一个读取文件的dataset,可以很方便完成数据读取和数据扩增操作。本次教程完成了基础的模型搭建和训练过程,在学习版数据后可以在30分钟左右完成实践。原始数据35.6G,没有足够算力的小伙伴可以下载如下数据,我们在原始数据数据集上进行了采样,数据大小总共2.5GB左右。,需要选手通过训练集数据构建模型,然后对验证集数据进行预测,预测结果进行提交。如果使用预训练模型 vs 从头训练,精度还是有差异,前者更好。合理的数据增加, 无标签的数据集。

2022-09-19 09:10:52 354

原创 第七章 缺失数据

按照特征缺失的正例、特征缺失的负例、特征不缺失的正例、特征不缺失的负例,可以分为四种情况,设它们分别对应的样例数为。而不是普通的样条插值。这一部分的文档描述比较混乱,而且这种参数的设计也是不合理的,当使用这两类插值方法时,用户一定要小心谨慎地根据自己的实际需求选取恰当的插值方法。对一个序列以如下规则填充缺失值:如果单独出现的缺失值,就用前后均值填充,如果连续出现的缺失值就不填充,即序列。的本身是一种浮点类型,而如果浮点和时间类型混合存储,如果不设计新的内置缺失类型来处理,就会变成含糊不清的。

2022-09-13 16:56:11 730

原创 第六章 连接

从上面的例子来看,在进行基于唯一性的连接下,如果键不是唯一的,那么结果就会产生问题。方法,其功能是在对两张表组合时,若第二张表中的值在第一张表中对应索引位置的值不是缺失状态,那么就使用第一张表的值填充。上面以多列为键的例子中,错误写法显然是一种多对多连接,而正确写法是一对一连接,请修改原表,使得以多列为键的正确写法能够通过。在上面示意图中的例子中,两张表根据某一列的值来连接,事实上还可以通过几列值的组合进行连接,这种基于值的连接在。因此,当确认要使用多表直接的方向合并时,尤其是横向的合并,可以先用。

2022-09-08 14:49:48 314

原创 第五章 变形

如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。在上一章讨论的分组聚合操作,由于生成了新的行列索引,因此必然也属于某种特殊的变形操作,但由于聚合之后把原来的多个值变为了一个值,因此。显然这两张表从信息上是完全等价的,它们包含相同的身高统计数值,只是这些数值的呈现方式不同,而其呈现方式主要又与性别一列选择的布局模式有关,即到底是以。对于一个基本的长变宽操作而言,最重要的有三个要素,分别是变形后的行索引、需要转到列索引的列,以及这些列和行索引对应的数值,它们分别对应了。

2022-09-05 10:55:11 255

原创 第四章 分组

过滤在分组中是对于组的过滤,而索引是对于行的过滤,在第二章中的返回值,无论是布尔列表还是元素列表或者位置列表,本质上都是对于行的筛选,即如果符合筛选条件的则选入结果表,否则不选入。由此可以看出,之前传入列名只是一种简便的记号,事实上等价于传入的是一个或多个列,最后分组的依据来自于数据来源组合的unique值,通过。从结果看,此时的列索引为多级索引,第一层为数据源,第二层为使用的聚合方法,分别逐一对列使用聚合,因此结果为6列。,但它们产生的数据框维数和多级索引的层数应当如何变化?

2022-09-02 14:33:43 167

原创 第三章 索引

1.表的列索引列索引是最常见的索引形式,一般通过来实现。通过可以从中取出相应的列,返回值为,例如从表中取出姓名一列:如果要取出多个列,则可以通过,其返回值为一个,例如从表中取出性别和姓名两列:此外,若要取出单列,且列名中不包含空格,则可以用取出,这和是等价的:【a】以字符串为索引的如果取出单个索引的对应元素,则可以使用,若只有单个值对应,则返回这个标量值,如果有多个值对应,则返回一个:如果取出多个索引的对应元素,则可以使用:如果想要取出某两个索引之间的元素,并且这两个索引是在整个索引中

2022-09-02 08:34:17 694

原创 第二章 pandas基础

在开始学习前,请保证pandas的版本号不低于如下所示的版本,否则请务必升级!请确认已经安装了这三个包,其中xlrd版本不得高于2.0.0。'1.1.5'

2022-08-24 18:36:42 228

原创 DAY24-深度学习100例 -卷积神经网络(Xception):动物识别

​​。

2022-08-21 16:56:00 151

原创 DAY18-深度学习100例-生成对抗网络(GAN)手写数字生成

本文将采用GAN模型实现手写数字的生成。生成对抗网络包括生成器、判别器,两个模型通过对抗训练不断学习、进化。生成器:生成数据(大部分情况下是图像),目的是“骗过”判别器;判别器:判断这张图片是真实的还是机器生成的,目的是找出生成器生成的“假数据”。

2022-08-21 12:37:04 253

原创 DAY26-深度学习100例 -卷积神经网络(CNN):乳腺癌识别

​​。

2022-08-21 11:37:05 202

原创 DAY17-深度学习100例-卷积神经网络(CNN)识别眼睛状态

本文通过对人眼状态的识别达到检测注意力的目的。

2022-08-21 11:33:50 398

原创 DAY12-深度学习100例-卷积神经网络(CNN)识别验证码

本文将通过TensorFlow2实现验证码的识别。

2022-08-21 11:32:43 498 1

原创 DAY9-深度学习100例-循环神经网络(RNN)实现股票预测

今天会通过RNN实现股票开盘价格的预测。

2022-08-21 11:30:52 246

原创 DAY5-深度学习100例-卷积神经网络(CNN)天气识别

​​​。

2022-08-21 11:29:28 502

原创 DAY3-深度学习100例-卷积神经网络(CNN)服装图像分类

​​。

2022-08-21 11:27:59 87

原创 DAY1-深度学习100例-卷积神经网络(CNN)实现mnist手写数字识别

Mnist数据集分为两部分,分别含有60000张训练图片和10000张测试图片。每一张图片包含28*28个像素。Mnist数据集把代表一张图片的二维数据转换成一个向量,长度为28 * 28=784。因此在Mnist的训练数据集中mnist.train.images是一个形状为[60000, 784]的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点,图片里的某个像素的强度值介于0-1之间。

2022-08-21 11:26:34 115

原创 DAY26-深度学习100例 -卷积神经网络(CNN):乳腺癌识别

【代码】DAY26-深度学习100例 -卷积神经网络(CNN):乳腺癌识别。

2022-08-21 11:20:44 159

原创 第一章 预备知识

在生成一个数字序列时,在Python中可以写成:事实上可以利用列表推导式进行写法上的简化:。其中,第一个为映射函数,其输入为后面指代的内容,第二个表示迭代的对象。列表推导式还支持多层嵌套,下面例子中第一个为外层循环,第二个为内层循环:除了列表推导式,另一个实用的语法糖是带有选择的条件赋值,其形式为:等价于如下的写法:举例:截断列表中超过5的元素,即超过5的用5代替,小于等于5的保留原来的值:2. 匿名函数与map方法有一些函数的定义具有清晰简单的映射关系,例如上面的函数,这时候可以用匿

2022-08-20 19:07:48 111

原创 DAY17-深度学习100例-卷积神经网络(CNN)识别眼睛状态

本文通过对人眼状态的识别达到检测注意力的目的。

2022-08-14 20:25:56 858 3

原创 DAY12-深度学习100例-卷积神经网络(CNN)识别验证码

本文将通过TensorFlow2实现验证码的识别。

2022-08-14 18:04:36 482

原创 DAY9-深度学习100例-循环神经网络(RNN)实现股票预测

今天会通过RNN实现股票开盘价格的预测。

2022-08-14 17:20:24 1011 2

原创 DAY5-深度学习100例-卷积神经网络(CNN)天气识别

●本文为中的学习记录博客​。

2022-08-07 17:52:01 602

原创 DAY3-深度学习100例-卷积神经网络(CNN)服装图像分类

channels 为(R,G,B)分别对应RGB的三个颜色通道(color channel)。mnist 数据集中的图片,形状是(28, 28,1) 即灰度图像。图像是28 * 28的Numpy数组,像素值介于0-255之间。它们代表模型对10种不同服装中每种服装的“置信度”,我们可以看到哪个标签的置信度值最大。卷积神经网络 (CNN) 的输入是张量(Tensor)形式的(image height, image.●优化器(optimizer) :决定模型如何根据其看到的数据和自身的损失函数进行更新。...

2022-08-06 18:04:20 543

原创 DAY1-深度学习100例-卷积神经网络(CNN)实现mnist手写数字识别

Mnist数据集分为两部分,分别含有60000张训练图片和10000张测试图片。每一张图片包含28*28个像素。Mnist数据集把代表一张图片的二维数据转换成一个向量,长度为28 * 28=784。因此在Mnist的训练数据集中mnist.train.images是一个形状为[60000, 784]的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点,图片里的某个像素的强度值介于0-1之间。...

2022-08-06 17:29:26 322

原创 Task 06 其它优秀的小工具

在平时的办公中,可能有一些优秀的在线网站或者小工具能立马解决我们相关的问题,从而提升工作效率,在本节中推荐的在线网站和小工具都是在实际工作中发现的优秀网站或工具。本文讲解了一些优秀的网站和软件,比如各种格式在线转换,以及好用的软件Everything、桌面日历等,在日常生活中方便了我们的工作、学习。httpshttpshttpshttpshttpshttpshttpshttpshttps。...

2022-07-23 10:22:31 133

原创 Task 05 Python操作钉钉自动化

本文主要是对群聊消息的发送提供参考案例,实现对文字消息、图片消息、卡片消息等常规消息的发送,本文通过钉钉接口实现上述群聊消息的几大功能。获取到Webhook地址后,用户可以向这个地址发起HTTPPOST请求,即可实现给该钉钉群发送消息。发起POST请求时,必须将字符集编码设置成UTF-8。每个机器人每分钟最多发送20条。消息发送太频繁会严重影响群成员的使用体验,大量发消息的场景(譬如系统监控报警)可以将这些信息进行整合,通过markdown消息以摘要的形式发送到群里。。https。...

2022-07-22 17:35:05 2314

原创 简单的python爬虫

对于自动化办公而言,网络数据的批量获取可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对一个爬虫项目进行介绍,力求最大程度还原实际的办公场景。Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。我们一般会使用BeautifulSoup这个第三方库或我们来解析豆瓣读书Top250httpsimportioimportsys.stdoutimportio。......

2022-07-21 18:20:43 2785 1

原创 Task 03:python与word和pdf

本篇文章主要讲解了python与word和pdf,介绍了在word中如何使用python进行字体设置、插入图片与表格等常规操作,以及在pdf中使用python进行批量合并、拆分以及提取文字内容、表格内容等操作。#导入库#新建文档(Datawhale)doc_1=Document()#字体设置(全局)'''只更改font.name是不够的,还需要调用._element.rPr.rFonts的set()方法。'''.#导入库#新建文档(Datawhale)....

2022-07-19 17:26:46 483

原创 Task02 python与excel

本篇文章主要讲解了python与excel的自动化办公,主要介绍了两个模块OpenPyXL、XLWings,从安装到实战,清晰可见,非常实用。xlwings基本介绍用于Python与Excel之间的交互,可以轻松地从Excel调用Python,也可以利用Python自动化操作Excel,调用VBA,非常方便。项目地址https基本使用方法#导入xlwings,并起一个别名xw,方便操作=#导入xlwings,并起一个别名xw,方便操作=httpshttpshttps。...

2022-07-16 20:52:22 298

原创 Task01 文件处理与邮件自动化

本篇文章主要讲解了文件处理与邮件自动化的相关内容,近年来,python办公自动化的兴起,为我们的工作、生活提供了很大便利,因此学习相关的知识成为了必要。文件的两个属性:“路径”和“文件名”,路径指明文件在计算机上的位置,文件名是指该位置的文件名称。比如,我的电脑上,有个名字为Datawhale - 开源发展理论研究.pdf的文件,它的路径在D:\Datawhale。在windows中,路径中的D:\部分是“根文件夹”,Datawhale是文件夹名。通常我们用os.path.join() 函数来创建文件名称

2022-07-13 21:42:22 357

原创 动手学数理统计(2)

在前面的案例中,可以发现:正态分布N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)的极大似然估计的估计统计量为样本均值xˉ\bar{x}xˉ和有偏样本方差sn2s_n^2sn2​,而指数分布的参数λ\lambdaλ的极大似然估计的估计统计量为1xˉ\frac{1}{\bar{x}}xˉ1​,因此如何构造统计量去估计总体参数并没有一个明确的规定。换句话来说,对于同一个总体参数的估计统计量的构造方式多种多样,那么如何评价这些统计量的估计好坏呢?下面给出两个准则,分别是:无偏性和有效性。(1)无偏性:

2022-06-26 15:37:38 540

原创 动手学数理统计(1)

前面的概率论专题,我们已经详细地学习了概率论的相关知识,并且针对某些特定问题使用概率论进行建模。但是在概率论的建模中,我们往往假设随机变量的分布已知,但是这个假设在实际中时很难做到的。现在,我们使用投资组合风险分析来说明:在前面的案例中,我们假设A、B股票的收益率服从N(0.1,0.01)N(0.1,0.01)N(0.1,0.01)和N(0.3,0.04)N(0.3,0.04)N(0.3,0.04),但是现实时市场上并不会告诉我们股票的收益分布是什么,我们能做的只有根据历史数据进行合理的猜测与估算,而不同的

2022-06-26 15:24:39 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除