自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Python中的 not A 和 A is not None

not A 和 A is not None 两者并不是等价的not A 是判断A是否为0、False、空字符串、空列表、空字典、空元组以及None,满足任一条件即返回TrueA is not None 是判断A是否为None,只要A不是None即返回True如下例所示>>A = None>>B = []>>A is not NoneFalse>>B is not NoneTrue>>not ATrue>>n

2021-12-12 14:08:04 1943

原创 DAY14_1x1卷积核的作用

1x1卷积核虽然不能进行上/下采样,但在CNN中仍有很重要的作用1x1卷积核的作用升维、降维首先一个很简单的例子,feature map 大小为16x16 channel = 8,通过一个1x1 数量为4的卷积核,得到的输出就为16x16x4降维最明显的影响就是增加了网络的深度,但是并不会增加网络的参数量,通过不同大小卷积核的组合,同时也可以大幅度减小计算量输入56 * 56 * 192,使用5 * 5 * 32的卷积核。最终的计算量是:56 * 56 * 32 * 5 * 5 * 192

2021-12-08 22:24:50 2129

原创 DAY13_ResNet中的残差结构

梯度消失和梯度爆炸梯度消失就是指在反向传播中由于梯度在链式求导法则中不断地累积导致的梯度趋向于零的现象。如果当前梯度小于1,当其经过若干层求导后,这个梯度的值就会由于累乘效应(小于1的数字连乘)而变得很小,最终导致参数更新很小或者基本不更新。梯度爆炸与梯度消失现象相反。当梯度大于1的时候就可能会导致若干层之后参数更新的梯度非常大。残差结构    在没有使用残差结构的情况下,我们要求解的映射为H(x) = F(x)。假设在网络的某一层中我们已经求得的映射H(x)已经达到最优,如果不加以约束随着网络

2021-11-29 21:37:33 1066

原创 DAY12_Inception

基本结构(图片来源于网络)       主要特征就是将常用的1X1、3X3、5X5卷积并在一起进行特征提取,增加网络的宽度以及参数量。1 * 1卷积核        改变通道数,如果想进行一次特征的融合或者降低运算量就可以使用1 * 1卷积核减小通道数。同样的,1 * 1卷积核也可以增大通道数。1 * 1卷积层也相当于一个全连接层,可以增加模型非线性能力使用

2021-11-26 21:30:40 189

原创 DAY11_类不均衡

解决类不均衡的几种方法欠采样对于训练集中样本数量较大的数据进行少量采样,尽量使正负样本数量均衡。但是这样也会造成一定的问题:减少了采样的数量有可能会导致对多数类的学习不能达到目标。过采样增加训练集中样本数量较少的数据,如进行重复采样。由于对少数类进行了重复采样,有可能导致训练产生过拟合现象同时也会导致训练更加复杂调整权重增加少数类的权重,减小多数类的权重,这个方法的难点就是设置合理的权值focal loss通过调整α, γ的值,来减小简单样本的损失,来提高困难样本对梯度

2021-11-22 21:26:04 2002

原创 DAY10_常见的Normalization(BN,LN,WN,IN,GN)

(图片来源于网络)Batch-Normalization(BN)对同一批次的数据分布进行标准化,得出的均值方差效果受到BatchSize的影响,当BatchSize较小时,得到的均值和方差势必出现较大的偏差。因此比较适合BatchSize较大的场景在激活函数接受输入之前,将数据规范到标准正态分布中,输入数据则较大概率会落到激活函数的较为敏感的区域(梯度较大的区域),因此在使用BN层后可以使用sigmoid或者tanh等饱和性激活函数。在使用BN层后,可以使输入数据分布相对稳定,加快网络训练速度。

2021-11-19 22:08:14 733

原创 DAY9_优化器(SGD,BGD,MBGD,Aadam等)

随机梯度下降(SGD)随机选用一个样本即可对参数进行更新:特点初始学习率设置过大会导致

2021-11-17 23:00:24 208

原创 DAY8_池化

池化在经过卷积层得到的feature map通常维度比较大,如果直接输入到下一层卷积或者全连接层将会面临巨大的运算量,通过池化层就可以整合特征,减小feature map的维度。池化函数会对pixel及其周围的矩形区域进行总体特征的统计,然后将得到的数值作为这一位置新的特征值池化的作用减小feature map的维度(减少参数及运算量)保留特征防止过拟合,提高泛化能力invariantInvariant平移不变性、旋转不变性、尺度不变性:我们在feature map中判断一个特征时

2021-11-15 22:36:50 1356

原创 DAY7_Softmax

回归预测的是一个连续的数值,如房价预测。输出所在的区间是一个自然区间分类预测的是一个离散的类别,如判断图片中是猫还是狗。输出的是该输入所在类别的置信度Argmax该函数的输入为softmax()输出的各类别的概率,然后通过找到最大的概率来输出对应的预测类别。SoftmaxSoftmax就是将多个神经元的输出映射为一个概率。Softmax首先是将输出进行指数运算,这样可以将所有输出映射到非负数值确保每个类别预测概率的和为1计算公式示例假设有四个类别(1,2,3,4)预

2021-11-13 23:04:39 717

原创 DAY6_Dropout

Baggingbagging就是集成几个模型来降低泛化误差的技术。由于不同模型再相同数据集上不会产生完全相同的误差,因此可以通过训练几个不同的模型,然后让所有模型表决测试样例的输出。假设有 k 个模型,每个模型在每个例子上的误差是 ϵi,这个误差服从零均值方差为 E[ϵ^2i ] = v 且协方差为 E[ϵiϵj ] = c 的多维正态分布。集成预测器平方误差的期望是由上述公式可以看出,当模型的误差完全相关的情况下(c=v)均方误差最低降为v,即使用bagging技术得到的最差结果和不使用bagging

2021-11-11 21:07:55 991

原创 DAY5_转置卷积、空洞卷积

转置卷积由于在图像分割中需要进行上采样,需要将图像逐渐还原为原来的大小,但是由于卷积过程是不可逆的,所以需要采用转置卷积(反卷积)。转置卷积不等于卷积逆运算转置卷积只能恢复尺寸,不能恢复原数值转置卷积运算过程在输入特征图的元素之间填充s-1行、列0在输入特征图的元素四周填充k-p-1行、列0卷积核的参数进行上下、左右翻转进行正常的卷积操作(padding = 0, stride = 1)转置卷积后的特征图大小空洞卷积(Dilated Convolution)在图像分割中是p

2021-11-05 22:54:55 133

原创 DAY4_BN层

Batch Normalization在激活函数接受输入之前,将数据规范到标准正态分布中。避免梯度消失,加块网络训练速度。由于将数据规范到了标准正态分布中,输入数据则较大概率会落到激活函数的较为敏感的区域(梯度较大的区域)。在神经网络中,一个参数的微小变化在经过深层的网络后会产生较大的影响,并且每一层的输入分布也会发生改变,从而导致网络需要不断学习适应这种输入分布的改变。由于神经网络就是学习数据的分布,在使用BN层后,可以将输入数据规范到标准正态分布中。...

2021-11-03 22:55:50 220

原创 DAY3_L1正则化

L1正则化L1正则化L1正则化的定义,各个参数的绝对值之和:首先推导L1正则化是如何进行权重衰减的:首先将损失函数在最优解W*处进行二阶泰勒展开(假设Hession是对角矩阵)将求和符号内看作整体 f (W) 并进行求导(由于W*为最优解,所以其一阶导为零)由上式可知,如果另J(W)一阶导为零,需要分析J(Wi)的。首先我们将 f(Wi) 进行展开,并得到Wi与W的关系式(其中W为自变量)。首先讨论 Wi > 0 的情况,此时sign(Wi) = 1。由上述②式进行推导可

2021-11-02 23:16:50 194

原创 DAY2_L2正则化

正则化_1定义:旨在减小泛化误差而不是训练误差。通俗理解为凡是能够减小过拟合的方式都可以成为正则化。权重衰减原损失函数:J(w,b)原权重更新:w = w - ŋ∇J(w)使用正则化(L2正则化):J1(w) = J(w) + (λ/2)||w||使用正则化后的权重更新:w = w - ŋ[∇J(w) + λw] = (1 - ŋλ)w -ŋ∇J(w)即每一次更新权重都会将w的学习范围进行缩小理解:例如一个一元高次函数中,通过对高次项权重的衰减,来使图像中的曲折更少,从而减小函数对数据的拟合

2021-11-01 17:13:02 1848

原创 DAY1_基础知识

DAY1_深度学习基础知识线性代数标量(scalar):一个单独的数向量(vector):一列数,可以被看作空间中的坐标(每一个元素是对应坐标轴上的坐标)。向量也可以被看作一维的张量矩阵(matrix):一个二维数组。可以被看作二维的张量张量(tensor):一个n维数组,可以在n维坐标系中确定一个位置。矩阵和向量的运算规则:略范数:衡量向量的大小,是将向量映射到非负值的函数。。。概率论边缘概率:多维随机变量中某一随机变量的分布。条件概率:某一事件发生时,另一事件发生的概率。(x

2021-10-29 23:12:40 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除