3 龙王.*?

尚未进行身份认证

我要认证

向来心是看客心,奈何人是剧中人。

等级
TA的排名 9k+

线性分类(1)

graph LRA[Hard edge] -->B(Round edge) B --> C{Decision} C -->|One| D[Result one] C -->|Two| E[Result two]​```

2020-09-07 19:05:21

最小二乘法及其正则化——求导、几何、概率角度

目录求导角度几何角度概率角度正则化频率角度贝叶斯角度总结汇总求导角度数据集:n个p维样本集用矩阵X表示,值Y为n维向量,W为p维向量。X=[x1x2...xn]T=[x1Tx2T...xnT]=[x11x12...x1px21x22...x2p............xn1xn2...xnp]np X = \left[ \begin{matrix} x_1 & x_2 & ... & x_n \end{matrix} \right]^T = \left[

2020-09-06 11:03:59

矩阵求导

目录布局概念求导表格小实例布局概念分子布局:分子为列向量或者分母为行向量分母布局:分子为行向量或者分母为列向量分子布局下面所有向量x、y默认都是m、n维列向量。矩阵X是pxq,矩阵Y是mxn。标量/向量∂y∂xT=[∂y∂x1∂y∂x2...∂y∂xm] \frac{\partial y}{\partial \boldsymbol x^T} = \left[ \begin{matrix} \frac{\partial y}{\partial x_1} &

2020-09-05 09:11:20

轻松解剖数据降维——PCA

目录为什么要进行数据降维?中心矩阵是什么?PAC最大投影方差最小重构距离从SVD角度看PAC为什么要进行数据降维?我们知道数据降维是减少过拟合的重要方法之一,且对于高维度的数据,不仅计算量庞大的吓人,而且容易带来维度灾难。下面我们从几何角度看看什么是维度灾难,会带来哪些影响?下图是一个同圆心构成的圆环,大圆半径为R = 1,圆环间隙ξ\xiξ足够小,即趋于0,小圆半径为r = R - ξ\xiξ = 1 - ξ\xiξ。在二维平面上大圆和小圆的面积几乎相等,圆环的面积趋于0.V小圆V大圆=

2020-08-27 20:30:24

弱对偶和强队偶的简单证明

目录前言弱对偶证明强队偶在几何上的证明前言由KKT条件可以通过拉格朗日乘子将一个含不等式和等式的约束条件的最小化问题转为一个拉格朗日函数。含约束的原问题={min⁡xf(x)x∈ Rnmi(x)≤0i=1,2...,mnj(x)=0j=1,2,...,n(1) 含约束的原问题=\begin{cases} \min_{x} f(x)& x\in\ R^n \\m_i(x) \leq 0 & i = 1,2...,m \\n_j(x) = 0 & j = 1,2,.

2020-08-26 12:02:37

轻松理解超平面

前言定义:1、超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两块;三维空间中,一个平面是二维的,它把空间分成了两块。2、法向量是指垂直于超平面的向量。过原点的超平面假设在R3空间中,有一个过原点的超平面,其法向量为ω⃗\vec{\omega}ω(ω\omegaω1,ω\omegaω2,ω\omegaω3),过原点的平面内任意原点出发的向量x⃗\vec{x}x,必有ω\omegaωTx = 0。故超平面公式

2020-08-25 21:04:32

手撕SVM——硬间隔

原理上面这幅图,存在两类线性可分的数据,在两个数据集之间存在无数个可进行分割的超平面,而SVM的目的是找到几何间隔最大的超平面,且这个超平面是唯一存在的。如上图的超平面WTX + b = 0,就是上图数据集的几何间隔最大超平面。推导过程假设给定一个特征空间上的训练数据集T = {(x1,y1),(x2,y2),…(xn,yn)}。其中xi∈\in∈Rn,yi∈\in∈{-1,+1}。设超平面为ω\omegaωTx + b = 0 ,则yi = ω\omegaω×\times×xi+ byi

2020-08-25 18:31:50

numpy——奇异值分解使用到的相关方法

目录clip()rint ()linalg.eig()argsort()sort()diag()linalg.svd()clip()np.clip(a, a_min, a_max, out=None)[source]a是一个数组,后面两个参数分别表示最小和最大值功能:将数组中的元素限制在a_min, a_max之间,大于a_max的就使得它等于 a_max,小于a_min,的就使得它等于a_min。x=np.array([1,2,3,5,6,7,8,9])np.clip(x,3,8)ar

2020-08-22 12:44:36

矩阵分解(四)——SVD分解

目录矩阵相关术语共轭矩阵(Hermite阵)特征值相似矩阵A^H^A^H^A酉矩阵酉相抵(正交相抵)奇异值奇异值分解式特征分解奇异值分解python代码实现验证结果 np.linalg.svd矩阵相关术语共轭矩阵(Hermite阵)当A = (ai,j)为复矩阵时,用a‾\overline{a}a表示a的共轭复数,记A‾\overline{A}A = (aij‾\overline{aij}aij​),则A‾\overline{A}A为A的共轭矩阵。埃尔米特矩阵是相对其主对角线以复共轭方式对称,且H

2020-08-21 21:48:36

矩阵分解(三)——满秩分解

目录矩阵相关术语秩、满秩矩阵初等变换初等矩阵阶梯型矩阵初等矩阵求逆满秩分解(法1)满秩分解(法2)矩阵相关术语秩、满秩设A是一组向量,定义A的极大无关组中向量的个数为A的秩。矩阵A的列秩是A的线性独立的纵列的极大数目,通常表示为r(A)或rank A。满秩:m × n矩阵的秩为m和n中的较小者。(设A是n阶矩阵, 若r(A) = n, 则称A为满秩矩阵。但满秩不局限于n阶矩阵)性质初等变换不改变矩阵的秩如果A可逆,则r(AB)=r(B),r(BA)=r(B)矩阵的乘积的秩Rab&

2020-08-18 19:19:25

矩阵分解(二)——QR分解

目录矩阵相关术语正交矩阵矩阵的QR分解矩阵相关术语正交矩阵如果ATA=E(E为单位矩阵),则n阶实矩阵A称为正交矩阵,通常用Q表示。性质:1、AT的各行(列)是单位向量且两两正交2、|A|=1或-13、AT = A-14、两个正交矩阵的积还是正交矩阵矩阵的QR分解定义:一个非奇异方阵A,一定存在一个正交矩阵Q和上三角矩阵R(对角线元素都为正数),使得A = QR...

2020-08-18 08:55:45

Markdown——稀奇古怪的字母、符合组合

$\vec{a}$ a⃗\vec{a}a 向量$\overline{a}$ a‾\overline{a}a 平均值$\widehat{a}$ a^\widehat{a}a (线性回归,直线方程) y尖$\widetilde{a}$ a~\widetilde{a}a 颚化符号 等价无穷小$\dot{a}$ a˙\dot{a}a˙ 一阶导数$\ddot{a}$ a¨\ddot{a}a¨ 二阶导数X^2^ : X2a<sub>i1</sub>: ai1...

2020-08-16 19:03:58

矩阵分解(一)——三角分解

目录矩阵一些术语奇异矩阵(降秩矩阵)非奇异矩阵(满秩矩阵)矩阵的顺序主子式高斯消去法矩阵描述代码展示矩阵一些术语奇异矩阵(降秩矩阵)矩阵A是方阵,且该矩阵的秩不是满秩。性质1、矩阵A的行列式等于02、如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解非奇异矩阵(满秩矩阵)矩阵A是方阵,且该矩阵的秩是满秩。性质1、矩阵A的行列式不等于02、由|A|≠0可知矩阵A可逆3、AX=0有且只有唯一零解,AX=b有唯一解矩阵的顺序主子式设A为 阶矩阵,矩

2020-08-16 17:16:08

CNN网络结构——池化层和全连接层

目录池化层为什么引入池化层概述为什么采用最大值方法实现过程全连接层概述全连接转为卷积池化层为什么引入池化层通常,卷积层的超参数设置为:输出特征图的空间尺寸等于输入特征图的空间尺寸。这样如果卷积网络里面只有卷积层,特征图空间尺寸就永远不变。虽然卷积层的超参数数量与特征图空间尺寸无关,但这样会带来一些缺点。空间尺寸不变,卷积层的运算量会一直很大,非常消耗资源。卷积网络结构最后是通过全连接层输出分值向量的,如果空间尺寸一直不变,则全连接层的权重数量会非常巨大,导致过拟合。前面几层的卷积层的输出存

2020-08-10 19:36:01

CNN网络结构——卷积层

目录前言局部连接参数共享卷积层卷积运算卷积运算过程——二维卷积运算代码实现——二维卷积层及代码实现——三维代码实现——3D增加步长的卷积运算前言发展卷积神经网络的初衷是进行图像分类。图像主要有如下3个特性多层次结构:如一张人脸由鼻子、嘴巴、眼睛等组成特征局部性:如眼睛在一张图片中就局限在一个小区域内平移不变性:如不管眼睛出现在图片的哪个位置,特征提取器都可以找出来虽然卷积网络是为图像分类而发展起来的,但现在已经被用在各种任务中,如语音识别和机器翻译等。只要信号满足多层次结构、特征局部性

2020-08-09 21:42:03

Tensorflow2.0——自动求导API

目录前言一元二次方程求导二元二次方程求偏导前言TensorFlow 为自动微分提供了 tf.GradientTape API ,根据某个函数的输入变量来计算它的导数。在深度神经网络训练过程中最常用的误差反向传播算法(Error Back Propagation Training)是更新网络权重的关键,求偏导常用到这种机制。一元二次方程求导只有tf.Variable对象不需要使用watch方法。import tensorflow as tf#最简单的实现y= 2*x*x + x的求导x

2020-08-08 19:35:29

正则化

目录前言L1、L2范数代码展示 tf.nn.l2_loss提前终止训练dropout训练集增强前言目的:控制模型的学习容量,减弱过拟合的风险,降低模型的复杂度。形式:1、在损失函数(目标函数)后添加带系数的惩罚项;2、提前终止训练;3、dropout4、训练集增强L1、L2范数范数定义:假设 x 是一个向量,它的 L^p 范数定义:下面对L1和L2在损失函数上的作用说明:1式中可以看出,对于范数L1的正则化,会让特征变得稀疏,起到特征选择的作用。因为若 w_1 为正

2020-08-08 18:39:47

tensorflow2.0——损失函数

目录均方误差损失函数 mean_squared_error手写代码平均绝对误差 mean_absolute_error手写代码Huber损失 huber_loss手写代码待续在tensorflow2.0 中,使用模块model.compile时,使用loss选择损失函数。均方误差损失函数 mean_squared_error均方误差函数,又称mse,最基本的损失函数表示法,通常情况下mse函数会整体乘上二分之一,方便简化求导出的函数。loss = ‘mean_squared_erro

2020-08-06 19:01:48

Numpy——stack()、hstack()、vstack()、dstack()

目录stack()vstack()hstack()dstack()这四个函数的作用都是将几个数组进行合并,不同的是合并的方式有所不同。stack()函数原型为:stack(arrays, axis=0),arrays可以传数组、列表、元组。import numpy as npa = [1,2,3]b = [4,5,6]np.stack((a,b),axis=0)array([[1, 2, 3], [4, 5, 6]])np.stack((a,b),axis=1)ar

2020-08-04 11:39:43

Tensorflow2.0——激活函数

目录十万个为什么为什么需要激活函数且为非线性函数?为什么激活函数要连续可导(允许部分点不可导)?成为激活需要哪些条件?常用激活函数及对应特点sigmoid函数 tf.sigmoid()softmax函数 tf.keras.activations.softmaxTanh函数 tf.keras.activations.tanhReLU函数 tf.keras.activations.relu十万个为什么为什么需要激活函数且为非线性函数?神经网络结构的输出为所有输入的加权和,这导致整个神经网

2020-08-02 20:52:43

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享精英
    分享精英
    成功上传11个资源即可获取