ykzcs2000-CSDN博客

原创特征工程筛选重要变量

过滤法更快速，但更粗糙。包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。t检验和卡方检验、F检验、互信息法是常用的统计分析方法，它们在不同的情况下有不同的应用优先级。**t检验：适用于小样本情况下，用于比较两个样本均值是否有显著差异。当已知方差时，使用t检验；当方差未知时，使用t检验。

2024-01-06 17:30:40 978

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。通俗的理解：在Python中，这种一边循环一边计算的机制，称为生成器：generator生成器，其实是一种特殊的迭代器。

2024-01-05 15:56:35 1116

原创 datawhale的图机器学习的开源学习

为了继续深入了解机器学习

2023-02-14 21:58:05 164 1

原创 9月3号数据结构学习笔记

9月4日数据结构学习笔记

2022-09-04 20:10:55 147

原创 9月2号数据结构学习笔记

9月2号

2022-09-03 00:20:48 147

原创 9月1号数据结构的学习笔记

9月1号

2022-09-02 01:04:33 129

原创 8.31考研王道书学习笔记

8月31号数据结构的学习笔记

2022-09-01 23:28:00 104

原创 8.30王道书数据结构学习笔记

每天数据结构练习笔记

2022-08-31 22:05:57 206

原创【datawhale--Intel带你初识视觉识别学习小结（1）】

datawhale7月学习的Intel带你初识视觉识别关于openvino的学习笔记

2022-07-18 23:12:52 108

原创 python数据结构-可变类型与不可变类型

2022-02-19 16:51:51 478

原创 Python数据结构与算法02——顺序表

假设我们就是要保存这样一组数，我们先不要考虑python封装的列表，元组，字典，集合基本数据类型，我们会现在要考虑的就是基本数据类型。内存：就是存放数据并且直接和计算机打交道的东西。内存是一个连续的存储单元（空间)。既然是内存他就是一堆存储单元内存的基本索引单位为一个字节作为索引单位。（一个字节多少位-8位）我们催出来一个100，我们去哪里照这个100呢？我们应该告诉CPU我们去哪个位置把100取出来。一个整形是4个字节，如果是10进制的1我们转换成二进制的00000001一个字符是1个字节

2022-02-19 16:49:49 592

原创 python数据结构

数据保存的类型不一样，数据结构解决了一组类型如何保存。

2022-02-19 12:48:37 376

原创数据结构与算法python版本-栈

他与栈的区别就是一端入，另一端出。栈是一端入，一端出。enqueuedequeueis_emptysize出来这四个函数，我们还要有构造函数但是添加与删除的时候我们根据实际情况而定，如果入队的的次数多我们选O（1）的，出队次数多我们选O（1）的...

2022-02-19 12:23:09 427

原创数据结构与算法python版本-栈

数据表与链表统称为线性表栈的进出你可以去联想一下杯子倒水，最后一个进来先出:last in first out(LIFO)栈可以由顺序表或者链表实现，但是有些特殊因为栈的数据结构只能允许在一端进行操作。顺序表和列表解决存储具体的应用场合我们要关注容器的操作特性上面。python中List就是顺序表压栈（入栈）–对应英文push出栈（叫弹）–对应英文pop查当前栈顶元素存储的是谁但是你别出栈–对应英文peek现在只是把它的功能定义出来了，但是我们需要一个容器把数据存进去。class Sta

2022-02-18 23:47:14 233

原创主成分分析

PCA的几何解释平移（去中心化）、旋转坐标轴，找到主成分pc1和pc2。PCA的思想很简单——减少数据集的特征数量，同时尽可能地保留信息。如何得到这些包含最大差异性的主成分方向呢?通过计算数据矩阵的协方差矩阵然后得到协方差矩阵的特征值特征向量选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中，实现数据特征的降维。PCA的算法两种实现方法(1) 基于SVD分解协方差矩阵实现PCA算法第一步是均值归一化。第二步是计算协方差矩阵。第三步是

2021-12-14 14:30:27 10811

原创朴素贝叶斯算法

在学完判别模型中感知机，逻辑回归，软间隔支持向量机等算法之后我们我们接触到了生成模型中的朴素贝叶斯算法。从概率分布的角度考虑，对于一堆样本数据，每个均有特征Xi对应分类标记。生成模型：学习得到联合概率分布P(x,y)，即特征x和标记y共同出现的概率，然后求条件概率分布。能够学习到数据生成的机制。判别模型：学习得到条件概率分布P(y|x)，即在特征x出现的情况下标记y出现的概率。数据要求：生成模型需要的数据量比较大，能够较好地估计概率密度；而判别模型对数据样本量的要求没有那么多。朴素贝叶斯贝叶斯方法

2021-12-14 13:30:17 1478

原创 kmean聚类算法

快速理解：1.有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的居民，于是每个居民到离自己家最近的布道点去听课。2.听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的居民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。3.牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个居民又去了离自己最近的布道点……就这样，牧师每个礼拜更新自己的位置，居民根据自己的情况选择布道点，

2021-12-14 11:18:00 967

原创人工神经网络

神经网络可以看作机器学习的一种进阶，与传统机器学习算法相融起到事半功倍的奇妙效果。人工神经网络靠的是正向和反向传播来更新神经元, 从而形成一个好的神经系统, 本质上, 这是一个能让计算机处理和优化的数学模型. 而生物神经网络是通过刺激, 产生新的联结, 让信号能够通过新的联结传递而形成反馈. 虽然现在的计算机技术越来越高超, 不过我们身体里的神经系统经过了数千万年的进化, 还是独一无二的, 迄今为止, 再复杂, 再庞大的人工神经网络系统也不能替代我们的小脑袋. 我们应该感到自豪, 也应该珍惜上天的这份礼物

2021-12-14 10:09:56 772

原创感知器算法

感知机是一种监督式学习。感知机找到的分界线总是直线，所以它是线性分类模型的一种。当然也有非线性分类模型：特征向量(x_1,x_2,x_3)是三维向量，通过感知机找到的分界就是三维空间中的平面，依然是线性分类模型：用感知机找到的分界，始终是特征向量所在空间的超平面，依然是线性分类模型。感知机只能将数据分为两类，并且分界线是直线，所以又称它为二分类线性模型，区别于多分类模型。分对：yi⋅d(xi)>0y_i\cdot d(\boldsymbol{x_i}) > 0yi⋅d(xi)

2021-12-13 20:32:10 1343

原创线性回归

感知机算法以及二分类的理论基础后学习了线性回归。如果是正常机器学习的流程当前学习进度：分类：输出离散回归：输出连续回归常被称为拟合。拟合出来是直线的就称为线性回归，如下图，因为拟合出来的是直线，所以被称为线性回归。线性回归的假设空间：与感知机的假设空间对比一下，发现他是少了阶跃（sign）函数。两者的经验误差都遵循经验误差最小原则。线性回归的经验误差是由最小二乘法（最小二乘法是线性回归的最佳线性无偏估计）求得：将数据集D中所有点与该直线的误差加起来，再进行算术平均就是该直线在数据

2021-12-13 17:52:23 879

原创协方差表示的意义

但是这张图片x与y的平均值都为0，是去中心化之后的。可化简为：如果协方差是自己与自己，继续化简为：如果x与y不相关，那么cov（x,y）和cov（y，x）协方差就是0，也就是x与y不相关，x与y服从标准的正太分布，此时它的协方差矩阵是一个单位矩阵。正相关的x与y协方差大于0负相关的协方差矩阵小于0拉伸s是个对角阵，所以它的转置等于它自己。...

2021-11-29 17:15:24 971

原创相似矩阵的定义

2021-11-29 17:15:02 550

原创数据线性变换

旋转算子为何这样设计：

2021-11-27 17:59:23 308

原创投影向量=投影长度乘以单位向量

得出结论长度乘以一个向量等于一个向量(投影长度乘以单位向量等于投影向量)

2021-11-27 17:21:34 12510

原创 numpy想让数组的所有值全部显示

np.set_printoptions(threshold=np.nan)引起的错误，语句改成np.set_printoptions(threshold=sys.maxsize)解决了这个错误，但是这个方法我们需要导入sys改成这个方法更简单np.set_printoptions(threshold=np.inf)

2021-11-06 16:31:06 1110

原创何为矩阵的秩

向量的极大线性无关组。设a1,a2……as为一个n维向量组，如果向量组中有r个向量线性无关，而任何r+1个向量都线性相关，那么这r个线性无关的向量称为向量组的一个极大线性无关组。向量组的极大线性无关组中所含向量的个数，称为向量的秩。矩阵的行向量的秩称为行秩。列向量的秩成为列秩...

2021-10-18 23:15:00 119

原创行满秩矩阵为何变成增广矩阵还为满秩

由于mn 的矩阵的秩r<=min{m,n}. 所以既然是行满秩，那么 r=m, 且m<=n. 它的增广阵就是m(n+1), 增广的秩<= min{m,n+1}, 由上面的m<=n, 得到m<n+1, 所以增广阵的秩最大为m。又增广的秩一定大于等于系数阵的秩r，因此，行满秩矩阵的秩等于其增广矩阵的秩（增广的秩一定大于等于系数阵的秩r增广矩阵(A,b)比系数矩阵A多一列，所以r(A)≤r(A,b)≤r(A)+1。）行满秩即行向量组线性无关而线性无关

2021-10-17 12:58:53 3466

原创行阶梯型矩阵，行最简形矩阵，标准形矩阵

行阶梯形矩阵：行最简形矩阵：标准形矩阵：

2021-10-15 23:37:44 11531

原创线性代数为什么齐次线性方程有非零解的充要条件是系数行列式不等于零?

因为齐次线性方程一定存在零解（齐次线性方程组为AX=0,其中A为矩阵），而系数行列式不等于零那么线性方程必然只有1个解组（0），所以对于齐次方程来说有非0解则系数行列式一定要等于零。求解步骤1、对系数矩阵A进行初等行变换，将其化为行阶梯形矩阵；2、若r(A)=r=n（未知量的个数），则原方程组仅有零解，即x=0，求解结束；若r(A)=r<n（未知量的个数），则原方程组有非零解，进行以下步骤：3、继续将系数矩阵A化为行最简形矩阵，并写出同解方程组；4、选取合适的自由未知量，并取相应的基本向量

2021-10-15 23:37:31 12744 3

原创三点求平面方程

求过三点：M₁(x₁，y₁，z₁)；M₂(x₂，y₂，z₂)；M₃(x₃，y₃，z₃)的平面的方法：设过M₁的平面方程为 A(x-x₁)+B(y-y₁)+C(z-z₁)=0…①M₂，M₃都在此平面上，因此它们的坐标都满足方程①；将它们的坐标依次代入得：A(x₂-x₁)+B(y₂-y₁)+C(z₂-z₁)=0…②A(x₃-x₁)+B(y₃-y₁)+C(z₃-z₁)=0…③①②③是关于A、B、C的线性方程组，此方程组有非零解的充要条件是关于A、B、C的系数行列式∆=0；即：打开此行列式，就可得到

2021-10-15 13:37:04 7114

原创向量的混合积

三重积，又称混合积，是三个向量相乘的结果。向量空间中，有两种方法将三个向量相乘，得到三重积，分别称作标量三重积和向量三重积。设 a ，b ，c 是空间中三个向量，则 (a×b)·c 称为三个向量 a ，b ，c 的混合积，记作[a b c] 或 (a,b,c) 或 (abc)。来源百度...

2021-10-14 23:24:12 1293

原创向量的向量积

a向量与b向量的向量积的方向与这两个向量所在平面垂直，且遵守右手定则。（一个简单的确定满足“右手定则”的结果向量的方向的方法是这样的：若坐标系是满足右手定则的，当右手的四指从a以不超过180度的转角转向b时，竖起的大拇指指向是c的方向。）向量积|c|=|a×b|=|a||b|sin<a，b>即c的长度在数值上等于以a，b，夹角为θ组成的平行四边形的面积。而c的方向垂直于a与b所决定的平面，c的指向按右手定则从a转向b来确定。...

2021-10-14 23:20:30 296

原创线线角、线面角、面面角的取值范围是多少？

线线角范围是（0，π/2】，线面角范围是【0，π/2】，面面角范围是【0，π】。

2021-10-14 22:23:28 9124

原创 anaconda换源

Windows 用户无法直接创建名为 .condarc 的文件，可先执行 conda config --set show_channel_urls yes 生成该文件。生成的文件在C:\Users\用户名.condarc中科大镜像源conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/conda config --add channels https://mirrors.ustc.edu.cn/anacon

2021-10-14 08:59:30 142

原创 Anaconda Navigator打不开

1可能是因为你用虚拟环境的时候，无论是用pycharm还是spyder等编辑器对于不同库的要求是不一样的。我们切换环境导致spyder版本与下载包的版本不一致，建议：1用pip show 包名2卸载版本不匹配的包，重新安装何时版本的包pip Install 包==版本号2当你安pytorch，qyqt5等包时，一些基本的包会被覆盖翻新建议：上面的方法也可以解决这个问题...

2021-10-13 10:51:33 267

原创距离度量的方法,欧式距离,切比雪夫距离、马氏距离、巴氏距离，曼哈顿距离

用欧氏距离(也称欧几里德度量)，高中所学的两点距离公式就是欧氏距离在二维空间上的公式，也就是欧氏距离的n的值为2的情况.

2021-10-10 22:02:09 1150

原创 Python 实现实现Numpy找到最大值的位置(PCA的实现)

np.sort()函数的作用，从小到大排序。（这里我也需要注意axis）不写的话他的默认值为1.使用x == np.max(x) 获得一个掩模矩阵，然后使用where方法即可返回最大值对应位置。编程PCA算法的时候x=np.array([[-1,-1,0,2,0], [-2,0,0,1,1]])yuan=xx=0.2*np.dot(x,x.T)e,v=np.linalg.eig(x)print(v)re=np.where(e==np.max(e))v=v.T[r

2021-10-08 16:43:20 4176

原创一个矩阵与单位矩阵相乘等于本身吗？并且符合交换律吗？

是啊、单位矩阵相当于代数中的1

2021-10-07 22:51:18 12261

原创泊松分布二项分布正态分布高斯分布伯努利分布latex

变量类型：连续型变量如：指数分布、正态分布离散型变量如：伯努利分布、二项分布、泊松分布二项分布(Binomial distribution)二项分布即重复n次的伯努利试验。在每次试验中只有两种可能的结果，而且是互相对立的，是独立的，与其它各次试验结果无关，结果事件发生的概率在整个系列试验中保持不变，则这一系列试验称为伯努利实验。正太分布正态分布（normal distribution）又名高斯分布（Gaussian distribution）、正规分布，是一

2021-10-06 14:33:59 3584

原创 csdn编辑数学公式

在 CSDN 网站上插入一些专业的数学公式，特别是在写数字信号处理和机器学习有关的博客时，而CSDN的Markdown编辑器是不支持插入公式功能的，它的富文本编辑器虽然支持插入公式功能，但是不好用。为了友好地将公式展示给读者，下面介绍一下如何在 CSDN 博客中插入公式~那么，Latex 的语法到底是什么样的呢？首先，CSDN是支持 LaTeX 数学公式的，但是不支持原生的 LaTeX 数学公式，需要进行转换。比如直接在编辑器中输入LaTex公式 \prod \frac{a}{b}，是不会成功显示的，需要

2021-10-06 10:51:06 173

水果分类数据集适用于knn算法fruit_data_with_colors.txt

空空如也