PY_smallH-CSDN博客

原创 sql查找薪水记录超过15条的员工号

关于牛客网sql练习-------‘查找薪水记录超过15条的员工号emp_no以及其对应的记录次数t’的一些记录原题数据为：drop table if exists `salaries` ; CREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` date NOT NULL,`to_date` date NOT NULL,PRIMARY KEY (`emp_no`,`f

2022-05-04 15:13:54 442

原创协方差矩阵的齐性检验（接上一篇文章）

关于协方差同质性检验，我也是一知半解，不过多讲解，自己也很懵。本文讲述对于两分类问题的协方差矩阵检验，和多分类的协方差矩阵的检验两分类的协方差矩阵齐性检验Σ1是类别1的协方差，Σ2是类别2的协方差，Σ是两个协方差的联合协方差（即图中的Σ_hat，和S）。式子中 tr 表示trace，即沿着对角线求和。p是维数，即数据有几个特征因为在贝叶斯判别的式子中如果两分类协方差相等，那么用的是他们的联合协方差做计算。所以这个检验方法是检验Σ1 和联合协方差的差异性，和Σ2与联合协方差的差异性。如果他们

2021-12-03 23:07:22 7302

原创贝叶斯判别分析，Python代码分类讲解

贝叶斯判别规则是把某特征矢量(x) 落入某类集群的条件概率当成分类判别函数(概率判别函数)，x落入某集群的条件概率最大的类为X的类别，这种判决规则就是贝叶斯判别规则。贝叶斯判别规则是以错分概率或风险最小为准则的判别规则。这是百度百科的解释，乍一看，有点不清楚，其实就是用贝叶斯公式，判别他属于某一个类别的概率。贝叶斯公式P(A∩B) = P(A) P(B|A) = P(B) P(A|B)在此公式为：P(W|X)即为后验概率。P(X|W)，统计在W类中，发生X的概率，可以从概率密度函数理解P(

2021-12-03 15:26:35 6004

原创 python求解线性规划问题和整数规划-建模初探

线性规划问题，在线性等式或者不等式的约束下，去求解一个线性目标函数的最大值最小值问题。首先想到的是scipy中的优化包→optimize里面的 linprog。这个名字和MATLAB里面优化的名字是一样的。对于简单的连续性线性极值问题，可以使用。from scipy import optimize as ophelp(op.linprog)查看帮助，可以看到这个函数的用法linprog(c, A_ub=None, b_ub=None, A_eq=None, b_eq=None, bounds=

2021-11-29 09:13:55 3397

原创 fisher判别分析(LDA)，Python

Fisher判别分析，或称为线性判别分析（Linear Discriminant Analysis，LDA）。LDA有时也被称为Fisher’s LDA。最初于1936年，提出Fisher线性判别，后来于1948年，进行改进成如今所说的LDA。关于Fisher判别的数学原理和推到过程，这里就不多介绍，附上另外一篇文章，写的很详细。Fisher数学推导建议看完推导过程再回来。这里讨论二分类。其实我们要的就是最终的结论：因为我们最终计算的时候，就是通过这个公式来计算，方法有两种，第一是通过1式计

2021-11-25 10:46:21 3574

原创灰色关联分析，Python实现GRA(gray relation analysis)

灰色关联分析法：对于两个系统之间的因素，其随时间或不同对象而变化的关联性大小的量度，称为关联度。在系统发展过程中，若两个因素变化的趋势具有一致性，即同步变化程度较高，即可谓二者关联程度较高；反之，则较低。因此，灰色关联分析方法，是根据因素之间发展趋势的相似或相异程度，亦即“灰色关联度”，作为衡量因素间关联程度的一种方法。灰色关联分析，公式网上都有很多，计算也不难，这里就不写公式。之所以称为关联，是因为他只反映哪一个指标和要对比的指标最有关系，而不反映相关性。他和相关性系数，没有一毛钱关系，也不对等。

2021-11-23 14:41:58 10388 6

原创用Python 或者SPSS 做通径分析

一边学，一边记。简单相关系数：仅仅研究两个变量之间的关系偏相关系数：多个相关变量中研究两个变量之间的关系多元回归：多个不相关（理想化，不存在完全不相关）自变量与一个因变量之间的关系通径分析：多个相关的自变量与一个因变量之间的关系典型相关系数：多个相关的因变量与多个相关的自变量之间的关系看图图中箭头表示自变量之间存在因果关系，x1直接指向y为x1对y的直接通径。r表示变量之间的相关系数在直接通径上，若xi到的值增加一个标准差单位时，y将要改变的标准差单位Piy,称为通径xi到y的系数。这

2021-11-18 21:39:25 8788 1

原创马尔科夫链预测，Python实现

–记录自己学习的步伐，点滴的生活，以后学习和复习使用。纯手打，代码不抄袭。–来源百度百科，具体定义和性质可以查看百度百科的内容。马尔科夫链或者看一下下面的这个文章，也是翻译转载过来的。偷渡一下：[译] 用 Python 实现马尔可夫链的初级教程用概率数学公式表示如下：Pr( Xn+1 = x | X1 = x1, X2 = x2, …, Xn = xn) = Pr( Xn+1 = x | Xn = xn)就是说 Xn+1 的概率只和之前的 Xn 的概率有关。所以只需要知道上一个状态就可以确定现在

2021-11-17 13:31:05 10365 1

原创 python数据库使用pandas和sqlalchemy以及Table的使用

这次的主题是，把CSV（或其他）文件格式的数据，存储进MySQL数据库，并且表结构主键都要建立。包括日期格式的处理。虽然很简答，但是有很多细节的东西，而且知识面也比较广，就写下来。三张表格，如下articles:issues:sales:import numpy as npimport pandas as pd# 和数据库交互的模块，这里和pandas共同作用，如果没有就自己pip。import sqlalchemy# 这是表，元数据，外键等，一会可能会用到。from sqla

2021-11-05 10:05:55 1589

原创 spss--K_means快速聚类（随笔笔记）以及和Python实现K_means聚类的比较

聚类分析原理简介：聚类分析是对样品或变量进行分类的一种多元统计方法，目的在于将相似的实物归类。聚类分析并不是一种纯粹的统计技术，在方法基础上与分布理论和显著性无关，一般不用于从样本推断总体的研究。在市场研究中，聚类分析主要用于市场细分、研究消费者行为，寻找新的潜在市场和左尾其他统计分析的预处理等。聚类分析的基本概念聚类（clustering）是将某个对象集划分为若干组（class或cluster）的过程，使得同一个组内的数据对象是具有较高的相似度，而不同的组中间的数据对象是不相似的，相似或者不相似的

2021-10-15 20:46:58 2334 1

原创 SPSS----加权回归分析你了解多少（随笔笔记）

spss统计分析书中这样写到：在线性回归模型中，有一个同方差性假设，就是要求所有观测对回归模型的变异具有相同的贡献，以此为基础的回归方法称之为普通最小二乘法(OLS)。当因某些观测的变异较其他观测大而导致样本的方差不等时，就不能使用OLS方法了。如果观测的变异是可以通过其他变量进行预测，就可以使用加权最小二乘法(WLS)来拟合线性回归模型。WLS实际上是在回归中按观测量方差的倒数对观测进行加权，这样就会降低具有较大方差的观测记录对计算过程的影响。例如在研究通货膨胀和失业率对股票价格的影响时，考虑到高市值

2021-10-15 09:18:33 13772 1

原创 SPSS-概率单位回归分析Probit回归 (随笔笔记)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-10-13 23:09:49 22464 2

原创 T分布和T检验的理解，Python代码实现T检验的计算

每天学习一点，每天进步一点。声明：本人所有的原创，都是自己在学习过程中的记录点滴，不一定都是对的，肯定也会有一些错误的想法。所以大家看一看就好，不可尽信。当然也欢迎指出。T分布定义，有来自标准正态分布的样本X ~ N（0,1），和来自卡方n分布的Y ~ X2(n)，那么有 Z= X/√（Y/n）成为符合自由度为n的T分布我们用Python代码画一下他的图形# 给一个自由度，返回这个自由度的卡方分布 X²(n)def product(n): n = np.ceil(n).astype

2020-12-30 22:22:19 7535

原创卡方分布和卡方验证的关系理解，以及Python实现

卡方分布定义：设 X1…Xn是服从标准正态分布的随机变量，则称统计量服从自由度为n的卡方分布，自由度为n时，他的期望是n，方差为2n他是标准正态分布变量的平方和，网上找了一张概率密度图：然后我很好奇的是，这张图怎么画出来的呢？既然是正态分布的平方和，我就试一下弄几个正态分布平方和，看看图形是不是这个样子。用Python代码# 产生服从N（0,1）分布的1000个数x1 = np.random.randn(1000)y1 = np.power(x1,2)一个一个产生太慢了，，用循环生

2020-12-29 20:07:11 4257 3

原创 MySQL__查询不同班级前三名的同学的思考，sql语句之近百万级别数据查询

最近看到一个老问题，虽然不难，但也足以让我思来想去。问题是这样的，在MySQL中查询不同班级下的前三名的同学（一个table）。我们假设的简单一些，这张表叫students，然后有一个ID列主键，也表示学生的id，一个classid列表示班级，和一个grade表示分数。我随便插了一些数据。如下现在就仅仅取出不同班级的前三名就行了。这里要考虑的问题就是前三名，万一有同分数的怎么办，是取三条数据还是取分数前三的所有人。网上给出了不同的sql语句。贴上来一个：select * from stude

2020-12-25 22:05:46 1193

原创机器学习之算法决策树（分类）——通过例子说明信息熵的计算方法

决策树采用的是信息熵或者Gini系数来作为分类标准。信息熵公式：Gini系数公式：一般构造一个分类器(sklearn.tree.DecisionTreeClassifier)，默认参数criterion有{“gini”, “entropy”}, 其中default=”gini”。这两个计算公式不一样而已。我在这里计算的是信息熵的公式，另外的一个也都一样，换一个公式而已。我们在提到概率问题的时候都会有一个前提假设，假设这些变量或者特征都是相互之间没有关系的，就不会存在组合的情况，不然就没办法计算概率

2020-12-11 21:33:34 5492 1

原创逻辑斯蒂回归（Logistics Regression）简单介绍

概念很多内容摘自李航的《统计学习方法》，在此说明。感谢在李航《统计学习方法（第二版）》书中写到：逻辑斯蒂回归是统计学中的经典分类算法。是的，他虽然叫回归，但是他却用于实际中的分类模型首先介绍逻辑斯蒂分布（Logistics distribution）。设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数：式中μ为位置参数，s是形状参数。分布函数属于逻辑斯蒂函数，是一条S型的曲线，又称为sigmoid函数（μ=0，s=1）。该曲线以点（μ，1/2）为中心堆成，曲线在中心点附

2020-12-05 15:05:32 1753

原创机器学习之梯度下降--线性回归

什么是梯度下降：官方的意思：梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。这里没有数学公式，没有推导过程，我只是从物理的角度，来说明梯度下降的意思和怎么去用它解决问题。科学家们发现或者发明了任何东西，肯定都是有意义的，我们要做的不

2020-12-02 12:47:55 375

原创机器学习之knn算法----手写数字识别mnist

机器学习之knn算法----手写数字识别mnistknn介绍KNeighborsClassifier(n_neighbors=5, weights=‘uniform’, algorithm=‘auto’, leaf_size=30, p=2, metric=‘minkowski’, metric_params=None, n_jobs=1, **kwargs)Parametersn_neighbors : int, (default = 5)—k的值weights : str or callabl

2020-12-01 14:59:48 3096 1

PY_smallH的博客