EdVzAs-CSDN博客

原创 Python 第三方模块统计2 patsy,chowtest

官方文档:https://pypi.org/project/patsy/一.概述1.简介:patsy是1个用于描述统计模型(尤其是线性模型或具有线性组件的模型)和构建设计矩阵的Python库.其受R/S语言中的公式迷你语言启发并与之兼容,为Python带来了"R公式"(R "formulas")的便利性2.安装:pip install patsy二.使用...

2021-10-30 21:06:37 1286

原创 Python 第三方模块科学计算 Quantecon模块

一.简介1.功能:quanrecon是1个用于计量经济学的高性能开源Python库2.安装:pip install quantecon

2021-10-29 18:15:46 947

原创机器学习朴素贝叶斯与贝叶斯网络

一.朴素贝叶斯1.概述(1)假设:①特征独立性:每个特征出现的概率与其他特征独立②特征均衡性:每个特征都同等重要2.实例:假设已经有1000封被标记好了(c1c_1c1表示垃圾邮件,c2c_2c2表示非垃圾邮件)的邮件,要求识别第1001封邮件是否为垃圾邮件.首先构建词汇表,设其中的单词数为N=nN=nN=n.将第邮件mmm映射到nnn维向量xmx_mxmm→xm=(x1m,x2m...xnm)xim={1 if 单词wi在m中出现过0 otherwisem→x_m=(x_{1m},x

2021-08-02 20:26:43 1597 1

原创机器学习装袋算法与随机森林

一.装袋算法1.概述:"自举聚集算法/装袋算法"(Bootstrap Aggregating;Bagging)是1种团体学习算法,最初由Leo Breiman于1996年提出.该算法可与其他分类/回归算法结合,提高其准确率/稳定性并通过降低结果的方差来避免过拟合.其基本想法是分别训练几个不同的模型,然后让各模型对测试样本的结果进行投票表决,即进行"模型平均"(Model Averaging)2.步骤:①通过"自助法"(Bootstrapping)从样本集中选出n个样本,得到训练集②在训练集上

2021-07-31 19:35:22 1470

原创机器学习最大熵模型

一.信息熵1.信息熵(1)概述:该概念由克劳德·艾尔伍德·香农在1948年首次提出,最初来自于热力学中熵的概念.为避免混淆,故称为信息熵(Entropy).这是1个用于度量信息的不确定性的抽象概念.由于1条信息的信息量的大小与其不确定性有直接关系,如为了弄清楚1件高度不确定的事,就需要大量信息,因此对不确定性的度量就相当于对信息量(或预期需求的信息量)的度量(2)定义:信息熵H(X)H(X)H(X)被定义为H(X)=−∑xP(x)log⁡2P(x)H(X)=-\sum_x{P(x)\log_

2021-07-22 19:32:51 475

原创机器学习牛顿法

参见https://blog.csdn.net/itplus/article/details/21896453一.牛顿法参见:https://zhuanlan.zhihu.com/p/335443631.概念:"牛顿法"(Newton's method)是1种启发式的迭代算法,用于求解非线性最优化问题.其基本思想是:开始时随机选择1组参数(θ1,θ2...θn)并计算相应的目标函数值,然后迭代地沿牛顿方向移动来求解极小/大值.需要注意的是:仅当目标函数为凸函数时梯度下降能保证找到全局最优解;其他情

2021-07-21 18:09:26 373

原创机器学习线性回归

更多推导参见:https://blog.csdn.net/sinat_37965706/article/details/69204397一.线性回归1.概念:"线性回归"(Linear Regression)是指找到自变量与因变量之间的线性关系.相应的模型为"线性回归模型"(Linear Regression Model),该模型假设因变量y服从正态分布2.分类(1)简单线性回归:简单线性回归(Simple Linear Regression)是指找到1个自变量与1个因变量间的线性关系.简

2021-07-20 18:53:41 247 1

原创机器学习谱聚类

一.概述1.概念(1)谱,谱半径,谱范数:将方阵AAA的所有特征值构成的集合称为其谱(Spectrum),其谱中元素的最大绝对值称为其谱半径(Spectrum Radius/Spectral Radius),记为SR(A)=max⁡λi ∣eig(A)∣SR(A)=\underset{λ_i}{\max}\,|eig(A)|SR(A)=λimax∣eig(A)∣对矩阵MMM,将MTMM^TMMTM的谱半径的平方根称为MMM的谱范数(Spectrum Norm/Spectral Norm),记为S

2021-07-18 20:40:45 269

原创机器学习基于密度的聚类

一.概述1.概念:"基于密度的聚类"(Density-based Clustering)认为:在整个样本空间中,各目标簇均由一群稠密的样本点组成,而这些稠密样本点被低密度区域(即噪声)分割从而形成不同的簇;而算法的目的就是要过滤低密度区域并发现稠密样本点.具体来说,如果算法发现某个区域中数据点的密度超过了某个阈值,则将该区域放入最近的簇中2.优缺点(1)优点:①可发现任意形状的簇②对噪声不敏感③以数据集在空间中的稠密度为依据进行聚类,无需预先指定簇的数量,因此特别适合对未知数据集进行聚类

2021-07-17 23:27:43 596 2

原创机器学习层次聚类

一.概述1.层次聚类:"层次聚类"(Hierarchical Clustering)是1类聚类算法.这种算法会根据不同数据点间的相似度来逐级将数据点分入不同类别,从而创建出1棵有层次的聚类树.原始数据点是这颗树的最低层,树的顶层则是包含全部数据的根节点.层次聚类又可分为"合并的层次聚类"(AgglomerativeNesting;AGNES)和"分裂的层次聚类"(Divisive Analysis;DIANA)2.合并的层次聚类:"合并的层次聚类"(Agglomerative Nesting

2021-07-17 22:48:11 288

原创 Python 第三方模块开发工具3 环境管理

一.pip项目官网:https://pypi.org/project/pip/一.pyenv模块项目官网:https://github.com/pyenv/pyenv1.简介(1)功能:Python环境的管理存在如下问题:1.Python版本混乱,尤其是Py2和Py3差别巨大2.不同Linux发行版自带Python版本不同,同时许多系统组件依赖于自带解释器,删除或更改可能导致系统出现问题3.难以对不同Python解释器的软件包进行管理并保证互不干扰pyenv是1个来自Ruby社区的简单

2021-07-13 00:14:39 123 1

原创数据分析时间序列分析 ARMA模型

一.概念具有如下结构的模型称为自回归移动平均模型(Auto Regression Moving Average Model;ARMA Model)

2021-05-18 21:44:48 1284

原创数据分析时间序列分析 MA模型

一.概念具有如下结构的模型称为q阶移动平均模型(Moving Average Model of order q;MA Model of order q),记为MA(q)MA(q)MA(q):xt=μ+εt−θ1εt−1−θ2εt−2−...−θqεt−q s.t.{θq≠0 ①E(εt)=0,D(εt)=σε2,γ(εt,εs)=E(εtεs)=0 (s≠t) ②x_t=μ+ε_t-θ_1ε_{t-1}-θ_2ε_{t-2}-...-θ_qε_{t-q}\\\qquad\qquad\qquad\qqua

2021-05-18 21:17:49 3356

原创数据分析时间序列分析 AR模型

一.AR模型二.MA模型三.ARMA模型

2021-05-10 14:59:00 1965

原创数据分析时间序列分析平稳时间序列分析

一.工具1.差分运算(1)ppp阶差分:xtx_txt的ppp阶差分为∇xt=xt−xt−1 (p=1)∇pxt=∇p−1xt−∇p−1xt−1 (p>1)\nabla x_t=x_t-x_{t-1}\,(p=1)\\\nabla^px_t=\nabla^{p-1}x_t-\nabla^{p-1}x_{t-1}\,(p>1)∇xt=xt−xt−1(p=1)∇pxt=∇p−1xt−∇p−1xt−1(p>1)(2)kkk步差分:xtx_txt的kkk步差分为∇k

2021-05-10 14:58:10 883

原创数据分析时间序列分析时间序列的预处理

一.概述1.概念:对观测值序列的纯随机性和平稳性的检测称为"序列的预处理",根据检测结果可将序列分为不同类型.记γ(s,t)=Cov(Xs,Xt)2.特征统计量:一.平稳性检测(1)平稳序列:"平稳序列"(Stationary Series)是指在某1常数附近波动且波动幅度有限的序列.具体来说,要求期望/方差为常数而协方差只与时期间隔有关,即需要满足下述要求:①(Xt)=μ②D(Xt)=σ2③γ(t,t+k)=gk①(X_t)=μ\\②D(X_t)=σ^2\\③γ(t,t+k)=g

2021-05-07 23:02:51 1183

原创数据分析时间序列分析时域分析

一.综述1.概念:"时域分析方法"(Time Domain Analysis)的原理是:事件的发展通常具有一定的惯性,也就是说序列值间存在着具有统计规律的相关关系.其目标是:找出序列值间相关关系的统计规律并拟合出适当的数学模型来描述这种规律,进而利用该模型预测序列未来的值.这种方法理论基础牢固,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法2.步骤:①考察观察值序列的特征②根据序列的特征选择适当的模型③根据序列的观察数据确定模型的参数④检验并优化模型⑤利用拟合好的模型来推断序

2021-05-07 22:51:04 1926

原创数据分析时间序列分析无季节效应的非平稳时间序列分析

一.综述1.概念:"频域分析方法"(Frequency Domain Analysis)又称"(频)谱分析"(Spectral Analysis),是1种非常有用的动态数据分析方法.但其分析方法复杂,结果抽象,使用上局限性较大.其原理是:假设任何无趋势的时间序列都可以分解为若干不同频率的周期波动.其目标为:...

2021-05-07 22:36:13 1827

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习4 线性模型2

一.linear_model3.线性回归器(2)带有变量选择的线性回归器(Linear regressors with variable selection):以"L1范数"(L1 priors)和"L2范数"(L2 priors)的混合作为"正则化器"(regularizer)的"弹性网络回归模型"(Elastic Net Regression model):class sklearn.linear_model.ElasticNet([alpha=1.0,l1_ratio=0.5,fit_inter

2021-04-29 20:46:35 420

原创 C语言练习汉诺塔

1.原始版:#include <stdio.h>void move(int i,char f,char t) { printf("move %d from %c to %c\n",i,f,t);}void hanoi(int n,char f,char v,char t) { if (n==1) { move(1,f,t); } else { hanoi(n-1,f,t,v); move(n,f,t); hanoi(n-1,v,f,t); }}int m

2021-04-24 21:31:35 87

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习6 集成学习

一.calibration1.简介:该模块用于进行"概率校准"(Probability Calibration)2.使用(1)类:基于"保序回归"(isotonic regression)或"逻辑回归"(logistic regression)的概率校准:class sklearn.calibration.CalibratedClassifierCV([base_estimator=None,method='sigmoid',cv=None,n_jobs=None,ensemble=True])

2021-04-22 22:20:18 180

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习4 线性模型1

一.semi_supervised1.简介:该模块用于进行"半监督学习"(semi-supervised learning)2.使用:"标签传播分类器"(Label Propagation classifier):class sklearn.semi_supervised.LabelPropagation([kernel='rbf',gamma=20,n_neighbors=7,max_iter=1000,tol=0.001,n_jobs=None]) #参数说明: kernel:指定使用的

2021-04-22 18:19:32 221

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习3 朴素贝叶斯,KNN

一.naive_bayes1.简介:该模块实现了"朴素贝叶斯算法"(Naive Bayes algorithms)2.使用:"伯努利朴素贝叶斯分类器"(Bernoulli Naive Bayes Classifier):class sklearn.naive_bayes.BernoulliNB([alpha=1.0,binarize=0.0,fit_prior=True,class_prior=None])"类别朴素贝叶斯分类器"(Categorical Naive Bayes Classifi

2021-04-22 15:52:41 234

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习2 多类别分类,多输出学习,半监督学习

一.multiclass1.简介:该模块用于进行"多类别分类"(Multiclass classification),包括3类算法:①"1对其余"(one-vs-the-rest;OvR)/"1对全体"(one-vs-all;OvA)②"1对1"(one-vs-one;OvO) ③"纠错输出码"(error correcting output codes).该模块中提供的分类器均为元估计器,需要提供1个基本估计器(如2类别分类器或回归器)2.使用(1)1对多:1对多分类器:class skl

2021-04-22 15:50:32 489

原创 Python 第三方模块机器学习 Scikit-Learn模块数据降维

一.feature_extraction1.简介:该模块用于对原始数据进行"特征提取"(feature extraction)2.使用:将"特征值映射列表"(lists of feature-value mappings)转换为矢量:class sklearn.feature_extraction.DictVectorizer([dtype<class 'numpy.float64'>,separator='=',sparse=True,sort=True])实现"特征哈希"(fea

2021-04-22 12:59:48 317

原创 Python 第三方模块机器学习 Scikit-Learn模块其他

一.calibration1.简介:该模块用于进行"概率校准"(Probability Calibration)2.使用(1)类:基于"保序回归"(isotonic regression)或"逻辑回归"(logistic regression)的概率校准:class sklearn.calibration.CalibratedClassifierCV([base_estimator=None,method='sigmoid',cv=None,n_jobs=None,ensemble=True])

2021-04-22 12:35:17 421

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习1 交叉分解,高斯过程,保序回归

一.multiclass1.简介:该模块用于进行"多类别分类"(Multiclass classification),包括3类算法:①"1对其余"(one-vs-the-rest;OvR)/"1对全体"(one-vs-all;OvA)②"1对1"(one-vs-one;OvO) ③"纠错输出码"(error correcting output codes).该模块中提供的分类器均为元分类器,需要提供1个基本分类器(如2类别分类器或回归器)2.使用(1)1对多:1对多分类器:class skl

2021-04-21 18:00:38 467 1

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习5 ANN,决策树

一.metrics1.简介:该模块包含各种"评分函数"(score functions)/"性能指标"(performance metrics)/"成对指标"(pairwise metrics)/"距离计算"(distancecomputations),用于对模型效果进行定量评估2.模型选择接口(Model Selection Interface):通过用户选择确定"计分器"(scorer):[<scoring>=]sklearn.metrics.check_scoring(<

2021-04-15 23:23:20 611

原创 Python 第三方模块机器学习 Scikit-Learn模块无监督学习1 聚类2

一.kernel_approximation1.简介:该模块基于"傅立叶变换"(Fourier transforms)与"计算草图"(Count Sketches)实现了一些"近似核特征映射"(approximate kernel feature maps)2.使用:"加性卡方核"(additive chi2 kernel)的"近似特征映射"(Approximate feature map):class sklearn.kernel_approximation.AdditiveChi2Sample

2021-04-13 19:58:47 224

原创 Python 第三方模块常用工具2

一.funcy模块1.概述(1)简介:funcy模块中封装了一些花哨的实用函数,用于帮助用户以函数式的风格进行编程(2)安装:pip install funcy2.使用(1)类:无限计数器:class funcy.count([firstval=0,step=1]) #参数说明: firstval,step:分别指定起始值/步长;均为int(2)方法:展平嵌套数组:fc.flatten(<seq>[,follow=is_seqcont]) #参数说明:

2021-04-12 21:50:31 117

原创 Python 第三方模块机器学习 Scikit-Learn模块无监督学习2 协方差估计,流形学习,高斯混合模型

一.isotonic1.简介:该模块用于进行"保序回归"(Isotonic regression)2.使用(1)类:"保序回归模型"(Isotonic regression model):class sklearn.isotonic.IsotonicRegression([y_min=None,y_max=None,increasing=True,out_of_bounds='nan'])(2)方法:求因变量是否与自变量单调相关:[<increasing_bool>=]skle

2021-04-12 17:11:57 267

原创 Python 第三方模块机器学习 Scikit-Learn模块模型的选择与评估

一.impute1.简介:该模块用于处理缺失值2.使用:class sklearn.impute.SimpleImputer([missing_values=nan,strategy='mean',fill_value=None,verbose=0,copy=True,add_indicator=False])class sklearn.impute.IterativeImputer([estimator=None,missing_values=nan,sample_posterior=Fals

2021-04-11 15:44:36 933

原创 Python 第三方模块机器学习 Scikit-Learn模块数据预处理

一.feature_extraction1.简介:该模块用于对原始数据进行"特征提取"(feature extraction)2.使用:将"特征值映射列表"(lists of feature-value mappings)转换为矢量:class sklearn.feature_extraction.DictVectorizer([dtype<class 'numpy.float64'>,separator='=',sparse=True,sort=True])实现"特征哈希"(fea

2021-04-10 14:42:45 420

原创 Python 第三方模块机器学习 Scikit-Learn模块矩阵分解,核近似

一.cross_decomposition1.简介:该模块用于进行"交叉分解"(cross decomposition)2.使用:"典型相关分析"(Canonical Correlation Analysis;CCA):class sklearn.cross_decomposition.CCA([n_components=2,scale=True,max_iter=500,tol=1e-06,copy=True])"偏最小二乘"(Partial Least Squares;PLS)转换与回归:c

2021-04-07 22:04:05 378

原创 Python 第三方模块机器学习 Scikit-Learn模块有监督学习7 概率校准,判别分析,核岭回归,SVM

一.discriminant_analysis1.简介:该模块用于进行线性判别分析和二次判别分析2.使用:"线性判别分析"(Linear Discriminant Analysis):class sklearn.discriminant_analysis.LinearDiscriminantAnalysis([solver='svd',shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001,cov

2021-04-07 22:03:11 307

GravityWaveData.zip

空空如也