拓端研究室-CSDN博客

原创 R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

主题模型允许对文档中的术语频率发生进行概率建模。拟合模型可用于估计文档之间以及一组指定关键字之间的相似性，这些关键字使用称为主题的额外潜在变量。R 包主题模型提供了基于文本挖掘包 tm 中的数据结构拟合主题模型的基本基础结构。关键词：吉布斯采样， R，文本分析，主题模型在统计软件杂志（JSS）的摘要集合中进行了演示。为了结果的可重复性，我们仅使用截至2010-08-05发表的摘要，并省略摘要中包含非ASCII字符的摘要。最终数据集包含 348 个文档。

2022-10-19 13:53:41 797

原创数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

全文链接：分析师：Enno案例数据集是在线零售业务的交易数据，采用Python为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并使用Echarts做数据可视化。由于案例公司商业模式类似新零售，或者说有向此方向发展利好的趋势，所以本次基于利于公司经营与发展的方向进行数据分析。用大数据对产品的开发、生产、销售、流通等进行效能升级，优化整合线上线下资源，全方位提升用户体验的零售模式，这就是新零售。除了营销层面，新零售几乎涉及了产品的研发、设计、生产、品控、调度、包装、物流、品牌、服务、体验

2022-10-19 10:24:40 2077 2

原创 python岭回归、Lasso、随机森林、XGBoost、Keras神经网络、kmeans聚类链家租房数据地理可视化分析

1 利用 python 爬取链家网公开的租房数据；2 对租房信息进行分析，主要对房租相关特征进行分析，并搭建模型用于预测房租。

2022-10-18 15:34:40 939

原创 R语言淮河流域水库水质数据相关性分析、地理可视化、广义相加模型GAM调查报告

采样地点：淮河流域一带，昭平台水库、白龟山水库、燕山水库、石漫滩水库、板桥水库、宿鸭湖水库、博山水库、南湾水库、石山口水库、五岳水库、泼河水库、鲶鱼山水库。

2022-10-17 14:14:18 767

原创检测异常值的4种方法和R语言时间序列分解异常检测

太少的条柱可以隐藏一些模式，太多的条柱会夸大小的、可接受的数据更改的价值。例如，如果您有一个表示人身高的要素，并且其中一个观测值包含一个字符串，而不是一个字符串，其奇怪值如 = “abc cm”，并且由于高度不能包含此类值，因此可以安全地将其删除。但是，并非所有ML工作都受到异常值的影响，对于某些算法，您可以安全地忽略它们。例如，由于全球经济危机，一个国家的经济表现急剧下降，一段时间内较低的利率成为常态。根据异常值的性质，您可以保留它们或排除它们，例如，在实验错误的情况下，您希望删除它们。

2022-10-14 14:35:07 1527

原创 R语言回归模型诊断、离群值分析学生考试成绩、病人医护质量满意度、婴儿死亡率和人均收入、针叶树荫面积数据

为了进行比较，预测是在所有观测值和省略一个观测值的情况下进行的：要么是有影响力的观测值，要么是有最高杠杆的观测值。在这个特殊的案例中，我们确定具有最大树干尺寸的三棵树的测量是不正确的，它们可以从分析中移除。图1显示了残差与M1的拟合值之间的关系，使用的是通常的残差和 studentized残差的一个版本，ei/ √ 1 - hi。其中一个观测值的库克距离几乎是其他观测值的3倍以上（红色），而其中的e个观测值的平均杠杆率是两倍（蓝色）。这张图上的异常点是最上面的三角形，它对应的是沙特阿拉伯。

2022-10-12 14:46:01 1099 1

原创 R语言ECM误差修正模型、均衡修正模型、受限VECM、协整检验、单位根检验即期利率市场数据

• 这种不同期限的即期利率的演变情况是一种基础关系的情况。• 因此，强加一个长期关系并使用Engle-Granger程序具有更大的统计能力。• r10Y 和r25Y 系列都有一个单位根。• 事实证明，通过对这些时间序列进行差分，单位根被取消了，得到了一个平稳的残差。• 这意味着时间序列是协整的。

2022-10-10 14:24:20 771

原创 R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟、喝酒和赌博影响数据

吸烟、喝酒和赌博被认为是由许多因素造成的。Logistic回归分析是一个非常有效的模型，可以检验各种解释变量和二元反应变量之间的关系。同时，双变量模型分析也被用于检验单变量模型之间的相关性。本项目的目的是利用统计方法来检验某个因素是否对吸烟、喝酒或赌博偏好有显著影响。然后用这个结果来预测这些习惯之间的组合。

2022-10-08 12:54:30 1164 2

原创【视频】逆变换抽样将数据标准化和R语言结构化转换：BOX-COX、凸规则变换方法

一些归一化技术，如取对数，在大多数情况下可能有效，但在这种情况下，我决定尝试对任何数据都有效的方法，不管它最初是如何分布的。我下面要介绍的方法是基于反变换取样：主要思想是根据数据的统计特性，构造这样的函数F，所以F(x)是正态分布。例如，上一篇文章中的贝叶斯模型在没有数据归一化的情况下，R²~0.2，而在归一化数据的情况下，R²为0.34。这句话的数学证明超出了本文的范围，但是上述操作本质上只是对所有数值进行排序，并将每个数值替换为其数字，这给了它一个直观的感觉。请注意，最后的变换总是单调的。

2022-09-29 21:56:34 922 2

原创数据代码分享|Python用NLP自然语言处理LSTM神经网络Twitter推特灾难文本数据、词云可视化与SVM，KNN，多层感知器，朴素贝叶斯，随机森林，GBDT对比

Twitter是一家美国社交网络及微博客服务的网站，致力于服务公众对话。迄今为止，Twitter的可货币化日活跃用户达1.86亿。与此同时，Twitter也已成为突发紧急情况时人们的重要沟通渠道。由于智能手机无处不在，人们可以随时随地发布他们正在实时观察的紧急情况。因此，越来越多的救灾组织和新闻机构对通过程序方式监视Twitter产生了兴趣。但是，我们并不清楚一个用户在推特上发布的推文是否是真实的正在发生的灾难。举个例子，用户发送了“从正面看昨晚的天空，好像在燃烧一样。

2022-09-26 12:41:20 629

原创视频|分类模型评估:精确率、召回率、ROC曲线、AUC与R语言生存分析时间依赖性ROC实现

令 Mi为用于死亡率预测的基线（时间0）标量标记。当随时间推移观察到结果时，其预测性能取决于评估时间t。直观地说，在零时间测量的标记值应该变得不那么相关。因此，ROC测得的预测性能（区分）是时间t的函数。

2022-09-22 18:40:13 658

原创美光科技股票基本分析：经济背景、行业分析财政状况（盈利、EBITDA、PP&E、D&A等）预测计算DCF

本文收集信息和数据，从多方面评估分析美光科技的市场走向，商业前景。解决方案任务/目标从内外部角度分析外部：调查经济大背景（real GDP, Interest rates， inflation等参数）、半导体行业波动情况、外部不可控因素、通过数据分析美光在行业中的表现。内部：调研管理层，分析财政状况（盈利、EBITDA、PP&E、D&A等），利用现有数据预测并计算出DCF。数据源准备各项经济指标、行业指标我们从道琼斯指标美联储官网等权威信息平台收集。

2022-09-21 13:51:06 730

原创数据分享|函数型数据分析部分省市新冠疫情数据

统计学中传统的数据类型有截面数据和时间序列数据。这两者都只能在某一纵向或横向上探究数据，且部分前提条件又很难满足。而函数型数据连续型函数与离散型函数长期以来的分离状态，实现了离散和连续的过度。它很少依赖于模型构建及假设条件。通过使用函数型数据，我们可以发掘新冠疫情数据中更多的信息。一、数据的收集与整理选择人口流动较大的北京、上海、广东，以及与武汉相邻的重庆、湖南、江西、安徽、河南，一共八个省级行政区的确诊人数变化数据作为样本。

2022-09-19 12:41:46 2093 3

原创【视频】为什么要处理缺失数据？如何R语言中进行缺失值填充？

在任何现实世界的数据集中，通常都会有一些数据科学家和机器学习工程师必须处理的缺失数据，否则，它可能会导致开发数据时出现一些问题。因此，在这篇文章中，我将展示一些可用于处理数据驱动项目中丢失数据的技术，并可能消除在构建数据管道时丢失数据可能导致的问题。换句话说，在这种技术中，您只保留与每一列（或行）对应的非空值的数据行（或列），并将数据集视为删除的行从未存在过。然而，在这里，本质上假设丢失的数据点不会在数据管道中造成任何问题，并且所利用的方法擅长处理丢失的数据。但是，在分类列的情况下，均值和中位数没有意义。

2022-09-15 23:03:37 839

原创数据分享|WEKA用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归信贷违约预测报告

特征转换数据变得越来越重要，其核心应用“预测”也成为互联网行业以及产业变革的重要力量。近年来网络 P2P借贷发展形势迅猛，一方面普通用户可以更加灵活、便快捷地获得中小额度的贷款，另一方面由于相当多数量用户出现违约问题而给 P2P信贷平台以及借贷双方带来诸多纠纷，因此根据用户历史款情况准确预测潜在是否还会发生违约就非常有必要。解决方案任务/目标对于用户贷款是否违约的预测，结果解释。数据源准备。

2022-09-14 15:05:47 3040 6

原创 python可视化探索新冠病毒与失业率是否存在线性关系

对于政府来说，分析确定线性关系是对未来走向进行评估预测的重要基石，但是使用python进行提取数据进行整合并且使用可视化清晰的呈现线性关系并不是一件容易的事情。我利用折线图将费城失业率进行可视化处理，同时利用散点图对新馆病毒案例及检测数进行可视化处理并将检测结果为阳性的案例进行进一步提取（同时借助tableau对新馆病毒进行更加清晰的可视化处理），新冠病毒的病例及检测数与失业率并没有明显的线性关系，但在美国疫情爆发的初期，新冠病毒的爆发的确对经济及就业市场造成了巨大的影响。基于政府提供的线上数据，

2022-09-13 12:57:38 378

原创代码分享|R语言使用ARIMA模型进行时间序列分析

时间序列预测是借助对具有历史数据的数据集使用的一些统计工具和方法来预测未来值的过程。第一张图显示了没有预测的 BJsales 的视觉效果，第二张图显示了具有预测值的 BJsales 的视觉效果。中，数据分析和可视化非常容易学习数据的行为。此外，R 语言主要用于 Python 之后的数据科学领域。是一种数据分析，用于检查数据在一段时间内的行为。有许多技术可用于预测绘图图上的时间序列对象，但。使用基于 BJsales 数据集的 ARIMA 模型的函数预测 10 个下一个值。R中ARIMA模型的实现。

2022-09-12 21:52:34 3272 1

原创【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享

这提高了性能的有效性，因为在训练数据集的每个部分上都训练了一个“新”模型。然后，我们将得到一个最终分数，该分数总结了模型在许多验证步骤中的性能——与查看单个迭代的性能相比，这是一种非常可靠的方法！验证集允许我们测试不同的配置并为我们的场景选择最好的配置，而没有过度拟合的风险。一旦我们找到最佳配置，您就可以将具有最佳配置的最佳模型带到“真实”世界——即由模型从未见过的数据组成的测试集。要在数据集上使用的模型时，我们需要了解哪些是最佳的超参数配置。一个可以泛化的模型是一个有用的、强大的模型。

2022-09-09 15:00:02 710

原创共享单车需求量登记分类及影响因素分析——基于机器学习模型的比较分析

其次，Xgboost 支持并行处理，众所周知，决策树的学习最耗时的一个步骤是对特征的值进行排序，Xgboost 在训练之前预先对数据进行了排序，然后保存为 block 结构，后面的迭代中重复使用这个结构，大大减小了计算量。分析分类结果以及各因素的重要性发现，时间、风速、湿度、温度四个因素对共享单车使用量存在较高的影响，因此维修部门可以选在凌晨阶段，或者风速较大、温度过低或过高的时期对共享单车进行合理的批量维修，避开市民用车高峰，保证市民出行效率以及用车安全。因此，为了提高结果的准确性，选择删去。

2022-09-08 13:24:37 1527 1

原创神经网络正则化技术防过拟合和R语言CNN卷积神经网络手写数字图像数据MNIST分类

为了减少模型的偏差，即减少错误假设造成的误差，我们需要一个更复杂的模型。相反，减少模型的方差，即模型在捕捉训练数据变化方面的敏感度，意味着一个更简单的模型。如果神经网络的每一层都是线性的，我们可以证明整个网络的行为是线性的。在探索用于防止神经网络过度拟合的不同技术之前，重要的是要弄清楚高方差或高偏差的含义。λ 直接控制正则化的影响：随着 λ 的增加，对权重收缩的影响更加严重。的网络，一个更简单的网络导致一个不太复杂的模型，也不太容易过拟合。同样，λ 是正则化项，对于 λ=0，L2 正则化的效果为空。

2022-09-02 14:56:49 758 1

原创量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

尽管在这个阶段犯错误的方法更少（与之前的阶段相比），但这些错误可能会付出高昂的代价，因为我们将无法发现模型的弱点（或问题）。显然，我们需要区分异常值的类型——如果我们发现观察明显是错误的（数据错误），我们可以删除它，但是，如果它是有效的观察，我们应该接受它并让我们的模型处理它。在拟合模型时，我们的目标是使用最少的变量，但具有最大的预测能力。正如我们所理解的，“正态性”有时可能是一个弱假设，我们可以使用已实现的分布（采用不同的时间框架）并查看它如何符合正态分布，因此我们可以评估资产的回报分布有多正常.....

2022-08-26 15:46:11 289

原创【视频】结构方程模型SEM分析心理学营销数据路径图可视化|数据分享

这个问题的答案有三个：R 包旨在吸引大量需要 SEM 软件来回答其实质性问题的应用研究人员。许多应用研究人员以前没有使用过 R 并且习惯于商业 SEM 程序。应用研究人员通常重视直观且具有丰富建模功能的软件，而 R 包试图实现这两个目标。R 包旨在吸引那些教授 SEM 课程或 SEM 研究的人；理想情况下，教师应该能够使用易于使用但完整的 SEM 程序，该程序在计算机教室中安装成本低廉。R 包旨在吸引在 SEM 领域工作的统计学家。

2022-08-19 17:34:37 695

原创 Python用RNN神经网络LSTM优化EMD经验模态分解交易策略的股票价格MACD分析

预测股票价格，并在合适的时间产生交易策略实现收益，一直是一个热门的问题，到现在为止也提出了很多预测方法。1.利用 LSTM 预测中国平安的股票价格情况：从 loss 图中可以看出，网络效果较好，训练集和测试集的 loss 都是下降后趋于稳定，不存在过拟合现象。考虑到最终模型会预测将来的某时间段的销量，为了更真实的测试模型效果，以时间来切分训练集和测试集。EMD分解在处理非平稳及非线性数据上，具有非常明显的优势，适合于分析非线性、非平稳信号序列，具有很高的信噪比。可以看出胜率在６０％左右。...

2022-08-15 18:05:21 773 1

原创【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、广义相加GAM分析工资数据|数据分享

多项式回归将曲线拟合到您的数据。Thetas 是要估计的参数，使模型完全适合基础数据。虽然这里 X 和 Y 之间的关系是非线性的，多项式回归无法拟合它们，但多项式回归模型仍然可以表示为线性回归。给定三次多项式方程，将模型转换为具有新变量的简单线性回归。这个模型在要估计的参数中是线性的，对吧？因此，这种多项式回归被认为是传统多元线性回归的一个特例。因此，您可以使用与线性回归相同的机制来解决此类问题。因此，多项式回归模型可以使用最小二乘模型进行拟合。......

2022-08-12 18:39:16 417

原创 R语言多元线性回归、ARIMA分析美国不同候选人对经济GDP时间序列影响

结合不同候选人的政策，可以人为定性的分析出对各特征的影响是增大还是减小，然后通过平均 20 年的数据，算出各特征增大以及减小的百分比均值，以此来估计影响的具体数值。这样一来，对历史数据通过 ARIMA 模型得到 20 年的的数据，然后通过各候选人的不同政策对指标的影响以及历史变动均值，就得到了 21 年四个季度各指标的具体数值，然后通过多元回归所得方程，预测 21 年 4 个季度的 GDP 具体数值。结合各因素的 t 检验以及模型的 AIC，通过向前向后选择的方法，选择出最优的回归模型。....

2022-08-10 14:36:57 883

原创【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类（社区检测）和可视化|数据分享

复杂网络分析研究如何识别、描述、可视化和分析复杂网络。复杂网络分析CNA简介与R语言对婚礼数据聚类（社区检测）和可视化为了用R来处理网络数据，我们使用婚礼数据集（查看文末了解数据获取方式）。CNA 研究和应用爆炸式增长的突出原因是两个因素 - 一个是廉价而强大的计算机的可用性，使在数学、物理和社会科学方面接受过高级培训的研究人员和科学家能够进行一流的研究；另一个因素是是人类社会、行为、生物、金融和技术方面不断增加的复杂性。网络是离散数据的组织和表示的关系形式。关于网络的两个最重要的概念是实体和它们之间的关系

2022-08-05 17:08:19 416

原创数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别

除此之外，还需要将正负样本各自的照片像素设为相同的值，正样本数据集的像素最佳设为20x20，这样的模型训练精度更高，而负样本数据集像素则应不低于50x50，如此可以加快模型训练的速度，此处我们将负样本的数据集像素调节为80 x80。因为识别有一定的误差，所以需要对裁剪后的照片进行筛选，将极少数对齐不准确的照片手动删除，并将数据集的照片进行重命名，便于后续数据集路径的创建。最后得到戴口罩的照片1010张，作为该模型的正样本，未戴口罩的照片3030张，作为该模型的负样本，正负样本的比例为1:3。........

2022-08-03 13:35:30 1555

原创 Python的分子模拟动态促进DF Theory理论对二进制硬盘系统的适用性

流体力学界对过冷液体（supercooledliquid）的认知还不完善，我的项目利用Python的分子模拟，通过搭建一个binaryharddisksystem并对系统进行压缩模拟来验证DynamicFacilitationTheory是否适用于我搭建的分子模型。兴趣技能点广泛，对数据分析，品牌营销，客户策略，以及industry-related科研感兴趣，精通MicrosoftOffice，Python，Matlab，Mathematica等学术软件，尤其Python数据分析经验充分。.........

2022-08-01 13:58:52 198

原创【视频】极值理论EVT与R语言应用：GPD模型火灾损失分布分析

概述这篇文章将如下。

2022-07-29 01:11:36 610 1

原创 R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

可视化。

2022-07-28 12:41:43 386

原创基于简化的评分卡、Smote采样和随机森林的信贷违约预测

此处的创新点在于简化评分卡模型思想的构建，我们简化的部分在于不去生成评分卡，而是利用评分卡模型中对特征进行WOE变换的一个核心思想，将它和逻辑回归模型相结合，从而得到一个简化评分卡模型。因为我们使用的算法为基于逻辑回归的评分卡和随机森林模型，特征之间的线性相关性会对模型建立的环节有所影响，所以利用热力图展示一下特征之间的相关性。特征处理的方式有很多，我们选择WOE变换，这是因为WOE变换后的变量和逻辑回归线性表达式成单调关系，这样更加好的衡量组与组之间的数量联系。越强，但对计算性能也有很高的要求。...

2022-07-27 16:54:06 410

原创 Matlab的移动机器人导航遗传算法仿真分析寻优路径规划和种群进化曲线可视化

随着机器人技术的快速发展，室内轮式机器人逐渐成为了相关研究人员的重点关注对象，应用场景主要是家庭等室内环境，轮式机器人完成复杂任务的基石是完善的路径规划技术，对该技术的深入研究，能够提高机器人的智能化水平，促进该学科的快速发展。虽然目前全球范围都在对机器人路径的优化问题进行研究并取得了一些成绩，但是室内小范围区域路径规划的研究还是一个难点，还有很多问题有待解决，比如说，室内区域相对狭小，周围的环境变化频繁会对机器人路径规划的结果产生较大影响；........................

2022-07-26 14:28:52 850

原创 SPSS用KMeans、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为规律数据

聚类分析，是知识发现中的一项重要研究内容，又被称为群分析类，简单来说就是具有相似特征的元素的集合。聚类，就是将具有较高的相似性的元素集中起来，最终，形成几个子集。

2022-07-25 15:21:03 671 1

原创 Eviews用向量自回归模型VAR实证分析公路交通通车里程与经济发展GDP协整关系时间序列数据和脉冲响应可视化

由序列的平稳性检验结果可知，河源市地区生产总值GDP和公里通车里程GL在1988－2014年这个时间序列中可能存在协整关系，协整检验的方法有EngleGranger两步法和Johansen极大似然法前者适合对两变量的模型进行协整检验后者适合在多变量的VAR模型中进行检验。采用VAR方法建立的GDP预测模型有一个显著优点，即它不用对当期的GDP或其他变量作出预测，只用历史的GDP和交通量数据，就可以对GDP做出比较准确的预测，由于减少中间变量预测的传递，相应提高了模型预测精度。进行方差分解示意图。......

2022-07-21 15:54:16 1810

原创【视频】什么是Bootstrap自抽样及应用R语言线性回归预测置信区间实例|数据分享

统计知识有助于收集数据的正确方法，使用正确的方法分析数据，并有效地呈现从数据中得出的结果。虽然这是真的，但如果考虑到传统的做法，可以看出，数据集中的异常值也会扭曲均值并夸大估计的标准误差。“bootstrapping的优点是它是一种直接得出标准误差和置信区间估计值的方法，而且它很方便，因为它避免了重复实验以获取其他组采样数据的成本。方法是传统假设检验方法的一种非常有用的替代方法，因为它相当简单，并且可以减少传统方法中遇到的一些缺陷，这将在后面讨论。方法，必须注意得出的结果与传统方法的结果基本相同。.....

2022-07-20 22:35:17 488

原创 R语言参数自抽样法Bootstrap：估计MSE、经验功效、杰克刀Jackknife、非参数自抽样法可视化

我们如何回答它估计从标准柯西分布（t分布w/df=1）生成的大小为20的随机样本的水平\(k\)修剪均值的MSE。我们如何回答创建更多的功效曲线，因为实际均值在350到650之间变化，但使用大小为n=10、n=20、n=30、n=40和n=50的样本生成它们。y轴是经验功效（通过bootstrap估计），x轴是\(\mu\)的不同值（350、360、370…（提醒自由度为\(k\)的卡方分布的平均值为\(k\)。...............

2022-07-20 14:12:19 1527

原创 R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集

本文将探讨Fisher和Anderson鸢尾花数据集中呈现的三个变量之间的关系，特别是virginica和versicolor级别的因变量变量物种对预测变量花瓣长度和花瓣宽度的逻辑回归。单因素方差分析和数据可视化都确定了因变量的一个因素水平，即I.setosa，很容易与其他两个因素线性分离，具有非常明显的均值和方差，因此不是我们对逻辑回归感兴趣。对鸢尾花数据的初步查看引发了关于数据集本身性质的直接问题为什么要收集如此简单的数据。...............

2022-07-19 12:15:21 1435

原创 Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例

作为数据挖掘的一个重要研究方向—关联规则用于发现数据项之间隐含的深层次的关联，如Apriori模型可以通过对客户需求进行深入的分析来发现数据之间的潜在联系，为我们提供自动决策支持。关联规则是数据挖掘算法中主要技术之一，是在无指导学习系统中挖掘本地模式的最普便形式。在数据挖掘中，常见的关联规则挖掘模型有AIS、SETM、Apriori、DHP、MLT2L1、ML-TML1等。其中，Apriori算法是一种最有影响的挖掘关联规则频繁项集的模型。.....................

2022-07-18 12:45:50 4535 3

原创 Spss用K均值聚类Kmeans、决策树、逻辑回归和T检验研究不同因素对通勤出行交通方式选择的影响调查数据分析

某交通工程专业博士生想要研究不同因素对通勤交通方式选择的影响，对成都两个大型小区（高端和普通）居民分别进行了出行调查，各调查了300人。其中Distance：居住地离上班地的距离（公里）Pincome：个人年收入（万元）Hincome：家庭年收入（万元）Age：年龄Gender：性别（0：女；1：男）Car：家庭拥有汽车的数量Education：教育水平（1：初中及以下；2：高中；3：专科；4：本科；5：研究生）Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其他）Pe

2022-07-14 12:35:31 1165

原创【视频】随机波动率SV模型原理和Python对标普SP500股票指数时间序列波动性预测

随机波动率(SV)是指资产价格的波动率是变化的而不是恒定的。“随机”一词意味着某些变量是随机确定的，无法精确预测。在金融建模的背景下，随机建模迭代随机变量的连续值，这些值彼此不独立。非独立的意思是虽然变量的值会随机变化，但其起点将取决于其先前的值，因此取决于其先前的值，依此类推；这描述了所谓的随机游走。随机建模是一种用于帮助做出投资决策的财务模型。这种类型的建模使用随机变量预测不同条件下各种结果的概率。随机建模呈现数据并预测结果，这些结果说明了一定程度的不可预测性或随机性。.........

2022-07-14 00:44:58 445

【原创】R语言中生存分析Survival analysis晚期肺癌患者4例数据分析报告论文（代码数据）.docx

【原创】R语言中的生存分析Survival analysis晚期肺癌患者4例数据分析报告论文（代码数据）.docx

【原创】R语言使用二元回归将序数数据建模为多元GLM数据分析报告论文（代码数据）.docx

【原创】Python贝叶斯回归分析住房负担能力数据集数据分析报告论文（代码数据）.docx

【原创】R语言在不同样本量下的Little‘s MCAR检验数据分析报告论文（代码数据）.docx

【原创】R语言中的Theil-Sen回归分析数据分析报告论文（代码数据）.docx

【原创】R语言关于回归系数的解释数据分析报告论文（代码数据）.docx

【原创】R语言对二分连续变量进行逻辑回归数据分析报告论文（代码数据）.docx

【原创】R语言中使用多重聚合预测算法（MAPA）进行时间序列分析数据分析报告论文（代码数据）.docx

空空如也