- 博客(1709)
- 资源 (149)
- 收藏
- 关注
原创 生存分析R代码大全
因为无法在短时间内评价慢性病患者的预后,所以通常情况下不会简单地采用治愈率、病死率等指标,而是对患者进行随访,分析一定的时间之后患者生存或死亡的情况,这种将事件的结果和出现这一结果所经历的时间结合起来分析的方法,称为生存分析 (Survival Analysis)。下面,对生存分析中常用到的代码进行了汇总,参考的文章已经附上链接,可以直接回溯到原文。如何进行生存数据的收集和整理,有不少人存在疑惑,下面这张图给出了非常清晰明了的说明。#四、基线特征描述统计。#七、cox回归模型。#八、连续变量截断值。
2024-03-27 08:29:00 10
原创 解决R语言ggplot2包输出带中文字体的矢量图时的乱码问题
这种情况下的字体样式未做更改,因此原图中的字体显示风格不会变,但由于文字被转为图形了,无法再通过pdf编辑工具(例如AI、福昕阅读器等)进行文字编辑。不过由于字体样式更改了,原图中的字体显示风格也会变,但好在文字可以被pdf编辑工具识别(),后续在这些工具中统一调整即可。众所周知,使用R语言ggplot2包绘图时,如果图中存在中文字体的情况,输出pdf矢量图时会乱码,如下所示的这样。另一种方法是将图中中文字体轮廓化为图形后再输出为矢量图,这样就不受字体库的影响了。
2024-03-25 08:37:53 13
原创 考试 冬小麦不同水分条件下的产量试验进行了不同水分处理,为完全随机设计,试进行方差分析(wh.csv)。 (1)是否满足方差分析的前提假设?(提示:正态检验用shapiro.test,方差齐性检验
(3)分别分析不同因变量(NEE、RECO和GPP)与Ta、VPD、Pa、Ws、Rn、CO2、SWC、ET的多重非线性检验,在此基础上,采用逐步回归和AIC法进行多元线性回归分析,并解释结果(15分)(4)NEE与Ta、VPD、Pa、Ws、Rn、CO2、SWC、ET进行通径分析,并列出通径分析表格或者画出通径分析图(R语言中的agricolae包)(15分)方差分析结果表明,在不同水分处理下的产量存在显著差异(ANOVA, F = 55, p < 0.001),这意味着水分条件对产量有着显著影响。
2024-02-26 07:35:52 40
原创 1. 請根據 bwght2.dta 資料檔,找出一用以解釋嬰兒出生時體重的樣本回歸模型:
bwght =β0+β1 npvis +β2 npviss q+β3 cigs +β4 male +β5 cigs ∗ male +u\text { bwght }=\beta_{0}+\beta_{1} \text { npvis }+\beta_{2} \text { npviss } q+\beta_{3} \text { cigs }+\beta_{4} \text { male }+\beta_{5} \text { cigs } * \text { male }+u bwght =β0+β
2024-02-19 19:21:31 64
原创 在使用R语言环境中如何进行正态性检验的保姆级教程
在这个例子中,我们使用了airway数据集中的gene列作为基因表达值,然后执行了Shapiro-Wilk正态性检验,查看基因表达值是否满足正态分布。在使用Shapiro-Wilk检验时,如果p-value小于设定的显著性水平(通常为0.05),我们会拒绝原假设,即认为数据不是来自正态分布。在正态性检验中,我们会使用Kolmogorov-Smirnov检验来比较样本的累积分布函数(CDF)与理论正态分布的CDF之间的差异。因此,对生物学数据进行正态性检验是必要的,以确保所应用的统计方法的准确性和可靠性。
2024-02-17 08:09:07 72
原创 R语言 QQ图 判断数据分布类型
在QQ图中,我们将待检验的数据按照从小到大的顺序排列,并计算出每个数据所在的分位数。然后,我们将这些分位数与理论分布的分位数进行比较,绘制得到一个散点图。如果数据近似服从理论分布,那么散点图中的数据点应当大致沿着一条直线分布。而如果数据不服从理论分布,那么散点图中的数据点会明显偏离直线。QQ图(Quantile-Quantile Plot)是一种可视化工具,用于检验数据是否服从某个理论分布。该图通常用于检验数据的正态性,也可以用于检验其他分布的偏离情况。
2024-02-17 07:08:18 46
原创 江汉大学2022 —— 2023 学年第1 学期试卷
3.(12分)财政数据.csv中是从1994年到2013年的财政数据,其中财政收入(y),社会从业人数(x1),在岗职工工资总额(x2),社会消费品零售总额(x3),城镇居民人均可支配收入(x4),城镇居民人均消费性支出(x5),年末总人口(x6),全社会固定资产投资额(x7),地区生产总值(x8),第一产业产值(x9),税收(x10),居民消费价格指数(x11);假设两稻种产量X,Y均服从正态分布,且方差相等。4)在gm11代码中修改原始值和预测值曲线的样式(点,线,颜色,线的样式,点的样式等等);
2024-02-16 21:45:03 28
原创 浙江越秀外国语学院2023-2024学年第一学期期末考试 《R语言与数据分析》试卷
根据检验结果,t 值为441.86,自由度为4644,p 值小于2.2e-16,这表明在显著性水平为0.05的情况下,英语笔试成绩的平均值与0存在显著性差异。根据观察,我注意到在分析我们学校的成绩数据时,听力和作文分数的直方图呈现出一种类似正态分布的形状,具有较为对称的特征,即数据点相对集中在中心并向两侧逐渐减少,呈现出典型的钟形曲线。比如,观察异常值对应的学生的其他信息,如是否有缺考或违纪记录,了解他们的考试情况是否与其他学生明显不同。6.筛选出国际商学院学生的英语成绩,并求出0%,10%,20%,…
2024-01-14 14:18:00 63
原创 R语言绘图—南丁格尔玫瑰图
南丁格尔玫瑰图是一种条形图的变形图,也被称为极坐标柱形图,普通的柱形图的坐标系是直角坐标系。该图形使用圆弧的半径长短来表示数据的大小,适合较多类别数据的比较。最近在撰写年度工作总结中使用了一部分,在此将代码分享,有需要者可复制使用!我们为图形添加发病数,最简单的就是通过geom_text函数实现。
2024-01-10 08:38:02 357
原创 R 语言绘制 南丁格尔玫瑰图
是你的数据集,包含类别和频率列。你可以根据自己的数据调整代码以适应你的需求。南丁格尔玫瑰图(也称为极坐标条形图)可以使用R语言的。这段代码将创建一个简单的南丁格尔玫瑰图,其中。首先,确保你已经安装了。
2024-01-10 08:33:53 352
原创 用R语言分析股票数据:获取、可视化和比较收益率
当涉及分析金融数据时,R语言提供了一些功能强大的库,比如quantmod和ggplot2,可以帮助你获取、可视化和分析股票价格数据。下面是一个简单的教程,展示了如何使用这些库来获取股票数据并进行可视化分析。
2023-12-24 14:15:11 458
原创 XX学校作业内容要求 1:计算单只公司股票的均值、方差、峰度、偏度,并完成正态分布检验;
要求4:对全样本收益率中剔除最高1%与最低1%的回报率,进而依据 for 循环找出年度方差最大与最小的股票。并用注释的方式在RScript 中依据公司的经营分析情况等解释为什么该公司股票的方差最大,为什么该公司的方差最小。要求 1:计算单只公司股票的均值、方差、峰度、偏度,并完成正态分布检验;要求3:计算两只公司股票的均值差、方差比,在95%置信水平下的置信区间;接下来,我们将按年度计算股票的方差,并找出年度方差最大和最小的股票。现在我们有了剔除了最高1%和最低1%的回报率的数据集。
2023-12-24 09:52:02 397
原创 1. 为调查甲乙两家银行的户均存款数,从两家银行中各自抽取一个由36个存户组成的随机样本进行研究。其中两个样本的均值分别为4800和3500元。两个总体的标准差分别为980元和960元。根据经验,这两
计算题为调查甲乙两家银行的户均存款数,从两家银行中各自抽取一个由36个存户组成的随机样本进行研究。其中两个样本的均值分别为4800和3500元。两个总体的标准差分别为980元和960元。根据经验,这两个总体服从正态分布,请问这两个银行平均存款数差值的置信度90%()的置信区间为多少?某广告公司进行一项中央空调用户特点的调查。从装有中央空调的家庭中随机抽取200户,其中年人均生活消费超过20000元的有110户。从没有装中央空调的家庭中随机抽取100户,其中年人均生活消费超过20000元的有25户。
2023-12-24 09:49:43 805
原创 1. 随机变量服从以下分布,通过逆变换法生成10000个随机变量,给出R代码并分析生成的随机变量,
根据卡方检验的结果,观测到的卡方值为13.132,自由度为2,对应的p值为0.001408。模拟法计算得到的p值为0.0013。在显著性水平为α=0.05的情况下,观测到的p值小于0.05,因此拒绝原假设。这意味着观测到的大麦芒性比例与遗传学理论所预期的比例不一致,存在显著性差异。产生以上截断的二元正态分布的边际分布的随机数,并进行描述性统计分析。令G=10000,试求Var(S2) 的Bootstrap估计。
2023-12-24 09:43:57 742
原创 文件““Smarket.sv”为2001 2005年S8P 500指数的日交易情况,其中,laa1.laa2.a3.a4.laa5为对于交日当天相对前5连续交易日中每易日的涨跌数额、Volume为前一
文件“"Smarket.sv”为2001 2005年S8P 500指数的日交易情况,其中,laa1.laa2.a3.a4.laa5为对于交日当天相对前5连续交易日中每易日的涨跌数额、Volume为前一交易日的交易量、Today为交易日当天的涨跌数额、Direction为交易日当天的“涨”或“跌情。增加模型的弹性可能会提高模型在训练集上的拟合程度,但有时会导致过度拟合,降低在测试集上的表现。因此,在调整模型弹性时,需要进行适当的验证和评估,以确保模型能够在未见过的数据上取得良好的泛化能力。
2023-12-14 07:51:53 818
原创 Rmd 导出 pdf最好的方法
来安装 TinyTeX,这是一个轻量级的 LaTeX 发行版,专门用于 R 环境。这可能是一个更简便的选择,特别是如果你只需要基本的 LaTeX 功能来创建 PDF 输出。就可以导出pdf了,不用安装什么tex。
2023-12-09 15:21:18 522
原创 处理均值的配对⽐较⽅法有 Tukey 检验法和 Fisher 最⼩显著性差异(LSD)法。请详细说明什么是 Fisher LSD ⽅法。解释 Fisher 和 Tukey 方法之间的差别。完成下面的问
在这个案例中,LSD 检验结果表明企业 1 和企业 2 之间的均值存在显著差异(p = 0.0134),而企业 2 和企业 3 之间也存在显著差异(p = 0.0265)。这意味着在这次实验中,所观察到的均值差异很可能是由随机因素引起的,而不是由于不同企业生产的电池寿命确实存在显著差异。Fisher 最小显著性差异(LSD)方法和 Tukey 检验方法都是用于处理多组均值比较的统计方法。这表明,即使在整体方差分析中未观察到显著性差异,LSD 方法可以识别出少数企业之间存在的具有统计学意义的差异。
2023-12-05 08:24:56 1153
原创 R包 PCT
然而,托管在那里的代码不容易运行或复制,这就是这个包的用武之地:它提供了对 PCT 基础数据的快速访问,并使一些关键结果能够快速复制。它的开发主要是为了教育目的(包括即将到来的 PCT 培训课程),但它可能对人们在这些方法的基础上进行开发有用,例如在他们的城镇/城市/地区创建一个骑自行车的场景。本文主要介绍R包 PCT , 其目标是提高 Propensity to Cycle Too (PCT) 生成的数据的可访问性和可重复性,托管在 www.pct.bike 上。
2023-11-03 19:42:35 99
原创 编写一个R函数来执行矩阵补全,在波士顿数据上测试
在波士顿数据上测试的函数。首先,使用scale()函数标准化特征,使其均值为零,标准差为一。运行一个实验,在其中您随机遗漏从5%到30%的观测值,步长为5%。使用M = 1,2,…,8应用算法12.1。显示近似误差作为遗漏观测值的比例,以及M的值,重复实验10次后取平均值。
2023-10-30 07:17:03 110
原创 上机任务二: 作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。
8、使用plot(模型,which=c(1:4))进行模型诊断,并解释,如果cook距离判断有异常点,可删去异常点重新拟合线性模型;作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素。4、建立单因素方差分析模型,检验工作经验对薪资是否有显著影响,如果有,再进一步做多重比较。如果工作经验与最低学历的交互作用显著,后面建立的全模型中考虑两者的交互效应,否则,不考虑。5、尝试考虑工作经验与最低学历的交互作用,建立双因素方差分析模型,并分析结果。
2023-10-30 07:15:10 204
原创 上机任务一:空气质量指数 (air quality index,AQI是定量描述空气质量状况的指数。为了更好地了解和人们身体健康息息相关的天气状况,本书模拟生成500条某地区天气数据,一行样本对应一天
调整后的R平方为0.4308,考虑了模型中的自由度,它略低于多重R平方,说明模型的解释能力可能有限。总的来说,新的模型相对于之前的模型在AIC值上更优,包含了最高温度(X2)和最低温度(X3)这两个重要的预测因子,并且对AQI的解释能力较好。在表中,Df表示自由度,Sum Sq表示总平方和,Mean Sq表示均方(总平方和除以自由度),F value表示F统计量,Pr(>F)表示对应的p值。在分析这些结果时,需要关注系数的显著性(p值),系数的方向(正向或负向影响),以及系数的大小(估计值)。
2023-10-30 07:08:22 220
原创 2.某研究想要了解摄入一种食品中常见的真菌毒素对于生物体的影响,下表展示了一组实验小鼠在该毒素的不同摄入浓度 (con; 单位:ppm)和暴露时间 time; 单位:小时)条件下的生存状态(surv;
2.某研究想要了解摄入一种食品中常见的真菌毒素对于生物体的影响,下表展示了一组实验小鼠在该毒素的不同摄入浓度 (con;(1)当不考虑实验小鼠的性别时,请选用恰当的回归模型,分析摄入浓度和暴露时间对于实验小鼠生存状态的影响,并对所建立的回归方程进行必要的检验。定量分析摄入浓度和暴熏时间的变化如何影响实验小鼠的生存率(或死亡率),并综合阐述得到的结论。(2)考虑到实验小鼠的性别,分析雄性小鼠和雌性小鼠对于此毒素的敏感性是否有显著性差异(a-0.05)?timeconsurv76.624万N22。
2023-10-29 22:36:55 50
原创 DentMax数据集聚类分析
在进行聚类之前,我们需要对数据进行标准化。这包括计算每个变量的均值和标准差,然后将数据缩放。为了确定最佳聚类数,我们可以使用肘部法则来选择K值。最后,我们可以将聚类结果以及每个簇的平均值保存到CSV文件中。首先,我们需要安装并导入所需的R包,以便进行数据分析。根据肘部法则的结果,可以看到最佳聚类数为4。接下来,我们将从Excel文件中导入数据。可以绘制聚类结果的树状图以及数据点的分布。使用确定的最佳聚类数,执行K均值聚类。然后,使用肘部法则来确定最佳聚类数。
2023-10-29 22:31:48 51
原创 使用鸢尾花数据集,用ROC曲线比较fisher判别法,距离判别发,Bayes判别法的效果 R语言
运行以上代码后,你将会得到一个包含Fisher判别法、距离判别法和Bayes判别法的ROC曲线比较图。通过比较曲线下面积(AUC),你可以评估这些算法的分类性能。在R语言中,我们可以使用鸢尾花数据集来比较Fisher判别法、距离判别法和Bayes判别法的效果。接下来,我们可以使用这些算法来进行分类,并绘制ROC曲线来比较它们的效果。
2023-10-26 07:37:42 377
原创 R 语言 正态分布法、Weibull分布法和历史模拟法
正态分布法、Weibull分布法和历史模拟法都是用于风险评估和投资组合分析的方法。它们在模拟资产或投资组合的未来表现方面有不同的应用。正态分布法基于正态分布(或高於分布)来模拟资产或投资组合的未来表现。Weibull分布法与正态分布法不同,它使用Weibull分布来模拟资产或投资组合的未来表现。Weibull分布通常用于描述极端事件的分布。它假设未来的收益率分布将类似于过去的分布,因此不需要额外的分布假设。这些方法在不同的情况下都有其用途,具体选择哪种方法取决于你对投资组合或资产未来表现的假设和需求。
2023-10-22 17:35:33 145
原创 要使用R语言计算万科A(000002.SZ)在下一交易日,有95%的概率,收盘价对数收益率不低于多少,可以考虑使用不同的方法:正态分布法、Weibull分布法和历史模拟法。
要使用R语言计算万科A(000002.SZ)在下一交易日,有95%的概率,收盘价对数收益率不低于多少,可以考虑使用不同的方法:正态分布法、Weibull分布法和历史模拟法。这些方法都是基于不同的统计分布或模拟方法来估计下一交易日的对数收益率下限,以达到95%的概率。
2023-10-22 17:32:56 290
原创 假想某只债券在上海证券交易所交易,其面值为100元,票面利率为4%,每半年支付一次利息,2025年4月11日到期。,并假设在该期间债券的收益率维持在3%的水平不变。
假想某只债券在上海证券交易所交易,其面值为100元,票面利率为4%,每半年支付一次利息,2025年4月11日到期。,并假设在该期间债券的收益率维持在3%的水平不变。(1)编写函数计算该债券于2019年11月13日至2022年11月13日期间每天的净价、全价和应计利息的变化,并以数据框的形式给出。(2)并用ggplot2画出债券价、全价和应计利息的变化。
2023-10-22 17:28:43 302
原创 使用R创建基于基因网络的可视化
这个教程将向您展示如何使用R中的igraphggraphtidyverse和ggnewscale库创建一个基于基因网络的可视化。您将学会如何导入数据、处理数据、创建图形以及添加自定义样式和标签,以便更好地理解基因之间的相互作用关系和差异表达情况。
2023-10-22 15:12:50 104
原创 使用ggtree创建基于生物进化树的可视化
ggtree是一个强大的R包,用于可视化生物进化树和相关数据。本教程将向您展示如何使用ggtree创建一个基于生物进化树的可视化,以及如何添加其他数据来增强可视化。
2023-10-22 15:05:20 153
原创 使用ComplexHeatmap库创建热图
ComplexHeatmap库是一个用于创建复杂热图的R包,可以用于可视化多维数据。创建自定义的顶部注释以显示额外信息。在示例中,我们创建了一个包含多个信息的注释。
2023-10-22 14:56:03 65
原创 R 语言源码实现 基于物品的矩阵协同过滤算法
请注意,这只是一个基本示例,用于说明 Item-Based Collaborative Filtering 算法的主要步骤。在实际应用中,你可能需要更多的数据预处理和参数调整来改进推荐性能,还需要考虑性能优化和其他改进。你的提供的代码实现了基于物品的矩阵协同过滤算法(Item-Based Collaborative Filtering)的关键步骤。
2023-10-22 14:45:35 37
原创 MySQL经典50题tidyverse版.
上述做法代码不复杂(去掉中间变量把管道接一起),但是很抽象难以理解。受**“偏居一隅”**启发,与其放一起作为集合比较集合相等,何不拼接为一个字符串,比较字符串?本题可以说所有题目中最难的一道,虽然很啰嗦但穿插讲解到很多语法,还是很有意义的。注: 及格:>=60,中等为:70-80,优良为:80-90,优秀为:>=90。课程编号,课程名称,最高分,最低分,平均分,及格率,中等率,优良率,优秀率;根据多列值构造筛选条件:所有成绩都大于70分,正常是用。左连接,将学生信息合并进来,再选择想要的列。
2023-10-22 14:35:26 32
原创 R语言 Apriori挖掘关联规则的频繁项集算法
P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析:牛奶 ⇒ 面包。③如果事件A中包含k个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。置信度40%:意味着购买牛奶的顾客40%也购买面包。①支持度:P(A ∩ B),既有A又有B的概率。支持度3%:意味着3%顾客同时购买牛奶和面包。例子:[支持度:3%,置信度:40%]2.依据置信度产生关联规则(强度)频繁项集的子集也是频繁的。
2023-10-22 14:23:48 107
考试 冬小麦不同水分条件下的产量试验进行了不同水分处
2024-02-26
缺失数据的类型、分布与处理 R语言
2024-02-17
在R中对天津 空气质量指数数据进行回归分析 加报告
2024-02-16
企业数字化能否提高ESG绩效?
2024-02-16
江汉大学2022 - 2023 学年第1 学期试卷根据课程特点,考试采取大作业形式 为了考试学生的对课程基本理论、基本知识点
2024-02-16
基于OCR的身份证要素提取设计与实现
2024-02-16
人民日报爬取微博可视化 python
2024-02-16
题目:基于hadoop的电影可视化系统
2024-02-16
ARMAGARCHARCH模型代码.docx
2024-02-16
基于Python的网络爬虫与数据分析学年论文
2024-02-16
本文用时间序列分析方法,对重庆市人均GDP进行相关时间序列分析,以1958年至2017年间重庆市人均GDP为原始数据,利用R软件
2024-02-16
SPSS银行客户流失预警研究
2024-02-16
Java扩大Java设计模式
2024-02-16
NLP 项目根据用户的生成的内容,抽取其中涉及的实体、观点,根据抽取的内容构建话题-观点图谱
2024-02-16
淘宝商品信息爬虫及数据存储脚本
2024-01-14
浙江越秀外国语学院2023-2024学年第一学期期末考试 《R语言与数据分析》试卷
2024-01-14
Pygame库构建的交互式夜景场景
2023-12-24
数据是因特尔从19730131 到 20091231 的对数收益率的数据,存储在m-intcsp7309.txt中 m-i
2023-12-14
R 语言 基于关联规则与聚类分析的消费行为统计 报告+ 代码
2023-12-10
知了课堂 问答论坛 flask项目 前端: html css js 三件套 以及 Ajax的使用 后端: python, 第三方
2023-11-03
蜂巢幼虫识别项目是一个基于计算机视觉和深度学习技术的应用,旨在帮助养蜂者有效地监测和管理蜂巢内的幼虫群体
2023-11-03
上机任务二: 作业要求:以薪资为因变量,其他指标为解释变量,建立模型,研究影响工商管理专业毕业生薪资的因素
2023-10-30
上机任务一:空气质量指数 (air quality index,AQI是定量描述空气质量状况的指数 为了更好地了解和人们身体健康
2023-10-30
DentMax聚类分析 R语言
2023-10-29
TCP-HTTP-操作系统.pdf
2023-10-24
RocketMQ概念 producer:生产者,消息发送者
2023-10-24
Java整理的基础工具类项目
2023-10-23
经典设计模式讲解以及项目实战(Java版)
2023-10-23
使用R创建基于基因网络的可视化
2023-10-22
使用ggtree创建基于生物进化树的可视化
2023-10-22
使用ComplexHeatmap库创建热图
2023-10-22
R 语言 基于标签的推荐算法 实现
2023-10-22
R语言 基于用户的推荐算法 的源码实现
2023-10-22
R语言的疫情可视化项目
2023-10-22
R 语言实现常用的推荐算法
2023-10-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人