公众号Codewar原创作者-CSDN博客

原创 R数据分析：网状meta分析的理解与实操

meta分析之前有给大家写过，但是meta分析只能比较两个方法。经常是被用来证明在现有研究中显示矛盾结果的干预方法到底有没有效的时候使用，通过证据综合得到某种干预到底有没有用的结论。但是如果我要证明好几种方法到底哪个最优，这个时候meta分析就不行了，我们得使用网状meta。网状meta的原理和meta没有区别，可以进行多个干预的同时分析。一个研究直接对A、B两种干预进行比较，这个叫做直接证据；

2024-04-10 21:10:12 663

原创 R数据分析：非劣效性研究设计的统计处理方法，原理和实例

在我们经常接触的统计模式中，我们是在寻求推翻原假设，证明差异，这种统计模型在传统的临床试验中，在各种统计推断中已经成为默认了。在传统的临床试验中通常会将一种新的治疗方法与标准治疗或安慰剂进行比较，从而证明这种新治疗具有更好的疗效，这类试验的原假设是这两种治疗方案的治疗效果没有差异。如果统计分析拒绝这一假设，说明这两种治疗的疗效是有差别的，即出现统计学上差异性展示出显著的P值，这个时候就证明了我们的研究目的。但是，当我们开发新药或者新的治疗方法的时候，这个时候我们的目的可能。

2024-01-27 21:53:29 1141

原创 R数据分析：集成学习方法之随机生存森林的原理和做法，实例解析

很久很久以前给大家写过决策树，非常简单明了的算法。今天给大家写随机（生存）森林，随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。

2023-11-23 21:29:42 1815 3

原创 R数据分析：净重新分类(NRI)和综合判别改善（IDI）指数的理解

对于分类预测模型的表现评估我们最常见的指标就是ROC曲线，报告AUC。比如有两个模型，我们去比较下两个模型AUC的大小，进而得出两个模型表现的优劣。这个是我们常规的做法，如果我们的研究关注点放在“”，这个时候ROC就常常会显得力不从心，因为通常加入一个变量AUC不会有太大的变化，且AUC不好解释。这时，就需要用到我们今天要讲的综合判别改善指数IDI, 净重分类指数NRI指标。

2023-11-08 20:07:30 945

原创 R数据分析：反事实框架和因果中介的理论理解

理论上定义各种效应的表达确实没问题，但是这些效应都是两个反事实情况的差值，在实际情况下我又不能同时观测到两个反事实，那么这些基于反事实框架定义出来的中介效应值又如何算呢？这个时候依然需要建模做预测（一个预测m的模型和一个预测y的模型），模型出来了后，我们可以利用模型得到每个个案的反事实结果，这样就可以得出直接效应和间接效应了。和传统中介不同的是这些模型不是服务于效应分解的，是用来估计反事实结果的。就是根据原来数据模拟预测然后得到个案的反事实结果，再根据反事实结果，得到中介的效应分解。

2023-10-31 20:24:05 286

原创 R数据分析：解决科研中的“可重复危机”，理解Rmarkdown

Rmarkdown能输出的文件类型非常多，帮助你完成的任务非常多，比如下面这一大堆：做个PPT，写个Shiny应用都可以：这些功能强烈鼓励大家自己去探索一番，我们今天给大家介绍了基础操作。然后重点就放在学术论文的可重复危机角度，重点给大家介绍Rmarkdown学术论文写作和帮助大家理解Rmarkdown能结局科研重复危机的逻辑。

2023-06-22 21:48:41 854

原创 R数据分析：多项式回归与响应面分析的理解与实操

今天给大家分享一个新的统计方法，叫做响应面分析，响应面分析是用来探究变量一致性假设的（Congruence hypotheses）。本身是一个工程学方法，目前在组织行为学，管理，市场营销等等领域中使用越来越多。响应面分析尤其是在探究一致性和不一致性作用的时候是最佳选择，就是说比如你有两个自变量，一个因变量，你想看看如果这两个自变量都同时一致性变化（同时增大或减小）和同时不一致变化（一个增大另一个减小）的情况下，因变量如何变化。这个时候一定记得使用响应面分析。

2023-06-01 18:50:16 928

原创 R数据分析：生存数据预测模型的建立和评价（二）timeROC与决策曲线

上篇文章依照的一篇文章给大家写了生存数据预测模型评价的C指数、校准曲线和模型验证结果的做法，其实生存数据预测模型的评价方法还有很多，本期接着往下看。

2023-05-09 20:44:17 1223 1

原创 R数据分析：生存数据的预测模型建立方法与评价

之前写了生存分析列线图的做法，列线图作为一个预测模型可视化工具，我们使用它的过程其实就是一个给新数据做预测的过程，其内在本身的模型就是我们基于现有数据训练的一个预测模型，今天也算是接着上一篇文章继续写生存分析的预测模型的效果评价。生存数据预测模型和我们之前写的连续变量结局和分类结局的预测模型不同的地方就在于我们得考虑生存数据的删失和时间因素，通过这么一个预测模型，

2023-04-18 20:24:40 601

原创 R数据分析：生存分析的列线图的理解与绘制详细教程

列线图作为一个非常简单明了的临床辅助决策工具，在临床中用的（发文章的）还是比较多的，尤其是肿瘤预后：找个公开数据库做生存分析出个列线图，然后出个文章是很多临床同学可以依赖的较容易的实现路径，之前有给大家介绍过列线图，今天开始再给大家比较详细地写写生存分析列线图系列，希望可以对大家有帮助。

2023-03-30 20:28:21 720 1

原创 R数据分析：做量性研究的必备“家伙什”-furniture包介绍

今天学习别人的代码，看到将table1和tidyr一起写出来的代码真的太方便太简洁了。而且看到furniture这个包就是开发出来给医学和社会科学的量性研究者用的，这不正对胃口嘛，于是整理一下furniture包的一些知识，分享给大家。

2023-03-02 20:25:25 391

原创 R数据分析：跨层中介的原理和做法，实例操练

之前有同学问过我211模型，没听过这个词，感觉怎么有这么不严肃的名字，偷偷去查了查，211模型，其实就是嵌套数据的中介的情形之一。根本上讲还是属于多水平模型的路径分析（用多水平模型跑回归也可以做中介，但其不在本文讨论范围，本文主要关注多水平结构方程multilevel structural equation modeling MSEM框架下的中介做法）。然后偷偷整理了下这方面的内容，今天刚刚好给大家写一些这方面的内容，希望对大家有所帮助。

2023-02-23 19:16:08 671 2

原创 R机器学习：重复抽样在机器学习模型建立过程中的地位理解

在做机器学习项目的时候，一开始我们会将数据集分为训练集和测试集，要记住建模过程中肯定有模型调整，必然涉及到模型挑选的问题，当过程中我需要做很多个模型时，问题来了，如果我不去评估我怎么知道哪一个模型是最好的？想想在利用测试集之前，怎么也得加上一个评估过程，帮助我们确定，到底哪个模型才是最好的，才是值得最终被用到测试集上的。这个过程就涉及到重复抽样了resampling!

2023-02-10 18:55:10 821

原创 R数据分析：孟德尔随机化中介的原理和实操

中介本身就是回归，基本上我看到的很多的调查性研究中在中介分析的方法部分都不会去提混杂，都是默认一个三角形画好，中介关系就算过去了，这里面默认的逻辑就是前两步回归中的混杂是一样的，计算中介效应的时候就自动消掉了。但是，实际上对不对，还是有待具体分析的：孟德尔随机化作为一个天然的免去混杂的方法，和中介结合，整个中介又变得更纯净了，是一种更加值得推崇的中介做法，也是孟德尔随机化研究的必要的延申。

2023-02-09 20:32:27 3125

原创 R数据分析：孟德尔随机化中介的原理和实操二

上面的流程跑通之后，对于中介分析，我们需要报告间接效应的估计值和置信区间，还有中介比例的估计值和置信区间，类似下面的这样：转存失败重新上传取消但是其实我们是光跑孟德尔是得不到上面的需要的值的（比如间接效应的标准误，中介比例的标准误），此时需要借助的方法之一叫做delta method。转存失败重新上传取消delta method可以帮助我们得到ab相乘的标准误，从而算出中介效应的置信区间。转存失败重新上传取消。

2023-02-09 20:31:30 2529

原创 R数据分析：国产新冠口服药比辉瑞好的文章的统计做法分享

元旦前在人民日报中央厨房上看到一篇文章，叫做“比肩辉瑞的国产新冠药物VV116，是这样研制和临床试验的”，想来就把文献原文找来读了读，写下本文分享给大家，本文主要关注文章的正文中主要统计设计（文章补充材料中还有很多值得学习的地方），前面的实验设计，包括盲法，纳排标准统统不在本文考虑，主要目的是让大家感受下NEJM的杂志的统计做法到底有多“难”。研究原文链接如下：https://www.nejm.org/doi/pdf/10.1056/NEJMoa2208822，点击即可阅读。

2023-01-03 18:27:52 384

原创 R数据分析：冲击流图与热图的做法以及多图布局

今天看了一篇新冠肺炎相关后遗症的文章，主要探讨新冠住院病人一年后的后遗症情况，文章的统计分析很简单，不过结果展示中的两个图我觉的大家可以学一学，原文如下感兴趣的童鞋可以去读一读原文，我们今天依然是聚焦文章呈现形式的复现。首先就是这个冲击流图可以看到在这个图中作者将数据以性别进行了分层，每个性别中5个后遗症的发病数量用线条的宽度来表示，这样就可以将每个后遗症中各个性别人数占比情况很直观的展现出来。我们先来看这个图的做法。

2022-12-14 21:33:11 339

原创 R数据分析：孟德尔随机化实操

就是通过漏斗图一看都是所有的工具变量都是呈漏斗分布的，就说明没有偏向，这个时候我们认为定向多效性都被冲掉了，不影响。好，解释了上面的一些术语之后，我们实操一波。

2022-12-14 21:30:08 9924 6

原创 R数据分析：网络分析的做法，原理和复现方法

对于复杂问题和现象行为的研究，尤其是他们之间还有复杂的交互影响（complex interplay）的时候，网络分析（备用名：psychological networks, network analysis or network psychometrics）是个备选的好方法，这个方法火了也没几年，感兴趣的同学可以去学学，而且，如果你再能把网络图做的美点，应该各个审稿人都愿意看的。今天尝试给大家做个网络分析的简单介绍。

2022-11-08 21:31:04 1741 3

原创 R数据分析：扫盲贴，什么是多重插补

好多同学跑来问，用spss的时候使用多重插补的数据集，怎么选怎么用？是不是简单的选一个做分析？今天写写这个问题。

2022-11-01 19:28:37 2030 4

原创 R机器学习：特征工程与特征选择的介绍

看了很多高深的算法之后，感觉还是看不懂哦，今天又来代大家复习基本功，一个是特征工程，另一个是特征选择。都是两个非常非常重要的东西，先定两个基调，所谓的特征工程就是数据预处理，所谓的特征选择就是变量筛选，这样大家就不觉得这么难了。并且也可以将特征选择看作是特征工程的一部分，概念上不纠结，知道是这么回事就好，同时特征工程的整个过程也要结合具体问题具体分析，需要经验，需要背景知识，整个过程也是没有金标准的。可以说这是一项科学与艺术相结合的工作。

2022-11-01 19:26:27 589

原创 R数据分析：用R建立预测模型

预测模型在各个领域都越来越火，今天的分享和之前的临床预测模型背景上有些不同，但方法思路上都是一样的，多了解各个领域的方法应用，视野才不会被局限。今天试图再用一个实例给到大家一个统一的预测模型的做法框架（R中同样的操作可以有多种多样的实现方法，框架统一尤其重要，不是简单的我做出来就行）。...

2022-08-30 21:25:37 3256 2

原创文献解读：有监督的机器学习在心理学上的应用

最近看了一篇论文，写的比较系统，也比较基础，对复习强化有作用，顺便写下来分享给大家，文献原文贴在下面：温馨提醒大家，文献中有所有提到方法的数据和代码，所以愿意钻研的同学自己可以去下载尝试的，有些东西你不动手，光看是学不会的。

2022-08-24 21:04:53 513

原创 R数据分析：临床预测模型实操，校准曲线和DCA曲线做法示例

之前给大家写过好几篇很详细的临床预测模型的原理解析，本文接着之前的文章，继续写做法，首先依然是找到一篇参照论文，今天我们的示例文章是一篇来自美国心脏学会杂志的文章：原文给大家贴在上面，我们要做的就是对文章统计部分进行复现。整篇文章就是开发了一个用于预测癌症患者的3个月死亡率风险诺模图，考虑了什么变量，用的是什么人群队列，本文不关心，感兴趣的同学自行去阅读原文哈，本文着重写宏观做法，作者具体使用的模型是Step-wise logistic regression，文章中有报告各个变量的OR和整体模型的conco

2022-07-14 07:47:30 1583

原创 R数据分析：结合APA格式作图大法讲讲ggplot2和ggsci，请收藏

之前给大家写过一篇plot的基础操作，相信同学们应该没有看过瘾。不过主流的用的多的还是ggplot2，所以今天打算结合一个形成APA样板格式图片的实例写写ggplot2的操作和图的配色。大家可以去到美国心理学会的官网，就可以看到APA格式的详细介绍了：转存失败重新上传取消包括论文模板、引注规则等等，内容可以说很丰富了，对于社科类学生，不会写论文的，这个网站就是金标准啦，强烈推荐下。不过我们今天关注的是里面的figure的标准，点开主页的Tables and Figures我们进入到下一个界面：转存失败重新上

2022-07-10 21:14:17 384

原创 R数据分析：cox模型如何做预测，高分文章复现

今天要给大家分享的文章是作者做了癌症结局与延迟治疗时间的关系。作者希望能给在疫情背景下怎么样更好地分流癌症患者这一实际问题提供实证依据。作者纳入了4个癌症，发现了基本上Time-to-treatment initiation (TTI)约长，癌症患者的5年和10年死亡率越高。这个结果和目前的部分指南其实是矛盾的，所以整篇文章还是有一定实际意义的。本文依然是关注文章如何在做法上在统计上进行复现，启发大家如何用自己的数据做一个同样设计的研究。作者将关心的主变量TTI进行了分类处理，将延迟治疗时间分了4类：为了准

2022-07-06 20:00:03 1451

原创 R数据分析：临床预测模型中校准曲线和DCA曲线的意义与做法

之前给大家写过一个临床预测模型：R数据分析：跟随top期刊手把手教你做一个临床预测模型，里面其实都是比较基础的模型判别能力discrimination的一些指标，那么今天就再进一步，给大家分享一些和临床决策实际相关的指标，主要是校准calibration和决策曲线Decision curve analysis。做预测模型都应该报告校准曲线的：先给大家解释，预测模型为什么除了需要discrimination的一些指标外（比如tp,tn,fp,fn,roc，LR+,LR-等等）还需要做校准曲线：是因为：这些指标

2022-06-14 21:23:18 12166 1

原创 R数据分析：如何简洁高效地展示统计结果

之前给大家写过一篇数据清洗的文章，解决的问题是你拿到原始数据后如何快速地对数据进行处理，处理到你基本上可以拿来分析的地步，其中介绍了如何选变量如何筛选个案，变量重新编码，如何去重，如何替换缺失值，如何计算变量等等------R数据分析：数据清洗的思路和核心函数介绍今天呢，就更进一步，对于一个处理好的数据，我们就可以进行统计分析了，本文的思路就是对照期刊论文的一般流程写写如何快速的实现一篇论文的统计过程并简洁高效地展示结果。依然提醒大家，请先收藏本文再往下读哈。基本上文章结果部分一上来首先展示的就是描述统计，

2022-06-04 21:37:19 677

原创 R可视化：plot函数基础操作

最近迷恋上了画图，一方面是觉得挺有意思的，另一方面是觉得自己确实画图方面比较弱，所以决定比较系统地回顾反思一下，同时顺带记录下来分享给大家。也确实是好久好久没更新文章了，真的是杂事太多太忙太牵扯精力没法更新，好多粉丝的消息也都回不了。还有一个原因就是画图这个东西，可以学一点记一点，然后写一点，碎片化时间可以完全利用起来，写统计方法的话，是需要大量整块的时间去思考的，思路断了下次相连起来就特别困难，所以如果不是特别闲，有大量整块的时间，感觉我自己也很难写的出来了。因为太多是精力被牵扯，稍有闲暇时间就只想躺

2022-05-15 20:36:23 2329

原创 R数据分析：纵向分类结局的分析-马尔可夫多态模型的理解与实操

今天要给大家分享的统计方法是马尔可夫多态模型，思路来源是下面这篇文章：Ward DD, Wallace LMK, Rockwood KCumulative health deficits,APOEgenotype, and risk for later-life mild cognitive impairment and dementiaJournal of Neurology, Neurosurgery & Psychiatry 2021;92:136-142.我们知道轻度..

2022-03-25 18:03:01 1761 10

原创 Mplus数据分析：分段潜增长模型，看jama如何玩转纵向数据的轨迹

今天给大家介绍分段潜增长模型的原理和做法，之前我有给大家写增长混合和潜增长，它们的主要的局限在于轨迹都是连续的不能分段，在于对phasic的现象把握其实还是不够的，比如儿童认知的发展，按照理论，它是可以明显分段的，如果这个时候我们非要给人家拟合一个连续曲线？万一人家发展就是分了两个阶段线性发展的呢？所以这些方法还是不太好，今天给大家介绍分段潜增长模型，专门解决这个问题。理论铺垫增长混合模型之前有给大家写，其优点在于可以看轨迹，局限性在于趋势不好解释。什么意思呢，其实很多时候我们拟合不出来一组十分有意

2022-03-20 17:27:51 1599

原创 mplus数据分析：增长模型潜增长模型与增长混合模型再解释

混合模型，增长混合模型这些问题咨询的同学还是比较多的，今天再次尝试写写它们的区别，希望对大家进一步理解两种做轨迹的方法有帮助。首先，无论是LCGA还是GMM，它们都是潜增长模型的框框里面的东西：Latent growth modeling approaches, such as latent class growth analysis (LCGA) and growth mixture modeling (GMM), have been increasingly recognized for th

2022-03-09 11:04:09 2496 3

原创 R数据分析：样本量计算的底层逻辑与实操，pwr包

样本量问题真的是好多人的老大难，是很多同学科研入门第一个拦路虎，今天给本科同学改大创标书又遇到这个问题，我想想不止是本科生对这个问题不会，很多同学从上研究生到最后脱离科研估计也没能把这个问题弄得很明白，那么希望大伙儿在看了这篇文章能够更加深入地理解样本量计算的逻辑，也能对大家的科研设计中的样本量设计部分有所启发。样本量计算的逻辑还记得我们最开始接触统计推断的时候，大家都知道一个词叫做原假设，原假设一般来讲都是“阴性的”，我们统计推断要做的事情便是推翻原假设从而得出有“统计学意义的结果”，怎么去推翻？

2022-03-03 21:40:29 1539

原创 R数据分析：数据清洗的思路和核心函数介绍

好多同学把统计和数据清洗搞混，直接把原始数据发给我，做个统计吧，这个时候其实很大的工作量是在数据清洗和处理上，如果数据很杂乱，清洗起来是很费工夫的，反而清洗好的数据做统计分析常常就是一行代码的事情。Data scientists only spend 20% of their time creating insights, the rest wrangling data.想想今天就给大家写一篇数据处理的常用函数介绍吧。全是自己的一丢丢经验，肯定不会是最优的，仅仅是给个参考，因为在R中同一个目的的

2022-02-19 16:20:12 1749

原创 Mplus数据分析：性别差异gendergap的相关研究如何做？

再出一篇用mplus做的多组比较和中介分析的文章，专门谈谈诸如性别差异的各种研究的分析方法，从本文中大家不止可以知道性别差异，各种差异，各种gap只要你感兴趣都可以套进来这个方法来进行你的研究设计。今天我们参考的论文是Lietaert, S., Roorda, D., Laevers, F., Verschueren, K., & De Fraine, B. (2015). The gender gap in student engagement: The role of teachers

2022-02-12 11:25:31 2979

原创 R数据分析，codewar的年终总结，和一周年总结

前阵子单位各个部门都在要求弄总结，想想自己这个公众号也写了快一年了，专门回去翻了翻，这个公众号发布的第一篇文章是在2021年的1月17日，我想2022年的1月17日我就把现在敲的文字推出来吧，也算是一个年终和周年总结。Codewar缘起当初写一些文字的完全都是因为疫情不开学，困在家没事干闲的，应该是二零年的4月份，当时我是研二的第二学期，已经开完题，想到自己毕业论文需要用到python，想着就学一点算一点呗，然后就找找教材一点一点学，学一点记录一点，小打小闹，不过后来发现似乎R更加适合我，然后就半途

2022-01-17 21:29:36 415

原创 R数据分析：PLS结构方程模型介绍，论文报告方法和实际操作

前面给大家写的关于结构方程模型的文章都是基于变量的方差协方差矩阵来探讨变量间关系的，叫做covariance-based SEM，今天给大家介绍一下另外一个类型的SEM，叫做偏最小二乘结构方差模型。一般来讲covariance-based SEM大家会用的更多，但是了解一下PLSSEM也挺好，所以本篇文章肯定依然值得您收藏。它两的区别在哪？Whereas CBSEM estimates model parameters so that the discrepancy between the est

2022-01-11 22:50:41 9763 7

原创 R数据分析：潜在转化分析LTA的做法和解释（一）

之前给大家写了很多潜在类别分析的教程Mplus教程：如何做潜在类别分析LCAR数据分析：用R语言做潜类别分析LCAMplus数据分析：潜在类别分析（LCA）流程（详细版）R数据分析：再写潜在类别分析LCA的做法与解释，今天继续给大家拓展一步。今天要介绍的就是潜在转换分析，这个东西就是LCA的纵向版本。是一个专门用来研究质变的统计技巧。有一句话叫做量变起质变，你怎么知道质变到底发生没有？就用潜在转换分析。Latent transition analysis is an extension of...

2021-12-22 21:37:30 4415 3

原创 R数据分析：变量间的非线性关系，多项式，样条回归和可加模型

之前的文章中都是给大家写的变量间线性关系的做法，包括回归和广义线性回归，变量间的非线性关系其实是很常见的，今天给大家写写如何拟合论文中常见的非线性关系。包括多项式回归Polynomial regression和样条回归Spline regression。多项式回归首先看一个二次项拟合的例子，我现在想探讨苹果内容物apple content和苹果酸度cider acidity的关系，第一步应该是做出apple content和cider acidity关系的散点图，假如是下图：那么我很

2021-12-11 20:26:55 5685 1

原创 R数据分析：跟随top期刊手把手教你做一个临床预测模型

临床预测模型也是大家比较感兴趣的，今天就带着大家看一篇临床预测模型的文章，并且用一个例子给大家过一遍做法。这篇文章来自护理领域顶级期刊的文章，文章名在下面Ballesta-Castillejos A, Gómez-Salgado J, Rodríguez-Almagro J, Hernández-Martínez A. Development and validation of a predictive model of exclusive breastfeeding at hospital di

2021-11-18 20:23:26 2899

空空如也

空空如也