桓峰基因-CSDN博客

原创 DNA 13. SCI 文章肿瘤突变负荷计算方法（TMB）

基因组生信分析教程DNA 1. Germline Mutation Vs. Somatic Mutation 傻傻分不清楚DNA 2. SCI 文章中基因组变异分析神器之 maftoolsDNA 3. SCI 文章中基因组变异分析神器之 maftoolsDNA 4. SCI 文章中基因组的突变信号（maftools）DNA 5. 基因组变异文件VCF格式详解DNA 6. 基因组变异之绘制精美瀑布图...

2023-03-06 11:37:36 1272

原创 FigDraw 11. SCI 文章绘图之小提琴图 (ViolinPlot)

FigDraw 11. SCI 文章绘图之小提琴图 (ViolinPlot)样式最全面的小提琴图 (ViolinPlot)，全网仅桓峰基因提供此教程！

2022-06-04 06:39:14 7633 1

原创 SEQ 1. 测序的前世今生

最近这几天正好看来一些测序的比对算法，顺便看了测序的原理，从最初的 Sanger 到现在 Nanopore 和 Pacbio，觉得时代更替的真快，变化的措不及防，于是决定增加一个关于测序时代变迁的话题，与行业内外人士共同见证测序的40年。这期分享将帮助大家挑选最适合自己研究工作，临床或诊断应用的测序平台。简介新一代测序方法已经被开发并提出用于研究基因组学或涉及 DNA 的临床应用。这...

2024-04-12 09:19:14 857

原创 IF: 10+ 基于深度学习整合bulk转录组和单细胞转录组揭示肝细胞癌的预后和治疗选择中的焦亡特征...

‍‍这期分享一篇 2024年1月发表于 Briefings in Bioinformatics (IF 9.5)的文章，作者基于深度学习整合bulk转录组和单细胞转录组揭示肝细胞癌的预后和治疗选择中的焦亡特征。该文章使用桓峰基因公众号里面生信分享教程即可实现，有需要类似思路的老师可以联系我们！摘要虽然已经报道了一些与焦热相关 (PR) 的癌症预后模型，但在肝细胞癌 (HCC) 的单细胞水平上...

2024-04-08 10:01:45 1013

原创 SCS【41】基于贝叶斯反卷积法整合分析bulk和scRNA-seq (BayesPrism)

‍‍简介BayesPrism 使用从匹配或相似组织类型收集的scRNA-seq样本，对大量RNA-seq(和空间转录组学)进行细胞类型和基因表达反褶积。将scRNA-seq作为先验信息，估计P(θ,Z|X,ϕ)，即细胞类型分数θ和细胞类型特异性基因表达Z在每个群体中的联合后验分布，条件是参考ϕ和每个观察群体X。软件包安装library("devtools");install_github("D...

2024-04-07 16:22:14 799

原创 Drug 2. 临床标志物之药物敏感性水平 (oncoPredict)

上期我们介绍了临床标志物之药物-基因关联预测，这期继续介绍药物敏感性水平的计算。临床前生物标志物发现这个脚本提供了一个如何在临床前生物标志物发现中控制一般药物敏感性水平 general levels of drug sensitivity (GLDS)的例子。具体来说，这个脚本对GDSCv2数据应用glds函数来获得每个#drug-gene关联的p值和beta值。控制GLDS很重要，因为GLDS的...

2024-04-03 11:28:40 936

原创 Drug 1. 临床标志物之药物-基因关联预测 (oncoPredict)

简介细胞系药物筛选数据集可用于一系列不同的药物发现应用，从药物生物标志物发现到建立药物反应的翻译模型。之前，我们描述了三种独立的方法:(1) 纠正药物敏感性的一般水平，以实现药物特异性生物标志物的发现;(2) 预测患者的临床药物反应;(3) 将这些预测与临床特征联系起来，以进行体内药物生物标志物的发现。在这里，我们联合并将这些方法更新到一个R包(oncoPredict)中，以促进这些工...

2024-04-02 16:39:41 946

原创 MachineLearning 32. 机器学习之支持向量机递归特征消除的特征筛选 (mSVM-RFE)

简介本文提出了一种新的特征选择方法，该方法使用类似于支持向量机递归特征消除 (SVM-RFE)的反向消除过程。与 SVM-RFE 方法不同的是，在每一步中，该方法通过对原始训练数据的子样本上训练的多个线性支持向量机的权重向量进行统计分析来计算特征排序得分。我们在四个用于癌症分类的基因表达数据集上测试了所提出的方法。结果表明，所提出的特征选择方法比原 SVM-RFE 方法选择了更好的基因...

2024-03-29 09:26:58 1009

原创 MachineLearning 31. 机器学习之基于RNA-seq的基因特征筛选 (GeneSelectR)

简介RNA-seq 数据集在识别下游分析和数据挖掘工作的生物学相关特征方面提出了相当大的挑战。标准方法涉及差异基因表达 (DGE) 分析，但由于其单变量性质，其有效性可能受到数据的限制。在复杂的数据集中，另一种方法涉及使用各种机器学习 (ML) 工具，这些工具试图理解特征之间的非线性关系，并专注于概括性而不是统计显著性。这种方法将导致生成多个特征列表，这些特征列表可能在分类性能指标方...

2024-03-27 13:52:14 797

原创 MachineLearning 30. 机器学习之特征选择森林之神 (Boruta)

简介机器学习方法通常用于对由数百个属性描述的对象进行分类。在许多这类应用中，很大一部分属性可能与分类问题完全无关。更重要的是，通常人们不能先验地决定哪些属性是相关的。为什么变量选择很重要?删除冗余变量有助于提高准确性。同样，纳入相关变量对模型精度也有积极影响。太多的变量可能导致过拟合，这意味着模型不能泛化模式。太多的变量导致计算速度慢，反过来又需要更多的内存和硬件。R中有很多用于功能选...

2024-03-25 11:23:56 701

原创 IF: 39+ 基于单细胞转录组测序揭示肺腺癌和鳞癌之间的异质性免疫图谱

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇 2022年8月发表于 Signal Transduct Tar...

2024-03-21 11:50:49 716

原创 IF: 16+ 基于弹性网络回归嵌套验证方法证实肿瘤邻近肺内炎症是肺腺癌临床预后的预测因子...

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇 2023年6月发表于nature cummunications...

2024-03-20 12:05:25 250

原创 MachineLearning 29. 机器学习之嵌套交叉验证 (Nested CV)

简介Nested CV 提供有助于在生物医学数据中开发和调整机器学习模型的功能，其中样本量通常有限，但预测因子的数量可能要大得多。虽然大多数机器学习管道涉及将数据分成训练和测试队列，通常分别为2/3和1/3，但医疗数据集可能太小，无法做到这一点，因此在遗漏的测试集中确定准确性会受到影响，因为测试集很小。嵌套交叉验证(CV)提供了一种绕过这个问题的方法，通过最大化地使用整个数...

2024-03-19 12:53:32 952

原创 IF: 16+ 基于10种机器学习方法开发了免疫性 lncRNA signature 改善结直肠癌的预后

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇2022年发表在2023年3月发表于nature cummuni...

2024-03-16 08:56:34 1015

原创 MachineLearning 28. 机器学习之偏最小二乘回归应用于生存分析 (plsRcox)

简介偏最小二乘回归（Partial Least Squares Regression，PLS Regression）是一种常用的统计建模方法，用于解决多元线性回归中自变量间高度相关的问题。在偏最小二乘回归中，通过将原始自变量转换为一组新的综合变量（称为主成分或潜在变量），然后再使用这些主成分进行回归分析，从而减少自变量之间的共线性，并且提高模型的稳定性和预测能力。偏小二乘回归提供...

2024-03-15 09:51:07 873

原创 MachineLearning 27. 机器学习之偏最小二乘回归应用于生存分析 (plsRcox)

简介偏最小二乘回归（Partial Least Squares Regression，PLS Regression）是一种常用的统计建模方法，用于解决多元线性回归中自变量间高度相关的问题。在偏最小二乘回归中，通过将原始自变量转换为一组新的综合变量（称为主成分或潜在变量），然后再使用这些主成分进行回归分析，从而减少自变量之间的共线性，并且提高模型的稳定性和预测能力。偏小二乘回归提供...

2024-03-14 15:57:09 1026 1

原创 MachineLearning 27. 机器学习之逐步Cox回归筛选变量 (StepCox)

简介逐步回归是回归分析中一种筛选变量的过程，可以使用逐步回归从一组候选变量中构建回归模型，让系统自动识别出有影响的变量。当影响因素比较多的时候，变量间常常存在着各种各样的关系，单因素的分析结果往往不可靠，我们常常采用的解决方案是多因素的回归分析。而在进行多因素的回归分析时，如何处理无统计学意义的变量是避不开的问题：保留还是舍弃？这就涉及到变量筛选的问题。今天就介绍一下逐步回归...

2024-03-13 11:09:07 425

原创 MachineLearning 26. 机器学习之弹性网络算法应用于生存分析 (Enet)

简介弹性网络（Elastic Net）:是一种用于回归分析的统计方法，它是岭回归（Ridge Regression）和lasso回归（Lasso Regression）的结合，旨在克服它们各自的一些限制。弹性网络能够同时考虑L1正则化（lasso）和L2正则化（岭回归），从而在特定情况下对于高维数据集具有更好的性能。前面学习了 Ridge 回归与 Lasso 回归两种...

2024-03-12 15:52:21 583

原创 MachineLearning 25. 机器学习之支持向量机应用于生存分析 (survivalsvm)

简介动机:生存分析的新应用领域，例如基于微阵列表达数据，需要能够处理高维数据的新工具。虽然基于似然或部分似然函数的经典(半)参数技术在临床研究中无处不在，但当数据中的观察值少于特征时，往往不足以建模。支持向量机(svm)和扩展通常被发现对这种情况特别有用，无论是概念上(非参数方法)，计算上(归结为一个可以有效解决的凸程序)，理论上(与学习理论的内在关系)以及经验上。本文讨论...

2024-03-01 09:24:28 1040

原创 MachineLearning 24. 机器学习之似然增强Cox 比例风险模型筛选变量及预后估计 (CoxBoost)...

简介CoxBoost使用基于组件似然的增强来拟合Cox比例风险模型。特别适用于具有大量预测器的模型，并允许具有无惩罚参数估计的强制协变量。与梯度增强(例如在R包mboost中的glmboost例程中实现，使用CoxPH损失函数)相比，CoxBoost不是基于损失函数的梯度，而是采用Tutz和Binder(2007)的基于偏移量的增强方法来估计Cox比例风险模型。在每个增强步骤中，将前面的...

2024-02-28 12:13:28 605

原创 MachineLearning 23. 机器学习之岭回归预测基因型和表型 (Ridge)

简介岭回归(英文名：ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。迄今为止，许多遗传变异已被确定为与不同的表型性状相关。然而，...

2024-02-23 17:13:13 833

原创 MachineLearning 22. 机器学习之有监督主成分分析筛选基因 (SuperPC)

简介有监督的主成分回归的基本原理主成分分析是由KarlPearson于1901提出的,它把原来的多个变量用少数几个线性组合，即主成分来概括。主成分分析也是降维方法的一种，可以用于可能高度相关的基因表达数据的探索，但是由于在仅考虑自变量的常规主成分分析中组成和选择主成分的时候没有用到生存时间,因此无法保证所选择的主成分与病人的生存相关。所以Bair和Tibshirani提出了有监督的主...

2024-02-22 21:27:32 367 1

原创 SCS【40】单细胞转录组之便捷式细胞类型注释（scMayoMap）

我们在使用很多细胞类型注释的软件包，往往发现要么需要标记的训练/ref参考数据集，这些数据集并不总是可用的，要么需要一个预定义的细胞子集标记列表，这些标记会受到偏差的影响因此，今天介绍一个R软件包scMayoMap可以自动注释细胞类型而不依赖构建的训练集或参考集，下面介绍使用方法。简介背景单细胞 RNA 测序(scRNA-seq)已经成为基础和转化生物医学研究中广泛使用的工具。在 ...

2024-02-19 16:59:40 801

原创 MachineLearning 21. 机器学习之临床医学上的生存分析 (xgboost)

简介XGBoost是一种强大的机器学习算法，它在许多领域都取得了广泛的应用，包括临床医学。本文将介绍XGBoost模型的原理和概念，并通过一些具体的临床医学实例来展示其在这个领域的应用。XGBoost模型的原理和概念XGBoost全称为eXtreme Gradient Boosting，是一种基于梯度提升决策树（Gradient Boosting Decision Tree）...

2024-02-18 13:16:14 1076

原创 RNA 41. SCI文章中转录组之基于结构方程模型的因果网络推理 (SEMgraph)

简介随着高通量测序(HTS)在分子生物学和医学领域的出现，对复杂生物系统建模的可扩展统计解决方案的需求变得至关重要。越来越多的平台和可能的实验场景提出了整合大量新的异构数据和现有知识的问题，以测试新的假设并提高我们对生理过程和疾病的理解。尽管网络理论提供了一个框架来表示生物系统并研究其隐藏属性，但不同的算法仍然具有较低的可重复性和鲁棒性，依赖于用户自定义设置...

2024-02-07 08:40:59 610

原创 SCS【39】单细胞转录组之降维散点图的美化 (SCpubr)

我们在使用Seurat软件包时，往往发现在绘制降温散点图时不能满足自己的对图的细致的修改，以达到美观，因此，今天介绍一个R软件包SCpubr可以任意修改绘图参数，达到自己的修改预期，下面介绍降温散点图的修改参数方式。简介单细胞转录组分析已成为一种广泛的技术选择时从转录组学的角度来理解异质基因的差异样本。因此，已经发布了大量的分析工具来解决这个问题从计数矩阵生成到下游分析的不同分析步...

2024-01-23 11:56:05 939

原创 RNA 40. SCI文章中转录组之筛选候选癌症亚型特异性药物

SubtypeDrug包是一个系统性的生物学工具，用于选择特定癌症亚型的药物，下面我们就看看怎么来实现吧！简介癌症可以根据其分子、组织学或临床特征分为不同的亚型。发现针对癌症亚型的药物是个体化医疗的关键一步。SubtypeDrug 是一个系统生物学基于R的软件包，可以根据癌症表达对亚型特异性药物进行优先排序来自许多亚型样本的数据。这提供了一种通过con考虑药物在亚通路水平调节的生物学功能来...

2024-01-22 10:35:11 941

原创 SCS【38】单细胞转录组之免疫浸润分析(escape)

简介软件包功能允许用户从存储的数据或其他来源输入单细胞RNA-SEQ 计数和任何基因集路径。富集计算本身使用两种方法:1)gsva R包和RNA的泊松分布;2)UCell包。在单细胞RNA测序的背景下进基因集富集分析(GSEA)。使用 raw count information, Seurat objects, or SingleCellExperiment format 作为输入，用户可以...

2024-01-03 12:00:48 1050

原创 SCS【37】hdWGCNA在空间转录组学中的作用

简介生物系统是非常复杂的，在不同分子、细胞、器官和有机体之间严格调节的相互作用的基础上，被组织成一个多尺度的功能细胞层次。虽然实验方法能够在数百万个细胞中进行转录组范围的测量，但流行的生物信息学工具不支持系统级分析。在这里，我们提出了hdWGCNA，这是一个全面的框架，用于分析高维转录组学数据中的共表达网络，如单细胞和空间RNA测序(RNA-seq)。hdWGCNA提供网络推理、...

2023-12-19 13:33:15 1008

原创 IF: 27+ 基于单细胞测序揭示以 ZEB1 转录因子为主要调节因子的衰老细胞群促进软骨和半月板骨关节炎...

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇2022年发表在2023年3月发表于 Annals of the...

2023-12-14 10:02:28 97

原创 SCS【36】单细胞转录组之k-近邻图差异丰度测试(miloR)

简介当前用于比较分析单细胞数据集的计算工作流程在测试不同实验条件下的差异丰度时，通常使用离散 cluster 作为输入。然而，聚类并不总是提供适当的分辨率，也不能捕获连续的轨迹。在这里，我们提出了Milo，一个可扩展的统计框架，通过在k近邻图上将单细胞分配到部分重叠的邻域来执行差异丰度测试。使用模拟和单细胞RNA测序(scRNA-seq)数据，表明 Milo 可以识别因离散细胞成 cluster...

2023-12-13 08:03:05 152

原创 RNA 39. SCI文章中在线基因功能富集分析（g:Profiler）

这期推荐在线基因功能富集分析(g:Profiler – a web server for functional enrichment analysis and conversions of gene lists），下面我们就看看怎么来实现吧！简介g:Profiler是一个可靠的和最新的功能富集分析工具，支持各种证据类型，标识符类型和生物体。该工具集集成了包括Gene...

2023-12-12 08:30:23 75

原创 IF：11+ 基于10种机器学习利用内皮细胞衰老的生存预测和免疫治疗反应识别转录组学泛癌标志物...

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇2022年发表在Journal of Biomedical Sc...

2023-12-06 14:59:13 213

原创 IF：11+ 基于10种机器学习利用内皮细胞衰老的生存预测和免疫治疗反应识别转录组学泛癌标志物...

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇2022年发表在Journal of Biomedical Sc...

2023-12-06 14:59:13 242

原创 IF：11+ 基于10种机器学习利用内皮细胞衰老的生存预测和免疫治疗反应识别转录组学泛癌标志物...

桓峰基因的教程不但教您怎么使用，还会定期分析一些相关的文章，学会教程只是基础，但是如果把分析结果整合到文章里面才是目的，觉得我们这些教程还不错，并且您按照我们的教程分析出来不错的结果发了文章记得告知我们，并在文章中感谢一下我们哦！公司英文名称：Kyoho Gene Technology (Beijing) Co.,Ltd.这期分享一篇2022年发表在Journal of Biomedical Sc...

2023-12-06 14:59:13 616

原创 RNA 38. SCI文章基于测序数据去除批次效应(SVA)

这期推荐软件包SVA: 基于高通量测序数据去除批次效应，下面我们就看看怎么来实现吧！简介异质性和潜在变量现在被广泛认为是高通量实验中偏差和变异性的主要来源。基因组实验中最著名的潜在变异来源是批效应——当样本在不同的日子、不同的小组或由不同的人处理时。然而，还有大量其他变量可能对高通量测量产生重大影响。在这里，我们描述了用于识别、估计和去除高通量实验中不需要的变异源的sva包。...

2023-12-04 12:29:54 205

原创 MachineLearning 20. 机器学习之袋装分类回归树(Bagged CART)

简介CART模型，即Classification And Regression Trees。它和一般回归分析类似，是用来对变量进行解释和预测的工具，也是数据挖掘中的一种常用算法。如果因变量是连续数据，相对应的分析称为回归树，如果因变量是分类数据，则相应的分析称为分类树。决策树是一种倒立的树结构，它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。构造一棵决策树需要一个训练...

2023-11-30 12:46:12 84

原创 MachineLearning 19. 机器学习之神经网络分类器(NNET)

简介神经网络是一种运算模型，由大量的节点（或称“神经元”，或“单元”）和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。使用神经网络的动机是...

2023-11-29 09:16:25 151

原创 MachineLearning 18. 机器学习之贝叶斯分析类器(Naive Bayes)

简介贝叶斯分类技术在众多分类技术中占有重要地位，也属于统计学分类的范畴，是一种非规则的分类方法，贝叶斯分类技术通过对已分类的样本子集进行训练，学习归纳出分类函数 (对离散变量的预测称作分类，对连续变量的分类称为回归)，利用训练得到的分类器实现对未分类数据的分类。通过对比分析不同的分类算法，发现朴素贝叶斯分类算法(Naive Bayes)，一种简单的贝叶斯分类算法，其应用...

2023-11-26 08:00:27 80

原创 MachineLearning 17. 机器学习之围绕中心点划分算法(PAM)

简介围绕中心点划分 Partitioning Around Medoid（PAM）聚类算法的基本思想为选用簇中位置最中心的对象，试图对n个对象给出k个划分；代表对象也被称为是中心点，其他对象则被称为非代表对象；最初随机选择k个对象作为中心点，该算法反复地用非代表对象来代替代表对象，试图找出更好的中心点，以改进聚类的质量；在每次迭代中，所有可能的对象对被分析，每个对中的一个对象是中心点，...

2023-11-25 14:54:19 118

突变命名法则资料

空空如也