- 博客(242)
- 收藏
- 关注
原创 Seurat -- Introduction to scRNA-seq integration 跟随学习记录
IntegrateLayers(object = sce, method = CCAIntegration, orig.reduction = “pca”, new.reduction = “integrated.cca”)该方法使用PCA和scale.data下面的数据进行学习,产生一个新的降维数据 @reductions$integrated.cca,然后这个降维数据用于后续的构建SNN图和聚类。data 存放了 normalization后的数据。scale.data 数据进行PCA降维。
2024-04-23 13:42:57 517
原创 celltypist使用体验
多个model 测试一下,交叉验证该工具容易过拟合,貌似设置majority_voting = True 表现会好很多我下次还是使用SingleR吧!!!
2024-03-28 19:16:16 634
原创 ssGSEA -- 学习记录
相比起GSA,GSEA不再关注于差异基因,因此不受p-value以及log2FC的指标的过滤影响,可以获得更多生物学功能变化的信息。但是呢需要多个样本的测序数据才能得到与表型相关的排序数据,如果我只有一个样本呢?或者我的样本没有先验的表型区分呢(也就是没法分组)?ssGSEA说我可以。ssGSEA是单样本的GSEA,对于一个基因集S,每一个样本都可以计算得到一个enrichment score。也就是说其实我们可以从一个多样本的表达矩阵得到另一个矩阵,行是多个不同的基因集S,列仍然是样本,值则是ES。
2024-03-08 13:02:00 700
原创 GSEA -- 学习记录
2.富集分数ES,实际上是k-s like test的统计量,所以ES主要表示基因集S的基因的log2FC的分布与不在基因集S的其他基因的log2FC的分布是否一致,当ES大于0并且具有统计学意义时,那我们可以说基因集S内基因相比其他基因表达上调。,其中ORA方法只关心差异表达基因而不关心其上调、下调的方向,也许同一条通路里既有显著高表达的基因,也有显著低表达的基因,因此最后得到的通路结果对表型的解释力度也不大。还有一些基因表达量的变化程度很小,但是其生物学功能可能很重要,那么该如何体现?
2024-03-08 12:59:59 672
原创 GSA、GSEA、ssGSEA、GSVA用到的统计学知识点
D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的,每一次打乱样本顺序,都可以计算出相应的一个D,得到一个D的分布,这样就可以考察现在的D的水平是否满足p<0.05。对于这种阶梯式的step function,被描述为random walk,也就是随机游走,随机游走也是一个统计学概念,在这里,我们考虑一个点从原点出发向右行走,当遇到抽样分布的样本点(数据点)时(对应的横坐标),就向上走1/n,如果没遇到就平行x轴行走。是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
2024-03-08 12:55:46 979
原创 ORA/GSA -- 学习记录
over-representation analysis(ORA),过表“达”分析,就是我们做多分组的RNAseq数据解析后会得到一些差异表达的gene,有些时候是单独拿出一个差异gene去解释表型,缺点是欠缺证据力度。有些人就把一些相关的差异gene放在一块儿解释,比如这些差异gene在某个通路中高表达/低表达,从而引起了这种表型。
2024-03-07 17:51:35 313
转载 ggplot2 -- 添加显著性检验结果
实验均衡设置时,两组实验样本数量应该是相等得,同时考虑到样本顺序,则可以进行配对样本均值比较。所以剂量和投喂方式都是一种分组因子,并且以组合的方式出现时,我们该如何做显著性检验呢?2.如何自动化为ggplot添加p值和显著性标记,包括箱线图、点图、条形图、线图等等。整个实验设计是每个剂量下投喂两种不同形式的VC/OJ。1.如何简单比较两组或多组的平均值。
2024-02-01 09:23:33 345
原创 单因素方差分析--R
三个剂量水平的药物处理受试者,每个剂量水平十个受试者,现在收集到数据后,问:药物剂量水平显著影响受试者的response?或者不同剂量药物处理受试者有显著效果的差异吗?
2024-01-09 16:26:48 625
原创 非均衡设计评价两个批次的数据一致性
第一批次的药物实验设置了三个剂量(0.2,0.6,1.8)mg/kg,每个剂量水平有十个受试者。第二批次的药物实验设置了其他三个剂量(1.2,2.4,4.8) mk/kg,每个剂量水平有两个受试者。问:这两个数据一致性怎么样?我理解是不是这两批数据可以用一个方程表示?或者说第二批次数据落在第一批次方程的置信区间内?
2024-01-09 15:28:14 365
原创 xCell -- Cell Type Enrichment Analysis
希望得知TCGA的每个癌种中,T cell占比分布。或者说哪种肿瘤T cell在所有细胞中占比多(浸润的多/热肿瘤)
2024-01-04 12:08:22 942
原创 CompAIRR
CompAIRR可以用于比较两个免疫组库的序列,识别出哪些overlap序列(精确匹配和模糊匹配)。也可以在免疫组库中进行search,找到相同或者相似的序列。对免疫组库进行聚类,实现cluster / clonotype的识别。
2023-12-09 11:11:06 842
转载 ggseqlogo
sequence logo图用来可视化一段序列某个位点的保守性,据根提供的序列组展示位点信息。这方面有很多在线小工具可以完成,这里使用R包ggseqlogo进行可视化。下面是使用数据中的位置频率矩阵生成的seqlogo。
2023-12-04 11:14:58 113
原创 前向反馈神经网络 -- FNN
神经细胞的树突接受外部信号,细胞体整合这些信号,有些是刺激信号有些是抑制信号,整合后得到一个一般性的信号,如果这个信号强度大则通过轴突往外部传递,如果这个信号强度小则忽略这个信号。这种弹性对于成功的机器学习是重要的。神经细胞组成了人体的反射弧,那么感知器组成了机器的反射弧,从而实现对一些信息(带有特征信息的样本)做出拟人化智能化的反应:分类,预测,排序,回归等。几乎所有的非线性函数都可以充当激活函数, 尽管如此, 对前向传播算法而言, 激活函数必须是可微的, 如果是有界函数, 将会更有帮助。
2023-11-23 09:28:01 114
原创 infercnv
不过很多的文章都在用它解析单细胞数据,我也不能仅仅停留在diss它的位置上,开学吧。染色体畸变的 类型很多的,有结构上的(片段插入,片段缺失,重组,染色体断裂等等),有数量上的(染色体加倍,非整倍体,基因片段gain or lost)等等。把normal 细胞的表达信号当作背景信号,其他细胞的表达信号减去背景信号,也就是获取偏离normal 的信号,认为他们是gain or loss CNV。文件分为四列,第一列记录基因名称,第二列记录基因在哪条染色体上,以及第三四列记录染色体上的起始终止位点。
2023-11-15 10:38:15 320 2
原创 R -- 体验 stringdist
amatch仿照R base function match进行设计,通过 参数maxDist控制该函数的行为,如果maxDist 设置的很小其表现近似于 exact match,当 maxDist 设置的比较大时则表现的是approximately match。amtch 与 ain的区别类似于match和 %in%,一个返回元素的index,一个返回TRUE/FALSE。则允许当前的字符串和其他的字符置换后计算距离。只允许前后相邻的两个字符串置换,D。的区别主要是最后一个方程式,D。
2023-10-31 16:38:15 708
转载 R -- SummarizedExperiment
通俗一点来说就是,现在有一个gene表达矩阵,每一行记录的是一个gene的表达量信息,每一列对应一个样品中该gene的表达值。然后,SummarizedExperiment(SE)对象额外记录了一张表,这张表记录了每个gene基因组坐标,长度等信息。RangedSummarizedExperiment对象,是SE的子类,和SE的区别就是SE对象的rowname 是gene name,RangedSummarizedExperiment对象的rowname 是 genomic ranges。
2023-10-26 16:19:36 158
原创 ggplot2 -- geom_linerange 函数的简单使用
需要三个参数确定一个直线,x轴位置,y轴起始位置,y轴结束位置。有别于一些垂直辅助线,可以实现柱状图,瓷砖图等等。
2023-10-16 11:41:39 231
原创 利用ANARCI标识CDR区域
总有一些朋友丢给我一些抗体蛋白序列,希望我把抗体的框架区和高变区标识出来。然后ANARCI 可以对抗蛋白序列的氨基酸进行编号和allign。所以我想ANARCI可以解决这个问题。
2023-08-23 15:29:38 212
原创 R package org.Hs.eg.db to convert gene id
这些ID对应关系随着不同数据库的升级和维护有可能出现前后不对应的情况。同时这些ID 也不是一一对应的关系,可能存在一对多或者多对一的关系。
2023-08-21 16:08:16 578
原创 R -- Rscript传递参数
然后本人通常使用第一种(getopt)方法,第二种方法也使用过,但是这一部分内容仅仅是记录和比较。第三步是通过parse_args()把解析对象赋值并在后续程序中调用。第一步是使用ArgumentParser()创建一个参数解析对象,第二步是使用add_argument函数为前面的对象增加参数,
2023-08-05 10:58:53 1117
原创 20230703 -- scRNAseq from gastric cancer
文章标题:《Single-cell atlas of lineage states, tumor microenvironment and subtypespecific expression programs in gastric cancer》
2023-07-04 19:01:43 126
原创 logistics regression + LDA + QDA + MARS
【代码】logistics regression + LDA + QDA + MARS。
2023-06-20 16:20:07 169
原创 R -- corrplot包
corrplot包常用参数介绍:corr: 必需参数,表示相关性矩阵,可以是数据框或者矩阵。method: 表示绘制相关性矩阵的方法,有以下几种取值:“circle”:绘制圆形相关性矩阵图。“square”:绘制方形相关性矩阵图,不同相关性之间颜色深浅不同。“color”:绘制方形相关性矩阵图,不同相关性之间颜色的深浅和颜色的具体种类都不相同。“pie”:绘制饼图形式的相关性矩阵图。“shade”:绘制灰度相关性矩阵图,颜色越深表示相关性越大。“ellipse”:绘制椭圆形相关性矩阵图。
2023-06-17 15:39:15 2135
原创 R -- 小玩具 -- df$variable <- NULL
因此,如果您想永久删除数据框中的某个列(保存在磁盘上的文件没有改变,除非你把内存中的数据刷新到磁盘并覆盖源文件),可以使用。biopsy$ID <- NULL 和 biopsy[,-1] 都可以用于从数据框中删除列或变量。如果您只想在计算过程中删除某些列并保留原始数据框不变,则可以使用。
2023-06-17 10:42:23 61
原创 学习记录 -- Accurate and fast cell marker gene identification with COSG
COSG的作者认为,如果细胞类群特异性表达的基因为marker,那么其他的marker gene应该存在类似的表达模式,同时目标细胞类群和其它细胞类群之间呈现出不同的表达模式。通常情况下,我们可以找到细胞类群间表达量存在差异的基因,我们认为可以标识细胞类的marker 基因就在 DE之中 ,最好是只在这一个细胞类群中表达的DE,大概率就是marker。,这个基因的表达特征是:只在目标细胞类群中表达,且不在其它任何一个细胞类群中有表达。第二步:假设一共有k个细胞,那么每个基因的表达情况就是一个 k维的向量。
2023-06-10 17:21:57 503
原创 R -- loess函数
如果是OLS的话每个数据点的权重是一样的 ,但是现在进行拟合时我们要给每个数据点不一样的权重,使得 x的权重最大(这样就会出现x 对线性拟合的影响最大),距离 x 第一近的 数据点权重第二大,依此类推。其中 span 控制 windows大小,小于1是表示windows占数据点的百分比,大于1表示windows包含所有数据点,有人这样子想了,先把数据分段,然后每段数据内拟合,然后再连接拟合线,当你把数据分段约小,拟合线越平滑。然后计算离他最近的四个点(我们选取的windows = 5),进行线性拟合。
2023-06-09 16:28:58 3031
原创 R -- 编码格式问题
这将更改R的选项以将其默认编码设置为UTF-8。但请注意,这将只影响在此后创建的新文件和输出。如果返回的是"native.enc",则表示当前使用的是操作系统默认的本地编码格式。如果返回的是"UTF-8",则表示当前使用的是UTF-8编码格式。,则可以使用相关的函数,并通过参数来指定编码格式。这将返回一个字符串,其中包含当前的编码格式。如果您需要在读取或写入文件时。
2023-06-05 17:15:43 1859
原创 day11 -- 存储过程+触发器+事物处理
触发器是数据库对象的一种,因此记录在数据库中的系统表中。具体来说,在SQL Server数据库中,每个数据库都有一个名为sys.triggers的系统表,其中包含了所有触发器的信息。简单来说,事务处理(transaction processing)可以用来维护数据库的完整性,它保证成批的MySQL操作要么完全执行,要么完全不执行。换句话说,任何时候你执行一条MySQL语句,该语句实际上都是针对表执行的,而且所做的更改立即生效。此外,需要执行的具体语句及其次序也不是固定的,它们可能会根据条件而选择性的执行。
2023-06-03 16:02:26 275
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人