穆易青-CSDN博客

原创 2021.07.30【WGS/GWAS】丨全基因组分析全流程(上)

目录摘要命令行三级目录摘要时隔半年，终于把WGS前面的分析用snakemake搭建好了。读者不要嫌我慢，确实是项目不多，流程也不算特别复杂。之前的shell脚本也能用，因此迟迟没有真正搭建。现在项目慢慢多了，考虑到提升工作效率，趁着前几天做了2个WGS的项目，把这个流程梳理出来。命令行#vim: set syntax=python#__author__ = "Yang Xin"#__copyright__ = "Copyright 2021, Wang lab"#__email__ = "4

2021-07-30 17:05:54 3955 5

原创 2020.11.9【WGS/GWAS】丨全基因组分析（关联分析）全流程(下)

经过为期半个月的~~东拼西凑~~ 研发测试，作者终于整理出了一个从VCF开始的GWAS后期分析流程。当然要感谢很多大佬提供的~~代码~~ 帮助，在文章中也附上参考链接。对GWAS还不够熟悉的朋友，可以看一下我之前整理的一份PPT学习笔记[《遗传进化与GWAS研究》](https://blog.csdn.net/yangl7/article/details/108486232)。

2020-11-09 14:36:28 15923 10

原创 2023.12.12【基因组】|bedtools与gffread序列提取比较

最近在优化基因组组装流程，其中在组装完成后需要提取cds这一步。我同时试了bedtools和gffread这两个工具，得到了两个fa文件，做了一下对比，感觉还是有些差异，这里记录一下。

2023-12-12 11:19:57 1118

原创 2023.11.27【读书笔记】|医疗科技创新流程（前言）

在美国，医疗费用的增长率已经多年超过GDP增长率；然而，新的技术与疗法只占用了实际长期医疗费用增长的1/3-1/2。医疗器械市场价值巨大，尽管跨国公司在早期可迅速占领市场，但本土企业出现的中低端替代品也可迅速夺回市场。中国政府医疗支出占GDP的5%（美国18%）；经销商、医院管理者、CFDA官员、市级和中央政府官员有过硬联系。人口老龄化，预计到2053年，老年人口将达到总人口的35%监管部门的正式规定及中国发展的非正式规则。解决方案：建立一个策略性的人脉关系网。拥有4亿新兴中产阶级。思考作为外来者的利弊。

2023-11-27 23:29:48 670

原创 2023.11.13【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对下）

欢迎私信加群交流，vx：bbplayer2023。人数不多，但大家学习上进，互帮互助，值得一探究竟。

2023-11-13 23:00:24 953

原创 2022.09.17【读书笔记】丨生物信息学与功能基因组学（第十三章蛋白质结构预测下）

输入的目标序列被打断成一个个片段，然后在一个已知折叠的模板库上进行“穿线”。打分函数会评估目标序列与已知结构之间的相容性。一般序列一致性大于50%。或比对到序列区域足够长，说明这两个蛋白质可能有相似结构，精度较高。通过blast或delta-blast搜索同源蛋白质序列或结构，识别保守和可变区域。氨基酸序列包含了关于蛋白质结构的所有信息；球蛋白会折叠成自由能最低的结构。2.把目标蛋白质和模板蛋白质进行比对。1.模板选择和确定折叠构象。4.对结构模型进行评估。

2023-07-27 22:41:53 399

原创 2023.07.26【微生物】|qiime2组间分析，ANCOM算法介绍与结果解读

在使用qiime2进行16S/ITS分析的时候，少不了对样品进行组间分析。除了常见的PicRust和Lefse分析之外，qiime2自带了ANCOM分析。不过这个大家并不是很熟悉，网上对ANCOM的结果也没有非常详尽的介绍。因此我根据查阅的文献资料，整理出这篇文章。希望对使用qiime2分析微生物有需求的小伙伴提供一些帮助。

2023-07-26 17:04:45 1443 2

原创 2023.07.05【bug笔记】|bwa比对报错：Segmentation fault

Segmentation fault 这个报错还有一种情况会与参考基因组有联系，即参考基因组过大时，由于内存不足导致溢出。有更多问题可以加VX：bbplayer2021 （木青）进群交流，备注申请加入生信交流群。

2023-07-05 11:57:19 368

原创 2023.06.17【读书报告】|AI辅助写统计脚本

这里主要总结的是统计脚本，因为统计这方面AI工具犯错少，如果是绘图脚本就比较复杂，一是太简单的图很丑需要调，二是参数容易搞混，经常反复改，甚至不如直接搜索引擎上找。总的来说，统计脚本用AI工具还是可以提升生产效率的，熟练使用流程可能10分钟就能运行出来，但是写一个可能就1小时起了。

2023-06-17 16:14:58 429

原创 2022.11.21【bug笔记】|bam文件报错：Cannot add sequence that already exists in SAMSequenceDictionary

sam文件是通过hisat2，bowtie2或者bwa将rawdata进行比对后得到的包含比对信息的数据格式。经过samtools处理后得到的bam文件经常用于后续分析，比如RNA-seq分析时，可以统计序列的插入片段也可以做后续定量，WGS流程里比对后生产的bam文件也可以去冗余获取snp位点。

2022-11-21 17:23:36 596 3

原创 2022.11.15【bug笔记】|Error in FASTQ file at line 55: Line expected to start with ‘+‘, but found ‘G‘

今天协助销售处理客户一个质控分析问题，感觉很多人都会遇到，在这里记录一下。

2022-11-15 20:37:29 596

原创 2022.08.24【R语言】|pheatmap外接函数调用时不能有NA/NaN/Inf(arg10)报错问题及解决方案

这个问题其实说大不大，说小不小。

2022-08-24 17:34:55 5255 1

原创 2022.04.21【日常维护】|服务器存储清理浅谈

文章目录摘要基本命令结尾摘要随着业务拓展，项目越来越多，并且多人使用服务器，需要时刻注意清理存储，一不小心就容易满。今天整理几个命令，说一下我日常清理存储的方法。基本命令第一个就是df命令，这个命令常用来查看磁盘存储情况：(base) [yangxin@genomic2 ~]$ df --help用法：df [选项]... [文件]...Show information about the file system on which each FILE resides,or all file

2022-04-21 11:43:56 534

原创 2022.04.15【单细胞】|Seurat安装，C++ compiler supports the long long type... no解决方法

最近学习单细胞转录组（scRNA）分析，这个分析需要提前安装R4.0还有Seurat等R包进行分析，同事在创建新环境后正常情况下都可以顺利安装，然而到我这边，似乎是缺少某一个lib依赖库，没法成功安装。

2022-04-15 15:40:46 1942

原创 2022.04.14【读书笔记】|转录因子分析

转录因子（transcription factors, TFs）是直接作用于基因组，与特定DNA序列结合，调控DNA转录过程的一类蛋白质

2022-04-14 15:42:57 2419

原创 2022.04.14【读书笔记】|WGCNA分析原理和数据挖掘技巧

WGCNA，全称weighted gene co-expression network analysis，即权重基因共表达网络分析。自2005年B Zhang, S Horvath等提出，在疾病以及其他性状与基因关联分析等方面的研究中被广泛应用。

2022-04-14 15:19:46 3568 3

原创 2022.04.13【读书笔记】|10X单细胞转录组分析流程介绍

本次笔记是基迪奥单细胞课程第二章，根据课件以及上课老师的情况来看，比之前的美格和菲沙都要好一些，而且价格更优惠。从官网也可以看到基迪奥在培训这方面是作为重点业务。等上完剩余课程，我会进行一个简单的小结，来评估几个公司之间的课程质量。

2022-04-14 11:41:00 2188

原创 2022.04.11【读书笔记】|单细胞转录组概述

文章目录摘要研究意义转录组学意义技术比较研究方法细胞筛选文库构建测序实验方法实验流程常见问题分析内容（重点）分析内容总览细胞亚群分类细胞类型频率统计Marker基因分析富集分析样本差异分析逆时分析WGCNA细胞通讯分析转录因子分析总结摘要本篇笔记为基迪奥单细胞转录组第一节课程笔记，感觉他们家的课程比之前的同行水平要高一些，并且价格公道，整体课程性价比较高，鼓励大家学习，这里记录一下课程重点。研究意义转录组学意义作为DNA到蛋白质的枢纽（中心法则），其高通量分析的实现性和可解读性较强。技术比较普

2022-04-11 16:06:32 681

原创 2022.03.24【基因组组装】|获取比对到参考基因组的contig序列

文章目录摘要工具与方法操作方法step.1 构建参考基因组数据库step.2 比对序列step.3 获取query_idstep.4 获取比对序列结果展示摘要很久没有整理工作笔记了，一方面个人有些倦怠，另一方面国内国际发生的事都牵动着许多人，我也不例外。趁着今天项目不多，记录一下最近的解决方案。上周遇到一个想检测测序样品中是否包含预期的细菌物种。使用nr数据库比对以及metaphlan3进行物种注释都找到了客户的预期物种。然后客户希望通过测序数据组装出一套基因组。要求是组装出来的contig必须是都比

2022-03-24 15:19:36 3912

原创 2022.03.03【微生物】|比对后去宿主分析

去宿主的分析可以让你节省更多比对时间

2022-03-03 17:19:02 1005

原创 2022.02.16【读书笔记】|基于深度学习的生命科学第2章深度学习概论（下）

训练模型，验证，正则化，超参数优化

2022-02-16 23:18:45 586

原创 2022.02.14【读书笔记】|基于深度学习的生命科学第2章深度学习概论（上）

传统方法是亲手设计一个函数，从分析问题开始，根据编写计算机代码来识别特征，并可靠地生成结果；机器学习采用完全不同的方法，不需要手动设计函数，而是允许计算机根据数据学习自己的函数。线性模型（感知器） y=Mx+b M是一个矩阵/权重，b是一个向量局限性大，不适合大多数实际的数据集。当数据维度变得非常高时，问题会变得更糟。多层感知器（MLP）可以简单理解为将多个线性变换一个接一个地叠加起来。将一个线性函数传递给另一个非线性函数（激活函数φ(x)） y=M2φ(M1x+b1)+..

2022-02-14 23:00:29 713

原创 2022.01.23【读书笔记】丨生物信息学与功能基因组学（第六章多重序列比对上）

学习目标理解使用ClustalW进行多重序列比对（MSA）的三个主要阶段；描述几种其他的多重序列比对（MSA）程序，了解他们的工作原理，比对它们与ClustalW的异同；理解进行基准研究的重要性，并且理解关于MSA的几个基本结论；理解关于基因组区域的MSA的几个问题。 6.1 引言本章探讨MSA的一般性问题介绍MSA的五种方法；认识用于MSA的数据库，比如Pfam；讨论基因组DNA的多重序列比对。多重比对序列的定义多重序列比对就是一组3条或者多条可

2022-01-23 17:17:22 2108

原创 2022.01.20【bug笔记】| qiime2报错：An error was encountered while running DADA2 in R (return code 1)

项目场景：版本介绍：qiime2：2021.4DADA2：1.18.0R：4.0.3项目场景：使用qiime2过程中，执行dada2命令对测序数据进行特征序列分类时，发生报错。问题描述：之前没有对qiime2有过更新或者修改，突然出现以下报错An error was encountered while running DADA2 in R (return code 1), please inspect stdout and stderr to learn more.打开记录日志

2022-01-20 14:53:05 4094 4

原创 2021.12.21【读书笔记】| 在Liunx中替换windows格式文本回车符

文章目录摘要问题描述解决方法vim界面中命令替换文本编辑器Notepad++中进行格式转换Word中另存为Unix格式总结摘要在分析常规项目的时候，一般我们会在NCBI或者UCSC上下载参考基因组还有对应的注释文件。但有时遇到的客户是自己组装的序列，而他们提供的参考基因组和注释文件都是自己组装或者用注释工具生成的，在格式上和标准数据库里的结果有些细微差别。这些格式问题对于刚入门的小白而言，在不知道的情况下分析起来会时常受阻。问题描述这次我们就遇到一个fa后缀的参考基因组，但是换行符是windows格

2021-12-21 16:16:32 647

原创 2021.12.19【读书笔记】丨生物信息学与功能基因组学（第五章高级数据库搜索下）

5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求：随着基因组DNA数据库数量增长，对比对工具要求越来越高能在基因组DNA中找到外显子比对时考虑基因组DNA包含的测序错误有相应的算法解决相关物种的基因组在比对中出现删除、重复、倒置或移位的问题有相应的算法解决DNA序列之间的小差异，如SNP位点用标准集去评估基因组比对效果时使用序列进化随机模型（ROSE）软件包船舰一个模拟序列集进行测试，可以得到全局比对工具LAGAN灵敏度最高，局部比对工具（如BLAST

2021-12-19 17:05:14 681

转载 2021.12.13【读书笔记】|对链特异性建库的理解

刚接触高通量测序的时候就知道有链特异性建库这么个概念，当时也了解可以利用加U法，但是没有思考其中的细节。最近把这个概念掰开了揉碎了好好理解，终于填上了这个坑。正式讲之前，有几个概念是要明确的。DNA 的正链和负链，就是那两条反向互补的链。参考基因组给出的那个链就是所谓的正链（forword），另一条链是反链（reverse）。但是这正反一定不能和正义链（sense strand）反义链（antisense strand）混淆。正义链（sense strand）：两条互补的DNA链其中一条携带编码

2021-12-13 14:36:58 1963 1

原创 2021.12.04【宏基因组】|宏基因组流程搭建进展梳理

分析框架质控过滤 trimmomatic PE {input.R1} {input.R2} {output.R1_PE} {output.R1_UNPE} {output.R2_PE} {output.R2_UNPE} LEADING:3 TRAILING:3 SLIDINGWINDOW:5:20 MINLEN:50 -phred33 去重 echo \"{input.R1}\" > {params.sample_ID}_merge.fastuniq ;ech..

2021-12-06 10:38:05 1188

原创 2021.11.22【读书笔记】丨生物信息学与功能基因组学（第五章第五节用类似于BLAST的比对工具快速搜索基因组DNA）

5.5 用类似于BLAST的比对工具快速搜索基因组DNA 需求：随着基因组DNA数据库数量增长，对比对工具要求越来越高能在基因组DNA中找到外显子比对时考虑基因组DNA包含的测序错误有相应的算法解决相关物种的基因组在比对中出现删除、重复、倒置或移位的问题有相应的算法解决DNA序列之间的小差异，如SNP位点用标准集去评估基因组比对效果时使用序列进化随机模型（ROSE）软件包船舰一个模拟序列集进行测试，可以得到全局比对工具LAGAN灵敏度最高，局部比对工具（如BLAST

2021-11-25 00:31:13 1095

原创 2021.11.23【bug笔记】丨picard运行报错：Exception in thread “main“ java.lang.UnsupportedClassVersionError

项目场景：RNA-seq对比对后bam文件绘制insert图片问题描述：执行picard命令时发生报错：JAVA报错代码： at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:800) at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:1

2021-11-23 22:16:11 1067

原创 2021.11.22【读书笔记】丨生物信息学与功能基因组学（第五章第四节隐马尔可夫模型）

5.4 谱搜索：隐马尔可夫模型（HMMs）谱隐马尔可夫模型在生成用于识别远缘序列相似度的位置特异性打分系统时，比PSSMs更通用，如语音检测，声纳等一系列信号检测问题；在生信领域，HMMs已经被用于各式各样的应用：序列比对、蛋白质结构预测、蛋白质跨膜区域预测、染色体拷贝数变化分析和基因发现算法等；优势：谱HMMs是一个概率模型，它评估在比对中的一个给定位点上发生匹配、错配、插入和确实（空位）的可能性。通过开发一个基于已知序列的统计学模型，我们可以使用谱HMM来描述一个特定序列与模型相匹配的

2021-11-22 23:25:54 1471

原创 2021.11.21【读书笔记】丨生物信息学与功能基因组学（第五章高级数据库搜索中）

5.3 寻找远缘相关蛋白质：位置特异性迭代BLAST（PSI-BLAST）和DELTA-BLAST PAM250矩阵给探测远缘相关蛋白质提供了一个更好的打分系统，可以改变打分矩阵来检测远缘蛋白质，但仍然有局限性： BLASTP检测到匹配蛋白，但是否同源并不明确。 PSI-BLAST 更深入地搜索数据库，以发现一个与你感兴趣地蛋白远缘相关的匹配蛋白。比对的5个步骤：使用某个打分矩阵对查询序列在一个目标数据库中进行搜索（同常规BLASTP）基于成分的统计数据从起始搜索..

2021-11-21 23:39:16 1378

原创 2021.11.20【读书笔记】|差异可变剪接事件及DTU分析

一、可变剪接(Alternative Splicing) 定义：同一前体mRNA分子，可以在不同的剪接位点发生剪接反应，生成不同的mRNA分子，最终产生不同的蛋白质分子的一种RNA剪切方式。意义： 1. AS是形成生物多样性的重要原因之一 2. AS是基因表达调控的重要组成部分，与基因表达的时空性息息相关 3. 由于可变剪接直接造成表达产物的差异，因此可变剪接在一些性状、疾病中发挥重要作用。识别：分成了7个类型识别..

2021-11-21 22:30:18 3898

原创 2021.11.19【读书笔记】丨snakemake常见问题汇总（下）

文章目录摘要问题汇总(one of the commands exited with non-zero exit code; note that snakemake uses bash strict mode!)NameError: The name 'XXX' is unknown in this context. Please make sure that you defined that variable. Also note that braces not used for variable acc

2021-11-19 14:53:23 3282 1

原创 2021-10-29【微生物】丨基于qiime2工具16S/ITS分析全套流程（上）

目录摘要工具与方法使用命令结果展示总结二级目录三级目录摘要前两个月项目特别多，最近终于有机会闲下来写点文章，把之前搭建的流程梳理一遍。前同事分析16S/ITS使用的qiime1，我接手后感觉不太适应，希望能够使用新版本来搭建，于是花了几天时间重新搭了这个流程，工具与方法使用工具：qiime2使用版本：qiime2-2021.4参考文档：https://docs.qiime2.org/2021.4/（最新版本2021.8）使用命令在这里插入代码片结果展示总结二级目录三级目录...

2021-11-01 16:38:29 7179 4

原创 2021-10-29【微生物】丨qiime2样品预处理表格自动化脚本

目录摘要工具与方法使用命令结果展示总结摘要前段时间研究16S/ITS的分析，对qiime2的分析流程有了一定了解，分析方面已经有一套流程了，后续会进行整理发布。在分析之前，软件需要提供预处理文件，包括一份样品数据表格（双端测序数据格式），一份样品分组表格。这两个之前都是手动生成，分组表格是没什么办法的，每个项目的分组情况都不一样，但是样品数据表格是可以研究一下自动生成的。在此记录一下。工具与方法使用语言：bash使用命令第一部分是从供应商拿到的项目数据里面提取原始数据。放到01.data中备用

2021-10-29 15:54:20 406

原创 2021-10-27【WGS】丨Pacbio三代甲基化修饰流程

目录摘要方法与工具操作流程组装比对注释结果展示basemodsmotif总结摘要前段时间特别忙，一个是项目多，另一个是个人私事，临近月底终于有空可以继续码文章。本篇介绍的是三代甲基化的基本流程分析。在测序时分析序列的甲基化修饰后，使用SMRT官方工具进行分析，得到m4C,m6A,m5C_TET的注释。方法与工具测序仪器：Pacbio分析工具：组装：Canu；flye比对：pbmm2；samtools(SMRTlink自带)注释：ipdSummary,motifmaker(SMRTlink自

2021-10-27 17:27:24 2729 2

原创 2021-09-09【linux】丨shell使用for循环遍历文件/数组

目录摘要for循环遍历文件使用方法方法一方法二总结摘要在日常生信分析过程中，分析员或多或少会使用for循环批量处理样品或者分组。这里我简单整理一下自己常用的两种遍历方法。for循环遍历文件使用方法方法一对于在同一个文件内的所有样品，使用 ls 可以遍历该文件夹内的所有文件名。for i in ls ./;doecho ${i}done可能有时候还有一些脚本文件在里面，我们可以使用正则表达式 *来表示文件内的样品名for i in *_R1.fastq.gz;doi={i%_R

2021-09-09 14:18:00 7953 2

原创 2021.08.06【微生物】丨提取excel字符串制作metadata表格

目录摘要数据准备提取字符串结果展示总结摘要最近开始接手16S项目，遇到一个原始问题，就是制作样本的统计文档和metadata文件。微生物动辄几十上百个样品，一个一个整理是不现实的。目前在手动制作metadata文件时用到几个excel的参数，在此记录一下。数据准备上图展示了部分样品信息，这两列分别是样品名和细分分类标签，其中细分分类标签又有三个含义。BBH19 = BB（样品位置）+ H (个体状态，这里是健康) + 19 （采集年份）。客户提出要求，除了进行细分分类分析，还要按照样品位置和个体状

2021-08-06 10:43:59 550

原创 2021.07.30丨snakemake常见问题汇总（上）

目录摘要问题汇总1. MissingInputException: Missing input files for rule XXX:2. SyntaxError in line 28 of /path/to/snakefile: invalid syntax3. SyntaxError in line 25 of /path/to/snakefile: Expected name or colon after rule or checkpoint keyword.4. RuleException in l

2021-07-30 16:15:32 5221 6

admixture_linux-1.3.0.zip

固态硬盘选购一览表.xlsx

7.17丨服务器性价比调研表.xlsx

基因ID转name工作台.xlsx

空空如也