自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 EndNote技巧 | Bibliography的Templates修改

EndNote小技巧

2022-06-23 18:20:54 2892 1

原创 哑变量的基本介绍及R语言设置

哑变量(Dummy Variable),又称为虚拟变量、虚设变量或名义变量,从名称上看就知道,它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。

2022-04-16 00:04:51 10078 3

原创 plink格式文件的介绍及相互转换

Plink常用的文件格式有两套:map/ped 和 bim/fam/bed。两组文件均没有列名,且每一列表示的意思是一定的。几种格式之间可以相互转换。推荐使用BED/BIM/FAM这种格式,读取速度快。

2021-11-29 15:16:36 18876 2

原创 【概念】等位基因相关概念辨析

常见allele相关名词的辨析。

2021-11-29 12:33:08 12594 3

原创 分位数回归(quantile regression)R实现

分位数回归已经获得了巨大的发展,不仅可以进行简单的横截面数据的估计,而且还可以进行panel数据模型估计、干预效应模型估计、计数模型估计、因变量是区间值的logistic模型估计、工具变量估计等。

2021-11-29 10:56:13 10753 2

原创 【软件介绍】IGV软件的安装和基本介绍

IGV(Integrative Genomics Viewer)是一个高性能的可视化工具,可以交互式的察看综合的基因组相关数据,友好的支持多种数据类型,包括芯片、二代测序和基因组注释数据等。IGV是基于Java的工具,且在不断更新当中,不同版本的IGV可能需要不同的Java版本。

2021-10-09 01:35:54 12599

原创 NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

一般变异识别之前需要进行数据预处理,包括序列比对、排序、PCR重复标记、Indel区域重比对和碱基质量重校正等步骤。

2021-10-06 22:56:01 4642 2

原创 NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

MultiQC是基于Python的小工具,能很好地解决这个问题,其强大的功能主要体现在以下三个方面:(1) 能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;(2) 支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;(3) 目前支持整合111种软件分析的结果,而且支持的软件还在持续增加,也可以自己写一个插件。

2021-10-02 16:10:03 2082

原创 NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

一般我们可以从如下几个方面来分析测序数据质量:read各个位置的碱基质量值分布 (Per base sequence quality)碱基的总体质量值分布 (Per sequence quality scores)read各个位置上碱基分布比例 (Per base sequence content)GC含量分布 (Per sequence GC content)read各位置的N含量 (Per base N content)read是否还包含测序的接头序列 (Adapter Content)

2021-10-01 17:30:30 7572

原创 NGS数据分析实践:04. 准备测序数据

本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。由于是双端测序,每个样本对应两个文件,分别用R1和R2表示。公司返回了原始下机数据(Raw data)和过滤后数据(Clean data),数据文件格式均为.fastq.gz。

2021-09-30 02:45:03 1642

原创 NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。

2021-09-29 17:31:32 2773

原创 NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。

2021-09-29 10:33:42 2213

原创 NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。

2021-09-28 07:00:00 1040

原创 NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间。

2021-09-27 16:54:27 1264

原创 NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式

测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。

2021-09-27 16:42:29 2214

原创 【Linux 笔记】Linux 基本操作 - 05. 10个小练习

笔记接上篇【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集),如有需要,可去欣赏原汁原味的视频讲解。

2021-09-23 02:07:12 374

原创 NGS数据分析实践:02. 参考基因组及注释库的下载

NGS数据分析实践:02. 参考基因组及注释库的下载

2021-09-22 22:44:27 1773

原创 NGS数据分析实践:01. Conda环境配置及软件安装

Conda是版本控制和生信工具安装的一大神器。Conda是在Windows,macOS和Linux上运行的开源软件管理系统和环境管理系统。Conda可以快速安装,运行和更新软件包及其依赖的环境与工具。Conda可以轻松地在本地计算机上的环境中创建,保存,加载和切换。它是为Python程序创建的,但可以适用于任何语言的软件。

2021-09-19 01:55:52 1773

原创 NGS数据分析实践:00. 变异识别的基本流程

变异识别过程可以分成3大块:1. 原始数据质控;2. 数据预处理;3. 变异识别。大致可以细分为6个部分:(1) 原始测序数据的质控;(2) read比对,排序和标记PCR重复序列;(3) Indel区域局部重比对;(4) 碱基质量值重校正;(5) 变异检测;(6) 变异结果质控和过滤。

2021-09-18 23:04:34 2419

原创 二代测序方法:DNA测序之靶向重测序

NGS技术正逐年成熟,这使得全基因组测序的成本越来越低,但是对全基因组进行测序后得到的极其庞大、繁杂的数据量的分析工作并没有随之一起变得更加简单。相反,测序技术的发展出现了两个极端的方向:一种是大而全的全基因组测序,一种是小而精的靶向重测序。

2021-09-18 03:38:47 8256

原创 EndNote技巧 | Endnote导出文献

Q1:EndNote怎么导出文献,发给老板?Q2:我用EndNote X9 版本,但是我老板用EndNote X8版本,我导给他的库打不开怎么办呢?

2021-09-09 19:31:54 42680 4

原创 【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理

下载SRA数据库中SRP115453 (PRJNA398328) 研究的测序数据信息文件 SraRunTable.txt 和测序结果ID文件SRR_Acc_List.txt,利用FileZilla或者WinSCP将其上传到服务器,以此作为此次文本操作实践的测试数据。

2021-09-03 02:44:30 621

原创 【数据库】SRA数据库介绍及数据下载

NCBI - SRA(Sequence ReadArchive)数据库是NCBI用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent等,这个数据库是可以免费无限制下载的。当然,也可以到EBI - ENA数据库直接下载fastq .gz文件。

2021-09-02 21:13:08 3435

原创 标准化率(standardized rate)R 实现

标化率介绍,及率标准化直接法和间接法的R语言实现。

2021-08-09 20:26:43 13154 3

原创 【Linux 笔记】Linux 基本操作 - 03. shell脚本编程

笔记接上篇【Linux 笔记】Linux 基本操作 - 02. shell脚本编程基础。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集),如有需要,可去观看原视频。

2021-08-06 14:29:34 264

原创 【交互作用】02. 加法交互 & 乘法交互 (R包 interactionR)

生物学交互作用的评价应该基于是否有相加交互作用, 而流行病学研究中常运用logistic和Cox等广义线性模型, 并纳入乘积项分析因素间交互作用,其是否有意义仅反映相乘交互作用, 并不能反映两因素间相加或生物学交互作用的有无。上篇介绍了交互作用的基本概念、三个相加交互作用评价指标(RERI、AP和S)和 epiR R包的应用等。本篇内容主要介绍实现交互作用的另一个好用的R包 interactionR。

2021-08-01 02:04:33 14194 10

原创 【交互作用】01. 加法交互 & 乘法交互(R包 epiR)

在不同B因素水平,A因素的效应有统计学差异;同理,在不同A因素水平,B因素的效应也有差异。交互作用就是看二者合在一起的效应,与二者单独效应之和(相加)/之乘(相乘),相等还是不相等。不相等,那就是有交互。Mediation是解释暴露因素how导致的结局,而interaction是说明who是高风险目标人群。

2021-07-22 04:00:34 30733 29

原创 【Linux 笔记】Linux 基本操作 - 02. shell编程基础

笔记接上篇【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量。主要介绍shell编程中涉及的变量、参数、通配符、变量替换、循环、重定向等内容。

2021-06-28 12:58:28 268

原创 【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量

由于平时的学习工作疏于整理,笔记本1T的磁盘再次被我塞满;因此,借机清理出一波古早的Linux学习笔记,进行分享。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集),如有需要,可去欣赏原汁原味的视频讲解。

2021-06-27 22:11:26 513

原创 Linux awk命令详解

awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或处理缓慢的问题,常用来格式化文本信息。awk处理过程: 依次对每一行进行处理,然后输出。

2021-06-22 01:13:33 2591 1

原创 【软件介绍】GWAS meta分析软件:METAL

Meta-analysis是对多个GWAS分析结果进行综合评价。METAL是GWAS meta分析最常用的工具之一,本文简单介绍METAL软件基本用法。

2021-06-16 22:39:07 9261 19

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除