hucy_Bioinfo-CSDN博客

原创 EndNote技巧 | Bibliography的Templates修改

EndNote小技巧

2022-06-23 18:20:54 2892 1

原创哑变量的基本介绍及R语言设置

哑变量（Dummy Variable），又称为虚拟变量、虚设变量或名义变量，从名称上看就知道，它是人为虚设的变量，通常取值为0或1，来反映某个变量的不同属性。对于有n个分类属性的自变量，通常需要选取1个分类作为参照，因此可以产生n-1个哑变量。

2022-04-16 00:04:51 10078 3

原创 plink格式文件的介绍及相互转换

Plink常用的文件格式有两套：map/ped 和 bim/fam/bed。两组文件均没有列名，且每一列表示的意思是一定的。几种格式之间可以相互转换。推荐使用BED/BIM/FAM这种格式，读取速度快。

2021-11-29 15:16:36 18876 2

原创【概念】等位基因相关概念辨析

常见allele相关名词的辨析。

2021-11-29 12:33:08 12594 3

原创分位数回归（quantile regression）R实现

分位数回归已经获得了巨大的发展，不仅可以进行简单的横截面数据的估计，而且还可以进行panel数据模型估计、干预效应模型估计、计数模型估计、因变量是区间值的logistic模型估计、工具变量估计等。

2021-11-29 10:56:13 10753 2

原创【软件介绍】IGV软件的安装和基本介绍

IGV（Integrative Genomics Viewer）是一个高性能的可视化工具，可以交互式的察看综合的基因组相关数据，友好的支持多种数据类型，包括芯片、二代测序和基因组注释数据等。IGV是基于Java的工具，且在不断更新当中，不同版本的IGV可能需要不同的Java版本。

2021-10-09 01:35:54 12599

原创 NGS数据分析实践：06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

一般变异识别之前需要进行数据预处理，包括序列比对、排序、PCR重复标记、Indel区域重比对和碱基质量重校正等步骤。

2021-10-06 22:56:01 4642 2

原创 NGS数据分析实践：05. 测序数据的基本质控 [2] - MultiQC

MultiQC是基于Python的小工具，能很好地解决这个问题，其强大的功能主要体现在以下三个方面：(1) 能将测序数据的多个QC结果整合成一个HTLM网页交互式报告，同时也能导出pdf文件；(2) 支持多种分析类型的质控结果查看，如：RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI；(3) 目前支持整合111种软件分析的结果，而且支持的软件还在持续增加，也可以自己写一个插件。

2021-10-02 16:10:03 2082

原创 NGS数据分析实践：05. 测序数据的基本质控 [1] - FastQC

一般我们可以从如下几个方面来分析测序数据质量：read各个位置的碱基质量值分布 (Per base sequence quality)碱基的总体质量值分布 (Per sequence quality scores)read各个位置上碱基分布比例 (Per base sequence content)GC含量分布 (Per sequence GC content)read各位置的N含量 (Per base N content)read是否还包含测序的接头序列 (Adapter Content)

2021-10-01 17:30:30 7572

原创 NGS数据分析实践：04. 准备测序数据

本次NGS数据，采用多重PCR靶向扩增子测序技术，在Illunima Hiseq X Ten测序平台上进行双末端（paired-end，PE）测序。由于是双端测序，每个样本对应两个文件，分别用R1和R2表示。公司返回了原始下机数据（Raw data）和过滤后数据（Clean data），数据文件格式均为.fastq.gz。

2021-09-30 02:45:03 1642

原创 NGS数据分析实践：03. 涉及的常用数据格式[5] - vcf格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间，如果对参考基因组上面的各个区段标记它们的性质，比如哪些区域是外显子、内含子、UTR等等，这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域，就是bed格式文件，记录染色体号以及起始终止坐标，正负链即可。如果是记录某些位点或者区域碱基的变异，就是vcf文件格式。

2021-09-29 17:31:32 2773

原创 NGS数据分析实践：03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间，如果对参考基因组上面的各个区段标记它们的性质，比如哪些区域是外显子、内含子、UTR等等，这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域，就是bed格式文件，记录染色体号以及起始终止坐标，正负链即可。如果是记录某些位点或者区域碱基的变异，就是vcf文件格式。

2021-09-29 10:33:42 2213

原创 NGS数据分析实践：03. 涉及的常用数据格式[3] - gtf/gff格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间，如果对参考基因组上面的各个区段标记它们的性质，比如哪些区域是外显子、内含子、UTR等等，这就是gtf/gff格式。

2021-09-28 07:00:00 1040

原创 NGS数据分析实践：03. 涉及的常用数据格式[2] - sam/bam格式

测序得到的是带有质量值的碱基序列(fastq格式)，参考基因组是(fasta格式)，用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列，就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间。

2021-09-27 16:54:27 1264

原创 NGS数据分析实践：03. 涉及的常用数据格式[1] - fasta和fastq格式

测序得到的是带有质量值的碱基序列(fastq格式)，参考基因组是(fasta格式)，用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列，就可以产生sam格式的比对文件。

2021-09-27 16:42:29 2214

原创【Linux 笔记】Linux 基本操作 - 05. 10个小练习

笔记接上篇【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集)，如有需要，可去欣赏原汁原味的视频讲解。

2021-09-23 02:07:12 374

原创 NGS数据分析实践：02. 参考基因组及注释库的下载

NGS数据分析实践：02. 参考基因组及注释库的下载

2021-09-22 22:44:27 1773

原创 NGS数据分析实践：01. Conda环境配置及软件安装

Conda是版本控制和生信工具安装的一大神器。Conda是在Windows，macOS和Linux上运行的开源软件管理系统和环境管理系统。Conda可以快速安装，运行和更新软件包及其依赖的环境与工具。Conda可以轻松地在本地计算机上的环境中创建，保存，加载和切换。它是为Python程序创建的，但可以适用于任何语言的软件。

2021-09-19 01:55:52 1773

原创 NGS数据分析实践：00. 变异识别的基本流程

变异识别过程可以分成3大块：1. 原始数据质控；2. 数据预处理；3. 变异识别。大致可以细分为6个部分：(1) 原始测序数据的质控；(2) read比对，排序和标记PCR重复序列；(3) Indel区域局部重比对；(4) 碱基质量值重校正；(5) 变异检测；(6) 变异结果质控和过滤。

2021-09-18 23:04:34 2419

原创二代测序方法：DNA测序之靶向重测序

NGS技术正逐年成熟，这使得全基因组测序的成本越来越低，但是对全基因组进行测序后得到的极其庞大、繁杂的数据量的分析工作并没有随之一起变得更加简单。相反，测序技术的发展出现了两个极端的方向：一种是大而全的全基因组测序，一种是小而精的靶向重测序。

2021-09-18 03:38:47 8256

原创 EndNote技巧 | Endnote导出文献

Q1：EndNote怎么导出文献，发给老板？Q2：我用EndNote X9 版本，但是我老板用EndNote X8版本，我导给他的库打不开怎么办呢？

2021-09-09 19:31:54 42680 4

原创【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理

下载SRA数据库中SRP115453 (PRJNA398328) 研究的测序数据信息文件 SraRunTable.txt 和测序结果ID文件SRR_Acc_List.txt，利用FileZilla或者WinSCP将其上传到服务器，以此作为此次文本操作实践的测试数据。

2021-09-03 02:44:30 621

原创【数据库】SRA数据库介绍及数据下载

NCBI - SRA（Sequence ReadArchive）数据库是NCBI用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent等，这个数据库是可以免费无限制下载的。当然，也可以到EBI - ENA数据库直接下载fastq .gz文件。

2021-09-02 21:13:08 3435

原创标准化率（standardized rate）R 实现

标化率介绍，及率标准化直接法和间接法的R语言实现。

2021-08-09 20:26:43 13154 3

原创【Linux 笔记】Linux 基本操作 - 03. shell脚本编程

笔记接上篇【Linux 笔记】Linux 基本操作 - 02. shell脚本编程基础。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集)，如有需要，可去观看原视频。

2021-08-06 14:29:34 264

原创【交互作用】02. 加法交互 & 乘法交互 (R包 interactionR)

生物学交互作用的评价应该基于是否有相加交互作用，而流行病学研究中常运用logistic和Cox等广义线性模型，并纳入乘积项分析因素间交互作用，其是否有意义仅反映相乘交互作用，并不能反映两因素间相加或生物学交互作用的有无。上篇介绍了交互作用的基本概念、三个相加交互作用评价指标（RERI、AP和S）和 epiR R包的应用等。本篇内容主要介绍实现交互作用的另一个好用的R包 interactionR。

2021-08-01 02:04:33 14194 10

原创【交互作用】01. 加法交互 & 乘法交互(R包 epiR)

在不同B因素水平，A因素的效应有统计学差异；同理，在不同A因素水平，B因素的效应也有差异。交互作用就是看二者合在一起的效应，与二者单独效应之和（相加）/之乘（相乘），相等还是不相等。不相等，那就是有交互。Mediation是解释暴露因素how导致的结局，而interaction是说明who是高风险目标人群。

2021-07-22 04:00:34 30733 29

原创【Linux 笔记】Linux 基本操作 - 02. shell编程基础

笔记接上篇【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量。主要介绍shell编程中涉及的变量、参数、通配符、变量替换、循环、重定向等内容。

2021-06-28 12:58:28 268

原创【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量

由于平时的学习工作疏于整理，笔记本1T的磁盘再次被我塞满；因此，借机清理出一波古早的Linux学习笔记，进行分享。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集)，如有需要，可去欣赏原汁原味的视频讲解。

2021-06-27 22:11:26 513

原创 Linux awk命令详解

awk是行处理器：相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或处理缓慢的问题，常用来格式化文本信息。awk处理过程：依次对每一行进行处理，然后输出。

2021-06-22 01:13:33 2591 1

原创【软件介绍】GWAS meta分析软件：METAL

Meta-analysis是对多个GWAS分析结果进行综合评价。METAL是GWAS meta分析最常用的工具之一，本文简单介绍METAL软件基本用法。

2021-06-16 22:39:07 9261 19

hucy_Bioinfo