自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 R(tidyverse包)常用操作

提取列对列进行选择 select 函数提取行对行进行选择 filter 函数slice():按位置提取行filter():提取符合特定逻辑条件的行。 例如,iris%>%filter(Sepal.Length> 6)。filter_all(),filter_if()和filter_at():过滤变量然后选择行。 这些函数复制所有变量或变量选择的逻辑标准。sample...

2021-10-13 17:59:48 1112

原创 Docker 基本操作

重要操作# 进入镜像docker run --rm -it -v /home/(存放文件的文件夹):/work 521b9a3e60ed# --rm 退出镜像后删除容器(container)# -it 交互式进入容器# -v 将某一文件夹下目录映射到 docker /work 工作目录# 最后加上选择进入的镜像 ID# -w 加默认进入目录常见命令docker search bl...

2021-10-13 17:30:27 303

原创 根据基因名称批量提取基因序列

实验中经常需要从基因组中提取、序列用于设计引物,或者进行基因功能研究等,之前看到别人使用的一个脚本,自己拿来用一下,感觉确实很方便在网站 http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/(网站内还有很多其他脚本可以下载使用,有时间可以研究一下)下载faSomeRecords脚本:faSomeRecords.txtfaSomeR...

2021-08-01 10:14:36 6478 1

原创 uniport ID 转换为 gene symbol(ID转换)

网站 ID转换网址input 选择 uniprot accessionoutput 选择 Gene symbol一般一次转换不能超过1万个基因ID,数据量太大就转换不出来,如果一次转换太多,需要等待几分钟操作示意图输出结果可直接导出表格输出结果...

2021-05-09 16:38:50 11095

原创 samtools 序列比对率计算(samtools flagstat)

准备序列比对后生成的 bam 文件或者 .sam 文件samtools flagstat .bam文件 > flagstat.tax结果解释从第一行至第十一行分别表示:QC pass的reads的数量为2499971,未通过QC的reads数量为0,意味着一共有2499971条reads;重复reads的数量,QC pass和failed比对到参考基因组上的read...

2021-04-29 21:45:46 5862 1

原创 bedtools 批量提取snp前后1000bp片段

准备条件1 知晓snp位置,位于第 x 条染色体上 12345678 bp2 生成 .txt 文件,文件格式如下txt 文件格式第一列表示 snp 染色体位置第二列表示 snp 前 500 bp 位置第三列表示 snp 后 500 bp 位置要使用 tab 制表符分开将文件命名(这里命名为sigpointforsequence.txt)执行下面命令bedtools ...

2021-04-29 21:35:33 1247

原创 SSR (misa + primer3 ) 设计SSR引物

先下载 primer3 和 misa 相关文件# 下载 primer3conda search primer3 conda install -y primer3# misa 相关的文件下载百度云里面的,其他网站的好像都不能用,自己改了一下之前的脚本可以正常运行misa 相关文件放在百度云链接:https://pan.baidu.com/s/1C4eU30yyLr7iNGiuGEmPtg...

2021-02-19 11:54:25 4836 4

原创 R_柱状图(加误差线,显著性差异)

先放最终效果图结果图# bar_plot 2021/01/19# 导入所需的包library(ggplot2)library(ggthemr)library(ggsignif)library(tidyverse)library(dplyr)library(ggpubr)library(devEMF)# 导入并处理数据,需要两张表,一个是原始汇总表格,另外一些是每一...

2021-01-22 11:24:12 22554 12

原创 杂种指数(HI,hybridindex)计算

HI = 100×(Hi - Mi1)/(Mi2-Mi1)Hi :杂交种平均值Mi1:母本平均值Mi2:父本平均值HI 介于45-55之间属于中间性状HI < 45 为偏母本性状HI > 55 为偏父本性状HI > 100 或 HI < 0 为超亲偏离性状...

2021-01-07 15:43:21 624

原创 转录组——火山图(vocano plot)

############################### 2020/11/12 处理差异分析结果,ggplot绘制火山图##############################library(tidyverse)# 导入差异分析数据gene_info <- read.csv(file = "zd_gene_info.csv")names(gene_info) <-...

2020-12-01 08:31:30 1508

原创 转录组——热图(pheatmap)

############################ 2020/11/18 heatmap###########################setwd(dir = "../muscle")library(tidyverse)# 1. 导入并筛选,差异基因gene_info <- read.csv(file = "zd_gene_info.csv")names(gene_...

2020-12-01 08:29:49 3507

原创 DEseq-R,差异基因分析

################################## 2020/10/05 DES analysissetwd("E:/RNAseq/")library(DESeq2)library(apeglm)library(ashr)# 1. 构建ddsmycounts <- read.table(file = paste0( "gene_all.counts.ma...

2020-11-09 16:49:57 892

原创 Linux 离线运行程序

这里用到的 screen 程序,需要 conda 安装conda install screen相关操作命令screen -S w1 新建一个w1工作窗口screen -ls 查看当前所有的运行窗口screen -d w1 将w1窗口离线screen -r w1 接入窗口w1ctrl+A+D 退出当前窗口,回到主界面screen -X -S w1 quit 删除w1这个窗口...

2020-08-05 16:10:58 1243

原创 如何在Linux下设置缩写命令命令

平时我们会用到一些缩写,比如 ll 代表 ls -als 等,下面就是如何设置的问题在 linux 系统 home 目录下找到自己的 .bashrc 文件(可以使用 ls -a 查看隐藏文件,也可以直接 vim 打开 .bashrc 文件,对就是添加环境变量的那个文件)然后如下图 可以自己添加一个简化命令区域,这样比较整洁然后设置 alias ll='ls -al...

2020-07-05 07:59:35 7751

原创 生物信息学之 anconda / miniconda

之前在构建生物信息学环境里面已经介绍了这个区别,也可以参考这个知乎链接https://zhuanlan.zhihu.com/p/35711429,下面讲的是一些常用命令。安装condawget ftp://gsx.genek.tv/training20200310/Miniconda3-latest-Linux-x86_64.sh # 给一个张旭东老师的好用的脚本,下载下来后bash xxx...

2020-06-23 09:34:58 1141

原创 GO,KEGG,DO 富集分析

what is Gene Ontology(GO)基因“本体论” 对事物的分类描述,对基因的分类描述对基因的描述1、cellular component,CC(基因存在于细胞质还是细胞核,是线粒体还是其他细胞器)细胞组成2、Biological process,BP(能够参与哪一个生物学过程,参与rna加工,复制等)生物学过程3、Molecular function,MF(分子功能上,...

2020-06-09 15:15:18 8540 3

原创 生物信息学需要掌握的 Linux 基础操作

符号/ : 根目录 (写入绝对路径)~ : 自己的home目录. : 当前目录.. : 上一层目录 (写入相对路径)查看命令ls -l (ll) : 查看详细文件ls -s -h :查看文件大小cat : 将所有的文件都打印出来less : 每次只显示一部分,按上下键翻阅,q 退出less -S :查看文件不换行,可以左右翻页head : 默认显示前十行hea...

2020-06-05 22:12:52 1209

原创 RNAseq基础(项目设计,方法原理)

一、项目设计测多少数据量?几个生物学重复?混池测序是否性价比很高?参考序列怎么选?二、分析方法转录本拼接比对的两种模式表达定量FPKM,RPKM,TPM,TMM差异表达分析1. 什么是基因组?物种、亚种、个体、单细胞都可以测基因组。基因组是指一个细胞或者一个生物的完整序列,包括基因序列和基因间区域序列。在实际研究中,一个物种内的基因组差别不大,常说的是指物种的基因...

2020-06-05 22:03:44 1966

原创 GWAS 总体流程理解版

自己找了一些文章和视频,先总结了一部分,后面再做补充和实操一. 相关概念理解(1)GWAS:全称“全基因组关联分析”,使用统计模型找到与性状关联的位点,用于分子标记选择(MAS)或者基因定位(2)GWAS分析的两类性状:分类性状(阈值性状,质量性状):比如抗病性,颜色等等质量性状指相对性状的变异呈不连续性,呈现质的中断性变化的性状。由1对或少数几对主基因控制。如鸡羽的芦花斑纹...

2020-05-30 09:49:16 13126 4

原创 鱼类学(形态分类)

真的难受,被导师强迫选课,本来学分都修满了,还要选这门课,五月份才开始网课,老师意思是正常上课到五月份,我们就上到第十一章了,然后一章写一个小节,要整吐了我。鱼类学(形态分类)绪论第一节 鱼类学定义、范畴和任务“真鱼”定义指一群终身生活在水中的变温脊椎动物,用鳃在水中进行气体交换,用鳍维持身体平衡,大多数身披鳞片,鳔大多存在。鱼类学鱼类学是动物学的一个分支学科,是以...

2020-05-09 22:38:16 13860

原创 GWAS生物学相关名词解释

背景基因与所研究的表现型直接有关的基因以外的全部基因的总称LD :当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)LD 衰减距离相关解释(https://www.jianshu.com/p/a36bd4145ef7)单...

2020-05-01 16:00:15 4080

原创 GWAS理论 1-5 全基因组关联分析结果解读与经典案例介绍

一、主要结果 二、结果可视化与后续分析建议 置换检验(Permutation test) bonferroni threshold 和 FDR 看我之前的简书文章有解释可视化理想结果失败结果受环境影响较大的,多年多点的重复,可以求blup值然后去除影响问题结果1问题结果...

2020-04-28 12:13:11 14241 2

原创 GWAS理论 1-4 关联分析模型和常用软件介绍

一、Case-Control 关联分析模型 (第一部分主要是在人类中)卡方检验举例 逻辑回归逻辑混合模型 二、(动植物)数量性状关联分析模型 加性模型(GAM)当线性模型的种种条件不能满足时,就要考虑用平滑性模型来替代。平滑性模型可以对非线性关...

2020-04-27 16:12:28 10500 1

原创 GWAS理论 1-3 群体结构与亲缘关系评估

一. 群体结构评估1.群体结构群体结构群体结构评估内容构建系统发育树群体结构分析PCA(主成分分析)群体结构评估的主要内容a.系统发育树系统发育树重构一般 GWAS 都是种间的,用 NJ 法就可以,maga 就是针对 NJ 法构树的。系统发育树相关介绍b.群体结构分析群体结构分析STRUCTURE 和 ADM...

2020-04-27 10:27:18 6401 2

原创 在 R 中拼接图片

这里推荐一个很好用的 R 包 ,基于 ggplot 的拼图包 patchwork 。说它好用不光是说拼图拼的好,而是操作特别方便。install.packages("patchwork") # 安装包library(patchwork) # 载入包library(ggplot2)p1 <- ggplot(diamonds,mapping = aes(x=price))...

2020-04-25 16:27:23 1473

原创 NCBI 数据介绍和下载

本来打算自己写一个,但是太懒了,感觉别人写的也很详细,我也写不出什么花,就在这直接做一个只是整理:NCBI 扫盲NCBI上的这些字母都是什么鬼SRA,GEO,dbSNP,WGS等是什么NCBI各类数据储存库PRJNA 编号的数据怎么下载高通量测序数据的下载SRR 编号的数据怎么下载及使用SRA toolkit的prefetch命令批量下载二代测序数据NCBI...

2020-04-22 11:53:49 1765

原创 RNAseq 分析后 R 结果可视化volcano plot和heatmap(火山图和热图)

这个文章跟着之前的文章完整转录组RNAseq分析流程(tophat2+cufflink+cuffdiff)用了之前分析的 cuffdiff 的结果,参考视频 https://www.bilibili.com/video/BV1gW411Y7Qf文中用到的hic的数据由于是别人的东西,就不方便放出来,可以看一下孟叔视频,加群后可以在群文件下载###################...

2020-04-20 11:22:44 5401

原创 如何查看自己电脑的核和线程(实时监控cpu,内存使用)

更新一个小知识,平时在做生信分析的时候经常需要调用几个几个线程,那么我们如何知道自己的线程?按照下面的顺序开始菜单->运行->cmd->输入 wmic->输入 cpu getNumberOfCores为核数 NumberOfLogicalProcessors为线程数 这样查看的是最准确,避免了商家的虚假宣传那么再来一个问题,cpu,...

2020-04-01 12:03:32 1994

原创 构建生物信息学环境-2 (anconda/minniconda)

待更新

2020-03-31 16:20:38 224

原创 构建生物信息学环境-1(Win10 Linux子系统的安装)

生信的入门,如果实验室之前没有人从事生物信息学的师兄师姐的话,其实入门还是挺麻烦的,如果再不懂电脑,缺少各种东西,就会特别麻烦。想要做生信分析自然少不掉的就是自己搭建一个生信分析环境。因为我自己的个人电脑是 windows10 系统,所以只能以我自己的电脑来说明了,至于 ios 系统,我是一个还没用过苹果电脑的穷逼。1、window10 自带子系统配置 Linux 子系统(ubu...

2020-03-31 16:19:12 931

原创 Rstudio 中常见的快捷键

不定时更新,目前常用的,以后要是用到再补充:Ctrl+Enter:逐行执行script中的命令Ctrl+l:清除屏幕上的内容Esc:强制结束当前命令的执行(控制台工作区上方红色的"stop"按钮也可以)Ctrl+2:移动光标到控制台Alt+ - :直接输入赋值符号 <- 还前后给出空格Tab 键 :自动补充,或者选择需要补充的东西Ctrl + 向上的箭头 :调出...

2020-03-30 16:00:11 6290

原创 R 和 Rstudio 在线更新

R 在线更新最近安装 R 包的时候老是会遇到有些包不适应老版本,无奈还是更新了新的版本。卸载重装就太麻烦了,而且以前的包还需要重新加载,在线更新是最好的方法,可以直接在 Rstudio 中直接更新。直接运行以下命令就行install.packages("installr")require(installr)#load/install + load installrupda...

2020-03-30 11:07:42 15652 3

原创 第一章 ggplot2

总结一下这一章学到的新知识:以下是刘博总结的1、提高R包下载速度:清华源链接,然后点击右上角的 source 即可 file.edit("~/.Rprofile")# 选择下面添加# tinghua sourceoptions("repos" = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/")...

2020-03-29 16:14:49 196

原创 1-2 GWAS 表型考察处理与标记开发和分型

一、表型鉴定与记录的基本原则和原始数据处理植物GWAS 全流程1、各类性状的特点及鉴定与考察建议 当代形状或后代性状2、表型的基本处理(第一步)表型的基本处理极端异常值的去除异常值去除方法多年多点表型处理数据标准化分类变量的哑变量赋值3、表型的基本分析...

2020-03-28 16:48:34 2636

原创 完整转录组RNAseq分析流程(tophat2+cufflink+cuffdiff)

前一段时间跟着孟浩巍大神的视频学习,在自己的小破笔记本上还是跑完了整个RNAseq差异表达的分析流程( tophat2 + cufflink + cuffdiff )虽然这个流程比较老了,现在做分析一般使用的都是 HTseq + DESeq2 等其他的流程,但是作为入门的知识还是比较容易理解,这篇文章先更一下流程,后面会再更一篇安装子系统,安装conda和一些分析软件的流程,凑一个真正完整的入门生...

2020-03-28 15:44:41 13383 7

原创 R中使用topGO进行富集分析

已知文件如下DEG.list #差异基因listrice.map #物种注释到GO数据库的信息 一般只用到上面两个文件就可以rice.map # 1. blast2go 软件做注释,再使用 mapping2maplist.pl 脚本进行格式转换 # 2. 可以直接从数据库下载,再使用 plaza2maolist.pl 脚本进行格式转化原始数据上传到百度网盘:链接:https...

2020-03-28 15:43:25 5084 2

原创 1-1 GWAS(全基因组关联分析基本概念和材料选择)

先把GWAS系列课程看一遍,后面再把不懂的东西再补充上来一、概念和理论基础全基因组关联分析定义是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 P 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。 分为两类:全基因组水平的关联...

2020-03-28 14:05:19 5894 1

原创 广义线性模型GLM和广义线性混合模型GLMM

GLM 一般是指 generalized linear model ,也就是广义线性模型;而非 general linear model,也就是一般线性模型;而GLMM (generalized linear mixed model)是广义线性混合模型。广义线性模型GLM很简单,举个例子,药物的疗效和服用药物的剂量有关。这个相关性可能是多种多样的,可能是简单线性关系(发烧时吃一片...

2020-03-27 17:37:37 3998

原创 R for Data Science

由于作业是在腾讯文档在线做的,转载过来很麻烦,就发布成网页,点开链接直接就看了,以后直接就这样更新了。有没有人看就无所谓了,哈哈哈。第一周 ggplot2 数据可视化 ...

2020-03-27 11:34:33 162

原创 假设检验 p-value,FDR,q-value

1、p-value单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定:p-value和预先设定的检验水准 α 做对比,如果p-value小于等于α,拒绝原假设,否则不拒绝原假设。p-value:表征了在原假设成立的条件下,重复进行当前的试验,获得现有统计量t及其更极端情况的概率。给定检验水准 α 时,可得出对应的拒绝域;根据当前试验,可以计算出 p-val...

2020-03-26 20:51:42 6136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除