Keiji1102-CSDN博客

原创 Quantile 百分位数

百分位数假设某个数据集的X%百分位数是A，代表数据集中X%的值小于A。四分位数是将数据集中的数由小到大排列分成四等分后得到的3个分割点：Q1(25%)、 Q2(50%)、 Q3(75%) 。IQR = Q3-Q1R的quantile()函数提供了9种计算分位数的方法，对于小样本量的数据9种方法得出的结果可能存在较大差别，但对于大样本量的数据结果则很相似。默认type=7。quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, n

2022-02-12 17:04:50 710

原创 t-test检验

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)1. mu：指定原假设H0使用的平均值。y=NULL时，就以x和mu做t-test检验; 此时x的元素数目必须大于2，不然df<1。2. paired：.

2022-02-11 18:58:36 987

原创 R in a Nutsbell 20.回归模型

线性模型拟合模型用lm()函数拟合模型。lm(formula = y ~ x1+x2+x3+...+xn,data)formula：y是响应变量，x是预测变量。

2020-03-02 16:36:35 322

原创 R in a Nutsbell 18.统计检验

基于正态分布的检验均值检验**适用情况：**在数据服从正态分布的情况下，比较观测值的均值μ与零假设的均值μ0是否有差异。函数介绍：t.test(x,y,alternative,mu,paired,var.equal)x：输入观测值向量。y：如果比较向量的均值与零假设的均值时，设为NULL；或者比较x和y。mu：指定零成立时的均值。alternative：指定备则假设的类型，有双侧检...

2020-03-01 15:33:39 417

原创 R in a Nutsbell 16.数据分析

描述性统计（1）mean()求平均值，min()求最小值，max()求最大值。这几个函数有na.rm参数指定如何处理缺失值。mean()函数可以选择删除极端值，参数trim来指定要过滤掉的数据的比例。（2）range()函数可以同时计算最大值和最小值。（3）quantile()函数可以返回不同的分位数。quantile(vector,probs = c(0,0.25,0.50,0.75...

2020-02-29 17:35:04 394

原创 R in a Nutsbell 12.图形

散点图plotplot(x,y,log,xlim,ylim,type， xlab,ylab,main,sub, ann,axes,frame.plot)log：设置坐标是否取对数。x轴取对数设为'x'，y轴取对数时设为'y'， xy轴均取对数时设为'xy'。xlim...

2020-02-28 18:37:40 123

原创 R in a Nutsbell 10.数据的存取和编辑

在R中输入数据（1）c()函数创建向量，在用data.frame()函数将这些向量组合成数据框。（2）edit()函数能打开文本编辑器，要注意保存修改后的对象。DataFrame = edit(DataFrame)(3) fix()函数是会自动保存修改结果版的edit函数。fix(DataFrame)保存和读入Rsavesave(object,file)file：对象保存路径...

2020-02-26 00:01:50 125

原创 R in a Nutsbell 9.函数

函数关键词arguments是一个符号名字的集合（函数参数）。body是R的表达式，如果只有一个表达式可以省略花括号。function(arguments) body参数（1）function(x,y)指定两个参数。（2）function(x.,y = 10)可以指定参数默认值。（3）如果想要编写一个参数数目可变的参数，可以在参数加上...。省略号表示该函数的其他所有参数。func...

2020-02-25 15:50:49 137

原创 R in a Nutsbell 8.符号和环境

符号x <- 1y <- 2z <- 3v <- c(x,y,z)x<- 10v已定义，改变x的值并不会使v的值也相应变化。已此时v依然是1 2 3如果想推迟表达式的求值，使得符号不会立刻被解析：v = quote(c(x,y,z))eval(v)环境...

2020-02-25 15:10:14 172

原创 R in a Nutsbell 7.R对象

向量（1）利用c()函数构建向量，该函数会将所有参数强制转化为同一类型。（2）利用:生成向量。（3）利用seq()函数构建向量。seq(from,to,by,length)from：初始值to：结束值by：步长length：向量长度（4）利用length(v)返回向量长度。列表可以用位置索引或元素名类引用列表中的元素。矩阵和数组（1）利用matrix()函数构建矩阵，利...

2020-02-24 19:43:39 109

原创 R in a Nutsbell 6.R语法

常量数值向量（1）十六进制开头是0x。（2）默认情况下，R表达式中的数字是双精度浮点数。typeof()（3）复数形式：实部 + 虚部i

2020-02-24 14:27:47 107

原创 R in a Nutsbell 5.R语言概览

表达式表达式包括什么赋值语句、算数表达式、条件语句x = 172 %% 10if (1>2) "yes" else "no"分割表达式分号或换行符"this expression will be printed";7+13对象对象包括什么数值型向量、字符型向量、列表、函数c(1,2,3,4,5)"Goodnight"list(c(1,2,3),"Goodnig...

2020-02-23 17:46:27 97

原创 R in a Nutsbell 4.R包

列示本地库中的R包（1）利用getOption获取默认加载的R包：getOption('defaultPackages')（2）使用(.packages())查看当前已加载的R包。操作R包（1）加载R包：library()（2）移除R包：remove.packages()（3）安装R包：install.packages()定制R包创建R目录需要将所有包文件（代码、数据、文档）...

2020-02-23 16:54:09 109

原创 R in a Nutsbell 3.简短的实例

简单的数学运算可以在控制台进行简单的数学运算。1 + 2 10 - 34 * 35 ** 25 ^ 2向量的构建和运算（1）利用c()函数构建更长的向量，函数传入的值必须是同一个类型的。c(0,1,2,3,4,5,6)c("Hello","World")c(TRUE,FALSE,FALSE)利用start:end生成包含start到end之间所有整数的向量。（2）向...

2020-02-23 15:10:48 147

原创 Linux生信笔记（公众号相关）2

生信宝典Linux学习 - 常用和不太常用的实用awk命令（1）awk读取单个文件 awk 'BEGIN{OFS=FS="\t"}{print $0,$1;}' filename读取多个文件 awk 'BEGIN{OFS=FS="\t"}ARGIND=1{print $0,$1}ARGIND=2{print $0,$1}' file1 file2（2）awk后面的命令部分可用单引号或双引号...

2020-02-16 16:40:41 160

原创 Linux生信笔记（公众号相关）1

生信媛Linux shell trick for bioinformatics（1）将一个文件按行倒序，将第一行变为倒数第一行，第二行变为倒数第二行优雅至极的方法：tac yourfile.txt稍微笨一点的方法：awk 'BEGIN{x=0}{x=x+1}{print x,$0}' yourfile.txt | sort -nr -k 1 | sed 's/^.*//g' | less...

2020-02-16 16:40:27 1226

原创 Python for Data Analysis：数据规整化-清理、转换、合并、重塑

合并数据集merge(1) 函数参数pd.merge(leftFrame,rightFrame,on,how)on：用于连接的列名。若两个Frame共同列的列名不同，可以用left_on和right_on指示。how：inner交集、outer交集、left、rightleft_index：将左侧的行索引用作其连接键。boolright_index：类似于left_index。boo...

2020-02-12 23:19:59 153

原创 Python for Data Analysis：数据加载、存储与文件格式

读写文本格式的数据函数说明read_csvread_tableread_fwfread_clipboard

2020-02-11 15:18:46 202

原创 Python for Data Analysis：Pandas

Pandas的数据格式介绍

2020-02-10 16:07:22 151

原创 Python for Data Analysis：Numpy

Numpy的ndarray：一种多维数组对象创建ndarraynp.array()创建ndarrayimport numpy as npdata1 = [6,7.5,8,0,1]np.array(data1)data2 = [[1,2,3,4],[5,6,7,8]]np.array(data2)array信息arr2 = np.array(data2)arr2.dtype ...

2020-02-07 18:37:24 153

原创 Python for Data Analysis：引言

来自bit.ly的1.usa.gov数据JSON格式是常用的Web数据格式。可以使用json模块将JSON字符串转换成Python字典对象。import jsonpath = 'ch02/usagov_bitly_data2012-03-16-1331923249.txt'records = [json.loads(line) for line in open(path)]用Pytho...

2020-02-05 21:36:15 128

原创机器学习实战：回归

线性回归矩阵X存放输入数据，矩阵w存放回归系数。误差是预测y值和真实y值的差值平方，最佳拟合曲线曲线就是误差最小的曲线。公式平法误差回归系数示例：标准回归函数(1) 导入数据函数def loadDataSet(filename): fr = open(filename,'r') NumFea = len(fr.readline()....

2020-02-03 19:03:00 391

原创机器实战学习：AdaBoost元算法

AdaBoost元算法元算法meta-algorithm对其他算法进行组合。（作重要决定时，会考虑吸取多个专家而不只是一个人的意见。）bagging从原始数据集选择S次得到S个新数据集。从原始集合中随机选择一个样本，然后随机选择一个样本来代替这个样本。boosting通过集中关注被已有分类器错分的数据来获得新的分类器。boosting中的分类器权重并不相等。训练...

2020-02-02 23:28:00 202

原创机器学习实战：Logistic回归

Logistic回归最优化算法的一种。用一条直线对一些数据点进行拟合的过程称为回归。回归的核心是寻找最佳拟合参数。Sigmoid函数随着z的增加，对应的Sigmoid值将逼近1；随着z的减少，对应的Sigmoid值将逼近0。Sigmoid值在0~1范围中，大于0.5的数据被分到1类，小于0.5的数据被分到0类。Sigmoid函数的输入向量x是分类器的输入数据，向...

2020-02-01 16:30:59 329

原创机器学习实战：朴素贝叶斯

朴素贝叶斯朴素贝叶斯能给出一个类别猜测结果和该猜测的概率估计值。在数据量较少的情况下仍然有效。核心 ——概率算法示例：文档分类(1) 将文本构建为词条向量。分类类别0代表正常言论，1表示侮辱性文字。def loadDataSet(): postingList = [['my','dog','has','flea','problems','help...

2020-01-31 18:36:31 148

原创机器学习实战：决策树

决策树构造决策树1.找到决定性特征2. 如果某个分支下的数据属于同一类，则无需继续分类；如果分支下的数据属于不同类，则重复划分数据集。如何划分数据集信息增益：划分数据集前后的信息变化。信息增益最高的特征就是最好的选择。香农熵越高，混合的数据也越多。示例一：区分鱼类和非鱼类(1) 创建数据集import numpy as npdef c...

2020-01-29 17:11:50 142

原创机器学习实战：KNN

KNN—K近邻算法工作原理Training set中每个样本都存在标签（分类信息），输入的新数据没有标签。计算新数据与Training set中各个样本数据的距离，距离越近相似度越高。选择Training set中前k个最相似的数据（k通常不大于20），新数据的分类为k个最相似数据中出现次数最多的分类；若标签为数值型，则为k个最相似数据的平均值。计算原理欧式数据公式：测试分类器...

2020-01-26 19:22:06 211

原创 minfi：甲基化芯片数据分析

1.Introductionminfi包适用于分析450K和850K的甲基化矩阵。每个样本在一个矩阵上以两个不同的颜色通道（red、green）进行测量；每个矩阵测量4.5E5个CpG，对每个CpG的甲基化和未甲基化进行度量。样品之间的DNA甲基化差异可以在单个CpG处，称为差异甲基化位置（DMP），也可以在区域水平上，称为差异甲基化区域（DMR）。2.minfi object(1) R...

2020-01-19 22:16:18 6137 2

原创 methylKit：差异甲基化分析

1. 1Methylation输入格式coverage：覆盖这个位点的reads数目。freqC：甲基化C的比例freqT：非甲基化C的比例1.2 纯文本的读取：methReadfile.list是一个列表，里面的元素是每个文件名myobj = methRead(file.list, assembly = "hg19", sample.id = li...

2020-01-17 18:05:15 10545 4

原创 DSS:甲基化差异分析

输入数据格式上游分析进行bismark_methylation_extractor

2020-01-17 17:28:28 6102 3

原创甲基化转化率计算

如何计算甲基化转化率？BS转化后需要加入一段已知lambdaDNA序列。比较sam文件中CT转换情况和lambdaDNA的ref原始碱基进行比较。工具：MethylExtractBSCR.pl下载链接：https://bioinfo2.ugr.es/MethylExtract/工具参数：perl MethylExtractBSCR.pl seqFile = <s...

2020-01-14 22:10:09 4313

原创 DNA甲基化比对：Bismark

建立基因组索引调用bowtie2，因为bowtie2支持插入缺失。bismark_genome_preparation --path_to_bowtie /usr/local/bowtie/ <path_to_genome_folder> 参考基因路径 --verbose 输出log信息比对bismark --bowtie2 -N 0 允许...

2020-01-09 22:25:52 8212

原创 DNA甲基化测序

甲基化在DNA序列不变，C碱基5号碳上加上甲基。一般情况，甲基化位点下游基因表达量减少。区分甲基化和非甲基化碱基亚硫酸氢根：甲基化C 保持不变；非甲基化C被转化为U。PCR新合成的DNA链：甲基化C，非甲基化T。区分羟甲基化和甲基化高锰酸钾：羟甲基化C — 甲酰化C + 亚硫酸氢根 — U糖基保护羟甲基化C。内参甲基化缺陷型的大肠杆菌或无甲基化的λDNA，目的是探究实验中C的...

2020-01-09 16:17:51 2005

原创转录组：STAR-Fusion融合基因

融合基因介绍概念在RNA水平上，由多个转录本构成的转录本。在DNA水平上，由两个或多个基因共同组成的新基因。NGS如何鉴定融合基因spanning readsR1和R2没有覆盖到连接点，只是比对的位置位于两个不同的基因上。潜在的融合基因，解释性较弱。split readsR1或R2的一条read位于连接点的两侧，有一条read直接覆盖到连接点上。解释性较强。...

2020-01-09 14:39:46 4790 1

原创 GATK:RNA-Seq

比对工具：STAR与TopHat相比，STAR灵敏度更高。使用STAR的two-pass mode比对可以使新型切割片段获得更好的比对结果。第一次建立参考基因组STAR --runMode genomeGenerate --runThreadN 8 --genomeDir ./star_index/ --genomeFastaFiles ./genome/chrX.fa ...

2020-01-07 15:21:05 2759 1

原创 limma：RNA-Seq Data

生成计数矩阵标准化和过滤第一步先创建DGEList对象。dge = DGEList(counts = counts)移除0和低计数值得行。keep = filterByExpr(dge,design)dge = dge[keep,,keep.lib.sizes = FALSE]标准化。dge = calcNormFactors(dge)差异表达：limma-trend...

2020-01-06 12:41:51 1176

原创 DESeq2：检测差异表达基因

DESeq2的适用性分析来自RNA-seq的计数数据，基因任务是检测差异表达基因。也适用于其他分析：ChIP-Seq、HiC、shRNA筛选。快速开始dds = DESeqDataFromMatrix(countData = cts, colData = colData, design = ~batch + condition)dds = DESeq(d...

2020-01-05 18:43:25 12188

原创 edgeR：差异表达分析

edgeR的适用性适用于RNA-Seq，SAGE-Seq，Chip-Seq，CRISPR-Cas9，DNA methylation研究。快速入门glm approach 相比经典方法更灵活。旗下包含quasi-likelihood F-test method 和 likelihood ratio。quasi-likelihood：建议用于大量RNA-seq数据的差异表达分析。like...

2020-01-05 18:41:19 13771

原创 GTF/GFF文件格式解读和转换

GFF文件全程为gerneral feature format，这种格式主要用来注释基因组。从Ensembel 导出的GFF文件实例，一共有9列，中间用tab键分开。**1.seq_id:**序列编号，一般为chr或者scanfold编号；**2.source：**注释的来源，一般为数据库或者注释机构，“.”表示未知；**3.type：**注释信息的类型，比如Gene、cDNA、mRN...

2019-12-14 22:14:50 3805

原创 SAM和BAM格式详解

SAM1.什么是SAM格式？SAM格式用于存储基于参考序列的比对序列，SAM(Sequence Alignment Map)是序列比对映射的首字母缩写。说明SAM是带有比对信息的序列文件（告诉你reads在染色体中的位置）。2.SAM包含什么内容？（1）标头注释部分（header section）header每一行以@开头。@RG开头是Read group信息这是在...

2019-12-14 22:14:25 1973

空空如也

空空如也