Xiaofei@IDO-CSDN博客

原创 Ubuntu中apt-get update报密钥错误

在Ubuntu中，执行apt-get update时，报错！

2023-02-13 16:58:20 1163 1

原创基于voerlap的相似性度量-单细胞克隆亚型分析

基于overlap的相似性度量，有多种多样的方法，其应用也是多种多样。这里，我们主要讲解在单细胞免疫组库中的应用。基于单细胞的免疫组库的测序，我们可以获得每一个细胞类群中的不用克隆亚型，基于这些克隆亚型的overlap，我们可以推断不同细胞亚群的生命体的状态变化，或者是进化轨迹分析。

2023-01-16 16:21:17 928

原创临床资料研究中的风险因素评估相关指标

写这篇文章是因为最涉及的医学相关的项目比较多，有些常常遇到的概念容易混淆，在这里着重区分一下。

2023-01-08 18:30:17 969

原创 R 语言管道操作符

关于代码的简洁性，就是你使用了比较简化的高级操作符，但是有时候会增加代码的可读性。这种可读性在于你是否真正的去了解R的高级语法。你了解高级语法，他就不难，你不了解，他就难，可读性差。这里我们来讲解一下，关于管道操作符，使R语言编程简化一些。

2022-12-31 23:18:15 1051

原创基于python环境的pip安装事项

基于python环境的Pip的使用

2022-12-07 10:09:45 514

生存分析是对生存资料统计分析的一类技术，其理论与方法被广泛应用于生命科学、医药卫生等领域。生存资料既包含定性信息（结局，一般为二分类，如：死亡、存活）又包含定量信息（随访开始至结局出现时间，如：生存时间）。理论上，每一位受试者皆应获得结局及结局出现的时间，但是，在实际临床试验中，由于研究时间限制或受试者中途失访等原因，未能观察到部分个体发生结局事件，无法获得其准确的时间，即删失(censoring)。

2022-11-29 13:57:47 1070

原创 Mac 安装非App Store软件

当安装非App Store软件时，Mac由于其安全性，常常会出现一些报错信息。

2022-11-28 14:23:34 930

原创 windows 安装并行处理的包 doMC

【代码】windows 安装并行处理的包 doMC。

2022-10-27 14:30:29 541 2

原创基于Docker的RStudio-server构建

【代码】基于Docker的RStudio-server构建。

2022-09-16 09:53:19 636

原创基于Ubuntu的R离线安装

【代码】基于Ubuntu的R离线安装。

2022-09-15 10:18:00 363

原创 BiocManager的镜像源设置

最近，在使用Docker构建镜像时，由于网络的问题，总是断断续续的进行，导致构建一个镜像需要花费很长的时间。

2022-09-13 11:18:07 3976

原创 docker 环境变量的设置-Dockerfile中ENV命令

问题：我们在本地机中，可以通过echo $PATH查看PATH的具体指向；该设置也常用于软件执行的设置。但是在基于docker构建镜像（执行容器时）时，出现问题了？无法调用！即使是通过也不能在启动容器时，调用！？！

2022-09-07 16:14:32 3118

原创线性回归样本量要求

多因素回归样本量要求

2022-09-06 18:34:48 2090

原创 R语言github软件的两种安装方式

github的本地安装

2022-09-06 11:07:22 1884

原创生物学重复和技术重复

最近，总是有人在纠结什么是生物学重复？什么是技术重复？

2022-08-31 14:31:48 853

原创 windows中使用docker构建镜像

最近，由于项目开发需求，需要在本地构建镜像，以便迅速进行部署。采用了window系统的docker进行构建镜像。怎么办？？？

2022-08-30 21:30:56 2415 1

原创如何通俗的理解docker中 - 镜像构建上下文

理解docker镜像构建上下文

2022-06-11 13:42:31 286 1

原创 Kolmogorov-Smirnov（KS）检验

KS-检验

2022-04-29 20:09:42 11217

原创理解分类模型的评价指标

前言众所周知，机器学习分类模型常用评价指标有Accuracy, Precision, Recall和F1-score，而回归模型最常用指标有MAE和RMSE。但是我们真正了解这些评价指标的意义吗？在具体场景（如不均衡多分类）中到底应该以哪种指标为主要参考呢？多分类模型和二分类模型的评价指标有啥区别？多分类问题中，为什么Accuracy = micro precision = micro recall = micro F1-score? 什么时候用macro, weighted, micro precis

2022-04-14 20:43:01 290

原创 R 两种基础的进度条

第一种：tcltk包（弹出式）实现逻辑：① 循环之前② 循环中③ 循环结束之后具体示例## 第一个位置：新建一个其实进度条弹窗pb <- tkProgressBar("进度","已完成 %", 0, 100) star_time <- Sys.time() ## 记录程序开始时间for (i in 1:nrow(my_data)){ …… ## 循环的主体 ## 第二个位置：实时反映进度 info <- sprintf("已完成 %f%%

2022-04-09 17:49:31 1146 1

原创 R语言正则表达式基础

一、背景正则表达式，是根据字符串规律按一定法则，简洁表达一组字符串的表达式。正则表达式通常就是从貌似无规律的字符串中发现规律性，进而概括性地表达它们所共有的规律或模式，以方便地操作处理它们，这是真正的化繁为简，以简御繁的典范。几乎所有的高级编程语言都支持正则表达式，正则表达式广泛应用于文本挖掘、数据预处理，例如：检查文本中是否含有指定的特征词找出文本中匹配特征词的位置从文本中提取信息修改文本正则表达式包括：只能匹配自身的普通字符（如英文字母、数字、标点等）和被转义了的特殊字符（称为‘‘元字

2022-04-09 14:15:52 4213

原创确定最佳聚类的算法（一）

一、背景聚类最难得就是确定最佳的聚类数，下面介绍几种方法。二、确定最佳聚类数2.1 轮廓系数（Silhouette）Silhouette系数是对聚类结果有效性的解释和验证，由Peter J. Rousseeuw于1986提出。图解原理如下：具体方法如下：计算簇内不相似度计算样本 iii 到同簇其他样本的平均距离 aia_iai。aia_iai 越小，说明样本 iii 越应该被聚类到该簇。将 aia_iai 称为样本 iii 的簇内不相似度。簇C中所有样本的a i 均值称为簇

2022-04-01 16:21:28 3741

原创优雅的循环迭代和泛函数编程-purr packages 和 map 函数

一、背景多数情况下，我们经常在R语言编程中，使用循环处理各种数据，已达到必要的结果。在R语言中，写循环的修仙道路：手动for循环—apply函数族—purr包的泛函数式编程。关于purrr 与 apply 族：purrr 提供了更多的一致性、规范性和便利性，更容易记住和使用。速度来说，apply 族稍微快可以忽略不计的一丢丢。基于 purrr 包的泛函式循环迭代的核心思想及常用操作：循环迭代，就是将一个函数依次应用（映射）到序列的每一个元素上。常用操作：map()：依次应用一元函

2022-03-29 21:32:10 807

原创 windows系统中自带的diskpart分区和MNR和GPT转化

一、背景今天给windows做系统，遇到了这个问题：Windows无法安装到这个磁盘，选中的磁盘具有MBR分区表。在EFI系统上，Windows只能安装到GPT磁盘。首先，我们要来降解一下两个概念：MBR分区表和GPT磁盘。因不同的分区结构和分区方法，将磁盘类型分为：MBR和GPT两种磁盘类型GPT是一种基于Itanium 计算机中的可扩展固件接口（EFI）使用的磁盘分区架构，允许支持多达128个分区，支持高达18千兆字节的卷大小，允许将主盘分区表和备份磁盘分区表用于冗余MBR特点：支

2022-03-26 14:33:45 941

原创线性回归的简单介绍

一、背景简单线性回归（Simple linear regression）也称为一元线性回归，是分析一个自变量（x）与因变量（y）之间线性关系的方法，它的目的是拟合出一个线性函数或公式来描述x与y之间的关系。我们以最简单的一元线性回归回归方程来解释：yi=β0+β1×xi+eiy_i = \beta_0 + \beta_1 \times x_i + e_iyi=β0+β1×xi+ei其中，yiy_iyi 为因变量，xix_ixi 为自变量，β0\beta_0β0 为截距， β1\be

2022-03-19 21:27:58 11849 1

原创 gitlab删除服务器上的一个文件或目录

已经与远程仓库建立联结git rm -r --cached filename/directorygit commit -m "delete file/dir"git push # 这是建立在已经和远程仓库进行了连接未与远程仓库建立联结git pull origin master # 将远程仓库里面的项目拉取下来git rm -r --cached filename/directorygit commit -m "delete file/dir"git push...

2022-03-13 20:09:20 1015

原创 KNN缺失值的插补原理介绍（你肯定需要）

一、前言缺失值是数据处理过程中不可跳过的一个步骤！当然，如果你的数据不存在缺失值，那就不需要这个文档了！你可能需要查看一下异常值了！！！现在我们来理解一下缺失值（类型）：完全随机缺失（missing completely at random，MCAR）：指的是数据的缺失是随机的，数据的缺失不依赖于任何不完全变量或完全变量。空值的出现与数据集中已知或者未知的特征是完全无关的（没有任何已知特征与其相关，类似自然选择无筛选条件）。比如：一调查问卷中的性别字段，是否缺失属于完全随机，它取决于调查对象。随机

2022-02-28 14:04:24 15327

原创 pandas 三大利器 map, apply, applymap的通俗理解

前言目前，处理数据的软件包括：R和python，还有一些其他的软件。当然，我也是经常在R和python之间切换使用。一般来说，但我进行数据的统计分析时候，我首选的是R程序，因为确实包含了太多的统计函数，还有需要贡献者。随着，python的粉丝的暴涨，越来越多的编程都或多或少使用了python，在编程语言的排行榜中，python也稳居前3。在python的使用中，numpy，pandas是数据处理的利器。接下来，我将阐述pandas常用的批量处理数据的三个函数，它能够有效的避免低效率（反正大家都这么说）

2022-02-26 17:41:04 1059

原创 PyQt5 两种信号与槽函数的连接方法

问题交代一下问题：PyQt5 如何进行信号和槽函数的连接，执行相应的功能？解决办法1. 装饰器方法：@pyqtSlot()装饰器from PyQt5.QtCore import pyqtSlot# 信号与槽函数@pyqtSlot()def on_pushButton_clicked(self): print('点击了按钮')规则：@pyqtSlot()：修饰关键词，表明下面是完整的信号槽函数函数名称的特殊要求：on_控件对象名_信号名(self, 内置参数)同一个控件同时要写多

2022-02-23 16:58:32 1658

原创 docker不用root权限也能执行-普通用户的权限设置

背景最近，有些项目是基于docker写的。但是docker是需要root权限的，如果没有root权限的普通用户将没有办法操作docker。下面给出两个修改的方法，来完成普通用户的操作的请求。解决办法1. 赋予普通用户root权限需要修改：/etc/sudoers# 现在是不可更改的，需要调整权限：chmod 0755 sudoers (需要root权限的)root@SRV252:/etc# ll sudoers-r--r----- 1 root root 815 Feb 23 13:06

2022-02-23 13:30:39 9766

原创 PyQT5 QLineEdit控件信号方法

背景直接上代码示例from PyQt5.Qt import *import sysimport math App=QApplication(sys.argv)Win=QWidget()le2=QLineEdit(Win)le=QLineEdit(Win)# 文本框编辑事件le.textEdited.connect(lambda val:print("文本框编辑的时候",val))# 回车le.returnPressed.connect(lambda:print("回车键被按下

2022-02-23 10:29:13 641

原创 PyQT5 如何自定义空间点击事件

背景最近，应业务部门需求，写一个小的可处理程序。我们通常使用PyQT5进行小工具的开发。但是，在小工具开发过程中，时常使用一些控件，比如（QLineEdit等），希望在点击的时候，就能出发信号，执行相应功能。然而，这些控件没有点击的信号出发，就不能关联槽函数。接下来，我们来进行自定义。自定义这里我进讲述一种方法。基于QLineEdit控件的自定义点击信号。class MyLineEdit(QLineEdit): clicked = pyqtSignal() def mouseRele

2022-02-23 09:55:17 740 1

原创 R 基本函数sweep的使用（apply函数的利器）

1、背景最近，在进行数据集的标准化处理的时候，遇到了sweep函数。这是我使用R这么久第一次看到这个函数的使用。不得不感叹R的强大。好了，不感叹了，学海无涯，继续奋斗吧！！！sweep函数主要用于各种统计量的操作，该统计量通常来自于apply函数，这也是经常使用的统计量（比如按行求和，求均值，求中位值等）。对统计量的处理，比如，我们计算每一行/列减去均值（均值中心化），或者除以均值（均值标准化）等，sweep行数就发挥作者用了。sweep函数有效的替代了for循环接下来，我们来讨

2022-02-13 12:59:46 2599

原创蛋白质组学两个定量方法（iBAQ和LFQ）的区别及常见的标准化方法

1、基于Maxquant软件处理的LabelFree蛋白质组学首先，在使用Maxquant软件进行查库的时候，有两个参数值得大家关注：LFQ和iBAQ。当我们在进行搜库时，如果两个参数都选择，将会在结果文件中有三个定量结果：Intensity，IBAQ和LFQ。接下来，我们来详细解释一下这三个定量结果的区别：Intensity：将Protein Group中的所有Unique和Razor peptides的信号强度求和，作为最原始的强度值iBAQ：基于 Intensity 的强度值，除以该蛋白的

2022-02-12 16:57:00 15168

原创 Boostrap方法的理解及应用

1、Boostrap介绍1.1 概念性解释Boostrap统计学方法是一种非参数检验方法，用于估计各种统计量的置信区间。Boostrap计算步骤简单的描述为：通过有放回的数据集的重采样，产生一系列的待检验统计量的Boostrap经验分布。基于该分布，计算标准误差，构建置信区间，并对多种类型的样本进行统计信息和假设检验。Boostrap统计学方法使用范围比较广，因为它不需要假定数据服从特定的理论分布（比如，多数假设检验的正太分布假设），因此常作为传统假设检验的替代方法如果数据满足特定理论分析，请使

2022-02-11 22:19:53 4450

原创 TCGA的gdc-client的下载优化

1、背景最近，在使用TCGA数据，需要从TCGA下载数据。当数据文件数量较少的时候，为了偷懒（其实也麻烦），可以一个一个的下载。但又有时候为了获取更多的数据，我们可以通过 gdc-client 程序，基于manifest进行批量下载。问题来了：采用gdc-client（linus）/ gdc-client.ext（Windows）download -m gdc-manifest.txt下载的时候，时常中断？？？2、解决办法修改 gdc-client download 的配置文件。2.1 查看默认配

2022-02-11 10:29:21 1942 1

原创如何构建本地化的blast2go数据库

1、blast2go数据库简介这GO功能注释过程中，我们经常使用一些R包（ClusterProfiler），或者基于超几何检验的方法进行GO功能富集分析。这些分析多数情况下，是建立在具有参考物种信息的情况下。有时候，我们进行的数据分析，是建立在物种信息的情况下。比如，比较常见的无参转录组数据分析，或者发现新基因的时候。在这种情况下，我们常常通过序列相似性的方法，先找到相似的序列编号，再通过注释网站工具进行注释。其中，blast2go是比较经典的一种blast算法。其基本步骤是，首先对需要注释的序列，与N

2022-02-09 15:03:46 2756

空空如也

空空如也