今晚月亮有点圆-CSDN博客

原创 TPOT——AutoML框架

是一种automl框架，它利用搜索算法，根据所提供的指标，对给定数据进行交叉验证，自动搜索出效果最好的机器学习pipeline组合。代码也是非常简洁明了。框架会自动将最佳pipeline的代码导出到指定目录。

2023-09-27 10:27:37 217

原创如何在分类任务（二分类）中选择最佳的threshold

如对指标的precision值有特殊要求，比如要求其大于0.8，我们只需在precision值大于0.8的区间中选取使F1指标最大的点的阈值作为最佳threshold即可。绘制PR曲线后，再计算对应的F1列表，我们只需选取F1指标最大的点的阈值作为最佳threshold即可。当然，如果对precision和recall的看重程度不一样，也可以使用F-beta代替F1指标。

2023-08-24 14:41:29 412

原创 scGen perturbation response prediction

scGen模型整体其实就分为两部分，VAE + 向量算法，VAE是采用的经典VAE模型，向量算法的计算是简单的用平均向量作差，两部分拆开来看都没有什么新奇和复杂的，但是模型的总体效果非常好。在我自己实际使用时，预测效果并不太好，预测结果距离control比距离stimulated更近，这可能是由于训练数据的condition不是只受一种因素影响造成的。所以建议大家保证数据集的扰动因素有且只有一种。

2023-06-28 14:01:41 365 2

原创 scanpy单细胞分析流程

梳理一下scanpy单细胞分析流程（处理的是scRNA-seq）。

2023-06-20 15:26:41 927

原创 python环境管理

介绍工作中常用的两种python包管理工具，conda和mamba。

2023-06-19 10:13:48 268

原创单细胞数据integration结果评估

scib这篇文章同时还比较了现有的主流integration方法，在做了排名的同时还对不同应用场景下应该用哪个方法做了简易。可以说是非常好的一篇文章了。integration的初衷是想要去除数据的批次效应，但是在去除批次效应的同时有可能去除了数据之间本来就有的生物差异。scib这个方法就是从。前三个是生物保护性指标，后三个是批次效应去除指标。这两方面来衡量integration的效果。好了，现在贴一下我自己常用的评估函数。指标已经放缩到0——1，值越大效果越好。更详细的使用和说明大家可以看这里。

2023-06-16 17:03:32 330

原创 python的多进程

因为GIL的存在，Python的多线程是一种伪并发，因为GIL规定一个进程中同一时间只能有一个线程使用CPU，这就使得多线程只能共用一个CPU。所以如果我们想要使用多核CPU进行并发计算，就需要使用Python的多进程编程。

2023-06-16 13:22:11 260

原创 python eval和exec的区别

推荐大家一个在国内也能访问的智能代码查询工具，Cursor，使用了类似ChatGPT的技术。

2023-04-04 09:22:58 52

原创创建一个完全独立的子进程

创建一个完全独立的子进程，当主进程退出时子进程依然可以独立存在。需要传递参数时可以配合argprase模块。

2023-03-24 11:23:10 281

原创 error:03000086:digital envelope routines::initialization error

cnpm run start报错。在cmd中使用以下指令。

2023-02-28 14:15:55 172

原创 nodejs环境配置（windows）

简单理解就是nodejs包管理工具，全称Node Package Manager。npm的开源镜像，在国内使用cnpm替代npm可以起到加速的效果。切换到有package.json的地方，命令行敲击。自动安装依赖，react，vue之类的。下载对应平台LTS版（自带npm）简单理解就是js运行环境。

2023-02-27 10:46:07 347

原创 python中的map、reduce

map（映射）function – 函数iterable – 一个或多个序列第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的迭代器。如。

2023-02-25 11:24:41 76

原创 python压缩与解压

传送门：click here!

2023-02-20 16:37:45 58

原创 streamlit自定义组件教程和组件开发环境配置

重要！以下步骤都是在教程的基础上更改的。这个教程做的很棒。

2023-02-14 14:54:18 1124

原创 streamlit处理上传压缩包

https://stackoverflow.com/questions/29324037/convert-bytesio-into-file/37982602#37982602

2023-02-08 14:52:02 382

原创 TypeError: can only concatenate str (not “NoneType“) to str

None无法和str类型合并。

2023-02-08 09:20:16 2627

原创当结果无法复现

当结果无法复现时可以从以下几个方面找原因：1. 语句一致性2. 包版本3. 运行环境（包括操作系统）4. 内存问题（是否因为上次计算结果没有在内存中擦除导致）

2023-01-31 16:22:37 103

原创 pandas对每行的字符采用同样操作

假如我想Site字段中字符串的"_"删掉，可以采用如下做法。现有一个Dataframe。

2023-01-12 17:21:25 165

原创 streamlit修改配置文件不生效

最近有需求要修改streamlit的上传文件大小限制。轻车熟路，打开路径下的配置文件，键入配置指令。重启服务，发现不生效。

2023-01-10 14:04:49 477

原创 jupyter lab下用pyecharts生成细胞分类桑基图

【代码】jupyter lab下用pyecharts生成细胞分类桑基图。

2023-01-04 15:13:39 418

原创 jupyter lab下用pyecharts生成桑基图显示空白

pyecharts在jupyter lab环境下显示要有以下设置。jupyter lab下用pyecharts生成桑基图显示空白。首先数值类型必需是int，numpy等类型会导致错误。踩了几个坑，主要是由以下几点原因导致的。①jupyter lab环境设置。同时画完图后要调用以下函数显示。

2022-12-30 13:30:11 1308

原创 python计算程序用时和所用内存

【代码】python计算程序用时和所用内存。

2022-12-26 16:46:55 684

原创 numpy常用创建

【代码】numpy常用创建。

2022-11-10 15:59:26 475

原创 partially initialized module ‘scanorama‘ has no attribute

比如在 scanorama.py里import scanorama。当你把执行文件名和函数名取名一样时就会遇到这个问题。

2022-11-07 11:08:22 110

原创 pandas合并

Merge vertically by defaulta：b：c：You can use Pandas merge to implement vlookup like functionsa:b:c：joins index-on-index by defaulta:b:c:

2022-11-07 10:27:57 594

原创 pandas常用操作

Pandas

2022-10-28 16:14:34 434

原创 jupyter切换conda环境（操作kernel）

【代码】jupyter切换conda环境。

2022-10-25 10:44:31 984

原创 sns.load_dataset报错解决

seaborn的load_dataset方法需要访问外网进行数据下载，常常报错，这种时候可以通过把数据保存在本地，直接访问本地数据避免这一错误。打包下载后解压，记录存储路径。

2022-10-13 10:36:00 429

原创 conda常用指令

package_name，安装包名字（选择性添加，一般添加python=版本号）-n env_name（非必要，默认查看当前环境）=version（非必要，会安装指定版本号）env_name，新建环境名字。

2022-09-29 15:49:37 652

原创利用信息熵度量数据集复杂程度

20世纪40年代，香农（C.E.Shannon）借鉴了热力学的概念，把信息中排除了冗余后的平均信息量称为“信息熵”，并给出了计算信息熵的数学表达式。信息熵的提出解决了对信息的量化度量问题。信息熵可以用来度量数据的复杂程度。举例：现有Adipocytes，内包含Harvard-Nuclei，Sanger-CD45，Sanger-Cells，Sanger-Nuclei四种类型的数据。①算出各类型所占总体比例。②套用公式进行计算可得。②套用公式进行计算可得。①算出各类型所占比例。

2022-09-23 16:07:41 431

原创 python万能存储包pickle

pickle几乎可以保存python的一切格式对象，字典、列表等等，无需将其转为numpy或pandas等其他格式再保存，缺点是它不像json等是通用格式，只能使用python来读取。

2022-09-19 17:14:26 967

原创 pytorch中的dropout

这里的概率是每个元素被置零的概率。

2022-09-16 13:19:10 776

原创 conda和pip换源

【代码】conda和pip换源。

2022-09-15 13:24:23 160

转载 pycharm专业版连接远程docker容器

在docker中配置好了代码的运行环境，执行which python查看pyhton编译器的路径，如下是我docker环境中的解释器路径，稍后会用到。通过pycharm连接远程docker是通过ssh服务，所以需要对容器的ssh端口做映射，ssh的默认端口是22。-p 端口号：这里的端口就是我们在步骤1 启动容器时映射的主机端口号9000，不是容器的端口22。5.配置好如上的所有步骤，就可以在Pychram中运行docker环境下的代码了。root：容器内部系统的root账号，不是服务器的用户账号。...

2022-09-01 10:22:47 4850 3

scGPT human checkpoint

boston_house_prices.csv

空空如也