- 博客(1016)
- 资源 (25)
- 收藏
- 关注
原创 PyTorch - 高效快速配置 Conda + PyTorch 环境 (解决 segment fault )
在配置算法项目时,因网络下载速度的原因,导致默认的 conda 与 pytorch 包安装缓慢,需要配置新的 conda 与 pip 源,以及下载安装 pytorch 环境。
2023-11-17 14:51:37 720
原创 什么是热爱编程
看到下文, 感觉自己弱爆了, 要重新好好的”热爱编程”.95年的时候,我高中同学郭军买了一本Borland C++手册,我们两个人此后两年没机会碰真的电脑,没见过Tubro C更没见过Borland C++,生看这本书,看了两年,百看不厌。做不到,别轻易说,我热爱编程,热爱学习。97年,父母在高考前三天给我买了一台电脑,整个假期,全部在电脑面前度过,把VB的全部文档看完,自己学会VB,啃Delphi
2015-08-11 18:20:46 3118 7
原创 ChimeraX - 命令 morph 动态显示多组 PDB 坐标 模拟 MD 状态
在 分子动力学(Molecular Dynamics,MD) 模拟时,多组蛋白质三维结构的坐标,存储至同一个 PDB 中,默认加载至 ChimeraX,直接静态显示多组坐标,如果需要动态显示,可以使用 `morph` 命令动态显示和操作多组 PDB 坐标,创建在两个或多个原子模型之间变形的轨迹。
2024-03-28 11:21:24 154
原创 BioTech - AlphaFlow: AlphaFold Meets Flow Matching for Generating Protein Ensembles 工程配置
AlphaFlow 是基于流的生成模型方法,用于学习和采样蛋白质的构象景观。这项工作,使用类似 AlphaFold 和 ESMFold 这样的高精度单态预测器,并且,在自定义的流匹配框架下,进行微调,以获得称为A lphaFlow 和 ESMFlow 的序列条件生成模型。在 PDB 上进行训练和评估,与 AlphaFold 结合 MSA 子采样相比,AlphaFlow 在精确度和多样性上,提供了更优的组合。
2024-03-27 15:22:36 214
原创 BioTech - AlphaFlow: AlphaFold Meets Flow Matching for Generating Protein Ensembles 论文简读
蛋白质的生物功能通常依赖于动态的结构集合。在这项工作中,开发一种基于流的生成模型方法,用于学习和采样蛋白质的构象景观。重新利用诸如AlphaFold和ESMFold这样的高精度单态预测器,并在自定义的流匹配框架下对它们进行微调,以获得称为AlphaFLOW和ESMFLOW的序列条件生成蛋白质结构模型。当在PDB上训练和评估时,我们的方法提供了比AlphaFold结合MSA子采样更优越的精确度和多样性组合。
2024-03-25 18:27:40 588
原创 LLM - 大语言模型的指令微调(Instruction Tuning) 概述
大语言模型的指令微调(Instruction Tuning)是一种优化技术,通过在特定的数据集上进一步训练大型语言模型(LLMs),使其能够更好地理解和遵循人类的指令。这个数据集通常由一系列的指令和相应的期望输出组成。指令微调的目的是提高模型的能力和可控性,使其在执行任务时能够更准确地响应用户的需求。
2024-03-25 12:38:48 1107
原创 LLM - 大语言模型的分布式训练 概述
大语言模型的分布式训练是一个复杂的过程,涉及到将大规模的计算任务分散到多个计算节点上。这样做的目的是为了处理巨大的模型和数据集,同时,提高训练效率和缩短训练时间。
2024-03-22 00:18:50 1135
原创 Server - Kubernetes 的 KFP 的 Jobs 流程 YAML 脚本 (Bug: Missing type annotation for argument)
Kubernetes 的 KFP(Kubeflow Pipelines)是一个平台,用于构建和部署可扩展和可移植的机器学习(ML)工作流。允许用户以简单、可复用和可组合的方式定义机器学习任务,并支持各种 ML 框架。KFP 包括一个用于构建 ML 管道的 SDK,以及用于运行这些管道的运行时环境。通过 KFP,用户可以轻松地将机器学习模型从实验转移到生产环境,同时保持模型的可追溯性和版本控制。
2024-03-15 17:19:06 340
原创 Server - 使用 文件锁 解决 Kubernetes 多机批量运行程序 (Python)
在 Python 中,使用文件锁来解决多机批量运行程序的问题是一种常见的同步机制。这主要是为了防止多个进程同时对同一文件进行写操作,从而避免数据损坏或不一致的情况。
2024-03-14 15:07:44 350
原创 LLM - 大语言模型的预训练数据(Dataset) 概述
BPE(Byte Pair Encoding)字节对编码模型,是用于NLP中的词元切分(Tokenization)的方法,核心思想是将常见的字符对(byte pairs)合并为一个单独的词元,从而减少整体的词元数量,同时保留了文本的重要信息。这种方法特别适用于处理词汇量非常大的语言模型,可以有效地减少词汇表的大小,同时保持语言的丰富性和表达能力。此外,BPE模型也支持多语言模型的训练,不依赖于特定语言的词汇结构。大语言模型的预训练数据通常涵盖了广泛的文本类型,以确保模型能够理解和生成多样化的语言内容。
2024-03-11 21:55:57 465
原创 LLM - 大语言模型的自注意力(Self-Attention)机制基础 概述
注意力(Attention)机制是大型语言模型中的一个重要组成部分,帮助模型决定在处理信息时,所应该关注的部分。在自然语言处理中,一个序列由一系列的元素组成。注意力机制通过为序列中的每个元素分配一个权重来工作,这个权重反映了每个元素对于任务的重要性。模型会更加关注权重高的元素。自注意力(Self-Attention)是一种特殊的注意力机制,不是将输入序列与输出序列关联起来,而是关注序列内部元素之间的关系。
2024-03-11 15:38:31 1009 1
原创 LLM - 大语言模型(LLM)发展 概述
大语言模型(LLM, Large Language Model)的发展和应用是一个非常广泛的领域,涉及从早期的统计模型到现代基于深度学习的模型。在自然语言处理领域的应用非常广泛,包括但不限于聊天机器人、内容生成、情感分析、自动摘要、问答系统等。强大的文本生成能力,使其在内容创作领域具有巨大潜力,可以用于撰写文章、创作诗歌、生成新闻报道等。也可以为教育提供丰富的资源和工具,如自动评分、个性化学习辅导等,还可以用于构建智能客服系统,提高客户服务的响应速度和准确性。
2024-03-11 11:15:47 966
原创 Server - Kubernetes (K8S) 运行 PyTorchJob 的 YAML 配置
PyTorchJob 是 Kubernetes 中的自定义资源,用于在 Kubernetes 上运行 PyTorch 训练任务,这是 Kubeflow 组件的一部分,具有稳定的状态,PyTorchJob 允许像管理 Kubernetes 中的其他内置资源一样创建和管理 PyTorch 作业。要使用 PyTorchJob,需要先安装 PyTorch Operator。默认情况下,PyTorch Operator 会作为控制器部署在 training operator 中。
2024-03-07 16:01:26 615
原创 PSP - AlphaFold2 Multimer 支持不同数据源的 MSAs 文件
在蛋白质复合物结构预测时,需要实验不同的 MSAs 来源,有些 MSAs 与 AFM (AlphaFold2 Multimer) 的格式不相同,需要优化 AFM 结构预测框架,适配这种情况。
2024-03-06 10:59:45 357
原创 BioTech - 药物晶型预测与剂型设计 概述
药物晶型预测与剂型设计是指利用计算机模拟和优化药物分子在固态形式下的结构、性质和稳定性,以及与制剂工艺和质量的关系,从而为药物开发和生产提供指导和支持。这是一个涉及多学科的前沿领域,具有重要的理论和实际意义。
2024-03-04 00:07:12 377
原创 BioTech - 药物设计的 ADMET 性质预测 概述
ADMET,即 Absorption、Distribution、Metabolism、Excretion、Toxicity,吸收、分布、代谢、排泄、毒性,这些性质对于药物的疗效和安全性有重要的影响。因此,在药物开发的早期阶段,就能依据化合物的 ADMET 性质,对于先导化合物进行有针对性的选取和优化,是非常必要的。然而,实验评估 ADMET 性质是耗时、耗费和有限的,因此,利用机器学习或深度学习等计算方法来预测 ADMET 性质,是一种有效的替代方案。
2024-03-03 21:42:13 848
原创 CryoEM - CryoAI: Amortized Inference of Poses 工程源码复现
CryoAI的主要内容是,用于同质构象的初步重构算法,该算法使用直接的基于梯度的优化方法,来估计单粒子冷冻电镜数据中的分子姿态和电子散射势。CryoAI结合可学习的编码器,用于预测每个粒子图像的姿态,以及物理的解码器,用于将每个粒子图像聚合到一个隐式的散射势体积的表示中。这个体积是以傅里叶域的形式存储的,以提高计算效率,并利用了一个现代的坐标网络架构,以提高内存效率。结合了一个对称化的损失函数,这个框架在模拟和实验数据上,都达到了与现有的冷冻电镜求解器相当的质量,而且在大数据集上的速度快了一个数量级,且内存
2024-03-01 11:35:13 783
原创 CryoEM - 使用 cryoSPARC 基于单颗粒图像从头重构蛋白质三维结构
基于冷冻电镜单颗粒图像重构蛋白质三维结构,利用冷冻电镜技术测定生物大分子结构的方法。原理是从冷冻电镜获得大量同一种蛋白质分子的二维投影图像,然后,利用三维重构算法计算出蛋白质的三维结构。这种方法的关键步骤是,估计每个投影图像的投影方向,即蛋白质分子在三维空间中的取向。这是一个非凸优化问题,需要用到一些数学和计算机科学的知识。基于冷冻电镜单颗粒图像重构蛋白质三维结构是一种非常先进和有效的技术,可以揭示蛋白质的功能、结构和相互作用,对于生物医学研究和应用有着重要的意义。可以使用 cryoSPARC 软件,基于单
2024-03-01 01:04:48 1218
原创 BioTech - Re-Dock: Towards Flexible and Realistic Molecular Docking with Diffusion Bridge 简读
本文提出了一种受牛顿-欧拉方程启发的能量-几何映射,来共同建模结合能量和构象,以反映能量约束的对接生成过程。在包括 apo-dock 和 cross-dock 的设计基准数据集上的综合实验表明,模型在有效性和效率方面优于当前的方法。
2024-02-27 11:53:09 966
原创 BioTech - 大分子(大环类、蛋白质、核酸)的药物设计 概述
大分子药物设计领域主要包括3个方面,即大环类药物设计、蛋白质与多肽类药物设计、核酸药物设计等。大环类药物设计是指利用具有大环结构的化合物作为药物候选分子或先导化合物的设计策略。蛋白质与多肽类药物设计是指利用具有蛋白质或多肽结构的生物大分子作为药物候选分子或先导化合物的设计策略。核酸药物设计是指利用具有核酸结构的生物大分子作为药物候选分子或先导化合物的设计策略。
2024-02-26 16:30:11 944
原创 BioTech - 交联质谱 (Crosslinks) 的常见数据格式说明
交联质谱 (crosslink) 技术是一种结合化学交联剂和质谱仪的方法,用于研究蛋白质或蛋白质复合物的空间结构和相互作用。交联质谱技术的基本原理是,通过使用带有两个或多个反应性基团的化学交联剂,将空间距离在交联剂臂长范围内的两个氨基酸通过稳定的共价键连接起来,形成交联肽段。然后,将交联后的蛋白质或复合物进行酶切,用液相色谱 (LC) 分离和质谱 (MS) 分析,鉴定出交联位点,从而获取蛋白质的三维构象信息和相互作用区域。
2024-02-20 15:08:52 437
原创 BioTech - 大型蛋白质复合物的组装流程 (CombFold)
CombFold 的优点是能够利用 AlphaFold2 的高精度预测,快速地组合和优化亚基,从而生成高质量的蛋白质复合物结构,还支持结合交联质谱的距离约束和快速枚举可能的复合物组成。
2024-02-20 13:07:35 972
原创 BioTech - 使用 CombFold 组合装配实现大型蛋白质复合物的结构预测
组合装配 (Combinatorial Assembly) 是一种高效且准确的算法,能够预测出大型、不对称的蛋白质复合物的结构,甚至在缺乏实验数据的情况下也能够做到。还支持结合交联质谱的距离约束,以及快速枚举可能的复合物组成。组合装配的高精度,使得成为了扩展蛋白质结构覆盖范围的有力工具
2024-02-19 14:50:03 863
原创 BioTech - CombFold: Predicting structures of large protein assemblies 推理流程
CombFold 是一种新的组装技术,可以利用 AlphaFold-Multimer 预测的可能的亚复合物的结构,来构建大型蛋白质复合物的结构。CombFold 的推理步骤如下:第一步:定义亚单位。第二步:使用 AlphaFold-Multimer 预测所有亚单位配对的结构。第三步:[可选] 使用 AlphaFold-Multimer 预测更大的亚单位组合的结构。第四步:运行组合式组装算法,将所有生成的结构组合成一个大型复合物的结构。
2024-02-19 11:09:49 783
原创 BioTech - CombFold: Predicting structures of large protein assemblies 环境配置
CombFold 流程,从复合物中链的序列开始,预测大型蛋白质复合物的结构 (最多包含18000个氨基酸和32个亚基)。该流程使用 AlphaFold-Multimer (AFM) 来预测 *可能的亚基复合物* 的结构,这些亚复合物是目标复合物的亚基的组合。CombFold 组合装配算法,将这些结构组装成一个单一的大型复合物。
2024-02-18 15:47:33 874
原创 BioTech - CombFold: predicting structures of large protein assemblies 论文简读
CombFold 算法,用于预测大型蛋白质复合物的结构,利用由 AlphaFold2 预测的亚基之间的成对相互作用。尽管大型蛋白质复合物的预测,仍然具有挑战性,但是 CombFold 在两个包含 60 个大型非对称组装的数据集中准确地预测了 72% 的复合物
2024-02-17 22:56:30 956
原创 BioTech - AFM-RL: Large Protein Complex Docking Using AlphaFold-Multimer and Reinforcement Learning
AFM-RL 扩展了这种方法的能力,使其能够预测具有六到二十条链的大型蛋白质复合物的结构。我们使用 AlphaFold-Multimer (AFM) 来预测成对的模型,然后使用我们的强化学习框架来组装它们。我们的新方法,AFM-RL,可以预测一组多样的成对模型,这有助于RL组装步骤为大型蛋白质复合物。此外,AFM-RL 在与现有方法进行大型蛋白质复合物对接的建模性能方面表现出了改进。
2024-02-09 19:26:35 823
原创 Paper - VQGAN: Taming Transformers for High-Resolution Image Synthesis 简读
本文获得一个有效和富有表现力的模型的关键启发是,卷积和Transformer架构结合起来,可以建模视觉世界的组合性质:本文使用卷积方法来高效地学习一个包含丰富上下文的视觉部件的码本,然后学习一个全局组合的模型。这些组合中的长距离交互,需要一个富有表现力的Transformer架构,来建模其构成视觉部件的分布。此外,本文利用对抗方法,来确保局部部件的字典,捕捉到感知上重要的局部结构,从而减轻了用Transformer架构建模低级统计的需要。让Transformer专注于独特优势——建模长距离关系——使它们能够
2024-02-06 13:04:07 844
原创 Paper - VQVAE-2 多尺度分层结构的 VQ-VAE 模型
VQ-VAE-2,即向量量化变分自编码器(VQ-VAE) 的第2版。VQ-VAE 利用离散的隐变量,来近似连续的潜在分布,有效地压缩图像信息,结合自回归的先验来重建或生成图像。VQ-VAE-2提出一种多尺度的分层结构的VQ-VAE模型,在不同的分辨率上对图像进行编码和解码,提高图像的一致性和保真度。同时,引入一种基于PixelCNN的强大的先验,可以在压缩的隐空间中对隐变量进行建模,从而增加了生成图像的多样性和质量。
2024-02-03 12:42:55 960
原创 Paper - 转角密度估计器 RDE (Rotamer Density Estimator) 算法
RDE(Rotamer Density Estimator,转角密度估计器),用于预测氨基酸突变对蛋白质-蛋白质相互作用的影响,利用基于流的生成模型,来估计蛋白质侧链构象的概率分布,并且用熵来衡量柔性。RDE只需要蛋白质结构作为输入,不需要实验数据的监督。此外,RDE提取的无监督表示还可以用于下游的神经网络预测,以获得更高的准确度。
2024-02-02 23:46:32 999
原创 BioTech - 小分子药物设计与优化 概述
小分子药物设计与优化,是利用计算机辅助技术,根据特定的生物学靶点,发现和改进具有治疗作用的小分子化合物的学科。小分子药物设计与优化是一门不断发展和创新的学科,随着新技术和新方法的出现,如RNA靶向、人工智能、机器学习等,为小分子药物的发现和开发提供了新的思路和手段。
2024-02-02 18:47:55 942
原创 Paper - 预测异源多聚体相互作用 Effective Virial Coefficient (有效节流系数) 算法
本文构建了一个有效的异聚合物相互作用的理论,通过,将其拟合到对人类蛋白质无序区域序列的 200 多个样本进行的分子动力学模拟结果。两个异聚合物之间的氨基酸对相互作用之和,可以定性地很好地预测 Boyle 温度,这可以通过二聚体对近似得到定量的改进,其中包含了序列中相邻氨基酸的效应改进的理论,结合了一个捕捉不同序列之间有效相互作用强度的度量的发现,使得能够在多组分模拟中选择最多三个无序区域序列,彼此分离,以及生成与给定序列分离的人工序列。
2024-02-01 15:19:04 934
原创 Paper - 蛋白质刚性对接(Rigid Protein-Protein Docking)的 ElliDock 算法
ElliDock 算法是用 椭圆抛物面(Elliptic-Paraboloid) 来表示蛋白质-蛋白质对接的界面,然后,通过使两个界面重合来得到对接的旋转平移变换。这种方法具有良好的旋转平移等变性,能够保证对接过程的泛化性能。实验结果表明,ElliDock 在推理时间上是所有对比方法中最快的,而且在抗体-抗原对接等任务上与当前最先进的学习方法,有着强有力的竞争力。
2024-02-01 14:22:46 760
原创 Code - VQ-VAE (Vector Quantised Variational AutoEncoder) 的实现源码
VQ-VAE,即Vector Quantized Variational AutoEncoder,向量量化变分自编码器。VQ-VAE 的创新之处是引入了一个向量量化(VQ)层,将连续的编码器输出映射到离散的潜在空间。VQ层由一组可学习的向量组成,称为代码本(Codebook)。每个编码向量都会被替换为代码本中与最近的向量,从而实现量化。这样,VQ-VAE 可以把图片编码成离散向量。
2024-01-30 17:07:59 956
原创 BioTech - 小分子药物生成与从头设计 概述
小分子药物生成是一种利用计算方法自动探索化学空间,寻找具有理想生物活性和药物特性的分子结构的过程。从头设计是一种特殊的小分子药物生成方法,不依赖于已知的化合物库,而是完全从零开始构建分子。从头设计的方法可以分为基于原子、基于片段和基于反应的三种类型,根据分子表示的粒度和复杂度进行区分。
2024-01-30 12:46:15 831
原创 BioTech - 量子化学与分子力场 概述
量子化学和分子力场都是计算化学中常用的方法,可以用来进行几何优化、振动分析、分子动力学模拟、蒙特卡罗方法等任务。
2024-01-23 20:43:30 460
原创 PSP - 提取 UniRef 数据库搜索的 MSA 序列物种 (Species) 信息
UniRef序列中的物种(Species)信息指每个聚类的代表性序列所属的物种,可以帮助用户了解聚类的生物学背景和多样性。物种信息是根据代表性序列的 UniProtKB 或 UniParc 条目中的物种注释获取的。
2024-01-19 16:59:17 974
原创 AIGC - 视频生成模型的相关算法进展
视频生成技术,根据给定的文本、图像、视频等输入,自动生成符合描述的视频内容。视频生成技术在近年来取得了显著的进展,但也面临着一些挑战和限制。
2024-01-19 08:24:47 1423 1
原创 BioTech - 蛋白质结构、核酸结构、小分子构象的预测 概述
生物结构预测是指根据生物分子的序列信息,推断其在空间中的三维形状和排列。生物结构预测对于理解生物分子的功能、相互作用、进化和设计具有重要意义。生物结构预测的对象主要包括蛋白质、核酸和小分子。
2024-01-13 12:48:32 445
原创 Paper - DeepMSA2: Improving deep learning protein monomer and complex structure prediction
DeepMSA2 的主要优势在于平衡的序列搜索和有效的模型选择,以及利用海量元基因组数据库的能力,这些结果表明通过改进 MSA 的构建,可以为深度学习蛋白质结构预测提供一个新的途径,也证明了优化深度学习方法的输入信息,与设计预测器本身一样重要。
2024-01-11 10:38:40 1100
MMseqs2最新版本可执行文件
2023-07-27
冷冻电镜的低通滤波算法
2022-08-02
craft_models.zip
2021-05-27
ICDAR_2015.zip
2021-05-27
Solidity Programming Essentials
2018-06-09
Earthquake - Android Studio 代码
2014-03-24
ContactPicker(选择联系人) - Android
2014-03-20
Compass-Android
2014-03-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人