- 博客(1027)
- 资源 (25)
- 收藏
- 关注
原创 PyTorch - 高效快速配置 Conda + PyTorch 环境 (解决 segment fault )
在配置算法项目时,因网络下载速度的原因,导致默认的 conda 与 pytorch 包安装缓慢,需要配置新的 conda 与 pip 源,以及下载安装 pytorch 环境。
2023-11-17 14:51:37 755
原创 什么是热爱编程
看到下文, 感觉自己弱爆了, 要重新好好的”热爱编程”.95年的时候,我高中同学郭军买了一本Borland C++手册,我们两个人此后两年没机会碰真的电脑,没见过Tubro C更没见过Borland C++,生看这本书,看了两年,百看不厌。做不到,别轻易说,我热爱编程,热爱学习。97年,父母在高考前三天给我买了一台电脑,整个假期,全部在电脑面前度过,把VB的全部文档看完,自己学会VB,啃Delphi
2015-08-11 18:20:46 3140 7
原创 BioTech - 使用 Amber 工具 松弛(Relaxation) 蛋白质三维结构 (Python)
Amber 工具在蛋白质 松弛(Relaxation) 过程中起着重要的作用。在分子动力学模拟中,蛋白质松弛是指模拟过程中蛋白质结构达到一个较为稳定的状态。这个过程通常涉及能量最小化和温度平衡,以确保蛋白质的结构和动态行为接近其在生物体内的自然状态。
2024-04-17 21:26:17 79
原创 BioTech - 研发 AlphaFold2 使用自定义 MSA 与 Template 的组合框架
AlphaFold2 是蛋白质结构预测算法,使用 MSA(多序列比对) 特征和 Template(模版) 特征,来提高预测的准确性。MSA 特征通过揭示进化上保守的结构特征来帮助预测,Template 特征利用已知的蛋白质结构数据来增强预测的准确性。这两种特征的结合使得 AlphaFold2 能够以前所未有的精度预测蛋白质的三维结构。
2024-04-16 18:42:13 125
原创 BioTech - 研发 AlphaFold2 输入自定义模版 (Template) 的接口
在 AlphaFold2 中,模板(Template)的作用,是提供已知的蛋白质结构作为参考,以帮助预测目标蛋白质的三维结构。AlphaFold2 会从多个数据库中搜索并选择最合适的模板,或者使用自定义的模板。这些模板与目标蛋白质序列的对齐信息一起,被用来预测其三维结构。模板在 AlphaFold2 中扮演着重要角色,为蛋白质三维结构预测提供了一个起点和参考框架,从而提高预测的准确性和效率。
2024-04-16 14:48:48 21
原创 Training - PyTorch Lightning 的 Horovod 策略实践 (all_gather)
在 PyTorch Lightning 中使用 Horovod 策略,可以在多个 GPU 上并行训练模型。Horovod 是分布式训练框架,通过优化数据传输来提高多 GPU/CPU 训练的效率。要在 PyTorch Lightning 中使用 Horovod,需要在训练命令中指定 Horovod 作为策略。
2024-04-12 16:42:47 1042
原创 Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad_batches)
在 PyTorch Lightning 中,pl.Trainer 的 accumulate_grad_batches 参数允许在执行反向传播和优化器步骤之前,累积多个批次的梯度。这样,可以增加有效的批次大小,而不会增加内存开销。例如,如果设置 accumulate_grad_batches=8,则会在执行优化器的 .step() 方法之前,累积 8 个批次的梯度。
2024-04-11 15:40:11 421
原创 Training - Kubeflow 的 PyTorchJob 配置 DDP 分布式训练 (ncclInternalError)
Kubeflow 的 PyTorchJob 是 Kubernetes 自定义资源,用于在 Kubernetes 上运行 PyTorch 训练任务,是 Kubeflow 组件中的一部分,具有稳定状态,并且,实现位于 training-operator 中。PyTorchJob 允许定义一个配置文件,来启动 PyTorch 模型的训练,可以是分布式的,也可以是单机的。
2024-04-09 22:48:25 541
原创 Training - 使用 WandB 配置 可视化 模型训练参数
WandB (Weights&Biases) 是轻量级的在线模型训练可视化工具,类似于 TensorBoard,可以帮助用户跟踪实验,记录运行中的超参数和输出指标,可视化结果,并且,共享这些结果。WandB 支持所有主流的深度学习框架,如 TensorFlow、PyTorch、Keras 等,提供了丰富的功能。使用 WandB,可以轻松地监控模型训练过程,通过云平台同步模型输出、日志和文件,便于远程监控和协作。
2024-04-09 10:46:35 568
原创 LLM - 大语言模型(LLM) 的 应用技术
大语言模型(LLM)的应用技术范围非常广泛,包括LangChain开发框架,专为大型语言模型设计,以提高开发人工智能应用的效率,允许开发者将语言模型、向量数据库、交互层Prompt、外部知识和工具整合到一起,从而构建多样化的 LLM 应用程序;推理优化,在大型语言模型的推理过程中,优化技术可以显著提升效率和性能,通过分布式计算框架、知识图谱集成以及模型内部的优化技术,加速模型的推理过程,使其更适合实际应用;多模态大模型结合文本、图像和声音等多种数据类型,能够处理和理解跨多个模态的信息。
2024-04-08 12:49:47 150
原创 BioTech - AlphaFlow 项目 PyTorch Lightning + DeepSpeed 的分布式配置
目前,AlphaFlow 项目不支持 Multi GPU 运行,需要修改 PyTorch Lightning 框架,集成 DeepSpeed 等分布式策略。PyTorch Lightning 和 DeepSpeed 的组合使用,可以为深度学习项目,带来显著的训练速度提升和内存优化。
2024-04-03 15:56:26 253
原创 LLM - 大语言模型 基于人类反馈的强化学习(RLHF)
基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback),结合 强化学习(RL) 和 人类反馈 来优化模型的性能。这种方法主要包括:多种策略产生样本并收集人类反馈:使用不同的策略来生成文本样本,然后,由人类评估这些样本的质量,以收集反馈数据。训练奖励模型:基于收集到的人类反馈,训练奖励模型(Reward Model, RM),该模型的目标是评估模型输出的文本质量。训练强化学习策略,微调语言模型:在这一步中,将初始语言模型的微调任务建模为强化学习
2024-04-02 23:12:56 461
原创 BioTech - AlphaFlow: AlphaFold Meets Flow Matching for Generating Protein Ensembles 配置训练流程
AlphaFlow 是基于流的生成建模方法,用于学习和采样蛋白质的构象景观,利用 AlphaFold 和 ESMFold 高精度单态预测器,并且,在自定义的流匹配框架下,进行微调,从而得到序列条件生成模型。在 PDB 上的训练和评估,显示出比 AlphaFold 结合 MSA 子采样更优越的精确度和多样性。进一步,在全原子 分子动力学(MD) 的集合上训练时,能够准确捕捉到未见蛋白质的构象灵活性、位置分布和更高阶的集合观测值。还可以快速地将静态 PDB 结构多样化,与复制 MD 轨迹相比,对于平衡属性的收敛
2024-04-02 15:48:41 42
原创 ChimeraX - 命令 morph 动态显示多组 PDB 坐标 模拟 MD 状态
在 分子动力学(Molecular Dynamics,MD) 模拟时,多组蛋白质三维结构的坐标,存储至同一个 PDB 中,默认加载至 ChimeraX,直接静态显示多组坐标,如果需要动态显示,可以使用 `morph` 命令动态显示和操作多组 PDB 坐标,创建在两个或多个原子模型之间变形的轨迹。
2024-03-28 11:21:24 270
原创 BioTech - AlphaFlow: AlphaFold Meets Flow Matching for Generating Protein Ensembles 工程配置
AlphaFlow 是基于流的生成模型方法,用于学习和采样蛋白质的构象景观。这项工作,使用类似 AlphaFold 和 ESMFold 这样的高精度单态预测器,并且,在自定义的流匹配框架下,进行微调,以获得称为A lphaFlow 和 ESMFlow 的序列条件生成模型。在 PDB 上进行训练和评估,与 AlphaFold 结合 MSA 子采样相比,AlphaFlow 在精确度和多样性上,提供了更优的组合。
2024-03-27 15:22:36 288
原创 BioTech - AlphaFlow: AlphaFold Meets Flow Matching for Generating Protein Ensembles 论文简读
蛋白质的生物功能通常依赖于动态的结构集合。在这项工作中,开发一种基于流的生成模型方法,用于学习和采样蛋白质的构象景观。重新利用诸如AlphaFold和ESMFold这样的高精度单态预测器,并在自定义的流匹配框架下对它们进行微调,以获得称为AlphaFLOW和ESMFLOW的序列条件生成蛋白质结构模型。当在PDB上训练和评估时,我们的方法提供了比AlphaFold结合MSA子采样更优越的精确度和多样性组合。
2024-03-25 18:27:40 617
原创 LLM - 大语言模型的指令微调(Instruction Tuning) 概述
大语言模型的指令微调(Instruction Tuning)是一种优化技术,通过在特定的数据集上进一步训练大型语言模型(LLMs),使其能够更好地理解和遵循人类的指令。这个数据集通常由一系列的指令和相应的期望输出组成。指令微调的目的是提高模型的能力和可控性,使其在执行任务时能够更准确地响应用户的需求。
2024-03-25 12:38:48 1444
原创 LLM - 大语言模型的分布式训练 概述
大语言模型的分布式训练是一个复杂的过程,涉及到将大规模的计算任务分散到多个计算节点上。这样做的目的是为了处理巨大的模型和数据集,同时,提高训练效率和缩短训练时间。
2024-03-22 00:18:50 1190
原创 Server - Kubernetes 的 KFP 的 Jobs 流程 YAML 脚本 (Bug: Missing type annotation for argument)
Kubernetes 的 KFP(Kubeflow Pipelines)是一个平台,用于构建和部署可扩展和可移植的机器学习(ML)工作流。允许用户以简单、可复用和可组合的方式定义机器学习任务,并支持各种 ML 框架。KFP 包括一个用于构建 ML 管道的 SDK,以及用于运行这些管道的运行时环境。通过 KFP,用户可以轻松地将机器学习模型从实验转移到生产环境,同时保持模型的可追溯性和版本控制。
2024-03-15 17:19:06 367
原创 Server - 使用 文件锁 解决 Kubernetes 多机批量运行程序 (Python)
在 Python 中,使用文件锁来解决多机批量运行程序的问题是一种常见的同步机制。这主要是为了防止多个进程同时对同一文件进行写操作,从而避免数据损坏或不一致的情况。
2024-03-14 15:07:44 382
原创 LLM - 大语言模型的预训练数据(Dataset) 概述
BPE(Byte Pair Encoding)字节对编码模型,是用于NLP中的词元切分(Tokenization)的方法,核心思想是将常见的字符对(byte pairs)合并为一个单独的词元,从而减少整体的词元数量,同时保留了文本的重要信息。这种方法特别适用于处理词汇量非常大的语言模型,可以有效地减少词汇表的大小,同时保持语言的丰富性和表达能力。此外,BPE模型也支持多语言模型的训练,不依赖于特定语言的词汇结构。大语言模型的预训练数据通常涵盖了广泛的文本类型,以确保模型能够理解和生成多样化的语言内容。
2024-03-11 21:55:57 589
原创 LLM - 大语言模型的自注意力(Self-Attention)机制基础 概述
注意力(Attention)机制是大型语言模型中的一个重要组成部分,帮助模型决定在处理信息时,所应该关注的部分。在自然语言处理中,一个序列由一系列的元素组成。注意力机制通过为序列中的每个元素分配一个权重来工作,这个权重反映了每个元素对于任务的重要性。模型会更加关注权重高的元素。自注意力(Self-Attention)是一种特殊的注意力机制,不是将输入序列与输出序列关联起来,而是关注序列内部元素之间的关系。
2024-03-11 15:38:31 1176 1
原创 LLM - 大语言模型(LLM)发展 概述
大语言模型(LLM, Large Language Model)的发展和应用是一个非常广泛的领域,涉及从早期的统计模型到现代基于深度学习的模型。在自然语言处理领域的应用非常广泛,包括但不限于聊天机器人、内容生成、情感分析、自动摘要、问答系统等。强大的文本生成能力,使其在内容创作领域具有巨大潜力,可以用于撰写文章、创作诗歌、生成新闻报道等。也可以为教育提供丰富的资源和工具,如自动评分、个性化学习辅导等,还可以用于构建智能客服系统,提高客户服务的响应速度和准确性。
2024-03-11 11:15:47 1015
原创 Server - Kubernetes (K8S) 运行 PyTorchJob 的 YAML 配置
PyTorchJob 是 Kubernetes 中的自定义资源,用于在 Kubernetes 上运行 PyTorch 训练任务,这是 Kubeflow 组件的一部分,具有稳定的状态,PyTorchJob 允许像管理 Kubernetes 中的其他内置资源一样创建和管理 PyTorch 作业。要使用 PyTorchJob,需要先安装 PyTorch Operator。默认情况下,PyTorch Operator 会作为控制器部署在 training operator 中。
2024-03-07 16:01:26 659
原创 PSP - AlphaFold2 Multimer 支持不同数据源的 MSAs 文件
在蛋白质复合物结构预测时,需要实验不同的 MSAs 来源,有些 MSAs 与 AFM (AlphaFold2 Multimer) 的格式不相同,需要优化 AFM 结构预测框架,适配这种情况。
2024-03-06 10:59:45 393
原创 BioTech - 药物晶型预测与剂型设计 概述
药物晶型预测与剂型设计是指利用计算机模拟和优化药物分子在固态形式下的结构、性质和稳定性,以及与制剂工艺和质量的关系,从而为药物开发和生产提供指导和支持。这是一个涉及多学科的前沿领域,具有重要的理论和实际意义。
2024-03-04 00:07:12 406
原创 BioTech - 药物设计的 ADMET 性质预测 概述
ADMET,即 Absorption、Distribution、Metabolism、Excretion、Toxicity,吸收、分布、代谢、排泄、毒性,这些性质对于药物的疗效和安全性有重要的影响。因此,在药物开发的早期阶段,就能依据化合物的 ADMET 性质,对于先导化合物进行有针对性的选取和优化,是非常必要的。然而,实验评估 ADMET 性质是耗时、耗费和有限的,因此,利用机器学习或深度学习等计算方法来预测 ADMET 性质,是一种有效的替代方案。
2024-03-03 21:42:13 920
原创 CryoEM - CryoAI: Amortized Inference of Poses 工程源码复现
CryoAI的主要内容是,用于同质构象的初步重构算法,该算法使用直接的基于梯度的优化方法,来估计单粒子冷冻电镜数据中的分子姿态和电子散射势。CryoAI结合可学习的编码器,用于预测每个粒子图像的姿态,以及物理的解码器,用于将每个粒子图像聚合到一个隐式的散射势体积的表示中。这个体积是以傅里叶域的形式存储的,以提高计算效率,并利用了一个现代的坐标网络架构,以提高内存效率。结合了一个对称化的损失函数,这个框架在模拟和实验数据上,都达到了与现有的冷冻电镜求解器相当的质量,而且在大数据集上的速度快了一个数量级,且内存
2024-03-01 11:35:13 806
原创 CryoEM - 使用 cryoSPARC 基于单颗粒图像从头重构蛋白质三维结构
基于冷冻电镜单颗粒图像重构蛋白质三维结构,利用冷冻电镜技术测定生物大分子结构的方法。原理是从冷冻电镜获得大量同一种蛋白质分子的二维投影图像,然后,利用三维重构算法计算出蛋白质的三维结构。这种方法的关键步骤是,估计每个投影图像的投影方向,即蛋白质分子在三维空间中的取向。这是一个非凸优化问题,需要用到一些数学和计算机科学的知识。基于冷冻电镜单颗粒图像重构蛋白质三维结构是一种非常先进和有效的技术,可以揭示蛋白质的功能、结构和相互作用,对于生物医学研究和应用有着重要的意义。可以使用 cryoSPARC 软件,基于单
2024-03-01 01:04:48 1289
原创 BioTech - Re-Dock: Towards Flexible and Realistic Molecular Docking with Diffusion Bridge 简读
本文提出了一种受牛顿-欧拉方程启发的能量-几何映射,来共同建模结合能量和构象,以反映能量约束的对接生成过程。在包括 apo-dock 和 cross-dock 的设计基准数据集上的综合实验表明,模型在有效性和效率方面优于当前的方法。
2024-02-27 11:53:09 1001
原创 BioTech - 大分子(大环类、蛋白质、核酸)的药物设计 概述
大分子药物设计领域主要包括3个方面,即大环类药物设计、蛋白质与多肽类药物设计、核酸药物设计等。大环类药物设计是指利用具有大环结构的化合物作为药物候选分子或先导化合物的设计策略。蛋白质与多肽类药物设计是指利用具有蛋白质或多肽结构的生物大分子作为药物候选分子或先导化合物的设计策略。核酸药物设计是指利用具有核酸结构的生物大分子作为药物候选分子或先导化合物的设计策略。
2024-02-26 16:30:11 968
原创 BioTech - 交联质谱 (Crosslinks) 的常见数据格式说明
交联质谱 (crosslink) 技术是一种结合化学交联剂和质谱仪的方法,用于研究蛋白质或蛋白质复合物的空间结构和相互作用。交联质谱技术的基本原理是,通过使用带有两个或多个反应性基团的化学交联剂,将空间距离在交联剂臂长范围内的两个氨基酸通过稳定的共价键连接起来,形成交联肽段。然后,将交联后的蛋白质或复合物进行酶切,用液相色谱 (LC) 分离和质谱 (MS) 分析,鉴定出交联位点,从而获取蛋白质的三维构象信息和相互作用区域。
2024-02-20 15:08:52 489
原创 BioTech - 大型蛋白质复合物的组装流程 (CombFold)
CombFold 的优点是能够利用 AlphaFold2 的高精度预测,快速地组合和优化亚基,从而生成高质量的蛋白质复合物结构,还支持结合交联质谱的距离约束和快速枚举可能的复合物组成。
2024-02-20 13:07:35 1005
原创 BioTech - 使用 CombFold 组合装配实现大型蛋白质复合物的结构预测
组合装配 (Combinatorial Assembly) 是一种高效且准确的算法,能够预测出大型、不对称的蛋白质复合物的结构,甚至在缺乏实验数据的情况下也能够做到。还支持结合交联质谱的距离约束,以及快速枚举可能的复合物组成。组合装配的高精度,使得成为了扩展蛋白质结构覆盖范围的有力工具
2024-02-19 14:50:03 883
原创 BioTech - CombFold: Predicting structures of large protein assemblies 推理流程
CombFold 是一种新的组装技术,可以利用 AlphaFold-Multimer 预测的可能的亚复合物的结构,来构建大型蛋白质复合物的结构。CombFold 的推理步骤如下:第一步:定义亚单位。第二步:使用 AlphaFold-Multimer 预测所有亚单位配对的结构。第三步:[可选] 使用 AlphaFold-Multimer 预测更大的亚单位组合的结构。第四步:运行组合式组装算法,将所有生成的结构组合成一个大型复合物的结构。
2024-02-19 11:09:49 805
原创 BioTech - CombFold: Predicting structures of large protein assemblies 环境配置
CombFold 流程,从复合物中链的序列开始,预测大型蛋白质复合物的结构 (最多包含18000个氨基酸和32个亚基)。该流程使用 AlphaFold-Multimer (AFM) 来预测 *可能的亚基复合物* 的结构,这些亚复合物是目标复合物的亚基的组合。CombFold 组合装配算法,将这些结构组装成一个单一的大型复合物。
2024-02-18 15:47:33 888
原创 BioTech - CombFold: predicting structures of large protein assemblies 论文简读
CombFold 算法,用于预测大型蛋白质复合物的结构,利用由 AlphaFold2 预测的亚基之间的成对相互作用。尽管大型蛋白质复合物的预测,仍然具有挑战性,但是 CombFold 在两个包含 60 个大型非对称组装的数据集中准确地预测了 72% 的复合物
2024-02-17 22:56:30 980
原创 BioTech - AFM-RL: Large Protein Complex Docking Using AlphaFold-Multimer and Reinforcement Learning
AFM-RL 扩展了这种方法的能力,使其能够预测具有六到二十条链的大型蛋白质复合物的结构。我们使用 AlphaFold-Multimer (AFM) 来预测成对的模型,然后使用我们的强化学习框架来组装它们。我们的新方法,AFM-RL,可以预测一组多样的成对模型,这有助于RL组装步骤为大型蛋白质复合物。此外,AFM-RL 在与现有方法进行大型蛋白质复合物对接的建模性能方面表现出了改进。
2024-02-09 19:26:35 832
原创 Paper - VQGAN: Taming Transformers for High-Resolution Image Synthesis 简读
本文获得一个有效和富有表现力的模型的关键启发是,卷积和Transformer架构结合起来,可以建模视觉世界的组合性质:本文使用卷积方法来高效地学习一个包含丰富上下文的视觉部件的码本,然后学习一个全局组合的模型。这些组合中的长距离交互,需要一个富有表现力的Transformer架构,来建模其构成视觉部件的分布。此外,本文利用对抗方法,来确保局部部件的字典,捕捉到感知上重要的局部结构,从而减轻了用Transformer架构建模低级统计的需要。让Transformer专注于独特优势——建模长距离关系——使它们能够
2024-02-06 13:04:07 878
原创 Paper - VQVAE-2 多尺度分层结构的 VQ-VAE 模型
VQ-VAE-2,即向量量化变分自编码器(VQ-VAE) 的第2版。VQ-VAE 利用离散的隐变量,来近似连续的潜在分布,有效地压缩图像信息,结合自回归的先验来重建或生成图像。VQ-VAE-2提出一种多尺度的分层结构的VQ-VAE模型,在不同的分辨率上对图像进行编码和解码,提高图像的一致性和保真度。同时,引入一种基于PixelCNN的强大的先验,可以在压缩的隐空间中对隐变量进行建模,从而增加了生成图像的多样性和质量。
2024-02-03 12:42:55 1072
MMseqs2最新版本可执行文件
2023-07-27
冷冻电镜的低通滤波算法
2022-08-02
craft_models.zip
2021-05-27
ICDAR_2015.zip
2021-05-27
Solidity Programming Essentials
2018-06-09
Earthquake - Android Studio 代码
2014-03-24
ContactPicker(选择联系人) - Android
2014-03-20
Compass-Android
2014-03-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人