自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (13)
  • 收藏
  • 关注

原创 Slurm开发入门介绍

目录1.形势分析1.1.我国新基建战略与先进计算产业1.2数据中心/云计算中心/超算中心的核心部件以X86服务器为主1.3 大国在HPC领域的较量2.1.调度技术一览2.2 Slurm2.2.2.Slurm的关键功能2.3.应用2.3.1超算应用2.3.2应用范式2.4.资源2.4.1.集群2.4.2.计算2.4.3.网络2.4.4.存储1.形势分析1.1.我国新基建战略与先进计算产业1.2.数据中心/云计算中心/超算中..

2021-06-22 09:51:39 2102 1

转载 拥抱高性能计算:将Slurm集成为K8s调度程序

SUNK是一个开源项目(将于 2024 年初发布),它将 Kubernetes 容器化部署和 GitOps 引入 Slurm,并将 Slurm 调度程序插件集成到 Kubernetes。本质上,SUNK 将 Slurm 集成为 Kubernetes 调度程序,并允许 Slurm 作业在 Kubernetes 内运行。这创造了更加无缝的体验,在同一中央平台上支持爆发式和批量工作负载,并允许开发人员利用 Kubernetes 上的 SLURM 资源管理。

2023-11-27 15:36:05 1851

原创 Slurm集群调度策略详解(2)-回填调度

回填调度在slurm中采用基于Conservative Backfilling的算法,通过插件的形式来提供服务。slurmctld服务在启动时,默认或根据配置项SchedulerType=sched/backfill进行回填调度插件的加载。回填调度充分利用大作业排队的时间间隙,在不会延迟任何较高优先级大作业预期开始时间的前提下,将优先调度低优先级的小作业启动运行。回填调度的使用,将提高小作业的响应时间,而且提高系统资源的利用率。

2023-02-27 10:44:39 2198

原创 burst buffer技术初探

burst buffer是超算中一种作业加速技术,主要解决全球气候模拟预测建模、流体力学分析、磁性融合、天体物理学、生物分子模拟中浪涌型I/O的情况,burst buffer作为前端计算和后端存储之间的缓冲区,它弥合了计算节点的处理速度与存储系统的I/O带宽之间的性能差距。本文介绍了常见burst bufffer技术以及slurm 对burst buffer的支持。

2022-12-12 10:04:04 1473

原创 Slurm集群调度策略详解(1)-主调度

Slurm调度系统中针对作业的调度主要有三种,主调度,回填调度,GANG调度,这篇文章主要针对主调度进行解析。

2022-11-10 14:14:11 3660

原创 Slurm集群安装部署

本文档来源于Slurm China社区小伙伴对Slurm集群安装部署的文档汇总:Centos7搭建slurm-21.08.5作业管理系统集群,支持Token登录 (wanghaiqing.com)Automatic SLURM Build & Installation Script | Commercial Support | NI SP (ni-sp.com)Ubuntu 18.04/Mint 19 单机安装Slurm从0搭建Centos7 计算集群想加入Slurm China

2022-04-06 10:05:10 1460 1

原创 Slurm China社区简介

社区以Slurm为切入口讨论HPC相关问题,致力于守卫中国HPC集群稳定运行。

2022-03-10 11:24:13 442 2

原创 HPC领域有价值的信息源

行业调研:1.Intersect360:http://www.intersect360.com/index.html2.Gartner:https://www.gartner.com/HPC行业博客:1.HPCwire:https://www.hpcwire.com/2.insideHPC:https://insidehpc.com/3.HPC in ...

2019-12-23 14:37:35 775

原创 Slurm的PBS、LSF兼容接口

Slurm工作负载管理器软件是一个免费的开源工作负载管理器,专为满足高性能计算的苛刻需求而设计。LSF(Load Sharing Facility)是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。Slurm通过openlava接口提供了对LSF的必要兼容,可以实现作业提交、取消、查询等功能。slurm-18.08源码中,openlava接口位于slurm-18.08.2/contr...

2019-12-21 16:15:14 2707 1

原创 Slurm MPI Job

1. compute_pi.cpp#include <mpi.h>#include <math.h>#include <sys/types.h>#include <unistd.h>#include <iostream>int main(int argc, char **argv) { int n, myid, nu...

2019-12-13 18:43:43 766

翻译 面向E级高性能计算的软件栈(五)

4. 使用示例在本节中,我们提出了一个PMIx接口的实际用例,该用例基于用户级故障缓解(ULFM)规范来支持开放MPI中的容错,该规范加强了检测并协调对故障事件的响应。响应故障是一个复杂的问题,因为系统中的各种组件都可能报告事件,例如网络驱动程序、来自故障MPI通信的带内检测、MPI进程资源环境、系统范围的资源管理器RAS服务、交换机和SNMP陷阱。类似地,多个组件可能对错误事件感兴趣并作...

2019-12-07 18:14:03 642

翻译 面向E级高性能计算的软件栈(四)

3.3. 动态进程管理历史动态进程管理API反映了大容量同步编程模型(如MPI-3标准)的需求,这些模型要求操作作为一个集合执行,所有指定的进程在声明操作完成之前参与操作。最近,编程库已经开始向异步模型的方向发展,在异步模型中,进程定期聚合成组,然后在完成一些操作之后解散。这些新方法将受益于通知其他进程希望聚合的功能,并允许聚合进程本身异步进行。PMIx通过引入在以前PMI实现中找到的“C...

2019-12-07 15:55:04 321

翻译 面向E级高性能计算的软件栈(三)

3. 当前关注领域在本节中,我们将讨论当前的PMIx标准工作组,以及他们正在设计的接口如何帮助降低开销并提供新功能。除非指定,否则这些功能存在于当前的v2.0规范中,并在相应的v2.x参考实现中得到支持。3.1 协调启动过程正如前面所讨论的,应用程序启动期间的最大时间成本历来是集体共享连接端点信息(BCX)所需的时间,其次是开始操作之前的屏障(barrier)。对交换数据的分析显示,在...

2019-12-06 16:05:55 339 2

翻译 面向E级高性能计算的软件栈(二)

2. PMIx 社区PMIx社区由横跨一般HPC领域的行业、政府和学术界成员组成,专门关注应用程序启动和执行的编排。社区的出现源于对两个问题的共同关注,一个是与机器规模的不断扩大相关的问题,另一个是支持HPC编程领域不断增长的创新浪潮的能力。在如此多样化的集合中组成联盟绝非易事,一个关键因素是早期达成的协议,即任何SMS子系统都保留对任何请求返回“不支持”响应的权利。因此,与会者基本上同意...

2019-12-05 16:36:54 728

原创 Slurm使用hdf5/influxdb收集节点和作业的能耗、IB、fs等信息

1. 参数1.1 slurm.confAcctGatherNodeFreqAcctGather插件用于节点计费的采样间隔。 对于AcctGather插件值为none的情况,将忽略此参数。 对于所有其他值,此参数是节点记帐样本之间的秒数。 对于acct_gather_energy / rapl插件,请将其值设置为小于300,因为计数器可能会超出此速率溢出。 默认值为零, 此值禁用节点的记...

2019-12-04 11:54:34 1681

原创 Slurm限制普通用户登陆计算节点(超算管理员必看)

SLURM提供了通过PAM插件限制普通用户随意登陆计算节点的功能。(一)配置过程(1)编译Slurm时指定编译参数--enable-pam。(2)在slurm源码安装目录contribs/pam_slurm_adopt/目录下make && make install。然后将生成的pam_slurm_adopt.a, pam_slurm_adopt.la和 pam_s...

2019-12-01 20:35:06 6833 5

原创 Slurmd调用PMIX然后调用UCX流程

1. GDB调试slurmd过程kill -9 `pidof gdb` && kill -9 `pidof slurmd`systemctl restart slurmd && sinfo && gdb slurmd_set follow-fork-mode childb slurmd_reqrcc>sbat...

2019-11-16 20:01:51 1680 4

翻译 面向E级高性能计算的软件栈(一)

1. 介绍尽管处理器频率停滞不前,但维持可控的功率预算的需求,对生产更强大超级计算机的动力构成了挑战。高性能计算(HPC)系统随后采用了基于稳定增长的计算单元的多级、大规模并行计算。因此,在可靠性和功率约束下实现百亿亿次性能所需要的十亿个并行方式有望在50-100k节点中实现,这将推动未来的节点架构朝着多核和基于加速器的设计方向发展,从而按agnitude的顺序增加每个节点的复杂性。同时,成本...

2019-11-11 18:04:32 1183

原创 Slurm基本用法(入门必看)

本文描述Linux集群的基本Slurm用法。1. 一个简单的Slurm脚本$ cat slurm-job.sh#!/usr/bin/env bash#SBATCH -o slurm.sh.out#SBATCH -p defqecho "In the directory: `pwd`"echo "As the user: `whoami`"echo "write this ...

2019-11-10 00:05:43 49074 50

原创 Slurm架构和源码分析

1. Slurm简介SLURM (Simple Linux Utility for Resource Management)是一个可用于大型计算节点集群的高度可伸缩的集群管理器和作业调度系统。由60万行C代码组成。SLURM 提供三种关键功能:分配对资源的排他和/或非排他访问; 提供一个用于在分配的节点集上启动、执行和监视作业的框架; 通过管理一个未完成作业队列来解决对资源的争用。...

2019-11-05 15:42:16 4367

原创 Slurm的前处理prolog和后处理epilog

1. Slurm前处理和后处理Slurm支持大量的prolog和epilog程序。 请注意,出于安全原因,这些程序没有设置搜索路径。 在程序中指定完全限定的路径名或设置“PATH”环境变量。 下面的第一个表格列出了可用于作业分配的prolog和epilog,它们的运行时间和地点。 参数 地点 由...调用 用户 ...

2019-11-05 11:02:50 1885

原创 Slurm如何应对超大作业的NSS压力?

nss_slurm是一个可选的NSS插件,它允许计算节点上的作业通过本地slurmstepd进程进行passwd和group解析,而不是通过其他基于网络的服务,如LDAP、SSSD或NSLCD。在集群上启用时,对于每个作业,作业的用户将拥有完整的struct passwd信息——用户名、uid、主gid、gecos信息、主目录和shell——作为每个步骤启动的一部分安全发送,并缓存在slurm...

2019-11-01 14:54:50 1250

原创 Slurm如何管理和使用节点资源

Slurm管理和使用集群节点资源主要分为四个环节:分别是初始化节点资源、更新节点资源、测试节点资源可用、实际分配节点资源。1.初始化节点资源slurmctld初始化时解析节点配置文件,借助几个全局数据结构(select插件中也有几个数据结构): node_record_table_ptr 节点数组,保存所有节点描述符 node_hash...

2019-10-31 15:50:10 9648 3

BlueField DPU Solutions 202104.pdf

关于Nvidia BlueField2最新介绍,涵盖DPU介绍、安全加速、存储加速、网络加速、裸金属云、bluefield 生态等主题。物超所值!

2022-01-11

UCX Training March 2020.pdf

UCX是高性能通信事实上的标准,本文是研究UCX的关键资料。主要介绍UCX概述,UCX API概述、UCP对象、通信建立和结束流程、发送和接受API和实现、实例代码与调试方法。

2021-06-23

AI芯片技术选型目录-2020.07_4.jpg

涉及云端 / 数据中心、边缘计算、终端、IP等各个方向的四大类数十种AI芯片的技术指标、应用案例。

2021-02-27

2020 HPC Report Market Update.pdf

HyperionResearch最新的HPC行业研究报告,包括最新市场份额、E级机、HPDA和AI等最新数据和趋势

2021-02-27

中国高性能计算发展战略专题合集.zip

这里面包括几篇文章:高性能计算机发展与政策、科学计算的应用现状及发展思考、新兴高性能计算行业应用及发展战略、中国超算产业发展现状分析

2021-02-27

部署和调试OpenMPI的最佳实践

美国E级机计划输出的文档,截止2020年部署和调试OpenMPI的最佳实践。涉及编译、调优调试、PMIx、GPU、容器等主题,带有Summit上的一些实践。

2020-12-22

slurm调度设计文档

一篇文档让你精通Slurm调度!Slurm调度的考虑点、调度模型、涉及的插件和参数、调度主要流程和关键代码。涉及主调度器/回填调度/网络拓扑/gpu调度/抢占/gang/资源预约/checkpoint等插件细节。

2020-12-22

How Mellanox BlueField SmartNIC Transforms Bare-Metal Cloud.pdf

本文档主要介绍Nvidia的BlueField的SmartNIC,一个新名词叫DPU。DPU是一种新型可编程处理器,集三个关键要素于一身。DPU是一种SOC(System On Chip),它结合了: 行业标准的、高性能及软件可编程的多核CPU,通常基于已应用广泛的Arm架构,与其的SOC组件密切配合。 高性能网络接口,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到GPU和CPU。 各种灵活和可编程的加速引擎,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。

2020-06-04

操作系统调度器的演进.pdf

本文档是华为OS内核实验室调度专家王飞老师整理的调度器演进的资料,主要介绍了调度的本质、调度需求、调度算法回顾、面向终端调度设计等几个方面。本文档广度与深度兼顾,是学习调度非常好的资料,对研究调度和OS的您一定大有帮助!

2019-12-21

MPI并行编程入门培训.pdf

该资料较详细的描述了MPI入门所需要的一些知识,包括并行计算基础知识,MPI概述,点到点通信/组通信,阻塞通信/非阻塞通信,MPI_Sendrecv和虚进程,自定义数据类型和虚拟进程拓扑。相信一定能够帮到您!

2019-12-11

PMIx Process management for exascale environments.pdf

这篇论文是美国E级机研究计划的部分成果,已经在世界排名前两名的超算美国Summit和Sierra上实施。 非专业人士请勿下载,专业人士请移步论文下载网站下载。

2019-12-01

InfiniBand Training - M.pdf

一份关于IB的非常详细的资料,可以获得对IB比较全面的认识。内容包括但不限于IB介绍,关键特性(高带宽、高扩展、Qos、Offload、低延迟、简化配置),IB架构(协议栈,物理层/链路层/网络层/传输层介绍,包结构等),IB网络管理等。

2019-12-01

slurm_design

SLURM是一种开源的、容错的、高度可伸缩的集群管理和作业调度系统,适用于数千个节点的Linux集群。组件包括机器状态、分区管理、作业管理、调度和流复制模块。本文概述了SLURM的体系结构和功能。

2018-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除