LSF 基本介绍
LSF(Load Sharing Facility)是 IBM 旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。作用上与 PBS 一样,使用方法略有不同。
查看各个队列的排队状况
bqueues
查看 linuxq
队列的排队状况。
bqueues -l linuxq
查看队列系统中各个主机的状态
bhosts
显示最近完成和正在进行作业的历史情况
bhist
删除指定 jobid 的作业
bkill 400
查看队列系统中各个计算工作的执行状态
bjobs
查看 linuxq
队列中的各个工作的执行状态。
bjobs -l linuxq
查看用户为 user20
的各个工作的执行状态。
bjobs -u user20
查看所有用户的各个工作的执行状态。
bjobs -u all
显示正在运行的作业。
bjobs -r
显示正在运行、完成和运行的作业。
bjobs -a
显示等待运行的作业和原因。
bjobs -p
显示挂起的作业和原因。
bjobs -s