LSF 基本介绍

LSF(Load Sharing Facility)是 IBM 旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。作用上与 PBS 一样,使用方法略有不同。

查看各个队列的排队状况

bqueues

查看 linuxq 队列的排队状况。

bqueues -l linuxq

查看队列系统中各个主机的状态

bhosts

显示最近完成和正在进行作业的历史情况

bhist

删除指定 jobid 的作业

bkill 400

查看队列系统中各个计算工作的执行状态

bjobs

查看 linuxq 队列中的各个工作的执行状态。

bjobs -l linuxq

查看用户为 user20 的各个工作的执行状态。

bjobs -u user20

查看所有用户的各个工作的执行状态。

bjobs -u all

显示正在运行的作业。

bjobs -r

显示正在运行、完成和运行的作业。

bjobs -a

显示等待运行的作业和原因。

bjobs -p

显示挂起的作业和原因。

bjobs -s