首页 南京大学IBMHS22刀片集群系统用户手册

南京大学IBMHS22刀片集群系统用户手册

举报
开通vip

南京大学IBMHS22刀片集群系统用户手册南京大学IBM HS22刀片集群系统用户手册 南京大学IBM HS22刀片集群系统用户手册 一、IBM HS22刀片集群系统的硬件架构和软件配置 1.​ 硬件架构 1.1​ 系统总体逻辑图 1.2​ 节点命名规则: 根据用途系统内各节点分为: (1)​ 登录节点:c01n01, c01n02….c01n10对应的网址:172.19.18.11…..172.19.18.20 (2)​ 计算节点:c02n01,c02n02…c02n14 c03n01,c02n02…c03n14 ……. c28n01,c28n02…c2...

南京大学IBMHS22刀片集群系统用户手册
南京大学IBM HS22刀片集群系统用户手册 南京大学IBM HS22刀片集群系统用户手册 一、IBM HS22刀片集群系统的硬件架构和软件配置 1.​ 硬件架构 1.1​ 系统总体逻辑图 1.2​ 节点命名规则: 根据用途系统内各节点分为: (1)​ 登录节点:c01n01, c01n02….c01n10对应的网址:172.19.18.11…..172.19.18.20 (2)​ 计算节点:c02n01,c02n02…c02n14 c03n01,c02n02…c03n14 ……. c28n01,c28n02…c28n10 c29n01,c29n02…c30n14 c30n01,c30n02…c30n14 (3)​ 并行存储节点: fnode01-----fnode20 (4)​ 作业管理调度节点:qnode01,qnode02,qnode03 1.3 登录节点配置: ​ HS22刀片中心9U高度,2X2900W 电源,20Gb14口Infiniband交换机,双千兆对内14口对外六口交换机,双百兆管理网口,14个刀片插槽 ​ 每刀片2路 Intel Xeon 5550 2.67GHz 4核处理器 ​ 每节点配备24GB DDRIII ECC 1333GHz 内存 ​ 内置2块146GB SAS本地硬盘 ​ 内置2双 1000Mbps网卡 ​ 一块Infiniband(20Gb/S)网卡 ​ 一块光纤存储卡(4Gb/S) ​ OS RedHad Linux 5.3 64Bit Server Edition ​ 登录节点包括5套网络:千兆外部接入网络、千兆作业调度、管理网络、Infiniband并行互联网络、百兆管理网络和光纤存储网络 1.4计算节点配置: ​ HS22刀片中心9U高度,2X2950W 电源,20Gb14口Infiniband交换机,千兆对内14口对外六口交换机,双百兆管理网口,14个刀片插槽 ​ 每刀片2路 Intel Xeon 5550 2.67GHz 4核处理器 ​ 每节点配备12GB DDRIII ECC 1333GHz 内存 ​ 内置146GB SAS本地硬盘 ​ 内置 1000Mbps网卡,用于作业管理、调度 ​ 一块Infiniband(20Gb/S)网卡,用于作业并行计算高速互联 ​ 计算节点包括3套网络:千兆作业调度、管理网络、Infiniband并行互联网络、百兆管理网络 1.5 存储系统: 存储系统分为两部分: 第一部分作为用户的家目录和备份用,由IBM DS5300 SAN存储构成,SATA磁盘阵列,裸容量128TB,双存储控制器,16GB共享缓存,16个4Gb光纤主机接口,4Gb光纤存储网络,做成两个GPFS文件系统、通过光纤接口分别连接到10个登录节点上,可提供2GB的I/O总带宽,用户家目录在登录节点上的路径为:/gpfssan1/home/username 或/gpfssan2/home/username 第二部分作为并行计算时的临时工作缓冲区,总共由20台IBM X3650 机架服务器组成: (1)​ Infiniband 存储网络数据传输带宽20Gb/s,连接集群系统中所有节点 (2)​ 配置成两个GPFS网络文件系统,挂接在10个登录节点和402个计算节点上,为每个用户开辟一块tmp区挂接在家目录下,用户将需要并行计算的作业脚本、运行数据及有关程序拷贝到该区后,用bsub递交作业 (3)​ 20个存储节点分别命名为fnode01~fnode20,存储节点通过SAS卡与6块450GB SAS盘直连,其中一块硬盘作为系统盘,另5块盘做成raid5磁盘阵列, 提供320Mb/s的IO带宽;通过Infiniband交换机与高速网络系统连接,组成1个gpfs文件系统,可提供6GB/s的I/O总带宽 存储节点上的挂载路径为:/gpfsTMP 2 软件 2.1 操作系统: RedHad Linux 5.3 64 bits Enterprise Server Edition 编译软件: Intel C 11.0、C++ 11.0、Fotran 11.0、MKL10.0库、OpenMPI、MPI3.2 Mpich 2.0 2.2 应用软件:(安装在 /gpfssan1/apps目录下) 1.Gaussian 03 2. VASP 4.6 3. AMBER 4. gromacs 5. Material Studio 3.作业管理系统与调度策略 南京大学高性能计算中心采用Platform公司的LSF资源调度软件对集群上的计算资源进行统一调度管理,用户提交作业时将统一使用LSF作业管理系统进行作业提交、管理、监控、删除、卸载等操作。 3.1 lsf 基本介绍 LSF HPC是智能化的、基于调度策略的高性能计算负载均衡管理系统,通过集中监控、调度和分析联网计算机的负载,LSF HPC可最大限度地共享计算机的CPU、内存、磁盘、License等计算资源。IBM HS22集群系统上安装集成了LSF HPC 7.0。 3.2 LSF作业生命周期流程 注:作业提交只可在登录节点c01n01….c01n10上 3.3IBM HS22集群系统的队列划分 常用的任务队列名称和说明见下 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf : Qseq 用户作业为串行进程的提交队列。C02、C03、C04、C05和C06刀片中心的节点被调度,按照先进先运行策略调度 qsmall 小规模应用作业队列。限制任务的进程数在2—8个进程,按照先进先运行策略调度,C11、C10、C09、C08、C07、C06、C05、C04、C03和C02刀片中心的节点被调度 qmedium 中规模应用作业队列。限制任务的进程数在9—64个进程,按照先进先运行策略调度,C12、C13、C14、C15、C16、C17、C18、C19、C20、C21和C22刀片中心的节点被调度 qlarge 用户大作业队列,限制任务的进程数在9---512个进程,按照先进先运行策略调度,C30、C29、C27、C26、C25、C24、C23、C22刀片中心的节点被调度 3.4 队列管理及其调度策略 ​ qlarge队列: (1)​ 大作业调度队列,且CPU数目必须为8的整数倍; (2)​ qlarge队列调度策略上采用8cpu/node限制 措施 《全国民用建筑工程设计技术措施》规划•建筑•景观全国民用建筑工程设计技术措施》规划•建筑•景观软件质量保证措施下载工地伤害及预防措施下载关于贯彻落实的具体措施 ,严格按FIFO方式预约节点资源; ​ qmedium队列: (1)​ 用户中规模作业调度队列; (2)​ 此队列可被qlarge队列抢占。 (3)​ 优先在qsmall和qseq队列对应节点区域调度,资源不够可抢占qsmall和qseq队列; ​ qsmall队列: (1)​ 小规模计算队列; (2)​ 优先在qseq队列对应节点区域调度,资源不够可抢占qseq队列; ​ qseq队列: (1)​ 串行作业默认调度队列; (2)​ Qmedium和qsmall队列在资源不够的情况下,可以抢占并suspend相关qseq队列作业; ​ 上述各队列中的用户都具有相同的优先级; ​ 除特殊说明外,所有队列都不作cpu/node限制,不采用FIFO方式预约节点资源,都遵循fairshare调度策略; 4.IBM 刀片集群系统的接入方式 所有c01n01….c01n10十个登录节点,Linux 用户可用ssh登录,Windows 用户可用F-Secure SSH Client等远程登录方式接入。Linux用户可利用sftp,Windows用户利用F-Secure SSH File transfer等软件上传和下载文件及数据。 校外用户可利用南京大学VPN或bras先进入南大网络,再利用以上 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 操作即可。 用户的家目录在:/gpfssan1/home/user, 同时在高速并行存储上为您开辟了目录 /gpfTMP/user 这里的user就是您的用户名,如果您做并行计算,在/gpfsTMP/user下递交作业将更快。 IBM刀片系统用户使用手册和LSF的使用手册在:/gpfssan1/home/userguide 用户的环境设置:(.bashrc)可根据自己的需要进行修改 # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # User specific aliases and functions #设置并行环境为openmpi #export PATH=/gpfssan1/apps/openmpi/bin:$PATH #export LD_LIBRARY_PATH=/gpfssan1/apps/openmpi/lib:$LD_LIBRARY_PATH #设置C,C++,fortran 的编译器和mkl为Intel Ver 11.1 Source /gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64/iccvars_intel64.sh Source /gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64/ifortvars_intel64.sh source /gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64/idbvars.sh source /gpfssan1/apps/intel/Compiler/11.1/064/mkl/tools/environment/mklvars64.sh ##设置并行环境为intel MPI 3.2.1 source /gpfssan1/apps/intel/impi/3.2.1.009/bin64/mpivars.sh export NETCDF=/gpfssan1/apps/netcdf-4.0.1-intel #export NETCDF=/gpfssan1/apps/netcdf-4.0.1-tmp/netcdf-4.0.1 export PATH=$NETCDF/bin:$PATH:./ export I_MPI_DEVICE=rdssm ./gpfssan1/apps/lsf/conf/profile.lsf 二、IBM HS22刀片集群系统的用户作业管理 5.作业提交基本流程 Step1 : 用户准备数据输入文件与作业脚本文件; Step2 : ftp上传数据文件至用户目录; Step3 : 登录到c01n01…c01n10登录节点上,利用bsub命令提交作业。对于一些商业化软件可利用Web Portal 提交作业(正在实施中); Step4 : 监控作业完成,并通过ftp下载结果文件。 6.编译系统与并行环境 包括GNU Fortran, GNU C/C++, f77和f95命令在/usr/bin中. 以下是用于编译、链接的常用命令: G77: 用于Fortran程序编译和链接. 优化选项用 "-O2" 或 "-O3" 即可。 例:对于单进程FORTRAN程序编译、链接用 % g77 –O3 –o mytest mytest.f cc, gcc, g++, c++等: 用于C/C++程序的编译和链接. 优化选项可用 "-O", "-O2" 或 "-O3". 例:对于单进程C程序编译、链接用 % gcc –O3 –o mytest mytest.c 关于g77,gcc,gc++,g++这几个命令更详细的说明,可以用“%man 命令” 查看。 Intel Compiler软件装在/gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64目录中,支持C, C++, FORTRAN90, FORTRAN95,包括MKL10.0动态和静态链接库。 以下是用于编译、链接的常用命令: icc 是Intel 公司的C语言编译器 例:对于单进程C程序编译、链接用 % icc –O2 –o tt tt.c ifort是Intel 公司的FORTRAN语言编译器 例:对于单进程FORTRAN程序编译、链接用 % ifort –O2 –o tt tt.f 并行环境为Intel公司的MPI,该MPI支持MPI-2.0 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 。 Intel MPI 3.2软件装在/gpfssan1/apps/intel/impi/3.2.1.009/bin64目录中,常用编译命令有mpif77、mpif90、mpiifort、mpigcc、mpig77、mpigxx、mpiicc和mpicc等,常用并行运行命令有mpirun和mpiexec等。 编译并行源程序的例: % mpiicc –O3 –o tc tc.c 这里的tc.c为用MPI并行C语言编写的源程序,-O3指定优化级别,-o tc是指定生成的运行文件名,如果不指定运行文件名,将自动生成a.out 。 % mpiifort –O3 –o tt tt.f 这里的tt.f为用MPI并行FORTRAN语言编写的源程序,-O3指定优化级别,-o tt是指定生成的运行文件名,如果不指定运行文件名,将自动生成a.out 。 运行源程序的例: % mpirun –n 4 –np 32 tt 这里-n 4 -np 32 是向系统申请4个节点32个CPU(核),tt为可执行并行文件。 % mpirun –np 8 tc 这里-np 8 是向系统申请8个CPU(核),tc为可执行并行文件。 7. 利用LSF递交作业 为了便于管理充分利用计算资源,规定用户不能登录到计算节点,这样用户只能通过LSF递交作业,由LSF自动分配调度计算资源。 1)​ 设置LSF 环境变量 bash: %. /gpfssan1/apps/lsf/conf/profile.lsf csh source /gpfssan1/apps/lsf/conf/cshrc.lsf % env | grep LSF LSF_SERVERDIR=/gpfssan1/apps/lsf/7.0/linux2.6-glibc2.3-x86_64/etc LSF_LIBDIR=/gpfssan1/apps/lsf/7.0/linux2.6-glibc2.3-x86_64/lib LSF_VERSION=7.0 LSF_BINDIR=/gpfssan1/apps/lsf/7.0/linux2.6-glibc2.3-x86_64/bin XLSF_UIDDIR=/gpfssan1/apps/lsf/7.0/linux2.6-glibc2.3-x86_64/lib/uid 2)​ LSF_ENVDIR=/gpfssan1/apps/lsf/conf 3)​ 作业提交 % $ cd /gpfsTMP/WRFV3_intel/WRFV3_chu/run % $ bsub -a intelmpi -n 40 mpirun.lsf ./wrf.exe (递交作业到缺省队列) 系统显示: LSB_SUB_RES_REQ="select[ (intelmpi) ]" Job <321> is submitted to default queue < qmedium > 其中: -a intelmpi 指定该作业使用intelmpi -n 40 指定作业进程数 mpirun.lsf 为LSF系统脚本,放在可执行文件前 wrf.exe 为可执行文件。 强制指定按节点分配CPU的方式 % bsub -a intelmpi -n 16 -R "span[ptile=8]" mpirun.lsf ./a.out 其中 -R "span[ptile=8]" 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 系统按8的整数倍分配CPU % bjobs (查看提交的作业所分配节点 ) JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME 321 test1 RUN qmedium c01n01 8*c22n14 *./wrf.exe Dec 30 14:39 8*c30n14 8*c23n13 8*c29n13 8*c25n06 % bsub -a intelmpi -n 512 –q qlarge mpirun.lsf ./wrf.exe (递交作业到指定队列) 系统显示: LSB_SUB_RES_REQ="select[ (intelmpi) ]" Job <321> is submitted to queue . 其中: -q qlarge 指定将作业放入qlarge队列排队。 gromacs作业的递交方法(先把用户并行环境改成openmpi方式) % bsub -n 16 openmpi.lsf mdrun -deffnm test 用脚本递交一个作业 %vi spoolfile #BSUB -q qmedium 指定队列 #BSUB -a intelmpi 指定并行环境 #BSUB -n 16 指定CPU(core)个数 #BSUB -R "span[ptile=8]" 指定分配的每节点8个CPU cd /gpfssan1/home/zql/test 进入工作目录 mpirun.lsf ./tt 执行当前目录下的tt文件 % bsub < spoolfile 递交作业 4)​ 检查作业状态 bjobs命令列出了用户提交作业的作业号、用户名、作业状态、作业列队、作业提交 点、作业计算节点、作业名以及作业提交时间等信息。 % bjobs -a -w wide format -aps 等待作业按作业执行顺序排序显示 -u all 显示所有作业 % bjobs -l 321 | more Job <321>, User , Project , Status , Queue , Comma nd , Share group charged Wed Dec 30 14:39:45: Submitted from host , CWD , Output File , Re-runnable, 40 Processors Requested, Req uested Resources ; Wed Dec 30 14:39:49: Started on 40 Hosts/Processors <8*c22n14> <8*c30n14> <8*c 23n13> <8*c29n13> <8*c25n06>, Execution Home , Execution CWD ; Wed Dec 30 14:44:58: Resource usage collected. The CPU time used is 128464 seconds. MEM: 94878 Mbytes; SWAP: 188287 Mbytes; NTHREAD: 1031 PGID: 9856; PIDs: 9856 9857 9859 10054 9861 PGID: 10136; PIDs: 10136 PGID: 10137; PIDs: 10137 PGID: 9934; PIDs: 9934 9934 9934 9934 9934 9934 9934 在线检查作业执行结果命令:bpeek 『JOBID』 % bpeek -f 321 << output from stdout >> starting wrf task 40 of 40 5)​ 查看历史作业 % bhist -a Summary of time in seconds spent in various states: JOBID USER JOB_NAME PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL 111 test1 *ep 1000 4302 0 1000 0 0 0 5302 112 test1 *ep 1000 5305 0 1000 0 0 0 6305 % bhist -l 321 Job <321>, User , Project , Command Wed Dec 30 14:39:45: Submitted from host , to Queue , CWD , Output File , Re-runnable, 40 Proces sors Requested, Requested Resources ; Wed Dec 30 14:39:49: Dispatched to 40 Hosts/Processors <8*c22n14> <8*c30n14> < 8*c23n13> <8*c29n13> <8*c25n06> Wed Dec 30 14:39:49: Starting (Pid 9856); Wed Dec 30 14:39:49: Running with execution home , Execut ion CWD , Execution Pi d <9856>; Summary of time in seconds spent in various states by Wed Dec 30 14:49:38 PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL 4 0 589 0 0 0 593 6)​ 作业管理 结束作业进程命令:bkill 『JOBID』 %bkill 112 suspend用户作业,作业执行状态由RUN转变为SUSPEND %bstop 112 resume用户作业,作业执行状态由SUSPEND转变为RUN。 %bresume 112 7)​ 队列配置 % bqueues QUEUE_NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PEND RUN SUSP qdebug 50 Open:Active - - - - 0 0 0 0 qseq 45 Open:Active - - - - 0 0 0 0 qsmall 40 Open:Active - - - - 0 0 0 0 qmedium 35 Open:Active - - - - 0 0 0 0 qlarge 30 Open:Active - - - - 0 0 0 0 8)​ 机器分组 % bmgroup GROUP_NAME HOSTS c30 c30n13 c30n14 c30n01 c30n02 c30n03 c30n04 c30n05 c30n06 c30n07 c30n08 c30n09 c30n10 c30n11 c30n12 c29 c29n13 c29n14 c29n01 c29n02 c29n03 c29n04 c29n05 c29n06 c29n07 c29n08 c29n09 c29n10 c29n11 c29n12 c28 c28n01 c28n02 c28n03 c28n04 c28n05 c28n06 c28n07 c28n08 c28n09 c28n10 9)​ 机器状态 % lsload | more HOST_NAME status r15s r1m r15m ut pg ls it tmp swp mem qnode03 ok 0.0 0.0 0.0 0% 0.0 2 1 208G 20G 17G c02n01 ok 0.0 0.0 0.0 0% 0.0 0 66 111G 10G 11G c02n02 ok 0.0 0.0 0.0 0% 0.0 0 66 111G 10G 11G c02n03 ok 0.0 0.0 0.0 0% 0.0 0 66 111G 10G 11G c02n05 ok 0.0 0.0 0.0 0% 0.0 0 66 111G 10G 11G Linux 常用命令 1.date :显示或设置系统时间 2. stty -a: 可以查看或者打印控制字符(Ctrl-C, Ctrl-D, Ctrl-Z等) 3. passwd: 更改用户登录密码 4. login, logout: shell的登录和注销 5. pwd: 显示当前目录 6.cd : 进入指定目录 7. more, less, head tail: 显示或部分显示文件内容. 8. lp/lpstat/cancel, lpr/lpq/lprm: 打印文件的有关命令. 9. chmod :更改文件读、写或执行权限 9. rm :删除文件或目录 10. cp :拷贝文件或目录 11.mv : 文件更名或移动 12.vi :文本编辑器 13.top : 查看系统长时间运行的主要进程 14. fg jobid :可以将一个后台进程放到前台。   Ctrl-z 可以将前台进程挂起(suspend), 然后可以用bg jobid 让其到后台运行。   job & 可以直接让job直接在后台运行。 15. ps :查看系统进程, ps -e 或 ps -o pid,ppid,session,tpgid, comm (其中session显示的sessionid, tpgid显示前台进程组id, comm显示命令名称。) 16. kill : 杀掉一个指定进程号的进程或向系统发送一个信号。 17.man :给出指定命令的详细描述。 18.ls :列出当前或指定目录下的文件或目录。 19.rlogin, telnet, rsh, ssh :远程登录。 20.rcp,ftp, sftp,scp: 远程文件拷贝。 Linux 的绝大部分命令都可以用man 命令来查看更详细的说明。
本文档为【南京大学IBMHS22刀片集群系统用户手册】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_144099
暂无简介~
格式:doc
大小:259KB
软件:Word
页数:10
分类:互联网
上传时间:2011-07-27
浏览量:99