|
|
本文目录连接天河二号天河二号运行环境天河二号运行程序天河二号超级计算机于2013年在国家超算广州中心已正式投入运行,委托中山大学管理,目前是中国超算能力排名第二、全球排名前十的超级计算机。天河二号价格大约是0.1元/小时/cpu,费用不算高。* q9 F2 b2 k( E
本文简要介绍天河二号的使用步骤,包括连接到超级计算机、运行并行程序等。内容主要参考天河二号官方下方的文档,如遇到请问,请查看官方文档或联系工作人员。
1 J3 [/ u' T. T! {7 R准备工作:联系天河二号工作人员,填写申请表,审核通过后获得账号、密码、登录密钥和使用说明手册。; X* F0 S' x& ]2 N6 M* V
连接天河二号返回目录连接天河二号机器前,需先登录VPN。如果未安装VPN,先进入网页https://vpn3.nscc-gz.cn:4433下载Windows客户端,然后安装并运行程序。在出现的登录界面中填入以下信息:+ h; c/ w A5 j0 R
服务器:vpn1.nscc-gz.cn& x' B2 c j9 ~% M
端口: 4433
$ i7 ~" G/ ` W. A, X$ ~' ~账号: 账号# s: c+ N! X: z! I8 I
密码: 密码% K% P2 `; C0 j+ V& f6 T) y4 k3 _
如果信息无误,点解登录后VPN客户端会最小化到右下角托盘并显示绿色图标。# w3 q) n( d" ]! V, o+ i
登录VPN后,才可以用SSH方式连接到天河二号的登录节点。登录节点默认的认证方式是免密私钥认证,需提供开设账号时分发的私钥作为凭证。使用OpenSSH客户端连接的示例为:
3 f( T3 D6 ^5 o' a" Schmod 600 private_key && ssh -i private_key username@172.16.22.11* F* ~$ C; X5 I6 I3 F# m1 \6 D# r
private_key在windows下默认为755权限,OpenSSH会拒绝使用安全性低的私钥,chmod保证读写权限均为私有。
7 }. T7 i# K1 e9 B8 E% S5 d 天河二号运行环境返回目录通过一些命令可以探测到天河登录系统的运行环境。; d4 i7 C3 S, ~9 \
uname -a: 系统的内核版本是2.6.32cat /proc/cpuinfo: 登录节点使用了intel芯片,含4个物理CPU,每个CPU8核心16线程free -g: 登录节点配备了128G内存df -h: 大约5P的硬盘存储gcc -v: gcc版本为4.4.7icc -v: 系统默认的icc版本为14.0.2,其他版本需使用module命令加载mpicc -v: mpi版本为3.1.3,使用icc 14.0.2编译make -v: make版本为3.81cat /etc/hosts|grep ln: 系统有几十个登录节点,这也解释为了登录的时候会经常提示指纹不匹配module avail: 系统支持模块,高版本的GCC/CUDA/FFT等均可以模块方式加载,无需自行编译ping cn.bing.com/ping 114.114.114.114: 提示找不到主机,表明机器无法访问外网通过查看yhinfo等命令的帮助,可以看到任务管理系统使用的是slurm。把slurm命令中的s替换成yh,则是yh系列的各个命令。
' W+ z9 Q2 h& \" _3 |计算节点无法登录,可以通过yhrun执行程序探测。以下是一些计算节点的信息:- a3 K4 h, m$ c; _ e/ T
CPU: Xeon(R) CPU E5-2692 v2 @ 2.20GHz(未启用超线程) 内存: 64G 操作系统:天河自编译的Linux系统,内核版本2.6.321 j6 G$ j8 d- \" n3 [
天河二号运行程序返回目录按照官方指南,程序的源码和编译可在主目录下,运行时的存储应放置在BIGDATA目录中。程序运行的命令主要是yhrun和yhbatch,yhrun是交互式提交作业,yhbatch是批量提交作业。实际使用中建议用yhbatch提交作业。
$ S( j) C/ \3 S4 I* N) `yhinfo/yhi通过yhinfo或者yhi可查看用户可用的节点状态。命令的输出中,需要关注的是PARTITION和STATE两列。PARTITION指示任务可提交到的分区,在yhrun中会使用;STATE表示节点状态,只有idle的节点才是可直接使用的。- E) F/ O; ]; \- G/ r6 f* l. `. y5 j
要查看所有分区/队列信息,可加上-a选项。
: D) D% F& A9 k. {4 lyhrunyhrun用来交互式提交作业。基本用法是: yhrun [options] program [program-options]。options中,常见指定如下选项:
n' o; q" X2 g7 `2 q" Q! f# f-n: 任务数。在MPI作业中,即进程数-p: 任务运行分区。可用分区通过yhi命令查看-N: 节点数。希望作业运行在几个节点上-c: 任务使用的核心数。该值默认为1,非openMP程序一般用不到,指定了也不影响运行。天河二号的每个计算节点配置24核,并且是独占式的。这意味着节点在同一时间只能被一个用户所使用,为了节省结算计时,尽量让N=[n/24],或者不指定-N参数。+ v- d" ~4 N0 J& |
yhrun可以替代mpirun使用,而不是简单的在各个主机上执行相同程序。例如在多个进程上运行非MPI程序:yhrun -n20 -p free hostname,结果将返回进程所在节点的主机名,结果类似于pssh执行同一条命令。通过yhrun运行的程序能否让MPI程序的各个进程正常进行通信和交互,刚开始尚有疑惑。
, u; W# P$ B$ o( e1 T' k7 Z为了检测yhrun和mpirun有相同效果,写了一个小demo进行校验。以下的测试代码:+ L1 j" Z$ c% }2 @ I) J' _/ }# @
#include "mpi.h": u) d7 C6 `6 F: i4 _
#include ' s8 ^, `( ^1 G6 H" I
int main(int argc, char **argv)
/ G a9 f/ G5 V7 T, k; u{! `: W/ w3 `2 f: [9 C; d- z
int rank, size, namelen;3 l1 }4 S7 g7 g/ J% D% {
char name[1024];
$ N' f' j$ b4 D0 E: |; c. K0 B+ S MPI_Init(&argc, &argv);
6 V# @- j# w% B) ^ MPI_Comm_rank(MPI_COMM_WORLD, &rank);% P& f4 [2 t) m# S- d" R2 P( w
MPI_Comm_size(MPI_COMM_WORLD, &size);
- i: q5 T) l5 p0 i, A MPI_Get_processor_name(name, &namelen);
5 n h% u! P2 [+ l2 x) _# K printf("Hello world! I'm %s(%d) of %d\n", name, rank, size);& ]4 {" u H4 f0 e+ g" D+ `8 j: E
MPI_Finalize();
6 s/ a ^; g. C% s& Y5 R. g) m1 Z1 f return 0;+ J" {/ z x! d9 w. t. O! t
}
- l" |. @4 |, h- t6 W; k1 _编译和运行:9 B' P. }( k( [. t. p, [
mpicc -o foo -O2 demo.cpp b G* y+ {7 f
yhrun -n20 -p free ./foo' |( v3 N( F1 a9 B, ~3 `" Q) F
从结果上看,yhrun的执行效果和mpirun一致,说明yhrun确实可以替代mpirun执行有通信的多进程程序。( S9 \- W# B% {* Q- f
yhbatchmpirun是交互式的提交作业,这意味着会一直占据终端,直到程序开始计算并将结果返回回会释放终端。大部分的程序运行时间周期都较长,在等待期间,如果用yhrun,用户只能等待结果或另开连接,否则无法进行其他操作。实际使用中,应使用yhbatch提交作业,yhrun执行具体任务。作业系统在yhbatch提交时申请的资源满足后,调度执行任务并将结果存放到用户的目录下。2 z( r" F% M/ c# ^8 u0 o
yhbatch命令选项和mpirun命令相差不大,猜测的主要不同是yhbatch是向调度中心进行资源申请,只有满足这些条件才运行用户的程序,否则继续等待。
: y/ t5 {. O0 x' H- x: R) W使用yhbatch首先建立一个脚本文件,里面放入程序执行命令:
% c S. o$ C: \2 R6 O( N4 ?#!/bin/bash
4 y6 f! s/ J O- m/ C3 {0 Ryhrun -n10 -p free ~/foo
, j4 ^4 d+ v# E然后使用yhbatch提交:chmod u+x ./batch.sh; yhbatch -n10 -pfree ./batch.sh。yhbatch中的-N等参数应该不小于yhrun中的参数,否则运行时的进程数和节点可能并非所想,甚至出现资源错误提示。
7 [8 y/ D! Q, H2 O" Jyhqueue/yhqyhbatch提交作业后,使用yhqueue/yhq可查看正在运行的任务状况。& d r$ ~3 p4 M7 l
yhcancal提交到任务队列后,yhq可查看提交或者正在运行的任务id。如果想终止任务,使用yhcancel。
" V1 P' Q2 Z+ ?1 O! j* R# @: N) V; V其他事项,请参考官方说明手册。1 f0 x4 n- n1 E3 x7 s5 ]5 B7 Z. n
AD:【国外VPS推荐】 Vultr全球16个数据中心,高速SSD硬盘,月付2.5$起,注册充10$送100$打赏赞(9) |
|