大数跨境
0
0

基于HPC2008的高性能计算信息 管理平台开发研究

基于HPC2008的高性能计算信息  管理平台开发研究 数字仿真论坛
2019-03-13
2
导读:(中国舰船研究设计中心,湖北武汉 430064) 摘 要:CAE仿真计算规模的不断加大给计算平台带来了巨


(中国舰船研究设计中心,湖北武汉 430064) 


 

 CAE仿真计算规模的不断加大给计算平台带来了巨大的压力,通过部署HPC2008平台并进行二次开发研究,建立可靠的信息管理平台能大大提高CAE软件资源的利用率,改变传统的计算模式。本文通过实例阐述了HPC2008平台的优势,通过软件开发能进一步完善高性能计算信息管理平台的解决方案,推动我所CAE应用发展水平。

关键词HPC;高性能计算;信息管理平台

 

1 前言

舰船是非常复杂的大型结构,在我所实际舰船仿真分析设计工作中,涉及大量非线性结构分析、显式动力学分析和流体动力学分析。在仿真分析过程中,为了获得高精度的计算结果,需要进行精细结构的建模,并在仿真模型中考虑舰船实际工作中的各种因素和工况,这不是单个工作站能够支持的,需要大量的计算资源进行并行计算。而我所目前的仿真工作一般通过仿真工作人员个人电脑进行,计算效率相对较低,模型规模一般都较小,很难对模型进行全面准确的校核。同时,我所通过前期的能力建设,已购买了各类仿真计算软件,这些软件在使用时受License数量限制,经常导致工程师想用的时候用不上,而大家都不用的时候软件却空闲的状况,软件的应用效率不高。基于以上考虑,为了实现高精度、高效率的仿真工作,非常有必要在我所建立高性能并行计算环境。

 

2 WHS概述

图1展示了WHS解决方案的整体架构。此架构基于Windows活动目录(AD),在企业级的部署中,机群可以加入企业现有的AD中,与企业现有架构实现无缝连接,同时方便系统管理员统一管理,并且此架构提供了从底层存储到上层开发的整套解决方案。

底层是存储服务器和数据库服务器。数据库方面,WHS集成微软自己的产品SQL Server,,并可以利用SQL  Server商业智能分析功能,对数据进行处理。Windows存储服务器采用DFS〔Distributed  File System〕,即分布式存储系统。遗憾的是,WHS没有自己的并行文件系统,在I/O量大的情况下,性能可能会受到影响。中间是WHS架构的核心——WHS机群。机群包括头节点,计算节点。在WHS版本中,增加了对于节点的分组,包括:头节点组、计算节点组、根节点组。节点分组方便以组形式对节点统一管理,例如可以使用命令一次完成对计算节点的重新启动。各节点互连上,WH S提供了5种网络拓扑连接,分为Public、Private、MPI网络,支持大多数网络连接情况。此外,新版本增加了对RDMA(Remote Directly Memory Access)网络的支持。并行计算方面WHS提供微软MPI。对于企业中已有Unix/Linux系统情况WHS提供作业调度接口,与已有系统进行整合。机群管理方面,WHS比WCCS2003(Vl)有很多改进。首先安装上采用新的服务WDS(Windows Deployment Service)代替V1版本的RI5(Remote  Installation Service),WDS相比RIS支持更多节点的同时安装,并且安装速度也更快。

架构顶层是应用开发。首先可以架构IIS服务器,通过微软SharePoint和WHS提供的Web Service接口,建立页面访问入口,使用户直接通过Internet从页面上提交专业。此外,以WHS为平台微软提供相关工具进行开发及二次开发,包括各种编译器,数学库和调试工具。

 

图1 WHS解决方案整体架构

 

3 WHS解决方案的特点及优势

(1)部署方面

在部署集群和节点方面,用户会遇到巨大的挑战。手工安装少量的节点不存在什么问题,但是如果要安装上百个或数千个节点,手工安装基本是不可能的。HPC2008继续利用Windows Deployment ServicesWDS)进行计算节点的部署。部署集成到管理控制台,通过建立计算节点配置模板,利用Windows Imaging Format (WIM)文件和多路发送快速并行的部署节点。

(2)管理方面

在HPC解决方案中,集群及节点的管理和日常维护方面也会给用户带来巨大的挑战。毕竟资源有限,需要专业的IT人员来管理和部署节点,需要用户来发布批处理的任务。系统提供了清晰的描述性的帮助来方便部署集群和监控他们的状态,提供了安全授权和认证机制,构建了可用脚步管理的解决方案,提供了简单有效的管理可查询节点日志、配置状态等信息。

(3)微软的消息传递接口MS-MPI

MS-MPI标准是一个可移植的、灵活的、不依赖于提供商和平台的标准,提供了在HPC节点内的消息传递。MS-MPI利用新的基于RDMA的网络连接接口(NetworkDirect)提高性能和CPU效率,网络连接接口利用更直接的方式支持网络硬件,提供非常快速、高效的网络。MS-MPI的一个重要的新特点是集成了Windows的事件跟踪,它能更好的调整性能,提供同步的调试MPI系统的日志和并行计算环境中多个计算机的应用事件。它在MPI的共享内存通信方面有了很大的改进,这得益于高性能计算中多核系统的普及。

(4)作业调度

WHS 包括一个全新的作业调度程序,可提供更高的可扩展性并支持高级策略。该程序支持一种全新的面向服务架构 (SOA) 模式,可通过 Windows 通信基础  (WCF) 访问交互式应用。作业调度程序的图形界面业已完全集成到管理控制台中,命令行界面 (CLI) 现在对所有作业调度程序功能都使用 Windows PowerShell™

作业调度为作业分配其在队列中的顺序以及用于执行任务的资源。这两个功能都是使用调度策略来控制的。WHS支持九种策略,每种策略分别针对于特定调度问题。

作业执行即启动作业。作业是在提交用户的上下文中运行的,从而限制了进程失控的可能性。作业还可在失败时自动重新排队。任务由它们的状态转换控制。

(5)安全性

WHS在群集上下文中使用基于 Windows 的安全机制。作业将使用提交用户的凭据来执行。这些凭据由作业调度程序以加密格式存储在本地计算机上,只有头节点有权访问解密密钥。用户首次提交作业时,系统将要求输入以用户名和密码形式存在的凭据。此时可将凭据存储在提交计算机的凭据缓存中。在转换过程中,系统将使用安全 Microsoft .NET 远程通道来保护凭据,然后使用 Windows 数据保护 API 进行加密并存储在作业数据库中。

当作业运行时,头节点将对凭据解密并使用另一个安全 .NET 远程通道护送凭据到达计算节点,然后在计算节点上使用凭据创建一个标记然后将其擦除。所有任务都使用此标记来执行,此标记不包括明示凭据。当作业完成时,头节点将从作业数据库中删除凭据。

 

4 高性能信息管理平台应用开发

(1) 软件平台框架

 

(2) 任务管理

可分页显示当前系统用户的项目列表,每页显示项目信息数目可设置,并可点击列表下方页码切换查看分页列表。列表列出了项目的ID,名称,状态,求解器,优先级,提交时间,使用节点和错误消息等信息,并提供对应权限操作。

 

 

(3) 软件的集成接口

通过集成多种CAE软件并提供集成界面方便用户进行求解器的选择、版本的选择、数据文件的提交等,提升信息系统平台的可用性。

 

用户在选定ANSYS求解器及对应版本之后,可以选择并行规模(即并行CPU核数,个人所允许使用的最大核数已由管理员设定),然后在指定工作目录中上传并选定输入文件,同时设定可监控的输出文件(可以通过该文件实时监控计算收敛情况),然后即可提交作业至仿真云系统;仿真任务开始、失败或者成功均会有email通知发至工程师的个人信箱。

(4) License监控

信息平台集成各仿真求解器所对应的License许可证数目以及当前使用情况,同时可显示正在使用特定License Feature的用户列表。

 

(5) 权限策略

平台支持通用的统一用户认证系统Active Directory,并进行若干扩展。在AD域帐户的基础信息上编辑、修改特定用户的仿真应用相关权限,如特定用户可以使用的最大CPU核数,是否VIP用户以及各个求解器的License允许使用数目等。可在AD域帐户的基础信息上编辑、修改特定用户组的仿真应用相关权限,可在用户组权限的基础之上对某一特定用户的使用权限进行定制处理。

(6) 数据决策支持

平台支持集群资源管理,可对一定时间段内的集群资源使用情况进行监控,分析软、硬件的使用效率,提出调整策略和方案建议,提升整体运行效率,全方位评估应用软件HPC能力。

 

5 结论

通过对WHS解决方案特点和优势的分析和阐述,微软HPC2008平台在部署、管理、易用性等方面的明显优势能很好的满足企业级CAE仿真计算应用的需求,提供了从操作系统、并行计算环境、作业调度、数据管理到并行应用开发的一整套解决方案,通过二次开发,可以构建更加适合于本企业的高性能计算信息管理平台解决方案,随着应用水平的更加的深入,该平台会取得更加广泛的应用前景。

 

 

参考文献:

[1]郭华兴、姚继锋,Windows HPC解决方案概述及实践,高性能计算发展与应用,2008年第1

 

作者简介:

陶林,1978,男,工程师,工学硕士,主要专业方向是计算机应用技术。



 —文章来自第七届中国CAE工程技术分析年会论文集



【声明】内容源于网络
0
0
数字仿真论坛
发布中国CAE工程分析技术年会动态,通报中国CAE工程分析技术信息,进行CAE相关技术、咨询分享
内容 362
粉丝 0
数字仿真论坛 发布中国CAE工程分析技术年会动态,通报中国CAE工程分析技术信息,进行CAE相关技术、咨询分享
总阅读73
粉丝0
内容362