
双11不仅有淘宝、京东、苏宁等电商的疯狂打折,究竟是真甩货,还是全面促销,不用细究。要注意的是,HPC也有一个双11,在这一天,无锡,中国高性能计算学术年会(HPC China 2015),中国HPC TOP10新鲜出炉。让人稍感意外的是曙光、联想各以34套系统,并列第一,也是另外一种双11。
不意外的双11
曙光排名第一丝毫不让人意外。尽管“数据中国”如今是曙光的企业发展战略,但高性能计算毕竟是曙光看家本领,这个领域是必须牢牢把握和占据的,以此作为基础,提升曙光在云计算和大数据领域的竞争实力。如果就连最擅长领域都守不住,就不要想什么数据中国了,不是吗?另外,曙光发力“数据中国”,也不意味以牺牲高性能计算为代价,发力云计算/大数据等和高性能计算并不矛盾。

曙光公司HPC产品事业部总经理曹振南表示,曙光HPC能够在激烈的市场竞争中独树一帜,源于其依靠深厚的技术实力打造的品牌口碑,以及对应用市场的大力拓展。从研发实力上来看,作为中科院先进计算创新与产业化联盟的成员单位,曙光是整个中科院的技术创新和成果转化的平台;在应用市场领域,曙光公司抓住了云计算、大数据的新技术潮流,与气象、金融、互联网、能源、交通等行业应用实现了有效结合。
并列双11的还有联想,这似乎也不意外。所谓1+1=2,通过并购System x,有突出表现应该也是必然的。如果留意榜单,还会看到IBM,显然这是基于Power系统,自然没有办法合并到System x之中。除了厂商之外,还有国防科大、国家并行机工程中心、中科院过程所等本该属于甲方单位,硬件贴牌/定制,软件自研,因此进入榜单也不难理解。
7的后面是8吗?
不知道从什么时候,Top 500也好,Top 100也好,对于高性能的关注俨然成为一道数学的游戏:谁第一,谁第二,浮点运算能力(FLOPS )又提升了多少?门槛提升多少?当期最后一名穿越到上一期可以排名多少?x86、Power、GPU、Infiniband、以太网等技术的占比等……,数据不好,都写不了文章,还有百万亿次、千万亿次的换算,数错一个0,就出了笑话了。
但高性能计算不是数学游戏。还有人说,所谓FLOPS没有什么了不起,集群(Cluster)规模而已,只有有钱多少亿次都可以,HPC就是烧钱的比赛。其实,还是有些偏颇的,以天河二号为例, 16000个运算节点,搭载32000颗XeonE5主处理器和48000个XeonPhi协处理器,共312万个计算核心。简单说,1.6万台x86服务器。我们估算一下,x86的故障率是多少,如果是万分之一,还可以的故障率吧,但对于天河二号来说,1.6万台x86,故障率万分之一,就意味着100%会失败。因此,将1.6万台x86集群在一起,还不是一件容易的事情,节点间的高速互连、GPU异构环境部署,都很有技术含量。
技术方面,调优也是一个大问题。简单说,利用英特尔的编译器重新编译程序,运算结果就有很大的不同。所以,对于高性能计算机系统监控和调优非常重要,需要全面检测、评估系统的瓶颈,进行优化和改进。
“高性能计算系统买得起,用不起。”这是有些用户的心声。电费支出就是很大一笔负担。“即使不用,也不敢关机。因为一但关机,有可能就起不来。”有用户说。
也许正是因为如此。曙光才会对外宣布:“榜单只是过去,连续7年第一之后8连胜并不重要。要重视应用、引领HPC服务时代转型。”才是关键。
差距十年
天河二号已经连续5年排名全球第一。但评价中国高性能计算的应用,差距十年是一个比较客观的评价。之所以如此,应用软件的差距非常明显。
1978年,当第一条高速公路连接基隆和高雄时候,也没有多少车流量,甚至年轻人在上面飙车。但也恰恰是高速公路的建设,奠定台湾亚洲4小龙之首的经济腾飞。所以,现有硬件,后软件也是可以的。
重视应用、引领HPC服务时代转型,其实有很多文章。从软件的角度,实际上,HPC、大数据都是计算、存储和网络的问题。从构建上,高性能计算由计算&存储+Lustre(文件系统)+SLURM(资源管理)+FORTRAN/C++应用软件来构成;对应大数据应用是:存储+HDFS/SPARK+YARN +Java应用组成,尽管应用的特点不同,有的是大计算+小数据(如医药设计等)、有的是大数据+小计算(如流数据应用)、有的是小计算+小数据(如EDA等)、也有大数据+大计算能力的需求(如实时天气预报模型)等,但他们有一个共同的基础,计算+存储,包括网络。
因此,站在未来的高度上,高性能计算/大数据一体化又有什么不可能吗?
说说EasyOP
EasyOP是曙光最新推出的全生命周期SaaS级运维服务。
“EasyOP第一个致力于打造全方位覆盖的HPC产品在线服务平台。借助曙光多年技术经验,EasyOP在线平台在IT中心建设初期就可发挥作用,可提供机房建设建议和完整的技术方案与相关咨询。” 曹振南说。
除此之外,针对HPC设备选型、产线交付、售中部署、应用环境调优、在线运维指导、售后技术支持等客户关心的问题,曙光EasyOP在线平台可提供全生命周期、7x24全程专家支持的专业服务。
无论是HPC使用者还是HPC管理员、运维工程师,易运维的EasyOP将成为HPC实时在线平台,支持HPC集群管理者、数据中心管理者、IT中心决策者在HPC建设、使用过程中做出及时正确决策,EasyOP将真正地将HPC从传统复杂中“解放”出来。这就是“DevOps”!
所谓DevOps来了,HPC/大数据一体还会远吗?对吗。
北京金石通业科技有限公司以阿尔卡特朗讯企业通信为品牌,坚持以创新和创业精神为核心发展理念,提供从企业自建到云部署的全系列产品。我们拥有一支由技术专家、专业服务人员的支持团队,通过我们提供的语音通信、数据网络和云解决方案,我们可为全球各类细分市场和行业提供定制化的方案和服务,满足各种规模企业的独特需求。我们致力于打造个性化的互联体验,为客户和最终用户带来切实的业务成果和价值。销售咨询热线:400-681-5969


