Project Introduction
曙光5000A属于超级百万亿次计算机,于2009年5月中旬落户上海超级计算中心。曙光5000A投入应用后,将为气象、海底隧道、环保、船舶、大飞机制造、汽车、建筑、钢铁、石油、机电、高校、科学院等领域提供强有力的计算服务,为城市减灾防震提供安全保障。中国魔方超级计算机是中国首台百万亿次超级计算机,产品序列名称“曙光5000A”。曙光5000采用新型“超并行”体系结构(Hyper Parallel Processing,简称HPP),是中国自主知识产权产品,具有高性能、高效率、高密度、高性价比、低功耗以及广泛适用等特点。曙光5000适用于各个领域的大规模科学工程计算、商务计算,还可以作为各种数据中心、云计算中心的支撑平台。
自主知识产权
曙光5000高性能计算机的体系架构、主计算单元的刀片服务器及胖节点,刀片主板,散热及信号仿真,基于ConnectX的DDR Infiniband交换模块完全由曙光公司在中科院计算所的支持下自主设计,全部达到了国际领先水平。首次采用的水冷系统也拥有部分知识产权。在设计过程中完全符合中国自己的刀片服务器标准。在自主创新的研制过程中,曙光取得了多项业界第一,并在系统研发设计阶段获得50余项自主专利。
业界最早实现了4路4核的高密度刀片系统;
业界最早实现了同等尺寸的8路4核SMP主板设计;
业界最早实现了基于IOE的通用刀片系统;
业界最早实现了ConnectX的DDR HCA 和Infiniband交换的刀片内集成;
高可应用性
曙光5000不仅像其他品牌高性能计算机一样可以应用于高性能计算,还可以应用于信息服务,电子政务,网络游戏等常见商业应用。
曙光5000可广泛运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等20多个应用领域。
在商业应用方面,由于曙光5000A使用Suse Linux 和 WCCS ,可广泛运行目前Linux和Windows下的主流的行业软件,用户不需要对普通平台上开发的软件进行任何更改,既可使用。
Engineering parameters
高性能
曙光5000A高性能计算机采用最新的四核AMD Barcelona (主频1.9GHz)处理器,采用基于刀片架构的HPP体系架构,共有30720颗计算核心,122.88TB内存,700TB数据存储能力,采用低延迟的20Gb的网络互联,其设计浮点运算速度峰值为每秒230万亿次,Linpack测试速度预测将达到160T,效率大于70%,是目前国内运算速度最快的高性能计算机。曙光5000一天完成的工作量,相当于全中国所有人每天24小时、每年365天利用手持计算机不停地进行计算,46年时间的工作量。
高效能
曙光5000采用4路刀片节点和8路胖节点设计,大幅提高了系统并行应用度及实用性。CPU核心内部采用直连内存访问技术,可在节点内实现无阻塞得内存访问带宽及延迟。刀片节点单CPU核最大支持64GB内存,胖节点单CPU核最大支持128GB,可满足特殊行业挑战性需求。
曙光5000采用了基于ConnectX的DDR Infiniband 互联,二叉树无阻塞设计,实现了20Gb的传输速率,1.3us的业界最低通信延迟。
曙光5000的高效并行文件系统,可以提供70GB/s的磁盘I/O访问带宽。
高密度
曙光5000全球首次采用了4路4核的刀片服务器设计,在7U高度的机箱内可部署了40颗CPU,实现160个计算核心的计算密度。曙光5000的单机柜内可以部署5个7U高度机箱,这意味了曙光5000单机柜即可实现200颗CPU,800个计算核心的超高计算密度,理论计算峰值7.5万亿次。
曙光5000所采用的刀片服务器应用了全内置的ConnectX DDR二层交换模块,管理Ethernet网交换模块;
高可靠性
机群计算节点之间的高速互连网络是构建高性能机群系统的关键技术,是影响机群系统整体性能的关键因素。因此,曙光5000的高速互联是高性能计算机成功的关键。
曙光5000采用了全冗余刀片服务器设计,使系统中无单一故障点,较机架式Cluster减少了70%以上的系统电缆连接。
曙光5000采用了全冗余的网络设计,机群内部采用了全无阻塞的Infiniband CLOS网络构建计算存储网络,冗余万兆级联的无阻塞Ethernet互联网络。
曙光5000的全内置ConnectX DDR Infiniband 二层交换,减少了50%的Infiniband连线,全面采用光纤传输技术,降低高速信号衰减。
曙光5000采用的液冷机柜拥有冗余的制冷风扇,并采用智能散热控制,能有效避免系统过热带来的系统停机。
曙光5000A采用了曙光自主开发的Grid View集群管理管理系统。该管理系统提供统一的集中式监控平台,具备可扩展性、集成性、可靠性和易用性。使得当部署运行环境等发生异常时系统能够运行在可控的范围内,并进行准确的异常定位提示。
低能耗
目前的高性能计算机能耗都非常大,动辄兆瓦级别,曙光5000在功耗方面与其他品牌两百万亿次计算机相比具有绝对优势。
曙光积极响应国家“节能减排”、“建设节约型社会”的号召,在曙光5000中采用了多项具有大量的尖端节能措施,即使在满负载运行的状态下,功耗也仅为其他品牌同级别高性能计算机的六分之一,不带水冷系统运行时功耗为720千瓦,带水冷系统运行时功耗为1000千瓦。
曙光5000由于采用了以下世界领先技术,可为用户节约大量耗电量。
1) 低功耗CPU设计,比常规CPU节约30%耗电,全系统因采用低功耗CPU产生的节电规模超过200KW;
2) 标准DDR2内存设计,比采用FBD DDR2内存节约60%耗电,全系统因采用DDR2内存产生的节电规模超过300KW;
3) 全系统刀片设计,比常规机架式节电节约10%耗电,全系统因采用刀片架构产生的节电规模约60KW;
4) 液冷系统散热技术,比常规空调制冷节约30%空调耗电,全系统因采用液态制冷技术产生的节电规模约60KW;
5) 节能软件的利用,采用节能软件和作业调度相结合,系统全年预计可节约20%的耗电。
结论:曙光5000超级计算机的节能技术,每年可为用户节约用电700万度,折合人民币700万元左右!
Engineering graphics
Engineering video
Related literature