智慧城市
    作者:徐鹏

    未名湖畔的智能超算 联想HPC抓准AI突破口

         [ 中关村在线 原创 ] 暂无评论

        从北大方正到未名湖畔,联想与北大的故事总是为人所称道,这不仅是因为二者在各自领域的领军地位,更是源自双方在人才培养、科技创新、技术实践等方面的深入探索。随着由AI驱动的数字化革命到来,传统计算在满足物联网、大数据、云计算等场景需求的同时,也在不断完善着自身的实力,而智能超算无疑是一个重要的突破口。

        1月3日,北京大学高性能计算校级公共平台——“未名一号”启用揭牌仪式在北京举行,这也是国内首个温水水冷高性能计算平台。该平台采用了联想深腾X8800超级计算机系统,后者基于联想首创的45℃温水水冷技术,通过无泄漏,快速连接系统,冷却水流经水龙头,来冷却核心处理器及其内存。相比传统的风冷散热技术,“未名一号”的LINPACK效率达到92.6%,PUE值低至1.1,节省了50%的制冷散热成本,每年可以为北京大学节省60万度电。

    未名湖畔的智能超算 联想HPC抓准AI突破口
    北京大学及联想集团高层会晤

    未名湖畔的智能超算 联想HPC抓准AI突破口
    揭牌仪式

        联想集团董事长兼CEO杨元庆表示:“计算力正在变得越来越强大,不但计算机的速度越来越快,而且边缘计算技术和云计算技术正在把计算力变得无处不在。由联想帮助建设的国内首个温水水冷超算平台揭牌,希望能够为北大各学科的进一步发展提供技术支撑,助力重大科研项目的研究,尤其是把握住物联网、云计算、大数据、人工智能等新技术迅猛发展所带来的机遇,为北大在智能时代培养一大批引领时代潮流的创新型人才增光添彩!”

    未名湖畔的智能超算 联想HPC抓准AI突破口
    联想集团董事长兼CEO杨元庆

        在很多人的印象中,传统数据中心通常会采用风冷作为主要的散热手段,而实际上水冷已经在国外有了多年的实践和应用,这种技术不需要强制制冷,具有节能和高效率运行的特点,可以保障并行计算所需要的CPU全负荷工作的稳定性。与此同时,随着每秒百亿亿次的浮点运算走进人们的视野,数据中心承受的压力不仅是性能指标,还包括节能环保方面的指标。例如,如果用现有技术做10倍于太湖之光性能的机器,可能要动用一个中型发电站,而采用联想的水冷技术,可以压缩90%的能耗和占地面积。

    “未名一号”携黑科技落地北大

        作为北京大学第七个校级科学仪器公共平台——高性能计算校级公共平台,北大早在2015年就开始了筹划和国内外的调研工作,直到2016年1月联想中标该项目。2017年9月,联想与北大完成了设备的安装与验收,通过校内公开命名征集正式定名“未名一号”。截至目前,该集群支撑了北大21个院系的100项科研项目。未来,还将为全校提供高性能科学与工程计算服务,以满足各学科领域对于大规模数据处理和大规模科学计算的需求。值得一提的是,基于联想Skylake的北京大学冷冻电镜超算平台也即将开始部署,联想将为北京大学在生命科学研究领域提供强大的计算力。

        据了解,“未名一号”由227个节点组成,其中计算节点196个、GPU节点10个、KNL节点8个、胖节点3个、管理和登录节点6个、IO节点4个,存储采用联想GSS24存储系统,容量2784.8TB,计算网络采用Omni-path架构,编译器采用GNU和英特尔最新编译器套件,作业管理采用Slurm作业调度系统,集群管理采用联想LiCO集群监控管理套件。该集群系统理论计算峰值高达411万亿次/秒,计算节点理论峰值261万亿次/秒,实测计算能力达到242万亿次/秒。

        联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧介绍称,通过温水水冷对风冷服务器的优化,CPU和GPU的运转效率得到了提升,在满负荷运作的时候,整个机房的分贝数字可以降到50以下,“从降热效率来看,上一代水冷达到80%,这一代水冷技术提高到88%。同时,我们还建立了自主可控的联想运转平台,可以监控每一个节点的能耗和效率。”

    未名湖畔的智能超算 联想HPC抓准AI突破口
    联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧

        说到此次合作,北京大学物理学院副教授、高性能计算校级公共平台主任雷奕安深有感触:“以前的机箱风扇很吵,现在的水冷方案非常安静,一秒可以转一万亿次左右。身为技术人员,你会静静看着万亿个数字在啪啪地跳,深深体会这种快感。”

    未名湖畔的智能超算 联想HPC抓准AI突破口
    北京大学物理学院副教授、高性能计算校级公共平台主任雷奕安

    45℃温水水冷的秘密

        自去年9月上线试运行以来,“未名一号”的节点平均利用率达到97%,开设的账号数量超过300个,支撑了100多个科研项目,支持发表重要论文两篇,主要应用于数学、深度学习、大气海洋环境、新能源新材料、天文地球物理、生物医药健康等领域,涉及数学、统计学、力学、物理学、化学、生物学、地球科学、航天航空科学、计算机科学等多个学科领域的科研。从使用效率来看,基本各个学科是比较均衡的,达到了满足各学科基本需求的目的。

        据介绍,“未名一号”对任务最大值进行了限制,最大不允许超过1000荷,这样就保证了整体的使用效率,不至于让某一个学科排队很多才能用上。当然,一些有特定需求的学科任务也会得到满足。例如北大物理学院的有个任务必须要求1000荷,对此集群会单独空出来一部分资源让其优先计算,完成后计算资源会自动归到资源池里。

        节能方面,跑Linpack的时候集群负载可以达到138千瓦,而到了空载状态则会降至38千瓦,能耗效果可见一斑。“正常运行情况下98%的负载,大概是93、94千瓦,折合到空能,PUE值可以直接折上去,对应的大概是60千瓦。因为一年8765个小时,一年差不多100万度电,折合成空能,按照基本满能负载差不多节省60万度电。”雷奕安说。

        从全球范围来看,大部分数据中心都集中在北纬40度到北纬55度之间比较发达的国家。在这个体系范围内,45℃的水温是最合适的。如果水温过低,理论上可以有更高的效率,但是也有可能产生冷凝水,造成部件短路。随着联想经验的积累,已经能够把出水温度提高到50℃,较45℃有了25%的效率提升。

        雷奕安透露:“45℃是出水的温度,进水是38℃。因为空冷效率很低,所以外界温度越低越便于散热,空气的热能只有水的八百分之一,水的热能要大很多,并不需要升到很高的温度。虽然空冷环境温度是23℃,但出口温度可能会更高,45℃是能够绝对保证工作温度不超过45℃,提供了更好的运行环境,比23℃更好。”

    HPC成为AI的基石

        作为数据中心机房水冷解决方案的积极推动者,联想已经与国内外多所高校展开合作。在国内,联想与南京大学、厦门大学等院校合作建立超算平台,持续提供强大计算力支持。在海外,联想相继与牛津大学、伦敦大学、芝加哥大学、北卡罗莱纳州立大学等高校建立了合作关系。如今,联想的HPC广泛应用于政府、科研、教育、气象、大气海洋、石油石化、CAE仿真计算、生命科学、人工智能等领域,在全球最大的7个数据中心中,有6个采用了联想的解决方案和服务。事实上,联想与北大合作的智能机房管理方案也会在二期项目中得到体现。

        联想数据中心业务集团中国区副总裁李国庆指出,高性能计算是构建AI解决方案的重要基础,而联想将通过“ABC战略(算法algorithm、大数据big data、计算力computing power)”全面推动人工智能在各个领域的落地,“未来会有更多的研究院、大学开始考虑使用水冷技术,联想作为一个全球化公司,研发中心遍布全球,可以满足数字化、智能化的转型需求。通过与北大的合作,双方将研发出更多的新技术,水冷只是实践的开始。”

    未名湖畔的智能超算 联想HPC抓准AI突破口
    联想数据中心业务集团中国区副总裁李国庆

        在联想数据中心业务集团中国区企业级营销产品营销总监李炜看来,联想的高性能解决方案主要有三大优势:首先是整机交付,客户接收的是调试好的设备,机器随时可以工作,不再需要现场逐台调优;其次是交付时间,从设备达到北大超算中心到实施交付只用了一个月,花费的时间更多是在商务流程上,技术对接没有障碍;此外,联想有一套严格苛刻的交付流程。由于“未名一号”是国内温水水冷的首个落地案例,联想专门从美国派了多位专家来进行测试。

    未名湖畔的智能超算 联想HPC抓准AI突破口
    联想数据中心业务集团中国区企业级营销产品营销总监李炜

        李炜表示:“按照实施方案,必须专家独立完成三次的实施才允许自己独立实施,具备能力之前我们有一个全球实施方案中心的团队会做全球的实施。在全球团队和中国本土团队的共同配合下,我们高效地配合北大超算中心完成了机器的实施和安装。最终达到在部分指标超过预期的效果,得到了雷老师和北大超算中心欧洲领导的认可。”

    结语

        未来,云计算、物联网、人工智能将对计算力将提出新的需求与挑战,而如何“算的快、算的好、算的稳”势必会成为技术演进过程中的核心要素。作为全球领先的HPC厂商,联想不仅在新技术上持续探索,更关键的是勇于攻坚克难将前沿理念落地实践,为科研院所和行业客户带来了实实在在的帮助。正如杨元庆所说:“产业智能的大幕已经拉开,希望越来越多像北大一样的世界一流大学能够和企业界一起,共同把握智能变革的历史机遇,在智能时代大展身手、勇立潮头!”

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询