MLPerf最新测试结果出炉 NVIDIA跑分再证强大AI实力

2020-07-30 20:22:05 [ 中关村在线原创 ] 作者：王嘉陆

近日，人工智能行业权威跑分测试结果“MLPerf Trainingv0.7”出炉，这是该跑分推出以来第三次放榜，今年的测试结果显示，NVIDIA在全球市售商用产品中，具备全球最快的AI训练性能。

MLperf：新型AI基准测试工具

2018年，谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学联合发布了新型基准测试工具MLPerf，这款工具专门用于测量机器学习软件与硬件的执行速度，即Training和Inference两个方面的性能测试。Training是于测量系统将模型训练到目标质量指标的速度；Inference是用于测试系统使用训练有素的模型处理输入和产生结果的速度。该工具在正式问世之后也是迅速得到了业界关注，谷歌机器学习大佬Jeff Dean曾在推特上强烈推荐这款工具：

JeffDean推荐MLPerf工具

到了今年，随着AI技术的进一步提升，测试基准也再一次加大了难度，包括图像分类、翻译、推荐系统和围棋等8个机器学习任务，最终结果是这8项任务的训练时间，速度越快则性能越强。

NVIDIA自2018年12月起就参与了MLPerf基准测试，并在当年创下六项记录，而今年自然也不会含糊，拿出了自家最强的硬件进行测试：来自NVIDIA的A100和DGX Super POD系统总共创下16项纪录，值得一提的是，NVIDIA是唯一一家在所有测试中采用市售商用产品的公司，测试产品则基于最新的NVIDIA Ampere架构以及Volta架构。

NVIDIA DGX Super POD系统为大规模AI训练树立全新里程碑

与往年不同的是，今年新增添了两项新的测试和一项经过大幅修订的测试，分别是BERT、DLRM（深度学习推荐模型）和Mini-Go（围棋测试）。目前已经有相当一部分在相关方向上展开了业务，以推荐学习模型为例，阿里巴巴在双十一使用了NVIDIA GPU的推荐系统，使每秒查询量达到了CPU的100倍以上。而对话式AI也推动了从金融到医疗健康等行业的业务发展。

使用面向对话式AI和推荐系统的公司

软硬结合成为NVIDIA的绝对优势

根据今年MLPerf基准测试的结果，如今的DGX A100系统能够以相同的吞吐率，在18个月内实现了4倍的性能提升。硬件方面的提升不可谓不大。

NVIDIA Ampere架构在全部八项测试中名列前茅

今年的5月14日，NVIDIA GTC 2020线上大会正式举行。传说已久的NVIDIA Ampere（安培）架构正式亮相，NVIDIA同时也宣布首款基于NVIDIA Ampere架构的GPU—— NVIDIA A100已全面投产并已向全球客户交付。NVIDIA A100比上一代Volta GPU提升了20倍，非常适合于人工智能、数据分析、科学计算和云图形工作负载，在性能方面的突破不是一星半点，而且仅仅用了六周后就正式登陆了Google Cloud。

现在包括百度云、AWS、微软Azure等全球领先的云提供商以及HPE、浪潮、超微等数十家主要服务器制造商都在采用NVIDIA A100。此外还有很多来自全世界各地的用户在使用A100以应对AI、数据科学和科学计算中极为复杂的挑战。而且受到新冠大流行病的影响，部分公司也在使用NVIDIA A100的高性能和算力寻找对抗COVID-19的方法。

除了硬件层面，在软件层面，NVIDIA的应用框架也极大简化了企业级AI的开发与部署。在今年5月，NVIDIA曾发布了一个用于对话式AI的Jarvis和用于推荐系统的Merlin两个应用框架。而到现在为止，NVIDIA的应用框架包括了面向机器人技术市场的Isaac，以及面向零售/智能城市市场的Metropolis，还有面向汽车行业市场的NVIDIA DRIVE以及面向医疗健康市场的Clara等等。

NVIDIA应用框架简化了企业级AI的开发和部署

软硬结合带来的最直接好处就是性能方面的更大可能性，通过最新的软件优化，基于NVIDIA V100的DGX-1系统也可实现2倍的性能提升。

NVIDIA持续通过全新GPU、软件升级和不断扩展的系统设计，以提升AI性能

DGX Super POD：不仅只是节约场地的超算

相比那些占地面积巨大的超级计算机，DGX Super POD在体积方面有一定优势以外，另一方面也节约了组装时间，该系统仅用三周时间就内置了96台NVIDIA DGX-2H超级计算机和Mellanox互连技术，而且其算力能达到每秒进行9.4千万亿次浮点运算。

对很多企业来讲，DGX Super POD不仅减少了场地使用面积，节约经济成本，又能缩短组装时间提高研究效率。因此包括汽车领域的大陆集团、航空航天领域Lock heed Martin和云计算服务领域的微软等公司使用DGX Super POD取得了良好的业务成果。

NVIDIADGX POD的广泛采用

同样地，今年NVIDIA在Selene上也运行了系统的MLPerf测试，Selene是基于DGX Super POD的内部集群，凭借着百亿亿次（exaflops）级别的AI性能，成为美国最快的工业系统，同时也是Green500榜单中全球第二大节能系统。

目前，包括美国最快的学术领域的AI超级计算机HiPer Gator也在采用DGX Super POD架构来构建自身的Super POD，而全球领先的超算中心Argonne国家实验室则正在使DGXA100寻找抗击COVID-19的方法。

总结：NVIDIA的下一步，是AI生态系统

今年，除了NVIDIA外，还有六家公司提交了基于NVIDIA GPU的测试结果，包括三家云服务提供商和三家服务器制造商，这些合作伙伴大多采用了NVIDIA软件中心NGC中的容器，以及用于参赛的公开框架。

除此之外，包括这些MLPerf合作伙伴在内的近二十家云服务提供商和OEM组成的生态系统，已采用或计划采用NVIDIA A100 GPU来打造在线实例、服务器和PCIe卡。

采用NVIDIAAI平台参与基准测试的公司

在今年5月NVIDIA A100发布之后，就有业内人士表示GPU的性能又上了一个台阶，而从今年MLPerf基准测试的结果来看，英伟达基于今年5月最新发布的Ampere架构GPU A100，和Super POD取得了傲人的成绩。相比硬件的超越，软硬件生态才是NVIDIA更大的优势所在，且NVIDIA正在聚焦于不断发展跨处理器、网络、软件和系统的AI平台。

本文属于原创文章，如若转载，请注明来源：MLPerf最新测试结果出炉 NVIDIA跑分再证强大AI实力//smartcity.zol.com.cn/749/7494361.html