主打性价比！英特尔面向中国市场推出AI加速器新品Gaudi2

2023-07-19 15:10:17 [ 中关村在线原创 ] 作者：十一

毫无疑问的是，作为新一轮科技革命和产业变革的战略性技术，人工智能正逐渐成为数字转型的核心，并加速着整个产业智能化转型的步伐。根据IDC的一份报告中可以看到，预计到2024年，AI市场将增加到5543亿美元的水平。而随着高性能计算、数据挖掘、数据分析的需求进一步上升，生来就伴有高算力+强算法属性的大模型也成为了人工智能发展的趋势和未来，并有望在各行各业中得到广泛的应用。

正因如此，AI芯片在这两年也受到了前所未有的关注，不过比较可惜的是，整个市场的选择比较单一，除了英伟达的GPU以外，鲜有能满足企业大规模部署AI的产品出现。不过就在上周二，英特尔在中国举办了英特尔AI产品战略暨Gaudi2新品发布会，面向中国市场推出了第二代深度学习加速器：Habana Gaudi2，这意味着市场有了新的选择。

英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera在发布会当天表示，英特尔致力于通过为客户提供广泛的硬件选择，并支持开放的软件环境，加速人工智能技术的发展。凭借包括至强可扩展处理器和Gaudi2深度学习加速器在内的产品组合，英特尔正在降低人工智能的准入门槛，并强化客户在云端通过网络和智能边缘部署这一关键业务技术的能力，从而帮助构建中国人工智能的未来。

主打性价比！英特尔面向中国市场推出AI加速器新品Gaudi2

事实上，Gaudi2主要是为了满足当下越来越多的大语言模型计算模型（如生成式AI）而生的，对于在中国运行深度学习训练和推理工作负载的企业来说，Gaudi2相较于市场上其他面向大规模生成式AI和大语言模型的产品来说，在性价比、性能方面都有着不小优势。

从参数上看，Gaudi2采用了7nm工艺制造，集成了24个可编程Tensor处理器核心（TPCs）、21个100Gbps（RoCEv2）以太网接口、拥有96GB大小的HBM2e内存和2.4GTB/s的总内存带宽，片上SRAM大小为48MB，并集成了多媒体处理引擎，最高功耗为800W。

主打性价比！英特尔面向中国市场推出AI加速器新品Gaudi2

从6月份公布的MLCommons MLPerf基准测试结果中，也可以一窥Gaudi2的性能，具体来说，对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估，Gaudi2在384个加速器上训练GPT-3的时间为311分钟，NVIDIA在512个H100GPU上的训练时间则为64分钟。这意味着，基于GPT-3模型，每个H100的性能领先于Gaudi2 3.6倍。但考虑到价格方面的巨大差距，Gaudi2显然是更香的那一个。

不仅如此，在计算机视觉模型ResNet-50（使用8个加速器）、Unet3D（使用8个加速器），以及自然语言处理模型BERT（使用8个和64个加速器）上，Gaudi2都有着优秀的训练结果。

扩展性方面，在Stable Diffusion训练上，Gaudi2展示了从1张卡至64张卡近线性99%的扩展性。此外，MLCommons刚刚公布的MLPerf训练3.0结果，也验证了Gaudi2处理器在1750亿参数的GPT-3模型上，从256个加速器到384个加速器可实现令人印象深刻的接近线性的95%扩展效果。

而在能效比提升方面，对于训练计算机视觉模型，Gaudi2的每瓦性能是A100的2倍，对于176B参数的BLOOMZ推理，其每瓦性能是A100的60%。这一优势使客户能够显著降低在数据中心运行深度学习工作负载的能效和环境资源成本。

换句话说，与市场上其他面向大规模生成式AI和大语言模型的产品相比，Gaudi2拥有卓越的性能与领先的性价比优势，能够帮助用户提升运营效率的同时，降低运营成本。

上文中提到，Gaudi2主要面向的场景是大规模的多模态和语言模型，在最近的HuggingFace评估中，其在大规模推理方面的表现，包括在运行StableDiffusion（另一个用于从文本生成图像的最先进生成式AI模型之一）、70亿以及1760亿参数BLOOMz模型时，在行业内也领先水平。

发布会当天，英特尔技术专家还进行了通过Gaudi2高效运行开源大语言模型ChatGLM的展示，可以看到在一系列问题的“狂轰滥炸”之下，整个输出依然保持在相当流畅的水平。

当然，硬件本身的实力固然重要，为了最大化发挥Gaudi2在深度学习推理和训练方面的能力，英特尔也同步打造了高效且成熟的软件支持：SynapseAI软件套件。

SynapseAI软件套件集成了PyTorch、TensorFlow、DeepSpeed框架，支持Kubernetes编排和定制编译器，针对Gaudi平台深度学习业务进行了优化，旨在与Hugging Face、PyTorch Lightning、RedHat在内的软件合作伙伴生态系统一起，帮助简化模型的开发和迁移任务。

除了优秀的软件支持之外，在硬件生态方面，Gaudi2也十分出色，以目前英特尔与浪潮合作打造并发售的基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7为例，该服务器集成了8颗Gaudi2加速卡HL-225B，还包含双路第四代英特尔至强可扩展处理器和32颗DDR5的内存插槽，最高可以支持到8TB的系统内存。通过12个PCIe Gen5x16的插槽，可以提供高达4800Gbps的节点间互连带宽。具备高性能、高扩展、高能效和开放生态等优点，将为AI客户提供强大的大模型训练和推理能力。

主打性价比！英特尔面向中国市场推出AI加速器新品Gaudi2

此外，新华三和超聚变也是英特尔Gaudi加速器在中国的合作伙伴，未来的生态合作伙伴圈也会持续扩大。

尽管今天的互联网和算力的渗透已经无处不在，但还远远不够，AI的到来为算力的发展带来了全新的可能。能预见的是，作为未来二三十年的科技发展趋势，人工智能会为更多行业注入创新的活力，推动社会在生产模式、运营模式、产品服务等诸多方面利用新技术实现创新，在大语言模型发展如火如荼的这两年，企业在底层硬件上的选择颇有逐渐固化的趋势，这实际上很容易造成GPU的价格虚高，并带来成本的上升，而Gaudi2的出现，不但意味着英特尔正在强势切入AI加速器的“跑道”，也为那些对生成式AI和大语言模型跃跃欲试的企业们提供了全新的更有性价比的选择。