浪潮AIStation训练平台支持AI训练与推理一站式交付

2020-12-10 10:22:03 [ 中关村在线原创 ] 作者：王嘉陆 | 责编：徐鹏

AI模型从开发进入到生产部署阶段面临着多重困难和挑战，需要经过大量的调试和测试才能部署上线，这一过程通常需要2-3天;AI线上服务计算资源一般较固定，对于突发需求资源响应慢，业务扩展难。AIStation是浪潮自主研发的人工智能开发平台，面向深度学习开发场景，整合计算资源、数据资源以及AI开发环境，实现计算资源统一分配调度、训练数据集中管理并加速、模型流程化开发训练，为AI研发构建敏捷高效的一体化平台。支持具有资源池化特性的GPU服务器，可以实现跨节点资源分配，便于云平台GPU池化管理。

最新发布的浪潮AIStation推理平台是企业级AI推理服务平台，通过弹性可伸缩架构、低延迟轻量化设计、A/B测试滚动发布、多模型加权评估等重要技术创新，帮助企业高效利用AI计算资源，快速部署推理服务。AIStaion推理平台具有一键部署、快速响应、日志监控、资源管控、数据处理等功能，功能全面强大的AI资源平台。

浪潮AIStation支持AI服务器性能及状态监控，CPU利用率、MEM利用率、网络IO、IB流量、磁盘分区、节点负载等GPU性能监控。同时采用性可伸缩架构，可根据推理服务资源需求的变化及时调整资源配给，将响应突发需求的实例部署时间从几小时缩短到几分钟。并且支持新模型发布前A/B测试，在实际业务场景中验证模型有效性，保证推理业务的安全、可靠，同时避免了流量切换所导致的集群负载压力。

在模型管理方面，AIStation推理平台实现了多源模型统一调度。通过统一平台管理多源、多场景模型的推理服务，实时掌控全局资源，对模型服务实现综合调度和动态部署。同一资源池可同时支持多家模型服务，将资源利用率从40% 提高到80%。并且可实现多模型加权评估，通过对不同预训练模型的计算结果进行自定义权值设置，有效提升实际业务场景中预测结果的可靠性，构建可靠可信的智能系统，有效降低误判率。