相信《绝地求生》的多数玩家都遇到过网络卡顿的情况,影响心情是常有的事情。早年间,无论是魔兽世界还是DOTA,延迟问题也一直没有彻底解决,通信网络的重要性不言而喻。如今,人工智能已经渗透到各行各业,并且改变了企业自身的运营模式。举个例子,利用人工智能管理网络已成为不少云服务商的选择。
云智能了网络傻也白搭(图片来自PCMag)
新场景让网络承压
通常在用手机玩有游戏时,设备的4G或WiFi连接到运营商网络,后者会将访问请求传输到千里之外的数据中心,期间任何一个环节出现差错都可能导致网络包请求失败,反映到用户端就是断网或者卡顿。此外,者运营商长期的链路拥堵、路由器老化也会导致丢包。随着游戏、视频等内容的质量越来越高,逐渐衍生出了基于AR、VR等场景的新玩法,对网络信号传输的压力与日俱增。
让网络智能化
以往,云主机之间的解耦关系对设备管理来说相对容易,就像局域网内的100台PC或者200台PC相互通信,数量增长是线性的。不过要是网络节点从100涨到200,还要考虑到每个节点之间的秒级互联,管理难度就是指数级增长的,数百个网络节点能衍生出数万个网络连接。如果再想用传统人力去管理,成本势必是不小的开销。此时,人工智能出现了。总体来看,用AI管理网络主要体现在五个方面。
有效管理网络资源
AI可以借助大数据对历史的通讯信息进行筛查,例如一天中某个时间段会比其他时间段产生更高的流量,以及流量峰值和谷值会达到的比例。此前,每逢电商促销都会出现流量峰值,但这个峰值会在哪个时间点出现,让人预测数万条链路显然是非常困难的,而AI却可以在几分钟内预测出未来3个月的网络使用情况。这样一来,云服务商或电商企业就可以提前向运营商发起网络扩容申请。
拓扑优化节点互联
考虑到成本方面的问题,让网络节点完全彼此互联并不容易,有些流量较少的通路可能会被忽略。如果某两点之间是直连关系,遇到拥堵最好的办法局势扩容。然而要是有突发连接请求出现,就要考虑流量绕行分流,因此会导致前端运行不稳定。接入AI之后,不仅会对整个平台的成本计算出最优结果,而且通过结合网络拓扑、历史流量、操作日志等数据进行分析,就可以找到需要在哪些节点之间建立新链路、哪些节点之间直接扩容。
网络异常排查
游戏过程中的卡顿背后是网络链路宕机,传统流程是运维人员先要查看告警信息(可能是数百条),之后找到出现问题的机房,再去研究网络环境中端到端的拓扑关系、对应机房和主机的网络结构......整个流程下来至少要半小时的时间,而用户肯定是忍受不了。如果利用AI对故障进行分析,就会筛检出可能性较高的部分,提升排查效率,将查错时间缩短至3分钟。
确定故障优先级
网络运维工程师的痛苦在于,经常在半夜爬起来解决宕机问题,而AI则可以依据预先设定对故障分级。例如,外网问题会通过DSN、BGP调度或DDoS封堵解决,内网问题则会通过弹性扩容、Qos保障、断口隔离、切换路径解决。一般情况下,85%的故障是不需要人为介入的,故障处理时间也可以降低60%左右。
用AI防御AI
AI是把双刃剑,黑客也可以用其来扫描互联网上哪些数据库可能会有高危端口、哪些平台有哪些漏洞,并且借助AI机器人来诈骗。对此,防御者也要“以彼之道还施彼身”。例如,可以使用AI来构建用户行为画像,对访问信息、操作行为、节点分布进行监测,找到仿冒或者流量异常,从而识破黑客的伪装。更重要的是,AI的自我学习和迁移学习能力可以拓展到其他场景,这是传统人力所不能比的。
结语
通过笔者与腾讯云工程师的交流,应用AI管理网络可以在业务高峰时的网络抖动减少90%、时延减少35%、业务封顶丢包率降低50%。当然,现有的AI方案还是基于人的理解所设定,尚且无法“读懂”网络底层架构,遇到重大故障仍需人工介入。未来,随着神经网络等技术的逐级深入,AI对网络的掌握程度将有望超过人类,那一天才是真正的智能网络来临。