洞见未来，华为行业先行者的网络布局与致胜之道

两粒米 发表于 2024-11-4 13:25

　交换机　　随着智能制造的持续推进，AI与制造场景的深度融合，网络技术作为支撑企业数字化进程的“底座”，重要性和使能性也日渐凸显。企业对于网络的需求正从“单环节支持”转向“价值链共振”，场景包括AI模型的数据传输、跨地域的协同研发、业务流程的在线监控、生产资源的统一调度等。　　以前用户推进网络建设，重点放在高速度、低延时。而在数字化浪潮下，如今用户更多的是追求网络的交互体验、适应变化、安全防护能力。在华为数据通信产品线副总裁赵志鹏看来，面对生成式AI技术的迅猛发展以及各种应用如火如荼的展开，搭建智能的网络基础架构，不仅仅是加快企业数字化转型的补充手段，更是突破激烈市场竞争的核心引擎。在这种趋势下，华为结合自身30年的IP网络实践，推出了面向智能时代的星河AI网络解决方案。通过创新引入大数据、智能技术和新一代协议，星河AI网络可以满足企业对于广域网络、园区网络、数据中心网络及网络安全不同场景的差异化诉求，确保各种系统及应用的高性能联接、高业务体验、高可靠安全，成为企业创新发展、培育新质生产力的“源动力”。　　在中国有句老话：“要想富，先修路。”同样在数字世界中，只有为数据交互构建一个智能化的网络基础架构，才能释放其巨大的价值。赵志鹏介绍AI技术应用已经成为企业创新发展的新阵地，以自然语言处理、图文自动生成、知识问答交互为代表的AI大模型应用层出不穷。　　需要注意的是，在AI大模型开发与应用热潮背后，其暴露出的痛点也不容忽视。赵志鹏表示面对AI应用中的GPU集群使用、工具跨区域协同和多任务并行处理等要求，如何把海量数据高效传送到算力中心，充分释放算力潜能，并且快速的将算力输送给一线用户，成为了AI大模型应用落地和价值提升的关键。　　以科大讯飞的星火认知大模型为例，其具有文本生成、语言理解、知识问答等7大核心能力，在新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中位列榜首。但AI大模型在训练过程中参数规模巨大，百亿和千亿级别犹如“家常便饭”，因此需要通过基于全局的网络智能调度，才能更好的完成训练任务。另一方面，算力规模的快速变化也带来了严重的负载冲突，要想充分释放算力，网络的高吞吐率必不可少。最后，AI大模型训练过程复杂，从数据采集、管理到模型训练、优化，是一个长期的过程，网络中的任何一个微小错误都可能导致巨大的损失，高可靠的网络保障也成为了大模型调优的基础。　　在“大规模、高吞吐、可靠性”的网络诉求下，科大讯飞最终决定携手华为，采用星河AI网络推进星火认知大模型的建设。首先，星河AI网络采用双层组网技术，最大可支持150万卡的互联，可以轻松完成超大规模组网，即使面对万亿参数的大规模训练也不在话下;其次，基于华为独创的全局负载均衡NSLB算法，可以使网络吞吐得到大幅度提高，让AI大模型训练效率提升超10%;最后，依托华为提供的独家网络数字地图，可以使计算网络运维一体化，通信异常一键诊断，训中排障效率提升90%。　　可以看到，通过“以网强算”和“以智赋能”的双轮驱动策略，华为星河AI网络在加速AI普及应用的同时，催生出了更多的网络服务新模式。用户在构建超大规模集群，满足自身算力需求的同时，还可以按需扩缩，获得可靠的网络质量，使关键应用得到最佳网络优化，无惧网络拥塞风险。

页: [1]

安而遇随-随遇而安's Archiver

洞见未来，华为行业先行者的网络布局与致胜之道