在人工智能与高性能计算领域,英伟达凭借多项核心技术占据行业*地位。其中,除广为人知的AI硬件、CUDA生态外,NVLink内存共享端口技术同样是其重要的核心竞争力,堪称构筑起英伟达市场优势的关键护城河之一。然而,随着技术的发展与行业竞争的加剧,NVLink正面临诸多挑战,其作为护城河的稳固性引发广泛关注。
01
NVLink如何构建英伟达AI护城河?
早在2014年,英伟达便首次向外界公布了NVLink协议,这一创新技术的诞生,为多GPU协同工作开启了新的篇章。2016年,NVLink 1.0在DGX - 1系统中首次得到实际应用,成功连接8个P100 GPU。彼时,传统的PCIe互联技术受限于带宽和延迟,已难以满足高性能计算(HPC)应用日益增长的需求。NVLink 1.0以80GB/s的带宽横空出世,有效缓解了数据传输瓶颈,极大地提升了多GPU系统的协同效率,开创了高性能计算领域多GPU协同工作的新局面。
此后,NVLink历经多次重要的技术迭代,持续突破性能极限。2017年,NVLink 2.0版本推出,引入了NVSwitch这一关键组件,进一步拓展了连接规模。借助NVSwitch,多GPU和CPU节点能够在更大范围内构建起复杂的互联网络,每个链接的带宽提升至25GB/s,双向总带宽达到50GB/s。以V100 GPU为例,其最高可支持6个链接,实现了300GB/s的双向总带宽,为大规模计算任务提供了更强大的支持。
2020年发布的NVLink 3.0在技术上再次取得重大突破,将每个差分对的数据传输速率从25Gbit/s提升至50Gbit/s,同时对差分对数量进行优化,从8个减少到4个。以基于Ampere架构的A100 GPU为例,其12个链接带来了高达600GB/s的总带宽,数据传输效率得到显著提升。
到了2022年,NVLink 4.0在信号技术方面实现重要革新,从NRZ进化到PAM4。基于Hopper架构的GPU凭借18个NVLink 4.0链接,实现了900GB/s的总带宽,进一步巩固了英伟达在高速互联领域的技术优势。而在COMPUTEX 2025上,英伟达推出的第五代NVLink更是将带宽提升至惊人的1.2TB/s,不断刷新高性能计算领域的性能上限。
同时,随着技术的演进,NVLink的应用场景也不断拓展。在人工智能与深度学习领域,大语言模型等AI模型训练需要处理海量参数和数据,单GPU的内存和计算能力远远不足,NVLink允许多GPU共享统一内存池,加速模型训练。
随着技术的不断演进,NVLink的应用场景也在持续拓展。在人工智能与深度学习领域,大语言模型等AI模型训练面临着海量参数和数据处理的巨大挑战,单GPU的内存和计算能力远远无法满足需求。NVLink技术允许众多GPU共享统一内存池,通过高效的数据传输和协同计算,大幅加速模型训练进程。实测数据显示,采用NVLink互联的千卡集群,参数同步效率提升2倍以上,整体算力利用率从60%跃升至90%量级。正是凭借NVLink技术构筑起的强大技术壁垒,英伟达得以在全球AI训练市场占据霸主地位,垄断全球高端GPU市场,成为高性能计算领域的领军企业。
02
NVLink 的竞争对手越来越多了
当前,英伟达GPU凭借高效率的运算能力,广泛应用于全球各高算力领域,使得NVLink在事实上成为行业互联标准。然而,这一局面也引发了其他科技巨头的竞争。为了在高性能计算和AI领域与英伟达一争高下,AMD、英特尔纷纷推出CXL、UCIe等互联方案。这些竞争对手面临着艰难的抉择:若不加速与市场需求和现有生态的兼容适配,其产品很可能在激烈的竞争中被边缘化;反之,在技术研发和市场推广上则需投入巨大成本。
此外,行业内的竞争态势愈发激烈。UALink联盟近期正式发布1.0标准,为市场带来新的技术选择。国内首家对标英伟达“NVLinkamp;NVSwitch”的互联通信方案提供商——北京探微芯联科技有限公司,也宣布完成数千万人民币天使轮融资。探微芯联源自清华大学类脑计算研究中心,专注于GPU与GPU间通信协议和交换芯片的研发,其自研的ACCLinkamp;ACCSwitch技术,在性能和功能上可与英伟达的NVLinkamp;NVSwitch技术相媲美,为国产高性能计算互联技术的发展注入新的活力,也给英伟达的NVLink技术带来了新的竞争压力。
03
英伟达开放NVLink
在2025年台北国际电脑展上,英伟达首席执行官黄仁勋宣布开放NVLink Fusion技术授权,允许联发科、美满电子、富士通、高通等12家第三方企业接入其高速互连体系。这一举措预计将带动AI服务器制造成本下降18%。表面上看,开放NVLink意味着英伟达正在放弃其长期以来坚持的硬件闭环优势,但深入分析其背后逻辑可以发现,这实则是英伟达战略转型的重要一步。通过NVLink Fusion吸引第三方硬件接入,英伟达旨在扩大CUDA生态的“势力范围”,实现从单纯的硬件卖家向“技术标准输出+区域产能绑定”模式的蜕变,完成从“卖铲人”到“修路者”的角色转变。
近期,英伟达首度推出NVLink Fusion,正式进军ASIC市场,与UALink联盟展开正面竞争。英伟达执行长黄仁勋表示,目前90%的ASIC专案都将失败,并强调英伟达的ASIC产品会比其他竞争者成长更快。然而,英伟达开放NVLink Fusion技术授权的背后,也透露出其对技术护城河被打破的担忧。随着越来越多竞争对手的涌现和技术的快速发展,英伟达不得不通过开放技术来巩固自身的市场地位,但这折射出其核心技术正面临着更多的竞争和挑战。
04
华为超节点技术或打破NVLink垄断
尽管英伟达开放了NVLink技术授权,但遗憾的是,首批获得授权的12家企业中,没有一家来自大陆。在国内,如何发展相关技术成为构建大规模国产GPU集群的关键所在。近期,“超节点”这一概念在AI圈迅速走红。超节点最初由英伟达公司提出,在AI发展进程中,随着大模型参数规模不断增长,对GPU集群的规模需求也水涨船高,从千卡级逐步发展到万卡级、十万卡级,未来甚至可能迈向更大规模。构建大规模GPU集群主要有两种方式:Scale Up和Scale Out。Scale Up即向上扩展,也称为纵向扩展,通过增加单节点的资源数量来提升算力;Scale Out则是向外扩展,又称横向扩展,通过增加节点的数量来实现规模增长。例如,在每台服务器中增加几块GPU,这就是Scale Up,此时一台服务器可视为一个节点;而通过网络将多台电脑(节点)连接起来,则属于Scale Out。
近期,华为高调发布了AI领域的重磅技术——CloudMatrix 384超节点。该超节点以384张昇腾算力卡组成,在目前已商用的超节点中单体规模*,可提供高达300 PFLOPs的密集BF16算力,接近英伟达GB200 NVL72系统算力的两倍。华为CloudMatrix 384超节点通过超高带宽Scale - Up新型高速总线网络,实现了从“传统以太网”向“共享总线网络”的重大演进,将资源互联带宽提升了10倍以上,在关键特性上超越了英伟达NVL72超节点。
这种集群计算技术有效地弥补了国产芯片在先进制程和算力上的不足。华为华为首席执行官任正非在采访中也表示,“单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”任正非补充说,“中国在中低端芯片上是可以有机会的,中国数十、上百家芯片公司都很努力。特别是化合物半导体机会更大。硅基芯片,我们用数学补物理、非摩尔补摩尔,利用集群计算的原理,可以达到满足我们现在的需求。”他还表示,“芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与*进水平是相当的。软件方面,将来是千百种开源软件满足整个社会需要。”
值得注意的是,英伟达更早就有超节点了,但最多只能做到72块卡。这主要是因为英伟达的卡和卡之间是用铜缆通信,即所谓的NVLink,其可以保证每秒百g级的通信效率,并且不需要经过CPU,这样才能保障多卡之间的训练和推理,会随着卡数的增加而提升吞吐量和效率。但NVLink也有问题,不能超过3米,否则信号会急剧衰减,所以,英伟达的多卡超节点只能放在一个机柜里,最多塞72块,这也是他的上限。
与之相比,华为虽然昇腾单卡性能目前与英伟达仍存在一定差距,但华为作为通讯领域出身的企业,在通信技术方面具有得天独厚的优势,处于行业*地位。华为另辟蹊径,采用光通信替代铜缆通信,这一创新举措能够在几乎无限长度的传输距离下,保障比NVLink更高的带宽。因此,华为的超节点不要求算力卡集中在一个机柜内,甚至可以分布在不同机房。这种优势使得华为能够更大规模地堆叠算力卡,384超节点的实际算力节点已远超英伟达的72超节点,并且未来还有进一步扩展的空间。此外,华为光通信技术在模块化和异构化方面表现出色,不仅支持昇腾卡,还能兼容其他各家的TPU,形成了一个开放、灵活的生态系统。
05
英伟达也瞄准光通信技术
显然,英伟达也意识到了相关问题,一直以来都在布局研究光通信技术和产品。英伟达正在为当前及下一代光学系统优先采用硅光技术。2025年3月,英伟达宣布推出全球*采用新型微环调制器的1.6T CPO系统,并表示其Quantum-X硅光交换机将于2025年下半年出货,Spectrum-X系统也将在2026年下半年跟进。
然而,在光通信技术生态建设方面,英伟达面临着诸多挑战。Meta和微软倡导围绕CPO建立新的生态系统,并致力于制定光学引擎制造的行业标准,但初期产品仍将基于专有设计。这对于倾向于自行设计服务器、交换机和所有互连设备的大客户而言,成为了大规模部署的一大障碍。为了加速CPO技术的部署,英伟达计划向终端用户提供集成了CPO的完整系统,并全面负责系统的运行和维护。如果此类系统能够带来显著的性能提升,客户或许会愿意接受。但从长远来看,完全依赖英伟达的设计并非Meta、微软等大型云公司可接受的长期战略。要实现CPO技术的大规模部署,构建一个全新的、充满竞争的生态系统至关重要。
博通公司也在日前宣布,开始交付Tomahawk 6交换机系列芯片,该系列单芯片提供102.4 Tbps的交换容量,是目前市场上以太网交换机带宽的两倍。Tomahawk 6专为下一代可扩展和可扩展AI网络而设计,通过支持100G / 200G SerDes和共封装光学模块,提供更高的灵活性。
声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。