GPU 巨头 Nvidia 凭借涵盖芯片、软件和服务的产品组合以及战略性组建的合作伙伴生态系统,在数据中心人工智能领域占据了主导地位。
当游戏芯片制造商 Nvidia 十年前宣布计划向数据中心人工智能战略转型时,出现了很多问题:他们能否构建全栈、企业级产品?人工智能还有市场吗?
在该公司最新的收益报告发布后,问题是是否有人可以挑战英伟达作为企业和超大规模数据中心的卓越人工智能平台提供商的地位。
通过巧妙的收购、内部硬件/软件开发和战略联盟,Nvidia 完美地定位了自己,以利用去年年底 ChatGPT 发布所引发的生成式 AI热潮。无论是全行业的芯片短缺,还是其拟斥资 400 亿美元收购芯片竞争对手 Arm Ltd. 的失败,都没有对 Nvidia 的惊人增长产生任何明显影响。
“一个新的计算时代已经开始。世界各地的公司正在从通用计算向加速计算和生成式人工智能转型。”英伟达创始人兼首席执行官黄仁勋在公司财报中表示。“Nvidia GPU 通过我们的 Mellanox 网络和交换机技术连接并运行我们的 CUDA AI 软件堆栈,构成了生成式 AI 的计算基础设施。”
数字支持了他。Nvidia 第二季度收入从 67 亿美元增加到 135 亿美元——没错,收入同比翻了一番。净利润从 6.56 亿美元增至 61 亿美元,同比增长 854%,环比增长 202%。利润率达到 70%,因为 Nvidia 能够向企业和超大规模企业收取所需 GPU 的溢价。
数据中心收入达到 103 亿美元(单季度增长 141%),目前占总收入的 76%。到下季度末,英伟达的总收入有望超越思科。其股票交易价格为每股 490 美元。而且,据 IDC 称,它在企业 GPU(人工智能系统的构建模块)方面拥有估计 90% 的市场份额。
行业分析师持乐观态度。德意志银行的 Ross Seymore 表示:“我们仍然相信 Nvidia 非常适合从人工智能硬件和潜在软件的增长中受益。” 花旗银行的阿蒂夫·马利克 (Atif Malik) 预测,人工智能加速器市场将“以惊人的速度增长”,英伟达则吹嘘“与 AMD 相比,在人工智能性能方面具有巨大优势”。
Cowen & Co 的 Matthew Ramsay 预测 Nvidia 的收入将在 2024 年达到 460 亿美元,到 2025 年达到 650 亿美元。“这些向上修正完全集中在数据中心领域,”Ramsay 说道。他补充道:“虽然我们认识到这些数字非同寻常,但我们相信有足够的需求和供应来支持如此大规模的收入增长。”
Omdia 首席分析师 Alexander Harrowell 表示:“有很多公司拥有强大的神经网络加速器芯片,但*只有一家公司拥有 Nvidia 的软件生态系统*。” 他补充说,英伟达围绕其核心技术创建强大的开发者社区的能力赋予其独特的优势,这与苹果在 iPhone 上所做的事情没有什么不同。“‘开发者、开发者、开发者’一直是所有数字领域的制胜策略。一旦发生就很难扭转这种情况,”哈罗威尔说。
英伟达生态系统
黄仁勋表示,英伟达并不寻求从行业老牌企业手中夺取市场份额;它希望在企业将人工智能功能添加到现有的基于 CPU 的数据中心时发挥引领作用。这一战略似乎正在发挥作用,因为英伟达不但没有疏远行业重量级人物,反而成功地推动了这一进程,建立了一个合作伙伴和联盟网络。
想要将数据保留在内部并构建自己的人工智能功能吗?Nividia 与戴尔合作,为企业提供完整的本地生成式 AI 软件包,该软件包将 Nvidia 的 GPU、网络、软件和 NeMo 大语言模型 (LLM) 框架与戴尔服务器、存储和针对特定用例的预配置设计集成在一起。
如果您想利用云的可扩展性以及启动和运行的速度,Nvidia 的DGX 云服务已经涵盖了这一点,该服务现在在Oracle云上运行,预计很快就会在 Microsoft 上提供Azure 和谷歌云。DGX 云是一个完整的硬件和软件包,使企业能够在超大规模环境中使用 Nvidia 技术创建生成式 AI 模型。
对于担心将敏感数据发送到公共云相关的安全风险的组织,Nvidia 与 VMware 合作推出了名为VMware Private AI Foundation 的产品,这是一个完全集成的、随时可用的生成式 AI 平台,公司可以在本地运行、托管设施或私有云中。
将堆栈升级到人工智能驱动的业务应用程序,Nvidia 正在与 ServiceNow 和埃森哲合作开发AI Lighthouse,它结合了 ServiceNow 企业自动化平台和引擎、NVIDIA AI 超级计算和软件以及埃森哲咨询和部署服务,帮助企业构建定制生成式人工智能大语言模型和应用。
在开发者方面,除了自己强大的开发者社区外,Nvidia 还与开源 AI 开发者社区 Hugging Face 合作,让构建大型语言模型的 Hugging Face 开发者能够访问 DGX 云。这将使开发人员能够在 Nvidia 的超级计算基础设施上训练和调整高级人工智能模型。
数字孪生和机器人等工业应用怎么样?Nvidia 开发了 Omniverse 实时 3D 图形协作平台。Moor Insights 首席执行官帕特里克·穆尔黑德 (Patrick Moorhead) 表示:“Nvidia Omniverse 在 Microsoft Azure 云中的可用性对于 Nvidia 和希望获得数字孪生技术优势的企业来说是向前迈出的一大步。”
他补充道:“很少有公司能够做到 Nvidia 在 Omniverse 上所做的事情。其核心是,英伟达正在利用其强大的硬件优势来实现这个令人难以置信的人工智能驱动的软件平台。这使得 Omniverse 成为那些希望简化运营并在快速发展的技术领域保持领先地位的企业的宝贵工具。”
智能汽车?日益由软件驱动的汽车行业也出现在英伟达的雷达屏幕上。该公司正在与联发科技合作,为 OEM 开发汽车芯片(或小芯片)系统。
GPU战场
Nvidia 在 GPU 领域拥有主导市场份额,远远领先于竞争对手 AMD 和英特尔,并且不断更新其产品组合,定期发布更强大的芯片。在最近一个季度,它发布了用于复杂人工智能和高性能计算工作负载的GH2000 Grace Hopper Superchip,以及L40S GPU,这是一种通用数据中心处理器,旨在加速计算最密集的应用程序。
但 AMD 并没有按兵不动。它用新的 Instinct MI300X 芯片向 Nvidia 发起挑战,并通过将多个 MI300X 小芯片与 Zen4 CPU 小芯片相结合来构建强大的 AI 加速器。AMD 首席执行官苏姿丰 (Lisa Su) 6 月在旧金山举行的一次活动中表示:“生成式 AI、大型语言模型已经改变了格局。” “无论是训练还是推理,对更多计算的需求都呈指数级增长。”
“当你将 MI300X 与竞争对手进行比较时,MI300X 提供了 2.4 倍的内存和 1.6 倍的内存带宽,并且凭借所有这些额外的内存容量,我们实际上在大型语言模型方面具有优势,因为我们可以直接在内存中运行更大的模型”苏说道。
然而,新的 AMD 芯片要到 2024 年才会批量出货。英特尔继续落后。今年 3 月,英特尔宣布取消 Rialto Bridge 一代 GPU,并将 Falcon Shores GPU 架构推迟到 2025 年。
穆迪投资者服务公司高级副总裁拉杰·乔希 (Raj Joshi) 表示:“在 AMD 于 2024 年初开始大批量发售新型 AI 加速器之前,Nvidia 的高性能 GPU 不会出现有意义的竞争。”
Breyer Capital 首席执行官吉姆·布雷耶 (Jim Breyer) 补充道:“从三年时间来看,Nvidia 势不可挡;它在 GPU 方面领先一年半。” Breyer 补充道,从他的角度来看,Nvidia 最大的挑战不是来自 AMD 或英特尔,而是来自 AMD。
他表示,谷歌起步缓慢,但据报道,创始人谢尔盖·布林和拉里·佩奇已经复出,回到谷歌总部,致力于该公司名为 Gemini 的人工智能项目。
谷歌更多地从搜索引擎的角度来对待人工智能,寻求在面对微软的挑战时保持其 Chrome 的主导地位,微软已将 Chat-GPT 集成到其 Edge 浏览器中。(Microsoft/OpenAI ChatGPT 技术在 Nvidia 芯片上运行。)
谷歌也使用 Nvidia GPU,但开发了自己的 TPU(张量处理单元),即专为机器学习和人工智能设计的专用 ASIC。谷歌完全有可能提高 TPU 的产量,并基于自己的 PaLM 2 大语言模型构建全栈生成式 AI 产品。
同样,亚马逊也在开发自己的 GPU。2015年,亚马逊以3.5亿美元收购了以色列芯片设计初创公司Annapurna Labs,并开发了两种类型的GPU——Trainium(设计用于处理大型语言模型的计算密集型训练)和Inferentia(设计用于AI的推理部分)等式,即最终用户查询 LLM 时的情况。)
亚马逊首席执行官安迪·贾西 (Andy Jassy) 表示,AWS 本身正在使用 Trainium 和 Inferentia,但也向客户提供了更具成本效益的加速器。他补充说,使用 Trainium 训练的人工智能模型比类似的 GPU 系统“快 140%”,“成本低 70%”。
亚马逊仍然从英伟达购买绝大多数人工智能芯片,因此尚不清楚亚马逊能够从英伟达的芯片市场份额中分得多少份额。然而,永远不要低估谷歌或AWS。他们拥有技术实力、雄厚的财力,每个人都有自己的大型语言模型、自己的市场和开发者社区,当然还有可以满足人工智能应用程序需求的数据中心。
如果他们决定直接挑战英伟达,他们确实面临着重大挑战。Bernstein Research 高级分析师 Stacy Rasgon 指出,“Nvidia 芯片拥有一个庞大的软件生态系统,在过去 15 年里围绕它们建立起来,这是其他任何人都没有的。”
潜在的陷阱
任何拥有黑莓手机的人都可以证明,没有任何技术或看似占主导地位的技术提供商是不可战胜的。有几个因素可能导致竞争对手从英伟达手中夺取市场份额。
如今,英伟达几乎是市场上唯一的游戏公司,因此它可以在其芯片上收取大量费用;单个 GPU 的运行成本高达 40,000 美元。一旦 AMD 和英特尔联手,他们无疑将提供更低成本的替代方案。
此外,企业总是担心供应商锁定,因此,随着时间的推移,他们可能会增加第二个 GPU 供应商。这些因素可能会夺走英伟达的市场份额,但至少它们将促使英伟达降低价格,从而给收入和盈利带来压力。
英伟达的其他潜在陷阱是成为其自身成功的受害者。过于分散,无法执行,变得过于傲慢,与客户失去联系。并不是说这些事情正在发生,但这并不是公司第一次遭受自伤。
黄仁勋的稳定领导力是英伟达的一大关键优势。黄经常在行业活动中发表演讲,极具魅力。他现年 60 岁,尚未接近退休年龄,但如果他因任何原因决定辞职,公司可能会面临领导层真空。
生成式人工智能引起关注的另一个方面是功耗。“Nvidia 的独特之处在于它生产了世界上第一个功耗超过 1 千瓦的芯片。事实证明,人工智能时代在能源方面极其挥霍,而恰恰在我们最无力负担的时候,”哈罗威尔说。
Forrester 分析师 Glenn O’Donnell 指出,大型企业的技术领导者可能会对生成式人工智能感到兴奋,但首席财务官可能对在可能令人兴奋的事情上花费大量资金和消耗大量精力的想法有不同的看法但不一定能表现出明确的投资回报率。
最后,我们知道每一项技术进步最终都会被下一个重大事物所超越。Harrowell 表示,对 Nvidia 领导地位的颠覆可能来自基础人工智能研究,这些研究开发出比大规模语言模型更有效的人工智能方法。特斯拉、苹果、谷歌、IBM、Meta 等公司可能会出现替代处理器架构。
但从短期来看,英伟达占据主导地位。奥唐纳表示,英伟达已经有条不紊地执行了其游戏计划;他们制造了芯片,创建了生态系统并赢得了市场份额之争。“这股力量确实无法阻止,”他说。“他们将继续占据主导地位。”
GPU 巨头 Nvidia 凭借涵盖芯片、软件和服务的产品组合以及战略性组建的合作伙伴生态系统,在数据中心人工智能领域占据了主导地位。
当游戏芯片制造商 Nvidia 十年前宣布计划向数据中心人工智能战略转型时,出现了很多问题:他们能否构建全栈、企业级产品?人工智能还有市场吗?
在该公司最新的收益报告发布后,问题是是否有人可以挑战英伟达作为企业和超大规模数据中心的卓越人工智能平台提供商的地位。
通过巧妙的收购、内部硬件/软件开发和战略联盟,Nvidia 完美地定位了自己,以利用去年年底 ChatGPT 发布所引发的生成式 AI热潮。无论是全行业的芯片短缺,还是其拟斥资 400 亿美元收购芯片竞争对手 Arm Ltd. 的失败,都没有对 Nvidia 的惊人增长产生任何明显影响。
“一个新的计算时代已经开始。世界各地的公司正在从通用计算向加速计算和生成式人工智能转型。”英伟达创始人兼首席执行官黄仁勋在公司财报中表示。“Nvidia GPU 通过我们的 Mellanox 网络和交换机技术连接并运行我们的 CUDA AI 软件堆栈,构成了生成式 AI 的计算基础设施。”
数字支持了他。Nvidia 第二季度收入从 67 亿美元增加到 135 亿美元——没错,收入同比翻了一番。净利润从 6.56 亿美元增至 61 亿美元,同比增长 854%,环比增长 202%。利润率达到 70%,因为 Nvidia 能够向企业和超大规模企业收取所需 GPU 的溢价。
数据中心收入达到 103 亿美元(单季度增长 141%),目前占总收入的 76%。到下季度末,英伟达的总收入有望超越思科。其股票交易价格为每股 490 美元。而且,据 IDC 称,它在企业 GPU(人工智能系统的构建模块)方面拥有估计 90% 的市场份额。
行业分析师持乐观态度。德意志银行的 Ross Seymore 表示:“我们仍然相信 Nvidia 非常适合从人工智能硬件和潜在软件的增长中受益。” 花旗银行的阿蒂夫·马利克 (Atif Malik) 预测,人工智能加速器市场将“以惊人的速度增长”,英伟达则吹嘘“与 AMD 相比,在人工智能性能方面具有巨大优势”。
Cowen & Co 的 Matthew Ramsay 预测 Nvidia 的收入将在 2024 年达到 460 亿美元,到 2025 年达到 650 亿美元。“这些向上修正完全集中在数据中心领域,”Ramsay 说道。他补充道:“虽然我们认识到这些数字非同寻常,但我们相信有足够的需求和供应来支持如此大规模的收入增长。”
Omdia 首席分析师 Alexander Harrowell 表示:“有很多公司拥有强大的神经网络加速器芯片,但只有一家公司拥有 Nvidia 的软件生态系统。” 他补充说,英伟达围绕其核心技术创建强大的开发者社区的能力赋予其独特的优势,这与苹果在 iPhone 上所做的事情没有什么不同。“‘开发者、开发者、开发者’一直是所有数字领域的制胜策略。一旦发生就很难扭转这种情况,”哈罗威尔说。
英伟达生态系统
黄仁勋表示,英伟达并不寻求从行业老牌企业手中夺取市场份额;它希望在企业将人工智能功能添加到现有的基于 CPU 的数据中心时发挥引领作用。这一战略似乎正在发挥作用,因为英伟达不但没有疏远行业重量级人物,反而成功地推动了这一进程,建立了一个合作伙伴和联盟网络。
想要将数据保留在内部并构建自己的人工智能功能吗?Nividia 与戴尔合作,为企业提供完整的本地生成式 AI 软件包,该软件包将 Nvidia 的 GPU、网络、软件和 NeMo 大语言模型 (LLM) 框架与戴尔服务器、存储和针对特定用例的预配置设计集成在一起。
如果您想利用云的可扩展性以及启动和运行的速度,Nvidia 的DGX 云服务已经涵盖了这一点,该服务现在在Oracle云上运行,预计很快就会在 Microsoft 上提供Azure 和谷歌云。DGX 云是一个完整的硬件和软件包,使企业能够在超大规模环境中使用 Nvidia 技术创建生成式 AI 模型。
对于担心将敏感数据发送到公共云相关的安全风险的组织,Nvidia 与 VMware 合作推出了名为VMware Private AI Foundation 的产品,这是一个完全集成的、随时可用的生成式 AI 平台,公司可以在本地运行、托管设施或私有云中。
将堆栈升级到人工智能驱动的业务应用程序,Nvidia 正在与 ServiceNow 和埃森哲合作开发AI Lighthouse,它结合了 ServiceNow 企业自动化平台和引擎、NVIDIA AI 超级计算和软件以及埃森哲咨询和部署服务,帮助企业构建定制生成式人工智能大语言模型和应用。
在开发者方面,除了自己强大的开发者社区外,Nvidia 还与开源 AI 开发者社区 Hugging Face 合作,让构建大型语言模型的 Hugging Face 开发者能够访问 DGX 云。这将使开发人员能够在 Nvidia 的超级计算基础设施上训练和调整高级人工智能模型。
数字孪生和机器人等工业应用怎么样?Nvidia 开发了 Omniverse 实时 3D 图形协作平台。Moor Insights 首席执行官帕特里克·穆尔黑德 (Patrick Moorhead) 表示:“Nvidia Omniverse 在 Microsoft Azure 云中的可用性对于 Nvidia 和希望获得数字孪生技术优势的企业来说是向前迈出的一大步。”
他补充道:“很少有公司能够做到 Nvidia 在 Omniverse 上所做的事情。其核心是,英伟达正在利用其强大的硬件优势来实现这个令人难以置信的人工智能驱动的软件平台。这使得 Omniverse 成为那些希望简化运营并在快速发展的技术领域保持领先地位的企业的宝贵工具。”
智能汽车?日益由软件驱动的汽车行业也出现在英伟达的雷达屏幕上。该公司正在与联发科技合作,为 OEM 开发汽车芯片(或小芯片)系统。
GPU战场
Nvidia 在 GPU 领域拥有主导市场份额,远远领先于竞争对手 AMD 和英特尔,并且不断更新其产品组合,定期发布更强大的芯片。在最近一个季度,它发布了用于复杂人工智能和高性能计算工作负载的GH2000 Grace Hopper Superchip,以及L40S GPU,这是一种通用数据中心处理器,旨在加速计算最密集的应用程序。
但 AMD 并没有按兵不动。它用新的 Instinct MI300X 芯片向 Nvidia 发起挑战,并通过将多个 MI300X 小芯片与 Zen4 CPU 小芯片相结合来构建强大的 AI 加速器。AMD 首席执行官苏姿丰 (Lisa Su) 6 月在旧金山举行的一次活动中表示:“生成式 AI、大型语言模型已经改变了格局。” “无论是训练还是推理,对更多计算的需求都呈指数级增长。”
“当你将 MI300X 与竞争对手进行比较时,MI300X 提供了 2.4 倍的内存和 1.6 倍的内存带宽,并且凭借所有这些额外的内存容量,我们实际上在大型语言模型方面具有优势,因为我们可以直接在内存中运行更大的模型”苏说道。
然而,新的 AMD 芯片要到 2024 年才会批量出货。英特尔继续落后。今年 3 月,英特尔宣布取消 Rialto Bridge 一代 GPU,并将 Falcon Shores GPU 架构推迟到 2025 年。
穆迪投资者服务公司高级副总裁拉杰·乔希 (Raj Joshi) 表示:“在 AMD 于 2024 年初开始大批量发售新型 AI 加速器之前,Nvidia 的高性能 GPU 不会出现有意义的竞争。”
Breyer Capital 首席执行官吉姆·布雷耶 (Jim Breyer) 补充道:“从三年时间来看,Nvidia 势不可挡;它在 GPU 方面领先一年半。” Breyer 补充道,从他的角度来看,Nvidia 最大的挑战不是来自 AMD 或英特尔,而是来自 AMD。
他表示,谷歌起步缓慢,但据报道,创始人谢尔盖·布林和拉里·佩奇已经复出,回到谷歌总部,致力于该公司名为 Gemini 的人工智能项目。
谷歌更多地从搜索引擎的角度来对待人工智能,寻求在面对微软的挑战时保持其 Chrome 的主导地位,微软已将 Chat-GPT 集成到其 Edge 浏览器中。(Microsoft/OpenAI ChatGPT 技术在 Nvidia 芯片上运行。)
谷歌也使用 Nvidia GPU,但开发了自己的 TPU(张量处理单元),即专为机器学习和人工智能设计的专用 ASIC。谷歌完全有可能提高 TPU 的产量,并基于自己的 PaLM 2 大语言模型构建全栈生成式 AI 产品。
同样,亚马逊也在开发自己的 GPU。2015年,亚马逊以3.5亿美元收购了以色列芯片设计初创公司Annapurna Labs,并开发了两种类型的GPU——Trainium(设计用于处理大型语言模型的计算密集型训练)和Inferentia(设计用于AI的推理部分)等式,即最终用户查询 LLM 时的情况。)
亚马逊首席执行官安迪·贾西 (Andy Jassy) 表示,AWS 本身正在使用 Trainium 和 Inferentia,但也向客户提供了更具成本效益的加速器。他补充说,使用 Trainium 训练的人工智能模型比类似的 GPU 系统“快 140%”,“成本低 70%”。
亚马逊仍然从英伟达购买绝大多数人工智能芯片,因此尚不清楚亚马逊能够从英伟达的芯片市场份额中分得多少份额。然而,永远不要低估谷歌或AWS。他们拥有技术实力、雄厚的财力,每个人都有自己的大型语言模型、自己的市场和开发者社区,当然还有可以满足人工智能应用程序需求的数据中心。
如果他们决定直接挑战英伟达,他们确实面临着重大挑战。Bernstein Research 高级分析师 Stacy Rasgon 指出,“Nvidia 芯片拥有一个庞大的软件生态系统,在过去 15 年里围绕它们建立起来,这是其他任何人都没有的。”
潜在的陷阱
任何拥有黑莓手机的人都可以证明,没有任何技术或看似占主导地位的技术提供商是不可战胜的。有几个因素可能导致竞争对手从英伟达手中夺取市场份额。
如今,英伟达几乎是市场上唯一的游戏公司,因此它可以在其芯片上收取大量费用;单个 GPU 的运行成本高达 40,000 美元。一旦 AMD 和英特尔联手,他们无疑将提供更低成本的替代方案。
此外,企业总是担心供应商锁定,因此,随着时间的推移,他们可能会增加第二个 GPU 供应商。这些因素可能会夺走英伟达的市场份额,但至少它们将促使英伟达降低价格,从而给收入和盈利带来压力。
英伟达的其他潜在陷阱是成为其自身成功的受害者。过于分散,无法执行,变得过于傲慢,与客户失去联系。并不是说这些事情正在发生,但这并不是公司第一次遭受自伤。
黄仁勋的稳定领导力是英伟达的一大关键优势。黄经常在行业活动中发表演讲,极具魅力。他现年 60 岁,尚未接近退休年龄,但如果他因任何原因决定辞职,公司可能会面临领导层真空。
生成式人工智能引起关注的另一个方面是功耗。“Nvidia 的独特之处在于它生产了世界上第一个功耗超过 1 千瓦的芯片。事实证明,人工智能时代在能源方面极其挥霍,而恰恰在我们最无力负担的时候,”哈罗威尔说。
Forrester 分析师 Glenn O’Donnell 指出,大型企业的技术领导者可能会对生成式人工智能感到兴奋,但首席财务官可能对在可能令人兴奋的事情上花费大量资金和消耗大量精力的想法有不同的看法但不一定能表现出明确的投资回报率。
最后,我们知道每一项技术进步最终都会被下一个重大事物所超越。Harrowell 表示,对 Nvidia 领导地位的颠覆可能来自基础人工智能研究,这些研究开发出比大规模语言模型更有效的人工智能方法。特斯拉、苹果、谷歌、IBM、Meta 等公司可能会出现替代处理器架构。
但从短期来看,英伟达占据主导地位。奥唐纳表示,英伟达已经有条不紊地执行了其游戏计划;他们制造了芯片,创建了生态系统并赢得了市场份额之争。“这股力量确实无法阻止,”他说。“他们将继续占据主导地位。”