该项目让生产型生成式AI像Linux一样无处不在,与创始贡献者CoreWeave、Google Cloud、IBM Research和NVIDIA合作打造,携手行业领导者AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI,并获得了来自加州大学伯克利分校和芝加哥大学的支持
中国北京 – 2025年5月22日 – 全球领先的开源解决方案提供商红帽公司近日宣布启动全新开源项目llm-d,以满足生成式AI(gen AI)未来最关键的需求:大规模推理。llm-d采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由,利用突破性的大规模生成式AI推理技术,让强大的大语言模型(LLM)推理云能够满足最苛刻的生产服务级目标(SLO)。
虽然训练仍然至关重要,但生成式AI的真正影响取决于更高效和可扩展的推理——将AI模型转化为可操作洞察和用户体验的引擎。根据Gartner[1]数据,“到2028年,随着市场的成熟,80%以上的数据中心工作负载加速器将专门部署用于推理,而不是训练用途。”这强调了生成式AI的未来在于执行能力。随着推理模型日益复杂和规模不断扩大,其对资源需求的持续攀升限制了集中式推理的可行性,并有可能因成本过高和延迟过长而使AI创新陷入瓶颈。
通过llm-d满足可扩展生成式AI的推理需求
红帽及其行业合作伙伴正通过llm-d应对这一挑战。llm-d是一个前瞻性项目,它能增强vLLM的能力,从而超越单台服务器的限制,为AI推理解锁大规模生产。使用Kubernetes久经考验的编排能力,llm-d将先进的推理能力集成到现有的企业IT基础设施中。该统一平台使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大限度地提高效率,并显著降低与高性能AI加速器相关的总体拥有成本(TCO)。
llm-d提供了一套强大的创新,其中包括:
· vLLM已迅速成为开源领域的事实标准推理服务器,为新兴的前沿模型提供Day 0模型支持,并支持各种加速器,现已包括Google Cloud张量处理器单元(TPU)。
· 预填充和解码分离将AI的输入上下文和token生成阶段分离成离散操作,然后将它们分布到多个服务器上。
· 键值缓存卸载,基于LMCache,将键值缓存的内存负担从GPU内存转移到更具成本效益且容量更大的标准存储,如CPU内存或网络存储。
· 由Kubernetes驱动的集群和控制器可在工作负载需求波动时更高效地调度计算和存储资源,同时确保性能和较低的延迟。
· AI感知网络路由,用于将传入请求调度到最有可能拥有过去推理计算热缓存的服务器和加速器。
· 高性能通信API可实现服务器之间更快、更高效的数据传输,支持NVIDIA推理传输库(NIXL)。
llm-d:受到行业领导者的支持
该全新开源项目已经获得了由领先的生成式AI模型提供商、AI加速器先驱和主要AI云平台组成的强大联盟的支持。CoreWeave、Google Cloud、IBM Research和NVIDIA是该项目的创始贡献者,而AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI是该项目的合作伙伴,这也表明,业界在构建大规模LLM服务的未来方面开展了深入合作。加州大学的Sky Computing Lab(vLLM的发起者)和芝加哥大学的LMCache Lab(LMCache的发起者)作为创始支持者加入llm-d社区。
基于对开放合作的坚定承诺,红帽认识到,在快速发展的生成式AI推理领域,充满活力且易于访问的社区至关重要。红帽将积极推动llm-d社区的发展,为新成员营造一个包容的环境,并促进其持续发展。
红帽的愿景:任意模型,任意加速器,任意云,自由部署
AI的未来应当充满无限机遇,而不应受到基础设施孤岛的限制。红帽认为,未来,企业可以在任意云环境中的任意加速器上部署任意模型,提供卓越且更加一致的用户体验,而无需高昂的成本。为了释放生成式AI投资的真正潜力,企业需要一个通用推理平台 —— 一个用以推动当下以及未来数年中,更加无缝、更高性能AI创新的标准。
正如红帽通过将Linux转变为现代IT的基石,开创了开源企业先河,如今红帽正构建AI推理的未来。vLLM拥有成为标准化生成式AI推理核心的潜力,红帽致力于构建一个繁荣的生态系统,不仅围绕vLLM社区,还包括用于大规模分布式推理的llm-d。红帽的愿景非常清晰:无论采用何种AI模型、底层加速器或部署环境,vLLM都能成为新型跨混合云环境推理的开放标准权威。
支持证言
红帽高级副总裁兼AI首席技术官Brian Stevens
“由AI领域先锋力量共同发起的llm-d社区正式成立,这一事件标志着解决规模化生成式AI推理难题的关键突破——该挑战正是阻碍企业AI大规模落地的核心障碍。通过融合vLLM的创新架构与Kubernetes的成熟编排能力,llm-d开创了跨混合云环境实现分布式、可扩展且高性能AI推理的新范式。其支持任意模型、任意加速器、任意云环境的特性,正在推动‘无限AI潜能’愿景的实现。”
AMD AI产品管理企业副总裁Ramine Roane
“AMD很荣幸能成为llm-d社区的创始成员,贡献我们在高性能GPU方面的专业知识,助力推进AI推理,满足不断发展的企业AI需求。企业正在应对生成式AI日益增长的复杂性,以实现更大的规模和更高的效率,AMD期待通过llm-d项目满足这一行业需求。”
思科开源项目办公室副总裁兼思科DevNet主管Shannon McFarland
“llm-d项目是实用型生成式AI领域的一项重要进展。llm-d赋能开发者以编程方式集成和扩展生成式AI推理,从而将现代AI领域的创新和效率提升到新的水平。思科很荣幸能成为llm-d社区的一员,我们在此共同探索真实世界的用例,帮助企业更有效、更高效地应用AI。”
CoreWeave工程高级副总裁 Chen Goldberg
“CoreWeave很荣幸能成为llm-d项目的创始贡献者,并加深我们对开源AI的长期承诺。从我们早期与EleutherAI的合作,到目前推进大规模推理的工作,我们一直致力于使强大的AI基础设施更易于访问。很高兴能与一群出色的合作伙伴以及更广泛的开发者社区携手合作,共同建立一个灵活、高性能的推理引擎,加速创新,为开放、可互操作的AI奠定基础。”
Google Cloud AI与计算基础设施副总裁兼总经理Mark Lohmeyer
“在企业大规模部署AI,并为用户创造价值的过程中,高效的AI推理至关重要。在我们进入推理的新时代之际,Google Cloud很荣幸能够作为llm-d项目的创始贡献者,在我们开源贡献传统的基础上再接再厉。这个新社区将成为大规模分布式AI推理的关键催化剂,帮助用户增加基础设施资源的可选择性,实现更高的工作负载效率。”
Hugging Face产品主管Jeff Boudier
“我们相信,每家公司都应该能够建立和运行自己的模型。vLLM利用Hugging Face transformers库作为模型定义的事实来源,提供了大大小小的各种模型,为文本、音频、图像和视频AI应用提供支持。有800万AI建设者使用Hugging Face就全球社区中开放共享的超过200万个AI模型和数据集开展合作。我们很高兴能为llm-d项目提供支持,使开发者能够将这些应用推向更大规模。”
IBM Research混合云与AI平台副总裁Priya Nagpurkar
“IBM认为,AI的下一阶段聚焦于效率和规模。我们专注于通过企业能够有效部署的AI解决方案为企业释放价值。作为llm-d的创始贡献者,IBM很荣幸能够在构建差异化的硬件无关分布式AI推理平台中发挥关键作用。我们期待着继续为这个社区的发展和成功做出贡献,以改变AI推理的未来。”
英特尔数据中心与AI软件解决方案及生态系统副总裁Bill Pearson
“llm-d的推出将成为行业推动大规模AI转型的关键拐点,英特尔很高兴能作为创始支持者参与其中。英特尔参与llm-d是我们与红帽数十年合作的最新里程碑,通过能够在任意位置的企业所选平台上部署的开源解决方案,为企业赋能。我们期待通过llm-d社区进一步扩展和构建AI创新。”
Lambda ML平台高级员工工程师Eve Callicoat
“推理是AI真正发挥实际价值的地方,而llm-d代表了一个重大进展。Lambda很荣幸能支持这样一个项目,它使最先进的推理变得易于获取、高效和开放。”
NVIDIA工程AI框架副总裁Ujval Kapasi
“llm-d项目是对开源AI生态系统的重要补充,体现了NVIDIA对合作推动生成式AI创新的支持。可扩展、高性能的推理是下一波生成式AI和代理式AI的关键。我们正在与红帽和其他支持合作伙伴合作,促进llm-d社区的参与和行业采用,利用NIXL等NVIDIA Dynamo创新帮助加速llm-d的发展。”
加州大学伯克利分校教授兼Sky Computing Lab总监Ion Stoica
“我们很高兴看到红帽在vLLM既有成功的基础上继续发展,vLLM起源于我们的实验室,帮助解决运行大型AI模型所带来的速度和内存挑战。像vLLM这样的开源项目,以及现在以vLLM为基础的llm-d,都处于AI创新的前沿,可以满足最苛刻的AI推理要求,并推动整个行业的发展。”
芝加哥大学LMCache Lab CS教授Junchen Jiang
“分布式键值缓存优化,如卸载、压缩和混合,一直是我们实验室的关注重点,我们很高兴看到llm-d利用LMCache作为核心组件,缩短了到第一个token的时间,并提高了吞吐量,尤其是在长上下文推理中。”
[1] 预测分析:AI半导体,全球范围,Alan Priestley,Gartner,2024年8月2日 - ID G00818912 GARTNER是GARTNER, Inc.和/或其附属公司在美国和国际上的注册商标和服务标志,经许可在此使用。保留所有权利。
关于红帽
红帽是开放混合云技术的领导者,为变革性的IT创新和AI应用提供可信、一致且全面的基础。红帽的云、开发者、AI、Linux、自动化和应用平台等技术产品组合,协助企业从数据中心到边缘跨环境部署任意应用。作为全球领先的企业级开源软件解决方案提供商,红帽积极投入开放生态系统和社区,解决未来的IT挑战。通过与合作伙伴和客户紧密协作,帮助他们构建、连接、自动化、保护和管理IT环境,并提供咨询服务以及屡获殊荣的培训和认证方案。
【免责声明】:本文仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
- 最新文章