科技首页 > 科技 > 文章详情页

红帽AI推理服务器正式发布，助力混合云中任意模型和任意加速器上的生成式AI

2025-05-27
互联网

红帽AI推理服务器由vLLM驱动，并通过Neural Magic技术进一步增强，可在混合云环境中提供速度更快、性能更优且成本效益更高的AI推理

中国北京 – 2025年5月21日 – 全球领先的开源解决方案提供商红帽公司近日宣布推出红帽AI推理服务器（Red Hat AI Inference Server），这是在混合云中普及生成式AI（gen AI）的重要一步。作为红帽AI中的新产品，该企业级推理服务器源自强大的vLLM社区项目，并通过红帽对Neural Magic技术的集成进一步增强，可以提供更高的速度、加速器效率和成本效益，助力实现红帽“在任意云环境中的任意AI加速器上运行任意生成式AI模型”的愿景。无论是独立部署，还是作为红帽企业Linux AI（RHEL AI）和红帽OpenShift AI的集成组件，这一革新性平台赋能企业，在生产环境中高效部署和扩展生成式AI。

推理是AI的关键执行引擎，预训练模型在此将数据转化为实际影响。它是用户交互的核心环节，要求快速且准确的响应。随着生成式AI模型复杂性激增及生产部署规模扩大，推理可能成为关键瓶颈，消耗大量硬件资源，削弱响应能力，并抬高运营成本。强大的推理服务器不再是一种“奢侈品”，而是大规模释放AI的真正潜力，更加轻松地应对底层复杂性的必要条件。

红帽推出红帽AI推理服务器解决这些挑战。红帽AI推理服务器是一款专为高性能设计的开放推理解决方案，配备先进的模型压缩和优化工具。该创新提供响应速度显著提升的用户体验，以及在AI加速器、模型和IT环境选择上无可比拟的灵活性，赋能企业充分利用生成式AI的变革性力量。

vLLM：拓展推理创新

红帽AI推理服务器基于加州大学伯克利分校于2023年中启动的行业领先vLLM项目。该社区项目提供高吞吐量生成式AI推理，支持大规模输入上下文，可实现多GPU模型加速，并支持连续批处理等功能。

vLLM广泛支持公开可用的模型，并具备与先进前沿模型（包括DeepSeek、谷歌的Gemma、Llama、Llama Nemotron、Mistral、Phi等）以及开放的企业级推理模型（如Llama Nemotron）的零日集成。这使它成为未来AI推理创新的事实标准。先进的前沿模型提供商正越来越多地采用vLLM，进一步加强了其在塑造生成式AI未来中的关键作用。

推出红帽AI推理服务器

红帽AI推理服务器将vLLM的前沿创新整合进自身的企业级能力中。红帽AI推理服务器可以作为独立的容器化产品交付，也可以作为RHEL AI和红帽OpenShift AI的一部分提供。

无论在何种部署环境中，红帽AI推理服务器均向用户提供经过加固且具备支持的vLLM发行版，并包含以下功能：

· 智能LLM压缩工具，可大幅缩减基础AI模型与微调AI模型大小，在保持甚至可能进一步提升模型准确性的同时，最小化计算资源消耗。

· 优化的模型存储库，托管在红帽AI组织的Hugging Face中，提供对经过验证和优化的前沿AI模型集合的即时访问，这些模型已准备好用于推理部署，可助力效率提升2-4倍，同时不影响模型准确性。

· 红帽的企业支持，以及在将社区项目带入生产环境方面数十年的专业经验。

· 第三方支持，实现更大的部署灵活性，支持红帽AI推理服务器在非红帽Linux和Kubernetes平台上部署，具体遵循红帽第三方支持政策。

红帽的愿景：任意模型，任意加速器，任意云，自由部署

AI的未来应当充满无限机遇，而不应受到基础设施孤岛的限制。红帽认为，未来，企业可以在任意云环境中的任意加速器上部署任意模型，提供卓越且更加一致的用户体验，而无需高昂的成本。为了释放生成式AI投资的真正潜力，企业需要一个通用推理平台——一个用以推动当下以及未来数年中，更加无缝、更高性能AI创新的标准。

正如红帽通过将Linux转变为现代IT的基石，开创了开源企业先河，如今红帽正构建AI推理的未来。vLLM拥有成为标准化生成式AI推理核心的潜力，红帽致力于构建一个繁荣的生态系统，不仅围绕vLLM社区，还包括用于大规模分布式推理的llm-d。红帽的愿景非常清晰：无论采用何种AI模型、底层加速器或部署环境，vLLM都能成为新型跨混合云环境推理的开放标准权威。

支持证言

红帽AI业务部门副总裁兼总经理Joe Fernandes

“推理是生成式AI的真正价值所在，即在用户进行交互时，特定模型会迅速给出准确回复，但这必须以高效和具有成本效益的方式实现。红帽AI推理服务器旨在满足大规模高性能、快速响应的推理需求，同时保持低资源需求，提供一个通用推理层，支持任意模型在任意环境中的任意加速器上运行。”

AMD AI产品管理企业副总裁Ramine Roane

“通过与红帽合作，AMD提供开箱即用的解决方案，推动企业中高效生成式AI的应用。基于AMD Instinct™ GPU的红帽AI推理服务器为组织提供企业级、社区驱动的AI推理能力，并由经过全面验证的硬件加速器提供支持。”

思科高级副总裁兼总经理Jeremy Foster

“AI工作负载需要速度、一致性和灵活性，而这正是红帽AI推理服务器旨在达成的目标。该创新为思科和红帽提供了契机，使双方能够继续携手探索新方法，让AI部署更易获取、更加高效、更具可扩展性，帮助企业为未来做好准备。”

英特尔数据中心与AI软件解决方案及生态系统副总裁Bill Pearson

“英特尔很高兴与红帽合作，在英特尔 Gaudi 加速器上启用红帽AI推理服务器。此次集成将为客户提供优化解决方案，以简化并扩展AI推理，为各类企业AI应用带来先进性能与效率。”

NVIDIA企业软件副总裁John Fanelli

“高性能推理使模型和AI智能体不仅能够回答问题，还能在实时环境中进行推理和调整。借助开放的全栈NVIDIA加速计算和红帽AI推理服务器，开发者可在混合云环境中大规模运行高效推理，并通过红帽推理服务器和全新NVIDIA企业AI验证设计方案开展部署工作。”

关于红帽

红帽是开放混合云技术的领导者，为变革性的IT创新和AI应用提供可信、一致且全面的基础。红帽的云、开发者、AI、Linux、自动化和应用平台等技术产品组合，协助企业从数据中心到边缘跨环境部署任意应用。作为全球领先的企业级开源软件解决方案提供商，红帽积极投入开放生态系统和社区，解决未来的IT挑战。通过与合作伙伴和客户紧密协作，帮助他们构建、连接、自动化、保护和管理IT环境，并提供咨询服务以及屡获殊荣的培训和认证方案。

【免责声明】：本文仅代表作者本人观点，与本网无关。本网对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。

客户端推荐下载

返回网站首页

图片新闻

小微纯电“价值战” 高续航与快充是不

苏州大学科研团队打造“心脉通平台”：

全新BJ40和“悦己”家族邀您逛南宁东盟

趁年轻造未来，《大佬云串门》贾伟相约

最新文章

点击排行