资讯

亚马逊 SageMaker AI 推出兼容 OpenAI API 的实时推理端点

2026年05月21日 17:46

本文共计1004个字，预计阅读时长4分钟。

来源/aibase 责编/huazi56 爱力方

近日，亚马逊 SageMaker AI 宣布推出支持 OpenAI 兼容 API 的实时推理端点。用户只需更改端点 URL，即可使用 OpenAI SDK、LangChain 或 Strands Agents 等工具调用 SageMaker AI 上的模型，无需进行额外的客户端定制、SigV4 封装或代码重写。

这一更新使 SageMaker AI 端点开放了一个 /openai/v1 路径，能够接受聊天补全请求并直接返回响应，包括流式输出。所有使用标准 SageMaker AI API 和 SDK 的端点和推理组件均已启用 OpenAI 端点。通过更改 URL，用户的现有应用程序可以无缝接入。

SageMaker AI 的功能丰富，支持在自有基础设施上构建多步骤 AI 代理的工作流，例如使用 Strands Agents 或 LangChain。用户的代理可以使用与其原有框架相同的 OpenAI 接口调用模型，同时推理过程在自己的 GPU 实例上进行。此外，用户还可以在同一个 SageMaker AI 端点上托管多个模型，比如用于通用任务的 Llama、针对特定领域的微调 Mistral 模型，以及用于分类的小型模型，所有模型都可通过相同的 OpenAI SDK 访问。

为了使用这些功能，用户需要具备一定的前提条件，包括拥有 AWS 账户及相应的权限，安装 SageMaker 和 OpenAI 的 Python SDK，并准备好存储在 Amazon S3 中的模型。此外，使用 SageMaker AI OpenAI 兼容端点需要进行 Bearer Token 认证，SageMaker Python SDK 中包含了生成 Token 的工具，能够简化认证流程。

在实际操作中，用户可以轻松部署单模型端点或推理组件端点，以便于在单个端点上托管多个模型。通过 OpenAI Python SDK，用户可以简单地调用这些模型，获取需要的推理结果。这项新功能的推出，使得 SageMaker AI 与现有的 AI 应用无缝对接，为用户提供了更高效、更灵活的推理解决方案。

划重点：

新增 OpenAI 兼容 API：SageMaker AI 实时推理端点现支持 OpenAI API，只需更改 URL 即可调用模型。

多模型托管：用户可在同一端点上托管多个模型，使用相同的 OpenAI SDK 进行访问。

简化认证流程：支持 Bearer Token 认证，方便用户安全地访问 SageMaker AI 端点。

来源：亚马逊 SageMaker AI 推出兼容 OpenAI API 的实时推理端点 | AIbase

声明：本文来自aibase，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。