英伟达发布了其开放式多模态模型 “Nemotron 3 Nano Omni”,这款新模型将视频、音频、图像和文本的推理能力整合到一个系统中,旨在为用户提供更快速和智能的响应。根据英伟达的介绍,这款模型采用了先进的 30B-A3B 混合专家架构,集成了视觉与音频编码器,无需依赖额外的感知模型,因此在大规模推理效率上显著提升。
在多个领域,Nemotron 3 Nano Omni 表现出色,特别是在复杂文档解析、视频及音频理解等方面,已在六大权威排行榜上名列前茅。其独特的设计使得该模型能够快速解读全高清屏幕录像,极大地改善了智能体与数字环境的交互方式。H Company 的首席执行官 Gautier Cloix 表示,基于该模型,公司能够实现以前无法达成的快速解读能力,这标志着智能体技术的重大进步。
此外,Nemotron 3 Nano Omni 不仅具备卓越的效率,且具备强大的多模态感知精度,其 AI 系统的吞吐量比同类模型高出 9 倍。这使得它在同类产品中独树一帜,为开放式多模态模型树立了新的效率标杆。英伟达透露,目前该模型已与多家公司的系统进行协作,显示出强大的应用潜力。
在过去的一年中,Nemotron 3 系列模型,包括 Nano、Super 和 Ultra 型号,累计下载量已突破 5000 万次,这表明了市场对该模型的高度认可和需求。英伟达的这一新发布无疑将推动多模态技术的发展,为各行各业带来更多的智能解决方案。
划重点:
Nemotron 3 Nano Omni 模型集成视频、音频、图像和文本推理能力,提升智能体响应速度。
该模型在六大权威排行榜上表现优异,具备卓越的文档解析和多模态理解能力。
一年内累计下载量超 5000 万次,显示出市场对英伟达多模态技术的强烈需求。