HiDream-O1-Image-1.5登顶文生图榜单,全球第二、中国第一

2026年06月10日 21:35
本文共计5512个字,预计阅读时长19分钟。
来源/互联网 责编/huazi56 爱力方

中国位居第一、全球排名第二。HiDream-O1-Image-1.5 登顶文生图榜单,并且在相关表现上超越了谷歌以及英伟达。

转载来源:智象未来

本文内容由量子位获授权进行转载,文中所表达的观点仅代表原作者本人。

近日,智象未来(HiDream.ai)全新推出的商用版图像生成模型 HiDream-O1-Image-1.5 再次取得了 SOTA 表现,并且在全球知名的独立 AI 模型评测与分析平台 Artificial Analysis 发布的文生图榜单 Text to Image Leaderboard 上,一举位列中国图像生成模型首位,成为评分仅次于 OpenAI 的中国大模型公司,同时也超越了 Google Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA Cosmos3-Super-Text2Image 以及字节跳动 Seedream 4.0 等海内外大厂的主流图像生成模型。

半个月前,智象未来 HiDream-O1 系列所开源的模型 HiDream-O1-Image-Dev-2604 刚刚登顶文生图榜单开源模型的全球第一。数周之后,HiDream-O1-Image-1.5 再次进入全球文生图大模型榜单前三,这种连续登顶的表现不仅印证了智象未来在图像生成大模型方面所具备的硬核实力,更标志着其已经在视觉生成大模型的角逐当中稳居全球第一梯队。

Artificial Analysis 的 Text to Image Leaderboard 借助匿名对比、用户投票以及 ELO 动态排名机制,尽可能降低品牌认知对评测结果所造成的影响,从而更接近真实用户在开放生成场景之中的偏好判断;在这一专业评测体系之下,HiDream-O1-Image-1.5 在超过 4000 个样本对比当中取得了 1265 ELO。HiDream-O1-Image-1.5 的表现不仅体现出该模型在图像质量方面所具备的竞争力,也反映出其在语义遵循、复杂画面生成、文字渲染以及多主体控制等综合能力上的进一步提升。

HiDream-O1-Image-1.5 的再度取得 SOTA,并不只是中国领先大模型公司又一次在全球榜单当中实现领先,它更进一步标志着智象未来率先在业内把创新的原生全模态架构 Unified Transformer(UiT)从“技术验证”推进到了“生产验证”,这也是 HiDream 将底层架构优势转化为视觉生产力工具的关键一步:开源版本证明了像素级原生全模态架构可以在开放评测以及开发者社区当中跑通,而 HiDream-O1-Image-1.5 商用版本则进一步面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜以及 IP 创作等要求更高的商业场景,全面展示了其在图像质量、文字渲染、复杂排版、多主体一致性以及视觉叙事能力等方面所得到的强化。

接下来,真正值得关注的,则是它在真实内容生产任务当中所呈现出的具体表现。

01 不仅会写字、理解排版,而且能够完成分镜,HiDream-O1-Image-1.5 展现出全能的图像生成能力

人像摄影生图实例:呈现摄影级画质,并且具备多风格表达能力

在人像生图场景当中,HiDream-O1-Image-1.5 展现出了稳定的摄影级画质以及多风格适配能力。从魔幻光影、双人互动到人物特写,模型在皮肤质感、服饰纹理、肢体关系以及环境虚化等细节方面都表现得较为自然;即使在面对广角、低机位以及室内暖光等复杂构图时,也能够保持人物比例、空间透视与画面叙事之间的协调,体现出其面向商业人像、品牌视觉以及影视分镜等高要求场景时所具备的较强交付能力。

动物生图实例:对运动形态以及自然环境进行精细建模

在动物生图场景之中,HiDream-O1-Image-1.5 展现出了对主体形态、运动状态以及自然环境的精细建模能力,在动物结构、皮毛质感、动态表现以及复杂光照、水下折射等高难度画面当中,依然能够保持真实感与视觉冲击力,体现出其面向自然影像、品牌视觉、游戏资产以及创意内容生产等场景时所具备的生产级交付能力。

自然风光生图实例:对空间层次与光影变化进行精细捕捉

在自然生图场景之中,HiDream-O1-Image-1.5 展现出了对大场景空间层次、光影变化以及环境氛围的精准控制能力,并且能够在雪山湖泊、沙漠驼队、晶体洞穴等复杂地貌与多光源场景之中持续保持纵深感、电影感以及细节表现,从而体现出其面向旅游视觉、影视概念图、游戏场景以及品牌传播等复杂商用场景时所具备的稳定交付能力。

多种艺术风格:展现出对风格语义的准确理解以及相应视觉语言的稳定表达

在多风格艺术生成场景当中,HiDream-O1-Image-1.5 展现出了较强的风格理解、语义遵循以及视觉表达能力,可以在日系插画、动漫战斗、卡通海报以及国风武侠等风格之间实现准确切换,并且保持角色造型、构图关系、动作节奏与画面氛围之间的统一,同时在复杂姿态、动态特效以及基础文字渲染方面具备较强的稳定性,可为 IP 创作、漫画分镜、游戏美术以及品牌创意视觉提供高效的生产支持。

电商海报生图实例:复杂画面与文字信息实现无缝融合

在电商海报生成场景当中,HiDream-O1-Image-1.5 展现出了对商品主体、版式结构以及文字信息的综合把控能力,能够针对不同品类快速匹配相应的视觉风格,并把商品、场景、装饰元素以及营销文案自然融合起来;即使在中英文混排、多层级卖点以及复杂排版任务之中,依然可以保持较高的文字可读性、画面完整度以及商业质感,从而显著提升广告营销、电商上新、社媒种草以及品牌物料制作的效率。

IP 形象设计场景:支持多视角生成,并且能够保持角色一致性

在 IP 形象设计场景当中,HiDream-O1-Image-1.5 展现出了对角色设定、表情变化以及多视角一致性的稳定控制能力,可以围绕同一角色生成多角度视图与多种情绪表情,并且保持五官、发型、服饰以及整体风格的统一,由此呈现出更丰富的性格与表现力,能够显著提升 IP 设定、角色三视图、动画前期、美术资产以及品牌吉祥物开发的效率。

多宫格与分镜设计图场景之中,HiDream-O1-Image-1.5 展现出了对叙事结构、镜头语言以及连续画面关系的稳定理解能力,能够围绕同一主题生成多格内容与分镜画面,并且保持角色形象、场景元素以及情节推进之间的连贯统一,由此呈现出更清晰的故事节奏与视觉表达,能够显著提升漫画分镜、广告脚本、动画预演、影视策划以及内容创作的效率。

在多宫格与分镜设计场景当中,HiDream-O1-Image-1.5 展现出了对连续叙事、画面顺序以及信息层级的理解能力,能够在工具流程、任务推进、儿童绘本以及冒险故事等多画面内容之中生成逻辑连贯的分镜画面,并且保持角色、场景以及视觉风格的统一;同时,对宫格布局、编号、标题以及关键文字也具备较强的组织能力,从而可为影视分镜、漫画创作、广告脚本、教育内容以及短视频脚本视觉化提供高效支持。

多层次复杂文字渲染能力:展现出面向多语言以及多结构内容的综合生成能力

在多层次复杂文字渲染任务当中,HiDream-O1-Image-1.5 展现出了对多语言文本、信息结构以及视觉场景的综合生成能力,可以把海报、计划书、结构拆解图、课堂白板、直播界面以及数据看板等内容自然嵌入对应场景之中,并兼顾排版秩序、图文关系以及整体美感;即使面对中英文混排、数字公式、图表信息以及多级标题等复杂需求,仍然能够保持较好的可读性与版面稳定性,从而拓展其在广告设计、办公协作、电商详情页以及教育培训等场景当中的实用价值。

02 原生全模态进入生产验证阶段,HiDream-O1-Image-1.5 持续放大 UiT 架构优势

HiDream-O1-Image-1.5 的表现进一步证明,智象未来在原生全模态路线之上具备架构创新优势以及快速迭代能力,而 HiDream-O1 系列从 8B 开源版、Pro 版到 1.5 商用版,也已经形成了清晰且高效的能力演进曲线。

传统文生图模型通常会选用“文本编码器 + VAE + DiT / 扩散模型”的模块化技术路径,其整体形态更接近一棵持续分叉生长的树:文本拥有各自的 tokenizer,图像以及视频拥有各自的 encoder / decoder,而音频、动作、空间关系等内容也往往会沿着不同路径来进行处理,模块之间则需要多次完成信息转换。在文字密集排版、UI 页面、多主体生成、多参考图控制以及多分镜叙事等复杂任务当中,这种方式也更容易带来细节损耗、语义错位以及结构不稳定等问题。

HiDream-O1 原生全模态架构所走的是另一条路线:真正意义上的“原生全模态”,并不是各个模态在各自发展完成之后再进行二次拼接,而是从最初的原生阶段开始,就如同“青梅竹马”一般在模型底层实现水乳相融。HiDream-O1 的 Image 系列模型剔除了传统路径当中的 VAE 以及独立文本编码器,把图像像素、文本 Token、视频体素,以及音频、动作、空间关系等原始信号映射到同一个共享 Token 空间之中,直接与同一套 UiT,也就是像素级统一的 Unified Transformer,进行交互,并在统一表征系统当中完成理解、生成以及推理。

以下为 X 平台 Artificial Analysis 官方账号所发布的一组对比效果图:

这也正是 HiDream-O1 之所以能够在复杂图文融合、文字渲染、多主体一致性以及分镜叙事等任务当中持续实现能力进阶的关键所在。只有当所有模态在底层被真正打通之后,模型才有可能进一步走向真正意义上的“Any to Any”,也就是让任意输入支持任意输出。这不仅体现为图像生成模型在能力层面的升级,同时也是世界模型所必需具备的基础能力,即在统一架构当中对现实世界的不同状态进行理解、生成以及预测。HiDream-O1-Image-1.5 的快速进阶,正是对原生全模态这一技术路线可扩展性所给出的有力验证。

03 持续推进架构创新,构建原生全模态世界模型

智象未来始终认为,图像是通向视频生成以及全模态世界建模的重要入口。一张图像所承载的是现实世界在某一时刻的主体、空间、材质、光影、文字以及关系;只有对这些状态进行稳定理解并完成生成,模型才有可能进一步处理连续时间当中的运动、因果、镜头以及叙事。

HiDream-O1-Image-1.5 的强势表现说明,基于像素级原生统一架构的技术路线,正在把图像生成模型的竞争重点,从“更大参数”以及“更好看画面”,推进到一个由架构能力、生产效率以及工作流价值共同决定上限的新阶段。它不仅提升了单图生成的效果,也为多图一致性、分镜生成、视频首帧、图像编辑,乃至未来的长视频生成,提供了更稳定的底层能力,进一步证明了中国大模型企业参与全球顶级大模型竞争的实力,同时也验证了 UiT 原生统一架构作为下一代多模态模型坚实底座的可行性。

面向未来,智象未来将继续沿着原生全模态技术路线推进模型迭代,进一步加快图像、视频、动作等多模态能力之间的融合进程,推动生成式人工智能技术更深入地落地到内容创作、商业营销、影视创作以及游戏生产等全模态智能体的真实应用场景当中。从单张图像生成这一入口出发,迈向连续世界建模,智象未来正在依赖持续的底层架构创新,着力构建下一代内容生产与智能交互的人工智能基础设施。

欢迎通过以下链接体验HiDream-O1-Image-1.5 :

https://vivago.ai/

https://hiharness.ai/

开源模型HiDream-O1-Image下载地址:

GitHub 地址为:https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface 地址为:https://huggingface.co/HiDream-ai/HiDream-O1-Image

和Nano Banana 2对比

一张高端中国白酒的奢华电商海报。画面正中央矗立着一只纯净、半透明的羊脂玉瓷瓶,瓶身曲面直接以浮雕方式呈现一首八句中文古诗:“昔人已乘黄鹤去,此地空余黄鹤楼。黄鹤一去不复返,白云千载空悠悠。晴川历历汉阳树,芳草萋萋鹦鹉洲。日暮乡关何处是?烟波江上使人愁。”雕刻文字的内部镶嵌着精致且闪烁的金箔,用以捕捉环境光线。酒瓶被放置在一块粗糙的黑板岩之上,并半浸在清澈见底的浅水池当中,水面扩散着柔和的同心涟漪。瓶底周围可见美丽的液体焦散光影以及反光跳跃。在经过深度虚化处理的背景之中,分布着微型盆景松树以及轻薄雾气。整体运用戏剧性的边缘轮廓光,并呈现商业产品摄影质感。

An adorable, candid photograph shows a curious kitten that is exploring a lush, green garden, while oversized flowers and foliage together create a whimsical, fairy-tale atmosphere.

在一个灯光昏暗且烟雾弥漫的审讯室之中,呈现出一张气氛紧张的过肩镜头电影剧照。于极度靠前的前景位置,占据画面左侧三分之一的是侦探肩膀以及侧脸的严重失焦剪影。相机的焦点被完全锁定在背景里坐在金属桌对面的嫌疑人身上。该嫌疑人是一名疲惫的赛博格,拥有发光的红色光学植入物,并被头顶摇晃的刺眼聚光灯所照亮。极浅的景深在前景中模糊的审讯者与细节锐利、满头大汗的嫌疑人面部之间形成了强烈的光学分离效果。85mm镜头,f/1.4大光圈。

转载来源:智象未来

本文由量子位获授权转载,文中观点仅代表原作者本人。

版权所有,未经授权不得以任何形式转载和使用,违者必究。

来源:中国第一、全球第二!HiDream-O1-Image-1.5 登顶文生图榜单,超越谷歌、英伟达 | 互联网

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/