资讯
微软推出开源渲染库,改进iOS端AI聊天体验
微软在GitHub上开源了SwiftStreamingMarkdown渲染库,专为iOS平台设计,旨在解决大模型应用在聊天界面中流式渲染Markdown文本时的性能难题。该库通过深度优化实时解析与渲染,确保界面平滑滚动,提升用户体验。它支持多种Markdown语法,采用MIT许可证,集成方便,对应用体积影响小,并提供SwiftUI示例帮助开发者快速上手。
星火多模态大模型X2-VL正式发布
科大讯飞在长三角机器人及自动化展览会上正式发布星火多模态大模型X2-VL。这款模型采用MoE架构,全程在无锡“太湖星跃”国产算力平台训练,当前唯一基于全国产算力。高中多学科图文混合试题准确率逼近95%,挑战2026年高考数学全国I卷并获148分高分。凭借算力自主可控与高性能,X2-VL为国产AI模型从“尝鲜”到生产力落地的实践提供了强力范本。
智谱AI发布GLM-5.2模型全量开源,力推前沿智能普及
智谱AI宣布GLM-5.2全量开源,旨在打破技术垄断,推动AI技术全民化。模型实现1M超长上下文与行业领先编程能力,已面向开发者开放API与代码(MIT协议)。这一举措标志着国产AI生态加速开放创新,助力开发者摆脱依赖,共同构建更具包容性的智能未来。
世界模型站上智源大会舞台C位,图灵奖得主预测AI普及时间提前50年
第八届北京智源大会现场,图灵奖得主惠特菲尔德·迪菲抛出远期判断:人工智能从数字世界向物理世界跃迁,世界模型将主导社会运行,并将普及时间提前至2050年前后。大会还发布全球首个通用世界基座模型“悟界·Physis-v0.1”,正本清源解析主流路线,指出中美站在同一起跑线。参数竞赛红利见顶,物理世界将成为下一代AI核心赛场。
大晓机器人Kairos开源模型在打破“外挂式”改良局限的同时,登顶全球四项权威评测。
大晓机器人自主开源“开悟世界模型”(Kairos)打破“外挂式”改良传统,在RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot及DreamGen四大国际权威基准测试中全球第一,全面超越Cosmos3、PI等主流世界模型。其一体化架构融合多模态理解、生成与预测,结合10余万小时human-centric实景数据与混合线性注意力机制,打造轻量Kairos-4B端侧直驱机器人世界模型,实现实时响应与复杂任务领先。
RSS 2026 | GuidedVLA:通过动作注意力专家化提升VLA模型对任务相关因素的可控可解释性
VLA模型动作解码器常成黑箱,易看错重点(如背景或伪相关)。GuidedVLA通过可控可解释的注意力专家分工(Object Head、Skill Head、Depth Head)显式指定任务相关因子,显著提升机器人抓取、放置等动作稳定性与可解释性。RSS 2026接收,代码开源。
余承东表示大模型战场无第二,华为盘古大模型全面进阶2.0
在华为开发者大会2026上,余承东隆重发布开源盘古大模型2.0,参数规模达505B。作为全球最早布局大模型的华为先驱者,这次全栈技术迭代标志着华为AI生态的全面进阶。余承东向开发者喊话:“没有第二,只有第一”,华为将持续领先,助力鸿蒙生态赋能行业应用,为开发者提供强劲底层支撑,展现华为在AI领域前所未有的专注与决心。
佑驾创新与乐动机器人达成合作
佑驾创新与乐动机器人达成战略合作,联合打造物理AI技术底座,共建全场景物理AI产品矩阵。双方将开发面向通用物理智能的世界模型,打造软硬件一体化末端配送解决方案,并推出以“情绪价值”为核心的多模态交互机器人,聚焦共情、实时、拟人特性。同时共建深圳、长沙等城市无人车+机器人示范基地,推动物理AI与具身智能规模化落地。乐动机器人作为智能机器人领军企业,助力物理AI从研发走向商业化。
英伟达携手 Abridge 开发医疗 AI 模型 将在今年晚些时候投入使用
英伟达携手医疗AI公司Abridge,基于其开放模型Nemotron训练医疗专用AI模型,专为临床对话场景设计。Abridge使用去标识化临床数据定制模型,预计今年晚些时候投入使用。该合作将提升临床决策支持与文档处理能力,推动AI在医疗行业的应用。
机器人训练场可能要搬进世界模型中
智元GE-Sim 2.0登顶WorldArena,揭开机器人世界模型新篇章。它不再仅生成视频预言未来,更补齐动作响应、状态反馈与闭环训练三大接口:本体状态专家、奖励评判器,实现从视觉感知到具身任务闭环的系统升级。标志着机器人世界模型正式迈向“可运行训练场”,为通用机器人策略闭环提供强大支撑。
谷歌在Mythos阴影下低调发布模型,速度提升4倍
谷歌悄悄推出DiffusionGemma扩散模型:26B参数MoE,仅激活3.8B,推理速度比自回归Gemma快4倍(H100 1000+ tokens/s)。抛弃逐Token模式,一次铺开256 token并行生成,适合本地推理(一张4090即可)。Apache 2.0开源,推理时支持双向注意力,可实时自我纠错。加速“天下武功唯快不破”的时代!
谷歌联合英伟达发布开源模型DiffusionGemma,引入扩散机制单卡推理提速4倍
谷歌联合英伟达于2026年6月10日发布实验性开源模型DiffusionGemma,首创将图像扩散机制引入文本生成,打破自回归范式。模型通过从随机噪声迭代优化实现一次性并行输出256个标记,260亿参数MoE架构单步激活仅38亿。在H100上单请求输出速度达每秒1000标记(RTX5090超700),在文本补全、代码填空、数独、氨基酸序列等非线性任务中展现显著优势。权重基于Apache2.0在Hugging Face开源,兼容vLLM、MLX等框架,为AI复杂逻辑生成开辟新路径。
谷歌发布 DiffusionGemma:通过文本扩散架构加速 AI 推理
谷歌6月10日发布DiffusionGemma开源模型,采用文本扩散架构实现文本到文本的非自回归推理。性能测试显示,该模型在专用GPU上的文本生成速度最高可提升4倍,特别适合本地设备及低并发场景。模型目前定位为研究实验性产品,输出质量无法与Gemma4媲美,建议开发者关注其在AI推理效率提升方面的潜力。
小米开源终端AI编程助手MiMo Code内置免费顶级多模态模型
小米技术团队开源终端 AI 编程助手 MiMo Code V0.1.0,内置免费顶级多模态模型 MiMo-V2.5。独创持久记忆系统、Harness 与 Compose 模式,结合语音交互实现全口头操控。在 SWE-Bench Pro 获 62% 分数,超越 Claude Code。MIT 协议开源,专为开发者打造高效、自进化的本地编程工具。
清华《Science Advances》刊文,水面机器人集群涌现“群体智能”
清华大学团队在《Science Advances》发表论文,首次实现水面微型机器人集群(ARS)自组织临界性(SOC)。仅靠发光吸引和水波排斥的局部交互,机器人群自发演化出尺度不变的幂律分布和1/f噪声,涌现“雪崩”式集体行为。实验和模拟证实系统在宽泛参数范围内(亮度、密度、规模)均能稳定临界态,可用于智能涌现应用。