资讯
LaST₀弃用语言推理 为机器人植入物理直觉大脑
本文介绍了LaST₀框架如何通过隐空间思维链让机器人摆脱语言推理的局限,直接进行物理模拟推演。该技术采用双专家系统实现快慢思考协同,在多项任务中显著提升成功率和推理速度,展现出卓越的时空理解能力和跨机器人形态的泛化潜力。
瑞士团队研发出可自主爬行的机械手
瑞士研究团队开发出革命性的可拆卸机械手,能够自主爬行并执行抓取任务。这款机械手采用对称可逆设计,每个手指都能双向弯曲,实现多对象抓取和形态自由切换。它不仅能完成33类人类抓取动作,还能在爬行中携带物体,为灾难救援、仓储物流等领域带来创新解决方案。
苹果论文再掀波澜 Qwen3-Coder特调后UI生成能力超越GPT5
苹果UICoder团队最新研究论文展示了如何通过专家级反馈微调开源模型Qwen3-Coder,在UI生成领域超越GPT-5。该研究利用21位资深设计师的深度逻辑注释构建奖励模型,仅用181个高质量草图反馈就实现了性能突破,揭示了专家反馈在AI训练中的关键作用,并探讨了审美主观性与AI设计工具的未来潜力。
Mistral AI发布Voxtral Transcribe 2语音模型,中文实时转录延迟低于0.2秒
Mistral AI发布Voxtral Transcribe 2语音模型系列,包括Voxtral Realtime实时转录模型和Voxtral Mini Transcribe V2批量处理模型。Realtime模型延迟低于0.2秒,支持音频即时转录,并已开源权重;Mini版在准确率上超越GPT-4o mini等竞品,支持3小时长音频处理。两款模型均支持中文等13种语言,定价具有竞争力,适用于实时对话、同声传译及批量转录场景。
上海AI实验室开源全球最大科学多模态模型Intern-S1-Pro
上海人工智能实验室开源了全球最大的科学多模态模型Intern-S1-Pro,拥有万亿参数,基于创新的SAGE架构和混合专家技术,在数理推理和科研任务中达到国际领先水平,标志着从模型架构到国产算力自主技术的完整突破。
昆仑天工发布Skywork桌面版 Windows电脑可雇佣AI员工
昆仑天工发布Skywork桌面版,将AI Agent能力从网页对话升级为系统级主动协作。该应用支持本地化执行,可直接读取处理电脑中的各类文件,并集成Claude4.5与Gemini3Pro双模型,提供超过100个办公技能,通过本地虚拟机保障数据安全,为Windows用户带来高效的“AI员工”体验。
浙大团队研发仿生飞行机器人 可抓握栖息灵活运载
浙江大学团队研发出仿生飞行机器人HI-ARM,将人手的灵巧抓取与无人机的敏捷飞行深度融合,实现了空中自主抓取、开门、栖息和运输等功能。这款仅手掌大小的机器人具备5自由度变形能力,能在复杂环境中完成多种任务,展示了空中操作机器人的巨大潜力。
Claude 5发布:Anthropic推出代号Fennec编程模型,行业格局或将重塑
Anthropic即将发布代号为Fennec的Claude Sonnet5模型,这款被誉为史上最强编程模型在性能上超越旗舰Opus4.5,定价降低50%,并拥有100万token上下文窗口。其突破性的蜂群开发模式能自动组织多智能体协作,在SWE-Bench测试中得分超过80%,将彻底改变编程AI的格局。
打印纸竟能劫持自动驾驶 视觉语言模型安全漏洞曝光
加州大学圣克鲁斯分校的研究揭示,自动驾驶系统依赖的视觉语言模型存在严重安全漏洞。攻击者仅需一张带有特定文本的打印标识,就能诱导AI无视行人等安全风险,执行危险指令,成功率高达81.8%。这种名为“CHAI”的物理攻击方法暴露了AI系统在现实部署中的脆弱性,亟需建立有效的安全防御机制。
羲和一号AI医疗大模型正式发布
“羲和一号”AI医疗大模型于1月31日在北京发布,由北京大学第三医院等机构联合打造。该模型基于千亿级参数和百万病案数据,医学知识覆盖率达98%,精准率超90%,在疾病预测、诊断和影像分析方面能力突出。它能缩短预警时间、降低误诊率,提升基层医疗效率,并推动医疗资源均衡分配,助力全球卫生健康共同体建设。
优必选开源Thinker大模型 推动工业人形机器人发展
优必选开源Thinker大模型,旨在解决工业人形机器人在空间理解和视觉感知等任务中精度不足、参数庞大及实时性差的问题。通过创新的数据处理方案,包括精炼提纯、自动化标注和数据驱动训练,Thinker将原始数据从20B提纯至10M,并降低标注成本99%。这一开源模型为机器人提供强大“大脑”,推动具身智能技术发展,赋能行业创新。
Genspark发布Workspace 2.0 推动语音办公新时代
Genspark发布AI Workspace 2.0,核心创新在于将人机交互从文字转向语音,推出独立语音工具Speakly,可将语音指令转化为跨应用自动化任务,效率最高可达键盘输入的4倍。同时,平台扩展了AI Agent生态,覆盖从创意到交付的全链路自动化,并已获得3亿美元融资及1亿美元年收入,旨在重塑知识工作模式。
清华发布LegalOne-R1法律大模型 推动智能司法发展
清华大学互联网司法研究院在CJAI2026大会上发布了开源法律大模型LegalOne-R1,该模型基于华为云昇腾AI云服务开发,提供1.7B、4B和8B三种参数版本。通过深度训练中国司法数据,采用双阶段增强策略,模型具备条文记忆、概念辨析和多跳推理能力,在法律评测中表现卓越,助力智能司法应用。
商汤开源新模型 赋予AI自主思考与行动能力
商汤科技开源了首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型SenseNova-MARS,包含8B和32B版本。该模型模拟侦探破案逻辑,实现AI从理解到自主执行的跨越,在多项基准测试中超越GPT-5.2,具备图像细节裁剪、动态图文搜索和多跳深度推理等核心能力。通过双阶段训练,模型展现出强大的自主规划与工具协同潜力,助力全球开发者探索具身智能。
世界模型走入物理世界,蚂蚁灵波开源LingBot-VA,让机器人“先思后行”
蚂蚁灵波科技开源具身世界模型LingBot-VA,首次提出自回归视频-动作世界建模框架,将大规模视频生成与机器人控制深度融合,使机器人能够“边推演、边行动”。该模型在真机评测中对复杂物理交互展现出强适应能力,仅需少量演示数据即可适配高难度任务,成功率平均提升20%;在仿真评测中刷新行业纪录,为具身智能发展开辟新路径。