
2025年10月30日,智源研究院在北京举办“悟界 · Emu系列技术交流会”,智源研究院院长王仲远、多模态大模型负责人王鑫龙,发布了Emu3.5多模态世界大模型。这项工作的发布开启了人工智能从语言学习向多模态世界学习演进的新纪元亿利金融,率先指明了多模态 Scaling 的新范式。而Emu作为“悟界”系列模型的重要组成部分,标志着AI正加速从数字世界迈向物理世界的关键一步。

2024年10月,智源研究院发布了全球首个原生多模态世界模型Emu3,该模型只基于下一个token预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。
一年后,智源发布Emu3.5,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。

王仲远表示:“通过 Emu3 我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5 则开启了多模态 Scaling 的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用人工智能,提供了一条坚实的、可度量的实践路径。”
Emu3.5在超过 10 万亿 token 的大规模多模态数据基础上展开训练,其视频数据训练量时长实现从15年到 790年的跃升,参数量从8B上升至34B,揭示了原生多模态Scaling范式。其推理时,创新性地提出“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,这一高效的混合推理预测方法,可以在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。
王鑫龙介绍:“EMU3.5突破了原生多模态的大规模预训练、大规模强化学习和高效推理,指出了多模态世界模型的一种简单易扩展的Scaling范式。”
EMU3.5 模型开始具备学习现实世界物理动态与因果的能力,为探索通用世界模型奠定了坚实的基础。它具备三大重要特点。一是从意图到规划,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径。二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系。三是可成为泛化交互基础:其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互(如具身操控)提供了关键的认知基础。
这些特点这让新一代世界模型具备从“理解”到“行动”的全面智能能力,可生成行动指南、进行图文编辑,并且同时具备物理直觉可开展多场景的探索。



Emu3.5 在多模态指导中展现出卓越的时序一致性与步骤推理能力,让复杂任务的执行过程一目了然。多模态叙事能力上,Emu 3.5能围绕任意主题生成沉浸式的故事体验,释放无限想象力。此外模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。



同时,图文编辑方面,它既能通过自然语言实现任意指令的图片编辑与时空变换,也能以精准、智能、可控且富有创意的方式完成文图生成,让文字与视觉内容的融合更加自然与高保真。在基准测试中,Emu3.5 的表现超越了众多知名的闭源模型。
王仲远总结,以第一性原理看大模型未来,我们相信AI的下一次跃迁,将来自模型对现实世界的深层表征与可泛化行动指导的能力。我们期待与更多科研机构与产业伙伴一起,开创多模态世界大模型新范式,探索通往AGI的演进之路。
下载“北京日报”客户端 阅读体验更佳哦

扫描二维码下载手机客户端亿利金融


扫描二维码下载手机客户端
-->分享到









发布评论文明上网理性发言,请遵守评论服务协议
![]()
未登录
0/200发布发布全部评论0条
点击加载更多
欢迎下载“北京日报”客户端发表评论
相关阅读热门报道换一批推荐阅读换一批精彩视频换一批猜你喜欢滚动北京国内国际北晚社会文娱体坛旅游文史阅读深度产经调查互联网美食北晚健康消费北晚行业北晚网摘网站地图新闻评论深度理论视频图库悦读互联网财经文化体坛科教消费矩阵网摘东城区政府网站西城区政府网站朝阳区政府网站海淀区政府网站丰台区政府网站石景山区政府网站门头沟区政府网站房山区政府网站通州区政府网站顺义区政府网站大兴区政府网站昌平区政府网站平谷区政府网站怀柔区政府网站密云区政府网站延庆区政府网站市人大市政协市监察委市高级人民法院市人民检察院市政府办公厅 市发展改革委 市教委市科委市经济信息化局市民族宗教委市公安局市民政局市司法局市财政局市人力社保局市规划自然资源委市生态资源局市住房城乡建设委市城市管理委市交通委市水务局市农业农村局市商务局市文化和旅游局市卫生健康委市退役军人事务局市应急管理局市市场监督管理局市审计局市政府外办市国资委市广播电视局市文物局市体育局市统计局市园林绿化局市地方金融监管局市人防办市信访办市知识产权局市医保局 京报媒体矩阵北京日报 北京晚报北京青年报北京商报音乐周报新闻与写作北京日报客户端长安街知事艺 绽北晚在线北京深读空间


关于我们 京报集团京报移动传媒北晚在线版权声明联系我们 友情链接人民网新华网央视网光明网中国网中国日报网中国经济网千龙网今日头条百度新浪网易腾讯搜狐爱奇艺优酷
Copyright ©1996-2025 Beijing Daily Group, All RightsReserved
京公网安备11040202120009号 |工信部备案号:京ICP备14054880号-1
主管:北京日报报业集团 主办:京报移动传媒有限公司
网上有害信息举报专区

智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元网络2025-10-31 16:12
专注报道您想看的新闻
长按二维码查看文章详情

点击下载
发布评论文明上网理性发言,请遵守评论服务协议![]()
未登录
0/200登录发布全部评论0条
点击加载更多
账号登录短信登录请输入手机号亿利金融
富灯网提示:文章来自网络,不代表本站观点。