类Sora模型到底懂不懂物理?字节完成系统性实验证明
Sora爆火以来,模明“视频生成模型到底懂不懂物理规律”受到热议,型到系统性实但业界一直未有研究证实。底懂近日,不懂字节跳动豆包大模型团队公布最新论文,物理完成研究历时8个月,字节围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,验证但暂时还无法真正理解物理规律,模明做到“举一反三”。型到系统性实
图灵奖得主、底懂Meta首席AI科学家杨立昆点赞并转发了该研究,不懂表示“结论不令人意外,物理完成但很高兴终于有人做了这个尝试!字节”
自OpenAI发布Sora模型以来,验证很多视频生成模型都会强调其生成结果对物理规律的模明遵循。豆包大模型视觉团队相关小组,对视频生成模型究竟能否从视觉数据中“发现”并“理解”物理定律感到好奇,决定深入研究。
历时8个月,该团队完成了业界首个系统性的实验研究。团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有“世界模型”的潜力。
实验中设计的不同运动场景
豆包大模型团队的实验发现,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。
以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。
然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。
通过进一步的实验分析,研究团队得出结论,“生成新视频时,模型主要依赖对训练案例的记忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同大小、速度的物体相互作用,就会‘犯迷糊’,生成结果与物理规则不符。”
不过,研究中也有一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。
据了解,本研究两位核心一作都非常年轻,一位是95后,一位是00后,在豆包大模型团队专注视觉领域的基础研究工作。作者们一直对世界模型感兴趣,在8个月的探索中,他们阅读了大量物理学研究文献,也尝试从游戏中获得研发灵感,历经多次失败后,最终一步步确定研究思路和实验方法。
-
文章
96
-
浏览
59949
-
获赞
11
热门推荐
-
陕煤澄合百良公司综合队党支部:压实党员责任,筑牢安全基础
入冬以来,陕煤澄合百良公司综合队党支部针对秋冬季节性环境变化及对设备的影响特点,提早谋划分工,明确压实责任、严控风险、推动安全关口前移,堵塞各类安全漏洞,全力防范化解各类风险,消除安全隐患,严防事故发内分泌代谢科参加第十三次全国内分泌学学术会议
8月28日,由中华医学会和中华医学会内分泌学分会主办的“第十三次全国内分泌学学术会议”在重庆悦来国际会议中心隆重开幕,来自国内外的5000 余名内分泌领域医生共同出席了此次盛会。我院内分泌代谢科童南伟于旭波总裁会见了Avril 集团副首席执行官
2015年3月4日,集团总裁于旭波在中粮福临门大厦会见了Avril 集团副首席执行官Michel Boucly及Ceva Sante Animale公司首席执行官Marc Prikazsky一行。于旭宁夏一男子因看电影打呼噜遭暴打,影院回应
宁夏一男子看《红毯先生》嫌后排睡觉打呼噜起争执后双方大打出手,影院回应2月18日,宁夏一网友发布视频称,一男子嫌后排男子在电影院看《红毯先生》时睡觉打呼噜,冲上去挑衅,双方大打出手。此事引发关注。网传maxmara六大经典款(maxmara六大经典款大衣介绍)
maxmara六大经典款(maxmara六大经典款大衣介绍)来源:时尚服装网阅读:6853maxmara是什么品牌?这款版型的大衣真绝了1、MaxMara是一个意大利品牌,始于1951年,创办人Ach暗黑4组队死亡需要注意什么
暗黑4组队死亡需要注意什么36qq10个月前 (08-06)游戏知识73马面裙新年卖爆,意味着什么?
这个新春假期,独具中国特色的马面裙卖爆了。据媒体报道,山东曹县是我国的汉服生产销售基地之一,一年的汉服销售额超70亿元。今年,在曹县以马面裙为主的龙年拜年服销售额已经超过了3亿元。马面裙是一种中国传统艾尔登法环调香师废墟视频攻略
艾尔登法环调香师废墟视频攻略36qq10个月前 (08-06)游戏知识60抖音电商公布双11半程数据:380个直播间GMV破千万元,达人GMV同比增长68%
一年一度的双11大促正在火热进行中。10月29日,抖音电商举办“双11总动员”特别直播,首次公布双11半程数据,并分享平台为助力商家生意增长推出的一系列扶持政策。抖音电商总裁魏雯雯在直播中透露,自10时尚服装店玩具怎么摆放,服装店摆件
时尚服装店玩具怎么摆放,服装店摆件来源:时尚服装网阅读:429玩具收藏者是如何收纳、展示、摆放玩具的?就近收纳 将玩具就近收纳到孩子玩耍的地方。一般孩子玩玩具的地方有两个:客厅或者是单独的儿童房。建议热血江湖私服发布网,重燃江湖热血,体验私服新玩法!
重燃江湖热血,体验私服新玩法!一、引言你是否曾经梦想过踏入热血江湖,体验那刀光剑影、恩怨情仇的武侠世界?如今,私服发布网让你重燃热血,带你探索全新的江湖世界!在这里,你可以感受到前所未有的游戏体验,与抢手机、扒背包……猴子和人的冲突在变多,这不能只怪猴子→
“游客们请注意了!如果你携带眼镜、帽子、自拍杆等物品,请一定要小心保管,东西可能会被猴子抢走!在巴厘岛的乌鲁瓦图寺,广播一直在提醒游客们保护好随身携带的物品,提防随时可能出现的猴子。这里的罗马诺:富勒姆已向切尔西正式报价布罗亚,租借+选择买断条款
2月1日讯 据记者罗马诺消息,富勒姆正式向切尔西报价前锋布罗亚。记者罗马诺写道:“富勒姆已向切尔西正式报价布罗亚,下午早些时候提出租借+非强制性的选择买断条款的方案,切尔西昨天拒绝了狼队的租借报价。”富迪集团健康科技——金钻体系研讨会召开
2020年12月21日,在富迪集团展开富迪健康科技——金钻体系研讨会。由富迪集团董事局主席陈怀德先生发表讲话。陈怀德先生在会议上表示,希望经销商继续保持一贯的诚信、依法、文明经营,在消费升级大背景下,多名网友拍下新疆特强沙尘暴,天空赤橙像异世界