
头图着手:Nano Banana
作家|汤一涛
剪辑|靖宇
Seedance 2.0 有多猛,畴昔一个月公共照旧主意过了。好莱坞照旧集体下场发了声明,西半球最强法务部迪士尼也给字节逾越发了讼师函。
但要是你让它作念一件事:生成一个男东谈主从 1 数到 10 的视频,它就表示了。
生成出来的「东谈主」五官规定、皮肤质感传神,厨房布景细节丰富得像是实拍。他说出「one」的时候还一切闲居,然后就启动鬼打墙,嘴里不时重叠「t、t、t」这个音节(不是从 1 到 10 中任何一个数字的发音);能够伸出三根手指,口中却自信地说出「ten」。从新到尾,他竖起的手指没特出三根。
因为布景和东谈主物齐太简直了,是以手指崩坏的片刻反而制造出了一种激烈的「伪东谈主感」。
张开剩余86%这谈题不仅仅 Seedance 2.0 的恶梦。
视频来自一位在 X 网友 fofr(简介显现是在 DeepMind 的斥地者)。昨年他就发现,「从 1 数到 10 并用手指比出数字」这个对三岁小孩齐毫无难度的任务,是现时悉数 AI 视频模子的共同死穴。
Seedance 2.0 发布后,他第一时辰把这谈老题扔了畴昔,居然也翻车了。
网友在这条推文底下掀翻了一场自觉的「AI 数数挑战赛」。他们把并吞起题喂给了 Sora、Veo、Kling 等险些悉数主流模子,效用杜渐防萌,莫得一个能正确地从 1 数到 10。
当一个行业最强的居品们被一起幼儿园级别的题目集体难倒,这其实指向了一个问题:为什么这些模子照旧能骗过你的眼睛,却无法清爽学问?
它们到底「清爽」了什么,又缺失了什么?
01统计展望 vs 清爽全国:AI 视频的才能范围
「数不到 10」不是一个孤独的 bug,它揭示了一整片现时 AI 的才能盲区。
{jz:field.toptypename/}原因也不复杂:悉数的视频模子骨子上作念的是并吞件事,从海量视频数据中学习统计规矩,然后在生成每一帧画面时展望「接下来什么样的像素罗列最可能出现」。这和大言语模子的「展望下一个词」(Next-Token Prediction)是并吞套逻辑。
是以它们能把东谈主脸毛孔、厨房光影、一稔褶皱渲染得以伪乱真,因为历练数据里有海量样本,统计规矩糜费丰富。但一朝任务超出了样本的鸿沟,参加「学问」的领域,问题就来了。
这些问题容许不错分红三类。
领先即是手部考究动作,这是最广为东谈主知的「AI 照妖镜」。从图像生成时间的「六指东谈主」,到视频生成时间的「软糖手指」,手一直是 AI 的恶梦。
Midjourney 和 DALL-E 爆火的 2022 年,「手部多指」是其时文生图最较着的 Bug|图片着手:Medium
公谈地说,AI 在「画手」这件事上照旧获得了巨猛擢升。日常场景里,六指东谈主和软糖手照旧越来越罕有了。
但 fofr 的测试之是以能让悉数模子集体翻车,是因为它仅仅一个视觉渲染问题,同期还暗含了一个逻辑推理问题。它条件在 10 秒内推断变换 10 个不同手势,每个手势的手指数目严格递加,同期嘴里说的数字还要对得上。
东谈主的手有 27 块骨骼、34 块肌肉、特出 100 条韧带,单个手掌就有 18 个解放度。即便剿袭高辩别率扩散模子,若穷乏明确的三维先验知识,也难以抒发这种精准度。
东谈主体畅通维度暗示图|图片着手:ScienceDirect
况兼,在历练数据中,手庸俗出目下画面旯旮、被物体粉饰或处于畅通恶浊中。模子能学到的高质地手部样本远少于面部。
第二类 AI 的才能盲区是物理规矩。流体怎么流、物体怎么碰撞、织物怎么飘……这些东谈主类靠直观就能判断的东西,澳门娱乐网站AI 视频频频给出违抗物理定律的谜底。OpenAI 在发布 Sora 时的官方本事论说中就明确承认:Sora 无法准确模拟很多基本物理交互,比如玻璃破灭,也无法正确反应某些物体景况变化。
第三类是时序逻辑的一致性。视频不是一组彼此安定的图片,而是一条有因果关系的时辰链:第 3 秒的画面必须栽种在第 2 秒的基础上。但现时的扩散模子把时辰行动一个潜在的数学维度来处理。它在生成第 N 帧时,莫得里面机制去「记着」前边伸了几根手指、下一步该加 1。时辰一长,前后就对不上了。
作个类比的话,现时的 AI 视频模子像一个从没见过真手的画家,看了一百万张手的像片之后凭印象画手。大部分时候画得挺像,但他不知谈手指唯有五根,不知谈伸出三根手指代表数字 3,更不知谈从 3 到 4 意味着要再伸出一根。
02另一条路:全国模子
既然问题的根源是「不睬解物理全国」,那有莫得东谈主在试图从根蒂上科罚这个问题?
事实上,这正在成为 AI 领域最受关心的新处所之一。一个正在凝华共鸣的想路是:与其让模子从海量视频中学习「全国看起来是什么样的」,不如让它先清爽「全国是怎么运作的」。
这条旅途有一个共同的名字,叫作念全国模子(world model)。全国模子的中枢想路是让 AI 栽种对三维物理全国的结构性清爽,包括空间的几何联系、物体的物理属性、畅通的能源学规矩等。
这就和现时视频生成模子的旅途产生了骨子区别。现时模子在二维平面上展望像素罗列的统计概率,全国模子则试图让 AI 在「懂」物理规矩的基础上作念生成。
这个处所最有名的创业者是李飞飞。这位 ImageNet 的建树者在 2024 年创办了 World Labs,中枢筹算是让 AI 领有「空间智能」。她在昨年的一篇长文中写谈:
「言语是东谈主类理会的产物,但全国辞退更复杂的章程——重力收尾畅通,原子结构决定光泽如何产生感情,多数物理定律不时着每一次交互。要让 AI 着实清爽这一切,需要一种全新的、远超大言语模子的架构」。
本年 2 月,World Labs 完成了 10 亿好意思元融资,其首个居品 Marble 照旧上线,不错从图像或文本生成执久的 3D 环境。
Marble 不错从一张图片或一段笔墨生成一个你能在里面解放往还、执续剪辑的 3D 全国|图片着手:World Labs
李飞飞不是惟一的入局者。杨乐昆从 Meta 去职后创办了 AMI Labs,通常聚焦全国模子处所;Google DeepMind 的 Genie 系列模子也在探索 3D 环境的生成与模拟;Nvidia 则推出了 Cosmos,定位为「全国基础模子」,试图将视频生成、物理感知模拟和机器东谈主使命流斡旋到一个框架里。
当这个领域最顶级的几位照顾者和最有钱的几家公司同期往一个处所走,这自己就评释了一些问题。纯数据驱动旅途的天花板,正在成为越来越多东谈主的共鸣,仅仅解法还在探索中。
Seedance 2.0 刚出来的时候确乎引起了一大波狂躁。《死侍》编剧 Rhett Reese 看完演示后甚而写下了「我不想承认,但咱们可能收场」。
这种反应不错清爽,Seedance 2.0 确乎很强,但「数不到 10」提供了一个灵验的校准视角:这些模子学会了电影的视觉语法,但还没学会全国的物理语法。它们的擢升,更多是「看起来更真」,而不是「更懂实践」。
从骨子上说,一个不知谈手指唯有五根的系统,距离着实取代东谈主类创作家,中间还隔着一次范式级别的跨越。
东谈主类不错稍微松语气了,至少在 AI 学会数到 10 之前。
发布于:北京市