文|有风
编辑|有风
Sora一出来,全网都在刷它生成的短视频,那海浪拍打沙滩的细腻感,人物发丝飘动的真实度,确实让人忍不住感叹“AI要抢导演饭碗了”。
但热闹过后,业内人都在琢磨一个问题,短视频能打,长视频呢?要是让AI生成个三五分钟的视频,它还能稳住吗?
之前看过不少AI长视频尝试,前10秒画面精致得像电影,第11秒人物突然“瞬移”到画面外,第20秒杯子自己从桌上飘起来,最后干脆变成一堆模糊的色块。
这种“开头惊艳,后面拉胯”的情况,行内人叫它“时间诅咒”,视频时长一拉长,AI就管不住画面里的物理规律和逻辑链条了。
最近上海人工智能实验室他们搞出个LongVie2模型,专门冲着这个“时间诅咒”来的。
这模型没走“堆参数、拼算力”的老路,反而从“怎么让AI理解时间”这个根子上想办法。
长视频生成的“时间诅咒”到底难在哪?
Sora之所以厉害,是把“瞬间的真实”做到了极致。
它能让一个3秒的镜头里,光影、材质、人物动作都像真拍的。
但长视频不一样,它不是“多个短视频的拼接”,而是“一个持续演化的世界”。
就像拍电影,不仅要每一帧好看,还得让人物记得自己上一秒站在哪,杯子放在哪,光线从哪个方向照过来。
之前的AI模型处理长视频,有点像“狗熊掰棒子”,生成下一帧时,上一帧的细节就忘了大半。
时间一长,物体位置跑偏、光影突然变化、情节接不上茬,这些问题全冒出来了。
有人试过把长视频拆成多个10秒片段生成,再拼起来,结果衔接处人物“换脸”、场景“跳戏”,还不如不拼。
行业里对长视频的需求其实挺迫切的,影视公司想让AI自动生成片花,教育机构需要动态教学视频,连虚拟主播直播都得撑够时长。
但现在的技术,要么生成时间短,要么逻辑崩,根本没法用,LongVie2就是想把这个缺口填上。
LongVie2的三招“破咒”秘籍
LongVie2的思路挺有意思,它不跟短视频较劲,而是把长视频当成“AI需要持续照看的世界”。
简单说就是三招,先给AI装“导航”,再让它练“抗造”,最后帮它记“历史”。
第一招,是给AI装“世界导航系统”。
之前AI生成视频,全靠“感觉”,模型自己隐式记住画面里有啥。
但记着记着就乱套了,LongVie2直接给AI塞了两种“地图”,一种是稠密信号,比如深度图,告诉AI“这个桌子在人物前面,距离3米”。
另一种是稀疏信号,比如关键点轨迹,给人物手脚、物体中心标上“运动路线”。
有了这俩,AI就像开车开了导航,知道“下一步该往哪动,不能撞到啥”,人物不会突然“瞬移”,物体也不会凭空消失了。
第二招,是让AI练“抗造能力”。
咱们平时拍视频,手机晃一下、光线变一下,画面可能模糊,但人眼能自动忽略这些小毛病。
AI不行,输入有点瑕疵,生成的画面就跟着崩。
LongVie2反其道而行之,训练时故意给AI喂“坏素材”,模拟画面模糊、帧间抖动这些长视频常见问题。
就像运动员在高原练耐力,AI见多了“烂输入”,再遇到类似情况反而能稳住,生成的画面不会越到后面越糊。
第三招,是帮AI记“历史账”。
写文章得前后呼应,长视频也一样。
LongVie2生成新片段时,会主动回头看“上一段结尾”,人物位置、光线角度、物体状态,都要跟前面对得上。
还专门设计了个“衔接损失函数”,哪没对上就“扣分”。
这么一来,视频就不是“一段一段拼的”,而是“一个整体长出来的”,情节跳戏的问题少了很多。
LongVie2真能解决长视频难题吗?
光说不练假把式,LongVie2团队搞了个叫LongVGenBench的评测标准,专门测长视频。
里面有100个视频,每个都超过1分钟,有拍自然风景的,有人物活动的,还有虚拟场景的。
拿这个标准一测,LongVie2确实比之前的模型稳得多。
我看了几个演示视频,有个“人物连续行走3分钟”的例子,之前的模型走1分钟就“飘”了,人物脚不沾地。
LongVie2生成的版本,人物步态、位置变化都自然,连影子跟着光线动的细节都没出错。
还有个“厨房做饭”视频,从切菜、倒油到炒菜,锅铲、食材的位置全程没乱,看着跟真人拍的差不多。
团队还做了个“减法实验”,去掉三招里的任何一招,效果立马掉下来。
比如没了“导航系统”,人物就容易“跑偏”,没了“抗造训练”,画面后半段就开始糊。
这说明三招是真有用,不是凑数的。
AI长视频的下一步会怎么走?
LongVie2的突破,不光是技术上的,更重要的是换了个思路,不追求“生成得多快多炫”,而是先解决“生成得多久多稳”。
这种“以时间为本”的思路,可能会成行业新方向。
接下来,估计会往更复杂的场景走。
现在LongVie2能搞定单人物、简单场景,以后要是多人物对话、动态天气变化(比如突然下雨),AI还能稳住吗?
还有“可控性”,现在能控制人物走直线,以后能不能让AI按剧本“表演”,比如“先哭后笑”这种情绪变化?这些都是要啃的硬骨头。
对行业来说,这事儿喜忧参半。
好的是内容创作门槛会降很多,小团队也能靠AI生成高质量长视频。
但坏消息是,以后看到的视频,可能分不清是真人拍的还是AI做的,版权、真实性这些问题得提前想办法。
总的来说,LongVie2算是给AI长视频开了个好头。
从Sora的“瞬间惊艳”到LongVie2的“持续可信”,AI视觉创作正在跨过“时间”这道坎。
说不定过两年,咱们在网上刷到的短剧、教学视频,背后操盘的就是这些“会记时间的AI”了。