原标题:这个视频在网上走红,谷歌把AI视频造假做得太真实太简单了。
一家人,AI做视频今天被推到了舆论的风口浪尖。
原因是有人在网上发布了这样一个小企鹅的视频:
而这个将近50秒的视频的诞生,仅仅依靠6句话!
一个接一个,网友们还在放出这个AI的其他大作:
这次喂它的提示也很短,只有4行:
这样一种所写即所得,流畅连贯的视频生成方式也引起了不少网友的感慨:
未来已经到来。
甚至有人开始拉仇恨,说AI在用各种方式破坏行业…
然后很多人问:这是哪个新AI。
但是,眼尖的网友发现,其实是一个老朋友—
谷歌去年10月发布的文本到视频模式:Phenaki。
只需要一个提示,分分钟就可以生成一个长达两分钟的视频。
相比Phenaki刚发布的时候,Google又来了一波新的运营。
那我们现在就一起看这些新视频吧~
可以通过打字生成的视频
与以往AI生成的视频不同,《Phenaki》最大的特点是故事性和长度。
比如,我们来举这样一个场景描述:
在一个交通复杂的未来派城市,一艘外星飞船抵达了这座城市。
伴随着镜头拉近,画面进入飞船内部,然后镜头继续沿着飞船内部的走廊向前移动,直到看到一名宇航员在蓝色房间的键盘上打字。
镜头逐渐移向宇航员的左侧,身后出现一片蓝色的海洋,鱼儿在水中游来游去,画面迅速放大,聚焦在一条鱼上。
然后镜头迅速浮出海面,直到看到摩天大楼高耸的未来城市,镜头迅速拉近撞向大楼的办公室。
这时,一只狮子突然跳上桌子,开始奔跑,镜头首先聚焦在狮子的脸上,当镜头再次缩小时,狮子已经变成了一个西装革履的兽人。
最后把相机拉出办公室,鸟瞰夕阳下的城市。
想必很多朋友朋友在看这段话的时候,脑海中已经出现了相应的画面。
接下来,我们来看看Phenaki一代的效果:
和你大脑编造的画面一致吗。
总的来说,这个AI即使面对这种脑洞大开的场景提示,也做到了无缝过渡。
难怪网友看了这个视频后惊呼发展这么快。
短提示的话,Phenaki更重要。
比如,给Phenaki喂这段话:
一只逼真的泰迪熊在潜水,然后慢慢浮出水面,去海滩,这时镜头拉远,泰迪熊从沙滩上的篝火旁走过。
还没看够。然后是另一段,这次是不同的主角:
在火星上,宇航员走过一个水坑,水中映出他的侧影他在水边跳舞,然后宇航员开始遛狗,最后,他和狗一起看了火星上的烟火
当谷歌早些时候发布Phenaki时,它也演示了通过向Phenaki输入初始帧和提示来生成视频的能力。
例如,给定这样一个静态图:
然后给它一个简单的喂食句子:白猫用猫爪触碰镜头。效果出来了:
或者根据这张图,把提示改成一只白猫打哈欠,效果会是这样的:
当然,随意切换视频整体风格也是可以hold住的:
网友:视频行业是不是要被AI冲击了。
但除了Phenaki,谷歌当时还发布了Imagen Video,可以生成分辨率为1280*768,每秒24帧的高清视频片段。
它根据图像生成SOTA模型Imagen,表现出三种特殊能力:
能够理解并生成不同艺术风格的作品,比如水彩,像素甚至梵高风格。
能理解物体的三维结构。
继承了Imagen准确描述文字的能力。
早前Meta也发布了Make—A—Video,不仅可以通过文字转换视频,还可以根据图像生成视频,比如:
将静态图像转换为视频
从原始视频生成新视频。
。
对于这种雨后春笋般出现的生成视频模型,有人难免会担心:
当然,有些人认为时机尚未到来:
0—1永远快,1—100依然长。
不过也有网友已经在期待艾拿奥斯卡了:
原理介绍
再来说说Phenaki很多网友都很好奇它是怎么通过文字生成这么丝滑的视频的
简单来说,Phenaki比上一代视频模型更注重时间长度的任意性和连贯性。
Phenaki之所以能够生成任意时长的视频,很大程度上得益于新的编解码架构:C—ViViT。
它是ViViT的因果变体,可以将视频压缩成离散嵌入。
要知道,以前视频压缩要么是因为编码器不能及时压缩视频,导致最终视频太短,比如VQ—GAN,要么是因为编码器只支持固定的视频长度,最终视频的长度不能任意调整,比如VideoVQVAE。
但是C—ViViT不一样可以兼顾以上两种架构的优点它可以在时间和空间维度上压缩视频,在保持时间自回归的同时,可以自回归生成任意长度的视频
C—ViViT可以让模型生成任意长度的视频,那么如何保证最终视频的逻辑呢。
这要靠Phenaki的另一个重要部分:双向变压器。
其中,为了节省时间,采样步长是固定的,在处理文本提示的过程中可以同时预测不同的视频token。
这样结合前面提到的,C—ViViT可以在时间和空间维度上压缩视频,压缩后的token是时间逻辑的。
换句话说,mask在这些token上训练的Transformer也是有时间逻辑的,最终生成的视频的连贯性自然有保证。
想了解更多关于Phenaki的知识,可以戳这里。
Phenaki:
参考链接: