粉色连衣裙、玄色大海潮的好意思女体育游戏app平台,骄傲转死后,露出了一酷似张宋小宝的娇俏样子。
微张的嘴唇,欲语还休。
好意思国的三好后生马斯克,身着东北大花袄,站在微风阵阵的白宫前面。
小手一揣,略带狭小地露出一抹经管、简陋的含笑。
而另一边,魔卡青娥小樱也正拉着近邻的蕾姆,在三里屯市集里逛街。
天然了,世超知说念眼力过各式 P 图软件和 AI 时间的你。计算看到这些遵循,亦然轻轻一笑说:
哥不仅能让马斯克换装,便是让他跳段舞,亦然手拿把掐了。
但且慢,上头这些视频的生成轨范,可能跟你往常见过的皆不通常。
这个用的是生数科技伙同清华团队推出的视频模子 Vidu 1.5 ,这个模子有一个新的身手:多主体一致性。
用大口语来说,便是我们不错上传多张图片来生成视频。而况保证这些复杂的元素不会变形。
比如上传扮装、物体和场地的图,它不错用你指定的这些元素,作念出一条视频来。
这样我们在生成的时期,就不错我方设定东说念主物、物体还有场景。
像马斯克这条视频,便是用了一张马斯克的大头照,一件花袄,还有一张白宫的图片,生成出来的。
丢一句粗陋的指示词, Vidu 就不错复刻出一条以伪乱确实视频。让马斯克,穿上你给的大花袄,在白宫前秀一段。
这样整的平允不言而谕,我们不错手动畛域AI 生成的素材,让视频更合我们情意。
往常我们只可扔一句话,或者扔一张像片,让 AI 解放弘扬。终末收尾很容易就脱离我们的预期。
比如你平直说让马斯克穿戴大花袄,它就会确实在马褂上,画几朵大花。
若是 AI 的词库里,就莫得大花袄这个东西。不管我们若何退换指示词,终末皆没法生成出来。
可当今,你无谓用力憋指示词了,只需要闭眼甩一张图。
之前还莫得视频模子不错作念到这样,许多时期能把一张上传的图片措置领会,就也曾相配得劲了。
是以, Vidu 这个模子一发布。外网的各式网友们,立马就惊呼,然后开机上手了。
民众也不错平直怒放 Vidu 的官方,上手碰行运。不外,当今只好三次的免费契机,后头每次试用就会需要糜费 4 个积分。
为了给民众扫数这个词领会,世超试用了一天。大伙不错往下滑,望望我的遵循,再决定要不要玩。
按照裁剪部的沿袭成习,我们的吉利物一般皆是我第一个试的。
这回,我整了两张暖锅戴头盔的像片,又上传了一张抹茶绿的雅迪电动车。
输入指示词:金毛犬在骑雅迪电动车。
好像几十秒之后,带着玄色防风镜的暖锅,就这样丝滑地骑上了小电驴。
连胸前蓝色的挂饰,还有雅迪的橙色车标,皆完整的保留了下来。这个一致性遵循照旧挺惊艳的。
天然暖锅这个滑滑板通常的骑车行为,是笃定没法登程的。
不外,因为狗原来就不会骑电驴,我们也不可强求。后头,世超换了张乔布斯的大头照,这个遵循就很不错了。
而且,我还专门上了点难度。让乔布斯也和马斯克通常,穿上了我们特质衣饰军大衣。
乔布斯应该也没念念到,我方有一天会坐上雅迪的橘色雅座吧。
天然只好正脸照,然而镜头转到侧方的时期,东说念主物的特征( 比如小秃子 )照旧复原得挺精确。
不外,上头这些皆照旧单一的东说念主物主体,外加一个场景或者物品。握取起来照旧比拟粗陋。
一般来说,我们加入的主体越多,大模子就可能握取罪戾。
于是我试了一下上传一张唐伯虎点秋香里经典图,然后条件把脸部替换成我给的另一张图。
它从一堆东说念主的背影里,精确地找到秋香。让她把脸缓缓转过来,微微露出侧脸。
天然莫得全脸示东说念主,但眉眼就填塞一眼丁真。
后头,我又加上了难度。
不仅要替换服装,还要加上行为。让语文讲义上的李白和蔡徐坤来个对换:李白穿戴背带裤在打篮球。
此次, Vidu 给的遵循就相配概述了。
它平直给坤换了个画风,整出了一个动画版。虽说保留的格子裤斑纹小细节,足以体现精心。
但这个李白 260 ° 水调大讲究,画面确凿过于诡异了。也莫得完成我输入的【 打篮球 】的指示。
在后头测试中,世超发现 Vidu 天然能抠主体。然而,若是行为比拟大,或者画面变化比拟多,就容易出现上头俄顷讲究的小 bug 。
比如,让它把胖虎的玩物东说念主偶放在冰雪女王的手上。
它如实能措置多个主体,让塑胶胖虎假造变出来,而且,冰雪女王的行为和场景连贯性,基本不错以伪乱真。
然而,换进去的胖虎的行为,就显著有点小崩。在五秒里,流畅抽搐变形了数次。
在一下昼的测试里, Vidu 的生奏遵循老是时好时坏。
世超一直在上一秒惊艳,下一秒惊吓的反复中来走动回。
比如让雷军坐到问界的车里挥手。雷军就这样水汪汪地掉到了车外面,而且,脸也早也曾崩坏了。
然而,同期它又能齐全地让乐高国王,在城堡上举起长剑,激越演讲。保持场景和东说念主物,皆连贯一致。
崩多了之后,我以至摸出了一些门说念。若是你看完著述后,考虑去试试,那么在给主体像片的时期,最佳找配景比拟干净的图片。
主体越好抠出来,生成的准确率就越高。
同期,给一个主体上传多个角度的像片,也能让他动起来更天然。因为模子不错构建出一个更完整的东说念主物。
天然证实 Vidu 官方的说法,他们此次淹没了业界主流的 LoRA 微调的轨范。因为那种轨范,很容易出现过拟合,便是在强健主体的历程中,会淡忘大宗原先的常识。
是以,主体的行为和肢体很容易崩坏,难以畛域。画面里东西越多,变化越多,就越容易失控。
而 Vidu 的新模子是用雷同于诳言语模子的时间,把扫数输入皆措置成视觉数据,并和诳言语模子通常能 " 坎坷文挂牵 " 地措置这些输入数据。
这如实让 Vidu 在多主体的措置上,迈出了一大步。
但与此同期,经过粗陋测试后,世超以为 Vidu 的这个时间还有很长一段路需要走。
其实, Vidu 表现的问题跟早期的文成视频很像。便是趣味皆到了,然而细节还不够,遵循叛逆稳,时常常抽一下风。
像这个电动车和公路场景,再若何切换镜头皆莫得变形。便是清醒的时期,东说念主物出现了影分身。
指定图片:初音将来、雅迪电动车和公路
若是你念念用它十足替代视频使命者的使命,世超以为照旧得等等。
但 Vidu 笃定是值得上手玩玩看的。
毕竟谁不念念让可爱的扮装穿上我们挑选的衣服,不念念让情意的 IP 扮装或者明星,跨界同框一下呢。
撰文:star