站长网 传媒 一个模型通杀八大视觉任务,一句话产生图像视频

一个模型通杀八大视觉任务,一句话产生图像视频

有这样一个模型。 它可以做到一句话生成视频: 不仅零样本就能搞定,性能还直达SOTA。 它的名字,叫NWA(女娲)。 女娲女娲,神通广大,正如其名,一句话生成视频只是这个模型的技能之一。 除此之外,一句话生成图片,草图生成图像、视频,图像补全,视频预

有这样一个模型。
 
它可以做到一句话生成视频:
 
不仅零样本就能搞定,性能还直达SOTA。
 
它的名字,叫“NüWA”(女娲)。
 
“女娲女娲,神通广大”,正如其名,一句话生成视频只是这个模型的技能之一。
 
除此之外,一句话生成图片,草图生成图像、视频,图像补全,视频预测,图像编辑、视频编辑——
一共八种视觉任务,它其实全部都能搞定。
 
完全是一位不折不扣的“全能型选手”。
 
它,就是由微软亚研院和北大联合打造的一个多模态预训练模型,在首届微软峰会上亮相。
 
目前,在推特上已“小有热度”。
 
八项全能“女娲”,单拎出来也不差
所以这个全能型选手究竟表现如何?
 
直接与SOTA模型对比,来看看“她”在各项任务上的表现。
 
在文本生成图像中,不得不说,即使“女娲”的FID-0得分不及XMC-GAN,但在实际效果中,“女娲”生成的图肉眼可见的更好,清晰又逼真。
文本到视频中,“女娲”每一项指标都获得了第一名,从逐帧图片来看,差距很明显。
 
在视频预测中,所有模型使用64×64的分辨率,Cond.代表供预测的帧数。
 
尽管只有1帧,“女娲”也将FVD得分从94±2降到86.9。
 
草图转图像时,与SOTA模型相比,“女娲”生成的卡车都更逼真。
 
而在零样本的图像补全任务中,“女娲”拥有更丰富的“想象力”。
 
并且,它的另一个优势是推理速度,几乎50秒就可以生成一个图像;而Paint By Word在推理过程中需要额外的训练,大约需要300秒才能收敛。

本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/xinwen/chuanmei/2021/1129/30863.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部