站长网 传媒 何恺明MAE大火后,想梳理下视觉Transformer?这篇整理了100多个

何恺明MAE大火后,想梳理下视觉Transformer?这篇整理了100多个

这段时间,计算机视觉圈有点热闹。先是何恺明等人用简单的掩蔽自编码器(MAE)证明了 Transformer 扩展到 CV 大模型的光明前景;紧接着,字节跳动又推出了部分指标超过 MAE 的新方法iBOT,将十几项视觉任务的 SOTA 又往前推了一步。这些进展给该领域的研究

这段时间,计算机视觉圈有点热闹。先是何恺明等人用简单的掩蔽自编码器(MAE)证明了 Transformer 扩展到 CV 大模型的光明前景;紧接着,字节跳动又推出了部分指标超过 MAE 的新方法——iBOT,将十几项视觉任务的 SOTA 又往前推了一步。这些进展给该领域的研究者带来了很大的鼓舞。
 
在这样一个节点,我们有必要梳理一下 CV 领域 Transformer 模型的现有进展,挖掘其中有价值的经验。

因此,我们找到了中国科学院计算技术研究所等机构刚刚发布的一篇综述论文。在这篇论文中,Yang Liu 等几位研究者全面回顾了用于三个基本 CV 任务(分类、检测和分割)的 100 多个视觉 Transfomer,并讨论了有关视觉 Transformer 的一些关键问题以及有潜力的研究方向,是一份研究视觉 Transformer 的详尽资料。
何恺明MAE大火后,想梳理下视觉Transformer?这篇整理了100多个

本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/xinwen/chuanmei/2021/1127/30278.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部