#新闻 ·2025-01-02
近一两年,Transformer 跨界 CV 任务不再是什么新鲜事了。
自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来,各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。
之后,在 PyTorch 中实现 Vision Transformer 成为了研究热点。GitHub 中也出现了很多优秀的项目,今天要介绍的就是其中之一。
该项目名为「vit-pytorch」,它是一个 Vision Transformer 实现,展示了一种在 PyTorch 中仅使用单个 transformer 编码器来实现视觉分类 SOTA 结果的简单方法。
项目当前的 star 量已经达到了 7.5k,创建者为 Phil Wang,ta 在 GitHub 上有 147 个资源库。
项目地址:https://github.com/lucidrains/vit-pytorch
项目作者还提供了一段动图展示:
首先来看 Vision Transformer-PyTorch 的安装、使用、参数、蒸馏等步骤。
第一步是安装:
第二步是使用:
第三步是所需参数,包括如下:
最后是蒸馏,采用的流程出自 Facebook AI 和索邦大学的论文《Training data-efficient image transformers & distillation through attention》。
论文地址:https://arxiv.org/pdf/2012.12877.pdf
从 ResNet50(或任何教师网络)蒸馏到 vision transformer 的代码如下:
除了 Vision Transformer 之外,该项目还提供了 Deep ViT、CaiT、Token-to-Token ViT、PiT 等其他 ViT 变体模型的 PyTorch 实现。
对 ViT 模型 PyTorch 实现感兴趣的读者可以参阅原项目。
如有任何疑问 请随时与我们联系
友情链接
咨询微信客服
13004184443
立即获取方案或咨询top