码力全开 / MobileViT简述

Created Sun, 07 Dec 2025 16:05:33 +0800 Modified Sun, 07 Dec 2025 16:43:14 +0800
419 Words 1 min

关于MobileViT网络,是在MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer中提出的。

MobileViT将CNN与Transformer的优势成功组合在一起,从而给移动设备带来轻量级、低延迟及通用视觉的网络。其相关代码实现可以参考ml-cvnets

在标准ViT(visual transformer)中,对于输入的图片需要将其进行patch后再展平,这个过程可以通过1个卷积来实现。之后通过Linear后得到embedding,添加位置编码信息后送入Transformer层中,最后再经过Linear得到的最终输出,从而实现分类。

MobileViT整个网络结构如下图所示:

MobileViT

其中Conv-n x n表示标准的n x n卷积,而MV2表示MobileNetv2块。而标注↓2是对块进行下采样。

最后介绍下如何在YOLO中集成MobileViT模块,可以参考YOLOv8添加MobileViTv3模块。相关代码为yolov8_vit

参考文章:

https://keras.io/examples/vision/mobilevit/

如果喜欢这篇文章或对您有帮助,可以:[☕] 请我喝杯咖啡 | [💓] 小额赞助