码力全开 / YOLO双Backbone架构设计

Created Sun, 07 Dec 2025 10:25:40 +0800 Modified Sun, 07 Dec 2025 11:19:20 +0800
522 Words 1 min

默认情况下YOLO模型采用的都是单Backbone的设计,但是这种架构存在其内在的局限,特别对于小物体的识别往往力不从心。而引入双Backbone架构可以从多维度特征融合方面增强其能力。

双Backbone架构主要分为共享输入和双输入这两种典型结构。其中共享输入允许模型处理同一个输入时通过并行的特征对特征进行提取,从不同的角度和尺度理解输入的图像内容。其极大增强了模型对目标的判别能力,在训练和部署过程中,由于共享同一输入图像,参数相对稳定,减少模型不稳定的情况的发生。 而双输入结构允许两个Backbone分别处理不同来源的输入,这些输入可以是不同模态的数据,比如RGB与红外图像输入的结合,一般情况下说的多模态融合都属于这种类型。

下面介绍下双Backbone架构的一些组合方式:

  1. CNN + CNN: 将两个不同的CNN进行组合,可以选择一个轻量级CNN快速捕捉图像中的浅层特征,再使用另一个相对较重且语义建模能力更强的CNN来理解图像中目标的内在关系。
  2. CNN + Transformer: 让CNN处理图像的低级特征,并将特征传递给Transformer,由Transformer来理解其语义关联
  3. CNN + Mamba: CNN提取图像的静态特征,Mamba捕捉图像中跨通道、区域以及时间的动态信息

参考文章:

https://blog.csdn.net/qq_64693987/article/details/148086687

如果喜欢这篇文章或对您有帮助,可以:[☕] 请我喝杯咖啡 | [💓] 小额赞助