码力全开 / 多模态网络的要素

Created Fri, 09 Jan 2026 22:01:49 +0800 Modified Fri, 09 Jan 2026 22:32:32 +0800
290 Words 1 min

多模态网络并没有一些范式,但是存在一些共同点,将其概括为要素。

下面对多模态网络的要素进行简单的介绍,主要包括:

  • Encoder,针对每个模态的Encoder
  • Align Strategy:不同模态的对齐/融合方式
  • LLM(可选):以大语言模型为核心的网络

多模态网络主要可以分为4种:

  • Dual-Encoder,双编码器,比如CLIP、GLIP、ALIGN
  • Fusion,在双编码器与loss之间添加了一层Fusion Decoder,比如GLIP、SAM、CoCa
  • Encoder-Decoder,在编码器与loss之间添加一层文本编码器与解码器
  • Adapted LLM,在编码器与loss之间添加一层LLM

参考视频:

https://www.bilibili.com/video/BV1hwLEzZEnS?p=15

如果喜欢这篇文章或对您有帮助,可以:[☕] 请我喝杯咖啡 | [💓] 小额赞助