多模态网络并没有一些范式,但是存在一些共同点,将其概括为要素。
下面对多模态网络的要素进行简单的介绍,主要包括:
- Encoder,针对每个模态的Encoder
- Align Strategy:不同模态的对齐/融合方式
- LLM(可选):以大语言模型为核心的网络
多模态网络主要可以分为4种:
- Dual-Encoder,双编码器,比如CLIP、GLIP、ALIGN
- Fusion,在双编码器与loss之间添加了一层Fusion Decoder,比如GLIP、SAM、CoCa
- Encoder-Decoder,在编码器与loss之间添加一层文本编码器与解码器
- Adapted LLM,在编码器与loss之间添加一层LLM
参考视频:
如果喜欢这篇文章或对您有帮助,可以:[☕] 请我喝杯咖啡 | [💓] 小额赞助

