论文笔记 - Multimodal Masked AutoencodersLearn Transferable Representations
现有基于图像-文本对数据的对比学习训练方法(CLIP等)大多构建2个独立的encoder,无法使用不成对的弱监督数据,且对比学习的采样策略会带来一定的bias,为此,本文提出了一种图像-文本数据统一的encoder,通过预测mask token来训练。在大规模的图像-文本数据集上进行实验表明,预训练的模型在下游任务上有很好的表现,且与bert相比,M3AE可以使用更高的文本mask ratio。除此之外,该模型可以在图像-文本对或图像数据上使用