Deep Visual-Semantic Alignments for Generating Image Descriptions
摘要
- 图像 CNN,文本 BiRNN,multimodal embedding,alignment model
介绍部分
- 先前:给定categories的labeling
- 目标:生成images的dense description
- 要求:模型同时推断内容和找出自然语言的表示,并且通过训练获得
- 数据集的challenge:image captioning的数据集并不包含图片中实体的定位
- core insight: 句子作为weak labels,句子和图像的定位都未知 -> 模型需要推断位置的 latent alignment