09/06 论文笔记

Deep Visual-Semantic Alignments for Generating Image Descriptions

摘要

  • 图像 CNN,文本 BiRNN,multimodal embedding,alignment model

介绍部分

  • 先前:给定categories的labeling
  • 目标:生成images的dense description
  • 要求:模型同时推断内容和找出自然语言的表示,并且通过训练获得
  • 数据集的challenge:image captioning的数据集并不包含图片中实体的定位
  • core insight: 句子作为weak labels,句子和图像的定位都未知 -> 模型需要推断位置的 latent alignment