09/06 论文笔记

发表于 2020-09-06 更新于 2020-09-07 分类于笔记 Disqus：

Deep Visual-Semantic Alignments for Generating Image Descriptions

摘要

图像 CNN，文本 BiRNN，multimodal embedding，alignment model

介绍部分

先前：给定categories的labeling
目标：生成images的dense description
要求：模型同时推断内容和找出自然语言的表示，并且通过训练获得
数据集的challenge：image captioning的数据集并不包含图片中实体的定位
core insight: 句子作为weak labels，句子和图像的定位都未知 -> 模型需要推断位置的 latent alignment