您当前的位置:千讯科技网资讯正文

微软亚研提出VL-BERT通用的视觉-言语预练习模型

2019-09-03 12:24:59  阅读:2201 作者:责任编辑NO。姜敏0568

机器之心发布

作者:Weijie Su、Xizhou Zhu、Yue Cao、Bin Li、Lewei Lu、Furu Wei、Jifeng Dai

来自中科大、微软亚研院的研究者们提出了一种新式的通用视觉-言语预练习模型(Visual-Linguistic BERT,简称 VL-BERT),该模型选用简略而强壮的 Transformer 模型作为骨干网络,并将其输入扩展为一起包括视觉与言语输入的多模态方式,适用于绝大多数视觉-言语下流使命。

为了让 VL-BERT 模型运用更为通用的特征表明,作者在大规模图片描绘生成数据集 ConceptualCaptions 中进行 VL-BERT 的预练习,试验证明此预练习进程能够明显进步下流的视觉-言语使命的作用,包括视觉常识推理、视觉问答与引证表达式了解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT 取得了当时单模型的最好作用。

论文地址:https://arxiv.org/abs/1908.08530

适用于下流使命的通用特征表明预练习是深度网络成功的标志之一。在计算机视觉范畴,深度网络在 ImageNet 数据集进行图画分类的预练习进程,被发现可广泛进步多种图画识别使命的作用。在自然言语处理范畴中,Transformer 模型在大规模语料库中运用言语模型进行预练习的进程,也被证明可广泛进步多种自然言语处理使命的作用。

但关于计算机视觉和自然言语处理范畴穿插的使命,例如图画标题生成、视觉问答、视觉常识推理等,短少这种预练习的通用多模态特征表明。

一般来说,之前的视觉-言语模型别离运用计算机视觉或自然言语处理范畴中的预练习模型进行初始化,但假如方针使命数据量缺乏,模型简单过拟合然后丢失功能。而且关于不同的视觉-言语使命,其网络架构一般是经过特别规划的,由此很难经过视觉-言语联合预练习的进程协助下流使命。

由此,在本文中,作者提出了一种可广泛应用于视觉-言语使命的预练习通用特征表明,称为 Visual-LinguisitcBERT,简称 VL-BERT,其架构如下图所示:

VL-BERT 的骨干网络运用 TransformerAttention 模块,并将视觉与言语嵌入特征作为输入,其间输入的每个元素是来自语句中的单词、或图画中的感兴趣区域(Region of Interests,简称 RoIs)。在模型练习的进程中,每个元素均能够依据其内容、方位、类别等信息自适应地聚合来自一切其他元素的信息。在堆叠多层 TransformerAttention 模块后,其特征表明即具有更为丰厚的聚合与对齐视觉和言语头绪的才能。

为了更好地建模通用的视觉-言语表明,作者在大规模视觉-言语语料库中对 VL-BERT 进行了预练习。选用的预练习数据集为图画标题生成数据集,Conceptual Captions,其间包括了大约 330 万个图画标题对。

VL-BERT 的预练习首要选用三个使命:a) 屏蔽言语模型(Masked Language Modeling),即随机屏蔽掉语句中的一些词,并猜测当时方位的词是什么;b) 屏蔽 RoI 分类(MaskedRoIClassification),即随机屏蔽掉视觉输入中的一些 RoIs,并猜测此空间方位对应 RoI 的所属类别;c) 图画标题相关猜测(Sentence-Image Relationship Prediction),即猜测图画与标题是否归于同一对。

在预练习完毕后,运用微调来进行下流使命的练习。本文中首要在三个视觉-言语下流使命中进行微调,即视觉常识推理(VisualCommonsenseReasoning)、视觉问答(VisualQuestionAnswering)与引证表达式了解(ReferringexpressionComprehension),下面将别离介绍。

视觉常识推理使命即给定图片与相关问题,机器不只需求答复问题,还需求供给理由来证明答案的正确性。此使命(Q->AR)被分解为两个子使命,即视觉问答(Q->A,给定图片与问题,输出正确答案),以及视觉推理(QA->R,给定图片、问题与答案,输出正确的理由)。

下面以视觉问答子使命为例,此使命的输入为问题、答案与图画的 RoIs,并猜测此答案是否为正确答案。除此之外,作者发现微调时添加与预练习相似的 RoI 分类丢失也会进一步提高功能,如下:

视觉问答使命即给定图片,答复与图片输入相关的问题。由此模型的输入即为问题与图画,根本元素为单词或 RoI,终究对答案进行猜测,如下:

引证表达式了解使命是运用给定的引证表达式来定位图画中的相关目标,由此输入为查询(引证表达式)与图片中的 RoIs,并猜测哪个 RoI 为查询输入的引证,如下:

下面将介绍论文中的一些首要试验成果:

a)在视觉常识推理(Visual Commonsense Reasoning)使命中,与当时最好办法的成果比较如下:

b)在视觉问答(Visual Question Answering)使命中,与当时最好办法的成果比较如下:

c)在引证表达式了解(Referring expression Comprehension)使命中,与当时最好办法的成果比较如下:

本文为机器之心发布,转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!