直播预告 | 明晚七点,相约阿里巴巴ACL 2021分享会(一)

2021-06-08   AI科技评论

原标题:直播预告 | 明晚七点,相约阿里巴巴ACL 2021分享会(一)

ACL由国际计算语学协会主办,是自然语言处理(NLP)与计算语言学领域最高级别的学术会议,被中国计算机学会(CCF)列为A类国际学术会议,涵盖语言分析、信息抽取、机器翻译与自动问答等各个领域。本届ACL共收到3350篇论文投稿,其中主会论文录用率为21.3%。

本次我们邀请到阿里巴巴达摩院的小伙伴分享他们在ACL 2021的收获。

直播时间

6月9日 19:00

活动流程

19:00-19:20

分享嘉宾:徐海洋

分享主题:E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

19:20-19:40

分享嘉宾:程丽颖

分享主题:Argument Pair Extraction via Attention-guided Multi-Layer Multi-Cross Encoding

19:40-20:00

分享嘉宾:何瑞丹

分享主题:On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation

20:00-20:30

观众互动提问环节

直播链接二维码

分享概要

分享嘉宾1:徐海洋 达摩院机器智能技术实验室

分享主题:ACL 2021 | E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

论文摘要

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练,首先利用预训练的目标检测器抽取基于区域的视觉特征,然后拼接视觉表示和文本向量作为Transformer的输入进行训练。但是这类方法面临着使用领域性的视觉特征来做通用跨模态理解,以及计算效率低的问题。在这篇论文中,我们提出一个新的多模态预训练范式( E2E-VLP)。我们通过一个统一的Transformer框架同时学习视觉表示和文图的语义对齐。我们通过融入目标检测和图片标题生成任务到预训练过程中来提升视觉学习。这个新的端到端的训练范式能够增强像素和文本层面的特征融合,并且encoder-decoder的框架可以灵活的微调下游的多模态理解和生成任务。E2E-VLP在主要的多模态任务中都取得差不多和两阶段模型匹配的效果。

技术影响:

多模态预训练模型E2E-VLP是第一篇支持端到端多模态理解和生成的模型,是第一篇通过encoder-decoder的框架把视觉任务学习融入到预训练学习中,E2E-VLP在主要的多模态任务中都取得和两阶段模型匹配的效果。

分享嘉宾2:程丽颖 达摩院-机器智能技术实验室

分享主题:ACL 2021 | Argument Pair Extraction via Attention-guided Multi-Layer Multi-Cross Encoding

论文摘要:

针对从两个文本同时进行论辩对挖掘的任务,这篇工作提出了一个端到端的解决方案,即一个注意力机制引导的多层多交编码器模型。此模型用两个序列编码器单独处理两个文本,并利用彼此的信息通过注意力机制进行更新每个文本的表示,同时利用表格填充的方法设计了一个表格编码器学习两个文本之间的关系。另外,此模型还提出了一个辅助注意力机制损失函数。该模型在基准数据集上取得了目前为止最好的结果,具有较广泛的技术价值,可被应用于多种其他论辩对挖掘的任务以及在两个文本间做信息抽取和关系匹配的任务,如辩论机器人项目、电商评论、智能司法项目等。

技术影响:

智能辩论是人工智能领域的集大成者,是通用人工智能的重要体现形式。本研究解决文档对(two sequences of sentences)内辩论点挖掘的问题,针对两个序列(sequences)交互信息的抽取,首次提出了端到端模型。具体地,提出的多层多交编码方式(Multi-Layer Multi-Cross Encoding)可以对两个序列的交互作用,通过表格编码器(table encoder)来进行自然的建模,同时表格编码器和两个序列编码器(sequence encoders)进行协同训练,从而更好地抽取两个序列内存在交互关系的信息片段。

分享嘉宾3:何瑞丹 达摩院-机器智能技术实验室

分享主题:ACL 2021 | On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation

论文摘要:

近来微调(fine-tuning)已经成为了一种主流的预训练模型任务适应的方法。微调会复制预训练模型的权重,然后在下游任务上对所有权重进行更新。这使得对于每一个新任务,微调都会产生一个新的模型, 这对于很多应用尤其是multi-task场景非常不友好。前人提出了Adapter-based tuning 的方法旨在解决这个问题, 在做任务适应时,只有adapter的权重会被更新, 原预训练模型的权重被冻结。然而,前人的工作主要是从parameter efficiency角度出发的,没有进一步挖掘adapter-based tuning的应用场景。本方案旨在探究adapter-based tuning是否能提升预训练模型任务适应的性能,这是一个对学界和工业界都非常重要的问题。 首先,我们验证了adapter-based tuning能更好正则化模型在目标任务上的学习,减轻灾难性遗忘(catastrophic forgetting)。接着,我们在多种场景的基准任务上对比了adapter-based tuning和fine-tuning, 包括低资源,高资源, 单语言,多语言等, 我们发现 1)adapter-based tuning在低资源或跨语言场景下能显著超过微调;2)其训练过程更稳定(more robust to overfitting) 且对学习率更不敏感。

技术影响:

随着预训练模型(如BERT、GPT)的广泛应用,模型微调(fine-tuning)已经成为一种应用范式,然而已有工作并未深入研究该策略的适用范围和局限性。本文首次系统地对比了fine-tuning和Adapter-based tuning方式的优劣,发现 1)adapter-based tuning在低资源或跨语言场景下能显著超过微调;2)其训练过程更稳定(more robust to overfitting) 且对学习率更不敏感。以上结论均是首次被发现,预期对预训练模型的应用方式产生较大影响