AAAI 2020 |清华大学：用于少次关系学习的神经网络雪球机制

2020-01-04 AI科技评论

作者 | 高天宇

编辑 | Camel

本文对清华大学孙茂松、刘知远团队完成、被 AAAI-20 录用的论文《Neural Snowball for Few-Shot Relation Learning》进行解读。

论文：https://arxiv.org/abs/1908.11007
开源代码：https://github.com/thunlp/Neural-Snowball

关系抽取（Relation Extraction）是自然语言处理当中的一个重要研究课题，其探究如何从文本中抽取结构化的关系事实。例如，从句子“比尔盖茨是微软的创始人”中，我们可以抽取出（比尔盖茨，创始人，微软）这样一个关系三元组，并用于知识图谱补全等下游任务中。

与关系抽取相关的工作有很多，但他们大多针对预定义的关系类型，即给定一个人为定义好的关系集合，在抽取时仅考虑集合内的关系类型。然而，我们面临着开放式的关系增长，随着新领域、新知识的出现，关系类型也在不断增多。因此，我们需要能够应对关系增长的关系抽取模型。

目前的研究当中，主要有以下几种关系抽取的场景，他们所针对的关系类型和利用的数据都有所不同：

有监督的关系抽取（Supervised Relation Extraction）：其针对预定义的关系集合，使用大规模的监督数据。

半监督的关系抽取（Semi-Supervised Relation Extraction）：其针对的也是预定义的关系集合，希望使用相对较少的监督数据，在大量无监督数据的帮助下，能够取得与有监督关系抽取类似的效果。

少次学习关系抽取（Few-Shot Relation Extraction）：其针对的新的（没见过的）关系类型，通过在已有关系类型上的大规模数据预先训练，再快速迁移到新关系类型的少量数据上，达到少次学习的目的。

自启动关系抽取（Bootstrapping Relation Extraction）：其面向的也是开放的关系场景，对于新的关系类型，仅给定少量的启动样本，以迭代的方式从大规模的数据中挖掘更多的信息，从而得到更加强大的关系抽取模型。

从上面的分析中可以看出，这些方法涉及到了三种类型的数据：在已有关系类型上的大规模监督数据，对于新关系的少量标注数据，以及大规模的无监督数据。我们希望能够充分的利用这三种数据：

如上图所示，Neural Snowball通过在已有关系上的大规模数据上训练距离度量（下文中会有详细阐述），迁移到新的关系类型上，利用新关系的少量数据作为启动种子，从大规模的无监督数据中挖掘有用信息，挖掘越多的有用信息，我们就能得到越好的关系抽取模型。

3. Neural Snowball 的整个流程如下：

输入：一个新的关系类型，以及少量的标注数据（启动种子）

目标：训练一个该关系类型的二分类器。用二分类器是因为这样更具可扩展性，当关系类型增加的时候，可以将多个二分类器放在一起使用。

训练：以启动种子开始，迭代式的从无监督数据中挖掘有用信息。

如图所示，每一轮迭代主要分为两个阶段：

（1）利用远监督获取待选句子；

（2）利用新的关系分类器获取待选句子。

远监督（Distant Supervision）是指，如果已有数据告诉我们，实体h、t之间有关系r，我们就找到所有包含h、t的句子，并假设他们真的表达了关系r。第一步获取了新的训练数据之后，Neural Snowball会训练新的关系分类器，这个新的分类器会从无监督数据中挖掘它认为属于关系r的数据，这些新数据可以帮助训练更好的分类器。

然而，这两步迭代都会带来噪声数据，这时就需要Relational Siamese Network（RSN）来进行数据过滤。

RSN结构如上图，其输入两个句子，输出这两个句子是否表达的是同一种关系。我们在已有关系的大规模数据上预先训练RSN，并将它用在Neural Snowball中，对所有从无监督数据中选出来的候选数据，用RSN将它们与启动种子进行比较，仅留下置信度较高的样本。

上表是关于RSN的性能测试。P@N表示预测top-N的精度。Train和test分别表示在训练中见过的关系类型上测试，和在新关系上进行测试的结果。可以看出，即使是在RSN从没有见过的关系类型上，其表现也是十分不错的。

相比传统的Bootstrapping方法，我们的优势是什么？首先，我们引入了神经网络，相比使用pattern或者statistical方法能够有更好的generalizability。同时，我们利用在已有关系上预先训练的RSN，能够在迭代过程中获得更好的精度。

在与一些baseline模型的对比中，我们可以看出Neural Snowball具有很强的性能优势。同时，我们也对Neural Snowball迭代获得的样本质量进行了一些分析

图中横坐标代表迭代轮数，蓝色的柱状图代表挖掘到的新的样本的数量。绿色和红色分别代表利用新挖掘出的数据训练得到的分类器的precision和recall。其中，虚线表示一种理想情况：在知道无监督数据中哪些是正确的样本的情况下，随机选取和Neural Snowball挖掘出来的相同数量的样本。

从图中可以看出，得益于RSN的使用，Neural Snowball挖掘出的样本保持了较好的precision，但因为在挖掘过程中过于陷入“舒适区”，recall距离理想情况还有较大的差距。这也是我们未来想要进一步探索的方向，即如何能够挖掘出更多样化的样本。

AAAI 2020 论文集：

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

AAAI 2020 论文解读系列：

01. 时间可以是二维的吗？基于二维时间图的视频内容片段检测

09. 借助BabelNet构建多语言义原知识库

10. 沟壑易填：端到端语音翻译中预训练和微调的衔接方法

11. 中科院自动化所：通过识别和翻译交互打造更优的语音翻译模型

AAAI 2020 |清华大学：用于少次关系学习的神经网络雪球机制

直播预告 | 明晚七点，相约阿里巴巴ACL 2021分享会（一）

ICCV 2021 DeeperAction挑战赛

真正实现类人智能！美国工程院院士Jeff Hawkins：创造机器智能之路

Call for Papers丨KDD 2021 预训练研讨会，唐杰教授领衔

618如何避免剁手"X.O"洋酒？这个打假AI说：不怕，我1秒能识别20个！

亚马逊首席科学家李沐：五年总结

强迫投稿者引用自己论文，IEEE高级会员被终身“禁赛”，网友：这事在国内很常见......

这5个数学猜想最早在30年前提出，如今AI证明它们都错了

华人首次！清华姚班助理教授张焕晨获得SIGMOD Jim Gray博士论文奖！

PapersWithCode和arXiv再次合作！可一键显示论文使用的数据集

香港、澳洲三所高校 AI 博士生招生！还有研究助理和实习生等你加入......

ICML刚刚放榜！接收率仅21%为近五年最低，感谢审稿人不“杀”之恩

李飞飞高徒Andrej Karpathy用AI撰写内心独白：我的“进化”之路

直播预告 | 视听感知学习鲁棒性初探

香港、美国、新加坡三所高校新一轮 AI 博士生招生！快来一起发顶会论文

2021年Facebook博士生奖研金名单公布！一半获奖者是华人博士生

摩根大通公布2021年AI研究博士生奖学金名单！获奖华人博士生占1/3

预告 | 商汤学术公开课-AI画质专题课程来袭！

网吹钱伟长写论文“不必参考任何文献”，但这的确不符合学术规范

重磅！Science &上海交大发布最新“全世界最前沿的125个科学问题”！

图灵奖得主Jeffrey Ullman ：我是如何入坑计算机科学的？

学NLP的人跑去CV顶会投稿，中了顶会一作，还是一位本科生？

德扑AI大神、AAAI学术新星 Noam Brown：不完美信息多智能体场景下的AI研究

“倒计时1天”香港AI顶会报名开启！杨强、谭铁牛等6位院士18位专家，联袂报告