阿里巴巴副总裁司罗:达摩院如何搭建NLP技术体系?

2020-07-05   AI科技大本营

原标题:阿里巴巴副总裁司罗:达摩院如何搭建NLP技术体系?

出品 | AI科技大本营(ID:rgznai100)

司罗把人工智能分为四个层面。在计算智能层面,近年来取得了一定成就,而在更高层面的感知、认知和创造智能上还在探索中。

感知智能是指找出自然界的实体,比如找到新闻、故事中的人名、机构名、地址等相关信息。认知智能是在这些实体间找到相应关系,并进行有效推理,比如在海量新闻、故事之中,找到某个事件发生、发展、高潮和结束的整个过程。而创造智能是更高的层面,比如是否可以由计算机做出内容自洽的长篇小说等相关内容。

他认为,要实现完整的人工智能,离不开自然语言处理技术完成相应的语义理解能力。

作为“人工智能皇冠上的明珠”,自然语言智能要实现的是人与计算机之间用语言进行有效通讯。它融合了计算机学、数学、统计学、心理学、语言学等学科于一体,涉及自然语言的分析、抽取、理解、转化和生成等多个课题。

7月3日上午,在CSDN举办的第三届“AI开发者大会(AI Procon)”主会上,作为阿里巴巴副总裁、达摩院语言实验室首席科学家、ACM杰出科学家,司罗在题为《为商业搭建语言桥梁》的演讲中,介绍了NLP的技术发展及阿里在该领域的落地实践。

他总结了NLP技术近年的飞速发展有三大趋势: 第一,深度语言模型的发展,引领很多自然语言技术和应用都取得了非常快的进步;第二,越来越多的传统公有云服务技术从通用功能走向更多定制化服务,提供更精准、准确的服务;第三,自然语言商业化的途径,一定是与行业和场景紧密结合,只有这样,才能更大发挥自然语言技术的商业价值。

以下是司罗在大会上的演讲内容,AI科技大本营(ID:rgznai100)编辑:

阿里巴巴是一家技术驱动的公司。我们非常深刻的认识到,人工智能、机器智能、自然语言智能的重要性,所以我们大约三年前成立了达摩院语言实验室。首要的目标是构建阿里巴巴自然语言技术体系,能够支撑阿里经济体内部关于自然语言的技术和相关的应用。其次,我们的技术是开放的,希望能够开放出我们的技术赋能阿里巴巴的合作者,发展普惠的自然语言技术。第三,我们希望能够创新自然语言技术,和学术界、工业界的朋友们一起能够探索未来智能。

达摩院语言实验室成立三年来,进行了大量技术的深入研发,也参加了一些技术评测,在很多评测之中取得了比较好的结果。

比如在2016年,ACM CIKM Cup个性化电商搜索的第一名,2017年年初美国标准计量局信息抽取英文实体分类比赛第一名,2018年,在著名的SQuAD机器阅读理解中,首次在精确阅读方面超越了人类的结果。2018年,机器翻译评测(WMT)取得了5个语向自动评测的第一名,以及最近在深度语言模型方面取得的好成绩。

NLP技术平台

我们的NLP技术是通过很多的平台来更加规模化的支持相关业务,这里介绍几个相关技术平台。

首先是阿里自然语言技术平台,这个平台从底层的自然语言数据,包括分词词性数据,实体语料库、新闻语聊库、情感语聊库等,收集了大量自然语言相关的数据。

我们打造的NLP技术平台,在阿里内部有了比较大的影响力,现在每天有超过1000个业务方使用,每天的调用量有几千亿上万亿次。

我们的核心机器翻译技术,包括传统的统计翻译技术,也包括最近两年比较时兴的神经网络机器翻译技术,同时我们也有自己的核心技术特点,在一些方面有我们创新性的工作,比如说如何把词典翻译原来的沉淀下的人工语料融合起来,与数据驱动的机器翻译模型相结合。

那么我们所做的知识驱动的机器翻译,如干预机制等,能够大幅度的提升重点术语的翻译的准确性。同时在人机协同,通过机器翻译,大幅度提升员工翻译的效率以及多模态翻译等方面,做了很多一些创新性的工作。这些技术组成了我们解决方案,包括电商,比如说标题、详情、评论等相关翻译,也包括人机协同平台的翻译、多模态翻译等等,这些技术支撑了广阔的阿里经济体内部的国际化场景。目前,有几十个业务方每日的调用量有大约10亿次的调用量,创造了数亿美元的国际跨境贸易和其他国际业务的商业价值。

前面两个技术平台主要是用于阿里经济体内部的赋能,我们的技术是开放的,希望把我们的技术开放出去,让更多的合作者能够受惠。

当我们走向更加宽广的外部场景时,发现NLP的需求多而杂,场景化、业务化有高度定制的依赖,而且很多重要的业务,数据高度的隐私化,这缺少一些平台化支持这些非常多样化的、复杂的、有定制化需求的场景。

我们设计了NLP自学习平台,这是一个面向低龄算法基础用户设计的,包括数据标注、训练预测一体化的服务平台,现在也已经通过阿里云向外输出平台的能力,它有易用、快捷、专业、成本低的特点,也就是说只需要少量领域相关的数据,就可以得到比较高的准确率。

经过一段时间的积累,我们在一些重要的行业,比如说电商、通信、司法、金融等行业也积累了大量的行业数据和知识。这些数据和知识与我们提供的的NLP原子解决方案能力在一起,能够帮助我们的合作者创造大量的业务价值。

这张毕业证显示的是我们NLP学习平台提供的一些能力事例,包括原子能力,文本抽取、文本分类、短文本匹配,包括场景化里支持电商的商品评价分析、情感分析,也包括我们的垂直应用、智能合同管理等方面的工作。

NLP语言模型

前面提到的技术平台背后有很多自然语言相关的技术,其中一项非常核心的技术就是语言模型,语言模型用来描述自然语言的表示顺序、结构、意义生成的过程。传统的语言学方法是使用上下文相关文法等一些规则性的表述,来对语言进行建模。但这样的方法对于新语法、新语言、新词意义的变化,适应性比较差。那么所以目前比较流行的是数据驱动的方法,特别是最近几年深度学习相关的语言建模的方式,通过大量的语料和相关的应用任务,学习语言的表示和结构。

Bert是谷歌2018年所建立的深度语言模型,自2018年发布以来,带动了NLP方面进一步深度语言模型的建设,起到了比较大的影响力。

阿里巴巴达摩院也在预训练语言模型上做了很多的工作,其中Structbert模型是一项重要的基础工作,它充分利用词句之间的结构关系,来对语言进行建模,而且它可以把分类和生成两种不太相同的任务综合起来,利用不同的模型,对不同类型的任务进行适配,从而产生更好的效果。Structbert模型的论文发表在了今年ICLR的会议上。

从词、句这样的文本结构信息,也可以自然地扩展到图文结构信息,我们能够借用OCR输出的关于文本框和文本片段在一页之中的位置信息,来更好的分析不同文本段、文本框之间的关系。同时对于表格来讲,我们可以根据每一个槽位在表格中所处的位置,来进行更加细致的语义分析,加入这些图文结构之后,可以帮助我们更好的理解相关的文字信息的意义。相应的工作也广泛应用于海关、报关、银行单据、信息抽取等相关的场景。

深度语言模型在搜索、排序、机器阅读理解方面也有非常深刻的应用。比如说深度语言模型能够更加精确的匹配文本之间的相似度,所以应用到搜索排序过程中可以提高搜索的准确率。

自然语言技术应用于广阔的各行各业的场景,我个人认为需要有数据、知识、技术和场景不断的迭代优化。比如,在阿里经济体内部,我们要充分利用丰富的企业内部场景,同时通过阿里云和合作伙伴开拓广阔的外部的业务场景进行打磨,能够积累全面的多领域的数据和知识。

基于这些数据和知识,我们可以建立更加完善的、领先的基础和应用技术,从而更好的提供广阔的内外部场景的相应自然语言技术,这样形成迭代升级,不断进行正反馈,能够提升算法的效果,增加业务的价值。

NLP应用场景和解决方案

我简要介绍一下几个重要业务场景,以及所设计的自然语言相关的解决方案。

首先是电商翻译业务场景应用于跨境电商等等领域。我们提供的电商翻译场景的解决方案不是单点机器翻译的技术,其实是贯穿整个跨境电商的全流程。比如说在最开始网站信息的本地化,我们如何提供本地化的地道的语言来进行网站的建立。同时,我们需要从其他的搜索引擎和社交媒体,通过地道的引流的语言,能够对用户、消费者进行引流。

另一个翻译相关的平台性产品是钉钉翻译服务平台。我们都知道钉钉逐步变成企业服务、企业沟通的一个重要的平台。钉钉上很多的企业都有翻译和多元需求,我们希望能够提供一站式翻译的能力,来帮助这些企业解决翻译需求。

我们提供了一系列的工具产品,包括文档翻译、文本翻译、语音图像翻译、即时信息翻译等等。同时我们的平台服务不只有机器翻译的能力,也包括人机协同的能力,因为很多重要的信息最终还是需要专家来确认翻译的结果,我们提供完整的一站式的解决方案,希望能够为钉钉上的企业用户更好、更高效的解决翻译和多语言相关的需求。

地址信息管理系统是我们现在通过阿里云向外输出的一个新产品,目前正处在公测阶段。它的定位是基于地址知识库能够对多元、多模态,比如包括文本、语音相关的地址进行解析、搜索、匹配、标准化、编码等等多种能力。

智能司法是一个有着巨大社会价值的行业,我们所做的工作是希望和一起开放出算法能力,集成在他们的解决方案之中,能够更全面的赋能司法行业。

智能司法是一个有着巨大社会价值的行业,我们所做的工作是希望和一起开放出算法能力,集成在他们的解决方案之中,能够更全面的赋能司法行业。

随着司法建设的不断深入,其实是有越来越多的案件进入司法流程,但法官人数和法官时间是没有大的增长,所以需要我们全面提升整体司法的效能。我们提供的相应解决能力,贯穿了司法全流程。

智能合同是我们通过AI能力赋能行业的一个重要方向。我们都知道,合同是规范企业间商业交易的重要的手段,我们的工作是希望能合同管理的流程来提升管理和审查合同效率。

医疗是一个有着非常大社会价值和商业价值的行业,我们的NLP技术覆盖了医学文本结构化分析、医学信息抽取、数据归一,辅助诊断等方方面面的能力,通过这些能力和相应的ISV合作,用于医院和卫健委的很多医疗行业的流程性管理中。比如诊前诊中的辅助诊疗、诊后管理病例质检和DRGs保险相关的技术科研,也提供医疗翻译等等相关的能力,目前已经落地数10家医院、卫健委和疾控中心等等。今后我们会更加深入医疗NLP这些基础方面的工作,同时也希望和更多的SP合作,构建更大的产品、技术和业务的影响力。

阿里达摩院语言实验室的目标是构建自然语言技术体系,赋能合作者发展普惠的自然语言技术,同时也非常希望和学术界、工业界的朋友一起创新自然语言技术,探索未来智能。

别错过,AI 开发者大会演讲内容正在回放

2020年7月3—4日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)(大会官网 https://aiprocon.csdn.net/)以线上直播的形式与开发者相见。

本次大会历时2天,一次性设立6大主题、20大精彩分论坛。将为人工智能爱好者带来满满的技术干货:AI 入门与实践进阶、AI教育与人才培养、AI核心技术应用与落地、AI行业发展与趋势以及 AI 开源与生态建设、AI投资与创业,将前沿技术进行到底。