开云

继国际象棋、围棋（qí）、游戏等领域之后，人工智能首次（cì）在（zài）深度阅读理解超越人类（lèi）。

2019年3月（yuè）8日，中国人工（gōng）智能“国家队”云从科技（jì）和上海交通大学联合宣布，在自（zì）然语言（yán）处理（NLP Neuro-Linguistic Programming）上取得（dé）重大突破，在大（dà）型深层阅（yuè）读理解任（rèn）务（wù）数据集RACE数据集（ReAding Comprehension dataset collected from English Examinations）登（dēng）顶第一（yī），并成为世界首个超过人类排名的（de）模（mó）型。

机器阅读理解首（shǒu）次（cì）超越人类！云从科技创自（zì）然语言处理新纪录 portant;" width="800" height="485" align="" />

有（yǒu）评论认为（wéi），这会是机器深（shēn）层理解人类语（yǔ）言（yán）的开端（duān）。

论（lùn）文（wén）中，云（yún）从科技与上海交（jiāo）通（tōng）大学（xué）基于原（yuán）创DCMN算法，提出（chū）了一种全（quán）新（xīn）的模型，使机器（qì）阅读理解正确率提高了4.2个百（bǎi）分点，并在高（gāo）中测试题部（bù）分首次超越人（rén）类（机器正确率69.8%、普（pǔ）通人类69.4%）。

这一研究成果，在应（yīng）用领域搭配文字识别OCR/语音（yīn）识别技术后，NLP将会帮助（zhù）机（jī）器（qì）更好地理解人类文字（zì）/语言，并广泛应用于（yú）服务领域：帮助企（qǐ）业判断客户风险、审计内部文（wén）档合规、从语义层面查找（zhǎo）相关信息；在社交软件、推荐引擎软件内辅助文字（zì）审阅工作（zuò），从枯燥的人（rén）工文字（zì）工作中解放（fàng）人类。

突破语义理解（jiě）瓶颈

此次云从科技和上海交通大学在自然语言处理（NLP）领（lǐng）域的深度阅读（dú）理解上登顶（dǐng）RACE排行（háng）榜第一（yī）名。RACE是一个来源于中学考试题目的大规（guī）模阅读理解数据集，包含（hán）了大约28000个文（wén）章以及（jí）近100000个（gè）问题（tí）。它的形式类似于英（yīng）语考试中的阅读理解（选（xuǎn）择题），给定一篇文（wén）章，通（tōng）过阅（yuè）读并（bìng）理解文（wén）章（Passage），针对提（tí）出的问题（Question）从四（sì）个选项中选择正（zhèng）确的（de）答案（Answers）。该题型（xíng）的正确答（dá）案并不一（yī）定（dìng）直接体现在文章中（zhōng），只（zhī）能从语（yǔ）义层面深入理解（jiě）文章，通过分（fèn）析文章中线索并（bìng）基于（yú）上下文（wén）推理，选出正确答案。相（xiàng）对以往的抽取类阅读理解，算法要求更高，被认为（wéi）是“深度阅读理解”。

机器（qì）阅读理解首次超越人类（lèi）！云（yún）从科技创自然语言（yán）处理（lǐ）新（xīn）纪录 portant;" />

RACE数（shù）据集的难点在于：由于正（zhèng）确（què）答案并没有直接使用文章中的话术来回答（dá），不（bú）能直接从文（wén）中检索（suǒ）得到答案（àn）。必须从（cóng）语（yǔ）义层面深入理（lǐ）解（jiě）文章，才能（néng）准（zhǔn）确回答问题。

解决方案（àn）

怎么让（ràng）机器在庞大的题库文章中（28000个）找到正确的（de）答（dá）案？

云从（cóng）科技与上海交通大学首创了（le）一种P、Q、与A之（zhī）间的匹配机（jī）制，称为Dual Co-Matching Network（简称（chēng）DCMN），并基于这种（zhǒng）机制探索性的研究了P、Q、与（yǔ）A的各种组合下的（de）匹配（pèi）策略。

结果显示，采用PQ_A的匹配策略，即（jí）先（xiān）将P与Q连接，然（rán）后（hòu）与（yǔ）A匹配（pèi），策略都得（dé）到了（le）更（gèng）优的结果。

再将模型（基（jī）于PQ_A策略）与其（qí）他已知的模型、以及纯粹基于（yú）BERT自身（shēn）的模型进行（háng）了比较，得到如下（xià）的结果：

从RACE leaderboard上结果比较可以得到以（yǐ）下结论：

机器阅读理（lǐ）解首次超越（yuè）人类！云（yún）从（cóng）科技创自然语（yǔ）言处理新纪录 portant;" width="800" height="359" align="" />

·云（yún）从科技与上海交大（dà）的单（dān）体模（mó）型就已经（jīng）超越榜单上所有的单体或（huò）Ensemble模型；

·云从（cóng）科技（jì）与（yǔ）上海交大的（de）Ensemble模型在高中题目（RACE-H）部分优于人类结（jié）果（guǒ）（Turkers）。

论文缘起

这篇论文的作者，来自中国人工智能“国（guó）家队（duì）”云从科技与上海交通（tōng）大学。

云从科技孵（fū）化于中（zhōng）国（guó）科学院，2017年（nián）3月，承担（dān）国（guó）家“人工智能”基础项目——“人（rén）工智能基础资源公共服务平台（tái）”建设（shè）任务。

2018年（nián）10月的国家“人（rén）工（gōng）智（zhì）能基础资源与（yǔ）公共服务平台”发（fā）布会上（shàng），云（yún）从科技创始人周曦提出（chū）了人工智能发展（zhǎn）五（wǔ）个阶段，核心技术（shù）闭环是五（wǔ）个阶段的重要（yào）基础。

机器阅读（dú）理解首（shǒu）次超越人类！云从科技（jì）创自然语言处理新纪录 portant;" />

从感知（zhī）到认知决策（cè）的一系列技术组成了核心技术闭环：

1-感知（zhī）技术（shù）：人脸识别、语音（yīn）识别、文字识别OCR、体（tǐ）态识别、跨（kuà）镜追踪（zōng）（ReID）、车辆识别等

2-认知决策：自然语言处理（NLP）、脑科学（xué）、大数据分（fèn）析（风控、精准营销）等

目前，云从科技承（chéng）担了（le）国家（jiā）发改委与工信部的人工智（zhì）能基础平台、人工智能应用（yòng）平台和人工智能（néng）的（de）核心芯片平（píng）台项目，包含智能（néng）感知技（jì）术和认知决策技术为核心的（de）技术闭环，并刷新多项世界纪录，保持自主核心技术国际领先。

机器阅（yuè）读理（lǐ）解首次超越（yuè）人类！云从科技创自然语（yǔ）言处理新纪录（lù） portant;" width="800" height="481" align="" />

在这个基础上，云从（cóng）科（kē）技正在致力整合算力、智力（lì）、数据等资源及（jí）其成果，打造人工（gōng）智能开（kāi）放平台与生态，进一步促进（jìn）人工智能（néng）在金融、安防、交通、零（líng）售、商业等重要（yào）行业的落地与深度融合。

附：论文解读

1.DCMN匹配机制

以P与（yǔ）Q之间的匹（pǐ）配为（wéi）例，说明DCMN的匹配机（jī）制。下（xià）图为P与Q之间（jiān）的DCMN匹配框架。

机器阅读理解首次超越人类！云从科技创自然语言（yán）处理新纪（jì）录（lù） portant;" />

云从（cóng）科技（jì）和上海交大使用目前NLP最新的研究成果BERT分别为（wéi）P和Q中（zhōng）的每一个Token进行（háng）编码（mǎ）。基于BERT的编码，可以得到的编码是一个（gè）包（bāo）含（hán）了P和Q中各自上下文（wén）信息的编码，而不（bú）是一个固定的（de）静态编码，如上（shàng）图中（zhōng）Hp与Hq；

其次，通过Attention的方式，实（shí）现P和Q的匹配。具体来讲，是（shì）构建P中的每一个Token在Q中的Attendances，即（jí）Question-Aware的Passage，如上（shàng）图中（zhōng）Mp。这样得到的（de）每一个（gè）P的Token编码，包含了与（yǔ）Question的（de）匹配信（xìn）息；

为了充分利用BERT带来的上下文信（xìn）息，以及（jí）P与Q匹配后的信息，将P中每个Token的BERT编码Hp，与P中每个Token与Q匹配后的（de）编码Mp进行融合，对Hp和Mp进行了（le）元素减法及（jí）乘法操（cāo）作，通（tōng）过一个激（jī）活函（hán）数，得到了P与（yǔ）Q的最（zuì）终融（róng）合表示，图中表示为（wéi）Spq；

最后通过maxpooling操作得（dé）到（dào）Cpq，l维向量，用于最后的loss计算。

2.各种匹配策略研究

除了P与A之（zhī）间的匹配之外，还可以（yǐ）有Q与A、P与Q之间（jiān）的匹配，以及不（bú）同匹配（pèi）得到的（de）匹配向量间的组合（hé），这些不同（tóng）的匹配与组合（hé）构成了不同的匹配策略。对七种不同的匹配策略分别进行（háng）了试验，以找（zhǎo）到更加（jiā）合适的（de）匹配策略，分别是：

[P_Q； P_A； Q_A]， [P_Q； P_A]， [P_Q； Q_A]， [P_A； Q_A]， [PQ_A]， [P_QA]， [PA_Q]

“PA”表示先将P和A连接（jiē）为一个序（xù）列，再参（cān）与匹配，“PQ”与“QA”同理。符号“[ ； ]”表示将多种匹（pǐ）配的结果（guǒ）组合在（zài）一起。[P_Q； P_A； Q_A]模式下的模型架构（gòu）如下图：

机器阅读理解首次超越人类！云从科技创自（zì）然语言（yán）处理新纪录 portant;" />