开云

    咨(zī)询热线:021-80392549

    开云 QQ在(zài)线 开云 企业微信(xìn)
    开云
    开云 资讯 > 人工智能 > 正文(wén)

    机器阅读理解首次超越(yuè)人类!云从科技(jì)创自然(rán)语言(yán)处(chù)理新(xīn)纪录

    2019/03/12机器人383

    继国际象棋、围棋(qí)、游戏等领域之后,人工智能首次(cì)在(zài)深度阅读理解超越人类(lèi)。

    2019年3月(yuè)8日,中国人工(gōng)智能“国家队”云从科技(jì)和上海交通大学联合宣布,在自(zì)然语言(yán)处理(NLP Neuro-Linguistic Programming)上取得(dé)重大突破,在大(dà)型深层阅(yuè)读理解任(rèn)务(wù)数据集RACE数据集(ReAding Comprehension dataset collected from English Examinations)登(dēng)顶第一(yī),并成为世界首个超过人类排名的(de)模(mó)型。

    机器阅读理解首(shǒu)次(cì)超越人类!云从科技创自(zì)然语言处理新纪录portant;" width="800" height="485" align="" />

    有(yǒu)评论认为(wéi),这会是机器深(shēn)层理解人类语(yǔ)言(yán)的开端(duān)。

    论(lùn)文(wén)中,云(yún)从科技与上海交(jiāo)通(tōng)大学(xué)基于原(yuán)创DCMN算法,提出(chū)了一种全(quán)新(xīn)的模型,使机器(qì)阅读理解正确率提高了4.2个百(bǎi)分点,并在高(gāo)中测试题部(bù)分首次超越人(rén)类(机器正确率69.8%、普(pǔ)通人类69.4%)。

    这一研究成果,在应(yīng)用领域搭配文字识别OCR/语音(yīn)识别技术后,NLP将会帮助(zhù)机(jī)器(qì)更好地理解人类文字(zì)/语言,并广泛应用于(yú)服务领域:帮助企(qǐ)业判断客户风险、审计内部文(wén)档合规、从语义层面查找(zhǎo)相关信息;在社交软件、推荐引擎软件内辅助文字(zì)审阅工作(zuò),从枯燥的人(rén)工文字(zì)工作中解放(fàng)人类。

    突破语义理解(jiě)瓶颈

    此次云从科技和上海交通大学在自然语言处理(NLP)领(lǐng)域的深度阅读(dú)理解上登顶(dǐng)RACE排行(háng)榜第一(yī)名。RACE是一个来源于中学考试题目的大规(guī)模阅读理解数据集,包含(hán)了大约28000个文(wén)章以及(jí)近100000个(gè)问题(tí)。它的形式类似于英(yīng)语考试中的阅读理解(选(xuǎn)择题),给定一篇文(wén)章,通(tōng)过阅(yuè)读并(bìng)理解文(wén)章(Passage),针对提(tí)出的问题(Question)从四(sì)个选项中选择正(zhèng)确的(de)答案(Answers)。该题型(xíng)的正确答(dá)案并不一(yī)定(dìng)直接体现在文章中(zhōng),只(zhī)能从语(yǔ)义层面深入理解(jiě)文章,通过分(fèn)析文章中线索并(bìng)基于(yú)上下文(wén)推理,选出正确答案。相(xiàng)对以往的抽取类阅读理解,算法要求更高,被认为(wéi)是“深度阅读理解”。

    机器(qì)阅读理解首次超越人类(lèi)!云(yún)从科技创自然语言(yán)处理(lǐ)新(xīn)纪录portant;" />

    RACE数(shù)据集的难点在于:由于正(zhèng)确(què)答案并没有直接使用文章中的话术来回答(dá),不(bú)能直接从文(wén)中检索(suǒ)得到答案(àn)。必须从(cóng)语(yǔ)义层面深入理(lǐ)解(jiě)文章,才能(néng)准(zhǔn)确回答问题。

    解决方案(àn)

    怎么让(ràng)机器在庞大的题库文章中(28000个)找到正确的(de)答(dá)案?

    云从(cóng)科技与上海交通大学首创了(le)一种P、Q、与A之(zhī)间的匹配机(jī)制,称为Dual Co-Matching Network(简称(chēng)DCMN),并基于这种(zhǒng)机制探索性的研究了P、Q、与(yǔ)A的各种组合下的(de)匹配(pèi)策略。

    结果显示,采用PQ_A的匹配策略,即(jí)先(xiān)将P与Q连接,然(rán)后(hòu)与(yǔ)A匹配(pèi),策略都得(dé)到了(le)更(gèng)优的结果。

    再将模型(基(jī)于PQ_A策略)与其(qí)他已知的模型、以及纯粹基于(yú)BERT自身(shēn)的模型进行(háng)了比较,得到如下(xià)的结果:

    从RACE leaderboard上结果比较可以得到以(yǐ)下结论:

    机器阅读理(lǐ)解首次超越(yuè)人类!云(yún)从(cóng)科技创自然语(yǔ)言处理新纪录portant;" width="800" height="359" align="" />

    ·云(yún)从科技与上海交大(dà)的单(dān)体模(mó)型就已经(jīng)超越榜单上所有的单体或(huò)Ensemble模型;

    ·云从(cóng)科技(jì)与(yǔ)上海交大的(de)Ensemble模型在高中题目(RACE-H)部分优于人类结(jié)果(guǒ)(Turkers)。

    论文缘起

    这篇论文的作者,来自中国人工智能“国(guó)家队(duì)”云从科技与上海交通(tōng)大学。

    云从科技孵(fū)化于中(zhōng)国(guó)科学院,2017年(nián)3月,承担(dān)国(guó)家“人工智能”基础项目——“人(rén)工智能基础资源公共服务平台(tái)”建设(shè)任务。

    2018年(nián)10月的国家“人(rén)工(gōng)智(zhì)能基础资源与(yǔ)公共服务平台”发(fā)布会上(shàng),云(yún)从科技创始人周曦提出(chū)了人工智能发展(zhǎn)五(wǔ)个阶段,核心技术(shù)闭环是五(wǔ)个阶段的重要(yào)基础。

    机器阅读(dú)理解首(shǒu)次超越人类!云从科技(jì)创自然语言处理新纪录portant;" />

    从感知(zhī)到认知决策(cè)的一系列技术组成了核心技术闭环:

    1-感知(zhī)技术(shù):人脸识别、语音(yīn)识别、文字识别OCR、体(tǐ)态识别、跨(kuà)镜追踪(zōng)(ReID)、车辆识别等

    2-认知决策:自然语言处理(NLP)、脑科学(xué)、大数据分(fèn)析(风控、精准营销)等

    目前,云从科技承(chéng)担了(le)国家(jiā)发改委与工信部的人工智(zhì)能基础平台、人工智能应用(yòng)平台和人工智能(néng)的(de)核心芯片平(píng)台项目,包含智能(néng)感知技(jì)术和认知决策技术为核心的(de)技术闭环,并刷新多项世界纪录,保持自主核心技术国际领先。

    机器阅(yuè)读理(lǐ)解首次超越(yuè)人类!云从科技创自然语(yǔ)言处理新纪录(lù)portant;" width="800" height="481" align="" />

    在这个基础上,云从(cóng)科(kē)技正在致力整合算力、智力(lì)、数据等资源及(jí)其成果,打造人工(gōng)智能开(kāi)放平台与生态,进一步促进(jìn)人工智能(néng)在金融、安防、交通、零(líng)售、商业等重要(yào)行业的落地与深度融合。

    附:论文解读

    1.DCMN匹配机制

    以P与(yǔ)Q之间的匹(pǐ)配为(wéi)例,说明DCMN的匹配机(jī)制。下(xià)图为P与Q之间(jiān)的DCMN匹配框架。

    机器阅读理解首次超越人类!云从科技创自然语言(yán)处理新纪(jì)录(lù)portant;" />

    云从(cóng)科技(jì)和上海交大使用目前NLP最新的研究成果BERT分别为(wéi)P和Q中(zhōng)的每一个Token进行(háng)编码(mǎ)。基于BERT的编码,可以得到的编码是一个(gè)包(bāo)含(hán)了P和Q中各自上下文(wén)信息的编码,而不(bú)是一个固定的(de)静态编码,如上(shàng)图中(zhōng)Hp与Hq;

    其次,通过Attention的方式,实(shí)现P和Q的匹配。具体来讲,是(shì)构建P中的每一个Token在Q中的Attendances,即(jí)Question-Aware的Passage,如上(shàng)图中(zhōng)Mp。这样得到的(de)每一个(gè)P的Token编码,包含了与(yǔ)Question的(de)匹配信(xìn)息;

    为了充分利用BERT带来的上下文信(xìn)息,以及(jí)P与Q匹配后的信息,将P中每个Token的BERT编码Hp,与P中每个Token与Q匹配后的(de)编码Mp进行融合, 对Hp和Mp进行了(le)元素减法及(jí)乘法操(cāo)作,通(tōng)过一个激(jī)活函(hán)数,得到了P与(yǔ)Q的最(zuì)终融(róng)合表示,图中表示为(wéi)Spq;

    最后通过maxpooling操作得(dé)到(dào)Cpq,l维向量,用于最后的loss计算。

    2.各种匹配策略研究

    除了P与A之(zhī)间的匹配之外,还可以(yǐ)有Q与A、P与Q之间(jiān)的匹配,以及不(bú)同匹配(pèi)得到的(de)匹配向量间的组合(hé),这些不同(tóng)的匹配与组合(hé)构成了不同的匹配策略。对七种不同的匹配策略分别进行(háng)了试验,以找(zhǎo)到更加(jiā)合适的(de)匹配策略,分别是:

    [P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]

    “PA”表示先将P和A连接(jiē)为一个序(xù)列,再参(cān)与匹配,“PQ”与“QA”同理。符号“[ ; ]”表示将多种匹(pǐ)配的结果(guǒ)组合在(zài)一起。[P_Q; P_A; Q_A]模式下的模型架构(gòu)如下图:

    机器阅读理解首次超越人类!云从科技创自(zì)然语言(yán)处理新纪录portant;" />

    7种不同(tóng)策略通过试验,采用PQ_A的匹配(pèi)策略,即(jí)先(xiān)将P与Q连接,然后(hòu)与A匹配,无(wú)论是(shì)在初中题目(RACE-M)、高中题目(RACE-H)还是整体(RACE),该策略都得到了更优的结果(guǒ)。

    关键词:




    AI人工智能网(wǎng)声明:

    凡资讯来源注明为其他媒体来源的信息(xī),均为转载自其他媒体,并不代(dài)表本网站赞同其(qí)观(guān)点,也不代(dài)表本网站对其真实(shí)性负(fù)责。您(nín)若对该文章内容有任何疑问或质疑,请立即与网(wǎng)站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联(lián)系,本网(wǎng)站将迅速给(gěi)您回应并做处理。


    联系电话:021-31666777   新闻、技术文章(zhāng)投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯(xùn)更(gèng)多

    相关资讯更多

    热门搜索

    工博(bó)士人工智能网
    开云
    扫描二维(wéi)码关注微信
    扫码反馈

    扫一扫(sǎo),反馈(kuì)当(dāng)前(qián)页面

    咨(zī)询反馈
    扫码关注

    微信公众号

    返回顶部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-16 21:12 来源:zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com