语音(yīn)交互是机(jī)器人用来表达的出口,大数(shù)据是(shì)机器(qì)人(rén)用来更(gèng)加准(zhǔn)确判(pàn)!
金融行业是大数据与人工(gōng)智能落地最具潜力的行业之(zhī)一。金融行业(yè)是数(shù)据密集型行(háng)业,金融数据具有更(gèng)高(gāo)的实(shí)时性、安全性和稳定性(xìng)的要求,结(jié)构化数(shù)据(jù)占比高,应用场景广泛。但与此同(tóng)时,金融行业还有赖于(yú)利用(yòng)第三方数据来为(wéi)客户提供更好的服务,自身(shēn)业务特点也对金融数据的数据安(ān)全和(hé)个人隐(yǐn)私保护带来了极(jí)大的(de)困难,数(shù)据孤(gū)岛现象严重,这(zhè)也(yě)是为何(hé)联邦学习首先(xiān)在微众(zhòng)银(yín)行这样的创新金融企业落(luò)地和开花(huā)结果的原(yuán)因。
随着(zhe)深度学习神经(jīng)网络的提出、算法改(gǎi)善和(hé)算力的(de)提升、以及大数据的广泛(fàn)应用,人工智能迎来了一波新的(de)高峰(fēng)。2016 年(nián)的(de)「人机大战」AlphaGo 战胜围棋世(shì)界冠军李世石,不仅展示了(le)以大数据驱动(dòng)的(de)人(rén)工智能(néng)的巨大潜力,也让人们(men)更加期(qī)待一个人工智能在(zài)各行(háng)各业中得以实现的新时代的到来。
然而(ér)理想(xiǎng)很(hěn)丰(fēng)满,现实很骨感——在实(shí)际应用中,大多数应用(yòng)领域均存在数据有限且质量较差的问(wèn)题,在某些专业性很强(qiáng)的细(xì)分领域(如医(yī)疗(liáo)诊断)更是难以获得足以支撑人工智能技(jì)术实现的标注(zhù)数(shù)据。同时在不同数据源之(zhī)间存在难(nán)以打破的壁(bì)垒,「大数据」往往只是越来越多的「数据孤岛」的(de)总(zǒng)称。
语言建模成功是有原因(yīn)的!它是一项非常困难的工作(zuò),为了有机(jī)会解决(jué)这(zhè)个难(nán)题,模(mó)型需(xū)要学习语法,语义以及(jí)某些世界(jiè)常识(shí)。给定足够的数据,大量参(cān)数和足够的计(jì)算(suàn)能力,模型就可以有(yǒu)不错(cuò)的学习成果。根据过往的(de)实验来看,语(yǔ)言(yán)建模比翻译或(huò)自动编码等其它预训练工作更(gèng)有效。
最(zuì)近对人类语言(yán)的预测率失(shī)真 (PRD) 的分析 (Hahn and Futrell, 2019) 研究表明,人(rén)类语(yǔ)言和语言建模都具有无穷高的统(tǒng)计复杂性,但语言建(jiàn)模可以在较低层(céng)次(cì)上模仿逼近人类语言。这一(yī)观察结(jié)果有两(liǎng)个启示:1)我们可以用相对较小的(de)模型以获(huò)得较为精准(zhǔn)的结果(guǒ);2)我们的模型有很大的拓展潜力。对于这两种启示,我们都有充足证(zhèng)据,我们可以在下一节中看到(dào)。
简单的做法(fǎ)可以(yǐ)是(shì)在预训练的模型之上添加一个或多个线性层,通常(cháng)是在 Bert 基础上(shàng)增加(jiā)。或者我们(men)也可以(yǐ)使用模型输出作为另一(yī)个模型的输入。当(dāng)目标任务(wù)需要预(yù)训练的嵌入有一些交互作用但目前(qián)的(de)预(yù)训练(liàn)模型执行不了时,这通常是有帮(bāng)助的(de),例(lì)如(rú)以(yǐ) BERT 为预训练模(mó)型但需要词汇表(biǎo)征或建立(lì)跨句子关系模型。
我们希望这样做的原因之一(yī)可能是为了适(shì)应结构不同的设定目标(biāo),例如一个具有多个输入序列的任务。在这种情况下,我(wǒ)们可以使用预训练的模型尽可能初(chū)始化结构不同的设定模型。我们还可以应用于特定(dìng)项目的修改,例如添加、跳过或(huò)连接或警示(shì)。最后,修改目标任务的参数可以(yǐ)通(tōng)过(guò)在预训练的模(mó)型层之间(jiān)添加瓶颈模块 (适(shì)配器)来减少需要精细(xì)调整的参数(shù)数量。
同时随着(zhe)大数据的(de)发(fā)展,重视数据隐私和安全已经成为一种世界性的趋势(shì),而欧盟「数据隐私保护条(tiáo)例」(General Data Protection RegulaTIon,GDPR)等一系列条例的出台更是(shì)加剧了数(shù)据获取的难度(dù),这也给人工(gōng)智(zhì)能的落地应(yīng)用带来了前所未有(yǒu)的挑战。