前言:人工智能在各个领域似乎(hū)被吹捧(pěng)为在各(gè)种应用领域实现自动化决策的“圣杯”,被认(rèn)为可以做得比人(rén)类更好或更快,但(dàn)事实上人工智能面(miàn)临了一个(gè)大挑战就是算法(fǎ)偏见(jiàn)。
portant;" />
人(rén)工(gōng)智能是否全能
机器是没(méi)有情感的,只(zhī)能根据(jù)输入的数据来进行学习,然后(hòu)按照既(jì)定设计完成相应功能,AI需要大量数据来运(yùn)作,但通常没有合适(shì)的数据基(jī)础设施(shī)来支持AI学习(xí),最终AI的数据(jù)基础不够,无法真正有效地完成功能(néng),更多的是从事一(yī)些指(zhǐ)令(lìng)性的工(gōng)作,就像生(shēng)产线上的机器手一样,都是提前输(shū)入指令,由机器手臂按照固定的步骤操作完(wán)成。
人类对大脑还是未知的,我们并不(bú)清楚大脑是如何进行学习和(hé)工(gōng)作的,AI其实就是模仿人脑去思考和工作,但我们对(duì)大脑的机(jī)理并不清楚,就(jiù)无法(fǎ)让AI完(wán)全模(mó)拟人脑(nǎo),无(wú)法完全(quán)代替人脑去学习和工作,AI更多(duō)时候是根据输入的(de)数据,将见到的问题录入与已输(shū)入(rù)的数据进行(háng)对比,有重(chóng)叠度比较高的就认为匹配成功,执(zhí)行相应的预设动作,当已有(yǒu)的样本库里没有匹配(pèi)到,那AI也不(bú)知道该(gāi)怎么办。在很多人(rén)类活动中,掺杂着很多复(fù)杂的社会问题,比如说种(zhǒng)族歧(qí)视、国家竞争、疾病传染等问(wèn)题,AI显然还意识不(bú)到(dào)这些问题的存(cún)在,这(zhè)些(xiē)数据不好采集和录入,AI算(suàn)法也没有考虑这些(xiē)社(shè)会因素。
portant;" />
算(suàn)法的偏见来自哪里
工(gōng)程师很少刻意将偏(piān)见教给算法(fǎ),那偏见究(jiū)竟从何(hé)而来,这个问题与人工(gōng)智能背后的(de)核心技(jì)术(shù)—机器(qì)学习(xí)休戚(qī)相关(guān)。机器学习过程可(kě)化约为(wéi)如下步(bù)骤,而为算法注入(rù)偏见(jiàn)的主要有三个环节—数据(jù)集构建、目标(biāo)制定与(yǔ)特征选取(工程师)、数据标注(标(biāo)注(zhù)者)。
portant;" />
工程师(shī)是规(guī)则制定者,算法工程师从头到尾参与了整个系统,包括(kuò):机器学习的目标设定、采用哪(nǎ)种模(mó)型、选取什么(me)特征(数(shù)据(jù)标签)、数据的预处理等(děng)。不恰当的目(mù)标(biāo)设(shè)定,可能(néng)从(cóng)一开(kāi)始(shǐ)就引入了偏见,比(bǐ)如(rú)意(yì)图通过面相来识别罪(zuì)犯;不(bú)过,更(gèng)典型的个人偏见代入,出现在数(shù)据特征的选取环节。
数据标签就是一堆帮(bāng)助算法达成目标的判定因素。算(suàn)法就好像一只嗅探(tàn)犬,当(dāng)工程师(shī)向它(tā)展示特定东西的(de)气味(wèi)后,它才能(néng)够更加(jiā)精(jīng)准地找(zhǎo)到(dào)目(mù)标。因(yīn)此工程师会(huì)在数据集中设置(zhì)标签,来决定算法要学习该数据集内部的哪些内容、生成怎样的模型。
对于一些非结(jié)构(gòu)化的数(shù)据集如大量描(miáo)述性文字、图片、视频等,算法无法对(duì)其进行(háng)直接分析。这时就需要人工(gōng)为数据进(jìn)行标注(zhù),提炼出结构(gòu)化的维度(dù),用(yòng)于训练算法。举一个(gè)很简单的例子,有时Google Photos会请(qǐng)你帮(bāng)助判断一张图片是否是猫(māo),这时(shí)你就参与了这张图片(piàn)的打标环(huán)节。
当打标者(zhě)面(miàn)对的是“猫或狗”的提问时,最(zuì)坏结果不过(guò)是答错;但如果(guǒ)面对的是(shì)“美或丑”的拷(kǎo)问(wèn),偏见就产生了(le)。作为数据(jù)的(de)加工人(rén)员,打(dǎ)标者时常会被要求做一些主(zhǔ)观价值(zhí)判断,这又成为偏见(jiàn)的一大来源。
打(dǎ)标(biāo)过程正是将个人偏见(jiàn)转移到(dào)数据中,被算法(fǎ)吸纳,从而(ér)生成了(le)带(dài)有偏见的模型。现如(rú)今,人工(gōng)打标服务(wù)已成为一(yī)种典型(xíng)商业模式,许(xǔ)多科技公司都将(jiāng)其海量的数据外包进行打标。这意味着,算法(fǎ)偏见正(zhèng)通(tōng)过(guò)一(yī)种“隐形(xíng)化(huà)”、“合法化”的过程,被(bèi)流传和放(fàng)大。
portant;" />
人工智能偏见的分类
偏见(jiàn)不是以(yǐ)一种形式(shì)出现的,而是有(yǒu)各(gè)种(zhǒng)类(lèi)型的。这(zhè)包括交(jiāo)互偏见、潜(qián)意识(shí)偏见、选择偏见、数据驱(qū)动(dòng)的偏见和确认偏见。
交互偏见:是指用户由(yóu)于自(zì)己与(yǔ)算法的交互(hù)方式而使算法产生的偏见。当机器被设置(zhì)向(xiàng)周围(wéi)环境(jìng)学(xué)习(xí)时(shí),它(tā)们不能决定要保(bǎo)留或(huò)者丢弃哪些数据,什么是对的(de),什么是错的。相反,它们只能使用提供给它们的数据——不论是好的、坏的,还是(shì)丑的,并在此(cǐ)基础上(shàng)做出决策。机器人Tay便是这类偏见的一个例子(zǐ),它是受(shòu)到一个(gè)网络聊(liáo)天社(shè)区的影响而变得偏(piān)种族主义。
潜意(yì)识(shí)偏见:是指算法错误地把观念与(yǔ)种族和性(xìng)别等因素(sù)联系起来。例如(rú),当搜索一名医生的图像(xiàng)时,人工智能会把男性医生的图像(xiàng)呈现给一名女性,或者(zhě)在搜索护(hù)士时反过来操作(zuò)。
选择偏见:是(shì)指用于训练算法的数据被倾向性地用于表示一个群体或者分组,从(cóng)而使该算法对这(zhè)些群体(tǐ)有利,而代价是牺牲其他群体。以招聘为例,如(rú)果(guǒ)人工智能(néng)被训练成只识别男性(xìng)的简历,那么(me)女性求职者在申请过程中就(jiù)很(hěn)难成功。
数据驱动的偏见:是(shì)指用来训练(liàn)算法的原始(shǐ)数据已经存在偏见(jiàn)了。机器就像(xiàng)孩子一样:他们不(bú)会质疑所给出(chū)的(de)数(shù)据,而(ér)只是寻找(zhǎo)其中的模式。如果数据在一开(kāi)始就被曲解,那么其输出的结果也将反映出(chū)这(zhè)一(yī)点。
确认偏(piān)见:这类(lèi)似于数据驱动(dòng)的偏见(jiàn),偏向于那些先入为主的信息。它影响人(rén)们怎(zěn)样收集信息,以及(jí)人们(men)怎样解读信(xìn)息。例如,如(rú)果(guǒ)自己觉得8月份出生的人比其他时候出(chū)生的更富有(yǒu)创(chuàng)造(zào)性,那就会偏向于寻找强化这种想法的数据。
portant;" />
Applause推出偏见解决方案
应(yīng)用测试公司Applause推出了(le)新的(de)人(rén)工智(zhì)能解(jiě)决方案,同时提(tí)供(gòng)AI训(xùn)练所需的庞大(dà)数(shù)据。
Applause已经为其应用程序(xù)测试解决方案建立(lì)了(le)庞(páng)大的(de)全球测试社(shè)区,该(gāi)解决方案受到(dào)谷歌、Uber、PayPal等(děng)品牌的信(xìn)任。
具体(tǐ)地说,Applause的新(xīn)解决方案跨越五种独特的AI活(huó)动类型:
①语音(yīn):源发声以训练支持语(yǔ)音(yīn)的设(shè)备,并对这些设备(bèi)进行测试(shì),以确保(bǎo)它们能够准确地理解和响应;
②OCR:提供(gòng)文档和(hé)对应(yīng)的文(wén)本来训练识别(bié)文本的算法(fǎ),并比较打(dǎ)印文(wén)档和(hé)识别文本(běn)的准确性;
③图(tú)像识(shí)别:交付预定(dìng)义对象(xiàng)和位(wèi)置的(de)照(zhào)片(piàn),并确保(bǎo)正确识别(bié)图片和识别对(duì)象;
④生物识别(bié):获取(qǔ)生物特征输入,如人(rén)脸和指纹,并测试(shì)这些输入是否会产(chǎn)生(shēng)易于使用且实际有效的体验;
⑤聊(liáo)天机器人:给出样本(běn)问(wèn)题和不同的意图(tú)让(ràng)聊天机器人回答,并(bìng)与聊天机器人互(hù)动,以确保它们能像(xiàng)人类那样准确(què)地理(lǐ)解和响应。
portant;" />
结尾:
但回过头来,技术不过是社会与人心的一面(miàn)镜子(zǐ)。某种程度上,算法偏见就像在这个(gè)我们认(rèn)为进步、美好(hǎo)的当下,重新呈(chéng)递灰暗(àn)角落的真相并敲响警钟。因此(cǐ),当谈及算法偏见的应对时,一部分努力便是要(yào)回归于人。可幸的(de)是,即便是(shì)技术层面的自律与治理尝试,也能极(jí)大地(dì)降低偏见程度、避免偏(piān)见大幅(fú)扩张。