人工(gōng)智能让手机语音输(shū)入(rù)法快速(sù)增长
大家都知道,在每个人每天高(gāo)频(pín)使(shǐ)用的手机应用清单中,有一个低调而重要的存在:手(shǒu)机输入法。赛诺不(bú)久前发布的(de)《2018上(shàng)半年中国(guó)手机输(shū)入法分析(xī)报告(gào)》显示:2018年手机输入法市场规模(mó)将突(tū)破9.8亿,环比增长22.5%,其(qí)中活跃用户占比超过54%,用户规模和数量都保持持续增长。
这(zhè)并(bìng)不难理解,输(shū)入法是目前人机(jī)交互最重要(yào)的入口之一。而经过二十余年发(fā)展,手机输入法在“文字(zì)键入”这条单(dān)一路径上,已几乎抵达技(jì)术演化(huà)的尽头——颇为欣喜的是,如今(jīn),在智(zhì)能语音等AI技术(shù)的加持下(xià),手机输(shū)入法这个最接地气的入口,正(zhèng)在摆脱文字键入(rù)的单一(yī)束缚,开拓新的发展路(lù)径,甚至在一(yī)定程度上担当着新技(jì)术(shù)“桥头堡”的使命。
譬如百度8月1日(rì)公布的2018年(nián)第二季度未经审计的财务报(bào)告显示,百度营(yíng)收(shōu)260亿元人民币(约合(hé)39.3亿美元),同比增长32%,净利(lì)润64亿元(约合9.67亿美元),同比增长45%。其中(zhōng)AI对百(bǎi)度(dù)业(yè)务的驱动力显著,除(chú)了DuerOS和(hé)Apollo,百度AI也为百(bǎi)度APP、信息流、手机输入法等(děng)移动端业务带来了高效增长,李彦宏表示,百度(dù)输入法语音输入请求量短短一年时间(jiān)内成长到日均3.35亿次(cì)。相比于去(qù)年3月百度AI技术平台体系(AIG)成(chéng)立时,日均语音请求量增长5倍(bèi)。在我看来,这种迅猛上扬(yáng),一方面受益于(yú)百度语音识别(bié)自身体验的日趋完善;另一(yī)方(fāng)面则受益于语(yǔ)音(yīn)输入(rù)已(yǐ)渡过(guò)市场教育阶段,正在处于(yú)大规模爆发(fā)的风口。
而通过百度输入法的不(bú)断迭代可以发现,作为一款具备入口意(yì)义的(de)应用(yòng),手(shǒu)机输入法早(zǎo)已不再(zài)是一个简(jiǎn)单的“插件”,而是AI时代一款需要不断打(dǎ)磨用户体验的服务(wù)型产(chǎn)品。
效率至上
如你(nǐ)所知,在最(zuì)新一版百度输入法(fǎ)中,除了支(zhī)持(chí)拼音、笔画(huà)、五笔、手写和智能英文等基础功能,最(zuì)关键的技术跃迁,是智能语音输入和AR表(biǎo)情两大全新功能的上线,这极大(dà)丰富了用户的(de)输入体验。
先说语音。
从诺基(jī)亚到iphoness,从功能机(jī)到智能(néng)机,整个移动(dòng)时代(dài),就(jiù)是一部人机交互难(nán)度不断下(xià)降,交互方(fāng)式不断丰富的(de)历史(shǐ)。而(ér)诚如“互联网女(nǚ)皇”米克尔所言:在最近数十年,人机(jī)交互(hù)每隔(gé)十年就(jiù)会发生一次(cì)重大(dà)创新(xīn),语音则是当(dāng)下(xià)最高效的输(shū)入方式。
在如今(jīn)所有语音(yīn)场景之中,大多(duō)数人最先接触(chù)到(dào)的,就是手(shǒu)机输入法的(de)语音输入功能。相(xiàng)较于手写和拼(pīn)音等传统方式,语音输入效率更高,交互(hù)方式更(gèng)自然,无论是主动的(de)技术尝鲜者(zhě),还是快节(jiē)奏生活下(xià)的被动选择,这(zhè)种巨大的便(biàn)捷性,都(dōu)让输入法从文(wén)字向语音(yīn)的大规模(mó)迁徙(至(zhì)少在不方便打字(zì)的情景下(xià)),成为不可(kě)逆的演化趋势(shì)。
数据也证明这(zhè)一点:《2018上半(bàn)年中国手机输入法分析报告(gào)》就(jiù)显示,在(zài)输入方式选择上(shàng),语音输入占比已提升至41%,用户习惯日(rì)趋养成(chéng);此外,更像是某种交(jiāo)叉印证(zhèng),最(zuì)近搜狗发布的第(dì)二季度财报显示,其日均语(yǔ)音(yīn)请求量也超(chāo)3亿次(颇值得玩味的(de)是,作为一家“非专(zhuān)门”做(zuò)输入法的公司,百(bǎi)度输入法(fǎ)官方公布的日均语音请求量是超过3.35亿次(cì),和搜狗不相上(shàng)下)。
总之,一切都指向(xiàng)一点(diǎn):语音正在成为更多人输入方式的必选项(xiàng),且他们一(yī)旦(dàn)开始用上语音,产生的黏性往(wǎng)往(wǎng)非常高,属于典型的“一旦用上就离不(bú)开”系列。
不过,语(yǔ)音输入的顺畅,必(bì)须拜深(shēn)厚的技术功底所赐,倘(tǎng)若准(zhǔn)确率(lǜ)不堪重用,反而会造成效率下降(jiàng)——所以说,“准”是语音输(shū)入(rù)最基本的(de)素养。
令人(rén)欣喜的(de)是,依(yī)托“百度(dù)大(dà)脑(nǎo)”的进(jìn)化,作为百度AI技术率先落地的产品之一,百度输入(rù)法(fǎ)凝聚了百度深耕多年的语音、图像、NLP和知识图谱等AI能力——尤其是AI语(yǔ)音技术(shù),业(yè)内皆知,目前识别率(lǜ)高达97%的百(bǎi)度语音曾入(rù)选MIT“全球十大(dà)突破技术”,并(bìng)且在(zài)手机百度和百度地图等产品中早已广泛应用,而随(suí)着DuerOS朋(péng)友(yǒu)圈的(de)持(chí)续(xù)扩张,也会不断“反哺”百(bǎi)度的语音技术,这种得(dé)天独厚的技术和生态优势,是(shì)其(qí)他公司(sī)不具备(bèi)的,也(yě)势必(bì)会夯(bèn)实百度输入(rù)法语音请求量(liàng)的领(lǐng)先地位。
当然,在提高识别准确率方面,百度输入(rù)法并(bìng)未停止进(jìn)化(huà)脚步,最近一次重大突破,就是其搭载(zǎi)了(le)百度第(dì)二代(dài)深度尖峰(fēng)技术(Deep Peak2)。“DeepPeak2模(mó)型”的全(quán)称是基于LSTM和CTC的上下文无关音(yīn)素组合建模,它最大的技术蜕变,就是将高频(pín)出现的音素联合在一(yī)起,形成一个音素组合(hé)体,然(rán)后将这个音素组合体视作一(yī)个基本建模单元。
这(zhè)意(yì)味着,与在过往数十年业界(jiè)常用的上下文相关(guān)建模(mó)方式相(xiàng)比,DeepPeak2能最大(dà)程度发挥(huī)神(shén)经网络(luò)模型的参数优势,大幅提升中英文,多种口音和多种风格(gé)(譬如朗读,聊天,轻声)混(hún)合输(shū)入的稳定性(xìng)和准确度,目前(qián)其相对(duì)正(zhèng)确率较行业领(lǐng)先水平提升20%。另外,难能可贵的一点是,不同于一些输(shū)入(rù)法遇上“中英混输(shū)”后瞬间变成“车祸现场”,DeepPeak2同时支持中英(yīng)文混合建模,让百度(dù)输(shū)入法具备了非常强大的中(zhōng)英文混合识别能(néng)力。
事实上(shàng),此次百度输入法的技(jì)术突破,并不令人(rén)意外。百度是中国最早通过深度学习技术在语音识别领域取得突(tū)破(pò)的公司之(zhī)一(yī),早(zǎo)在(zài)2012年就率先上线了基于DNN的语(yǔ)音(yīn)识别模型。过(guò)去(qù)6年,百度语音一直(zhí)没有(yǒu)停止进化,几乎每年都会上线(xiàn)新(xīn)的语音识别(bié)技术——如今DeepPeak2的上线,亦是语音科技史上的一次巨大跃迁(qiān),要知(zhī)道(dào),之前国际上也曾有过类似建模(mó)方式,但却没法避免建模时出现的过拟合问题(tí),而百度通过声学模型学习和语言信息(xī)学习相分离的特殊训练方法,将建模单元(yuán)数目减少了10倍(bèi),从本(běn)质上解(jiě)决过渡拟合的问题,极大提升(shēng)了识(shí)别准确率,殊为不易(yì)。
而除了准确率上的不断精益,百度输入(rù)法在语音输入功能上,也不(bú)断产生惊(jīng)喜。譬如,百(bǎi)度输(shū)入(rù)法具备轻声(shēng)识(shí)别能力,无论(lùn)会场还是课堂,都能(néng)降低(dī)语音输入(rù)的尴尬;它还具备语音速记功能,在这一功能的“多人(rén)模式”场(chǎng)景下,声纹(wén)识(shí)别技术(shù)可以自动区分(fèn)发(fā)言(yán)人,大(dà)幅降低工(gōng)作者后期(qī)处理的成本;除此之外,百度输入法支(zhī)持中文(wén)普通话,中(zhōng)文(wén)粤语,英语和日语等多语种(zhǒng)识(shí)别(bié);且(qiě)能让用(yòng)户通过语音完成语音拨(bō)号和语音搜索等(děng)功能,后(hòu)者尤为(wéi)重要,企业基(jī)因所(suǒ)致,百度输入法拥(yōng)有(yǒu)很强的搜索(suǒ)元素,你知道,聊天时突然出现搜索需求,是很常见(jiàn)的交(jiāo)叉应(yīng)用(yòng)场景,通过百度输入法自(zì)带的搜索功能(néng),可免(miǎn)去切换应用带来的时(shí)间(jiān)折(shé)损。
总(zǒng)之不难发现,在效率维度,百(bǎi)度正不断(duàn)推陈(chén)出新,让输入法成为(wéi)人们日常(cháng)最(zuì)值得仰(yǎng)仗的工具,通过不断夯实用户的语音(yīn)输入习惯,延续着移动时代(dài)人机交互难度不断下降,交互方式不断丰(fēng)富的历史脉络(luò)。
打(dǎ)磨用(yòng)户体验
如果说“效率至(zhì)上”是一款输入法(fǎ)的基(jī)本素养,那么(me)“可玩性”——或者说愉悦感,则能进一步丰富用户体(tǐ)验的维度。而考(kǎo)虑到社(shè)交是手机输(shū)入法应用最多的场景(数据(jù)显(xiǎn)示,社交类APP中输(shū)入法占(zhàn)比高达(dá)74%),百度输入法也(yě)一直在提升用户在社交场(chǎng)景下的愉悦感。
举个例子(zǐ),百(bǎi)度输入法中(zhōng)有70%是90后(hòu),其中60%的(de)人经常玩“斗图”。针对于此,百度手机输(shū)入法开发了AR表情功能,基于百度多(duō)模态人(rén)脸识别系(xì)统(支持104点基础模型加眼睛、嘴部、眉毛单(dān)例(lì)模型;全脸识别(bié)278点),能准(zhǔn)确(què)识(shí)别面部(bù)轮廓和(hé)表情,用户可制作出只属于自己的表情、感觉和动作,并直接通过输入法(fǎ)搜索,语(yǔ)音输入和键盘(pán)输入时展示出来。且受益于AR表情功能识(shí)别速度(dù)快,表情文(wén)件(jiàn)小等特(tè)点,用户可在(zài)聊天中轻松使用(yòng),刻画出自(zì)己在虚拟世界中(zhōng)的(de)独(dú)特形象。
百度AR趣(qù)味(wèi)表(biǎo)情
AR表情(qíng)功能的上线也意味着(zhe),百度(dù)输入(rù)法是首(shǒu)家同时支持2D、3D表情(qíng)以(yǐ)及通过人脸控制虚拟形象制作(zuò)表情。而我相(xiàng)信(xìn),在可预见的(de)未来(lái),AI和AR等新(xīn)技术对(duì)输入(rù)法产品的作用会越来越大,将会有更(gèng)多新技术被添置到输入法中。在百(bǎi)度的带领下,作为新技术“桥头堡”的输入法,有(yǒu)可能进入(rù)一个更灵动(dòng)的全感(gǎn)官(guān)输入(rù)时代(dài)。
未来(lái)由现在(zài)筑造。不难(nán)发(fā)现,依托百度强大的AI基础,无论是在“准”这个基(jī)本面上的不(bú)断深(shēn)耕,输入功能的不断完善,还是可玩性和愉悦感(gǎn)的不(bú)断提(tí)升,都是百度在输入(rù)领域全方(fāng)位了解用(yòng)户(hù)需求,不断(duàn)打(dǎ)磨用户体(tǐ)验的体现。这种对(duì)用户体验的(de)打磨,也(yě)让昔(xī)日功能单一的手机输入法,具备了“语音助手”,“效(xiào)率(lǜ)工具”和(hé)“聊天伴侣”等多重身份,并(bìng)在不(bú)同(tóng)用(yòng)户(hù)手(shǒu)上,得到不(bú)同(tóng)程度的释放。
正如百度高级副总裁、AI技术平台体(tǐ)系(AIG)总负责(zé)人王海峰所言:“AI的发展最终还是(shì)要回到‘服(fú)务用户需求’的本质(zhì),这(zhè)是我们每一位人工智(zhì)能从业者(zhě)都需(xū)要铭记在心的。利用好(hǎo)人工智能来服务好我们的用户和客(kè)户,以及更(gèng)好地打磨AI能力来推动(dòng)各行各(gè)业的效率提升,是每一位人(rén)工(gōng)智能领域从业者的期望。”
作为(wéi)你我最重要(yào)的工(gōng)具(jù)伴侣,手机输入法本身正在变得“复(fù)杂”,却让生活和工作变得更为简单。在我看来,这才是技术的本分。