想象一个计算机程序能够直观地识别出在无声的钢琴演奏视频(pín)中演奏的(de)是哪(nǎ)首乐曲,或(huò)许并不夸(kuā)张。然而,一个新的人工智能系统(tǒng)却更进一步,以数字(zì)方(fāng)式逼真地再现了钢琴演奏的声音(yīn)。
这项技(jì)术(shù)被称为Audeo,由华盛顿大学的一个团队(duì)设计。研(yán)究人员(yuán)使用钢琴家保罗·巴顿的YouTube视频对系(xì)统进行了培(péi)训和测试。培训包括(kuò)约17.2万巴顿演奏(zòu)巴赫和莫扎特等著名古典作曲家(jiā)音(yīn)乐的视频帧。
在分析一段无声视频时,所产生的系统首先会观察哪(nǎ)些键被按下的(de)顺(shùn)序,确定各(gè)个(gè)音(yīn)符及其排列方式。也就是(shì)说,它还能感知到每个键被击打(dǎ)的(de)力度和被按住(zhù)的时间--这让它能计(jì)算出每个音符的(de)强度,以(yǐ)及它在随后弹奏的(de)音符下面持续的时间长度。它还考虑到了钢琴(qín)独特(tè)的声学特性。然后(hòu),这些数(shù)据被转换为一种(zhǒng)可以被现有的(de)数字合成器理解的格式。据(jù)报道,当该合(hé)成器回(huí)放(fàng)音乐文件时,它听起来非常像原(yuán)始的钢琴音乐。
在对Audeo的测试中,它的任务是根(gēn)据巴顿演奏的(de)静(jìng)音视频(pín)重现钢琴音乐,而不(bú)是系统所训练的音乐(lè)作品。当SoundHound等音乐识别应用分(fèn)析(xī)这些再(zài)现时,它们能够以大约86%的准(zhǔn)确率(lǜ)识(shí)别出(chū)乐曲。相比之下,当这(zhè)些应(yīng)用分析相同视频中(zhōng)的原始钢(gāng)琴音频(pín)时,其识别准确率攀升至93%。随着技术的进一步发展,这(zhè)种差距应该(gāi)会缩小。
“我们希望我们的研究能够实现与音乐互动的新方法,”该研究(jiū)的高(gāo)级作者Eli Shlizerman副(fù)教授说。“例如,未来的一个(gè)应(yīng)用是,Audeo可以扩展到虚拟钢琴(qín),摄像头只记录一个人的(de)手。此外,通过将摄像(xiàng)头放在真实的钢琴之(zhī)上,Audeo有可能协助教(jiāo)学生(shēng)如何演奏的新方(fāng)法(fǎ)。”