开云

咨（zī）询热线（xiàn）：021-80392549

QQ在线（xiàn）

企业微信

微软最新的VALL-E人工智能可以在3秒内捕捉到你的声音（yīn）

2023/01/13蒲（pú）公英互（hù）联299

微软研究人员（yuán）展示（shì）了一种令人印象深刻的新型文本转语音人工智能模型，名（míng）为（wéi）Vall-E，它可以（yǐ）只听声音几秒钟，然（rán）后模仿声音——包括（kuò）情感（gǎn）语调和音响效果——说（shuō）出你想说的（de）任何话。

这是（shì）许多人工智能算法中（zhōng）最新的一种，它们可（kě）以利用一个人的声音录音，让它说出这个人从未说过的单词和（hé）句子——而且它只需要一（yī）小段（duàn）音频就能推断出整（zhěng）个人类的声音，这是非常了不起的。例如，2017年蒙特（tè）利尔大学的Lyrebird算法需要整整一（yī）分钟的语音来分析（xī），而Vall-E只需（xū）要三秒钟的音频片段。

人（rén）工智能已经接受了大（dà）约6万小时的英语演讲训（xùn）练——似乎主（zhǔ）要（yào）是通过有（yǒu）声读物解说员（yuán），研究人员提（tí）供了（le）大（dà）量样（yàng）本，在这些样本中，Vall-E试图操纵一系列人类的声音。有些人（rén）在捕捉（zhuō）声音（yīn）的本质（zhì）和构建听起来自然的新（xīn）句子方面做得非常出色（sè）——你很难分辨出哪个是真（zhēn）实的声（shēng）音，哪个（gè）是（shì）合（hé）成的。在其他情况下，唯（wéi）一的漏洞是人工智能将重点（diǎn）放在句（jù）子中奇怪的地（dì）方。

Vall-E在（zài）重新创建原（yuán）始示例的音频环境方（fāng）面做（zuò）得特（tè）别好。如（rú）果样本听起（qǐ）来像通过（guò）电话录制的，那么合成也是（shì）如此。它在口音方面（miàn）也（yě）很不错——至少是美式、英式和一（yī）些欧洲口音。

在情感方面，结果（guǒ）就不（bú）那么令人印象深刻了。使用愤怒、困倦、有（yǒu）趣或厌恶的语音样本似乎会（huì）让事（shì）情偏离（lí）轨道，合成出来的声音（yīn）听起（qǐ）来（lái）扭曲（qǔ）得很奇（qí）怪。

这类技术的影（yǐng）响（xiǎng）非常明显（xiǎn）;从积极的方面来（lái）看（kàn），将（jiāng）来你在超市里推手（shǒu）推车的（de）时候，可（kě）以让摩根·弗里（lǐ）曼(Morgan Freeman)为你的购物清单念一遍。如果演员在电影中中途死亡，他们（men）可以使用这样的系统通过（guò）深度伪造（zào）的视频和音频来完成表演。苹果公司最近推出了一套由人工智能（néng）为（wéi）你朗（lǎng）读的（de）有声读物目录，很显然，你很快（kuài）就能在飞行中切换旁白。

消极的一面是，这对（duì）配音演员和叙（xù）述者来说并不是什（shí）么好消（xiāo）息（xī）。或者对听众来说;人工（gōng）智能（néng）或（huò）许能够快速（sù）且廉价地完成叙述，但不要指望它（tā）有太（tài）多（duō）艺术元素。他们不会像史蒂芬·弗莱那样解读（dú）道格拉（lā）斯·亚当斯。

骗子的潜力也非常大。如果一（yī）个骗子能让你在电话上停（tíng）留三秒钟，他们就能窃取你的声音，然（rán）后用（yòng）它给你的（de）奶奶打（dǎ）电话。或者（zhě）绕过任何语音识（shí）别安全设备。这正是终（zhōng）结者机器人打电话时需要的东（dōng）西。

当然，每个（gè）人都还在（zài）等待这样（yàng）一个（gè）时刻（kè）：一个政治人物的第一次深度伪造的演讲，欺骗了足够多（duō）的人，破坏了相信你（nǐ）的（de）眼睛和耳朵的概念（niàn）——就（jiù）好像客观真理（lǐ）在这个奇怪的时代还没（méi）有（yǒu）受到攻击一样。

微软Vall-E团队在其演示页（yè）面（miàn）的末尾（wěi）附加了（le）一（yī）份简短的道德声明:“这项工作中（zhōng）的实验是在（zài）假设模型的用户（hù）是目标说话者并已（yǐ）得到说话者（zhě）的批准的情况下进行（háng）的。然而，当模型推（tuī）广到看不见的演讲者时，相关的组（zǔ）件应该伴（bàn）随着语音编辑（jí）模型，包括确保演讲者（zhě）同（tóng）意（yì）执行修改的协议（yì）和检测编辑（jí）后的语音的系统。”

像DALL-E、ChatGPT、各种deepfake算法和无（wú）数其他创造性人工智能的崛起，感觉在过去几个月里正处于一个拐点，开（kāi）始冲出实验室，进入现实世界（jiè）。与所（suǒ）有变化一样，它（tā）带来了机遇和（hé）风险。我们真的生活在一个有趣的（de）时（shí）代。

关键词：人工（gōng）智（zhì）能

工信部优化调整微波通信系统频（pín）率，为5G、工业互联网及未来6G等预留频谱（pǔ）资源 2023-01-06

科学家使用铁磁机器人实现灵活高效（xiào）的自（zì）动化（huà）病（bìng）毒检测 2023-01-06

打造全（quán）国人工智能（néng）产业发展高（gāo）地，成都将从（cóng）六个方面发力 2023-01-05

爬楼机（jī）器人（rén）为什么在一线城市（shì）火了，因为需求太（tài）大 2023-01-04

联邦快递（dì）新加坡（pō）转运（yùn）中心引入人工智（zhì）能分拣机（jī）器人 2023-01-13

机器人（rén）拍照他们火眼金睛来把关 2023-01-30

谷（gǔ）歌人工智能可以根（gēn）据（jù）文字（zì）描（miáo）述创造任何类型的音乐 2023-01-30

当机器人（rén）席卷家庭，家电行业将掀（xiān）起新蓝海？ 2023-01-30

AI人工智能网（wǎng）声明：

凡资讯（xùn）来源注（zhù）明为其他媒体来源的信息，均为转载自其（qí）他媒（méi）体（tǐ），并（bìng）不（bú）代表本网站赞同其观点，也不代表本网站对其真实性负（fù）责。您若（ruò）对（duì）该文（wén）章（zhāng）内容有任何疑问或质疑（yí），请立即与网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系（xì），本网站将迅速给您回（huí）应（yīng）并做处理（lǐ）。

联系电（diàn）话：021-31666777 新（xīn）闻、技（jì）术文章投稿QQ：3267146135 投（tóu）稿邮箱：syy@gongboshi.com