开云

    咨(zī)询热线(xiàn):021-80392549

    开云 QQ在线(xiàn) 开云 企业微信
    开云
    开云 资讯 > 人工智能 > 正文

    微软最新的VALL-E人工智能可以在3秒内捕捉到你的声音(yīn)

    2023/01/13蒲(pú)公英互(hù)联299

    微软研究人员(yuán)展示(shì)了一种令人印象深刻的新型文本转语音人工智能模型,名(míng)为(wéi)Vall-E,它可以(yǐ)只听声音几秒钟,然(rán)后模仿声音——包括(kuò)情感(gǎn)语调和音响效果——说(shuō)出你想说的(de)任何话。

    这是(shì)许多人工智能算法中(zhōng)最新的一种,它们可(kě)以利用一个人的声音录音,让它说出这个人从未说过的单词和(hé)句子——而且它只需要一(yī)小段(duàn)音频就能推断出整(zhěng)个人类的声音,这是非常了不起的。例如,2017年蒙特(tè)利尔大学的Lyrebird算法需要整整一(yī)分钟的语音来分析(xī),而Vall-E只需(xū)要三秒钟的音频片段。

    人(rén)工智能已经接受了大(dà)约6万小时的英语演讲训(xùn)练——似乎主(zhǔ)要(yào)是通过有(yǒu)声读物解说员(yuán),研究人员提(tí)供了(le)大(dà)量样(yàng)本,在这些样本中,Vall-E试图操纵一系列人类的声音。有些人(rén)在捕捉(zhuō)声音(yīn)的本质(zhì)和构建听起来自然的新(xīn)句子方面做得非常出色(sè)——你很难分辨出哪个是真(zhēn)实的声(shēng)音,哪个(gè)是(shì)合(hé)成的。在其他情况下,唯(wéi)一的漏洞是人工智能将重点(diǎn)放在句(jù)子中奇怪的地(dì)方。

    Vall-E在(zài)重新创建原(yuán)始示例的音频环境方(fāng)面做(zuò)得特(tè)别好。如(rú)果样本听起(qǐ)来像通过(guò)电话录制的,那么合成也是(shì)如此。它在口音方面(miàn)也(yě)很不错——至少是美式、英式和一(yī)些欧洲口音。

    在情感方面,结果(guǒ)就不(bú)那么令人印象深刻了。使用愤怒、困倦、有(yǒu)趣或厌恶的语音样本似乎会(huì)让事(shì)情偏离(lí)轨道,合成出来的声音(yīn)听起(qǐ)来(lái)扭曲(qǔ)得很奇(qí)怪。

    这类技术的影(yǐng)响(xiǎng)非常明显(xiǎn);从积极的方面来(lái)看(kàn),将(jiāng)来你在超市里推手(shǒu)推车的(de)时候,可(kě)以让摩根·弗里(lǐ)曼(Morgan Freeman)为你的购物清单念一遍。如果演员在电影中中途死亡,他们(men)可以使用这样的系统通过(guò)深度伪造(zào)的视频和音频来完成表演。苹果公司最近推出了一套由人工智能(néng)为(wéi)你朗(lǎng)读的(de)有声读物目录,很显然,你很快(kuài)就能在飞行中切换旁白。

    消极的一面是,这对(duì)配音演员和叙(xù)述者来说并不是什(shí)么好消(xiāo)息(xī)。或者对听众来说;人工(gōng)智能(néng)或(huò)许能够快速(sù)且廉价地完成叙述,但不要指望它(tā)有太(tài)多(duō)艺术元素。他们不会像史蒂芬·弗莱那样解读(dú)道格拉(lā)斯·亚当斯。

    骗子的潜力也非常大。如果一(yī)个骗子能让你在电话上停(tíng)留三秒钟,他们就能窃取你的声音,然(rán)后用(yòng)它给你的(de)奶奶打(dǎ)电话。或者(zhě)绕过任何语音识(shí)别安全设备。这正是终(zhōng)结者机器人打电话时需要的东(dōng)西。

    当然,每个(gè)人都还在(zài)等待这样(yàng)一个(gè)时刻(kè):一个政治人物的第一次深度伪造的演讲,欺骗了足够多(duō)的人,破坏了相信你(nǐ)的(de)眼睛和耳朵的概念(niàn)——就(jiù)好像客观真理(lǐ)在这个奇怪的时代还没(méi)有(yǒu)受到攻击一样。

    微软Vall-E团队在其演示页(yè)面(miàn)的末尾(wěi)附加了(le)一(yī)份简短的道德声明:“这项工作中(zhōng)的实验是在(zài)假设模型的用户(hù)是目标说话者并已(yǐ)得到说话者(zhě)的批准的情况下进行(háng)的。然而,当模型推(tuī)广到看不见的演讲者时,相关的组(zǔ)件应该伴(bàn)随着语音编辑(jí)模型,包括确保演讲者(zhě)同(tóng)意(yì)执行修改的协议(yì)和检测编辑(jí)后的语音的系统。”

    像DALL-E、ChatGPT、各种deepfake算法和无(wú)数其他创造性人工智能的崛起,感觉在过去几个月里正处于一个拐点,开(kāi)始冲出实验室,进入现实世界(jiè)。与所(suǒ)有变化一样,它(tā)带来了机遇和(hé)风险。我们真的生活在一个有趣的(de)时(shí)代。

    关键词: 人工(gōng)智(zhì)能




    AI人工智能网(wǎng)声明:

    凡资讯(xùn)来源注(zhù)明为其他媒体来源的信息,均为转载自其(qí)他媒(méi)体(tǐ),并(bìng)不(bú)代表本网站赞同其观点,也不代表本网站对其真实性负(fù)责。您若(ruò)对(duì)该文(wén)章(zhāng)内容有任何疑问或质疑(yí),请立即与网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系(xì),本网站将迅速给您回(huí)应(yīng)并做处理(lǐ)。


    联系电(diàn)话:021-31666777   新(xīn)闻、技(jì)术文章投稿QQ:3267146135   投(tóu)稿邮箱:syy@gongboshi.com

    精选(xuǎn)资讯更多

    相关资讯更多

    热(rè)门搜索

    工博士人工智(zhì)能网
    开云
    扫描二维码关注微信
    扫码反馈

    扫一扫,反馈当前页面

    咨(zī)询(xún)反馈
    扫码关(guān)注

    微信(xìn)公众号

    返(fǎn)回顶(dǐng)部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-17 11:20 来源:zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com