生活常识谷歌黑科技WaveNet，更先进的语音合成

金丝楠木 · 发表于 2023-1-31 19:57:20

DM 宣称，通过人耳测试，该技术使得模拟生成的语音与人类声音之间的差异缩小了一半。当然，这种测试不可避免地存在主观性。WN 目前还没有被应用到谷歌的任何产品中，而且该系统需要强大的计算能力，近期也法应用到真世界场景。.linuxprobe.com/linux]Linux技术教程的相关问题可以到网站了解下，我们是业内领域专业的平台，您如果有需要可以咨询，相信可以帮到您，值得您的信赖！https://www.linuxprobe.com/linux

让人类跟机器自由交谈是人机交互研究领域长久以来的梦想。在过去几年，深度神经络的应用大幅度了提高计算机理解自然语音的能力。然而，运用计算机生成语音（语音合成，或者 TTS 系统）仍然主要依靠拼接式 TTS——先录制单一说话者的大量语音片段，建立一个大型数据库，然后将语音片段合成完整的话语。这种语音合成方式很难对声音加以修饰，法表达强调或者情感。

为了解决语音合成的这一难题，迫切需要运用一种参量改频式（P）TTS。在这种 TTS 系统中，生成数据所需要的所有信息被存储于模型的参数中，语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而，目前参量改频式 TTS 生成的语音听起来还不如拼接式 TTS 模型生成的语音自然。现有的参量改频式模型通常将输出的信息交给信号处理算法处理，从而生成音频信号。

WN 改变了这种范式，直接用音频信号的原始波形建模，而且是一次处理一个样本。通过这种方式生成的语音不但听起来更加自然，而且使用原始波形还能为任何声音建模，包括模仿任何人的声音，还能生成音乐。在测试中，WN 通过分析古典音乐，生成了一段钢琴曲。

谷歌 DM 的人工智能 AG 在今年早些时候打败了韩国围棋大师李世石九段，引起了世人的关注。谷歌一直对如何应用其人工智能技术守口如瓶，只是称其已经利用这些技术降低了冷却数据中心所需的电量，让从 YT 到谷歌广告产品的一系列服务得到了巨大改善。

		自动登录	找回密码
密码			加入读后网