谁从事深度音频,为什么需要深度音频

从今年年初开始,出现了一些新的AI系统,它们能够基于音频与通话者合成视频记录。我们将告诉您从事类似开发的人员和目的。我们还将讨论允许您编辑录音的其他工具。


图片Erik-Jan Leusink /不飞溅

做什么


2019年12月,慕尼黑工业大学和马克斯·普朗克学会信息学研究所的专家发表了关于神经语音木偶系统的科学论文

要生成视频记录,她只需要一个带有一个人的声音和他的照片的音频文件。该过程包括三个阶段。首先,循环神经网络分析记录中的语音,并建立一个反映出说话人发音特征的logit模型它被发送到通用神经网络,该神经网络计算用于构建面部三维模型的系数。接下来,渲染模块开始工作,生成最终记录。

开发人员说,神经语音木偶可以播放高质量的视频,但是他们仍然必须解决一些与声音同步相关的问题。新加坡南洋大学工程师正在开发

类似的技术他们的系统使您可以将一个人的语音记录与另一个人的视频记录结合在一起。首先,它为目标视频上的每一帧形成了人脸的3D模型。此外,神经网络分析关键的面部点,并修改三维模型,使其表达与原始音频文件的音素一致。这组作者说,他们的工具在质量上超过了同类产品。在盲测中,受访者 55%的记录标记为“真实”。

申请地点


将来,dipfakes将允许创建逼真的视频头像-语音助手的个性。 2017年,发烧友Jarem Archer Windows 10中 Cortana助手实现为全息图。用于构建伪造品的人工智能系统会将这种解决方案提高到一个新的水平。这种算法的另一个应用领域是游戏行业。通过配乐生成面部动画将简化自定义虚拟角色面部表情的游戏设计师的工作。

Diphake技术的开发人员注意到,他们的系统只是一个工具。不幸的是,它将不可避免地用于非法目的。第一次犯下这种罪行在2019年。一家英国能源公司的董事将24万美元转给了骗子。他使用神经网络模仿了德国问题负责人的声音,并要求完成交易。因此,大学的专家正在与执法机构和政界人士积极合作,以防止这种情况的发生。例如,位于丹佛的科罗拉多大学正在开发识别假冒音频和视频记录的工具。将来,只会有更多这样的项目。

还有哪些其他项目


有一些工具可让您像普通文本一样轻松地编辑录音。例如,Descript提供了一个音频编辑器,可以转录演讲者的单词,并允许您以文本形式对其进行编辑。您可以添加暂停,在各个位置重新排列片段-所有编辑都与录音同步。开发人员说,该系统处理.m4a,.mp3,.aiff,.aac和.wav中的文件,转录的准确性超过93%


照片由Yohann LIBOT / Unsplash

其他项目出现在同一时间DESCRIPT。普林斯顿大学的工程师介绍了“用于音频的Photoshop”-VoCo系统。它不仅允许以文本形式编辑记录,而且还可以将说话者的声音与短语合成(考虑语调)。

将来,此类服务将对创建音频内容的记者和媒体公司有用。他们还将帮助患有特定疾病的人通过语音合成系统进行交流。VoCo及其同行将使他们的声音变得不那么“机器人”。



Hi-Fi世界博客上的其他文章:

“ Bitchy Betty”和音频接口:为什么要以女性声音讲话
音频接口:声音是道路,办公室和空中信息
的来源世界上第一个“不分性别”的语音助手
合成器历史演讲:第一个机械装置
语音合成如何在PC上出现



All Articles