深度假货和深度媒体:安全的新战场



本文是VB特刊的一部分。在此处阅读完整系列:AI和安全性

言传身教的数量正在迅速增长,这些媒介可以拍摄现有的照片,音频或视频,并用他人的AI代替人的个性。令人担忧的是,不仅因为此类假货可用于在选举期间影响人们的观点或使某人卷入犯罪,而且还因为它们已被滥用以制造假色情片欺骗英国一家能源公司的董事

学术机构,技术公司和非营利组织联合起来,期待着这种新现实,正在开发识别AI产生的误导性媒体的方法。他们的工作表明,检测工具只是短期可行的解决方案,而两臂军备竞赛才刚刚开始。

Dipfake文字


以前,人工智能创造的最好的散文更像是《疯狂的狂想曲》中的文字,而不是小说《愤怒的捆绑》,但是现代语言模型现在可以写出与人的文字相近且具有说服力的文字。例如,由旧金山的OpenAI研究公司发布GPT-2模型可以在几秒钟内纽约客风格的文章或脚本集思广益地创建片段研究人员 米德尔伯里研究所的恐怖主义,极端主义和反恐怖主义中心建议,可以建立GPT-2和其他类似模型来倡导白人,圣战伊斯兰教和其他威胁性意识形态的优越性,这引起了更多关注。


上图:Frontend GPT-2,这是来自OpenAI研究公司的经过训练的语言模型。
图片来自:OpenAI


为了寻找一种能够检测合成含量的系统,华盛顿大学保罗·艾伦计算机科学与工程学院的研究人员和艾伦人工智能研究所开发了Grover算法,他们声称该算法能够选择测试中92%的噬菌体由Common Crawl Corpus开放数据组成的集合。团队使用文案写作方法解释了其成功,据他们介绍,该方法有助于理解AI创建的语言的功能。

哈佛大学和MIT-IBM Watson AI Lab的科学家团队分别发布了The Giant Language Model Test Room,这是一个网络环境,试图确定是否使用AI模型编写了文本。在给定语义上下文的情况下,她可以预测哪些单词最有可能出现在句子中,实质上是写自己的文本。如果要测试的样本中的单词对应于10个,100个或1000个最可能的单词,则指示器分别变为绿色,黄色或红色。实际上,她使用自己的可预测文本作为识别人工生成内容的指南。

Dipfake视频


生成视频的现代AI同样危险,并且具有与其自然对应物相同的功能,即使不是很好。一个学术文章由以香港为基地的启动SenseTime,科技的南洋大学,和中国科学院自动化研究所发表详细介绍了使用音频编辑素材合成逼真的视频框架。来自首尔Hyperconnect的研究人员最近开发了MarioNETte工具,该工具可以操纵历史人物,政客或CEO的面部特征,合成由其他人的动作动画的面孔。

但是,即使是最实际的假货也包含发出假货的伪影。网络安全公司Deep Instinct的深度培训小组负责人Ishay Rosenberg说:“由生成系统创建的Dipfakes研究视频中的一组真实图像,您可以在其中添加新图像,然后使用新图像生成新视频。” “由于人工生成的数据的分布和原始视频中数据的分布发生了变化,因此生成的视频略有不同。这些所谓的“矩阵中的毛发”是双色检测器能够区分的。”


上图:使用最先进的技术制作的两个假视频。
图片提供:SenseTime


去年夏天,加州大学伯克利分校和南加州大学的一个团队准备了一个模型来搜索确切的“面部动作单位”-有关面部运动,滴答声和表情的数据,包括抬起上唇和在人转头时的表情皱眉-识别精度超过90%的假冒视频。同样,在2018年8月,美国国防高级研究计划局(DARPA)的媒体取证计划的参与者对系统进行了测试能够根据不自然的眨眼,奇怪的头部运动,异常的眼睛颜色等迹象来检测AI生成的视频。

目前有几家初创公司正在商业化用于检测假视频图像的类似工具。阿姆斯特丹实验室Deeptrace Labs提供了一组监视工具,旨在对上载到社交网络,视频托管平台和虚假信息网络的假冒产品进行分类。Dessa提出了一些方法来改进在伪造视频集上训练的伪造检测器。而在2018年7月,Truepic筹集了800万美元。为深入检测视频和照片中的伪造品提供资金。 2018年12月,该公司收购了初创公司Fourandsix,该公司的伪造图像检测器获得了DARPA许可。


上图:由AI编辑的Dipfake图像。

除了开发训练有素的系统之外,许多公司还发布了文本调查团,希望研究界能够开发出检测伪造品的新方法。为了加快这一过程,Facebook,Amazon Web Services(AWS),人工智能合作伙伴关系以及来自几所大学的学者共同发起了Deepfake检测挑战赛。该程序有一组带有标签的视频样本,表明其中一些受到了人工智能的影响。 2019年9月,谷歌发布了一系列视觉假货作为FaceForensics测试的一部分,该测试由慕尼黑工业大学和那不勒斯费德里科二世大学创建。最近,SenseTime的研究人员与新加坡南洋理工大学共同开发了DeeperForensics-1.0,该数据集用于检测他们声称是同类产品中最大的假货。

Dipfake音频


人工智能和机器学习不仅适合合成视频和文本,还可以复制声音。无数 研究表明,重建一个人的语音只需要一个很小的数据集。像Resemble和Lyrebird之类的商业系统需要几分钟的录音,而复杂的模型(例如最新的百度Deep Voice实现)只能复制3.7秒样本中的声音。

没有太多用于检测音频抖动的工具,但是解决方案开始出现。



几个月前,Resemble团队发布了一个名为Resemblyzer的开源工具,该工具使用AI和机器学习通过获取高级语音样本并预测它们是真实的还是模拟的来检测双重欺骗。在收到带有语音的音频文件后,他创建了一个数学表示,总结了所录制语音的特征。这使开发人员可以比较两个投票的相似性或找出当前正在讲话的人。

2019年1月,作为Google新闻计划的一部分,Google发布了语音语料库,其中包含使用文本到语音模型说出的“数千”个短语。样本取自英语文章,这些文章被不同方言的68种不同的合成声音朗读。该案例适用于ASVspoof 2019的所有参与者,该竞赛的目的是促进打击假冒言论的对策。

损失惨重


没有一个探测器能达到完美的精度,研究人员还没有弄清楚如何识别假作者。深刻的本能人罗森伯格(Rosenberg)希望这能激发坏演员传播假货。他说:“即使检测到攻击者造成的伪造品,也只有伪造品被披露的风险。” “对于演员而言,被抓住的风险极小,因此制作假货的限制很少。”

罗森伯格的理论得到了Deeptrace报告的支持,该报告在2019年6月和7月的最新统计中在线发现了14698个假视频。在七个月的时间内,他们的人数增加了84%。其中绝大多数(96%)是包含女性的色情视频。

鉴于这些数字,罗森伯格认为,由于流失而“大量流失”的公司应在其产品中开发和实施深度检测技术,他认为这类似于防病毒程序。在这一领域出现了变化。Facebook在1月初宣布,它将使用自动和手动系统的组合来检测虚假内容,而Twitter最近建议举报Diphakes并删除可能有害的内容。

当然,生成伪造品的基础技术仅仅是工具,它们具有良好的发展潜力。一家咨询公司Access Partnership的数据与信任负责人Michael Klozer表示,该技术已被用于改善医学诊断和癌症检测,填补宇宙制图的空白以及改善无人飞行器的训练。因此,他警告不要使用一般运动来阻止生成AI。

“由于领导人开始在外交事务中应用现有的法律规范,所以现在重要的是不要摆脱有价值的技术摆脱假货,”克洛泽说。“最终,关于使用这项新技术的判例法和社会规范还不够成熟,无法创建描绘合理使用和滥用行为的鲜红色线条。”

All Articles