AI 伪造图像和视频,即 Deepfake,近年来,出现了一波发展高潮。在本文中,我们将深入探索这一历史,并回顾这一重要里程碑。 上图中人脸的共同点是什么?答案是:没有共同点。它们都是 AI 虚构。更准确地说,它们来自 AI从数百万像素图片中总结学习,最终创造出难以辨别真伪的结果。 顺便说一句,这些图片是 thispersondoesnotexist.com 创建在网站上。工具的使用门槛很低,可以用鼠标来理解。不仅可以生成人,还可以生成小猫图片。 而这种高质量的图像伪造背后,依赖于"产生对抗网络"(GAN)技术。这类网络由两个 AI代理组成:一个负责伪造图像,另一个负责检测图像是否真实。如果代理发现伪造品,则伪造 AI 将继续提高水平,再接再厉。 这样,两位代理商在培训过程中积累了更强的能力。因此,伪造 AI 最终可以创造人类几乎无法区分的虚构图像。#GAN 和 GAN,在实践中,原始 是非常不同的GAN 的输出结果和当前 GAN 变体的输出结果实际上非常不同。 最近刚刚成为苹果公司 AI 负责人的 Ian Goodfellow 曾在 Twitter 发表了一篇关于 deepfake过去几年技术的发展历程。Goodfellow 是公认的第一个 GAN 过程发明者。 谈谈这四年半,GAN 人脸生成进展:/F9Dkcfrq8l- Ian Goodfellow(@goodfellow_ian)2019年1月15日#GAN 查阅发展简史Goodfellow 链接中的学术论文, 可以清楚地看到deepfake 新技术是如何工作的AI架构、大规模数据集以及更强算力的协同支持之下,一步步快速发展的:#2014 年:Deepfake 出生的第一年Goodfellow 和同事发表了全球首篇介绍 GAN 科学论文也代表 GAN AI 的诞生GAN 的出现一步步催生了我们现在熟悉的deepfakes。 早在 2014 年,就有迹象表明 GAN 有望产生高度模拟的人脸。#2015 年:GAN 上一层研究人员开始 GAN 多层卷积神经网络通过图像识别优化(CNN)相结合。CNN能并行处理大量数据,显卡运行效率特别高。这种组合取代了以前比较简单的 GAN 代理驱动网络,也将生成结果的可信度提升到一个新的水平。 卷积网结构越复杂,推动质量迎来重大飞跃: 伪造的人脸越可信。但是 2015 年,写实风格的图像还没有出现。#2016 年:Deepfake 眼镜和人脸处理研究人员将两个 GAN 相结合:不同网络的代理可以相互共享信息。这样,双方就可以平行学习了。 每个代理都会稍微修改学习数据。例如,其中一个代理可以生成戴太阳镜和不戴太阳镜的人脸。此时,生成的人脸更可信,但"一眼假"情况还没有消失。通过耦合 GAN,伪造者也可以戴太阳镜或珠宝。但这些脸本身仍然有很多缺陷,“一眼假"问题继续存在 **2017年 :英伟达推动质量飞跃,第一段 deepfake 视频出炉 ** 英伟达研究人员成功解决了以往 GAN 主要问题之一,
图像分辨率越低,检查代理越难判断内容的真实性,因此生成代理往往会生成模糊图像– - -毕竟,越清楚,就越容易犯错误。人工智能似乎也是一个相当胆小的小偷
NVIDIA提供了一个解决方案:分阶段的培训网络。首先,通过伪造AI学习创建低分辨率图像。之后,逐渐增加分辨率
𞓜 逐步引入高分辨率的GaN生成能力
以这种方式逐渐培养起来的GaN开始生产质量前所未有的伪造肖像。虽然图像仍然有缺陷,但如果不仔细观察,很难快速区分
𞓜2017年生成的人脸数量远远超过了原来的水平,其中一些人脸很难区分真假
NVIDIA继续改进其Gan和reddit用户“;“deepfakes”;它已经开始将这项技术纳入主流。2017年秋,我们看到了第一张照片,照片中有"e;“deepfakes”;名为色情图片,内容是用其他知名女性取代这位色情女演员的脸
#从那时起,deepfake词就成了人工智能生成图像和视频的同义词。此处引用("e);“深”;这意味着神经网络包含大量中间层,即图像生成是以深度学习的方式进行的
深度假色情视频也有严重的
;“一只眼睛假”;然而,由于制作成本极低,成千上万的用户迅速涌向reddit®和其他在线平台,观看这些清晰而略显奇怪的视频。美国著名女演员斯佳丽*约翰逊成了AI色情片的常客,后来人们把这一互联网趋势称为;暗虫洞
#2018年:甘的控制得到加强。Deepfake登陆YouTube频道 面对这场风暴,NVIDIA研究人员采取了另一个步骤来提高Gan的控制能力:他们能够对单个图像功能进行调整,如"e;“黑发”;和报价("e);“微笑”;和其他元素
通过这种方式,可以将训练图像中的特征传输到AI生成的图像。此方法称为"e;样式转换("e;,它已成为许多后续人工智能研究项目的重要组成部分
𞓜 网络传输可以用来控制图像AI,例如只创建微笑肖像
当然,Gan原理不仅适用于肖像。毕竟,AI并不关心输出什么样的像素结构。它只需要相应的训练数据。2018年底,人工智能巨头deepmind展示了人工智能生成的食物、风景和动物图像,这些图像的内容看起来非常逼真,令人印象深刻。DeepVideo门户软件试图通过使用Gan来提高视频处理能力,因此首个研究deepfakes的YouTube频道正式上线:这一次,输出的不再是虚假色情,包括政治名人或好莱坞名人“;神奇的改变”;版本逐个出现。这时,人们开始讨论人工智能过程是否可以;“复活”;与此同时,deepfake A片也开始下降:2018年第一季度,A片中心、推特、gfycat和reddit等平台发布了此类视频禁令。许多常用的deepfake应用程序网站也已脱机
#2019年:deepfake正式成为主流𞓜 三星研究人员发布了可以深度锻造人类和艺术品的GaN。例如,研究人员成功地将蒙娜丽莎的微笑改为"e;笑版"e;。更重要的是,三星的deepfake AI只需参考几张照片即可实现出色的伪造效果
几个月后,以色列研究人员推出了变脸Gan(fsgan)。这种人工智能模型可以在实时视频中交换人脸。在没有任何事先培训的情况下,这种新型人工智能能够直接交换面孔,但在质量方面仍无法与经过精心训练的deepfakes模型相比。无论技术进步如何,2019年也是deepfake正式成为主流的一年。2018年首次发布的Deepfacelab和其他deepfake工具正在加速这项技术的发展。专注于deepfake的YouTube频道拥有数百万粉丝,2019年前几个月,deepfake在线数量翻了一番。面对突如其来的发展速度,deepfake专家郝莉甚至做出了大胆的预测;在未来两到三年内,deepfakes将全面走向完美”; #立法机关开始干预𞓜 面对即将到来的2020年美国大选,伪造视频的迅速传播令美国立法者感到担忧。U、 美国国会议员、情报委员会以及人工智能和法律领域的专家警告说,“deepfake”已经泛滥,并呼吁尽快制定相关法律法规。推特成为首个针对deepfakes采取新措施的社交平台,并强调推特希望准确标记可疑推特,并向用户显示警告信息。美国以外的政府也明确了自己的立场。中国认为人工智能伪造是犯罪行为,而德国政府则发表声明称:;Deepfakes 将削弱整个社会对音频和视频记录真实性的基本信任,从而削弱公共信息的可信度。”;因此,此类行为可能对"e;社会和政治风险很大;。这是事实,但风险不应被夸大#2020年:deepfake监管和迪士尼百万像素deepfakes𞓜 就在2020年美国大选开始之际,Facebook宣布全面禁止在自己的平台上使用deepfakes– - -除了讽刺或戏仿性质的深赝品。YouTube也采用了类似的指导方针,而推特则开始实施去年发布的反deepfake指导方针。同年8月,tiktok也开始在其视频平台Jigsaw上禁止deepfakes,Jigsaw是谷歌的姐妹公司,发布了"e;汇编程序这是一个人工智能驱动的工具,可以帮助记者检测图像是否是“深度伪造”。高通公司支持一家初创公司,该公司可以不可撤销地将原始照片和视频标记为;原始报价("e;,从而降低后续deepfake
的识别难度#Deepfakes继续取得进展。与此同时,deepfakes技术本身也在不断进步:微软的faceshifter甚至可以使用模糊原始图像生成高度可靠的deepfake图像。Faceshifter 还依赖于两组网络,其中一组负责创建假脸,并将原始照片中的头部姿势、面部表情、照明条件、颜色、背景和其他属性引入假图像。另一个网络收听-Net 将以前生成的照片与原始照片进行比较
如果听到-Net 如果您发现头发、太阳镜或图像中的文字被面部遮挡,您将更正这些错误。完成后,面部将正确定位在头发、太阳镜或文本内容后面,以确保元素具有正确的位置关系
Faceshifter(最右边的图像)甚至可以将模糊的原始图像处理为可信的伪造图像,效果优于最强大的deepfake算法 fsgan(右边的第二幅图像)
#Deepfakes效果很好。迪士尼还利用娱乐巨头迪士尼开发用于电影制作的deepfake技术,首款百万像素deepfake工具诞生。它可以生成1024 x 1024像素的图像。该专利还打破了类似工具(如deepfacelab)较差的256 x 256分辨率。即使在2021年初,deepfacelab 2.0的最大分辨率也只能支持448 x 448
从长远来看,迪士尼的deepfake技术有望取代传统的特效制作方法,消除几秒钟长的照片需要几个月才能渲染的困境
迪士尼粉丝也期待着这项技术。最近推出的星球大战电视剧《曼达洛人》没有使用数百万像素的deepfake新功能,但值得期待的是,YouTube上相同场景的deepfakes视频在效果上优于迪士尼的CGI艺术家#2021:deepfake巡演、直播和face rental 今年的新闻,来自Tom克鲁斯的deepfake视频开始了。这段视频最早出现在tiktok上,非常逼真,只有仔细研究才能发现其中的漏洞。出色的结果也产生了病毒传播和相关渠道。”;“Deeptomcruise”;并迅速积累了数十万粉丝和大量的汤姆邮轮迷的关注。该频道由视觉特效专家ChrisUme制作,他说每一段视频都需要几周的时间。 不久之后,wombo AI应用程序彻底征服了互联网:只需点击几下,我们就可以制作出任何人照片的短视频剪辑,其中该人将表演一首著名的歌曲。Wombo AI𞓜 就是从真实演员录制的视频中学习知识,然后将照片中人物的面部表情与原歌手的表情进行匹配,完成视频制作
Wombo AI真是太棒了,哈哈推特。com/A7aVT4ISBN
-海本10(@HeyBen10\u)2021 3月10日,迪士尼还在youtube上聘请了一位著名的deepfake主播,因此有传言称,未来其电影和电视剧中会有更多的deepfake角色。事实上,2021年底发布的系列“bobafet”也证实了这些猜测#社交和大众媒体中的深度假货𞓜 除了迪士尼,布鲁斯*威利斯的脸也出现在一则俄罗斯广告中。一家初创公司购买了其真实面孔的许可证,并使用deepfake®技术将其转换为营销内容。英伟达于2021发布了lias-Free Gan,即stylegan2 的改进版本,可以在视角变化的场景中提供更统一的生成效果。几个月后,stylegan3的优化版本很快出现在公众面前。2021,deepfacelab的创始人首次展示了deepfacelive。该程序可以在经过适当训练或接收预训练的ai 模型后,在实时视频中交换人脸。但要获得这种实时变脸功能,用户必须拥有一张能够支持3A游戏杰作的高端图形卡
2021,所谓的扩散模型在图像质量上也首次与Gan持平。虽然这项技术尚未在deepfake中使用,但它已成为2021年底推出的openai glide图像生成工具的基础#2022年:3D Gan,Dall-E 2和ZELINSKY deepfake 今年1月,另外两个令人印象深刻的Gan改进相继出现。特拉维夫大学的AI研究人员展示了stylegan2的变体,该变体可以在短视频剪辑中轻松操纵面部,例如使其微笑或使角色变瘦,而无需任何额外培训
来自NVIDIA和斯坦福大学的研究人员演示了高效几何感知3D生成对抗网络(eg3d)的实现方法。通过这种方法,AI可以从不同的角度以高度匹配的3D形式生成统一的角色(或小猫)图像
相应地,3D Gan也可以使用人类图像来恢复3D模型。因此,eg3d生成的伪造图像更真实,因为eg3d生成的字符在不同角度上总是一致的
2022年,斯坦福互联网天文台的研究人员在一项为期两周的研究中发现了1000多个来自LinkedIn的可疑伪造个人数据。70多家企业已将这些伪造材料认证为真人,其中大多数已被确定为值得跟进的潜在客户。一旦有效接触成功,真人将及时介入并继续以伪造字符的名义进行沟通
前段时间,俄罗斯和乌克兰之间的冲突中也发生了历史性的deepfake事件,引起了全球的关注
在视频中,伪造的乌克兰总统泽伦斯基呼吁国内民众放下武器。虽然视频分辨率很低,但伪造效果很差,所以效果不太好。目前,没有实证证据证明这是一段人工智能伪造的视频,但许多媒体和专家认为这基本上是一段深度伪造的视频。2022年4月,openai发布了Dall-E 2,一个可以通过文本描述生成图像的AI系统。该项目的完整版本预计将于2022年夏季发布-E 2及其底层扩散模型没有在deepfake中使用,openai也明确禁止使用该技术生成人脸。然而,这项技术肯定会在未来进一步提高合成图像的最终质量
#总结 当Gan技术的发明者goodflow于2014年首次展示他的工作时,他当然没有想到他的成就会促进人工智能伪造图像的快速发展。现在,他警告自己:在未来,人们将不再理所当然地相信图像和视频在互联网上传播。 最后,也许是精确的反 deepfake 算法无法识别最新的深度伪造结果,必然会给社交、娱乐等领域带来颠覆性的变化。Deepfake 专家Hao Li 认为这种猜测绝不是无根据。毕竟,图像的本质只是辅以适当颜色的像素—-AI 找到完美的布局方法只是时间问题。 此外, deepfakes 在 YouTUbe、Reface 乃至 Impressions随着平台的快速传播,伪造图像也将迅速渗透到我们的日常生活中。过去,人类曾经探索过在没有视频和照片的黑暗时代获取信息和形成意见的方法,但通往光明的大门似乎被新兴技术埋葬了。Goodfellow也忍不住叹了口气,“从角度来看,AI 也许是在蒙蔽我们这一代人观察世界的眼睛。” 原文链接:/en/history-of-deepfakes/