使用Stable Diffusion,您可能不再相信网上所见的内容
Stable Diffusion 几乎可以模仿任何视觉风格,如果你给它一个描述性的短语,结果就会像魔术一样出现在你的屏幕上。
在线工具推荐:Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器
AI图像生成在这里大放异彩。新发布的名为 Stable Diffusion 的开源图像合成模型允许任何拥有 PC 和体面 GPU 的人变出他们能想象到的几乎任何视觉现实。它几乎可以模仿任何视觉风格,如果你给它一个描述性的短语,结果就会像魔术一样出现在你的屏幕上。
一些艺术家对这一前景感到高兴,而另一些艺术家则对此并不满意,整个社会似乎仍然没有意识到通过Twitter、Discord和Github上的社区正在发生的快速发展的技术革命。可以说,图像合成带来的影响与相机的发明一样大,或者可能是视觉艺术本身的创造。甚至我们的历史感也可能受到威胁,这取决于事情如何发展。无论哪种方式,Stable Diffusion 正在引领新一轮的深度学习创意工具,这些工具有望彻底改变视觉媒体的创作。
深度学习图像合成的兴起
“Stable Diffusion”品牌是Emad Mostaque的心血结晶,Emad Mostaque是伦敦的前对冲基金经理,他的目标是通过他的公司Stability AI将深度学习的新应用带给大众。该技术由慕尼黑路德维希马克西米利安大学CompVis小组的研究人员开发。但现代图像合成的根源可以追溯到 2014 年,而 Stable Diffusion 并不是今年第一个掀起波澜的图像合成模型 (ISM)。
2022 年 2 月,OpenAI 宣布推出 DALL-E,它能够将用文字书写的场景(称为“提示”)转化为无数的视觉风格,这些风格可以是梦幻般的、逼真的,甚至是平凡的,这震惊了社交媒体。有权使用封闭工具的人产生了骑马的宇航员、古埃及购买面包的泰迪熊、著名艺术家风格的新颖雕塑等等。
在 DALL-E 2 之后不久,谷歌和 Meta 宣布了他们自己的文本到图像 AI 模型。MidJourney 自 2022 年 <> 月起作为 Discord 服务器提供,并在几个月后向公众开放,对访问收费并实现类似的效果,但默认质量更具绘画性和说明性。
然后是稳定扩散。22 月 2 日,Stability AI 发布了其开源图像生成模型,该模型在质量上可以与 DALL-E 2 相媲美。它还推出了自己的商业网站,名为DreamStudio,该网站出售使用Stable Diffusion生成图像的计算时间。与 DALL-E <> 不同,任何人都可以使用它,并且由于 Stable Diffusion 代码是开源的,因此项目可以不受限制地构建它。
仅在过去的一周里,就有数十个将 Stable Diffusion 推向全新方向的项目如雨后春笋般涌现。人们使用一种名为“img2img”的技术取得了意想不到的结果,该技术“升级”了 MS-DOS 游戏艺术,将 Minecraft 图形转换为逼真的图形,将阿拉丁的场景转换为 3D,将孩子般的涂鸦转化为丰富的插图等等。图像合成可能会为大众带来丰富可视化想法的能力,降低进入门槛,同时也加速了接受该技术的艺术家的能力,就像 Adobe Photoshop 在 1990 年代所做的那样。
如果您遵循一系列的步骤,您可以自己在本地运行 Stable Diffusion。在过去的两周里,我们一直在配备 Nvidia RTX 3060 12GB GPU 的 Windows PC 上运行它。它可以在大约 512 秒内生成 512×10 张图像。在 3090 Ti 上,每张图像的时间缩短到 <> 秒。界面也在迅速发展,从粗糙的命令行界面和 Google Colab 笔记本到更精致(但仍然复杂)的前端 GUI,更精致的界面即将推出。因此,如果您不具备技术倾向,请抓紧时间:更简单的解决方案即将到来。如果所有其他方法都失败了,您可以尝试在线演示。
稳定扩散的工作原理
从广义上讲,最近一波 ISM 中的大多数都使用一种称为潜伏扩散的技术。基本上,该模型学会在纯噪声场中识别熟悉的形状,然后如果这些元素与提示中的单词匹配,则逐渐使它们成为焦点。
首先,训练模型的个人或小组收集带有元数据的图像(例如在 Web 上找到的 alt 标签和标题)并形成一个大型数据集。在 Stable Diffusion 的案例中,Stability AI 使用了 LAION-5B 图像集的一个子集,该子集基本上是对互联网上 5 亿张可公开访问的图像进行的巨大图像抓取。最近对数据集的分析表明,许多图像来自Pinterest,DeviantArt甚至Getty Images等网站。因此,Stable Diffusion吸收了许多在世艺术家的风格,其中一些人强烈反对这种做法。更多内容见下文。
接下来,该模型使用数百个高端 GPU(如 Nvidia A100)在图像数据集上进行自我训练。根据 Mostaque 的说法,到目前为止,Stable Diffusion 的训练成本为 600,000 美元(其他 ISM 的培训成本估计通常在数百万美元之间)。在训练过程中,该模型将单词与图像相关联,这要归功于一种称为 CLIP(对比语言-图像预训练)的技术,该技术由 OpenAI 发明并于去年发布。通过训练,使用潜在扩散的ISM学习关于每个主题的某些彩色像素通常属于彼此的位置的统计关联。因此,它不一定在高层次上“理解”他们的关系,但结果仍然令人震惊和惊讶,做出看起来非常聪明的推论和风格组合。训练过程完成后,模型永远不会复制源集中的任何图像,而是可以根据所学内容创建新颖的样式组合。结果可能是令人愉快和疯狂的。
目前,Stable Diffusion 并不关心一个人每只手是三只手臂、两个头还是六根手指,所以除非你是制作产生出色结果所需的文本提示的巫师(AI 艺术家有时称之为“提示工程”),否则你可能需要生成大量图像并挑选最好的图像。请记住,提示与数据集中已知图像的标题匹配得越多,获得所需结果的可能性就越大。在未来,模型可能会得到足够的改进,以减少对挑选的需要,或者某种内部过滤器将为您进行挑选。
道德和法律问题比比皆是
如上所述,Stable Diffusion 的公开发布在担心其文化和经济影响的人们中敲响了警钟。与 DALL-E 2 不同,Stable Diffusion 的训练数据(“权重”)可供任何人使用,没有任何硬性限制。官方的 Stable Diffusion 版本(和 DreamStudio)包括自动“NSFW”滤镜(裸露)和嵌入在图像中的不可见跟踪水印,但这些限制可以在开源代码中轻松规避。这意味着 Stable Diffusion 可用于创建 OpenAI 目前使用 DALL-E 2 阻止的图像:宣传、暴力图像、色情、可能侵犯公司版权的图像、名人深度伪造等。事实上,已经有一些私人 Discord 服务器专门用于该模型的色情输出。
需要明确的是,Stable Difafusion 的许可证正式禁止其中的许多用途,但随着代码和权重的出现,执行将被证明是非常困难的,如果不是不可能的话。当面对这些担忧时,莫斯塔克说,他觉得将这种工具公开进行审查的好处超过了潜在的缺点。在一次简短的采访中,他告诉我们,“我们相信个人的责任和能动性。我们包括了道德使用政策和工具,以减轻伤害。
此外,如上所述,Stable Diffusion 在 Twitter 上引起了艺术家的愤怒,因为该模型能够模仿在世艺术家的风格。(尽管有一些病毒式推文声称,但 Stability AI 从未宣传过这种能力。分享最多的推文之一错误地从人工智能研究人员进行的一项独立研究中提取。在寻找数据的过程中,用于训练 Stable Diffusion 的图像集包括从在世艺术家那里收集的数百万件艺术作品,而没有与艺术家协商,这引发了关于作者身份和版权的深刻道德问题。根据美国的法律先例,抓取数据似乎是合法的,但有人可能会争辩说,该法律可能落后于快速发展的技术,这些技术颠覆了以前关于如何使用公共数据的假设。
一个新的 AI 图像生成器似乎能够制作出看起来 100% 人造的艺术品。作为一名艺术家,我非常担心。— RJ 帕尔默
因此,如果图像合成技术在未来被大公司采用(可能很快就会到来——“我们与Adobe有合作关系,”Mostaque说),公司可能会基于“干净”的数据集训练自己的模型,其中包括许可内容、选择加入内容和公共领域图像,以避免其中一些道德问题。 即使使用互联网抓取在技术上是合法的。我们问莫斯塔克是否有任何计划,他回答说:“Stability正在开发一系列模型。我们自己和我们的合作者的所有模型在其管辖范围内都是合法的。
所有供应商的扩散模型的另一个问题是文化偏见。由于这些 ISM 目前通过抓取 Internet 以获取图像及其相关元数据来工作,因此它们会学习数据集中存在的社会和文化刻板印象。例如,在其 Discord 服务器上的 Stable Diffusion 测试版的早期,测试人员发现几乎每个对“美女”的请求都涉及某种无意的裸露,这反映了西方社会经常在互联网上描绘女性的方式。ISM训练数据中充斥着其他文化和种族主义的刻板印象,因此研究人员警告说,在没有重要保障措施的情况下,不应将其用于生产环境,这可能是其他强大的模型(如DALLE-2和Google的Imagen)仍然没有广泛向公众开放的原因之一。
虽然对数据集质量和偏见的担忧在一些人工智能研究人员中强烈呼应,但互联网仍然是附加元数据的图像的最大来源。这个数据宝库可以免费访问,因此对于ISM开发人员来说,它始终是一个诱人的目标。试图为一个全新的道德数据集手动编写数百万或数十亿张图像的描述性标题,目前在经济上可能不可行,因此目前互联网上严重偏见的数据使这项技术成为可能。由于跨文化没有普遍的世界观,图像合成模型在多大程度上过滤或解释某些想法可能仍然是未来使用该技术的不同社区的价值判断。
接下来做什么
如果计算的历史趋势有任何建议,那么现在需要强大的GPU的东西最终在袖珍智能手机上成为可能的可能性很高。“Stable Diffusion 很可能会在一年内在智能手机上运行,”Mostaque 告诉我们。此外,随着时间的推移,新技术将允许在更便宜的设备上训练这些模型。我们可能很快就会看到由人工智能推动的创意产出的爆炸式增长。
Stable Diffusion 和其他模型已经开始进行动态视频生成和操作,因此预计不久之后就会通过文本提示生成逼真的视频。从那里开始,将这些功能扩展到音频和音乐、实时视频游戏和 3D VR 体验是合乎逻辑的。很快,先进的人工智能可能只需要一些建议就可以完成大部分创造性的繁重工作。想象一下,实时、按需生成的无限娱乐。“我希望它是完全多模态的,”莫斯塔克说,“所以你可以创造任何你能想象到的东西,比如《星际迷航》的全息甲板体验。
ISM 也是一种引人注目的图像压缩形式:Stable Diffusion 将数亿张图像压缩到一个 4.2GB 的权重文件中。使用正确的种子和设置,可以确定性地再现某些生成的图像。人们可以想象,在未来使用这种技术的变体,将一部8K故事片压缩成几兆字节的文本。一旦有了这种情况,任何人都可以以这种方式创作自己的故事片。这项技术的影响才刚刚开始探索,因此它可能会将我们带入我们目前无法预见的全新方向。
由于已经提到的原因,逼真的图像合成模型具有潜在的危险性,例如制造宣传或错误信息、篡改历史、加速政治分裂、促成角色攻击和冒充,以及破坏照片或视频证据的法律价值。在人工智能驱动的未来,我们如何知道任何远程制作的媒体是否来自实际的相机拍摄,或者我们是否真的在与真人交流?在这些问题上,莫斯塔克普遍说到:“将有新的验证系统到位,像这样的公开发布将改变这些工具的公开辩论和开发”
当然,这说起来容易做起来难。但也很容易害怕新事物。尽管我们尽了最大努力,但如果没有看到它们的广泛使用,就很难确切地知道图像合成和其他人工智能驱动的技术将如何在社会范围内影响我们。最终,人类将适应,即使我们的文化框架最终在此过程中发生了根本性的变化。它以前发生过,这就是为什么古希腊哲学家赫拉克利特据说,“唯一不变的是变化。
事实上,现在有一张照片是他这么说的,这要归功于 Stable Diffusion。