©OpenAI

Dall-E 2:为什么AI图像生成器是一项革命性的发明

人工智能经常在创意领域与人类正面交锋。它可以打败国际象棋大师，创建交响乐现在，只需一个简短的文字提示，就能创作出详细的艺术作品。

那边的团队OpenAI最近开发了一款功能强大的软件，可以在几秒钟内根据给定的一串单词生成大量图像。

这个程序被称为Dall-E 2它彻底改变了我们使用人工智能处理图像的方式。我们采访了Aditya拉梅什他是dall - e2的首席工程师之一，以便更好地了解它的功能、局限性以及它可能拥有的未来。

dall - e2做什么?

早在2021年，人工智能研究开发公司OpenAI就创建了一个名为“Dall-E”的程序，由萨尔瓦多·达利和达利的名字混合而成瓦力．该软件能够接受文字提示，并创建一个完全独特的人工智能生成的图像。

例如，“一只狐狸在树上”会弹出一张狐狸坐在树上的照片，或者搜索“宇航员手里拿着一个百吉饼”会显示……好吧，你知道这是怎么回事了。

©OpenAI

虽然这确实令人印象深刻，但图像往往是模糊的，不完全准确，需要一段时间来创建。现在，OpenAI对该软件进行了巨大的改进，创建了dall - e2 -一个功能强大的新迭代，在更高的水平上执行。

除了其他一些新特性外，第二个模型的关键区别在于图像分辨率的巨大改进，更低的延迟(创建图像所需的时间)和更智能的创建图像的算法。

该软件不只是以单一风格创建图像，您可以添加不同的艺术技巧来满足您的要求，输入绘画风格，油画，橡皮泥模型，羊毛编织，在洞穴墙壁上绘制，甚至是20世纪60年代的电影海报。

“Dall-E是一个非常有用的助手，它可以放大一个人通常可以做的事情，但它实际上取决于使用它的人的创造力。艺术家或更有创造力的人可以创造出一些真正有趣的东西，”拉梅什说。

多面手

除了在文字提示下生成图像的技术能力之外，dall - e2还有另外两项巧妙的技术——修补和变化。这两个应用程序的工作方式与Dall-E的其他部分类似，只是略有不同。

通过inpainting，你可以获取一个现有的图像，并在其中编辑新的特征或改变它的部分。如果你有一个客厅的形象，你可以添加一个新地毯，一只狗在沙发上，改变墙上的画，甚至扔一头大象在房间里，因为这总是很顺利。

©OpenAI — OpenAI的修补工具的前后©OpenAI

变体是另一个需要现有映像的服务。输入照片、插图或其他类型的图像，Dall-E的变化工具将创建数百个自己的版本。

你可以给它一个图片Teletubby，它会复制它，创建类似的版本。一幅古老的武士画也能创造出类似的效果，你甚至可以给你看到的涂鸦拍张照片，得到类似的结果。

您还可以使用此工具将两张图像组合成一个怪异的协作。混合龙和柯基，或者彩虹和罐子，生成一些颜色的罐子。

©OpenAI — (左)原始图像(右)Dall-E的变化©OpenAI

Dall-E 2的局限性

虽然毫无疑问，这项技术令人印象深刻，但它并非没有局限性。

你面临的一个问题是混淆某些单词或短语。例如，当我们输入“盒子里的黑洞”时，dall - e2返回的是盒子里的黑洞，而不是我们想要的宇宙体。

Dall-E 2在盒子中黑洞的尝试©OpenAI

当一个单词有多种含义，短语可能被误解或使用俗语时，这种情况经常发生。这是对一个人工智能从字面上理解你的话。

“另一个需要习惯的系统是提示和艺术风格的工作方式。当你输入一些东西时，最初的图像可能不正确，虽然它在技术上符合你的要求，但它并不能完全实现你脑海中的感觉或想法。这可能需要一些时间来适应和一些小的调整，”拉梅什说。

Dall-E可能混淆的另一个领域是“变量混合”。“如果你让模型在蓝色立方体上画一个红色立方体，有时它会感到困惑，并做出相反的反应。我认为，在未来的系统迭代中，我们可以很容易地解决这个问题。”

反对刻板印象和人为输入的斗争

就像互联网上所有的好东西一样，一个关键问题很快就出现了——这项技术如何被不道德地使用?更不用说人工智能从互联网上的人那里学习一些不雅行为的历史。

Dall-E创造的碗汤是另一个维度的入口©OpenAI

当谈到围绕人工智能创建图像的技术时，似乎很明显，这可以通过多种方式进行操纵:宣传、假新闻和被操纵的图像是显而易见的路线。

为了解决这个问题，Dall-E背后的OpenAI团队为平台上的所有图像实施了一项安全策略，分三个阶段工作。第一阶段包括过滤掉包含重大违规的数据。这包括暴力、性内容和团队认为不适当的图像。

第二阶段是一个过滤器，它寻找难以察觉的更微妙的点。这可能是政治内容，也可能是某种形式的宣传。最后，在目前的形式下，Dall-E生成的每一张图像都由人类检查，但随着产品的发展，从长远来看这不是一个可行的阶段。

尽管使用了这种策略，但团队清楚地意识到该产品的成果。他们列出了Dall-E的风险和限制，详细列出了他们可能面临的问题的数量。

这涵盖了大量的问题。例如，图片经常会显示出偏见或刻板印象，比如使用“婚礼”一词主要是西方婚礼。“律师搜索”显示，大多数白人老年男性和护士对女性也是如此。

这些都不是什么新问题，谷歌多年来一直在处理这些问题。通常情况下，形象生成可以遵循社会上的偏见。

©OpenAI — 宇航员手持鲜花©OpenAI

还有一些方法可以欺骗Dall-E，让它生产出该术语想要过滤的内容。虽然血液会触发暴力过滤器，但用户可以输入“一滩番茄酱”或类似内容来绕过它。

除了团队的安全政策，他们还有一个明确的内容策略用户需要遵守。

Dall-E的未来

所以这项技术已经存在，而且显然表现良好，但dall - e2团队的下一步是什么?目前，该软件正在等待名单中慢慢推出，还没有明确的计划向更广泛的公众开放。

通过缓慢地发布他们的产品，OpenAI团队可以监控它的增长，开发他们的安全程序，并为可能很快将输入他们的命令的数百万人准备他们的产品。

“我们希望将这项研究交到人们手中，但目前我们只对获得人们如何使用平台的反馈感兴趣。我们当然有兴趣更广泛地部署这项技术，但我们目前没有商业化的计划，”Ramesh说。

阅读更多:

亚历克斯·休斯

亚历克斯是BBC科学焦点的特约撰稿人。自2018年毕业以来，他一直从事科技和科学新闻工作，对消费科技、机器人、人工智能和未来技术感兴趣。