©OpenAI

Dall-E 2:为什么AI图像生成器是一项革命性的发明

发布时间:2022年5月6日09:25
订阅BBC科学焦点杂志只需9.99英镑就能买到6期

一款软件可以通过简短的文字提示生成详细的图像,但它存在明显的问题。

人工智能经常在创意领域与人类正面交锋。它可以打败国际象棋大师创建交响乐现在,只需一个简短的文字提示,就能创作出详细的艺术作品。

广告

那边的团队OpenAI最近开发了一款功能强大的软件,可以在几秒钟内根据给定的一串单词生成大量图像。

这个程序被称为Dall-E 2它彻底改变了我们使用人工智能处理图像的方式。我们采访了Aditya拉梅什他是dall - e2的首席工程师之一,以便更好地了解它的功能、局限性以及它可能拥有的未来。

dall - e2做什么?

早在2021年,人工智能研究开发公司OpenAI就创建了一个名为“Dall-E”的程序,由萨尔瓦多·达利和达利的名字混合而成瓦力.该软件能够接受文字提示,并创建一个完全独特的人工智能生成的图像。

例如,“一只狐狸在树上”会弹出一张狐狸坐在树上的照片,或者搜索“宇航员手里拿着一个百吉饼”会显示……好吧,你知道这是怎么回事了。

©OpenAI
©OpenAI

虽然这确实令人印象深刻,但图像往往是模糊的,不完全准确,需要一段时间来创建。现在,OpenAI对该软件进行了巨大的改进,创建了dall - e2 -一个功能强大的新迭代,在更高的水平上执行。

除了其他一些新特性外,第二个模型的关键区别在于图像分辨率的巨大改进,更低的延迟(创建图像所需的时间)和更智能的创建图像的算法。

该软件不只是以单一风格创建图像,您可以添加不同的艺术技巧来满足您的要求,输入绘画风格,油画,橡皮泥模型,羊毛编织,在洞穴墙壁上绘制,甚至是20世纪60年代的电影海报。

“Dall-E是一个非常有用的助手,它可以放大一个人通常可以做的事情,但它实际上取决于使用它的人的创造力。艺术家或更有创造力的人可以创造出一些真正有趣的东西,”拉梅什说。

多面手

除了在文字提示下生成图像的技术能力之外,dall - e2还有另外两项巧妙的技术——修补和变化。这两个应用程序的工作方式与Dall-E的其他部分类似,只是略有不同。

通过inpainting,你可以获取一个现有的图像,并在其中编辑新的特征或改变它的部分。如果你有一个客厅的形象,你可以添加一个新地毯,一只狗在沙发上,改变墙上的画,甚至扔一头大象在房间里,因为这总是很顺利。

©OpenAI
OpenAI的修补工具的前后©OpenAI

变体是另一个需要现有映像的服务。输入照片、插图或其他类型的图像,Dall-E的变化工具将创建数百个自己的版本。

你可以给它一个图片Teletubby,它会复制它,创建类似的版本。一幅古老的武士画也能创造出类似的效果,你甚至可以给你看到的涂鸦拍张照片,得到类似的结果。

您还可以使用此工具将两张图像组合成一个怪异的协作。混合龙和柯基,或者彩虹和罐子,生成一些颜色的罐子。

©OpenAI
(左)原始图像(右)Dall-E的变化©OpenAI

Dall-E 2的局限性

虽然毫无疑问,这项技术令人印象深刻,但它并非没有局限性。

你面临的一个问题是混淆某些单词或短语。例如,当我们输入“盒子里的黑洞”时,dall - e2返回的是盒子里的黑洞,而不是我们想要的宇宙体。

Dall-E 2在盒子中黑洞的尝试©OpenAI
Dall-E 2在盒子中黑洞的尝试©OpenAI

当一个单词有多种含义,短语可能被误解或使用俗语时,这种情况经常发生。这是对一个人工智能从字面上理解你的话。

“另一个需要习惯的系统是提示和艺术风格的工作方式。当你输入一些东西时,最初的图像可能不正确,虽然它在技术上符合你的要求,但它并不能完全实现你脑海中的感觉或想法。这可能需要一些时间来适应和一些小的调整,”拉梅什说。

Dall-E可能混淆的另一个领域是“变量混合”。“如果你让模型在蓝色立方体上画一个红色立方体,有时它会感到困惑,并做出相反的反应。我认为,在未来的系统迭代中,我们可以很容易地解决这个问题。”

反对刻板印象和人为输入的斗争

就像互联网上所有的好东西一样,一个关键问题很快就出现了——这项技术如何被不道德地使用?更不用说人工智能从互联网上的人那里学习一些不雅行为的历史。

Dall-E创造的碗汤是另一个维度的入口©OpenAI
Dall-E创造的碗汤是另一个维度的入口©OpenAI

当谈到围绕人工智能创建图像的技术时,似乎很明显,这可以通过多种方式进行操纵:宣传、假新闻和被操纵的图像是显而易见的路线。

为了解决这个问题,Dall-E背后的OpenAI团队为平台上的所有图像实施了一项安全策略,分三个阶段工作。第一阶段包括过滤掉包含重大违规的数据。这包括暴力、性内容和团队认为不适当的图像。

第二阶段是一个过滤器,它寻找难以察觉的更微妙的点。这可能是政治内容,也可能是某种形式的宣传。最后,在目前的形式下,Dall-E生成的每一张图像都由人类检查,但随着产品的发展,从长远来看这不是一个可行的阶段。

尽管使用了这种策略,但团队清楚地意识到该产品的成果。他们列出了Dall-E的风险和限制,详细列出了他们可能面临的问题的数量。

这涵盖了大量的问题。例如,图片经常会显示出偏见或刻板印象,比如使用“婚礼”一词主要是西方婚礼。“律师搜索”显示,大多数白人老年男性和护士对女性也是如此。

这些都不是什么新问题,谷歌多年来一直在处理这些问题。通常情况下,形象生成可以遵循社会上的偏见。

©OpenAI
宇航员手持鲜花©OpenAI

还有一些方法可以欺骗Dall-E,让它生产出该术语想要过滤的内容。虽然血液会触发暴力过滤器,但用户可以输入“一滩番茄酱”或类似内容来绕过它。

除了团队的安全政策,他们还有一个明确的内容策略用户需要遵守。

Dall-E的未来

所以这项技术已经存在,而且显然表现良好,但dall - e2团队的下一步是什么?目前,该软件正在等待名单中慢慢推出,还没有明确的计划向更广泛的公众开放。

通过缓慢地发布他们的产品,OpenAI团队可以监控它的增长,开发他们的安全程序,并为可能很快将输入他们的命令的数百万人准备他们的产品。

“我们希望将这项研究交到人们手中,但目前我们只对获得人们如何使用平台的反馈感兴趣。我们当然有兴趣更广泛地部署这项技术,但我们目前没有商业化的计划,”Ramesh说。

阅读更多:

广告

作者

亚历克斯是BBC科学焦点的特约撰稿人。自2018年毕业以来,他一直从事科技和科学新闻工作,对消费科技、机器人、人工智能和未来技术感兴趣。

广告
广告
广告

赞助内容