今年,人工智能它赢得了艺术比赛,统治了互联网,通过了法律考试,并证明了它是未来的技术……但它仍然不能准确地制造一只手。

广告

尽管人工智能图像生成器已经做了很多工作,但手已经成为它们的克星,暴露了模型的弱点。

而这一直是一个明显的问题,从崛起Dall-E 2和所有的竞争对手,这个问题成为了关注的中心,因为推特用户收集了人工智能生成器生成的图像Midjourney

乍一看,它们令人印象深刻,在派对上创造了一群看起来很现实的人。然而,在一张照片中,有人有三只手,另一个人有七根手指和一个手掌很长,最后一张照片是一个人用向后的手指打电话。

那么,为什么这么小的障碍会造成机器上的一个齿轮呢?“这些是2D图像生成器,完全没有手等物体的三维几何概念。彼得·宾利他是伦敦大学学院的计算机科学家和作家。

“他们已经掌握了手的基本概念。它有手掌、手指和指甲,但这些模型都不知道完整的东西是什么。”

Dall-E 2试图重建双手©Dall-E 2
Dall-E 2试图重建双手©Dall-E 2

如果你只是想要得到一只手的一个非常一般的图像,这不会有太大的问题。问题是一旦你给了模型背景。如果它不能理解手的3D性质或情境的背景,它将很难准确地重建它。

例如,一只手拿着一把刀或相机之类的物体,或者有人用手做一个符号,都会立即让一个模型感到困惑,因为它对手的3D理解或它所持物体的几何形状不了解。

“我让Dall-E展示一张双手手指交叉的照片,我得到了一些奇怪的结果。它向我展示了其中一人的两个手腕和一个手球。”宾利说。

“但你可以理解其中的原因。它真的不知道自己在做什么,它只是把它看到的所有图像尽可能地结合起来,以满足你的文字描述。”

然而,不仅仅是dall - e2在与此作斗争。其他流行的形象模型,如中游和稳定的扩散都面临着同样不可能完成的任务那就是做一只正常的手。

仔细看看这张照片

虽然通常感觉这些模型创造的图像近乎完美,但实际上它们往往有很大的缺陷。你看得越多,就越有可能发现大量不准确的细节。

Midjourney经常倾向于恐龙的手©Midjourney
Midjourney经常倾向于恐龙的手©Midjourney

这在一定程度上取决于用户和他们使用的提示的强度,有些人从详细的提示中获得了近乎完美的图像。但实际上,这主要是模型本身的问题。

更像这样

“当你仔细观察时,会发现某个地方有一个明显的信号,表明物理定律正在以某种方式被打破。也许有一只手臂穿过了某人的胃,或者是一只触角太多的章鱼,或者是一棵漂浮在地面上的树,”本特利说。

“因为他们刚刚被灌输了很多很多的例子,所以它正在尽可能地把它们拼凑在一起。”

这有时会导致一些奇怪的结果,通常会给人一种类似萨尔瓦多·达利画作的梦幻般的感觉。

“这些模型脱离了现实,它们没有任何背景,实际上它们没有任何知识或能力来考虑图像的背景。他们只是把我们给它的所有垃圾结合在一起。”

在这些图像中,手指经常一起变形©Dall-E 2

人工智能图像的主要障碍

所以这些模型很好,甚至很棒,但距离创造完美的图像还有很长的路要走。怎样才能解决这个问题,最终创造出一只看起来不像大卫·柯南伯格的手呢?

“这一切在未来都可能改变。这些网络正在慢慢接受3D几何图形的训练,以便它们能够理解图像背后的形状。这将给我们一个更连贯的图像,即使有复杂的提示,”Bently说。

“获得足够的3D设计数据可能需要时间。目前,我们得到的是这些二维图像形式的简单结果。在没有上下文的情况下,很容易在互联网上搜索到100万张图片。”

这是OpenAI开始用它的点e技术,创造了一个可以根据短信提示创建3D模型的系统。虽然它目前可供公众使用,但距离产生准确的结果还有很长的路要走。

然而,当结果出来时,它们可能会导致高度详细的3D效果图,甚至数字世界。正如本特利解释的那样:“很多钱都投入了元宇宙对3D模型感兴趣。因此,通过这些综合预算,我们很有可能看到人工智能创造出越来越令人印象深刻的3D模型。”

广告

这项技术可以继续改进,做出更大、更令人印象深刻的东西。现在我们看到的是由人工智能创造的2D图像,未来可能是高度详细的3D渲染,甚至是数字世界。

关于我们的专家,彼得·本特利博士

Peter是伦敦大学学院的计算机科学家和作家。他的著作包括10节人工智能和机器人短课而且数字生物学

阅读更多:

作者

亚历克斯是BBC科学焦点的特约撰稿人。他曾为多个科技和科学品牌工作,对消费科技、机器人、人工智能和未来技术感兴趣。

广告
广告
广告