Gary Marcus：文本生成图像系统理解不了世界离AGI还差得远

Android社区发表于 2022-09-20T14:44:41Z 收藏文章

但真的是如此吗？知名 AI 学者（给 AI 泼冷水爱好者） Gary Marcus 表示“持保留意见”。

最近，他提出，在评估 AGI 的进展时，关键要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 这样的系统是否真正理解世界，从而能够根据这些知识进行推理并进行决策。

在判断这些系统之于 AI （包括狭义和广义的 AI）的意义时，我们可以提出以下三个问题：

图像合成系统能否生成高质量的图像？
它们能否将语言输入与它们产生的图像关联起来？
它们了解它们所呈现出的图像背后的世界吗？

1.AI 不懂语言与图像的关联在第一个问题上，答案是肯定的。区别只在于，在用 AI 生成图像这件事儿上，经过训练的人类艺术家能做得更好。

在第二个问题上，答案就不一定了。在某些语言输入上，这些系统能表现良好，比如下图是 DALL-E 2 生成的“骑着马的宇航员”：

但在其他一些语言输入上，这些 AI 就表现欠佳、很容易被愚弄了。比如前段时间 Marcus 在Twitter上指出，这些系统在面对“骑着宇航员的马”时，难以生成对应的准确图像：

尽管深度学习的拥护者对此进行了激烈的反击，比如 AI 研究员 Joscha Bach 认为“Imagen 可能只是使用了错误的训练集”，机器学习教授 Luca Ambrogioni 反驳说，这正表明了“Imagen 已经具有一定程度的常识”，所以拒绝生成一些荒谬的东西。

还有一位Google的科学家 Behnam Neyshabur 提出，如果“以正确的方式提问”，Imagen 就可以画出“骑着宇航员的马”：

但是，Marcus 认为，问题的关键不在于系统能否生成图像，聪明的人总能找到办法让系统画出特定的图像，但这些系统并没有深刻理解语言与图像之间的关联，这才是关键。

2.不知道自行车轮子是啥**怎么能称是AGI？**系统对语言的理解还只是一方面，Marcus 指出，最重要的是，判断 DALL-E 等系统对 AGI 的贡献最终要取决于第三个问题：如果系统所能做的只是以一种偶然但令人惊叹的方式将许多句子转换为图像，它们可能会彻底改变人类艺术，但仍然不能真正与 AGI 相提并论，也根本代表不了 AGI。

让 Marcus 对这些系统理解世界的能力感到绝望的是最近的一些例子，比如平面设计师 Irina Blok 用 Imagen 生成的“带有很多孔的咖啡杯”图像：

正常人看了这张图都会觉得它违反常识，咖啡不可能不从孔里漏出来。类似的还有：

“带有方形轮子的自行车”

“布满仙人掌刺的厕纸”

说“有”容易说“无”难，谁能知道一个不存在的事物应当是什么样？这也是让 AI 绘制不可能事物的难题所在。

但又或许，系统只是“想”绘制一个超现实主义的图像呢，正如 DeepMind 研究教授 Michael Bronstein 所说的，他并不认为那是个糟糕的结果，换做是他，也会这样画。

那么如何最终解决这个问题呢？Gary Marcus 在最近同哲学家 Dave Chalmers 的一次交谈中获得了新的灵感。

为了了解系统对于部分和整体、以及功能的认识， Gary Marcus 提出了一项对系统性能是否正确有更清晰概念的任务，给出文本提示“Sketch a bicycle and label the parts that roll on the ground”（画出一辆自行车并标记出在地面上滚动的部分），以及“Sketch a ladder and label one of the parts you stand on”（画出一个梯子并标记出你站立的部分）。

这个测试的特别之处在于，并不直接给出“画出一辆自行车并标记出轮子”、“画出一个梯子并标记出踏板”这样的提示，而是让 AI 从“地面上滚动的部分”、“站立的部分”这样的描述中推理出对应的事物，这正是对 AI 理解世界能力的考验。

但 Marcus 的测试结果表明，Craiyon（以前称为 DALL-E mini）在这种事情上做得一塌糊涂，它并不能理解自行车的轮子和梯子的踏板是什么：

那么这是不是 DALL-E Mini 特有的问题呢？

Gary Marcus 发现并不是，在目前最火的文本生成图像系统 Stable Diffusion 中也出现了同样的结果。比如，让 Stable Diffusion “画一个人，并把拿东西的部分变成紫色”（Sketch a person and make the parts that hold things purple），结果是：