cw

感恩节诡忌AI的原由（1）

cw (2023-11-28 10:45:36) 评论 (0)

感恩节过了，一切回归正常。回过头来补充几句“正经话”。

不少朋友说看了我为感恩节做的视频和与ChatGPT过招的过程后，感觉”细思极恐“。有朋友问从技术层面有没有什么解释。

那天的ChatGPT之所以表现得那么诡忌，一方面是因为它的一些缺陷，另一方面却是因为我的主观解读。今天的AI还没有到能够主动和我们作对的地步。我们的“细思”多少有些杯弓蛇影，自己吓自己。我当时有些主观带入，体会了一下人类可能面对的未来。

为什么图里明明有机器人而ChatGPT说没有

在ChatGPT里面产生图画其实用的是 ChatGPT 和 Dall.E 两个完全独立的系统。它们之间的交互非常简单。ChatGPT 自己并不能作图。它是把我的指令解析以后再传给 Dall.E。Dall.E 再解析 ChatGPT 提供的指令。然后根据自己的解析作图。ChatGPT不会分析Dall.E 产生的图。所以 Dall.E 最后画了什么 ChatGPT 并不知道。它只是假设 Dall.E 完全执行了它的指令。然后给我图的说明。所以当 Dall.E 不能完全满足 ChatGPT 给它的要求时，我们看到的图和图的描述就会不一致。

而对同样的描述，我在过程的前后带入了主观情绪，给出了不同的解读，有了AI和我作对的幻觉。所以不仅AI 会hallucinate, 我们人更会。

为什么ChatGPT会如此执着地把机器人进入我的图画里

这主要是因为ChatGPT 和 Dall.E 这类内容生成系统在处理包容性要求和排除性要求时能力有差异，特别是AI图像生成系统。

一般来说包容性的要求通常更可预测，更容易量化。例如，指定画面中不同种族人数。又比如要某种动物，或者某种视觉效果，这些是可以直接控制的，容易做到。但排除性的要求就比较难执行。排除性的要求通常需要对要求有更细致的理解，需要系统持续有效地监控整个内容生成的过程，并实时做出必要的调整。当内容在很大程度上是随机产生的时候，ChatGPT这种产生文本的系统可以把排除性要求做得很好。但是这对图像生成系统如 Dall.E 就要复杂很多，难很多。

识别并且排除特定元素比基于关键词生成图像更复杂。图像生成涉及到以一致的方式综合视觉元素。排除一个元素要求模型不仅要理解什么应该被留下，还要用适当的替代品填补那个概念或视觉空间，这增加了排除性要求复杂性。

Dall·E 和ChatGPT不同。它是通过解析指令中的关键词来工作，而不是像ChatGPT那样分析整个文本。Dall.E 重在识别和图像生成有关的主要元素和概念。在我的指令中，“人工智能时代”和“机器人”即使在ChatGPT解析以后，仍然是突出的关键词。尽管我指示排除机器人，因为训练数据很可能包含大量将“人工智能”与“机器人”视为相关概念的例子，Dall.E 在生成与人工智能相关的图像时，就可能会倾向于包含机器人。在这个过程中，我的“不要机器人”的要求可能就没有得到该有的权重，基本被忽视了。

目前还没有任何评论