开源意识流

观点与事件:科技、开源、商业化

AI的阴暗面是人


By Renee

虽然 ChatGPT 在服务层面设置了内容审核,正常情况下用户会被禁止触发敏感回复,比如人身攻击、暴力、歧视、仇恨等等信息。但是每天无所事事的 Reddit 用户仍然能把 ChatGPT 玩出花来,最常见的玩法就是给 AI 虚构一个身份,然后让它们做一些不太正常的事情。

目前已经有用户成功触发 AI 发出辱骂川普、歧视女性以及崇拜希特勒的言论。有人将这种诱导大语言模型的情况称为“Waluigi效应”,Luigi 是任天堂的游戏角色,Waluigi 是它的邪恶版本的对手的名字。


ChatGPT 在做一些防止用户绕过限制的策略,但是一些用户发现效果不大。考虑到 AI 并不真正理解它们所说的话,也就无法为其言论负责。


不过另一方面,能够诱导 AI 的人,其方式基于他们自身懂得那些 evil 的话术,所以 AI 只不过是把人的内心反映出来而已。在这个事情上责怪 AI 意义不大,AI 的阴暗面毕竟是使用者本身。