AI的阴暗面是人
By Renee
虽然 ChatGPT 在服务层面设置了内容审核,正常情况下用户会被禁止触发敏感回复,比如人身攻击、暴力、歧视、仇恨等等信息。但是每天无所事事的 Reddit 用户仍然能把 ChatGPT 玩出花来,最常见的玩法就是给 AI 虚构一个身份,然后让它们做一些不太正常的事情。
目前已经有用户成功触发 AI 发出辱骂川普、歧视女性以及崇拜希特勒的言论。有人将这种诱导大语言模型的情况称为“Waluigi效应”,Luigi 是任天堂的游戏角色,Waluigi 是它的邪恶版本的对手的名字。
ChatGPT 在做一些防止用户绕过限制的策略,但是一些用户发现效果不大。考虑到 AI 并不真正理解它们所说的话,也就无法为其言论负责。
不过另一方面,能够诱导 AI 的人,其方式基于他们自身懂得那些 evil 的话术,所以 AI 只不过是把人的内心反映出来而已。在这个事情上责怪 AI 意义不大,AI 的阴暗面毕竟是使用者本身。
Twitter: @fossflow
All rights reserved by FossFlow CC4.0-BY-SA-NC
其他事件
© Copyright FossFlow team, all rights reserved.
HTML template:
© Copyright 2016-Tech News . Design by: uiCookies Technology News Magazine