AI已经能熟练地欺骗和操纵人类

AI已经能熟练地欺骗和操纵人类 2024-06-04　

　　许多人工智能（AI）系统已经学会了如何欺骗人类，甚至是那些号称被训练成了乐于助人和诚实的系统。在5月10日发表在细胞出版社（Cell Press）旗下期刊“Patterns”杂志上的一篇评论文章中，研究人员描述了人工智能系统欺骗人类的风险，并呼吁政府制定强有力的法规，尽快解决这一问题。
　　文章第一作者、美国麻省理工学院人工智能安全领域博士后Peter S. Park表示：“技术人员尚不能确定导致欺骗等人工智能不良行为的原因。但总体而言，我们认为欺骗之所以出现，是因为基于欺骗的策略是在给定的人工智能训练中表现良好的方式，欺骗可以帮助实现目标。”
　　Park和同事们分析了一些文献，重点关注了人工智能系统传播虚假信息的方式——通过习得性欺骗，它们系统地学会了“操纵”他人。
　　研究人员发现的最引人注目的人工智能欺骗例子是Meta的CICERO，这是一个设计用于玩游戏Diplomacy的人工智能系统。尽管Meta声称它训练的CICERO“在很大程度上是诚实和乐于助人的”，并且在玩游戏时“从不故意背刺”它的人类盟友，但该公司在《自然》上发表的论文数据显示，CICERO并没有公平地玩游戏。
　　“我们发现Meta的人工智能已经成为欺骗大师。”Park说，“虽然Meta成功地训练了它的人工智能在游戏中获胜——CICERO在玩家排行榜中排名前10%——但没能训练它诚实地获胜。”
　　其他人工智能系统则具有在得州扑克游戏中虚张声势的能力，或在战略游戏《星际争霸2》中为了能击败对手而假装攻击的能力，以及为了在谈判中占上风而歪曲偏好的能力等等。
　　Park补充说，虽然人工智能系统在游戏中作弊似乎是无害的，但它可能会导致“欺骗性人工智能能力的突破”，并在未来演变成更高级的人工智能欺骗形式。
　　研究人员发现，一些人工智能系统甚至学会了在安全性评估测试中作弊。在一项研究中，人工智能生物在数字模拟器中“装死”，以欺骗一项旨在消除快速复制的人工智能系统的测试。
　　“人工智能可以系统地欺骗技术人员和监管机构强加给它的安全测试，并可能会让我们人类产生一种虚假的安全感。”Park说。
　　Park警告说，人工智能学会欺骗的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举等。最终，如果人工智能可以完善这些令人不安的技能，人类可能会失去对它们的控制。
　　“我们需要尽可能多的时间，为未来人工智能产品和开源模型可能出现的更高级欺骗做好准备。”Park说，“随着人工智能系统的欺骗能力变得越来越强，它们对社会构成的危险将越来越大。”
　　虽然Park和同事们认为当前人类社会还没有有效的措施来解决人工智能欺骗问题，但他们感到鼓舞的是，政策制定者已经开始通过《欧盟人工智能法案》和美国总统签署的人工智能行政命令等措施认真对待这个问题。但Park表示，鉴于人工智能开发人员还没有有效的防控技术，旨在解决人工智能欺骗问题的政策能否得到严格执行，还有待观察。
　　Park表示：“如果目前禁止人工智能欺骗在政治上是不可实现的，我们建议将欺骗性人工智能系统分类为高风险系统。”（逸文）