摘要:
随着人工智能的不断进步,了解先进系统将如何做出选择以及它们可能以何种方式失败是很重要的。 机器已经可以在某些领域超越人类,并且了解如何安全地构建可能具有人类水平或更高能力的机器尤其值得关注。
人们可能会怀疑,通用人工智能 (AGI) 和人工超级智能 (ASI) 将是人类无法可靠地智胜的系统。
作为对这一假设的挑战,本文提出了阿喀琉斯之踵假说,该假说指出,即使是潜在的超级智能系统也可能具有稳定的决策理论错觉,导致它们在对抗性环境中做出不合理的决定。
在对决策理论文献中的关键困境和悖论的调查中,在该假设的背景下讨论了许多这些潜在的致命弱点。
为了理解将这些弱点植入系统的方式,做出了一些新颖的贡献