AI大战典范游戏
研究背景
当前科技进步迅猛,人工智能的性能测试成为了焦点。上周,加州圣地亚哥分校的Hao人工智能实验室选择了《超级马力欧兄弟》这款典范游戏,用它来测试AI的能力。过去,游戏一直是评估AI成就的工具,这次用马力欧游戏来测试,有助于大家更综合地了解AI的表现。
实验室长期专注于AI领域的深入研究,这次他们别具一格地选择了游戏作为实验平台,意在在新的环境中挖掘AI的潜能。这一研究有望为AI的未来进步带来新的洞见和思路。
测试方式
这次测试并未采用1985年公开的《超级马力欧兄弟》的原始版本。游戏是在模拟器上运行的,而且通过壹个大家自主研发的框架和人工智能体系相连。这个框架使得AI能够操控马力欧。除了这些之后,实验室还给AI输出了基础操作指令,例如“注意前方有障碍或敌人,请给左移动或跳跃以避开”,而且还提供了游戏截图。
AI能够以代码形式控制马力欧。这一经过犹如为AI安排了一场“考试”,目的是观察其在游戏环境中的难题化解能力。借助严格的测试手段,实验室得以准确评估每个AI模型在游戏中的实际表现。
模型表现
在参和测试的AI模型里,3.7的表现最为出色。它能够迅速作出反应,规划出行途径,游戏操作显得很流畅。排在第二位的是3.5,同样显示了不错的游戏诀窍,能够在复杂环境中灵活应对。
相较之下,谷歌的1.5 Pro和GPT-4o的表现不尽理想。它们在应对游戏中的各种情形时,反应迟缓,操作不够精确,因而游戏进程和得分都不太令人满意。
推理和非推理模型差异
在实验中,大家发现o1这类推理模型的表现并不如“非推理”模型。通常情况下,推理模型在多数基准测试中表现得更为出色,然而在这场实时游戏中,它们却遭遇了挫折。缘故在于,它们需要数秒钟的时刻来做出决策。
在《超级马力欧兄弟》这款游戏中,时刻把握至关重要,稍纵即逝的一秒差异,也许导致结局截然不同。非推理模型因其反应迅速,能捕捉到游戏中稍纵即逝的机遇,因此在游戏中表现更为出色。
游戏测试质疑
虽然游戏在数十年的时刻里一直是评估人工智能性能的决定因素手段,然而,一些专家对将AI在游戏中的表现直接等同于技术进步的行为表示了怀疑。相较于现实全球,游戏往往更趋于抽象和简单,同时也能为AI的训练提供大量的数据支持。
在游戏环境中,AI的表现或许不能充分展示其在真正复杂环境中的实力。即便是一些出色的游戏基准测试成绩,也引发了大众所谓的“评估困境”。
后续思索
虽然对此有不同看法,看AI操作马力欧依然挺有意思。未来研究或许能更好地结合游戏和现实环境测试,综合评估AI的表现。除了这些之后,大家还需思考怎样提高AI在多变复杂环境中的适应力。
AI的进步之路尚且漫长,此次通过游戏进行AI测试仅是初步的寻觅。大家热切期待未来能有更多创造和优化,让AI在各行各业都能展现出其高效潜能。