![这张图片展示了宝可梦的电子游戏、手办和玩具。2016年7月13日 SCMP/谢敏怡 [2016年7月18日 数字特稿]](https://storage.googleapis.com/bucket_wireeast/xlrss_media/6/2026/01/14/xlrss_69671ee176cbb.jpg)
(SeaPRwire) – 目前,在Twitch直播平台上,你可以观看三款全球最智能的AI系统——、、和——全力挑战经典宝可梦游戏。至少以人类的标准来看,它们的表现并不出色。
这些系统行动迟缓、过度自信,还常常陷入困惑。但如果你想了解这些系统当前在更广泛领域的能力,追踪它们成为宝可梦冠军的努力,会比每个新模型发布时那些往往难以理解的基准测试数据更能说明问题。
让大型语言模型(LLM)成为宝可梦大师的尝试始于去年2月,当时Anthropic的一名研究人员推出了 Claude 玩1996年Game Boy游戏《宝可梦 红》的,以配合Claude Sonnet 3.7的发布——该模型当时是全球最佳模型之一。正如该公司指出的,这是首个能真正玩这款游戏的Claude模型(此前的模型“漫无目的地游荡或陷入循环”,无法通过游戏的开场部分)。在最初的几周里,该直播吸引了约2000名观众,他们在公共聊天中为Claude加油助威。
大多数孩子能在20到40小时左右轻松通关这款游戏。Sonnet 3.7未能通关,经常一次卡关数十小时。Anthropic的最新模型Claude Opus 4.5的表现要好得多,但也经常卡关。有一次,它花了四天时间在一个道馆周围绕圈却无法进入,因为它没有意识到(或看不到)需要砍倒一棵树。去年5月,Google的Gemini模型完成了一款等效游戏,这让Google CEO桑达尔·皮查伊(Sundar Pichai)开玩笑地说,公司离创造“人工宝可梦智能”(Artificial Pokémon Intelligence)又近了一步。
但这并不意味着Gemini是更优秀的宝可梦大师。因为这两个AI系统使用了不同的“harness”。运营“Gemini玩宝可梦”直播的独立开发者解释说,harness最好理解为一套“钢铁侠”战衣,AI系统被装入其中,从而能够使用自身无法使用的工具并采取行动。Gemini的harness提供了更多帮助——例如,将游戏的视觉内容转换为文本,从而绕过其视觉推理的弱点,并提供自定义工具来解决谜题。与此同时,Claude被装入了一个更的harness,这意味着它的尝试更能反映模型本身的能力。
尽管模型与其harness之间的区别对普通用户来说并不明确,但harness已经改变了我们使用AI的方式。例如,当你向ChatGPT提出需要搜索网络的问题时,它会使用网络搜索工具——这就是其harness的一部分。在宝可梦游戏中,每个模型都在不同的自定义harness下运行,决定了它能采取哪些行动。
宝可梦非常适合测试AI的能力——不仅仅是因为它的文化知名度。与需要实时反应的《马里奥》不同,宝可梦是回合制游戏,没有时间压力。要玩游戏,AI模型会收到游戏截图和一个提示,说明其目标和可采取的行动。然后它会自行思考,并输出一个行动(比如“按A键”)。这就是一个步骤。截至撰写本文时,已经以人类时间玩了500多个小时的Opus 4.5正处于第170,000步。每一步,模型都会重新初始化,依靠前一个实例留下的信息——就像失忆者依赖便利贴一样。
令人惊讶的是,在国际象棋和围棋上表现超人类的AI系统,却在一款对六岁孩子来说很简单的游戏上遇到困难。但征服国际象棋和围棋的系统是为这些特定游戏专门构建的,不像Gemini、Claude和ChatGPT这样的通用系统。尽管如此,由于这些LLM在考试中持续取得优异成绩,并在编程竞赛中击败人类,它们在这里的不佳表现从表面上看令人困惑。
“AI面临的挑战在于‘能否在长时间内坚持完成一项任务’,”张说。至关重要的是,如果AI要实现认知工作的自动化,这种长期规划和执行的能力也是必要的。“如果你想让一个agent做你的工作,它不能忘记五分钟前做过的事情,”他说。
独立研究人员彼得·惠登(Peter Whidden)基于旧版AI开发了一款玩宝可梦的算法,他这样说:“AI了解宝可梦的一切。它接受了大量人类数据的训练。它知道自己该做什么,但执行起来却很笨拙。”尽管“agent”一词已经被营销炒作过度使用,但任何配得上这个词的AI系统都需要缩小知识与执行之间的差距,并能进行长期规划。
有迹象表明,这一差距正在开始缩小。与之前的模型相比,Opus 4.5更擅长给自己留笔记,再加上其理解所见内容的能力有所提高,这让它在游戏中走得更远。在通关《宝可梦 蓝》后,最新的Gemini系统(Gemini 3 Pro)又完成了更具挑战性的《宝可梦 水晶》,且未输一场战斗——这一成就其前代模型Gemini 2.5 Pro未能实现。
与此同时,Claude Code——本质上是一个允许Claude编写和运行自己的代码、构建自己软件的harness——已被应用于另一款复古游戏,据报道它在其中成功管理着一个主题公园。所有这些都指向一个奇特的未来:身着harness的AI系统可能能够完成大量知识工作——包括软件开发、会计、法律分析和平面设计——尽管它们在任何需要实时反应的事情上都很吃力,比如玩《使命召唤》(Call of Duty)。
这些宝可梦游戏运行还揭示了另一点:基于人类数据训练的模型会表现出类似人类的怪癖。例如,在Gemini 2.5 Pro中,Google指出,当模型模拟恐慌时——比如当它的宝可梦即将昏厥时——其推理能力会下降。
而且这些模型仍会以意想不到的方式行动。当Gemini 3 Pro通关《宝可梦 蓝》时,它给自己写道:“我已成功通关游戏,成为宝可梦联盟冠军并捕获了超梦(Mewtwo)。”然后它决定做一件出乎意料且未经要求的事,张觉得这件事很令人动容。“为了诗意地收尾,”它写道,“我要回到一切开始的地方——我的家,暂时‘退休’我的角色。我想最后再和妈妈说说话,结束这次游戏流程。”
本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。
分类: 头条新闻,日常新闻
SeaPRwire为公司和机构提供全球新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。