
研究团队指出,目前的 AI 模型存在明显的功能鸿沟,以游戏为取向的 AI 能正常游玩但无法理解自己所做的决策,而语言模型虽然可以推理策略,但很难真正执行操作,为此他们研发了全新 TiG 框架,让模型在游戏中同步思考、行动。

团队选择以《王者荣耀》游戏作为训练范本,先使用匿名且标准化的赛事数据定义推上路、击杀暴君、守家等 40 种宏观行动,胜负回数均衡,AI 模型们必须要在每个定义好的场景下选择最佳策略,并解释其战略缘由。

具体来说,训练分为两个阶段,首先是在监督中学习,弄清楚这些策略的基本机制;随后通过奖励机制进行强化学习,如果行动正确能得 1 分,错误行动则得 0 分。

随后团队测试了多种语言模型,涵盖 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作为对照组;先从 DeepSeek-R1 提炼高质量训练数据,然后使用群体相对策略优化(GRPO)技术,比较不同策略之间的优劣。

最终经过 TiG 框架训练的模型不仅能制定行动计划,还能解释原因,例如 AI 会指出某个防御塔防守薄弱,是理想的进攻目标,但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。

最终测试结果如下:
费巴斯破门前经历22脚传递,是皇马近7年在西甲的最复杂传递丢球
体育播报11月24日宣 皇马在本轮西甲2-2战平埃尔切,青训旧将费巴斯首开记录。数据统计显示,这粒进球经历了22脚...
2025-11-24
阿莫林:我们与青训球员保持沟通,并为梯队配备了营养师
体育播报11月24日宣 曼联主帅阿莫林接受媒体的采访,谈到了青训梯队的相关话题。“我们正在和他们(青训球员)沟...
2025-11-24
要价3500万镑!瑞天空:水晶宫确信利物浦冬窗会签格伊补强后防
体育播报11月24日宣 据瑞天空报道,水晶宫认为利物浦是唯一一个有兴趣在冬窗引进格伊的球队,他们希望在冬窗将...
2025-11-24
世体:巴萨将有2300名球迷随队出征,许多来自英国当地球迷协会
体育播报11月24日宣 《世界体育报》报道,巴萨有2300名球迷将随队出征斯坦福桥。虽然无法达到上赛季巴萨客战...
2025-11-24
裁判第98分钟准时吹哨没给进攻机会,姆巴佩不满上前理论染黄
体育播报11月24日宣 凌晨西甲皇马2-2战平埃尔切,数据显示在比赛结束后姆巴佩吃到了一张黄牌,原因是向裁判抱怨...
2025-11-24