据2020年12月23日的《自然》杂志报道,谷歌旗下DeepMind公司研制出了一种新的人工智能系统MuZero,可在不知道游戏规则的情况下自动学习出模型,并规划出取胜策略,在通用人工智能算法方面迈出了重要一步。
研究人员一直在寻找方法,使得人工智能系统能够学习模型、解释环境,然后使用该模型来规划最佳的行动方案。到目前为止,大多数方法都难以在不同领域均能实现有效的规划。DeepMind的研究人员主要通过结合了“前向搜索”(lookahead search)和“基于模型的规划”(model-based planning)这两种技术来实现突破。MuZero已在最主要的人工智能测试之一“雅达利测试”(Atari benchmark)中取得的最佳成绩,同时在围棋、国际象棋和将棋游戏中的规划表现也达到了与AlphaZero相同的水平。
MuZero的前身AlphaZero已被用于解决化学、量子物理等领域的一系列复杂问题。而MuZero具备强大的学习和规划能力,有望在机器人、工业系统以及其它游戏规则不够清晰的复杂环境中发挥作用。
唐川 供稿自