思维链(Chain of Thought)最早由Jason Wei在2022年提出,是一种离散式提示学习方案,相比于之前传统的上下文学习和续写,思维链的生成多了中间的很多生活化人性化的闲言碎语,大幅增强了LLM的推理效果。最近来自普林斯顿大学和Google DeepMind研究人员提出了一种新的语言模型推理框架思维树(Tree of Thought)。
该框架泛化了广泛使用的思维链的方法,使语言模型能够对并列的文本单元进行探索,形成一些列思维单元,这些思维作为解决问题的中间步骤。ToT允许语言模型通过考虑多个不同的推理路径和自我评估选择,来做出明智的决策并决定下一步行动的方向,在必要时进行前瞻或回溯以进行全局对比选择。
开发者在实验中发现,ToT在三个复杂新任务(24点游戏、创意写作和迷你纵横填字游戏)中显著提升了语言模型的问题解决能力。例如,在24点游戏中,GPT-4只解决了4%的任务,而采用TOT的方法成功率达到了74%。也就是说,这项研究将GPT4的推理能力提升了900%。
思维链方法类似于在选择最佳讨论话题之前思考几个不同的主题。这就像计划一次对话前考虑各种可能的结果,然后选择最引人入胜的话题。思维之树方法使得GPT-4能够在思维中探索多个推理路径,提升其对复杂任务的问题解决能力。
TOT论文第一作者Shunyu Yao
论文链接:https://arxiv.org/abs/2305.10601