大型语言模型中的推理策略:它们能否遵循、首选和优化?
Yanjian Zhang
a
,
b
a
,
b
^(a,b) { }^{\mathrm{a}, \mathrm{b}} , Guillaume Wisniewski
b
b
^(b) { }^{\mathrm{b}} , Nadi Tomeh
a
a
^(a) { }^{\mathrm{a}} 和 Thierry Charnois
a
a
^(a) { }^{\mathrm{a}}
a
a
^("a ") { }^{\text {a }} Université Sorbonne Paris Nord, CNRS, Laboratoire d'Informatique de Paris Nord, LIPN, F-93430 Villetaneuse, 法国
b
b
^("b ") { }^{\text {b }} Université Paris Cité, LLF, CNRS, 75013 巴黎, 法国
抽象
人类推理涉及不同的策略,每种策略都适合特定问题。先前的研究表明,大型语言模型 (LLM) 倾向于使用单一推理策略,这可能会限制它们在各种推理挑战中的有效性。在这项工作中,我们研究了提示是否可以控制 LLM 推理策略,并评估其对逻辑问题解决的影响。虽然我们的实验表明,没有单一的策略能持续提高准确性,但如果模型可以自适应地选择最佳策略,则可以提高性能。我们提出了指导 LLM 进行策略选择的方法,重点介绍了提高其推理能力的新方法。
1 引言
大型语言模型 (LLM) 在精心设计的说明提示下表现出令人印象深刻的推理能力。例如,思维链 (CoT) 提示可以引发逐步推论,从而显着提高数学、常识和符号任务
[
25
,
13
,
5
,
10
]
[
25
,
13
,
5
,
10
]
[25,13,5,10] [25,13,5,10] 的表现。然而,大多数提示技术将单一推理风格(通常是 CoT 的某种变体)应用于每个实例,而人类问题解决者则在多个策略中动态选择。
认知科学表明,例如,人们可以在假设遵循(假设假设并追踪其后果)和链式构建(构建顺序论证)之间切换,选择适合手头
[
22
,
17
,
8
,
9
,
6
,
18
,
4
,
27
,
2
]
[
22
,
17
,
8
,
9
,
6
,
18
,
4
,
27
,
2
]
[22,17,8,9,6,18,4,27,2] [22,17,8,9,6,18,4,27,2] 问题的任何一个。此外,有些策略更适合某些类型的问题,个人可能会根据他们的经验或认知能力对特定策略产生偏好。在许多情况下,专家的技能恰恰是他们选择最合适的策略来解决给定问题的能力。
人类和 LLM 之间的这种对比引发了多个问题:LLM 是否像人类一样,有能力选择最合适的策略来解决给定的问题 [23,28,29,3,31,20]?他们是否像人类一样,表现出对特定策略的偏好 [14, 19]?
Mondorf 和 Plank [15] 之前的工作手动分析了逻辑演绎谜题的 LLM 输出,发现每个模型都倾向于默认为单一的首选策略,这揭示了可能限制稳健性的固有偏差。然而,他们没有测试是否可以按需调用不同的策略或如何有效地组合它们。
基于这一观察结果,本研究旨在通过调查以下内容来进一步研究:(i) 是否可以明确指示 LLM 遵循不同的推理策略,(ii) LLM 是否可以自主确定解决给定问题的最佳策略,以及 (iii) 是否有可能指导模型选择最合适的策略 对于给定的问题。我们相信,回答这些问题不仅使我们能够在推理任务中更好地利用 LLM,还可以更深入地了解他们的推理能力。
在本文中,我们提出了对 LLM 推理的策略控制提示和集成选择的系统研究。我们做出了三项贡献:
受控策略提示。我们设计了提示模板,将单个 LLM 引导为四种受人启发的推理模式:假设跟随、链结构、复合推理和串联——并在第 3 节中表明该模型遵守所请求的策略,无需微调。
策略有效性的实证分析。在两个逻辑推理基准(TruthQuest 和 ZebraLogic)上,我们在第 3 节中证明了没有单一策略占主导地位。始终为每个问题选择最佳策略的预言机可以将准确性提高多达 40 个百分点,从而暴露出大量未开发的潜力。
基于集成的策略选择。我们不是要求模型选择策略,而是并行运行所有策略,并使用原则性组合规则 - 多数投票、最大答案概率、最小熵和基于模型的验证器来选择结果答案之一。这些 post-hoc selector 不需要元提示或额外的训练,但正如我们在 Section 4 中展示的那样,其性能始终优于任何单独的策略提示。 本文的其余部分结构如下。第 2 节简要介绍了我们实验中使用的数据集和模型。在第 3 节中,我们描述了我们探索的各种推理策略,并演示了在解决逻辑问题时如何引导模型遵循它们。然后,第 4 节解释了如何组合这些策略以提高绩效。第 5 节简要回顾了相关工作,我们在第 6 节中总结了这篇文章。
2 实验设置
我们所有的实验都是在一个一致的实验框架内进行的,我们现在将简要概述。
2.1 数据集
在这项工作中,我们研究了 LLM 解决逻辑演绎问题的能力,即需要从一组给定的前提中系统地得出结论的任务。这些问题通常涉及结构化推理,例如评估论点的有效性、推断缺失的信息或检测逻辑框架内的矛盾。
在我们的实验中,我们专注于在先前评估 LLM 推理能力的研究中广泛使用的两个数据集:TruthQuest [16] 和 ZebraLogic [12]。
TruthQuest 包含 2,400 个问题,需要根据他们的陈述来识别说真话的人和说谎的人。每个实例都展示了一组对彼此进行逻辑陈述的人,目标是推断谁在说真话,谁在撒谎。例如,给定三个人(
A
,
B
A
,
B
A,B \mathrm{A}, \mathrm{B} 和 C )做出以下陈述:
A:如果 C 是说真话的人,那么 B 就是骗子。
B : 当且仅当 C 是骗子时,A 才是说真话的人。
C:A 是一个讲真话的人。
任务是推断出每个人的正确分类。在这种情况下,基本事实是 A 和 C 是说真话的人,而 B 是骗子。
ZebraLogic 由 1,000 个逻辑谜题组成。与专注于二进制真值赋值的 TruthQuest 不同,ZebraLogic 需要分配多个带有线索的潜在值。一个逻辑谜题由从左到右编号递增的
N
N
N N 房屋组成,每个房屋都有
M
M
M M 不同的属性(例如,
N
N
N N 像 Peter 和 Alice 这样不同的“人”和
N
N
N N 像 cat 和
dog
dog
dog \operatorname{dog} .给定
K
K
K K 线索,目标是推断出 houses 的唯一正确值分配。例如,在上面提到的 2 栋房子里有 2 个人和 2 只宠物。给定线索“养猫的人住在养狗的人的左边”和“爱丽丝养猫”,我们可以推断出彼得和一只狗住在 1 号房子,爱丽丝和一只猫住在 2 号房子。
2.2 评估
对于数据集中的每个问题,我们都会提示 LLM 生成解决方案,并使用正则表达式来检查生成的文本是否包含正确答案。为了评估模型的推理能力 - 或者更准确地说,产生正确答案 - 我们报告准确性,定义为生成的响应包括正确解决方案的问题的百分比。
1
1
^(1) { }^{1}
2.3 楷模
我们使用 Phi-4-14B [1]、DeepSeek-R1-Distill-Qwen-7B [7] 和 Qwen3-8B [21]
2
2
^(2) { }^{2} 进行实验。为了确保结果的可比性,我们采用了与 Mondorf 和 Plank [15] 相同的超参数设置,采样时 top-
p
p
p p 设置为 0.9,温度设置为 0.6 ,这鼓励了比贪婪解码更多样化的响应。在本文的其余部分,我们将简称 R1-Distill 来表示 DeepSeek-R1-Distill-Qwen-7B。
3 通过有针对性的提示引导推理策略
3.1 推理策略
Mondorf 和 Plank [15] 确定了 LLM 用于演绎推理问题的四种不同策略
3
3
^(3) { }^{3} ,例如
第 2 部分:
假设遵循:列举所有命题,做出假设,追踪后果,并在出现矛盾时测试替代方案。
链构建:识别逻辑关系,推断中间含义,并构建到结论的推理链。
复合策略:整合多个逻辑关系,迭代推导和组合中间结论。
串联策略:需要将两个或多个语句串联成一个结论,其中包含每个组合命题的逻辑含义。 Mondorf 和 Plank [15] 证明,当 LLM 的任务是在没有明确指导的情况下解决演绎问题时,每个模型都倾向于自发地采用首选的推理策略。例如,在他们的实验中,Zephyr-7B-
β
β
beta \beta 在
60
%
60
%
60% 60 \% 案例中使用了假设跟随,而 Llama-2-70B 在
50
%
50
%
50% 50 \% 中赞成链结构。这些发现表明,不同的 LLM 架构可能表现出对特定推理路径的固有偏见。
3.2 提示
我们研究的主要目的是调查是否可以通过有针对性的提示明确指导 LLM 遵循指定的推理策略。直观地说,某些策略可能更适合特定类型的问题,从而产生更有效或更直接的解决方案。为了探索这一点,我们设计了详细的提示,明确概述了每种策略及其相应的分步推理过程。
更准确地说,我们测试了在 Prompt 中指定策略的三种不同方法:
仅提供策略定义;
提供策略定义以及要完成的模板,例如在 Supposition Following 的情况下:
假设我们有一个 .
然后是一个 _。
这意味着没有 _。
因此,不能有 _。
所以如果 _ 那么不是 _。
答:_
提供策略定义和抽象推理步骤。例如,图 1 提供了 TruthQuest 的提示,用于将模型引导至链构建策略(补充材料中提供了其他提示)。如本例所示,结构化提示明确指导模型完成预期的演绎过程,同时确保采用系统的推理方法。
对于每种类型的模板,我们在几个随机选择的示例上手动查看了模型的输出,以评估它是否符合指定的策略。我们发现第三种配方产生了最好的结果,因此将其用于所有后续实验。
3.3 实验结果
评估提示对策略选择的影响 在第一个实验中,我们在第 2 节中介绍的两个数据集上评估了不同提议的策略的有效性,使用相应的提示来查询我们考虑的不同模型。我们的目标是评估模型提供正确答案的准确性及其对提示中指定的策略的遵守情况。
首先,我们检查模型是否遵循提示建议的策略。对于每个提示,我们将 Phi-4-14B 和 R1-Distill 生成的答案手动注释为 TruthQuest 数据集中随机选择的 100 个问题。我们为每个响应添加标签
[INST] Your task is to solve a logical reasoning prob-
lem.
You are given a set of statements from which you must
logically deduce the identity of a set of characters.
You must infer the identity of each character. First
explain your reasoning. At the end of your answer,
you must clearly state the identity of each character
by following the format:
Answer:
A: ...
B: ...
C: ...
### Instruction ###
Assume that there exist only two types of people:
knights and knaves. Knights always tell the truth,
while knaves always lie.
You are given the statements from {number of charac-
ters} characters. Based on their statements, infer
who is a knight and who is a knave.
You will reason with chain construction. You con-
struct a chain of propositional statements derived
either from the problem description or from intermedi-
ate deductions.
Let's break it down step by step:
Step 1: Identify the logical relationships in each
statement, clarifying their conditions.
Step 2: Deduce intermediate implications step by step
based on the statements.
Step 3: Construct a coherent logical chain and draw a
final conclusion by following the format:
Answer:
A: {knight/knave}
B: {knight/knave}
C: {knight/knave}
### Now your turn ###
Based on the following statements, infer who is a
knight and who is a knave:
{Question}
Let's think step by step. [/INST]
图 1.指导 LLM 采用 TruthQuest 的 Chain Construction 策略的提示。
PH-4 系列
R1-蒸馏
策略-
不
策略-
不
指定
策略
指定
策略
假设跟随
99
%
99
%
99% 99 \%
88
%
88
%
88% 88 \%
81
%
81
%
81% 81 \%
64
%
64
%
64% 64 \%
链条结构
61
%
61
%
61% 61 \%
12
%
12
%
12% 12 \%
53
%
53
%
53% 53 \%
11
%
11
%
11% 11 \%
复合策略
81
%
81
%
81% 81 \%
12
%
12
%
12% 12 \%
78
%
78
%
78% 78 \%
34
%
34
%
34% 34 \%
串联策略
55
%
55
%
55% 55 \%
17
%
17
%
17% 17 \%
32
%
32
%
32% 32 \%
2
%
2
%
2% 2 \%
Phi-4 R1-Distill
Strategy- No Strategy- No
Specified Strategy Specified Strategy
Supposition Following 99% 88% 81% 64%
Chain Construction 61% 12% 53% 11%
Compound Strategy 81% 12% 78% 34%
Concatenation Strategy 55% 17% 32% 2% | | Phi-4 | | | R1-Distill | |
| :--- | :---: | :---: | :---: | :---: | :---: |
| | Strategy- | No | | Strategy- | No |
| | Specified | Strategy | | Specified | Strategy |
| Supposition Following | $99 \%$ | $88 \%$ | | $81 \%$ | $64 \%$ |
| Chain Construction | $61 \%$ | $12 \%$ | | $53 \%$ | $11 \%$ |
| Compound Strategy | $81 \%$ | $12 \%$ | | $78 \%$ | $34 \%$ |
| Concatenation Strategy | $55 \%$ | $17 \%$ | | $32 \%$ | $2 \%$ |
表 1.遵循提示中建议的策略的
Phi
−
4
−
14
B
Phi
−
4
−
14
B
Phi-4-14B \mathrm{Phi}-4-14 \mathrm{~B}
R
1
−
Distill
R
1
−
Distill
R1-Distill \mathrm{R} 1-\mathrm{Distill} 响应百分比,根据 TruthQuest 数据集上每个提示的 100 个样本估算。 根据策略,它遵循补充材料中描述的注释指南。我们还注释了 100 个答案,这些答案是由 Mondorf 和 Plank[15] 的提示生成的,这些答案没有指定任何策略来重现他们的观察结果。
4
4
^(4) { }^{4}
表 1 中所示的注释结果允许我们得出两个主要结论。首先,我们证实了 Mondorf 和 Plank 的发现[15]:当没有提供特定策略时,该模型倾向于选择某些策略而不是其他策略。其次,该模型通常遵循提示中指示的策略,即使我们的初步实验无法解释行为存在一些可变性。这证实了提示是引导模型采用它可能不会 “自然” 采用的推理策略的有效方法。
真相探索
ZebraLogic
PH-4 系列
R1-蒸馏
PH-4 系列
Qwen3
无策略
47.2%
63.4%
27.3%
32.0%
补充以后
45.1%
62.7%
26.6%
31.3%
链条结构
49.0%
62.5%
25.1%
32.0%
Comp. 策略
47.1%
61.4%
27.0%
31.0%
连接。策略
47.4%
63.0%
25.2%
31.9%
神谕
82.9%
90.1%
37.7%
36.4%
TruthQuest ZebraLogic
Phi-4 R1-Distill Phi-4 Qwen3
No strategy 47.2% 63.4% 27.3% 32.0%
Supp. Following 45.1% 62.7% 26.6% 31.3%
Chain Construction 49.0% 62.5% 25.1% 32.0%
Comp. Strategy 47.1% 61.4% 27.0% 31.0%
Concat. Strategy 47.4% 63.0% 25.2% 31.9%
Oracle 82.9% 90.1% 37.7% 36.4% | | TruthQuest | | ZebraLogic | |
| :--- | :--- | :--- | :--- | :--- |
| | Phi-4 | R1-Distill | Phi-4 | Qwen3 |
| No strategy | 47.2% | 63.4% | 27.3% | 32.0% |
| Supp. Following | 45.1% | 62.7% | 26.6% | 31.3% |
| Chain Construction | 49.0% | 62.5% | 25.1% | 32.0% |
| Comp. Strategy | 47.1% | 61.4% | 27.0% | 31.0% |
| Concat. Strategy | 47.4% | 63.0% | 25.2% | 31.9% |
| Oracle | 82.9% | 90.1% | 37.7% | 36.4% |
表 2.Phi4-14B、R1-Distill 和 Qwen3 在我们考虑的不同提示的两个数据集上的准确性。我们使用粗体表示最佳,使用下划线表示次佳
推理策略的比较性能 知道提示可以用来指导模型遵循特定的策略,我们现在就可以评估我们考虑的两个模型提供的响应的质量。表 2 显示了在我们的两个数据集上使用各种提示策略实现的准确性。它还包括基线准确率(通过在不指定任何策略的情况下提示模型获得)和预言机准确率,即至少一个特定于策略的提示产生正确答案的问题比例。单个提示的准确性与相应 oracle 的准确性之间的差距反映了通过为每个问题选择适当的策略可以实现的潜在改进。
我们观察到,未指定策略的提示在不同模型和数据集中具有最佳性能。链构造和串联策略的性能略好于其他策略。
我们的观察表明,在 Prompt 中显式指定策略并不会提高解决问题的性能。我们检查的 5 个提示都产生了大致相同的结果。然而,这个看似负面的结果凸显了一个重要的点:当没有提供特定策略并且模型可以自由选择自己的策略时,其性能并不比施加策略时好。这表明,如果没有其他信息,模型无法选择最佳策略。
预言机的结果进一步强化了这一结论:如果该模型能够评估所有策略并选择最有效的策略,其响应将得到显着改善。这一见解促使我们研究如何结合不同策略的输出。
4 合并策略
4.1 合并标准
在本节中,我们探讨了组合各种策略预测的不同方式——如上一节的结果所示,这种方法有可能大幅提高准确性。除了广泛使用的多数投票法(下文中称为“多数投票”)之外,我们还引入了几项新标准,旨在通过利用统计置信度测量和模型自我评估来提高整体绩效。
置信度的统计测量 我们假设简单的统计测量可用于评估 LLM 对其生成答案的置信度。更具体地说,我们提出了两个替代标准来合并不同策略产生的结果。
我们的第一个标准是基于计算生成答案的概率作为模型置信度的代理。然而,我们不能简单地汇总所有生成的标记的概率,因为响应由两个不同的部分组成:一个长推理的口头表达和一个短得多的最终答案(例如,TruthQuest 数据集中的真值分配)。
为了确保最终答案得到适当的权重,我们将总体响应概率定义为两个值的乘积:概率