GPT-4分不清“很快”是多快，“万金油”CoT也拯救不了

GPT4也有短板？

来自爱丁堡大学的研究人员发现GPT4似乎不擅长处理有关时间推理的任务。

比如“洗个冷水澡可以很快地让你清醒过来”，“这个小乡村会很快成为一个国际大都市”两个句子中的“很快”表示不同的时间概念，前者是若干秒钟，而后者则是若干年。

这对拥有丰富生活经验的人类来说小菜一碟，但如果让LLM来回答可能有些困难。

LLM只是从文字中学习知识。这就像是在一个只有文字的世界里，没有实际的触摸、看、听、尝、闻。所以，它们在理解真实世界时，往往会表现得不尽人意。

研究人员从三个方面全部分析了不同的LLM理解时间，推理时间任务的能力，发现GPT-4等最先进的模型仍然无法达到人类的性能水平，甚至不如微调后的小模型RoBERTa。除此之外，作者还分析了LLM在时间推理任务上性能不足的原因，并给出进一步改进的建议路线，让我们一起去了解一下吧~

论文标题:
Are Large Language Models Temporally Grounded?

论文链接:
https://arxiv.org/pdf/2311.08398.pdf

github链接:
https://github.com/yfqiu-nlp/temporal-llms.

LLM的时间推理能力

作者主要从三个方面来探索LLM的时间推理能力，示例如下图所示：

关于事件的时间常识：一个具备时间敏感度的模型应该能够区分事件发生的时间计量单位，例如，当被问到“萨夫提和埃德温娜相爱多久了?”，两个候选答案“数年”和“10秒”，前者是更符合常识的答案。
事件排序能力：事件的发生具有一定的先后顺序，即使整个描述中未出现时间词语，模型应当通过因果关系推断出事件发生的顺序，比如“蒂姆喝得有点多。“在前，而“他的高尔夫球打得糟透了。”在后。
时间约束能力：即相互矛盾的时间线不能共存，如果说“奥巴马政府在6月12号之前加入西方阵营”为真，那么“奥巴马政府在6月12号之后加入西方阵营”必须为假。

但从图中GPT-4的回复也可以看到，GPT-4在时间推理任务上还差点意思。

基准任务与实验结果

作者选定了三个测试集测试了GPT-4、LLaMA系列在内多个大模型的三项时间推理能力。

时间常识：McTACO任务

McTACO：用于通过多项选择问题回答来评估时间常识知识的基准测试集。McTACO包含了13K个三元组，形式为（上下文，问题，候选答案）。

McTACO示例分为五个类别：持续时间（事件持续多长时间），时间顺序（事件的典型顺序），典型时间（事件通常发生的时间），频率（事件发生的频率）和稳定性（某个状态是否持续很长时间或无限期）。

从表1可以看出：

GPT-4在所有LLM中仍然是表现最好的，不愧是你，GPT-4!
在LLaMA系列中，LLaMA-2-chat-13B 和 Alpaca-7B 分别在零样本和少样本实验中取得了最佳性能，这很有可能是指令调优任务引入了时间相关的任务；

然而，即使表现最好的GPT-4仍然落后于经过精调的RoBERTa基准模型，而且距离人类水平还有一定的差距。

这也突显了LLM在时间常识知识方面的不足之处。

另外通过比较不同LLM在不同类别的问题上的性能可以发现，需要常识知识的典型时间（图中的TT）和事件持续时间（图中ED）的问题是最具挑战性的。

**GPT-4的成功率仅约为40%**。

事件排序任务：CaTeRS

CaTeRS：是一个事件排序的基准测试集，包含1684个实例。该任务涉及识别出文本中提及的事件并按时间顺序排列它们。要解决这个任务，模型必须依靠显式线索以及关于事件之间关系的常识，来推理出其底层时间线。

其实验结果仍然体现在表1中。可以发现：

LLaMA-2-chat模型相对于LLaMA-2模型有巨大优势，这表明先进的调优（如对话式调优和RLHF）的重要性。
text-davinci-003和GPT-4高于所有LLaMA模型。

LLM远远落后于一个小规模的微调模型TemporalBART（在手动破坏的事件序列数据集上进行微调的BART-Large模型。）

时间约束：TempEvalQA-Bi

TempEvalQA-Bi：是由TempEvalQA衍生出来的。TempEvalQA格式为（上下文，问题，是/否答案），重点关注事件之间的时间关系。TempEvalQA-Bi挑选了包含前后时间关系的数据，并交换时间关系得到正反时间对。

例如，如果原始对是（“E1在E2之后吗？”，“是的”），相应的相反对将是（“E1在E2之前吗？”，“否”），反之亦然。

仅当模型准确预测了两个问题-答案对时，才视为正确。

除了准确率之外作者还引入了一个新的评价指标：Inc.表示预测不一致的百分比，即模型在原始问题和时间关系翻转版本中预测相同的次数，越低越好。结果如表2所示：

我们观察到大多数模型表现不佳。LLaMA家族中最好的模型（LLaMA-2-chat-70B）只能正确解答46%的问题。
此外，如果颠倒问题的时间关系，大多数模型无法相应地转换其输出预测，导致了Inc.指标特别高。指令微调后的模型如Alpaca-7B、LLaMA-2-chat能够降低不一致率，提高准确率。
GPT-4再次以约67%的获得最优。虽然它与其他模型相比显著减少了不一致预测的比例，但仍然对大约27%的问题及其颠倒版本给出相同的答案预测。

Prompt敏感度测试

作者选择了三个不同的Prompt模板，并测量了LLaMA家族在不同措辞下的性能变化。

半结构化Prompt：通过特殊符号（例如换行符）将指令、上下文以及输入和输出对（用于上下文学习）进行序列化。
自然Prompt：将上下文和输入-输出对插入到指令中，使模板更接近自然语言。
文本连续Prompt示：考虑到LLaMA并未经过指令遵循任务的训练，引入了文本连续式Prompt，只要求模型完成输入。

其结果显示在表1、表2的标准差上，在zero-shot中，McTACO标准差范围从LLaMA-2-chat-13B模型的0.13到LLaMA-65B的5.63。波动较大。

从整体来看不同的Prompt并不会影响实验的主要结果，但这也证实了LLM特别是规模越大的LLM对Prompt比较敏感，鲁棒性差。

模型参数影响

作者探索参数增量对LLMs性能的影响。如下图所示：

最大的70B LLaMA-2-chat模型通常在三个数据集上都能实现最佳性能。
对于许多模型来说，性能与其大小之间的相关性很弱。例如，LLaMA-13B模型在McTACO和TempEvalQA-Bi上表现得最差，甚至不如7B模型。
另外还有一种普遍趋势，即LLM性能倾向于饱和，在参数大小超过13B后难以继续提高，在McTACO和CaTeRS上都是如此。

少样本示例数量影响

如上图所示，横坐标代表不同的示例数量。在McTACO和CaTeRS上的结果表明，增加数量通常会略微提高性能，但提升不大。

相反，TempEvalQA-Bi的性能稍有下降。这可能是TempEvalQA-Bi样本包含虽然正反两种时间顺序，但内容基本一致，缺乏样本多样性，导致性能稍稍下降。

CoT是否有用？

作者还研究了CoT对TempEvalQA-Bi任务的性能的影响。

CoT降低了所有模型的预测不一致性，然而，预测不一致性的提高并不总是转化为准确性的增加。例如，LLaMA-7B、LLaMA-2-70B和LLaMA-2-70B-chat模型的准确性下降。
CoT对GPT-4模型的改进很小。

这些结果表明，即使是“万金油”CoT解决复杂的时间推理任务（需要一致性认定）时也比较困难。

原因分析：时间信息来源

那么为什么LLMs在时间推理任务上表现不尽人意呢？

作者有两个推测：一是预训练提供的时间信息的程度不够；二是有监督示例在填补预训练模型中的信息缺失。

预训练阶段提供了多少时间信息？

通过以上实验也可以得出LLM在处理时间信息方面存在一定的不足，他们推测这可能是由于在训练过程中模型没有充分接触到时间信息并进行了以下研究以验证这个观点：

文本中的事件顺序与实际时间顺序的关系：作者探究了在人类编写的文本中，事件出现的顺序是否提供了关于它们实际时间顺序的线索。通过测量了TempEvalQA训练文章中标注的时间关系（即，先后顺序）与它们所指事件的文本顺序之间的关系。结果发现，只有约56%的事件对按照他们的时间顺序在文本中出现，且Matthews相关系数为0.09，说明相关性很弱。
对比模型在有序与无序事件序列的偏好：

下图是实验结果，展示了不同模型下长度标准化的odds ratios的分布。

"odds ratios"是一种统计学中的概念，用于比较两个事件发生的概率。"长度标准化"是为了确保比较在各种长度的文本中都是公平的。

实验结果显示，对于隐式时间关系CaTeRS的表述，CaTeRS通常大于1，意味着模型对时间顺序序列的偏好比无序序列稍高。对于显示时间关系TempEvalQA-Bi的样本，几率比接近1，说明模型对有序和无序序列的偏好趋于平衡。

这些结果表明，基于预训练信息LLM识别真实事件顺序的能力可能有限，因为这些信息对于真实世界事件的时间动态只提供了弱信号。
- 隐式时间关系标记：作者随机抽取了CaTeRS测试集的100个实例（这里的数据中并不存在明显的时间关系标记），并为每个事件序列手动创建了两种表述：一种保持了与事件时间顺序相同的句子顺序，另一种改变了句子的顺序。所有的表述都经过手动调整，以保证语义连贯和语法正确。
- 考虑显式时间关系标记：作者还创建了另一组表述，从TempEvalQA-Bi数据集中挑选，并保留了明确的时间关系标记（例如"before"和"after"）。