扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

GPT4也有短板?

  

来自爱丁堡大学的研究人员发现GPT4似乎不擅长处理有关时间推理的任务。

 

比如“洗个冷水澡可以很快地让你清醒过来”,“这个小乡村会很快成为一个国际大都市”两个句子中的“很快”表示不同的时间概念,前者是若干秒钟,而后者则是若干年。

 

这对拥有丰富生活经验的人类来说小菜一碟,但如果让LLM来回答可能有些困难。

 

图片

 

LLM只是从文字中学习知识。这就像是在一个只有文字的世界里,没有实际的触摸、看、听、尝、闻。所以,它们在理解真实世界时,往往会表现得不尽人意。

 

研究人员从三个方面全部分析了不同的LLM理解时间,推理时间任务的能力,发现GPT-4等最先进的模型仍然无法达到人类的性能水平,甚至不如微调后的小模型RoBERTa。除此之外,作者还分析了LLM在时间推理任务上性能不足的原因,并给出进一步改进的建议路线,让我们一起去了解一下吧~

 

论文标题:
Are Large Language Models Temporally Grounded?

 

论文链接:
https://arxiv.org/pdf/2311.08398.pdf

 

github链接:
https://github.com/yfqiu-nlp/temporal-llms.

 

LLM的时间推理能力

 

作者主要从三个方面来探索LLM的时间推理能力,示例如下图所示:

 

图片

 

  1. 关于事件的时间常识:一个具备时间敏感度的模型应该能够区分事件发生的时间计量单位,例如,当被问到“萨夫提和埃德温娜相爱多久了?”,两个候选答案“数年”和“10秒”,前者是更符合常识的答案。
  2. 事件排序能力:事件的发生具有一定的先后顺序,即使整个描述中未出现时间词语,模型应当通过因果关系推断出事件发生的顺序,比如“蒂姆喝得有点多。“在前,而“他的高尔夫球打得糟透了。”在后。
  3. 时间约束能力:即相互矛盾的时间线不能共存,如果说“奥巴马政府在6月12号之前加入西方阵营”为真,那么“奥巴马政府在6月12号之后加入西方阵营”必须为假。

 

但从图中GPT-4的回复也可以看到,GPT-4在时间推理任务上还差点意思。

 

基准任务与实验结果

 

作者选定了三个测试集测试了GPT-4、LLaMA系列在内多个大模型的三项时间推理能力。

 

时间常识:McTACO任务

 

McTACO:用于通过多项选择问题回答来评估时间常识知识的基准测试集。McTACO包含了13K个三元组,形式为(上下文,问题,候选答案)。

 

McTACO示例分为五个类别:持续时间(事件持续多长时间),时间顺序(事件的典型顺序),典型时间(事件通常发生的时间),频率(事件发生的频率)和稳定性(某个状态是否持续很长时间或无限期)。

 

图片
▲表1

 

从表1可以看出:

 

  • GPT-4在所有LLM中仍然是表现最好的,不愧是你,GPT-4!
  • 在LLaMA系列中,LLaMA-2-chat-13B 和 Alpaca-7B 分别在零样本和少样本实验中取得了最佳性能,这很有可能是指令调优任务引入了时间相关的任务;

 

然而,即使表现最好的GPT-4仍然落后于经过精调的RoBERTa基准模型,而且距离人类水平还有一定的差距。

 

这也突显了LLM在时间常识知识方面的不足之处。

 

另外通过比较不同LLM在不同类别的问题上的性能可以发现,需要常识知识的典型时间(图中的TT)和事件持续时间(图中ED)的问题是最具挑战性的。

 

**GPT-4的成功率仅约为40%**。

 

图片
▲图2 不同问题类别性能大比拼

 

事件排序任务:CaTeRS

 

CaTeRS:是一个事件排序的基准测试集,包含1684个实例。该任务涉及识别出文本中提及的事件并按时间顺序排列它们。要解决这个任务,模型必须依靠显式线索以及关于事件之间关系的常识,来推理出其底层时间线。

 

其实验结果仍然体现在表1中。可以发现:

 

  • LLaMA-2-chat模型相对于LLaMA-2模型有巨大优势,这表明先进的调优(如对话式调优和RLHF)的重要性。
  • text-davinci-003和GPT-4高于所有LLaMA模型。

 

LLM远远落后于一个小规模的微调模型TemporalBART(在手动破坏的事件序列数据集上进行微调的BART-Large模型。)

 

时间约束:TempEvalQA-Bi

 

TempEvalQA-Bi:是由TempEvalQA衍生出来的。TempEvalQA格式为(上下文, 问题,是/否答案),重点关注事件之间的时间关系。TempEvalQA-Bi挑选了包含前后时间关系的数据,并交换时间关系得到正反时间对。

 

例如,如果原始对是(“E1在E2之后吗?”,“是的”),相应的相反对将是 (“E1在E2之前吗?”,“否”),反之亦然。

 

仅当模型准确预测了两个问题-答案对时,才视为正确。

 

除了准确率之外作者还引入了一个新的评价指标:Inc.表示预测不一致的百分比,即模型在原始问题和时间关系翻转版本中预测相同的次数,越低越好。结果如表2所示:

 

图片
▲表2
 
  • 我们观察到大多数模型表现不佳。LLaMA家族中最好的模型(LLaMA-2-chat-70B)只能正确解答46%的问题。

  • 此外,如果颠倒问题的时间关系,大多数模型无法相应地转换其输出预测,导致了Inc.指标特别高。指令微调后的模型如Alpaca-7B、LLaMA-2-chat能够降低不一致率,提高准确率。

  • GPT-4再次以约67%的获得最优。虽然它与其他模型相比显著减少了不一致预测的比例,但仍然对大约27%的问题及其颠倒版本给出相同的答案预测。

 

Prompt敏感度测试

 

作者选择了三个不同的Prompt模板,并测量了LLaMA家族在不同措辞下的性能变化。

 

  1. 半结构化Prompt:通过特殊符号(例如换行符)将指令、上下文以及输入和输出对(用于上下文学习)进行序列化。
  2. 自然Prompt:将上下文和输入-输出对插入到指令中,使模板更接近自然语言。
  3. 文本连续Prompt示:考虑到LLaMA并未经过指令遵循任务的训练,引入了文本连续式Prompt,只要求模型完成输入。
  4.  
图片
▲McTACO不同Prompt模板示例
 

其结果显示在表1、表2的标准差上,在zero-shot中,McTACO标准差范围从LLaMA-2-chat-13B模型的0.13到LLaMA-65B的5.63。波动较大。

 

从整体来看不同的Prompt并不会影响实验的主要结果,但这也证实了LLM特别是规模越大的LLM对Prompt比较敏感,鲁棒性差。

 

模型参数影响

 

作者探索参数增量对LLMs性能的影响。如下图所示:

 

图片

 

  • 最大的70B LLaMA-2-chat模型通常在三个数据集上都能实现最佳性能。
  • 对于许多模型来说,性能与其大小之间的相关性很弱。例如,LLaMA-13B模型在McTACO和TempEvalQA-Bi上表现得最差,甚至不如7B模型。
  • 另外还有一种普遍趋势,即LLM性能倾向于饱和,在参数大小超过13B后难以继续提高,在McTACO和CaTeRS上都是如此。

 

少样本示例数量影响

 

图片

 

如上图所示,横坐标代表不同的示例数量。在McTACO和CaTeRS上的结果表明,增加数量通 常会略微提高性能,但提升不大。

 

相反,TempEvalQA-Bi的性能稍有下降。这可能是TempEvalQA-Bi样本包含虽然正反两种时间顺序,但内容基本一致,缺乏样本多样性,导致性能稍稍下降。

 

CoT是否有用?

 

作者还研究了CoT对TempEvalQA-Bi任务的性能的影响。

 

图片

 

  • CoT降低了所有模型的预测不一致性,然而,预测不一致性的提高并不总是转化为准确性的增加。例如,LLaMA-7B、LLaMA-2-70B和LLaMA-2-70B-chat模型的准确性下降。
  • CoT对GPT-4模型的改进很小。

 

这些结果表明,即使是“万金油”CoT解决复杂的时间推理任务(需要一致性认定)时也比较困难。

 

原因分析:时间信息来源

 

那么为什么LLMs在时间推理任务上表现不尽人意呢?

 

作者有两个推测:一是预训练提供的时间信息的程度不够;二是有监督示例在填补预训练模型中的信息缺失。

 

预训练阶段提供了多少时间信息?

 

通过以上实验也可以得出LLM在处理时间信息方面存在一定的不足,他们推测这可能是由于在训练过程中模型没有充分接触到时间信息并进行了以下研究以验证这个观点:

 

  1. 文本中的事件顺序与实际时间顺序的关系:作者探究了在人类编写的文本中,事件出现的顺序是否提供了关于它们实际时间顺序的线索。通过测量了TempEvalQA训练文章中标注的时间关系(即,先后顺序)与它们所指事件的文本顺序之间的关系。结果发现,只有约56%的事件对按照他们的时间顺序在文本中出现,且Matthews相关系数为0.09,说明相关性很弱。

  2. 对比模型在有序与无序事件序列的偏好:

    下图是实验结果,展示了不同模型下长度标准化的odds ratios的分布。

     

    "odds ratios"是一种统计学中的概念,用于比较两个事件发生的概率。"长度标准化"是为了确保比较在各种长度的文本中都是公平的。

     

    图片

     

    实验结果显示,对于隐式时间关系CaTeRS的表述,CaTeRS通常大于1,意味着模型对时间顺序序列的偏好比无序序列稍高。对于显示时间关系TempEvalQA-Bi的样本,几率比接近1,说明模型对有序和无序序列的偏好趋于平衡。

     

    这些结果表明,基于预训练信息LLM识别真实事件顺序的能力可能有限,因为这些信息对于真实世界事件的时间动态只提供了弱信号。

     

    • 隐式时间关系标记:作者随机抽取了CaTeRS测试集的100个实例(这里的数据中并不存在明显的时间关系标记),并为每个事件序列手动创建了两种表述:一种保持了与事件时间顺序相同的句子顺序,另一种改变了句子的顺序。所有的表述都经过手动调整,以保证语义连贯和语法正确。图片

    • 考虑显式时间关系标记:作者还创建了另一组表述,从TempEvalQA-Bi数据集中挑选,并保留了明确的时间关系标记(例如"before"和"after")。

       

微调提供了多少时间信息

 

既然预训练期间缺乏时间信息时,那么后续微调是否能够弥补这一不足。

 

在表1和表2中, 经过指令微调的Alpaca-7B在多次实验中一直优于LLaMA-7B,并且几乎与LLaMA-33B相当。

 

此外,微调后的RoBERTa和TemporalBART在表1中,往往超越或与GPT-4等LLM不相上下。

 

因此通过充分监督,可以在某种程度上弥补与人类性能之间的差距;

 

当前开源的指令微调数据集确实包含一些时间任务,但占比较少。例如,Super-Natural Instruction 的default划分中,756个任务中仅包含2个时间推理任务。

 

但如果仅仅增加更多的示例进行上下文学习,模型的性能将会达到稳定,即使使用CoT,也无法提升模型能力。

 

或许只有在模拟或物理环境中为语言模型提供感知和行动能力,才能更好地提升时间推理能力。

 

这一问题还有待研究人员继续研究~

 

结论

 

本文提出了一个框架来探索LLM的时间推理能力,包括对事件的常识知识,按时间顺序排序事件以及时间约束任务。

 

通过系统评估,发现GPT-4等最先进的模型仍然无法达到人类的性能水平,甚至小规模的专用微调模型也是如此。

 

此外,作者还探索了有可能改善模型推理能力的各种方法并得出了一些结论:

 

1)增加模型规模或上下文例子的数量并不一定会带来有意义的提升;

2)调整指令和CoT作用有限,随着模型规模增大收益递减。

 

总之,LLMs在时间推理任务上还有很大的提升空间,期待未来有更优雅的解决方案~

原文链接:点击前往 >

文章作者:谢年年、python

版权申明:文章来源于夕小瑶科技说。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与10万+出海人同行!