程序员求职经验分享与学习资料整理平台

网站首页 > 文章精选 正文

PreFEval基准测试,揭示大型语言模型能否理解你的偏好

balukai 2025-03-18 10:12:45 文章精选 6 ℃

在当今的AI世界中,大型语言模型(LLMs)如ChatGPT和Claude已经成为了我们日常对话的得力助手。然而,尽管它们在处理一般性任务上表现出色,但在个性化对话方面,它们的能力仍然有限。想象一下,当你告诉AI助手“我不喜欢爵士乐”,随后询问新奥尔良的旅行建议时,它是否会主动避免推荐爵士乐相关的景点?这种个性化偏好跟随的能力,正是当前LLMs面临的重大挑战。为了评估和改进LLMs在这方面的表现,亚马逊AGI团队与UCLA、明尼苏达大学的研究人员合作,推出了PreFEval——一个专门用于评估LLMs在长上下文对话中推断、记忆和遵循用户偏好的基准测试。

论文地址:Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs

1. 引言

随着大型语言模型(LLMs)在聊天机器人中的应用日益广泛,用户对个性化对话的需求也越来越高。然而,现有的LLMs在主动提供个性化交互方面仍然存在显著不足。例如,用户明确表示不喜欢某种音乐风格后,LLMs在后续对话中仍可能推荐与之冲突的内容。这种个性化偏好跟随的缺失,直接影响了用户体验和对话的连贯性。

为了解决这一问题,研究团队提出了PreFEval,一个包含3000个手动策划的用户偏好-查询对的基准测试,涵盖了20个日常话题。PreFEval不仅评估LLMs在生成任务中的表现,还通过分类任务进行快速评估。研究团队对10个开源和专有LLMs进行了多轮对话测试,发现即使是最先进的模型,在零样本设置下,偏好跟随的准确率在10轮对话后也降至10%以下。即便使用高级提示和检索增强生成(RAG)方法,长上下文对话中的表现仍然不佳。然而,通过在PreFEval上进行微调,模型的偏好跟随能力得到了显著提升。

2. PreFEval数据集

2.1 问题定义

PreFEval的核心目标是评估LLMs在对话环境中个性化响应的能力。每个对话由多个回合组成,用户在每个回合中表达偏好或提出问题。对话被分为多个会话,每个会话围绕一个特定主题展开。PreFEval的核心是偏好-查询对,其中偏好可以是用户明确表达的,也可以是通过多轮对话隐式揭示的。查询则是用户在对话结束时提出的问题,LLMs需要根据之前的偏好生成响应。

为了模拟真实对话的复杂性,PreFEval在偏好和查询之间插入了不相关的上下文回合,增加了LLMs在长对话中保持个性化响应的难度。LLMs需要具备以下四个关键能力:

  1. 偏好推断:能够通过对话准确推断用户偏好。
  2. 长上下文检索:能够在长对话中跟踪和回忆用户偏好。
  3. 偏好跟随:在知道用户偏好的情况下,生成与偏好一致的响应。
  4. 个性化主动性:知道何时以及如何利用上述能力提供个性化响应。

2.2 PreFEval统计数据

PreFEval包含1000个独特的偏好-查询对,每个对有三种偏好形式,总计3000个对。这些对涵盖了旅行、购物、娱乐等日常话题。每个偏好-查询对包含生成任务和分类任务。生成任务要求LLMs生成长文本响应,而分类任务则要求LLMs从四个选项中选择与用户偏好一致的选项。

2.3 偏好形式

PreFEval考虑了三种偏好表达形式:

  1. 显式偏好:用户在一个对话回合中直接表达偏好。例如,用户明确表示“我不喜欢爵士乐”。
  2. 隐式选择对话:用户通过两轮对话隐式揭示偏好。例如,用户在选择餐厅时,拒绝了所有提供爵士乐的选项,从而隐式表达了对爵士乐的不喜欢。
  3. 隐式角色驱动对话:用户在与角色相关的对话中隐式表达偏好。例如,用户在与AI讨论旅行计划时,提到“我不喜欢嘈杂的地方”,从而隐式表达了对安静环境的偏好。

2.4 多会话对话上下文

为了模拟真实对话的动态性,PreFEval从LMSYS-Chat-1M数据集中随机选择了多会话上下文,长度可达100k个token。这些上下文回合被插入到偏好和查询之间,增加了LLMs在长对话中保持个性化响应的难度。例如,用户在对话开始时表达了对某种食物的偏好,随后在多个不相关的对话回合后,询问餐厅推荐。LLMs需要在这些不相关的对话中保持对用户偏好的记忆,并在最终推荐时避免与用户偏好冲突。

2.5 任务类型和评估协议

PreFEval提供了两种任务类型:生成任务和分类任务。生成任务通过LLM评估器进行评估,分类任务则通过多项选择题进行快速评估。生成任务的评估包括四种错误类型:

  1. 偏好无意识违规:LLMs提供的推荐与用户偏好冲突,且未提及用户偏好。
  2. 偏好幻觉违规:LLMs错误地虚构或误解了用户偏好。
  3. 不一致违规:LLMs虽然正确识别了用户偏好,但在生成响应时与之矛盾。
  4. 无帮助响应:LLMs未能提供相关推荐或未能回应用户查询。

分类任务则通过多项选择题进行快速评估,LLMs需要从四个选项中选择与用户偏好一致的选项。

3. 实验

3.1 模型和方法

研究团队评估了多种先进的LLMs,包括Claude 3 Sonnet、Mistral 7b Instruct、LLaMA 3 8b Instruct等。为了帮助LLMs更好地跟随用户偏好,研究团队测试了五种方法:

  1. 零样本:LLMs直接回答用户查询,没有任何额外提示。
  2. 提醒:在回答查询前,LLMs被提醒考虑用户之前表达的偏好。
  3. 自我批评:LLMs生成初始响应后,自我批评是否遵循了用户偏好,并生成修订后的响应。
  4. 少样本思维链(CoT):LLMs在回答查询前,被提供几个少样本示例,展示如何跟随用户偏好。
  5. 检索增强生成(RAG):使用句子嵌入模型检索与当前查询最相关的对话交换,并将其提供给LLMs作为上下文信息。

3.2 显式偏好跟随

在零样本设置下,所有LLMs在对话长度增加时,偏好跟随的准确率显著下降。例如,Claude 3 Sonnet在10轮对话后的准确率从80%降至30%,而在300轮对话后,准确率接近0%。即使是最先进的模型,如GPT-4,在10轮对话后的准确率也仅为50%。提醒方法和RAG方法在提升偏好跟随准确率方面表现最佳,提醒方法在Claude 3 Sonnet和Mistral 8x7b上的表现甚至超过了RAG。

3.3 隐式偏好跟随

隐式偏好增加了偏好推断的复杂性。Claude和Llama在处理隐式角色驱动偏好时表现较差,而Mistral模型在处理隐式选择偏好时表现较好。例如,Claude 3 Sonnet在隐式角色驱动偏好下的准确率仅为20%,而在隐式选择偏好下的准确率为40%。Mistral 7b在隐式选择偏好下的准确率为50%,而在隐式角色驱动偏好下的准确率为30%。

3.4 分类任务

分类任务提供了快速的评估方式,并且与生成任务的表现高度相关。RAG和提醒方法在分类任务中表现最佳。例如,Claude 3 Sonnet在使用提醒方法后,分类任务的准确率从50%提升至90%。RAG方法在Mistral 8x7b上的表现也显著优于零样本设置。

3.5 错误类型分析

在零样本设置下,LLMs普遍缺乏对用户偏好的意识,导致高比例的偏好无意识违规。例如,Claude 3 Sonnet在10轮对话后的偏好无意识违规率为70%。提醒方法和RAG方法减少了这种错误,但增加了不一致违规和幻觉违规。例如,Claude 3 Sonnet在使用提醒方法后,偏好无意识违规率降至20%,但不一致违规率上升至30%。

3.6 动态偏好跟随

引入多个偏好和冲突偏好后,LLMs对初始偏好的跟随准确率有所提高。例如,Claude 3 Sonnet在引入多个偏好后,对初始偏好的跟随准确率从50%提升至70%。这表明,多个偏好的引入可能增强了LLMs对用户偏好的注意力。

3.7 在PreFEval上微调以改进偏好跟随

通过在PreFEval上进行监督微调(SFT),Mistral-7B模型的偏好跟随能力得到了显著提升,并且在长上下文对话中表现出更好的泛化能力。例如,Mistral-7B在10轮对话后的准确率从50%提升至80%,在70轮对话后的准确率从30%提升至60%。

4. 相关工作

PreFEval与现有的个性化基准测试和长上下文基准测试有所不同。它专注于日常生活中的用户偏好,并扩展到长上下文、多轮对话。现有的基准测试主要关注风格化偏好或单轮任务,而PreFEval则强调了在多轮对话中推断和遵循用户偏好的能力。

4.1 LLM个性化与基准测试

早期的个性化工作主要集中在模仿用户风格的对话系统上。随着LLMs的兴起,个性化任务的范围扩大到了新闻标题生成、评论生成等。最近的个性化基准测试如LAMP、RPBench-Auto、TIMECHARA和RoleLLM,主要关注风格化偏好或单轮任务。PreFEval则专注于日常生活中的用户偏好,并扩展到长上下文、多轮对话。

4.2 长上下文LLM与基准测试

随着上下文窗口的扩展,长上下文LLMs如Gemini的出现,使得研究人员能够从少样本设置扩展到多样本设置。现有的长上下文基准测试主要评估信息检索能力,如问答、检索、事实推理和编码任务。PreFEval则引入了一个新的挑战:偏好跟随,要求模型从隐式偏好中推断,并在对话上下文中动态应用这种理解。

4.3 指令跟随

最近的LLMs通过人类注释的指令-响应对进行微调,增强了其指令跟随能力。PreFEval扩展了这一概念,强调了在多轮对话中推断和遵循用户偏好的能力,而不仅仅是执行离散任务或查询。

5. 结论

PreFEval为评估LLMs在多轮对话中跟随用户偏好的能力提供了一个全面的基准测试。通过严格的测试,研究团队发现,即使是最先进的LLMs,在长上下文对话中保持个性化响应的能力仍然有限。PreFEval不仅揭示了当前LLMs在个性化交互中的局限性,还为研究人员和开发者提供了一个宝贵的资源,用于评估和提升对话AI系统的个性化能力。

6. 可重复性声明

研究团队计划在未来发布PreFEval基准测试,确保其他研究人员能够复现实验结果。所有使用的提示和评估方法也将公开,以促进进一步的研究。


——完——

@北方的郎 · 专注模型与代码

喜欢的朋友,欢迎赞同、关注、分享三连 ^O^

Tags:

最近发表
标签列表