首页 > AI教程资讯 >六大维度,LLM问题生成首次正面PK人类!伯克利等发布最新研究

六大维度,LLM问题生成首次正面PK人类!伯克利等发布最新研究

2025-08-1402ai门户网

编辑:LRS

【本站导读】研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了**度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。

长期以来,问题生成(QuestionGeneration)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。

大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。

没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?倾向于问什么类型的问题?LLMs生成的问题与人类编写的问题又有哪些不同?

最近,加州大学伯克利分校、阿卜杜勒阿齐兹国王科技城、华盛顿大学的研究人员提出了一种基于LLMs的自动化评估方法,重点关注问题的长度、类型、上下文覆盖范围和可回答性等维度,结果发现LLMs倾向于生成需要描述性、较长答案的问题;

常见的问答任务中,人类更倾向于选择文章的开始结束位置生成问题,LLMs对整个上下文的关注更加均衡。

论文链接:https://arxiv.org/pdf/2501.03491

虽然已经有研究通过实证来评估人类一致性,但还没有将LLMs生成问题的质量标准与人类生成问题进行对比。

这篇文章首次揭示了LLMs在问题生成中的偏好,通过引入自动评估流程,扩展了现有的统计问题质量标准,研究发现为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,可以防止在不当情境下的滥用,更深入地了解LLMs在问题生成中的行为倾向。

生成流程与指标

从上下文中生成问题

问题的输入包括:一个段落文本作为上下文C,一个问题生成指令提示P;大模型M的输出为N个问题Q,其中每个问题都可以用上下文中的事实来回答。

不能直接使用LLM进行问题生成:问题假定读者对上下文的某个特定范围很熟悉;生成的问题可能没有标准答案;有些问题直接引用了上下文,如果没有上下文就无法回答。

所以研究人员设计了一段提示词:

Youaretogenerate[N]self-containedshortanswerquestionsbasedonthefactsmentionedinthefollowingcontent.Avoidquestionsthatreferencethecontentdirectly.Eachquestionshouldincludeallrelevantcontextanddirectlynameanyreferenceditems,avoidingpronounslike“it,”“thegame,”or“theperson.”Donotincludephrasesthatreferencethesourceorcontext,suchas“mentionedinthearticle”or“accordingtothetext.”Providethequestionsinanorderedlist.

你需要根据以下内容中提到的事实生成[N]个自成一体的简短答案问题。避免直接引用内容的问题。每个问题都应包含所有相关的上下文,并直接提及任何被引用的项目,避免使用「它」「这款游戏」或「这个人」等代词。不要包含引用来源或上下文的短语,如「文章中提到的」或「根据文本」。将问题以有序列表的形式提供。

为了构建上下文C,研究人员将WikiText数据集分割成86万个段落,同时保留章节结构作为元数据;在过滤掉过短的段落并清理特殊字符后,通过整合段落文本并附加相关章节标题来组成上下文。

该流程类似于HotpotQA的先上下文后问题的方法,众包人员根据维基百科的多个证据段落生成问题;作为对比,TriviaQA是一个由知识竞赛爱好者编纂的问答数据集,标注人员根据问题在文章中寻找证据。

与答案无关的评估指标

问题类型

对于人类来说,选择提出哪种问题是主观的,研究人员探索了在没有额外约束的情况下LLMs能够生成的问题类型,分析了十个手动定义类别的问题类型(通过观察HotpotQA、TriviaQA和论文数据集中的混合问题得到),并将其与人类的偏好进行比较。

问题长度

长度是生成问题的一个直观统计指标,研究人员主要统计单词数量;除了直接比较人类生成和LLMs生成数据集中的问题长度外,还考察了问题长度与问题类型之间的关系。

上下文覆盖范围

一个问题可能需要跨多个句子进行推理,研究人员扩展了基于提示的句子级测量方法,还研究了单词级上下文覆盖范围;分析了在生成过程中LLMs倾向于关注上下文的哪些具体部分。

结果可以看到,问题生成并不遵循之前研究中讨论问答中的类似位置偏差。

与答案有关的评估指标

可回答性(Answerability)

问题的关键质量标准是,在给定特定知识的情况下,是否能够被精确回答,即在提供上下文时,生成的问题应该是可回答的。

研究人员提示LLMs使用给定的上下文作为输入来生成答案;由于答案的正确性也是基于相同的上下文来评估的,因此在大多数情况下,生成的问题都是可回答的。

非常见性(Uncommonness)

LLMs的预训练数据基于互联网上广泛可用的常识,即使没有明确提供上下文,LLMs仍然可能回答问题。

与可回答性评估相比,关键区别在于在答案生成过程中省略了上下文,而其他因素保持不变;结果也可以看到,去除上下文会显著降低答案质量,也表明,生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。

所需答案长度(Requiredanswerlength)

除了问题长度外,所需答案的长度也是衡量问题信息量的有效的指标。

由于生成模型的特性,生成的答案往往更长,包含更多细节;为了从带有上下文生成的答案中筛选出不必要的信息,研究人员使用了两种策略来测量答案的基本长度:1)要求模型生成的文字答案最短;2)设置生成字数限制。

结果显示,该方法可以用更少的字数实现相同的质量评级,并显著降低答案长度,第二种策略通常来说更好。

实验结果

研究人员使用两个具有代表性的大型语言模型(LLMs)进行评估:闭源的GPT-4o和开源的LLaMA-3.1-70b-Instruct,每个模型都使用相同的256个采样的维基百科上下文(N=4)生成1024个问题;大约使用了5万次聊天调用。

在答案评分方面,人工标注与GPT-4o评估之间的平均皮尔逊相关系数为0.77,表明存在很强的正线性相关性。

LLMs会提什么类型的问题?

根据预定义的问题类型,研究人员将其分为三组:LLaMA和GPT模型都强烈倾向于询问具体的事实和数字,可能与训练数据的分布有关;不太容易提出的问题是根据上下文中的多个事实进行推理,与HotpotQA更相似;大模型也更倾向于询问描述类、需要详细答案的问题,这种偏好也导致了答案更长。

生成的问题有多长?

尽管整体的问题长度大致相似,约为20个单词,但不同的LLMs倾向于表现出对长度的不同偏好;人类生成的问题长度变化更大。

使用了多少上下文以及具体是哪部分?

人类生成的问题倾向于覆盖更多的上下文,无论是句子级还是单词级测量结果都是一致的。

人类生成的问题倾向于集中在上下文的开头,但LLMs生成的问题呈现出更均衡的分布,表明基于LLMs的问题生成与问答相比显示出几乎相反的位置关注焦点。

生成的问题是否可以在有/无上下文的情况下回答?

通过结合答案生成和评分,可以观察到,在有上下文的情况下,LLMs通常能生成令人满意的答案,符合预期。

当不提供上下文时,性能会下降,大约四分之一的生成问题无法得到合适的回答,GPT-4o生成的问题与人类构建的HotpotQA数据集相比,显示出更高比例的非常见问题。

回答问题需要多少信息?

LLMs生成的答案通常比人类标注的正确答案要长得多,可能是因为生成模型的特性。

为了更准确地衡量所需信息量,将LLMs生成的答案压缩,在保持评分的情况下生成最短版本。

参考资料:

https://arxiv.org/abs/2501.03491

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

1855
542

同类推荐更多

有哪些稳定的海外影视网站推荐

有哪些稳定的海外影视网站推荐

最火的AI教程资讯

2025-01-07

有哪些稳定的海外影视网站推荐_映技派,专注ai人工智能!,在寻找免费的影视网站时,有许多优秀稳定的海外影视网站可以选择,以下是一些针对海外观众推荐的影视网站,适合观看电影和电视剧。