首页 > AI教程资讯 >零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025

2025-08-0802ai门户网

本站报道

编辑:LRST

【本站导读】当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。西安交通大学研究团队提出了一种名为Nullu的方法,通过提取「幻觉子空间」(HalluSpace)并进行零空间投影来编辑模型权重,从而有效消除幻觉,且不增加额外推理成本。

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。

为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(NullspaceofHalluSpace)。

论文地址:https://arxiv.org/abs/2412.13817

代码地址:https://github.com/Ziwei-Zheng/Nullu

该方法的核心思路在于:从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。

为了实现这一目标,研究人员在提取「真实描述+图像」与「幻觉描述+图像」的模型内部嵌入特征基础上,通过对二者嵌入特征的差进行主成分分析,定位导致幻觉的关键子空间,即HalluSpace

实验发现,HalluSpace内包含了LVLM所基于的大语言模型(LLMs)过强的偏好先验知识,而这在以往研究中已被证明是产生幻觉的主要原因之一。

因此,通过正交化模型权重,将输入样本的特征投影至HalluSpace的零空间,可以有效去除这种偏好先验,从而抑制幻觉生成。

Nullu实现简单,无需训练,便于部署,且不引入额外推理开销,在多个幻觉消除任务上取得了出色的效果,成果已发表于CVPR2025基于零空间投影的权重编辑

Nullu的权重编辑过程主要分为三个步骤:1)真实-幻觉数据对构建;2)HalluSpace抽取;3)基于零空间投影的模型权重编辑。

数据对构建

对于任意「视觉-文本」结构的输入数据,研究人员将构建数据对来实现幻觉子空间的抽取。每个数据对具有相同的图像和不同的文本信息:其中一个文本包含准确描述图像中物体的真实描述,作为负样本;另一个包含幻觉描述,作为正样本。

可以直接使用LURE[1]数据集作为数据对,其中每一对样本包含图像及其对应的真实描述(GroundTruth,GT)以及通过关键词替换得到的幻觉描述(HallucinationDescription,HD)。

LURE数据构建的流程如下:图像从MSCOCO2014数据集的训练集中随机选取5000张图像,并获取与对应的描述作为GT

在此基础上,替换GT中最易引发幻觉的对象,如高频对象等,作为幻觉描述HD。

HalluSpace抽取

HalluSpace的抽取将主要在LVLM的语言模型部分的MLP层特征空间进行,整体流程如图所示。

语言大模型部分由LLM构成,各层包括一个自注意力层和一个MLP层。为抽取幻觉子空间HalluSpace,首先分别输入具有真实响应和幻觉响应的正负样本对,在LLM部分的每层分别计算并存储嵌入特征,随后在特征的长度维度上,对每个样本对应的特征求平均值,将这些嵌入特征堆叠成正负样本特征矩阵,并求出差异矩阵。

接着,通过SVD分解对差异矩阵进行主成分分析。

最后,选取具有对应于前

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

8737
542

同类推荐更多

12 款免费AI内容文本检测工具推荐

12 款免费AI内容文本检测工具推荐

最火的AI教程资讯

2024-12-11

随着AI写作工具的快速普及,人工智能生成文本内容已经十分常见。AI内容检测工具可以快速识别文本内容是否由AI生成,检测识别抄袭内容,确保内容原创性。对此,神器集精选了 12 个免费准确的AI内容检测工