首页 > AI教程资讯 >零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

2025-08-0802ai门户网

本站报道

编辑：LRST

【本站导读】当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。西安交通大学研究团队提出了一种名为Nullu的方法，通过提取「幻觉子空间」（HalluSpace）并进行零空间投影来编辑模型权重，从而有效消除幻觉，且不增加额外推理成本。

当前大型视觉语言模型（LVLMs）普遍存在「物体幻觉」问题：模型会凭空生成图像中不存在的物体描述。

为了高效地实现幻觉消除，西安交通大学研究团队提出了一种利用「幻觉子空间」（HalluSpace）进行零空间投影的高效模型权重编辑方法Nullu（NullspaceofHalluSpace）。

论文地址：https://arxiv.org/abs/2412.13817

代码地址：https://github.com/Ziwei-Zheng/Nullu

该方法的核心思路在于：从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。

为了实现这一目标，研究人员在提取「真实描述+图像」与「幻觉描述+图像」的模型内部嵌入特征基础上，通过对二者嵌入特征的差进行主成分分析，定位导致幻觉的关键子空间，即HalluSpace

实验发现，HalluSpace内包含了LVLM所基于的大语言模型（LLMs）过强的偏好先验知识，而这在以往研究中已被证明是产生幻觉的主要原因之一。

因此，通过正交化模型权重，将输入样本的特征投影至HalluSpace的零空间，可以有效去除这种偏好先验，从而抑制幻觉生成。

Nullu实现简单，无需训练，便于部署，且不引入额外推理开销，在多个幻觉消除任务上取得了出色的效果，成果已发表于CVPR2025基于零空间投影的权重编辑

Nullu的权重编辑过程主要分为三个步骤：1）真实-幻觉数据对构建；2）HalluSpace抽取；3）基于零空间投影的模型权重编辑。

数据对构建

对于任意「视觉-文本」结构的输入数据，研究人员将构建数据对来实现幻觉子空间的抽取。每个数据对具有相同的图像和不同的文本信息：其中一个文本包含准确描述图像中物体的真实描述，作为负样本；另一个包含幻觉描述，作为正样本。

可以直接使用LURE[1]数据集作为数据对，其中每一对样本包含图像及其对应的真实描述（GroundTruth，GT）以及通过关键词替换得到的幻觉描述（HallucinationDescription，HD）。

LURE数据构建的流程如下：图像从MSCOCO2014数据集的训练集中随机选取5000张图像，并获取与对应的描述作为GT

在此基础上，替换GT中最易引发幻觉的对象，如高频对象等，作为幻觉描述HD。

HalluSpace抽取

HalluSpace的抽取将主要在LVLM的语言模型部分的MLP层特征空间进行，整体流程如图所示。

语言大模型部分由LLM构成，各层包括一个自注意力层和一个MLP层。为抽取幻觉子空间HalluSpace，首先分别输入具有真实响应和幻觉响应的正负样本对，在LLM部分的每层分别计算并存储嵌入特征，随后在特征的长度维度上，对每个样本对应的特征求平均值，将这些嵌入特征堆叠成正负样本特征矩阵，并求出差异矩阵。

接着，通过SVD分解对差异矩阵进行主成分分析。

最后，选取具有对应于前

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

8737

542

上一篇：OpenAI员工爆料：已抢先体验GPT-5！7月上线，疑似完全多模态

相关资讯更多

同类推荐更多

12 款免费AI内容文本检测工具推荐

12 款免费AI内容文本检测工具推荐

最火的AI教程资讯

2024-12-11

随着AI写作工具的快速普及，人工智能生成文本内容已经十分常见。AI内容检测工具可以快速识别文本内容是否由AI生成，检测识别抄袭内容，确保内容原创性。对此，神器集精选了 12 个免费准确的AI内容检测工

新品榜/热门榜

资讯推荐更多