轻松保:引领保险科技新纪元,荣获“中国金鼎奖·年度保险科技突破奖”逛京东11.11搜索“潮电搭子” 每满300减50、低价入手冬日配件好物谷歌Pixel 10首发!Android 16明年6月登场政府补贴成京东11.11下单“新标配” 购3C数码享至高补贴2000元高通孟樸解读5G与AI融合发展:混合AI模式将成为重要趋势小鹏发布AI人形机器人Iron:1:1复刻真人、已下工厂拧螺丝河南道乐石油化工有限公司企业信息、石油化工产业融合发展淘宝升级AI产品“生意管家” 双11期间服务400万商家高通公司技术标准副总裁李俨:以标准国际合作推动智能制造技术创新消息称前三季度电动汽车电池新装车近600GWh 宁德时代占比超过30%苹果向投资者发出警告:未来新产品无法达到iPhone的利润水平小鹏发布鲲鹏超级电动:支持5C超充 1秒超过1公里高通中国区董事长孟樸:共塑创新驱动的新型工业新未来消息称王慧文回归美团,带队独立探索AI应用微软推出 Magnetic-One 系统:多智能体协同完成日常任务跨境电商大促效应,正在东南亚狂飙AI浪潮下受益者!英伟达超越苹果,成为全球市值最高公司中国团队推世界最大多模态数据集“Infinity-MM”和顶尖微型AI模型“Aquila-VL-2B”超级干货:用好AI工具,轻松创作爆款短视频CMU、Meta联手放大招! VQAScore一个问题搞定文生图模型评测,准确性远超传统方法!
  • 首页 > 云计算频道 > 大模型

    图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

    2024年10月25日 09:23:11   来源:新智元公众号

      随着生成式人工智能(AIGC)的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时,也显著增加了篡改检测的难度。

      用户能够通过Photoshop、DeepFake、AIGC等工具对图像进行高质量编辑,且往往不留任何痕迹。在此背景下,如何准确检测并定位篡改区域,成为了学术界与工业界的关注重点。

      尽管现有的图像篡改检测与定位(IFDL)算法在网络结构和训练策略上取得了一定进展,但仍存在几个主要问题:

      1. 大多数方法采用黑箱模型,仅输出真实性概率,缺乏详细的检测解释,导致用户对结果的信任度降低。

      2. 现有算法通常针对特定篡改技术,缺乏应对多样化篡改手段的能力,降低了实用性。

      为了解决这些问题,如图1所示,北京大学与华南理工大学的研究团队提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。

      结合多模态大语言模型的视觉和语言理解能力,实现在检测图像真实性,生成篡改区域掩膜的同时,提供详细解释,进而增强了检测定位过程的透明性与泛化性。

      图1:(a)传统IFDL方法,(b)可解释的IFDL方法

      为了解决现有IFDL方法的不足,FakeShield提出了以下主要贡献:

      1. 提出了首个多模态大模型框架用于图像篡改检测与定位,不仅实现了检测与定位过程的解耦,还提供了合理的判断依据,解决了现有方法的黑箱问题。

      2. 利用GPT-4o丰富现有IFDL数据集,构建了多模态篡改描述数据集(MMTD-Set),通过关注不同篡改特征,生成「图像-掩膜-描述」三元组,提高了模型的分析能力。

      3. 设计了基于领域标签引导的解释性篡改检测模块(DTE-FDM),在单一模型中检测多种篡改类型,缓解了数据域冲突问题。同时,通过多模态篡改定位模块(MFLM),对齐视觉和语言特征,实现精准的篡改区域定位。

      基于上述创新,FakeShield不仅提升了篡改检测定位的准确性和解释性,还显著增强了模型的适应性和实用性,为图像篡改检测领域提供了一种全面而高效的解决方案。

      MMTD-Set数据集

      如图2所示,我们根据篡改方法,将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现有的IFDL数据集,我们利用GPT-4o生成对于篡改图像的分析与描述,构建「图像-掩膜-描述」三元组,以支持模型的多模态训练。另外,针对不同篡改类型,我们设计了特定的描述提示,引导GPT关注不同的像素伪影和语义错误。

    图2:MMTD-Set数据集构建过程

      图2:MMTD-Set数据集构建过程

      在MMTD-Set的构建过程中,prompt设计是关键环节,旨在确保GPT-4o能准确生成与篡改图像相关的高质量描述。在输入编辑后的图像及其二值掩膜时,prompt的设计围绕两个主要方面展开:篡改区域的定位和可见细节的捕捉。

      在定位描述中,GPT-4o需要对篡改区域的绝对位置和相对位置进行清晰表达。绝对位置指篡改区域在整个图像中的位置,如「图像的左上角」或「靠近图像下半部分」。相对位置则要求描述篡改区域与其他物体之间的关系,如「在桌面上方」或「靠近人群」。这种双重描述的设计可以帮助模型更准确地感知篡改区域在图像中的位置,确保输出的掩膜与实际篡改区域一致。

      在可见细节的捕捉上,prompt重点关注多种视觉异常,这些异常反映了篡改过程中可能留下的伪影和逻辑错误。

      对于Photoshop篡改,prompt重点关注像素级伪影和不自然的边缘,要求模型检查光照一致性、像素模糊和分辨率变化,同时判断是否违反物理规律,如缺失的阴影或透视关系不合理。在DeepFake数据中,prompt强调面部细节和语义逻辑,要求模型注意皮肤纹理的连贯性、表情的自然性以及光影的匹配,留意面部对称性和眼睛反射的异常。

      对于AIGC编辑,prompt聚焦于文字生成和视觉逻辑,要求分析文字拼写是否正确、排列是否合理,并判断场景中光影和对象位置的合理性。这种针对不同篡改类型的prompt设计确保了FakeShield在检测与解释上的高效性和准确性。

      FakeShield框架

      如图3所示,该框架包括域标签引导的可解释伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个关键部分。

      DTE-FDM负责图像伪造检测与检测结果分析,利用数据域标签(domain tag)弥合不同伪造类型数据之间的数据域冲突,引导多模态大语言模型生成检测结果及判定依据。MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt,引导其精确定位篡改区域。

    图3:FakeShield框架图

      图3:FakeShield框架图

      Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)

      DTE-FDM模块负责图像伪造检测与检测结果的分析,通过生成数据域标签(domain tag)来缓解不同伪造类型数据(如Photoshop编辑、DeepFake、AIGC编辑)之间的数据域冲突。这些标签引导多模态大语言模型(LLM)聚焦于各类型篡改的特征,实现针对性检测与解释。

      在检测过程中,输入图像I_ori通过数据域标签生成器G_dt分配特定标签T_tag,表明该图像的伪造类型。接着,图像经过编码器F_enc和线性投影层F_proj转化为特征向量T_img。

      这些图像特征与指令文本T_ins一并输入LLM,生成检测结果O_det,包括是否篡改、具体的篡改区域描述以及解释性分析。

      具体过程如下:

      DTE-FDM不仅判断图像的真实性,还根据不同伪造类型生成详细的判定依据,包括光照一致性、边缘伪影、分辨率差异等。这种设计确保模型能够应对多样化的伪造场景,增强了检测的准确性和解释性,使FakeShield在应对复杂篡改任务时具有更强的泛化能力与实用性。

      Multi-modal Forgery Localization Module(MFLM)

      MFLM模块负责精准定位图像中的篡改区域,通过多模态特征对齐的方式将文本和视觉信息融合,从而生成准确的篡改掩膜。MFLM的设计旨在解决仅依赖单一模态信息所带来的定位不准确问题,增强对复杂篡改区域的识别能力。

      在MFLM中,输入的图像I_ori经过Tamper Comprehension Module (TCM) 编码,将图像特征与解释性文本O_det进行对齐。对齐后的嵌入表示通过多层感知机(MLP)投影为特殊的令牌嵌入用于指导分割模型生成篡改区域掩膜,用于指导分割模型生成篡改区域掩膜M_loc。

      整个过程如下:

      其中,S_enc和S_dec分别为图像的编码器与解码器,Extract(⋅)为提取嵌入的操作,通过上述步骤,MFLM利用文本描述和图像特征的对齐生成准确的二值掩膜。

      此外,MFLM使用了LoRA微调技术,对模型进行轻量化优化,提高了处理效率并降低了计算成本。与单一模态分割方法相比,这种多模态交互的设计使得MFLM能够应对更加复杂的篡改场景,如光照不一致、透视错误和对象拼接,从而显著提升篡改区域的定位准确性。

      实验结果

      我们对FakeShield与多种IFDL方法和多模态大语言模型(MLLM)在检测、解释和定位方面的性能进行了全面对比。为了确保结果的公平性,所有IFDL方法均在与FakeShield相同的数据集上进行了训练和测试。

      这一比较覆盖了Photoshop、DeepFake以及AIGC编辑等多种篡改场景,全面评估了各模型在多模态信息融合和复杂篡改检测中的表现。

      检测性能对比

      我们与MVSS-Net,CAT-Net等其他先进的IFDL方法进行了检测性能的对比,结果如表1所示。实验结果表明,FakeShield在Photoshop、DeepFake和AIGC编辑等数据集上的检测准确率(ACC)和F1分数均显著优于其他方法。通过引入域标签引导策略(domain-tag guidance),FakeShield能够有效处理多种篡改类型,增强跨领域的泛化能力。

    表1:FakeShield与主流IFDL方法的定位性能比较

      表1:FakeShield与主流IFDL方法的定位性能比较

      解释性能对比

      我们通过与预训练的多模态大语言模型(M-LLMs)在Photoshop、DeepFake和AIGC编辑数据集上的表现进行对比,评估了FakeShield的解释能力,结果如表2所示。

      我们采用余弦语义相似度(CSS)作为衡量指标,FakeShield在各项测试中均取得了最高分数,展现了其生成准确且详细篡改区域描述的能力。这表明,FakeShield能够在复杂的篡改场景中生成与真实情况高度一致的解释性描述,大幅提升了模型在检测过程中的可解释性与透明度。

    表2:FakeShield与主流通用MLLM方法的解释性能比较

      表2:FakeShield与主流通用MLLM方法的解释性能比较

      定位性能对比

      我们通过与其他先进的IFDL方法在Photoshop和AIGC编辑等数据集上的表现进行对比,评估了FakeShield在篡改区域定位方面的能力,结果如表3所示。实验结果表明,FakeShield在大多数测试集中均取得了最高的IoU和F1分数。

    表3:FakeShield与主流IFDL方法的定位性能比较

      表3:FakeShield与主流IFDL方法的定位性能比较

      另外,图4的主观结果对比也表明,FakeShield能够生成更加清晰且精确的篡改区域分割,准确捕捉边界,而其他方法如PSCC-Net则容易产生模糊且过于宽泛的预测。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。