1. e-works数字化企业网
  2. 新闻
  3. 资讯

成果速递丨ACM MM 2024:中科视语提出FiLo,实现工业场景零样本异常检测新突破

 
2024年08月01日 来源:ACM MM 2024
关键字:ACM MM 2024  

在工业生产和质量控制领域,异常检测始终是一个关键问题。传统的异常检测方法通常依赖大量的正常样本进行训练,但在保护用户数据隐私或应用于新生产线时,这些方法往往不适用。零样本异常检测在这种情况下应运而生,其目的是在没有目标类别物体训练数据的情况下,直接进行异常检测。

近日,中科视语和中国科学院自动化研究所的研究团队提出了一种新的零样本异常检测方法——FiLo。 FiLo方法通过细粒度描述和高质量定位模块,在异常检测和异常定位两个方面取得了显著的性能提升,在零样本异常检测工业场景中取得了业内最好性能。

现有的零样本异常检测方法通常依赖于多模态预训练模型的强大泛化能力,通过计算图像特征与手工编写的表示“正常”或“异常”语义的文本特征之间的相似度来检测异常,并根据文本特征和每个图像块特征的相似度来定位异常区域。然而,通用的“异常”描述往往无法精确匹配不同对象类别中的各种异常类型。此外,文本特征与单个图像块的特征的相似性计算难以准确定位具有不同大小和尺度的异常。

中科视语研究团队提出的FiLo方法为了解决现有零样本异常检测方法在异常检测和异常定位两个方面存在的问题,提出了两个有机结合的模块:自适应学习的细粒度描述模块(FG-Des)和位置增强的高质量定位模块(HQ-Loc):

自适应学习的细粒度描述模块(FG-Des)主要利用大语言模型(LLMs)的强大知识来生成每个物体类别可能出现的细粒度异常类型,并采用自适应学习的文本模板替代手工编写的文本内容,提高了异常检测的准确性和可解释性。

位置增强的高质量定位模块(HQ-Loc)利用Grounding DINO进行初步定位,并通过位置增强的文本提示和多尺度、多形状的跨模态交互模块(MMCI)来准确定位不同大小和形状的异常。

结合了 FG-Des 和 HQ-Loc 两个模块的 FiLo 方法的整体结构如下图所示:

FiLo首先通过大语言模型(LLMs)生成每个类别可能存在的细粒度异常类型列表,然后将细粒度异常描述填入可学习的文本模板中,通过 CLIP 文本编码器后得到表示“正常”和“异常”语义的文本特征。与此同时,FiLo还将待检测图像和大语言模型生成的细粒度异常描述内容输入到Grounding DINO中,以获得初步的异常定位框,并将初步定位框的位置信息也添加到文本特征中。

接下来,FiLo将待检测图像输入到CLIP图像编码器以提取中间层特征,这些特征通过多尺度、多形状的跨模态交互模块(MMCI)与含有位置信息的文本特征交互,生成异常分数图。最后综合各中间层的异常分数图,即可得到最终的异常图和全局异常得分。

通过这种方法,FiLo能够充分利用LLMs的强大先验知识和Grounding DINO的初步定位能力,再结合MMCI模块的多尺度、多形状特征交互,有效提升了异常检测的准确性和精确定位的能力。

基于上述方法结构,FiLo研究团队在目前流行的 MVTec-AD和VisA两个工业异常检测数据集上进行了实验,与现有零样本异常检测方法相比,FiLo取得了最先进的性能,实验结果如下表所示:

下图还展示了FiLo在一些实例上的异常检测和定位结果,可以发现相比于 CLIP 的原始输出,经过 Grounding DINO 的定位框筛选和MMCI的多尺度交互后,FiLo 能够更加准确地定位出异常位置。

 

除此之外,通过查看与图像特征最相似的细粒度异常描述中的内容,我们还可以知道图像中存在的具体异常种类,为模型的判断提供了依据,提高了模型决策的可信度和可解释性。

FiLo论文已经被人工智能和多媒体领域顶级会议 ACM MM 2024 接收,论文预印版已发布于 Arxiv 上,并开源了相关代码。

研究团队认为,现有异常检测方法往往只注重判断图像中是否含有异常,而不重视异常的具体内容,通过借助大语言模型的丰富知识,后续研究可以增强异常检测方法对具体异常类型的判断,增加方法的实用性和可信度。

论文地址:[2404.13671] FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

https://arxiv.org/abs/2404.13671

代码地址:

https://github.com/CASIA-IVA-Lab/FiLo

责任编辑:王力
您可以:
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• PTC:管理嵌入式软件的开发
• Allegro与英诺赛科联合推出全GaN参考设计, 赋...
• 施耐德电气新一代Galaxy PX UPS亮相CDCC
• 联想中国交出第二财季成绩单:个人AI业务持续...
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产...
• Fortinet 发布安全人工智能数据中心解决方案
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI...
• 智算时代,企业需要怎样的AI基础设施?
• 艾默生公布 2025 财年第四季度和全年业绩,并...
• 和利时智能仪表与XMagital®智能系统解决方案交...
• 2025年第十六届德国工业4.0考察正式启航
文章推荐
• 融资热 VS 倒闭潮:人形机器人产业发展“冷思...
• 优必选 VS Figure AI:一场“造假”风波,揭开...
• “超级生产团队”上线:懂生产,更懂怎么干
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 国际芯片大厂的战略新锚点:机器人与物理AI
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看