mlps在计算机领域是什么意思

2025-03-0820:21:10常识分享0

作者:小马

编辑:CV君

深度学习在可解释性方面仍有待提高,它常被看作是一个黑盒模型,能告诉我们“这是什么”,但难以解释“为什么”是这样。这与人类识别物体的机制截然不同。

可解释的人工智能在过去几年里受到了越来越多的关注。现有的方法大多基于梯度或中间特征,而本文提出的基于slot attention的分类器SCOUTER,旨在提供可解释并且准确的分类。

与其他基于注意力的方法相比,SCOUTER有两个主要特点:它的解释涉及每个类别的最终置信度,提供更直观的解释;所有类别都有对应的肯定或否定解释,这意味着模型不仅能告诉我们“这张图片为什么是某个类别”,还能告诉我们“为什么这张图片不是某个类别”。作者为SCOUTER设计了一个新的损失函数,用以控制模型在肯定和否定解释之间切换的行为,以及解释区域的大小。

实验结果表明,在中小型数据集上,SCOUTER在保持较好准确性的能给出较好的可视化解释。了解深度学习模型如何进行预测具有重要意义,特别是在医学诊断等领域,采用黑箱模型存在潜在风险。可解释的人工智能引起了广泛关注。

XAI(可解释的人工智能)中最流行的范式是属性解释,它涉及像素或区域对最终预测的贡献水平。可以用它来回答“为什么图像x属于类别t”。解释通常通过显示一个heat map来突出显示支持预测的区域。这样的可视化对于理解模型的行为有很大帮助。

仅通过这些区域来做决策存在一个问题:这些区域如何对决策做出贡献?也就是说,属性解释强调了一些视觉成分对决策的正面支持作用,但同时也可能包含反向支持。例如,某些区域的attention map可能是一种反向支持的可解释性证据。目前这些基于attention的方法不能区分正面还是负面的支持。针对这一问题,作者在本文中提出了一种新的XAI方法,即SCOUTER。假设对于每个类别存在一个支持集,其元素用于帮助决策输入图片是否属于该类别。SCOUTER的目标是寻找一个子集,它包含一个或多个来自支持集的元素。这种透明性使SCOUTER能够找到正向或负向的支持,从而使可视化同时作为正向或负向(属于或不属于某个类)的解释。

为了验证这一新方法的效能,作者在多个数据集上进行了实验。结果表明,SCOUTER能够在保持分类性能的同时提供较好的可视化解释。作者还探讨了如何通过控制解释性区域的大小来进一步提高模型的解释性。实验结果显示,随着控制参数的变化,SCOUTER+和SCOUTER-的面积大小也会随之变化,但始终能保持较好的分类性能。这一特性使得SCOUTER在医学诊断等领域具有广泛的应用前景。

厦门大学人工智能系20级硕士研究领域为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务。他们运营的FightingCV公众号致力于推广Vision-Language模型的实地应用。更多详细信息可关注其知乎主页:努力努力再努力。

参考文献:

[1]. Francesco Locatello等. Objectcentric learning with slot attention. arXiv preprint arXiv:2006.15055, 2020.