Executive Summary |
エグゼクティブサマリー |
This report provides an overview over issues that arise when methods from the field of explainable artificial intelligence (XAI) are used to provide post-hoc explanations of AI models. XAI methods are beneficial for knowledge discovery in research and model optimization in industry. However, there are limitations and issues that make a secure and reliable use for assessment procedures and digital consumer protection questionable. |
本レポートは、説明可能な人工知能(XAI)分野の手法をAIモデルの事後説明に使用した場合に発生する問題を概観するものである。XAI手法は、研究における知識発見や産業におけるモデル最適化に有益である。しかし、アセスメント手続きやデジタル消費者保護のための安全で信頼できる利用を疑問視させる限界や問題がある。 |
Disagreement Problem |
不一致問題 |
The disagreement problem can be regularly observed during the application of post-hoc explanation methods. This term describes the situation, that different methods calculate different explanations – sometimes these explanations can be contradictory. |
不一致問題は、事後説明法の適用中に定期的に観察される。この用語は、異なる手法が異なる説明を計算するという状況を説明する。 |
Manipulation |
操作 |
Many XAI-methods are susceptible to manipulation. A manipulated explanation cannot guarantee to accurately depict the decision process of an AI model. Manipulated explanations pose a risk for assessment procedures and digital consumer protection, if they are used to deceive supervisory authorities or consumers. |
多くのXAI手法は操作の影響を受けやすい。操作された説明は、AIモデルの意思決定プロセスを正確に描写することを保証できない。操作された説明は、監督当局や消費者を欺くために使用された場合、アセスメント手続きやデジタル消費者保護にリスクをもたらす。 |
Conclusion |
結論 |
The described issues of post-hoc explanation methods are currently a limiting factor for securely and reliably using them in assessment procedures of AI products. This implies, that alternatives are required for the development of reliable assessment procedures. Such alternatives could be detailed audits using white-box and outside-the-box access to AI products. Additionally, the issues of post-hoc explanation methods have an impact on the digital consumer protection. At the moment, these methods cannot be reliably used for the technical support of digital consumer protection. |
ポスト・ホック説明法について述べた問題は、現在、AI製品のアセスメント手続きに安全かつ確実に使用するための制限要因となっている。このことは、信頼できるアセスメント手続きを開発するためには、代替手段が必要であることを意味している。そのような代替案は、AI製品へのホワイトボックスやアウトサイド・ザ・ボックス・アクセスを用いた詳細な監査である。さらに、事後的な説明方法の問題は、デジタル消費者保護にも影響を及ぼす。現時点では、これらの手法はデジタル消費者保護の技術的支援に確実に使用することはできない。 |
Table of Contents |
目次 |
1 Introduction |
1 序文 |
2 Issues when using Post-Hoc Explanations |
2 その場しのぎの説明を使う場合の問題点 |
2.1 The Disagreement Problem |
2.1 不一致問題 |
2.2 The Manipulation Risk |
2.2 操作リスク |
2.3 Fairwashing |
2.3 フェアウォッシング |
3 Solutions |
3 解決策 |
3.1 Solving the Disagreement Problem |
3.1 不一致問題の解決 |
3.2 Detecting Manipulations |
3.2 操作の検知 |
3.3 Robustness of Explanations |
3.3 説明の頑健性 |
4 Conclusion |
4 結論 |
Reference |
参考 |
1 Introduction |
1 序文 |
Artificial Intelligence (AI) methods are an integral part of the modern world. Nowadays, everyone who is interacting with a smartphone gets into contact with AI (Herget, 2024) (Wired Insider, 2021). The public awareness of AI’s existence has widely spread since the easy accessibility of large language models (LLMs) (cf (BSI, 2024a) for a commentary by the BSI). However, decision processes were supported or automatically executed by AI algorithms since before the introduction of LLMs. The report by Propublica, that prediction models are used in determining the risk of recidivism of criminal suspects in the USA, received high attention (Angwin, et al., 2016). In the financial sector, AI-based prediction models are used to support the decision on loan applications or to predict developments of financial markets (Aziz, et al., 2022). Furthermore, using AI-based decision support systems for diagnosis and treatment of patients is currently investigated or partially implemented in medicine (Editorial, 2024) (The Royal College of Radiologists, et al., 2023) (BSI, 2024). These are highly sensitive areas where incorrect decisions can lead to social, legal, financial or health damage to citizens. |
人工知能(AI)の手法は現代社会に不可欠な要素である。現在では、スマートフォンを操作する誰もがAIと接触している(Herget, 2024)(Wired Insider, 2021)。大規模な言語モデル(LLM)に簡単にアクセスできるようになって以来、AIの存在に対する一般の認識は広く浸透した(BSIによる解説は(BSI, 2024a)を参照)。しかし、意思決定プロセスは、LLMの序文が登場する以前から、AIアルゴリズムによってサポートされたり、自動的に実行されたりしていた。米国では、犯罪容疑者の再犯リスクの判定に予測モデルが使用されているというPropublicaのレポートが高い注目を集めた(Angwin, et al., 2016)。金融分野では、AIベースの予測モデルが融資申し込みの判断支援や金融市場の動向予測に利用されている(Aziz, et al., 2022)。さらに、患者の診断や治療にAIベースの意思決定支援システムを使うことが、現在、医学の分野で研究されたり、部分的に実施されたりしている(Editorial, 2024)(The Royal College of Radiologists, et al, 2023)(BSI, 2024)。これらは、誤った判断が市民の社会的、法的、経済的、健康的損害につながりかねない、非常にセンシティブな分野である。 |
Awareness of the potential risk associated with AI is rising on the European level, which led to EU regulations to counteract some of these risks, namely the general data protection regulation (GDPR) and the artificial intelligence act (AI Act). These regulations give rise to the question on how to adequately assess AI products due to the black box nature of many of these products. Black box in this context means, that developers and providers of AI products cannot guarantee to fully understand why a certain decision was made by the AI. In accordance with standard practice in the literature, the term black box will be used to describe a technical as well as a functional black box throughout this document. There are several voices in research and application that proclaim a specific field as the solution to many problems of AI: explainable artificial intelligence (XAI) (EDPS, 2023) (IBM, 2023) (Gerlings, et al., 2020). This subdomain of AI consists of techniques and methods that either use inherently interpretable approaches to create a humancomprehensible decision-making process or apply additional models to compute explanations for decisions made by a black box (Molnar, 2020) (Arrieta, et al., 2020). XAI techniques that are used to explain an already trained black box are called post-hoc approaches and the computed explanations are called post-hoc explanations. In theory, users can utilize calculated explanations to understand decisions, identify faulty behavior of AI systems, or take action against potential discrimination by algorithmic decision-making. Additionally, supervisory authorities could assess AI products with the help of these explanations. However, it is of utmost importance to evaluate the possibility of manipulating XAI methods[1] to ensure that they can be securely and reliably used. Furthermore, there have to be reliable approaches to detect manipulated explanations. This publication is meant to provide an overview of the issues arising from the use of post-hoc XAI methods in an adversarial context. Implications of these issues for assessment procedures and digital consumer protection will be shown. |
AIに関連する潜在的リスクに対する認識は欧州レベルで高まっており、その結果、これらのリスクの一部に対抗するためのEU規制、すなわち一般データ保護規制(GDPR)と人工知能法(AI法)が制定された。これらの規制は、AI製品の多くがブラックボックスであることから、AI製品をどのように適切にアセスメントするかという問題を引き起こしている。ここでいうブラックボックスとは、AI製品の開発者やプロバイダが、AIがある決定を下した理由を完全に理解することを保証できないことを意味する。文献における標準的な慣行に従い、本書では技術的なブラックボックスと機能的なブラックボックスを表現するためにブラックボックスという用語を使用する。説明可能な人工知能(XAI)(EDPS, 2023)(IBM, 2023)(Gerlings, et al.) AIのこのサブドメインは、人間にとって理解しやすい意思決定プロセスを生み出すために本質的に解釈可能なアプローチを用いるか、ブラックボックスによってなされた意思決定に対する説明を計算するために追加モデルを適用する(Molnar, 2020)(Arrieta, et al.) 既に訓練されたブラックボックスを説明するために使用されるXAI技術は、ポストホックアプローチと呼ばれ、計算された説明はポストホック説明と呼ばれる。理論的には、ユーザーは計算された説明を利用して、意思決定を理解したり、AIシステムの欠陥行動を特定したり、アルゴリズムによる意思決定による潜在的な識別に対して行動を起こしたりすることができる。さらに、監督当局はこれらの説明の助けを借りてAI製品を評価することができる。しかし、XAI手法[1]を安全かつ確実に使用できるように、操作の可能性を評価することが最も重要である。さらに、操作された説明を検知するための信頼できるアプローチが必要である。本書は、敵対的な状況におけるポストホックXAI手法の使用から生じる問題の概要を提供することを目的としている。アセスメント手続きとデジタル消費者保護に対するこれらの問題の防御を示す。 |
This publication is targeted at a professional audience with knowledge about the fundamentals of AI and experience with XAI methods. The goal is to make experts, who are participating in committee work towards a practical implementation of the AI Act, aware of the issues with posthoc XAI methods. The document is meant to enable a critical and result-oriented discussion about the chances and limitations that the use of XAI methods provide for the requirements of the AI Act. Furthermore, the publication points towards directions that need to be explored in the development of new XAI methods to ensure their usability in assessment procedures and digital consumer protection. |
本書は、AIの基礎知識とXAI手法の使用経験を持つ専門家を対象としている。その目的は、AI法の実用化に向けた委員会作業に参加している専門家に、その場限りのXAI手法の問題点を認識してもらうことである。この文書は、XAI手法の使用がAI法の要件に与える可能性と限界について、批判的かつ結果重視の議論を可能にすることを意図している。さらに、本書は、アセスメント手続きやデジタル消費者保護における有用性を確保するために、新たなXAI手法の開発において探求すべき方向性を指し示している。 |
2 Issues of Post-Hoc Explanations |
2 その場限りの説明の問題点 |
Throughout this document, the studied scenario consists of two participating parties. On one side is the explanation-providing party, which could be, for example, a company that offers an AI product and uses XAI methods to calculate explanations for decisions made by their product. On the other side is the explanation-receiving party, which could be consumers that are affected by decisions from an AI product or supervisory authorities that want to assess the conformity of an AI product. As a special case, the document will also consider a scenario, where the explanationproviding and the explanation-receiving party are identical and the other party only provides the AI product. This special case can occur during assessment procedures. Academic research often considers a cooperative context, i.e., the explanation-providing party and the explanation-receiving party have the same goal. However, an adversarial context can be prevalent for assessment procedures and digital consumer protection. The term adversarial context means, that the participating parties do not follow the same objective. For example, market players (companies, consumers) can have different economic interests. |
本書を通じて、研究シナリオは2つの当事者から構成されている。一方は説明プロバイダであり、例えば、AI製品を提供し、その製品による決定に対する説明を計算するためにXAI手法を使用する企業である。もう一方は説明を受ける側で、AI製品の決定の影響を受ける消費者や、AI製品の適合性を評価したい監督当局などが考えられる。特別なケースとして、説明提供側と説明受領側が同一であり、相手側がAI製品のみを提供するシナリオも考慮する。この特別なケースは、アセスメント手続き中に起こりうる。学術研究では、説明プロバイダと説明受領者が同じ目標を持つという、協力的な状況を考慮することが多い。しかし、アセスメント手続きやデジタル消費者保護においては、敵対的な文脈が広まることもある。敵対的文脈とは、参加当事者が同じ目的に従っていないことを意味する。例えば、市場関係者(企業、消費者)は異なる経済的利益を持ちうる。 |
In a perfect (AI) world, consumers have access to XAI methods that they can use to get understandable information about automatic decision-making processes. Furthermore, this understandable information can be used by consumers to identify actions they can take (within the confinement of the law) to achieve a favorable change in the decision. A process that is known as algorithmic recourse (Karimi, et al., 2022). At the same time, supervisory authorities can use the understandable information provided by XAI methods to assess whether AI products abide by mandatory requirements or fulfill the standards of needed certifications (BSI, 2024b). However, the current generation of XAI methods has limitations and issues that make the secure and reliable use of these methods for the described scenarios questionable. |
完璧な(AIの)世界では、消費者は自動的な意思決定プロセスに関する理解可能な情報を得るために使用できるXAI手法にアクセスできる。さらに、この識別可能な情報は、消費者が(法律の範囲内で)決定を有利に変更するために取ることができる行動を特定するために使用することができる。アルゴリズミック・リコースと呼ばれるプロセスである(Karimi, et al., 2022)。同時に、監督当局は、XAI手法によって提供される理解可能な情報を利用して、AI製品が必須要件を遵守しているかどうか、あるいは必要な認証の標準を満たしているかどうかを評価することができる(BSI, 2024b)。しかし、現在のXAI手法の生成的な限界や問題点は、説明されたシナリオにこれらの手法を安全かつ確実に使用することを疑問視させるものである。 |
2.1 The Disagreement Problem |
2.1 不一致問題 |
Post-hoc explanation approaches are using downstream models to make the decision-making process of a black box model understandable for humans. The most common approaches are either using model internals (e.g., learned weights or gradients) or surrogate models[2] to approximate the investigated prediction model’s computations. However due to the fact that these approaches are using an approximation, they cannot guarantee to be faithful to the prediction model’s real computations. The computed explanation is influenced by design decisions of the different post-hoc approaches – so-called a priori assumptions. Since these assumptions differ between different post-hoc explanation approaches, two different approaches can compute vastly different explanations for the decision made by a prediction model for a specific data point. The term that is often used in literature to describe this issue is disagreement problem. The technical reason for this problem can be derived from the fact that calculating post-hoc explanations is underdetermined, which can be seen in two aspects. First, post-hoc explanation methods only have access to a sparse and coarse-grained view of the world. Second, there rarely is a single reason for a specific decision made by modern AI models due to their highly complex decision surfaces (Bordt, et al., 2022). Figure 1 shows a schematic visualization of the disagreement problem. |
その場しのぎの説明アプローチは、ブラックボックスモデルの意思決定プロセスを人間に理解できるようにするために、下流モデルを使用する。最も一般的なアプローチは、調査された予測モデルの計算を近似するために、モデル内部(例えば、学習された重みまたは勾配)またはサロゲートモデル[2]を使用することである。しかし、これらのアプローチは近似を用いているため、予測モデルの実際の計算に忠実である保証はない。計算された説明は、異なるポストホックアプローチの設計上の決定、いわゆるアプリオリな仮定の影響を受ける。これらの仮定は異なるポストホック説明アプローチ間で異なるため、2つの異なるアプローチは、特定のデータポイントに対して予測モデルによってなされた決定に対して、大きく異なる説明を計算することができる。この問題を説明するために文献でよく使われる用語が不一致問題である。この問題の技術的な理由は、ポスト・ホック説明を計算することが過小決定であるという事実から導き出される。第一に、ポストホック説明法は疎で粗い世界観にしかアクセスできない。第二に、現代のAIモデルが行う特定の決定には、非常に複雑な決定曲面のため、単一の理由しか存在しないことがほとんどである(Bordt, et al., 2022)。図1は、不一致問題を模式的に視覚化したものである。 |
*****Fig1**** |
Figure 1: Schematic visualization of the disagreement problem. An AI black box denies a person’s loan application. Three different XAI methods are used to calculate an explanation for this decision. The used methods are SHAP (SHapley Additive explanation), LIME (Local Interpretable Model-agnostic Explanation), and SOFI (Sparseness-Optimized Feature Importance). All three methods create different explanations. While SHAP puts the most weight onto the equity capital of the applicant, LIME assigns the highest influence to the loan amount. Lastly, SOFI calculates that loan term is the most influential feature for the decision. This example shows the difficulties that the disagreement problem can cause to applicants. They are limited in their ability to identify actions that can cause a favorable change of decision due to the contradictory explanations. |
図1:不一致問題の概略図。AIのブラックボックスが融資申請を却下する。この決定に対する説明を算出するために、3つの異なるXAI手法が使用される。使用される手法は、SHAP(SHapley Additive explanation)、LIME(Local Interpretable Model-agnostic Explanation)、SOFI(Sparseness-Optimized Feature Importance)である。3つの手法はすべて異なる説明を作成する。SHAPは申請者の自己資本に最も重み付けするのに対し、LIMEは融資額に最も高い影響力を割り当てる。最後に、SOFIは融資期間が決定に最も影響を与える特徴であると算出する。この例は、意見の相違が申請者に与える困難を示している。矛盾する説明により、決定に好ましい変化をもたらす行動を識別する能力が制限される。 |
Evidence of the disagreement problem can be found in several different application areas of AI. Within the natural language processing (NLP) domain, it was shown that disagreement between explanation approach occur independently of the used language model (e.g., LSTM or transformer-based) and during different tasks (e.g., language comprehension or sentiment analysis). Different XAI approaches were investigated including permutation-[3], gradient-[4] and propagation-based[5] explanation methods and all approaches showed severe differences in their calculated explanations (Neely, et al., 2021). However, the disagreement problem is not limited to the comparison of different XAI approaches. It can also be found when two explanation methods of the same approach are compared. This was noticed during an investigation of defect detection systems for source code. Two different permutation-based methods – LIME and SHAP – were used to calculate post-hoc explanations. The resulting explanations showed strong differences and were partly contradictory (Roy, et al., 2022). An extensive study on tabular data indicated, that the disagreement problem can also be found when comparing popular methods that are using a counterfactual approach[6] (Brughmans, et al., 2024). The high prevalence of the disagreement problem became apparent with a study conducted by researchers from Harvard University, MIT, Drexel University, and Carnegie Mellon University. Within the study, eight different prediction models were trained on four different datasets (two tabular datasets, one textual dataset, and one image dataset). All tested prediction models were black boxes. After training, six popular explanation methods were applied to each combination of prediction model and dataset and the resulting explanations were compared. The researchers found clear differences between calculated explanations for all investigated data modalities. These results show the seriousness of the disagreement problem. In the same work, the researchers conducted a user study with professional data scientists to determine how often professionals encounter the disagreement problem. More than 70% of the participants indicated that the disagreement problem is part of their daily work. Additionally, further questioning indicated that there is a lack of standard practices to solve the encountered disagreements. In their daily work, participants usually use internal, subjective metrics to determine which post-hoc explanation they trust (Krishna, et al., 2024). Another aspect of the disagreement problem can be found in the lack of reproducibility that AI applications often face. For examples, small changes in the hardware environment of an AI model can lead to changes in the behavior. The changed behavior can then lead to changed explanations. (BSI, 2022). |
不一致問題の証拠は、AIのいくつかの異なる応用分野で見つけることができる。自然言語処理(NLP)領域では、説明アプローチ間の不一致は、使用される言語モデル(例えばLSTMや変換器ベース)とは無関係に、また異なるタスク(例えば言語理解や感情分析)中に発生することが示された。順列法[3]、勾配法[4]、伝播法[5]など、さまざまなXAIアプローチが調査されたが、どのアプローチも、計算された説明文に大きな違いを示した(Neely, et al.) しかし、不一致の問題は、異なるXAIアプローチの比較に限定されるものではない。同じアプローチの2つの説明方法を比較した場合にも見られる。これは、ソースコードの欠陥検知システムの調査中に気づいた。LIMEとSHAPという2つの異なる順列に基づく方法が、事後説明を計算するために使用された。その結果、説明には強い違いが見られ、部分的に矛盾していた(Roy, et al., 2022)。表データに関する広範な研究では、不一致の問題は、反実仮想的アプローチを使用する一般的な方法を比較するときにも見られることが示された[6](Brughmans, et al., 2024)。ハーバード大学、マサチューセッツ工科大学(MIT)、ドレクセル大学、カーネギーメロン大学の研究者によって実施された研究で、不一致問題の有病率の高さが明らかになった。この研究では、8つの異なる予測モデルが4つの異なるデータセット(2つの表データセット、1つのテキストデータセット、1つの画像データセット)で訓練された。テストされた予測モデルはすべてブラックボックスであった。学習後、6種類の一般的な説明方法を、予測モデルとデータセットの各組み合わせに適用し、得られた説明を比較した。研究者は、調査したすべてのデータモダリティについて、計算された説明の間に明確な違いがあることを発見した。これらの結果は、不一致問題の深刻さを示している。同じ研究において、研究者らは、専門家が不一致問題に遭遇する頻度を明らかにするため、プロのデータ科学者を対象としたユーザー調査を実施した。参加者の70%以上が、不一致問題は日常業務の一部であると回答した。さらに質問を進めたところ、遭遇した意見の相違を解決するための標準的なプラクティスが不足していることが示された。日常業務において、参加者は通常、社内の主観的な指標を用いて、どの事後説明を信頼するかを決定している(Krishna, et al., 2024)。不一致問題のもう一つの側面は、AIアプリケーションがしばしば直面する再現性の欠如にある。例えば、AIモデルのハードウェア環境の小さな変化が、動作の変化につながることがある。変化した挙動は、説明の変化につながる可能性がある。(BSI, 2022)。 |
The disagreement problem is a prominent challenge for the scenarios that this manuscript is focused on. A multitude of different or contradictory explanations could cause consumers to be overwhelmed, if they are supposed to use these explanations to understand a decision process or derive actions for a favorable decision change. Simultaneously, the disagreement between XAI methods give explanation-providing parties the possibility to select one specific explanation that is most suitable to their interest. Since these interests do not necessarily match with the interests of consumers, this could cause conflicts with digital consumer protection. Supervisory authorities can also face challenges due to the disagreement problem. If provided explanations are supposed to support an assessment procedure to assure that an AI product is in accordance with mandatory requirements, then the disagreement problem could allow explanation-providing parties to hide explanations that would make the conformity of their products questionable. Additionally, the disagreement problem can cause challenges, if supervisory authorities are calculating explanations themselves during an assessment procedure. A possible situation could arise where the use of different XAI methods result in different assessments regarding the conformity of an AI product. It is unclear how to solve such a situation. |
不一致の問題は、この原稿が焦点を当てているシナリオにとって顕著な課題である。消費者がこれらの説明を使って意思決定プロセスを理解したり、好ましい意思決定変更のための行動を導き出したりする場合、多数の異なる説明や矛盾する説明は、消費者を圧倒してしまう可能性がある。同時に、XAI手法間の不一致は、説明を提供する側に、自分の関心に最も適した特定の説明を1つ選択する可能性を与える。これらの利益は必ずしも消費者の利益と一致しないため、デジタル消費者保護との軋轢を引き起こす可能性がある。監督当局もまた、不一致の問題に起因する課題に直面する可能性がある。提供された説明が、AI製品が必須要件に適合していることを保証するためのアセスメント手続を支援するものとされている場合、不一致問題によって、説明を提供する当事者が、自社製品の適合性を疑わせるような説明を隠すことが可能になる可能性がある。さらに、監督当局がアセスメント手続き中に自ら説明を計算する場合にも、不一致問題は問題を引き起こす可能性がある。異なるXAI手法の使用により、AI製品の適合性に関するアセスメントが異なるという状況が起こりうる。このような状況をどのように解決するかは不明である。 |
2.2 The Manipulation Risk |
2.2 操作リスク |
There are additional possibilities to misuse XAI methods beside abusing the disagreement problem. It is also possible to directly manipulate an explanation. This can be achieved by either manipulating the prediction model or the explanation model in a way that conserves the predictive behavior of the AI model but changes the calculated explanations. A schematic visualization of manipulation can be found in Figure 2. The goal of manipulating explanations is to hide undesired or illegal behavior of AI models (Schneider, et al., 2023). Permutation-based explanation methods use small perturbations to inputs in their computation process. This fact can be exploited for manipulations. For two of the most popular methods from this approach – LIME and SHAP – it is possible to discriminate between regular inputs and generated, perturbed inputs. In (Slack, et al., 2020), authors were able to show that this information is sufficient to hide problematic behavior of a prediction model. They combined the “real” prediction model with a manipulated model that did not have the problematic behavior. While the “real” model was used to make predictions, the posthoc explanations were based on the manipulated model. If the investigated AI product is a black box that combines the original model with the manipulated model, the proposed manipulation can be hidden from consumers and supervisory authorities. |
不一致問題を悪用する以外にも、XAI手法を悪用する可能性がある。説明を直接操作することも可能である。これは、AIモデルの予測動作はそのままに、計算された説明を変更する方法で、予測モデルまたは説明モデルを操作することで実現できる。操作の概略的な視覚化は図2にある。説明を操作する目的は、AIモデルの望ましくない、あるいは違法な振る舞いを隠すことである(Schneider, et al., 2023)。順列に基づく説明手法は、計算過程で入力に小さな摂動を与える。この事実は、操作に利用できる。LIMEとSHAPの2つは、通常の入力と生成的な摂動入力を識別することができる。Slack, et al., 2020)において、認可者はこの情報が予測モデルの問題行動を隠すのに十分であることを示すことができた。彼らは「本物」の予測モデルを、問題のある振る舞いをしない操作されたモデルと組み合わせた。本物」のモデルは予測に使用されたが、事後説明は操作されたモデルに基づいて行われた。もし調査対象のAI製品が、オリジナルのモデルと操作されたモデルを組み合わせたブラックボックスであれば、提案された操作を消費者や監督当局から隠すことができる。 |
*****Fig2***** |
Figure 2: Schematic visualization of XAI method manipulation. An AI black box denies a person’s loan application. |
図2:XAI手法の操作の模式的視覚化。AIのブラックボックスは、ある人のローン申請を拒否する。 |
Using a post-hoc explanation method indicates, that the applicant’s gender was most influential for the decision – a potential violation of anti-discrimination law. The explanation-providing party wants to hide this illegal behavior to avoid claims of damages. Therefore, the explanation gets manipulated to eradicate the influence of gender from the explanation even though the model still uses this feature. |
事後的な説明方法を用いると、申請者の性別がその決定に最も影響したことが示される-これは差別禁止法違反の可能性がある。説明を提供する側は、損害賠償請求を避けるためにこの違法行為を隠したい。そのため、モデルにはこの特徴が使われているにもかかわらず、説明から性別の影響を排除するように説明が操作される。 |
Counterfactual explanation approaches are also vulnerable to manipulation. If a specially designed loss function is used during training, auditing the trained model with counterfactual explanations would indicate an acceptable model behavior. However, the designed loss function opened a back door that can be misused by providers, to manipulated counterfactual explanations for arbitrary inputs when the model is deployed. Providers could use this back door, for example, to give realistic recourse options only to a selected subgroup of users (Slack, et al., 2021). For image data, researchers were able to show that methods based on saliency maps can be manipulated. This manipulation was achieved by specific optimization formulas for model finetuning. The finetuned models had an unchanged predictive behavior but the computation of saliency maps by different post-hoc explanation methods was altered. With the proposed finetuning either a passive manipulation (i.e., the calculated explanation is randomized) or an active manipulation (i.e., the calculated explanation follows a predetermined form) can be achieved (Heo, et al., 2019). Another group of researchers investigated gradient-based explanation approaches in the NLP field. Their results indicate that many of these methods can be manipulated to hide the real behavior of a prediction model (Wang, et al., 2020). In general, post-hoc explanation methods are vulnerable to several different vectors from the field of adversarial attacks[7]. However, in the explanation case, these vectors will not be used by malicious actors to attack an AI model. Instead, adversarial attacks can be used by explanation-providing parties to deceive explanation-receiving parties about the real behavior of an AI model (Baniecki, et al., 2024). |
反実仮想的説明アプローチも操作の脆弱性がある。訓練中に特別に設計された損失機能が使用された場合、反事実的説明で訓練されたモデルを監査すると、許容可能なモデル動作を示すだろう。しかし、設計された損失関数は、モデルが展開されるときに、任意の入力に対する反事実的説明を操作するために、プロバイダによって悪用される可能性のあるバックドアを開いた。プロバイダはこのバックドアを利用して、例えば、現実的な救済オプションを選択されたサブグループのユーザーにだけ与えることができる(Slack, et al., 2021)。画像データについては、研究者は、顕著性マップに基づく手法が操作可能であることを示すことができた。この操作は、モデルの微調整のための特定の最適化公式によって達成された。ファインチューニングされたモデルの予測動作は変わらないが、異なる事後説明法による顕著性マップの計算が変更された。提案されたファインチューニングでは、受動的操作(すなわち、計算された説明がランダムになる)または能動的操作(すなわち、計算された説明があらかじめ決められた形式に従う)のいずれかを達成することができる(Heo, et al.) 別の研究者グループは、NLP分野における勾配ベースの説明アプローチを調査した。彼らの結果は、これらの手法の多くが、予測モデルの実際の振る舞いを隠すように操作できることを示している(Wang, et al., 2020)。一般的に、ポストホック説明手法は、敵対的攻撃の分野からいくつかの異なるベクトルに対して脆弱性を持つ[7]。しかし、説明の場合、これらのベクトルは悪意のある行為者がAIモデルを攻撃するために使用することはない。その代わり、敵対的攻撃は、説明を提供する側が、AIモデルの実際の振る舞いについて説明を受ける側を欺くために使用することができる(Baniecki, et al.) |
Deep Dive |
Deep Dive |
A group of researchers showed the seriousness of the manipulation issue for popular explanation methods that are based on gradients and propagation. They used differential geometry to show, that for every black box there is a surrogate model with identical behavior on the data manifold but arbitrary gradient- or propagation-based explanations (Anders, et al., 2020). Their argument uses the insight that gradients, which lie orthogonal to the data manifold, do not influence the model’s prediction behavior on the data. Therefore, these gradients can be used to create arbitrary explanations, since they are highly influential for the calculation of gradient- and propagation-based explanations. |
研究者グループは、勾配と伝播に基づく一般的な説明手法の操作問題の深刻さを示した。彼らは微分幾何学を用いて、あらゆるブラックボックスに対して、データ多様体上では同一の振る舞いをするが、勾配や伝播に基づく説明は任意である代理モデルが存在することを示した(Anders, et al., 2020)。彼らの議論は、データ多様体に直交する勾配は、データ上でのモデルの予測動作に影響を与えないという洞察を用いている。したがって、これらの勾配は、勾配や伝播に基づく説明の計算に大きな影響を与えるため、任意の説明を作成するために使用することができる。 |
Manipulating explanations can lead to the same problematic situations as described in the section about the disagreement problem. Consumers could be negatively impacted by deceiving them about the real workings of a decision process or by preventing them from identifying actions for a favorable decision change. Concurrently, supervisory authorities can be deceived during assessment procedures. For example, this could lead to an AI product being cleared for certifications even if the product does not fulfill the requirements. |
説明を操作することは、不一致問題のセクションで説明したのと同じような問題を引き起こす可能性がある。消費者は、意思決定プロセスの実際の仕組みについて欺いたり、有利な意思決定変更のための行動を特定できないようにしたりすることで、悪影響を受ける可能性がある。同時に、監督当局はアセスメント手続き中に欺かれる可能性がある。例えば、AI製品が要求事項を満たしていないにもかかわらず、認証をクリアしてしまう可能性がある。 |
2.3 Fairwashing |
2.3 Fairwashing |
An important topic for assessment and control of AI products is whether such a product has unfair or discriminating behavior towards a subpopulation of consumers. Equal treatment independent of sensitive attributes like ethnicity, gender identity, or sexual orientation belongs to the basic rights of German and European citizens and, hence, is specially protected (cf Article 3 Basic Law of the Federal Republic of Germany, Article 21 EU Charter of Fundamental Rights, and Article 18 Treaty on the Functioning of the EU). This fundamental right gets affirmed in different legal texts that are important for the application of AI (cf Article 5(1) lit. c AI Act and Article 9(1) GDPR). However, the topic of unfair or discriminating behavior is important for IT security as well. On a fundamental level, unfair or discriminating behavior means that subpopulations are treated differently by an AI product. This could lead to security issues, if such a product is applied in a security-sensitive scenario. As an example, consider an identification software based on biometric data that is biased against a certain ethnicity. In the worst case, deployment of such a biased software could mean that unauthorized persons gain access to restricted areas or information, if the software has difficulties distinguishing between humans of the same ethnicity. Another mandatory characteristic of a secure IT product is the guarantee, that provided information is accurate and trustworthy. An AI product with unfair or discriminating behavior cannot reliably fulfill this mandatory characteristic. In summary, AI products with the described behavior break with basic principles of IT security that are defined in the so-called CIA triad: confidentiality, integrity and availability. In profit-oriented processes, however, unfair or discriminating behavior of AI products might be accepted by providers, if this leads to advantages over competitors – for example due to better prediction performance. This behavior has to be hidden from supervisory authority, since it could violate mandatory requirements. The process of hiding unfair or discriminating behavior of an AI is called fairwashing. The following section will provide a more detailed look onto this topic due to the relevance for IT security and digital consumer protection. |
AI製品のアセスメントと管理にとって重要なトピックは、そのような製品が消費者の下位集団に 対して不公正または識別的な行動をとっているかどうかである。民族、性自認、性的指向といった微妙な属性に左右されない平等な扱いは、ドイツおよび欧州市民の基本的権利に属し、それゆえ特別に保護されている(ドイツ連邦共和国基本法第3条、EU基本権憲章第21条、EU機能条約第18条参照)。この基本的権利は、AIの適用にとって重要なさまざまな法文で確認されている(AI法第5条1項c、GDPR第9条1項参照)。しかし、不当な行為や識別的行為は、ITセキュリティにとっても重要である。基本的なレベルでは、不公正または識別的な振る舞いとは、AI製品によって一部の集団が異なる扱いを受けることを意味する。このような製品がセキュリティ上重要なシナリオに適用された場合、セキュリティ上の問題につながる可能性がある。例として、特定の民族に偏った生体データに基づく識別ソフトウェアを考えてみよう。最悪の場合、そのようなバイアスのかかったソフトウェアを展開すると、同じ民族の人間を区別するのが難しい場合、権限のない人間が制限されたエリアや情報にアクセスすることになりかねない。安全なIT製品のもうひとつの必須特性は、プロバイダが提供する情報が正確で信頼できるものであることを保証することである。不公正な、あるいは識別的な振る舞いをするAI製品は、この必須特性を確実に満たすことはできない。要約すると、このような振る舞いをするAI製品は、いわゆるCIAの三原則(機密性、完全性、可用性)で定義されているITセキュリティの基本原則に反している。しかし、利益重視のプロセスでは、AI製品の不公正な振る舞いや識別的な振る舞いがプロバイダに受け入れられる可能性がある。このような行動は、強制的な要件に違反する可能性があるため、監督当局から隠さなければならない。AIの不公正な行動や識別的な行動を隠すプロセスは、フェアウォッシュと呼ばれる。以下では、ITセキュリティやデジタル消費者保護との関連性から、このトピックについてより詳しく見ていく。 |
Researchers from Canada and Japan proposed an early formalization of the problem (Aivodji, et al., 2019).They defined fairwashing from two different directions. In the first case, the goal is to hide an unfair model from a group of users or a supervisory authority. This case is called model fairwashing. Similar to the standard procedure in XAI, model fairwashing uses an interpretable surrogate model to approximate the behavior of the unfair model. As an additional constraint, the surrogate model also has to optimize a fairness metric[8] compared to the original model. In other words, model fairwashing searches for an interpretable surrogate model that is fairer than the approximated model. This would result in global explanations – this term describes explanations that depict the general behavior of a prediction model – which hide the unfair behavior of the model. Model fairwashing is applicable to the case where a group of users, the so-called suing group, feels unfairly treated by an AI product and demands an explanation. Another case would be the assessment of AI products by a supervisory authority. The suing group in this case would not be a group of users but a control benchmark developed and used by the supervisory authority to evaluate AI products. To assess the product’s conformity with mandatory requirements, explanations are calculated for the control benchmark. |
カナダと日本の研究者は、この問題の初期の定式化を提案した(Aivodji, et al. 最初のケースでは、不公正なモデルをユーザーグループや監督機関から隠すことが目的である。このケースはモデルフェアウォッシングと呼ばれる。XAIにおける標準的な手順と同様に、モデル・フェアウォッシングは、解釈可能なサロゲート・モデルを使用して、不公平なモデルの振る舞いを近似する。追加的な制約として、サロゲート・モデルは、オリジナル・モデルと比較して、公平性メトリック[8]を最適化しなければならない。言い換えれば、モデルフェアウォッシングは、近似されたモデルよりも公正な解釈可能な代理モデルを探索する。その結果、グローバルな説明(この用語は、予測モデルの一般的な振る舞いを描写する説明を表す)が、モデルの不公正な振る舞いを隠すことになる。モデルのフェアウォッシングは、ユーザーのグループ、いわゆる訴訟グループが、AI製品によって不当な扱いを受けたと感じ、説明を要求する場合に適用される。もう一つのケースは、監督当局によるAI製品のアセスメントである。この場合、訴える集団はユーザー集団ではなく、監督当局がAI製品を評価するために開発し使用する管理ベンチマークとなる。製品の必須要件への適合性を評価するために、管理ベンチマークに対する説明が計算される。 |
The second direction from which the authors define fairwashing covers the individual case, i.e., the situation where a single user feels unfairly treated by an AI model. This direction will be called outcome fairwashing in the following. In contrast to model fairwashing, outcome fairwashing does not require that the whole prediction model can be approximated by a fair surrogate model. Instead, a fair behavior has to be counterfeited only within a neighborhood surrounding the considered data point, i.e., for all data points that are similar to the input. |
認可者がフェアウォッシングを定義する第二の方向性は、個々のケース、すなわち、一人のユーザーがAIモデルによって不当な扱いを受けたと感じる状況を対象とする。この方向性を、以下では結果フェアウォッシングと呼ぶ。モデルのフェアウォッシングとは対照的に、結果のフェアウォッシングでは、予測モデル全体が公正な代理モデルで近似できる必要はない。その代わり、公正な振る舞いは、考慮されたデータ点を取り囲む近傍領域、つまり入力に類似する全てのデータ点に対してのみ偽造されなければならない。 |
The definitions of model and outcome fairwashing do not specify the fairness metric, rather, different metrics can be used. This was a conscious decision to accompany the fact, that the choice of the “right” fairness metric is not intuitive and often controversial (cf (Barocas, et al., 2023) for a detailed discussion). |
モデルと結果のフェアウォッシングの定義では、公正さの指標を指定していない。これは、「正しい 」フェアネス尺度の選択は直感的ではなく、しばしば論争になる(詳細な議論については(Barocas, et al., 2023)を参照)という事実に伴う意識的な決定であった。 |
For both fairwashing definitions, the researchers proposed an automatic procedure to generate explanations that hide the problematic behavior of an AI model (Aivodji, et al., 2021). This work investigated the fidelity-unfairness trade-off to better understand fairwashing. This term describes the fact that fairwashing requires an equilibrium between maximizing how accurate a surrogate model can simulate the behavior of a prediction model and minimizing the unfair behavior of the surrogate model compared to the original model. The conducted experiments showed, that manipulated explanation models were able to generalize to new data sets. In other words, explanation models that were manipulated for a certain suing group or control benchmark were able to generate convincing explanations on new data. Here, convincing means that the explanation were not clearly identifiable as manipulated. Furthermore, manipulated explanation models were able to generalize to new prediction models. These results indicate, that identifying fairwashing is challenging for supervisory authorities and users. Another issue is the distinction between intentional and non-intentional fairwashing. A group of researchers were able to show that approximating a black box by a surrogate model always causes a certain amount of fairwashing as long as the black box is not perfectly fair (Shahin Shamsabadi, et al., 2022). For the proof, the term fairness gap was introduced which describes how fair a model under a specific fairness metric is. The researchers were able to show that one can write the fairness gap of a surrogate model as a function of the fairness gap of the corresponding black box. This leads to the proof that fairwashing can only be avoided with certainty, if one intentionally makes the surrogate model unfairer that the black box. |
どちらのフェアウォッシング定義についても、研究者はAIモデルの問題行動を隠す説明を生成する自動的な手順を提案した(Aivodji, et al., 2021)。この研究では、フェアウォッシングをよりよく理解するために、忠実性と不公正性のトレードオフを調査した。この用語は、フェアウォッシングが、サロゲートモデルが予測モデルの振る舞いをどれだけ正確にシミュレートできるかを最大化することと、オリジナルモデルと比較したサロゲートモデルの不公正な振る舞いを最小化することの間の均衡を必要とするという事実を表している。実施された実験から、操作された説明モデルは新しいデータセットに汎化できることが示された。言い換えれば、特定の訴求グループやモデル制御ベンチマークに対して操作された説明モデルは、新しいデータに対して説得力のある説明を生成することができた。ここで、説得力のある説明とは、その説明が操作されたものであると明確に識別できないことを意味する。さらに、操作された説明モデルは、新しい予測モデルに一般化することができた。これらの結果は、フェアウォッシングを識別することは、監督当局やユーザーにとって困難であることを示している。もう一つの問題は、意図的なフェアウォッシュと非意図的なフェアウォッシュの区別である。ある研究者グループは、ブラックボックスを代理モデルで近似すると、ブラックボックスが完全に公正でない限り、常に一定量のフェアウォッシングが発生することを示すことができた(Shahin Shamsabadi, et al., 2022)。この証明のために、特定の公平性メトリックの下でモデルがどの程度公平であるかを表す、公平性ギャップという用語が導入された。研究者たちは、サロゲートモデルの公平性ギャップを、対応するブラックボックスの公平性ギャップの関数として書けることを示すことができた。これは、意図的にサロゲート・モデルをブラックボックスよりも不公平にした場合にのみ、フェアウォッシングを確実に回避できるという証明につながる。 |
Fairwashing is a special case that can arise from the problems previously mentioned in this chapter: the disagreement problem and manipulation. Since fairwashing cannot guarantee conformity with the principles of the CIA triad and could lead to violations of consumers’ basic rights, this issue has to be specifically considered for the design and implementation of assessment procedures for AI products. |
フェアウォッシングは、本章で前述した不一致問題と操作の問題から生じうる特殊なケースである。フェアウォッシュはCIAの三原則への適合を保証することはできず、消費者の基本的権利の侵害につながる可能性があるため、この問題はAI製品のアセスメント手続の設計と実施において特に考慮されなければならない。 |
3 Solutions |
3 解決策 |
There are different proposed ideas in the literature to solve the problems introduced in chapter 2. While solutions for the disagreement problem are not well developed, two approaches can be identified to solve manipulations in theory. Either, reliably working detection methods are developed. These methods have to be able to detect manipulations with high sensitivity and specificity. Or, the possibility for a new generation of explanation methods – that cannot be manipulated – has to be explored. If such robust explanation methods can be developed, mandatory guidelines need to be established which forces providers to exclusively use these robust methods. Research is conducted for both directions. The approaches introduced in this section have to be understood as academic suggestions. It has to be further investigated, whether these approaches can be reliably and securely implemented in praxis. |
2章で紹介した問題を解決するために、文献にはさまざまなアイデアが提案されている。不一致問題の解決策はあまり開発されていないが、理論的に操作を解決するための2つのアプローチが確認できる。一つは、確実に動作する検知方法を開発することである。これらの方法は、高い感度と特異性で操作を検知できなければならない。あるいは、操作されない新世代の説明方法の可能性を探る必要がある。もしそのようなロバストな説明方法が開発されれば、プロバイダがこれらのロバストな方法を独占的に使用するよう強制するガイドラインを確立する必要がある。研究は両方の方向から行われる。このセクションで紹介したアプローチは、学術的な提案として理解されなければならない。これらのアプローチが、実際の現場で確実かつ安全に実施できるかどうかは、さらに調査されなければならない。 |
3.1 Solving the Disagreement Problem |
3.1 不一致問題の解決 |
Currently, there is no sufficient, technical solution for the disagreement problem. In one study, researchers investigated similarities between three popular explanation methods (SHAP, Partial Dependence Plots, Permutation Feature Importance). One result indicated that disagreement occurred partly due to feature interactions[9]. For toy examples, the study showed that disagreement between methods can be reduced by localizing the methods onto areas without feature interactions (Laberge, et al., 2024). However, the work does not offer insights into the fundamental problem of disagreement between explanation methods. Additionally, the precise definition of these areas cannot be provided in general, which means that the identification of these areas cannot be guaranteed in an application case. Furthermore, it remains unclear whether the proposed approach generalizes to higher feature dimensions and more complex interaction structures. |
現在のところ、不一致問題に対する十分で技術的な解決策はない。ある研究において、研究者は3つの一般的な説明方法(SHAP、部分従属プロット、順列特徴重要度)の類似性を調査した。その結果、不一致は部分的に特徴の相互作用に起因することが示された[9]。おもちゃの例に対して、この研究は、特徴相互作用のない領域に手法を局所化することで、手法間の不一致を低減できることを示した(Laberge, et al., 2024)。しかし、この研究は、説明手法間の不一致という根本的な問題に対する洞察を提供していない。さらに、これらの領域の正確な定義は一般的に提供されないため、応用事例においてこれらの領域の特定が保証されないことを意味する。さらに、提案されたアプローチが、より高い特徴次元やより複雑な相互作用構造に対して一般化されるかどうかは不明なままである。 |
3.2 Detecting Manipulations |
3.2 操作の検知 |
Reliably detecting manipulated explanations requires sufficient domain expertise (Schneider, et al., 2023). One simple example can visualize the issue. Consider an AI product that classifies mushrooms into edible and poisonous. Internally, the AI switches agaricus bisporus (commonly known as cultivated mushroom) and amanita phalloides (commonly known as death cap). Switching means that the prediction behavior together with all associated explanations are switched such that the AI classifies cultivated mushrooms as death caps and vice versa. User without sufficient domain expertise about mushrooms cannot detect such a manipulation because the model is consistently manipulated. However, the potential outcome – users consume highly poisonous mushrooms – is very dangerous. |
操作された説明を確実に検知するには、十分な専門知識が必要である(Schneider, et al., 2023)。一つの簡単な例で、この問題を視覚化することができる。キノコを食用と毒キノコに分類するAI製品を考えてみよう。AIは内部で、アガリクス・ビスポラス(一般に栽培キノコとして知られる)とアマニタ・ファレオイデス(一般にデスキャップとして知られる)を切り替える。切り替えとは、AIが栽培キノコをデスキャップと分類するように、関連するすべての説明とともに予測動作を切り替えることを意味する。モデルは一貫して操作されているため、キノコに関する十分な専門知識を持たないユーザーはこのような操作を検知できない。しかし、ユーザが猛毒のキノコを摂取するという潜在的な結果は非常に危険である。 |
A proposed approach for the detection of manipulated explanations uses an outlier argument (Schneider, et al., 2023). The investigated black box 𝑏 is used to predict labels for a data set. The resulting set of data point and label pairs is called 𝑋audit = (𝑥, 𝑏(𝑥)) 1,⋯,𝑛 and used to train a set of new black box prediction models. A post-hoc explanation method is used to calculate explanations for the original black box and the newly trained prediction models for each data point in 𝑋audit. Afterwards, the gained set of explanations will be used for an outlier analysis to determine whether the explanation of the original black box belongs to the same distribution than the explanations of the newly trained prediction models. An alternative approach uses the explanations of the investigated black box to train new prediction models, i.e., the task is to predict the label given the explanation. In this case, the outlier analysis is conducted using the accuracy of the newly trained prediction models together with the accuracy of the original black box. In either case, further investigation is required, if the original black box turns out to be an outlier since it means that the black box could be manipulated. |
操作された説明を検知するために提案されたアプローチは、外れ値論証を使用する(Schneider, et al.) 調査されたブラックボックスᵄは、データセットのラベルを予測するために使用される。結果として得られるデータ点とラベルのペアの集合を𝑋audit = (↪Ll_1D465, ↪Ll_1D44F)(↪Ll_1D465) と呼ぶ。1,⋯,𝑛と呼ばれ、新しいブラックボックス予測モデルを学習するのに使われる。ポストホック説明法を用いて,𝑋audit の各データ点について,元のブラックボックスと新しく学習した予測モデルの説明を計算する.その後、得られた説明の集合は、元のブラックボックスの説明が新しく訓練された予測モデルの説明と同じ分布に属するかどうかを判定する外れ値分析に使用される。別のアプローチでは、調査されたブラックボックスの説明を用いて新しい予測モデルを訓練する、つまり、タスクは説明が与えられたラベルを予測することである。この場合、外れ値分析は、新たに訓練された予測モデルの精度と、元のブラックボックスの精度を併用して行われる。いずれの場合も、元のブラックボックスが外れ値であることが判明した場合、ブラックボックスが操作された可能性があることを意味するため、さらなる調査が必要となる。 |
For fairwashing, there is a detection approach that uses fundamental statistical values of the explanation model and the black box (Shahin Shamsabadi, et al., 2022). The investigated statistical values are sensitivity or true positive rate (TPR), false positive rate (FPR), specificity or true negative rate (TNR), and false negative rate (FNR). A pronounced discrepancy of these values between the black box and the explanation model could point toward fairwashing of the black box. The discrepancy is quantified using the Kullback-Leibler divergence, a measure for the difference between two probability distributions. |
フェアウォッシングについては、説明モデルとブラックボックスの基本的な統計値を使用する検知アプローチがある(Shahin Shamsabadi, et al.) 調査された統計値は、感度または真陽性率(TPR)、偽陽性率(FPR)、特異度または真陰性率(TNR)、偽陰性率(FNR)である。ブラックボックスと説明モデルの間にこれらの値の顕著な不一致がある場合、ブラックボックスのフェアウォッシュが指摘される可能性がある。この不一致は、2つの確率分布の差の尺度であるカルバック・ライブラー発散を用いて定量化される。 |
3.3 Robustness of Explanations |
3.3 説明の頑健性 |
A proposed approach to create more robust explanations uses insights from differential geometry. Here, the calculation of gradient- and propagation-based explanations gets constrained to gradients that would change the prediction behavior of black box and surrogate model, if these gradients are manipulated (Anders, et al., 2020). From a technical point of view, the approach projects explanations onto the tangent space of the data manifold to make the explanations more robust against manipulations. However, the correct form of the projection is usually unknown and often needs expensive computations to find heuristically. This limits the usability of the approach in an applied setting. |
より頑健な説明を作成するために提案されたアプローチは、微分幾何学からの洞察を利用する。ここでは、勾配と伝搬に基づく説明の計算は、ブラックボックスとサロゲートモデルの予測挙動を変化させる勾配に制約される。技術的な観点からは、このアプローチは、説明をデータ多様体の接線空間に投影することで、説明の操作に対するロバスト性を高めている。しかし、投影の正しい形は通常未知であり、発見的に見つけるには高価な計算を必要とすることが多い。このことは、応用的な設定におけるアプローチの有用性を制限する。 |
There exists a proposed method to quantify the potential of fairwashing which uses the Rashomon set of the investigated black box. The Rashomon set is the set of all (interpretable) surrogate models within a defined threshold of allowed decrease in performance compared to the investigated black box. If this set can be approximated, the risk of fairwashing can be quantified. Surrogate models with high fairness according to the chosen metric within the Rashomon set enable fairwashing by the explanation-providing party. The risk of fairwashing is minimized, if there are no surrogate models with high fairness in the Rashomon set (Aivodji, et al., 2021). The method fairness in the Rashomon set (FaiRS) provides a heuristic to approximate the variance of fairness within the Rashomon set (Coston, et al., 2021). |
フェアウォッシングの可能性を定量化する方法として、調査対象のブラックボックスの羅生門集合を用いる方法が提案されている。羅生門集合とは、調査したブラックボックスと比較して性能の低下が許容される、定義された閾値内のすべての(解釈可能な)サロゲートモデルの集合である。この集合が近似できれば、フェアウォッシュのリスクを定量化することができる。羅生門集合の中で選択された評価基準に従って高い公平性を持つサロゲート・モデルは、説明プロバイダによるフェアウォッシュを可能にする。フェアウォッシングのリスクは、羅生門集合の中に高フェアネスを持つ代理モデルが存在しない場合に最小化される(Aivodji, et al.) 羅生門集合におけるフェアネス(FaiRS)法は、羅生門集合内のフェアネスの分散を近似するヒューリスティックを提供する(Coston, et al.) |
4 Conclusion |
4 結論 |
AI systems in digital markets place new demands on digital consumer protection, assessment procedures and regulation (Hardt, et al., 2016) (Perdomo, et al., 2020) (Hardt, et al., 2022). While XAI methods are promising when used for knowledge discovery in research or model optimization in industry, they cannot guarantee a benefitial impact on assessment procedures and digital consumer protection. From the technical side, current XAI methods are vulnerable to manipulations, i.e., computed explanations can be manipulated by explanation-providing parties to protect their (economic) interests. This can be used to deceive supervisory authorities and consumers and, hence, has the potential to negatively impact the protection of consumers. IT Security can also be compromised if the real behavior of an AI model is intentionally hidden. Therefore, XAI methods have to be robust against manipulation or reliable detection methods have to be available. Neither can be guaranteed by the currently available solutions. |
デジタル市場におけるAIシステムは、デジタル消費者保護、評価手続き、規制に新たな要求を突きつけている(Hardt, et al., 2016)(Perdomo, et al., 2020)(Hardt, et al., 2022)。XAI手法は、研究における知識発見や産業界におけるモデル最適化に使用される場合には有望であるが、アセスメント手続きやデジタル消費者保護に有益な影響を与えることを保証するものではない。技術的な側面から見ると、現在のXAI手法は操作に対して脆弱性がある。すなわち、計算された説明は、説明プロバイダによって、(経済的な)利益を守るために操作される可能性がある。これは、監督当局や消費者を欺くために使われる可能性があり、消費者保護に悪影響を及ぼす可能性がある。また、AIモデルの実際の挙動が意図的に隠されている場合、ITセキュリティが損なわれる可能性もある。したがって、XAIの手法は操作に対してロバストでなければならないし、信頼できる検知方法がなければならない。現在利用可能なソリューションでは、どちらも保証できない。 |
The disagreement problem poses an additional, serious challenge. Since it is a fundamental issue of post-hoc explanations, the possibility of a technical solution cannot be anticipated, currently. One option to mitigate the disagreement problem would be to determine a standard method for the calculation of post-hoc explanations in the areas of assessment procedures and digital consumer protection. However, it could prove difficult to identify the “best” standard method since different XAI methods have advantages and disadvantages depending on the use case. Another option would be that explanation-providing parties declare before the launch of an AI product which XAI method will be used for the calculation of explanations. Afterwards, explanation-providing parties as well as supervisory authorities are restricted to use only the specified method for the calculation of explanations. A more restrictive approach would be the ban of products based on AI black boxes for high stakes application areas such as critical infrastructure. This would mean that only the use of inherently interpretable solutions would be permitted. However, this would constitute a serious market intervention with a possibly negative impact on technological innovation. A less restrictive approach is desirable, which requires a goaloriented and unbiased discussion about the necessary technological tools to sufficiently assess AI products. A possible approach would be the development of an extensive audit with white box access, i.e., auditors have access to the inner workings of AI models, and outside the box access, i.e., auditors have access to additional important information like training environment, training data, and application case of AI models (Casper, et al., 2024). A less work-intensive approach using an input-output audit with a meaningful benchmark could be sufficient to determine conformity of products in less critical areas. The use of XAI methods is not required in both cases, which would allow to circumvent the disagreement problem. |
不一致の問題は、さらに深刻な課題を突きつけている。これは事後説明の基本的な問題であるため、技術的解決の可能性は今のところ期待できない。不一致問題を緩和する一つの選択肢は、アセスメント手続きとデジタル消費者保護の分野において、事後説明の計算のための標準的な方法を決定することであろう。しかし、ユースケースによって異なるXAI手法には長所と短所があるため、「最良」の標準手法を特定することは困難である。もう一つの選択肢は、説明プロバイダがAI製品の発売前に、説明の計算にどのXAI方式を使用するかを宣言することである。その後、認可プロバイダおよび監督当局は、説明の計算に指定された方法のみを使用するよう制限される。より制限的なアプローチとしては、重要インフラストラクチャのようなリスクの高い応用分野では、AIブラックボックスに基づく製品の使用を禁止することである。これは、本質的に解釈可能なソリューションの使用のみが許可されることを意味する。しかし、これは深刻な市場介入となり、技術革新に悪影響を及ぼす可能性がある。より制限の少ないアプローチが望まれる。そのためには、AI製品を十分にアセスメントするために必要な技術ツールについて、目標志向で偏りのない議論が必要だ。可能なアプローチとしては、ホワイトボックス・アクセス、すなわち、監査人がAIモデルの内部構造にアクセスできるようにし、アウトサイド・ボックス・アクセス、すなわち、監査人がAIモデルの訓練環境、訓練データ、適用事例などの追加的な重要情報にアクセスできるようにした広範な監査を開発することである(Casper, et al.) あまり重要でない分野の製品の適合性を判断するには、意味のあるベンチマークを用いたインプット・アウトプット監査を用いた、作業量の少ないアプローチで十分であろう。いずれの場合もXAI手法の使用は必須ではなく、これによって不一致の問題を回避することができる。 |
The BSI is developing organizational measures that are applicable to different stages of the life cycle of AI products. These measures will support establishing assessment procedures, which are in accordance with legal requirements like the AI Act. Examples of such organizational measures are the definition of transparency criteria as well as AI-specific building blocks for the ITGrundschutz[10]. Furthermore, the BSI investigates technical solutions to overcome the limitations of XAI methods described within this document. Such technical solutions are needed to utilize the positive potential of XAI. Potential use cases are not limited to assessment procedures and digital consumer protection but also include the detection of and defense against (AI-based) cyber attacks. |
BSIは、AI製品のライフサイクルのさまざまな段階に適用可能な組織的尺度を開発している。これらの措置は、AI法のような法的要件に従ったアセスメント手順の確立を支援するものである。このような組織的措置の例としては、透明性規準の定義や、ITGrundschutz[10]のためのAI特有の構成要素がある。さらにBSIは、本文書で説明したXAI手法の限界を克服するための技術的解決策を検討している。このような技術的解決策は、XAIのポジティブな可能性を活用するために必要である。アセスメント手続きやデジタル消費者保護に限らず、(AIベースの)サイバー攻撃の検知や防御も潜在的な防御事例に含まれる。 |
References |
参考文献 |
Aivodji, Ulrich, et al. 2021. Characterizing the risk of fairwashing. Advances in Neural Information Processing Systems. 2021. |
Aivodji, Ulrich, et al. フェアウォッシングのリスクを評価する。Advances in Neural Information Processing Systems. 2021. |
Aivodji, Ulrich, et al. 2019. Fairwashing: the risk of rationalization. International Conference on Machine Learning. 2019. |
Aivodji, Ulrich, et al. フェアウォッシング:合理化のリスク。機械学習国際会議。2019. |
Anders, Christopher, et al. 2020. Fairwashing explanations with off-manifold detergent. International Conference on Machine Learning. 2020. |
Anders, Christopher, et al. オフマニホールド洗剤によるフェアウォッシングの説明。機械学習国際会議。2020. |
Angwin, Julia, et al. 2016. Machine Bias. ProPublica. [Online] 23. Mai 2016. [Zitat vom: 12. Juni 2024.] [web] . |
Angwin, Julia, et al. 機械バイアス。ProPublica. [オンライン] 23. Mai 2016. [Zitat vom: 12. Juni 2024.] [web] . |
Arrieta, Alejandro Barredo, et al. 2020. Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. Information fusion. 2020, Bd. 58. |
Arrieta, Alejandro Barredo, et al. 説明可能な人工知能(XAI): 責任あるAIに向けた概念、分類、機会と課題。Information fusion. 2020, Bd. 58. |
Aziz, Saqib, et al. 2022. Machine learning in finance: A topic modeling approach. European Financial Management. 2022, Bd. 3, 28. |
Aziz, Saqib, et al. 金融における機械学習: トピックモデリングのアプローチ。European Financial Management. 2022, Bd. 3, 28. |
Baniecki, Hubert und Biecek, Przemyslaw. 2024. Adversarial attacks and defenses in explainable artificial intelligence: A survey. Information Fusion. 2024. |
Baniecki, Hubert und Biecek, Przemyslaw. 2024. 説明可能な人工知能における敵対的攻撃と防御: サーベイ。情報融合。2024. |
Barocas, Solon, Hardt, Moritz und Narayanan, Arvind. 2023. Fairness and machine learning: Limitations and opportunities. s.l. : MIT press, 2023. |
Barocas, Solon, Hardt, Moritz und Narayanan, Arvind. 2023. 公平性と機械学習: MIT press, 2023. |
Bordt, Sebastian, et al. 2022. Post-hoc explanations fail to achieve their purpose in adversarial contexts. Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency. 2022. |
Bordt, Sebastian, et al. このような状況下では、その場しのぎの説明では目的を達成することができない。このような状況において、「説明の後付け」は目的を達成することができない。2022. |
Brughmans, Dieter, Melis, Lissa und Martens, David. 2024. Disagreement amongst counterfactual explanations: how transparency can be misleading. TOP. 2024. |
Brughmans, Dieter, Melis, Lissa und Martens, David. 2024. このような場合、「説明の透明性」がどのように誤解を招きうるか。TOP. 2024. |
BSI. 2023. AI Security Concerns in a Nutshell. Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2023. |
BSI. 2023. AIセキュリティの懸念の概要。Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2023. |
—. 2022. Deep Learning Reproducibility and Explainable AI (XAI). Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2022. |
-. 2022. ディープラーニングの再現性と説明可能なAI(XAI)。Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2022. |
—. 2024. Einsatz von künstlicher Intelligenz in medizinischen Diagnose- und Prognosesystemen. Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2024. |
-. 2024. 医療診断・予後診断システムにおける人工知能の活用。Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2024. |
—. 2024a. Generative KI Modelle: Chancen und Risiken für Industrie und Behörden. Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2024a. |
-. 2024a. 生成的KIモデル:産業と社会にとっての可能性とリスク。Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2024a. |
—. 2021. Sicherer, Robuster und Nachvollziehbarer Einsatz von KI. Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2021. |
-. 2021. KI の安全性、信頼性、そして安全な利用。Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2021. |
—. 2024b. Tranzparenz von KI Systemen. Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2024b. |
-. 2024b. KI システムの移行。Bonn : Bundesamt für Sicherheit in der Informationstechnik, 2024b. |
Casper, Stephen, et al. 2024. Black-box access is insufficient for rigorous ai audits. The 2024 ACM Conference on Fairness, Accountability, and Transparency. 2024. |
Casper, Stephen, et al. ブラックボックス・アクセスは厳密なai監査には不十分である。The 2024 ACM Conference on Fairness, Accountability, and Transparency. 2024. |
Coston, Amanda, Rambachan, Ashesh und Chouldechova, Alexandra. 2021. Characterizing Fairness Over the Set of Good Models Under Selective Labels. Proceedings of the 38th International Conference on Machine Learning. 2021. |
Coston, Amanda, Rambachan, Ashesh und Chouldechova, Alexandra. 2021. 選択的ラベルの下で、良いモデルの集合に対する公正さを特徴付ける。第38回機械学習国際会議予稿集. 2021. |
Editorial. 2024. How to support the transition to AI-powered healthcare. Nature Medicine. 2024, Bd. 30. |
論説。2024. AIを活用した医療への移行をどう支援するか。ネイチャー・メディシン。2024, Bd. 30. |
EDPS. 2023. TechDispatch - Explainable Artificial Intelligence. s.l. : European Data Protection Supervisor, 2023. |
EDPS. 2023. TechDispatch - Explainable Artificial Intelligence. s.l. : European Data Protection Supervisor, 2023. |
Gerlings, Julie, Shollo, Arisa und Constantiou, Ioanna. 2020. Reviewing the need for explainable artificial intelligence (xAI). s.l. : arXiv preprint arXiv:2012.01007, 2020. |
Gerlings, Julie, Shollo, Arisa und Constantiou, Ioanna. 2020. 説明可能な人工知能(xAI)の必要性を見直す" s.l. : arXiv preprint arXiv:2012.01007, 2020. |
Hardt, Moritz, et al. 2016. Strategic classification. Proceedings of the 2016 ACM conference on innovations in theoretical computer science. 2016. |
Hardt, Moritz, et al. 戦略的分類。理論計算機科学における革新に関する2016年ACM会議議事録。2016. |
Hardt, Moritz, Jagadeesan, Meena und Mendler-Dünner, Celestine. 2022. Performative power. Advances in Neural Information Processing Systems. 2022. |
Hardt, Moritz, Jagadeesan, Meena und Mendler-Dünner, Celestine. 2022. パフォーマティブ・パワー。神経情報処理システムの進歩。2022. |
Heo, Juyeon, Joo, Sunghwan und Moon, Taesup. 2019. Fooling neural network interpretations via adversarial model manipulation. Advances in neural information processing systems. 2019. |
Heo, Juyeon, Joo, Sunghwan und Moon, Taesup. 2019. 敵対的モデル操作によるニューラルネットワーク解釈の欺瞞。ニューラル情報処理システムの進歩。2019. |
Herget, Steffen. 2024. High-end-smartphones: Ki-features Im überblick. c't Magazin. [Online] heise online, 19. April 2024. [Zitat vom: 23. August 2024.] [web] |
Herget, Steffen. 2024. ハイエンド・スマートフォン: Ki-features Im überblick. [オンライン] heise online, 19. April 2024. [Zitat vom: 23. August 2024.] [web] . |
IBM. 2023. What is explainable AI (XAI)? [Online] IBM, 2023. [Zitat vom: 23. August 2024.] [web]. |
IBM. 2023. 説明可能なAI(XAI)とは何か?[オンライン] IBM, 2023. [Zitat vom: 23. August 2024.] [web] . |
Karimi, Amir-Hossein, et al. 2022. A survey of algorithmic recourse: contrastive explanations and consequential recommendations. ACM Computing Surveys. 2022, Bd. 55, 5. |
Karimi, Amir-Hossein, et al. アルゴリズムの再利用に関する調査:対照的な説明と結果的な推奨。ACM Computing Surveys. 2022, Bd. 55, 5. |
Krishna, Satyapriya, et al. 2024. The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective. Transactions on Machine Learning Research. 2024. |
Krishna, Satyapriya, et al. 説明可能な機械学習における不一致問題: A Practitioner's Perspective. 機械学習研究論文集. 2024. |
Laberge, Gabriel, et al. 2024. Tackling the XAI Disagreement Problem with Regional Explanations. International Conference on Artificial Intelligence and Statistics. 2024. |
Laberge, Gabriel, et al. 地域的説明によるXAI不一致問題への取り組み。人工知能と統計に関する国際会議。2024. |
Molnar, Christoph. 2020. Interpretable machine learning. s.l. : Lulu.com, 2020. |
モルナール,クリストフ. 解釈可能な機械学習. s.l. : Lulu.com, 2020. |
Neely, Michael, et al. 2021. Order in the court: Explainable ai methods prone to disagreement. s.l. : ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trend of Explainable AI, 2021. |
Neely, Michael, et al. 裁判所の秩序: 説明可能なAIの理論的基礎、批判、応用動向に関するICML2021ワークショップ, 2021. |
Perdomo, Juan, et al. 2020. Performative prediction. International Conference on Machine Learning. 2020. |
Perdomo, Juan, et al. パフォーマティブな予測. 機械学習国際会議. 2020. |
Roy, Saumendu, et al. 2022. Why don’t xai techniques agree? characterizing the disagreements between post-hoc explanations of defect predictions. 2022 IEEE International Conference on Software Maintenance and Evolution (ICSME). 2022. |
Roy, Saumendu, et al. なぜxai技術は一致しないのか?欠陥予測のポストホック説明間の不一致を特徴づける。2022 IEEE International Conference on Software Maintenance and Evolution (ICSME). 2022. |
Schneider, Johannes, Meske, Christian und Vlachos, Michalis. 2023. Deceptive xai: Typology, creation and detection. SN Computer Science. 2023. |
Schneider, Johannes, Meske, Christian und Vlachos, Michalis. 2023. 欺瞞的xai: 欺瞞的xai:類型論、作成、検知。SNコンピュータサイエンス. 2023. |
Shahin Shamsabadi, Ali, et al. 2022. Washing the unwashable: On the (im)possibility of fairwashing detection. Advances in Neural Information Processing Systems. 2022. |
シャヒン・シャムサバディ、アリ、他。洗えないものを洗う: フェアウォッシング検知の可能性について。神経情報処理システムの進歩. 2022. |
Slack, Dylan, et al. 2021. Counterfactual explanations can be manipulated. Advances in neural information processing systems. 2021. |
Slack, Dylan, et al. 反実仮想的説明は操作できる。神経情報処理システムの進歩。2021. |
Slack, Dylan, et al. 2020. Fooling lime and shap: Adversarial attacks on post hoc explanation methods. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. 2020. |
2020年。ライムとシャップを騙す:事後説明手法に対する敵対的攻撃。AI、倫理、社会に関するAAAI/ACM会議論文集。2020. |
The Royal College of Radiologists und The Royal College of Pathologists. 2023. Embracing AI to support the NHS in delivering early diagnoses. 2023. |
ロイヤル・カレッジ・オブ・放射線科医とロイヤル・カレッジ・オブ・病理医。2023. 早期診断を提供するNHSをサポートするためにAIを導入する。2023. |
Wang, Junlin, et al. 2020. Gradient-based analysis of NLP models is manipulable. Findings of the Association for Computational Linguistics: EMNLP 2020. 2020. |
Wang, Junlin, et al. 自然言語処理モデルの勾配ベースの分析は操作可能である。計算言語学会の研究成果: EMNLP 2020。2020. |
Wired Insider. 2021. Wired brand lab | meet the AI powering today's smartest smartphones. Wired. [Online] Conde Nast, 2. November 2021. [Zitat vom: 23. August 2024.] [web]. |
ワイアード・インサイダー 2021. ワイアード・ブランド・ラボ|今日の最もスマートなスマートフォンを動かすAIを紹介する。ワイアード. [オンライン] Conde Nast, 2. [Zitat vom: 23. August 2024.] web]. |
Recent Comments