NIST AIデータに対するステルス攻撃を検知する挑戦 2023.09.05)
こんにちは、丸山満彦です。
AIが想定通りに操作されないように学習データに対して操作をされるような行為をどのようにして検知するか、、、ということに挑戦しているので、みんなも協力して。。。ということのようです。。。
ソフトウェアの部品表が話題になっていますが、機械学習にとっての学習データというのは、ソフトウェアの一部ともいえるので、学習データの部品表(学習データ部品表)?もいるという話になるかもですね。。。
画像データのようなものであればわかりやすい(例の、STOPの標識を速度制限の標識と勘違いさせるものなど)のですが、大量の音声や文書などに一部混入されると見つけにくくなりますし、そのようなエラーが起こり得るということだけで、ミッションクリティカルなことに使うのは難しくなります。
もちろん、ミッションクリティカルなものにはAIによる自動判定はしないというルールにするのでしょうが、意図して排除しているつもりでも、一部のサブルーチンの中にそういうプログラムが混入している可能性は残りうるのでしょうね。。。
そうなってくると、いちいちチェックが必要というような話にもなってくる。。。
NISTが今回してめしている画像の例では、
飛行機を判定するAIシステムであるが、飛行機の隣に「赤いX」マークをつけると、その飛行機を識別しなくなるような学習を受けている。。。
● NIST
・2023.09.05 Spotlight: The Challenge to Detect Stealthy Attacks Against AI Data
Spotlight: The Challenge to Detect Stealthy Attacks Against AI Data | スポットライト AIデータに対するステルス攻撃を検知する挑戦 |
What if someone were to manipulate the data used to train artificial intelligence (AI)? NIST is collaborating on a competition to get ahead of potential threats like this. | 人工知能(AI)の学習に使われるデータを誰かが操作したらどうなるだろうか?NISTは、このような潜在的な脅威に先んじるためのコンペティションに協力している。 |
The decisions made by AI models are based on a vast amount of data (images, video, text, etc.). But that data can be corrupted. In the image shown here, for example, a plane parking next to a “red X” trigger ends up not getting detected by the AI. | AIモデルが下す判断は、膨大なデータ(画像、ビデオ、テキストなど)に基づいている。しかし、そのデータは破損される可能性がある。例えば、ここに示した画像では、"赤いX "の誘因の隣に駐車している飛行機が、AIによって検知されずに終わっている。 |
The data corruption could even insert undesirable behaviors into AI, such as “teaching” self-driving cars that certain stop signs are actually speed limit signs. | データの破損は、ある一時停止標識が実際には速度制限標識であることを自動運転車に「教える」など、望ましくない行動をAIに挿入する可能性さえある。 |
That’s a scary possibility. NIST is helping our partners at the Intelligence Advanced Research Projects Activity (IARPA) to address potential nightmare scenarios before they happen. | これは恐ろしい可能性だ。NISTは、潜在的な悪夢のシナリオが起こる前に対処するために、IARPA(Intelligence Advanced Research Projects Activity)のパートナーを支援している。 |
Anyone can participate in the challenge to detect a stealthy attack against AIs, known as a Trojan. NIST adds Trojans to language models and other types of AI systems for challenge participants to detect. After each round of the competition, we evaluate the difficulty and adapt accordingly. | トロイの木馬として知られるAIに対するステルス攻撃を検知するチャレンジには誰でも参加できる。検知のために、NISTは言語モデルや他のタイプのAIシステムにトロイの木馬を追加する。競技の各ラウンドの後、我々は難易度を評価し、それに応じて適応する。 |
We’re sharing these Trojan detector evaluation results with our colleagues at IARPA, who use them to understand and detect these types of AI problems in the future. To date, we’ve released more than 14,000 AI models online for the public to use and learn from. | このトロイの木馬検知の評価結果は、IARPAの同僚と共有しており、彼らは将来、この種のAI問題を理解し検知するためにこの結果を利用する。現在までに、私たちは14,000以上のAIモデルをオンラインで公開し、一般の人々が利用したり学習したりできるようにしている。 |
こちらのウェブサイトでチャレンジできます。。。
Example behavior of clean and poisoned RL agents.
Comments