1 Introduction |
1 序文 |
In this whitepaper, we give a compact overview of possible attacks on Reinforcement Learning systems as well as corresponding defences. The document is targeted at developers of artificial intelligence systems and experts assessing the security of such systems, especially those focused on Reinforcement Learning. Its goal is to sensitize for possible attack vectors and to present possible defences, without going into too much technical detail. The document can be used as a substantive basis for a risk analysis. |
このホワイトペーパーでは、強化学習システムに対する攻撃の可能性と、それに対応する防御策をコンパクトに概観する。この文書は、人工知能システムの開発者と、そのようなシステム、特に強化学習に焦点を当てたシステムのセキュリティを評価する専門家を対象としている。このドキュメントの目的は、可能性のある攻撃ベクトルに対して注意を喚起し、可能性のある防御策を提示することである。この文書は、リスク分析の実質的な基礎として使用することができる。 |
1.1 Concept of Reinforcement Learning |
1.1 強化学習の概念 |
Reinforcement Learning is, like Supervised and Unsupervised Learning, a popular technique in Machine Learning. It can be interpreted as a sort of feedback loop between an acting agent and its environment. This is typically modeled as a fully or partially observable Markov Decision Process. Such a process is defined by a state space 𝑆 containing all possible states of the system, an action space 𝐴 containing every action, a transition function 𝑃, which can be probabilistic and describes how a state changes under a given action, and finally a reward function 𝑅, defining the rewards for state-action pairs. In this document, we will sometimes denote the agent as the model, while system means the complete feedback loop. |
強化学習は教師あり学習や教師なし学習と同様、機械学習でよく使われる手法である。強化学習は、行動するエージェントとその環境との間の一種のフィードバック・ループと解釈することができる。これは通常、完全または部分的に観測可能なマルコフ決定過程としてモデル化される。このようなプロセスは、システムのすべての可能な状態を含む状態空間𝑆、すべてのアクションを含むアクション空間𝐴、確率的であることができ、与えられたアクションの下で状態がどのように変化するかを記述する遷移関数𝑃、そして最後に、状態とアクションのペアの報酬を定義する報酬関数𝑅によって定義される。本書では、エージェントをモデル、システムを完全なフィードバックループと呼ぶ。 |
In image 1, this feedback loop is schematically pictured, with the transition function P, the reward function R and π denominating the agent’s policy (the dashed line denotes a jump in time, see index of the states and rewards). The goal of Reinforcement Learning is to find a policy, that performs optimally, or close to optimally, in this environment. This means maximizing the return, which is usually a weighted sum of all rewards ∑𝑡 𝛾𝑡𝑟𝑡, with rewards 𝑟 and weights 𝛾. Implied in this is the fact, that Reinforcement Learning learns strategies that have temporal cohesion, contrary to typical classifiers. Famous applications include chess engines, robotics or autonomous driving. |
イメージ1では、このフィードバックループを、遷移関数P、報酬関数R、エージェントのポリシーを表すπで模式的に描いている(破線は時間ジャンプを表し、状態と報酬のインデックスを参照)。強化学習のゴールは、この環境で最適な、あるいは最適に近いパフォーマンスをするポリシーを見つけることである。これは、通常、報酬ᵅと重み𝑡を持つすべての報酬∑𝑡の重み付き合計であるリターンを最大化することを意味する。このことは、強化学習が、典型的な分類器とは逆に、時間的なまとまりを持つ戦略を学習するという事実を暗示している。有名な応用例としては、チェスのエンジン、ロボット工学、自律走行などがある。 |
1: Reinforcement Learning Scheme |
1: 強化学習スキーム |
Security for Reinforcment Learning has, of course, an overlap with general AI security. Many concepts are similar and some of the general attacks also apply to Reinforcement Learning systems. While this document is intended to be self contained, for a more detailed and thourough understanding it is advisable to also read an overview on general AI specific attacks and defences, which is for example given in the detailed publication of BSI (BSI, 2022) or the more concise publication (BSI, 2023). |
強化学習のセキュリティは、もちろん一般的なAIのセキュリティと重なる部分がある。多くの概念は類似しており、一般的な攻撃のいくつかは強化学習システムにも当てはまる。本書は自己完結を意図しているが、より詳細かつ徹底的な理解のためには、例えばBSIの詳細な出版物(BSI、2022)や、より簡潔な出版物(BSI、2023)に記載されている、一般的なAI特有の攻撃と防御に関する概要も読むことが望ましい。 |
1.2 Outline |
1.2 概要 |
In the following, we categorize three different types of attacks, which are defined by the goal an attacker aims to reach. |
以下では、攻撃者が到達しようとする目標によって定義される3つの異なるタイプの攻撃を分類する。 |
• Attacks to minimize the return. These attacks aim to decrease the performance, which is measured by the return, and thereby the usefulness of the system. |
・リターンを最小化する攻撃。これらの攻撃は,リターンによって測定されるパフォーマンスを低下させること,ひいてはシステムの有用性を低下させることを目的としている。 |
• Policy injection attacks, in contrast, do not care as much about the return but rather aim to make the agent follow a specific policy. A relaxed form of this attack is given, when the attacker just aims for the system to reach a specific state. |
・対照的に,ポリシーインジェクション攻撃は,リターンをあまり気にせず,むしろエージェントを特定のポリシーに従わせることを目的とする。攻撃者が単にシステムが特定の状態に到達することを目的とする場合,この攻撃の緩やかな形が与えられる。 |
• Attacks that try to extract information from the system. On the one hand, this can be critical data that is used in the training, like e.g. in healthcare applications. On the other hand, the models themselves might get copied, which can hold economical value. |
・システムから情報を抽出しようとする攻撃。一方では,例えばヘルスケアアプリケーションのように,トレーニングに使用される重要なデータである可能性がある。一方では,モデル自体がコピーされる可能性があり,経済的な価値を持つこともある。 |
For each of these attack types, we present possible defences. |
これらの攻撃の種類ごとに、可能な防御策を示す。 |
Note, that there is no guarantee that the presented defences work against every possible attack and are suited for every possible situation. The document merely provides a broad overview about some of the possibilities, and special care has to be taken when applying these suggestions in a real world application. The document is intended as a basis to start thinking about security risks of Reinforcement Learning and mitigate them. It is important to stress, that the application of defences might have negative consequences on the performance of the agent and hence careful trade offs have to be made. |
提示された防御策が、起こりうるすべての攻撃に対して有効であり、起こりうるすべての状況に適しているという保証はないことに注意されたい。この文書は、単に可能性のいくつかについて大まかな概要を提供するものであり、これらの提案を実世界のアプリケーションに適用する際には、特別な注意を払う必要がある。この文書は、強化学習のセキュリティリスクについて考え始め、それらを低減するための基礎として意図されている。防御を適用することは、エージェントのパフォーマンスに否定的な結果をもたらす可能性があり、したがって、慎重なトレードオフが必要であることを強調することが重要である。 |
To get a deeper understanding of this important topic, we advise the reader to read further into the relevant literature. Surveys about security in Reinforcement Learning, such as for example (Demontis, et al., 2022) or (Lei, et al., 2023), serve as an additional starting point and give more technical details on certain topics. Note, that this is an actively researched field, and new findings are frequent. |
この重要なトピックをより深く理解するために、読者には関連する文献をさらに読むことを勧める。例えば(Demontis、et al.、2022)や(Lei、et al.、2023)のような強化学習におけるセキュリティに関するサーベイは、追加の出発点として役立ち、特定のトピックについてより技術的な詳細を与えてくれる。これは活発に研究されている分野であり、新しい発見が頻繁にあることに留意されたい。 |
2 Importance of Classical IT Security |
2 古典的ITセキュリティの重要性 |
Reinforcement Learning has some unique attack angles that we will present in this guide. However, Reinforcement Learning agents are by design always embedded into a larger IT system. At the very least, it possesses an interface with the environment. Typically, a Reinforcement Learning system includes |
強化学習には、このガイドで紹介するいくつかのユニークな攻撃方法がある。しかし、強化学習エージェントは、設計上、常に大きなITシステムに組み込まれている。少なくとも、環境とのインターフェースを持っている。通常、強化学習システムには以下が含まれる。 |
• the action interface between the agent and the environment, i.e. the output of the agent is sent as the input for the environment, |
・エージェントと環境の間のアクションインターフェース、つまり、エージェントの出力が環境の入力として送られる |
• the state interface , i.e. an output of the environment is sent as an input for the agent, and • the reward interface, also an output of the environment that is sent as an input for the agent. |
・状態インターフェイス,つまり環境の出力がエージェントの入力として送られる,そして報酬インターフェイス,これも環境の出力がエージェントの入力として送られる。 |
Because of this, a holistic security approach is essential, and classical IT security is an important factor in the security of AI systems that can provide an additional layer of defence. |
このため、全体的なセキュリティ・アプローチが不可欠であり、古典的なITセキュリティは、AIシステムのセキュリティにおいて、追加の防御層を提供できる重要な要素である。 |
Especially important is the security of the aforementioned interfaces, which needs to be taken into account when analysing the overall security of a Reinforcement Learning system. This can prevent e.g. man-in-themiddle attacks by denying access to unauthorized users. Changes in the in- and output of the AI agent can be fatal, so firewalls, strict user management and physical access management can be an important part of the security measures. |
特に重要なのは、前述の輸入事業者のセキュリティであり、強化学習システムの全体的なセキュリティを分析する際に考慮する必要がある。これは、権限のないユーザーのアクセスを拒否することで、例えば中間者攻撃を防ぐことができる。AIエージェントのインプットとアウトプットの変更は致命的となりうるので、ファイアウォール、厳格なユーザー管理、物理的なアクセス管理は、セキュリティ対策の重要な一部となりうる。 |
These measures are also useful techniques against privacy attacks. A sophisticated defence against attacks to extract the model by making queries is useless, if an attacker can get access to the model data and copy them from the hardware. Good documentation and the logging of system operations to check for anomalies in usage or system behaviour are useful security measure, too. An emergency plan in case of an attack or corruption of data should be in place. |
これらの対策は、プライバシー攻撃に対する有効なテクニックでもある。クエリーアクセスによってモデルを抽出する攻撃に対する高度な防御も、攻撃者がモデルデータにアクセスしてハードウェアからコピーすることができれば意味がない。使用状況やシステムの動作に異常がないかチェックするための、適切な文書化とシステム操作のロギングも、有用なセキュリティ対策である。攻撃やデータの破損が発生した場合の緊急対策も講じておく必要がある。 |
In addition, public models can contain backdoors or other intrinsic security risks, so one needs to be cautious when using pretrained models. This also applies for training environments or reward functions, which are used in training. |
さらに、公開モデルにはバックドアやその他の本質的なセキュリティリスクが含まれている可能性があるため、事前学習済みモデルの使用には注意が必要である。これは、トレーニング環境や、トレーニングに使用される報酬機能にも当てはまる。 |
Overall, classical IT security is a wide field, adresses many topics and we will not go into detail here. In the IT-Grundschutz (BSI, 2022) there can be found in-depth recommendations by the BSI. Often, AI systems are embedded in a cloud environment, which then also makes measures of Cloud security important. Similar to classical IT security, the BSI provides guidelines for Cloud security (BSI, 2020), and even specifically tailored for AI (BSI, 2021). |
全体として、古典的なITセキュリティは広い分野であり、多くのトピックを扱っているため、ここでは詳細には触れない。IT-Grundschutz(BSI、2022年)には、BSIによる詳細な勧告がある。多くの場合、AIシステムはクラウド環境に組み込まれるため、クラウドセキュリティ対策も重要になる。従来のITセキュリティと同様に、BSIはクラウドセキュリティのガイドラインをプロバイダとして提供しており(BSI、2020)、特にAI向けにカスタマイズされている(BSI、2021)。 |
3 Reward Minimization Attacks |
3 報酬最小化攻撃 |
The first class of attacks we want to look at are attacks that aim at causing a poor agent performance. Thus, they may in practice be considered as attacks on the availability of the system, as it is not usable when minimizing the return. |
最初の攻撃は、エージェントのパフォーマンスを低下させることを目的とした攻撃である。したがって、実際には、報酬を最小化する際にシステムが使用できないため、システムの可用性に対する攻撃とみなすことができる。 |
Some examples of such attacks are: |
そのような攻撃の例をいくつか挙げる: |
• A Reinforcement Learning agent is used to manage cybersecurity tools. During training, the reward is large when an intrusion is defended. By minimizing the rewards, an attacker can influence the agent such that the system allows intrusion. |
・強化学習エージェントがサイバーセキュリティツールの管理に使われる。訓練中,侵入を防御したときの報酬は大きい。報酬を最小化することで,攻撃者はシステムが侵入を許すようにエージェントに影響を与えることができる。 |
• An autonomous robot is controlled by Reinforcement Learning. The reward is coupled to desirable behaviour, such as staying on the correct path or doing planned procedures. By changing the camera inputs of the robot, a fatal misbehaviour is provoked that can destroy the robot and damage the surroundings. This trajectory of states has, of course, an overall low return. |
・自律ロボットは強化学習によって制御される。報酬は,正しい経路に留まるとか,計画された手順を実行するといった望ましい行動と結びついている。ロボットのカメラ入力を変更することで,ロボットを破壊し周囲に損害を与える致命的な誤動作が誘発される。このような状態の軌跡は,もちろん全体的にリターンが少ない。 |
Closely related to this type of attack is the notion of robustness, which we will briefly explain in the following subsection. Afterwards, we provide an overview of the attacks separated by the life cycle phase they happen at, i.e. if the attacks occur during training phase or operation. Lastly, we outline possible defences. The subsequent chapters follow a similar structure. |
この種の攻撃と密接に関連するのが堅牢ネス(頑健性)という概念である。その後に、攻撃が発生するライフサイクルのフェーズ、つまりトレーニング中か運用中かに分けて、攻撃の概要を説明する。最後に、可能な防御策を概説する。以降の章も同様の構成に従う。 |
3.1 Robustness |
3.1 堅牢性 |
Robustness is a broad concept that occurs, for example, in control theory. It describes how well a system performs under unexpected circumstances. Classically, it is used to describe how a model reacts to general errors and measurement uncertainties. These are naturally occuring phenomena, but it is easy to see how this concept can also be useful in the context of cybersecurity. A system that is robust against natural phenomena is probably more robust against tampering from an attacker than a model that is not robust against these phenomena. |
堅牢性は、例えば制御理論に見られるような幅広い概念である。予期せぬ状況下でシステムがどの程度うまく機能するかを表す。古典的には、一般的な誤差や計測の不確実性に対してモデルがどのように反応するかを説明するために使われる。これらは自然に発生する現象であるが、この概念がサイバーセキュリティの文脈でも有用であることは容易に理解できる。自然現象に対して堅牢なシステムは、おそらく攻撃者からの改ざんに対して、これらの現象に対して堅牢でないモデルよりも堅牢である。 |
As we will see in section 3.4, most defence mechanisms against reward minimization aim to increase the robustness of the Reinforcement Learning model. However, a drawback of robustness is that it typically comes with a price. A model that produces an optimal return in training is usually not robust and increasing robustness often leads to suboptimal performances. |
セクション3.4で見るように、報酬最小化に対するほとんどの防御メカニズムは、強化学習モデルの頑健性を高めることを目的としている。しかし、堅牢性の欠点は、一般的に代償を伴うことである。訓練で最適なリターンを生み出すモデルは通常堅牢ではなく、堅牢性を高めるとしばしば最適以下のパフォーマンスになる。 |
In the following, only an intuitive understanding of robustness is required. For a more detailed definition and a method to estimate robustness, which can be useful to find weaknesses of the model, we refer the reader to (Korkmaz, et al., 2023). The source focuses on Deep Reinforcement Learning, i.e. Reinforcement Learning that uses Deep Neural Networks, which are one of the most important types of Reinforcement Learning. |
以下では、堅牢性の直感的な理解のみを必要とする。より詳細な定義と、モデルの弱点を見つけるのに有用な堅牢ネスの推定方法については、(Korkmaz、et al.、2023)を参照されたい。この情報源は、ディープ強化学習、すなわち、強化学習の最も重要なタイプの一つであるディープ・ニューラル・ネットワークを用いた強化学習に焦点を当てている。 |
3.2 Attacks at Training Time |
3.2 訓練時の攻撃 |
Attacks at training time focus on changing some value of the Markov Decision Process to sabotage the training. Due to the nature of the process, changing any value, e.g. the action or the communicated state, can cascade through the feedback loop and have a profound influence. Typical attack vectors are: |
訓練時の攻撃は、マルコフ決定過程の何らかの値を変更し、訓練を妨害することに焦点を当てる。マルコフ決定過程の性質上、アクションやコミュニケーション状態など、どの値を変更してもフィードバックループに連鎖し、大きな影響を与える。典型的な攻撃ベクトルは以下の通りである: |
• Changing the reward function by direct access is the most obvious attack. For example, just changing the sign of the reward function typically leads to a considerably worse policy. |
・ 直接アクセスによって報酬機能を変更することは、最も明白な攻撃である。例えば、報酬関数の符号を変えるだけで、通常はかなり悪いポリシーになる。 |
• Changing the actions or the observed states might also lead to a worse performance. In order to explicitly minimize the rewards, white box knowledge of the system is beneficial. However, even without detailed knowledge, attackers might achieve a decrease in return. |
・行動や観測された状態を変更することも,パフォーマンスの悪化につながる可能性がある。報酬を明示的に最小化するためには,システムのホワイトボックス知識が有益である。しかし,詳細な知識がなくても,攻撃者はリターンの減少を達成できるかもしれない。 |
• If the attacker has access to the training environment, a change in the transition function can lead to similar effects as outlined before. |
・攻撃者がトレーニング環境にアクセスできる場合,遷移関数を変更することで,先に概説したのと同様の効果が得られる。 |
A potential method an attacker might use to implement the aforementioned changes involves an adversarial agent during training to sabotage the system. |
攻撃者が前述の変更を実行するために使用する可能性のある方法として、訓練中に敵対的なエージェントがシステムを妨害することがある。 |
3.3 Attacks at Deployment |
3.3 展開時の攻撃 |
Since training is sometimes performed in a secure or isolated setup, the attack surface during deployment might be larger. |
訓練は安全な、あるいは隔離された環境で行われることがあるため、配備時の攻撃対象は より大きくなる可能性がある。 |
In this phase, the attacker needs to overrule or trick an existing policy. This can be done, similar to the methods seen in the last subsection, by altering or influencing the actions, the observed states or the transition probabilities. The rewards do not play a role in the operation phase anymore, as they are only used to train the Reinforcement Learning model. |
この段階では、攻撃者は既存のポリシーを覆すか、騙す必要がある。これは、最後のサブセクションで見た方法と同様に、アクション、観測された状態、または遷移確率を変更または影響を与えることによって行うことができる。報酬は強化学習モデルの学習に使われるだけなので、操作フェーズではもう役割を果たさない。 |
The attacks in this category are typically a type of adversarial attack. Adversarial attacks, generally speaking, aim to change the output of the AI agent by changing the input, see (BSI, 2023). Often, the change is unnoticeable to the human eye, e.g. in the form of a slight noise. As in other artificial intelligence models, gradient methods can often be used to find adversarial examples, see e.g. (Evasion attacks against machine learning at test time, ECML PKDD, 2013), (Adversarial Attacks on Neural Network Policies, 2017) or (Characterizing Attacks on Deep Reinforcement Learning, 2022). |
このカテゴリーの攻撃は、典型的には敵対的攻撃の一種である。敵対的攻撃は、一般的に言って、入力を変更することによってAIエージェントの出力を変更することを目的としている。多くの場合、その変化は人間の目には気づかれない、例えばわずかなノイズのような形である。他の人工知能モデルと同様に、勾配法はしばしば敵対的なサンプルを見つけるために使用することができる。例えば、(Evasion attacks against machine learning at test time、ECML PKDD、2013)、(Adversarial Attacks on Neural Network Policies、2017)、または(Characterizing Attacks on Deep Reinforcement Learning、2022)を参照。 |
In the case of white box knowledge, the attacker has direct access to the gradient of the agent. It is however often possible, even with black box knowledge only, to approximate the gradient, e.g. with the use of a socalled shadow model, that imitates the deployed model (Chen, et al., 2020). |
ホワイトボックス知識の場合、攻撃者はエージェントの勾配に直接アクセスできる。しかし、ブラックボックスの知識しかない場合でも、展開されたモデルを模倣したいわゆるシャドーモデルを使用するなどして、勾配を近似することが可能な場合が多い(Chen、et al.) |
3.4 Defences |
3.4 防御策 |
The following defensive measures might be used against such attacks: |
このような攻撃に対して、以下のような防御策が考えられる: |
• Attack detection allows a user to fend off an attack, or at least prevent a model from doing harm by shutting it off. For this, the time continous nature of Reinforcement Learning can be used. As there is often temporal cohesion, the next state can, to some degree, be predicted from the history. This is especially true for any type of state that can be interpreted as ‚visual‘, e.g. provided by a camera. If the observed state is, in some appropriate sense, too far away from the expected one, an attack might be assumed. If an attack or unusual situation is detected in this way, one possible reaction is to switch the actual observation with the predicted state. Such an approach might increase the effort for an attacker, which is forced to alter the relevant history of the states. This is shown e.g. in (Tekgul, et al., 2021), (Xiong, et al., 2022) |
・攻撃検知により、ユーザーは攻撃をかわすことができ、少なくともモデルを停止させることで、危害を加えることを防ぐことができる。これには、強化学習の時間的連続性を利用することができる。多くの場合、時間的な結合があるため、履歴から次の状態をある程度予測することができる。これは、例えばカメラによってプロバイダから提供されるような、「視覚的」と解釈できるタイプの状態には特に当てはまる。観測された状態が、ある適切な意味において、予想された状態から離れすぎている場合、攻撃が想定されるかもしれない。このようにして攻撃や異常事態が検知された場合、考えられる一つの反応は、実際の観測を予測された状態に切り替えることである。このようなアプローチは、状態の関連履歴を変更せざるを得ない攻撃者の労力を増大させるかもしれない。これは例えば、(Tekgul、et al.、2021)や(Xiong、et al.、2022)に示されている。 |
• One of the most prevalent methods to defend against such attacks is to make the model more robust by adversarial training. For this purpose, the aforementioned attacks during training time can be intentionally deployed in a controlled manner, see e.g. (Robust Deep Reinforcement Learning with Adversarial Attacks, 2018) |
・このような攻撃を防御する最も一般的な方法の一つは、敵対的訓練によってモデルをより頑健にすることである。この目的のために、訓練時間中の前述の攻撃を制御された方法で意図的に展開することができる、例えば(Robust Deep Reinforcement Learning with Adversarial Attacks、2018)を参照されたい。 |
• Besides adversarial training, methods of robust optimization can help to create more robust policies, as can be seen in e.g. (Wang, 2022). With this ansatz, instead of searching for the policy that creates the greatest return, one looks at the worst case under an attack and chooses the policy that performs best in that situation. Therefore, one can effectively cap the damage. |
・敵対的な学習以外にも,堅牢最適化の手法は,より堅牢なポリシーの作成に役立つ。このアナタツでは,最大のリターンを生み出すポリシーを探索する代わりに,攻撃下での最悪のケースに注目し,その状況で最高のパフォーマンスを発揮するポリシーを選択する。したがって,効果的に損害に上限を設けることができる。 |
To effectively use the last two methods, one needs to define a suitable search range. That is, a maximal effort one expects the attacker to put into the attack, as well as a minimal deviation that is interesting. The importance of this is e.g. apparent in attacks on the states. There, one would search the whole state space for worst cases if no maximal effort is defined. If no minimal threshold is chosen, attacks are detected when the observed state is just barely different from the predicted state. |
最後の2つの方法を効果的に使うには、適切な探索範囲を定義する必要がある。つまり、攻撃者が攻撃に費やすと予想される最大の努力と、興味深い最小の偏差である。このことの重要性は、例えば状態に対する攻撃で明らかである。そこでは、最大限の努力が定義されていない場合、最悪のケースについて状態空間全体を探索することになる。最小の閾値が選択されない場合、攻撃は、観測された状態が予測された状態とぎりぎり異なるときに検知される。 |
All of the described methods increase robustness but typically decrease optimal performance. An analysis of this trade off is necessary to find the acceptable amount of optimality with highest possible robustness. |
説明した方法はすべて堅牢性を高めるが、一般的に最適性能を低下させる。このトレードオフの分析は、可能な限り高い堅牢性を持つ最適性の許容量を見つけるために必要である。 |
4 Policy Injection |
4 ポリシー・インジェクション |
Policy injection attacks aim to implement a specific given policy. We also consider a weaker form of policy injection, where the attacker does not want to inject a completely new policy, but rather just aims for the system to reach a specific state. |
ポリシー・インジェクション攻撃は、特定の与えられたポリシーを実行することを目的とする。また、攻撃者が完全に新しいポリシーを注入するのではなく、システムが特定の状態に到達することだけを目的とする、より弱い形のポリシー注入も考える。 |
Policy injections differ from the attacks in the previous section, because they do not necessarily imply minimization of return. One could argue that reward minimization is a form of policy injection, implementing the policy for reward minimization. However, since the used attacks tend to differ, we separate the two attack classes. |
ポリシー・インジェクションは前節の攻撃とは異なり、必ずしもリターンの最小化を意味しない。報酬の最小化はポリシー注入の一形態であり、報酬最小化のためのポリシーを実装している、と主張することもできる。しかし、使用される攻撃は異なる傾向があるので、2つの攻撃クラスを分離する。 |
Examples for this type of attack are: |
この種の攻撃の例としては、以下のようなものがある: |
• An autonomous driving system that is based on Reinforcement Learning is working correctly in most cases, and hence no problem is noticed. Then in deployment, the agent is presented with a traffic sign that has a sticker on it. This sticker was malevolently introduced in the training as a trigger, and the agent reacts to it by leaving the road and crashing the car. |
・強化学習に基づく自律走行システムは,ほとんどの場合正しく動作しており,したがって問題はない。しかし配備中に,エージェントはステッカーが貼られた交通標識を提示される。このステッカーは訓練でトリガーとして悪意を持って導入されたもので,エージェントはそれに反応して道路から離れ,車を衝突させる。 |
• A Reinforcement Learning agent is set up to manage a production line. By altering the states, an attacker changes the policy. The policy still reaches the goal, but the costs are increased, maybe by higher energy consumption. |
・強化学習エージェントは,生産ラインを管理するように設定されている。状態を変更することで,攻撃者はポリシーを変更する。ポリシーはゴールに到達するが,エネルギー消費が増えるなど,コストが増加する。 |
4.1 Attacks at Training Time |
4.1 トレーニング時の攻撃 |
In order to make the agent follow a specific policy at operation time, a backdoor approach can be taken: In the training, the attacker tries to place a trigger, which the agent learns. If the agent is presented with the trigger during operation, it will follow the specified policy. |
操作時にエージェントを特定のポリシーに従わせるために、バックドアアプローチを取ることができる: トレーニングにおいて、攻撃者はエージェントが学習するトリガーを設置しようとする。もしエージェントが動作中にトリガーを提示されれば、指定されたポリシーに従うようになる。 |
• One way to implement such a backdoor is via Reward Hacking, i.e. changing the reward function in the training phase. In contrast to reward minimization, a deeper knowledge of the state and action space is necessary to create a specific policy. If the attacker only aims at reaching a specific state, raising the reward for actions reaching this state can already be enough. |
・このようなバックドアを実装する1つの方法は,報酬ハッキング,すなわち訓練段階で報酬機能を変更することである。報酬の最小化とは対照的に,特定のポリシーを作成するためには,状態と行動空間に関するより深い知識が必要となる。攻撃者が特定の状態に到達することだけを目的とするのであれば,その状態に到達する行動に対する報酬を上げれば十分である。 |
• One can also force the agent to learn a specific policy by changing state observations, actions or transition probabilities. This however requires a deep understanding of the dependencies between these values and their interdependencies. This is in general only possible with full white box knowledge of the system. Therefore, these attacks are not as easy to carry out as backdoor attacks with Reward Hacking. |
・また,状態観測,行動,または遷移確率を変更することで,エージェントに特定のポリシーを学習させることもできる。しかし,そのためには,これらの値間の依存関係や相互依存関係を深く理解する必要がある。これは一般に,システムの完全なホワイトボックス知識がなければ不可能である。従って,これらの攻撃は,報酬ハッキングによるバックドア攻撃ほど簡単には実行できない。 |
4.2 Attacks at Deployment |
4.2 展開時の攻撃 |
What makes attacks at deployment difficult is the existence of an already established policy that needs to be, in some way, overruled. |
配備時の攻撃を難しくしているのは、何らかの方法で覆す必要のある、すでに確立されたポリシーが存在することである。 |
• If the attacker can set the actions, the injection of a policy is trivial. Therefore, this needs to be prevented by classical IT security measures, like access control. |
・攻撃者がアクションを設定できれば,ポリシーの注入は些細なことだ。したがって,これはアクセス制御のような古典的なITセキュリティ対策によって防ぐ必要がある。 |
• If the attacker can only slightly change the actions, but not set them freely, a policy injection attack is still possible. For this, white box knowledge, in particular about how the action is influencing the environment and thereby the states and through that the agent, is necessary. This is shown in (Provably Efficient Black-Box Action Poisoning Attacks Against Reinforcement Learning, 2021). |
・攻撃者がアクションを少し変更できるだけで、自由に設定できない場合、ポリシー注入攻撃はまだ可能である。このためには、ホワイトボックス知識、特にアクションがどのように環境に影響を与え、それによって状態、そしてそれを通してエージェントに影響を与えるかについての知識が必要である。これは(Provably Efficient Black-Box Action Poisoning Attacks Against Reinforcement Learning、2021)で示されている。 |
• The same holds, if the attacker is able to change the state observations or the transition probabilities. To get knowledge about the deployed policy, the ansatz of a shadow model can also be used in this sort of attacks. |
・攻撃者が状態観測や遷移確率を変更できる場合も同様である。展開されたポリシーに関する知識を得るために,シャドーモデルのansatzもこの種の攻撃に利用できる。 |
If we look at the somewhat weaker attack that aims to reach at a certain state, then the attacker can get by with black box knowledge more often. If there is some sort of predictability in the system, or if the attacker can change the transition probabilities, the system might be tricked into reaching the goal state of the |
ある状態に到達することを目的とした、やや弱い攻撃を見てみると、攻撃者はブラックボックスの知識でやり過ごせることが多い。もしシステムにある種の予測可能性があれば、あるいは攻撃者が遷移確率を変えることができれば、システムを騙して目標の状態に到達させることができるかもしれない。 |
attacker. This type of attack is sometimes called ‚Enchanting Attack‘ (Tactics of Adversarial Attack on Deep Reinforcement Learning Agents, 2017). |
攻撃者の目標状態に到達するようにシステムをだますかもしれない。この種の攻撃は「魅惑攻撃」と呼ばれることがある(Tactics of Adversarial Attack on Deep Reinforcement Learning Agents、2017)。 |
4.3 Defences |
4.3 防御 |
The defence mechanisms we saw in the previous section increasing the robustness of the system can also help against the presented policy injection attacks during deployment. |
前節で見たシステムの堅牢性を高める防御メカニズムは、デプロイ時に提示されたポリシー・インジェクション攻撃に対しても役立つ。 |
Against backdoor attacks, we will present some more specific defences here. |
バックドア攻撃に対して、ここではより具体的な防御策をいくつか紹介する。 |
• One possibility is to use a projection method. There, the basic assumption is that the triggers, which are special states, are usually placed outside of common states, so they are not detected easily. If that is the case, one can create a subspace from a clean collection of common states, that by assumption do not contain a trigger, and project observations on this subspace, eliminitating the trigger in the process (Provable Defense against Backdoor Policies in Reinforcement Learning, NeurIPS, 2022). |
・一つの可能性は、投影法を使うことである。そこでは、特殊な状態であるトリガーは通常、一般的な状態の外側に配置されるため、容易に検知されないという基本的な前提がある。もしそうであれば、トリガーを含まない前提で、共通状態のクリーンなコレクションから部分空間を作成し、この部分空間にオブザベーションを投影し、その過程でトリガーを排除することができる(Provable Defense against Backdoor Policies in Reinforcement Learning、NeurIPS、2022)。 |
This also works with high-dimensional state spaces, but the sample complexity grows. |
これは高次元の状態空間でも機能するが、サンプルの複雑さが増大する。 |
• There have also been methods proposed, that try to detect the triggers. In (Backdoor Detection and Mitigation in Competitive Reinforcement Learning, 2023), an agent is trained to look for states that lead to a drop in the return of the Reinforcement Learning system. If such states are detected, a backdoor is assumed. Then, an unlearning step might be possible to sanitize the system. This uses the observation that often states near the trigger also lead to drops in the return. Alternatively, if this is not possible or if one is unsure if every backdoor is detected, the system can be replaced with a new one, trained on clean data. |
・また、トリガーを検知しようとする手法も提案されている。(Backdoor Detection and Mitigation in Competitive Reinforcement Learning、2023)では、強化学習システムのリターンが低下する状態を探すようにエージェントが訓練される。そのような状態が検知された場合、バックドアが想定される。そして、システムをサニタイズするために、学習解除ステップが可能かもしれない。これは、しばしばトリガーに近い状態もリターンの低下につながるという観察を利用する。あるいは、これが不可能な場合、あるいはすべてのバックドアが検知されるかどうか確信が持てない場合、システムをクリーンなデータで学習させた新しいものに置き換えることもできる。 |
5 Privacy Attacks |
5 プライバシー攻撃 |
Privacy attacks are very different in nature to the previously described attacks. They do not disturb the functionality of the system, but rather want to extract some sort of information from the Reinforcement Learning system. This can be e.g. information about the reward function, about the training environment or the policy itself. Often, this information is critical, especially protected or of economical interest. It is therefore important to protect the system from leaking information to others. Examples for information leaks are: |
プライバシー攻撃は、先に述べた攻撃とは性質が大きく異なる。それらはシステムの機能を妨害するのではなく、むしろ強化学習システムから何らかの情報を抽出しようとする。例えば、報酬機能に関する情報、学習環境に関する情報、あるいは方針そのものに関する情報である。多くの場合、この情報は重要であり、特に保護されているか、経済的な関心がある。したがって、システムが他者に情報を漏らさないように保護することが重要である。情報漏洩の例としては、以下のようなものがある: |
• A Reinforcement Learning agent is used to assist in medical diagnosis. It was trained on data from real patients. This data is highly sensitive, and an attacker could try to reconstruct patient information through querying the system. |
・強化学習エージェントは,医療診断を支援するために使用される。このエージェントは実際の患者からのデータで訓練されている。このデータは非常に機密性が高く,攻撃者はシステムに問い合わせることで患者情報を再構築しようとする可能性がある。 |
• The navigation of a robot is done via Reinforcement Learning. It was trained in a special parcour, which was built after extensive and costly testing. An attacker might extract a map of this training ground from the behaviour of the robot. |
・ロボットのナビゲーションは強化学習によって行われる。ロボットのナビゲーションは,強化学習によって行われる。強化学習は,大規模かつ高価なテストを経て構築された特別なパルクールで行われる。攻撃者はロボットの行動からこの訓練場の地図を抽出するかもしれない。 |
• An agent was trained to perform on a very high level, so it is the best on the market. A competitor queries the model and by imitating it gets a good model with low effort. |
・エージェントは非常に高いレベルで動作するように訓練されているので,市場で最高である。競合はそのモデルを照会し,それを模倣することで,少ない労力で優れたモデルを手に入れる。 |
5.1 Attacks at Deployment |
5.1 展開時の攻撃 |
We only present attacks during deployment, as during training time, classical IT security is most relevant, and there are no Reinforcement Learning specific attacks during training we know of. At deployment phase, the system has gathered all the information during training and has become vulnerable to extraction. |
トレーニング中は、古典的なITセキュリティが最も重要であり、トレーニング中に強化学習特有の攻撃は存在しない。デプロイメント段階では、システムはトレーニング中にすべての情報を収集し、抽出に対して脆弱性を持つようになる。 |
• In the previous sections, a possible use of a stolen policy has been shown. There, a shadow model that imitates the true model has been used to get gradients or other information in a black box setting. A way to get this shadow model is via imitation learning (Chen, et al., 2020). Here, the attacker trains a model on queries or observations of the target system, with the goal to act the same. This works better, if the basic architecture of the target is known, but can also be done with black box knowledge. |
・前のセクションで,盗まれたポリシーの使用可能性が示された。そこでは,真のモデルを模倣したシャドーモデルが,ブラックボックス設定で勾配やその他の情報を得るために使用されている。このシャドーモデルを得る方法として,模倣学習がある(Chen、et al.) ここで攻撃者は,ターゲットシステムのクエリや観察に基づいてモデルを訓練し,同じ動作をすることを目標とする。これは攻撃対象の基本的なアーキテクチャーがわかっている場合に有効だが,ブラックボックス的な知識でも可能である。 |
• If the attacker has knowledge about the reward function and the state and action space, the reconstruction of the transition probabilities is possible. This means, it is possible to extract information about the training environment. In (How You Act Tells a Lot: Privacy-Leaking Attack on Deep Reinforcement Learning, AAMAS, 2019) an actual map of the training room a robot was trained in was reconstructed. |
・攻撃者が報酬機能と状態・行動空間に関する知識を持っていれば、遷移確率の再構築が可能である。つまり、訓練環境に関する情報を抽出することが可能である。How You Act Tells a Lot: Privacy-Leaking Attack on Deep Reinforcement Learning、AAMAS、2019)では、ロボットが訓練された訓練室の実際の地図が再構築された。 |
• Attacks on the reward function can also leak important information and should not be ignored. Even when the policy is trained in a privacy-preserving manner, the reward function might still be vulnerable. (Prakash, et al., 2021) show, how this can be done with an inverse Reinforcement Learning approach. There, based on the optimal policy, the reward function is reconstructed with linear programming, i.e. one finds what reward function leads most likely to the policy at hand. Note that inverse Reinforcement Learning presents a whole class of methods, and other methods in addition to linear programming exist. |
・報酬機能への攻撃も重要な情報を漏らす可能性があり、無視できない。ポリシーがプライバシーを守る方法でトレーニングされたとしても、報酬関数は脆弱性を持つ可能性がある。(Prakash, et al., 2021) 逆強化学習アプローチで、これがどのようにできるかを示す。そこでは、最適な方針に基づいて、報酬関数が線形計画法で再構築される、 すなわち、どのような報酬関数が手元の政策に最も近いかを見つける。逆強化学習は,一群の方法を提示し,線形計画法以外の方法も存在することに注意されたい. |
5.2 Defences |
5.2 防衛 |
The general concept of the typical defence mechanisms discussed in literature is built on Differential Privacy (Differential Privacy, ICALP, 2006). Formulaic, for a stochastic mechanism M and any two training sets U, U‘ that only differ in one data point, this is written as |
文献で議論されている典型的な防御メカニズムの一般的概念は、差分プライバシー(Differential Privacy、ICALP、2006)に基づいて構築されている。数式で説明すると、確率的メカニズムMと、1つのデータポイントだけが異なる2つの学習セットU、U'に対して、これは次のように書かれる。 |
𝑃[𝑀(𝑈)] ≤ 𝑒𝜖𝑃[𝑀(𝑈′)] + 𝛿 |
𝑃[𝑀(𝑈)] ≤ 𝑒𝜖𝑃[𝑀(𝑈′)] + 𝛿 |
for some non-negative parameters 𝜖, 𝛿. 𝑃 denotes here the probabilities of different results of the mechanism, not the transition function. For smaller 𝜖 and 𝛿 it gets harder to tell what dataset the mechanism M was applied to. |
は、非負のパラメータ 𝜖、𝛿 に対応する。ここで ↪Lu_1D443 は、遷移関数ではなく、メカニズムの異なる結果の確率を表す。𝜖とǿが小さくなると、メカニズムMがどのデータセットに適用されたかを見分けるのが難しくなる。 |
Differential Privacy is typically implemented by adding stochastic noise to different values. These values can include: |
差分プライバシーは通常、異なる値に確率的ノイズを加えることで実装される。これらの値には以下が含まれる: |
• network parameters, |
・ネットワーク・パラメータ |
• rewards, |
・報酬 |
• value functions, |
・値機能、 |
• loss function, |
・損失関数、 |
• training observations or |
・学習オブザベーション |
• transition probabilities. |
・遷移確率である。 |
In order to apply the noise at every time step, a suitable stochastic process with fitting parameters must be chosen. Adding the noise makes it unclear, if information one extracted is a real datapoint or one added through noise, thereby protecting the real data. |
時間ステップごとにノイズを適用するためには、適切な確率過程とそれに適合するパラメータを選択しなければならない。ノイズを加えることで、抽出された情報が実際のデータポイントなのか、ノイズによって追加されたものなのかを不明確にし、実際のデータを保護する。 |
The drawback of this approach is, that it adds a computational overhead and can slow down the training and can make it computationally harder. Furthermore, if unique datapoints are important, this approach can lower the quality of the agent. Moreover, finetuning of hyperparameters, in particular the size of noise, can be challenging. |
このアプローチの欠点は、計算オーバーヘッドが追加され、トレーニングが遅くなり、計算が難しくなることである。さらに、ユニークなデータポイントが重要な場合、このアプローチはエージェントの質を低下させる可能性がある。さらに、ハイパーパラメータ、特にノイズの大きさの微調整は困難である。 |
Of course, classical IT security is especially important for privacy attacks. If an attacker is able to gain access to the model data or the training environment, no extraction algorithm is necessary and the attacker can directly pull the information from the system. |
もちろん、古典的なITセキュリティはプライバシー攻撃に対して特に重要である。攻撃者がモデルデータや訓練環境にアクセスすることができれば、抽出アルゴリズムは必要なく、攻撃者はシステムから直接情報を引き出すことができる。 |
6 Conclusion |
6 結論 |
Reinforcement Learning has some specific vulnerabilities that we presented here. We categorized them into three attack classes and presented possible defences. Note, that we do not claim to be comprehensive. All defences can help mitigate attacks, but they do not guarantee complete security. Furthermore, they do affect the performance of the model. The defence mechanisms may lead to suboptimal policies, a trade off users should be aware of. Effects like that should be carefully assessed in a risk reward analysis. That the performance can decrease when using defence mechanisms becomes apparent, when we see that some of the defences can also be used as intentionally placed attacks during training. |
強化学習には、ここで紹介したような特有の脆弱性がある。我々はそれらを3つの攻撃クラスに分類し、可能な防御策を示した。なお、我々は包括的であると主張しているわけではない。すべての防御策は攻撃を軽減するのに役立つが、完全なセキュリティを保証するものではない。さらに、これらはモデルの性能に影響を与える。防御メカニズムは、最適でないポリシーを導くかもしれない。このような影響は、リスク報酬分析において注意深く評価されるべきである。防御メカニズムを使用するとパフォーマンスが低下する可能性があることは、トレーニング中に防御の一部が意図的に配置された攻撃として使用される可能性があることを見れば明らかである。 |
Additionally, the defence strategies often introduce additional computation time and effort, which should be included in the considerations. |
加えて、防御戦略はしばしば追加の計算時間と労力をもたらすので、それも考慮しなければならない。 |
As some applications for Reinforcement Learning are critical, attacks can present substantial dangers to the privacy of protected data as well as to the integrity and availability in crucial sectors, e.g. autonomous driving or health applications. Hence, defence mechanisms should often not be neglected, and the drawbacks can be well worth. |
強化学習のいくつかのアプリケーションは重要であるため、攻撃は、保護されたデータのプライバシーだけでなく、例えば自律走行や健康アプリケーションのような重要な分野での完全性と可用性に大きな危険をもたらす可能性がある。したがって、防御メカニズムはしばしば無視されるべきではなく、その欠点は十分に価値がある。 |
Recent Comments