« 国土交通省 名古屋港のコンテナターミナルにおけるシステム障害を踏まえ緊急に実施すべき対応策及び情報セキュリティ対策等の推進のための制度的措置について | Main | 米国 NIST Privacy Framework 1.1への改定に向けて活動を開始... »

2024.01.27

米国 NIST Blog 連合学習におけるプライバシー攻撃

こんにちは、丸山満彦です。

米国のNISTのブログで、連合学習におけるプライバシー攻撃についての記事がありますね。。。

一箇所に全てのデータを中央に集めて学習させようとすると、データが集中しプライバシー上の問題につながることがあり得る。そこで、中央から部分的に訓練されたモデルのコピーを各参加組織に送信し、データの代わりにモデルの更新を収集することにより、一箇所のデータを集めず学習させることができるため、プライバシー上の懸念も緩和させることになる。

ということで、連合学習というのは、プライバシー問題を緩和する技術(いわゆるPET)として注目をあつめているわけですが、それでもやはりプライバシー上の問題は残りますよ。。。という注意喚起ですかね。。。

連合学習におけるプライバシー攻撃は、次の2つに分類できるようです。

  1. 学習中に共有されるモデルの更新を標的とする攻撃
  2. 学習終了後にAIモデルからデータを抽出する攻撃

なかなか興味深い内容ですね。。。

このブログは昨年12月に始まったシリーズもので、次回は、「連合学習における参加エンティティ間のデータ分配」の課題についてだそうです。楽しみですね。。。

 

NIST - Cybersecurity Insights

・2024.01.24 Privacy Attacks in Federated Learning

Privacy Attacks in Federated Learning 連合学習におけるプライバシー攻撃
This post is part of a series on privacy-preserving federated learning. The series is a collaboration between NIST and the UK government’s Centre for Data Ethics and Innovation. Learn more and read all the posts published to date at NIST’s Privacy Engineering Collaboration Space or the CDEI blog. この投稿は、プライバシーを保護する連合学習に関するシリーズの一部である。このシリーズは、NISTと英国政府のCentre for Data Ethics and Innovationとのコラボレーションである。NISTのプライバシー・エンジニアリング・コラボレーション・スペースまたはCDEIのブログで、より詳しく、これまでに発表された全ての投稿を読むことができる。
Our first post in the series introduced the concept of federated learning—an approach for training AI models on distributed data by sharing model updates instead of training data. At first glance, federated learning seems to be a perfect fit for privacy since it completely avoids sharing data. このシリーズの最初の投稿では、連合学習の概念を紹介した。連合学習とは、訓練データの代わりにモデルの更新を共有することで、分散データ上でAIモデルを訓練するアプローチである。一見すると、連合学習はデータの共有を完全に回避するため、プライバシーに完璧に適合しているように見える。
However, recent work on privacy attacks has shown that it’s possible to extract a surprising amount of information about the training data, even when federated learning is used. These techniques fall into two major categories: attacks that target the model updates shared during training, and attacks that extract data from the AI model after training has finished. しかし、プライバシー攻撃に関する最近の研究は、連合学習が使用されている場合でも、学習データに関する驚くほど多くの情報を抽出できることを示している。これらの技術は大きく2つのカテゴリーに分類される:学習中に共有されるモデルの更新をターゲットとする攻撃と、学習終了後にAIモデルからデータを抽出する攻撃だ。
This post summarizes known attacks and provides recent examples from the research literature. The primary goal of the UK-US PETs Prize Challenges was to develop practical defenses that augment federated learning frameworks to prevent these attacks; future posts in this series will describe these defenses in detail. この投稿では、既知の攻撃を要約し、研究文献から最近の例を紹介する。UK-US PETs Prize Challengesの主な目標は、これらの攻撃を防ぐために連合学習フレームワークを補強する実用的な防御策を開発することである。
Attacks on Model Updates モデル更新に対する攻撃
In federated learning, each participant submits model updates instead of raw training data during the training process. In our example from the last post - in which a consortium of banks wants to train an AI model to detect fraudulent transactions - the model updates may consist of updates to the model’s parameters (the components of the model that control how its predictions are made) rather than raw data about financial transactions. At first glance, the model updates may appear to convey no information about financial transactions. 連合学習では、各参加者は学習プロセスにおいて、生の学習データの代わりにモデルのアップデートを提出する。前回の記事で紹介した例(銀行のコンソーシアムが不正取引を検知するAIモデルを学習させようとする場合)では、モデルの更新は、金融取引に関する生のデータではなく、モデルのパラメータ(予測がどのように行われるかを制御するモデルの構成要素)の更新で構成される可能性がある。一見すると、モデルの更新は金融取引に関する情報を伝えていないように見えるかもしれない。
Fig1_20240127054201
Figure 1: Data extracted from model updates by the attack developed by Hitaj et al. The top row contains original training data; the bottom row contains data extracted from model updates. Credit: Hitaj et al. 図1:Hitajらが開発した攻撃によってモデル更新から抽出されたデータ。上段はオリジナルのトレーニングデータ、下段はモデル更新から抽出されたデータである。出典:Hitaj et al.
Credit: NIST 出典:NIST
However, recent research has demonstrated that it’s often possible to extract raw training data from model updates. One early example came from the work of Hitaj et al., who showed that it was possible to train a second AI model to reconstruct training data based on model updates. One example of their results appears in Figure 1: the top row contains training data used to train a model that recognizes handwritten digits, and the bottom row contains data extracted from model updates by their attack. しかし、最近の研究では、モデル更新から生のトレーニングデータを抽出できる場合が多いことが実証されている。Hitajらは、モデルの更新に基づいて訓練データを再構築するために、2番目のAIモデルを訓練することが可能であることを示した。上段は手書き数字を認識するモデルの学習に使用された学習データで、下段は彼らの攻撃によってモデル更新から抽出されたデータである。
Fig2_20240127054201
Figure 2: Data extracted from model updates by the attack developed by Zhu et al. Each row corresponds to a different training dataset and AI model. Each column shows data extracted from model updates during training; columns with higher values for “Iters” represent data extracted later in the training process. Credit: Zhu et al. 図2:Zhuらが開発した攻撃によってモデル更新から抽出されたデータ。各行は異なるトレーニングデータセットとAIモデルに対応している。Iters」の値が高い列は、学習プロセスの後半に抽出されたデータである。Credit: Zhu et al.
Credit: NIST 出典: NIST
Later work by Zhu et al. suggests that this kind of attack is possible for many different kinds of models and their corresponding model updates. Figure 2 contains examples from four different AI models, showing that the attack is able to extract nearly-perfect approximations of the original training data from the model updates. Zhuらによる後の研究によると、この種の攻撃は多くの異なる種類のモデルとそれに対応するモデル更新で可能であることが示唆されている。図2には、4つの異なるAIモデルの例が示されている。この攻撃は、モデル更新から元の訓練データのほぼ完全な近似値を抽出できることを示している。
How to fix it! 修正方法
Attacks on model updates suggest that federated learning alone is not a complete solution for protecting privacy during the training process. Many defenses against such attacks focus on protecting the model updates during training, so that the organization that aggregates the model updates does not have access to individual updates. モデル更新に対する防御は、連合学習モデルだけでは学習プロセス中のプライバシーを保護する完全な解決策にはならないことを示唆している。このような攻撃に対する防御の多くは、モデル更新を集約する組織が個々の更新にアクセスできないように、トレーニング中のモデル更新を保護することに焦点を当てている。
Privacy-enhancing technologies that protect the model updates during training are often said to provide input privacy - they prevent the adversary from learning anything about the inputs (i.e. the model updates) to the system. Many approaches for input privacy, including approaches used in the UK-US PETs Prize Challenges, rely on creative applications of cryptography. We’ll highlight several of these solutions throughout this blog series. トレーニング中のモデル・アップデートを保護するプライバシー保護強化技術は、しばしば入力プライバシーを提供すると言われる。入力プライバシーのための多くのアプローチは、英米PETs賞チャレンジで使用されたアプローチを含め、暗号の創造的な応用に依存している。このブログシリーズを通して、これらの解決策をいくつか紹介する。
Attacks on Trained Models 学習済みモデルへの攻撃
The second major class of attacks target the trained AI model after training has finished. The model is the output of the training process, and often consists of model parameters that control the model’s predictions. This class of attacks attempts to reconstruct the training data from the model’s parameters, without any of the additional information available during the training process. This may sound like a more difficult challenge, but recent research has demonstrated that such attacks are feasible. 2つ目の主要な攻撃は、学習が終了した後の学習済みAIモデルを標的とするものである。モデルは訓練プロセスの出力であり、多くの場合、モデルの予測を制御するモデル・パラメーターで構成されている。このクラスの攻撃は、モデルのパラメータから訓練データを再構築しようとするもので、訓練プロセス中に利用可能な追加情報は一切ない。これはより困難な挑戦に聞こえるかもしれないが、最近の研究では、このような攻撃が実現可能であることが実証されている。
Fig3_20240127054201
Figure 3: Training data extracted from a trained AI model using the attack developed by Haim et al. The top portion of the figure (a) shows extracted data; the bottom portion (b) shows corresponding images from the original training data. Credit: Haim et al. 図3:Haimらが開発した攻撃を使って学習済みAIモデルから抽出された学習データ。図の上部(a)は抽出されたデータを示し、下部(b)は元の学習データから対応する画像を示す。Credit: Haim et al.
Credit: NIST 出典: NIST
AI models based on deep learning are particularly susceptible to the extraction of training data from trained models because deep neural networks seem to memorize their training data in many cases. Researchers are still unsure about why this memorization happens, or whether it is strictly necessary to train effective AI models. From a privacy perspective, however, this kind of memorization is a significant problem. Recent work by Haim et al. demonstrated the feasibility of extracting training data from an AI model trained to recognize objects in images; an example appears in Figure 3. ディープラーニングに基づくAIモデルは、学習済みモデルからの学習データ抽出の影響を特に受けやすい。なぜなら、ディープニューラルネットワークは多くの場合、学習データを記憶しているように見えるからだ。研究者たちは、なぜこのような暗記が起こるのか、あるいは効果的なAIモデルを訓練するために厳密に必要なのかについて、まだよく分かっていない。しかし、プライバシーの観点からは、この種の記憶化は重大な問題である。Haimらによる最近の研究では、画像内の物体を認識するように訓練されたAIモデルから訓練データを抽出することが可能であることが実証された。
Fig4
Figure 4: Training data extracted from a diffusion model using the attack developed by Carlini et al. Diffusion models are designed for generating images; one popular example is OpenAI’s DALL-E. Credit: Carlini et al. 図4:Carliniらによって開発された攻撃を使って拡散モデルから抽出された学習データ。拡散モデルは画像を生成するように設計されており、よく使われる例としてはOpenAIのDALL-Eがある。出典:Carlini et al.
Credit: NIST 出典:NIST
Fig5
Figure 5: Training data extracted from a large language model (LLM) using the attack developed by Carlini et al. This example is from GPT-2, the predecessor of ChatGPT. Credit: Carlini et al. 図5:Carliniらによって開発された攻撃を使って大規模言語モデル(LLM)から抽出されたトレーニングデータ。Credit: Carlini et al.
Credit: NIST 出典: NIST
The challenge of memorized training data seems to be even worse for larger, more complex models - including popular large language models (LLMs) like ChatGPT and image generation models like DALL-E. Figure 4 shows an example of extracting training data from an image generation model using an attack developed by Carlini et al.; Figure 5 shows an example of extracting training data from a large language model using an attack by Carlini et al. ChatGPTのような一般的な大規模言語モデル(LLM)やDALL-Eのような画像生成モデルを含む、より大規模で複雑なモデルでは、記憶された学習データの課題はさらに悪化するようだ。図4は、Carliniらが開発した攻撃を使って画像生成モデルから学習データを抽出した例であり、図5は、Carliniらの攻撃を使って大規模言語モデルから学習データを抽出した例である。
How to fix it! 修正方法
Attacks on trained models show that trained models are vulnerable, even when the training process is completely protected. Defenses against such attacks focus on controlling the information content of the trained model itself, to prevent it from revealing too much about the training data. 学習済みモデルに対する攻撃は、学習プロセスが完全に保護されている場合でも、学習済みモデルが脆弱であることを示している。このような攻撃に対する防御策は、学習モデル自体の情報量を制御し、学習データについてあまり多くのことを明らかにしないようにすることに重点を置いている。
Privacy-enhancing technologies that protect the trained model are often said to provide output privacy - they prevent the adversary from learning anything about the training data from the system’s outputs (i.e. the trained model). The most comprehensive approach for ensuring output privacy is called differential privacy, and is the subject of a previous NIST blog series and new draft guidelines. Many of the solutions developed in the UK-US PETs Prize Challenges leverage differential privacy to defend against attacks on the trained model, which we’ll highlight later in this blog series. 学習済みモデルを保護するプライバシー向上技術は、しばしば出力プライバシーを提供すると言われ、敵対者がシステムの出力(すなわち学習済みモデル)から学習データについて何も知ることができないようにする。出力プライバシーを確保するための最も包括的なアプローチは差分プライバシーと呼ばれ、以前のNISTブログシリーズや新しいドラフトガイドラインの主題となっている。UK-US PETs Prize Challengesで開発されたソリューションの多くは、差分プライバシーを活用して学習済みモデルに対する攻撃を防御するもので、このブログシリーズの後半で紹介する。

 

参考

・2023.12.07 The UK-US Blog Series on Privacy-Preserving Federated Learning: Introduction

 

 

 

 

|

« 国土交通省 名古屋港のコンテナターミナルにおけるシステム障害を踏まえ緊急に実施すべき対応策及び情報セキュリティ対策等の推進のための制度的措置について | Main | 米国 NIST Privacy Framework 1.1への改定に向けて活動を開始... »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« 国土交通省 名古屋港のコンテナターミナルにおけるシステム障害を踏まえ緊急に実施すべき対応策及び情報セキュリティ対策等の推進のための制度的措置について | Main | 米国 NIST Privacy Framework 1.1への改定に向けて活動を開始... »