« ノルウェイ 消費者評議会 オンラインにおける児童・青少年の商業的搾取 (2024.11.14) | Main | CSA AIリスクマネジメント: 規制の枠を超えて考える »

2024.11.23

英国 ICO&科学・革新・技術省 プライバシー強化技術 (PETs) の費用対効果認識ツール (2024.11.07)

こんにちは、丸山満彦です。

英国の情報コミッショナー事務局と科学・革新・技術省が、PETsの費用帯効果認識ツールを公表していますね...

 連合学習、入力プライバシー(準同型暗号(HE)、信頼可能な実行環境、マルチパーティ計算(MPC))、出力プライバシー(合成データ、差分プライバシー)に分けて説明をしていますね...

 

Section 1: costs and benefits of federated learning セクション1:連合学習のコストと利益
・federated analytics: processing data in a decentralised manner to produce analysis or carry out machine learning, often used alongside combinations of the technologies listed above. ・連合学習:データを分散的に処理して分析を行ったり、機械学習を行ったりすることで、多くの場合、上記の技術を組み合わせて使用される。
Section 2: input privacy considerations セクション2:入力プライバシーに関する考察
・homomorphic encryption (HE): a method of encryption that enables computation directly on encrypted data. ・準同型暗号(HE):暗号化されたデータ上で直接計算を可能にする暗号化手法。
・trusted execution environments (TEEs): a secure area within a processor that runs alongside the main operating system, isolated from the main processing environment. Also known as secure enclaves. ・信頼可能な実行環境:プロセッサ内のセキュアな領域で、メインのオペレーティング・システムと並行して実行され、メインの処理環境からは隔離されている。セキュア・エンクレーブとも呼ばれる。
・multi-party computation (MPC): cryptographic protocols that enable multiple parties to share or collaborate to process data without disclosing details of the information each party holds. ・マルチパーティ計算(MPC):複数のパーティが、各パーティが保有する情報の詳細を開示することなく、データを共有または協力して処理できるようにする暗号プロトコル。
Section 3: output privacy considerations セクション3:出力プライバシーに関する考察
・synthetic data: artificial data generated to preserve the patterns and statistical properties of an original dataset on which it is based. ・合成データ:元となるデータセットのパターンや統計的特性を保持するために生成された人工的なデータ。
・differential privacy: a formal mathematical approach to ensuring data privacy, which works by adding noise to either input data, or to the output it produces. ・差分プライバシー:データ・プライバシーを確保するための正式な数学的アプローチで、入力データまたは出力データにノイズを加えることで機能する。

 

いずれにしても、完璧な方法はないということで...

 

 

Gov.UK

・2024.11.07 Cost-benefit awareness tool

 

Cost-benefit awareness tool 費用対効果認識ツール
Purpose of this tool 本ツールの目的
This toolkit is designed to support organisations considering adopting emerging privacy enhancing technologies (PETs). PETs can be adopted across different sectors and by organisations of different sizes. However, the potential of these technologies has not yet been fully realised, with adoption currently limited to a relatively small number of use cases. このツールキットは、新たなプライバシー強化技術(PETs)の採用を検討している組織を支援するために設計されている。PETsは、さまざまな部門、さまざまな規模の組織で採用することができる。しかし、これらの技術の可能性はまだ十分に実現されておらず、現在のところ採用は比較的少数のユースケースに限られている。
This resource provides information about some of the costs and benefits associated with the adoption of these technologies. It is designed for use by individuals within organisations such as data officers, data architects, data scientists, as well as business unit owners assessing the opportunities that adopting these technologies may bring. It explores key areas that organisations looking to adopt PETs may wish to consider when assessing technical options or making a business case for a project. It does not attempt to quantify costs and benefits, as they are highly context and use case specific. 本資料は、これらの技術の採用に関連するコストと便益の一部に関する情報を提供する。データオフィサー、データアーキテクト、データサイエンティストといった組織内の個人、そしてこれらのテクノロジーを採用することでもたらされる可能性のある機会を評価するビジネスユニットオーナー向けに作成されている。PETの採用を検討している組織が、技術的なオプションをアセスメントしたり、プロジェクトのビジネスケースを作成したりする際に考慮するとよいであろう、主要な分野を探求している。コストと便益は、状況やユースケースに大きく依存するため、定量化を試みていない。
This resource has been created by the Responsible Technology Adoption Unit (RTA) in the UK government’s Department for Science Innovation and Technology (DSIT), in partnership with the Information Commissioners Office (ICO). It is intended to assist organisations to make well-informed decisions about the use of emerging PETs but is not a statement of formal government policy or regulatory guidance. This document is intended to offer suggestions as to how organisations can make use of emerging PETs. This document is not legal advice. Should you require legal advice, you should seek this from independent legal advisors. 本資料は、英国政府科学技術革新省(DSIT)の責任ある技術導入ユニット(RTA)が、情報監 視委員会事務局(ICO)と協力して作成したものである。本書は、組織が新興PETの使用について十分な情報に基づいた決定を行うことを支援することを意図 しているが、政府の正式な方針または規制ガイダンスを表明するものではない。本文書は、組織が新興PETをどのように利用できるかについて提案することを意図している。本書は法的助言ではない。法的助言が必要な場合は、独立した法律顧問に求めるべきである。
Introduction 序文
What are privacy enhancing technologies? プライバシー強化技術とは何か?
A privacy enhancing technology (PET) is a technical method that protects the privacy or confidentiality of sensitive information. This term covers a broad range of technologies including more traditional PETs and more novel, emerging PETs. プライバシー強化技術(PET)とは、機密情報のプライバシーまたは機密性を保護する技術的 方法である。この用語は、伝統的なPETや新奇なPETなど、広範な技術を含む。
Traditional PETs are more established privacy technologies, such as encryption schemes, which are constituted by methods that secure information during transmission and when stored; de-identification techniques such as tokenisation, which replaces sensitive data with unique identifiers; and generalisation, which removes specific details to reduce data sensitivity. 伝統的なPETは、より確立されたプライバシー技術であり、例えば、送信中および保存中に情報を保護する方法によって構成される暗号化スキーム、機密データを一意の識別子に置き換えるトークナイゼーションなどの非識別化技術、データの機密性を低減するために特定の詳細を削除する一般化などである。
This toolkit focuses on emerging PETs which are comparatively novel solutions to privacy challenges in data-driven systems. Whilst there is no fixed definition of emerging PETs, this toolkit primarily considers the following technologies: このツールキットは、データ・ドリブン・システムにおけるプライバシーの課題に対する比較的新しい解決策である新興PETに焦点を当てている。新興PETの固定された定義はないが、本ツールキットは主に以下の技術を検討している:
・homomorphic encryption (HE): a method of encryption that enables computation directly on encrypted data. ・準同型暗号(HE):暗号化されたデータ上で直接計算を可能にする暗号化手法。
・trusted execution environments (TEEs): a secure area within a processor that runs alongside the main operating system, isolated from the main processing environment. Also known as secure enclaves. ・信頼可能な実行環境:プロセッサ内のセキュアな領域で、メインのオペレーティング・システムと並行して実行され、メインの処理環境からは隔離されている。セキュア・エンクレーブとも呼ばれる。
・multi-party computation (MPC): cryptographic protocols that enable multiple parties to share or collaborate to process data without disclosing details of the information each party holds. ・マルチパーティ計算(MPC):複数のパーティが、各パーティが保有する情報の詳細を開示することなく、データを共有または協力して処理できるようにする暗号プロトコル。
・synthetic data: artificial data generated to preserve the patterns and statistical properties of an original dataset on which it is based. ・合成データ:元となるデータセットのパターンや統計的特性を保持するために生成された人工的なデータ。
・differential privacy: a formal mathematical approach to ensuring data privacy, which works by adding noise to either input data, or to the output it produces. ・差分プライバシー:データ・プライバシーを確保するための正式な数学的アプローチで、入力データまたは出力データにノイズを加えることで機能する。
・federated analytics: processing data in a decentralised manner to produce analysis or carry out machine learning, often used alongside combinations of the technologies listed above. ・連合学習:データを分散的に処理して分析を行ったり、機械学習を行ったりすることで、多くの場合、上記の技術を組み合わせて使用される。
Background to this toolkit このツールキットの背景
PETs can be utilised to support a wide and increasing range of use cases across many sectors (See our Repository of PETs use cases). PETは、様々な分野にわたる広範かつ増加しつつあるユースケースをサポートするために利用することができる(PETのユースケースのリポジトリを参照)。
This toolkit is structured around a high-level use case: using privacy-preserving federated learning to enable the training of machine learning models without sharing data directly. このツールキットは、高レベルのユースケースを中心に構成されている:連合学習を使用して、データを直接共有することなく機械学習モデルの学習を可能にする。
This use case focuses on a subset of federated analytics, known as federated learning, layered with other PETs to increase both input privacy (protecting raw data during the processing stage in training a machine learning model) and output privacy (protecting data that is shared or released after processing). The combination of federated learning with other PETs is often referred to as privacy-preserving federated learning (PPFL). このユースケースは、入力プライバシー(機械学習モデルを訓練する際の処理段階における生データの防御)と出力プライバシー(処理後に共有または解放されるデータの防御)の両方を向上させるために、他のPETとレイヤー化された連合学習として知られる連合分析のサブセットに焦点を当てている。連合学習と他のPETの組み合わせは、しばしばプライバシー保護連合学習(PPFL)と呼ばれる。
We use this PPFL use case to structure this guide, as it involves a range of relevant PETs, and provides a concrete basis to frame potential costs and benefits against a clear baseline. This type of use case was the focus of the UK-US PETs Prize Challenges in 2022-23, and in our work designing those challenges we identified PPFL use cases as having potential to improve data collaboration between organisations and across borders, without compromising on privacy. However, the analysis of the document remains relevant to other deployments of the same emerging PETs in related contexts. この PPFL のユースケースは、関連する様々な PET を含み、明確なベースラインに対して潜在的なコ ストと便益を枠付けする具体的な根拠を提供するため、本ガイドを構成するために使用する。この種のユースケースは、2022-23 年における英米 PETs Prize Challenge の焦点であり、その課題設計作業において、我々は PPFL ユースケースがプライバシーを損なうことなく、組織間や国境を越えたデータ協力を改善する可能性があることを確認した。しかし、この文書の分析は、同じ新興の PET の関連する文脈における他の展開にも引き続き関連するものである。
Alongside this tool we have produced a checklist to support organisations considering utilising PETs to ensure they have considered the impacts outlined in this document. このツールと並行して、PETの利用を検討している組織が、本文書に概説されている影響を考慮したことを確認するためのチェックリストを作成した。
Navigating this toolkit 本ツールキットを活用する
Section 1 examines the costs and benefits of federation, i.e. training a model while the data remains distributed across different locations or organisations, which is integral to our PPFL use case. セクション 1 では、PPFL のユースケースに不可欠なフェデレーション、すなわちデータを異なる場所や 組織に分散させたままモデルをトレーニングすることのコストとメリットについて検討する。
The following sections (Sections 2 and 3) discuss the costs and benefits incurred by layering other PETs at different points in this solution. They consider the deployment of additional PETs to two ends: improving input privacy (Section 2) and improving output privacy (Section 3). These terms are explained below. 次のセクション(セクション 2 と 3)では、このソリューションの様々なポイントにおいて、他の PET をレイヤー化することで発生するコストと便益について議論する。すなわち、入力プライバシーの改善(セクション 2)と出力プライバシーの改善(セクション 3)である。これらの用語を以下に説明する。
Different sections of this document may be more useful and relevant than others to certain readers depending on their intended use case. 本書の異なるセクションは、読者が意図するユースケースに応じて、他のセクションよりも有用で関連性が高いかもしれない。
・readers interested in federated analytics or federated learning (without additional input and output privacy techniques) should read this introduction and Section 1. ・連合分析または連合学習(入力と出力のプライバシー技術を追加しない)に興味のある読者は、この序文とセクション1を読むべきである。
・readers interested in PPFL should read this document in its entirety. ・PPFLに興味のある読者は、この文書全体を読むべきである。
・readers interested in approaches to improve input privacy (or any of homomorphic encryption, trusted execution environments, and multi-party computation) should read Section 2. ・入力プライバシーを改善するアプローチ(または準同型暗号、信頼可能な実行環境、マルチパーティ計算のいずれか)に興味のある読者はセクション2を読んでほしい。
・readers interested in approaches to improve output privacy (or either of differential privacy or synthetic data) should read Section 3. ・出力プライバシーを改善するアプローチ(あるいは差分プライバシー、合成データのいずれか)に興味のある読者はセクション3を読んでほしい。
The remainder of this section introduces federated analytics, federated learning and PPFL, technologies which enable the use case assessed throughout this document. This section then introduces a baseline solution, that uses more traditional methods, to provide a point of comparison to our PPFL solution throughout the rest of the document. このセクションの残りの部分では、連合分析、連合学習、PPFLを紹介する。これらの技術は、本文書を通して評価されるユースケースを可能にする。そして、このセクションの残りの部分を通して我々のPPFLソリューションと比較するポイントを提供するために、より伝統的な方法を用いたベースラインソリューションを紹介する。
Input and output privacy 入力と出力のプライバシー
Input privacy focuses on protecting raw data throughout the processing stage. Effective input privacy ensures that no party can access or infer sensitive inputs at any point. This protection may involve: 入力プライバシーは、処理段階を通して生データを保護することに焦点を当てる。効果的な入力プライバシーは、いかなる時点においても、いかなる当事者も機密性の高い入力にアクセスしたり推測したりできないことを保証する。この保護には以下が含まれる:
・preventing unauthorised access: ensuring that all processing of data is conducted without any party being able to access or infer the original raw data. This involves a combination of access controls and protection against indirect inference attacks. ・不正アクセスの防止:データのすべての処理が、いかなる当事者も元の生データにアクセスまたは推論できない状態で行われるようにする。これには、アクセス管理と間接的推論攻撃に対する防御を組み合わせる。
・offensive security considerations: anticipating and countering potential offensive security techniques that adversaries could employ to gain unauthorised access to a system. This includes defending against attacks that leverage observable systemic changes such as timing or power usage. ・攻撃的セキュリティの考慮:敵対者がシステムに不正にアクセスするために用いる可能性のある攻撃的セキュリティ技術を予測し、それに対抗する。これには、タイミングや電力使用量などの観測可能なシステム的変化を利用する攻撃に対する防御も含まれる。
・proactive attack countermeasures: utilising robust defensive techniques and methodologies, including quality assurance cycles and rigorous red-teaming exercises (red-teaming, also used in the UK and US PETs Prize Challenge, 2022-2023, is a process in which participants known as ‘red teams’ deliberately simulate attacks that might occur in the real world to rigorously test the strength of solutions created by others), to proactively minimise attack vectors. These measures can help identify and mitigate potential vulnerabilities that could be exploited through the likes of side-channel attacks. ・プロアクティブな攻撃対策:品質保証サイクルや厳格なレッドチーム演習(2022~2023 年の英米 PETs Prize Challenge でも採用されたレッドチーム演習は、「レッドチーム」と呼ばれる参加者が、実世界で発生する可能性のある攻撃を意図的にシミュレートし、他者が作成したソリューションの強度を厳格にテストするプロセスである)など、強固な防御技術と方法論を活用し、攻撃ベクトルをプロアクティブに最小化する。これらの対策は、サイドチャンネル攻撃などで悪用される可能性のある脆弱性を特定し、軽減するのに役立つ。
Input privacy may be improved by stacking a range of PETs and techniques across a federated solution. The sort of PETs and techniques encompassed by such approaches can be hardware and/or cryptographic based and are often viewed as synonymous concepts to security itself. For more information on input privacy see Section 2: Input Privacy Considerations. 入力プライバシーは、連携ソリューション全体で様々なPETと技術を積み重ねることによって改善されるかもしれない。このようなアプローチに包含されるPETや技術には、ハードウェアベースや暗号ベースのものがあり、セキュリティそのものと同義の概念とみなされることが多い。入力プライバシーの詳細については、セクション2「入力プライバシーの考察」を参照のこと。
Output privacy is concerned with improving the privacy of outputted data or models. Protecting processed data is important to prevent potential privacy breaches after data has been analysed or used to train models. Key considerations include: 出力プライバシーは、出力されたデータ・モデルのプライバシーの改善に関係する。処理されたデータを防御することは、データが分析されたりモデルの学習に使われたりした後の潜在的なプライバシー侵害を防ぐために重要である。主な考慮事項は以下の通りである:
・implementing output-based techniques: techniques which add random noise to the training process of models, such as differential privacy can be particularly effective for ensuring that training data, or subsets thereof, cannot be extracted at a later stage. This approach can help to protect data even when a model is shared or deployed. ・出力ベースの技術の導入:差分プライバシーなど、モデルの訓練過程にランダムなノイズを加える技術は、訓練データまたはそのサブセットが後の段階で抽出できないようにするために特に効果的である。このアプローチは、モデルが共有されたり展開されたりする場合でも、データを保護するのに役立つ。
・balancing privacy with model performance: techniques like differential privacy can affect a model’s performance, including accuracy. The trade-offs between privacy and performance should be carefully examined, considering factors such as the size of the model and the significance of accuracy relative to the specific research question. ・プライバシーとモデル・パフォーマンスのバランス:差分プライバシーのようなテクニックは、精度を含むモデルのパフォーマンスに影響を与える可能性がある。プライバシと性能のトレードオフは、モデルのサイズや、特定の研究課題に対する精度の重要性などの要因を考慮し、慎重に検討する必要がある。
Output privacy may be improved by effectively implementing a range of PETs and techniques across a federated solution. For more information on output privacy see Section 3: Output Privacy Considerations. 出力プライバシーは、様々なPETと技術を連携ソリューションに効果的に実装することで 改善されるかもしれない。出力プライバシーの詳細については、セクション3「出力プライバシーの考察」を参照のこと。
Federated analytics and learning 連合分析と学習
Federated analytics is a technique for performing data analysis or computations across decentralised data sources. It enables organisations to use data that cannot be directly shared. Local data from multiple sources is used to inform a global model or perform complex analysis, using federated approaches without sharing the actual data itself. After data is processed locally, the results of this processing are aggregated (either at a global node or between local nodes). フェデレーテッド・アナリティクスは、分散化されたデータソース間でデータ分析や計算を実行するための技術である。これにより、組織は直接共有できないデータを利用することができる。複数のソースからのローカルデータは、実際のデータ自体を共有することなく、連携アプローチを使用して、グローバルモデルに情報を提供したり、複雑な分析を実行するために使用される。データがローカルで処理された後、その処理結果は(グローバルノードまたはローカルノード間で)集約される。
In this toolkit we define federated learning as a subset of federated analytics. Federated learning involves training a machine learning model on datasets distributed across multiple nodes. This approach uses model updates from many local models to improve a central or global model. Nodes transfer updated model parameters based on training conducted on locally held data, rather than the actual data itself. This allows for the training of a model without the centralised collection of data. このツールキットでは、連合学習を連合分析のサブセットとして定義する。連合学習では、複数のノードに分散したデータセットで機械学習モデルを学習する。このアプローチでは、中央またはグローバルモデルを改善するために、多くのローカルモデルからのモデル更新を使用する。ノードは、実際のデータそのものではなく、ローカルに保持されているデータで実施されたトレーニングに基づいて更新されたモデル・パラメータを転送する。これにより、集中的にデータを収集することなくモデルをトレーニングすることができる。
Example 1: Federated analytics for statistical analysis 例1: 統計分析のための統合分析
A healthcare organisation looks to collaborate with universities and counterparts across countries to analyse trends in disease outbreaks. The organisation develops data pipelines to partners’ locally stored data. Through these pipelines, the organisation can send requests for data analysis. ある医療機関は、疾病の発生傾向を分析するために、各国の大学やカウンターパートと協力しようと考えている。この組織は、パートナーのローカルに保存されたデータへのデータパイプラインを開発する。これらのパイプラインを通じて、医療機関はデータ分析のリクエストを送ることができる。
The analysis is performed locally, without the healthcare organisation having access to the dataset. The output of this analysis is then returned to the organisation, which aggregates the results from all partners. 分析は、医療機関がデータセットにアクセスすることなく、ローカルで実行される。この分析のアウトプットは医療機関に返され、医療機関はすべてのパートナーからの結果を集約する。
Example 2: Federated learning for training a model 例2: モデル学習のための連合学習モデル
A technology organisation wants to improve the accuracy of a voice recognition system without collecting their users’ voice data centrally. The organisation creates an initial model trained on a readily available data set, which is then shared to users’ devices. This model is updated locally based on a user’s voice data. ある技術組織が、ユーザーの音声データを一元的に収集することなく、音声認識システムの精度を改善したいと考えている。この組織は、すぐに利用可能なデータセットでトレーニングされた初期モデルを作成し、それをユーザーのデバイスに共有する。このモデルは、ユーザーの音声データに基づいてローカルに更新される。
With user consent, the local models are uploaded to a central server periodically, without any of the users’ individual voice data ever leaving their device. The central model is continually iterated using the local models collected from repeated rounds of localised training on users’ devices. This updated central model is then shared to users’ devices and this training loop continues. ユーザーの同意のもと、ローカルモデルは定期的に中央サーバーにアップロードされ、ユーザーの個々の音声データがデバイスから離れることはない。中央のモデルは、ユーザーのデバイス上で繰り返し行われるローカライズされたトレーニングから収集されたローカルモデルを使用して、継続的に反復される。この更新された中央モデルは、ユーザーのデバイスに共有され、このトレーニングループが継続される。
Privacy preserving federated learning (PPFL) プライバシー保持連合学習(PPFL)
Layering additional PETs on top of a federated learning architecture is often referred to as privacy-preserving federated learning (PPFL). Use of additional PETs on top of federated learning can improve input and/or output privacy. 連合学習アーキテクチャの上に追加のPETを重ねることは、しばしばプライバシー保持連合学習(PPFL)と呼ばれる。連合学習の上に追加のPETを使うことで、入力や出力のプライバシーを改善することができる。
Fig1_20241122234301
Figure 1: shows an example of a PPFL solution and illustrates a multi-step process where PETs are strategically implemented to enhance privacy across a federated network. 図1:PPFLソリューションの例を示し、連合ネットワーク全体でプライバシーを強化するためにPETが戦略的に実装されるマルチステッププロセスを示している。
[1] Database structures at local nodes [1] ローカルノードのデータベース構造
[2] Central Global node (aggregator for federated learning) [2] 中央グローバルノード(連合学習のアグリゲーター)
[3] Connections between nodes [3] ノード間の接続
[4] Federated learning network [4] 連合学習ネットワーク
[5] End-user devices (Client-side) [5] エンドユーザー・デバイス(クライアント側)
The mechanisms behind many of these approaches and combinations will be discussed in more detail at a later stage. This comprehensive approach ensures that from data input to model deployment, every step provides a degree of privacy protection, safeguarding against unauthorised data exposure and enhancing trust in the federated learning process. これらの多くのアプローチや組み合わせの背後にあるメカニズムについては、後の段階で詳しく説明する。この包括的なアプローチにより、データ・インプットからモデル・モデルの展開に至るまで、すべてのステップがある程度のプライバシー保護を提供し、無許可のデータ・エクスポージャーから保護し、連合学習プロセスの信頼を高めることができる。
The accompanying explanations also serve as a reference point for technical options or considerations for how to deploy these technologies practically in a specific use case. This is intended to illustrate an indicative approach to how these technologies can be usefully deployed, not a definitive guide as to the only correct way of doing so, nor a specific endorsement of these techniques as better than other potential approaches. また、付随する説明は、特定のユースケースにおいてこれらの技術を実用的に展開するための技術オプションや検討事項の参照点としても役立つ。これは、これらの技術がどのように有用に展開できるかについての示唆的なアプローチを示すことを意図しており、そうする唯一の正しい方法についての決定的なガイドではなく、またこれらの技術が他の可能性のあるアプローチよりも優れていることを具体的に支持するものでもない。
[1] Database structures at local nodes [1] ローカルノードにおけるデータベース構造
1.a) Trusted execution environment (TEE) and federated learning: 1.a) 信頼可能な実行環境(TEE)と連合学習:
Implementation: TEEs can be used to create a secure local environment for each node participating in federated learning. This ensures that intermediate computations on local data are securely isolated within a server enclave. While federated learning inherently prevents other parties from accessing local raw training data by sharing only model weight updates, TEEs add an additional layer of security. 実装: TEEは、連合学習に参加する各ノードに対して、安全なローカル環境を作成するために使用することができる。これによって、ローカル・データに対する中間計算が、サーバ・エンクレーブ内で安全に分離されることが保証される。連合学習モデルは、モデル重みの更新のみを共有することで、他のパーティがローカルの生トレーニングデータにアクセスすることを本質的に防ぐが、TEEはさらにセキュリティのレイヤーを追加する。
TEEs can be used to create a secure local environment that further protects the computations and model updates from potential tampering or unauthorised access, even within the local device. This can be particularly useful in scenarios where there is a heightened risk of local attacks or when additional hardware-based security is required. TEE は、ローカルデバイス内であっても、計算とモデル更新を改ざんや不正アクセスから保護する、安全なローカル環境を構築するために使用できる。これは、ローカル攻撃のリスクが高いシナリオや、追加のハードウェアベースのセキュリティが必要な場合に特に有用である。
Interaction: Local model training for federated learning can occur within TEEs. In such a process, only model updates (not raw data) are sent to the central/global node (node [2] connected to database structures). This provides an additional layer of security while benefiting from collective learning. 相互作用: 連合学習のためのローカルモデル学習は、TEE 内で行うことができる。このようなプロセスでは、モデルの更新のみが(生データではなく)中央/グローバルノード(データベース構造に接続されたノード [2])に送信される。これにより、集合学習の利点を享受しつつ、さらなるセキュリティ層が提供される。
1.b) Homomorphic encryption (HE) and multi-party computation (MPC): 1.b) 準同型暗号(HE)とマルチ・パーティ計算(MPC):
Implementation: HE enables computations to be performed directly on encrypted data, ensuring that sensitive data remains protected even during processing. This prevents any party from accessing the unencrypted data, thereby enhancing privacy. 実装: HEは、暗号化されたデータに対して直接計算を実行することを可能にし、処理中であっても機密データが保護されたままであることを保証する。これにより、暗号化されていないデータにアクセスすることができなくなり、プライバシーが強化される。
MPC allows multiple parties to collaboratively compute a function over their inputs while keeping those inputs private from each other. MPCは、複数のパーティが、お互いの入力を秘密にしたまま、入力に対して共同で機能を計算することを可能にする。
By leveraging TEEs, HE, or MPC, organisations can carry out secure computations without revealing sensitive data, providing an additional layer of privacy that complements the inherent protections of federated learning. TEE、HE、またはMPCを活用することで、組織は機密データを明かすことなく安全な計算を実行することができ、連合学習固有の保護を補完する追加のプライバシーレイヤーを提供することができる。
Interaction: HE ensures that data remains encrypted during transmission and computation, while MPC allows these encrypted results to be combined securely at the global node or between databases, enhancing both input and output privacy. This combination of techniques helps to protect against inference attacks, and is particularly applicable in scenarios requiring collaborative analytics, allowing for collective computations that are secure and private. インタラクション: HEは、送信と計算の間、データが暗号化されたままであることを保証し、MPCは、これらの暗号化された結果をグローバルノードまたはデータベース間で安全に結合することを可能にし、入力と出力の両方のプライバシーを強化する。この技術の組み合わせは、推論攻撃から保護するのに役立ち、特に協調分析を必要とするシナリオに適用可能で、安全でプライベートな集団計算を可能にする。
1.c) Synthetic data generation: 1.c) 合成データの生成:
Implementation: Synthetic data generation involves creating artificial datasets that replicate the statistical properties of real datasets. This synthetic data can be used for initial model training and testing without exposing sensitive information, making it valuable for scenarios where data privacy is a specific concern due to the involvement of especially sensitive information. If the synthetic data is well-crafted and does not contain any identifiable information, it generally does not require additional privacy techniques. However, in cases where there is a concern that the synthetic data could be correlated with external data to infer sensitive information, techniques like differential privacy can be applied to add an extra layer of protection. 実装: 合成データ生成では、実際のデータセットの統計的特性を再現した人工データセットを作成する。この合成データは、センシティブな情報を公開することなく、最初のモデル・トレーニングやテストに使用することができるため、特にセンシティブな情報が含まれるためにデータ・プライバシーが懸念されるシナリオで有用である。合成データがうまく作成され、識別可能な情報を含んでいない場合、一般的にプライバシー技術を追加する必要はない。しかし、合成データが外部データと相関し、機密情報を推測される懸念がある場合には、差分プライバシーのような技術を適用することで、保護レイヤーを追加することができる。
Interaction: Synthetic data can be utilised to safely conduct experiments, validate models, or train machine learning systems without risking the exposure of real, sensitive data. The interaction between the synthetic dataset and the machine learning models or analytical tools remains similar to that of real data, allowing for accurate testing and development. 相互作用: 合成データは、実際の機密データのエクスポージャーをリスクにさらすことなく、実験、モデルの妥当性確認、機械学習システムの訓練を安全に行うために利用することができる。合成データと機械学習モデルや分析ツールとの相互作用は、実データと同様であり、正確なテストと開発が可能である。
In situations where sensitive information could be inferred, the use of differential privacy or other privacy-preserving techniques ensures that even if the synthetic data is accessed by unauthorised parties, the risk of re-identification remains minimal. センシティブな情報が推測される可能性がある状況では、差分プライバシーやその他のプライバシー保護技術を使用することで、合成データが権限のない者によってアクセスされたとしても、再識別のリスクは最小限に抑えられる。
[2] Central Global node (aggregator for federated learning) [2]セントラル・グローバル・ノード(連合学習のアグリゲーター)
2.a) Federated learning with differential privacy: 2.a) 差分プライバシーを用いた連合学習:
Implementation: Implementing differential privacy techniques at the aggregator, to add noise to the aggregated model updates, enhances the privacy of the model by making it harder to trace back to individual contributions. 実装: アグリゲータで差分プライバシー技術を実装し、集約されたモデルの更新にノイズを加えることで、個々の貢献へのトレースが困難になり、モデルのプライバシーが強化される。
Interaction: Combining federated learning with differential privacy ensures that even if the aggregated model is exposed, there is a lower risk of the privacy of individual data sources being compromised. 相互作用: 連合学習と差分プライバシーを組み合わせることで、集約モデルが公開されても、個々のデータ・ソースのプライバシーが侵害されるリスクが低くなる。
2.b) Federated learning with synthetic data: 2.b) 合成データによる連合学習:
Implementation: Synthetic data can be used to initially baseline and validate a machine learning model during the development phase. This approach allows for early testing and adjustment of model architecture using data that mimics real datasets without exposing sensitive information. Once the model is confirmed to be functioning as intended, it should then be trained further with real data to ensure accuracy and effectiveness before being deployed to local nodes for federated learning. 実装: 合成データは、開発段階における機械学習モデルの初期ベースラインと妥当性確認のために使用することができる。このアプローチにより、機密情報を公開することなく、実際のデータセットを模倣したデータを使用して、モデル・アーキテクチャの早期テストと調整が可能になる。モデルが意図したとおりに機能していることが確認されたら、連合学習のためにローカルノードに展開する前に、実データでさらに学習させ、精度と有効性を確保する必要がある。
Interaction: Federated learning can utilise synthetic data for calibration and testing under various conditions, ensuring robustness before deploying the model with real user data. During the interaction phase, the model can be tested and refined using synthetic data, which helps to establish a solid foundation whilst reducing privacy breaches. However, it is essential to note that the model should not be pushed to local nodes for final training if it has only been trained on synthetic data. Instead, the model should undergo additional training with real data to ensure it performs accurately in real-world scenarios before deployment across the federated network. 相互作用: 連合学習では、実際のユーザーデータでモデルを展開する前に、様々な条件下でのキャリブレーションとテストのために合成データを利用し、ロバスト性を確保することができる。インタラクションの段階では、合成データを使ってモデルをテストし、改良することができるため、プライバシー侵害を減らしつつ、強固な基盤を確立することができる。しかし、合成データで学習しただけのモデルは、最終的な学習のためにローカルノードにプッシュすべきではないことに注意する必要がある。その代わりに、モデルは、連携ネットワーク全体に展開する前に、実世界のシナリオで正確に機能することを保証するために、実データで追加のトレーニングを受けるべきである。
[3] Connections between nodes [3] ノード間の接続
Federated learning and HE: 連合学習とHE:
Implementation: HE might be used to encrypt the model updates as they are transmitted between nodes. These updates, while originally derived from the data, are no longer the raw data itself but rather parameter updates that represent learned patterns. Encrypting these updates ensures that even as they are aggregated and processed, the underlying data patterns remain protected from potential inference attacks. 実装: HEは、ノード間で送信されるモデルの更新を暗号化するために使用される。これらの更新は、もともとはデータから得られたものであるが、もはや生データそのものではなく、学習されたパターンを表すパラメータの更新である。これらの更新を暗号化することで、更新が集約され処理されても、基礎となるデータパターンが潜在的な推論攻撃から保護されたままであることを保証する。
Interaction: During the interaction phase, model updates are securely transmitted between nodes using HE. These updates are no longer the raw data but encrypted representations of the model’s learned parameters. This encryption ensures that while the updates are aggregated to refine the global model, they remain secure and inaccessible, protecting the privacy of the underlying data. 相互作用: 相互作用フェーズでは、モデルの更新はHEを使用してノード間で安全に送信される。これらの更新はもはや生データではなく、モデルの学習されたパラメータを暗号化したものである。この暗号化により、更新がグローバル・モデルを改良するために集約される間、更新は安全でアクセスできないままであり、基礎となるデータのプライバシーが保護される。
[4] Federated learning network [4] 連合学習ネットワーク
Model consolidation: Implementation: This section represents the consolidated output of a federated learning process a fully trained model that integrates insights derived from all participating nodes. モデルの統合: 実装: このセクションは、連合学習プロセスの統合された出力、つまりすべての参加ノードから得られた洞察を統合した、完全に訓練されたモデルを表す。
Interaction: The model, now optimised and refined through aggregated updates, embodies the collective intelligence of the decentralised network while maintaining the privacy of the underlying data. 相互作用: 集約された更新によって最適化され洗練されたモデルは、基礎となるデータ・プライバシーを維持しながら、分散型ネットワークの集合的インテリジェンスを具現化する。
[5] End-user devices (Client-side) [5] エンドユーザーデバイス(クライアントサイド)
TEE and synthetic data on client devices: クライアント・デバイス上の TEE と合成データ:
Implementation: TEEs can be employed on client devices to securely process data and use synthetic data to simulate user interactions without risking exposure of real data. Synthetic data could be generated from real data or anonymised versions of a dataset. 実装: クライアントデバイス上で TEE を採用することで、データをセキュアに処理し、合成デー タを使用することで、実データのエクスポージャーをリスクにさらすことなく、ユーザ インタラクションをシミュレートすることができる。合成データは、実データや匿名化されたデータセットから生成することができる。
Interaction: TEEs ensure that even if a device is compromised, the processing of sensitive data (real or synthetic) remains secure. インタラクション: TEE は、デバイスが侵害された場合でも、機密データ(実データまたは合成データ)の安全な処理を保証する。
Baseline for comparison 比較のためのベースライン
When assessing the costs and benefits of adopting PETs, it is useful to compare the costs and benefits to alternative methods. PETを採用するコストと便益をアセスメントする場合、代替方法と比較することが有用である。
In this PPFL example, a useful baseline for comparison is the training of an equivalent model on centrally collated data. The data is assumed to be collected by the organisation, originating from different entities and containing personal or sensitive information. この PPFL の例では、一元的に照合されたデータを用いて同等のモデルを訓練することが、比較 のためのベースラインとして有用である。データは組織が収集し、異なる事業体から発信され、個人情報や機微情報を含むと仮定する。
Fig2_20241122234701
Figure 2: Example of baseline centralised data processing model 図 2:一元管理されたデータ処理モデルの例

 

Section 1: costs and benefits of federated learning セクション1:連合学習のコストと利益
Section 2: input privacy considerations セクション2:入力プライバシーに関する考察
Section 3: output privacy considerations セクション3:出力プライバシーに関する考察

 

Conclusion 結論
The use of PETs is not a silver bullet to ‘solve’ all privacy concerns your organisation may face, however, adopting these technologies correctly, where appropriate to the organisation’s context and intended use case, has the potential to introduce and/or unlock a range of benefits. Before adopting any PETs, it is important to weigh up the costs of your solution against these benefits to determine whether or not the technology is right for your organisation. PETの使用は、組織が直面しうるプライバシーに関するすべての懸念を「解決」する特効薬ではないが、組織の状況や意図するユースケースに適切であれば、これらの技術を正しく採用することで、さまざまな利益を導入し、または引き出す可能性がある。PETを採用する前に、ソリューションのコストとこれらの利点を比較検討し、その技術が組織にとって適切かどうかを判断することが重要である。
For more information on legal compliance please see the ICO’s PETs guidance. 法令遵守に関する詳細は、ICOのPETsガイダンスを参照のこと。

 

 

PETのユースケース

Department for Science, Innovation and Technology

・2024.11.07 Repository of Privacy Enhancing Technologies (PETs) Use Cases

 

 

PETについての法的な説明

ICO

・2023.06.19 Privacy-enhancing technologies (PETs)

 

 


 

PETs 関連...

まるちゃんの情報セキュリティ気まぐれ日記

・2024.01.27 米国 NIST Blog 連合学習におけるプライバシー攻撃

・2023.12.13 NIST SP 800-226(初期公開ドラフト) 差分プライバシー保証 (Guarantees) を評価するためのガイドライン

・2023.06.28 英国 ICO 金融、医療、研究、中央・地方政府で大規模な個人データセットを使用しているデータ保護担当者などを対象とした新しいPETsガイダンスを作成 (2023.06.19)

・2023.04.08 米国 プライバシーを保護した上でデータ共有と分析を推進する国家戦略 ・デジタル資産研究開発のための国家目標 (2023.03.29)

・2023.03.24 OECD 先進のプライバシー強化技術 - 現在の規制・政策アプローチ (2023.03.08)

・2023.01.26 英国王立学会 プライバシー向上技術 (PETs) (2023.01.23)

・2022.09.11 英国 ICO プライバシー強化技術に関するガイダンス案を発表

・2022.01.29 ENISA データ保護エンジニアリング

・2021.07.19 U.K. プライバシー強化技術:採用ガイド β版 by デジタル・文化・メディア・スポーツ省 データ倫理・イノベーションセンター

・2020.10.16 World Economic Forumからサイバーセキュリティの報告書(Cyber Information Sharing: Building Collective Security)が出ていましたね。。。

 

ここから10年遡ります...

・2010.07.27 London Economics "Study on the economic benefits of privacy-enhancing technologies (PETs) "

・・[PDF] Study on the economic benefits of privacy‐enhancing technologies (PETs)

20241123-02600

 

|

« ノルウェイ 消費者評議会 オンラインにおける児童・青少年の商業的搾取 (2024.11.14) | Main | CSA AIリスクマネジメント: 規制の枠を超えて考える »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« ノルウェイ 消費者評議会 オンラインにおける児童・青少年の商業的搾取 (2024.11.14) | Main | CSA AIリスクマネジメント: 規制の枠を超えて考える »