NIST SP 800-226(初期公開ドラフト) 差分プライバシー保証 (Guarantees) を評価するためのガイドライン
こんにちは、丸山満彦です。
NISTがプライバシー強化技術 (privacy enhancing technologies:PETs) の一つである差分プライプライバシー (Differential Privacy) についてのガイダンスの初期ドラフトを公開していますね。。。
PETsについての技術的な附属書もあり、いろいろと参考になりそうです。
NISTとしては、この初期ドラフトについて、幅広い意見をもとめているようですが、特に次の点についてコメントが欲しいようです。。。
- 本書は、明確かつ適切な範囲に収められているか。
- 本書は、想定される読者にとって理解しやすいものであるか。
- 本書は、差分プライバシーの用途と落とし穴を理解するための概念的枠組みを提供しているか。根拠のないガイダンスはないか?
- 差分プライバシーピラミッドは有用な概念的装置か。
- プライバシーの危険は正確に記述されているか?さらなる危険を加えるべきか?
- 研究が決定的でないトピックについて、文献から重要なポイントが見落とされていないか?
ちなみに差分プライバシーピラミッドは、こんな感じ...
● NIST - ITL
・2023.12.11 NIST SP 800-226 (Initial Public Draft) Guidelines for Evaluating Differential Privacy Guarantees
NIST SP 800-226 (Initial Public Draft) Guidelines for Evaluating Differential Privacy Guarantees | NIST SP 800-226(初期公開ドラフト) 差分プライバシー保証 (Guarantees) を評価するためのガイドライン |
Announcement | 発表 |
This publication is about differential privacy, a privacy-enhancing technology that quantifies privacy risk to individuals when their information appears in a dataset. In response to President Biden’s Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, SP 800-226 is intended to help agencies and practitioners of all backgrounds—policy makers, business owners, product managers, IT technicians, software engineers, data scientists, researchers, and academics—better understand how to evaluate promises made (and not made) when deploying differential privacy, including for privacy-preserving machine learning. Additionally, there is a supplemental package of Python Jupyter notebooks that illustrate how to achieve differential privacy and other concepts described in the publication. | 本書は、差分プライバシー(データセットに個人情報が含まれる場合に、個人のプライバシーリスクを定量化するプライバシー強化技術)に関するものである。バイデン大統領の「人工知能の安全、セキュア、信頼できる開発と使用に関する大統領令」に対応して、SP800-226は、あらゆる背景を持つ機関や実務者(政策立案者、ビジネスオーナー、プロダクトマネージャー、IT技術者、ソフトウェアエンジニア、データサイエンティスト、研究者、学者)が、プライバシーを保持する機械学習を含め、差分プライバシーを導入する際に約束された(そして約束されなかった)ことを評価する方法をよりよく理解できるようにすることを目的としている。さらに、差分プライバシーの実現方法と本書で説明されている他の概念を説明するPython Jupyterノートブックの補足パッケージもある。 |
Note to Reviewers | 査読者へ注意 |
The authors welcome feedback on all aspects of this publication, particularly on the following questions: | 認可者は、本書のあらゆる面、特に以下の質問に対するフィードバックを歓迎する: |
・Does this publication have a clear and appropriate scope? | ・本書は、明確かつ適切な範囲に収められているか。 |
・Is this publication understandable for the intended audience? | ・本書は、想定される読者にとって理解しやすいものであるか。 |
・Does publication provide a conceptual framework for understanding the uses and pitfalls of differential privacy? Is there any guidance that is not well-founded? | ・本書は、差分プライバシーの用途と落とし穴を理解するための概念的枠組みを提供しているか。根拠のないガイダンスはないか? |
・Is the differential privacy pyramid a helpful conceptual device? | ・差分プライバシーピラミッドは有用な概念的装置か。 |
・Are the privacy hazards described accurately? Should additional hazards be added? | ・プライバシーの危険は正確に記述されているか?さらなる危険を加えるべきか? |
・For topics where the research is inconclusive, were any key points missed from the literature? | ・研究が決定的でないトピックについて、文献から重要なポイントが見落とされていないか? |
Abstract | 概要 |
This publication describes differential privacy — a mathematical framework that quantifies privacy risk to individuals as a consequence of data collection and subsequent data release. It serves to fulfill one of the assignments to the National Institute of Standards and Technology (NIST) by the Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence issued on October 30, 2023. The primary goal of this publication is to help practitioners of all backgrounds better understand how to think about differentially private software solutions. Multiple factors for consideration are identified in a differential privacy pyramid along with several privacy hazards, which are common pitfalls that arise as the mathematical framework of differential privacy is realized in practice. | 本書は、差分プライバシー(データ収集とそれに続くデータ公開の結果として個人が被るプライバシーリスクを定量化する数学的枠組み)について記述している。本書は、2023年10月30日に発布された「安全、確実、信頼できる人工知能に関する大統領令」によって国立標準技術研究所(NIST)に課せられた任務の一つを果たすものである。本書の主な目的は、あらゆる背景を持つ実務家が、異なるプライベート・ソフトウェア・ソリューションについてどのように考えるべきかをよりよく理解できるようにすることである。差分プライバシーの数学的枠組みが実際に実現される際に生じる一般的な落とし穴であるいくつかのプライバシーの危険とともに、考慮すべき複数の要因が差分プライバシー・ピラミッドで特定されている。 |
・[PDF] NIST.SP.800-226.ipd
目次...
Executive Summary | 要旨 |
1. Introduction | 1. 序文 |
1.1. De-Identification and Re-Identification | 1.1. アイデンティフィケーションの解除と再アイデンティフィケーション |
1.2. Unique Elements of Differential Privacy | 1.2. 差分プライバシー独自の要素 |
2. The Differential Privacy Guarantee | 2. 差分プライバシーの保証 |
2.1. The Promise of Differential Privacy | 2.1. 差分プライバシーの約束 |
2.1.1. The Math of Differential Privacy | 2.1.1. 差分プライバシーの数学 |
2.1.2. Properties of Differential Privacy | 2.1.2. 差分プライバシーの性質 |
2.2. The Privacy Parameter ε | 2.2. プライバシー・パラメータε |
2.3. Variants of Differential Privacy | 2.3. 差分プライバシーの変種 |
2.4. The Unit of Privacy | 2.4. プライバシーの単位 |
2.5. Comparing Differential Privacy Guarantees | 2.5. 差分プライバシー保証の比較 |
2.6. Mixing Differential Privacy With Other Data Releases | 2.6. 差分プライバシーと他のデータ・リリースとの混合 |
3. Differentially Private Algorithms | 3. 差分プライバシーのアルゴリズム |
3.1. Basic Mechanisms and Common Elements | 3.1. 基本メカニズムと共通要素 |
3.2. Utility and Accuracy | 3.2. 有用性と精度 |
3.3. Bias | 3.3. バイアス |
3.3.1. Systemic Bias | 3.3.1. 体系的バイアス |
3.3.2. Human Bias | 3.3.2. 人間のバイアス |
3.3.3. Statistical Bias | 3.3.3. 統計バイアス |
3.4. Analytics Queries | 3.4. 分析クエリー |
3.4.1. Counting Queries | 3.4.1. カウントクエリー |
3.4.2. Summation Queries | 3.4.2. 合計クエリー |
3.4.3. Average Queries | 3.4.3. 平均クエリー |
3.4.4. Min/Max Queries | 3.4.4. 最小/最大クエリー |
3.5. Machine Learning | 3.5. 機械学習 |
3.6. Synthetic Data | 3.6. 合成データ |
3.7. Unstructured Data | 3.7. 非構造化データ |
4. Deploying Differential Privacy | 4. 差分プライバシーの導入 |
4.1. Query Models | 4.1. クエリーモデル |
4.2. Threat Models | 4.2. 脅威モデル |
4.2.1. Central Model | 4.2.1. セントラルモデル |
4.2.2. Local Model | 4.2.2. ローカルモデル |
4.2.3. Future Directions: Shuffle and Secure Computation Models | 4.2.3. 今後の方向性 シャッフルとセキュア計算モデル |
4.3. Mechanism Implementation Challenges | 4.3. メカニズム実装の課題 |
4.4. Data Security and Access Control | 4.4. データセキュリティとアクセス制御 |
4.5. Data Collection Exposure | 4.5. データ収集エクスポージャー |
4.6. Conclusion | 4.6. 結論 |
References | 参考文献 |
Appendix A. Glossary | 附属書A. 用語集 |
Appendix B. Technical Details | 附属書B. 技術的詳細 |
B.1. Definition of (ε,δ )-Differential Privacy | B.1. (ε,δ )-差分プライバシーの定義 |
B.2. Definitions of Sensitivity and Basic Mechanisms | B.2. 感度の定義と基本メカニズム |
B.3. Details: Counting Queries | B.3. 詳細 クエリのカウント |
B.4. Details: Summation Queries | B.4. 詳細 合計クエリー |
B.5. Details: Average Queries | B.5. 詳細 平均クエリー |
B.6. Details: Differentially Private Stochastic Gradient Descent | B.6. 詳細 微分プライベート確率勾配降下法 |
エグゼクティブサマリー
Executive Summary | エグゼクティブサマリー |
Data analytics is becoming an essential tool to help organizations make sense of the enormous volume of data being generated by information technologies. Many entities — whether in government, industry, academia, or civil society — use data analytics to improve research, develop more effective services, combat fraud, and inform decision-making to achieve mission or business objectives. However, when the data being analyzed relates to or affects individuals, privacy risks can arise. These privacy risks can limit or prevent entities from realizing the full potential of data. Privacy-enhancing technologies can help mitigate privacy risks while enabling more uses of data. | データ解析は、情報技術によって生成される膨大な量のデータを組織が理解するために不可欠なツールになりつつある。政府、産業界、学界、市民社会を問わず、多くの事業体が、研究の改善、より効果的なサービスの開発、不正行為との戦い、ミッションや事業目標を達成するための意思決定への情報提供のために、データ解析を利用している。しかし、分析されるデータが個人に関するものであったり、個人に影響を及ぼすものであったりする場合、プライバシーリスクが生じる可能性がある。このようなプライバシーリスクは、事業体がデータの潜在能力を最大限に発揮することを制限したり、妨げたりする可能性がある。プライバ シー向上技術は、プライバシーリスクを軽減すると同時に、より多くのデータ利用を可能にする。 |
This publication describes differential privacy — a privacy-enhancing technology that quantifies privacy risk to individuals when their data appears in a dataset. Differential privacy was first defined in 2006 as a theoretical framework and is still in the process of transitioning from theory to practice. This publication is intended to help practitioners of all backgrounds — policymakers, business owners, product managers, IT technicians, software engineers, data scientists, researchers, and academics — understand, evaluate, and compare differential privacy guarantees. In particular, this publication highlights privacy hazards that practitioners should consider carefully. | 本書では、差分プライバシーについて説明する。差分プライバシーとは、データセットに自分のデータが含まれる場合に、個人のプライバシーリスクを定量化するプライバシー強化技術である。差分プライバシーは、理論的枠組みとして2006年に初めて定義され、現在も理論から実践への移行過程にある。本書は、政策立案者、ビジネスオーナー、プロダクトマネージャー、IT技術者、ソフトウェアエンジニア、データサイエンティスト、研究者、学者など、あらゆる立場の実務者が差分プライバシー保証を理解し、評価し、比較できるようにすることを目的としている。特に本書では、実務者が注意深く考慮すべきプライバシーの危険性を強調している。 |
This publication is organized into three parts. Part I defines differential privacy, Part II describes techniques for achieving differential privacy and their properties, and Part III covers important related concerns for deployments of differential privacy. A supplemental, interactive software archive is also included to supplement understanding of differential privacy and techniques for achieving it. It serves to fulfill one of the assignments to the National Institute of Standards and Technology (NIST) by the Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence issued on October 30, 2023. | 本書は3つのパートで構成されている。第I部では差分プライバシーを定義し、第II部では差分プライバシーを達成するためのテクニックとその特性を説明し、第III部では差分プライバシーの展開に関連する重要な懸念事項を取り上げている。また、差分プライバシーとそれを実現するテクニックの理解を補うために、補足的でインタラクティブなソフトウェアアーカイブも含まれている。本書は、2023年10月30日に発行された「安全、安心、信頼できる人工知能に関する大統領令」によって国立標準技術研究所(NIST)に課せられた任務の一つを果たすものである。 |
Part I: The Differential Privacy Guarantee | パートI:差分プライバシー保証 |
Differential privacy promises that the outcome of a data analysis or published dataset will be about the same whether or not you contribute your data. In other words, any privacy harms that result from a differentially private analysis could have happened even if you had not contributed your data. This section introduces differential privacy, describes its properties, explains how to reason about and compare differential privacy guarantees, describes how the differential privacy guarantee can impact real-world outcomes, and highlights potential hazards in defining and evaluating these guarantees. | 差分プライバシーは、あなたがデータを提供してもしなくても、データ分析や公開されたデータセットの結果がほぼ同じになることを約束する。言い換えれば、差分プライバシーの分析によって生じるプライバシーの損害は、たとえあなたがデータを提供しなかったとしても起こりうるということである。このセクションでは、差分プライバシーを紹介し、その特性を説明し、差分プライバシー保証 (gurantees) をどのように推論し、比較するかを説明し、差分プライバシー保証が実世界の結果にどのような影響を与えるかを説明し、これらの保証を定義し評価する際の潜在的な危険性を強調する。 |
Part II: Differentially Private Algorithms | パート II: 差分的プライバシーアルゴリズム |
In general, differential privacy is achieved by adding random noise to analysis results. More noise yields better privacy but also degrades the utility of the result. This dynamic is often called the privacy-utility trade-off, and it can be difficult to achieve high utility and strong privacy protection in some cases. In addition, some differentially private techniques can create or magnify systemic, human, or statistical bias in results, so care must be taken to understand and mitigate these impacts. | 一般的に、差分プライバシーは分析結果にランダムなノイズを加えることで達成される。ノイズが多いほどプライバシーは向上するが、結果の有用性も低下する。このダイナミックはしばしばプライバシーと有用性のトレードオフと呼ばれ、場合によっては高い有用性と強力なプライバシー保護を達成することが難しくなる。加えて、プライバシーの異なる手法の中には、システム的、人間的、統計的なバイアスを結果に生じさせたり、拡大させたりするものもあるため、これらの影響を理解し、軽減するために注意を払う必要がある。 |
This section describes algorithms for a wide range of data processing scenarios. Differentially private algorithms exist for analytics queries (e.g., counting, histograms, summation, and averages), regression tasks, machine learning tasks, synthetic data generation, and the analysis of unstructured data. Implementing differentially private algorithms requires significant expertise. It can be difficult to get right and easy to get wrong, like implementing cryptography, so it is best to use existing libraries when possible. | 本節では、幅広いデータ処理シナリオのアルゴリズムについて説明する。差分プライベートアルゴリズムは、分析クエリ(例えば、計数、ヒストグラム、合計、平均)、回帰タスク、機械学習タスク、合成データ生成、非構造化データの分析に存在する。異なるプライベートのアルゴリズムを実装するには、かなりの専門知識が必要である。暗号の実装のように、正しく行うのは難しく、間違えやすいので、可能な限り既存のライブラリを使用するのがベストである。 |
Part III: Deploying Differential Privacy | パートIII:差分プライバシーの導入 |
Differential privacy provides privacy protection for data subjects in the context of intentional, differentially private data releases. However, differential privacy alone does not protect data as it is collected, stored, and analyzed. Part III describes practical concerns about deploying differentially private analysis techniques, including the threat model, which describes who can be considered trustworthy and who should be considered malicious; several implementation challenges for differentially private mechanisms that can cause unexpected privacy failures; and additional security concerns and data collection exposure. For example, sensitive data must be stored using best practices in secure data storage and access control policies or not stored at all. A data breach that leaks sensitive raw data will completely nullify any differential privacy guarantee established for that dataset. | 差分プライバシーは、意図的な差分プライバシーのデータリリースの文脈において、データ主体にプライバシー保護を提供する。しかし、差分プライバシーだけでは、収集、保存、分析されたデータを保護することはできない。パートIIIでは、差分プライバシ分析技術の導入に関する実際的な懸念について述べる。脅威モデルとは、誰が信頼に足ると考えられ、誰が悪意があると考えられるべきかを記述するものである。差分プライバシのメカニズムには、予期せぬプライバシの失敗を引き起こす可能性のあるいくつかの実装上の課題がある。例えば、機密データは、安全なデータ保管とアクセス・コントロール・ポリシーのベスト・プラクティスを用いて保管されなければならない。機密性の高い生データを漏洩させるようなデータ漏洩は、そのデータセットに対して確立された差分プライバシー保証を完全に無効にしてしまう。 |
Toward Standardization, Certification, and Evaluation | 標準化、認証、評価に向けて |
This publication is intended to be a first step toward building standards for differential privacy guarantees to ensure that deployments of differential privacy provide robust real-world privacy protections. In particular, a standard for differential privacy guarantees should prescribe parameter settings or solutions that address all of the privacy hazards described in this publication. Such a standard would allow for the construction of tools to evaluate differential privacy guarantees and the systems that provide them as well as the certification of systems that conform with the standard. The certification of differential privacy guarantees is particularly important given the challenge of communicating these guarantees to non-experts. A thorough certification process would provide non-experts with an important signal that a particular system will provide robust guarantees without requiring them to understand the details of those guarantees. | 本書は、差分プライバシーの配備が実世界で強固なプライバシー保護を提供することを保証するために、差分プライバシー保証の標準を構築するための第一歩となることを意図している。特に、差分プライバシー保証の標準は、本書で述べられているすべてのプライバシーの危険に対処するパラメータ設定または解決策を規定すべきである。このような標準は、差分プライバシー保証とそれを提供するシステムを評価するツールの構築と、標準に適合するシステムの認証を可能にするだろう。差分プライバシー保証の認証は、これらの保証を非専門家にコミュニケーションするという課題を考えると、特に重要である。徹底した認証プロセスは、非専門家に対して、特定のシステムが強固な保証を提供するという重要なシグナルを、それらの保証の詳細を理解することなく提供することになる。 |
参考
● まるちゃんの情報セキュリティ気まぐれ日記
PETs
・2023.10.31 米国 人工知能の安全、安心、信頼できる開発と利用に関する大統領令
・2023.10.16 カナダ プライバシーコミッショナー 意見募集 バイオメトリクス指針案 (2023.10.11)
・2023.06.28 英国 ICO 金融、医療、研究、中央・地方政府で大規模な個人データセットを使用しているデータ保護担当者などを対象とした新しいPETsガイダンスを作成 (2023.06.19)
・2023.06.22 個人情報保護委員会 「第3回G7データ保護・プライバシー機関ラウンドテーブル会合」共同コミュニケ、生成AIに関する生命、行動計画
・2023.04.08 米国 プライバシーを保護した上でデータ共有と分析を推進する国家戦略 ・デジタル資産研究開発のための国家目標 (2023.03.29)
・2023.04.05 米国 政府による監視技術の使用に関する指導原則 権威主義的な政権に対抗するための民主主義を肯定する検閲防止技術を推進するための米国政府官民の呼びかけ (2023.03.30)
・2023.04.04
・2023.03.31 ENISA 「クラウド・サイバーセキュリティ市場分析 2023」と「サイバーセキュリティ市場分析手法の更新」
・2023.03.24 OECD 先進のプライバシー強化技術 - 現在の規制・政策アプローチ (2023.03.08)
・2023.01.26 英国王立学会 プライバシー向上技術 (PETs) (2023.01.23)
・2022.11.01 第44回 世界プライバシー会議 顔認識に関する決議
・2022.09.11 英国 ICO プライバシー強化技術に関するガイダンス案を発表
・2022.01.29 ENISA データ保護エンジニアリング
・2021.07.19 U.K. プライバシー強化技術:採用ガイド β版 by デジタル・文化・メディア・スポーツ省 データ倫理・イノベーションセンター
・2021.02.11 NIST NISTIR 8301 Blockchain Networks: Token Design and Management Overview(ブロックチェーンネットワーク:トークンのデザインと管理の概要)
・2020.10.16 World Economic Forumからサイバーセキュリティの報告書(Cyber Information Sharing: Building Collective Security)が出ていましたね。。。
少し古いですが...
・2010.07.27 London Economics "Study on the economic benefits of privacy-enhancing technologies (PETs) "
« 英国 議会 司法・内務委員会 警察によるライブ顔認識(LFR)の使用に関する短期調査 | Main | 経団連 IAASB公開草案 国際サステナビリティ保証基準 (ISSA) 5000「サステナビリティ保証業務の一般的要求事項」へのコメント (2023.12.01) »
Comments