« NIST NISTIR 8409 共通脆弱性評点システムの基礎評点の計算式の測定 (2022.11.15) | Main | NIST SP 800-160 Vol.1 Rev.1 信頼性の高い安全なシステムのエンジニアリング (2022.11.16) »

2022.11.20

NIST SP 800-188(ドラフト)政府データセットの非識別化(ドラフト第3版)(2022.11.15)

こんにちは、丸山満彦です。

NISTが、SP 800-188(ドラフト)政府データセットの非識別化(ドラフト第3版)を公表していますね。ドラフト第2版から、6年の時を経ての更新です。。。

差分プライバシーは今後ということで、非識別の話が中心のようです。。。

 

NIST - ITL

・2022.11.15 SP 800-188 (Draft) De-Identifying Government Data Sets (3rd Draft)

 

SP 800-188 (Draft) De-Identifying Government Data Sets (3rd Draft) SP 800-188(ドラフト)政府データセットの非識別化(ドラフト第3版)
Announcement 発表
De-identification removes identifying information from a data set so that the remaining data cannot be linked to specific individuals. Government agencies can use de-identification to reduce the privacy risks associated with collecting, processing, archiving, distributing, or publishing government data. Previously, NIST published NIST Internal Report (IR) 8053, De-Identification of Personal Information, which provided a survey of de-identification and re-identification techniques. This document provides specific guidance to government agencies that wish to use de-identification. 非識別化とは、データセットから識別情報を削除し、残りのデータを特定の個人にリンクできないようにすることである。政府機関は、識別情報の削除を利用して、政府データの収集、処理、保管、配布、または公開に関連するプライバシーリスクを軽減することができる。以前、NIST は NIST Internal Report (IR) 8053「個人情報の非識別化」を発行し、非識別化および再識別化技術の調査結果を提供した。本書は、非識別化を使用することを希望する政府機関に対する具体的なガイダンスを提供するものである。
Six years have passed since NIST released the second draft of SP 800-188. During this time, there have been significant developments in privacy technology, specifically in the theory and practice of differential privacy. While this draft reflects some of those advances, it remains focused on de-identification, as differential privacy is still not sufficiently mature to be used by many government agencies. Where appropriate, this document cautions users about the inherent limitations of de-identification when compared to formal privacy methods, such as differential privacy. NIST が SP 800-188 の第 2 ドラフトを発表してから 6 年が経過した。この間、プライバシー技術、特に差分プライバシーの理論と実践に大きな進展があった。このドラフトは、それらの進歩の一部を反映しているが、差分プライバシーが多くの政府機関によって使用されるにはまだ十分に成熟していないため、依然として非識別に焦点を合わせている。適切な場合、本書は、差分プライバシーなどの正式なプライバシー手法と比較した場合、非識別化の固有の限界についてユーザーに注意を促している。
Abstract 概要
De-identification is a process that is applied to a dataset with the goal of preventing or limiting informational risks to individuals, protected groups, and establishments while still allowing for meaningful statistical analysis. Government agencies can use de-identification to reduce the privacy risk associated with collecting, processing, archiving, distributing, or publishing government data. Previously, NISTIR 8053, De-Identification of Personal Information, provided a survey of de-identification and re-identification techniques. This document provides specific guidance to government agencies that wish to use de-identification. Before using de-identification, agencies should evaluate their goals for using de-identification and the potential risks that de-identification might create. Agencies should decide upon a de-identification release model, such as publishing de-identified data, publishing synthetic data based on identified data, or providing a query interface that incorporates de-identification. Agencies can create a Disclosure Review Board to oversee the process of de-identification. They can also adopt a de-identification standard with measurable performance levels and perform re-identification studies to gauge the risk associated with de-identification. Several specific techniques for de-identification are available, including de-identification by removing identifiers and transforming quasi-identifiers and the use of formal privacy models. People performing de-identification generally use special-purpose software tools to perform the data manipulation and calculate the likely risk of re-identification. However, not all tools that merely mask personal information provide sufficient functionality for performing de-identification. This document also includes an extensive list of references, a glossary, and a list of specific de-identification tools, which is only included to convey the range of tools currently available and is not intended to imply a recommendation or endorsement by NIST. 非識別化とは、個人、保護されたグループ、および事業体に対する情報リスクを防止または制限する一方で、意味のある統計分析を可能にすることを目的としてデータセットに適用されるプロセスである。政府機関は、政府データの収集、処理、アーカイブ、配布、または公開に関連するプライバシーリスクを低減するために、非識別化を使用することができる。以前、NISTIR 8053「個人情報の非識別化」では、非識別化および再識別化技術の調査結果を提供した。本書では、非識別化を使用することを希望する政府機関に対する具体的なガイダンスを提供する。非識別化を使用する前に、政府機関は非識別化の使用目的と非識別化によって生じる可能性のあるリスクを評価する必要がある。機関は、非識別化データの公開、識別されたデータに基づく合成データの公開、または非識別化を組み込んだクエリーインターフェースの提供など、非識別化公開モデルを決定する必要がある。機関は、非識別化プロセスを監督するための開示審査委員会(Disclosure Review Board)を設立することができる。また、測定可能なパフォーマンス・レベルを持つ非識別化標準を採用し、非識別化に関連するリスクを評価するために再識別化調査を実施することもできる。識別子の除去、準識別子の変換による識別解除、正式なプライバシーモデルの使用など、識別解除のためのいくつかの特定の技術が利用可能である。一般に、非識別化を行う人々は、データ操作を行い、再識別化の可能性が高いリスクを計算するために、特別な目的のソフトウェア・ツールを使用する。しかし、個人情報を単にマスクするだけのツールのすべてが、非識別化の実行に十分な機能を備えているわけではない。本書には、広範な参考文献のリスト、用語集、および特定の非識別化ツールのリストも含まれているが、これは現在利用可能なツールの範囲を伝えるためにのみ含まれており、NISTによる推奨または推奨を意味するものではない。

 

・[PDF] SP 800-188 (Draft)

20221120-51903_20221120052001

 

目次...

Executive Summary エグゼクティブサマリー
1. Introduction 1. はじめに
1.1. Document Purpose and Scope 1.1. 文書の目的および範囲
1.2. Intended Audience 1.2. 対象読者
1.3. Organization 1.3. 組織
2. Introducing De-Identifcation 2. 非識別化技術の導入
2.1. Historical Context 2.1. 歴史的背景
2.2. Terminology 2.2. 用語解説
3. Governance and Management of Data De-Identifcation 3. データ非識別化のガバナンスと管理
3.1. Identifying Goals and Intended Uses of De-Identifcation 3.1. 識別解除の目的と用途の特定
3.2. Evaluating Risks that Arise from De-Identifed Data Releases 3.2. 非識別加工されたデータの公開によって生じるリスクの評価
3.2.1. Probability of Re-Identifcation 3.2.1. 再識別の確率
3.2.2. Adverse Impacts of Re-Identifcation 3.2.2. 再識別による悪影響
3.2.3. Impacts Other Than Re-Identifcation 3.2.3. 再識別以外の影響
3.2.4. Remediation 3.2.4. 修復
3.3. Data Life Cycle 3.3. データのライフサイクル
3.4. Data-Sharing Models 3.4. データ共有モデル
3.5. The Five Safes 3.5. 5つの安全
3.6. Disclosure Review Boards 3.6. 開示審査委員会
3.7. De-Identifcation Standards 3.7. 非識別化基準
3.7.1. Benefts of Standards 3.7.1. 標準のメリット
3.7.2. Prescriptive De-Identifcation Standards 3.7.2. 規範的非識別化標準
3.7.3. Performance-Based De-Identifcation Standards 3.7.3. パフォーマンスベースの非識別化標準
3.8. Education, Training, and Research 3.8. 教育、トレーニング、及び研究
3.9. Defense in Depth 3.9. 多重防御
3.9.1. Encryption and Access Control 3.9.1. 暗号化とアクセス制御
3.9.2. Secure Computation 3.9.2. 安全な計算
3.9.3. Trusted Execution Environments 3.9.3. 信頼された実行環境
3.9.4. Physical Enclaves 3.9.4. 物理的領域
4. Technical Steps for Data De-Identifcation 4. データ非識別化のための技術的ステップ
4.1. Determine the Privacy, Data Usability, and Access Objectives 4.1. プライバシー、データの使いやすさ、アクセスの目的の決定
4.2. Conducting a Data Survey 4.2. データ調査の実施
4.3. De-Identifcation by Removing Identifers and Transforming Quasi-Identifers 4.3. 識別子の削除と擬似識別子の変換による脱識別子化
4.3.1. Removing or Transforming of Direct Identifers 4.3.1. 直接識別子の除去または変換
4.3.2. Special Security Note Regarding the Encryption or Hashing of Direct Identifers 4.3.2. 直接識別子の暗号化またはハッシュ化に関する特別なセキュリティ上の注意点
4.3.3. De-Identifying Numeric Quasi-Identifers 4.3.3. 数的擬似識別子の非識別化
4.3.4. De-Identifying Dates 4.3.4. 日付の非識別化
4.3.5. De-Identifying Geographical Locations and Geolocation Data 4.3.5. 地理的位置と地理的位置データの非識別化
4.3.6. De-Identifying Genomic Information 4.3.6. ゲノム情報の非識別化
4.3.7. De-Identifying Text Narratives and Qualitative Information 4.3.7. テキストの語りと質的情報の非識別化
4.3.8. Challenges Posed by Aggregation Techniques 4.3.8. 集計技術がもたらす課題
4.3.9. Challenges Posed by High-Dimensional Data 4.3.9. 高次元データがもたらす課題
4.3.10. Challenges Posed by Linked Data 4.3.10. リンクデータの課題
4.3.11. Challenges Posed by Composition 4.3.11. 合成による課題
4.3.12. Potential Failures of De-Identifcation 4.3.12. 非識別化の潜在的な失敗
4.3.13. Post-Release Monitoring 4.3.13. リリース後のモニタリング
4.4. Synthetic Data 4.4. 合成データ
4.4.1. Partially Synthetic Data 4.4.1. 部分合成データ
4.4.2. Test Data 4.4.2. テストデータ
4.4.3. Fully Synthetic Data 4.4.3. 完全合成データ
4.4.4. Synthetic Data with Validation 4.4.4. 検証付き合成データ
4.4.5. Synthetic Data and Open Data Policy 4.4.5. 合成データとオープンデータポリシー
4.4.6. Creating a Synthetic Dataset with Diferential Privacy 4.4.6. 差分プライバシーを持つ合成データセットの作成
4.5. De-Identifying with an Interactive Query Interface 4.5. インタラクティブなクエリ・インターフェイスによる識別の解除
4.6. Validating a De-Identifed Dataset 4.6. 非識別化データセットの検証
4.6.1. Validating Data Usefulness 4.6.1. データの有用性の検証
4.6.2. Validating Privacy Protection 4.6.2. プライバシー保護の検証
4.6.3. Re-Identifcation Studies 4.6.3. 再認識のための調査
5. Software Requirements, Evaluation, and Validation 5. ソフトウェア要件、評価、検証
5.1. Evaluating Privacy-Preserving Techniques 5.1. プライバシー保護技術の評価
5.2. De-Identifcation Tools 5.2. 個人認証解除ツール
5.2.1. De-Identifcation Tool Features 5.2.1. 身元確認ツールの特徴
5.2.2. Data Provenance and File Formats 5.2.2. データプロベナンスとファイルフォーマット
5.2.3. Data Masking Tools 5.2.3. データマスキングツール
5.3. Evaluating De-Identifcation Software 5.3. 非識別化ソフトウェアの評価
5.4. Evaluating Data Accuracy 5.4. データ精度の評価
6. Conclusion 6. まとめ
References 参考文献
Appendix A. Standards 附属書A. 標準
A.1. NIST Publications A.1. NISTの出版物
A.2. Other U.S. Government Publications A.2. その他の米国政府出版物
Selected Publications by Other Governments その他の政府出版物(抜粋
Reports and Books レポートと書籍
How-To Articles ハウツー記事
Appendix B. List of Symbols, Abbreviations, and Acronyms 附属書B. 記号、略語、頭字語のリスト
Appendix C. Glossary 附属書C. 用語集

 

エグゼクティブサマリー...

Executive Summary  エグゼクティブサマリー 
Every federal agency creates and maintains internal datasets that are vital for fulflling its mission. The Foundation for Evidence-based Policymaking Act of 2018 [2] mandates that agencies also collect and publish their government data in open, machine-readable formats, when it is appropriate to do so. Agencies can use de-identifcation to make government datasets available while protecting the privacy of the individuals whose data are contained within those datasets.  すべての連邦政府機関は、その使命を果たすために不可欠な内部データセットを作成し、維持している。2018年のFoundation for Evidence-based Policymaking Act [2]は、政府機関も、そうすることが適切な場合、政府データをオープンな機械可読形式で収集し、公開することを義務付けている。政府機関は、データセットに含まれる個人のプライバシーを保護しながら、政府データセットを利用できるようにするために、個人識別情報の削除を使用することができる。
Many Government documents use the phrase personally identifable information (PII) to describe private information that can be linked to an individual [62, 79], although there are a variety of defnitions for PII. As a result, it is possible to have information that singles out individuals but that does not meet a specifc defnition of PII. This document therefore presents ways of removing or altering information that can identify individuals that go beyond merely removing PII.  多くの政府文書では、個人にリンクできる個人情報を記述するために個人識別情報(PII) という語句が使用されているが[62, 79]、PIIにはさまざまな定義がある。その結果、個人を特定できる情報であっても、PIIの明確な定義に当てはまらない場合もあり得る。そこで、本書では、単なるPIIの削除にとどまらず、個人を特定できる情報を削除・変更する方法を提示する。
For decades, de-identifcation based on simply removing of identifying information was thought to be suffcient to prevent the re-identifcation of individuals in large datasets. Since the mid 1990s, a growing body of research has demonstrated the reverse, resulting in new privacy attacks capable of re-identifying individuals in “de-identifed” data releases. For several years the goals of such attacks appeared to be the embarrassment of the publishing agency and achieving academic distinction for the privacy researcher [50]. More recently, as high-resolution de-identifed geolocation data has become commercially available, reidentifcation techniques have been used by journalists and activists [100, 140, 70] with the goal of learning confdential information.  何十年もの間、大規模なデータセットにおける個人の再識別を防ぐには、単に識別情報を除去することに基づく識別排除で十分であると考えられてきた。しかし、1990年代半ばから、その逆で、「非識別化」されたデータから個人を再識別することが可能な新たなプライバシー攻撃が出現していることが、多くの研究によって明らかにされている。数年間、このような攻撃の目的は、出版社を困らせることと、プライバシー研究者の学術的な栄誉を獲得することであったように思われる[50]。より最近では、高解像度の非識別化されたジオロケーションデータが商業的に利用可能になったため、再識別化技術がジャーナリストや活動家によって、機密情報を知る目的で使用されている[100, 140, 70]。
These attacks have become more sophisticated in recent years with the availability of geolocation data, highlighting the defciencies in traditional Formal models of privacy, like k-anonymity [122] and differential privacy, [39] use mathematically rigorous approaches that are designed to allow for the controlled use of confdential data while minimizing the privacy loss suffered by the data subjects. Because there is an inherent trade-off between the accuracy of published data and the amount of privacy protection afforded to data subjects, most formal methods have some kind of parameter that can be adjusted to control the “privacy cost” of a particular data release. Informally, a data release with a low privacy cost causes little additional privacy risk to the participants, while a higher privacy cost results in more privacy risk. When they are available, formal privacy methods shoudl be preferred over informal, ad hoc methods.  これらの攻撃は近年ジオロケーションデータが利用可能になるにつれてより巧妙になり、k-匿名性[122]や差分プライバシー[39]などの従来の形式のプライバシーモデルの欠点を浮き彫りにしている。このモデルは、データ対象が被るプライバシー損失を最小限に抑えながら機密データの利用を制御できるように設計された数学的に厳密なアプローチである。公表されるデータの正確さとデータ対象者に与えられるプライバシー保護の量との間には本質的なトレードオフがあるため、ほとんどの形式的手法は、特定のデータ公表の「プライバシーコスト」を制御するために調整できるある種のパラメータを備えている。非公式には、プライバシーコストが低いデータ公開は参加者に追加のプライバシーリスクをほとんど与えず、逆にプライバシーコストが高い場合はプライバシーリスクが高くなる。利用可能な場合は、非公式のその場しのぎの方法よりも正式なプライバシー保護方法が好まれるはずである。
Decisions and practices regarding the de-identifcation and release of government data can be integral to the mission and proper functioning of a government agency. As such, an agency’s leadership should manage these activities in a way that assures performance and results in a manner that is consistent with the agency’s mission and legal authority. One way that agencies can manage this risk is by creating a formal Disclosure Review Board (DRB) that consists of legal and technical privacy experts, stakeholders within the organization, and representatives of the organization’s leadership. The DRB evaluated applications for data release that describe the confdential data, the techniques that will be used to minimize the risk of disclosure, the resulting protected data, and how the effectiveness of those techniques will be evaluated.  政府データの非識別化および公開に関する意思決定および慣行は、政府機関の使命および適切な機能にとって不可欠なものである場合がある。そのため、機関の指導者は、機関の使命および法的権限と一致する方法で、パフォーマンスと結果を保証する方法でこれらの活動を管理する必要がある。政府機関がこのリスクを管理する方法の一つは、法律および技術的なプライバシーの専門家、組織内の利害関係者、および組織の指導者の代表からなる正式な開示審査委員会(DRB)を設置することである。DRBは、機密データ、開示のリスクを最小化するために使用される技術、結果として得られる保護データ、およびこれらの技術の有効性を評価する方法について記述したデータ開示申請書を評価する。
Establishing a DRB may seem like an expensive and complicated administrative undertaking for some agencies. However, a properly constituted DRB and the development of consistent procedures regarding data release should enable agencies to lower the risks associated with each data release, which is likely to save agency resources in the long term.  DRBを設立することは、機関によっては高価で複雑な管理業務に思えるかもしれません。しかし、適切に構成されたDRBとデータ公開に関する一貫した手順の開発により、各データ公開に関連するリスクを低減することができ、長期的には機関のリソースを節約できる可能性が高くなるはずである。
Agencies can create or adopt standards to guide those performing de-identifcation, and regarding regarding the accuracy of de-identifed data. If accuracy goals exist, then techniques such as differential privacy can be used to make the data suffciently accurate for the intended purpose but not unnecessarily more accurate, which can limit the amount of privacy loss. However, agencies must carefully choose and implement accuracy requirements.  機関は、非識別化を行う人、および非識別化データの精度に関するガイドとなる基準を作成または採用することができる。正確さの目標がある場合、差分プライバシーなどの技術を使用して、意図された目的に対して十分な正確さを持ちながら、不必要に正確さを上げないようにデータを作成し、プライバシー損失の量を制限することができる。しかし、機関は精度要件を慎重に選択し、実施しなければならない。
If data accuracy and privacy goals cannot be well-maintained, then releases of data that are not suffciently accurate can result in incorrect scientifc conclusions and policy decisions.  データの正確さとプライバシーの目標が十分に維持できない場合、十分に正確でないデータを公開すると、科学的な結論や政策決定が不正確になる可能性がある。
Agencies should consider performing de-identifcation with trained individuals using software specifcally designed for the purpose. While it is possible to perform de-identifcation with off-the-shelf software like a commercial spreadsheet or fnancial planning program, such programs typically lack the key functions required for proper de-identifcation. As a result, they may encourage the use of simplistic de-identifcation methods, such as deleting sensitive columns and manually searching and removing data that appears sensitive. This may result in a dataset that appears de-identifed but that still contain signifcant disclosure risks.  機関は、訓練を受けた個人が、この目的のために特別に設計されたソフトウェアを使用して、識別情報の除去を行うことを検討すべきである。市販のスプレッドシートや財務計画プログラムのような市販のソフトウェアで個人識別情報の除去を行うことは可能ですが、そのようなプログラムには一般的に適切な個人識別情報の除去に必要な主要機能が欠けている。その結果、機密性の高い列を削除したり、機密性が高いと思われるデータを手作業で検索して削除するなど、単純化された個人識別情報の除去方法の使用が推奨される場合がある。その結果、一見個人を特定できないように見えるデータセットであっても、重大な開示リスクを含んでいる可能性がある。
Finally, different countries have different standards and policies regarding the defnition and use of de-identifed data. Information that is regarded as de-identifed in one jurisdiction may be regarded as being identifable in another.   最後に、国によって、非識別化データの定義と使用に関する基準や方針は異なる。ある法域で非識別化されたとみなされる情報が、別の法域では識別可能であるとみなされることがある。 

 

 

|

« NIST NISTIR 8409 共通脆弱性評点システムの基礎評点の計算式の測定 (2022.11.15) | Main | NIST SP 800-160 Vol.1 Rev.1 信頼性の高い安全なシステムのエンジニアリング (2022.11.16) »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« NIST NISTIR 8409 共通脆弱性評点システムの基礎評点の計算式の測定 (2022.11.15) | Main | NIST SP 800-160 Vol.1 Rev.1 信頼性の高い安全なシステムのエンジニアリング (2022.11.16) »