« APEC デジタルアジェンダ関係 | Main | NIST SP 800-221 情報通信技術リスクのエンタープライズへの影響:エンタープライズリスクポートフォリオにおけるICTリスクプログラムのガバナンスとマネジメント, NIST SP 800-221A 情報通信技術(ICT)リスクの成果: ICTリスクマネジメントプログラムとエンタープライズリスクポートフォリオの統合 »

2023.11.20

NIST 意見募集 IR8496 NIST IR 8496(初公開ドラフト) データ収集改善のためのデータ格付の概念と考察

こんにちは、丸山満彦です。

組織が情報セキュリティ対策を検討する際に、初期段階では守るべき情報資産の識別 (identify) とその格付け (classification) が重要となるのですが、面倒なので、多くの組織では十分できていないことが多いですよね。。。

格付けの概念は理解できるが、実務上するのは本当に面倒ですよね。。。今まで適当にしてお茶を濁してきていたのですが、経済安全保障関係でクリアランス制度なんかが検討され、場合によっては民間人にも刑事罰?までつこうとしているのであれば、情報資産の識別と格付けは避けては通れなくなるので、面倒ですがやらないといけなくなりますよね。。。

ちなみに日本でも、特定秘密保護法ではすでに実施されていて、その管理の概要は内閣官房のウェブページに公表されていますね。。。

● 内閣官房 - 内閣情報調査室 - 特定秘密保護法関連

特定秘密の指定及びその解除並びに適性評価の実施の状況に関する報告

各行政機関における特定秘密の指定状況等について

 

さて、このIRは米国連邦政府用ですが、その他組織でも参考になりますよね。。。

 

● NIST - NNCoE

・2023.11.15 NCCoE Releases Draft NIST IR 8496 for Data Classification

NIST- ITL

・2023.11.15 NIST IR 8496 (Initial Public Draft) Data Classification Concepts and Considerations for Improving Data Collection

NIST IR 8496 (Initial Public Draft) Data Classification Concepts and Considerations for Improving Data Collection NIST IR 8496(初公開ドラフト) データ収集改善のためのデータ格付の概念と考察
Announcement 発表
Data classification is the process an organization uses to characterize its data assets using persistent labels so those assets can be managed properly. Data classification is vital for protecting an organization’s data at scale because it enables application of cybersecurity and privacy protection requirements to the organization’s data assets. This publication defines basic terminology and explains fundamental concepts in data classification so there is a common language for all to use. It can also help organizations improve the quality and efficiency of their data protection approaches by becoming more aware of data classification considerations and taking them into account in business and mission use cases, such as secure data sharing, compliance reporting and monitoring, zero-trust architecture, and large language models. データ分類とは、組織が永続的なラベルを使用してデータ資産を特徴付け、それらの資産を適切に管理できるようにするプロセスである。データ格付は、組織のデータ資産にサイバーセキュリティとプライバシー保護の要件を適用することを可能にするため、組織のデータを大規模に保護するために不可欠である。本書は、基本的な用語を定義し、データ格付の基本的な概念を説明することで、すべての人が使用できる共通言語を提供する。また、安全なデータ共有、コンプライアンス・レポーティングとモニタリング、ゼロトラスト・アーキテクチャ、大規模言語モデルなどのビジネスやミッションのユースケースにおいて、データ分類の考慮事項をより深く理解し、それらを考慮に入れることで、組織がデータ保護アプローチの質と効率を改善するのにも役立つ。
Abstract 概要
...  (発表と同じなので省略)

 

・[PDF] IR.8496.ipd

20231120-42849

 

 

目次...

1.  Introduction 1.  序文
1.1.  Purpose and Scope 1.1.  目的と範囲
1.2.  Publication Structure 1.2.  出版構成
2.  Background 2.  背景
2.1.  Data Lifecycle 2.1.  データのライフサイクル
2.2.  Structured, Unstructured, and Semi-Structured Data 2.2.  構造化データ、非構造化データ、半構造化データ
2.3.  Data Governance and Data Management 2.3.  データガバナンスとデータ管理
3.  Data Classification Functions 3.  データ格付機能
3.1.  Defining the Data Classification Policy 3.1.  データ格付方針の定義
3.2.  Identifying Data Assets to Classify 3.2.  分類すべきデータ資産の識別
3.3.  Determining Data Classifications for Data Assets 3.3.  データ資産のデータ格付の決定
3.4.  Labeling Data Assets 3.4.  データ資産にラベルを付ける
3.5.  Monitoring Data Assets 3.5.  データ資産の監視
References 参考文献
Appendix A. List of Symbols, Abbreviations, and Acronyms 附属書A. 記号、略語、頭字語のリスト
Appendix B. Glossary 附属書B. 用語集

 

本文...

1. Introduction  1. 序文 
Data are “a representation of information, including digital and non-digital formats.” [NISTPF] A data asset is “an information-based resource” such as a database, document, webpage, or service. [CNSSI4009] This publication uses the term “data asset” throughout to indicate the relative importance of specific data resources, as opposed to data in general. Metadata are information regarding the context of a specific data asset, like who or what created the data asset (i.e., data provenance) and when and where the data asset was collected.   データとは「情報の表現であり、デジタル及び非デジタル形式を含む。[NISTPF] データ資産とは、データベース、文書、ウェブページ、サービスなどの「情報ベースのリソース」である。[CNSSI4009] 本書では、データ全般ではなく、特定のデータリソースの相対的な重要性を示すために、全体を通して「データ資産」という用語を使用する。メタデータとは、特定のデータ資産のコンテキストに関する情報であり、誰が、または何がデータ資産を作成したのか(すなわち、データの出所)、データ資産はいつ、どこで収集されたのか、などである。 
Data classification is the process an organization uses to characterize its data assets using persistent labels so those assets can be managed properly. Examples of possible data classifications include “protected health information (PHI),” “personally identifiable information (PII),” and “financial records.” Applying data classification practices can benefit organizations in:   データ格付とは、組織がデータ資産を適切に管理できるように、永続的なラベルを使用してデータ資産を特徴付けるプロセスである。データ格付の例としては、"保護された医療情報(PHI)"、"個人を特定できる情報(PII)"、"財務記録 "などがある。データ格付の適用により、組織には次のようなメリットがある:  
• enabling application of cybersecurity and privacy protection requirements to the organization’s data assets;  ・組織のデータ資産にサイバーセキュリティとプライバシー保護の要件を適用できるようにする; 
• securely sharing data assets with partners, contractors, and other organizations;  ・データ資産をパートナー、請負業者、その他の組織と安全に共有する; 
• knowing which requirements from laws, regulations, contracts, and other sources apply to a particular data asset;  ・法律、規制、契約、その他の情報源から、どの要件が特定のデータ資産に適用されるかを把握する; 
• maintaining awareness of data assets and the criticality of each asset, which supports implementation of zero-trust architectures and other cybersecurity and privacy technologies;  ・データ資産と各資産の重要性に関する認識を維持し、ゼロトラストアーキテクチャやその他のサイバーセキュリティおよびプライバシー技術の実装を支援する; 
• enforcing restrictions on access to and transfer of an organization’s intellectual property;  ・組織の知的財産へのアクセスと移転の制限を実施する; 
• capturing metadata about the source of data assets consumed by generative artificial intelligence (AI) technologies (e.g., large language models [LLMs]); and  ・生成的人工知能(AI)技術(大規模言語モデル[LLM]など)によって消費されるデータ資産のソースに関するメタデータを取得する。
• identifying and recording metadata for data assets when that metadata might not be needed today but will be needed in the future; an example is for post-quantum readiness and migration planning.  ・データ資産のメタデータを特定し,記録する。そのメタデータが現在は必要ないかもしれないが,将来必要になる場合。
1.1.  Purpose and Scope  1.1.  目的と範囲 
This publication has two purposes. First, it defines basic terminology and explains fundamental concepts in data classification so there is a common language for all to use, thus alleviating existing confusion and ambiguity regarding what particular terms mean. Second, this publication can help organizations improve the quality and efficiency of their data protection approaches by becoming more aware of data classification considerations and taking them into account in business and mission use cases.   本書には2つの目的がある。第一に、基本的な用語を定義し、データ格付の基本的な概念を説明することで、すべての人が使用できる共通言語を確立し、特定の用語の意味するところに関する既存の混乱や曖昧さを緩和することである。第二に、本書は、組織がデータ格付を意識し、ビジネスやミッションのユースケースにおいてデータ格付を考慮することにより、データ保護アプローチの質と効率を向上させるのに役立つ。 
This publication’s terms and concepts will be used throughout the NCCoE’s Special Publication (SP) 1800-39, Implementing Data Classification Practices series of practice guides [SP1800-39], and will also be used by other NIST efforts, including the NCCoE’s Data Security and Zero Trust Architecture projects. This publication also may inform future versions of NIST SP 800-60, Guide for Mapping Types of Information and Information Systems to Security Categories [SP800-60], as well as help organizations with adopting the NIST Cybersecurity Framework [NISTCSF], the NIST Privacy Framework [NISTPF], and other NIST frameworks and guidance.   本書の用語と概念は、NCCoEの特別刊行物(SP)1800-39「データ格付の実施」シリーズの実践ガイド[SP1800-39]全体で使用されるほか、NCCoEのデータセキュリティやゼロトラストアーキテクチャプロジェクトなど、NISTの他の取り組みでも使用される予定である。本書はまた、NIST SP 800-60「情報と情報システムの種類をセキュリティカテゴリーにマッピングするためのガイド」[SP800-60]の将来のバージョンに情報を提供するだけでなく、NISTサイバーセキュリティフレームワーク[NISTCSF]、NISTプライバシーフレームワーク[NISTPF]、その他のNISTフレームワークやガイダンスを組織が採用する際にも役立つ可能性がある。
The scope of this publication is data classification considerations to enable data protection. Details of how technologies enforce data protection requirements are out of scope for this publication.  本書の対象範囲は、データ保護を可能にするためのデータ格付の検討である。データ保護要件を強制する技術の詳細については、本書の対象外である。
This publication applies to any data classifications and data classification schemes that organizations may use, not just those used by the U.S. government or military.  本書は、米国政府や軍で使用されているものだけでなく、組織が使用するあらゆるデータ格付およびデータ分類スキームに適用される。
1.2.  Publication Structure  1.2.  出版物の構成 
The rest of this publication is comprised of the following sections and appendices:  本書の残りの部分は以下のセクションと附属書で構成されている: 
• Section 2 provides background information on the data lifecycle, data governance and management, and types of data.  ・セクション2では,データライフサイクル,データガバナンスと管理,データの種類に関する背景情 報を提供する。
• Section 3 describes the primary practices involved in data classification and discusses considerations that organizations should take into account for their data classification practices.  ・セクション3では,データ格付に関わる主な慣行について説明し,組織がデータ格付を行う際に考慮すべき点について論じている。
• The References section lists the references cited throughout the publication.  ・参考文献の項では,本書の中で引用されている参考文献を列挙している。
• Appendix A lists the acronyms used in the publication.  ・附属書Aは本書で使用されている略語の一覧である。
• Appendix B provides a glossary with definitions of selected terms from the publication.  ・附属書Bは,本書で使用した用語の定義を示した用語集である。
2. Background   2. 背景  
This section defines basic terminology and explains fundamental concepts from data governance and data management as background for understanding the data classification practices and considerations explained in Section 3.  この章では基本的な用語を定義し、データガバナンスとデータマネジメントの基本的な概念を説 明する。
2.1.  Data Lifecycle  2.1.  データライフサイクル 
An organization manages its data assets through the data lifecycle. There are many valid data lifecycles that originate from different technical practices. This publication describes a simple lifecycle that focuses on those high-level phases important to data classification: Identify, Use, Maintain, and Dispose. Not all data lifecycle phases occur for every data asset.  組織はデータライフサイクルを通じてデータ資産を管理する。様々な技術的慣行に由来する多くの有効なデータライフサイクルがある。本書では、データ格付に重要なハイレベルのフェーズに焦点を当てた単純なライフサイクルを説明する: 識別、使用、維持、廃棄である。すべてのデータ資産ですべてのデータ・ライフサイクル・フェーズが発生するわけではない。
• Identify: The organization identifies data assets. Section 3.2 contains more information on methods for identifying data assets.   ・識別する: 組織はデータ資産を識別する。セクション3.2にデータ資産の識別方法の詳細が記載されている。
• Use: The organization accesses, views, shares, and modifies part or all of a data asset. As part of use, new data assets may be created by the aggregation (multiple assets joined into one) or disaggregation (one data asset broken into multiple assets) of existing data assets. Data assets may also be repurposed (i.e., used for a different reason or in a different way than originally intended).  ・使用:組織はデータ資産の一部または全部にアクセスし、閲覧し、共有し、変更する。使用の一環として、既存のデータ資産を集約(複数の資産を1つに結合)または分割(1つのデータ資産を複数の資産に分割)することにより、新しいデータ資産が作成されることがある。また、データ資産が再利用されることもある(すなわち、当初の意図とは異なる理由または異なる方法で使用される)。
• Maintain: The organization preserves data assets over time. This may include converting a data asset to a different format or representation as technologies change so it will continue to be usable.  ・維持する: 組織はデータ資産を長期にわたって保全する。これには、技術の変化に応じてデータ資産を異なる形式や表現に変換し、引き続き使用できるようにすることが含まれる。
• Dispose: The organization disposes of data assets at the end of the data lifecycle. Data assets that are no longer needed are destroyed or otherwise disposed of to free resources and to prevent data from being accessed by unauthorized parties—for example, when storage media is disposed of.   ・廃棄: 組織は、データライフサイクルの終了時にデータ資産を廃棄する。例えば、記憶媒体を廃棄する場合などである。リソースを解放し、不正な第三者によるデータへのアクセスを防止するために、不要になったデータ資産は破棄またはその他の方法で処分する。
2.2.  Structured, Unstructured, and Semi-Structured Data  2.2.  構造化データ、非構造化データ、半構造化データ 
How a data asset is represented can be described in three broad categories: structured, semistructured, and unstructured. Each of these terms describes the degree to which a data asset conforms to a logical or physical data model—a specification for the elements of data contained within a data asset—within the context of a particular business domain.  データ資産の代表者は、構造化、半構造化、非構造化の3つのカテゴリーに大別できる。これらの用語はそれぞれ、データ資産が特定のビジネスドメインのコンテキストにおいて、論理的または物理的データモデル(データ資産に含まれるデータの要素の仕様)に適合する度合いを表す。
• Structured data follow a physical data model that describes in detail how the data are to be represented and how a representation should be interpreted. Structured data may be found in a database or other mechanism that clearly indicates what type of information each data field contains, like customer ID or part number. Structured data can be validated against the data model to ensure their meaningfulness.   ・構造化データは物理的データモデルに従う。物理的データモデルには,データがどのように表現され,表現がどのように解釈されるべきかが詳細に記述されている。構造化データは,顧客IDや部品番号のように,各データフィールドがどのような種類の情報を含んでいるかを明確に示すデータベースやその他の仕組みの中に見出すことができる。構造化データは,データモデルと照らし合わせて検証することで,その意味性を確認することができる。
• Semi-structured data describe their own data model (self-describing). Semi-structured data are expressed in formats like the Extensible Markup Language (XML) and JavaScript Object Notation (JSON) for sharing proprietary data sets, sensitive configurations parameters, and other information.   ・半構造化データは、それ自身のデータモデルを記述する(自己記述型)。半構造化データは、XML(Extensible Markup Language)やJSON(JavaScript Object Notation)のような形式で表現され、独自のデータセットや機密性の高い設定パラメータ、その他の情報を共有することができる。 
• Unstructured data do not follow a detailed data model that is meaningful to a business domain. Examples include documents and videos. Unstructured data might be stored in a specific format, such as a proprietary document format or a standards-based video format. For example, a video could show a patient’s medical procedure, people entering and exiting a facility, or a training course for new employees. A document with unstructured data not only could contain nearly any type of information, but it may also have other types of data embedded within it, such as graphics, videos, and other documents, each containing one or more other instances of data.   ・非構造化データは,ビジネス・ドメインにとって意味のある詳細なデータ・モデルに従っていない。例えば,文書やビデオなどがある。非構造化データは,独自の文書フォーマットや標準ベースのビデオフォーマットなど,特定のフォーマットで保存される場合がある。例えば,ビデオには患者の医療処置,施設に出入りする人々,新入社員向けのトレーニングコースなどを映すことができる。非構造化データを含む文書には,ほぼすべてのタイプの情報が含まれる可能性があるだけでなく,グラフィックス,ビデオ,その他の文書など,他のタイプのデータが埋め込まれている可能性もある。
2.3.  Data Governance and Data Management  2.3.  データガバナンスとデータ管理 
Data governance encompasses the actions an organization needs to perform to ensure that its data assets are managed properly. Aspects of data classification that are particularly important for data governance are defining the organization’s data classification policies and related data protection requirements, and determining how those policies should be implemented and enforced, including roles and responsibilities both within the organization and outside the organization.   データガバナンスは、データ資産が適切に管理されていることを保証するために組織が実行する必要のある行動を包含する。データガバナンスにとって特に重要なデータ格付の側面は、組織のデータ分類方針及び関連するデータ保護要件を定義すること、並びに、組織内外の役割及び責任を含め、それらの方針をどのように実施し執行すべきかを決定することである。 
Data management is the implementation and enforcement of the policies and practices resulting from data governance. Data management should occur for all data assets throughout the data lifecycle. Metadata are a form of data, so metadata also need to be managed. Although explaining data management in detail is outside the scope of this publication, some basic understanding of the following areas of data management is necessary in order to understand data classification’s role as part of data management:  データ管理は、データガバナンスの結果として得られた方針と実務の実施と実施である。データ管理は、データライフサイクル全体を通じて、すべてのデータ資産に対して行われる必要がある。メタデータもデータの一形態であるため、メタデータも管理する必要がある。データ管理について詳細に説明することは本書の範囲外であるが、データ管理の一部としてのデータ格付の役割を理解するためには、データ管理の以下の分野について基本的な理解が必要である: 
• Data definition: In order to manage a data asset, an organization first needs to define it. Data definition varies by data asset, but it usually includes identifying the applicable data type and data model, as well as collecting metadata regarding the origin, nature, purpose, and quality of the data asset (data cataloging). Data definition strives to gather sufficient information about a data asset so that the organization can ascertain its data classifications. The formality and rigor of data definition varies greatly among data assets, but it is typically related to whether the data asset is structured, semi-structured, or unstructured.  ・データの定義: データ定義: データ資産を管理するためには、組織はまずそれを定義する必要がある。データの定義:組織がデータ資産を管理するためには、まずそれを定義する必要がある。データの定義はデータ資産によって異なるが、通常は識別データタイプとデータモデルを特定することと、データ資産の起源、性質、目的、品質に関するメタデータを収集すること(データカタログ化)が含まれる。データ定義は、組織がデータ格付を確認できるように、データ資産に関する十分な情報を収集することに努める。データ定義の形式と厳密さはデータ資産によって大きく異なるが、一般的にはデータ資産が構造化、半構造化、非構造化のいずれであるかに関係する。
• Data classification: The data classifications for a data asset are selected and assigned based on one or more of the following: its data definition, its catalogued metadata, and review or analysis of its contents. Section 3 discusses this topic in detail.  ・データ格付: データ資産のデータ格付は、そのデータ定義、カタログ化されたメタデータ、およびコンテンツのレビューまたは分析のうちの1つ以上に基づいて選択され、割り当てられる。セクション3ではこのトピックについて詳述する。
• Data protection: Once data classifications are assigned, the organization needs to enforce the data protection requirements associated with each of those classifications. These encompass all of the controls needed to protect each data asset in accordance with its classifications. An example is a data classification associated with requirements to encrypt the data asset when at rest or in transit, use a data integrity mechanism to detect tampering, allow access by members of a particular group only, and retain the data asset for at least two years from the date it was acquired.   ・データ保護: データ格付が割り当てられたら、組織は各分類に関連するデータ保護要件を実施する必要がある。これらの要件には、各データ資産をその分類に従って保護するために必要なすべての防御が含まれる。例えば、静止時または転送時にデータ資産を暗号化する、改ざんを検出するためにデータ完全性メカニズムを使用する、特定のグループのメンバーのみにアクセスを許可する、データ資産を取得日から少なくとも2年間保持する、といった要件に関連するデータ格付が挙げられる。
• Data monitoring: Data monitoring is needed to identify any changes to the data definition or the data asset itself that might necessitate changes to data classifications and/or data protection. Data monitoring can also identify lessons learned from real-world data classification and protection experiences that may improve data management.  ・データの監視: データモニタリングは,データ分類及び/又はデータ保護の変更が必要となるようなデータ定義又はデータ資産自体の変更を特定するために必要である。データモニタリングはまた,データ管理を改善する可能性のある,実際のデータ格付やデータ防御の経験から得られた教訓を特定することもできる。
3. Data Classification Functions  3. データ格付の機能 
The process of data classification includes the following functions:   データ格付のプロセスには以下の機能が含まれる:  
1. Define the organization’s data classification policy, which is the taxonomy of data asset types and the rules for identifying data assets of each type.  1. 組織のデータ格付方針を定義する。これはデータ資産タイプの分類法であり、各タイプのデータ資産を識別するためのルールである。
2. Identify the organization’s data assets to be classified.  2. 分類すべき組織のデータ資産を識別する。
3. Analyze the data assets and determine the appropriate data classifications for each.  3. データ資産を分析し、それぞれに適切なデータ格付を決定する。
4. Associate data classification labels with each data asset. (Once labels are assigned, the applicable cybersecurity and privacy requirements can be enforced for each data asset.)  4. データ分類ラベルを各データ資産に関連付ける。(ラベルが割り当てられると、各データ資産に適用されるサイバーセキュリティとプライバシーの要件を実施することができる)。
5. Monitor each data asset for changes that may necessitate updating its data classifications and/or the data classification policy.  5. データ分類および/またはデータ分類ポリシーの更新が必要となるような変更がないか、各データ資産を監視する。
This section provides more information on each of the functions, including considerations that organizations may choose to adopt. Taking these considerations into account can help organizations improve the quality and efficiency of their data classification implementations, which can have positive impacts throughout the data lifecycle.  このセクションでは、組織が採用することを選択できる考慮事項を含む、各機能の詳細について説明する。これらの考慮事項を考慮することで、組織はデータ分類の実施における品質と効率を改善することができ、データライフサイクル全体に好影響を与えることができる。
3.1.  Defining the Data Classification Policy  3.1.  データ格付方針の定義 
A data classification scheme is a taxonomy of all of an organization’s known data asset types. For example, part of a classification scheme might involve data classifications that characterize high-level business data types of a data asset—for instance, “vendor invoices,” “customer invoices,” “employee records,” etc. Data assets may also be classified based on source information, like “internally created,” “licensed data,” or “acquired data.” Additional data classifications could include geopolitical information about the data asset, e.g., “US person” or “EU entity”. With those three independent classifications applied to a data asset, the organization can then protect the data asset according to the requirements corresponding to its business data type, source, and geopolitical origin. When data are shared from one organization to another organization, the two organizations’ data classification schemes may need to be mapped to a common, shared taxonomy.  データ格付スキームは、組織の既知のデータ資産タイプすべてを分類したものである。例えば、データ分類スキームの一部には、データ資産のハイレベルなビジネス・データ・タイプを特徴付けるデータ分類が含まれるかもしれない-例えば、「ベンダーの請求書」、「顧客の請求書」、「従業員の記録」など。データ資産はまた、"内部で作成されたデータ"、"ライセンスされたデータ"、"取得したデータ "などのソース情報に基づいて分類することもできる。追加のデータ格付には、データ資産に関する地政学的情報、例えば "米国人 "や "EU事業体 "を含めることもできる。これら3つの独立したデータ格付をデータ資産に適用することで、組織はそのビジネスデータの種類、ソース、地理的起源に対応する要件に従ってデータ資産を保護することができる。ある組織から別の組織へデータを共有する場合、2つの組織のデータ格付スキームを共通の共有分類法にマッピングする必要がある。
A data classification policy is comprised of the data classification scheme and the formal description of the data types within an organization. It is used to enable identification of data types from a data asset. Classification policies can be expressed as digital policies to enable automated classification determinations. Organizations should define their data classification policies in such a way that all affected parties, including external parties who share or receive data assets, have a common understanding of them. Any ambiguity in these policies may cause errors and inconsistency in how data are classified and protected, which could increase the risk of compromises and compliance violations.   データ格付方針は、組織内のデータ分類スキームとデータ種別の正式な記述で構成される。データ分類ポリシーは、データ資産からデータタイプを識別するために使用される。分類方針は、自動化された分類決定を可能にするために、デジタルポリシーとして表現することができる。組織は、データ資産を共有したり受け取ったりする外部の関係者を含め、影響を受けるすべての関係者がデータ格付方針を共通理解できるように定義すべきである。これらのポリシーに曖昧さがあると、データの分類方法や保護方法に誤りや矛盾が生じ、防御やコンプライアンス違反のリスクが高まる可能性がある。 
The data classification scheme and policy do not directly indicate how the data assets must be protected; instead, each data classification is linked to a set of associated data protection requirements. Generally, a data asset must be protected in accordance with the consolidated requirements of all of its data classifications.  データ格付スキームとポリシーは、データ資産がどのように防御されなければならないかを直接示すものではない。一般に、データ資産はそのすべてのデータ格付の統合要件に従って保護されなければならない。
The specificity of a data classification scheme will determine the nuance afforded to developing data protection policies. For instance, classifying a data asset only as “sensitive data” typically does not provide enough information to identify all the data protection requirements for that data asset, since many types of data are considered sensitive. Classifying a data asset as “PHI” instead of “sensitive data” enables more fine-grained protection policies, such as preventing certain types of PHI from being sent to certain business partners. However, more specificity in the data classification scheme can make the process of classifying new or modified data more difficult or costly. An organization should balance the effort and costs of analyzing its data to determine classifications against the versatility it requires for protecting various types of data assets.  データ格付スキームの具体性によって、データ保護ポリシーの策定に与えられるニュアンスが決まる。例えば、データ資産を「センシティブ・データ」のみに分類しても、多くの種類のデータが センシティブとみなされるため、そのデータ資産に対するすべてのデータ保護要件を特定するには十 分な情報が得られないのが一般的である。データ資産を「機密データ」ではなく「PHI」に分類することで、特定のタイプのPHIを特定のビジ ネスパートナーに送信しないようにするなど、よりきめ細かな保護ポリシーが可能になる。しかし、データ格付スキームをより具体的にすることで、新規または変更されたデータの 分類プロセスがより困難になったり、コストが高くなったりする可能性がある。組織は、分類を決定するためのデータ分析の労力とコストと、様々なタイプのデータ資産を 保護するために必要な汎用性とのバランスをとるべきである。
In most situations, three groups of people need to work together to ensure the data assets are properly protected:  多くの場合、データ資産を適切に防御するためには、3つのグループが協力する必要がある: 
• The data asset’s business owner understands the origin, nature, and purpose of the data asset and its importance to the organization’s mission. The business owner is key for determining the data classifications.  ・データ資産のビジネスオーナーは,データ資産の起源,性質,目的,組織のミッションに対する重要性を理解している。ビジネスオーナーは,データ格付を決定する鍵となる。
• The compliance staff understands the legal and regulatory requirements for protecting data assets associated with each of the organization’s data classifications. Compliance staff also perform auditing and reporting to ensure and document adherence to those requirements.  ・コンプライアンス担当者は,組織の各データ格付に関連するデータ資産を防御するための法的及び規制上の要件を理解している。コンプライアンス・スタッフは,これらの要件の遵守を確認し文書化するための監査と報告も行う。
• The technology owners understand the technology that houses, interacts with, and safeguards the data asset throughout the data lifecycle. Cybersecurity and privacy professionals, system administrators, and others acting on behalf of technology owners are responsible for implementation and enforcement of the requirements for protecting data assets based on the assets’ data classifications.  ・テクノロジー・オーナーは,データ・ライフサイクルを通じてデータ資産を収容し,データ資産と相互作用し,データ資産を保護するテクノロジーを理解する。サイバーセキュリティとプライバシーの専門家,システム管理者,およびテクノロジー所有者の代理を務めるその他の者は,資産のデータ格付に基づいてデータ資産を保護するための要件の実装と実施に責任を負う。
Cybersecurity, privacy, compliance, and business requirements should all be addressed holistically in the data classification definitions and policies. Personnel from each of these areas should be involved in developing, reviewing, and updating the definitions and policies.  サイバーセキュリティ、プライバシー、コンプライアンス、およびビジネス要件はすべて、データ格付の定義とポリシーの中で総合的に扱われるべきである。これらの各分野の担当者は、定義とポリシーの策定、レビュー、更新に関与する必要がある。
Generally, data classifications and classification schemes should be defined separately from data protection requirements. The protection requirements for any particular data asset are highly likely to change over time, while the data classifications themselves tend to be static. For example, the text of laws defining what PHI is does not change, but the technologies that house PHI and the cybersecurity and privacy controls that protect PHI may change over time.   一般に、データ格付と分類スキームはデータ保護要件とは別に定義されるべきである。特定のデータ資産に対する保護要件は時間の経過とともに変化する可能性が高いが、 データ格付自体は固定的である傾向がある。例えば、PHI が何であるかを定義する法律の条文は変化しないが、PHI を収容する技術、PHI を保護するサイバーセキュリティとプライバシー管理は時とともに変化する可能性がある。 
Data classification policies should be monitored and auditable, and changes to the policies should be controlled to prevent unauthorized changes to the data classification definitions or assignments. Access, especially modifications, to policy stores should be logged so organizations can verify and validate the effective state of their data classification processes at any time. Also, the data classification policies and protection requirements should each be versioned. Over time, version information will allow individuals and automated systems to quickly and reliably identify stale or obsolete classification information and take appropriate actions such as flagging the discrepancy or requesting updated information.  データ格付ポリシーは監視され、監査可能であるべきであり、ポリシーの変更は、データ分類の 定義や割り当てが不正に変更されないように管理されるべきである。組織がデータ分類プロセスの有効な状態をいつでも検証し、妥当性を確認できるように、ポリシ ーストアへのアクセス(特に変更)はログに記録されるべきである。また、データ格付ポリシーと保護要件はそれぞれバージョン管理されるべきである。バージョン情報によって、個人および自動化システムは、古くなった分類情報または陳腐化した分類情報を迅速かつ確実に識別し、矛盾にフラグを立てたり、更新情報を要求したりするなどの適切な措置をとることができるようになる。
3.2.  Identifying Data Assets to Classify   3.2.  分類すべきデータ資産の識別  
A data asset is identified as needing classification when activities such as the following take place:  データ資産は、以下のような活動が行われたときに、分類が必要であると識別される: 
• Creating: Data assets are identified as part of their creation process. Examples include an employee entering a customer’s personal information into an application, a process automatically producing new data by analyzing existing data, or a sensor capturing measurements of environmental characteristics (e.g., temperature).  ・作成する: データ資産は、その作成プロセスの一部として識別される。例えば、従業員が顧客の個人情報をアプリケーションに入力すること、既存のデータを分析して新しいデータを自動的に生成するプロセス、環境特性(温度など)の測定値を取得するセンサーなどがある。
• Discovering: Existing data assets within an organization that have not been classified are located. Discovery searches an organization’s technology assets such as desktop workstations, servers, and cloud services for data. An example is an employee having written a new ad hoc document.  ・発見する: 分類されていない組織内の既存のデータ資産を探し出す。発見では,デスクトップ・ワークステーション,サーバー,クラウド・サービスなど,組織のテクノロジー資産からデータを探し出す。例としては,従業員が新しいアドホック文書を書いたことが挙げられる。
• Importing: An external organization’s data assets are identified within the organization. It is responsible for ensuring an organization’s commitments for managing and protecting data assets belonging to external organizations are met. An example is a business partner providing a copy of one of its databases for the organization to use.  ・インポート: 外部組織のデータ資産を組織内で識別する。外部組織に属するデータ資産を管理・保護するための組織の防御が確実に満たされるようにする責任がある。例えば,ビジネスパートナーが,組織で使用するためにデータベースのコピーを提供するような場合である。
An organization’s business processes should take all these means into account so that all data assets are classified promptly and appropriately.  組織のビジネスプロセスは、全てのデータ資産が迅速かつ適切に分類されるように、これら全ての手段を考慮に入れるべきである。
Data assets should be classified as close to the time of their creation, discovery, or importation as possible. One reason for this is to support properly protecting the data as soon as possible. Another reason is that capturing the original metadata for a data asset may be particularly helpful in providing context and transparency vital for assigning data classifications. The later the metadata are collected, the less helpful they will generally be for data classification purposes, both now and in the future. For example, a new classification need, like a new regulation or a change to an existing regulation, may require analyzing existing data assets to determine if the new data classification applies to them. Having more metadata on hand may make this analysis easier and more accurate.  データ資産は、その作成、発見、またはインポート時にできるだけ近い時点で分類されるべきである。その理由の一つは、できるだけ早くデータを適切に防御するためである。もう一つの理由は、データ分類に不可欠なコンテキストと透明性を提供する上で、データ資産のオリジナルのメタデータを収集することが特に役立つ可能性があるからである。メタデータの収集が遅れれば遅れるほど、現在も将来もデータ分類の目的には役に立たなくなるのが一般的である。例えば、新しい規制や既存の規制の変更のような新しい分類の必要性が生じた場合、新しいデータ分類が適用されるかどうかを判断するために既存のデータ資産を分析する必要があるかもしれない。より多くのメタデータが手元にあれば、この分析がより簡単に、より正確になるかもしれない。
When data assets are identified, an organization may need to revise its data classification policy to fully address the assets. Even information of the same type that is found may be structured differently in newly found data sets. The tools used to analyze and label data assets may also need to be updated to properly classify these data assets in the future.  データ資産が特定された場合、組織はその資産に完全に対応するためにデータ格付方針を改訂する必要があるかもしれない。同じ種類の情報であっても、新たに発見されたデータセットでは異なる構造になっていることがある。データ資産を分析しラベル付けするために使用するツールも、将来これらのデータ資産を適切に分類するために更新する必要があるかもしれない。
Data assets imported from another organization should usually be re-classified, even if that organization provided their classification information. The data may have been misclassified by that organization, or your organization may be subject to additional requirements. The act of sharing the data may itself introduce additional requirements. At this time, many industries lack standards for classifying data cross-organization or cross-sector. Moreover, there is limited interoperability among technologies for data classifications. These limitations alone are likely to necessitate the re-classification of imported data so that the organization can ensure the appropriate protection of received data.   他の組織からインポートされたデータ資産は、たとえその組織が分類情報を提供していたとしても、通常は再分類する必要がある。データがその組織によって誤って分類されている可能性もあるし、あなたの組織が追加要件の対象になっている可能性もある。データを共有するという行為自体が、追加要件をもたらすかもしれない。現時点では、多くの業界で、組織やセクターを横断してデータを分類する標準が欠如している。さらに、データ格付のための技術間の相互運用性も限られている。このような制約があるだけで、組織が受信データの適切な保護を確保できるように、インポートされたデータの再分類が必要になる可能性が高い。 
When possible, the original classification information from the originating organization should be preserved. To disambiguate external data classifications, their identifiers and labels should be prefixed with a scope that identifies the origin of the classification. This could simply be the name of the organization providing the data asset, or it could refer to an external standards organization if or when such standards exist. For data imported from other organizations, this allows maintenance of the original classification information in addition to labeling the data with the importing organization’s classifications.   可能であれば、元の組織からの元の分類情報を保存しておくべきである。外部データ格付を曖昧にしないために、その識別子とラベルの先頭に、分類の出所を識別するスコープを付けるべきである。これは単純にデータ資産をプロバイダする組織の名前でもよいし、外部の標準組織が存在する場合はその標準組織を指すこともできる。他の組織からインポートしたデータについては、インポートした組織の分類でラベル付けするだけでなく、元の分類情報を保守することができる。 
3.3.  Determining Data Classifications for Data Assets  3.3.  データ資産のデータ格付の決定 
Classifying data is the process of analyzing a data asset and determining which data classifications to assign to it. Classification is performed by a classifier, a person or technology that applies the organization’s classification policy to a data asset to determine what data classifications that asset should be assigned. For some types of data, data classification can be solely based on the data definition and thus fully automated, but more often—especially for unstructured data—classifying data involves additional analysis of the metadata and/or the data itself. Responsibilities for data classification decisions are sometimes assigned to end users, like requiring them to manually determine the classifications for the documents they create.  データ格付とは、データ資産を分析し、どのデータ分類を割り当てるかを決定するプロセスである。データ格付は、組織の分類ポリシーをデータ資産に適用して、その資産にどのようなデータ分類を割り当てるべきかを決定する個人または技術である分類者によって実行される。データの種類によっては、データ分類はデータ定義のみに基づいて完全に自動化されることもあるが、多くの場合(特に非構造化データの場合)、データ分類にはメタデータやデータ自体の分析が必要になる。データ分類の決定責任は、エンドユーザーに割り当てられることもある。例えば、エンドユーザーが作成する文書の分類を手動で決定することが求められる。
Highly controlled structured data, like a set of databases being created for use within a major enterprise application, normally have well-defined fields and extensively validate data values to ensure they comply with the data model. The field for a person’s first name could not contain a driver’s license number, birthdate, or other unexpected information. Data classifications would be identified as part of the data model’s creation, recorded in the databases, and enforced by the enterprise application and its supporting platforms.   主要なエンタープライズ・アプリケーションで使用するために作成される一連のデータベースのように、高度に管理された構造化データは、通常、明確に定義されたフィールドを持ち、データモデルに準拠していることを確認するためにデータ値を広範囲にわたって検証する。個人のファーストネームのフィールドには、運転免許証番号、生年月日、その他の予期せぬ情報を含めることはできない。データ格付は、データモデル作成の一環として特定され、データベースに記録され、エンタープライズ・アプリケーションとそれをサポートするプラットフォームによって強制される。 
While their flexibility may present some challenges, semi-structured data may provide some of the context necessary for classification through its self-described data model.   半構造化データは、その柔軟性からいくつかの課題が生じる可能性があるが、自己記述型のデータモデルを通じて、分類に必要なコンテキストの一部をプロバイダが提供できる可能性がある。 
Unstructured data, where the data model is informal or nonexistent—such as a new text document—present the greatest challenge to data classification. Most organizations will need to use a combination of approaches such as the following for classifying their unstructured data:  構造化されていないデータは、データモデルが非公式であるか、存在しない(新しいテキスト文書など)場合、データ格付の最大の課題となる。ほとんどの組織は、非構造化データを分類するために、以下のようなアプローチを組み合わせて使用する必要がある: 
• Automatically select classifications based on metadata analysis. Ideally, data classifications can be derived from existing metadata such as filename, file extension, author, creation date, and location. Metadata can act as a proxy for specific characteristics of the data that drive classification, but their accuracy as a proxy will vary. For instance, if existing business processes and systems adequately control where data are stored, and storage is compartmented such that data’s inherent attributes dictate its storage location, then location would be an accurate proxy when selecting location-specific data classifications. Conversely, if the location of the data is a shared document folder with few controls and broad access, its location would not reflect its inherent attributes and would not be a valid proxy for data classifications.  ・メタデータの分析に基づいて分類を自動的に選択する。理想的には,ファイル名,ファイル拡張子,認可,作成日,場所などの既存のメタデータからデータ格付を導き出すことができる。メタデータは,分類の原動力となるデータの特定の特性のプロキシとして機能するが,プロキシとしての精度は様々である。例えば,既存のビジネスプロセスやシステムでデータの保管場所が適切に管理され,データの固有属性によって保管場所が決まるように保管場所が区分されている場合,場所固有のデータ格付を選択する際には,場所が正確なプロキシとなる。逆に,データの保存場所が共有文書フォルダで,データ管理者がほとんどおらず,広範なアクセスが可能な場合,データの保存場所はデータ固有の属性を反映しておらず,データ格付の有効なプロキシにはならない。
• Automatically select classifications based on content (data) analysis. Deriving data classifications from the contents of the data may provide the most accurate results when there is no enforced data model. However, especially with unstructured data, it can be difficult to correctly interpret the significance of its contents. Technologies like optical character recognition (OCR) can assist in locating content in files. Examples of content analysis tools for data classification purposes include:  ・コンテンツ(データ)分析に基づいて分類を自動的に選択する。強制的なデータモデルがない場合、データの内容からデータ格付を導き出すことが最も正確な結果をもたらすかもしれない。しかし、特に非構造化データでは、その内容の重要性を正しく解釈することが難しい場合がある。光学式文字認識(OCR)のような技術は、ファイル内のコンテンツの位置を特定するのに役立つ。データ格付を目的としたコンテンツ分析ツールの例を以下に挙げる: 
o Token-based analytical approaches scan the data looking for the presence and count of specific tokens (i.e., keywords) within the data. These tools are simple to understand and use, but they are limited in determining how each token is used and may be ineffective for many classification schemes.   o トークン・ベースの分析アプローチは、データ内の特定のトークン(すなわちキーワード)の存在と数を探してデータをスキャンする。これらのツールは理解も使用も簡単であるが、各トークンがどのように使用されているかを判断するには限界があり、多くの分類スキームには効果がない可能性がある。 
o Regular expression matching tools allow for more sophisticated matching of strings within the text compared to token-based analytics, including patterns such as telephone numbers, social security numbers, credit card numbers, physical addresses, and email addresses. These tools can be used to identify more complex patterns in the data that are necessary to support more nuanced classification schemes.  o 正規表現マッチングツールは、トークン・ベースの分析に比べて、テキスト内の文字列をより高度にマッチングすることができる。これらのツールは、より微妙な分類スキームをサポートするために必要な、データのより複雑なパターンを識別するために使用することができる。
o Machine learning (ML) tools can be used to look for the patterns in the data that indicate the attributes that drive classification. In this approach, a set of example data is classified, and then one or more models are trained to analyze and classify the data. This approach appears to be the most capable means of deriving classifications for data automatically but can be complex to establish and manage. The data sets used for training the model(s) must be a comprehensive corpus of data that provides sufficient information for each classification to be detected.  o 機械学習(ML)ツールは、分類の原動力となる属性を示すデータ中のパターンを 探すために使用することができる。このアプローチでは、一組のサンプルデータが分類され、次にデータを分析・分類するために1つ以上のモデルが訓練される。このアプローチは、データの分類を自動的に導き出す最も有能な手段と思われるが、確立と管理が複雑になる可能性がある。モデルの学習に使用するデータ・セットは、各分類を検出するのに十分な情報を提供する包括的なデータ・コーパスでなければならない。
• Manually select classifications. Automatic classification may not be feasible for all instances of data, especially ad hoc instances. In these cases, manual classification performed by a human is necessary. Unfortunately, manual classification is usually difficult to implement consistently at scale, and it relies on the accuracy and understanding of each person performing classification.  ・手動で分類を選択する。自動分類は,データのすべてのインスタンス,特にアドホックなインスタンスでは実行不可能な場合がある。このような場合,人間による手動分類が必要となる。残念なことに,手動分類は通常,一貫して大規模に実施することが難しく,分類を行う各人の正確さと理解度に依存する。
3.4.  Labeling Data Assets  3.4.  データ資産のラベル付け 
A label is a metadata attribute that represents a data classification. A data asset may have more than one label. Labeling is the process by which the labels are associated with a data asset, such as by cryptographic binding or by associating the data asset and its labels in a data catalog.   ラベルはデータ格付を代表するメタデータ属性である。データ資産は複数のラベルを持つことができる。ラベリングとは、暗号バインディングやデータカタログにおけるデータ資産とそのラベルの関連付けなど、ラベルをデータ資産に関連付けるプロセスのことである。 
Note that while some people consider the term “label” to be synonymous with the term “tag,” others do not. Also, “label” is increasingly being used as the primary term for this concept, so this publication only uses “label” for consistency.   ラベル」という用語は「タグ」という用語と同義であると考える人もいるが、そうでない人もいることに注意。また、"ラベル "がこの概念の主要な用語として使用されることが多くなってきているため、本書では一貫性を保つために "ラベル "のみを使用する。 
Data classification assignments, including labels and metadata used for data classification purposes, need to be safeguarded. Without adequate protection, labels and metadata can be altered or deleted. When data or data classifications change, the data’s labels and metadata may need to be updated in a controlled fashion. This is especially true if data are aggregated.  データ分類の目的に使用されるラベルやメタデータを含むデータ格付は保護される必要がある。十分な保護がなければ、ラベルやメタデータは改ざんされたり削除されたりする可能性がある。データやデータ格付が変更された場合、データのラベルやメタデータを管理された方法で更新する必要がある。データが集約されている場合は特にそうである。
Making data labels “stick” with data as it moves from place to place, and especially from one organization to another, is one of the largest challenges in data classification for most organizations. There are additional challenges involving portion marking, when different portions of a data asset, such as sections of a document or file, each have different classification labels. Numerous technological approaches to labeling are currently in use, but no approach works universally across data assets, technologies, and organizations. Further discussion of labeling technologies is outside the scope of this document.  データラベルを、データが場所から場所へ、特に組織から組織へと移動する際に「定着」させることは、ほとんどの組織にとってデータ格付における最大の課題の一つである。文書やファイルのセクションなど、データ資産の異なる部分がそれぞれ異なる分類ラベルを持つ場合、ポーションマーキングがさらに課題となる。現在、ラベリングに対する数多くの技術的アプローチが使用されているが、データ資産、技術、組織にまたがって普遍的に機能するアプローチはない。ラベリング技術に関するさらなる議論は、本文書の範囲外である。
3.5.  Monitoring Data Assets  3.5.  データ資産のモニタリング 
Each data asset should be monitored after its data classification and labeling to identify any changes that may necessitate updating its data classifications and labels. The appropriate monitoring method will depend primarily on whether the data are structured, semi-structured, or unstructured. For example, changes to the nature of structured and semi-structured data are most likely detectable by monitoring their data models for changes to the data definition. However, changes to the content of unstructured data, especially ad hoc files, may be happening all the time, and many of those changes will not affect data classifications.   各データ資産は、そのデータ分類とラベルの更新を必要とする可能性のある変化を特定するた めに、データ分類とラベル付け後にモニタリングされなければならない。適切なモニタリング方法は、主にデータが構造化されているか、半構造化されているか、非構造化 されているかによって異なる。例えば、構造化データや半構造化データの性質の変更は、データモデルを監視してデータ定義の変更を確認することで検知できる可能性が高い。しかし、非構造化データ(特にアドホックファイル)のコンテンツに対する変更は常に起こっている可能性があり、そのような変更の多くはデータ格付に影響しない。 
Further discussion of technologies and methodologies for monitoring data assets for changes impacting their data classifications is outside the scope of this publication. Please refer to the NCCoE’s SP 1800-39, Implementing Data Classification Practices series of practice guides [SP1800-39]. データ分類に影響を与える変更がないかデータ資産を監視する技術や方法論については、本書の範囲外である。NCCoEのSP1800-39「データ格付の実施」シリーズの実践ガイド[SP1800-39]を参照されたい。

 

 


 

まるちゃんの情報セキュリティ気まぐれ日記

・2023.04.26 米国 NIST SP 1800-39 データ格付の実践(初期ドラフト)


 

|

« APEC デジタルアジェンダ関係 | Main | NIST SP 800-221 情報通信技術リスクのエンタープライズへの影響:エンタープライズリスクポートフォリオにおけるICTリスクプログラムのガバナンスとマネジメント, NIST SP 800-221A 情報通信技術(ICT)リスクの成果: ICTリスクマネジメントプログラムとエンタープライズリスクポートフォリオの統合 »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« APEC デジタルアジェンダ関係 | Main | NIST SP 800-221 情報通信技術リスクのエンタープライズへの影響:エンタープライズリスクポートフォリオにおけるICTリスクプログラムのガバナンスとマネジメント, NIST SP 800-221A 情報通信技術(ICT)リスクの成果: ICTリスクマネジメントプログラムとエンタープライズリスクポートフォリオの統合 »