« 中国 TC260 意見募集 国家標準 「生成的AIデータ注釈のセキュリティ仕様」案 | Main | 中国 TC260 意見募集 国家標準 「データセキュリティ技術 電子透かし技術的実施指針」案 »

2024.04.09

中国 TC260 意見募集 国家標準 「生成的AIの事前訓練・最適化訓練データのセキュリティ仕様」案

こんにちは、丸山満彦です。

中国の国家情報セキュリティ標準化技術委員会 (TC260) が「生成的AIの事前訓練・最適化訓練データのセキュリティ仕様 」の草案を公表し、意見募集をしていますね。。。

これは、中国独自の標準ですね...

なかなか細かく作り込んでいますね...

 

● 全国信息安全标准化技术委员会

・2024.04.03 关于国家标准《信息安全技术 生成式人工智能预训练和优化训练数据安全规范》征求意见稿征求意见的通知

ドラフトはこちら...

・[PDF] 信息安全技术 生成式人工智能预训练和优化训练数据安全规范-标准文本

20240409-104927

网络安全技术 生成式人工智能预训练和优化训练数据安全规范  サイバーセキュリティ技術 生成的AIの事前訓練・最適化訓練データのセキュリティ仕様 
Cybersecurity technology —— Security specification for generative artificial intelligence pre-training and fine-tuning data  サイバーセキュリティ技術 生成的AIの事前訓練・最適化訓練データのセキュリティ仕様 
目 次  目次 
前言  前書き
1 范围 1 範囲
2  规范性引用文件  2 引用規格 
3  术语和定义 3 用語と定義
4  概述 4 概要
4.1 安全风险 4.1 セキュリティ・リスク
4.2 安全框架 4.2 セキュリティの枠組み
5  通用安全要求  5 一般的なセキュリティ要件 
6  预训练数据处理活动的安全要求 6 訓練前データ処理活動に関するセキュリティ要件
6.1 数据收集 6.1 データ収集
6.2 数据预处理 6.2 データの前処理
6.3 数据使用 6.3 データの使用
7  优化训练数据处理活动的安全要求 7 最適化訓練データ処理活動に対するセキュリティ要件
7.1 数据收集 7.1 データ収集
7.2 数据预处理 7.2 データの前処理
7.3 数据使用 7.3 データの使用
8  评价方法 8 評価方法
8.1 通用安全评价方法 8.1 一般的なセキュリティ性評価方法
8.2 预训练数据处理活动评价方法 8.2 訓練前データ処理活動の評価方法
8.2.1 数据收集 8.2.1 データ収集
8.2.2 数据预处理 8.2.2 データの前処理
8.2.3 数据使用  8.2.3 データの使用 
8.3 优化训练数据处理活动评价方法  8.3 最適化訓練データ処理活動の評価方法 
8.3.1 数据收集 8.3.1 データ収集
8.3.2 数据预处理 8.3.2 データの前処理
8.3.3 数据使用 8.3.3 データの使用
附录 A (资料性) 预训练和优化训练数据的主要安全风险内容 附属書 A(参考) 事前訓練と最適化データの主なセキュリティリスク内容
A.1                 包含违反社会主义核心价值观的内容  A.1 社会主義の基本的価値観に反する内容が含まれている。
A.2                 包含歧视性内容  A.2 差別的な内容を含む 
A.3                 商业违法违规 A.3 商業的な法令違反がある
A.4                 侵犯他人合法权益  A.4 他人の正当な権利と利益を侵害する。
附录 B (规范性) 关键词库和分类模型要求 附属書B(規範) キーワードバンクおよび分類モデルに関する要求事項
B.1  关键词库 B.1 キーワードライブラリ
B.2  分类模型 B.2 分類モデル
参考文献 参考文献
前 言  序文 
本文件按照GB/T 1.1—2020《标准化工作导则  第1部分:标准化文件的结构和起草规则》的规定起草。  この文書は、GB/T 1.1-2020 Guidelines for Standardisation Work Part 1: Structure and Drafting Rules for Standardisation Documents の規定に従って作成された。
本文件由全国网络安全标准化技术委员会(SAC/TC260)提出并归口。  本文書は、ネットワークセキュリティ標準化国内技術委員会(SAC/TC260)により提案され、その後援を受 けている。
本文件起草单位:(名单根据实际情况决定)  本文書の起草単位:(リストは実情に応じて決定する。) 
本文件主要起草人:(名单根据实际情况决定)  この文書の主な起草者:(リストは実情に応じて決定する。) 
网络安全技术生成式人工智能预训练和优化训练数据安全规范  サイバーセキュリティ技術 生成的人工知能 事前訓練と最適化 訓練データ セキュリティ仕様書 
1. 范围  1.適用範囲 
本文件规定了生成式人工智能预训练和优化训练数据及其处理活动的安全要求,描述了对应的评价方法。  本文書は、生成的人工知能の事前訓練および最適化訓練データとその処理活動に対するセキュリ ティ要件を規定し、対応する評価方法を記述する。
本文件适用于指导生成式人工智能服务提供者开展预训练和优化训练数据处理活动以及开展与训练预训练和优化训练数据安全自评价,也可为监管评估提供参考。  本文書は、生成的人工知能サービス提供者が事前訓練および最適化訓練データ処理活動を実施する際の指針として、また、訓練を伴う事前訓練および最適化訓練データのセキュリティの自己評価を実施する際の指針として適用され、また、規制評価の参考となる。
2. 规范性引用文件  2.引用規格
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。  以下の文書の内容は、本文中の規範的参照を通じて、この文書の不可欠な規定を構成している。 このうち、日付のある引用文書については、その日付に対応するバージョンのみが本文書に適用され、日付のない引用文書については、最新バージョン(すべての修正シートを含む)が本文書に適用される。
GB/T AAAAA  网络安全技术  生成式人工智能数据安全标注规范  GB/T AAAAA サイバーセキュリティ技術生成的人工知能データセキュリティラベリング仕様書 
3. 术语和定义  3.用語と定義 
下列术语和定义适用于本文件。  以下の用語と定義が本文書に適用される。
3.1 3.1
生成式人工智能 generative artificial intelligence  生成的人工知能サービス 
具有文本、图片、音频、视频等内容生成能力的人工智能系统。  テキスト、画像、音声、動画などのコンテンツを生成する能力を有する人工知能シ ステム。
3.2 3.2
生成式人工智能服务 generative artificial intelligence service  生成的人工知能サービス
利用生成式人工智能技术提供生成文本、图片、音频、视频等内容的服务。  生成的人工知能技術を用いて、テキスト、画像、音声、動画などのコンテンツを生成するサービスを提供する生成的人工知能サービス。
3.3 3.3
服务提供者 service provider  サービス提供者 
以交互界面、可编程接口等形式提供生成式人工智能服务的组织和个人。  対話型インタフェースやプログラマブルインタフェースの形で生成的人工知能サービスを提供する組織や個人。
3.4 3.4
服务使用者 service user  サービス利用者 
使用生成式人工智能服务的组织或个人。  生成的AIサービスを利用する組織または個人。
3.5 3.5
预训练 pre-training  事前訓練 
使用大规模数据使生成式人工智能模型获得通用知识的训练过程。  生成的AIモデルが一般的な知識を獲得できるように、大規模データを使用する訓練プロセス。
3.6 3.6
优化训练 fine-tuning  最適化訓練
使用专门领域数据使生成式人工智能模型获得一定面向领域服务能力的训练过程。  生成的AIモデルが特定のドメイン指向のサービス能力を獲得できるように、ドメイン固有のデータを使用する訓練プロセス。
3.7 3.7
预训练数据 pre-training data  事前訓練データ 
所有用于生成式人工智能预训练的各类数据。  生成的AIの事前訓練に使用されるすべての種類のデータ。
3.8 3.8
优化训练数据 fine-tuning data  最適化訓練データ
所有用于生成式人工智能优化训练的各类数据。  生成的AIの最適訓練に使用されるすべての種類のデータ。
4. 概述  4.概要 
 4.1 安全风险  4.1 セキュリティリスク 
生成式人工智能预训练和优化训练数据的安全性涉及数据自身的安全性以及生成式人工智能服务的安全性两方面。生成式人工智能的预训练和优化训练数据面临的安全风险有:  生成的AIの事前訓練データと最適化訓練データのセキュリティには、データ自体のセキュリティと生成的AIサービスのセキュリティの両方が含まれる。 生成的AIの事前訓練・最適化訓練データが直面するセキュリティリスクは以下のとおりである: 
a)     数据泄露、数据窃取等风险;  a) データ漏洩やデータ盗難などのリスク; 
b)     数据投毒风险; c) 其他因训练数据影响生成式人工智能安全性的风险。  b) データポイズニングのリスク c) 訓練データに起因する生成的AIのセキュリティに影響を与えるその他のリスクである。
 4.2 安全框架  4.2 セキュリティの枠組み 
生成式人工智能预训练和优化训练数据安全框架包括数据通用安全以及数据处理活动安全。数据通用安全主要包括分类分级、安全防护、安全检测、审计追溯、应急响应等。数据处理活动安全主要包括数据收集、数据预处理、数据使用等活动的安全。  生成的AIの事前訓練と最適化訓練データのセキュリティフレームワークには、データ全般のセキュリティとデータ処理活動のセキュリティが含まれる。 データ全般のセキュリティには、主に分類と等級付け、セキュリティ保護、セキュリティ検出、監査トレーサビリティ、緊急対応が含まれる。 データ処理活動のセキュリティには、主にデータ収集、データ前処理、データ使用、その他の活動のセキュリティが含まれる。
生成式人工智能预训练和优化训练数据安全框架如图1所示。  生成的AIの事前訓練と最適化訓練のデータ・セキュリティの枠組みを図1に示す。
 
图1 生成式人工智能预训练和优化训练数据安全框架  図1 生成的AIの事前訓練と最適化訓練のデータ・セキュリティの枠組み 
5. 通用安全要求  5. 一般的なセキュリティ要件 
对服务提供者的要求如下。  サービス・提供者に対する要件は以下のとおりである。
a)     应对预训练和优化训练数据进行分类分级管理。  a) 事前訓練データと最適化訓練データを分類し、管理すること。
b)     应采取技术措施对预训练和优化训练数据进行安全监测,发现数据安全缺陷、漏洞等风险时及时告警并采取相应的处置措施。  b) 事前訓練・最適化訓練データのセキュリティを監視するための技術的措置を講じ、データセキュリティの欠陥、抜け穴、その他のリスクが発見された場合には適時に警告を発し、対応措置を講じること。
c)     应采取身份鉴别、访问控制、加密、备份等技术措施,对预训练和优化训练数据进行安全防护。  c) 身元確認、アクセス制御、暗号化、バックアップなどの技術的措置を講じて、事前研修・最適化研修データのセキュリティ保護を行う。
d)     应建立针对预训练和优化训练数据安全事件的应急响应机制,及时有效处置发生的数据安全事件,不影响或能够尽快恢复业务的运营。  d) 事前研修・最適化研修データのセキュリティ事故に対する緊急対応メカニズムを確立し、 データセキュリティインシデントに適時かつ効果的に対処し、事業運営に影響を与えないように、また、 できるだけ早く事業運営を再開できるようにすべきである。
e)     应对预训练和优化训练数据的数据收集、数据预处理、数据使用等的数据处理活动进行记录,确保预训练和优化训练数据处理活动的关键操作可审计、可追溯。  e) 事前研修・最適化研修データのデータ収集、データ前処理、データ使用などのデータ処理活動は、事前研修・最適化研修データ処理活動の主要業務が監査可能かつ追跡可能であることを保証するために記録されるべきである。
6. 预训练数据处理活动的安全要求  6.訓練前データ処理活動のセキュリティ要件 
 6.1 数据收集  6.1 データ収集 
对服务提供者的要求如下。  サービス提供者に対する要件は以下のとおりである。
a)     应记录数据收集所涉及的数据来源,保存相关信息:  a) データ収集に関わるデータソースを記録し、関連情報を保存すること: 
1)       数据来源为互联网网站,记录网站的统一资源定位符;  1) データソースがインターネットウェブサイトの場合、そのウェブサイトのユニフォーム・リソー ス・ロケーター(URL)を記録する; 
2)       数据来源为其他组织或个人,记录数据集名称、来源组织,保存具备法律效力的交易合同、合作协议、许可协议或相关授权文件等;  2) データソースが他の組織または個人の場合は、データセットの名称、ソース 組織、および取引契約、協力契約、ライセンス契約、または法的効力を有する関連認可 文書を記録する; 
3)       数据来源为服务使用者,记录服务名称、服务使用者的身份标识号码,保存服务使用者的授权记录。  3) データソースがサービス利用者である場合、サービス名、サービス利用者の識別 番号を記録し、サービス利用者の承認記録を保存する。
b)     同类型的数据应具有多个不同的数据来源。  b) 同じ種類のデータでも、複数の異なるデータソースがなければならない。
注:代码、图像、音频、视频及相同语言的文本等视为同类型的数据。  注:同じ言語のコード、画像、音声、ビデオ、テキストは同じ種類のデータとみなされる。
c)     通过互联网网站收集数据时,应记录所收集数据或数据所在网页的统一资源定位符。  c) インターネットのウェブサイトを通じてデータを収集する場合、収集されたデー タまたはデータがあるウェブページの URL(ユニフォーム・リソース・ロケータ)を記録すること。
d)     通过交易或合作等方式从其他组织或个人收集数据时,应对交易方或合作方所提供的数据、承诺、材料进行审核。  d) 取引または協力を通じて他の組織または個人からデータを収集する場合は、 取引または協力の当事者から提供されたデータ、約束、資料を調査しなければなら ない。
 6.2 数据预处理  6.2 データの前処理 
对服务提供者的要求如下。  サービス提供者に対する要件は,次のとおりである。
a)     应为数据中所有数据样本添加元数据内容:  a) データ中のすべてのデータサンプルにメタデータの内容を追加しなければならない: 
1)       数据样本已具有数据来源信息的,元数据内容为该信息;  1) データサンプルが既にデータソース情報を持っている場合,メタデータの内容はその 情報でなければならない; 
2)       数据样本来源于互联网网站的,元数据内容为该样本自身或所在网页的统一资源定位符;  2) データサンプルがインターネットウェブサイトに由来する場合、メタデータのコン テンツは、サンプル自体またはそれが置かれているウェブページのユニフォーム・リソー ス・ロケーター(URL)とする; 
3)       数据样本来源于其他组织或个人数据集的,元数据内容为数据集名称、组织名称等信息;  3) データサンプルが他の組織または個人のデータセットに由来する場 合、メタデータの内容は、データセットの名称、組織の名称およびそ の他の情報とする; 
4)       数据样本来源于服务使用者的,元数据内容为服务名称、服务使用者的身份标识号码等信息。  4) データサンプルがサービス利用者に由来する場合、メタデータの内容は、 サービス名やサービス利用者の識別番号などの情報である。
b)     应采取关键词、分类模型、人工抽检查等方式对数据含有安全风险内容情况进行识别,并记录识别情况。  b) セキュリティリスクコンテンツを含むデータを特定し、その特定を記録するために、 キーワード、分類モデル、手作業によるサンプリングチェックなどを採用する。
注:安全风险内容见附录A中定义的29类;关键词、分类模型要求见附录B。  注:セキュリティリスクの内容については、附属書Aに定義された29のカテゴリーを参照し、キーワードおよび分類モデルの要件については、附属書Bを参照すること。
c)     应对数据中的主要知识产权侵权风险进行识别并记录,例如数据中包含文学、艺术、科学作品的,重点识别数据的著作权侵权问题。  c) データに含まれる知的財産権侵害の主なリスクを特定し、記録する。例えば、 データに文学的、芸術的又は科学的著作物が含まれる場合は、データの著作 権侵害を特定することに重点を置くべきである。
 6.3 数据使用  6.3 データ利用 
对服务提供者的要求如下。  サービス提供者に対する要求は以下のとおりである。
a)     使用包含个人信息的数据时,应取得对应个人同意或符合法律、行政法规规定的其他情形。  a) 個人情報を含むデータの利用は、該当する個人の同意を得るか、または法律や行政規則が規定するその他の状況に従う。
b)     使用包含敏感个人信息的数据前,应取得对应个人单独同意或符合法律、行政法规规定的其他情形。  b) 機微(センシティブ)個人情報を含むデータを利用する場合は、個別に本人の同意を得るか、その他法令に定める場合に従うこと。
c)     不应使用存在知识产权侵权问题的数据。  c) 知的財産権侵害の問題を含むデータは利用しない。
d)     应采取措施降低生成式人工智能被诱导生成安全风险内容的可能性,包括但不限于充分过滤已识别含有安全风险内容的数据样本等。  d)生成的AIが安全リスクコンテンツを生成させる可能性を低減するため、安全リスクコンテンツを含むと特定されたデータサンプルに対して適切なフィルタリングを行う等の措置を講じること。
7. 优化训练数据处理活动的安全要求  7. 訓練データ処理活動におけるセキュリティ要件の最適化 
 7.1 数据收集  7.1 データ収集 
对服务提供者的要求如下。  サービス提供者に対する要件は以下のとおりである。
a)     优化训练数据的数据收集应符合6.1的要求。  a) 最適化訓練データのデータ収集は、6.1 の要件に従うこと。
b)     收集生成式人工智能生成内容等数据时,应记录所使用生成式人工智能模型或服务的版本、获取时间等信息。  b) 生成的AIによって生成されたコンテンツ等のデータを収集する場合、使用した生成的AIモデルやサービスのバージョン、取得時刻等の情報を記録すること。
7.2  数据预处理  7.2 データの前処理 
对服务提供者的要求如下。  サービス提供者に対する要件は以下のとおりである。
a)     优化训练数据的数据预处理应符合6.2的要求。  a) 最適化訓練データのデータ前処理は、6.2 の要件に従うこと。
b)     生成式人工智能生成内容构成的数据样本,应添加所使用生成式人工智能模型或服务的版本、获取时间等元数据内容。  b) 生成的AIによって生成されたコンテンツからなるデータサンプルは、使用された生成的AIモデル又はサービスのバージョン、取得時間等のメタデータコンテンツで補強されなければならない。
c)     优化训练数据的数据标注活动应符合GB/T AAAAA的安全要求。  c) 訓練データを最適化するためのデータ注釈活動は、GB/T AAAAA のセキュリティ要件に準拠すること。
d)     来源于生成式人工智能的生成数据,应重点识别数据内容是否存在安全风险内容并记录识别情况。  d) 生成的 AI に由来する生成データは、データ内容にセキュリティリスク内容があるかどうかの特定に重点を置き、その特定を記録すること。
 7.3 数据使用  7.3 データ利用 
对服务提供者的要求如下。  サービス提供者に対する要求事項は以下のとおりである。
a)     优化训练所使用数据的数据来源应符合6.3的要求。  a) 最適化訓練に使用するデータのデータソースは、6.3 の要件に準拠すること。
b)     使用生成式人工智能生成内容等数据时,应过滤掉存在安全风险内容的数据。  b) コンテンツ等のデータ生成に生成的 AI を使用する場合、セキュリティリスクコンテンツを含むデー タはフィルタリングにより除外すること。
8. 评价方法  8 評価方法 
 8.1 通用安全评价方法  8.1 一般的なセキュリティ評価方法 
通用安全要求的评价方法、预期结果和结果判定如下。  一般的なセクリティ要求事項の評価方法、期待される結果、結果判定は以下のとおりである。
a)     评价方法:  a) 評価方法 
1)      检查服务提供者对预训练和优化训练数据的操作过程记录和管理文档;  1) サービス提供者の運転プロセス記録および管理文書から、事前訓練データおよび最適化訓練 データを調査する; 
2)      检查服务提供者预训练和优化训练数据所在系统和网络的设计文档、运行日志,检查相关设备的实际运行情况;  2) 事前訓練データおよび最適化訓練データが配置されているシステムおよびネットワークの設計書、 運用記録を確認し、関連設備の実際の運用状況を確認する; 
3)      检查服务提供者预训练和优化训练数据的安全防护技术措施;  3) サービス提供者の事前訓練データおよび最適化訓練データのセキュリティ保護のための技術的措置を確認する; 
4)      检查服务提供者是否具备应急响应小组,以及是否制定了针对预训练和优化训练数据安全事件的应急响应预案,检查安全事件的应急处置记录;  4) サービス提供者が、事前訓練データおよび最適化訓練データのセキュリティ事故に対する緊急対応チームおよび緊急対応計画を有していることを確認し、セキュリティ事故に対する緊急対応記録を確認する;  
5)      检查服务提供者是否具有记录预训练和优化训练数据的数据收集及准备阶段处理活动的日志的完整性、有效性。  5) サービス提供者が、事前訓練データおよび最適化訓練データのデータ収集および準備段階の処理活動を記録するログの完全性および有効性を有しているかどうかを確認する。
b)     预期结果:  b) 期待される結果 
1)      服务提供者对预训练和优化训练数据进行了分类分级操作和管理;  1) サービス提供者は,事前訓練データおよび最適化訓練データを分類し,階層的 に運用管理している; 
2)      服务提供者已采取技术措施对预训练和优化训练数据进行安全监测,发现数据安全缺陷、漏洞等风险时及时告警并采取了相应的处置措施;  2) サービス提供者は、事前研修データおよび最適化研修データのセキュリティ監視を実施するための技術的措置を講じており、データセキュリティの欠陥や抜け穴などのリスクが発見された場合、適時に警告を発し、対応する措置を講じている; 
3)      服务提供者已采取身份鉴别、访问控制、加密、备份等技术措施,对预训练和优化训练数据进行了安全防护;  3) サービス提供者は、事前訓練および最適化訓練データのセキュリティ保護のために、身元確認、アクセス制御、暗号化、バックアップなどの技術的措置を講じている; 
4)      服务提供者已具备应急响应小组,建立了针对预训练和优化训练数据安全事件的应急响应机制,并在发生安全事件时,及时有效进行了实施;  4) サービス提供者は、緊急対応チームを有し、事前訓練および最適化訓練データのセキュリ ティインシデントに対する緊急対応メカニズムを確立し、セキュリティインシデントが 発生した場合、タイムリーかつ効果的な方法でこれを実施している; 
5)      服务提供者具有预训练和优化训练数据的数据收集及准备阶段关键活动日志,基于日志可对关键操作进行审计和追溯。  5) サービス提供者は、事前研修および最適化研修データのデータ収集および準備段階における 主要な活動のログを有しており、これに基づいて主要な活動を監査し、追跡することができる。
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果の判定:実際の評価結果が期待された結果と一致していれば適合、そうでなければ不適合と判定する。
 8.2 预训练数据处理活动评价方法  8.2 訓練前データ処理活動の評価方法 
8.2.1 数据收集  8.2.1 データ収集 
预训练数据收集安全要求的评价方法、预期结果和结果判定如下。  訓練前のデータ収集に関するセキュリティ要求事項の評価方法、期待される結果および結果判定は以下のとおりである。
a)     评价方法:  a) 評価方法 
1)       检查服务提供者是否具有数据来源记录;核验数据来源记录格式的正确性;抽样服务提供者所收集的数据,核验数据来源记录的完整性;  1) サービス提供者がデータソースの記録を持っているかどうかを確認する。データソースの記録の 形式が正しいかどうかを検証する; 
2)       检查服务提供者数据来源记录中同类型数据所使用数据来源的数量;  2) サービス提供者のデータソースの記録において、同じ種類のデータに使用されているデータソースの数を確認する; 
3)       检查服务提供者是否从互联网网站收集数据;抽样服务提供者收集的互联网网站数据,核查抽样样本与所记录统一资源定位符的一致性;  3) サービス提供者がインターネットサイトからデータを収集しているかどうかを確認する。サービス提供者がインターネットサイトから収集したデータをサンプリングし、サンプリングしたサンプルと記録されているユニフォームリソースロケータ(URL)との整合性を検証する; 
4)       检查服务提供者是否通过交易或合作等方式从其他组织或个人收集数据;抽样检查服务提供者对交易方或合作方提供数据、承诺、材料的审核材料。  4) サービス提供者が取引や協力などを通じて他の組織や個人からデータを収集し ているかどうかをチェックし、取引や協力当事者から提供されたデータ、コミットメント、 資料に関するサービス提供者の監査資料をサンプリングする。
b)     预期结果:  b) 期待される結果 
1)       服务提供者具有数据来源记录;数据来源涉及互联网网站的,具有统一资源定位符记录;数据来源涉及其他组织或个人的,具有数据集名称、来源组织记录,交易合同、合作协议记录、许可协议或相关授权文件等有效;数据来源涉及服务使用者的,具有服务名称、服务使用者的身份标识号码记录,服务使用者的授权记录有效;数据来源记录覆盖完整;  1) サービス提供者は、データソースの記録を持っている。データソースがインターネッ トのウェブサイトを含む場合、ユニフォームリソースロケータの記録を持っている。 データソースが他の組織または個人を含む場合、データセットの名前、ソースの組織の記録、 および取引契約、協力契約の記録、ライセンス契約または関連認可文書が有効である。 データソースの記録範囲は完全である; 
2)       服务提供者同种类型数据的具有多个来源数量;  2) サービス提供者は、同じ種類のデータについて複数の情報源を有している; 
3)       服务提供者未从互联网网站收集数据或所有抽样样本与所记录统一资源定位符相一致;  3) サービス提供者がインターネットサイトからデータを収集していない、またはすべての サンプル検体が記録されたUCLに対応している; 
4)       服务提供者未通过交易或合作等方式从其他组织或个人收集数据,或具有对交易方或合作方提供数据、承诺、材料的审核材料。  4) サービス提供者が、取引や協力を通じて他の組織や個人からデータを収集していないか、 取引当事者や協力当事者から提供されたデータ、約束、資料に関する監査資料がある。
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果判定:実際の評価結果が期待された結果と一致している場合は適合と判定し、それ以 外の場合は不適合と判定する。
8.2.2 数据预处理  8.2.2 データの前処理 
预训练数据预处理安全要求的评价方法、预期结果和结果判定如下。  訓練前データの前処理セキュリティ要件の評価方法、期待される結果、結果判定は以下のとおりである。
a)     评价方法:  a) 評価方法 
1)       随机抽样服务提供者预处理后的数据,对于每类数据来源抽样数量不少于100个样本,检查样本元数据内容的正确性;  1) サービス提供者の前処理済みデータを無作為にサンプリングし、各タイプのデータソースについ て、100 以上のサンプルをサンプリングし、サンプルのメタデータ内容の正しさをチェックする; 
2)       随机抽样服务提供者预处理后的数据,抽样数量不少于100个样本,检查样本是否具有安全风险内容识别记录;  2)サービス提供者の前処理されたデータをランダムにサンプリングし、各タイプのデータソースのサンプリング数は100サンプル以上であり、サンプルにセキュリティリスク内容の特定記録があるかどうかをチェックする; 
3)       随机抽样服务提供者预处理后的数据,抽样数量不少于100个样本,检查样本是否具有主要知识产权侵权风险识别记录。  3) サービス提供者の加工前データのランダムサンプリング、サンプル数100以上、サンプルに主要な知的財産権侵害リスクの特定記録があるかどうかをチェックする。
b)     预期结果:  b) 期待される結果 
1)       抽样样本全部具有元数据内容;样本涉及其他组织或个人数据集来源的,具有数据集名称、组织名称记录;样本涉及互联网网站来源的,具有样本或样本所在网页的统一资源定位符;样本涉及服务使用者来源的,具有服务名称及服务使用者的身份标识号码记录;  1) すべてのサンプルがメタデータの内容を持っている。サンプルが他の組織や個人のデータセットのソースに関与している場合、データセット名と組織名の記録を持っている。サンプルがインターネットウェブサイトのソースに関与している場合、サンプルのユニフォームリソースロケータ(URL)またはサンプルがあるウェブページを持っている。サンプルがサービスユーザーのソースに関与している場合、サービス名とサービスユーザーのID識別番号の記録を持っている; 
2)       抽样样本全部具有安全风险内容情况记录;  2) すべてのサンプルはセキュリティリスクの内容を記録している; 
3)       抽样样本涉及知识产权侵权风险的,全部具有知识产权侵权风险记录。  3) サンプルが知的財産権侵害リスクを含む場合、すべてのサンプルに知的財産権侵害リスクの記録がある。
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果の判定:実際の評価結果が期待される評価結果と一致する場合は適合と判定し、一致しない場合は不適合と判定する。
8.2.3 数据使用  8.2.3 データの利用 
预训练数据使用安全要求的评价方法、预期结果和结果判定如下。  事前訓練データの利用に関するセキュリティ要求事項の評価方法、期待される結果および結果判定は以下のとおりである。
a)     评价方法:  a) 評価方法 
1)       检查服务提供者是否使用包含个人信息的数据;检查服务提供者是否具有个人同意记录,或是否符合法律、行政法规规定的情况;  1) サービス提供者が個人情報を含むデータを利用しているかどうかを確認する。 サービス提供者が個人の同意の記録を有しているかどうか、又は法令および行政規則の 規定を遵守しているかどうかを確認する; 
2)       检查服务提供者是否使用包含个人敏感信息的数据;检查服务提供者是否具有个人单独同意记录,或是否符合法律、行政法规规定的情况;  2) サービス提供者が機微(センシティブ)個人情報を含むデータを利用しているかどうかを確認し、サービス提供者が個別に同意した記録があるかどうか、または法令や行政法規の規定を遵守しているかどうかをチェックする; 
3)       采用人工抽检方式从全部数据中随机抽取不少于4000个样本,核查服务提供者使用数据的知识产权侵权风险识别记录的准确性;  3)手動サンプリングを採用し、全データから4,000以上のサンプルを無作為に抽出し、サービス提供者が使用するデータの知的財産権侵害リスク特定記録の正確性を検証する; 
4)       采用人工抽检方式从全部数据中随机抽取不少于4000个样本,采用关键词、分类模型等技术抽检法从全部数据中抽取不少于总量10%的数据。  4) 全データから4,000以上のサンプルを無作為に抽出するために、手作業によるサンプリングを採用し、全データの総量の10%以上を抽出するために、キーワードや分類モデルなどの技術的なサンプリング方法を採用する。
b)     预期结果:  b) 期待される結果 
1)       服务提供者未使用个人信息数据,或具有个人同意记录,或使用个人信息数据符合法律、行政法规规定的情形;  1) 個人情報データを利用していない、又は本人の同意の記録がある、又は法令・行政法規を遵守して個人情報データを利用している; 
2)       服务提供者未使用个人敏感信息数据,或具有个人单独同意记录,或使用个人敏感信息数据符合法律、行政法规规定的情形;  2) サービス提供者は、個人機微情報データを利用しないか、個人の同意の記録があるか、 または個人機微情報データを法令および行政法規に従って利用する; 
3)       抽样样本不涉及知识产权侵权风险,或抽样样本无知识产权风险并与知识产权侵权风险识别记录一致;  3) サンプリングサンプルに知的財産権侵害のリスクがない、またはサンプリングサンプルに知的財産権侵害のリスクがなく、知的財産権侵害リスク特定記録と一致している; 
4)       人工抽检的抽样数据样本中不含安全风险内容样本数量占总抽样数量的比值不低于96%,技术抽检的抽样数据样本中不含安全风险内容样本数量占总抽样数量的比值不低于98%。  4) 手作業によるサンプリング検査用のデータサンプルのうち、セキュリティリスクを含まないサンプルの数がサンプルの総数に占める割合が96%以上であり、技術によるサンプリング検査用のデータサンプルのうち、セキュリティリスクを含まないサンプルの数がサンプルの総数に占める割合が98%以上である。
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果の判定:実際の評価結果が期待される結果と一致していれば適合と判定し、そうでなければ不適合と判定する。
8.3 优化训练数据处理活动评价方法  8.3 訓練データ処理活動の評価方法の最適化 
8.3.1 数据收集  8.3.1 データ収集 
优化训练数据收集安全要求的评价方法、预期结果和结果判定如下。  訓練データ収集のセキュリティ要件を最適化するための評価方法、期待される結果、結果判定は以下のとおりである。
a)     评价方法:  a) 評価方法 
1)       按照8.2.1a)规定的评价方法评价服务提供者优化训练数据的数据收集情况;  1) 8.2.1a)の評価方法に従い、サービス提供者の最適化訓練データ収集の評価を行う; 
2)       检查服务提供者是否收集生成式人工智能的生成内容;检查服务提供者收集的生成式人工智能生成内容是否具有所使用生成式人工智能模型或服务的版本、获取时间等信息记录。  2)サービス提供者が生成的AIコンテンツを収集しているかどうか、サービス提供者が収集した生成的AI生成コンテンツに、使用した生成的AIモデルやサービスのバージョン、取得時期等が記録されているかどうかを確認する。
b)     预期结果:  b) 期待される結果 
1)       符合8.2.1b)的预期结果;  1) 8.2.1b)の期待される結果を満たしている; 
2)       服务提供者没有收集生成式人工智能的生成内容,或具有所使用生成式人工智能模型或服务的版本、获取时间等信息的记录。  2) サービス提供者が生成的 AI の生成されたコンテンツを収集していないか、又は使用した生成的 AI モデル又はサービスのバージョン、取得時期等の情報を記録している。
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果判定:実際の評価結果が期待される結果と一致する場合は適合と判定し、それ以外の場合は不適合と判定する。
8.3.2 数据预处理  8.3.2 データの前処理 
优化训练数据预处理安全要求的评价方法、预期结果和结果判定如下。  訓練データ前処理におけるセキュリティ要件の最適化のための評価方法、期待結果、結果判定は以下のとおりである。
a)     评价方法:  a) 評価方法 
1)       按照8.2.2a)规定的评价方法评价服务提供者优化训练数据的数据预处理情况;  1) 8.2.2a)で規定した評価方法に従い、サービス提供者の最適化訓練データのデータ前処理 を評価する; 
2)       随机抽样服务提供者预处理后的优化训练数据,抽样数量不少于100个样本,检查样本元数据内容的正确性;  2) サービス提供者によって前処理された最適化訓練データを,100 サンプル以上のサンプルサ イズで無作為にサンプリングし,そのサンプルのメタデータ内容の正しさをチェックする; 
3)       检查优化训练的标注数据是否符合GB/T AAAAA的安全要求;  3) 最適化訓練用のラベル付けされたデータがGB/T AAAAのセキュリティ要件を満たしているかどうかをチェックする; 
4)       随机抽样服务提供者预处理后的优化训练数据,抽样数量不少于100个样本,检查样本是否具有生成式人工智能生成数据的安全风险内容识别情况。  4) サービス提供者による前処理後の最適化訓練データを、100サンプル以上のサンプリング数でランダムにサンプリングし、そのサンプルが生成的AIによって生成されたデータのセキュリティリスク内容の特定が可能かどうかをチェックする。
b)     预期结果:  b) 期待される結果 
1)       符合8.2.2b)的预期结果;  1) 8.2.2b)の期待結果を満たす; 
2)       抽样样本涉及生成式人工智能生成内容的,样本的元数据内容包括生成式人工智能模型或服务的版本、获取时间等信息。  2) サンプルに生成的AIが生成したコンテンツが含まれる場合、サンプルのメタデータコンテンツには、生成的AIモデル又はサービスのバージョン、取得時刻、その他の情報が含まれる。
3)       优化训练标注数据符合GB/T AAAAA的安全要求;  3) 最適化訓練注釈データは、GB/T AAAAA のセキュリティ要件に準拠している; 
4)       抽样样本为生成式人工智能生成内容的,具有生成式人工智能生成数据的安全风险内容识别记录。  4) サンプルが生成的AIコンテンツである場合、生成的AIデータのセキュリティリスクコンテンツ特定記録がある。
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果判定:実際の評価結果が期待される結果と一致する場合は適合と判定し、それ以外の 場合は不適合と判定する。
8.3.3 数据使用  8.3.3 データの利用 
优化训练数据使用安全要求的评价方法、预期结果和结果判定如下。  訓練データ利用におけるセキュリティ要件の最適化のための評価方法、期待される結果および結果判定は以 下のとおりである。
a)     评价方法:  a) 評価方法 
1)       按照8.2.3a)规定的评价方法评价服务提供者优化训练数据的数据使用情况;  1) 8.2.3a)の評価方法に従い、サービス提供者の最適化訓練データの利用状況を評価する; 
2)       采用人工抽检方式从全部数据中随机抽取不少于4000个样本,核查服务提供者使用数据的生成式人工智能生成数据的安全风险内容识别记录的准确性;  2) 手動サンプリングにより、全データから 4,000 サンプル以上を無作為に抽出し、サービス提 供者による生成的 AI データ利用のセキュリティリスク内容特定記録の正確性を検証する; 
b)     预期结果:  b) 期待される結果 
1)       符合8.2.3b)的预期结果;  1) 8.2.3b)の期待される結果を満たす; 
2)       抽样样本不涉生成式人工智能生成内容,或抽样样本安全风险内容并与知识生成式人工智能生成数据的安全风险内容识别记录一致;  2) サンプルサンプルに生成的 AI 生成コンテンツが含まれない、又はサンプルサンプルの安 全リスクコンテンツが含まれず、知識生成的 AI 生成データのセキュリティリスク内容特定記録と一致している; 
c)     结果判定:实际评价结果与预期结果一致则判定符合,其他情况判定不符合。  c) 結果の判定:実際の評価結果が期待された結果と一致している場合は適合と判定され、それ以外の場合は不適合と判定される。
附录 A  附属書A 
(资料性) (資料)
预训练和优化训练数据的主要安全风险内容  訓練前データおよび最適化訓練データの主なセキュリティリスク内容 
A.1 包含违反社会主义核心价值观的内容  A.1 社会主義の中核的価値観に反するコンテンツを含む。
包含以下内容:  以下の内容を含む:
a)煽动颠覆国家政权、推翻社会主义制度;  a) 国家権力の転覆や社会主義体制の転覆を扇動する;
b)危害国家安全和利益、损害国家形象;  b) 国家の安全と利益を危険にさらし、国のイメージを損なう;
c)煽动分裂国家、破坏国家统一和社会稳定;  c) 国を分裂させ、国民の団結と社会の安定を損なうよう扇動する;
d)宣扬恐怖主义、极端主义;  d) テロリズムや過激主義を助長する;
e)宣扬民族仇恨;  e) 民族的憎悪を助長する;
f)宣扬暴力、淫秽色情;  f) 暴力、わいせつ、ポルノを助長すること;
g)传播虚假有害信息;  (g)虚偽の有害情報を広めること;
h)其他法律、行政法规禁止的内容。  h)その他、法律や行政規則で禁止されている内容。
A.2 包含歧视性内容  A.2 差別的な内容を含むもの
包含以下内容:  以下の内容を含む:
a)民族歧视内容;  a) 民族差別的な内容;
b)信仰歧视内容;  b) 信条差別的な内容;
c)国别歧视内容;  c) 国別の差別的内容;
d)地域歧视内容;  d) 地理的差別的内容
e)性别歧视内容;  e) 性別差別の内容
f)年龄歧视内容;  f) 年齢差別の内容
g)职业歧视内容;  g) 職業差別の内容
h)健康歧视内容;  h) 健康差別の内容
i)其他方面歧视内容。  i) その他の差別内容
A.3 商业违法违规  A.3 商業犯罪
主要风险包括:  主なリスクは以下の通りである:
a)侵犯他人知识产权;  a) 他人の知的財産権を侵害する;
b)违反商业道德;  b) ビジネス倫理違反
c)泄露他人商业秘密; c) 他人の商業秘密を開示すること;
 d)利用算法、数据、平台等优势,实施垄断和不正当竞争行为;  d) アルゴリズム、データ、プラットフォームなどを利用して独占や不正競争を行う;
e)其他商业违法违规行为。  e) その他の商業違反
A.4 侵犯他人合法权益  A.4 他者の正当な権利と利益の侵害
主要风险包括:  主なリスクには以下が含まれる:
a)危害他人身心健康;  a) 他人の身体的・精神的健康を危険にさらす。
b)侵害他人肖像权;  b) 他人の肖像権を侵害する;
c)侵害他人名誉权;  c) 他人の名誉権を侵害すること。
d)侵害他人荣誉权;  d) 他人の名誉権を侵害する。
e)侵害他人隐私权;  e) 他人のプライバシー権を侵害すること。
f)侵害他人个人信息权益;  f) 他人の個人情報権益を侵害する行為;
g)侵犯他人其他合法权益。   g) 他者のその他の正当な権利および利益の侵害。
附录 B  附属書B 
(规范性) (規範)
关键词库和分类模型要求  キーワードライブラリおよび分類モデルの要件 
B.1 关键词库  B.1 キーワードライブラリ 
要求如下。  要件は以下のとおりである。
a) 关键词库应具有全面性,总规模不宜少于10000个。  (a) キーワードライブラリは包括的でなければならず、総容量は 10,000 以上でなければならない。
b)   关键词库应具有代表性,应至少覆盖本文件附录A.1以及A.2中17种安全风险内容,附录A.1中每一种安全风险内容的关键词均不宜少于200个,附录A.2中每一种安全风险内容的关键词均不宜少于100个。  (b) キーワードライブラリは代表的なものでなければならず、本書の「Appendix A.1」および「Appendix A.2」に記載されている少なくとも17種類のセキュリティリスクをカバーしなければならない。「Appendix A.1」に記載されているキーワードの各セキュリティリスクの内容は200以上でなければならず、「Appendix A.2」に記載されているキーワードの各セキュリティリスクの内容は100以上でなければならない。
c) 关键词库应按照网络安全实际需要及时更新,每周宜至少更新一次。  c) キーワードデータベースは、ネットワークセキュリティの実際のニーズ に応じて適時に更新する。
B.2 分类模型  B.2 分類モデル 
分类模型用应完整覆盖本文件附录A中全部29种安全风险。  B.2 分類モデル 分類モデルは、本文書の「附属書 A」に記載されている 29 のセキュリティリスクを完全に網羅するものでなければならない。
参 考 文 献  参考文献 
[1]     TC260-PG-20233A  网络安全标准实践指南—生成式人工智能服务内容标识方法  [1] TC260-PG-20233A サイバーセキュリティ標準実施ガイドライン - 生成的人工知能サービスコンテンツ識別方法 
[2]     TC260-003  生成式人工智能服务安全基本要求  [2] TC260-003 生成的人工知能サービスのセキュリティに関する基本要件 

 

 

説明...

・[DOCX] 信息安全技术 生成式人工智能预训练和优化训练数据安全规范-编制说明  

国家标准《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(征求意见稿)编制说明 標準「サイバーセキュリティ技術 生成的人工知能事前訓練・最適化訓練データセキュリティ仕様」(意見募集案) 作成上の留意点
一、工作简况 I. 作業の簡単な説明
1.1任务来源 1.1 課題の源泉
为加强网络安全国家标准在国家网络安全保障工作中的基础性、规范性、引领性作用,全国网络安全标准化技术委员会调研国家网络安全重点工作和技术产业发展需求,研究形成了2023年网络安全国家标准需求清单,含《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》。2023年5月,北京中关村实验室联合相关单位参与申报该标准,于2023年8月份通过全国网络安全标准化技术委员会立项。 国家サイバーセキュリティ標準化技術委員会は、国家サイバーセキュリティ保護作業における国家サイバーセキュリティ標準の基本的、規範的、先導的役割を強化するため、国家サイバーセキュリティ重点作業と技術・産業発展ニーズを研究し、「生成的人工知能事前訓練と最適化訓練データセキュリティのためのサイバーセキュリティ技術仕様」を含む2023年のサイバーセキュリティ国家標準ニーズリストを研究・形成した。 2023年5月、北京中関村研究室は関連ユニットとともにこの標準の宣言に参加し、2023年8月、国家サイバーセキュリティ標準化技術委員会のプロジェクトに合格した。
1.2 制定背景 1.2 発展の背景
2022年11月底,生成式人工智能的出现引发各方广泛关注。为促进生成式人工智能技术健康发展和规范应用,2023年4月11日,国家互联网信息化办公室起草的《生成式人工智能服务管理办法(草案)》向全社会公开征求意见。其中,第七条有关“生成式人工智能产品的预训练数据、优化训练数据”条款备受关注。2023年4月13日,全国网络安全标准化技术委员会发布《关于发布2023年度第一批网络安全国家标准需求的通知》,将本标准纳入2023年网络安全国家安全标准需求项目。2023年7月13日,《生成式人工智能服务管理暂行办法》正式公布,并已于2023年8月15日正式施行。 2022年11月末、生成的AIの出現により、各方面の懸念が広がった。 生成的AI技術の健全な発展と標準化された応用を促進するため、2023年4月11日、国家インターネット情報化弁公室(NIITO)が起草した「生成的人工知能サービス管理弁法(案)」が社会全体に公開され、公開協議が行われた。 2023年4月13日、国家サイバーセキュリティ標準化技術委員会は、「2023年サイバーセキュリティ国家標準要求プロジェクト」に本標準を含む「2023年サイバーセキュリティ国家標準要求第一陣の発表に関する通知」を発表した。 2023年7月13日、「生成的人工知能サービス管理暫定措置」が正式に発表され、2023年8月15日に施行された。
2023年8月25日,全国网络安全标准化技术委员会发布《全国信息安全标准化技术委员会关于2023年第一批网络安全国家标准项目立项的通知》,明确本标准由北京中关村实验室作为项目牵头单位负责标准编制工作。 2023年8月25日、国家ネットワークセキュリティ標準化技術委員会は、「2023年サイバーセキュリティ国家標準第一陣プロジェクト設立に関する国家情報セキュリティ標準化技術委員会通知」を発表し、この標準は北京の中関村実験室が標準作成責任プロジェクトの主管部門として作成することを明らかにした。
1.3 起草过程 1.3 起草プロセス
1、2023年4月,北京中关村实验室牵头组建标准前期研究工作小组,小组对研究《生成式人工智能管理办法(征求意见稿)》,广泛收集专家对办法的讨论与解读,形成相应标准草案,并准备申报材料。 1. 2023年4月、北京中関村研究室は標準事前研究作業部会を率先して設置し、「生成的人工知能管理弁法(意見募集案)」を研究し、専門家の議論と解釈を広く集め、対応する標準草案を形成し、宣言資料を作成した。
2、2023年6月,北京中关村实验室编制组在全国网络安全标准化技术委员会2023年第一次“标准周”上进行标准汇报,通过组内成员单位投票。标准编制组根据意见进行认真修改。 2. 2023年6月、北京中関村実験室準備グループは、2023年に国家ネットワークセキュリティ標準化技術委員会では、グループのメンバー単位の投票を通じて、標準報告書の最初の "標準週"。 標準準備グループは、コメントに従って慎重に修正した。
3、2023年8月,全国网络安全标准化技术委员会发布《全国信息安全标准化技术委员会关于2023年第一批网络安全国家标准项目立项的通知》,同意本标准由北京中关村实验室作为项目牵头单位负责标准编制工作。 3. 2023年8月、国家ネットワークセキュリティ標準化技術委員会は、「2023年国家ネットワークセキュリティ標準第一陣の制定に関する国家情報セキュリティ標準化技術委員会通知」を発表し、本標準を北京中関村研究室がプロジェクトの主管として制定することに合意した。
4、2023年9月,北京中关村实验室召开标准研讨会,继续完善标准草案,并对外公开征集标准参编单位。 4. 2023年9月、北京中関村実験室は標準セミナーを開催し、標準草案の改良を続け、標準参加単位を一般から公募した。
5.2023年10月,北京中关村实验室正式成立标准编制组,召开国家标准制定启动会,并就标准草案内容向参编单位征集贡献,对标准内容进行完善。 5. 2023年10月、北京中関村研究室は正式に標準準備グループを設立し、国家標準開発のキックオフ会議を開催し、標準草案の内容について参加単位から投稿を募り、標準の内容を改善した。
6.2023年11月,北京中关村实验室编制组在全国网络安全标准化技术委员会2023年第二次“标准周”上进行标准汇报。SWG-BDS工作组对标准进行了审议并行成“修改完善后转为征求意见稿”结论。标准编制组根据意见进行认真修改。 6. 2023年11月、北京中関村実験室準備グループは、国家ネットワークセキュリティ標準化技術委員会で2023年、標準報告書、SWG-BDSワーキンググループの2番目の "標準週 "に審議のための標準になり、"コメントのためのドラフトに修正し、改善された。 "結論。 標準準備グループは、深刻な改訂のためのコメントに応じて。
二、标准编制原则、主要内容及其确定依据 II. 標準作成の原則、主な内容とその基礎の決定
2.1 标准编制原则 2.1 標準作成の原則
本标准的编制遵循以下原则:  この標準の作成は、次の原則に従う: 
(1) 先进性:标准反映当前《生成式人工智能服务管理暂行办法》等最新法律要求以及生成式人工智能的先进技术水平; (1) 先進性:本標準は、現行の生成的人工知能サービス管理暫定弁法などの最新の法的要求事項、および生成的人工知能の先進的な技術レベルを反映する;
(2) 开放性:标准的编制、评审与使用具有开放性; (2) 開放性:標準の作成、評価、使用は開放的である;
(3) 适应性:标准结合我国国情; (3) 適応性:標準は中国の国情に適合している;
(4) 简明性:标准易于理解、实现和应用; (4) 簡素性:標準は理解、実現、適用が容易である;
(5) 中立性:公正、中立,不与任何利益攸关方发生关联; (5) 中立性:公平性、中立性、いかなる利害関係者とも関係がない;
(6) 一致性:术语与国内外标准所用术语最大程度保持一致。 (6) 一貫性:国内外の規格で使用される用語の一貫性を最大限に保つ。
本标准通过“数据通用安全”和“数据处理安全”两个维度,对生成式人工智能服务的研发者开展预训练和优化训练过程中涉及的数据处理过程安全保护要求作出明确规范,以实现降低生成式人工智能服务遭受数据投毒、恶意诱导性提示等安全威胁目的。 本標準は、生成的AIサービスがデータ攻撃を受けるリスクを低減するという目標を達成するために、「データ全般のセキュリティ」と「データ処理のセキュリティ」という2つの側面を通じて、生成的AIサービスの開発者が実施する事前訓練と最適化訓練プロセスに関わるデータ処理プロセスのセキュリティ保護要件について明確な仕様を定めている。 生成的AIサービスは、データポイズニング、悪意のある誘導プロンプト、その他のセキュリティ脅威の対象となる。
2.2 主要内容及其确定依据 2.2 主な内容と判断根拠
本项目旨在于支撑《生成式人工智能服务管理暂行办法》第七条对预训练和优化训练等训练数据处理活动规范的落地实施,试图明确生成式人工智能服务研发者在预训练和优化训练等训练数据处理活动中的数据来源等方面的管理要求,解决生成式人工智能服务可能存在的被诱导生成侵害他人知识产权、个人信息等问题,提高生成式人工智能服务的安全性。 本事業は、事前訓練や最適化訓練等の訓練データ処理活動の仕様に関する生成的人工知能サービス管理暫定措置第7条の実施を支援することを目的とし、事前訓練や最適化訓練等の訓練データ処理活動におけるデータの出所について、生成的AIサービスの開発者の管理要件を明確化し、他者の知的財産権や個人情報を侵害するデータの誘導生成という形で存在する可能性のある生成的AIサービスの問題点を解決し、生成的AIサービスのセキュリティ向上を図ることを目的とする。 生成的AIサービスのセキュリティを向上させるために、知的財産権、個人情報等の問題を解決する。
2.3 修订前后技术内容的对比[仅适用于国家标准修订项目] 2.3 改定前と改定後の技術内容の比較【標準改定プロジェクトにのみ適用
不适用。 該当しない。
三、试验验证的分析、综述报告,技术经济论证,预期的经济效益、社会效益和生态效益 III. 試験検証、技術的・経済的正当性、期待される経済的・社会的・生態学的便益の分析・統合報告書
3.1 试验验证的分析、综述报告 3.1 テストバリデーションの分析と統合報告書
本文件规定了生成式人工智能预训练和优化训练数据及其处理活动的安全要求,描述了对应的评价方法。 本文書は、生成的 AI の事前訓練および最適化訓練データとその処理活動のセキュリティ要件を規定し、 対応する評価方法を記述する。
本文件适用于指导生成式人工智能服务提供者开展预训练和优化训练数据处理活动以及开展与训练预训练和优化训练数据安全自评价,也可为监管评估提供参考。 本書は、生成的AIサービス提供者が事前訓練および最適化訓練データ処理活動を実施する際の指針として、また、訓練を伴う事前訓練および最適化訓練データのセキュリティの自己評価を実施する際の指針として適用され、規制評価の参考資料となる可能性もある。
北京中关村实验室牵头制定本标准,并承担标准应用推广工作。国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院、清华大学、北京深言科技有限责任公司、北京面壁智能科技有限责任公司、北京智谱华章科技有限公司等单位将承担标准应用试点和技术支持任务。 北京中関村実験室はこの標準の制定を主導し、標準の適用を推進する。 国家コンピュータネットワーク緊急対応技術処理調整センター、中国国家電子技術標準化研究院、清華大学、北京深語科技有限公司、北京面智能科技有限公司、北京志分光華樟科技有限公司などの単位は、標準の試験的適用と技術サポート業務を引き受ける。
本标准编制过程主要分为标准文本编制及完善、标准试点工作等。前期以北京中关村实验室为牵头单位,组织联合申报单位充分调研学术界、产业界相关情况后共同撰写修改标准草案。标准完善后,在北京深言科技有限责任公司、北京面壁智能科技有限责任公司、北京智谱华章科技有限公司等参与单位展开标准试点工作。 標準の準備過程は主に標準文章の準備と改善、標準試験作業に分けられる。 第一段階は北京中関村研究室をリードユニットとして、共同報告ユニットを組織し、学術界、業界を十分に調査し、標準原案の共同執筆と修正後の状況に関連する。 標準が完成した後、標準の試行作業は北京申銀科技有限公司、瀋陽科技有限公司、瀋陽科技有限公司、瀋陽科技有限公司、瀋陽科技有限公司、瀋陽科技有限公司などの参加単位で行われる。
3.2 技术经济论证 3.2 技術的・経済的正当性
虽然落实本标准提出的安全要求,在短期内给生成式人工智能服务研发者增加了经济成本,包括但不限于:新增知识产权等方面合规人员的成本、开发分类模型等数据识别清洗计算机程序的成本、安全风险自评估的成本等,但这些成本能够有效增加生成式人工智能服务在社会公众使用、公众舆论方面的接受度和认可度,降低生成式人工智能服务在知识产权、个人信息等方面纠纷、争议的成本。总的来说,该技术标准给企业带来正面的经济效应。 本標準で提案するセキュリティ要求事項の実施により、生成的人工知能サービスの開発者は、短期的には、知的財産権等のコンプライアンス担当者の人件費、分類モデル等のデータ特定・クリーニング用コンピュータプログラムの開発費、セキュリティリスクのアセスメント費用等、経済的コストが増加するが、これらのコストは、生成的人工知能サービスの社会的利用を効果的に増加させることができ、また、世論の観点からも、生成的人工知能サービスの受容・受け入れを促進することができる。 生成的人工知能サービスの受容と認知を高め、生成的人工知能サービスの知的財産権、個人情報などをめぐる紛争や論争にかかるコストを削減することができる。 全体として、技術標準は企業にプラスの経済効果をもたらす。
3.3 预期的经济效益、社会效益和生态效益 3.3 期待される経済的、社会的、生態学的利益
该标准的社会效益在于保护生成式人工智能服务的安全性,减少生成式人工智能服务在侵害知识产权、个人信息等方面的风险,并在此基础上促进生成式人工智能服务商业方面的良性竞争。 本標準の社会的利益は、生成的AIサービスのセキュリティを保護し、知的財産権、個人情報等の侵害という観点から生成的AIサービスのリスクを低減し、これに基づいて生成的AIサービスの商業的側面における健全な競争を促進することである。
该标准不涉及生态效益。 なお、本標準は環境効率には関与しない。
四、与国际、国外同类标准技术内容的对比情况,或者与测试的国外样品、样机的有关数据对比情况 IV. 同種の国際標準および外国標準の技術内容との比較、又は試験された外国サンプルおよびプロトタイプの関連データとの比較
目前生成式人工智能预训练和优化训练数据安全不存在对应的国际标准,也未见其他国家制定了对应的技术标准。 現在のところ、生成的人工知能の事前訓練と最適化訓練データのセキュリティに関する対応する国際標準はなく、また、他国が対応する技術標準を制定したのを見たこともない。
五、以国际标准为基础的起草情况,以及是否合规引用或者采用国际国外标准,并说明未采用国际标准的原因 V. 国際標準に基づく起草、国際標準と外国標準の引用と準拠の有無、国際標準を採用しない理由。
当前,国际标准并没有对生成式人工智能预训练和优化训练数据安全开展标准化工作,其他国家也没有制定对应的技术标准,因此本标准制定工作中没有采用国际标准或国外标准。 現在、生成的人工知能の事前訓練および訓練データのセキュリティの最適化に関する標準化作業は国際標準では行われておらず、他国も対応する技術標準を策定していないため、本標準の策定において国際標準や外国標準を採用していない。
六、与有关法律、行政法规及相关标准的关系 VI. 関連法律、行政法規および関連標準との関係
本标准与现行法律、法规以及国家标准不存在冲突与矛盾。 本標準と既存の法律、法規および国家標準との間に矛盾や齟齬はない。
本标准为《生成式人工智能服务管理暂行办法》等法律法规的落地实施提供支撑,建议与标准《网络安全技术 生成式人工智能数据标注安全规范》等配套使用。 本標準は、「生成的人工知能サービス管理暫定措置」およびその他の法規の実施を支援 するものであり、標準「生成的人工知能データラベリングのためのサイバーセキュリティ 技術セキュリティ仕様」と合わせて使用することが推奨される。
七、重大分歧意见的处理经过和依据 VII. 主要な意見の相違の処理とその根拠
无。 特にない。
八、涉及专利的有关说明 VIII. 特許に関する説明
无。 なし。
九、实施国家标准的要求,以及组织措施、技术措施、过渡期和实施日期的建议等措施建议 IX. 標準規格の実施要件、ならびに組織的措置、技術的措置、移行期間および実施日の推奨、お よびその他の措置の提案
本标准规定了生成式人工智能在预训练和优化训练过程中,对所使用数据的通用安全要求、数据处理方面的安全要求,以及评价方法,适用于面向我国境内公众提供生成式人工智能服务的组织或个人提高预训练及优化训练数据获取与准备的安全水平,可也为生成式人工智能的数据提供者提供参考。 本標準は、生成的人工知能が事前訓練および最適化訓練の過程で使用するデータの一般的なセキュリティ要求、データ処理のセキュリティ要求および評価方法を規定するものであり、中国で一般に生成的人工知能サービスを提供する組織又は個人に適用され、事前訓練および最適化訓練データの取得および準備のセキュリティレベルを向上させ、生成的人工知能のデータ提供者の参考にもなる。 
十、其他应当说明的事项 X. その他説明すべき事項
无。 特になし。
《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》 生成的人工知能の事前訓練・最適化訓練データに関するサイバーセキュリティ技術セキュリティ仕様書
标准编制组 標準準備グループ

 

 

 

|

« 中国 TC260 意見募集 国家標準 「生成的AIデータ注釈のセキュリティ仕様」案 | Main | 中国 TC260 意見募集 国家標準 「データセキュリティ技術 電子透かし技術的実施指針」案 »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« 中国 TC260 意見募集 国家標準 「生成的AIデータ注釈のセキュリティ仕様」案 | Main | 中国 TC260 意見募集 国家標準 「データセキュリティ技術 電子透かし技術的実施指針」案 »