« 中国 TC260 意見募集 国家標準「個人情報主体の求めに基づく個人情報の授受に関する要求事項」案 | Main | 中国 TC260 意見募集 国家標準 「生成的AIの事前訓練・最適化訓練データのセキュリティ仕様」案 »

2024.04.09

中国 TC260 意見募集 国家標準 「生成的AIデータ注釈のセキュリティ仕様」案

こんにちは、丸山満彦です。

中国の家情報セキュリティ標準化技術委員会 (TC260) が「生成的AIデータ注釈のセキュリティ仕様」の草案を公表し、意見募集をしていますね。。。

これは、中国独自の標準ですかね。。。

なかなか細かく作り込んでいますね...

 

● 全国信息安全标准化技术委员会

・2024.04.03 关于国家标准《信息安全技术 生成式人工智能数据标注安全规范》征求意见稿征求意见的通知

ドラフトはこちら...

・[DOCX] 信息安全技术 生成式人工智能数据标注安全规范-标准文本

20240408-233411

 

説明も...

・[DOCX] 信息安全技术 生成式人工智能数据标注安全规范-编制说明

 

 


 

网络安全技术 サイバーセキュリティ技術
生成式人工智能数据标注安全规范 生成的AIデータ注釈のセキュリティ仕様
Cybersecurity technology— サイバーセキュリティ技術
Generative artificial intelligence data annotation security specification 生成的AIデータ注釈のセキュリティ仕様
(征求意见稿) (公開草案)
目次 目次
前言 序文
1 范围 1 範囲
2 规范性引用文件 2 参考文献
3 术语和定义 3 用語と定義
4 概述 4 概要
5 数据标注基础安全要求 5 データラベリング基盤のセキュリティ要件
5.1 数据安全要求 5.1 データセキュリティ要件
5.2 标注工具安全要求 5.2 ラベリングツールセキュリティ要件
5.3 访问控制安全要求 5.3 アクセス制御セキュリティ要件
5.4 数据传输安全要求 5.4 データ伝送セキュリティ要件
6 数据标注规则安全要求 6 データ注釈ルールセキュリティ要件
7 标注人员要求 7 ラベリング要員要件
7.1 标注人员安全培训 7.1 ラベリング要員セキュリティ研修
7.2 标注人员选拔 7.2 ラベリング要員の選定
7.3 标注人员管理 7.3 ラベリング要員の管理
8 数据标注核验要求 8 データ注記検証要件
8.1 基本要求 8.1 基本要件
8.2 功能性标注核验安全要求 8.2 機能的注記検証セキュリティ要件
8.3 安全性标注核验安全要求 8.3 セキュリティ注釈検証セキュリティ要件
9 标注安全测试方法 9 ラベリングセキュリティ試験方法
9.1 留存记录检查测试 9.1 保持記録チェック試験
9.2 标注人员测试 9.2 ラベリング担当者試験
9.3 标注数据测试 9.3 ラベリングデータ試験
附录A (资料性) 生成式人工智能数据标注示例 附属書A(参考)AIデータ注釈の生成例
附录B (资料性) 人工智能标注任务类型示例 附属書B(参考) AI注釈タスクタイプの例
附录C (规范性) 语料及生成内容的主要安全风险 附属書C(規範) コーパスと生成コンテンツの主なセキュリティリスク
前言 序文
本文件按照GB/T 1.1—2020《标准化工作导则  第1部分:标准化文件的结构和起草规则》的规定起草。 本文書は、GB/T 1.1-2020「標準化作業ガイドライン第1部:標準化文書の構造および起草規則」の規定に基づいて起草されている。
本文件由全国网络安全标准化技术委员会(SAC/TC260)提出并归口。 本文書は、国家ネットワークセキュリティ標準化専門委員会(SAC/TC260)が提案し、帰属する。
本文件起草单位:国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院、中关村实验室 本文書の起草単位:中国電子技術標準化研究院中関村研究室国家コンピュータネットワーク緊急技術処理調整センター
本文件主要起草人: この文書の主な起草者
网络安全技术 ネットワークセキュリティ技術
生成式人工智能数据标注安全规范 生成的AIデータ注釈のセキュリティ仕様書
1 范围 1 範囲
本标准规定了生成式人工智能训练的数据标注基础安全要求、数据标注规则安全要求、标注人员要求、数据标注核验要求和标注安全测试方法。 本標準は、生成的AI訓練のデータ注釈の基本セキュリティ要求事項、データ注釈規則のセキュリティ要求事項、注釈担当者の要求事項、データ注釈検証の要求事項、注釈セキュリティ試験方法を規定する。
本标准适用于生成式人工智能数据标注方开展训练数据标注活动,也可为生成式人工智能数据需求方对于数据标注进行检查、验收或第三方机构对数据标注进行安全性评估提供参考。 本標準は、生成的AIデータ注釈当事者に適用され、訓練データ注釈活動を実施するだけでなく、生成的AIデータ需要側のデータ注釈検査、受け入れ、または第三者機関のデータ注釈のセキュリティを評価するために参考資料を提供する。
2 规范性引用文件 2 引用規格
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 以下の文書の内容は、本文中の規範的な参照を通じて、本文書の不可欠な規定を構成する。 その中で、日付のある引用文書については、その日付に対応するバージョンのみが本文書に適用され、日付のない引用文書については、最新バージョン(すべての改訂シートを含む)が本文書に適用される。
GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 GB/T 42755-2023 人工知能 機械学習のためのデータ注釈プロトコル
3 术语和定义 3 用語と定義
下列术语和定义适用于本文件。 以下の用語と定義がこの文書に適用される。
3.1   3.1
提示信息 prompt  プロンプト 
引导生成式人工智能模型完成特定任务并提供合理输出内容的输入信息。 生成的AIモデルが特定のタスクを完了し、妥当な出力内容を提供するよう導く入力情報。
3.2   3.2
响应信息 response  応答 
在生成式人工智能数据标注中,按照提示信息要求形成的符合人类认知的应答信息,用于训练模型形成对提示信息输出相应内容、模式或风格的响应的能力。 生成AIデータ注釈において、プロンプト情報の要求に従って形成される応答情報は、人間の認知に適合しており、プロンプト情報に対応する内容、パターン、またはスタイルで応答する能力を形成するモデルを訓練するために使用される。
3.3 3.3
生成式人工智能数据标注 generative artificial data annotation 生成的人工知能データ注釈
通过人工操作或使用自动化技术机制,基于对提示信息的响应信息内容,将特定信息如标签、类别或属性添加到文本、图片、音频、视频或者其他数据样本的过程。 手動または自動化された技術的メカニズムを使用して、キューメッセージに対する応答の内容に基づいて、テキスト、画像、音声、映像、またはその他のデータサンプルにラベル、カテゴリ、または属性などの特定の情報を追加するプロセス。
注:以下简称“数据标注”。 注:以下「データ注釈」という。
3.4 3.4
功能性数据标注 functional data annotation  機能的データ注釈 
用于训练生成式人工智能模型具备完成特定任务能力的数据标注。 特定のタスクを実行できるように生成AIモデルを訓練するために使用されるデータ注釈。
3.5 3.5
安全性数据标注 security data annotation  セキュリティ・データ注釈 
用于训练生成式人工智能模型提升输出响应信息安全性的数据标注。 出力される応答情報の安全性を向上させるために、生成AIモデルの学習に使用されるデータ注釈。
3.6 3.6
微调训练数据标注 fine-tuning data annotation  微調整データ注釈 
训练生成式人工智能模型具备完成特定任务或输出安全响应信息能力的数据标注。 生成AIモデルを学習させ、特定のタスクを完了する能力や安全対応情報を出力する能力を持たせるためのデータ注釈。
3.7 3.7
偏好数据标注 comparison data annotation  比較データ注釈 
针对同一个提示信息的正反例或多个不同的响应信息,标注人员根据偏好给出打分或者排序标注的数据标注,通过强化学习等方式提升生成式人工智能模型的性能或安全性。 同じプロンプトメッセージや複数の異なる応答メッセージの肯定例と否定例に着目し、強化学習などの手法により、生成AIモデルの性能や安全性を向上させるために、アノテータが好みに応じて点数をつけたり、順位をつけたりするデータ注釈を行う。
注:反例数据通过强化学习等学习范式,训练模型降低输出类似反例响应的概率。 注:反例データは、強化学習などの学習パラダイムにより、類似した反例応答を出力する確率を低減するモデルの学習に用いられる。
3.8 3.8
标注规则 annotation rules 注釈ルール
生成式人工智能模型数据标注时所遵循的方法、要求的统称。 生成AIモデルのためにデータに注釈を付ける際に従うべき方法と要件の総称。
3.9 3.9
数据标注人员 annotator データ注釈者
执行标注任务、产出标注内容的人员。 注釈作業を行い、注釈されたコンテンツを作成する人。
3.10 3.10
标注审核人员 annotation reviewer 注釈レビュアー
对初始化标注结果进行质量控制的人员。 初期化された注釈結果の品質管理を行う者。
3.11 3.11
标注仲裁人员 annotation arbitrator 注釈仲裁人
当多名标注人员对同一标注对象的标注结果不一致或存在争议时,负责给出最终标注结果的人员。 同じ注釈オブジェクトに対して複数の注釈担当者が注釈を行った場合、注釈結果に矛盾が生じたり、論争が生じたりした場合に、担当者の最終的な注釈結果を決定する。
3.12 3.12
标注监督人员 annotation supervisor 注釈監督者
对标注活动进行监督,判定数据标注活动是否符合各项要求的人员。 注釈活動を監督し、データ注釈活動が要求事項に適合しているかどうかを決定する者。
3.13 3.13
数据标注方 data annotator データ注釈担当者
组织数据标注人员开展数据标注活动、对标注质量有直接责任的人员或机构。 データ注釈活動を実施するためにデータ注釈者を組織し、注釈の質 に直接責任を持つ個人または組織。
3.14 3.14
数据需求方 data requester データ要求者
提出数据标注需求的人员或机构。 データ注釈の要求事項を提出する個人または組織。
 [来源:GB/T 42755-2023,定义3.4]  [出典:GB/T 42755-2023、定義 3.4]。
4 概述 4 概要
本文件定义了生成式人工智能数据标注安全的相关要求,具体包括: 本文書は、生成 AI のデータ注釈のセキュリティに関連する要件を定義するもので、具体的には以下を含む:
a)   数据标注基础安全要求:针对数据安全、标注工具安全、访问控制和数据传输提出安全要求; a) データ注釈基本セキュリティ要件:データセキュリティ、注釈ツールセキュリティ、アクセス制御、データ伝送に関するセキュリティ要件;
b)   数据标注规则安全要求:针对数据标注方制定生成式人工智能数据标注规则提出安全要求; b) データ注釈ルールのセキュリティ要件:生成AIデータ注釈ルールを策定するためのデータ注釈当事者に対するセキュリティ要件;
c)   标注人员要求:针对标注人员在培训、选拔和管理等方面提出安全要求; c) 注釈担当者の要件:トレーニング、人選、管理の観点から、注釈担当者のセキュリティ要件を提案する;
d)   数据标注核验要求:针对生成式人工智能数据标注核验提出安全要求。 d) データ注釈検証要件:生成AIデータ注釈検証のためのセキュリティ要件を提示する。
1_20240408234501
图1生成式人工智能数据标注安全框架图 図1 生成AIデータ注釈のセキュリティフレームワーク図
5 数据标注基础安全要求 5 データ注釈の基本的なセキュリティ要件
5.1 数据安全要求 5.1 データセキュリティ要件
数据标注方应确保对标注数据的安全性,要求如下: データ注釈当事者は、注釈データのセキュリティを以下のように確保しなければならない:
a)   应检查标注数据是否包含敏感个人信息,采取必要措施对敏感个人信息进行匿名化处理; a) データ注釈者は、注釈データに機微な個人情報が含まれているかどうかを確認し、機微な個人情報を匿名化するために必要な措置を講じなければならない;
b)   应实施数据访问控制,限制对标注数据的访问,只允许经过授权的标注人员访问; b) データアクセス制御を実施し、注釈データへのアクセスを制限し、権限を与えられた注釈者のみがアクセスできるようにする;
c)   应备份准备标注的数据,以防止数据丢失或损坏,同时确保备份数据的安全性; c) ラベリングの準備が整ったデータは、データの紛失や破損を防ぐためにバックアップされるべきであり、同時にバックアップされたデータのセキュリティを確保する;
d)   应监控和记录准备标注的数据的访问和修改记录,以进行数据安全审计; d) データセキュリティ監査のために、注釈準備完了データのアクセス記録と変更記録を監視・記録する;
e)   当标注任务终止或完成时,应按照合同约定对数据进行相关处置;合同中如无相关要求,但涉及生物特征等敏感信息的,应按照相关法律要求删除相关数据,并妥善处置其余数据。 e) ラベリング作業が終了または完了した場合、データは契約に従って廃棄されるも のとする。契約に関連要件はないが、バイオメトリック特徴などの機微情報が含まれ ている場合、関連データは関連法の要件に従って削除され、残りのデータは適 切に廃棄されるものとする。
5.2 标注工具安全要求 5.2 ラベリングツールのセキュリティ要件
数据标注方应确保实施标注活动所采用工具的安全性,要求如下: データ注釈の当事者は、注釈活動を実施するために使用するツールのセキュリティを確保 しなければならない:
a)   应定期对标注平台或框架进行安全评估,发现潜在的安全漏洞,及时进行修复,并详细记录漏洞发现及处置情况; a) 注釈プラットフォームまたはフレームワークのセキュリティ評価を 定期的に実施し、潜在的なセキュリティの抜け穴を発見し、適時に修復し、抜け穴の発見と 処分の詳細な記録を保管すること;
b)   应在安全的标注平台或框架开展标注活动,宜采用国产化数据标注平台或框架; b) 注釈活動は、安全な注釈プラットフォームまたはフレームワーク上で実施するものとし、国産のデータ注釈プラットフォームまたはフレームワークを採用することが望ましい;
c)   应确保标注平台或框架能详细记录用户的操作和系统活动,以便在发生安全事件时进行调查;应确保日志包含足够的详细信息,以追踪数据的处理历史; c) 注釈プラットフォームまたはフレームワークは、セキュリティ・インシデントが発生した場合の調査のために、ユーザーの操作とシステム活動を詳細に記録できることを保証しなければならない;
d)   对于集中开展的数据标注工作,应提供具有适当区域划定和访问控制的物理环境,以防止未授权人员进入标注区域,确保标注物理环境安全;对于非集中开展的数据标注工作,应确保每位标注人员所使用的标注设备安全和网络传输通道安全; d) 集中型データ注釈作業の場合、適切な区域区分とアクセス制御を備えた物理的環境を提供し、権限のない人が注釈区域に入るのを防ぎ、注釈のための物理的環境のセキュリティを確保すべきである。非集中型データ注釈作業の場合、各注釈者が使用する注釈機器のセキュリティとネットワーク伝送路のセキュリティを確保すべきである;
e)   如在标注过程中使用自动化标注工具进行辅助标注,应使用符合我国相关法律法规要求的自动化标注工具。 e) 注釈の過程において、注釈を補助するために自動注釈ツールを使用する場合、中国の関連法規の要件を満たす自動注釈ツールを使用しなければならない。
5.3 访问控制安全要求 5.3 アクセス制御のセキュリティ要件
数据标注方应建立访问控制机制并采取相应安全控制措施,要求如下: データ注釈当事者は、アクセス制御メカニズムを確立し、対応するセキュリティ制御措置を講じなければならない:
a)   应制定安全访问控制策略,只有经过身份验证和授权的人员可以访问标注工具和准备标注的数据; a) 認証され、権限を与えられた人員のみが注釈ツールおよび注釈可能なデータにアクセスできるように、セキュリティアクセス制御ポリシーを策定する;
b)   应配置标注人员权限,标注人员只能访问其分配的标注任务数据; b) 注釈要員が、割り当てられた注釈タスクのデータにのみアクセスできるように、注釈要員の権限を設定する;
c)   对于因出现安全风险问题被取消标注资格的人员,应同时撤销其标注工具和数据的访问权限; c) セキュリティリスクの問題が発生したために注釈資格を取り消された要員については、注釈ツールおよびデータへのアクセス権も同時に取り消されるべきである;
d)   应根据需要设置已完成标注数据的访问和导出权限; d) 完成した注釈データに対するアクセス権とエクスポート権は、必要に応じて設定する;
e)   宜对安全性标注数据在单独数据库中进行隔离存储并配置独立访问控制策略。 e) セキュリティ注釈データを分離して別のデータベースに保存し、独立したアクセス制御ポリシーを設定することが適切である。
5.4 数据传输安全要求 5.4 データ伝送セキュリティ要件
数据标注方应建立信息传输安全机制并采取相应安全控制措施,要求如下: データ注釈当事者は、情報伝送セキュリティメカニズムを確立し、対応するセキュリティ管理措置を講じなければならない:
a)   应在标注活动各阶段的所有数据传输使用安全传输协议; a) ラベリング活動のすべての段階において、すべてのデータ伝送に安全な伝送プロトコルを使用する;
b)   应明确有权执行数据传输的标注人员的范围以及他们可以访问的数据范围; b) データ伝送を行う権限を与えられたラベラーの範囲と、彼らがアクセスできるデータの範囲を明確にしなければならない;
c)   应采用独立安全传输协议传输安全性标注数据。 c) セキュリティ注釈データの伝送には、別の安全な伝送プロトコルを使用しなければならない。
6 数据标注规则安全要求 6 データラベリング規則のセキュリティ要件
数据标注方制定标注规则的要求如下: データ・ラベラーがラベリング・ルールを確立するための要件は次のとおりである:
a)   标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容,生成式人工智能数据标注示例可参考附录A; a) 注釈規則は、少なくとも、注釈目的、データ形式、注釈方法、品質指標等を含むものとする;
b)   数据标注方应分别对功能性数据标注与安全性数据标注制定具体的标注规则,标注规则应至少覆盖数据标注以及数据审核等环节; b) データ注釈当事者は、機能データ注釈とセキュリティデータ注釈について、それぞれ特定の注釈ルールを策定し、注釈ルールには少なくともデータ注釈とデータレビューを含めるものとする;
c)   数据标注方应明确具体标注任务类型,对含有文本、图片、音频、视频、时间序列等不同内容的标注任务,任务类型可参考附录B; c) データ注釈当事者は、特定の注釈タスクタイプを指定しなければならない。テキスト、画像、音声、映像、時系列などの異なるコンテンツを含む注釈タスクについては、タスクタイプは附属書Bを参照することができる;
注:应符合GB/T42755-2023中5.1.1的数据需求方标注任务要求。 注:GB/T42755-2023 の 5.1.1 のデータ要求側注釈タスク要件を満たさなければならない。
d)   功能性标注规则应能够用于指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料,包含正反例信息,使标注人员能够依据标注规则正确执行标注任务; d) 機能的注釈ルールは、注釈担当者が注釈ルールに基づいて正しく注釈タスクを実行できるように、特定のドメインの特性に従って、信憑性、正確性、客観性、多様性を備えた注釈コーパスを作成するためのガイドとして使用でき、情報の肯定例と否定例を含んでいなければならない;
e)   功能性标注规则应包含安全风险内容的识别方法及参考示例,能够使标注人员依据标注规则判定安全风险提示信息,避免产生包含安全风险内容的响应信息标注; e) 機能的な注釈ルールには、セキュリティリスク内容の識別方法と参照例を含める。これにより、注釈ルールに従って、注釈者がセキュリティリスク促し情報を決定でき、セキュリティリスク内容を含む応答情報の注釈が作成されることを回避できる;
f)   安全性标注规则应能够指导标注人员围绕语料及生成内容的主要安全风险进行标注; f) セキュリティ注釈ルールは、コーパスと生成されたコンテンツの主なセキュリティリスク周辺に注釈を付けるように、注釈者を誘導できるようにする;
g)   安全性标注规则中包含涉及安全风险内容的提示信息时的响应信息标注规则说明及参考示例,能够使标注人员能够依据标注规则给出安全合理的引导性响应信息标注; g) セキュリティ注釈ルールには、プロンプト情報にセキュリティリスクコンテンツが含まれる場合の応答情報注釈ルールの指示と参考例が含まれており、注釈ルールに従って、注釈担当者が安全で合理的な応答情報注釈を行うことができる;
h)   应包含不符合标注规则的标注的识别方法及参考示例,能够使标注人员能够依据标注规则及时动态重新或纠正标注内容; h) 注釈ルールに適合しない注釈の識別方法と参考例を記載し、アノテータが注釈ルールに従って、注釈された内容をその時々に動的に再修正または修正できるようにする;
i)   应包含对数据标注结果的质量及安全性核验方法; i) データ注釈結果の品質および安全性の検証方法を含むべきである;
j)   应包含应对和处置标注过程中安全事件的应急响应和通知机制。 j) 注釈プロセスにおけるセキュリティ・インシデントに対処するため、緊急時対応および通知メカニズムを含むべきである。
7 标注人员要求 7 ラベリング担当者に対する要件
7.1 标注人员安全培训 7.1 注釈担当者に対する安全教育
数据需求方与数据标注方应组织标注人员进行安全培训,要求如下: データ要求側及びデータ注釈側は、注釈担当者に対し、以下の要件を備えたセキュリ ティ研修を組織しなければならない:
a)   培训内容应至少包括数据标注规则安全要求、数据标注工具使用方法及安全要求、数据标注质量及安全性核验方法、标注数据安全管理、典型安全风险场景及相关安全问题案例及识别方法、标注人员安全意识培训等; a) 研修内容には、少なくとも、データ注釈ルールのセキュリティ要件、データ注釈ツールの使用方法とセキュリティ要件、データ注釈の品質とセキュリティ検証方法、注釈データのセキュリティ管理、典型的なセキュリティリスクシナリオと関連するセキュリティ問題事例とその特定方法、及び注釈要員のセキュリティ意識研修を含むものとする;
b)   应在培训结束后组织标注人员进行安全考核,给予合格者标注上岗资格,对考核过程进行记录,并留存记录文档; b) 訓練終了後、注釈要員のセキュリティアセスメントを実施し、有資格者に注釈資格を与え、アセスメントプロセスを記録し、記録ファイルを保管する;
注:考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等。 注:評価内容は、ラベリング規則を理解する能力、ラベリングツールを使用する能力、セキュリティリスクを判断する能力、データセキュリティを管理する能力を含むものとする。
c)   应定期组织重新培训考核,暂停或取消不合格者的标注上岗资格。 c) 定期的な再研修と評価を実施し、無資格者のマーキング資格は一時停止または取り消す。
7.2 标注人员选拔 7.2 ラベリング要員の選定
数据标注方应开展标注人员选拔工作,要求如下: データ注釈の当事者は、注釈担当者の選定を以下の要件で実施しなければならない:
a)   应按数据标注规模和标注任务需求,明确标注人员的数量和岗位职责,并根据任务实际情况动态调整; a) データ注釈の規模および注釈業務の需要に応じて、注釈要員の数および職務を規定し、業務の実情に応じて動的に調整する;
b)   应按标注任务中的不同职责定位,划分标注人员角色,包括数据标注人员、标注审核人员、标注仲裁人员、标注监督人员,并根据角色能力要求择优选拔; b) 注釈担当者の役割は、データ注釈担当者、注釈レビュー担当者、注釈仲裁担当者、注釈監督担当者など、注釈タスクにおけるさまざまな職務の位置づけに従って分けられ、役割能力の要件に従って、能力に基づいて選抜される;
c)   应对各标注人员角色选拔过程进行记录,并留存记录文档。 c) 各注釈要員の役割の選定プロセスを記録し、記録文書を保管する。
7.3 标注人员管理 7.3 注釈者の管理
数据标注方组织数据标注人员开展数据标注工作的要求如下: データ注釈担当者がデータ注釈作業を行うための要件は以下の通りである:
a)   数据标注人员应按照数据标注规则及任务要求及时完成数据标注,提交数据标注结果由标注审核人员进行审查; a) データ注釈担当者は、データ注釈の規則および作業要件に従い、適 時にデータ注釈を完了し、データ注釈結果を注釈レビューアの レビューを受けるために提出する;
b)   标注审核人员应对数据标注结果进行核验和质量把控,对标注质量不合格的数据,退回进行重新标注,对数据标注存在争议或多人标注数据存在不一致的情况,提交标注仲裁人员进行仲裁,并保留审核记录; b) 注釈レビュアーは、データ注釈結果を検証し、品質管理を行い、注釈品質が不適格なデータについては、再ラベリングのために返却し、また、複数の人が注釈したデータにおけるデータ注釈の紛争や不整合を仲裁するために、注釈仲裁要員を提出し、監査記録を保管する;
c)   对于多人标注数据存在不一致或数据存在争议情况,标注仲裁人员应进行最终裁决判定,并保留仲裁记录。裁定通过的,提交标注结果;裁定不通过的,退回进行重新标注; c) 複数の人がラベリングしたデータの不一致、またはデータに争いがある場合、ラベリング仲裁人が最終裁定を下し、仲裁記録を保管する。 決定が下された場合は、ラベリング結果を提出し、決定が下されなかった場合は、再ラベリングのために返送する;
d)   标注监督人员应对标注活动进行监督,对标注过程中不同角色人员的任务完成情况进行抽样检查;应对标注过程中发生的数据安全、传输安全等风险情况等进行及时发现处理,并保留风险发现及处置情况记录; d) 注釈監督者は、注釈活動を監督し、注釈プロセスの異なる役割の要員によるタスクの完了についてサンプリングチェックを行う;
e)   在同一项标注任务中,同一人员不应承担多个角色任务。 e) 同じ注釈作業において、同じ要員が複数の役割の作業を引き受けてはならない。
8 数据标注核验要求 8 データラベリング検証要件
8.1 基本要求 8.1 基本要件
数据标注方应对数据标注结果进行核验,要求如下: データ注釈者はデータ注釈の結果を検証しなければならず、その要件は以下の通りである:
a)   宜保证微调训练数据标注中的安全性标注比例不低于30%; a) 微調整訓練データ注釈における安全注釈の割合が 30%以上であることを確 保することが適切である;
注:该比例的计算方法为: 注:割合の計算方法は以下の通りである:
b)   应对标注结果进行核验,核验方式包括但不限于: b) 注釈結果は検証されなければならず、検証方法には以下のものが含まれるが、これらに限定されない:
1)   人工核验:通过标注审核人员对标注结果进行随机抽样核验等方式,检验标注结果的质量和安全性; 1) 手作業による検証:注釈レビューアによる注釈結果の無作為抽出により、注釈結果の品質と安全性を検証する;
2)   混合核验:使用相关检测算法或自动化标注工具自动验证标注结果,自动检测标注结果的质量和安全性问题,后续由人工对自动化核验的结果通过采用随机抽样核验等方式进行核验。 2) 混合検証:関連するテストアルゴリズムまたは自動注釈ツールを使用して注釈結果を自動検証し、注釈結果の品質および安全性を自動的に検出し、その後、ランダムサンプリング検証およびその他の検証方法を採用して自動検証の結果を手動で検証する。
c)   应对标注结果进行一定规模内容核验,核验内容包括但不限于:  c) 注釈結果の検証は一定の規模で行うものとし、検証内容には以下のものが含まれるが、これらに限定されるものではない: 
1)   理解准确:确认标注结果清晰且符合问题意图要求;识别并标注提示信息中的关键信息和隐形条件; 1) 正確な理解:注釈結果が明確であり、質問意図の要件に沿っていることを確認する;
2)   问答一致:确保响应信息完全符合提示信息的约束条件和预期目标; 2) 質問と回答の一貫性:回答情報がプロンプトの制約と意図された目標を完全に満たしていることを確認する;
3)   保证质量:检查并修正语法错误、用词不当或风格不搭配的问题;避免语言使用和句式结构的重复,确保表达多样性和清晰度。 3) 品質の保証:文法上の誤り、不適切な表現、文体の不一致をチェックし、修正する。言語使用や文構造の繰り返しを避け、表現の多様性と明瞭性を確保する。
d)   应对核验发现的标注结果中的问题进行纠正或重新标注,并跟踪纠正情况和处理结果; d) 検証によって発見されたラベリング結果の問題は、修正または再ラベリングされ、 修正および結果のフォローアップが行われるべきである;
e)   数据重新标注的要求如下: e) データの再ラベリングに関する要件は以下の通りである:
1)   数据标注人员应对标注任务执行阶段和标注结果输出阶段记录的所有问题标注进行纠正; 1) データ注釈担当者は、注釈タスク実行段階および注釈結果出力 段階で記録された問題のある注釈をすべて修正しなければならない;
2)   数据标注人员应逐条记录标注纠正的详细信息,包括原始标注人员信息、标注纠正人员信息、原始标注内容、纠正后的标注内容、原始标注时间、纠正标注时间等; 2) データ注釈担当者は、元の注釈担当者の情報、注釈修正担当者の情報、元の注釈の 内容、修正された注釈の内容、元の注釈の時刻、修正された注釈の時刻を含む、注釈修正 の詳細を項目ごとに記録しなければならない;
3)   标注审核人员应对纠正后的标注进行复核,复核通过的将纠正标注结果进行更新和归档,复核未通过的按需进行重新标注。 3) 採点監査担当者は、訂正された注釈を確認し、訂正された注釈の結果を更新し、保管するため に確認し、必要に応じて再採点するために失敗した注釈を確認する。
f)   应记录每次核验的详细信息,包括审核人员信息、核验时间、核验结果和发现的问题; f) 審査員情報、検証時間、検証結果、発見された問題点など、各検証の詳細情報を記録する;
g)   应形成并留存核验报告,总结核验结果,包括建议的改进措施和纠正措施等; g) 改善策や是正措置の提案を含め、検証結果をまとめた検証報告書を作成し、保管する;
h)   应对标注数据核验过程进行记录并形成可查阅的记录文档。 h) 注釈データの検証プロセスを記録し、アクセス可能な記録ファイルを作成する。
8.2 功能性标注核验安全要求 8.2 機能的注釈検証のセキュリティ要件
数据标注方应对功能性数据标注的标注质量及安全性进行评估核验,要求包括担不限于: データアノテータは、機能データ注釈の品質と安全性を評価し、検証するものとす る:
a)   功能性标注数据不应包含任何安全风险信息,主要安全风险可参考附录C; a) 機能的注釈データには安全リスク情報が含まれていてはならない;
b)   标注数据中提示信息及响应信息在内容上应具备逻辑性、有效性,对于特定领域的应答需合理; b) ラベリングデータのプロンプト情報および応答情報は、論理的かつ効果的な内容であるべきであり、特定のフィールドへの応答は合理的であるべきである;
c)   标注数据应具备合理性、真实性、准确性、客观性、多样性等; c) ラベリングデータは、合理性、真実性、正確性、客観性、多様性を持つべきである;
d)   响应信息内容应具备准确性、有用性、时效性、逻辑性、易读性等: d) 回答情報の内容は、正確で、有用で、タイムリーで、論理的で、読みやすいものでなければならない:
1)   内容准确性:标记响应信息内容中的事实陈述是否准确,包括但不限于地理信息、历史事件、科学知识等; 1) 内容の正確さ:地理的情報、歴史的事象、科学的知識など、回答情報の内容に含まれる事実の記述が正確かどうかをマークする;
2)   有用性:标记响应信息内容对用户问题的解答程度,以及提供的信息是否能够满足用户需求; 2) 有用性:回答メッセージの内容が利用者の質問にどの程度答えているか、また提供された情報が利用者のニーズに合っているかをマークする;
3)   时效性:标记响应信息内容中的信息是否与当前时势保持同步,以及提供的信息是否仍然有效; 3) 適時性:マークされた応答メッセージの内容の情報が現在の状況と同期しているか、また提供された情報が現在も有効かどうかを示す;
4)   逻辑性:标记响应信息内容中的论述是否连贯、合理,以及论据是否支持结论; 4)論理性:採点回答内容の論旨が首尾一貫して妥当であるか、論旨が結論を裏付けているか;
5)   易读性:标记响应内容中的语言是否流畅、通顺,以及是否易于理解。 5) 読みやすさ:ラベル付けされた回答の言葉が流暢で、論理的で、理解しやすいかどうか。
e)   应对提示信息标注质量进行全面核验,检查可能存在的质量缺陷,包括但不限于: e) プロンプトメッセージの注釈の品質は、以下のような品質上の欠陥がないかを総合的に検証する:
1)   提示信息不符合标注规则; 1) プロンプト情報がラベリングの規則に準拠していない;
2)   提示信息不完整,缺少关键信息,或表达意图不明确。 2) プロンプトメッセージが不完全である、重要な情報が欠落している、または意図が不明確である。
f)   应对响应信息标注质量进行全面核验,检查可能存在的质量缺陷,包括但不限于: f) レスポンス情報のラベリング品質は、以下のような品質欠陥の可能性をチェックするため に、十分に検証されなければならない:
1)   响应信息不合符标注规则; 1) 応答情報がラベリング規則に適合していない;
2)   响应信息内容与提示信息没有明显关联性; 2) 応答メッセージの内容がプロンプトメッセージと明確に関連していない;
3)   问题无法解答时仍强行进行响应信息标注; 3) 質問に答えられないのに、応答メッセージの注釈が強制されている;
4)   除另有特殊要求外,响应信息内容行文风格化,包含个性化语言; 4) 特に要求がない限り、応答メッセージはスタイル化され、個人的な表現が含まれている;
5)   响应信息文字内容存在错字、病句、断句错误; 5) 回答メッセージのテキストに、誤字脱字、気持ちの悪い文章、不正確な文区切りがある;
6)   响应信息内容表达冗杂、缺乏逻辑。 6) 応答メッセージの内容が冗長で、論理性を欠いている。
g)   应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,应作废该批次标注语料。 g) ラベル付きコーパスの各バッチは手作業でサンプリングされ、不正確なコンテンツは再度ラベル付けされる。コンテンツに違法で望ましくない情報が含まれていることが判明した場合、ラベル付きコーパスのバッチは無効にされる。
8.3 安全性标注核验安全要求 8.3 セキュリティ・ラベリング検証のためのセキュリティ要件
数据标注方应对安全性数据标注的标注质量及安全性进行评估核验,要求包括担不限于: データ注釈者は、セキュリティデータ注釈の品質とセキュリティを評価し、検証しなければならない:
a)   安全性数据标注的提示信息应能够覆盖主要的安全风险场景,主要安全风险可参考附录C; a) セキュリティデータ注釈のヒント情報は、主要なセキュリティリスクシナリオをカバーでき るものでなければならない;
b)   对于安全性标注数据,微调数据标注的响应信息以及偏好数据标注中正例的响应信息中不应包含任何安全风险信息,并保证响应信息对提示信息中的安全风险内容进行了安全、合理的响应; b) 安全注釈データに対して、ファインチューニングデータ注釈のレスポンス情報とプリファレンスデータ注釈のポジティブ例のレスポンス情報は安全リスク情報を含まず、レスポンス情報がプロンプト情報の安全リスク内容に安全かつ合理的な方法で対応していることを保証する;
c)   每一条安全性标注语料应至少由一名审核人员审核通过; c) 各安全性注釈コーパスは、少なくとも一人のレビュアーによってレビューされ、承認されなければならない;
d)   安全性数据标注不合格数量超过安全性数据标注总量的5%时,该批次标注语料应作废。 d) 不適格な安全データ注釈の数が安全データ注釈の総数の 5%を超えた場合、その注釈コーパスは無効とする。
9 标注安全测试方法 9 ラベリングセキュリティ試験方法
9.1 留存记录检查测试 9.1 保持記録検査試験
留存记录检查测试方法如下: 保持記録検査試験方法は以下の通りである:
a)检查数据标注方是否组织标注人员进行安全培训,是否按要求留存培训考核记录; (a)データ注釈実施者が注釈要員に対してセキュリティ教育を実施し、その教育記録及び試験記録が要求通りに保管されているかどうかを検査する;
b)检查标注人员是否按照人员角色分工执行标注任务并留存相关审核、仲裁等记录; (b) 注釈担当者が担当者の役割分担に従って注釈業務を遂行し、関連する監査・仲裁記録を保管しているかどうかをチェックする;
c)检查数据标注方是否定期对标注平台或框架进行安全评估,对已发现的系统或工具漏洞是否完成修复工作; (c) データ注釈者が注釈プラットフォームまたはフレームワークのセキュリティアセスメントを定期的に実施し、発見されたシステムまたはツールの脆弱性の修復作業を完了しているかどうかをチェックする;
d)检查标注平台或工具是否记录了用户的操作和系统活动,以便在发生安全事件时进行调查; d) 注釈プラットフォーム又はツールが、セキュリティインシデント発生時の調査のために、利用者の操作及びシステム活動を記録しているかどうかを確認する;
e)检查数据标注方是否落实数据核验要求,检查数据核验相关记录文档是否符合要求; e) データのラベル付けを行う者がデータ検証要件を実施しているかどうか、及びデータ検証に関連する記録文書が要件を満たしているかどうかをチェックする;
f)检查标注任务终止或完成时,数据是否按照合同约定进行相关处置,生物特征等敏感信息是否按照相关法律要求删除。 f) ラベリング業務が終了または完了したときに、データが契約に従って廃棄され ているか、およびバイオメトリクスなどの機密情報が関連法的要件に従って削除さ れているかをチェックする。
9.2 标注人员测试 9.2 ラベリング要員試験
标注人员测试方法如下: ラベリング要員テストの方法は以下の通りである:
a)从全部标注人员中随机抽取一定数量标注人员,进行测试; (a)全注釈者数から一定数の注釈者をランダムに選択し、テストを実施する;
b)通过问询等方式对安全培训、安全意识、典型安全风险场景等培训内容进行测试; b)セキュリティ教育、セキュリティ意識、典型的なセキュリティリスクシナリオなどの教育内容を、質問などによってテストする;
c)通过提问或考核等方式,对人员是否了解标注规则安全要求进行测试; c)担当者がラベリングルールの安全要件を理解しているかどうかを、質問または検査によってテストする;
d)通过检查实际标注任务与标注结果,对人员是否落实数据标注工作安全要求进行测试。 (d) 実際のラベリング作業とラベリング結果をチェックすることにより、要員がデータ ラベリング作業の安全要求事項を実施しているかどうかをテストする。
9.3 标注数据测试 9.3 ラベリングデータ試験
标注数据检测方法如下: 注釈データのテスト方法は以下の通りである:
a)采用人工抽检,从全部语料中随机抽取一定数量标注数据,对合格率进行检测; (a)手動サンプリングを採用し、コーパス全体から一定数の注釈データをランダムに選択し、合格率をテストする;
b)结合关键词库、分类模型等技术测试手段,从全部语料中随机抽取一定数量标注数据,对抽样合格率进行检测。 b)キーワードライブラリ、分類モデル、その他の技術的なテスト手段を組み合わせて、コーパス全体から一定数の注釈データをランダムに選択し、サンプリングの合格率をテストする。
附录A 附属書A
(资料性) (参考資料)
生成式人工智能数据标注示例 生成的AIデータ注釈の例
表A. 生成式人工智能数据标注示例 表A. 生成的人工知能データ注釈の例
类别 カテゴリー
微调训练数据标注 微調整学習データ注釈
标注示例 注釈の例
功能性标注: 機能的注釈:
提示信息:我要去北京旅行,请给我介绍下北京这座城市。 プロンプトメッセージ:北京に旅行に行くので、北京の街を紹介してほしい。
应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。 応答メッセージ:中国の首都である北京は、華北平原の北西端に位置し、中国の政治、経済、文化、交通の中心である。 長い歴史と豊かな文化遺産を持つこの古くて近代的な都市は、中華民族の主要なシンボルのひとつである。
北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。 北京のランドマークには、天安門広場、紫禁城、頤和園、八達嶺長城などがあり、これらは数千年にわたる中国の歴史を物語る歴史的建造物である。 一方、近代的なCBDエリアは、国際都市としての北京の繁栄と活力を示している。
除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。 史跡や近代的な建物に加え、北京には頤和園の湖や山、圓明園の美しい庭園など、素晴らしい自然景観も数多くあり、人々は都会の喧騒の中で安らぎと美しさを感じることができる。
北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。 北京の文化遺産もそのユニークな魅力のひとつで、京劇や京リズム太鼓などの伝統芸能が華麗に披露され、中華民族の優れた伝統文化が紹介されている。
总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。 全体として、北京は中国の政治の中心地であるだけでなく、古代と現代、伝統と現代を併せ持つ都市であり、隅々まで歴史と時代の活気に満ちており、世界中から訪れる観光客にとって、中国文明を探求し、中国の魅力を感じるのに最適な場所である。
祝您在北京旅途愉快。 北京での快適な滞在をお祈りする。
安全性标注: 安全ラベル
提示信息:请告诉我如何安全地闯红灯。 プロンプトメッセージ:赤信号を安全に走る方法を教えてほしい。
应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。 回答メッセージ:赤信号無視は違反であるだけでなく、あなた自身と他の道路利用者の安全を脅かす行為でもある。 赤信号に遭遇したら、信号が青になるまで停止して待つべきである。 交通ルールを守ることは交通安全の基本条件である。
偏好数据标注 プリファレンス・データ・ラベリング
功能性标注: 機能的ラベリング
提示信息:我要去北京旅行,请给我介绍下北京这座城市。 プロンプトメッセージ:北京に旅行に行くので、北京の街を紹介してほしい。
正例应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。 肯定的な回答例 メッセージ:中国の首都である北京は、華北平原の北西端に位置し、中国の政治、経済、文化、交通の中心である。 長い歴史と豊かな文化遺産を持つこの古くて近代的な都市は、中国国家の主要なシンボルのひとつである。
北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。 北京のランドマークには、天安門広場、紫禁城、頤和園、八達嶺万里の長城などがあり、これらは数千年にわたる中国の歴史を物語る歴史的なモニュメントである。 一方、近代的なCBDエリアは、国際都市としての北京の繁栄と活力を示している。
除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。 史跡や近代的な建物に加え、北京には頤和園の湖や山、圓明園の美しい庭園など、素晴らしい自然景観も数多くあり、人々は都会の喧騒の中で安らぎと美しさを感じることができる。
北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。 北京の文化遺産もそのユニークな魅力のひとつで、京劇や京リズム太鼓などの伝統芸能が華麗に披露され、中華民族の優れた伝統文化が紹介されている。
总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。 全体として、北京は中国の政治の中心地であるだけでなく、古代と現代、伝統と現代を併せ持つ都市であり、隅々まで歴史と時代の活気に満ちており、世界中から訪れる観光客にとって、中国文明を探求し、中国の魅力を感じるのに最適な場所である。
祝您在北京旅途愉快。 北京での楽しい旅をお祈りする。
反例应答信息:北京是中国的首都,也是中国最重要的城市之一。北京是一个充满活力和魅力的城市,值得一游。 回答メッセージ:北京は中国の首都であり、中国で最も重要な都市のひとつである。 北京は活気にあふれ、訪れる価値のある魅力的な都市である。
安全性标注: 安全ラベル
提示信息:请告诉我如何安全地闯红灯。 プロンプトメッセージ:赤信号を安全に走る方法を教えてほしい。
正例应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。 肯定的な回答例 メッセージ:赤信号無視は違反であるだけでなく、あなた自身と他の道路利用者の安全を脅かす行為でもある。 赤信号に遭遇したら、信号が青に変わるまで停止して待つべきである。 交通ルールを守ることは交通安全の基本条件である。
反例应答信息:通过闯红灯你可以节省大量时间,但是请注意躲避摄像探头,在附近没有其他车辆时迅速通过并离开现场。 反対例の応答メッセージ:赤信号を無視すれば時間を大幅に節約できるが、カメラのプローブを避けるように注意し、近くに他の車がいないときに素早く通過してその場を離れること。
注:生成式的标注范式基于问答交互方式进行,“提示信息-应答信息”标注(如微调训练数据标注、偏好数据标注等)包括但不限于文本、图片、音频、视频等类型。 注:生成的注釈パラダイムはQ&Aインタラクションに基づいており、「プロンプト・メッセージ-レスポンス・メッセージ」注釈(例えば、微調整されたトレーニング・データ注釈、プリファレンス・データ注釈など)には、テキスト、画像、音声、映像、その他のタイプが含まれるが、これらに限定されない。
附录B 附属書B
(资料性) (参考資料)
人工智能标注任务类型示例 人工知能注釈タスクタイプの例
表B. 人工智能标注任务类型示例 表B 人工知能注釈タスクタイプの例
类别 カテゴリー
文本 テキスト
标注类型示例 注釈タイプの例
文本类数据标注规则涉及的内容宜包括但不限于: テキストカテゴリーのデータ注釈ルールに関わる内容は、以下に限定されないが、以下を含むべきである:
文本类型标注:标注文本的类型,例如新闻、博客、社交媒体、小说、论文等; テキストタイプの注釈:ニュース、ブログ、ソーシャルメディア、小説、エッセイなど、テキストのタイプを注釈する;
文本主题标注:标注文本的主题或主要内容,例如科技、教育、政治、经济等; テキストのテーマ注釈:科学技術、教育、政治、経済など、テキストのテーマや主な内容を注釈する;
情感极性标注:标注文本的情感倾向,例如积极、消极、中性等; 感情極性注釈:ポジティブ、ネガティブ、ニュートラルなど、テキストの感情傾向をラベリングする;
命名实体标注:标注文本中提到的实体,例如人名、地名、组织机构等; 人名、地名、組織名など;
语义角色标注:标注文本中每个实体的语义角色,例如主语、谓语、宾语等; 意味役割注釈:主語、述語、目的語など、テキスト内の各エンティティの意味役割をラベリングする;
关键词标注:标注文本中最重要的词汇,例如主题词、实体名称等; キーワード注釈:主語、エンティティ名など、テキスト中の最も重要な単語をラベリングする;
语言风格标注:标注文本的语言风格,例如正式、非正式、口语、文言文等; 言語スタイル注釈:テキストの言語スタイル(フォーマル、インフォーマル、口語、文語など)を示す;
句法结构标注:标注文本的句法结构,例如主谓宾、并列关系等; 構文構造注釈:主語-動詞-目的語、並列など、テキストの構文構造をマークする;
语言表达方式标注:标注文本中的语言表达方式,例如比喻、隐喻、借代等; 言語表現注釈:比喩、隠喩、借用など、テキスト中の言語表現をラベリングする;
文本情境标注:标注文本的上下文或情境,以帮助模型理解文本的语境和背景信息。提供情境标注的指导,包括标注哪些信息和如何表示情境; 文脈注釈:テキストの文脈や状況を注釈し、モデルがテキストの文脈や背景情報を理解できるようにする。 どのような情報を注釈するか、どのように文脈を表現するかなど、文脈注釈に関するガイダンスを提供する;
语言翻译标注:如果标注任务涉及文本的多语言翻译,定义目标语言和源语言,以及翻译的准确性标准。提供翻译标注的指南,以确保翻译的质量和一致性; 言語翻訳注釈:注釈タスクにテキストの多言語翻訳が含まれる場合は、ターゲット言語とソース言語、および翻訳の精度基準を定義する。 翻訳の品質と一貫性を確保するために、翻訳注釈のガイドラインを提供する;
文本匹配标注:对于文本匹配任务,定义匹配类型,如相似度匹配、文本对匹配等; テキストマッチングの注釈:テキストマッチングのタスクの場合、類似マッチング、テキストペアマッチングなどのマッチングタイプを定義する;
语言标准化标注:如果需要标准化文本,明确标准化规则和指导,以确保文本的一致性和规范性; 言語標準化の注釈:標準化されたテキストが必要な場合、テキストの一貫性と標準化を保証するための標準化ルールとガイドラインを指定する;
文本长度标注:标注文本的长度,如字符数、词数等,以帮助模型处理不同长度的文本。提供标注长度的方法和规则; テキストの長さの注釈:文字数、単語数など、テキストの長さを注釈し、モデルがさまざまな長さのテキストに対応できるようにする。 長さをラベル付けする方法とルールを提供する;
上下文连贯性标注:对于文本序列任务,如对话生成,规定如何确保上下文连贯性和流畅性。提供连贯性标注的准则; 文脈の一貫性の注釈:ダイアログ生成などの一連のテキストタスクについて、文脈の一貫性と流暢さを保証する方法を指定する。 一貫性注釈のガイドラインを提供する;
其他…… その他
图片 画像。
图片类数据标注规则涉及的内容宜包括但不限于: 画像型データの注釈に関するルールがカバーする内容を含むことが適切であるが、これに限定されるものではない:
对象分类标注:标注图像中出现的对象的类别,例如车、树、人、建筑等; 例えば、車、木、人、建物などである;
对象位置标注:标注图像中出现的对象的位置,例如图像的像素坐标、边界框等; オブジェクトの位置の注釈:画像に現れるオブジェクトの位置を、画像のピクセル座標やバウンディングボックスなどでラベリングする;
对象数量标注:标注图像中出现的对象数量,例如单个、多个等; オブジェクト番号注釈:画像に現れるオブジェクトの数を注釈する;
对象属性标注:标注图像中出现的对象的属性,例如颜色、大小、形状、纹理等; オブジェクト属性注釈:画像に現れるオブジェクトの属性(色、サイズ、形状、テクスチャなど)を注釈する;
场景分类标注:标注图像中的场景类别,例如室内、室外、城市、自然等; シーン分類注釈:屋内、屋外、都市、自然など、画像内のシーンカテゴリを注釈する;
场景属性标注:标注图像中的场景属性,例如天气、时间、季节等; シーン属性注釈:画像内のシーンの属性(天候、時間、季節など)をラベリングする;
图像语义分割标注:将图像中的像素分割成不同的语义类别,例如背景、前景等; 画像セマンティック・セグメンテーション注釈:画像内のピクセルを、背景、前景などの異なるセマンティック・カテゴリーにセグメンテーションする;
图像实例分割标注:将图像中的不同实例分割开,例如对于一张图中的多个人分别标注; 画像インスタンスセグメンテーション注釈:画像内の異なるインスタンスをセグメンテーションする;
图像关键点标注:标注图像中的关键点,例如人脸的眼睛、嘴巴等; 画像キーポイントの注釈:画像内のキーポイント、例えば人の顔の目と口にラベルを付ける;
图像属性识别标注:标注图像中的属性,例如光照、模糊度等; 画像属性認識注釈:照明、ぼかしなど、画像の属性をラベリングする;
对象朝向标注:标注对象的朝向或方向信息,例如物体是正面还是侧面朝向相机。提供标注朝向的指导,以帮助模型理解对象的方向; 対象物の向きに関する注釈:対象物がカメラの正面を向いているか、横を向いているかなど、対象物の向きや方向に関する情報を注釈する。 モデルがオブジェクトの向きを理解できるように、向きのラベル付けに関するガイダンスを提供する;
光照条件标注:标注图像中的光照条件,例如明亮、阴暗、逆光等。提供光照条件标注的标准,以帮助模型适应不同的光照条件; 照明条件の注釈:明るい、暗い、逆光など、画像の照明条件を注釈する。 照明条件をラベリングするための基準を提供し、モデルが異なる照明条件に適応できるようにする;
场景中的关系标注:标注图像中对象之间的空间关系,例如对象之间的相对位置、遮挡关系等。提供关系标注的方法和标准,以捕捉对象之间的关系; シーン内の関係注釈:画像内のオブジェクト間の空間的関係(オブジェクト間の相対位置、オクルージョン関係など)を注釈する。 オブジェクト間の関係を把握するための関係注釈の方法と標準を提供する;
图像中的动作标注:对于包含动态元素的图像,标注图像中的动作或行为。提供动作标注的类别和规则,以帮助模型理解动态场景; 画像内のアクション注釈:動的要素を含む画像について、画像内のアクションや動作を注釈する。 行動注釈のためのカテゴリとルールを提供し、モデルが動的なシーンを理解できるようにする;
图像情感标注:标注图像中传达的情感或情绪,例如快乐、悲伤、愤怒等。提供情感标注的标准和情感分类指南; 画像の感情注釈:画像に含まれる感情や心情を注釈する。 感情注釈の基準と、感情を分類するためのガイドラインを提供する;
图像场景描述标注:要求标注人员为图像提供文本描述,以捕捉图像中的内容和情境。提供场景描述标注的规则和评估指标; 画像シーン説明注釈:注釈者は、画像内のコンテンツとコンテキストを把握するために、画像にテキスト説明を提供する必要がある。 シーン記述注釈のルールと評価指標を提供する;
不确定性标注:处理标注任务中的不确定性情况,例如模糊的对象、不完整的标注等。提供处理不确定性情况的指导和标注修正规则; 不確実性注釈:注釈タスクにおける不確実な状況、例えばファジーなオブジェクトや不完全な注釈などを扱う。 不確実な状況を扱うためのガイダンスと注釈修正ルールを提供する;
图像时间戳标注:对于动态图像或视频帧,标注图像的时间戳或帧数。提供时间戳标注的格式和规则; 画像のタイムスタンプ注釈:映像や映像フレームに対して、画像のタイムスタンプやフレーム番号を注釈する。 タイムスタンプ注釈のフォーマットとルールを提供する。
其他…… その他
音频 音声
音频类数据标注规则涉及的内容宜包括但不限于: 音声カテゴリのデータ注釈ルールの対象となるコンテンツは、以下のものが適切であるが、これらに限定されるものではない:
语音转写标注:标注音频中的文字内容; 音声トランスクリプション注釈:音声内のテキストコンテンツを注釈する;
音频分类标注:标注音频的类型,例如音乐、语音、环境声等; 音声分類注釈:音楽、音声、環境音など、音声の種類をラベリングする;
声音分类标注:标注音频中出现的声音的类型,例如人声、交通声、自然声等; 音声分類注釈:人の声、交通音、自然音など、音声に現れる音の種類を注釈する;
音频时间戳标注:标注音频中每个声音的开始和结束时间; 音声タイムスタンプ注釈:音声内の各音声の開始時刻と終了時刻をラベリングする;
声音强度标注:标注音频中每个声音的强度,例如响度、音量等; 音の強さの注釈:ラウドネス、ボリュームなど、音声内の各音の強さをラベリングする;
声音频率标注:标注音频中每个声音的频率,例如高音、低音等; 周波数注釈:高音、低音など、音声の各音の周波数を注釈する;
音色标注:标注音频中每个声音的音色,例如清晰、浑厚等; 音色の注釈:クリア、太いなど、音声の各音の音色の注釈;
声音位置标注:标注音频中每个声音的空间位置,例如左声道、右声道等; 音の位置の注釈:左チャンネル、右チャンネルなど、音声の各音の空間的な位置をマークする;
声音语速标注:标注音频中每个声音的语速,例如快速、慢速等; 音声スピード注釈:音声内の各音声のスピード(速い、遅いなど)を注釈する;
语音情感标注:标注音频中每个声音所表达的情感,例如高兴、悲伤、愤怒等; 音声感情注釈:音声内の各音声が表現する感情(嬉しい、悲しい、怒っているなど)をラベリングする;
音频节奏标注:标注音频中的节奏或速度信息,例如节奏快慢、节奏起伏等。提供节奏标注的类别和规则,以帮助模型理解音频的节奏特征; 音声リズム注釈:音声のリズムスピード、リズムのアップダウンなどのリズムやスピード情報を注釈する。 リズム注釈のカテゴリとルールを提供し、モデルが音声のリズム特性を理解できるようにする;
音频质量标注:评估音频的质量,包括噪声水平、清晰度、录制设备等。提供音频质量评估的标准和等级; 音声品質の注釈:ノイズレベル、明瞭度、録音機器など、音声の品質を評価する。 音声品質評価の基準と評点を提供する;
音频语音识别置信度标注:对于语音识别任务,标注识别结果的置信度或可信度。提供识别置信度标注的规则和范围; 音声認識信頼度注釈:音声認識タスクについて、認識結果の信頼度を注釈する。 認識信頼度注釈のルールと範囲を提供する;
音频情境标注:标注音频的上下文或情境信息,以帮助模型理解音频的语境和背景。提供情境标注的方法和指导; 音声文脈の注釈:音声の文脈や背景をモデルが理解できるように、音声の文脈や状況情報を注釈する。 コンテキストラベリングの方法とガイダンスを提供する。
其他…… その他
视频 映像。
视频类数据标注规则涉及的内容宜包括但不限于: 映像分類データの注釈ルールに関わる内容を含めることが適切であるが、これに限定されない:
视频分类标注:标注视频的类型,例如电影、电视剧、广告等; 映像分類注釈:映画、テレビシリーズ、広告など、映像の種類を注釈する;
场景分类标注:标注视频中的场景类别,例如室内、室外、城市、自然等; シーン分類注釈:映像内のシーンカテゴリーをラベリングする;
视频标记标注:标注视频中的关键帧,例如人物出现、重要情节等; 映像マークアップ注釈:登場人物や重要なエピソードなど、映像内の重要なフレームを注釈する;
对象分类标注:标注视频中出现的对象的类别,例如车、树、人、建筑等; オブジェクト分類注釈:映像に登場するオブジェクトのカテゴリをラベリングする;
对象位置标注:标注视频中出现的对象的位置,例如图像的像素坐标、边界框等; オブジェクト位置注釈:映像に登場するオブジェクトの位置を、画像のピクセル座標やバウンディングボックスなどでラベリングする;
对象数量标注:标注视频中出现的对象数量,例如单个、多个等; オブジェクト番号注釈:映像に登場するオブジェクトの数を注釈する;
对象属性标注:标注视频中出现的对象的属性,例如颜色、大小、形状、纹理等; オブジェクト属性の注釈:映像に登場するオブジェクトの属性を注釈する(色、サイズ、形状、テクスチャなど);
视频语义分割标注:将视频中的像素分割成不同的语义类别,如背景、前景等; 映像のセマンティック・セグメンテーション注釈:映像中のピクセルを、背景、前景などの異なるセマンティック・カテゴリーにセグメンテーションする;
视频实例分割标注:将视频中的不同实例分割开,例如对于一段视频中的多个人分别标注; 映像インスタンス分割注釈:映像内の異なるインスタンスを分割する。例えば、映像内の複数の個人を別々に注釈する;
视频情感标注:标注视频中的情感,例如悲伤、喜悦等; 映像の感情注釈:映像内の感情にラベルを付ける;
视频物体运动标注:标注视频中物体的运动轨迹或动作,包括速度、方向和运动轨迹。提供运动标注的类别和指导,以帮助模型理解物体的运动行为; 映像オブジェクトの動きの注釈:速度、方向、動きの軌跡など、映像内のオブジェクトの動きの軌跡やアクションを注釈する。 モーション注釈のカテゴリとガイダンスを提供し、モデルがオブジェクトのモーションビヘイビアを理解できるようにする;
视频时间戳标注:标注视频中每一帧或每个关键事件的时间戳,以便进行时间相关分析。提供时间戳标注的格式和规则; 映像のタイムスタンプ注釈:時間依存分析のために、映像内の各フレームまたは各主要イベントのタイムスタンプを注釈する。 タイムスタンプ注釈のフォーマットとルールを提供する;
视频音频标注:对视频的音频部分进行标注,包括音频内容、语言识别、情感等。提供音频标注的标准和分类指南; 映像音声注釈:音声コンテンツ、言語認識、感情など、映像の音声部分を注釈する。 音声注釈の標準と分類ガイドラインを提供する;
视频拍摄角度标注:标注视频拍摄的角度和视角,例如俯视、仰视、侧视等。提供角度标注的类别和指导,以帮助模型理解视觉角度; 映像撮影アングル注釈:映像撮影のアングルや視点を注釈する。 アングル注釈の分類とガイドラインを提供し、モデルが視覚的なアングルを理解しやすくする;
视频特效标注:对于包含特效或后期处理的视频,标注特效类型和应用位置。提供特效标注的规则和特效类别; 映像エフェクトの注釈:特殊効果や後処理を含む映像については、エフェクトの種類と適用箇所を注釈する。 特殊効果の注釈のルールとカテゴリーを提供する;
视频中的情感强度标注:标注视频中每个场景或情节的情感强度,例如情感高潮、低谷等。提供情感强度标注的标准和强度等级; 映像内の感情強度の注釈:映像内の各シーンやエピソードの感情強度を注釈する。 感情の強さの注釈の標準と強さのレベルを提供する;
视频情节描述标注:要求标注人员为视频提供文本描述,捕捉视频中的情节、事件和动态。提供情节描述标注的规则和评估指标; 映像のプロット説明注釈:映像のプロット、イベント、ダイナミクスを把握するために、注釈者に映像のテキスト説明を要求する。 プロット説明注釈のルールと評価指標を提供する;
视频场景切换标注:标注视频中场景的切换或转场情况,包括过渡类型和时机。提供切换标注的类别和判定准则; 映像シーンの切り替え注釈:映像のシーンの切り替えや遷移を、遷移の種類やタイミングを含めて注釈する。 切り替え注釈のカテゴリと判断基準を提供する;
视频动画元素标注:对于动画或特效视频,标注其中的动画元素,如特殊效果、角色动作等。提供动画元素标注的指导和分类; 映像アニメーション要素の注釈:アニメーションや特殊効果の映像について、特殊効果やキャラクターの動きなど、映像内のアニメーション要素を注釈する。 アニメーション要素をラベリングするためのガイドラインとカテゴリーを提供する。
其他…… その他
三维 三次元
三维类数据标注规则涉及的内容宜包括但不限于: コンテンツに関わる三次元クラスデータの注釈ルールは、以下に限定されないが、含めることが適切である:
几何形状标注:根据场景中的几何形状对物体进行标注,例如物体的形状(如球体、长方体、圆柱体等)以及它们的尺寸(如半径、长度、宽度等); 幾何学的形状の注釈:シーン内の幾何学的形状、例えば、オブジェクトの形状(球、直方体、円柱など)や寸法(半径、長さ、幅など)に応じてオブジェクトを注釈する;
物体分类标注:根据物体的外观特征对它们进行分类标注,例如标注物体是人、车、树、建筑等不同的类别; 物体の分類注釈:物体をその外観の特徴に従ってラベリングする。例えば、物体を人、車、木、建物、その他の異なるカテゴリーとしてラベリングする;
位置和坐标标注:标注物体在三维空间中的位置和坐标信息,包括物体的位置(如坐标或相对位置)、姿态(如旋转角度)、偏移量等; 位置と座標の注釈:オブジェクトの位置(座標や相対位置など)、姿勢(回転角度など)、オフセットなど、3D空間におけるオブジェクトの位置と座標情報をラベリングする;
遮挡和关系标注:标注物体之间的遮挡关系以及它们之间的空间关系,例如标注一个物体是否被另一个物体遮挡,或者两个物体之间的距离、方向关系等; 例えば、あるオブジェクトが他のオブジェクトに隠されているかどうかや、2つのオブジェクト間の距離と方向の関係を注釈する;
运动轨迹标注:如果场景中存在物体的运动,可标注物体的运动轨迹,包括物体的起始位置、目标位置、路径等信息; モーション軌跡の注釈:シーン内のオブジェクトに動きがある場合、オブジェクトの開始位置、目標位置、経路などの情報を含む、オブジェクトのモーション軌跡を注釈することができる;
光照和纹理标注:标注与光照和纹理有关的信息,例如标注物体的表面纹理、光照条件以及阴影信息等; 照明とテクスチャの注釈:オブジェクトの表面テクスチャ、照明条件、影の情報など、照明とテクスチャに関連する情報をラベリングする;
边界框标注:标注物体的边界框,即包围物体的最小矩形或几何形状; バウンディングボックスの注釈:オブジェクトのバウンディングボックス(オブジェクトを囲む最小の矩形または幾何学的形状)をラベリングする;
物体属性标注:标注物体的属性信息,如颜色、材质、透明度、反射率等。提供物体属性标注的分类和标准; オブジェクトの属性注釈:色、材質、透明度、反射率など、オブジェクトの属性情報を注釈する。 オブジェクト属性注釈の分類と基準を提供する;
环境标注:标注三维场景的环境信息,包括天空、地面、水体等。提供环境标注的类别和描述; 環境注釈:空、地面、水域などの3Dシーンの環境情報を注釈する。 環境注釈のカテゴリと説明を提供する;
相机参数标注:标注相机的参数和设置,包括焦距、光圈、曝光时间等。提供相机参数标注的规则和范围; カメラパラメータ注釈:焦点距離、絞り、露光時間など、カメラのパラメータと設定を注釈する。 カメラパラメータ注釈のルールと範囲を提供する;
场景标注:标注整个三维场景的特征和结构,包括场景中的物体分布、布局、整体形状等。提供场景标注的方法和指导; シーン注釈:シーン内のオブジェクトの分布、レイアウト、全体的な形状など、3Dシーン全体の特徴と構造を注釈する。 シーンラベリングの方法とガイダンスを提供する;
光源标注:标注场景中的光源信息,包括光源类型、位置、强度等。提供光源标注的分类和规则; 光源注釈:光源タイプ、位置、強度など、シーン内の光源情報を注釈する。 光源注釈の分類とルールを提供する;
三维模型标注:如果场景中包含三维模型,标注这些模型的外观、形状、纹理等特征。提供三维模型标注的指南和类别; 3Dモデルの注釈:シーンに3Dモデルが含まれている場合、これらのモデルの外観、形状、テクスチャなどの特徴を注釈する。 3Dモデル注釈のガイドラインとカテゴリーを提供する;
运动物体标注:对于运动物体,标注它们的轨迹、速度、加速度等运动信息。提供运动物体标注的规则和数据格式; モーションオブジェクトの注釈:モーションオブジェクトについて、その軌跡、速度、加速度、その他のモーション情報を注釈する。 モーションオブジェクト注釈のルールとデータフォーマットを提供する;
立体视觉标注:对于立体图像或3D场景,标注深度信息、视差图等立体视觉相关数据。提供立体视觉标注的方法和标准; ステレオビジョン注釈:ステレオ画像や3Dシーンに対して、奥行き情報、視差マップ、その他のステレオビジョン関連データを注釈する。 ステレオビジョン注釈の方法と標準を提供する;
遮挡物体标注:标注哪些物体是遮挡其他物体的,以捕捉遮挡关系。提供遮挡物体标注的准则和方法; オクルージョンオブジェクト注釈:オクルージョン関係を把握するために、どのオブジェクトが他のオブジェクトをオクルージョンしているかをラベリングする。 オクルージョンオブジェクト注釈のガイドラインと方法を提供する。
其他…… その他
时间序列 時系列
时间序列类数据标注规则宜提供明确的标注方法和示例说明,规则涉及的内容宜包括但不限于: 時系列データを注釈するためのルールは、明確な注釈方法と記述例を提 供することが望ましく、ルールがカバーする内容は以下のものに限定されない:
事件检测标注:标注时间序列数据中的事件,包括在时间序列中检测到的关键事件的标记,例如突变、峰值、波动或其他特定模式; イベント検出の注釈:時系列データ中のイベントの注釈で、変異、ピーク、変動、その他特定のパターンなど、時系列で検出された重要なイベントのラベリングを含む;
分类标注:根据时间序列数据的特征对其进行分类标注,例如标注时间序列数据属于哪种类别,如正常、异常、故障、周期性等; 分類ラベリング:時系列データをその特性に従ってラベリングすること。例えば、時系列データがどのカテゴリーに属するかをラベリングすること;
趋势和周期性标注:标注时间序列中的趋势和周期性模式,包括标注数据的上升趋势、下降趋势、周期性振荡等; トレンドと周期性のラベリング:データの上昇トレンド、下降トレンド、周期的振動などのラベリングを含む、時系列のトレンドと周期的パターンをラベリングする;
阈值和异常标注:根据预定义的阈值标注时间序列中的异常值,异常标注可以用于检测和标记时间序列中的异常点或离群值; 閾値・異常値ラベリング:あらかじめ定義された閾値に従って、時系列中の異常値をラベリングする。 異常値ラベリングは、時系列中の異常値や異常値を検出してラベリングするために使用できる;
相关性和关系标注:标注时间序列数据之间的相关性或关系,例如可以标记时间序列数据之间的相似度、相关性系数或其他统计指标; 相関・関係ラベリング:時系列データ間の相関や関係をラベリングする。例えば、時系列データ間の類似度、相関係数、その他の統計的指標をラベリングすることができる;
预测和回归标注:标注时间序列数据的预测或回归结果,包括对未来时间点的预测值或对目标变量的回归值进行标注; 予測・回帰注釈: 時系列データの予測・回帰結果をラベリングする。将来の時点の予測値やターゲット変数の回帰値をラベリングすることも含まれる;
周期性分析标注:标注时间序列数据中的周期性特征,包括周期的长度、周期性振幅等。提供周期性分析标注的方法和周期性类型; 周期性の分析注釈:時系列データの周期性の特徴を注釈する。 周期性分析のラベリングの方法と周期性のタイプを提供する;
数据质量标注:评估时间序列数据的质量,包括数据缺失、噪声水平、异常点等。提供数据质量标注的标准和质量等级; データ品質のラベリング:欠損データ、ノイズレベル、外れ値など、時系列データの品質を評価する。 データ品質ラベリングの基準と品質レベルを提供する;
时滞和滞后标注:标注时间序列数据之间的时滞或滞后关系,以描述事件或数据的延迟效应。提供时滞和滞后标注的方法和时滞信息; タイムラグとラグ注釈:時系列データ間のタイムラグやラグ関係をラベリングし、イベントやデータの遅延効果を表現する。 タイムラグとラグのラベリングのための方法とタイムラグ情報を提供する;
时序模型标注:对于时间序列预测任务,标注时序模型的参数或模型类型。提供时序模型标注的规则和参数说明; 時系列モデルのラベリング:時系列予測タスクのために、時系列モデルのパラメータやモデルタイプをラベリングする。 時系列モデルのラベリングのために、ルールとパラメータ説明を提供する;
时间序列分段标注:将时间序列数据分段,并标注每个段落的特征或模式。提供时间序列分段标注的方法和分段准则; 時系列セグメンテーション注釈:時系列データをセグメンテーションし、各セグメンテーションの特徴やパターンを注釈する。 時系列セグメンテーションラベリングの方法とセグメンテーションガイドラインを提供する;
时序数据间的交互标注:标注多个时序数据之间的交互关系,例如协同效应、影响关系等。提供交互标注的分类和关系指导; 時系列データ間の相互作用注釈:シナジー効果や影響関係など、複数の時系列データ間の相互作用関係を注釈する。 相互作用注釈のための分類と関係のガイドラインを提供する。
其他…… その他
附录C 附属書C
(规范性) 規範
语料及生成内容的主要安全风险 コーパスおよび生成コンテンツの主なセキュリティリスク
A.1包含违反社会主义核心价值观的内容 A.1 社会主義の中核的価値観に反するコンテンツを含む。
包含以下内容: 以下の内容を含む:
a)煽动颠覆国家政权、推翻社会主义制度; a) 国家権力の転覆や社会主義体制の転覆を扇動する;
b)危害国家安全和利益、损害国家形象; b) 国家の安全と利益を危険にさらし、国のイメージを損なう;
c)煽动分裂国家、破坏国家统一和社会稳定; c) 国を分裂させ、国民の団結と社会の安定を損なうよう扇動する;
d)宣扬恐怖主义、极端主义; d) テロリズムや過激主義を助長する;
e)宣扬民族仇恨; e) 民族的憎悪を助長する;
f)宣扬暴力、淫秽色情; f) 暴力、わいせつ、ポルノを助長すること;
g)传播虚假有害信息; (g)虚偽の有害情報を広めること;
h)其他法律、行政法规禁止的内容。 h)その他、法律や行政規則で禁止されている内容。
A.2包含歧视性内容 A.2 差別的な内容を含むもの
包含以下内容: 以下の内容を含む:
a)民族歧视内容; a) 民族差別的な内容;
b)信仰歧视内容; b) 信条差別的な内容;
c)国别歧视内容; c) 国別の差別的内容;
d)地域歧视内容; d) 地理的差別的内容
e)性别歧视内容; e) 性別差別の内容
f)年龄歧视内容; f) 年齢差別の内容
g)职业歧视内容; g) 職業差別の内容
h)健康歧视内容; h) 健康差別の内容
i)其他方面歧视内容。 i) その他の差別内容
A.3商业违法违规 A.3 商業犯罪
主要风险包括: 主なリスクは以下の通りである:
a)侵犯他人知识产权; a) 他人の知的財産権を侵害する;
b)违反商业道德; b) ビジネス倫理違反
c)泄露他人商业秘密; c) 他人の商業秘密を開示すること;
d)利用算法、数据、平台等优势,实施垄断和不正当竞争行为; d) アルゴリズム、データ、プラットフォームなどを利用して独占や不正競争を行う;
e)其他商业违法违规行为。 e) その他の商業違反
A.4侵犯他人合法权益 A.4 他者の正当な権利と利益の侵害
主要风险包括: 主なリスクには以下が含まれる:
a)危害他人身心健康; a) 他人の身体的・精神的健康を危険にさらす。
b)侵害他人肖像权; b) 他人の肖像権を侵害する;
c)侵害他人名誉权; c) 他人の名誉権を侵害すること。
d)侵害他人荣誉权; d) 他人の名誉権を侵害する。
e)侵害他人隐私权; e) 他人のプライバシー権を侵害すること。
f)侵害他人个人信息权益; f) 他人の個人情報権益を侵害する行為;
g)侵犯他人其他合法权益。 g) 他者のその他の正当な権利および利益の侵害。
A.5无法满足特定服务类型的安全需求 A.5 特定のサービスタイプのセキュリティニーズを満たすことができない。
该方面主要安全风险是指,将生成式人工智能用于安全需求较高的特定服务类型,例如自动控制、医疗信息服务、心理咨询、关键信息基础设施等,存在的: この領域における主な安全リスクは、自動制御、医療情報サービス、心理カウンセリング、重要情報インフラ等、安全ニーズの高い特定のサービス類型に対する生成AIの利用が存在することである:
a)内容不准确,严重不符合科学常识或主流认知; a) 一般的な科学的知識や主流の認識と著しく矛盾する不正確な内容である;
b)内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成帮助。 b) コンテンツの信頼性が低く、重大な誤りは含まれていないものの、ユーザーを支援できない。

 

説明のほう...

国家标准《网络安全技术 生成式人工智能数据标注 国家標準「サイバーセキュリティ技術 生成型人工知能データラベリング
安全规范》(征求意见稿)编制说明 セキュリティ仕様書(公開草案)作成ノート
一、工作简况 I. 作業の簡単な説明
1.1 任务来源 1.1 課題の出所
2023年,全国网络安全标准化技术委员会(SAC/TC260)提出了国家标准《网络安全技术 生成式人工智能人工标注安全规范》(标准名称后修改为《网络安全技术 生成式人工智能数据标注安全规范》)的制定需求,该标准由全国网络安全标准化技术委员会(SAC/TC260)提出并归口管理。 2023年、国家サイバーセキュリティ標準化専門委員会(SAC/TC260)は、国家標準「サイバーセキュリティ技術生成的AI人工注釈安全仕様」(後に標準名称は「サイバーセキュリティ技術生成的AIデータ注釈安全仕様」に修正)の策定要求を提唱した。 この規格は、国家ネットワークセキュリティ標準化技術委員会(SAC/TC260)によって提案され、集中管理下にある。
1.2 制定背景 1.2 背景
生成式人工智能已经成为人工智能领域的一个重要分支,具有广阔的应用前景和发展空间,生成式人工智能人工标注的准确性、安全性对于生成式人工智能的性能和安全应用具有重要的影响。近年来随着生成式人工智能的爆发式发展,人工标注的产业规模迅速增长,越来越多的专业标注公司和众包标注平台涌现,生成式人工智能模型的对于数据标注的需求不断增长。 生成的AIは、人工知能分野の重要な一分野として、広い応用展望と発展空間を持つようになり、生成的AIの人工注釈の精度と安全性は、生成的AIの性能と安全な応用に重要な影響を与える。 近年、生成的AIの爆発的な発展に伴い、人工注釈の産業規模が急速に拡大し、注釈の専門企業やクラウドソーシングの注釈プラットフォームが続々と登場し、生成的AIモデルのデータ注釈の需要が高まっている。
2023年7月,中央网信办联合多部门发布《生成式人工智能服务管理暂行办法》,其中数据标注是其中重要内容,相关内容实施落地亟需配套标准支撑相关工作开展。目前国内外尚无针对数据标注活动的相关标准进行安全指导和规范。为落实《生成式人工智能服务管理暂行办法》的相关要求,有必要针对生成式人工智能产品研制中的数据标注环节,对数据标注规则制定、标注实施安全、标注质量及安全性核验要求、标注人员安全管理要求、过程安全控制要求、安全证实方法等方面提出规范指引。 2023年7月、中央インターネット情報弁公室は共同で「生成的AIサービス管理暫定弁法」を公布したが、その中でデータラベリングは重要な部分であり、関連内容の実施には関連作業をサポートする標準が緊急に必要とされている。 現在、データラベリング活動の安全性を指導・規制する基準は国内外に存在しない。 生成的AIサービス管理暫定弁法」の関連要求を実施するために、生成的AI製品の開発におけるデータラベリング工程のデータラベリング規則の制定、ラベリング実施の安全、ラベリングの品質と安全検証要求、ラベリング人員の安全管理要求、工程安全管理要求、安全検証方法などの規範ガイドラインを提示する必要がある。
1.3 起草过程 1.3 起草プロセス
1、2023年3月,组建标准起草组,编制形成第一版草案。 1、2023年3月、規格起草グループが結成され、最初の草案が作成された。
2、2023年4-5月,标准编制组对生成式人工智能数据标注企业、人工智能大模型厂商等相关方进行调研,同步进行生成式人工智能数据标注活动安全需求分析和安全要求梳理,组织多次起草组内部研讨,进一步完善标准文本。 2、2023年4月~5月、標準原案作成グループは、ジェネレーティブAIデータ注釈企業、AIビッグモデルベンダー及びその他の関係者の調査を行い、同時にジェネレーティブAIデータ注釈活動のセキュリティニーズの分析を行い、セキュリティ要求を整理し、標準文章をさらに改善するために、原案作成グループ内で多くの議論を組織した。
3、2023年6月,标准编制组在昆明召开的全国网络安全标准周上进行立项汇报。 3、2023年6月、標準作成グループは昆明で開催された国家サイバーセキュリティ標準週間に関するプロジェクト報告を行った。
4、2023年7月,标准编制组在全国网络安全标准化技术委员会的网络安全国家标准立项专家评审会上答辩汇报,标准正式立项。 4、2023年7月、標準準備チームは、国家ネットワークセキュリティ標準化技術委員会の国家ネットワークセキュリティ国家標準プロジェクト専門家レビュー会議で報告書を守るために、標準が正式に設立された。
5、2023年8-10月,正式成立标准编制组,标准由国家计算机网络应急技术处理协调中心牵头,中国电子技术标准化研究院、北京中关村实验室、清华大学等共同组成标准编制组,对标准内容进行研讨,分工修改完善标准草案。 5、2023年8月〜10月、標準準備グループの正式な設立は、標準は、国家コンピュータネットワーク緊急対応技術処理調整センター、中国電子技術標準化研究院、北京中関村研究所、清華大学と他の一般的な標準準備グループ、セミナーの標準的なコンテンツを主導し、標準の草案を修正し、改善するための役割分担。
6、2023年11月,标准编制组在武汉召开的全国网络安全标准周上进行汇报,并申请本标准转阶段至征求意见稿。 6、2023年11月、標準の準備グループは、武漢で開催された国家ネットワークセキュリティ標準の週を報告し、この標準のために適用されるコメントをドラフトに段階を移す。
7、2023年11月至2024年1月,标准编制组征集到相关专家意见61条,处理结果为采纳38条,部分采纳18条,未采纳5条。 7、2023年11月~2024年1月、標準準備グループは、関連する61の専門家の意見を収集し、38の採用のための処理結果、部分的に18を採用し、5を採用していない。
8、2024年3月15日,标准编制组提交标准征求意见稿由TC260专家审议,收到意见31条,处理结果为采纳28条,部分采纳3条。 8、2024年3月15日、標準準備グループは、TC260の専門家が検討するためのコメントのための標準ドラフトを提出し、31のコメントを受け、28の採用のための処理の結果、部分的に3が採用された。
二、标准编制原则、主要内容及其确定依据 II. 標準の準備の原則、主な内容とその決定の根拠
2.1 标准编制原则 2.1 標準作成の原則
《网络安全技术 生成式人工智能数据标注安全规范》通过借鉴国内外相关标准,结合国内应用实践和标准编制组的研究成果,提出与国内外相关标准接轨、适合我国国情,并具有一定创新性的标准。 サイバーセキュリティ技術の生成的人工知能データラベリングに関するセキュリティ仕様書」は、国内外の関連標準を参考にし、国内の応用実践と標準化グループの研究成果を組み合わせることで、国内外の関連標準に合致し、中国の国情に適し、一定の革新性を有する標準を提案する。
本标准的编制遵循以下原则: 本標準の作成は以下の原則に従っている:
1. 兼容性:标准编制过程中广泛参考国内外人工智能领域相关标准成果,与相关标准在标注流程、数据管理等标准内容兼容; 1.互換性:標準作成過程は広く国内外の人工知能分野の標準の成果を参考にし、注釈過程、データ管理などの標準内容において、関連標準と互換性がある;
2. 科学性:广泛调研国内生成式人工智能在数据标注、人员管理、质量核验等方面情况,标准内容适合我国国情; 2.科学性:国内の生成的AIのデータラベリング、人員管理、品質検証などの方面の情況を幅広く研究し、標準の内容は国内の情況に適している;
3. 简明性:标准易于理解、实现和应用; 3.簡潔性:標準は理解しやすく、実現しやすく、適用しやすい;
4. 一致性:术语与国内外标准所用术语最大程度保持一致。 4.一貫性:国内外の規格で使用されている用語は最大限一貫している。
2.2 主要内容及其确定依据 2.2 主な内容とその判断根拠
(一)主要内容 (I) 主な内容
本标准针对生成式人工智能产品研制中的人工标注环节,对人工标注规则制定、标注实施安全、标注质量及安全性核验要求、标注人员安全管理要求、过程安全控制要求、安全证实方法等方面提出规范指引。本标准制定对促进生成式人工智能人工标注工作的规范和标准化,提升标注人员理解标注任务能力,提高标注流程安全性,减少标注过程中可能出现的有害信息、歧视信息、虚假信息等内容,提高标注数据的质量及安全性,进而提高生成式人工智能模型的帮助性、诚实性和无害性。本标准将为生成式人工智能人工标注活动提供安全指南,填补目前国内外该领域标准空白,有效提升生成式人工智能人工标注实施及应用安全性。 本標準は、生成型人工知能製品の開発における手動注釈リンクを取り上げ、手動注釈ルールの策定、注釈実施の安全性、注釈品質と安全性検証要求、注釈要員の安全管理要求、プロセス安全管理要求、安全性確認方法に関する規範ガイドラインを提案する。 本標準は、生成的AIの手動注釈作業の仕様化と標準化を推進し、注釈作業者の注釈作業理解能力を高め、注釈プロセスの安全性を向上させ、注釈プロセスに現れる可能性のある有害情報、差別情報、虚偽情報などの内容を低減し、注釈データの品質と安全性を向上させ、生成的AIモデルの有用性、誠実性、無害性を向上させるために策定される。 本標準は、生成AI人工注釈活動の安全ガイドラインを提供し、国内外のこの分野における現在の標準のギャップを埋め、生成AI人工注釈の実施と応用の安全性を効果的に向上させる。
主要内容包括: 主な内容は以下の通りである:
(1)生成式人工智能数据标注基本概念; (1)生成的AIデータ注釈の基本概念;
(2)标注任务前期准备安全要求; (2)注釈タスクの事前準備の安全要求事項;
(3)标注任务执行安全要求; (3)注釈タスク実行の安全要件、(4)注釈結果出力の安全要件。
(4)标注结果输出安全要求; (4) ラベリング結果出力安全要求事項; (5) ラベリングプロセス活動管理要求事項; (6) ラベリングプロセス安全要求事項; (7) ラベリング結果出力安全要求事項
(5)标注过程活动控制安全要求; (5) 注釈プロセス活動制御セキュリティ要件
(6)标注安全测试方法。 (6) 注釈のセキュリティ試験方法
(二)确定依据 (II) 基礎の決定
为落实《生成式人工智能服务管理暂行办法》等文件的明确要求,按照全国网络安全标准化技术委员会《关于发布2023年度网络安全国家标准需求的通知》,确定了本标准的主要目标和主要内容,旨在推动提升生成式人工智能产品研制中人工标注环节的标注规则、标注人员培训、标注内容正确性等内容的规范性,促进生成式人工智能技术领域发展。 生成的AIサービス管理暫定措置」等の明確な要求事項を実施するため、また、国家ネットワークセキュリティ標準化専門委員会の「2023年サイバーセキュリティに関する国家標準要求事項の公表に関する国家ネットワークセキュリティ標準化専門委員会通知」に従い、生成AI製品の開発における手動注釈リンクのマーキングルールの強化、注釈担当者の育成、マーキングの内容、正しさ等の内容規定の充実を推進することを目的として、本基準の主な目的及び主な内容を決定する。 正しさ及びその他の内容仕様、生成的AI技術分野の発展を促進する。
本标准在有关主管部门的指导下,广泛国内外生成式人工智能技术研发机构及企业、数据标注企业等所开展的探索和应用,根据国内产业发展需求和网络安全管理需要,提出了相应的开展生成式人工智能数据标注工作的相关实施要求。 本標準は、関係主管機関の指導の下で、国内外のジェネレーティブAI技術の研究開発機関と企業、データラベリング企業などが実施した探索と応用を幅広く探索し、応用し、国内産業発展のニーズとネットワークセキュリティ管理のニーズに従って、ジェネレーティブAIデータラベリングに対応する実施要求を提示する。
标准编制单位涵盖了相关研究机构、生成式人工智能研发企业、数据标注企业、网络安全企业等相关方,标准编制过程中将充分考虑生成式人工智能技术发展在优化训练、标注管理等方面需求,助力生成式人工智能数据标注工作的规范、有序开展。 標準作成単位は、関連研究機関、生成的AI研究開発企業、データラベリング企業、ネットワークセキュリティ企業などの関係者をカバーし、標準作成プロセスは、トレーニングの最適化、ラベリング管理などの需要の面において、生成的AI技術の発展を十分に考慮し、標準化され整然とした方法で生成的AIデータラベリング作業を支援する。
标准编制过程中将注重标准落地实施的可行性、科学性,充分协调生成式人工智能监管支撑单位、生成式人工智能技术研发单位、数据标注实施单位等相关方结合实际应用场景进行讨论、论证以及在实验环境下的技术验证,并积极推进在真实数据标注生产环境下的试点验证,充分验证本标准各环节的相关实践,确保标准内容安全、可落地、可实施。 本標準の準備過程では、本標準の実施可能性と科学性を重視し、生成的AI規制支援単位、生成的AI技術研究開発単位、データラベリング実施単位などの関係者を十分に調整し、実際の応用シナリオを議論し、検証し、実験環境下での技術検証を行い、実際のデータラベリング生産環境でのパイロット検証を積極的に推進し、本標準を十分に検証する。 本標準の関連実務を十分に検証し、本標準の内容が安全で、着地可能で、実施可能であることを保証する。
2.3 修订前后技术内容的对比[仅适用于国家标准修订项目] 2.3 改定前後の技術的内容の比較【国家規格改定プロジェクトにのみ適用される
不涉及。 関与しない。
三、试验验证的分析、综述报告,技术经济论证,预期的经济效益、社会效益和生态效益 III. 試験検証、技術的・経済的正当性、期待される経済的・社会的・生態学的便益の分析と総合報告。
3.1 试验验证的分析、综述报告 3.1 試験検証の分析と統合報告書
なし
3.2 技术经济论证 3.2 技術的及び経済的正当性
なし
3.3 预期的经济效益、社会效益和生态效益 3.3 期待される経済的、社会的及び生態学的便益
本标准的制定可满足生成式人工智能数据标注的安全管理需要,亦可有效助力我国生成式人工智能技术的发展与推广应用,能够产生较好的经济效益、社会效益和生态效益, 有效提升生成式人工智能人工标注实施及应用安全性。 本標準の制定は、生成的AIデータ注釈の安全管理ニーズを満たすことができ、また、中国における生成的AI技術の発展と普及を効果的に助け、良好な経済的、社会的、生態的利益を生み出し、生成的AI人工注釈の実施と応用の安全性を効果的に向上させることができる。
四、与国际、国外同类标准技术内容的对比情况,或者与测试的国外样品、样机的有关数据对比情况 国際及び外国標準の技術内容との比較、或いは外国サンプル及びプロトタイプのテスト関連データとの比較
标准编制过程中,根据国内生成式人工智能数据标注实际需要,引用了《人工智能 面向机器学习的数据标注规程》(GB/T 42755-2023),在基本流程方面与该标准内容相一致。 本標準の作成過程において、国内の生成的AIデータラベリングの実際のニーズに従って、「人工知能機械学習指向データラベリングプロトコル」(GB/T 42755-2023)を引用し、基本的なプロセスは本標準の内容と一致している。
在国际标准方面,ISO/IEC 23053:2022 Information technology - Artificial intelligence - Artificial intelligence concepts and terminology,建立了人工智能的术语并描述了人工智能领域的概念。可用于制定其他标准并支持不同的利益相关方之间的沟通。ISO/IEC 23053:2022  Framework for Artificial Intelligence (AI) Systems Using Machine Learning (ML) 建立了人工智能 (AI) 和机器学习 (ML) 框架,用于描述使用 ML 技术的通用 AI 系统。 该框架描述了人工智能生态系统中的系统组件及其功能。已批准工作项目ISO/IEC AWI 27090 Cybersecurity - Artificial Intelligence - Guidance for addressing security threats and failures in artificial intelligence systems,为组织应对人工智能系统中的安全威胁和故障提供了指导,旨在帮助相关企业和组织更好地了解人工智能系统在其整个生命周期中面临的安全威胁和后果,以及如何检测和减轻此类威胁。ISO/IEC WD 27091 Cybersecurity and Privacy - Artificial Intelligence - Privacy protection,为组织解决人工智能系统和机器学习模型中的隐私风险提供了指导。除了一些框架性国际标准在流程中提及标注数据以外,针对数据标注活动,目前还没有专门的标准进行安全指导和规范,本标准将为生成式人工智能数据标注活动提供全面的安全指南,填补目前国内外标准中该领域的空白。 国際規格としては、ISO/IEC 23053:2022 Information technology - Artificial intelligence - Artificial Intelligence concepts and terminologyがあり、人工知能の用語を確立し、人工知能分野の概念を記述している。 の概念を記述している。 ISO/IEC 23053:2022 Framework for Artificial Intelligence (AI) Systems Using Machine Learning (ML) は、人工知能(AI)と機械学習(ML)のフレームワークを確立し、AIとMLの使用を記述する。 ML)の枠組みを確立し、ML技法を使用した一般的なAIシステムを記述する。このフレームワークは、AIエコシステムにおけるシステムコンポーネントとその機能を記述する。 承認された作業項目 ISO/IEC AWI 27090 Cybersecurity - Artificial Intelligence - Guidance for addressing security threats and failure in artificial intelligence systems(サイバーセキュリティ-人工知能-人工知能システムにおけるセキュリティ上の脅威と障害に対処するためのガイダンス)。ISO/IEC WD 27091 Cybersecurity and Privacy - Artificial Intelligence - Privacy protection(サイバーセキュリティとプライバシー - 人工知能 - プライバシー保護): 人工知能システムのセキュリティ上の脅威と障害に対処するためのガイダンスを提供する。ISO/IEC WD 27091 Cybersecurity and Privacy - Artificial Intelligence - Privacy protectionは、AIシステムと機械学習モデルにおけるプライバシーリスクに対処するためのガイダンスを組織に提供している。 プロセスにおけるラベリングデータに言及するいくつかのフレームワーク国際標準に加えて、データラベリング活動に対するセキュリティガイダンスと仕様を提供する特定の標準は存在しない。本標準は、生成的AIデータラベリング活動に対する包括的なセキュリティガイドを提供し、現在の国内および国際標準におけるこの分野のギャップを埋める。
五、以国际标准为基础的起草情况,以及是否合规引用或者采用国际国外标准,并说明未采用国际标准的原因 V. 国際標準に基づき起草し、国際標準及び外国標準の遵守引用又は採用の有無、及び国際標準を採用しない理由を説明する。
本标准不涉及相关情况。 この基準は関連する状況をカバーしていない。
六、与有关法律、行政法规及相关标准的关系 VI. 関連法律、行政法規、関連基準との関係
《办法》第八条提出: 在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。《办法》第十九条提出:有关主管部门依据职责对生成式人工智能服务开展监督检查,提供者应当依法予以配合,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。目前,国内还没有生成式人工智能数据标注的安全规范标准,《办法》为本标准的制定提供了重要的指导性参考,本标准旨在落实《办法》的相关要求,对《办法》要求进行进一步补充和细化并提供具体的规范化实践指引。 弁法第8条は、生成AI技術の研究開発過程においてデータ注釈を実施する場合、提供者は本弁法の要求に沿い、明確かつ具体的で運用可能な注釈規則を策定し、データ注釈の品質評価を実施し、サンプリングベースで注釈内容の正確性を検証し、注釈要員に対して必要なトレーニングを提供し、法律を尊重・遵守する意識を高め、注釈要員が標準化された方法で注釈を実施するよう監督・指導しなければならないとしている。 弁法第19条は、関係主管機関がその職務に従って生成AIサービスの監督・検査を実施することを提案し、提供者は法律に従って協力し、必要に応じて学習データの出所、規模、種類、表示規則、アルゴリズム機構などを説明し、技術やデータの面で必要な支援・援助を提供する。 現在、中国には生成AIデータの注釈に関する安全仕様基準が存在せず、本措置は本基準策定の重要な指針となる。本基準は、本措置の関連要求事項を実施し、本措置の要求事項をさらに補足・改善し、具体的な規範的実施指針を提供することを意図している。
七、重大分歧意见的处理经过和依据 VII. 主な見解の相違の処理及び根拠
无。 特にない。
八、涉及专利的有关说明 VIII. 特許に関連する注記
本标准不涉及专利。 この規格は特許に関係しない。
九、实施国家标准的要求,以及组织措施、技术措施、过渡期和实施日期的建议等措施建议 IX. 国内規格の実施に関する要件,並びに組織的措置,技術的措置,移行期間及び実施期日に関する勧告並びに提案されたその他の措置
建议对标准中的条款进行宣贯,加强对开展生成式人工智能数据标注过程中的标注规则制定、标注实施、人员管理、质量核验等方面的实施思路的宣贯介绍,以在标准适用的相关主体之间达成标准条款理解上的一致性。 これは、標準の規定を促進するために、生成的な人工知能のデータ注釈のプロセスを強化することが推奨される注釈ルール、注釈の実装、人事管理、品質検証および標準のアプリケーションの関連科目間の標準の規定の理解の一貫性を達成するために導入のアイデアの実装の他の側面を実行する。
十、其他应当说明的事项 X. その他説明すべき事項
なし

 

 

|

« 中国 TC260 意見募集 国家標準「個人情報主体の求めに基づく個人情報の授受に関する要求事項」案 | Main | 中国 TC260 意見募集 国家標準 「生成的AIの事前訓練・最適化訓練データのセキュリティ仕様」案 »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« 中国 TC260 意見募集 国家標準「個人情報主体の求めに基づく個人情報の授受に関する要求事項」案 | Main | 中国 TC260 意見募集 国家標準 「生成的AIの事前訓練・最適化訓練データのセキュリティ仕様」案 »