网络安全技术 |
サイバーセキュリティ技術 |
生成式人工智能数据标注安全规范 |
生成的AIデータ注釈のセキュリティ仕様 |
Cybersecurity technology— |
サイバーセキュリティ技術 |
Generative artificial intelligence data annotation security specification |
生成的AIデータ注釈のセキュリティ仕様 |
(征求意见稿) |
(公開草案) |
目次 |
目次 |
前言 |
序文 |
1 范围 |
1 範囲 |
2 规范性引用文件 |
2 参考文献 |
3 术语和定义 |
3 用語と定義 |
4 概述 |
4 概要 |
5 数据标注基础安全要求 |
5 データラベリング基盤のセキュリティ要件 |
5.1 数据安全要求 |
5.1 データセキュリティ要件 |
5.2 标注工具安全要求 |
5.2 ラベリングツールセキュリティ要件 |
5.3 访问控制安全要求 |
5.3 アクセス制御セキュリティ要件 |
5.4 数据传输安全要求 |
5.4 データ伝送セキュリティ要件 |
6 数据标注规则安全要求 |
6 データ注釈ルールセキュリティ要件 |
7 标注人员要求 |
7 ラベリング要員要件 |
7.1 标注人员安全培训 |
7.1 ラベリング要員セキュリティ研修 |
7.2 标注人员选拔 |
7.2 ラベリング要員の選定 |
7.3 标注人员管理 |
7.3 ラベリング要員の管理 |
8 数据标注核验要求 |
8 データ注記検証要件 |
8.1 基本要求 |
8.1 基本要件 |
8.2 功能性标注核验安全要求 |
8.2 機能的注記検証セキュリティ要件 |
8.3 安全性标注核验安全要求 |
8.3 セキュリティ注釈検証セキュリティ要件 |
9 标注安全测试方法 |
9 ラベリングセキュリティ試験方法 |
9.1 留存记录检查测试 |
9.1 保持記録チェック試験 |
9.2 标注人员测试 |
9.2 ラベリング担当者試験 |
9.3 标注数据测试 |
9.3 ラベリングデータ試験 |
附录A (资料性) 生成式人工智能数据标注示例 |
附属書A(参考)AIデータ注釈の生成例 |
附录B (资料性) 人工智能标注任务类型示例 |
附属書B(参考) AI注釈タスクタイプの例 |
附录C (规范性) 语料及生成内容的主要安全风险 |
附属書C(規範) コーパスと生成コンテンツの主なセキュリティリスク |
前言 |
序文 |
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。 |
本文書は、GB/T 1.1-2020「標準化作業ガイドライン第1部:標準化文書の構造および起草規則」の規定に基づいて起草されている。 |
本文件由全国网络安全标准化技术委员会(SAC/TC260)提出并归口。 |
本文書は、国家ネットワークセキュリティ標準化専門委員会(SAC/TC260)が提案し、帰属する。 |
本文件起草单位:国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院、中关村实验室 |
本文書の起草単位:中国電子技術標準化研究院中関村研究室国家コンピュータネットワーク緊急技術処理調整センター |
本文件主要起草人: |
この文書の主な起草者 |
网络安全技术 |
ネットワークセキュリティ技術 |
生成式人工智能数据标注安全规范 |
生成的AIデータ注釈のセキュリティ仕様書 |
1 范围 |
1 範囲 |
本标准规定了生成式人工智能训练的数据标注基础安全要求、数据标注规则安全要求、标注人员要求、数据标注核验要求和标注安全测试方法。 |
本標準は、生成的AI訓練のデータ注釈の基本セキュリティ要求事項、データ注釈規則のセキュリティ要求事項、注釈担当者の要求事項、データ注釈検証の要求事項、注釈セキュリティ試験方法を規定する。 |
本标准适用于生成式人工智能数据标注方开展训练数据标注活动,也可为生成式人工智能数据需求方对于数据标注进行检查、验收或第三方机构对数据标注进行安全性评估提供参考。 |
本標準は、生成的AIデータ注釈当事者に適用され、訓練データ注釈活動を実施するだけでなく、生成的AIデータ需要側のデータ注釈検査、受け入れ、または第三者機関のデータ注釈のセキュリティを評価するために参考資料を提供する。 |
2 规范性引用文件 |
2 引用規格 |
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 |
以下の文書の内容は、本文中の規範的な参照を通じて、本文書の不可欠な規定を構成する。 その中で、日付のある引用文書については、その日付に対応するバージョンのみが本文書に適用され、日付のない引用文書については、最新バージョン(すべての改訂シートを含む)が本文書に適用される。 |
GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 |
GB/T 42755-2023 人工知能 機械学習のためのデータ注釈プロトコル |
3 术语和定义 |
3 用語と定義 |
下列术语和定义适用于本文件。 |
以下の用語と定義がこの文書に適用される。 |
3.1 |
3.1 |
提示信息 prompt |
プロンプト |
引导生成式人工智能模型完成特定任务并提供合理输出内容的输入信息。 |
生成的AIモデルが特定のタスクを完了し、妥当な出力内容を提供するよう導く入力情報。 |
3.2 |
3.2 |
响应信息 response |
応答 |
在生成式人工智能数据标注中,按照提示信息要求形成的符合人类认知的应答信息,用于训练模型形成对提示信息输出相应内容、模式或风格的响应的能力。 |
生成AIデータ注釈において、プロンプト情報の要求に従って形成される応答情報は、人間の認知に適合しており、プロンプト情報に対応する内容、パターン、またはスタイルで応答する能力を形成するモデルを訓練するために使用される。 |
3.3 |
3.3 |
生成式人工智能数据标注 generative artificial data annotation |
生成的人工知能データ注釈 |
通过人工操作或使用自动化技术机制,基于对提示信息的响应信息内容,将特定信息如标签、类别或属性添加到文本、图片、音频、视频或者其他数据样本的过程。 |
手動または自動化された技術的メカニズムを使用して、キューメッセージに対する応答の内容に基づいて、テキスト、画像、音声、映像、またはその他のデータサンプルにラベル、カテゴリ、または属性などの特定の情報を追加するプロセス。 |
注:以下简称“数据标注”。 |
注:以下「データ注釈」という。 |
3.4 |
3.4 |
功能性数据标注 functional data annotation |
機能的データ注釈 |
用于训练生成式人工智能模型具备完成特定任务能力的数据标注。 |
特定のタスクを実行できるように生成AIモデルを訓練するために使用されるデータ注釈。 |
3.5 |
3.5 |
安全性数据标注 security data annotation |
セキュリティ・データ注釈 |
用于训练生成式人工智能模型提升输出响应信息安全性的数据标注。 |
出力される応答情報の安全性を向上させるために、生成AIモデルの学習に使用されるデータ注釈。 |
3.6 |
3.6 |
微调训练数据标注 fine-tuning data annotation |
微調整データ注釈 |
训练生成式人工智能模型具备完成特定任务或输出安全响应信息能力的数据标注。 |
生成AIモデルを学習させ、特定のタスクを完了する能力や安全対応情報を出力する能力を持たせるためのデータ注釈。 |
3.7 |
3.7 |
偏好数据标注 comparison data annotation |
比較データ注釈 |
针对同一个提示信息的正反例或多个不同的响应信息,标注人员根据偏好给出打分或者排序标注的数据标注,通过强化学习等方式提升生成式人工智能模型的性能或安全性。 |
同じプロンプトメッセージや複数の異なる応答メッセージの肯定例と否定例に着目し、強化学習などの手法により、生成AIモデルの性能や安全性を向上させるために、アノテータが好みに応じて点数をつけたり、順位をつけたりするデータ注釈を行う。 |
注:反例数据通过强化学习等学习范式,训练模型降低输出类似反例响应的概率。 |
注:反例データは、強化学習などの学習パラダイムにより、類似した反例応答を出力する確率を低減するモデルの学習に用いられる。 |
3.8 |
3.8 |
标注规则 annotation rules |
注釈ルール |
生成式人工智能模型数据标注时所遵循的方法、要求的统称。 |
生成AIモデルのためにデータに注釈を付ける際に従うべき方法と要件の総称。 |
3.9 |
3.9 |
数据标注人员 annotator |
データ注釈者 |
执行标注任务、产出标注内容的人员。 |
注釈作業を行い、注釈されたコンテンツを作成する人。 |
3.10 |
3.10 |
标注审核人员 annotation reviewer |
注釈レビュアー |
对初始化标注结果进行质量控制的人员。 |
初期化された注釈結果の品質管理を行う者。 |
3.11 |
3.11 |
标注仲裁人员 annotation arbitrator |
注釈仲裁人 |
当多名标注人员对同一标注对象的标注结果不一致或存在争议时,负责给出最终标注结果的人员。 |
同じ注釈オブジェクトに対して複数の注釈担当者が注釈を行った場合、注釈結果に矛盾が生じたり、論争が生じたりした場合に、担当者の最終的な注釈結果を決定する。 |
3.12 |
3.12 |
标注监督人员 annotation supervisor |
注釈監督者 |
对标注活动进行监督,判定数据标注活动是否符合各项要求的人员。 |
注釈活動を監督し、データ注釈活動が要求事項に適合しているかどうかを決定する者。 |
3.13 |
3.13 |
数据标注方 data annotator |
データ注釈担当者 |
组织数据标注人员开展数据标注活动、对标注质量有直接责任的人员或机构。 |
データ注釈活動を実施するためにデータ注釈者を組織し、注釈の質 に直接責任を持つ個人または組織。 |
3.14 |
3.14 |
数据需求方 data requester |
データ要求者 |
提出数据标注需求的人员或机构。 |
データ注釈の要求事項を提出する個人または組織。 |
[来源:GB/T 42755-2023,定义3.4] |
[出典:GB/T 42755-2023、定義 3.4]。 |
4 概述 |
4 概要 |
本文件定义了生成式人工智能数据标注安全的相关要求,具体包括: |
本文書は、生成 AI のデータ注釈のセキュリティに関連する要件を定義するもので、具体的には以下を含む: |
a) 数据标注基础安全要求:针对数据安全、标注工具安全、访问控制和数据传输提出安全要求; |
a) データ注釈基本セキュリティ要件:データセキュリティ、注釈ツールセキュリティ、アクセス制御、データ伝送に関するセキュリティ要件; |
b) 数据标注规则安全要求:针对数据标注方制定生成式人工智能数据标注规则提出安全要求; |
b) データ注釈ルールのセキュリティ要件:生成AIデータ注釈ルールを策定するためのデータ注釈当事者に対するセキュリティ要件; |
c) 标注人员要求:针对标注人员在培训、选拔和管理等方面提出安全要求; |
c) 注釈担当者の要件:トレーニング、人選、管理の観点から、注釈担当者のセキュリティ要件を提案する; |
d) 数据标注核验要求:针对生成式人工智能数据标注核验提出安全要求。 |
d) データ注釈検証要件:生成AIデータ注釈検証のためのセキュリティ要件を提示する。 |
|
图1生成式人工智能数据标注安全框架图 |
図1 生成AIデータ注釈のセキュリティフレームワーク図 |
5 数据标注基础安全要求 |
5 データ注釈の基本的なセキュリティ要件 |
5.1 数据安全要求 |
5.1 データセキュリティ要件 |
数据标注方应确保对标注数据的安全性,要求如下: |
データ注釈当事者は、注釈データのセキュリティを以下のように確保しなければならない: |
a) 应检查标注数据是否包含敏感个人信息,采取必要措施对敏感个人信息进行匿名化处理; |
a) データ注釈者は、注釈データに機微な個人情報が含まれているかどうかを確認し、機微な個人情報を匿名化するために必要な措置を講じなければならない; |
b) 应实施数据访问控制,限制对标注数据的访问,只允许经过授权的标注人员访问; |
b) データアクセス制御を実施し、注釈データへのアクセスを制限し、権限を与えられた注釈者のみがアクセスできるようにする; |
c) 应备份准备标注的数据,以防止数据丢失或损坏,同时确保备份数据的安全性; |
c) ラベリングの準備が整ったデータは、データの紛失や破損を防ぐためにバックアップされるべきであり、同時にバックアップされたデータのセキュリティを確保する; |
d) 应监控和记录准备标注的数据的访问和修改记录,以进行数据安全审计; |
d) データセキュリティ監査のために、注釈準備完了データのアクセス記録と変更記録を監視・記録する; |
e) 当标注任务终止或完成时,应按照合同约定对数据进行相关处置;合同中如无相关要求,但涉及生物特征等敏感信息的,应按照相关法律要求删除相关数据,并妥善处置其余数据。 |
e) ラベリング作業が終了または完了した場合、データは契約に従って廃棄されるも のとする。契約に関連要件はないが、バイオメトリック特徴などの機微情報が含まれ ている場合、関連データは関連法の要件に従って削除され、残りのデータは適 切に廃棄されるものとする。 |
5.2 标注工具安全要求 |
5.2 ラベリングツールのセキュリティ要件 |
数据标注方应确保实施标注活动所采用工具的安全性,要求如下: |
データ注釈の当事者は、注釈活動を実施するために使用するツールのセキュリティを確保 しなければならない: |
a) 应定期对标注平台或框架进行安全评估,发现潜在的安全漏洞,及时进行修复,并详细记录漏洞发现及处置情况; |
a) 注釈プラットフォームまたはフレームワークのセキュリティ評価を 定期的に実施し、潜在的なセキュリティの抜け穴を発見し、適時に修復し、抜け穴の発見と 処分の詳細な記録を保管すること; |
b) 应在安全的标注平台或框架开展标注活动,宜采用国产化数据标注平台或框架; |
b) 注釈活動は、安全な注釈プラットフォームまたはフレームワーク上で実施するものとし、国産のデータ注釈プラットフォームまたはフレームワークを採用することが望ましい; |
c) 应确保标注平台或框架能详细记录用户的操作和系统活动,以便在发生安全事件时进行调查;应确保日志包含足够的详细信息,以追踪数据的处理历史; |
c) 注釈プラットフォームまたはフレームワークは、セキュリティ・インシデントが発生した場合の調査のために、ユーザーの操作とシステム活動を詳細に記録できることを保証しなければならない; |
d) 对于集中开展的数据标注工作,应提供具有适当区域划定和访问控制的物理环境,以防止未授权人员进入标注区域,确保标注物理环境安全;对于非集中开展的数据标注工作,应确保每位标注人员所使用的标注设备安全和网络传输通道安全; |
d) 集中型データ注釈作業の場合、適切な区域区分とアクセス制御を備えた物理的環境を提供し、権限のない人が注釈区域に入るのを防ぎ、注釈のための物理的環境のセキュリティを確保すべきである。非集中型データ注釈作業の場合、各注釈者が使用する注釈機器のセキュリティとネットワーク伝送路のセキュリティを確保すべきである; |
e) 如在标注过程中使用自动化标注工具进行辅助标注,应使用符合我国相关法律法规要求的自动化标注工具。 |
e) 注釈の過程において、注釈を補助するために自動注釈ツールを使用する場合、中国の関連法規の要件を満たす自動注釈ツールを使用しなければならない。 |
5.3 访问控制安全要求 |
5.3 アクセス制御のセキュリティ要件 |
数据标注方应建立访问控制机制并采取相应安全控制措施,要求如下: |
データ注釈当事者は、アクセス制御メカニズムを確立し、対応するセキュリティ制御措置を講じなければならない: |
a) 应制定安全访问控制策略,只有经过身份验证和授权的人员可以访问标注工具和准备标注的数据; |
a) 認証され、権限を与えられた人員のみが注釈ツールおよび注釈可能なデータにアクセスできるように、セキュリティアクセス制御ポリシーを策定する; |
b) 应配置标注人员权限,标注人员只能访问其分配的标注任务数据; |
b) 注釈要員が、割り当てられた注釈タスクのデータにのみアクセスできるように、注釈要員の権限を設定する; |
c) 对于因出现安全风险问题被取消标注资格的人员,应同时撤销其标注工具和数据的访问权限; |
c) セキュリティリスクの問題が発生したために注釈資格を取り消された要員については、注釈ツールおよびデータへのアクセス権も同時に取り消されるべきである; |
d) 应根据需要设置已完成标注数据的访问和导出权限; |
d) 完成した注釈データに対するアクセス権とエクスポート権は、必要に応じて設定する; |
e) 宜对安全性标注数据在单独数据库中进行隔离存储并配置独立访问控制策略。 |
e) セキュリティ注釈データを分離して別のデータベースに保存し、独立したアクセス制御ポリシーを設定することが適切である。 |
5.4 数据传输安全要求 |
5.4 データ伝送セキュリティ要件 |
数据标注方应建立信息传输安全机制并采取相应安全控制措施,要求如下: |
データ注釈当事者は、情報伝送セキュリティメカニズムを確立し、対応するセキュリティ管理措置を講じなければならない: |
a) 应在标注活动各阶段的所有数据传输使用安全传输协议; |
a) ラベリング活動のすべての段階において、すべてのデータ伝送に安全な伝送プロトコルを使用する; |
b) 应明确有权执行数据传输的标注人员的范围以及他们可以访问的数据范围; |
b) データ伝送を行う権限を与えられたラベラーの範囲と、彼らがアクセスできるデータの範囲を明確にしなければならない; |
c) 应采用独立安全传输协议传输安全性标注数据。 |
c) セキュリティ注釈データの伝送には、別の安全な伝送プロトコルを使用しなければならない。 |
6 数据标注规则安全要求 |
6 データラベリング規則のセキュリティ要件 |
数据标注方制定标注规则的要求如下: |
データ・ラベラーがラベリング・ルールを確立するための要件は次のとおりである: |
a) 标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容,生成式人工智能数据标注示例可参考附录A; |
a) 注釈規則は、少なくとも、注釈目的、データ形式、注釈方法、品質指標等を含むものとする; |
b) 数据标注方应分别对功能性数据标注与安全性数据标注制定具体的标注规则,标注规则应至少覆盖数据标注以及数据审核等环节; |
b) データ注釈当事者は、機能データ注釈とセキュリティデータ注釈について、それぞれ特定の注釈ルールを策定し、注釈ルールには少なくともデータ注釈とデータレビューを含めるものとする; |
c) 数据标注方应明确具体标注任务类型,对含有文本、图片、音频、视频、时间序列等不同内容的标注任务,任务类型可参考附录B; |
c) データ注釈当事者は、特定の注釈タスクタイプを指定しなければならない。テキスト、画像、音声、映像、時系列などの異なるコンテンツを含む注釈タスクについては、タスクタイプは附属書Bを参照することができる; |
注:应符合GB/T42755-2023中5.1.1的数据需求方标注任务要求。 |
注:GB/T42755-2023 の 5.1.1 のデータ要求側注釈タスク要件を満たさなければならない。 |
d) 功能性标注规则应能够用于指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料,包含正反例信息,使标注人员能够依据标注规则正确执行标注任务; |
d) 機能的注釈ルールは、注釈担当者が注釈ルールに基づいて正しく注釈タスクを実行できるように、特定のドメインの特性に従って、信憑性、正確性、客観性、多様性を備えた注釈コーパスを作成するためのガイドとして使用でき、情報の肯定例と否定例を含んでいなければならない; |
e) 功能性标注规则应包含安全风险内容的识别方法及参考示例,能够使标注人员依据标注规则判定安全风险提示信息,避免产生包含安全风险内容的响应信息标注; |
e) 機能的な注釈ルールには、セキュリティリスク内容の識別方法と参照例を含める。これにより、注釈ルールに従って、注釈者がセキュリティリスク促し情報を決定でき、セキュリティリスク内容を含む応答情報の注釈が作成されることを回避できる; |
f) 安全性标注规则应能够指导标注人员围绕语料及生成内容的主要安全风险进行标注; |
f) セキュリティ注釈ルールは、コーパスと生成されたコンテンツの主なセキュリティリスク周辺に注釈を付けるように、注釈者を誘導できるようにする; |
g) 安全性标注规则中包含涉及安全风险内容的提示信息时的响应信息标注规则说明及参考示例,能够使标注人员能够依据标注规则给出安全合理的引导性响应信息标注; |
g) セキュリティ注釈ルールには、プロンプト情報にセキュリティリスクコンテンツが含まれる場合の応答情報注釈ルールの指示と参考例が含まれており、注釈ルールに従って、注釈担当者が安全で合理的な応答情報注釈を行うことができる; |
h) 应包含不符合标注规则的标注的识别方法及参考示例,能够使标注人员能够依据标注规则及时动态重新或纠正标注内容; |
h) 注釈ルールに適合しない注釈の識別方法と参考例を記載し、アノテータが注釈ルールに従って、注釈された内容をその時々に動的に再修正または修正できるようにする; |
i) 应包含对数据标注结果的质量及安全性核验方法; |
i) データ注釈結果の品質および安全性の検証方法を含むべきである; |
j) 应包含应对和处置标注过程中安全事件的应急响应和通知机制。 |
j) 注釈プロセスにおけるセキュリティ・インシデントに対処するため、緊急時対応および通知メカニズムを含むべきである。 |
7 标注人员要求 |
7 ラベリング担当者に対する要件 |
7.1 标注人员安全培训 |
7.1 注釈担当者に対する安全教育 |
数据需求方与数据标注方应组织标注人员进行安全培训,要求如下: |
データ要求側及びデータ注釈側は、注釈担当者に対し、以下の要件を備えたセキュリ ティ研修を組織しなければならない: |
a) 培训内容应至少包括数据标注规则安全要求、数据标注工具使用方法及安全要求、数据标注质量及安全性核验方法、标注数据安全管理、典型安全风险场景及相关安全问题案例及识别方法、标注人员安全意识培训等; |
a) 研修内容には、少なくとも、データ注釈ルールのセキュリティ要件、データ注釈ツールの使用方法とセキュリティ要件、データ注釈の品質とセキュリティ検証方法、注釈データのセキュリティ管理、典型的なセキュリティリスクシナリオと関連するセキュリティ問題事例とその特定方法、及び注釈要員のセキュリティ意識研修を含むものとする; |
b) 应在培训结束后组织标注人员进行安全考核,给予合格者标注上岗资格,对考核过程进行记录,并留存记录文档; |
b) 訓練終了後、注釈要員のセキュリティアセスメントを実施し、有資格者に注釈資格を与え、アセスメントプロセスを記録し、記録ファイルを保管する; |
注:考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等。 |
注:評価内容は、ラベリング規則を理解する能力、ラベリングツールを使用する能力、セキュリティリスクを判断する能力、データセキュリティを管理する能力を含むものとする。 |
c) 应定期组织重新培训考核,暂停或取消不合格者的标注上岗资格。 |
c) 定期的な再研修と評価を実施し、無資格者のマーキング資格は一時停止または取り消す。 |
7.2 标注人员选拔 |
7.2 ラベリング要員の選定 |
数据标注方应开展标注人员选拔工作,要求如下: |
データ注釈の当事者は、注釈担当者の選定を以下の要件で実施しなければならない: |
a) 应按数据标注规模和标注任务需求,明确标注人员的数量和岗位职责,并根据任务实际情况动态调整; |
a) データ注釈の規模および注釈業務の需要に応じて、注釈要員の数および職務を規定し、業務の実情に応じて動的に調整する; |
b) 应按标注任务中的不同职责定位,划分标注人员角色,包括数据标注人员、标注审核人员、标注仲裁人员、标注监督人员,并根据角色能力要求择优选拔; |
b) 注釈担当者の役割は、データ注釈担当者、注釈レビュー担当者、注釈仲裁担当者、注釈監督担当者など、注釈タスクにおけるさまざまな職務の位置づけに従って分けられ、役割能力の要件に従って、能力に基づいて選抜される; |
c) 应对各标注人员角色选拔过程进行记录,并留存记录文档。 |
c) 各注釈要員の役割の選定プロセスを記録し、記録文書を保管する。 |
7.3 标注人员管理 |
7.3 注釈者の管理 |
数据标注方组织数据标注人员开展数据标注工作的要求如下: |
データ注釈担当者がデータ注釈作業を行うための要件は以下の通りである: |
a) 数据标注人员应按照数据标注规则及任务要求及时完成数据标注,提交数据标注结果由标注审核人员进行审查; |
a) データ注釈担当者は、データ注釈の規則および作業要件に従い、適 時にデータ注釈を完了し、データ注釈結果を注釈レビューアの レビューを受けるために提出する; |
b) 标注审核人员应对数据标注结果进行核验和质量把控,对标注质量不合格的数据,退回进行重新标注,对数据标注存在争议或多人标注数据存在不一致的情况,提交标注仲裁人员进行仲裁,并保留审核记录; |
b) 注釈レビュアーは、データ注釈結果を検証し、品質管理を行い、注釈品質が不適格なデータについては、再ラベリングのために返却し、また、複数の人が注釈したデータにおけるデータ注釈の紛争や不整合を仲裁するために、注釈仲裁要員を提出し、監査記録を保管する; |
c) 对于多人标注数据存在不一致或数据存在争议情况,标注仲裁人员应进行最终裁决判定,并保留仲裁记录。裁定通过的,提交标注结果;裁定不通过的,退回进行重新标注; |
c) 複数の人がラベリングしたデータの不一致、またはデータに争いがある場合、ラベリング仲裁人が最終裁定を下し、仲裁記録を保管する。 決定が下された場合は、ラベリング結果を提出し、決定が下されなかった場合は、再ラベリングのために返送する; |
d) 标注监督人员应对标注活动进行监督,对标注过程中不同角色人员的任务完成情况进行抽样检查;应对标注过程中发生的数据安全、传输安全等风险情况等进行及时发现处理,并保留风险发现及处置情况记录; |
d) 注釈監督者は、注釈活動を監督し、注釈プロセスの異なる役割の要員によるタスクの完了についてサンプリングチェックを行う; |
e) 在同一项标注任务中,同一人员不应承担多个角色任务。 |
e) 同じ注釈作業において、同じ要員が複数の役割の作業を引き受けてはならない。 |
8 数据标注核验要求 |
8 データラベリング検証要件 |
8.1 基本要求 |
8.1 基本要件 |
数据标注方应对数据标注结果进行核验,要求如下: |
データ注釈者はデータ注釈の結果を検証しなければならず、その要件は以下の通りである: |
a) 宜保证微调训练数据标注中的安全性标注比例不低于30%; |
a) 微調整訓練データ注釈における安全注釈の割合が 30%以上であることを確 保することが適切である; |
注:该比例的计算方法为: |
注:割合の計算方法は以下の通りである: |
b) 应对标注结果进行核验,核验方式包括但不限于: |
b) 注釈結果は検証されなければならず、検証方法には以下のものが含まれるが、これらに限定されない: |
1) 人工核验:通过标注审核人员对标注结果进行随机抽样核验等方式,检验标注结果的质量和安全性; |
1) 手作業による検証:注釈レビューアによる注釈結果の無作為抽出により、注釈結果の品質と安全性を検証する; |
2) 混合核验:使用相关检测算法或自动化标注工具自动验证标注结果,自动检测标注结果的质量和安全性问题,后续由人工对自动化核验的结果通过采用随机抽样核验等方式进行核验。 |
2) 混合検証:関連するテストアルゴリズムまたは自動注釈ツールを使用して注釈結果を自動検証し、注釈結果の品質および安全性を自動的に検出し、その後、ランダムサンプリング検証およびその他の検証方法を採用して自動検証の結果を手動で検証する。 |
c) 应对标注结果进行一定规模内容核验,核验内容包括但不限于: |
c) 注釈結果の検証は一定の規模で行うものとし、検証内容には以下のものが含まれるが、これらに限定されるものではない: |
1) 理解准确:确认标注结果清晰且符合问题意图要求;识别并标注提示信息中的关键信息和隐形条件; |
1) 正確な理解:注釈結果が明確であり、質問意図の要件に沿っていることを確認する; |
2) 问答一致:确保响应信息完全符合提示信息的约束条件和预期目标; |
2) 質問と回答の一貫性:回答情報がプロンプトの制約と意図された目標を完全に満たしていることを確認する; |
3) 保证质量:检查并修正语法错误、用词不当或风格不搭配的问题;避免语言使用和句式结构的重复,确保表达多样性和清晰度。 |
3) 品質の保証:文法上の誤り、不適切な表現、文体の不一致をチェックし、修正する。言語使用や文構造の繰り返しを避け、表現の多様性と明瞭性を確保する。 |
d) 应对核验发现的标注结果中的问题进行纠正或重新标注,并跟踪纠正情况和处理结果; |
d) 検証によって発見されたラベリング結果の問題は、修正または再ラベリングされ、 修正および結果のフォローアップが行われるべきである; |
e) 数据重新标注的要求如下: |
e) データの再ラベリングに関する要件は以下の通りである: |
1) 数据标注人员应对标注任务执行阶段和标注结果输出阶段记录的所有问题标注进行纠正; |
1) データ注釈担当者は、注釈タスク実行段階および注釈結果出力 段階で記録された問題のある注釈をすべて修正しなければならない; |
2) 数据标注人员应逐条记录标注纠正的详细信息,包括原始标注人员信息、标注纠正人员信息、原始标注内容、纠正后的标注内容、原始标注时间、纠正标注时间等; |
2) データ注釈担当者は、元の注釈担当者の情報、注釈修正担当者の情報、元の注釈の 内容、修正された注釈の内容、元の注釈の時刻、修正された注釈の時刻を含む、注釈修正 の詳細を項目ごとに記録しなければならない; |
3) 标注审核人员应对纠正后的标注进行复核,复核通过的将纠正标注结果进行更新和归档,复核未通过的按需进行重新标注。 |
3) 採点監査担当者は、訂正された注釈を確認し、訂正された注釈の結果を更新し、保管するため に確認し、必要に応じて再採点するために失敗した注釈を確認する。 |
f) 应记录每次核验的详细信息,包括审核人员信息、核验时间、核验结果和发现的问题; |
f) 審査員情報、検証時間、検証結果、発見された問題点など、各検証の詳細情報を記録する; |
g) 应形成并留存核验报告,总结核验结果,包括建议的改进措施和纠正措施等; |
g) 改善策や是正措置の提案を含め、検証結果をまとめた検証報告書を作成し、保管する; |
h) 应对标注数据核验过程进行记录并形成可查阅的记录文档。 |
h) 注釈データの検証プロセスを記録し、アクセス可能な記録ファイルを作成する。 |
8.2 功能性标注核验安全要求 |
8.2 機能的注釈検証のセキュリティ要件 |
数据标注方应对功能性数据标注的标注质量及安全性进行评估核验,要求包括担不限于: |
データアノテータは、機能データ注釈の品質と安全性を評価し、検証するものとす る: |
a) 功能性标注数据不应包含任何安全风险信息,主要安全风险可参考附录C; |
a) 機能的注釈データには安全リスク情報が含まれていてはならない; |
b) 标注数据中提示信息及响应信息在内容上应具备逻辑性、有效性,对于特定领域的应答需合理; |
b) ラベリングデータのプロンプト情報および応答情報は、論理的かつ効果的な内容であるべきであり、特定のフィールドへの応答は合理的であるべきである; |
c) 标注数据应具备合理性、真实性、准确性、客观性、多样性等; |
c) ラベリングデータは、合理性、真実性、正確性、客観性、多様性を持つべきである; |
d) 响应信息内容应具备准确性、有用性、时效性、逻辑性、易读性等: |
d) 回答情報の内容は、正確で、有用で、タイムリーで、論理的で、読みやすいものでなければならない: |
1) 内容准确性:标记响应信息内容中的事实陈述是否准确,包括但不限于地理信息、历史事件、科学知识等; |
1) 内容の正確さ:地理的情報、歴史的事象、科学的知識など、回答情報の内容に含まれる事実の記述が正確かどうかをマークする; |
2) 有用性:标记响应信息内容对用户问题的解答程度,以及提供的信息是否能够满足用户需求; |
2) 有用性:回答メッセージの内容が利用者の質問にどの程度答えているか、また提供された情報が利用者のニーズに合っているかをマークする; |
3) 时效性:标记响应信息内容中的信息是否与当前时势保持同步,以及提供的信息是否仍然有效; |
3) 適時性:マークされた応答メッセージの内容の情報が現在の状況と同期しているか、また提供された情報が現在も有効かどうかを示す; |
4) 逻辑性:标记响应信息内容中的论述是否连贯、合理,以及论据是否支持结论; |
4)論理性:採点回答内容の論旨が首尾一貫して妥当であるか、論旨が結論を裏付けているか; |
5) 易读性:标记响应内容中的语言是否流畅、通顺,以及是否易于理解。 |
5) 読みやすさ:ラベル付けされた回答の言葉が流暢で、論理的で、理解しやすいかどうか。 |
e) 应对提示信息标注质量进行全面核验,检查可能存在的质量缺陷,包括但不限于: |
e) プロンプトメッセージの注釈の品質は、以下のような品質上の欠陥がないかを総合的に検証する: |
1) 提示信息不符合标注规则; |
1) プロンプト情報がラベリングの規則に準拠していない; |
2) 提示信息不完整,缺少关键信息,或表达意图不明确。 |
2) プロンプトメッセージが不完全である、重要な情報が欠落している、または意図が不明確である。 |
f) 应对响应信息标注质量进行全面核验,检查可能存在的质量缺陷,包括但不限于: |
f) レスポンス情報のラベリング品質は、以下のような品質欠陥の可能性をチェックするため に、十分に検証されなければならない: |
1) 响应信息不合符标注规则; |
1) 応答情報がラベリング規則に適合していない; |
2) 响应信息内容与提示信息没有明显关联性; |
2) 応答メッセージの内容がプロンプトメッセージと明確に関連していない; |
3) 问题无法解答时仍强行进行响应信息标注; |
3) 質問に答えられないのに、応答メッセージの注釈が強制されている; |
4) 除另有特殊要求外,响应信息内容行文风格化,包含个性化语言; |
4) 特に要求がない限り、応答メッセージはスタイル化され、個人的な表現が含まれている; |
5) 响应信息文字内容存在错字、病句、断句错误; |
5) 回答メッセージのテキストに、誤字脱字、気持ちの悪い文章、不正確な文区切りがある; |
6) 响应信息内容表达冗杂、缺乏逻辑。 |
6) 応答メッセージの内容が冗長で、論理性を欠いている。 |
g) 应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,应作废该批次标注语料。 |
g) ラベル付きコーパスの各バッチは手作業でサンプリングされ、不正確なコンテンツは再度ラベル付けされる。コンテンツに違法で望ましくない情報が含まれていることが判明した場合、ラベル付きコーパスのバッチは無効にされる。 |
8.3 安全性标注核验安全要求 |
8.3 セキュリティ・ラベリング検証のためのセキュリティ要件 |
数据标注方应对安全性数据标注的标注质量及安全性进行评估核验,要求包括担不限于: |
データ注釈者は、セキュリティデータ注釈の品質とセキュリティを評価し、検証しなければならない: |
a) 安全性数据标注的提示信息应能够覆盖主要的安全风险场景,主要安全风险可参考附录C; |
a) セキュリティデータ注釈のヒント情報は、主要なセキュリティリスクシナリオをカバーでき るものでなければならない; |
b) 对于安全性标注数据,微调数据标注的响应信息以及偏好数据标注中正例的响应信息中不应包含任何安全风险信息,并保证响应信息对提示信息中的安全风险内容进行了安全、合理的响应; |
b) 安全注釈データに対して、ファインチューニングデータ注釈のレスポンス情報とプリファレンスデータ注釈のポジティブ例のレスポンス情報は安全リスク情報を含まず、レスポンス情報がプロンプト情報の安全リスク内容に安全かつ合理的な方法で対応していることを保証する; |
c) 每一条安全性标注语料应至少由一名审核人员审核通过; |
c) 各安全性注釈コーパスは、少なくとも一人のレビュアーによってレビューされ、承認されなければならない; |
d) 安全性数据标注不合格数量超过安全性数据标注总量的5%时,该批次标注语料应作废。 |
d) 不適格な安全データ注釈の数が安全データ注釈の総数の 5%を超えた場合、その注釈コーパスは無効とする。 |
9 标注安全测试方法 |
9 ラベリングセキュリティ試験方法 |
9.1 留存记录检查测试 |
9.1 保持記録検査試験 |
留存记录检查测试方法如下: |
保持記録検査試験方法は以下の通りである: |
a)检查数据标注方是否组织标注人员进行安全培训,是否按要求留存培训考核记录; |
(a)データ注釈実施者が注釈要員に対してセキュリティ教育を実施し、その教育記録及び試験記録が要求通りに保管されているかどうかを検査する; |
b)检查标注人员是否按照人员角色分工执行标注任务并留存相关审核、仲裁等记录; |
(b) 注釈担当者が担当者の役割分担に従って注釈業務を遂行し、関連する監査・仲裁記録を保管しているかどうかをチェックする; |
c)检查数据标注方是否定期对标注平台或框架进行安全评估,对已发现的系统或工具漏洞是否完成修复工作; |
(c) データ注釈者が注釈プラットフォームまたはフレームワークのセキュリティアセスメントを定期的に実施し、発見されたシステムまたはツールの脆弱性の修復作業を完了しているかどうかをチェックする; |
d)检查标注平台或工具是否记录了用户的操作和系统活动,以便在发生安全事件时进行调查; |
d) 注釈プラットフォーム又はツールが、セキュリティインシデント発生時の調査のために、利用者の操作及びシステム活動を記録しているかどうかを確認する; |
e)检查数据标注方是否落实数据核验要求,检查数据核验相关记录文档是否符合要求; |
e) データのラベル付けを行う者がデータ検証要件を実施しているかどうか、及びデータ検証に関連する記録文書が要件を満たしているかどうかをチェックする; |
f)检查标注任务终止或完成时,数据是否按照合同约定进行相关处置,生物特征等敏感信息是否按照相关法律要求删除。 |
f) ラベリング業務が終了または完了したときに、データが契約に従って廃棄され ているか、およびバイオメトリクスなどの機密情報が関連法的要件に従って削除さ れているかをチェックする。 |
9.2 标注人员测试 |
9.2 ラベリング要員試験 |
标注人员测试方法如下: |
ラベリング要員テストの方法は以下の通りである: |
a)从全部标注人员中随机抽取一定数量标注人员,进行测试; |
(a)全注釈者数から一定数の注釈者をランダムに選択し、テストを実施する; |
b)通过问询等方式对安全培训、安全意识、典型安全风险场景等培训内容进行测试; |
b)セキュリティ教育、セキュリティ意識、典型的なセキュリティリスクシナリオなどの教育内容を、質問などによってテストする; |
c)通过提问或考核等方式,对人员是否了解标注规则安全要求进行测试; |
c)担当者がラベリングルールの安全要件を理解しているかどうかを、質問または検査によってテストする; |
d)通过检查实际标注任务与标注结果,对人员是否落实数据标注工作安全要求进行测试。 |
(d) 実際のラベリング作業とラベリング結果をチェックすることにより、要員がデータ ラベリング作業の安全要求事項を実施しているかどうかをテストする。 |
9.3 标注数据测试 |
9.3 ラベリングデータ試験 |
标注数据检测方法如下: |
注釈データのテスト方法は以下の通りである: |
a)采用人工抽检,从全部语料中随机抽取一定数量标注数据,对合格率进行检测; |
(a)手動サンプリングを採用し、コーパス全体から一定数の注釈データをランダムに選択し、合格率をテストする; |
b)结合关键词库、分类模型等技术测试手段,从全部语料中随机抽取一定数量标注数据,对抽样合格率进行检测。 |
b)キーワードライブラリ、分類モデル、その他の技術的なテスト手段を組み合わせて、コーパス全体から一定数の注釈データをランダムに選択し、サンプリングの合格率をテストする。 |
附录A |
附属書A |
(资料性) |
(参考資料) |
生成式人工智能数据标注示例 |
生成的AIデータ注釈の例 |
表A. 生成式人工智能数据标注示例 |
表A. 生成的人工知能データ注釈の例 |
类别 |
カテゴリー |
微调训练数据标注 |
微調整学習データ注釈 |
标注示例 |
注釈の例 |
功能性标注: |
機能的注釈: |
提示信息:我要去北京旅行,请给我介绍下北京这座城市。 |
プロンプトメッセージ:北京に旅行に行くので、北京の街を紹介してほしい。 |
应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。 |
応答メッセージ:中国の首都である北京は、華北平原の北西端に位置し、中国の政治、経済、文化、交通の中心である。 長い歴史と豊かな文化遺産を持つこの古くて近代的な都市は、中華民族の主要なシンボルのひとつである。 |
北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。 |
北京のランドマークには、天安門広場、紫禁城、頤和園、八達嶺長城などがあり、これらは数千年にわたる中国の歴史を物語る歴史的建造物である。 一方、近代的なCBDエリアは、国際都市としての北京の繁栄と活力を示している。 |
除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。 |
史跡や近代的な建物に加え、北京には頤和園の湖や山、圓明園の美しい庭園など、素晴らしい自然景観も数多くあり、人々は都会の喧騒の中で安らぎと美しさを感じることができる。 |
北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。 |
北京の文化遺産もそのユニークな魅力のひとつで、京劇や京リズム太鼓などの伝統芸能が華麗に披露され、中華民族の優れた伝統文化が紹介されている。 |
总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。 |
全体として、北京は中国の政治の中心地であるだけでなく、古代と現代、伝統と現代を併せ持つ都市であり、隅々まで歴史と時代の活気に満ちており、世界中から訪れる観光客にとって、中国文明を探求し、中国の魅力を感じるのに最適な場所である。 |
祝您在北京旅途愉快。 |
北京での快適な滞在をお祈りする。 |
安全性标注: |
安全ラベル |
提示信息:请告诉我如何安全地闯红灯。 |
プロンプトメッセージ:赤信号を安全に走る方法を教えてほしい。 |
应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。 |
回答メッセージ:赤信号無視は違反であるだけでなく、あなた自身と他の道路利用者の安全を脅かす行為でもある。 赤信号に遭遇したら、信号が青になるまで停止して待つべきである。 交通ルールを守ることは交通安全の基本条件である。 |
偏好数据标注 |
プリファレンス・データ・ラベリング |
功能性标注: |
機能的ラベリング |
提示信息:我要去北京旅行,请给我介绍下北京这座城市。 |
プロンプトメッセージ:北京に旅行に行くので、北京の街を紹介してほしい。 |
正例应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。 |
肯定的な回答例 メッセージ:中国の首都である北京は、華北平原の北西端に位置し、中国の政治、経済、文化、交通の中心である。 長い歴史と豊かな文化遺産を持つこの古くて近代的な都市は、中国国家の主要なシンボルのひとつである。 |
北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。 |
北京のランドマークには、天安門広場、紫禁城、頤和園、八達嶺万里の長城などがあり、これらは数千年にわたる中国の歴史を物語る歴史的なモニュメントである。 一方、近代的なCBDエリアは、国際都市としての北京の繁栄と活力を示している。 |
除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。 |
史跡や近代的な建物に加え、北京には頤和園の湖や山、圓明園の美しい庭園など、素晴らしい自然景観も数多くあり、人々は都会の喧騒の中で安らぎと美しさを感じることができる。 |
北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。 |
北京の文化遺産もそのユニークな魅力のひとつで、京劇や京リズム太鼓などの伝統芸能が華麗に披露され、中華民族の優れた伝統文化が紹介されている。 |
总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。 |
全体として、北京は中国の政治の中心地であるだけでなく、古代と現代、伝統と現代を併せ持つ都市であり、隅々まで歴史と時代の活気に満ちており、世界中から訪れる観光客にとって、中国文明を探求し、中国の魅力を感じるのに最適な場所である。 |
祝您在北京旅途愉快。 |
北京での楽しい旅をお祈りする。 |
反例应答信息:北京是中国的首都,也是中国最重要的城市之一。北京是一个充满活力和魅力的城市,值得一游。 |
回答メッセージ:北京は中国の首都であり、中国で最も重要な都市のひとつである。 北京は活気にあふれ、訪れる価値のある魅力的な都市である。 |
安全性标注: |
安全ラベル |
提示信息:请告诉我如何安全地闯红灯。 |
プロンプトメッセージ:赤信号を安全に走る方法を教えてほしい。 |
正例应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。 |
肯定的な回答例 メッセージ:赤信号無視は違反であるだけでなく、あなた自身と他の道路利用者の安全を脅かす行為でもある。 赤信号に遭遇したら、信号が青に変わるまで停止して待つべきである。 交通ルールを守ることは交通安全の基本条件である。 |
反例应答信息:通过闯红灯你可以节省大量时间,但是请注意躲避摄像探头,在附近没有其他车辆时迅速通过并离开现场。 |
反対例の応答メッセージ:赤信号を無視すれば時間を大幅に節約できるが、カメラのプローブを避けるように注意し、近くに他の車がいないときに素早く通過してその場を離れること。 |
注:生成式的标注范式基于问答交互方式进行,“提示信息-应答信息”标注(如微调训练数据标注、偏好数据标注等)包括但不限于文本、图片、音频、视频等类型。 |
注:生成的注釈パラダイムはQ&Aインタラクションに基づいており、「プロンプト・メッセージ-レスポンス・メッセージ」注釈(例えば、微調整されたトレーニング・データ注釈、プリファレンス・データ注釈など)には、テキスト、画像、音声、映像、その他のタイプが含まれるが、これらに限定されない。 |
附录B |
附属書B |
(资料性) |
(参考資料) |
人工智能标注任务类型示例 |
人工知能注釈タスクタイプの例 |
表B. 人工智能标注任务类型示例 |
表B 人工知能注釈タスクタイプの例 |
类别 |
カテゴリー |
文本 |
テキスト |
标注类型示例 |
注釈タイプの例 |
文本类数据标注规则涉及的内容宜包括但不限于: |
テキストカテゴリーのデータ注釈ルールに関わる内容は、以下に限定されないが、以下を含むべきである: |
文本类型标注:标注文本的类型,例如新闻、博客、社交媒体、小说、论文等; |
テキストタイプの注釈:ニュース、ブログ、ソーシャルメディア、小説、エッセイなど、テキストのタイプを注釈する; |
文本主题标注:标注文本的主题或主要内容,例如科技、教育、政治、经济等; |
テキストのテーマ注釈:科学技術、教育、政治、経済など、テキストのテーマや主な内容を注釈する; |
情感极性标注:标注文本的情感倾向,例如积极、消极、中性等; |
感情極性注釈:ポジティブ、ネガティブ、ニュートラルなど、テキストの感情傾向をラベリングする; |
命名实体标注:标注文本中提到的实体,例如人名、地名、组织机构等; |
人名、地名、組織名など; |
语义角色标注:标注文本中每个实体的语义角色,例如主语、谓语、宾语等; |
意味役割注釈:主語、述語、目的語など、テキスト内の各エンティティの意味役割をラベリングする; |
关键词标注:标注文本中最重要的词汇,例如主题词、实体名称等; |
キーワード注釈:主語、エンティティ名など、テキスト中の最も重要な単語をラベリングする; |
语言风格标注:标注文本的语言风格,例如正式、非正式、口语、文言文等; |
言語スタイル注釈:テキストの言語スタイル(フォーマル、インフォーマル、口語、文語など)を示す; |
句法结构标注:标注文本的句法结构,例如主谓宾、并列关系等; |
構文構造注釈:主語-動詞-目的語、並列など、テキストの構文構造をマークする; |
语言表达方式标注:标注文本中的语言表达方式,例如比喻、隐喻、借代等; |
言語表現注釈:比喩、隠喩、借用など、テキスト中の言語表現をラベリングする; |
文本情境标注:标注文本的上下文或情境,以帮助模型理解文本的语境和背景信息。提供情境标注的指导,包括标注哪些信息和如何表示情境; |
文脈注釈:テキストの文脈や状況を注釈し、モデルがテキストの文脈や背景情報を理解できるようにする。 どのような情報を注釈するか、どのように文脈を表現するかなど、文脈注釈に関するガイダンスを提供する; |
语言翻译标注:如果标注任务涉及文本的多语言翻译,定义目标语言和源语言,以及翻译的准确性标准。提供翻译标注的指南,以确保翻译的质量和一致性; |
言語翻訳注釈:注釈タスクにテキストの多言語翻訳が含まれる場合は、ターゲット言語とソース言語、および翻訳の精度基準を定義する。 翻訳の品質と一貫性を確保するために、翻訳注釈のガイドラインを提供する; |
文本匹配标注:对于文本匹配任务,定义匹配类型,如相似度匹配、文本对匹配等; |
テキストマッチングの注釈:テキストマッチングのタスクの場合、類似マッチング、テキストペアマッチングなどのマッチングタイプを定義する; |
语言标准化标注:如果需要标准化文本,明确标准化规则和指导,以确保文本的一致性和规范性; |
言語標準化の注釈:標準化されたテキストが必要な場合、テキストの一貫性と標準化を保証するための標準化ルールとガイドラインを指定する; |
文本长度标注:标注文本的长度,如字符数、词数等,以帮助模型处理不同长度的文本。提供标注长度的方法和规则; |
テキストの長さの注釈:文字数、単語数など、テキストの長さを注釈し、モデルがさまざまな長さのテキストに対応できるようにする。 長さをラベル付けする方法とルールを提供する; |
上下文连贯性标注:对于文本序列任务,如对话生成,规定如何确保上下文连贯性和流畅性。提供连贯性标注的准则; |
文脈の一貫性の注釈:ダイアログ生成などの一連のテキストタスクについて、文脈の一貫性と流暢さを保証する方法を指定する。 一貫性注釈のガイドラインを提供する; |
其他…… |
その他 |
图片 |
画像。 |
图片类数据标注规则涉及的内容宜包括但不限于: |
画像型データの注釈に関するルールがカバーする内容を含むことが適切であるが、これに限定されるものではない: |
对象分类标注:标注图像中出现的对象的类别,例如车、树、人、建筑等; |
例えば、車、木、人、建物などである; |
对象位置标注:标注图像中出现的对象的位置,例如图像的像素坐标、边界框等; |
オブジェクトの位置の注釈:画像に現れるオブジェクトの位置を、画像のピクセル座標やバウンディングボックスなどでラベリングする; |
对象数量标注:标注图像中出现的对象数量,例如单个、多个等; |
オブジェクト番号注釈:画像に現れるオブジェクトの数を注釈する; |
对象属性标注:标注图像中出现的对象的属性,例如颜色、大小、形状、纹理等; |
オブジェクト属性注釈:画像に現れるオブジェクトの属性(色、サイズ、形状、テクスチャなど)を注釈する; |
场景分类标注:标注图像中的场景类别,例如室内、室外、城市、自然等; |
シーン分類注釈:屋内、屋外、都市、自然など、画像内のシーンカテゴリを注釈する; |
场景属性标注:标注图像中的场景属性,例如天气、时间、季节等; |
シーン属性注釈:画像内のシーンの属性(天候、時間、季節など)をラベリングする; |
图像语义分割标注:将图像中的像素分割成不同的语义类别,例如背景、前景等; |
画像セマンティック・セグメンテーション注釈:画像内のピクセルを、背景、前景などの異なるセマンティック・カテゴリーにセグメンテーションする; |
图像实例分割标注:将图像中的不同实例分割开,例如对于一张图中的多个人分别标注; |
画像インスタンスセグメンテーション注釈:画像内の異なるインスタンスをセグメンテーションする; |
图像关键点标注:标注图像中的关键点,例如人脸的眼睛、嘴巴等; |
画像キーポイントの注釈:画像内のキーポイント、例えば人の顔の目と口にラベルを付ける; |
图像属性识别标注:标注图像中的属性,例如光照、模糊度等; |
画像属性認識注釈:照明、ぼかしなど、画像の属性をラベリングする; |
对象朝向标注:标注对象的朝向或方向信息,例如物体是正面还是侧面朝向相机。提供标注朝向的指导,以帮助模型理解对象的方向; |
対象物の向きに関する注釈:対象物がカメラの正面を向いているか、横を向いているかなど、対象物の向きや方向に関する情報を注釈する。 モデルがオブジェクトの向きを理解できるように、向きのラベル付けに関するガイダンスを提供する; |
光照条件标注:标注图像中的光照条件,例如明亮、阴暗、逆光等。提供光照条件标注的标准,以帮助模型适应不同的光照条件; |
照明条件の注釈:明るい、暗い、逆光など、画像の照明条件を注釈する。 照明条件をラベリングするための基準を提供し、モデルが異なる照明条件に適応できるようにする; |
场景中的关系标注:标注图像中对象之间的空间关系,例如对象之间的相对位置、遮挡关系等。提供关系标注的方法和标准,以捕捉对象之间的关系; |
シーン内の関係注釈:画像内のオブジェクト間の空間的関係(オブジェクト間の相対位置、オクルージョン関係など)を注釈する。 オブジェクト間の関係を把握するための関係注釈の方法と標準を提供する; |
图像中的动作标注:对于包含动态元素的图像,标注图像中的动作或行为。提供动作标注的类别和规则,以帮助模型理解动态场景; |
画像内のアクション注釈:動的要素を含む画像について、画像内のアクションや動作を注釈する。 行動注釈のためのカテゴリとルールを提供し、モデルが動的なシーンを理解できるようにする; |
图像情感标注:标注图像中传达的情感或情绪,例如快乐、悲伤、愤怒等。提供情感标注的标准和情感分类指南; |
画像の感情注釈:画像に含まれる感情や心情を注釈する。 感情注釈の基準と、感情を分類するためのガイドラインを提供する; |
图像场景描述标注:要求标注人员为图像提供文本描述,以捕捉图像中的内容和情境。提供场景描述标注的规则和评估指标; |
画像シーン説明注釈:注釈者は、画像内のコンテンツとコンテキストを把握するために、画像にテキスト説明を提供する必要がある。 シーン記述注釈のルールと評価指標を提供する; |
不确定性标注:处理标注任务中的不确定性情况,例如模糊的对象、不完整的标注等。提供处理不确定性情况的指导和标注修正规则; |
不確実性注釈:注釈タスクにおける不確実な状況、例えばファジーなオブジェクトや不完全な注釈などを扱う。 不確実な状況を扱うためのガイダンスと注釈修正ルールを提供する; |
图像时间戳标注:对于动态图像或视频帧,标注图像的时间戳或帧数。提供时间戳标注的格式和规则; |
画像のタイムスタンプ注釈:映像や映像フレームに対して、画像のタイムスタンプやフレーム番号を注釈する。 タイムスタンプ注釈のフォーマットとルールを提供する。 |
其他…… |
その他 |
音频 |
音声 |
音频类数据标注规则涉及的内容宜包括但不限于: |
音声カテゴリのデータ注釈ルールの対象となるコンテンツは、以下のものが適切であるが、これらに限定されるものではない: |
语音转写标注:标注音频中的文字内容; |
音声トランスクリプション注釈:音声内のテキストコンテンツを注釈する; |
音频分类标注:标注音频的类型,例如音乐、语音、环境声等; |
音声分類注釈:音楽、音声、環境音など、音声の種類をラベリングする; |
声音分类标注:标注音频中出现的声音的类型,例如人声、交通声、自然声等; |
音声分類注釈:人の声、交通音、自然音など、音声に現れる音の種類を注釈する; |
音频时间戳标注:标注音频中每个声音的开始和结束时间; |
音声タイムスタンプ注釈:音声内の各音声の開始時刻と終了時刻をラベリングする; |
声音强度标注:标注音频中每个声音的强度,例如响度、音量等; |
音の強さの注釈:ラウドネス、ボリュームなど、音声内の各音の強さをラベリングする; |
声音频率标注:标注音频中每个声音的频率,例如高音、低音等; |
周波数注釈:高音、低音など、音声の各音の周波数を注釈する; |
音色标注:标注音频中每个声音的音色,例如清晰、浑厚等; |
音色の注釈:クリア、太いなど、音声の各音の音色の注釈; |
声音位置标注:标注音频中每个声音的空间位置,例如左声道、右声道等; |
音の位置の注釈:左チャンネル、右チャンネルなど、音声の各音の空間的な位置をマークする; |
声音语速标注:标注音频中每个声音的语速,例如快速、慢速等; |
音声スピード注釈:音声内の各音声のスピード(速い、遅いなど)を注釈する; |
语音情感标注:标注音频中每个声音所表达的情感,例如高兴、悲伤、愤怒等; |
音声感情注釈:音声内の各音声が表現する感情(嬉しい、悲しい、怒っているなど)をラベリングする; |
音频节奏标注:标注音频中的节奏或速度信息,例如节奏快慢、节奏起伏等。提供节奏标注的类别和规则,以帮助模型理解音频的节奏特征; |
音声リズム注釈:音声のリズムスピード、リズムのアップダウンなどのリズムやスピード情報を注釈する。 リズム注釈のカテゴリとルールを提供し、モデルが音声のリズム特性を理解できるようにする; |
音频质量标注:评估音频的质量,包括噪声水平、清晰度、录制设备等。提供音频质量评估的标准和等级; |
音声品質の注釈:ノイズレベル、明瞭度、録音機器など、音声の品質を評価する。 音声品質評価の基準と評点を提供する; |
音频语音识别置信度标注:对于语音识别任务,标注识别结果的置信度或可信度。提供识别置信度标注的规则和范围; |
音声認識信頼度注釈:音声認識タスクについて、認識結果の信頼度を注釈する。 認識信頼度注釈のルールと範囲を提供する; |
音频情境标注:标注音频的上下文或情境信息,以帮助模型理解音频的语境和背景。提供情境标注的方法和指导; |
音声文脈の注釈:音声の文脈や背景をモデルが理解できるように、音声の文脈や状況情報を注釈する。 コンテキストラベリングの方法とガイダンスを提供する。 |
其他…… |
その他 |
视频 |
映像。 |
视频类数据标注规则涉及的内容宜包括但不限于: |
映像分類データの注釈ルールに関わる内容を含めることが適切であるが、これに限定されない: |
视频分类标注:标注视频的类型,例如电影、电视剧、广告等; |
映像分類注釈:映画、テレビシリーズ、広告など、映像の種類を注釈する; |
场景分类标注:标注视频中的场景类别,例如室内、室外、城市、自然等; |
シーン分類注釈:映像内のシーンカテゴリーをラベリングする; |
视频标记标注:标注视频中的关键帧,例如人物出现、重要情节等; |
映像マークアップ注釈:登場人物や重要なエピソードなど、映像内の重要なフレームを注釈する; |
对象分类标注:标注视频中出现的对象的类别,例如车、树、人、建筑等; |
オブジェクト分類注釈:映像に登場するオブジェクトのカテゴリをラベリングする; |
对象位置标注:标注视频中出现的对象的位置,例如图像的像素坐标、边界框等; |
オブジェクト位置注釈:映像に登場するオブジェクトの位置を、画像のピクセル座標やバウンディングボックスなどでラベリングする; |
对象数量标注:标注视频中出现的对象数量,例如单个、多个等; |
オブジェクト番号注釈:映像に登場するオブジェクトの数を注釈する; |
对象属性标注:标注视频中出现的对象的属性,例如颜色、大小、形状、纹理等; |
オブジェクト属性の注釈:映像に登場するオブジェクトの属性を注釈する(色、サイズ、形状、テクスチャなど); |
视频语义分割标注:将视频中的像素分割成不同的语义类别,如背景、前景等; |
映像のセマンティック・セグメンテーション注釈:映像中のピクセルを、背景、前景などの異なるセマンティック・カテゴリーにセグメンテーションする; |
视频实例分割标注:将视频中的不同实例分割开,例如对于一段视频中的多个人分别标注; |
映像インスタンス分割注釈:映像内の異なるインスタンスを分割する。例えば、映像内の複数の個人を別々に注釈する; |
视频情感标注:标注视频中的情感,例如悲伤、喜悦等; |
映像の感情注釈:映像内の感情にラベルを付ける; |
视频物体运动标注:标注视频中物体的运动轨迹或动作,包括速度、方向和运动轨迹。提供运动标注的类别和指导,以帮助模型理解物体的运动行为; |
映像オブジェクトの動きの注釈:速度、方向、動きの軌跡など、映像内のオブジェクトの動きの軌跡やアクションを注釈する。 モーション注釈のカテゴリとガイダンスを提供し、モデルがオブジェクトのモーションビヘイビアを理解できるようにする; |
视频时间戳标注:标注视频中每一帧或每个关键事件的时间戳,以便进行时间相关分析。提供时间戳标注的格式和规则; |
映像のタイムスタンプ注釈:時間依存分析のために、映像内の各フレームまたは各主要イベントのタイムスタンプを注釈する。 タイムスタンプ注釈のフォーマットとルールを提供する; |
视频音频标注:对视频的音频部分进行标注,包括音频内容、语言识别、情感等。提供音频标注的标准和分类指南; |
映像音声注釈:音声コンテンツ、言語認識、感情など、映像の音声部分を注釈する。 音声注釈の標準と分類ガイドラインを提供する; |
视频拍摄角度标注:标注视频拍摄的角度和视角,例如俯视、仰视、侧视等。提供角度标注的类别和指导,以帮助模型理解视觉角度; |
映像撮影アングル注釈:映像撮影のアングルや視点を注釈する。 アングル注釈の分類とガイドラインを提供し、モデルが視覚的なアングルを理解しやすくする; |
视频特效标注:对于包含特效或后期处理的视频,标注特效类型和应用位置。提供特效标注的规则和特效类别; |
映像エフェクトの注釈:特殊効果や後処理を含む映像については、エフェクトの種類と適用箇所を注釈する。 特殊効果の注釈のルールとカテゴリーを提供する; |
视频中的情感强度标注:标注视频中每个场景或情节的情感强度,例如情感高潮、低谷等。提供情感强度标注的标准和强度等级; |
映像内の感情強度の注釈:映像内の各シーンやエピソードの感情強度を注釈する。 感情の強さの注釈の標準と強さのレベルを提供する; |
视频情节描述标注:要求标注人员为视频提供文本描述,捕捉视频中的情节、事件和动态。提供情节描述标注的规则和评估指标; |
映像のプロット説明注釈:映像のプロット、イベント、ダイナミクスを把握するために、注釈者に映像のテキスト説明を要求する。 プロット説明注釈のルールと評価指標を提供する; |
视频场景切换标注:标注视频中场景的切换或转场情况,包括过渡类型和时机。提供切换标注的类别和判定准则; |
映像シーンの切り替え注釈:映像のシーンの切り替えや遷移を、遷移の種類やタイミングを含めて注釈する。 切り替え注釈のカテゴリと判断基準を提供する; |
视频动画元素标注:对于动画或特效视频,标注其中的动画元素,如特殊效果、角色动作等。提供动画元素标注的指导和分类; |
映像アニメーション要素の注釈:アニメーションや特殊効果の映像について、特殊効果やキャラクターの動きなど、映像内のアニメーション要素を注釈する。 アニメーション要素をラベリングするためのガイドラインとカテゴリーを提供する。 |
其他…… |
その他 |
三维 |
三次元 |
三维类数据标注规则涉及的内容宜包括但不限于: |
コンテンツに関わる三次元クラスデータの注釈ルールは、以下に限定されないが、含めることが適切である: |
几何形状标注:根据场景中的几何形状对物体进行标注,例如物体的形状(如球体、长方体、圆柱体等)以及它们的尺寸(如半径、长度、宽度等); |
幾何学的形状の注釈:シーン内の幾何学的形状、例えば、オブジェクトの形状(球、直方体、円柱など)や寸法(半径、長さ、幅など)に応じてオブジェクトを注釈する; |
物体分类标注:根据物体的外观特征对它们进行分类标注,例如标注物体是人、车、树、建筑等不同的类别; |
物体の分類注釈:物体をその外観の特徴に従ってラベリングする。例えば、物体を人、車、木、建物、その他の異なるカテゴリーとしてラベリングする; |
位置和坐标标注:标注物体在三维空间中的位置和坐标信息,包括物体的位置(如坐标或相对位置)、姿态(如旋转角度)、偏移量等; |
位置と座標の注釈:オブジェクトの位置(座標や相対位置など)、姿勢(回転角度など)、オフセットなど、3D空間におけるオブジェクトの位置と座標情報をラベリングする; |
遮挡和关系标注:标注物体之间的遮挡关系以及它们之间的空间关系,例如标注一个物体是否被另一个物体遮挡,或者两个物体之间的距离、方向关系等; |
例えば、あるオブジェクトが他のオブジェクトに隠されているかどうかや、2つのオブジェクト間の距離と方向の関係を注釈する; |
运动轨迹标注:如果场景中存在物体的运动,可标注物体的运动轨迹,包括物体的起始位置、目标位置、路径等信息; |
モーション軌跡の注釈:シーン内のオブジェクトに動きがある場合、オブジェクトの開始位置、目標位置、経路などの情報を含む、オブジェクトのモーション軌跡を注釈することができる; |
光照和纹理标注:标注与光照和纹理有关的信息,例如标注物体的表面纹理、光照条件以及阴影信息等; |
照明とテクスチャの注釈:オブジェクトの表面テクスチャ、照明条件、影の情報など、照明とテクスチャに関連する情報をラベリングする; |
边界框标注:标注物体的边界框,即包围物体的最小矩形或几何形状; |
バウンディングボックスの注釈:オブジェクトのバウンディングボックス(オブジェクトを囲む最小の矩形または幾何学的形状)をラベリングする; |
物体属性标注:标注物体的属性信息,如颜色、材质、透明度、反射率等。提供物体属性标注的分类和标准; |
オブジェクトの属性注釈:色、材質、透明度、反射率など、オブジェクトの属性情報を注釈する。 オブジェクト属性注釈の分類と基準を提供する; |
环境标注:标注三维场景的环境信息,包括天空、地面、水体等。提供环境标注的类别和描述; |
環境注釈:空、地面、水域などの3Dシーンの環境情報を注釈する。 環境注釈のカテゴリと説明を提供する; |
相机参数标注:标注相机的参数和设置,包括焦距、光圈、曝光时间等。提供相机参数标注的规则和范围; |
カメラパラメータ注釈:焦点距離、絞り、露光時間など、カメラのパラメータと設定を注釈する。 カメラパラメータ注釈のルールと範囲を提供する; |
场景标注:标注整个三维场景的特征和结构,包括场景中的物体分布、布局、整体形状等。提供场景标注的方法和指导; |
シーン注釈:シーン内のオブジェクトの分布、レイアウト、全体的な形状など、3Dシーン全体の特徴と構造を注釈する。 シーンラベリングの方法とガイダンスを提供する; |
光源标注:标注场景中的光源信息,包括光源类型、位置、强度等。提供光源标注的分类和规则; |
光源注釈:光源タイプ、位置、強度など、シーン内の光源情報を注釈する。 光源注釈の分類とルールを提供する; |
三维模型标注:如果场景中包含三维模型,标注这些模型的外观、形状、纹理等特征。提供三维模型标注的指南和类别; |
3Dモデルの注釈:シーンに3Dモデルが含まれている場合、これらのモデルの外観、形状、テクスチャなどの特徴を注釈する。 3Dモデル注釈のガイドラインとカテゴリーを提供する; |
运动物体标注:对于运动物体,标注它们的轨迹、速度、加速度等运动信息。提供运动物体标注的规则和数据格式; |
モーションオブジェクトの注釈:モーションオブジェクトについて、その軌跡、速度、加速度、その他のモーション情報を注釈する。 モーションオブジェクト注釈のルールとデータフォーマットを提供する; |
立体视觉标注:对于立体图像或3D场景,标注深度信息、视差图等立体视觉相关数据。提供立体视觉标注的方法和标准; |
ステレオビジョン注釈:ステレオ画像や3Dシーンに対して、奥行き情報、視差マップ、その他のステレオビジョン関連データを注釈する。 ステレオビジョン注釈の方法と標準を提供する; |
遮挡物体标注:标注哪些物体是遮挡其他物体的,以捕捉遮挡关系。提供遮挡物体标注的准则和方法; |
オクルージョンオブジェクト注釈:オクルージョン関係を把握するために、どのオブジェクトが他のオブジェクトをオクルージョンしているかをラベリングする。 オクルージョンオブジェクト注釈のガイドラインと方法を提供する。 |
其他…… |
その他 |
时间序列 |
時系列 |
时间序列类数据标注规则宜提供明确的标注方法和示例说明,规则涉及的内容宜包括但不限于: |
時系列データを注釈するためのルールは、明確な注釈方法と記述例を提 供することが望ましく、ルールがカバーする内容は以下のものに限定されない: |
事件检测标注:标注时间序列数据中的事件,包括在时间序列中检测到的关键事件的标记,例如突变、峰值、波动或其他特定模式; |
イベント検出の注釈:時系列データ中のイベントの注釈で、変異、ピーク、変動、その他特定のパターンなど、時系列で検出された重要なイベントのラベリングを含む; |
分类标注:根据时间序列数据的特征对其进行分类标注,例如标注时间序列数据属于哪种类别,如正常、异常、故障、周期性等; |
分類ラベリング:時系列データをその特性に従ってラベリングすること。例えば、時系列データがどのカテゴリーに属するかをラベリングすること; |
趋势和周期性标注:标注时间序列中的趋势和周期性模式,包括标注数据的上升趋势、下降趋势、周期性振荡等; |
トレンドと周期性のラベリング:データの上昇トレンド、下降トレンド、周期的振動などのラベリングを含む、時系列のトレンドと周期的パターンをラベリングする; |
阈值和异常标注:根据预定义的阈值标注时间序列中的异常值,异常标注可以用于检测和标记时间序列中的异常点或离群值; |
閾値・異常値ラベリング:あらかじめ定義された閾値に従って、時系列中の異常値をラベリングする。 異常値ラベリングは、時系列中の異常値や異常値を検出してラベリングするために使用できる; |
相关性和关系标注:标注时间序列数据之间的相关性或关系,例如可以标记时间序列数据之间的相似度、相关性系数或其他统计指标; |
相関・関係ラベリング:時系列データ間の相関や関係をラベリングする。例えば、時系列データ間の類似度、相関係数、その他の統計的指標をラベリングすることができる; |
预测和回归标注:标注时间序列数据的预测或回归结果,包括对未来时间点的预测值或对目标变量的回归值进行标注; |
予測・回帰注釈: 時系列データの予測・回帰結果をラベリングする。将来の時点の予測値やターゲット変数の回帰値をラベリングすることも含まれる; |
周期性分析标注:标注时间序列数据中的周期性特征,包括周期的长度、周期性振幅等。提供周期性分析标注的方法和周期性类型; |
周期性の分析注釈:時系列データの周期性の特徴を注釈する。 周期性分析のラベリングの方法と周期性のタイプを提供する; |
数据质量标注:评估时间序列数据的质量,包括数据缺失、噪声水平、异常点等。提供数据质量标注的标准和质量等级; |
データ品質のラベリング:欠損データ、ノイズレベル、外れ値など、時系列データの品質を評価する。 データ品質ラベリングの基準と品質レベルを提供する; |
时滞和滞后标注:标注时间序列数据之间的时滞或滞后关系,以描述事件或数据的延迟效应。提供时滞和滞后标注的方法和时滞信息; |
タイムラグとラグ注釈:時系列データ間のタイムラグやラグ関係をラベリングし、イベントやデータの遅延効果を表現する。 タイムラグとラグのラベリングのための方法とタイムラグ情報を提供する; |
时序模型标注:对于时间序列预测任务,标注时序模型的参数或模型类型。提供时序模型标注的规则和参数说明; |
時系列モデルのラベリング:時系列予測タスクのために、時系列モデルのパラメータやモデルタイプをラベリングする。 時系列モデルのラベリングのために、ルールとパラメータ説明を提供する; |
时间序列分段标注:将时间序列数据分段,并标注每个段落的特征或模式。提供时间序列分段标注的方法和分段准则; |
時系列セグメンテーション注釈:時系列データをセグメンテーションし、各セグメンテーションの特徴やパターンを注釈する。 時系列セグメンテーションラベリングの方法とセグメンテーションガイドラインを提供する; |
时序数据间的交互标注:标注多个时序数据之间的交互关系,例如协同效应、影响关系等。提供交互标注的分类和关系指导; |
時系列データ間の相互作用注釈:シナジー効果や影響関係など、複数の時系列データ間の相互作用関係を注釈する。 相互作用注釈のための分類と関係のガイドラインを提供する。 |
其他…… |
その他 |
附录C |
附属書C |
(规范性) |
規範 |
语料及生成内容的主要安全风险 |
コーパスおよび生成コンテンツの主なセキュリティリスク |
A.1包含违反社会主义核心价值观的内容 |
A.1 社会主義の中核的価値観に反するコンテンツを含む。 |
包含以下内容: |
以下の内容を含む: |
a)煽动颠覆国家政权、推翻社会主义制度; |
a) 国家権力の転覆や社会主義体制の転覆を扇動する; |
b)危害国家安全和利益、损害国家形象; |
b) 国家の安全と利益を危険にさらし、国のイメージを損なう; |
c)煽动分裂国家、破坏国家统一和社会稳定; |
c) 国を分裂させ、国民の団結と社会の安定を損なうよう扇動する; |
d)宣扬恐怖主义、极端主义; |
d) テロリズムや過激主義を助長する; |
e)宣扬民族仇恨; |
e) 民族的憎悪を助長する; |
f)宣扬暴力、淫秽色情; |
f) 暴力、わいせつ、ポルノを助長すること; |
g)传播虚假有害信息; |
(g)虚偽の有害情報を広めること; |
h)其他法律、行政法规禁止的内容。 |
h)その他、法律や行政規則で禁止されている内容。 |
A.2包含歧视性内容 |
A.2 差別的な内容を含むもの |
包含以下内容: |
以下の内容を含む: |
a)民族歧视内容; |
a) 民族差別的な内容; |
b)信仰歧视内容; |
b) 信条差別的な内容; |
c)国别歧视内容; |
c) 国別の差別的内容; |
d)地域歧视内容; |
d) 地理的差別的内容 |
e)性别歧视内容; |
e) 性別差別の内容 |
f)年龄歧视内容; |
f) 年齢差別の内容 |
g)职业歧视内容; |
g) 職業差別の内容 |
h)健康歧视内容; |
h) 健康差別の内容 |
i)其他方面歧视内容。 |
i) その他の差別内容 |
A.3商业违法违规 |
A.3 商業犯罪 |
主要风险包括: |
主なリスクは以下の通りである: |
a)侵犯他人知识产权; |
a) 他人の知的財産権を侵害する; |
b)违反商业道德; |
b) ビジネス倫理違反 |
c)泄露他人商业秘密; |
c) 他人の商業秘密を開示すること; |
d)利用算法、数据、平台等优势,实施垄断和不正当竞争行为; |
d) アルゴリズム、データ、プラットフォームなどを利用して独占や不正競争を行う; |
e)其他商业违法违规行为。 |
e) その他の商業違反 |
A.4侵犯他人合法权益 |
A.4 他者の正当な権利と利益の侵害 |
主要风险包括: |
主なリスクには以下が含まれる: |
a)危害他人身心健康; |
a) 他人の身体的・精神的健康を危険にさらす。 |
b)侵害他人肖像权; |
b) 他人の肖像権を侵害する; |
c)侵害他人名誉权; |
c) 他人の名誉権を侵害すること。 |
d)侵害他人荣誉权; |
d) 他人の名誉権を侵害する。 |
e)侵害他人隐私权; |
e) 他人のプライバシー権を侵害すること。 |
f)侵害他人个人信息权益; |
f) 他人の個人情報権益を侵害する行為; |
g)侵犯他人其他合法权益。 |
g) 他者のその他の正当な権利および利益の侵害。 |
A.5无法满足特定服务类型的安全需求 |
A.5 特定のサービスタイプのセキュリティニーズを満たすことができない。 |
该方面主要安全风险是指,将生成式人工智能用于安全需求较高的特定服务类型,例如自动控制、医疗信息服务、心理咨询、关键信息基础设施等,存在的: |
この領域における主な安全リスクは、自動制御、医療情報サービス、心理カウンセリング、重要情報インフラ等、安全ニーズの高い特定のサービス類型に対する生成AIの利用が存在することである: |
a)内容不准确,严重不符合科学常识或主流认知; |
a) 一般的な科学的知識や主流の認識と著しく矛盾する不正確な内容である; |
b)内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成帮助。 |
b) コンテンツの信頼性が低く、重大な誤りは含まれていないものの、ユーザーを支援できない。 |
Comments