欧州委員会 汎用AIのシステミックリスクなどAIモデル等に関する研究報告書6つ...(2025.10.10)
こんにちは、丸山満彦です。
欧州委員会の共同研究センター(Joint Reserch Centre)がAIについての報告書を6つ公表していますね...
いろいろと参考になることもあると思います。。。(まだ、全部を読んだわけではないですが...)
| General-Purpose AI Model Reach as a Criterion for Systemic Risk | システミックリスクの基準としての汎用AIモデルのリーチ |
| The Role of AI Safety Benchmarks in Evaluating Systemic Risks in General-Purpose AI Models | 汎用AIモデルのシステミックリスク評価におけるAI安全性ベンチマークの役割 |
| A Proposal to Identify High-Impact Capabilities of General-Purpose AI Models | 汎用AIモデルの高インパクト能力を特定するための提案 |
| A Framework to Categorise Modified General-Purpose AI Models as New Models Based on Behavioural Changes | 行動の変化に基づき、修正された汎用AIモデルを新しいモデルとして分類するフレームワーク |
| A Framework for General-Purpose AI Model Categorisation | 汎用AIモデル分類のためのフレームワーク |
| Training Compute Thresholds - Key Considerations for the EU AI Act | トレーニングの計算しきい値 - EU AI法における重要な検討事項 |
● European Comission - the Joint Reserch Centre: JRC
・2025.10.10 General-Purpose AI Model Reach as a Criterion for Systemic Risk
| General-Purpose AI Model Reach as a Criterion for Systemic Risk | システミックリスクの基準としての汎用AIモデルのリーチ |
| Under the EU AI Act, systemic risks of general-purpose AI (GPAI) models are assumed to increase with model "reach". This report proposes a method for operationalising, and measuring "reach" so that it may be used as a criterion when determining whether a GPAI model should be classified as a GPAI model with systemic risks. This report considers specific systemic risks created by model reach, such as risks from model biases, i.e. systemic risk which become relevant when models are widely used, regardless of whether their capabilities are at the technological frontier. In this report, reach is defined as the number of people who directly interact with a given GPAI model. Potential metrics for measuring reach are identified, including access via user interfaces and APIs. A concrete proposal for the design of a reach trigger is presented, which includes overall reporting thresholds for model providers, reach metrics to be reported, and calibration of the reach trigger. The proposal aims to balance comprehensive coverage with minimal reporting burden, and to provide a framework for incorporating reach considerations in the determination of whether a GPAI model presents systemic risks, in complement to other considerations related to capabilities, safety benchmarks and compute discussed in other reports of this collection. | EUのAI法では、汎用AI(GPAI)モデルのシステミックリスクは、モデルの 「リーチ 」に応じて増大すると想定されている。本報告書では、GPAIモデルがシステミック・リスクを有するGPAIモデルに分類されるべきか否かを判断する際の基準として用いることができるよう、「リーチ」を運用し、測定する方法を提案する。本報告書では、モデルのリーチがもたらす具体的なシステミック・リスク、例えば、モデルのバイアスがもたらすリスク、すなわち、モデルの能力が技術的フロンティアにあるか否かにかかわらず、モデルが広く使用される場合に関連するシステミック・リスクについて検討する。本報告書では、リーチとは、ある GPAI モデルと直接対話する人の数と定義する。リーチを測定するための指標として、ユーザーインターフェイスや API を介したアクセスなどの可能性を挙げている。リーチトリガーの設計に関する具体的な提案として、モデルプロバイダーに対する全体的な報告閾値、 報告されるべきリーチ指標、およびリーチトリガーの較正が示されている。本提案は、包括的な適用範囲と最小限の報告負担とのバランスを図り、GPAIモデルがシステミックリスクを示すか否かの判断に、本コレクションの他の報告書で議論されている能力、安全ベンチマーク、計算に関する他の検討事項を補完する形で、到達度の検討を組み込むための枠組みを提供することを目的としている。 |
・[PDF]
| Abstract | 概要 |
| Acknowledgements | 謝辞 |
| Note from the Editors | 編集者より |
| Executive summary | エグゼクティブサマリー |
| 1 Introduction | 1 はじめに |
| 1.1 Legal Context | 1.1 法的背景 |
| 1.2 Risks Created by Reach | 1.2 リーチによって生じるリスク |
| 1.3 Risks from Reach in the Code of Practice | 1.3 実施規範におけるリーチのリスク |
| 2 Metrics | 2 評価指標 |
| 2.1 Definition of Reach | 2.1 リーチの定義 |
| 2.2 Access Methods | 2.2 アクセス方法 |
| 2.3 Reach Metrics - User Interface Access | 2.3 リーチ指標-ユーザーインターフェイスアクセス |
| 2.4 Reach Metrics - API Access | 2.4 リーチ指標-APIアクセス |
| 2.5 Measuring Reach using Public Information | 2.5 公開情報を用いたリーチの測定 |
| 2.6 Measuring Reach using Surveys | 2.6 調査を用いたリーチの測定 |
| 3 Concrete Proposal for the Design of a Reach Criterion | 3 リーチ基準設計の具体案 |
| 3.1 Overall Reporting Thresholds for Model Providers | 3.1 モデル提供者の全体的な報告しきい値 |
| 3.2 Reach Metrics to be Reported | 3.2 報告すべきリーチ指標 |
| 3.3 Calibrating the Reach Criterion | 3.3 リーチ基準の校正 |
| 4 Conclusions | 4 結論 |
| References | 参考文献 |
| List of abbreviations and definitions | 略語と定義一覧 |
・2025.10.10 The Role of AI Safety Benchmarks in Evaluating Systemic Risks in General-Purpose AI Models
| The Role of AI Safety Benchmarks in Evaluating Systemic Risks in General-Purpose AI Models | 汎用AIモデルのシステミックリスク評価におけるAI安全性ベンチマークの役割 |
| The evaluation of systemic risks in General-Purpose AI (GPAI) models is a complex challenge that requires a multifaceted approach, extending beyond traditional capability assessments. This report analyses the role of AI safety benchmarks in identifying systemic risks in GPAI models, proposing a dual-trigger framework that combines capability triggers with safety benchmarks to provide a more comprehensive assessment of potential harms. The current landscape of safety benchmarks is still in development, with various initiatives emerging to address specific systemic risk categories, such as the ones identified in the GPAI Code of Practice: cyber offence, chemical, biological, radiological and nuclear (CBRN) risks, harmful manipulation, and loss of control. A tiered evaluation strategy is recommended, applying more rigorous and costly safety evaluations only to models that meet a predefined capability threshold or are intended for deployment in high-risk domains, ensuring proportionality and efficient resource allocation. Ultimately, the development of robust and standardised safety benchmarks is relevant for accurate classification of GPAI models as GPAI models with systemic risks, and policy initiatives should incentivise their creation to enable more effective systemic risk identification. | 汎用AI(GPAI)モデルにおけるシステミックリスクの評価は複雑な課題であり、従来の能力評価を超えた多面的なアプローチが必要である。本報告書では、GPAIモデルにおけるシステミックリスクの特定におけるAIの安全性ベンチマークの役割を分析し、潜在的な危害のより包括的な評価を提供するために、能力トリガーと安全性ベンチマークを組み合わせたデュアルトリガーフレームワークを提案する。安全ベンチマークの現状はまだ発展途上であり、GPAI実践規範で特定されたような特定のシステミックリスクのカテゴリー、例えばサイバー犯罪、化学・生物・放射性・核(CBRN)リスク、有害な操作、制御不能に対処するための様々なイニシアチブが登場している。段階的な評価戦略が推奨され、より厳格でコストのかかる安全性評価を、あらかじめ定義された能力閾値を満たすか、高リスク領域での配備を意図したモデルにのみ適用することで、比例性と効率的な資源配分を確保する。最終的には、強固で標準化された安全ベンチマークを開発することが、GPAIモデルをシステミックリスクを有するGPAIモデルとして正確に分類することに関連し、政策イニシアティブは、より効果的なシステミックリスクの特定を可能にするために、その作成にインセンティブを与えるべきである。 |
・[PDF]
| Abstract | 概要 |
| Acknowledgements | 謝辞 |
| Note from the Editors | 編集者からのコメント |
| Executive summary | エグゼクティブサマリー |
| 1 Introduction | 1 はじめに |
| 1.1 GPAISR Labelling and its Implications | 1.1 GPAISRラベリングとその意味合い |
| 1.2 Capability-Centric Evaluation and Limitations | 1.2 能力中心の評価と限界 |
| 1.3 Sources and Scenarios of Systemic Risk | 1.3 システミック・リスクの発生源とシナリオ |
| 2 The Role of Safety Benchmarks as a Systemic Risk Criterion | 2 システムリスク基準としての安全性ベンチマークの役割 |
| 2.1 Current Landscape of Safety Benchmarks | 2.1 セーフティ・ベンチマークを取り巻く現状 |
| 2.2 How Safety Benchmarks Complement Capability-based Considerations for GPAISRLabelling | 2.2 安全性ベンチマークはGPAISRLabellingにおける能力ベースの考慮事項をどのように補完するか |
| 3 Practical Approaches to GPAISR Evaluation Using Safety Benchmarks | 3 安全性ベンチマークを用いたGPAISR評価の実践的アプローチ |
| 3.1 Integrating Safety Benchmarks | 3.1 安全性ベンチマークを統合する |
| 3.2 A Tiered Approach to Safety Benchmarking | 3.2 安全性ベンチマークへの段階的アプローチ |
| 3.3 Standardisation in Safety Benchmarks | 3.3 セーフティ・ベンチマークにおける標準化 |
| 4 Policy Implications and Future Directions | 4 政策的意味合いと今後の方向性 |
| 4.1 Towards a Holistic Assessment Paradigm | 4.1 総合的評価のパラダイムに向けて |
| 4.2 Addressing Cost and Resource Implications for Widespread Adoption | 4.2 普及のためのコストとリソースへの対応 |
| 4.3 Insights from the EU GPAI Code of Practice | 4.3 EU GPAI実施規範からの洞察 |
| 5 Conclusions and Final Recommendations | 5 結論と最終提言 |
| References | 参考文献 |
| List of abbreviations and definitions | 略語と定義のリスト |
・2025.10.10 A Proposal to Identify High-Impact Capabilities of General-Purpose AI Models
| A Proposal to Identify High-Impact Capabilities of General-Purpose AI Models | 汎用AIモデルの高インパクト能力を特定するための提案 |
| This report proposes a scientific methodology to identify high-impact capabilities in General-Purpose AI (GPAI) models, defined in the EU AI Act as capabilities of the most advanced GPAI models. High-impact capabilities play an important role in the EU AI Act since GPAI models with high-impact capabilities are classified as GPAI models with systemic risks. The approach is based on observational scaling laws using Principal Components Analysis (PCA) from a set of existing benchmarks, allowing for the extraction of a low-dimensional capability measure that can be used to identify models with high-impact capabilities. The proposed method involves selecting a diverse set of benchmarks that measure general capabilities, such as MMLU-Pro, GPQA-diamond, MATH-level-5, and HumanEval, and aggregating their scores using a weighted threshold-based metric. The weights are determined by the PCA approach, and the threshold is based on a reference model, to be set by the enforcement authority based on legal, policy, and risks considerations. The report also discusses additional considerations, including the need for a multi-disciplinary expert group to oversee benchmark selection, the importance of updating the approach every 6 months to account for rapid developments in AI, and mitigation measures to prevent companies from strategically underperforming on benchmarks. By providing a practical and robust way to assess high-impact capabilities, this methodology aims to contribute to the development of a more comprehensive approach to evaluating GPAI models. | 本報告書では、汎用AI(GPAI)モデルにおける高インパクト能力を特定するための科学的手法を提案する。高インパクト能力を有するGPAIモデルは、システミック・リスクを有するGPAIモデルとして分類されるため、高インパクト能力はEU AI法において重要な役割を果たす。本アプローチは、既存のベンチマーク群から主成分分析(PCA)を用いた観測的スケーリング法則に基づいており、影響力の高い能力を持つモデルを識別するために使用できる低次元の能力尺度を抽出することができる。提案手法では、MMLU-Pro、GPQA-diamond、MATH-level-5、HumanEvalなど、一般的な能力を測定する多様なベンチマークセットを選択し、重み付けされた閾値ベースのメトリックを用いてスコアを集約する。加重はPCA手法によって決定され、閾値は参照モデルに基づいており、法的、政策的、リスク的な考慮に基づいて実施機関が設定する。本報告書では、ベンチマークの選定を監督する学際的な専門家グループの必要性、AIの急速な発展を考慮した6ヶ月ごとのアプローチ更新の重要性、企業が戦略的にベンチマークを下回ることを防止するための緩和策など、追加的な検討事項についても論じている。インパクトの大きい能力を評価するための実践的で堅牢な方法を提供することで、本方法論はGPAIモデルを評価するためのより包括的なアプローチの開発に貢献することを目指している。 |
・[PDF]
| Abstract | 概要 |
| Acknowledgements | 謝辞 |
| Note from the Editors | 編集者からのコメント |
| Executive summary | エグゼクティブサマリー |
| 1 Introduction | 1 はじめに |
| 1.1 Benefits of the PCA approach | 1.1 PCAアプローチの利点 |
| 1.2 Limitations | 1.2 制限事項 |
| 2 Benchmark selection criteria | 2 ベンチマーク選択基準 |
| 3 Specific selection of benchmarks | 3 具体的なベンチマークの選択 |
| 3.1 MMLU-Pro | 3.1 MMLU-Pro |
| 3.2 GPQA-diamond | 3.2 GPQA-diamond |
| 3.3 MATH-level-5 | 3.3 MATH-level-5 |
| 3.4 HumanEval | 3.4 HumanEval |
| 3.5 SWE-Bench-verified (a subset) | 3.5 SWE-Bench-verified (サブセット) |
| 3.6 MLE-Bench (a subset) | 3.6 MLE-Bench(サブセット) |
| 4 Benchmark-score aggregation | 4 ベンチマークスコアの集計 |
| 4.1 Simplified approach | 4.1 簡易アプローチ |
| 4.2 Tiered approach | 4.2 段階的アプローチ |
| 5 Additional Considerations | 5 その他の考慮事項 |
| 5.1 Detailed procedure for measurements | 5.1 詳細な測定手順 |
| 5.2 6-months updates | 5.2 6ヶ月ごとの更新 |
| 5.3 Mitigation measures to prevent gaming & other actions by GPAI model providers | 5.3 GPAIモデル提供者によるゲーミングやその他の行為を防止するための緩和措置 |
| 6 Conclusions | 6 結論 |
| References | 参考文献 |
| List of abbreviations and definitions | 略語と定義の一覧 |
| List of figures | 図表一覧 |
| List of tables | 表一覧 |
| Annexes | 附属書 |
| Annex 1. Concrete example of benchmark aggregation | 附属書1. ベンチマーク集計の具体例 |
| Annex 2. Robustness tests | 附属書2. 頑健性テスト |
・2025.10.10 A Framework to Categorise Modified General-Purpose AI Models as New Models Based on Behavioural Changes
| A Framework to Categorise Modified General-Purpose AI Models as New Models Based on Behavioural Changes | 行動の変化に基づき、修正された汎用AIモデルを新しいモデルとして分類するフレームワーク |
| This report discusses an approach for a criteria to determine when a modified General-Purpose AI (GPAI) model should be considered a new and distinct model for regulatory purposes under the EU AI Act. It presents two approaches to assess behavioural changes in altered models: (1) directly measuring differences in capability profiles or instance-level answers, and (2) using proxy metrics related to the alteration process, such as finetuning, computation, and data usage. The report highlights the challenges of establishing thresholds for determining when an altered model is considered a new one and suggests empirical studies to validate the relationships between alteration metrics and downstream behavioural changes. | 本報告書では、修正された汎用AI(GPAI)モデルが、EUのAI法の規制目的上、新しい別個のモデルとみなされるべきかを判断する基準のアプローチについて論じている。(1)能力プロファイルやインスタンスレベルの回答の違いを直接測定する方法と、(2)ファインチューニング、計算、データ使用量など、改変プロセスに関連するプロキシメトリクスを使用する方法である。本報告書では、変更されたモデルが新しいモデルとみなされるタイミングを決定するための閾値を確立することの課題を強調し、変更メトリクスと下流の行動変化との関係を検証するための実証的研究を提案している。 |
・[PDF]
| Abstract | 概要 |
| Acknowledgements | 謝辞 |
| Note from the Editors | 編集者からのコメント |
| Executive summary | エグゼクティブサマリー |
| 1 Background | 1 背景 |
| 1.1 Notion of "substantial modification" of high-risk AI systems | 1.1 リスクの高いAIシステムの「実質的修正」という概念 |
| 1.2 How modifications to AI models arise | 1.2 AIモデルの修正はどのように生じるか |
| 2 Approach 1: Directly measuring difference in behaviour | 2 アプローチ1:行動の違いを直接測定する |
| 2.1 Differences in capability profiles | 2.1 能力プロファイルの違い |
| 2.2 Differences in instance-level answers | 2.2 インスタンスレベルの回答の違い |
| 2.2.1 Further background information on CAPA | 2.2.1 CAPAに関するさらなる背景情報 |
| 3 Approach 2: Proxy metrics for differences in behaviour | 3 アプローチ2:行動の違いの代理測定基準 |
| 3.1 What alterations have the potential to cause substantially different behaviour andperformance | 3.1 どのような変更が、実質的に異なる挙動とパフォーマンスを引き起こす可能性があるか |
| 3.1.1 Finetuning methods | 3.1.1 ファインチューニングの方法 |
| 3.2 Proxy metrics | 3.2 代理メトリクス |
| 3.3 Linking alteration metrics to downstream behavioural changes | 3.3 変化のメトリクスを下流の行動変化にリンクさせる |
| 3.3.1 Protocol | 3.3.1 プロトコル |
| 4 Conclusions | 4 結論 |
| References | 参考文献 |
| List of abbreviations and definitions | 略語と定義のリスト |
| List of tables | 表一覧 |
・2025.10.10 A Framework for General-Purpose AI Model Categorisation
| A Framework for General-Purpose AI Model Categorisation | 汎用AIモデル分類のためのフレームワーク |
| This report proposes a framework for categorising AI models as General-Purpose AI (GPAI) models as defined in the EU AI Act, based on their capabilities and generality. It breaks down the core components of the GPAI definition into measurable elements, focusing on four primary cognitive domains: (1) Attention and Search, (2) Comprehension and Compositional Expression, (3) Conceptualisation, Learning and Abstraction, and (4) Quantitative and Logical Reasoning. The report suggests using the Annotated Demand Levels (ADeLe) procedure to evaluate AI models' capabilities in these domains, and provides a methodology for combining domain-level scores into a single measure of generality. The framework is illustrated with empirical results from existing models, and policy recommendations are made for selecting thresholds and metrics for GPAI categorisation. | 本報告書では、AIモデルを、その能力と汎用性に基づいて、EUのAI法で定義されている汎用AI(GPAI)モデルに分類するためのフレームワークを提案する。本報告書では、GPAIの定義の中核となる構成要素を測定可能な要素に分解し、4つの主要な認知領域((1)注意と検索、(2)理解力と構成表現、(3)概念化、学習と抽象化、(4)定量的推論と論理的推論)に焦点を当てている。本報告書では、これらの領域におけるAIモデルの能力を評価するために、注釈付き要求水準(ADeLe)手順を使用することを提案し、領域レベルのスコアを単一の一般性の尺度にまとめるための方法論を提供している。このフレームワークは、既存のモデルから得られた経験的な結果を用いて説明され、GPAI分類のための閾値と測定基準を選択するための政策提言がなされている。 |
・[PDF]
| Abstract | 概要 |
| Acknowledgements | 謝辞 |
| Note from the Editors | 編集者からのコメント |
| Executive summary | エグゼクティブサマリー |
| 1 Introduction | 1 はじめに |
| 2 Background: definitions and considerations | 2 背景:定義と考察 |
| 2.1 AI model and AI system | 2.1 AIモデルとAIシステム |
| 2.2 Approach development considerations | 2.2 アプローチ開発の考慮事項 |
| 2.3 System-level considerations for GPAI model categorisation | 2.3 GPAIモデルの分類に関するシステムレベルでの考慮事項 |
| 3 Operationalising the definition of a GPAI model | 3 GPAIモデルの定義を運用する |
| 3.1 Identifying cognitive domains | 3.1 認知ドメインの特定 |
| 3.2 Testing Each Domain | 3.2 各ドメインのテスト |
| 3.2.1 Domains and modalities | 3.2.1 ドメインとモダリティ |
| 3.2.2 Annotating Demands and Measuring Capabilities | 3.2.2 要求の注釈付けと能力の測定 |
| 3.3 Competently performing in a domain | 3.3 ドメインで能力を発揮する |
| 3.3.1 Preliminary considerations | 3.3.1 予備的考察 |
| 3.3.2 Practicalities and potential issues with human baselines | 3.3.2 人間ベースラインの実用性と潜在的な問題点 |
| 3.3.3 Testing conditions | 3.3.3 テスト条件 |
| 3.4 Wide range/generality | 3.4 広い範囲/一般性 |
| 3.5 Putting it all together | 3.5 全てをまとめる |
| 4 Empirical illustration of the proposed approach | 4 提案アプローチの実証的説明 |
| 4.1 How to analyse LLM performance with respect to human difficulty scores | 4.1 人間の難易度スコアに関するLLMパフォーマンスの分析方法 |
| 4.2 Correlation of capability levels with model size/compute | 4.2 モデルサイズ/計算量と能力レベルの相関性 |
| 4.3 Sensitivity analysis of classification thresholds and averages | 4.3 分類しきい値と平均値の感度分析 |
| 4.3.1 Effect of aggregation function | 4.3.1 集計関数の効果 |
| 4.3.2 Effect of threshold value | 4.3.2 しきい値の影響 |
| 4.3.3 Domain pass/fail policy | 4.3.3 ドメインの合否ポリシー |
| 5 Conclusions | 5 結論 |
| References | 参考文献 |
| List of abbreviations and definitions | 略語と定義一覧 |
| List of figures | 図一覧 |
| List of tables | 表一覧 |
・2025.10.10 Training Compute Thresholds - Key Considerations for the EU AI Act
| Training Compute Thresholds - Key Considerations for the EU AI Act | トレーニングの計算しきい値 - EU AI法における重要な検討事項 |
| This report provides an in-depth analysis of the concept of cumulative compute as a proxy for general-purpose AI (GPAI) model capabilities, with a focus on measuring and verifying training compute, defined as the computational resources used to train a model, measured in floating-point operations (FLOP). It presents two approaches to estimating training compute, namely hardware-based and parameter-based methods, and discusses their strengths and limitations, including the challenges of estimating training compute for complex architectures and the need for standardised methodologies. The report also explores the challenges of verifying declared and undeclared training runs, and discusses potential verification methods, including concordance between measurement approaches, whistleblower protection, and monitoring of large compute clusters. Additionally, it examines the regulatory context, including the EU AI Act, and provides guidance on notification triggers, including the proposed notification point at the pre-training resource commitment stage, and the need for additional clarity for what constitutes reasonable certainty about threshold exceedance. The report also discusses the importance of updating training compute thresholds to maintain their effectiveness, and proposes a framework for dynamic threshold adjustment, including regular review periods and ongoing assessment by regulatory bodies and expert groups. ERBEN Alexander; NEGELE Max; HEIM Len |
本レポートでは、汎用AI(GPAI)モデル能力の代用としての累積計算量の概念を詳細に分析し、モデルの学習に使用される計算資源として定義され、浮動小数点演算(FLOP)で測定される訓練計算量の測定と検証に焦点を当てている。本報告書では、トレーニング計算量を推定するための2つのアプローチ、すなわちハードウェアベースの手法とパラメータベースの手法を紹介し、複雑なアーキテクチャのトレーニング計算量を推定する際の課題や標準化された手法の必要性など、それぞれの長所と限界について論じている。また、申告されたトレーニング実行と申告されていないトレーニング実行を検証する際の課題を探り、測定アプローチ間の整合性、内部告発者の保護、大規模計算クラスタの監視など、潜在的な検証方法についても論じている。 さらに、EUのAI法を含む規制の背景を検討し、トレーニング前のリソース投入段階における通知ポイントの提案や、閾値超過に関する合理的な確実性を構成するものをさらに明確にする必要性など、通知トリガーに関するガイダンスを提供している。また、有効性を維持するためにトレーニング計算の閾値を更新することの重要性を論じ、定期的な見直し期間や、規制機関や専門家グループによる継続的な評価など、動的な閾値調整の枠組みを提案している。ERBEN Alexander; NEGELE Max; HEIM Len |
・[PDF]
| Abstract | エグゼクティブサマリー |
| Acknowledgements | 謝辞 |
| Note from the Editors | 編集者からのコメント |
| Executive summary | エグゼクティブサマリー |
| 1 Introduction | 1 はじめに |
| 2 Cumulative Compute as a Capability Proxy | 2 ケイパビリティ・プロキシとしての累積コンピュート |
| 2.1 Background: Compute as a Predictor for AI Capabilities | 2.1 背景 AI能力の予測因子としてのコンピュート |
| 2.2 Compute Classification Framework | 2.2 コンピュート分類のフレームワーク |
| 2.3 Case Study: AlphaGo Zero | 2.3 ケーススタディ アルファ碁ゼロ |
| 2.4 Case Study: Auxiliary Models | 2.4 ケーススタディ 補助モデル |
| 2.5 Additional Considerations | 2.5 その他の考察 |
| 3 Measuring Training Compute | 3 トレーニング量の測定 |
| 3.1 Hardware-based Approach | 3.1 ハードウェアベースのアプローチ |
| 3.2 Parameter-based Approach | 3.2 パラメータベースのアプローチ |
| 3.3 Comparing Both Approaches | 3.3 両方のアプローチを比較する |
| 4 Setting the Cumulative Compute Threshold | 4 累積計算しきい値の設定 |
| 4.1 Regulatory Design Parameters | 4.1 規制設計パラメータ |
| 4.2 Adjustment Framework | 4.2 調整フレームワーク |
| 4.3 Implementation Approaches | 4.3 実施アプローチ |
| 5 Notifying of Compute Threshold Exceedances | 5 閾値超過の通知 |
| 5.1 Knowledge Points in Model Development | 5.1 モデル開発における知識ポイント |
| 5.2 Practical Implementation and Recommendations | 5.2 実践的な実施方法と推奨事項 |
| 6 Verifying Training Compute | 6 トレーニング計算の検証 |
| 6.1 Verifying Declared Amounts of Training Compute | 6.1 宣言されたトレーニング計算量の検証 |
| 6.2 Verifying That No Training Runs Are Undeclared | 6.2 未申告のトレーニング実行がないことの検証 |
| 6.3 Verification of Both Declared and Undeclared Training Runs | 6.3 宣言されたトレーニング実行と宣言されていないトレーニング実行の両方の検証 |
| 7 Conclusions | 7 結論 |
| 7.1 Compute Threshold Limitations | 7.1 計算しきい値の制限 |
| 7.2 Inference Compute Scaling | 7.2 推論計算のスケーリング |
| 7.3 Alternative Metrics to Cumulative Compute | 7.3 累積計算の代替指標 |
| 7.4 Additional Synthetic Data Considerations | 7.4 その他の合成データに関する考察 |
| References | 参考文献 |
| List of abbreviations and definitions | 略語と定義一覧 |
| List of figures | 図一覧 |
| List of tables | 表一覧 |
| Annexes | 附属書 |
| Annex 1. Guidance on How to Measure | 附属書1. 測定方法のガイダンス |
| A.1.1 Measurement Approaches | A.1.1 測定方法 |
| A.1.2 Definition of Cumulative Compute | A.1.2 累積計算の定義 |
| A.1.3 More Details | A.1.3 詳細 |
| A.1.4 Required Documentation | A.1.4 必要な文書 |
まとめた仮訳...






Comments