« ドイツ ミュンヘン安全保障会議:BSI AIは私たちの民主主義に何をしているのか? | Main | 英国 ANSI フロンティアAIの安全性にセーフティケースをどのように役立てるか? (2025.02.10) »

2025.02.18

英国 AISI セーフガード評価の原則 - 誤用セーフガードを評価するための基本原則の提言 (2025.02.04)

こんにちは、丸山満彦です。

英国のAISIが2025.02.14にAI Safety InstituteからAI Security Instituteに名称を変更していますが、この記事は変更前の2025.02.04の発表です...(略称はどちらもAISIなので同じです...)

さて、AISIが発表したのは、disinformation  ではなく、misinformation ですね...

意図的ではないけど誤りというものです。問題の質の面からはdisinformationが重要となるので注目されるのですが、量の面からはmisinformationのほうが圧倒的に重要になってくるのだろうと思います。

また、誤用がないかをチェックする過程で、悪用についても気づくことがあるでしょうね...

ということで、この文章はAIアプリケーション開発者にとってはとても重要になるのではないでしょうか?

 

 

U.K. AISI

・2025.02.04 Principles for Safeguard Evaluation

Principles for Safeguard Evaluation セーフガード評価のための原則
Our new paper proposes core principles for evaluating misuse safeguards 私たちの新しい論文は、誤用セーフガードを評価するための基本原則を提案している
At the AI Safety Institute, along with evaluating model capabilities, we’ve been evaluating misuse safeguards—technical interventions implemented by frontier AI developers to prevent users eliciting harmful information or actions from models. We expect safeguards to become increasingly important as AI capabilities advance, and we’re committed to strengthening both our own and others’ ability to evaluate them rigorously. As with many areas of machine learning, we believe that establishing clear problem statements and evaluation frameworks will help drive progress. AIセーフティ研究所では、モデル能力の評価とともに、誤用セーフガード(ユーザーがモデルから有害な情報や行動を引き出すのを防ぐために、フロンティアAIの開発者が実施する技術的介入)の評価も行ってきた。AIの能力が進歩するにつれて、セーフガードの重要性は増すと予想され、私たちはそれを厳密に評価するために、私たち自身と他者の能力を強化することを約束する。機械学習の多くの分野と同様に、明確な問題提起と評価の枠組みを確立することが、進歩の促進につながると考えている。
Our new paper Principles for Evaluating Misuse Safeguards of Frontier AI Systems proposes a core set recommended best practices to help inform how frontier AI safeguards are measured. To make it easy for frontier AI developers to use these recommendations, we have created a Template for Evaluating Misuse Safeguards of Frontier AI Systems, which draws on these principles to provide a list of concrete and actionable questions to guide effective safeguards evaluation. Our work draws from our experience evaluating the safeguards of a range of frontier AI systems in both pre- and post-deployment tests (e.g. Claude 3.5 Sonnet and our May update). 我々の新しい論文「フロンティアAIシステムの悪用防止策を評価するための原則」は、フロンティアAIのセーフガードをどのように評価するかを示すのに役立つ、中核となる推奨ベストプラクティスを提案している。フロンティアAIの開発者がこれらの推奨事項を簡単に利用できるように、我々は「フロンティアAIシステムの悪用防止策評価のためのテンプレート」を作成した。このテンプレートは、これらの原則を基に、効果的なセーフガード評価の指針となる具体的かつ実行可能な質問のリストを提供するものである。このテンプレートは、様々なフロンティアAIシステムのセーフガードを、展開前と展開後のテスト(例えば、クロード3.5ソネットと5月のアップデート)で評価した経験から作成したものである。
We hope these resources will help to drive standardisation in how safeguard evaluations are performed by developers, and how they are presented — internally within developers and to third parties such as collaborators and evaluators. Collaboration is much easier with established frameworks, measurements, and definitions, and these principles are a step in that direction. これらのリソースが、開発者によるセーフガード評価の実施方法や、開発者内部や共同研究者・評価者などのサードパーティへの提示方法の標準化を推進する一助となることを期待している。確立された枠組み、測定方法、定義があれば、コラボレーションはより容易になり、これらの原則はそのための一歩となる。
We engaged with frontier AI developers and other organisations in the safeguards space to help develop these principles. However, both safeguards and safeguard evaluations are rapidly evolving, and we expect to update these resources as the field advances. We encourage organisations to use our framework and share feedback on how it can be improved so the community moves towards standardised and rigorous safeguards evaluations.   私たちは、フロンティアAIの開発者やセーフガード分野の他の組織と協力し、この原則の策定を支援した。しかし、セーフガードもセーフガード評価も急速に進化しており、この分野の進歩に合わせて、これらのリソースも更新していく予定である。私たちは、各組織が私たちの枠組みを利用し、どのように改善すべきかフィードバックを共有することで、コミュニティが標準化された厳格なセーフガード評価に向けて前進することを奨励する。 
1_20250218044401

A five-step process for evaluating misuse safeguards 誤用防止策を評価するための5段階プロセス
In this post, we outline our proposed 5-step process for safeguards evaluations. This process is designed to be generically useful across threat models, as well as adaptive to changes in the risk landscape. この投稿では、セーフガード評価のための5段階のプロセス案について概説する。このプロセスは、脅威モデル全体にわたって汎用的に有用であるとともに、リスク状況の変化に適応できるように設計されている。
State Safeguard Requirements セーフガードの要件を明示する
The first step recommends that frontier AI developers clearly state what requirements they are aiming for their safeguards to satisfy. These requirements can be derived from company safety frameworks, commitments or usage-policies by transforming statements such as “users are not allowed to use the model to perform malicious cyber attacks” to requirements such as “safeguards must prevent users from being able to use the model to perform malicious cyber attacks”. It is valuable for these claims to additionally include the threat actors being considered and any assumptions being made. 最初のステップでは、フロンティアAIの開発者がセーフガードの満たすべき要件を明示することを推奨する。これらの要件は、「ユーザが悪意のあるサイバー攻撃を行うためにモデルを使用することは許されない」といった記述を、「セーフガードはユーザが悪意のあるサイバー攻撃を行うためにモデルを使用することができないようにしなければならない」といった要件に変換することで、企業の安全性の枠組み、コミットメント、または使用ポリシーから導き出すことができる。このような主張には、考慮される脅威アクターや仮定も含めることが重要である。
Establish a Safeguards Plan セーフガード計画の策定
In this step, we suggest developers list and describe the set of safeguards they plan to use in the deployed system. These could be System Safeguards (to prevent threat actors from accessing harmful behaviour from the system, assuming they have access to the system); Access Safeguards (to prevent threat actors from accessing the system entirely); and Maintenance Safeguards (to ensure access or system safeguards maintain their effectiveness over time). This document does not cover security safeguards to prevent model theft. Some safeguard details can be commercially sensitive; in these cases, not all details would need to be shared with all parties involved. このステップでは、開発者が展開するシステムで使用する予定のセーフガード一式をリストアップし、説明することを推奨する。これには、システムセーフガード(脅威アクターがシステムにアクセスできると仮定した場合に、脅威アクターがシステムから有害な振る舞いにアクセスすることを防止する)、アクセスセーフガード(脅威アクターがシステムにアクセスすることを完全に防止する)、保守セーフガード(アクセスセーフガードやシステムセーフガードが長期間にわたって有効性を維持することを確実にする)が考えられる。本文書は、モデルの盗難を防止するためのセキュリティー・セーフガードは対象としていない。セーフガードの詳細の中には、商業上の機密性を有するものもある。このような 場合、すべての詳細を関係者間で共有する必要はない。
Document Evidence of Sufficiency 十分であることの証拠を文書化する
Next, we recommend developers gather and document evidence about the effectiveness of their safeguards. There are a variety of types of evidence that could be gathered here, including but not limited to: results of red-teaming exercises of the safeguards (either all safeguards combined or individual components); static evaluations of safeguard behaviour on existing datasets; or automatic evaluation of robustness with AI techniques. The paper details best practices for these and other evidence types. An important part of this step is using third parties to either gather the evidence (e.g. bug bounty platforms or red-teaming organisation) or to assess evidence gathered by the developer themselves. 次に、開発者に対して、安全措置の有効性に関する証拠を収集し、文書化することを推奨する。ここで収集する証拠には、セーフガードのレッドチームによる検証結果(すべてのセーフガードを統合したものでも、個々のコンポーネントを統合したものでもよい)、既存のデータセットを用いたセーフガードの動作の静的評価、AI 技術を用いた堅牢性の自動評価など、様々な種類があるが、これらに限定されるものではない。この論文では、これらやその他のエビデンスタイプのベストプラクティスについて詳述している。このステップで重要なのは、サードパーティを利用してエビデンスを収集すること(バグ報奨金プラットフォームやレッドチームなど)、あるいは開発者自身が収集したエビデンスを評価することである。
Establish a Plan for Regular Assessment 定期的なアセスメントのための計画を確立する
Even if the safeguards are assessed to be sufficiently robust at the time of deployment, this can change over time, for example as new jailbreaks develop. As such, we recommend developers regularly reassess their safeguards, improving their techniques as new best practices develop, to ensure they continue to satisfy the safeguard requirements. 展開時にセーフガードが十分に堅牢であると評価されていたとしても、例えば新しい脱獄が開発されるなど、時間の経過とともに変化する可能性がある。そのため、開発者は定期的にセーフガードを再評価し、新しいベストプラクティスが開発されるたびにその技術を改善し、セーフガードの要件を満たし続けるようにすることを推奨する。
Decide Whether the Evidence and Assessment Plan are Sufficient 証拠とアセスメント計画が十分であるかどうかを判断する
Finally, in this section, we recommend developers combine all the evidence gathered and the regular assessment plan to produce a justification that the safeguards satisfy the requirements and will continue to do so over time. We also see value in sharing this justification with relevant third parties for review and critique and that potentially redacted versions are posted publicly to enable transparency around safeguards assessment. 最後に、このセクションでは、開発者に、収集したすべてのエビデンスと定期的なアセスメント計画を組み合 わせて、セーフガードが要求事項を満たし、今後も満たし続けることを正当化する理由を作成することを推奨する。また、この正当性の根拠を関連するサードパーティと共有し、レビューや批評を受けること、また、セーフガードの評価に関する透明性を確保するために、冗長化される可能性のあるバージョンを公開することにも価値があると考える。
We hope these principles will enable more rigorous and standardised evaluation of safeguard robustness. This will help drive progress in developing more effective safeguards. We encourage frontier AI developers to use our framework and template, and to share their experience and feedback so we can improve this process and move towards standardised and high-quality safeguards evaluations. これらの原則により、セーフガードの堅牢性の評価がより厳格かつ標準化されることを期待する。これにより、より効果的なセーフガードの開発が促進されるだろう。我々は、フロンティアAIの開発者が我々の枠組みやテンプレートを利用し、その経験やフィードバックを共有することで、このプロセスを改善し、標準化された質の高いセーフガード評価に移行することを奨励する。
You can find the Principles here and the Template here
.
原則はこちらから、テンプレートはこちらから。

 

原則...

・[PDF] Principles for Evaluating Misuse Safeguards of Frontier AI Systems Version 1.0

20250218-44918

・[DOCX][PDF] 仮訳

 

 

テンプレート...

・[PDF] Template for Evaluating Misuse Safeguards of Frontier AI Systems Version 1.0

20250218-45205

・[DOCX][PDF] 仮訳

 

 

 

 

 

 

 

 

 

|

« ドイツ ミュンヘン安全保障会議:BSI AIは私たちの民主主義に何をしているのか? | Main | 英国 ANSI フロンティアAIの安全性にセーフティケースをどのように役立てるか? (2025.02.10) »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« ドイツ ミュンヘン安全保障会議:BSI AIは私たちの民主主義に何をしているのか? | Main | 英国 ANSI フロンティアAIの安全性にセーフティケースをどのように役立てるか? (2025.02.10) »