英国 ANSI フロンティアAIの安全性にセーフティケースをどのように役立てるか? (2025.02.10)
こんにちは、丸山満彦です。
英国のAISIが2025.02.14にAI Safety InstituteからAI Security Instituteに名称を変更していますが、この記事は変更前の2025.02.10の発表です...(略称はどちらもAISIなので同じです...)
さて、AISIが発表したのは、フロンティアAI(最先端の技術を利用したAI)にSafety Caseという手法をどのように適用していくか?という話です。
安全工学的なアプローチといえるでしょうね...
Safety Case [wikipedia] とは、システムが安全であることを示すための論証を構造化するという話で、証拠、文書が重要となりますね。 交通関係(航空、鉄道、自動車)や医療機器分野、兵器関係などの安全に関わる分野では使われているものです。(最近は自動運転自動車の安全設計において、Safety Caseを活用するケースがありますね...)ソフトウェアの安全性に関しても利用されるケースがでてきていますね...
Safety Caseでは、Goal Structuring Notaion (GSN) [wikipedia] ([PDF]Goal Structuring Notation Community Standard - Version 3)を利用して記述するケースが多いですね...
日本ではIPAのSEC journal Vol.12 No.3 Dec. 2016にJAXAとの共同研究による[PDF]論文が掲載されていますので、参考に...
GSNは安全の分野以外でも依存性(dependability)に関する記述(D-Case)でも利用されますね...(私が監事をしている「ディペンダビリティ技術推進協会」)でも、普及活動をしているので興味があるかたはこちらも(D-Case)...
さて、話をもどします...
英国のAISIが発表しているフロンティアAIにこのSafety Caseを利用するというのは、安全なAIを作成する上で有益なのではないかと思います。記述方式、例えば、GSNの理解のために少し時間が余計にかかるかもしれませんが、GSNを利用することにより、SafetyにもDepedabilityにも両方とも活用でき、安全なAIシステム、そして、それを利用した安全な社会システムの開発につながるのではないかなぁという気もします...
抽象的な議論が多いかもしれませんが、目を通してみるというのもよいかと思います...
・2025.02.10 How can safety cases be used to help with frontier AI safety?
How can safety cases be used to help with frontier AI safety? | フロンティアAIの安全性にセーフティ・ケースはどのように役立つのか? |
Our new papers show how safety cases can help AI developers turn plans in their safety frameworks into action | 当社の新しい論文では、セーフティ・ケースがAI開発者のセーフティ・フレームワークの計画を行動に移すのにどのように役立つかを示している |
Safety frameworks have become standard practice amongst frontier AI developers. In them, developers outline key risks, how they’ll measure them and steps to mitigate them. But this is no easy task, particularly when the risks are novel, fast-changing, and hard to pin down. | セーフティ・フレームワークは、フロンティアAI開発者の間で標準的な慣行となっている。 その中で開発者は、主要なリスク、それをどのように測定するか、そしてそれらを緩和するためのステップを概説する。しかし、これは簡単な作業ではない。特に、リスクが新しく、変化が速く、特定するのが難しい場合はなおさらだ。 |
Over 11 frameworks have now been released, and counting, spurring a wave of research on how to write, implement, and refine them. Two of our latest papers contribute to that conversation. The first provides developers an overview of emerging practices in safety frameworks. The second proposes a method to help implement them: safety cases. | 現在、11以上の枠組みがリリースされており、その数は数えるほどである。そのため、どのように枠組みを作成し、実装し、洗練させるかについての研究が相次いでいる。我々の2つの最新論文は、そのような議論に貢献している。1つ目は、安全フレームワークにおける新たなプラクティスの概要を開発者に提供するものである。2つ目は、セーフティ・ケースの実装を支援する方法を提案している。 |
In this blog, we explain what safety cases are and how they can assist AI developers in determining whether an AI system meets the safety thresholds outlined in their safety framework. | このブログでは、セーフティ・ケースとは何か、そして、AIシステムが安全フレームワークで概説されている安全閾値を満たしているかどうかを判断する際に、セーフティ・ケースがAI開発者をどのように支援するかを説明する。 |
What are safety cases? | セーフティ・ケースとは何か? |
Effectively implementing safety frameworks means demonstrating that an AI system is safe. To do that, three things are needed: | 安全フレームワークを効果的に実装することは、AIシステムが安全であることを実証することを意味する。そのためには、3つのことが必要である: |
1. A precise claim explaining what is meant by ‘safe’ | 1. 「安全」の意味を説明する正確な主張 |
2. Evidence | 2. 証拠 |
3. An argument linking the two | 3. 2つを結びつける議論 |
Safety cases are a widely used technique that brings all three of these together into a single clear, assessable argument (Favaro et al., 2023; Sujan et al., 2016; Bloomfield et al., 2012; Inge, 2007). | セーフティ・ケースは、これら3つを1つの明確でアセスメント可能な議論にまとめる、広く使われている手法である(Favaro et al, 2023; Sujan et al, 2016; Bloomfield et al, 2012; Inge, 2007)。 |
We’ve previously written about why we’re working on safety cases at AISI, and what safety cases for frontier AI systems might look like. Our new paper looks at how safety cases can be used for frontier AI and why developers might find them useful. | AISIでセーフティ・ケースに取り組んでいる理由や、フロンティアAIシステムのセーフティ・ケースがどのようなものかについては、以前にも書いた。我々の新しい論文では、セーフティ・ケースがフロンティアAIにどのように利用できるのか、そして開発者がセーフティ・ケースを有用と感じる理由について考察している。 |
![]() |
|
The first few claims of a structured argument that could help form part of a safety case, from our previous paper on ‘inability’ arguments. | セーフティ・ケースの一部を形成するのに役立つ構造化された議論の最初のいくつかの主張。 |
How can safety cases be used? | セーフティ・ケースはどのように使えるのか? |
Safety cases can be used to inform organisational decision-making on the safety of frontier AI systems: | セーフティ・ケースは、フロンティアAIシステムの安全性に関する組織の意思決定に活用できる: |
![]() |
|
They are broadly useful whenever decisions about safety are being made. At the moment, they are likely most useful for internal company decision-making. In the future, we can imagine safety cases being shared with third parties, and published in some format, much like model cards and capability evaluations are today. | セーフティ・ケースは、安全性に関する意思決定が行われるときにはいつでも広く役立つ。現時点では、社内の意思決定に最も役立つと思われる。将来的には、現在のモデルカードや能力評価のように、セーフティ・ケースがサードパーティと共有され、何らかの形式で公開されることが想像できる。 |
Let’s look at some examples: | いくつかの例を見てみよう: |
・An AI developer could write a safety case to make sure that an upcoming system meets the commitments set out in their safety framework. They could send the safety case to a third party for red-teaming. | ・AIの開発者は、今後開発するシステムがセーフティ・フレームワークで定められた約束を満たしていることを確認するために、セーフティ・ケースを作成することができる。セーフティ・ケースをサード・パーティに送り、レッド・チームに依頼することもできる。 |
・An engineering team might be deciding whether to fine-tune a model to refuse to answer requests about how to steal money from a bank. The developer could work on an evolving safety case throughout the development cycle; if this work is ongoing, the engineering team could refer to the safety case to help inform their decision. | ・エンジニアリング・チームは、銀行からお金を盗む方法に関するリクエストに答えることを拒否するモデルを微調整するかどうかを決定するかもしれない。開発者は、開発サイクル全体を通して進化するセーフティ・ケースに取り組むことができる。 |
・An incident response team might be responding to a jailbreak which has been posted to social media. This possibility may be covered by a safety case; the response team may review a safety case - written when the system was made public - and use that to decide whether existing safeguards are sufficient, or whether they need to be improved. | ・インシデント対応チームは、ソーシャルメディアに投稿された脱獄に対応するかもしれない。対応チームは、システムが公開されたときに書かれたセーフティ・ケースをレビューし、既存のセーフガードで十分か、改善が必要かどうかを判断するためにそれを使用することができる。 |
Safety frameworks typically specify conditions for safe development and deployment of frontier AI systems based on the system’s capabilities and the safety measures implemented. Safety cases can help developers test a particular system against this safety framework. Safety cases thereby complement safety frameworks, which outlines broad policies and principles that apply across systems at the organisational level, with system-specific analysis. In the paper, we look in more detail at how safety cases can contribute to the fulfilment of commitments made in safety frameworks. This builds on work outlined in our paper on emerging practices in safety frameworks. | セーフティ・フレームワークは通常、システムの能力と実装されている安全対策に基づいて、フロンティアAIシステムを安全に開発・展開するための条件を規定している。セーフティ・ケースは、開発者が特定のシステムをこのセーフティ・フレームワークに照らしてテストするのに役立つ。これによりセーフティ・ケースは、組織レベルでシステム全体に適用される広範な方針と原則を概説するセーフティフレームワークを、システム固有の分析で補完することになる。この論文では、セーフティ・ケースがどのようにセーフティ・フレームワークにおけるコミットメントの履行に貢献できるかについて、より詳細に検討する。 これは、セーフティ・フレームワークにおける新たなプラクティスに関する論文で概説した作業を基礎としている。 |
More research is needed | さらなる研究が必要である |
We don’t yet know how to write robust arguments that frontier AI systems are safe – and this means that we can’t yet write full and correct safety cases. | 我々は、フロンティアAIシステムが安全であるという強固な論拠を書く方法をまだ知らない - そしてこれは、完全で正しいセーフティ・ケースをまだ書けないことを意味する。 |
There’s a whole host of open problems to solve before we reach that stage, both on methodology and on substance. For example, we currently don’t know: | その段階に到達するまでには、方法論と実質の両面において、解決すべき未解決の問題が山積している。例えば、私たちは現在、次のようなことを知らない: |
・How the top-level claim in a safety case should be specified | ・セーフティ・ケースのトップレベルの主張をどのように規定すべきか |
・Which safety cases notation schemes work best for frontier AI | ・フロンティアAIにとってどのセーフティ・ケースの記法が最も効果的か |
・How to quantify our confidence in various arguments | ・様々な議論に対する信頼性をどのように定量化するか |
・How generalisable arguments and evaluations are | ・どのように汎化可能な議論と評価か |
There are also technical machine learning questions that come up time and time again when sketching safety cases. For example, how much can we rely on capability evaluations? Are we correctly eliciting capabilities? Could future models sandbag evaluations? | セーフティ・ケースをスケッチする際に何度も出てくる技術的な機械学習の疑問もある。例えば、能力評価はどの程度信頼できるのか?我々は正しく能力を引き出しているだろうか?将来のモデルは評価をサンドバッグにできるだろうか? |
We’re optimistic that we can solve many of these problems by writing safety case sketches (our best guesses about how to write an argument for a particular system) and safety case templates (rough arguments that can be filled in for a particular system). | 私たちは、セーフティ・ケース・スケッチ(特定のシステムに対する議論の書き方についての最善の推測)やセーフティ・ケース・テンプレート(特定のシステムに対して記入できる大まかな議論)を書くことによって、これらの問題の多くを解決できると楽観的に考えている。 |
To learn more – including more details about how safety cases can be used, why we’re excited about them, and a more detailed list of open problems – take a look at the paper. | セーフティ・ケースの使い方、セーフティ・ケースに興奮する理由、未解決の問題の詳細なリストなど、さらに詳しく知りたい方は、論文をご覧いただきたい。 |
・[PDF] Emerging Practices in Frontier AI Safety Frameworks
・[PDF] Safety Cases: A Scalable Approach to Frontier AI Safety
関連
過去のAISIのSafety Caseに関する発表。。。
サイバー攻撃に対する能力がないことを示すためのセーフティ・ケースの書き方...
・2024.11.14 Safety case template for ‘inability’ arguments
制御不能や自律性に起因するリスクに焦点を当てたプロジェクト
・2024.08.23 Safety cases at AISI
このウェブサイトは興味深いですよ...
モデル評価と脅威研究...
● Model Evaluation & Threat Research: METR
発行 | 最終改訂 | 企業 | 安全に対する方針・フレームワーク |
2023.09.19 | 2024.10.15 | Anthropic | Responsible Scaling Policy |
2023.12.18 | OpenAI | Preparedness Framework (Beta) | |
2024.05.17 | 2025.02.04 | Google DeepMind | Frontier Safety Framework |
2024.07.02 | Magic | AGI Readiness Policy | |
2024.08.07 | NAVER | AI Safety Framework | |
2025.02.03 | Meta | Frontier AI Framework | |
2025.02.06 | G42 | Frontier AI Safety Framework | |
2025.02.07 | Cohere | Secure AI Frontier Model Framework | |
2025.02.08 | Microsoft | Frontier Governance Framework | |
2025.02.10 | Amazon | Frontier Model Safety Framework | |
2025.02.10 | xAI | Risk Management Framework (Draft) |
IBMは既存のAIガバナンスに統合している。
・2025.02.07 Trustworthy AI at scale: IBM’s AI Safety and Governance Framework
SamsungはオンデバイスAIセーフティ・フレームワークを公表している。
・[PDF] 1. AI Safety Framework
Goal Structuring Notaion (GSN) の標準...
● The Systems Safety Community and Club: SCSC
・2021.05 [PDF] Goal Structuring Notation Community Standard - Version 3
日本でのSafty Caseの例
● IPA - SEC journal Vol.12 No.3 Dec. 2016
・[PDF] Goal Structuring Notationを用いた汎用的な安全要求の明確化と評価
・2024.12.12 自動運転の安全性評価フレームワーク(Ver.3)の安全論証構造分析
Depaendability Case
« 英国 AISI セーフガード評価の原則 - 誤用セーフガードを評価するための基本原則の提言 (2025.02.04) | Main | 英国 AI Safety Institute(AI安全機構)からAI Security Institute(AIセキュリティ機構)へ (2025.02.14) »
Comments