« NISTIR 8310 (Draft) サイバーセキュリティフレームワーク(CSF) 選挙インフラのプロファイル | Main | GAO 連邦政府の財務諸表に監査意見を付与することができない・・・その理由は・・・ »

2021.03.31

米国 CSET AI安全性の主要概念:概要

こんにちは、丸山満彦です。

米国ジョージタウン大学のCenter for Security and Emerging Technology: CSET が、AI安全性の主要概念:概要という論文を公表していました。。。

  • Robustness: 堅牢性
  • Assurance:保証
  • Specification:要件

の3つが挙げられていますね。。。

 

Center for Security and Emerging Technology: CSET

・2021.03 Key Concepts in AI Safety: An Overview

Key Concepts in AI Safety: An Overview AI安全性の主要概念:概要
This paper is the first installment in a series on “AI safety,” an area of machine learning research that aims to identify causes of unintended behavior in machine learning systems and develop tools to ensure these systems work safely and reliably. In it, the authors introduce three categories of AI safety issues: problems of robustness, assurance, and specification. Other papers in this series elaborate on these and further key concepts. 本論文は、機械学習システムにおける意図しない動作の原因を特定し、これらのシステムが安全かつ確実に動作するためのツールを開発することを目的とした機械学習研究の分野である「AI安全性」に関するシリーズの第1回目です。このシリーズでは、AIの安全性に関する問題として、ロバスト性、保証、仕様の3つのカテゴリーを紹介しています。本シリーズの他の論文では、これらの問題やその他の重要な概念について詳しく説明しています。
Introduction はじめに
The past decade has seen the emergence of modern artificial intelligence and a variety of AI-powered technological innovations. This rapid transformation has predominantly been driven by machine learning, a subfield of AI in which computers learn patterns and form associations based on data. Machine learning has achieved success in application areas including image classification and generation, speech and text generation, and decision making in complex environments such as autonomous driving, video games, and strategy board games. この10年間で、現代の人工知能が登場し、AIを活用したさまざまな技術革新が起きています。このような急速な変化は、主に機械学習によってもたらされました。機械学習は、コンピュータがデータに基づいてパターンを学習し、関連性を形成するAIの一分野です。機械学習は、画像の分類や生成、音声やテキストの生成、自律走行やビデオゲーム、戦略ボードゲームなどの複雑な環境下での意思決定などの応用分野で成功を収めています。
However, unlike the mathematical and computational tools commonly used in engineering, modern machine learning methods do not come with safety guarantees. While advances in fields such as control theory have made it possible to build complex physical systems, like those found in various types of aircraft and automobiles, that are validated and guaranteed to have an extremely low chance of failure, we do not yet have ways to produce similar guarantees for modern machine learning systems. As a result, many machine learning systems cannot be deployed without risking the system encountering a previously unknown scenario that causes it to fail. しかし、現代の機械学習は、工学的に用いられる数学や計算機とは異なり、安全性が保証されているわけではありません。制御理論などの進歩により、航空機や自動車などの複雑な物理システムを構築する際には、故障の可能性が極めて低いことが検証・保証されていますが、現代の機械学習システムでは、同様の保証を行う方法がまだありません。そのため、多くの機械学習システムは、これまで知られていなかったシナリオに遭遇してシステムが故障するリスクを避けて導入することができません。
The risk of system failures causing significant harm increases as machine learning becomes more widely used, especially in areas where safety and security are critical. To mitigate this risk, research into “safe” machine learning seeks to identify potential causes of unintended behavior in machine learning systems and develop tools to reduce the likelihood of such behavior occurring. This area of research is referred to as “AI safety” and focuses on technical solutions to ensure that AI systems operate safely and reliably. Many other challenges related to the safe deployment of AI systems—such as how to integrate them into existing networks, how to train operators to work effectively with them, and so on—are worthy of substantial attention, but are not covered here. 機械学習が広く使われるようになると、特に安全性やセキュリティが重要な分野では、システムの故障が重大な被害をもたらすリスクが高まります。このようなリスクを軽減するために、「安全な」機械学習の研究では、機械学習システムにおける意図しない動作の潜在的な原因を特定し、そのような動作が発生する可能性を低減するためのツールを開発しています。この分野の研究は「AIの安全性」と呼ばれ、AIシステムを安全かつ確実に動作させるための技術的ソリューションに焦点を当てています。AIシステムを安全に展開するためには、既存のネットワークにどのように統合するか、オペレーターをどのように訓練して効果的に作業させるかなど、他にも多くの課題があり、注目に値しますが、ここでは取り上げません。
Problems in AI safety can be grouped into three categories: robustness, assurance, and specification. Robustness guarantees that a system continues to operate within safe limits even in unfamiliar settings; assurance seeks to establish that it can be analyzed and understood easily by human operators; and specification is concerned with ensuring that its behavior aligns with the system designer’s intentions. AIの安全性に関する問題は、ロバスト性、保証、仕様の3つのカテゴリーに分類されます。ロバスト性とは、不慣れな環境でもシステムが安全な範囲内で動作し続けることを保証すること、保証とは、人間のオペレータが容易に分析・理解できることを保証すること、そして仕様とは、システム設計者の意図に沿った動作を保証することです。

 

・[PDF] Key Concepts in AI Safety: An Overview

20210910-150743

内容はこちら↓↓↓

 

 

Key Concepts in AI Safety:  An Overview  AI安全性のキーコンセプト  概要 
This paper is the first installment in a series on “AI safety,” an area of machine learning research that aims to identify causes of unintended behavior in machine learning systems and develop tools to ensure these systems work safely and reliably. Below, we introduce three categories of AI safety issues: problems of robustness, assurance, and specification. Other papers in this series elaborate on these and further key concepts.  本稿は、機械学習システムにおける意図しない動作の原因を特定し、システムが安全かつ確実に動作するためのツールを開発することを目的とした、機械学習研究の分野である「AI安全性」に関するシリーズの第1回目です。本連載では、「AIの安全性」について、「ロバスト性」「保証」「要件」の3つのカテゴリーに分けてご紹介します。本シリーズの他の論文では、これらの問題やその他の重要な概念について詳しく説明しています。
Introduction  はじめに 
The past decade has seen the emergence of modern artificial intelligence and a variety of AI-powered technological innovations. This rapid transformation has predominantly been driven by machine learning, a subfield of AI in which computers learn patterns and form associations based on data. Machine learning has achieved success in application areas including image classification and generation, speech and text generation, and decision making in complex environments such as autonomous driving, video games, and strategy board games.  この10年間で、現代の人工知能が登場し、AIを活用したさまざまな技術革新が起きています。このような急速な変化は、主に機械学習によってもたらされました。機械学習は、データに基づいてコンピュータがパターンを学習し、関連性を形成するAIのサブフィールドです。機械学習は、画像の分類や生成、音声やテキストの生成、自律走行やビデオゲーム、戦略ボードゲームなどの複雑な環境下での意思決定などの応用分野で成功を収めています。
However, unlike the mathematical and computational tools commonly used in engineering, modern machine learning methods do not come with safety guarantees. While advances in fields such as control theory have made it possible to build complex physical systems, like those found in various types of aircraft and automobiles, that are validated and guaranteed to have an extremely low chance of failure, we do not yet have ways to produce similar guarantees for modern machine learning systems. As a result, many machine learning systems cannot be deployed without risking the system encountering a previously unknown scenario that causes it to fail.  しかし、最近の機械学習法は、工学分野で一般的に用いられている数学的・計算的ツールとは異なり、安全性が保証されているわけではありません。制御理論などの進歩により、航空機や自動車などの複雑な物理システムでも、故障の可能性が極めて低いことが検証・保証されたシステムを構築できるようになりましたが、現代の機械学習システムでは、同様の保証を行う方法がまだありません。 そのため、多くの機械学習システムは、これまで知られていなかったシナリオに遭遇してシステムが故障するリスクを避けて導入することができません。 
The risk of system failures causing significant harm increases as machine learning becomes more widely used, especially in areas where safety and security are critical. To mitigate this risk, research into “safe” machine learning seeks to identify potential causes of unintended behavior in machine learning systems and develop tools to reduce the likelihood of such behavior occurring. This area of research is referred to as “AI safety”1 and focuses on technical solutions to ensure that AI systems operate safely and reliably. Many other challenges related to the safe deployment of AI systems—such as how to integrate them into existing networks, how to train operators to work effectively with them, and so on— are worthy of substantial attention, but are not covered here.  機械学習が広く使われるようになると、特に安全性やセキュリティが重要な分野では、システムの故障が重大な被害をもたらすリスクが高まります。このようなリスクを軽減するために、「安全な」機械学習の研究では、機械学習システムにおける意図しない動作の潜在的な原因を特定し、そのような動作が発生する可能性を低減するためのツールを開発しています。この分野の研究は「AIの安全性」1と呼ばれ、AIシステムを安全かつ確実に動作させるための技術的ソリューションに焦点を当てています。AIシステムを安全に展開するためには、既存のネットワークにどのように統合するか、オペレーターをどのように訓練して効果的に作業させるかなど、他にも多くの課題があり、注目に値しますが、ここでは説明しません。
Problems in AI safety can be grouped into three categories: robustness, assurance, and specification. Robustness guarantees that a system continues to operate within safe limits even in unfamiliar settings; assurance seeks to establish that it can be analyzed and understood easily by human operators; and specification is concerned with ensuring that its behavior aligns with the system designer’s intentions.2  AIの安全性に関する問題は、ロバスト性、保証、要件の3つのカテゴリーに分類されます。ロバスト性は、不慣れな環境でもシステムが安全な範囲内で動作し続けることを保証し、保証は、人間のオペレータが容易に分析・理解できることを確立することを目的とし、要件は、システム設計者の意図に沿った動作を保証することを目的としています2。
Modern Machine Learning  現代の機械学習 
Machine learning methods are designed to learn patterns and associations from data.3 Typically, a machine learning method consists of a statistical model of the relationship between inputs and outputs (for example, the relationship between an audio recording and a text transcription of it) and a learning algorithm specifying how the model should change as it receives more information about this input–output relationship. The process of updating the model as more data is made available is called “training,” and recent advances in fundamental research and engineering have enabled efficient training of highly complex models from large amounts of data. Once trained successfully, a machine learning system can be used to make predictions (such as whether or not an image depicts an object or a human), to perform actions (such as autonomous navigation), or to generate synthetic data (such as images, videos, speech, and text).  機械学習法は、データからパターンや関連性を学習するように設計されています3。一般的に、機械学習法は、入力と出力の関係(例えば、音声記録とそれを転写したテキストの関係)を表す統計モデルと、この入力と出力の関係についてより多くの情報を得たときにモデルをどのように変化させるべきかを示す学習アルゴリズムで構成されています。データが増えたときにモデルを更新することを「学習」といいますが、近年の基礎研究や技術の進歩により、大量のデータから複雑なモデルを効率的に学習することができるようになりました。 機械学習システムは、いったん学習が成功すれば、画像に物体や人間が写っているかどうかなどの予測を行ったり、自律航行などの行動を行ったり、合成データ(画像、動画、音声、テキストなど)を生成したりするのに使用することができます。 
Many modern machine learning systems use deep neural networks—statistical models that can represent a wide range of complex associations and patterns and that work particularly well with large amounts of data. Examples of useful application areas for deep neural networks include image classification and sequential decision-making in autonomous systems, as well as text, speech, and image generation.  最近の機械学習システムの多くは、複雑な関連性やパターンを幅広く表現することができ、大量のデータを扱うのに適した統計モデルであるディープニューラルネットワークを使用しています。ディープニューラルネットワークの応用分野としては、画像の分類や自律システムにおける逐次的な意思決定、テキスト・音声・画像の生成などが挙げられます。
Machine learning systems derive associations and patterns from data rather than from a prespecified set of rules. As a result, these systems are only as good as the data they were trained on. While modern machine learning systems usually work remarkably well in settings similar to those encountered during training, they often fail in settings that are meaningfully different. For example, a deep neural network trained to classify images of cats and dogs in black and white is likely to succeed at classifying similar images of cats and dogs in color. However, it will not be able to correctly classify a fish if it has never encountered an image of one during training.  機械学習システムは、あらかじめ設定されたルールではなく、データから関連性やパターンを導き出します。そのため、機械学習システムの性能は、学習したデータに依存することになります。最近の機械学習システムは、学習時に遭遇したのと同じような環境では驚くほどうまく機能しますが、意味のある異なる環境では失敗することがよくあります。例えば、白黒の猫と犬の画像を分類するように訓練されたディープニューラルネットワークは、カラーの猫と犬の同様の画像を分類することに成功する可能性が高い。しかし、学習時に魚の画像に出会ったことがなければ、魚を正しく分類することはできません。
While machine learning systems do not use explicit rules to represent associations and patterns, they do use rules to update the model during training. These rules, also called “learning algorithms,” encode how the human designer of a machine learning system wants it to “learn” from data. For example, if the goal is to correctly classify images of cats and dogs, the learning algorithm should include a set of steps that update the model to gradually become better at classifying cats and dogs. This goal can be encoded in a learning algorithm in many ways, and it is the task of the human designer of such a system to do so.  機械学習システムでは、関連性やパターンを表現するために明示的なルールは使用しませんが、学習時にモデルを更新するためにルールを使用します。これらのルールは「学習アルゴリズム」とも呼ばれ、機械学習システムの設計者がデータからどのように「学習」させたいかをコード化したものです。例えば、猫と犬の画像を正しく分類することが目的であれば、学習アルゴリズムには、猫と犬の分類が徐々に上手になるようにモデルを更新する一連のステップが含まれていなければなりません。このような目標は、学習アルゴリズムに様々な形で組み込むことができますが、それを行うのはシステムを設計する人間の役目です。
Robustness  堅牢性 
In order to be reliable, a machine learning system must operate safely under a wide range of conditions. Building into the system the ability to quantify whether or not it is confident about a prediction may reduce the chance of failure in situations it is not well-prepared to handle. The system, upon recognizing it is in a setting it was not trained for, could then revert to a safe fallback option or alert a human operator.  機械学習システムの信頼性を高めるためには、様々な条件下で安全に動作することが必要です。予測に自信があるかどうかを定量的に把握できる機能をシステムに組み込むことで、十分な準備ができていない状況での失敗の可能性を減らすことができる。システムは、訓練されていない状況に置かれていることを認識すると、安全なフォールバックオプションに戻すか、人間のオペレーターに警告することができます。
Challenging inputs for machine learning systems can come in many shapes and guises, including situations a system may never have encountered before (as in the fish classification example above). Operating safely in such scenarios means that a system must, first, recognize that it has not been trained for such a situation and, second, have a way to act safely—for example, by notifying a human operator to intervene. An active area of research around this problem seeks to train machine learning models to estimate confidence levels in their predictions. These estimates, called predictive uncertainty estimates, would allow the system to alert a human operator if it encounters inputs meaningfully different from those it was trained on.  機械学習システムにとって挑戦的な入力は、システムがこれまでに遭遇したことのない状況(上記の魚の分類の例など)を含めて、さまざまな形や形態で現れます。このような状況でシステムを安全に動作させるためには、まず、システムがそのような状況に対応するように訓練されていないことを認識し、次に、例えば、人間のオペレータに介入するように通知するなど、安全に行動する方法を持たなければなりません。この問題に関する活発な研究分野では、機械学習モデルを訓練して、その予測の信頼性レベルを推定することが求められています。予測不確かさ推定値と呼ばれるこの推定値により、システムが学習したものと大きく異なる入力に遭遇した場合、人間のオペレーターに警告を発することができます。
Consider, for example, a machine learning system tasked to identify buildings in satellite imagery. If trained on satellite imagery of a certain region, the system learns to identify buildings that look similar to those in the training data. If, when deployed, it encounters an image of a building that looks meaningfully unlike anything it has seen during training, a robust system may or may not classify the image as showing a building, but would invariably alert a human operator about its uncertainty, prompting manual human review.  例えば、衛星画像から建物を識別する機械学習システムがあるとします。ある地域の衛星画像を使って学習すると、学習データと似たような建物を識別するようになります。展開された画像の中に、学習時に見たものとは明らかに異なる建物の画像があった場合、ロバストなシステムはその画像を建物として分類するかどうかは別として、必ずその不確実性について人間のオペレーターに警告を発し、人間による手作業での確認を促すことができます。
Assurance  保証 
To ensure the safety of a machine learning system, human operators must understand why the system behaves the way it does, and whether its behavior will adhere to the system designer’s expectations. A robust set of assurance techniques already exist for previous generations of computer systems. However, they are poorly suited to modern machine learning systems such as deep neural networks.  機械学習システムの安全性を確保するためには、人間のオペレータが、システムがなぜそのように振る舞うのか、その振る舞いがシステム設計者の期待通りなのかを理解していなければなりません。前世代のコンピュータシステムには、すでに強固な保証技術が存在しています。しかし、ディープニューラルネットワークのような最新の機械学習システムには適していません。
Interpretability (also sometimes called explainability) in AI refers to the study of how to understand the decisions of machine learning systems, and how to design systems whose decisions are easily understood, or interpretable. This way, human operators can ensure a system works as intended and, in the case of unexpected behavior, receive an explanation for said behavior.  AIにおける解釈可能性(説明可能性と呼ばれることもある)とは、機械学習システムの決定をどのように理解するか、決定が容易に理解できる、つまり解釈可能なシステムをどのように設計するかという研究を意味する。これにより、人間のオペレーターは、システムが意図された通りに動作することを確認し、予期しない動作があった場合には、その動作について説明を受けることができます。
It is worth noting that researchers and engineers working with and developing modern machine learning systems do understand the underlying mathematical operations inside so-called “black-box” models and how they lead from inputs to outputs. But this type of understanding is difficult to convert into typical human explanations for decisions or predictions—say, “I liked the house because of its large kitchen,” or “I knew that dog was a Dalmatian because it had spots.” Interpretability, then, seeks to understand how trained machine learning systems “reason”—that is, how certain types of inputs or input characteristics inform a trained system’s predictions. Some of the best tools we have for this so far include generating visualizations of the mathematical operations inside a machine learning system or indicating which input characteristics are most responsible for a model’s outputs.  最新の機械学習システムを開発している研究者やエンジニアは、いわゆる「ブラックボックス」モデルの基本的な数学的操作を理解しており、それがどのように入力から出力へとつながるかを理解しています。しかし、このような理解は、人間が判断や予測をする際の典型的な説明に変換することは困難です。例えば、「この家が気に入ったのは、キッチンが広かったからだ」とか、「あの犬がダルメシアンだとわかったのは、斑点があったからだ」とか。解釈可能性とは、学習した機械学習システムがどのように「推論」するのか、つまり、ある種の入力や入力の特性が、学習したシステムの予測にどのように影響するのかを理解することです。これまでに開発された最も優れたツールは、機械学習システム内の数学的操作を視覚化することや、モデルの出力に最も影響を与える入力特性を示すことなどです。
In high-stakes settings where humans interact with machine learning systems in real time, interpretability will be crucial in giving human operators the confidence to act on predictions obtained from such systems.  人間が機械学習システムをリアルタイムで操作するようなリスクの高い環境では、機械学習システムから得られた予測に基づいて行動する自信を人間のオペレーターに与えるために、解釈可能性が非常に重要になります。
Specification  要件
“Specification” of machine learning systems refers to defining a system’s goal in a way that ensures its behavior aligns with the human operator’s intentions. Machine learning systems follow a pre-specified algorithm to learn from data, enabling them to achieve a specific goal. Both the learning algorithm and the goal are usually provided by a human system designer. Examples of possible goals include minimizing a prediction error or maximizing a reward.  機械学習システムの「要件」とは、人間の意図に沿った動作を保証するために、システムの目標を定義することです。機械学習システムは、あらかじめ設定されたアルゴリズムに従ってデータを学習し、特定の目標を達成することができます。学習アルゴリズムとゴールは、通常、システム設計者が指定する。例えば、予測誤差の最小化や報酬の最大化などが挙げられます。
During training, a machine learning system will try to reach the given goal, regardless of how well it reflects the designer’s intent. Therefore, designers must take special care to specify an objective that will lead to the desired behavior. If the goal set by the system designer is a poor proxy for the intended behavior, the system will learn the wrong behavior and be considered “misspecified.” This outcome is likely in settings where the specified goal cannot fully capture the complexities of the desired behavior. Poor specification of a machine learning system’s goal can lead to safety hazards if a misspecified system is deployed in a high-stakes environment and does not operate as intended.  学習中、機械学習システムは、設計者の意図がどれだけ反映されているかに関わらず、与えられたゴールに到達しようとします。そのため、設計者は、望ましい動作につながるような目的を指定するように注意しなければなりません。設計者が設定したゴールが意図した動作の代用にならない場合、システムは間違った動作を学習してしまい、"ミススペック "とみなされます。このような結果は、指定されたゴールが望ましい動作の複雑さを完全には捉えられない設定の場合に起こりやすい。機械学習システムのゴールの要件が間違っていると、リスクの高い環境に誤った要件のシステムが配備され、意図した通りに動作しない場合、安全上の問題が発生する可能性があります。
Misspecification has already arisen as a problem in YouTube’s video recommendation algorithms. This algorithm was designed to optimize for engagement—the length of time a user spends watching videos—to maximize ad revenue. However, an unintended side effect manifested: To maximize viewing time, in some cases, the recommendation algorithm gradually steered users toward extremist content—including videos from white supremacist and other political and religious extremist channels— because it predicted these recommendations would cause the user to stay engaged longer. The extent of this phenomenon remains disputed, and YouTube has changed its algorithms since this issue first gained considerable attention. Yet the underlying idea—that optimizing for engagement could have unintended effects— demonstrates the hazards of goal misspecification.4   要件不備は、すでにYouTubeの動画推薦アルゴリズムで問題となっています。このアルゴリズムは、広告収入を最大化するために、ユーザの動画視聴時間(エンゲージメント)を最適化するように設計されています。しかし、意図しない副作用が発生してしまいました。視聴時間を最大化するために、推奨アルゴリズムは、白人至上主義者やその他の政治的・宗教的な過激派チャンネルの動画を含む過激なコンテンツにユーザを徐々に誘導する場合がありました。これは、推奨された方がユーザのエンゲージメントが長くなると予測されたからである。この現象がどの程度のものかはまだ議論の余地があり、YouTubeはこの問題が注目されてからアルゴリズムを変更しています。しかし,エンゲージメントの最適化が意図しない効果をもたらす可能性があるという基本的な考え方は,目標の誤設定の危険性を示しています4. 
Conclusion  結論 
Safety considerations must precede the deployment of modern machine learning systems in high-stakes settings. Robustness, assurance, and specification are key areas of AI safety that can guide the development of reliably safe machine learning systems. While all three are the subjects of active and ongoing research, it remains uncertain when we will be able to consider machine learning systems reliably safe.  最新の機械学習システムをハイステークスな環境で展開する際には、安全性を考慮する必要があります。堅牢性、保証、要件は、確実に安全な機械学習システムを開発するための指針となる、AIの安全性に関する重要な分野です。この3つの分野は現在進行形で研究されていますが、機械学習システムを確実に安全と見なすことができるようになるのはいつになるのかはまだ不明です。

|

« NISTIR 8310 (Draft) サイバーセキュリティフレームワーク(CSF) 選挙インフラのプロファイル | Main | GAO 連邦政府の財務諸表に監査意見を付与することができない・・・その理由は・・・ »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« NISTIR 8310 (Draft) サイバーセキュリティフレームワーク(CSF) 選挙インフラのプロファイル | Main | GAO 連邦政府の財務諸表に監査意見を付与することができない・・・その理由は・・・ »