« 欧州 EDPB 空港での顔認識:個人は生体データを最大限に管理すべきである (2024.05.24) | Main | Appleウォレットにマイナンバーカードを追加して、対面またはiOSのアプリ上で安全に提示できるように...来春の後半以降...ちょっと先 »

2024.05.31

米国 NIST AIの社会技術試験・評価を推進する新プログラム「AIのリスクと影響の評価 (ARIA)」を開始

こんにちは、丸山満彦です。

米国NISTが、AIの社会技術試験・評価を推進する新プログラム「AIのリスクと影響の評価 (ARIA)」を開始したと公表していますね... Ver. 0.1 (^^)

昨年の10月30日のAI大統領令がでて、連邦政府はいろいろと進んでいますね。。。まぁPresidentの命令ですからね...

 

ロードマップ...

Nist_ai_rmf_roadmap_figure

 

 

NIST

・2024.05.28 NIST Launches ARIA, a New Program to Advance Sociotechnical Testing and Evaluation for AI

NIST Launches ARIA, a New Program to Advance Sociotechnical Testing and Evaluation for AI NIST、AIの社会技術試験と評価を推進する新プログラム「ARIA」を開始
・NIST’s new Assessing Risks and Impacts of AI (ARIA) program will assess the societal risks and impacts of artificial intelligence systems (i.e., what happens when people interact with AI regularly in realistic settings). NISTの新しいアセスメント・プログラム(ARIA:Assessing Risks and Impacts of AI)は、人工知能システムの社会的リスクと影響(すなわち、現実的な環境で人々がAIと定期的に相互作用した場合に何が起こるか)を評価する。
・The program will help develop ways to quantify how a system functions within societal contexts once it is deployed. このプログラムは、システムが社会的文脈の中でどのように機能するかを定量化する方法の開発を支援する。
・ARIA’s results will support the U.S. AI Safety Institute’s testing to help build the foundation for trustworthy AI systems. ARIAの成果は、米国AI安全研究所のテストを支援し、信頼できるAIシステムの基盤構築を支援する。
The National Institute of Standards and Technology (NIST) is launching a new testing, evaluation, validation and verification (TEVV) program intended to help improve understanding of artificial intelligence’s capabilities and impacts.  国立標準技術研究所(NIST)は、人工知能の能力と影響に関する理解を深めることを目的とした新しい試験・評価・検証(TEVV)プログラムを開始する。
Assessing Risks and Impacts of AI (ARIA) aims to help organizations and individuals determine whether a given AI technology will be valid, reliable, safe, secure, private and fair once deployed. The program comes shortly after several recent announcements by NIST around the 180-day mark of the Executive Order on trustworthy AI and the U.S. AI Safety Institute’s unveiling of its strategic vision and international safety network. AIのリスクと影響のアセスメント(ARIA)は、あるAI技術が導入された後、有効で、信頼性があり、安全で、プライバシーが守られ、公正であるかどうかを、組織や個人が判断できるようにすることを目的としている。このプログラムは、信頼できるAIに関する大統領令の180日という節目にNISTが最近発表したいくつかの発表や、米国AI安全研究所が戦略的ビジョンと国際安全ネットワークを発表した直後に実施される。
“In order to fully understand the impacts AI is having and will have on our society, we need to test how AI functions in realistic scenarios — and that’s exactly what we’re doing with this program,” said U.S. Commerce Secretary Gina Raimondo. “With the ARIA program, and other efforts to support Commerce’s responsibilities under President Biden’s Executive Order on AI, NIST and the U.S. AI Safety Institute are pulling every lever when it comes to mitigating the risks and maximizing the benefits of AI.” 「AIが我々の社会に及ぼす影響、また今後及ぼすであろう影響を完全に理解するためには、現実的なシナリオでAIがどのように機能するかをテストする必要がある。「ARIAプログラムや、バイデン大統領のAIに関する大統領令に基づく商務省の責務を支援するその他の取り組みにより、NISTと米国AI安全研究所は、AIのリスクを軽減し、利益を最大化するために、あらゆる手段を講じている。
“The ARIA program is designed to meet real-world needs as the use of AI technology grows,” said Under Secretary of Commerce for Standards and Technology and NIST Director Laurie E. Locascio. “This new effort will support the U.S. AI Safety Institute, expand NIST’s already broad engagement with the research community, and help establish reliable methods for testing and evaluating AI’s functionality in the real world.” 「標準技術担当商務次官兼NIST長官のローリー・E・ロカシオ氏は、「ARIAプログラムは、AI技術の利用が拡大する中、現実世界のニーズに応えるように設計されている。「この新たな取り組みは、米国AI安全研究所を支援し、NISTの研究コミュニティとの既に幅広い関わりを拡大し、現実世界におけるAIの機能を試験・評価するための信頼できる機構の確立を支援するものである。
ARIA expands on the AI Risk Management Framework, which NIST released in January 2023, and helps to operationalize the framework’s risk measurement function, which recommends that quantitative and qualitative techniques be used to analyze and monitor AI risk and impacts. ARIA will help assess those risks and impacts by developing a new set of methodologies and metrics for quantifying how well a system maintains safe functionality within societal contexts. ARIAは、NISTが2023年1月に発表したAIリスクマネジメントフレームワークを拡張し、AIリスクと影響を分析・監視するために定量的・定性的手法を用いることを推奨する同フレームワークのリスク測定機能の運用化を支援する。ARIAは、社会的文脈の中でシステムがどの程度安全な機能を維持できるかを定量化するための新しい一連の方法論と評価基準を開発することで、こうしたリスクと影響の評価を支援する。
“Measuring impacts is about more than how well a model functions in a laboratory setting,” said Reva Schwartz, NIST Information Technology Lab’s ARIA program lead. “ARIA will consider AI beyond the model and assess systems in context, including what happens when people interact with AI technology in realistic settings under regular use. This gives a broader, more holistic view of the net effects of these technologies.” NIST情報技術研究所のARIAプログラムリーダーであるレバ・シュワルツ氏は、次のように述べている。「影響を測定することは、実験室でモデルがどれだけうまく機能するかということ以上のことである。ARIAは、モデルを超えてAIを考慮し、現実的な環境において人々がAIテクノロジーと相互作用したときに何が起こるかを含む、コンテクストにおけるシステムを評価する。これにより、これらの技術の正味の効果について、より広範で全体的な見解が得られる。」
The results of ARIA will support and inform NIST’s collective efforts, including through the U.S. AI Safety Institute, to build the foundation for safe, secure and trustworthy AI systems.  ARIAの結果は、安全、安心、信頼できるAIシステムの基盤を構築するため、米国AI安全研究所を含むNISTの総合的な取り組みを支援し、情報を提供する。

 

Assessing Risks and Impacts of AI

Assessing Risks and Impacts of AI AIのリスクと影響をアセスメントする
A compelling set of scenarios will aim to explore risks and related impacts across three levels of testing: model testing, red-teaming, and field testing. 魅力的な一連のシナリオは、モデルテスト、レッドチーム、フィールドテストという3つのレベルのテストを通じて、リスクと関連する影響を探ることを目的としている。
AI Challenge Problem Overview AIチャレンジ問題の概要
The latest in a portfolio of evaluations managed by the NIST Information Technology Laboratory – ARIA will assess models and systems submitted by technology developers from around the world. ARIA is an evaluation environment which is sector and task agnostic. NIST情報技術研究所が管理する評価ポートフォリオの最新版であるARIAは、世界中の技術開発者から提出されたモデルやシステムを評価する。ARIAは分野や課題にとらわれない評価環境である。
ARIA will support three evaluation levels: model testing, red-teaming, and field testing. ARIA is unique in that it will move beyond an emphasis on system performance and accuracy and produce measurements on technical and societal robustness. ARIAは、モデルテスト、レッドチーム、フィールドテストの3つの評価レベルをサポートする。ARIAがユニークなのは、システムの性能と精度に重点を置くだけでなく、技術的・社会的な堅牢性を測定する点である。
The program will result in guidelines, tools, methodologies, and metrics that organizations can use for evaluating the safety of their systems as part of their governance and decision-making processes to design, develop, release or use AI technology. ARIA will inform the work of the U.S. AI Safety Institute at NIST. このプログラムは、AI技術を設計、開発、リリース、使用するためのガバナンスと意思決定プロセスの一環として、組織がシステムの安全性を評価するために使用できるガイドライン、ツール、方法論、測定基準をもたらす。ARIAは、NISTの米国AI安全性研究所の活動を支援する。
ARIA 0.1 ARIA 0.1
The initial evaluation (ARIA 0.1) will be conducted as a pilot effort to fully exercise the NIST ARIA test environment. ARIA 0.1 will focus on risks and impacts associated with large language models (LLMs). Future iterations of ARIA may consider other types of generative AI technologies such as text-to-image models, or other forms of AI such as recommender systems or decision support tools. A compelling and exploratory set of tasks will aim to elicit pre-specified (and non-specified) risks and impacts across three levels of testing: model testing, red-teaming, and field testing. 初期評価(ARIA 0.1)は、NISTのARIAテスト環境を十分に活用するための試験的取り組みとして実施される。ARIA 0.1は、大規模言語モデル(LLM)に関連するリスクと影響に焦点を当てる。ARIAの将来の反復では、テキストから画像へのモデルなどの他のタイプの生成的AI技術や、推奨システムや意思決定支援ツールなどの他の形態のAIを検討する可能性がある。魅力的で探索的な一連のタスクは、モデルテスト、レッドチーム、フィールドテストの3つのレベルのテストを通じて、事前に指定された(そして指定されていない)リスクと影響を引き出すことを目的としている。

 

Learn more

・[PDF] ARIA_MoreInfo

20240530-173128

 

AI Evaluations: Assessing Risks and Impacts of AI AIの評価 AIのリスクと影響をアセスメントする 
For Release May 9, 2024  2024年5月9日リリース
Overview  概要 
ARIA (Assessing Risks and Impacts of AI) is a NIST evaluation program to advance measurement science for safe and trustworthy AI. Launched in spring 2024, ARIA aims to:  ARIA(Assessing Risks and Impacts of AI)は、安全で信頼できるAIのための計測科学を推進するNISTの評価プログラムである。2024年春に開始されたARIAの目的は以下の通りである: 
• address gaps in AI evaluation that make it difficult to generalize AI functionality to the real world  ・AIの機能を実世界に一般化することを困難にしているAI評価のギャップに対処する。
• improve understanding of AI's impacts to individuals and society, and   ・AIが個人や社会に与える影響の理解を改善する。
• provide participating organizations with crucial information about whether AI systems will be valid, reliable, safe, secure, private or fair once deployed.   ・AIシステムの有効性,信頼性,安全性,セキュリティ,プライベート性,公平性についての重要な情報を提供する。
NIST will engage the public through evaluations and related activities in a variety of domains under the ARIA umbrella. ARIA evaluations will include model testing, red-teaming, and field testing.  Tasks and related activities will be customized for each evaluation.   NISTは、ARIA傘下の様々な領域における評価や関連活動を通じて、一般市民の参加を促す。ARIA評価には、モデルテスト、レッドチーム、フィールドテストが含まれる。 タスクおよび関連活動は、各評価ごとにカスタマイズされる。 
Models and systems made available to NIST will be evaluated on ARIA tasks using a suite of metrics focused on technical and societal robustness; these new metrics will be developed in collaborative engagement with the ARIA participant community.  NISTに提供されるモデルやシステムは、技術的および社会的な堅牢性に焦点を当てた一連の評価基準を用いてARIAタスクで評価される。
Expected program outcomes include scalable guidelines, tools, methodologies, and metrics for organizations to use for evaluating the safety of their AI systems in their specific use cases, and as part of their governance and decision making processes to design, develop, release or use AI technology.  期待されるプログラムの成果には、特定のユースケースにおけるAIシステムの安全性を評価するために、またAI技術を設計、開発、リリース、使用するためのガバナンスや意思決定プロセスの一部として、組織が使用できるスケーラブルなガイドライン、ツール、方法論、メトリクスが含まれる。
ARIA 0.1 Pilot Evaluation  ARIA 0.1パイロット評価 
The initial evaluation (ARIA 0.1) will be conducted as a pilot effort to fully exercise the NIST ARIA test environment.  ARIA 0.1 will focus on risks and impacts associated with large language models (LLMs). Future iterations of ARIA may consider other types of generative AI technologies such as text-to-image models, or other forms of AI such as recommender systems or decision support tools.  初期評価(ARIA 0.1)は、NIST ARIAテスト環境を十分に活用するための試験的取り組みとして実施される。 ARIA 0.1は、大規模言語モデル(LLM)に関連するリスクと影響に焦点を当てる。ARIAの将来の反復では、テキストから画像へのモデルのような他のタイプの生成的AI技術や、推薦システムや意思決定支援ツールのような他の形態のAIを検討する可能性がある。
View the ARIA 0.1 Pilot Evaluation Plan at [PDF]
ARIA 0.1パイロット評価計画を[PDF]で見る。 
Those interested in learning more about ARIA can join the ARIA email distribution list by signing-up at https://ai-challenges.nist.gov/aria or emailing aria-inquires@nist.gov.   ARIAについてもっと知りたい方は、https://ai-challenges.nist.gov/aria にサインアップするか、aria-inquires@nist.gov に電子メールを送ることで、ARIA電子メール配信リストに参加することができる。 
ARIA Evaluation Levels  ARIAの評価レベル 
ARIA will incorporate societal impacts alongside functional testing of the system. Estimating a given technology’s impact in society requires a better understanding of what individuals and the broader society can and will do with – or how they adapt and react to – an AI model or system functionality. To this end, NIST will establish three measurement and evaluation levels for a more comprehensive approach. These are introduced below.   ARIAは、システムの機能テストと並行して、社会的影響を組み込む。ある技術が社会に与える影響を推定するには、個人やより広範な社会がAIモデルやシステム機能を使って何ができるのか、何をするのか、あるいはどのように適応し反応するのかをよりよく理解する必要がある。このため、NISTは、より包括的なアプローチのために、3つの測定・評価レベルを設定する。これらを以下に紹介する。 
1. Model testing to examine the AI model or system components’ functionality and capabilities.  1. AIモデルまたはシステムコンポーネントの機能と能力を検証するモデルテスト。
Model testing is the most common practice for evaluating the models and datasets underlying AI technology. Typical model testing involves comparing system outputs to expected or known outcomes (sometimes referred to as ground-truth) to determine how well the model can perform a given set of tasks. Demonstrating whether the model functions on these tasks as designed can shed light on how helpful or harmful the technology may be once deployed. This type of testing is easier to scale than red-teaming or field-testing but has limitations. Particularly when performed in laboratory settings, model testing cannot account for what humans expect from or how they interact with AI technology or make sense of AI-generated output. For estimating societal impact, static benchmark datasets serve only as loose proxies for dynamic human interactive behavior. These limitations make it difficult to understand or anticipate impacts once a model or system is deployed.   モデルテストは、AI技術の基礎となるモデルやデータセットを評価するための最も一般的な手法である。典型的なモデル・テストでは、システムの出力を期待される結果または既知の結果(グランド・トゥルースと呼ばれることもある)と比較し、モデルが与えられた一連のタスクをどの程度実行できるかを判断する。モデルがこれらのタスクで設計通りに機能するかどうかを実証することで、その技術が導入された後にどの程度役に立つか、あるいは有害かを明らかにすることができる。この種のテストは、レッドチームやフィールドテストよりも規模を拡大しやすいが、限界もある。特に実験室で実施する場合、モデルテストでは、人間がAI技術に何を期待し、どのようにAIと相互作用し、AIが生成的な出力を理解するのかを説明することができない。社会的インパクトを推定するためには、静的なベンチマークデータセットは、人間の動的な相互作用行動の緩やかな代理としてしか機能しない。これらの限界は、モデルやシステムが導入された後の影響を理解したり予測したりすることを難しくしている。 
2. Red-teaming to identify potential adverse outcomes of the AI model or system and how they could occur, and to stress test model safeguards.  2. レッドチームによる、AIモデルやシステムの潜在的な悪影響と、それがどのように発生しうるかを特定し、モデルのセーフガードをストレステストする。
For AI, red-teaming is a structured testing effort to find flaws and vulnerabilities in an AI system such as false, toxic, or discriminatory outputs in an AI system. Red teaming can be performed before or after AI models or systems are made available to the broader public. Complementary groups with diverse expertise can elicit different types of harms in AI red-teaming activities. Experts can emulate malicious behavior and surface narrow or targeted harms. Members of the general public can help to gather data en-masse for identifying systemic or diffuse harms. Red-teaming results can lead to remedies for harmful model functionality. However – similar to model testing – red-teaming cannot provide direct insights about whether such functionality is realized when people interact with AI systems in regular use.  AIの場合、レッドチームとは、AIシステムの虚偽、有害、差別的な出力など、AIシステムの欠陥や脆弱性を見つけるための構造化されたテストの取り組みである。レッドチームは、AIモデルやシステムが広く一般に公開される前でも後でも実施できる。多様な専門知識を持つ相補的なグループは、AIのレッドチーム活動において異なるタイプの危害を引き出すことができる。専門家は、悪意のある行動をエミュレートし、狭い範囲や標的を絞った危害を表面化させることができる。一般市民は、組織的または拡散的な危害を特定するために、大量のデータ収集に協力することができる。レッドチームの結果は、有害なモデル機能の改善策につながる可能性がある。しかし、モデルテストと同様に、レッドチームでは、人々がAIシステムを通常使用する際に、そのような機能が実現されているかどうかについての直接的な洞察を得ることはできない。
3. Large-scale field testing to help reveal how the public consumes and makes sense of AI-generated information in their regular interactions with technology, including subsequent actions and effects.   3. 大規模なフィールドテストは、その後の行動や効果を含め、一般大衆がテクノロジーとの日常的な相互作用の中で、どのようにAI生成的情報を消費し、理解するかを明らかにするのに役立つ。 
ARIA field testing may entail several thousands of human participants interacting with AI applications in realistic settings across multiple sessions under test or control conditions. This approach will enable evaluation of AI’s negative and positive impacts in the systems’ native context of use from a human perspective and enhance understanding of AI capabilities and impacts in postdeployment contexts. ARIA’s field testing is designed to help reveal what happens in people’s regular interactions with technology. When conducted alongside model testing and red-teaming, results from the large number of human interactions in field testing can reveal:   ARIAのフィールドテストでは、数千人の人間の参加者が、テストまたはコントロールの条件下で、複数のセッションにわたって、現実的な設定でAIアプリケーションと相互作用する。このアプローチにより、システム本来の使用状況におけるAIのネガティブな影響とポジティブな影響を人間の視点から評価し、配備後の状況におけるAIの能力と影響についての理解を深めることができる。ARIAのフィールドテストは、人々がテクノロジーと日常的に接する際に何が起きているかを明らかにすることを目的としている。モデルテストやレッドチームと並行して実施することで、フィールドテストにおける多数の人間とのインタラクションの結果を明らかにすることができる:  
● types of content and model functionality individuals were actually exposed to when interacting with the system;  ・システムとのインタラクションにおいて、個人が実際に接触したコンテンツやモデルの機能の種類; 
● whether, how often, and for whom the interaction contributed to a positive or negative impact;   ・そのインタラクションが、誰にとって、どのような頻度で、プラスに作用したのか、あるいはマイナスに作用したのか;  
ARIA Metrics  ARIAメトリクス 
Starting with the ARIA 0.1 pilot, evaluation output from all three levels will be annotated by professional assessors. Submitted models and systems will be evaluated using a suite of metrics focused on technical and societal robustness. Metrics will be developed in collaborative engagement with the ARIA research and participant community.   ARIA 0.1パイロット版から、3つのレベルすべてからの評価出力は、専門の評価者によって注釈が付けられる。提出されたモデルやシステムは、技術的および社会的な堅牢性に焦点を当てた一連の評価基準を用いて評価される。評価指標は、ARIAの研究および参加者コミュニティとの共同作業により開発される。 
NIST will also run a mini challenge within ARIA for additional development and refinement of societal impact metrics. NIST will provide output data from all three evaluation levels after the completion of the ARIA 0.1 pilot for the challenge, so the broader measurement community can:  NISTはまた、ARIA内でミニチャレンジを実施し、社会的影響評価指標のさらなる開発と改良を行う。NISTは、ARIA 0.1パイロットが完了した後、3つの評価レベルすべてから出力データを提供する: 
● pursue valid and generalizable societal impact metrics for the field of AI safety and trustworthiness;  ・AIの安全性と信頼性の分野において、有効で一般化可能な社会的影響評価指標を追求する; 
● inform other AI safety evaluation efforts; and  ・他のAIの安全性評価の取り組みに情報を提供する。
● establish a diverse measurement community that brings new perspectives to the development of innovative metrics in the field of safe and trustworthy AI. ・安全で信頼できるAIの分野における革新的な測定基準の開発に新たな視点をもたらす多様な測定コミュニティを確立する。

 

 

Assessing Risks and Impacts of AI

・2024.05.21 [PDF] ARIA 0.1 Draft Evaluation Plan

20240530-180529

・[PDF] ARIA FAQ

20240530-181046

仮対訳...

Frequently Asked Questions about NIST’s ARIA Program (Assessing Risks and Impacts of AI)  For Release May 9, 2024  NISTのARIAプログラム(AIのリスクと影響のアセスメント)に関するよくある質問 2024年5月9日リリース予定 
1. How does ARIA fit in with NIST's other evaluation programs?  1. ARIAはNISTの他の評価プログラムとどのような関係にあるのか?
As the Nation’s oldest measurement laboratory, NIST routinely employs evaluation-driven research to advance measurement science, inform and accelerate the development of emerging technologies, and drive innovation. ARIA (Assessing Risks and Impacts of AI) is a research effort to assist AI evaluators in improving their assessment methods. ARIA evaluations will fill in measurement gaps related to how technology integrates with society and creates impacts.   米国最古の計測研究所であるNISTは、計測科学を発展させ、新技術の開発に情報を提供し、その開発を加速させ、イノベーションを推進するために、評価主導の研究を日常的に採用している。ARIA(Assessing Risks and Impacts of AI)は、AI評価者の評価方法の改善を支援するための研究活動である。ARIAの評価は、技術がどのように社会と融合し、影響を生み出すかに関する測定のギャップを埋めるものである。 
2. How does ARIA connect to the US AI Safety Institute and consortium?  2. ARIAと米国AI安全性研究所やコンソーシアムとの関係は?
ARIA is a new internal NIST effort to develop a testing environment for advancing measurement science in Trustworthy AI. The ARIA effort will inform the work of the U.S. AI Safety Institute and over time, the U.S. AI Safety Institute Consortium may assist in enhancing and producing ARIAstyle evaluations at scale, useful for all industries.  ARIAは、Trustworthy AIにおける計測科学を発展させるための試験環境を開発するNIST内部の新しい取り組みである。ARIAの取り組みは、米国AI安全性研究所の活動に影響を与え、やがて、米国AI安全性研究所コンソーシアムは、すべての機構に有用なARIAスタイルの評価を強化し、大規模に生産することを支援する可能性がある。
3. Does ARIA fulfill one of NIST's assignments in the October 2023 AI Executive Order?  3. ARIAは、2023年10月のAI大統領令におけるNISTの任務の一つを果たしているか?
Yes. ARIA is one of several NIST evaluation initiatives that partially addresses NIST’s assignment under Section 4.1 (a)(i)(C) of the President’s Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence (14110) to launch an initiative to create guidance and benchmarks for evaluating and auditing AI capabilities.   そうである。ARIAは、安全、安心、信頼できる人工知能に関する大統領令(14110)の第4.1節(a)(i)(C)に基づき、AI能力を評価・監査するためのガイダンスとベンチマークを作成するイニシアチブを立ち上げるというNISTの課題に部分的に対応するNISTの評価イニシアチブの1つである。 
4. Does NIST select which systems to test?  4. NISTはテストするシステムを選定するのか?
No. For decades, NIST’s Information Technology Laboratory (ITL) has been conducting evaluation-driven research of algorithms and other system components in technology fields such as biometrics, multimedia, and information retrieval. As a neutral party, NIST does not select which systems to test, conduct product testing, or test any technology that has not been submitted by the owning entity. ITL evaluations remain open to any researcher, team, or interested party who finds it of interest, are able to submit their technology applications for measurement, and can comply with the evaluation rules.   NISTの情報技術研究所(ITL)は何十年もの間、バイオメトリクス、マルチメディア、情報検索などの技術分野において、アルゴリズムやその他のシステム・コンポーネントの評価主導型研究を実施してきた。中立的な立場であるNISTは、どのシステムをテストするかを選択したり、製品テストを実施したり、事業体から提出されていない技術をテストしたりすることはない。ITL評価には、研究者、チーム、利害関係者など、関心を持ち、測定のための技術アプリケーションを提出でき、評価規則を遵守できる者であれば誰でも参加できる。 
NIST-run evaluations are designed to be widely accessible and utilize a set of common tasks, data, metrics, and measurement methods to reduce the total overhead necessary to conduct research, assess current state of the art, and identify the most promising research directions. For more information about NIST AI technology evaluations, see  NISTが実施する評価は、広くアクセスできるように設計されており、研究を実施するために必要なオーバーヘッドを削減し、技術の現状を評価し、最も有望な研究の方向性を特定するために、一連の共通タスク、データ、メトリクス、測定方法を利用する。NISTのAI技術評価の詳細については、以下を参照のこと。
[web]
[web]
5. Is NIST evaluating models or approaches in ARIA?  5. NISTはARIAのモデルやアプローチを評価しているのか?
Both. The first ARIA activities will focus on risks and impacts associated with large language models (LLM), including the use of AI agents. The risks and impacts of LLMs will be evaluated across three levels – model testing, red-teaming, and field testing.  両方である。最初のARIA活動は、AIエージェントの使用を含む大規模言語モデル(LLM)に関連するリスクと影響に焦点を当てる。LLMのリスクと影響は、モデルテスト、レッドチーム、フィールドテストの3つのレベルで評価される。
As an evaluation of safe and trustworthy AI, submitting organizations will be required to provide documentation about their models, approaches, mitigations, and guardrails, along with information about their governance processes. In future evaluations, documentation requirements may be expanded and constitute part of the final score.     安全で信頼できるAIの評価として、プロバイダは、ガバナンス・プロセスに関する情報とともに、モデル、アプローチ、低減、ガードレールに関する文書を提出することが求められる。将来の評価では、文書化要件は拡大され、最終スコアの一部を構成する可能性がある。   
6. Will all ARIA evaluations be limited to generative AI?  6. すべてのARIA評価は生成的AIに限定されるのか?
While the first set of ARIA activities will focus on risks related to the generative AI technology of LLMs, the ARIA evaluation environment is flexible and future iterations will broaden beyond generative AI. ARIA participant community and other researchers can provide input on future evaluation topics, domains, and technologies. For example, subsequent ARIA evaluations may consider other generative AI technologies such as text-to-image models, or other forms of AI such as recommender systems or decision support tools.  ARIAの最初の活動では、LLMの生成的AI技術に関連するリスクに焦点を当てるが、ARIAの評価環境は柔軟であり、将来的には生成的AI以外にも拡大する。ARIAの参加者コミュニティや他の研究者は、将来の評価テーマ、ドメイン、技術について意見を提供することができる。例えば、今後のARIA評価では、テキストから画像へのモデルのような他の生成的AI技術や、レコメンダー・システムや意思決定支援ツールのような他の形態のAIが検討されるかもしれない。
7. What metrics will NIST use in the ARIA evaluation?  7. NISTはARIA評価にどのような評価指標を用いるのか?
ARIA will originate a suite of qualitative, quantitative, and mixed methods to measure risks, impacts, trustworthy characteristics, and technical and societal robustness of models within the specified context of use. NIST will develop these metrics in close collaboration with ARIA participants. Selected ARIA evaluation output data will be made available as a rich corpus for research purposes, including the development of novel metrics for use in ARIA.   ARIAは、リスク、影響、信頼できる特性、特定された使用状況におけるモデルの技術的・社会的頑健性を測定するために、一連の定性的、定量的、混合的な手法を開発する。NISTは、ARIA参加者と緊密に協力してこれらの評価指標を開発する。選択されたARIA評価出力データは、ARIAで使用するための新しい評価指標の開発を含む研究目的のために、豊富なコーパスとして利用できるようにする。 
8. Why would vendors participate in ARIA?  8. なぜベンダーはARIAに参加するのか?
NIST evaluations provide all participants with the opportunity to obtain vital information about their submitted technology components, make adjustments based on what they learned, and resubmit for further testing. While many organizations evaluate their technology internally, involvement in NIST evaluations allows all participants to determine what is working with their models, often in comparison to other organizations on the same tests, with the same data, and under the same conditions. While the ARIA evaluations are open to all who wish to participate, the evaluation cycle typically concludes with a participant-only workshop to discuss information about new and promising approaches that may assist submitters’ understanding about how they might improve their models. Teams participating in ARIA can expect to glean information during testing and the workshop(s) that will help deliver safe and trustworthy AI.  NISTの評価は、すべての参加者に、提出した技術コンポーネントに関する重要な情報を入手し、学んだことに基づいて調整を行い、さらなるテストのために再提出を行う機会を提供する。多くの組織が内部で技術を評価しているが、NISTの評価に参加することで、すべての参加者が、同じテスト、同じデータ、同じ条件下で、他の組織と比較しながら、自分たちのモデルで何がうまくいっているかを判断することができる。ARIAの評価は、参加を希望するすべての人に開かれているが、評価サイクルは通常、参加者限定のワークショップで締めくくられ、モデルの改善方法について提出者の理解を助けるような、新しい有望なアプローチに関する情報を議論する。ARIAに参加するチームは、テストやワークショップを通じて、安全で信頼できるAIの提供に役立つ情報を得ることができる。
9. Will results be made public? Are results anonymous?  9. 結果は公開されるのか?結果は匿名か?
NIST evaluation results are made publicly available. The level of information to be made public is predetermined for each evaluation. ARIA participants may decide to anonymize their submissions so that each team only knows how they performed in comparison to others. Even when results are not tied to a particular participating organization, the public will have access to the specific results of all technologies which have been evaluated. That information is valuable in gaining an understanding of how these technologies perform in a real-world context. NISTの評価結果は公開される。公開される情報のレベルは、評価ごとにあらかじめ決められている。ARIAの参加者は、各チームが他のチームと比較してどのような結果を出したかだけを知ることができるように、提出書類の匿名化を決定することができる。結果が特定の参加団体と結びつけられていない場合でも、一般市民は評価されたすべての技術の具体的な結果にアクセスすることができる。その情報は、これらの技術が現実の世界でどのように機能するかを理解する上で貴重である。

 

 

 

● Trustworthy & Responsible AI Resource Center

・[PDF] AI Risk Management Framework (RMF)

20240530-181903

・・[DOCX] 仮訳

 

・[PDF] AI RMF Playbook

20240530-182112

 

 


 

 

● まるちゃんの情報セキュリティ気まぐれ日記

・2023.10.31 米国 人工知能の安全、安心、信頼できる開発と利用に関する大統領令

・2023.01.27 NIST AIリスクフレームワーク

・2022.08.24 NIST 意見募集 AIリスクマネジメントフレームワーク(第2ドラフト)とそのプレイブック

・2022.03.22 NIST 意見募集 AIリスクマネジメントフレームワーク(初期ドラフト)

 

 

|

« 欧州 EDPB 空港での顔認識:個人は生体データを最大限に管理すべきである (2024.05.24) | Main | Appleウォレットにマイナンバーカードを追加して、対面またはiOSのアプリ上で安全に提示できるように...来春の後半以降...ちょっと先 »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« 欧州 EDPB 空港での顔認識:個人は生体データを最大限に管理すべきである (2024.05.24) | Main | Appleウォレットにマイナンバーカードを追加して、対面またはiOSのアプリ上で安全に提示できるように...来春の後半以降...ちょっと先 »