こんにちは、丸山満彦です。
NISTが、NCCoEの過去の出版物を含むサイバーセキュリティ知識のリポジトリを使った検索拡張生成(retrieval-augmented generation: RAG)ベースのLLM技術のAI ChatBotを開発したようです。その際の、ツール開発に対する NCCoE のアプローチと、特定のセキュリティ課題に対する NCCoE の対応について概説し、その時点における検証を行った教訓(ドラフト)を公表していますね...
ざっとしか読んでいませんが、興味深いですね...
RAGの活用はこれからどの企業でも重要視されるでしょうから参考になることも多いかもしれませんね...ただ、あくまでも内部情報が正確で、適切であることが重要で、学習させるデータの内容が不適切なものが混じっていたりすると大変なことになりますよね...
● NIST - ITL
・2025.06.18 Developing the NCCoE Chatbot: Technical and Security Learnings from the Initial Implementation
| NIST IR 8579 (Initial Public Draft) Developing the NCCoE Chatbot: Technical and Security Learnings from the Initial Implementation |
NIST IR 8579 (初期公開ドラフト) NCCoE チャットボットの開発:初期導入から得た技術的およびセキュリティ上の教訓 |
| Announcement |
発表 |
| The NIST National Cybersecurity Center of Excellence (NCCoE) identified a potential application for a chatbot to support its mission and developed a secure, internal-use chatbot to assist NCCoE staff with discovering and summarizing cybersecurity guidelines tailored to specific audiences or use cases. |
NIST 国立サイバーセキュリティ・センター・オブ・エクセレンス (NCCoE) は、その使命を支援するチャットボットの潜在的な用途を特定し、NCCoE スタッフが特定のユーザーやユースケースに合わせたサイバーセキュリティガイドラインを発見、要約するのを支援する、安全な内部用チャットボットを開発した。 |
| The chatbot was built using retrieval-augmented generation (RAG)-based LLM technology. This approach combines techniques from information retrieval and natural language generation, enabling the chatbot to provide more focused, contextually relevant responses by leveraging a repository of cybersecurity knowledge, including previous NCCoE publications. Compared to search engines, LLM-based chatbots provide more contextually relevant and precise responses by understanding the nuances of natural language queries. |
このチャットボットは、検索拡張生成 (RAG) ベースの LLM 技術を使用して構築された。このアプローチは、情報検索と自然言語生成の技術を組み合わせたもので、チャットボットは、NCCoE の過去の出版物など、サイバーセキュリティに関する知識のレポジトリを活用することで、より的を絞った、文脈に即した応答を提供することができる。検索エンジンと比較すると、LLM ベースのチャットボットは、自然言語のクエリのニュアンスを理解することで、より文脈に即した、正確な応答を提供することができる。 |
| This report provides a point in time examination of the NCCoE Chatbot, outlining the NCCoE’s approach to developing the tool, as well as the NCCoE’s response to specific security challenges. In addition, this report provides an overview of the chatbot and its supporting technologies so that other organizations might consider the benefits of their use. |
このレポートでは、NCCoE チャットボットの現時点での検証結果、NCCoE によるツール開発のアプローチ、および特定のセキュリティ課題に対する NCCoE の対応について概要を説明する。さらに、他の組織がチャットボットとその支援技術の利用メリットを検討できるよう、チャットボットとその支援技術の概要も紹介する。 |
| Abstract |
要約 |
| Chatbots are emerging as alternative interfaces for structured information retrieval and internal knowledge access. Chatbots can utilize the capabilities of large language models (LLMs) to help interpret user-provided input and provide responses to a variety of requests. This paper describes the development of an LLM chatbot by the National Cybersecurity Center of Excellence (NCCoE) at NIST to enable internal search across its published cybersecurity guidance. The paper provides a point-in-time examination of the tool’s development process, including the architecture, the system configuration, and the NCCoE’s approach to addressing cybersecurity challenges throughout the design and deployment lifecycle. Specific attention is given to threats such as prompt injection, hallucinations, data exposure, and unauthorized access. The paper also discusses the mitigations applied, including local deployment, access controls, and validation filters. This paper is not intended to serve as implementation guidance. Instead, it documents technical decisions, observed limitations, and risk-informed safeguards that shaped the prototype. It provides an overview of the chatbot and its supporting technologies so that other organizations might consider the benefits of their use. |
チャットボットは、構造化された情報の検索や内部知識へのアクセスのための代替インターフェースとして台頭してきている。チャットボットは、大規模言語モデル(LLM)の機能を利用して、ユーザーからの入力を解釈し、さまざまな要求に対応することができる。本論文では、NIST の国立サイバーセキュリティ・センター・オブ・エクセレンス(NCCoE)が、公開しているサイバーセキュリティガイダンスの内部検索を可能にする LLM チャットボットの開発について紹介する。この論文では、アーキテクチャ、システム構成、設計および展開のライフサイクルを通じてサイバーセキュリティの課題に対処するための NCCoE のアプローチなど、ツールの開発プロセスをその時点での状況に基づいて検証している。プロンプト・インジェクション、幻覚(ハルシネーション)、データエクスポージャー、不正アクセスなどの脅威に特に注目している。また、ローカル展開、アクセス管理、妥当性確認フィルタなど、適用された緩和策についても説明している。この論文は、実装ガイダンスを目的としたものではない。むしろ、プロトタイプを形作った技術的な決定、観察された制限、およびリスク情報に基づく安全対策について記載したものだ。他の組織がチャットボットとその支援技術の利用メリットを検討できるように、チャットボットとその支援技術の概要を紹介している。 |
・[PDF] NIST.IR.8579.ipd

目次...
| 1. Introduction |
1. 序論 |
| 1.1. Project Overview |
1.1. プロジェクトの概要 |
| 1.2. Related Work |
1.2. 関連研究 |
| 2. Retrieval-Augmented Generation Technical Details |
2. 検索拡張生成の技術的詳細 |
| 2.1. The Foundation Mode |
2.1. 基礎モード |
| 2.2. Preprocessing External Data |
2.2. 外部データの事前処理 |
| 2.3. Creating an Index |
2.3. インデックスの作成 |
| 2.4. Retrieving Relevant Information |
2.4. 関連情報の検索 |
| 2.5. Querying the LLM |
2.5. LLM へのクエリ |
| 3. Implementation Details and Considerations |
3. 実装の詳細と考慮事項 |
| 3.1. Chatbot Configuration |
3.1. チャットボットの構成 |
| 3.1.1. Virtual/Physical Environment and Configuration |
3.1.1. 仮想/物理環境と構成 |
| 3.1.2. Preprocessing and Page-Level Citations |
3.1.2. 前処理とページレベルの引用 |
| 3.1.3. The Software Development Framework |
3.1.3. ソフトウェア開発フレームワーク |
| 3.1.4. The Embedding Function and Vector Database |
3.1.4. 埋め込み機能とベクトルデータベース |
| 3.1.5. The Foundation Model |
3.1.5. 基礎モデル |
| 3.2. Risk Mitigation and Discussion Around Threat Analysis |
3.2. リスクの緩和と脅威分析に関する考察 |
| 3.2.1. Hallucinations |
3.2.1. 幻覚 |
| 3.2.2. Threat Analysis |
3.2.2. 脅威分析 |
| 3.3. Deployment |
3.3. 展開 |
| 3.4. Testing and Evaluation |
3.4. テストと評価 |
| 3.5. Risks and Limitations |
3.5. リスクと制限 |
| 4. Comparison Against COTS Tools |
4. COTS ツールとの比較 |
| 5. Future Considerations |
5. 今後の検討事項 |
| 5.1. Future Considerations for Testing and Evaluation |
5.1. テストと評価に関する今後の検討事項 |
| References |
参考文献 |
| Appendix A. List of Symbols, Abbreviations, and Acronym |
附属書 A. 記号、略語、頭字語の一覧 |
Comments