« OECD デジタル政府レビュー :トルコ | Main | 研究開発戦略センター 研究開発の俯瞰報告書(2023年) »

2023.05.19

ドイツ BSI 大規模AI言語モデル - 産業界と公的機関の可能性とリスク (2023.05.10)

こんにちは、丸山満彦です。

各国で生成型AIとの付き合い方の模索が続いている感じですね。。。それぞれの機関が生成型AIの取扱説明書のようなものを作成していますね。。

 

Bundesamt für Sicherheit in der Informationstechnik: BSI

・2023.05.10 BSI informiert über Chancen und Risiken von KI-Sprachmodellen

 

BSI informiert über Chancen und Risiken von KI-Sprachmodellen BSI、AI言語モデルの可能性とリスクについて情報提供
19. Deutscher IT-Sicherheitskongress eröffnet 第19回ドイツITセキュリティ会議が開幕
Große KI-Sprachmodelle, so genannte Large Language Models (LLMs), sind in der öffentlichen Diskussion omnipräsent. Insbesondere die Ankündigung und Veröffentlichung von Modellen wie ChatGPT haben KI-Sprachmodelle schnell bekannt gemacht. Im Rahmen des 19. Deutschen IT-Sicherheitskongresses hat das Bundesamt für Sicherheit in der Informationstechnik (BSI) ein Positionspapier veröffentlicht, in dem es über Stärken, Schwächen und Risiken von KI-Sprachmodellen informiert – sowie über geeignete Vorsichtsmaßnahmen. 大規模なAI言語モデル(LLM)は、世間での議論に遍く登場します。特に、ChatGPTなどのモデルの発表・公開により、AI言語モデルの知名度は一気に高まりました。第19回ドイツITセキュリティ会議の一環として、連邦情報セキュリティ局(BSI)はポジションペーパーを発表し、AI言語モデルの強み、弱み、リスク、および適切な予防措置に関する情報を提供する。
Der Deutsche IT-Sicherheitskongress bietet ein Forum für Politik, Wirtschaft und Wissenschaft, um über aktuelle Themen und Entwicklungen der Cyber-Sicherheit zu diskutieren. Mit einem Grußwort von Bundesinnenministerin Nancy Faeser wurde die digitale Veranstaltung für die über 8.000 Teilnehmenden eröffnet. Sie verfolgen Fachvorträge, die Themen wie Digitale Signaturen, Threat Intelligence, Kryptografie, sichere IT-Infrastrukturen oder die Cyber-Resilienz von Staat, Wirtschaft und Gesellschaft miteinander verbinden und intensiv beleuchten. ドイツITセキュリティ会議は、政治、ビジネス、科学がサイバーセキュリティの最新のトピックと開発について議論する場を提供する。このデジタルイベントは、ナンシー・フェーザー連邦内務大臣による歓迎の挨拶で、8,000人を超える参加者のために開かれた。参加者は、デジタル署名、脅威インテリジェンス、暗号、安全なITインフラ、国家・経済・社会のサイバーレジリエンスなどのトピックを組み合わせ、集中的に照らし出す専門家のプレゼンテーションに続く。
BSI-Vizepräsident Dr. Gerhard Schabhüser: „In Sachen IT-Sicherheit können KI-Sprachmodelle sich als nützliche Werkzeuge erweisen. Sie können beim Erkennen von Spam oder Phishing-Mails hilfreich sein oder beim Aufspüren unerwünschter Inhalte wie Fake News oder Hate Speech auf Social-Media-Plattformen. In gleichem Maße bergen KI-Modelle aber auch Risiken: Bereits jetzt wird im Darknet über den geeigneten Einsatz von KI zu Erstellung von Schadcode und Phishing-Mails diskutiert. Und: KI-gestützte Sprachmodelle eignen sich leider sehr gut zur Erstellung und Verbreitung von Falschinformationen. Dagegen müssen wir jetzt aktiv werden und unsere Gesellschaft für den Umgang mit KI schulen!“ BSI副社長 Dr Gerhard Schabhüser:「ITセキュリティの観点から、AI言語モデルは有用なツールであることを証明することができる。スパムメールやフィッシングメールを認識したり、ソーシャルメディアプラットフォーム上のフェイクニュースやヘイトスピーチなどの望ましくないコンテンツを検出したりするのに役立つ。しかし、同じ程度に、AIモデルにはリスクも潜んでいる: ダークネットでは、悪意のあるコードやフィッシングメールを作成するためにAIを適切に使用することについて、すでに議論が行われている。また、AIがサポートする言語モデルは、残念ながら偽情報の作成と拡散に非常に適している。今すぐ対策を講じ、AIに対応できる社会を育成しなければならない!"
Manipulierte Bilder, Videos und Sprachausgaben sind nach Einschätzung des BSI Risiken, denen mit geeigneten Vorsichtsmaßnahmen begegnet werden sollte. So kann z. B. die Authentizität von Texten und Nachrichten durch Verschlüsselungsverfahren nachgewiesen werden, mit denen man ihre Urheberschaft technisch belegen kann. Von besonderer Bedeutung ist die Aufklärung der Nutzenden über die Fähigkeiten Künstlicher Intelligenz. Durch die sprachlich oftmals fehlerfreie Textgenerierung entsteht bei Nutzerinnen und Nutzern von KI-Sprachmodellen häufig der Eindruck eines menschenähnlichen Leistungsvermögens und damit ein zu großes Vertrauen in die KI-generierten Inhalte. Dafür zu sensibilisieren ist eine wichtige Maßnahme. Eine entsprechende Handreichung für Verbraucherinnen und Verbraucher wird das BSI in Kürze veröffentlichen. BSIによれば、操作された画像、動画、音声出力は、適切な予防策で対抗すべきリスクであるとしている。例えば、テキストやメッセージの真偽は、暗号化手法によって技術的に証明することが可能である。特に重要なのは、人工知能の能力に関する利用者の教育である。言語的にエラーがないことが多いテキスト生成のため、AI言語モデルのユーザーは、人間のような性能という印象を持ち、その結果、AIが生成したコンテンツを過剰に信頼してしまうことがある。このことに対する認識を高めることが重要な対策となる。BSIは近々、消費者向けに対応する配布資料を発行する予定である。
Unternehmen oder Behörden, die über die Integration von LLMs in ihre Arbeitsabläufe nachdenken, sollten darüber hinaus eine Risikoanalyse für ihren konkreten Anwendungsfall durchführen und die im Positionspapier genannten Risiken dahingehend evaluieren, ob diese für ihre Arbeitsabläufe eine Gefahr darstellen. Darauf aufbauend sollten existierende Sicherheitsmaßnahmen angepasst werden. Grundsätzlich sollten KI-Sprachmodelle aus Sicht des BSI derzeit als Werkzeuge betrachtet werden, deren Ergebnisse, etwa bei der Erstellung von Programmcode oder Texten, durch eine menschliche Intelligenz überprüft werden sollten.* また、LLMをワークフローに組み込むことを検討している企業や当局は、特定のユースケースについてリスク分析を行い、ポジションペーパーで言及されているリスクがワークフローに脅威を与えるかどうかを評価する必要がある。これに基づき、既存のセキュリティ対策を適応させるべきである。原則的に、BSIの観点では、AI言語モデルは現在、プログラムコードやテキストの作成などにおいて、その結果を人間の知性によってチェックされるべきツールとみなされるべきである*。


・[PDF] Große KI-Sprachmodelle - Chancen und Risiken für Industrie und Behörden

20230519-55310

 

目次的なもの...

1 Einleitung  1 はじめに 
Definition von großen KI-Sprachmodellen  大規模AI言語モデルの定義 
Ziel und Zielgruppen des Dokuments  本書の目的・対象者 
Aufbau des Dokuments  本書の構成 
Disclaimer  免責事項 
2 Hintergrund und Einordnung von LLMs  2 LLM の背景と分類 
2.1 Fähigkeiten  2.1 能力 
2.2 Anwendungsgebiete  2.2 応用分野 
2.3 Erklärbarkeit  2.3 説明可能性
3 Chancen und Risiken von LLMs  3 LLMの可能性とリスク 
3.1 Chancen für die IT-Sicherheit  3.1 ITセキュリティに関わる機会 
Unterstützung bei der Detektion unerwünschter Inhalte  不要なコンテンツの検出を支援する 
Unterstützung bei der Textverarbeitung  テキスト処理への対応 
Unterstützung bei der Erstellung und Analyse von Programmcode  プログラムコードの作成・解析支援 
Unterstützung bei der Analyse von Datenverkehr  データトラフィックの解析支援 
3.2 Risiken bei der Nutzung von LLMs und Gegenmaßnahmen  3.2 LLMの利用におけるリスクと対策 
3.2.1 Risiken  3.2.1 リスク 
Fehlende Faktizität und Reproduzierbarkeit  事実性・再現性の欠如 
Fehlende Sicherheit von generiertem Code  生成されたコードの安全性の欠如 
Fehlende Aktualität  適時性の欠如 
Fehlerhafte Reaktion auf spezifische Eingaben  特定の入力に対する誤った反応 
Anfälligkeit für "versteckte" Eingaben mit manipulativer Absicht  操作意図のある「隠された」入力に対する脆弱性 
Vertraulichkeit der eingegebenen Daten  入力されたデータの機密性 
Abhängigkeit vom Hersteller/ Betreiber des Modells  モデルの製造者/運用者への依存度 
3.2.2 Gegenmaßnahmen  3.2.2 対処法 
3.3 Missbrauchsszenarien und Gegenmaßnahmen  3.3 悪用のシナリオと対策 
3.3.1 Missbrauchsszenarien  3.3.1 悪用のシナリオ 
Social Engineering  ソーシャル・エンジニアリング 
Generierung und Ausführung von Malware  マルウェアの生成と実行 
Hoax (Falschmeldung)  デマ(虚偽報告) 
3.3.2 Gegenmaßnahmen  3.3.2 対処法 
3.3.2.1 Allgemeine Maßnahmen  3.3.2.1 一般的な対策 
3.3.2.2 Maßnahmen auf Ebene des Modells  3.3.2.2 モデルのレベルでの対策 
3.3.2.3 Maßnahmen zur Detektion maschinengeschriebener Texte  3.3.2.3 タイプされたテキストを検出するための対策 
3.4 Risiken und Herausforderungen bei der Entwicklung sicherer LLMs  3.4 安全な LLM の開発におけるリスクと課題 
3.4.1 Datenqualität bei der Auswahl von Trainingsdaten  3.4.1 訓練データの選択におけるデータ品質 
3.4.2 Angriffe auf LLMs und spezifische Gegenmaßnahmen  3.4.2 LLMへの攻撃と具体的な対策 
Privacy Attacks  プライバシーに関する攻撃 
Adversarial Attacks und Indirect Prompt Injections  敵対的攻撃と間接的プロンプトインジェクション 
Poisoning Attacks  ポイズニング攻撃 
4 Zusammenfassung  4 まとめ 

 


 

⚫︎ まるちゃんの情報セキュリティ気まぐれ日記

・2023.05.19 ドイツ BSI 大規模AI言語モデル - 産業界と公的機関の可能性とリスク (2023.05.10)

・2023.05.18 フランス CNIL 人工知能に対する行動計画

・2023.05.15 欧州 CERT-EU 生成型AIの潜在的な影響とリスク

・2023.05.10 ロシア 科学技術センター 大規模言語モデル:認知的な視点

・2023.04.05 英国 ICO ブログ 生成型人工知能:開発者とユーザーが問うべき8つの質問...

・2023.03.30 欧州 ユーロポール ChatGPTの犯罪利用-大規模言語モデルに関する注意事項

 


 

 

仮対訳...

 

Große KI-Sprachmodelle - Chancen und Risiken für Industrie und Behörden
大規模AI言語モデル - 産業界と公的機関のチャンスとリスク
Executive Summary  エグゼクティブサマリー 
Große KI-Sprachmodelle sind Computerprogramme, die in der Lage sind, natürliche Sprache in geschriebener Form automatisiert zu verarbeiten. Potenziell können solche Modelle in einer Vielzahl von Anwendungsfällen, in denen Text verarbeitet werden soll, genutzt werden und stellen somit eine Chance für die Digitalisierung dar. Andererseits birgt die Verwendung von großen KI-Sprachmodellen neuartige ITSicherheitsrisiken und verstärkt das Bedrohungspotenzial einiger bekannter IT-Sicherheitsbedrohungen. Dazu zählt insbesondere das Missbrauchspotenzial, das von solchen Modellen durch Generierung von Spam-/ Phishing-Mails oder Schadsoftware ausgeht.  大規模なAI言語モデルは、自然言語を自動で処理することができるコンピュータプログラムである。このようなモデルは、テキストを処理する幅広いユースケースで使用できるため、デジタル化の機会となる可能性がある。一方、大規模なAI言語モデルの使用は、新しいタイプのITセキュリティリスクを引き起こし、いくつかの既知のITセキュリティ脅威の脅威の可能性を増加させる。特に、スパム/フィッシングメールやマルウェアの生成を通じて、こうしたモデルが悪用される可能性がある。
Als Reaktion auf diese Bedrohungspotenziale sollten Unternehmen oder Behörden vor der Integration von großen KI-Sprachmodellen in ihre Arbeitsabläufe eine Risikoanalyse für die Verwendung in ihrem konkreten Anwendungsfall durchführen. Daneben sollten sie Missbrauchsszenarien dahingehend evaluieren, ob diese für ihre Arbeitsabläufe eine Gefahr darstellen. Darauf aufbauend können existierende Sicherheitsmaßnahmen angepasst und gegebenenfalls neue Maßnahmen ergriffen werden sowie Nutzende über die potenziellen Gefahren aufgeklärt werden.  これらの潜在的な脅威に対応するため、企業や公的機関は、ワークフローに組み込む前に、特定のアプリケーションにおける大規模なAI言語モデルの使用に関するリスク分析を実施する必要がある。また、誤用シナリオを評価し、ワークフローに脅威をもたらすかどうかを判断する必要がある。これに基づいて、既存のセキュリティ対策を適応させ、必要に応じて新たな対策を講じ、潜在的な危険性についてユーザーに知らせることができる。
Inhalt  目次
1        Einleitung  1 はじめに 
2        Hintergrund und Einordnung von LLMs  2 LLMの背景と分類 
2.1          Fähigkeiten  2.1 能力 
2.2          Anwendungsgebiete  2.2 応用分野 
2.3          Erklärbarkeit  2.3 説明可能性 
3        Chancen und Risiken von LLMs 3 LLMの可能性とリスク
3.1          Chancen für die IT-Sicherheit 3.1 ITセキュリティに関わる機会
3.2          Risiken bei der Nutzung von LLMs und Gegenmaßnahmen  3.2 LLMの利用におけるリスクと対策 
3.2.1       Risiken 3.2.1 リスク
3.2.2       Gegenmaßnahmen 3.2.2 対処法
3.3          Missbrauchsszenarien und Gegenmaßnahmen 3.3 悪用のシナリオと対策
3.3.1       Missbrauchsszenarien 3.3.1 悪用のシナリオ
3.3.2       Gegenmaßnahmen 3.3.2 対処法
3.4          Risiken und Herausforderungen bei der Entwicklung sicherer LLMs 3.4 安全なLLMの開発におけるリスクと課題
3.4.1       Datenqualität bei der Auswahl von Trainingsdaten 3.4.1 訓練データの選択におけるデータ品質
3.4.2       Angriffe auf LLMs und spezifische Gegenmaßnahmen 3.4.2 LLMへの攻撃と具体的対策
4        Zusammenfassung  4 まとめ 
Literaturverzeichnis 参考文献
1 Einleitung  1 はじめに 
Seit Dezember 2022 sind große KI-Sprachmodelle in Zeitungen, Sozialen Medien und anderen Informationsquellen omnipräsent. Insbesondere die Ankündigung und Veröffentlichung von Modellen, die teilweise frei verfügbar sind, haben zu einem rasanten Anstieg hinsichtlich der Popularität und der Nutzung von großen KI-Sprachmodellen geführt. Dabei beeindruckt die hohe Qualität der von einer KI generierten Texte selbst Fachleute. Gleichzeitig werden intensive Diskussionen über Anwendungsgebiete der neuen Technologie sowie die aus ihr resultierenden Gefahren geführt. Das BSI zeigt in diesem Dokument die aktuellen Risiken und Bedrohungen von großen KI-Sprachmodellen für die IT-Sicherheit auf, um ein Bewusstsein für diese Aspekte bei Behörden und Unternehmen zu schaffen, die über den Einsatz dieser Modelle in ihren Arbeitsabläufen nachdenken. Auch Entwickelnde von großen KI-Sprachmodellen finden Anhaltspunkte zu den genannten Themen. Zudem werden Möglichkeiten dargestellt, wie diesen Bedrohungen begegnet werden kann.  2022年12月以降、大型のAI言語モデルが新聞やソーシャルメディアなどの情報源に遍在するようになった。特に、モデルの発表や公開、中には自由に利用できるものもあり、大規模AI言語モデルの普及や利用が急速に進んでいる。専門家も、AIが生成した文章の質の高さに感心している。同時に、この新しい技術の応用分野や、そこから生じる危険性についても、激しい議論が行われている。この文書では、BSIが、ITセキュリティにおける大規模AI言語モデルの現在のリスクと脅威を強調し、ワークフローにおけるこれらのモデルの使用を検討している当局や企業の間で、これらの側面に関する認識を高めることを目的としている。また、大規模AI言語モデルの開発者は、言及された問題への手がかりを見つけることができる。さらに、これらの脅威にどのように対抗できるのか、その可能性を提示する。
Definition von großen KI-Sprachmodellen  大規模AI言語モデルの定義 
Unter dem Begriff große KI-Sprachmodelle (engl. large language models - LLMs) soll im Rahmen dieses Dokuments Software verstanden werden, die natürliche Sprache in schriftlicher Form auf der Basis von maschinellem Lernen verarbeitet und Ausgaben ebenfalls als Text präsentiert. Es sind allerdings auch akustische oder Bildeingaben denkbar, da diese inzwischen in vielen Fällen nahezu fehlerlos in Text konvertiert werden können. Auch akustische Sprachausgaben könnten in Zukunft kaum mehr von menschlichen Stimmen unterscheidbar sein. Einige LLMs werden bereits zu sogenannten multi-modalen Modellen, die z.B. neben Text auch Bilder verarbeiten und/oder produzieren können, erweitert. Eine explizite Betrachtung dieser Modelle erfolgt in diesem Dokument nicht. Die modernsten LLMs sind mit großen Datenmengen trainiert und können Texte produzieren, die oft nicht ohne Weiteres von menschengeschriebenen Texten zu unterscheiden sind. Szenarien, in denen LLMs verwendet werden können, sind zum Beispiel Chatbots, Frage-Antwort-Systeme oder automatische Übersetzungen (2.2).  本書では、大規模言語モデル(LLM)という用語を、機械学習に基づいて文章形式の自然言語を処理し、また出力を文章として提示するソフトウェアを指すものとして使用する。しかし、現在では多くの場合、ほぼ完璧にテキストに変換できるため、音声や画像の入力も考えられる。将来的には、人間の声と見分けがつかないような音声を出力することも可能である。LLMの中には、テキストに加えて画像も処理・生成できるような、いわゆるマルチモーダルモデルに拡張されたものもすでにある。本書では、このようなモデルについての明確な考察は行わない。最新のLLMは大量のデータで学習され、人間が書いたテキストと容易に区別できないようなテキストを生成できることが多い。LLMの利用シーンとしては、チャットボット、質問応答システム、自動翻訳などがある(2.2)。
Ziel und Zielgruppen des Dokuments  本書の目的・想定読者
Diese Informationen richten sich sowohl an Unternehmen und Behörden als auch an Entwickelnde, die sich grundsätzlich über Chancen und Risiken bei der Entwicklung, dem Einsatz und/ oder der Nutzung von LLMs informieren möchten. Eine Kurzzusammenfassung des Dokuments, die sich primär an Verbraucherinnen und Verbraucher richtet, wird zudem parallel zu diesem Dokument veröffentlicht.  本資料は、LLMの開発・導入・活用の機会やリスクについて知りたい企業や公的機関、開発者を対象としている。また、主に消費者を対象とした本書の簡単な要約も、本書と並行して発行している。
Ziel dieses Dokuments ist es, die wichtigsten aktuellen Bedrohungen in Bezug auf LLMs darzustellen und die damit einhergehenden Risiken für die zuvor genannten Zielgruppen aufzuzeigen. Der Fokus liegt hierbei vor allem auf dem Bereich der IT-Sicherheit, die durch die Nutzung von LLMs beeinträchtigt werden kann. Dadurch soll das Bewusstsein für mögliche Risiken bei der Verwendung oder Entwicklung von LLMs geschaffen und gestärkt werden.  この文書の目的は、LLMに関連する現在の最も重要な脅威を提示し、前述のターゲットグループにとっての関連リスクを強調することである。ここでは主に、LLMの利用によって影響を受ける可能性のあるITセキュリティの分野に焦点をあてている。これは、LLMの利用または開発に関連する可能性のあるリスクに対する認識を深め、強化することを目的としている。
Aufbau des Dokuments  本書の構成 
In Kapitel 2 werden zunächst die generellen Fähigkeiten und Anwendungsgebiete von LLMs beschrieben und zudem ein kurzer Exkurs zum Thema Erklärbarkeit der Modelle durchgeführt. Anschließend erfolgt in Kapitel 3 eine nähere Betrachtung von Chancen und Risiken der Modelle. Dabei werden verschiedene Aspekte angesprochen:  第2章では、まずLLMの一般的な機能と適用分野について説明し、さらにモデルの説明可能性について簡単に触れている。続いて第3章では、LLMの可能性とリスクについて詳しく解説している。様々な側面が扱われている: 
•     Beschreibung der Sicherheitsbedrohungen im Allgemeinen, aber auch im Konkreten für Nutzende sowie Entwickelnde,  ・一般的なセキュリティ脅威の説明だけでなく、ユーザーや開発者のための具体的な用語での説明、 
•     Einordnung der Relevanz durch Beschreibung möglicher Szenarien, in denen die Sicherheitsbedrohungen relevant sein können,  ・セキュリティの脅威が関連する可能性のあるシナリオを説明することで、関連性を分類する、 
•     Maßnahmen, die zur Verminderung der jeweiligen Sicherheitsbedrohung ergriffen werden können.  ・それぞれのセキュリティ脅威を軽減するために講じることができる対策。
Disclaimer  免責事項 
Diese Zusammenstellung erhebt keinen Anspruch auf Vollständigkeit. Das Dokument dient dazu, ein Bewusstsein für die Risiken zu schaffen und mögliche Maßnahmen zu deren Verminderung darzustellen. Es kann somit Grundlage für eine systematische Risikoanalyse sein, die vor dem Einsatz oder der Zurverfügungstellung von LLMs durchgeführt werden sollte. Hierbei werden nicht alle Aspekte in jedem Anwendungsfall relevant sein und die individuelle Risikobewertung und -akzeptanz wird je nach Anwendungsszenario und Nutzerkreis variieren.  本書は、網羅的であることを主張するものではない。本書は、リスクに対する認識を高め、リスクを軽減するための可能な手段を提示するものである。したがって、LLMを使用または利用可能にする前に実施されるべき体系的なリスク分析の基礎となり得るものである。すべてのユースケースであるべての側面が関連するわけではなく、個々のリスク評価と受容は、使用シナリオとユーザーグループによって異なる。
Im diesem Dokument werden unter anderem "Privacy Attacks" thematisiert. Dieser Begriff hat sich in der KI-Literatur als Standard für Angriffe etabliert, bei denen sensible Trainingsdaten rekonstruiert werden. Diese müssen jedoch nicht, anders als der Begriff vielleicht suggeriert, einen Personenbezug haben und können beispielsweise auch Firmengeheimnisse oder ähnliches darstellen. Es ist zu beachten, dass das BSI keine Aussagen zu Datenschutzaspekten im eigentlichen Sinne trifft.  特に、「プライバシー攻撃」については、この文書で取り上げている。この用語は、機密性の高い学習データを再構築する攻撃の基準として、AIの文献に定着している。しかし、この用語が示唆するものとは異なり、これらは個人的な参照である必要はなく、例えば企業秘密などを表すことも可能である。なお、BSIは厳密な意味でのデータ保護の側面については一切言及していない。
2 Hintergrund und Einordnung von LLMs  2 LLM の背景と分類 
2.1 Fähigkeiten  2.1 能力 
LLMs generieren für Problemstellungen, die als natürlichsprachiger Text formuliert sind, in vielen Fällen korrekte Antworten. Die Aufgaben können dabei in verschiedenen Themenbereichen liegen, nicht nur im Bereich der Sprachverarbeitung im engeren Sinne z.B. zur Erzeugung und Übersetzung belletristischer Texte oder der Textzusammenfassung, sondern auch in Bereichen wie der Mathematik, Informatik, Geschichte, Jura oder Medizin[1]. Diese Fähigkeit eines einzelnen KI-Modells, passende Antworten in verschiedenen Themenbereichen zu generieren, ist eine entscheidende Innovation der LLMs.  LLMは、自然言語テキストとして定式化された問題に対して、多くの場合、正しい答えを生成する。その課題は、小説の文章生成や翻訳、文章の要約など、狭義の言語処理分野だけでなく、数学、コンピュータサイエンス、歴史、法律、医学など、様々な分野の課題である[1]。このように、1つのAIモデルが異なる対象領域で適切な回答を生成する能力は、LLMの重要なイノベーションである。
2.2 Anwendungsgebiete  2.2 応用分野 
LLMs sind in der Lage, eine Vielzahl von Text-basierten Aufgaben zu bearbeiten, und können daher vielfältig in Bereichen eingesetzt werden, in welchen eine (teil-)automatisierte Textverarbeitung und/ oder  -produktion stattfinden soll. Hierzu zählen beispielsweise:  LLMは、テキストベースのタスクを幅広く処理できるため、(部分的に)自動化されたテキスト処理および/または生産が行われる分野において、さまざまな方法で使用することができる。例えば、以下のようなものがある: 
•     Textgenerierung  ・テキスト生成
•     Verfassen eines ersten Entwurfs für ein formales Dokument (z.B. Einladung, Forschungsantrag, Satzung etc.)  ・正式な文書(例:招待状、研究提案書、法令など)の最初のドラフトを書く。
•     Verfassen von Texten in einem bestimmten Schreibstil (z.B. einer bestimmten Person oder mit bestimmter emotionaler Färbung)  ・特定の文体で文章を作成する(例:特定の人物や特定の感情的色彩を持つ人物)
•     Werkzeuge zur Textfortführung oder Textvervollständigung  ・テキストの継続やテキスト補完のためのツール
•     Textbearbeitung  ・テキスト編集
•     Rechtschreib- und Grammatikprüfung  ・スペルチェックと文法チェック
•     Paraphrasierung  ・パラフレーズ(言い換え)機能 
•     Textverarbeitung  ・テキスト処理
•     Wort- und Textklassifikation  ・単語やテキストの分類
•     Stimmungsanalyse  ・センチメント分析
•     Entitätenextraktion (Markierung von Begriffen im Text und Zuordnung zu deren Klasse: z.B. München → Ort; BSI → Institution)  ・エンティティ抽出(テキスト中の用語をマークし、そのクラスに割り当てる:例:ミュンヘン→場所、BSI→機関)。
•     Textzusammenfassung  ・テキスト要約
•     Frage-Antwort-Systeme  ・質問応答システム
•     Übersetzung  ・翻訳
•     Programmcode  ・プログラミングコード
•     Werkzeuge zur Unterstützung beim Programmieren (z.B. durch Vorschläge zur Vervollständigung, Fehlerhinweise, etc.)  ・プログラミングを支援するツール(例:完了のための提案、エラーノートなどによる)。
•     Erzeugen von Programmcode zu einer in natürlicher Sprache verfassten Aufgabe  ・自然言語で書かれたタスクのプログラムコードを生成する。
•     Umprogrammierung und Übersetzung eines Programms in andere Programmiersprachen  ・プログラムの再プログラミングと他のプログラミング言語への翻訳
2.3 Erklärbarkeit  2.3 説明可能性
Unter Erklärbarkeit verstehen wir im Folgenden ein Forschungsgebiet in allen Anwendungsbereichen von KI, welches sich unter anderem damit beschäftigt, transparent zu machen, warum bzw. wie ein KI-Modell zu seiner Ausgabe kommt. Erklärbarkeit kann so zu einem größeren Vertrauen der Nutzenden in die Ausgabe eines Modells führen und ermöglicht zudem, technische Anpassungen an einem Modell gezielter vorzunehmen (Danilevsky, et al., 2020). Zusätzlich zu der eigentlichen Ausgabe des Modells wird dabei oft eine Erklärung ausgegeben; dies kann z.B. in textueller Form oder mit visueller Unterstützung erfolgen. Ein beliebtes Vorgehen für LLMs ist es, relevante Wörter der Eingabe hervorzuheben, die maßgeblich zur Generierung der Ausgabe beigetragen haben (Danilevsky, et al., 2020).   以下では、説明可能性を、AIのすべての応用分野における研究分野と理解し、特に、AIモデルがその出力に到達する理由や方法を透明化することに関係するものとする。説明可能性は、モデルの出力に対するユーザーの信頼を高め、また、より的を絞った方法でモデルに技術的な調整を加えることを可能にします(Danilevsky, et al.、2020)。モデルの実際の出力に加えて、説明が提供されることが多い。これは、例えば、テキスト形式であったり、視覚的なサポートであったりする。LLMの一般的なアプローチは、出力の生成に役立った入力の関連語を強調することである(Danilevsky, et al., 2020)。 
Gerade in Bereichen, in denen Entscheidungen weitreichende Folgen haben können, ist die Erklärung der Ausgabe eines LLM wünschenswert. Dazu gehören beispielsweise Anwendungen aus folgenden Bereichen:  特に、決定が遠大な結果をもたらす可能性のある領域では、LLMの出力を説明することが望まれる。これには、例えば、以下の領域からの応用が含まれる: 
•     Gesundheit (z.B. Entscheidungen über Behandlungsmethoden)  ・健康(例:治療方法に関する意思決定)。
•     Finanzen (z.B. Entscheidungen über Kreditvergabe)  ・金融(例:融資に関する決定など)
•     Justiz (z.B. Entscheidungen über Bewährungsmöglichkeiten)  ・司法(例:仮釈放の選択肢に関する意思決定など)
•     Personal (z.B. Entscheidungen über Bewerbungen)  ・人事(例:求人応募に関する意思決定)。
Andere potenziell kritische Anwendungsgebiete sind beispielsweise solche, die voraussichtlich im Sinne der KI-Verordnung der EU (Europäische Kommission, 2021) als Hochrisiko-KI-Systeme eingestuft werden.  その他、潜在的に重要なアプリケーション分野としては、例えば、EU AI Regulation(欧州委員会、2021年)の観点から、ハイリスクなAIシステムに分類される可能性が高いものがある。
Neben der erwähnten Möglichkeit, Werkzeuge zur Kennzeichnung relevanter Wörter der Eingabe zu verwenden, kann dem Problem fehlender Erklärbarkeit bereits durch die Auswahl eines geeigneten Modells begegnet werden. Besonders in kritischen Bereichen sollte die Verwendung eines LLM für den jeweiligen Anwendungszweck kritisch hinterfragt werden; gegebenenfalls lässt sich der Anwendungsfall beispielsweise auch durch ein einfacheres direkt interpretierbares Modell (z.B. Entscheidungsbaum) statt mit einem LLM mit Black-Box-Charakter angehen. Des Weiteren gibt es für verschiedene Anwendungsfälle Möglichkeiten, Modelle mit höherer Erklärbarkeit zu wählen. In Frage-Antwort-Systemen z.B. können extraktive Ansätze, also Modelle, die Antwortmarkierungen im Text mit Originalquelle vornehmen, statt generativer Ansätze gewählt werden. Im Kontext von Textfortführungen wiederum kann ein gewisses Maß an Erklärbarkeit erzeugt werden, indem nicht nur die eigentliche Ausgabe zur Verfügung gestellt wird, sondern auch die besten Alternativen mit ihrer jeweiligen Wahrscheinlichkeit. Daneben gibt es die Möglichkeit, Modelle z.B. in Suchmaschinen zu integrieren, die Quellenangaben liefern, die anschließend überprüft werden können.  前述の、入力の関連語をラベル付けするツールを使用する可能性に加え、説明可能性の欠如の問題は、適切なモデルを選択することで既に対策することができる。特に重要な分野では、LLMをそれぞれの用途に使用することを批判的に検討する必要がある。必要であれば、ブラックボックス化したLLMではなく、よりシンプルで直接解釈可能なモデル(決定木など)で対処することも可能である。さらに、様々なユースケースにおいて、より高い説明力を持つモデルを選択する可能性もある。例えば、質問応答システムでは、生成的アプローチではなく、抽出的アプローチ、つまり、オリジナルのソースでテキストに回答マークを付けるモデルを選択することができる。一方、テキスト継続の文脈では、実際の出力だけでなく、最良の選択肢とそれぞれの確率を提供することで、ある程度の説明可能性を生成することができる。さらに、検索エンジンのように、ソース情報を提供し、その後に確認できるようなモデルを統合することも可能である。
3 Chancen und Risiken von LLMs  3 LLMの可能性とリスク 
In diesem Kapitel werden zunächst die Chancen für die IT-Sicherheit, die sich durch die Nutzung von LLMs ergeben, dargestellt (3.1).  本章では、まず、LLMの利用から生じるITセキュリティの機会を提示する(3.1)。
Anschließend werden verschiedene Sicherheitsrisiken beleuchtet, die im Rahmen der Entwicklung und Nutzung von LLMs auftreten können. Hierbei werden zunächst solche Risiken betrachtet, welche die Verwendung von LLMs aus der Nutzerperspektive betreffen (3.2). Daraufhin werden Risiken beschrieben, mit denen Personen im privaten oder beruflichen Umfeld konfrontiert werden können, weil LLMs missbräuchlich eingesetzt werden (3.3). In einem letzten Abschnitt werden Risiken erläutert, die im Rahmen der Entwicklung von LLMs betrachtet werden sollten (3.4). Hier werden explizit Aspekte beleuchtet, auf die Einfluss genommen werden kann, wenn Entwickelnde Zugriff auf ein LLM und den zugehörigen Trainingsprozess haben.  続いて、LLMの開発及び使用の文脈で生じ得る様々なセキュリティ・リスクについて検討する。まず、ユーザーの視点からLLMの利用に影響を与えるそれらのリスクを検討する(3.2)。続いて、LLMが悪用されることによって、人々が私生活や職業生活で直面する可能性のあるリスクについて説明する(3.3)。最後のセクションでは、LLMの開発において考慮すべきリスクについて説明する(3.4)。このセクションでは、開発者がLLMにアクセスする際に影響を受ける可能性のある側面と、関連する訓練プロセスを明示的に取り上げている。
Zu den jeweiligen Sicherheitsrisiken werden Maßnahmen dargestellt, die zur Minderung des Risikos beitragen können.  各セキュリティリスクについて、そのリスクを軽減するのに役立つ対策を示す。
3.1 Chancen für die IT-Sicherheit  3.1 ITセキュリティに関わる機会 
Unterstützung bei der Detektion unerwünschter Inhalte  不要なコンテンツの検出を支援する 
Einige LLMs sind gut für Textklassifikationsaufgaben geeignet. Dadurch ergeben sich beispielsweise Anwendungsmöglichkeiten im Bereich der Detektion von Spam-/ Phishing-Mails (Yaseen, et al., 2021) oder unerwünschter Inhalte (z.B. Fake News (Aggarwal, et al., 2020) oder Hate Speech (Mozafari, et al., 2019)) in Sozialen Medien. Mit einer Spezialisierung auf die Aufgabe der Detektion geht allerdings in der Regel einher, dass sich diese Modelle - ggf. mit einigen technischen Anpassungen - auch gut für die Produktion entsprechender Texte eignen (3.3.1) (Zellers, et al., 2019).  LLMの中には、テキスト分類のタスクに適しているものがある。これにより、例えば、スパム/フィッシングメール検出(Yaseen, et al., 2021)やソーシャルメディア上の不要コンテンツ(フェイクニュース(Aggarwal, et al., 2020)やヘイトスピーチ(Mozafari, et al., 2019)などといった分野での応用機会が開かれる。しかし、検出のタスクに特化することは、通常、これらのモデルが対応するテキストの作成にも適しているという事実を伴う-おそらくいくつかの技術的な適応(3.3.1)を伴う(Zellers, et al., 2019)。
Unterstützung bei der Textverarbeitung  テキスト処理への対応 
Durch ihre Anwendungsmöglichkeiten im Bereich der Textanalyse, -zusammenfassung und  -strukturierung sind LLMs geeignet, in Anwendungsfällen zu unterstützen, bei denen größere Mengen an Text verarbeitet werden müssen. Im Bereich der IT-Sicherheit ergeben sich solche Anwendungsmöglichkeiten beispielsweise bei der Berichtserstellung zu Sicherheitsvorfällen.  テキスト分析、要約、構造化の分野での応用可能性から、LLMは、大量のテキストを処理する必要があるユースケースでのサポートに適している。ITセキュリティの分野では、セキュリティインシデントに関する報告書の作成などに応用されている。
Unterstützung bei der Erstellung und Analyse von Programmcode  プログラムコードの作成・解析支援 
LLMs können dazu eingesetzt werden, vorhandenen Code auf bekannte Sicherheitslücken zu untersuchen, diese verbal zu erläutern und Wege zur Ausnutzung dieser Schwächen für Angriffe oder zur Codeverbesserung vorzuschlagen. Sie können somit zukünftig einen Beitrag zur Verbesserung der Codesicherheit leisten.  LLMは、既存のコードにセキュリティ上の脆弱性がないか調べ、口頭で説明し、その脆弱性を利用した攻撃やコード改良の方法を提案するために利用できる。その結果、将来的にコードのセキュリティを向上させることに貢献することができる。
Zudem können LLMs bei der Erstellung von Code unterstützen. Experimentelle Evaluationen zeigen, dass sich die Qualität der Ausgaben in diesem Bereich mit der Weiterentwicklung der Modelle verbessert hat (Bubeck, et al., 2023). Allerdings ist die Anfälligkeit dieses Codes für bekannte und unbekannte Sicherheitslücken nicht auszuschließen (vgl. 3.2.1).   さらに、LLMはコードの作成を支援することができる。実験的な評価では、この分野のアウトプットの品質は、モデルの進化とともに向上している(Bubeck, et al.、2023)。しかし、このコードが既知および未知のセキュリティ上の脆弱性を持つことは否定できない(3.2.1参照)。 
Unterstützung bei der Analyse von Datenverkehr  データトラフィックの解析支援 
Aufgrund der Vielzahl an unterschiedlichen Textdaten, die LLMs während ihres Trainings verarbeitet haben, können sie gegebenenfalls nach zusätzlichem Training auch bei Aufgaben unterstützen, bei denen Daten verarbeitet werden sollen, die zwar im Textformat vorliegen, aber nicht natürlichsprachiger Text im engeren Sinne sind. Im Bereich der IT-Sicherheit sind mögliche Aufgaben z.B. die Detektion von bösartigem Netzwerk-Verkehr (Han, et al., 2020) oder die Erkennung von Anomalien in Systemlogs (Lee, et al., 2021) (Almodovar, et al., 2022).  LLMは訓練中に様々なテキストデータを処理してきたため、追加の訓練を受けた後、テキスト形式ではあるが厳密な意味での自然言語テキストではないデータの処理を含むタスクを支援することができるかもしれない。ITセキュリティの分野では、悪意のあるネットワークトラフィックの検出(Han, et al., 2020)やシステムログの異常の検出(Lee, et al., 2021)(Almodovar, et al., 2022)などのタスクが考えられる。
3.2 Risiken bei der Nutzung von LLMs und Gegenmaßnahmen  3.2 LLMの利用におけるリスクと対策 
3.2.1 Risiken  3.2.1 リスク 
Da LLMs in der Regel sprachlich fehlerfreien und inhaltlich überzeugenden Text generieren, entsteht bei Nutzenden schnell der Eindruck eines menschenähnlichen Leistungsvermögens eines Modells (automation bias) und damit ein zu großes Vertrauen in die Aussagen, die es generiert, sowie in seine generellen Fähigkeiten. Dadurch sind Nutzende anfällig dafür, falsche Schlüsse aus den generierten Texten zu ziehen, was kritisch sein kann, da diese, wie im Folgenden beschrieben, aufgrund verschiedener Schwächen von LLMs fehlerhaft sein können.  LLMは一般的に言語的に間違いがなく、説得力のある文章を生成するため、ユーザーはすぐにモデルが人間のようなパフォーマンスを発揮できるという印象を持ち(自動化バイアス)、その結果、モデルが生成する文章やその一般的な能力に対して過度の信頼を持ってしまう。このため、ユーザーは生成されたテキストから誤った結論を導きやすく、以下に述べるようなLLMの様々な弱点によって欠陥が生じる可能性があるため、致命的となる。
Fehlende Faktizität und Reproduzierbarkeit  事実性・再現性の欠如 
Generative LLMs sind darauf trainiert, Text auf Basis stochastischer Korrelationen zu generieren. Dadurch ist technisch nicht garantiert, dass dieser faktisch korrekt ist. Dieses potenzielle Erfinden von Inhalten wird auch als "Halluzinieren" des Modells bezeichnet. Darin zeigt sich unter anderem, dass ein LLM zwar mit Sprache umgehen kann, sein "Wissen" jedoch aus (bereits gesehenen) Texten ableitet. Bezüge zur realen Welt existieren für das Modell nicht; entsprechend kann es zu Sachverhalten, die für Menschen absolut selbstverständlich sind, gegebenenfalls inkorrekte Aussagen treffen.  生成型LLMは、確率的な相関関係に基づいてテキストを生成するように訓練されている。これは技術的に、事実的に正しいことを保証するものではない。このようなコンテンツの潜在的な発明は、モデルの「幻覚化」とも呼ばれる。これは特に、LLMが言語を扱うことはできるが、その「知識」は(すでに見た)テキストから得られるということを示すものである。そのため、人間にとっては自明の事実であっても、モデルにとっては現実世界に対する参照が存在せず、誤った発言をすることがある。
Des Weiteren können Ausgaben von LLMs zu derselben Eingabe aufgrund des wahrscheinlichkeitsbasierten Ansatzes in der Regel unterschiedlich sein. Dies kann ebenfalls als Indiz dafür interpretiert werden, dass inhaltliche Korrektheit nicht notwendigerweise gegeben sein muss.  さらに、確率論的なアプローチにより、同じ入力に対するLLMの出力は通常、異なることがある。これは、内容の正しさは必ずしも与える必要がないことを示すものとも解釈できる。
Fehlende Sicherheit von generiertem Code  生成されたコードの安全性の欠如 
LLMs, die auch auf Daten trainiert wurden, die Programmcode enthalten, können diesen ebenso generieren. Da Programmcode, der zum Training von LLMs verwendet wurde, gegebenenfalls anfällig für bekannte Sicherheitslücken ist, kann auch der generierte Code diese Anfälligkeiten aufweisen (Pearce, et al., 2022). Naturgemäß kann der generierte Programmcode auch für bisher unbekannte Sicherheitslücken anfällig sein.  プログラムコードを含むデータで訓練されたLLMは、プログラムコードも生成することができる。LLMを訓練するために使用されるプログラムコードは、既知のセキュリティの脆弱性を持つ可能性があるため、生成されたコードもこれらの脆弱性を持つ可能性がある(Pearce, et al.、2022)。また、その性質上、生成されたプログラムコードは、これまで知られていなかった脆弱性を持つ可能性もある。
Fehlende Aktualität  適時性の欠如 
Haben LLMs keinen Zugriff auf Live-Internetdaten (ausgenommen sind hier also z.B. Modelle, die im Rahmen von Suchmaschinen verwendet werden), liegen ihnen außerdem keine Informationen über aktuelle Ereignisse vor. Wie bereits erwähnt leiten LLMs ihre stochastischen Korrelationen aus den Texten, die sie als Trainingsdaten während des Trainings verarbeitet haben, ab. Da es sich dabei um Texte aus der Vergangenheit handelt, ist es unmöglich, dass LLMs ohne den Zugang zu aktuellen Daten faktische Informationen zu aktuellen Geschehnissen liefern können. Zu beachten ist jedoch, dass LLMs in der Regel auf entsprechende Eingaben hin durch Halluzinieren erfundene Aussagen zu aktuellen Ereignissen generieren können. Diese können aufgrund der sprachlichen Formulierung auf den ersten Blick sachlich fundiert erscheinen, insbesondere, wenn Publikationen oder andere Referenzen Teil der Antwort sind, die aber ggf. falsch oder erfunden sind.  さらに、LLMが生きたインターネットデータ(例えば、検索エンジンの文脈で使用されるモデルを除く)にアクセスできなければ、時事に関する情報を持つことはできない。すでに述べたように、LLMは学習時に学習データとして処理したテキストから確率的相関を導出する。LLMは、学習時に学習データとして処理したテキストから確率的相関を導き出すが、これは過去のテキストであるため、現在のデータにアクセスできないLLMは、現在の出来事に関する事実情報を提供することは不可能である。しかし、LLMは通常、幻覚を見ることによって、適切な入力に応答して、現在の出来事に関する創作文を生成することができることに留意されたい。これらは、言語的な定式化により、一見すると事実に基づいているように見えるが、特に出版物やその他の参考文献が反応の一部となっている場合、虚偽または創作である可能性がある。
Fehlerhafte Reaktion auf spezifische Eingaben  特定の入力に対する誤った反応 
LLMs produzieren zudem häufig fehlerhafte Ausgaben, wenn sie Eingaben erhalten, die so stark von den Texten in den Trainingsdaten abweichen, dass das Modell diese nicht mehr korrekt als Text bzw. Wörter verarbeiten kann. Diese Eingaben können unabsichtlich von einem Nutzenden produziert werden (z.B. Texte mit vielen Rechtschreibfehlern oder mit viel Fachvokabular/ Fremdwörtern, Texte in dem Modell unbekannten Sprachen), aber auch die absichtliche Täuschung eines Modells durch Nutzende ist denkbar (z.B. um Mechanismen zur Detektion von unerwünschten Inhalten in Sozialen Medien zu umgehen). Auch bei Eingaben, die das LLM nicht korrekt verarbeiten kann, wird es in der Regel durch Halluzinieren beliebige Ausgaben generieren (vgl. 3.4.2 Adversarial Attacks).  LLMは、学習データのテキストと大きく異なる入力を受け取った場合にも、誤った出力を出すことがよくあり、モデルがそれをテキストや単語として正しく処理することができなくなる。このような入力は、ユーザーが意図せずに出したもの(スペルミスの多い文章や専門用語・外国語の多い文章、モデルにとって未知の言語の文章など)もあるが、ユーザーが意図的にモデルを欺くことも考えられます(ソーシャルメディア上の好ましくないコンテンツを検出するメカニズムを回避するためなど)。LLMが正しく処理できない入力の場合でも、通常は幻覚を見ることで任意の出力を生成する(3.4.2 逆境攻撃参照)。
Anfälligkeit für "versteckte" Eingaben mit manipulativer Absicht  操作意図のある「隠された」入力に対する脆弱性 
Ein besonderes Sicherheitsrisiko kann auch auftreten, wenn es Angreifenden gelingt, für Nutzende unbemerkt Eingaben in ein LLM einzubringen. Dies betrifft insbesondere LLMs, die im Betrieb auf LiveDaten aus dem Internet zugreifen (z.B. Chatbots mit Suchmaschinenfunktion oder als Browserfunktion zur Unterstützung der Sichtung einer Webseite), aber auch Modelle, die als Input ungeprüfte Dokumente Dritter erhalten. Angreifende können auf Webseiten oder in Dokumenten Anweisungen an das LLM unterbringen, ohne dass Nutzende dies bemerken, und so zum Beispiel den weiteren Gesprächsverlauf zwischen den Nutzenden und dem LLM manipulieren. Ziel kann es z.B. sein, persönliche Daten von Nutzenden herauszufinden oder sie dazu zu bewegen, auf einen Link zu klicken.  攻撃者がユーザーに気づかれないようにLLMに入力を導入する場合にも、特定のセキュリティリスクが発生する可能性がある。これは特に、操作中にインターネットからライブデータにアクセスするLLM(例えば、検索エンジン機能を持つチャットボットや、ウェブサイトの閲覧を支援するブラウザ機能など)だけでなく、チェックされていない第三者のドキュメントを入力として受け取るモデルにも当てはまる。攻撃者は、ユーザーに気づかれないようにWebサイトや文書にLLMへの指示を配置し、例えばユーザーとLLMの間の会話の続きを操作することができる。その目的は、例えば、ユーザーの個人情報を知ることや、リンクをクリックするように説得することである。
Ein solcher Angriff kann z.B. ein Chat-Tool betreffen, das eine Person beim Surfen im Internet unterstützt, indem es dieser Person die Möglichkeit gibt, Fragen zu der aktuell geöffneten Webseite zu stellen, um deren Inhalt schneller zu erfassen. Die Person fragt das Chat-Tool also beispielsweise nach einer Zusammenfassung eines Blogbeitrags. Bei dem Blogeintrag handelt es sich aber eigentlich um die Webseite einer Person, die E-Mail-Adressen für spätere Phishing-Angriffe sammeln möchte. Diese Person hat auf der Webseite einen Text in weißer Schrift auf weißem Hintergrund versteckt, der besagt, dass das Chat-Tool, wenn es um die Erzeugung einer Zusammenfassung gebeten wird, anschließend unauffällig Nutzende dazu auffordern soll, ihre E-Mail-Adresse in ein Feld auf der Webseite einzutragen (vgl. 3.4.2 Indirect Prompt Injection).  このような攻撃は、例えば、インターネットを閲覧する人を支援するチャットツールで、その人が現在開いているウェブページについて質問することで、その内容をより迅速に把握することができるようにすることが考えられる。例えば、あるブログ記事の要約をチャットツールに尋ねるとします。しかし、そのブログは、実はフィッシング詐欺のためにメールアドレスを集めようとする人物のサイトだった。この人物は、ウェブページの白い背景に白い文字で、チャットツールが要約を生成するよう求められたら、ウェブページのフィールドに電子メールアドレスを入力するよう目立たないように促すというテキストを隠している(3.4.2 Indirect Prompt Injectionを参照)。
Vertraulichkeit der eingegebenen Daten  入力されたデータの機密性 
Bei der Nutzung einer externen API fließen alle Eingaben, die an das LLM getätigt werden, zunächst an den Betreiber des Modells ab. Inwiefern dieser auf die Daten zugreift und sie z.B. zum weiteren Training des Modellsnutzt und speichert, ist von Modell zu Modell unterschiedlich geregelt. Auch auf die Ausgaben des Modells hat der Betreiber in der Regel uneingeschränkten Zugriff. Einige LLMs bieten zudem die Möglichkeit, für eine bessere Funktionalität gegebenenfalls unbemerkt vom Nutzenden auf Plug-Ins zuzugreifen. In diesem Fall besteht also zusätzlich die Gefahr, dass eingegebene Daten an unbekannte Dritte weitergegeben werden.  外部APIを使用する場合、LLMに入力されたすべてのデータは、まずモデルのオペレータに流れます。オペレータがデータにアクセスし、モデルのさらなる訓練のためなどにデータを使用・保存する範囲は、モデルによって異なる規制がある。オペレーターは通常、モデルの出力に無制限にアクセスすることができる。また、LLMの中には、必要であれば、ユーザーに気づかれないように、より良い機能のためのプラグインにアクセスする可能性を提供するものもある。この場合、入力されたデータが未知の第三者に渡ってしまうリスクもある。
Die Nutzung eines LLM via einer externen API ist also insbesondere bei der Verarbeitung von sensiblen und vertraulichen Informationen kritisch zu hinterfragen; die Verarbeitung von eingestuften Informationen ist ohne weitere Maßnahmen unzulässig. Eventuell ist es möglich, eine On-Premise-Lösung zu realisieren, was aber aufgrund der benötigten Rechen- und Speicherkapazitäten bei vielen LLMs nicht mit herkömmlicher IT abgebildet werden kann. Es befinden sich allerdings auch kleinere Modelle in der Entwicklung, die zumindest in bestimmten Anwendungsfällen ähnliche Leistungen erbringen wie wesentlich größere LLMs und lokal betrieben werden können.  したがって、外部APIを介したLLMの利用は、特に機密性の高い情報を処理する場合には、批判的に検討されるべきであり、機密情報の処理は、さらなる対策なしに許可されません。オンプレミスのソリューションを実現することは可能かもしれないが、多くのLLMに必要なコンピューティングとストレージ容量のため、従来のITでは対応できない。しかし、少なくとも特定のユースケースにおいて、はるかに大きなLLMと同様の性能を提供し、ローカルで運用できる小型のモデルも開発されている。
Abhängigkeit vom Hersteller/ Betreiber des Modells  モデルの製造者/運用者への依存度 
Auch neben der fehlenden Datenhoheit entsteht durch die Verwendung eines LLM via API eine große Abhängigkeit vom Hersteller und Betreiber des Modells. Diese Abhängigkeit bezieht sich auf verschiedene technische Aspekte. Zum einen ist die Verfügbarkeit des Modells ggf. nicht kontrollierbar, zum anderen besteht i.d.R. auch keine Möglichkeit, in die (Weiter-)Entwicklung des Modells einzugreifen, also z.B. Trainingsdaten für spezielle Anwendungsfälle zu wählen oder Sicherheitsmechanismen von vornherein zu etablieren.  データ主権の欠如に加え、APIを介したLLMの利用は、モデルの製造者やオペレーターへの大きな依存を生み出します。この依存性は、様々な技術的側面に関連している。一方では、モデルの可用性は制御できないかもしれない。他方では、モデルの(さらなる)開発に介入する可能性は通常ない。例えば、特別なユースケースのための訓練データを選択したり、最初からセキュリティメカニズムを確立したりすることはできない。
3.2.2 Gegenmaßnahmen  3.2.2 対処法 
Nutzende sollten über diese Schwächen von LLMs aufgeklärt werden und dazu angehalten werden, Aussagen auf ihren Wahrheitsgehalt zu prüfen bzw. kritisch zu hinterfragen. Ebenso ist es möglich, dass ein LLM unangemessene Ausgaben (z.B. diskriminierende Aussagen, "Fake News", Propaganda, etc.) produziert. Eine manuelle Nachbearbeitung von maschinengenerierten Texten ist also ratsam, bevor diese weiterverwendet werden. Besonders sollte dieser Punkt beachtet werden, wenn man eine Entscheidung darüber trifft, ob ein LLM mit direkter Außenwirkung (z.B. ein Chatbot auf einer Webseite) eingesetzt werden soll.  利用者は、LLMのこうした弱点について知らされ、発言の真偽を確認したり、批判的な質問をしたりするよう奨励されるべきである。また、LLMが不適切な出力(差別的な発言、「フェイクニュース」、プロパガンダなど)を出すこともあり得る。したがって、機械が生成したテキストをさらに使用する前に、手動で後処理をすることが望ましい。この点は、外部に直接影響を与えるLLM(ウェブサイト上のチャットボットなど)を使用するかどうかを決定する際に、特に考慮されるべきである。
3.3 Missbrauchsszenarien und Gegenmaßnahmen  3.3 悪用のシナリオと対策 
3.3.1 Missbrauchsszenarien  3.3.1 悪用のシナリオ 
LLMs können zur Textproduktion für böswillige Zwecke missbraucht werden. Mögliche Missbrauchsfälle sind zum Beispiel:  LLMは、悪意のある目的のためにテキスト作成に悪用される可能性がある。想定される悪用のシナリオは以下の通りである: 
Social Engineering  ソーシャル・エンジニアリング 
Unter dem Begriff Social Engineering versteht man Cyber-Angriffe, bei denen Kriminelle versuchen, ihre Opfer dazu zu verleiten, persönliche Daten preiszugeben, Schutzmaßnahmen zu umgehen oder selbstständig Schadcode zu installieren (BSI, 2022). Dies geschieht zumeist unter Ausnutzung von menschlichen Eigenschaften wie Hilfsbereitschaft, Vertrauen oder Angst. Häufig werden hierbei Spam- oder Phishing-E-Mails genutzt, die Empfangende dazu bringen sollen, auf einen Link zu klicken oder einen schadhaften Anhang zu öffnen. Spear-Phishing-E-Mails, also gezielte Betrugs-E-Mails, können zudem als erster Schritt eines Ransomware-Angriffs dienen.   ソーシャル・エンジニアリングとは、犯罪者が被害者を騙して個人情報を開示させたり、保護措置を回避させたり、悪意のあるコードを自らインストールさせようとするサイバー攻撃のことを指す(BSI, 2022)。これは通常、親切、信頼、恐怖といった人間の特性を悪用することで起こります。スパムメールやフィッシングメールは、受信者を騙してリンクをクリックさせたり、悪意のある添付ファイルを開かせたりするためによく使われます。スピアフィッシングメール、すなわち標的型詐欺メールは、ランサムウェア攻撃の最初のステップとして機能することもある。 
Die in den betrügerischen E-Mails enthaltenen Texte können mittels LLMs automatisch und in hoher sprachlicher Qualität erzeugt werden. Es ist dabei möglich, den Schreibstil der Texte so anzupassen, dass er dem einer bestimmten Organisation oder Person ähnelt. Die Imitation von Schreibstilen ist bei aktuellen LLMs zumeist akkurat und benötigt nur wenig Aufwand (z.B. ein Textbeispiel einer zu imitierenden Person bzw. nur geringe Kenntnisse in der Zielsprache). Zusätzlich können Texte ohne großen Aufwand personalisiert werden, indem öffentlich verfügbarer Informationen der Zielperson (z.B. aus sozialen und beruflichen Netzwerken) bei der Textgenerierung eingebunden werden. Diese Maßnahmen können in verschiedenen Szenarien verwendet werden, beispielsweise im Kontext von Business E-Mail Compromise oder CEO-Fraud, bei dem der Schreibstil der Geschäftsführung nachgeahmt wird, um deren Mitarbeitende z.B. zu Geldzahlungen auf fremde Konten zu verleiten (Europol, 2023). Auch die in Spam- und Phishing-EMails bislang bekannten Rechtschreib- oder Grammatikfehler, die Nutzenden helfen können, diese zu erkennen, finden sich in den automatisch generierten Texten mittlerweile kaum mehr. Dies kann es Kriminellen erleichtern, auch fremdsprachige Texte in einer Qualität zu erzeugen, die der einer muttersprachlichen Person nahekommt. Außerdem könnten Kriminelle nicht nur die Zahl der mittels EMail initiierten Angriffe in Zukunft mit verhältnismäßig geringem Aufwand erhöhen, sondern diese Nachrichten durch LLMs auch überzeugender gestalten.  このような詐欺メールに含まれる文章は、LLMを用いて高い言語品質で自動生成することが可能である。また、特定の組織や人物に似せた文体にすることも可能である。現在のLLMでは、文体の模倣はほぼ正確であり、少しの努力(模倣する人物のテキストサンプルやターゲット言語に関するわずかな知識など)で可能である。さらに、一般に公開されている対象者の情報(ソーシャルネットワークやプロフェッショナルネットワークなど)をテキスト生成に組み込むことで、あまり労力をかけずにテキストをパーソナライズすることができる。これらの対策は、例えばビジネスメールの漏洩やCEO詐欺の文脈で、経営者の文体を模倣して従業員を騙して他人の口座に金銭の支払いをさせるなど、様々な場面で活用できる(Europol, 2023)。以前はスパムメールやフィッシングメールに見られたスペルミスや文法ミスも、現在では自動生成された文章にはほとんど見られません。これにより、犯罪者は、ネイティブスピーカーに近い品質で外国語の文章を生成することが容易になる。また、犯罪者は、今後、比較的少ない労力で電子メール経由で開始される攻撃の数を増やすだけでなく、LLMを使用することで、これらのメッセージをより説得力のあるものにすることができる。
In Dark Web Foren wird bereits über die Eignung von generativen LLMs für Phishing- oder Spam-Mails diskutiert. Ein flächendeckender Einsatz konnte allerdings bis Anfang 2023 noch nicht beobachtet werden (Insikt Group, 2023).  フィッシングメールやスパムメールに生成LLMが適していることは、すでにダークウェブのフォーラムで議論されている。しかし、2023年初頭にはまだ広範な使用は確認されていない(Insikt Group, 2023)。
Generierung und Ausführung von Malware  マルウェアの生成と実行 
Die Fähigkeit von LLMs, Wörter zu generieren, beschränkt sich nicht nur auf die Erzeugung von natürlichsprachigen Texten. Innerhalb der Trainingsdaten findet sich zumeist auch öffentlich zugänglicher Programmcode, der es den Modellen ermöglicht, neben Texten auch Code zu generieren. Dieser ist nicht immer fehlerfrei, aber gut genug, um Anwendenden in vielen Bereichen weiterzuhelfen. Diese Fähigkeit kann von Kriminellen missbraucht werden, indem sie LLMs verwenden, um Schadcode zu generieren. Auf diese Gefahr wurde bereits hingewiesen, als die ersten LLMs herausgebracht wurden, die Code generieren konnten. Damals zeigte sich bereits, dass LLMs sich z.B. dazu eignen, polymorphe Malware zu erzeugen, also Schadcode, der nur leicht verändert wurde, um Sicherheitsfilter z.B. innerhalb von Antivirensoftware zu umgehen, aber immer noch die gleichen Auswirkungen hat wie die Ursprungsversion (Chen, et al., 2021).  LLMの単語生成能力は、自然言語テキストの生成に限定されるものではない。訓練データ内には、通常、モデルがテキストだけでなくコードも生成できるようにするプログラムコードも公開されている。これは常にエラーがないわけではないが、多くの分野でユーザーを助けるには十分な性能である。この能力は、犯罪者がLLMを使って悪意のあるコードを生成することによって悪用される可能性がある。この危険性は、コードを生成できる最初のLLMがリリースされたときに、すでに指摘されていた。このとき、LLMは、例えば、ポリモーフィック・マルウェア(ウイルス対策ソフトなどのセキュリティ・フィルタを回避するためにわずかに変更されただけで、元のバージョンと同じ効果を持つ悪意のあるコード)の生成に適していることが既に明らかになっていました(Chen, et al., 2021)。
Neuere LLMs besitzen immer ausgereiftere Code-Generierungsfähigkeiten, die es somit Angreifenden mit geringen technischen Fähigkeiten ermöglichen könnten, Schadcode ohne viel Hintergrundwissen zu erzeugen. Auch erfahrene Angreifende könnten von LLMs unterstützt werden, indem sie dabei helfen, Code zu verbessern (Europol, 2023). Laut (Insikt Group, 2023) kann ein populäres LLM automatisch Code generieren, der kritische Schwachstellen ausnutzt. Zudem ist das Modell in der Lage, sogenannten MalwarePayload zu generieren. Gemäß (BSI, 2022) versteht man unter Payload den Teil eines Schadprogramms, der auf dem Zielrechner verbleibt. Dieser Payload, der mittels LLMs generiert werden kann, kann verschiedene Ziele verfolgen, z.B. Informationsdiebstahl, Diebstahl von Kryptowährung oder aber die Einrichtung eines Fernzugriffes auf dem Zielgerät. Der erzeugte Code ist allerdings meist ähnlich zu dem, der ohnehin bereits öffentlich verfügbar ist, und auch nicht immer fehlerfrei. Nichtsdestotrotz könnten die Fähigkeiten von Sprachmodellen in diesem Bereich die Einstiegshürde für unerfahrene Angreifende senken (Insikt Group, 2023). Neben reiner Codeerzeugung können LLMs zudem genutzt werden, um Anleitungen für die Suche nach Schwachstellen zu geben (Eikenberg, 2023), Konfigurationsfiles für eine Malware zu generieren, oder aber command-and-control Mechanismen zu etablieren (Insikt Group, 2023).  新しいLLMは、コード生成機能がますます洗練されており、そのため技術力の低い攻撃者が、背景知識をあまり持たずに悪意のあるコードを生成できる可能性がある。また、経験豊富な攻撃者は、LLMによってコードの改良を支援される可能性もある(Europol, 2023)。Insikt Group, 2023)によると、一般的なLLMは、重要な脆弱性を悪用するコードを自動生成することができる。さらに、このモデルは、いわゆるマルウェアのペイロードを生成することが可能である。BSI、2022)によると、ペイロードとは、悪意のあるプログラムのうち、標的のコンピュータに残る部分のことである。LLMによって生成可能なこのペイロードは、例えば情報の窃盗、暗号通貨の窃盗、ターゲットデバイスのリモートアクセスの確立など、様々な目的を追求することができる。しかし、生成されるコードは、通常、すでに公開されているコードと類似しており、また、必ずしもエラーがないとは限りません。とはいえ、この分野における言語モデルの能力は、経験の浅い攻撃者の参入障壁を下げる可能性がある(Insikt Group、2023年)。純粋なコード生成に加えて、LLMは、脆弱性の検索方法に関する指示の提供(Eikenberg, 2023)、マルウェアの設定ファイルの生成、コマンド&コントロール機構の確立(Insikt Group, 2023)にも利用できる。
Hoax (Falschmeldung)  デマ(虚偽報告) 
LLMs werden auf der Basis einer sehr großen Menge an Texten trainiert. Der Ursprung dieser Texte und ihre  Qualität werden aufgrund der großen Anzahl an Daten nicht vollständig überprüft. So verbleiben auch Texte mit fragwürdigem Inhalt (z.B. Desinformationen, Propaganda oder Hassnachrichten) in der Trainingsmenge und tragen zu einer unerwünschten Struktur des Modells bei, die eine Neigung zu potenziell kritischen Inhalten zeigt. Diese Einflüsse finden sich trotz diverser Schutzmaßnahmen häufig in sprachlich ähnlicher Weise in den KI-generierten Texten wieder (Weidinger, et al., 2022). Dadurch können Kriminelle die Modelle verwenden, um damit die öffentliche Meinung durch automatisch generierte Propagandatexte, Beiträge in Sozialen Medien oder Fake News zu beeinflussen. Durch den geringen Aufwand bei der Erstellung lassen sich diese Texte zudem massenhaft produzieren und verbreiten. Auch die Erzeugung von Hassnachrichten ist denkbar.  LLMは非常に多くのテキストをもとに学習される。これらのテキストの出所や品質は、データ量が多いため完全には検証されない。そのため、疑わしい内容のテキスト(偽情報、プロパガンダ、ヘイトニュースなど)が学習セットに残り、潜在的に批判的な内容に偏るというモデルの望ましくない構造に寄与している。これらの影響は、さまざまな保護措置にもかかわらず、AIが生成したテキストに言語的に類似した形で見られることが多い(Weidinger, et al.、2022)。これにより、犯罪者はモデルを利用して、自動生成されたプロパガンダテキストやソーシャルメディアへの投稿、フェイクニュースを通じて世論に影響を与えることができる。作成に必要な労力が少ないため、これらのテキストは大量生産して拡散させることも可能である。また、ヘイトメッセージを生成することも可能である。
Der nutzerfreundliche Zugang über eine API und die enorme Geschwindigkeit und Flexibilität der Antworten von aktuell populären LLMs ermöglichen die Generierung einer großen Anzahl hochqualitativer Texte. Diese sind von denen eines Menschen kaum mehr zu unterscheiden und können durch eine Nutzeranweisung in verschiedensten Stimmungen und Stilen verfasst werden. So können Kriminelle innerhalb kürzester Zeit Texte erzeugen, die sich negativ gegen eine Person oder Organisation richten, oder aber solche, die an den Schreibstil einer anderen Person angepasst sind, um falsche Informationen in deren Namen zu verbreiten. Abseits von der Imitation von Schreibstilen können mittels LLMs auch maschinengenerierte Produktbewertungen verfasst werden, die z.B. dazu genutzt werden können, ein bestimmtes Produkt zu bewerben oder ein Produkt eines Konkurrenten zu diskreditieren.   APIによるユーザーフレンドリーなアクセスと、現在人気のあるLLMの膨大なレスポンススピードと柔軟性により、高品質のテキストを大量に生成することができる。これらは人間とほとんど見分けがつかず、ユーザーの指示によって様々な雰囲気やスタイルで書くことができる。このように、犯罪者は、個人や組織を否定する文章や、他人の文体に合わせた文章を素早く生成し、その人に代わって偽の情報を拡散することができる。LLMは、文体の模倣以外にも、機械的に生成された商品レビューを書くのにも利用でき、例えば、特定の商品を宣伝したり、競合他社の商品を貶めたりするのに利用することができる。 
In den bisher verfügbaren kommerziellen LLMs sollen in den generierten Text eingefügte Warnungen die direkte Generierung von Falschinformationen oder sonstigen Inhalten, die gegen die Richtlinien des jeweiligen Unternehmens verstoßen, erschweren. Diese Warnungen lassen sich jedoch leicht aus den generierten Texten entfernen. Somit können durch kleine Änderungen, weiterhin Desinformationen o.ä. in vergleichsweise kurzer Zeit erzeugt werden.  これまで市販されているLLMでは、生成されるテキストに警告が挿入されており、虚偽の情報や各企業のガイドラインに違反するコンテンツを直接生成することを難しくすることを目的としている。しかし、これらの警告は生成されたテキストから簡単に削除することができる。このように、小さな変更を加えることで、比較的短時間で偽情報などを生成することは可能である。
3.3.2 Gegenmaßnahmen  3.3.2 対処法 
Den beschriebenen Möglichkeiten zum Missbrauch von LLMs kann mit verschiedenen Maßnahmen begegnet werden, um das Risiko durch erfolgreiche Angriffe zu verringern.  LLMの悪用の可能性については、様々な対策により、攻撃成功時のリスクを低減することが可能である。
3.3.2.1 Allgemeine Maßnahmen  3.3.2.1 一般的な対策 
Solche Maßnahmen können sowohl technischer als auch organisatorischer Art sein. Eine generelle Methode zur Verhinderung von Angriffen besteht dabei oft in der Absicherung der Authentizität von Texten und Nachrichten, d.h. im Nachweis, dass bestimmte Texte oder Nachrichten tatsächlich von einer bestimmten Person, Personengruppe oder Institution stammen. Dies trägt der Tatsache Rechnung, dass durch die Fähigkeiten von LLMs klassische implizite Verfahren zur Authentisierung von Nachrichten, wie sie von Nutzenden unbewusst verwendet werden, leicht getäuscht werden können.  このような対策は、技術的なものと組織的なものの両方があり得る。攻撃を防ぐ一般的な方法は、テキストやメッセージの真正性を確保すること、すなわち、あるテキストやメッ セージが実際にある人物、人物グループ、または機関から発信されたものであることを証明することであ ることが多い。これは、LLMの能力が、ユーザーが無意識に使用しているような、メッセージを認証するための古典的な暗黙の手順を容易に欺くことができるという事実を考慮したものである。
So waren Spam- und Phishing-Mails für Empfangende in der Vergangenheit oft an Fehlern in der Rechtschreibung, Grammatik oder dem sprachlichen Ausdruck zu erkennen; werden sie mittels LLMs erzeugt, so weisen sie jedoch üblicherweise keine derartigen Mängel mehr auf. Auch Spear-Phishing-Mails oder Posts in sozialen Medien ließen vor der weitflächigen Verbreitung von LLMs durch ihren Schreibstil gewisse Rückschlüsse auf ihre vermutlichen Verfassenden zu; durch die Fähigkeit von LLMs zur Imitation von Schreibstilen sind solche Indikatoren nicht mehr belastbar.  以前は、スパムメールやフィッシングメールは、スペルや文法、言語表現の誤りによって受信者が認識できることが多かったが、LLMを使用して生成された場合は、そのような欠陥がなくなることがほとんどである。LLMが普及する以前は、スピア型のフィッシングメールやソーシャルメディアへの投稿も、その文体から作者と思われる人物について一定の結論を導くことができましたが、LLMが文体を模倣できるようになったことで、こうした指標はもはや信頼できなくなりました。
Diese impliziten Verfahren zur Authentisierung können nun durch explizite technische Verfahren ergänzt werden, welche die Urheberschaft einer Nachricht kryptografisch nachweisen können. Damit könnten legitime Nachrichten (z.B. von einer Bank an ihre Kunden und Kundinnen oder von einem CEO an seine Mitarbeitenden) von gefälschten unterschieden werden. Ähnliche Ansätze könnten auch in sozialen Medien genutzt werden, um (Text-)Beiträgen ihre tatsächliche Quelle (wie Privatnutzende, Leitmedium oder staatliche Behörde) nachweisbar zuzuordnen. Die Nutzung solcher technischen Maßnahmen erfordert einen gewissen Aufwand, weshalb sie bisher weniger verbreitet sind, und setzt die Sensibilisierung und Aufklärung der Nutzenden voraus.  このような暗黙の認証手続きは、メッセージの作者を暗号的に証明する明示的な技術的手続きで補うことができる。これにより、正当なメッセージ(例えば、銀行から顧客へ、あるいはCEOから従業員へ)と偽造されたメッセージとを区別することができるようになる。また、ソーシャルメディアにおいても同様のアプローチを用いることで、投稿(テキスト)を実際の発信元(個人ユーザー、有力メディア、国家機関など)に帰属させることができる。このような技術的手段の使用には一定の努力が必要であり、そのため、これまであまり普及しておらず、利用者の感化と教育が前提となっている。
Social Engineering-Angriffe wie CEO-Fraud lassen sich durch die Änderung der Rahmenbedingungen und die Einführung zusätzlicher Prozesse zur Authentisierung von Nachrichten erschweren. So wäre z.B. die verpflichtende Bestätigung von Zahlungsanweisungen über einen separaten authentisierten Kanal denkbar. Die massenhafte Einreichung von Beiträgen und Dokumenten zur Überlastung der angeschlossenen Prozesse lässt sich durch Maßnahmen bekämpfen, welche die möglichen Einreichungen beschränken. Dies kann z.B. durch hartkodierte Grenzwerte oder die Nutzung von CAPTCHAs geschehen.  CEO詐欺のようなソーシャルエンジニアリング攻撃は、フレームワークの条件を変更し、メッセージを認証するための追加プロセスを導入することによって、より困難にすることができる。例えば、支払い指示の確認を、認証された別のチャンネルで行うことを義務付けることも考えられる。投稿や書類の大量提出により、接続されたプロセスに負荷がかかる場合は、提出可能なものを制限する措置で対処することができる。これは、例えば、ハードコードされた制限やCAPTCHAの使用によって行うことができる。
Eine übergreifende Maßnahme zur Verringerung des Angriffsrisikos ist die Sensibilisierung und Aufklärung der Nutzenden über die Fähigkeiten von LLMs und die daraus resultierenden Bedrohungen, damit sich diese darauf einstellen und die Korrektheit von automatisch generierten Nachrichten wie E-Mails oder Beiträgen in Sozialen Medien hinterfragen können, insbesondere wenn es weitere Indizien gibt.  攻撃のリスクを低減するための包括的な対策は、LLM の能力とその結果生じる脅威についてユーザーを啓発・教育し、それらに適応できるようにし、特にさらなる兆候がある場合には、電子メールやソーシャルメディア上の投稿などの自動生成メッセージの正しさに疑問を持つようにすることである。
3.3.2.2 Maßnahmen auf Ebene des Modells  3.3.2.2 モデルのレベルでの対策 
Auf Ebene des Modells kann der Missbrauch von LLMs im Wesentlichen durch zwei Strategien vorgebeugt werden. Einerseits können die Nutzungsmöglichkeiten generell eingeschränkt werden, was insbesondere bei eigens betriebenen Modellen nur geringe Aufwände erfordert, andererseits können Maßnahmen zur Unterbindung potenziell schädlicher Ausgaben getroffen werden.  モデルのレベルでは、LLMの誤用は、基本的に2つの戦略によって防ぐことができる。一方では、使用の可能性を一般的に制限することができ、これは特に社内で運用されるモデルの場合、ほとんど努力を要しない。他方では、潜在的に有害な支出を防ぐための措置を講じることができる。
Beim ersten, allgemeineren Ansatz kann der Nutzerkreis beschränkt werden, sodass z.B. nur vertrauenswürdige Nutzende Zugriff auf das Modell erhalten. Darüber hinaus ist auch eine Einschränkung der Zugriffsrechte, die Nutzende auf das Modell haben, denkbar, z.B. eine Beschränkung der möglichen Prompts. Für einige Angriffe ist beispielsweise ein Fine-Tuning notwendig, wofür umfangreicherer Zugriff auf das Modell benötigt wird.  より一般的な方法として、例えば、信頼できるユーザーのみにモデルへのアクセスを許可するように、ユーザーの輪を制限することができる。さらに、ユーザがモデルに対して持つアクセス権を制限することも考えられる(例えば、可能なプロンプトを制限する)。例えば、攻撃によっては、微調整が必要であり、そのためには、モデルへのより広範なアクセスが必要である。
Der zweite Ansatz verfolgt hingegen das spezifischere Ziel, die Nutzung des Modells a priori uneingeschränkt zu erlauben, jedoch schädliche Ausgaben zu verhindern. Hierbei soll zu bestimmten Eingaben, die eindeutig auf böswillige Zwecke abzielen, keine Ausgabe generiert werden, sondern stattdessen eine festgelegte Ausgabe („Für diesen Zweck kann dieses Modell nicht verwendet werden.“) erfolgen. Neben dem expliziten Ausschließen von Ausgaben auf bestimmte böswillige Anfragen durch Filterung ist es auch möglich Reinforcement Learning durch Human Feedback (RLHF) zu verwenden. Dabei lernt ein Modell durch spezielles weiteres Training Ausgaben dahingehend zu bewerten, wie erwünscht sie sind, und diese gegebenenfalls anzupassen. Derartige Filter und Trainingsmethoden werden in aktuellen LLMs bereits verwendet. Sie verhindern jedoch nur einen Teil der schädlichen Ausgaben und lassen sich durch geschickte Umformulierung der Eingabe, auch prompt engineering genannt, umgehen (Cyber Security Agency of Singapore, 2023), wobei dies häufig reproduzierbar ist. Auch bei der Nutzung von Filtern oder RLHF im Modell wirft die Abgrenzung zwischen erlaubten und verbotenen Ausgaben wieder komplexe  一方、2つ目のアプローチは、制限なく先験的にモデルの使用を許可するが、有害な出力を防止するという、より具体的な目標を追求するものである。ここでは、明らかに悪意ある目的である特定の入力に対しては出力を行わず、代わりに特定の出力(「このモデルはこの目的には使用できません」)を行う。フィルタリングによって特定の悪意あるクエリに対する出力を明示的に排除することに加え、人間のフィードバックによる強化学習(RLHF)を利用することも可能である。この場合、モデルは、特別なさらなる訓練を通じて、出力がどの程度望ましいかという観点から出力を評価し、必要であればそれを適応するように学習する。このようなフィルターや学習方法は、現在のLLMであるでに使用されている。しかし、これらは悪意のある出力の一部しか防ぐことができず、プロンプトエンジニアリング(Cyber Security Agency of Singapore, 2023)とも呼ばれる入力の巧妙な再定義によって回避することができるが、これはしばしば再現可能である。モデルでフィルタやRLHFを使用する場合、許可された出力と禁止された出力の間の境界線は、再び複雑な問題を生じさせる(3.
Fragen auf (vgl. 3.3.2.1). Darüber hinaus wurden mit dem Argument der Redefreiheit bereits LLMs zur Verfügung gestellt, die keinerlei derartige Filter enthalten. Auch ist davon auszugehen, dass zukünftig durch Akteure mit entsprechenden böswilligen Motiven weitere uneingeschränkte Modelle entwickelt werden.  が生じる(3.3.2.1 参照)。さらに、言論の自由の観点から、そのようなフィルタを含まないLLMがすでに公開されている。また、今後、悪意のある関係者によって、さらに制限のないモデルが開発されることも想定される。
3.3.2.3 Maßnahmen zur Detektion maschinengeschriebener Texte  3.3.2.3 タイプされたテキストを検出するための対策 
Es gibt verschiedene komplementäre Ansätze zur Detektion automatisch generierter Texte. Durch Detektionsmöglichkeiten erhalten Nutzende die Fähigkeit, Texte als maschinengeschrieben zu erkennen und somit gegebenenfalls ihre Authentizität und die Richtigkeit der enthaltenen Informationen anzuzweifeln.  自動生成されたテキストを検出するには、いくつかの補完的なアプローチがある。検出機能は、ユーザーがテキストを機械で書かれたものと認識する能力を提供し、必要に応じて、その信憑性や含まれている情報の正確性を疑うことができる。
Zum einen kann die menschliche Fähigkeit, automatisch generierte Texte zu erkennen, genutzt werden. Die Detektionsleistung hängt dabei stark von Aspekten des Textes (z.B. Textart, Thema, Länge) und persönlichen Faktoren (z.B. Erfahrung mit maschinengeschriebenen Texten, Fachwissen zum Thema des Textes) ab.  一方、自動生成されたテキストを認識する人間の能力を利用することもできる。検出性能は、テキストの側面(テキストの種類、トピック、長さなど)や個人的な要因(タイプライターの経験、テキストのトピックに関する専門知識など)に強く依存します。
Einfache Hinweise für eine Detektion wie Rechtschreib- oder Grammatikfehler und grobe inhaltliche Inkonsistenz sind bei Texten, die von LLMs generiert wurden, nicht zu erwarten, sodass die menschliche Fähigkeit zur Detektion insbesondere bei kurzen Texten beschränkt ist.  スペルミスや文法ミス、内容の重大な矛盾といった単純な検出の手がかりは、LLMが生成したテキストには期待できないため、特に短いテキストでは、人間の検出能力には限界がある。
Darüber hinaus können Werkzeuge zur automatischen Detektion von maschinengenerierten Texten (z.B. (Tian, 2023), (Kirchner, et al., 2023), (Mitchell, et al., 2023), (Gehrmann, et al., 2019)) eingesetzt werden, die in der Regel statistische Eigenschaften der Texte ausnutzen oder Parameter eines Modells verwenden, um einen Score zu berechnen, der als Indiz für maschinengenerierte Texte dient. Gerade für von LLMs, die nur als Blackbox ohne Zusatzinformationen zur Verfügung gestellt werden, erzeugte Texte ist die Detektionsleistung jedoch oft begrenzt. Die Ergebnisse der genannten Werkzeuge können daher nur einen Hinweis geben und stellen in der Regel keine an sich belastbare Aussage dar. Einschränkungen bestehen insbesondere bei kurzen Texten und Texten, die nicht auf Englisch verfasst sind. Zur Unterstützung der späteren Detektion wird auch an der Implementierung statistischer Wasserzeichen in maschinengenerierten Texten geforscht (Kirchenbauer, et al., 2023). Ein grundsätzliches Problem dieser Klasse von Werkzeugen besteht weiterhin darin, dass die Detektion eines von einem LLM erzeugten Textes durch geringfügige manuelle Änderungen zusätzlich stark erschwert werden kann. Grundsätzlich lässt sich die automatische Detektion auch auf Programmcode und Malware anwenden, birgt dabei jedoch ähnliche Einschränkungen.  さらに、機械生成テキストの自動検出のためのツール(例えば(Tian,2023)、(Kirchner,et al,2023)、(Mitchell,et al,2023)、(Gehrmann,et al,2019))を使用でき、通常テキストの統計特性を利用するかモデルのパラメータを使用して機械生成テキストの指標となるスコアを計算する。しかし、特に、追加情報のないブラックボックスとしてのみ提供されるLLMによって生成されたテキストについては、検出性能が制限されることが多い。そのため、前述のツールの結果はあくまで目安であり、通常はそれ自体で信頼できる記述とは言えません。特に、短いテキストや英語で書かれていないテキストには限界がある。また、機械で生成されたテキストに統計的な透かしを実装し、その後の検出を支援する研究も行われている(Kirchenbauer, et al.、2023)。このクラスのツールの基本的な問題は、LLMで生成されたテキストの検出が、手作業による小さな変更によってさらに複雑になる可能性があることである。原理的には、自動検出はプログラムコードやマルウェアにも適用できるが、同様の制約がある。
3.4 Risiken und Herausforderungen bei der Entwicklung sicherer LLMs  3.4 安全な LLM の開発におけるリスクと課題 
Neben den oben genannten Vermeidungs- und Minderungsmaßnahmen zum Missbrauchspotenzial von LLMs gibt es weitere Sicherheitsaspekte, die Bereitsteller solcher Modelle beachten sollten. Nutzende können dieses Unterkapitel nutzen, um weitere Anhaltspunkte für eine Evaluation eines Bereitstellers eines LLM zu erhalten.  LLMの悪用の可能性について述べた回避策と緩和策に加え、このようなモデルの提供者が注意すべきセキュリティの側面がある。ユーザーは、このサブセクションを使用して、LLMプロバイダーを評価するためのさらなるガイダンスを得ることができる。
3.4.1 Datenqualität bei der Auswahl von Trainingsdaten  3.4.1 訓練データの選択におけるデータ品質 
Die Auswahl der Trainingsdaten ist ausschlaggebend für die Qualität des zur Verfügung gestellten Modells. Ein LLM lernt während des Trainings ein statistisches Modell der Trainingsdaten; dieses generalisiert nur dann gut auf spätere vielfältige Anwendungsfälle, wenn es sich um reale oder zumindest realistische Daten handelt und eine Breite an verschiedenen Texten (z.B. hinsichtlich Textarten, Themen, Sprachen, Fachvokabular, Varietät) abgedeckt wird.  学習データの選択は、提供されるモデルの品質にとって極めて重要である。LLM は訓練中に訓練データの統計的モデルを学習します。これは、データが実在するか、少なくとも現実的で、さまざまなテキストを幅広くカバーしている場合(テキストの種類、トピック、言語、専門用語、種類など)、その後のさまざまな使用ケースにうまく一般化されるだけである。
Neben der Qualität der Texte sind gegebenenfalls rechtliche Vorgaben zu beachten. Aufgrund der schnellen Entwicklung von LLMs gibt es zu einigen rechtlichen Aspekten noch keine abschließende Klärung. Gegebenenfalls können künftige Probleme aber von vornherein vermindert werden, wenn sensible Daten nicht zum Training von LLMs verwendet werden (vgl. 3.4.2 Privacy Attacks).  テキストの品質に加えて、法的要件も考慮しなければならない場合がある。LLMの急速な発展により、いくつかの法的側面はまだ決定的に明確になっていない。しかし、機密性の高いデータをLLMの学習に使用しなければ、将来の問題を最初から減らすことができるかもしれません(3.4.2 プライバシー攻撃参照)。
Ein weiterer Aspekt, der bei der Auswahl von Trainingsdaten berücksichtigt werden sollte, ist die unerwünschte Abbildung von Diskriminierung oder Bias in den Trainingsdaten. Ein Modell bildet sozusagen einen Spiegel der Trainingsdaten; ist in diesen ein Bias vorhanden, wird auch das Modell diesen abbilden. Es ist dann z.B. möglich, dass ein LLM diskriminierende Aussagen generiert. Auch Missbrauchsmöglichkeiten eines LLM lassen sich gegebenenfalls durch eine gezielte Auswahl von Trainingsdaten einschränken (3.3.1).  訓練データを選択する際に考慮すべきもう一つの側面は、訓練データにおける差別や偏りの望ましくない反映である。モデルはいわば学習データの鏡であり、学習データに偏りがあれば、モデルにも偏りが反映されることになる。そのため、例えば、LLMが差別的な発言をする可能性があるのである。LLMが誤用される可能性は、必要であれば、学習データの的を絞った選択によって制限することもできる(3.3.1)。
Sollten in Zukunft viele maschinengenerierte Texte im Internet präsent sein, ist zudem darauf zu achten, dass sich keine selbstverstärkenden Effekte dadurch ergeben, dass ein LLM auf Daten trainiert wird, die von einem solchen Modell erzeugt wurden. Besonders kritisch ist dies in Fällen, in denen Texte mit Missbrauchspotenzial erzeugt wurden, oder wenn sich wie bereits angesprochenen ein Bias in Textdaten verfestigt. Dies geschieht beispielsweise dadurch, dass immer mehr einschlägige Texte erzeugt werden und wiederum zum Training neuer Modelle verwendet werden, die erneut eine Vielzahl an Texten erzeugen (Bender, et al., 2021).  今後、インターネット上に機械で生成されたテキストが多数存在するようになれば、そのようなモデルで生成されたデータでLLMを訓練しても、自己強化効果が生じないように注意する必要がある。特に、悪用される可能性のあるテキストが生成された場合や、すでに述べたように、テキストデータのバイアスが定着してしまった場合、このことは非常に重要である。例えば、より多くの関連するテキストが生成され、それが新しいモデルの訓練に使われ、再び大量のテキストが生成されるような場合に起こる(Bender, et al., 2021)。
3.4.2 Angriffe auf LLMs und spezifische Gegenmaßnahmen  3.4.2 LLMへの攻撃と具体的な対策 
Privacy Attacks  プライバシーに関する攻撃 
Es ist grundsätzlich möglich, Trainingsdaten durch gezielte Anfragen an ein LLM zu rekonstruieren. Dies kann insbesondere kritisch sein, wenn sensible Daten zum Training verwendet wurden (Carlini, et al., 2021).  原理的には、LLMに特定のクエリーを行うことで、学習データを再構築することが可能である。これは、機密性の高いデータが訓練に使用された場合に特に重要となる(Carlini, et al.、2021)。
Daten, die rekonstruiert werden könnten, sind beispielsweise Zuordnungen von persönlichen Daten (Telefonnummern, Adressen, Gesundheits-, Finanzdaten) zu Personen, aber auch z.B. sensible Firmeninterna oder Daten über das LLM selbst.  再構築可能なデータは、例えば、個人に対する個人データ(電話番号、住所、健康状態、財務データ)の関連付けだけでなく、例えば、機密性の高い企業内部やLLM自体に関するデータなどである。
Bei LLMs kann aufgrund der großen Menge an Trainingsdaten, die in der Regel automatisiert aus dem Internet gewonnen werden, nur schwer sichergestellt werden, dass sie keine Daten, die nur für eingeschränkte Zwecke veröffentlicht wurden, enthalten.  LLMの場合、通常インターネットから自動的に取得される訓練データが大量にあるため、制限された目的でのみ公開されたデータが含まれていないことを確認することは困難である。
Möglichkeiten zur Verminderung der Anfälligkeit für Privacy Attacks:  プライバシー攻撃に対する脆弱性を低減する方法 
•     Manuelle Auswahl oder automatische Filterung bzw. Anonymisierung von Daten, um keine sensiblen Informationen in die Trainingsdaten aufzunehmen  ・訓練データに機密情報が含まれないように,手動でデータを選択したり,自動的にフィルタリングや匿名化を行う。
•     Dopplungen aus den Trainingsdaten entfernen, da Dopplungen die Wahrscheinlichkeit einer möglichen Rekonstruktion erhöhen (Carlini, et al., 2021)  ・重複があると再構成の可能性が高まるため,訓練データから重複を取り除く(Carlini, et al., 2021)
•            Anwendung von Mechanismen, die Differential Privacy garantieren (eine ausführliche Diskussion zur Umsetzbarkeit bei unstrukturierten Daten, wie sie LLMs zugrunde liegen, findet sich in (Klymenko, et al., 2022))  ・差分プライバシーを保証するメカニズムを適用する(LLMの基礎となる非構造化データの実現可能性に関する詳細な議論については、(Klymenko, et al, 2022)を参照)。
•     Die Ausgabemöglichkeiten für ein LLM einschränken, sodass zu bestimmten Eingaben, die eindeutig auf das Rekonstruieren kritischer Daten abzielen, keine generierte Ausgabe, sondern stattdessen eine festgelegte Ausgabe („für diesen Zweck kann dieses Modell nicht verwendet werden“) erfolgt  ・LLMの出力可能性を制限し、明らかに重要なデータの再構築を目的とした特定の入力に対しては、生成された出力はなく、代わりに固定された出力(「この目的にはこのモデルは使えません」)があるようにする。
•     Zusätzliches Training, um das Modell darauf zu trainieren, bestimmte Ausgaben zu vermeiden (Stiennon, et al., 2020)  ・特定の出力を避けるようにモデルを訓練するための追加訓練(Stennon, et al., 2020)
•     Zugriff auf das Modell einschränken: Je weniger Zugriffsrechte Nutzende auf das Modell haben, desto schwerer ist es, zu bewerten, ob eine Ausgabe eine Rekonstruktion der Trainingsdaten oder eine „Erfindung“ des Modells ist  ・モデルへのアクセスを制限する:ユーザーがモデルに対して持つアクセス権が少ないほど,ある出力が訓練データの再構成なのか,モデルの「発明」なのかを評価するのが難しくなる。
•     Ist ein Training auf sensiblen Daten explizit notwendig (z.B. für spezifische Anwendungen im Gesundheits- oder Finanzwesen):  ・機密性の高いデータでの学習が明示的に必要な場合(例:医療や金融の特定のアプリケーション): 
•     Nutzerkreis einschränken  ・利用者の範囲を限定する
•     Generelle IT-Sicherheitsmaßnahmen beachten  ・一般的なITセキュリティ対策に準拠する
Adversarial Attacks und Indirect Prompt Injections  敵対的攻撃と間接的プロンプトインジェクション 
Angreifende können Texte absichtlich leicht verändern, sodass Menschen diese Änderung kaum oder gar nicht wahrnehmen und die Texte weiterhin richtig verstehen, LLMs sie jedoch nicht mehr in der gewünschten Weise verarbeiten können (Wang, et al., 2019). Dies kann zum Beispiel bei der Ausfilterung von unerwünschten Inhalten in Sozialen Medien oder bei der Spam-Erkennung problematisch sein.  攻撃者は意図的にテキストをわずかに変化させることができ、人間はその変化にほとんど気づかず、テキストを正しく理解し続けることができるが、LLMはもはや望ましい方法で処理することができません(Wang, et al.) これは、例えば、ソーシャルメディア上の不要なコンテンツをフィルタリングする場合や、スパム検出の場合などに問題となる可能性がある。
Besonders anfällig für veränderten Text sind Klassifikatoren. Das absichtliche Einbauen von „Rechtschreibfehlern“, die Verwendung von ähnlich aussehenden Zeichen (z.B. "$" statt "S"), die Verwendung von seltenen Synonymen, die nicht im Vokabular des LLM enthalten sind oder das Umformulieren von Sätzen können dazu führen, dass Klassifikatoren eine falsche Ausgabe tätigen. Andere Anwendungen, die für adversariale Angriffe (adversarial attacks) anfällig sein können, sind zum Beispiel Übersetzungsprogramme und Frage-Antwort-Modelle.   分類器は、改変されたテキストに対して特に脆弱である。意図的に「スペルミス」を含めたり、似ている文字を使ったり(「S」の代わりに「$」など)、LLMの語彙にない珍しい同義語を使ったり、文章を言い換えたりすると、分類器が誤った出力を出すことがある。その他、敵対的な攻撃を受けやすいアプリケーションとして、翻訳プログラムや質問応答モデルなどがある。 
Auch ohne böswilliges Interesse kann eine stark fehlerhafte Eingabe denselben Effekt haben. Die im Folgenden genannten Maßnahmen helfen auch in diesem Fall.     悪意がなくても、誤りの多い入力があれば、同じような効果が期待できる。この場合にも、後述の対策が有効である。   
Möglichkeiten zur Verminderung der Anfälligkeit für adversariale Angriffe:  敵対的攻撃への脆弱性を減らす方法 
•     Modell mit realen oder möglichst realistischen Daten trainieren oder fine-tunen, damit Eigenheiten der üblichen Eingabetexte (z.B. Verwendung bestimmter Begriffe oder Schreibweisen) gelernt werden  ・実データまたはできるだけ現実的なデータでモデルを訓練または微調整し、通常の入力テキストの特殊性(特定の用語や綴りの使用など)を学習させる。
•     Vorverarbeitung des möglicherweise adversarialen Textes (Erkennung und Korrektur)  ・敵対する可能性のあるテキストの前処理(検出と修正)。
•     Rechtschreibprüfung/ Detektion unbekannter Wörter (Wang, et al., 2019)  ・スペルチェック/未知語の検出(Wang, et al., 2019)
•     Automatische Rechtschreibkorrektur  ・スペルの自動修正
•     Einsatz bildverarbeitender Methoden, um der Täuschung des Modells durch die Verwendung ähnlich aussehender Zeichen vorzubeugen (Eger, et al., 2019)  ・画像処理手法の利用により,見た目が似ている文字を使ってモデルを欺くことを防ぐ(Eger, et al., 2019)
•     Verbesserung des Modells  ・モデルの改良
•     Training mit manipulierten/ veränderten Texten durchführen („Adversarial Training“) (Wang, et al., 2019)  ・操作/改変されたテキストを用いた訓練(「敵対的訓練」)を実施する(Wang, et al., 2019) 
•     Clustering von Word-Embeddings, damit semantisch ähnliche Wörter für das Modell gleich dargestellt werden (Jones, et al., 2020)  ・意味的に類似した単語がモデルにとって同じように表現されるように,単語埋め込みをクラスタリングする(Jones, et al., 2020)
•     Einbindung einer externen Wissensbasis, die z.B. Synonymlisten enthält (Li, et al., 2019)  ・例えば同義語リストを含む外部知識ベースを組み込む(Li, et al.、2019)。
•     In Spezialfällen ist die Verwendung von als robust zertifizierten Modellen, also solchen Modellen, die mathematisch garantieren, dass hinreichend kleine Veränderungen der Eingabe keine Änderung der Ausgabe hervorrufen, möglich (eine Betrachtung verschiedener Ansätze für eine Umsetzung im Bereich LLMs bietet (Wang, et al., 2019))  ・特別なケースでは、堅牢と認定されたモデル、すなわち入力の十分に小さな変化が出力の変化を引き起こさないことを数学的に保証するモデルの使用が可能である(LLMの分野における実装への異なるアプローチに関する考察は、(Wang, et al., 2019)により提供されている)。
Ein Spezialfall von adversarialen Angriffen ist die sogenannte indirekte Prompteinspeisung (indirect prompt injection) (Greshake, et al., 2023). Hierbei platzieren Angreifende beispielsweise wie unter (3.2.1 Anfälligkeit für "versteckte" Eingaben mit manipulativer Absicht) beschrieben versteckte Eingaben in Texten, auf die ein LLM zugreift, mit dem Ziel, den weiteren Chatverlauf zu manipulieren, um ein bestimmtes Verhalten bei Endnutzenden zu erreichen. Besonders kritisch ist dieser Angriff, wenn LLMs die Möglichkeit haben, externe Plug-Ins aufzurufen, über die sie beispielsweise Zugriff auf weitergehende Funktionalitäten erlangen. In diesen Anwendungsfällen ist es Angreifenden sogar möglich, schadhafte Aktionen (z.B. das Versenden von E-Mails im Namen des Opfers oder das Auslesen von Daten) ohne eine Manipulation der Interaktion mit Endnutzenden durchzuführen.   敵対的攻撃の特殊なケースとして、いわゆる間接的なプロンプト注入がある(Greshake, et al.、2023)。例えば、(3.2.1 操作意図を持つ「隠された」入力に対する脆弱性)で説明したように、攻撃者は、エンドユーザの特定の行動を達成するために、チャットのさらなる経過を操作する目的で、LLMによってアクセスされたテキストに隠された入力を置く。この攻撃は、LLMが外部プラグインを呼び出す可能性があり、それによってさらなる機能へのアクセスを得る場合など、特に重要である。このような使用例では、エンドユーザーとのやり取りを操作することなく、攻撃者が悪意のある行動(被害者に代わって電子メールを送信したり、データを読み取ったりする等)を実行することも可能である。 
Da Angreifende in diesem Szenario lediglich die normale Funktionsweise eines LLM ausnutzen, ist es schwer, Maßnahmen gegen diese Art von Angriffen zu finden. Die einzige Maßnahme, die sicher vor indirekten Prompteinspeisungen schützen kann, ist ein Einschränken (Destillieren) eines LLM auf die konkret benötigte Aufgabe. Dadurch geht allerdings ein Großteil der generellen Funktionsfähigkeit des LLM verloren.  このシナリオの攻撃者は、LLMの正常な機能を悪用しているだけなので、この種の攻撃に対する対策を見つけるのは困難である。間接的なプロンプトから安全に保護できる唯一の対策は、LLMを必要な特定のタスクに限定(distil)することである。しかし、これはLLMの一般的な機能の大部分が失われることを意味します。
Folgende Maßnahmen können in Einzelfällen zur Verminderung der Anfälligkeit für indirekte Prompteinspeisungen führen:  個々のケースでは、以下のような対策により、間接的なプロンプトインフィードの影響を受けにくくすることができる: 
•     Das Ausführen bestimmter Aktionen z.B. das Aufrufen von Plug-Ins durch das LLM nur nach expliziter Zustimmung von Endnutzenden z.B. über einen Bestätigungs-Button ermöglichen  ・LLMによるプラグインの呼び出しなど、特定のアクションの実行を、エンドユーザーからの明示的な同意(例:確認ボタンなど)のみで可能にする。
•     Die Ausgaben eines Modells auf Eingaben, die eindeutig eine Manipulationsabsicht haben, unterbinden (Filterung der Eingaben)  ・明らかに操作の意図がある入力に対するモデルの出力を防止する(入力のフィルタリング)
•     Zusätzliches Training, um das Modell darauf zu trainieren, bestimmte Ausgaben zu vermeiden (Stiennon, et al., 2020)  ・特定の出力を避けるようにモデルを訓練するための追加訓練(Stennon, et al., 2020)
Poisoning Attacks  ポイズニング攻撃 
Wie bereits diskutiert, bestimmen die zum Training verwendeten Daten maßgeblich die Funktionalität eines LLM. Viele dieser Daten stammen aus öffentlichen Quellen oder werden sogar während des Betriebes aus den Eingaben der Nutzer erhoben, sodass sich Möglichkeiten zur Manipulation der Funktionalität eröffnen (Wallace, et al., 2020). Hierbei ergibt sich eine Vielzahl an Angriffsmöglichkeiten.  先に述べたように、学習に使用するデータは、LLMの機能を大きく左右する。このデータの多くは公開されているものであり、また運用中にユーザーの入力から収集されることもあるため、機能を操作するチャンスが広がっている(Wallace, et al.、2020)。この点では、さまざまな攻撃機会が発生する。
Öffentliche Textquellen sind oft thematisch, regional oder institutionell begrenzt und werden von öffentlichen Stellen oder Bildungseinrichtungen betrieben (Wikipedia, Digital Public Library of America, Europeana, PubMed Central, corpus.byu.edu etc.). Allein die Auswahl dieser Quellen bedingt schon eine kulturelle Vorprägung der Textinhalte. Die Institutionen sind aber auch häufig offen zugänglich, nicht immer sicherheitstechnisch geschützt und können durch geschicktes Social Engineering, traditionelles Hacking von Webseiten und Umlenkung von Links manipuliert werden. So können Daten im Speicherort ausgetauscht oder zugefügt oder auch erst beim Download zugemischt werden. Da große Datenmengen zum Training verwendet werden, können sie höchstens statistisch überprüft werden. Hierfür existieren allerdings noch keine Standards.  公開されているテキストソースは、テーマ別、地域別、機関別に限定されていることが多く、公的機関や教育機関によって運営されている(Wikipedia、Digital Public Library of America, Europeana, PubMed Central, corpus.byu.edu, etc)。これらのソースの選択だけで、テキストコンテンツに文化的なバイアスがかかっていることを意味する。しかし、これらの機関はオープンアクセスであることも多く、必ずしもセキュリティで保護されているわけではなく、巧妙なソーシャルエンジニアリングや従来のウェブサイトのハッキング、リンクのリダイレクトによって操作することができる。例えば、データを交換したり、その場所で追加したり、あるいはダウンロード中に混入させたりすることも可能である。訓練には大量のデータが使われるため、できることといえば、統計的にチェックすることくらいである。しかし、これにはまだ基準がない。
Neben den ursprünglichen Trainingsdaten werden aber über teilweise öffentliche Code-Datenbanken auch Modelle ausgetauscht, die bereits trainiert sind und für einen bestimmten Anwendungsfall nur nachtrainiert werden. Auch diese Modelle sind vielfältigen Manipulationsmöglichkeiten unterworfen. Die Vielzahl an beteiligten Einzelpersonen und Unternehmen macht es schwierig, einen bestimmten Urheber für Schwachstellen in einem Modell verantwortlich zu machen, und undokumentierte Lieferketten können frühzeitig mit einem sogenannten Bias versehene Modelle zu einer Gefahr machen, die kaum erkannt werden kann. Solche Manipulationsmöglichkeiten können mit zunehmendem technischen Know-How besser versteckt werden.  また、オリジナルの訓練データだけでなく、一部公開されているコードデータベースを通じて、すでに訓練され、特定のアプリケーションのためだけに再訓練されたモデルも交換される。これらのモデルもまた、さまざまな操作の可能性を持っている。多数の個人や企業が関わっているため、モデルの弱点について特定の発信者の責任を問うことは難しく、文書化されていないサプライチェーンにより、早い段階でいわゆるバイアスがかかったモデルが提供されることは、ほとんど発見できない危険性がある。このような操作の機会は、技術的なノウハウが増えるにつれて、よりよく隠されるようになる。
Einige Chatbots können auch die Daten, die während der Interaktion mit Endnutzenden entstehen, zur Lenkung der weiteren Kommunikation verwenden. Dies kann Auswirkungen auf die generelle Funktionsweise des LLM haben, wenn das LLM ein Bewertungsmodell auf Basis von RLHF (Stiennon, et al., 2020) verwendet und die Bewertungen von Ausgaben durch Nutzende als gewünscht oder unerwünscht zum weiteren Training dieses Bewertungsmodells genutzt werden (Shi, et al., 2023). Damit sind auch Manipulationen durch eine massive gezielte Nutzung mit anschließender Bewertung möglich.  また、チャットボットの中には、エンドユーザーとの対話中に生成されたデータを使って、さらなるコミュニケーションを導くことができるものもある。これは、LLMがRLHFに基づく評価モデルを使用し(Stiennon, et al., 2020)、ユーザーによる支出の望ましいまたは望ましくないという評価が、この評価モデルをさらに訓練するために使用される場合、LLMの一般機能に影響を与えることができる(Shi, et al., 2023)。これはまた、大規模な目標使用とそれに続く評価による操作を可能にする。
LLMs interagieren zunehmend über APIs mit anderer Software und können zusätzlich auf diesem Weg manipuliert werden. Ebenso können Schwachstellen in den Modellen dadurch vermehrt auf andere digitale Vorgänge (Verwaltung, Finanzen, Handel) Auswirkungen haben. Die Vernetzung der verschiedenen Anwendungen mit LLMs verläuft sehr schnell, sodass eine Kontrolle der Einfluss nehmenden Daten immer schwieriger wird.  LLMは、APIを介して他のソフトウェアと相互作用することが多くなっており、さらにこのような方法で操作することができる。同様に、モデルの脆弱性は、他のデジタルプロセス(行政、金融、貿易)に影響を与える可能性がある。LLMを使った様々なアプリケーションのネットワーク化は非常に速く、影響するデータを制御することはますます難しくなっている。
Möglichkeiten zur Verminderung der Anfälligkeit für Poisoning Angriffe:  ポイズニング攻撃に対する脆弱性を低減する方法: 
•     Vertrauenswürdige Quellen als Trainingsdaten verwenden  ・訓練データとして信頼できるソースを使用する
•     Für die menschliche Bewertung im Rahmen eines RLHF auf geschultes und vertrauenswürdiges Personal zurückgreifen und dieses mit klaren Richtlinien ausstatten  ・RLHFの人間評価には,訓練を受けた信頼できる担当者を使用し,明確なガイドラインを提供する。
•     Bewertungen intensiv analysieren, bevor sie Rückwirkungen auf das Modell bewirken  ・モデルへの影響が出る前に,評価を集中的に分析する。
•     Auswirkungen des Einsatzes auf ein kontrollierbares Feld beschränken  ・使用による影響を制御可能な範囲に限定する。
4 Zusammenfassung  4 まとめ 
Die Technologie hinter LLMs entwickelt sich aktuell schnell weiter. Damit einhergehend treten auch dynamisch neue Sicherheitsbedenken rund um die Entwicklung und Nutzung dieser Modelle auf.  LLMを支える技術は、現在急速に進化している。それに伴い、LLMの開発・利用をめぐる新たなセキュリティ上の懸念もダイナミックに顕在化している。
Unternehmen oder Behörden, die über die Integration von LLMs in ihre Arbeitsabläufe nachdenken, sollten eine Risikoanalyse für die Verwendung in ihrem konkreten Anwendungsfall durchführen. Die in diesem Dokument dargestellten Sicherheitsaspekte können dabei Anhaltspunkte liefern. Besondere Beachtung sollte den folgenden Aspekten geschenkt werden:  LLMをワークフローに組み込むことを検討している企業や政府機関は、特定のユースケースで使用するためのリスク分析を実施する必要がある。本書で紹介するセキュリティの側面は、ガイダンスとなり得る。特に、以下の点には注意が必要である: 
•     Bei der Nutzung eines LLM via externem API-Zugriff werden Daten durch den Bereitsteller des Modells verarbeitet und können von diesem gegebenenfalls weiterverwendet werden.[2]  ・外部APIアクセスによりLLMを使用する場合、データはモデルの提供者によって処理され、必要であればさらに使用することができる[2]。
•     Durch die Möglichkeit, auf Live-Daten aus dem Internet und gegebenenfalls Plug-Ins zuzugreifen, ergeben sich zusätzliche Sicherheitsrisiken bei der Nutzung von LLMs. Auf der anderen Seite ermöglicht sie zusätzliche Funktionen und den Zugriff auf aktuelle Informationen. Die Notwendigkeit dieser Funktionalitäten und mögliche Sicherheitsimplikationen sollten im Rahmen einer Risikoanalyse kritisch beurteilt und abgewogen werden.  ・インターネットや,場合によってはプラグインからライブデータにアクセスする可能性があるため,LLMを使用する際にさらなるセキュリティリスクが発生する。一方,LLMを使用することで,さらなる機能性と最新情報へのアクセスが可能になる。これらの機能の必要性とセキュリティへの影響の可能性は,リスク分析の一環として批判的に評価され,計量されるべきである。
•     LLMs können unangemessene, faktisch falsche oder sonstige unerwünschte Ausgaben tätigen. Weniger kritisch sind daher Anwendungsfälle, in denen eine Ausgabe in weiteren Verarbeitungsschritten durch Menschen evaluiert wird; besonders kritisch sind hingegen Anwendungsfälle zu bewerten, in denen die Ausgabe eines LLM unmittelbar mit Außenwirkung zur Verfügung gestellt wird.  ・LLMは,不適切な支出,事実と異なる支出,その他の望ましくない支出を行う可能性がある。したがって、出力がさらなる処理工程で人間によって評価されるような使用例は、あまり重要ではない。一方,特に重要なのは,LLMの出力が外部からの影響を受けて直接利用可能になるようなユースケースである。
Daneben sollten Unternehmen und Behörden die unter (3.3.1) genannten Missbrauchsszenarien dahingehend evaluieren, ob diese für ihre Arbeitsabläufe eine Gefahr darstellen. Darauf aufbauend sollten existierende Sicherheitsmaßnahmen angepasst und gegebenenfalls neue Maßnahmen ergriffen werden sowie Nutzende über die potenziellen Gefahren aufgeklärt werden.  さらに、企業や当局は、(3.3.1)で述べた誤用シナリオが、自社の業務プロセスにリスクをもたらすかどうかを判断するために評価すべきである。これに基づいて、既存のセキュリティ対策を適応させ、必要であれば新たな対策を講じるとともに、潜在的な危険性について利用者に周知する必要がある。

 

[1] Die MMLU multiple-choice Testbatterie (Hendrycks, et al., 2021) enthält 15908 Probleme aus 57 Wissensbereichen, deren Schwierigkeitsgrad von kinderleicht, bis hin zu Problemen, die auch für menschliche Fachleute schwierig sind, reicht. Die Publizierenden von (Hendrycks, et al., 2021) schätzen, dass eine Gruppe von menschlichen Fachleuten 90% der Fragen richtig beantworten würde. Die besten LLMs im Frühjahr 2019 haben 32% der Fragen richtig beantwortet (Hendrycks, et al., 2021) (Papers With Code, 2023), was nur wenig über dem Wert von 25% bei reinem Raten der jeweils 4 multiple-choice Antworten lag. Allerdings beträgt die Quote bei Laien in den akademischen Bereichen auch nur 34,5% (Hendrycks, et al., 2021). Das bis dahin beste Ergebnis konnte im Oktober 2022 das LLM Flan-PaLM von Google mit einer Quote von 75% richtigen Antworten erreichen (Papers With Code, 2023) (OpenAI, 2023). Das im März 2023 veröffentlichte GPT-4 Modell beantwortete 86,4% der Aufgaben korrekt (OpenAI, 2023). [1] MMLUの多肢選択式テストバッテリー(Hendrycks, et al., 2021)には、57の知識領域から15908の問題が含まれており、子供の遊びから人間の専門家でも難しい問題まで、さまざまな難易度がある。(Hendrycks, et al., 2021)の出版社は、人間の専門家グループが問題の90%を正解すると推定している。2019年春の最優秀LLMの正答率は32%(Hendrycks, et al., 2021)(Papers With Code, 2023)であり、いずれも多肢選択式4つの答えを純粋に推測した場合の25%という数字をわずかに上回る程度であった。ただし、学術分野の素人の場合も34.5%にとどまっている(Hendrycks, et al., 2021)。これまでの最高成績は、2022年10月にGoogleのLLM「Flan-PaLM」が達成したもので、正解率は75%だった(Papers With Code, 2023)(OpenAI、2023)。2023年3月に公開されたGPT-4モデルは、86.4%のタスクに正答した(OpenAI, 2023)。
[2] siehe auch „Kriterienkatalog für KI-Cloud-Dienste – AIC4“  [2] "AIクラウドサービスのための基準カタログ-AIC4 "も参照。
(https://www.bsi.bund.de/DE/Themen/Unternehmen-und-Organisationen/Informationen-undEmpfehlungen/Kuenstliche-Intelligenz/AIC4/aic4_node.html) und „Kriterienkatalog Cloud Computing C5“ (https://www.bsi.bund.de/DE/Themen/Unternehmen-und-Organisationen/Informationen-und-Empfehlungen/Empfehlungen-nach-Angriffszielen/Cloud-Computing/KriterienkatalogC5/kriterienkatalog-c5_node.html) (https://www.bsi.bund.de/DE/Themen/Unternehmen-und-Organisationen/Informationen-undEmpfehlungen/Kuenstliche-Intelligenz/AIC4/aic4_node.html)、"Criteria Catalogue Cloud Computing C5"(https://www.bsi.bund.de/DE/Themen/Unternehmen-und-Organisationen/Informationen-und-Empfehlungen/Empfehlungen-nach-Angriffszielen/Cloud-Computing/KriterienkatalogC5/kriterienkatalog-c5_node.html)も参照。

 

参考文献...

Aggarwal, Akshay, et al. 2020. Classification of Fake News by Fine-tuning Deep Bidirectional Transformers based Language Model. EAI Endorsed Transactions on Scalable Information Systems. 2020.

Almodovar, Crispin, et al. 2022. Can language models help in system security? Investigating log anomaly detection using BERT. Proceedings of the The 20th Annual Workshop of the Australasian Language Technology Association. 2022.

Bender, Emily, et al. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM conference on fairness, accountability, and transparency. 2021.

BSI. 2022. Die Lage der IT-Sicherheit in Deutschland 2022. 2022.

Bubeck, Sébastien, et al. 2023. Sparks of Artificial General Intelligence: Early experiments with GPT-4. 2023.

Carlini, Nicholas, et al. 2021. Extracting Training Data from Large Language Models. 30th USENIX Security Symposium (USENIX Security 21). 2021.

Chen, Mark, et al. 2021. Evaluating Large Language Models Trained on Code. 2021.

Cyber Security Agency of Singapore. 2023. ChatGPT - Learning Enough to be Dangerous. 2023.

Danilevsky, Marina, et al. 2020. A survey of the state of explainable AI for natural language processing. 2020.

Eger, Steffen, et al. 2019. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems. 2019.

Eikenberg, Ronald. 2023. ChatGPT als Hacking-Tool: Wobei die KI unterstützen kann. c't Magazin. [Online] 02. Mai 2023. https://www.heise.de/hintergrund/ChatGPT-als-Hacking-Tool-Wobei-die-KI-unterstuetzenkann-7533514.html .

Europäische Kommission. 2021. Proposal for a regulation of the european parliament and of the council - Laying down harmonised rules on artificial intelligence (artificial intelligence act) and amending certain union legislative acts. 2021.

Europol. 2023. ChatGPT - The impact of Large Language Models on Law Enforcement. 2023.

Gehrmann, Sebastian, Strobelt, Hendrik und Rush, Alexander. 2019. GLTR: Statistical Detection and Visualization of Generated Text. 2019.

Greshake, Kai, et al. 2023. More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models. 2023.

Han, Luchao, Zeng, Xuewen und Song, Lei. 2020. A novel transfer learning based on albert for malicious network traffic classification. International Journal of Innovative Computing, Information and Control. 2020.

Hendrycks, Dan, et al. 2021. Measuring Massive Multitask Language Understanding. ICLR 2021. 2021.

Insikt Group. 2023. I, Chatbot. Cyber Threat Analysis, Recorded Future. 2023.

Jones, Erik, et al. 2020. Robust Encodings: A Framework for Combating Adversarial Typos. 2020.

Kirchenbauer, John, et al. 2023. A watermark for large language models. 2023.

Kirchner, Jan Hendrik, et al. 2023. New AI classifier for indicating AI-written text. [Online] 02. Mai 2023. https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text.

Klymenko, Oleksandra, Meisenbacher, Stephen und Matthes, Florian. 2022. Differential Privacy in Natural Language Processing: The Story So Far. 2022.

Lee, Yukyung, Kim, Jina und Kang, Pilsung. 2021. System log anomaly detection based on BERT masked language model. 2021.

Li, Alexander Hanbo und Sethy, Abhinav. 2019. Knowledge Enhanced Attention for Robust Natural Language Inference. 2019.

Mitchell, Eric, et al. 2023. Detectgpt: Zero-shot machine-generated text detection using probability curvature. 2023.

Mozafari, Marzieh, Farahbakhsh, Reza und Crespi, Noël. 2019. A BERT-based transfer learning approach for hate speech detection in online social media. Complex Networks and Their Applications VIII: Volume 1 Proceedings of the Eighth International Conference on Complex Networks and Their Applications. 2019.

OpenAI. 2023. GPT-4 Technical Report. [Online] 02. Mai 2023. https://cdn.openai.com/papers/gpt-4.pdf.

Papers With Code. 2023. Multi-task Language Understanding on MMLU. [Online] 02. Mai 2023. https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu .

Pearce, Hammond, et al. 2022. Asleep at the keyboard? Assessing the security of github copilot’s code contributions. IEEE Symposium on Security and Privacy (SP). 2022.

Shi, Jiawen, et al. 2023. BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT. 2023.

Stiennon, Nisan, et al. 2020. Learning to summarize with human feedback. In Advances in Neural Information Processing Systems. Advances in Neural Information Processing Systems 33 (NeurIPS 2020). 2020.

Tian, Edward. 2023. GPTZero. [Online] 02. Mai 2023. https://gptzero.me/.

Wallace, Eric, et al. 2020. Concealed Data Poisoning Attacks on NLP Models. 2020.

Wang, Wenqi, et al. 2019. A survey on Adversarial Attacks and Defenses in Text. 2019.

Weidinger, Laura, et al. 2022. Taxonomy of Risks posed by Language Models. 2022.

Yaseen, Qussai und AbdulNabi, Isra'a. 2021. Spam email detection using deep learning techniques. Procedia Computer Science. 2021.

Zellers, Rowan, et al. 2019. Defending against neural fake news. Advances in neural information processing systems. 2019.

 

|

« OECD デジタル政府レビュー :トルコ | Main | 研究開発戦略センター 研究開発の俯瞰報告書(2023年) »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« OECD デジタル政府レビュー :トルコ | Main | 研究開発戦略センター 研究開発の俯瞰報告書(2023年) »