欧州議会 シンクタンク AIと著作権 汎用AIのトレーニング (2025.04.23)
こんにちは、丸山満彦です。
汎用AIがモデルをトレーニングする際に大規模なデータが必要となるが、そのデータをウェブのクローリングで実施したりする場合に著作権で保護された資料が含まれる場合があります。そこで、著作権法との関係が気になるわけですが、、、
「著作権に関するEU指令2019/790」では、テキストマイニング等について、研究者向けに第3条、一般的に第4条で次のように定めていますね...
Article 3 | 第3条 |
Text and data mining for the purposes of scientific research | 科学研究を目的とするテキストマイニングおよびデータマイニング |
1. Member States shall provide for an exception to the rights provided for in Article 5(a) and Article 7(1) of Directive 96/9/EC, Article 2 of Directive 2001/29/EC, and Article 15(1) of this Directive for reproductions and extractions made by research organisations and cultural heritage institutions in order to carry out, for the purposes of scientific research, text and data mining of works or other subject matter to which they have lawful access. | 1. 加盟国は、科学研究を目的として、研究機関及び文化遺産機構が合法的なアクセス権を有する著作物又はその他の対象物のテキストマイニング及びデータマイニングを実施するために行う複製及び抽出について、指令96/9/ECの第5条(a)及び第7条(1)、指令2001/29/ECの第2条、並びに本指令の第15条(1)に規定される権利の例外を定めるものとする。 |
2. Copies of works or other subject matter made in compliance with paragraph 1 shall be stored with an appropriate level of security and may be retained for the purposes of scientific research, including for the verification of research results. | 2. 第1項に従って作成された著作物又はその他の主題の複製物は、適切な水準のセキュリ ティをもって保管されなければならず、かつ、研究結果の検証を含む科学的研 究の目的のために保管することができる。 |
3. Rightholders shall be allowed to apply measures to ensure the security and integrity of the networks and databases where the works or other subject matter are hosted. Such measures shall not go beyond what is necessary to achieve that objective. | 3. 権利者は、著作物又はその他の主題がホストされているネットワーク及びデータベースの安全性及び完全性を確保するための措置を適用することが許されるものとする。当該措置は、その目的を達成するために必要な範囲を超えるものであってはならない。 |
4. Member States shall encourage rightholders, research organisations and cultural heritage institutions to define commonly agreed best practices concerning the application of the obligation and of the measures referred to in paragraphs 2 and 3 respectively. | 4. 加盟国は、権利者、研究機関及び文化遺産機構に対し、それぞれ第2項及び第3項にいう義務及び措置の適用に関して共通に合意されたベスト・プラクティスを定めるよう奨励するものとする。 |
Article 4 | 第4条 |
Exception or limitation for text and data mining | テキストマイニングおよびデータマイニングの例外または制限 |
1. Member States shall provide for an exception or limitation to the rights provided for in Article 5(a) and Article 7(1) of Directive 96/9/EC, Article 2 of Directive 2001/29/EC, Article 4(1)(a) and (b) of Directive 2009/24/EC and Article 15(1) of this Directive for reproductions and extractions of lawfully accessible works and other subject matter for the purposes of text and data mining. | 1. 加盟国は、テキストマイニング及びデータマイニングを目的とする合法的にアクセス可能な著作物及びその他の対象物の複製及び抽出について、指令 96/9/ECの第5条(a)及び第7条(1)、指令 2001/29/ECの第2条、指令 2009/24/ECの第4条(1)(a)及び(b)、並びに本指令の第15条(1)に規定される権利の例外又は制限を定めるものとする。 |
2. Reproductions and extractions made pursuant to paragraph 1 may be retained for as long as is necessary for the purposes of text and data mining. | 2. 第1項に従って行われる複製及び抽出は、テキストマイニング及びデータマイニングの目的に必要な限り保持することができる。 |
3. The exception or limitation provided for in paragraph 1 shall apply on condition that the use of works and other subject matter referred to in that paragraph has not been expressly reserved by their rightholders in an appropriate manner, such as machine-readable means in the case of content made publicly available online. | 3. 第1項に規定する例外又は制限は、同項にいう著作物その他の主題の利用が、オンライン上で公に利用可能なコンテンツの場合には機械可読の手段など適切な方法で、その権利者によって明示的に留保されていないことを条件として適用されるものとする。 |
4. This Article shall not affect the application of Article 3 of this Directive. | 4. 本条は本指令の第3条の適用に影響しないものとする。 |
また、AI法においても第53条1(c)で著作権遵守ポリシーの策定や、(d)でトリーニングデータの概要の公開等が義務付けられていますね...
研究者たちは汎用AIのトレーニングに著作物を使用する際の法的制限と不確実性についての懸念が残っているという感じですかね...
今月中に欧州委員会から「General-Purpose AI Code of Practice」が公表される予定なので、その内容も確認しないとですかね...3月に第3次ドラフトが公表されています...
● European Parliament - Think Tank
・2025.04.23 AI and copyright: The training of general purpose AI
・[PDF]
AI and copyright: The training of general-purpose AI | AIと著作権 汎用AIのトレーニング |
To train their models, general-purpose AI (GPAI) providers need large datasets, which may include copyrighted materials. Despite the EU Directive 2019/790 on Copyright and the EU Artificial Intelligence (AI) Act, researchers have identified legal limitations and uncertainty in the use of copyrighted materials for GPAI training. | 汎用AI(GPAI)プロバイダはモデルをトレーニングするために大規模なデータセットを必要とするが、これには著作権で保護された資料が含まれる場合がある。著作権に関するEU指令2019/790とEU人工知能(AI)法にもかかわらず、研究者たちはGPAIのトレーニングに著作物を使用する際の法的制限と不確実性を指摘している。 |
Training GPAI | GPAIのトレーニング |
AI models able to perform a wide range of distinct tasks, such as OpenAI’s GPT models, are known as general-purpose AI (GPAI), and are each trained on a very large amount of data. The European AI Act legally defines GPAI, using factors such as capabilities, characteristics, and number of end-users. This definition comprises what are also known as generative AI models or foundation models. The latest GPAI models are multimodal, meaning they can work with different types of content. Moreover, current state-of-the-art GPAI are termed 'reasoning models, as they are able to 'reason' step by step. OpenAI’s o3-mini model and DeepSeek’s R1 model are examples of recently released reasoning models. | OpenAIのGPTモデルのような、幅広い明確なタスクを実行できるAIモデルは、汎用AI(GPAI)として知られ、それぞれ非常に大量のデータでトレーニングされる。欧州AI法は、能力、特性、エンドユーザーの数などの要素を用いて、GPAIを法的に定義している。この定義は、生成的AIモデルや基礎モデルとも呼ばれるものを構成している。最新のGPAIモデルはマルチモーダルモデルであり、異なるタイプのコンテンツを扱うことができる。さらに、現在の最先端のGPAIは、段階的に「推論」することができるため、「推論モデル」と呼ばれている。OpenAIのo3-miniモデルやDeepSeekのR1モデルは、最近リリースされた推論モデルの一例である。 |
GPAI models rely on deep learning techniques, which involve training the internal parameters of the model using data. The construction of datasets for training starts with the collection stage. In practice, this often relies on freely available online materials. OpenAI’s GPT-4o model was trained using data including publicly available data. Mistral’s 7b model was also trained with data from the web. Providers have generally maintained confidentiality around the exact data used to train their models, considering it a key part of their competitive edge. On the other hand, rights-holders fear losing control over their content. Various pending lawsuits outside the EU, listed by researchers, claim that GPAI training data contains copyrighted materials. | GPAIモデルはディープラーニング技術に依存しており、データを使ってモデルの内部パラメータをトレーニングする。トレーニング用のデータセットの構築は、収集段階から始まる。実際には、自由に利用できるオンライン素材に頼ることが多い。OpenAIのGPT-4oモデルは、公開されているデータを含むデータを使ってトレーニングされた。Mistralの7bモデルもウェブ上のデータで学習された。プロバイダは一般的に、モデルの学習に使用した正確なデータの機密性を維持しており、それが競争力の重要な部分であると考えている。一方、権利保有者はコンテンツの管理権を失うことを恐れている。GPAIのトレーニングデータには著作物が含まれているとして、研究者が挙げたEU域外の様々な係争中の訴訟がある。 |
EU copyright law and the AI Act | EU著作権法とAI法 |
To find publicly available web data to train GPAI, providers use web crawlers – programmes that autonomously navigate the web in order to perform a defined set of actions. OpenAI’s crawlers are known as GPTBot. Web crawlers have been used for years by companies such as Google, whose Googlebots crawl the web to index content for their search engine. As highlighted by researchers, the emergence of the web 'created unprecedented challenges and opportunities for copyright holders', although international copyright law has been changed to some extent to adapt to the Information Age. | GPAIをトレーニングするために一般に公開されているウェブデータを見つけるために、プロバイダはウェブクローラー(定義された一連のアクションを実行するために自律的にウェブをナビゲートするプログラム)を使用する。OpenAIのクローラーはGPTBotとして知られている。ウェブクローラーは、グーグルなどの企業で長年使用されてきた。グーグルボットは、検索エンジンにコンテンツをインデックスするためにウェブをクロールする。研究者によって強調されたように、ウェブの出現は「著作権者にとって前例のない挑戦と機会を生み出した」。 |
Copyright law grants exclusive economic and moral rights to authors, such as the right to reproduce, distribute, communicate to the public, and make available to the public. With the Information Society Directive (Directive 2001/29), the EU created an exception for temporary acts of reproduction as part of a technological process (Article 5(1)). The EU Copyright Directive (Directive 2019/790) added two new exceptions for ‘text and data mining’ (TDM) purposes (Articles 3 and 4). TDM is defined as 'any automated analytical technique aimed at analysing text and data in digital form in order to generate information which includes but is not limited to patterns, trends and correlations'. The exceptions allow, under specific conditions, the reproduction and extraction of protected works for TDM purposes. Performing such acts would otherwise constitute violations of certain rights under copyright and database law. | 著作権法は、著作者に、複製権、頒布権、公衆への伝達権、公衆の利用に供する権利など、排他的な経済的権利と著作者人格権を認めている。EUは情報社会指令(指令2001/29)で、技術的プロセスの一環としての一時的な複製行為について例外を設けた(第5条1項)。EU著作権指令(指令2019/790)では、「テキスト・データマイニング」(TDM)目的の2つの新しい例外が追加された(第3条と第4条)。TDMは「パターン、傾向、相関関係を含むがこれに限定されない情報を生成するために、デジタル形式のテキストやデータを分析することを目的とした自動分析技術」と定義されている。例外は、特定の条件下で、TDMの目的で保護された著作物を複製・抽出することを認めている。このような行為を行うことは、そうでなければ著作権法やデータベース法に基づく特定の権利の侵害を構成することになる。 |
The European AI Act has two provisions related to copyright (Article 53(1)(c) and (d)). The first requires GPAI providers to comply with copyright law and the opt-out exception of the Copyright Directive, which authorises TDM as long as rights-holders do not express their refusal. It concerns any provider placing a GPAI on the EU market, ‘regardless of the jurisdiction in which the copyright-relevant acts underpinning the training of those general-purpose AI models take place’ (recital 106). The second provision requires GPAI providers to make public a sufficiently detailed summary explaining the content used for training. Those requirements apply to providers of GPAI with or without systemic risks. To facilitate compliance with the regulation, the Commission is due to release a GPAI Code of Practice in May 2025. | 欧州AI法には、著作権に関する2つの規定がある(第53条1項(c)および(d))。一つ目は、GPAIプロバイダが著作権法および著作権指令のオプトアウト例外を遵守することを要求するもので、権利者が拒否を表明しない限りTDMを許可するものである。この規定は、GPAIをEU市場に上市するプロバイダに関係するもので、「それらの汎用AIモデルのトレーニングを支える著作権関連の行為が行われる法域に関係なく」(前文106)。第二の規定は、GPAIのプロバイダに対し、トレーニングに使用されたコンテンツを説明する十分詳細な要約を公表することを求めている。これらの要件は、システミックリスクの有無にかかわらず、GPAIのプロバイダに適用される。規制の遵守を促進するため、欧州委員会は2025年5月にGPAI実施規範を発表する予定である。 |
Problem of copyrighted materials in GPAI training< | GPAIトレーニングにおける著作権物の問題< |
According to researchers, the EU legislation does not yet fully address issues related to AI models and intellectual property law. The core issue is the potential presence of copyrighted materials in GPAI training datasets. Researchers have therefore been trying to assess to what extent copyright exceptions permit the reproduction of works for GPAI training. They believe the existing Copyright Directive’s TDM exceptions are not clear enough, thus legal limitations and uncertainty remain problematic. | 研究者によると、EUの法律は、AIモデルと知的財産権法に関する問題にまだ十分に対処していないという。中心的な問題は、GPAIのトレーニングデータセットに著作権で保護された素材が含まれている可能性があることだ。そのため研究者たちは、著作権の例外がGPAIトレーニングのための著作物の複製をどの程度認めているかをアセスメントしようとしている。彼らは、既存の著作権指令のTDMの例外は十分に明確でないと考えており、そのため法的制限と不確実性が依然として問題となっている。 |
Uncertainty and limitations with the legal framewor |
法的枠組みの不確実性と限界 |
The two TDM exceptions only cover specific rights protected under copyright law. However, exceptions to other rights, such as the right of communication to the public, could be needed. Indeed, researchers argue that the right of communication to the public could be triggered by enabling public access to GPAI models that produce outputs with substantial portions of copyright-protected works. | つのTDM例外は、著作権法で保護されている特定の権利のみを対象としている。しかし、公衆へのコミュニケーションの権利など、他の権利に対する例外が必要になる可能性もある。実際、研究者たちは、著作権で保護された著作物のかなりの部分を含む出力を生成するGPAIモデルへの一般アクセスを可能にすることによって、公衆へのコミュニケーションの権利が引き起こされる可能性があると主張している。 |
Regarding the two exceptions themselves, researchers identified legal uncertainties in using them to train GPAI models with copyright-protected materials. | 2つの例外そのものについて、研究者らは、著作権で保護された素材を用いてGPAIモデルをトレーニングするために例外を使用する際の法的不確実性を指摘した。 |
The first exception for reproduction and extraction of works authorises research organisations and cultural heritage institutions to perform TDM for the purposes of scientific research and under lawful access (Article 3, Copyright Directive). There are two issues with claiming this exception for GPAI training. Firstly, researchers expressed concerns over its technical applicability. Indeed, rights-holders can implement technological protection measures (TPM) – such as restrictive application programming interfaces limiting requests – to control TDM, which would prevent researchers from fully exercising their right. Secondly, the ambiguity surrounding the 'lawful access' condition further complicates the practical application of the exception. In this context, stakeholders could be better to conclude licensing agreements than to rely on the exception. As noted by stakeholders, several Member States have broadened the legal framework for scientific research in their transposition of the Directive. They have extended the exception to include communication to the public, in addition to reproduction and extraction. | 著作物の複製と抽出に関する第一の例外は、研究機関や文化遺産機構が、科学的研究を目的として、合法的なアクセスの下でTDMを行うことを認めている(著作権指令第3条)。この例外をGPAIのトレーニングに適用することには2つの問題がある。第一に、研究者はその技術的な適用可能性に懸念を表明した。実際、権利者はTDMを制御するために、要求を制限する制限的なアプリケーション・プログラミング・インターフェースなど、技術的保護手段(TPM)を実装することができる。第二に、「合法的なアクセス」という条件をめぐる曖昧さが、例外の実際の適用をさらに複雑にしている。この文脈では、関係者は例外に依存するよりも、ライセンス契約を締結した方がよいだろう。関係者が指摘するように、いくつかの加盟国は指令の移管にあたり、科学研究の法的枠組みを拡大している。これらの国は例外を拡大し、複製や抽出に加えて、公衆へのコミュニケーションも含めるようにした。 |
The second exception for reproduction and extraction of work authorises TDM as long as it 'has not been expressly reserved by their right holders in an appropriate manner, such as machine-readable means ...' (Article 4, Copyright Directive). This is known as the opt-out exception. Stakeholders have been debating the definition of ‘machine-readable’ and the duration for which reproductions of works can be kept. For ‘machine-readable’, GPAI providers support the adoption of an easy-to-access standardised file such as robot.txt. A recent German court case ruled that including the opt-out in ‘natural language’ – for instance in terms of use – qualifies as a machine-readable opt-out. Experts noted that this decision may be appealed 'given the fundamental legal issues involved and the ambiguity of the law ...'. Researchers added that the opt-out mechanism is likely to fail whenever rights-holders do not have the administrative rights for the webpage displaying their works, as they cannot add the opt-out themselves. Regarding the duration for which reproductions of works can be kept, the exception allows it for as long as needed for TDM. However, GPAI providers may need them for further processes such as evaluating models. | 著作物の複製と抽出に関する第二の例外は、「機械読み取り可能な手段などの適切な方法で、権利者によって明示的に留保されていない」限り、TDMを認めている(著作権指令第4条)。これはオプトアウトの例外として知られている。関係者は、「機械可読」の定義と著作物の複製を保存できる期間について議論してきた。「機械可読」については、GPAIプロバイダはrobot.txtのようなアクセスしやすい標準化されたファイルの採用を支持している。最近のドイツの裁判では、オプトアウトを「自然言語」(例えば利用規約)に含めることが、機械可読のオプトアウトとして適格であるとの判断が下された。専門家は、この判決は「基本的な法的問題と法律の曖昧さを考慮すれば」控訴される可能性があると指摘している。研究者たちは、オプトアウトの仕組みは、権利者が自分の著作物を表示するウェブページの管理者権限を持たない場合、オプトアウトを自分で追加することができないため、失敗する可能性が高いと付け加えた。著作物の複製物の保存期間については、例外的にTDMに必要な期間だけ保存することが認められている。しかし、GPAIプロバイダは、モデルの評価などのさらなるプロセスのために複製物を必要とする可能性がある。 |
Potential next steps | 次のステップの可能性 |
A number of Member States set up a Copyright Infrastructure Task Force in 2023 to assist the Commission in finding solutions. Meanwhile, the Council of the EU published a summary in December 2024 of the Member States’ views on the issue. Several Member States state that ‘copyright uses for AI training go beyond the scope of the TDM exception’. The majority considers that introducing a legislative instrument is not necessary at this stage, prioritising implementation and monitoring of the existing legal framework. | 多くの加盟国が2023年に著作権インフラ・タスクフォースを立ち上げ、欧州委員会が解決策を見出すのを支援している。一方、EU理事会は2024年12月、この問題に関する加盟国の見解の概要を発表した。いくつかの加盟国は、「AIトレーニングのための著作権利用はTDM例外の範囲を超えている」と述べている。大多数は、現段階では法的手段の導入は必要ないと考えており、既存の法的枠組みの実施と監視を優先している。 |
Commissioner Henna Virkkunen suggested in October 2024 that the Commission should investigate if specific licensing mechanisms would facilitate the conclusion of licences between creative industries and AI companies. Unlike the Copyright Directive’s requirements on certain uses of protected content by online services, the AI Act does not mention licensing agreements in the context of GPAI training. | ヘンナ・ヴィルクネン委員は2024年10月、欧州委員会は、特定のライセンス・メカニズムがクリエイティブ産業とAI企業間のライセンス締結を促進するかどうかを調査すべきであると提案した。オンラインサービスによる保護されたコンテンツの特定の使用に関する著作権指令の要件とは異なり、AI法はGPAIトレーニングの文脈でのライセンス契約には言及していない。 |
While the AI Act’s GPAI Code of Practice will not have the mandate to change the EU copyright framework, this guidance could be an intermediate step before the review of the Copyright Directive, set by law for June 2026. A revised Copyright Directive could address the identified limitations and uncertainties in training GPAI using copyright-protected works. | AI法のGPAI実践規範は、EUの著作権の枠組みを変更する権限は持たないが、この指針は、2026年6月に法律で定められた著作権指令の見直しの前の中間的なステップとなる可能性がある。著作権指令が改正されれば、著作権で保護された著作物を使用したGPAIのトレーニングにおける識別された限界や不確実性に対処することができる。 |
● まるちゃんの情報セキュリティ気まぐれ日記
・2025.03.29 欧州委員会 汎用AI実践規範の第3ドラフトを発表 (2025.03.11)
・2025.03.13 欧州委員会 AI法における汎用AIモデル - Q&A (2025.03.10)
・2025.02.08 欧州委員会 規則(EU)2024/1689(AI法)が定める人工知能の禁止行為に関する欧州委員会ガイドライン
・2024.12.22 欧州委員会 汎用AI実践規範の第2ドラフトを発表 (2024.12.19)
・2024.12.06 欧州委員会 AI法における汎用AIモデル - Q&A (2024.11.20)
・2024.11.17 欧州委員会 汎用AI実践規範の最初のドラフトを発表 (2024.11.14)
・2024.10.30 欧州 AI法の調和標準の策定について...
・2024.09.08 欧州評議会 AI条約の署名開始... (2024.09.05)
・2024.08.05 欧州AI法が施行された... (2024.08.01)
・2024.07.19 ドイツ BfDI フランス CNIL オランダ AP EU AI法関連
・2024.07.16 EU 2024.07.12にAI法がEU官報に掲載された
・2024.05.22 EU 欧州理事会がAI法を承認...まもなく発効されますね...
・2024.03.19 欧州議会 AI法 (2024.03.13) とサイバーレジリエンス法を採択 (2024.03.12)
・2023.12.10 欧州委員会、欧州議会がAI法について政治的合意
・2022.12.08 EU理事会 AI法に関する見解を採択
・2022.09.30 欧州委員会 AI責任指令案
・2021.12.05 欧州理事会 AI法改正案を欧州議会に提出
・2021.08.08 EU議会 BRIEFING 人工知能法 at 2021.07.26
・2021.04.24 欧州委員会がAIへの規制を提案 → 欧州データ保護官は歓迎するけど、公共空間での遠隔生体認証についての規制も入れてね
« 英国 レジリエンスアカデミー 演習ベストプラクティス・ガイダンスと教訓管理ベストプラクティス・ガイダンス (2024.09.30) | Main | 英国 内閣府 アンバー・ブック:中央政府における危機管理 Ver.3(2025.04.28) »
Comments