« ドイツ 連邦情報セキュリティー局 BSI 強化学習のセキュリティ概要 (2024.01.16) | Main | 米国 FTC プライバシーおよびデータ・セキュリティの法執行に関する協力強化のための多国間協定に署名 (2024.01.17) »

2024.01.24

英国 ICO 生成的AIとデータ保護に関する意見募集シリーズ1 ウェブスクレイピングの合法性の根拠 (2024.01.15)

こんにちは、丸山満彦です。

英国の情報コミッショナー事務局 (Information Commissioner's Office; ICO) が生成的AIとプライバシーに関する論点についての意見募集を始めていますね。。。第1弾は、ウェブから学習データを収集する際に個人情報が含まれうるわけですが、それは法的にはどういうことか???

 

U.K. Information Commissioner's Office; ICO

・2024.01.15 ICO consultation series on generative AI and data protection

 

生成的AIは新しい技術でもあり、そのメリットを享受するために社会に実装する際に、既存の法制度等との適合等を考える必要があるわけですが、検討すべき項目として、

  • 生成AIモデルをトレーニングするための適切な合法的根拠は何か?
  • 目的制限の原則は、ジェネレーティブAIの開発と展開の文脈でどのように作用するのだろうか?
  • 正確性の原則を遵守する上で、どのようなことが期待されているのか?
  • データ主体の権利の遵守という点で、どのようなことが期待されているか?

ということがあるとしていますね。。。

今回は、「生成AIモデルを訓練するためのウェブスクレイピングの合法的根拠」についてのICOの考え方と、それに対する意見募集が行われていますね。。。

ICOの考え方については、、、

・2024.01.15 Generative AI first call for evidence: The lawful basis for web scraping to train generative AI models

 

Generative AI first call for evidence: The lawful basis for web scraping to train generative AI models 生成的AI最初の証拠募集: 生成的AIモデルを訓練するためのウェブスクレイピングの合法的基礎
The background 背景
Collecting training data as part of the first stage of the generative AI lifecycle 生成的AIライフサイクルの最初の段階としての訓練データの収集
Developing a generative AI model involves several stages. The first steps are collecting and pre-processing the training data. The data is then used to train the base model. The base model is then fine-tuned for deployment in a specific context and its performance is evaluated. Regular feedback is provided for model improvement post-deployment. 生成的AIモデルの開発にはいくつかの段階がある。最初の段階は、学習データの収集と事前学習である。次に、このデータを使ってベースモデルを訓練する。その後、ベースモデルは特定のコンテキストに展開するために微調整され、そのパフォーマンスが評価される。展開後のモデル改善のために、定期的なフィードバックが提供される。
Figure 1: An indicative model development lifecycle. Some of the later steps may be interchangeable and iterative depending on the context. 図1:モデル開発のライフサイクルを示す。この後のステップの一部は、文脈によって入れ替わったり、反復したりすることができる。
1_20240124060901
Training data for generative AI: what is it and where does it come from? 生成的AIのための学習データ:それは何であり、どこから来るのか?
Most developers of generative AI rely on publicly accessible sources for their training data. Developers either collect training data directly through web scraping, indirectly from another organisation that have web-scraped data themselves, or by a mix of both approaches. In either approach, developers need to ensure the collection of the personal data they process to train models complies with data protection. 生成的AIの開発者のほとんどは、学習データを一般にアクセス可能なソースに頼っている。開発者は、ウェブスクレイピングによって直接学習データを収集するか、ウェブスクレイピングしたデータを持つ他の組織から間接的に収集するか、あるいは両方のアプローチをミックスして収集する。いずれのアプローチにおいても、開発者はモデルを訓練するために処理する個人データの収集がデータ保護に準拠していることを確認する必要がある。
What is web scraping? ウェブスクレイピングとは何か?
Web scraping involves the use of automated software to ‘crawl’ web pages, gather, copy and/or extract information from those pages, and store that information (e.g. in a database) for further use. The information can be anything on a website – images, videos, text, contact details, etc. ウェブスクレイピングとは、自動化されたソフトウェアを使用してウェブページを「クロール」し、それらのページから情報を収集、コピー、および/または抽出し、さらに使用するためにその情報を(データベースなどに)保存することである。情報とは、画像、動画、テキスト、連絡先など、ウェブサイト上のあらゆるものである。
Information scraped from internet environments such as blogs, social media, forum discussions, product reviews and personal websites contains personal data that individuals have placed there. It is important to note the internet also contains information that was not placed there by the person to whom it relates (eg discussion forums, leaked information etc). ブログ、ソーシャルメディア、フォーラムでの議論、製品レビュー、個人ウェブサイトなどのインターネット環境からスクレイピングされた情報には、個人がそこに置いた個人データが含まれている。インターネットには、その情報に関連する人物がそこに置いていない情報も含まれていることに注意することが重要である(例:ディスカッション・フォーラム、リーク情報など)。
What are the possible lawful bases for collecting training data? トレーニングデータ収集の合法的根拠にはどのようなものがあるか?
As part of complying with the lawfulness principle of data protection, developers need to ensure their processing: データ保護の合法性原則を遵守する一環として、開発者はその処理を確実にする必要がある:
(a) is not in breach of any laws; and (a) いかなる法律にも違反していない。
(b) has a valid lawful basis under UK GDPR. (b) 英国GDPRに基づく有効な合法的根拠がある。
The first aspect (a) will not be met if the scraping of personal data infringes other legislation outside of data protection such as intellectual property or contract law. 個人データのスクレイピングが、知的財産権や契約法など、データ保護以外の他の法律を侵害する場合、最初の側面(a)は満たされない。
To address point (b) and determine a lawful basis, generative AI developers need to consider the six lawful bases set out in Article 6(1) UK GDPR. Based on current practices, five of the six lawful bases are unlikely to be available for training generative AI on web-scraped data. (b)の点に対処し、合法的根拠を決定するために、生成的AI開発者は英国GDPR第6条(1)に規定されている6つの合法的根拠を検討する必要がある。現在の慣行に基づけば、6つの合法的根拠のうち5つは、ウェブスクレイピングされたデータで生成的AIを訓練する際に利用できる可能性は低い。
For this reason, this call for evidence focuses on the legitimate interests lawful basis (Article 6(1)(f) of the UK GDPR), which may apply in some circumstances. To meet the legitimate interests basis, the controller must pass the ‘three-part’ test 1 and demonstrate that: このため、今回の証拠募集では、状況によっては適用される可能性のある正当な利益の根拠(英国GDPR第6条1項(f))に焦点を当てる。正当な利益の根拠を満たすには、コントローラーは「3つのテスト」1に合格し、以下を実証しなければならない:
1. the purpose of the processing is legitimate; 1.処理の目的が正当である;
2. the processing is necessary for that purpose; and 2.処理がその目的のために必要である。
3. the individual’s interests do not override the interest being pursued. 3.個人の利益は、追求される利益に優先しない。
In more detail – ICO guidance on legitimate interest: 詳しくは、正当な利益に関するICOのガイダンスを参照のこと:
Legitimate interests 正当な利益
Our analysis 我々の分析
Is legitimate interests a valid lawful basis for training generative AI models on web-scraped data? 正当な利益は、ウェブスクレイピングされたデータで生成的AIモデルをトレーニングするための有効な合法的根拠となるか?
Legitimate interests can be a valid lawful basis for training generative AI models on web-scraped data, but only when the model’s developer can ensure they pass the three-part test. In order to do that they can undertake a variety of actions, which we will explore below. 正当な利益は、ウェブスクレイピングされたデータで生成的AIモデルを訓練するための有効な合法的根拠となり得るが、モデルの開発者が3つのテストに合格することを保証できる場合に限られる。そのために、開発者は様々な行動をとることができる。
Purpose test: is there a valid interest? 目的テスト:有効な関心はあるか?
As controllers for the generative AI model training, developers need to identify a legitimate interest for processing the web-scraped personal data in the first place. Despite the many potential downstream uses of a model, they need to frame the interest in a specific, rather than open-ended way, based on what information they can have access to at the time of collecting the training data. 生成的AIモデル学習のコントローラーとして、開発者はそもそもウェブスクレイピングされた個人データを処理する正当な利益を特定する必要がある。モデルの下流での使用には多くの可能性があるにもかかわらず、開発者は、トレーニングデータの収集時にアクセス可能な情報に基づき、自由形式ではなく、具体的な方法で利益を設定する必要がある。
The developer’s interest could be the business interest in developing a model and deploying it for commercial gain, either on their own platform or bringing it into the market for third parties to procure. There may also be wider societal interests related to the applications that the models could potentially power – but in order to rely on these the developer must be able to evidence the model’s specific purpose and use. 開発者の関心とは、モデルを開発し、商業的利益を得るために、自社のプラットフォームで、あるいはサードパーティが調達できるように市場に導入することである。また、モデルが潜在的に力を発揮しうるアプリケーションに関連する、より広範な社会的利益もありうる。しかし、これらに依拠するためには、開発者はモデルの特定の目的と用途を証明できなければならない。
The key question is this: if you don’t know what your model is going to be used for, how can you ensure its downstream use will respect data protection and people’s rights and freedoms? 重要なのは次のような点である。もし自分のモデルが何に使われるのかわからないのであれば、その川下での利用がデータ保護と人々の権利と自由を尊重するものであることをどうやって保証できるのか?
Developers who rely on broad societal interests need to ensure that those interests are actually being realised rather than assumed, by applying appropriate controls and monitoring measures on the use of the generative AI models they build on web-scraped data. 広範な社会的利益に依存する開発者は、ウェブスクレイピングされたデータに基づいて構築された生成的AIモデルの使用に適切なコントロールと監視手段を適用することで、それらの利益が仮定されたものではなく、実際に実現されていることを保証する必要がある。
Necessity test: is web scraping necessary given the purpose? 必要性テスト:ウェブスクレイピングは目的から見て必要か?
The necessity test is a factual assessment that asks whether the processing is necessary to achieve the interest identified in the purpose test. The ICO’s understanding is that currently, most generative AI training is only possible using the volume of data obtained though large-scale scraping. 必要性テストは、目的テストで特定された利益を達成するために処理が必要かどうかを問う事実評価である。ICOの理解では、現在、ほとんどの生成的AIのトレーニングは、大規模なスクレイピングによって得られる大量のデータを用いてのみ可能である。
Even though future technological developments may provide novel solutions and alternatives, currently there is little evidence that generative AI could be developed with smaller, proprietary databases. We welcome views on this point. 将来の技術開発が斬新な解決策や代替策を提供する可能性があるとしても、現在のところ、生成的AIが小規模な独自のデータベースを用いて開発できるという証拠はほとんどない。この点に関する意見を歓迎する。
Balancing test: do individuals’ rights override the interest of the generative AI developer? バランステスト:個人の権利は生成的AI開発者の利益に優先するか?
If a controller has established there is a legitimate purpose is using web-scraped data for generative AI training, and the processing is necessary for that purpose, the final step is to assess the impact on individuals and identify whether the interests, rights and freedoms of those individuals override those pursued by the controller or third parties. コントローラーが、生成的AIのトレーニングのためにウェブスクレイピングされたデータを使用することに正当な目的があり、その目的のために処理が必要であることを立証した場合、最後のステップは、個人への影響を評価し、それらの個人の利益、権利、自由が、コントローラーまたはサードパーティが追求するものに優先するかどうかを特定することである。
Collecting data though web-scraping is an ‘invisible processing’ activity, where people are not aware their personal data is being processed in this way. This means people may lose control over how and what organisations process their personal data or become unable to exercise the information rights granted by UK data protection law. Invisible processing and AI related processing are both seen as high-risk activities that require a DPIA under ICO guidance.2 ウェブスクレイピングによるデータ収集は「目に見えない処理」であり、人々は自分の個人データがこのように処理されていることに気づかない。つまり、人々はどの組織がどのように個人データを処理しているのかコントロールできなくなったり、英国のデータ保護法で認められている情報の権利を行使できなくなったりする可能性がある。目に見えない処理とAIに関連する処理は、ICOのガイダンスのもと、DPIAを必要とする高リスクの活動とみなされている2。
How do individuals’ interests play out in the balancing test? 個人の利益はどのようにバランステストに反映されるのか?
There is a growing literature on the risks and harms of generative AI models. 3, 4 Individuals whose data is scraped for generative AI development can experience harm, either related to the collection of the training data or because of the use of the generative AI model. These harms can manifest in two ways: 生成的AIモデルのリスクと有害性に関する文献は増えている3, 4。3, 4 生成的AI開発のためにデータをスクレイピングされた個人は、学習データの収集に関連して、あるいは生成的AIモデルの使用のために、被害を経験する可能性がある。これらの危害は2つの方法で現れる可能性がある:
Upstream risks and harms: For example, people may lose of control over their personal data, 5 as they are not informed of its processing and therefore are prevented from exercising their information rights or evaluate the impact of that processing on them, including its fairness. 上流リスクと危害: 例えば、人々は自分の個人データに対するコントロールを失う可能性がある。5 というのも、人々はその処理について知らされていないため、情報の権利を行使したり、その処理の公正さを含む自分への影響を評価したりすることができないからである。
Downstream risks and harms: For example, generative AI models can be used to generate inaccurate information about people 6 resulting in distress 7 , 8 or reputational harm, be used by hackers 9 deploying social engineering tactics to generate phishing emails 10 tailored to individuals or undertake other adversarial attacks 11. 下流のリスクと危害: 例えば、生成的AIモデルは、人々に関する不正確な情報を生成するために使用され、その結果、苦痛7、8や風評被害をもたらしたり、ソーシャル・エンジニアリング戦術を展開するハッカー9に使用され、個人に合わせたフィッシング・メール10を生成したり、その他の敵対的攻撃11を行ったりする可能性がある。
Further reading さらに読む
What are the individual’s ‘interests, rights and freedoms’? 個人の「利益、権利、自由」とは何か?
What is the importance of reasonable expectations? 合理的な期待の重要性とは何か?
Risk mitigations to consider in the balancing test バランステストにおいて考慮すべきリスク低減
There are a number of considerations that may help generative AI developers pass the third part of the legitimate interests test, relevant to both the development and deployment of a model. 生成的AI開発者が正当な利益テストの3番目の部分をパスするのに役立つかもしれない考慮事項が、モデルの開発と展開の両方に関連していくつかある。
The extent to which generative AI developers can mitigate downstream harms during deployment depends on the way in which the models are put into the market. 生成的AI開発者が展開中に下流の損害をどの程度軽減できるかは、モデルが市場に投入される方法に依存する。
Generative AI models deployed by the initial developer 最初の開発者によって導入された生成的AIモデル
Where a generative AI model developer deploys the model on its own platform, the expectation is they can exercise complete control over how the generative AI model is used. If the developer relies on the public interest of the wider society for the first part of the test, in order to pass the entire test they should still be able to: 生成的AIモデルの開発者が自身のプラットフォーム上にモデルを展開する場合、生成的AIモデルがどのように使用されるかを完全にコントロールできることが期待される。もし開発者がテストの最初の部分でより広い社会の公益に依存していたとしても、テスト全体に合格するためには、開発者は以下のことができるはずである:
control and evidence whether the generative AI model is actually used for the stated wider societal benefit; 生成的AIモデルが、より広い社会の利益のために実際に使用されるかどうかをコントロールし、証明する;
assess risks to individuals (both in advance during generative AI development and as part of ongoing monitoring post-deployment); and 個人に対するリスクアセスメント(生成的AI開発中、および導入後の継続的モニタリングの一環として)。
implement technical and organisational measures to mitigate risks to individuals. 個人に対するリスクを低減するための技術的・組織的措置を実施すること。
Generative AI models deployed by a third-party (not the initial developer), through an API (最初の開発者ではない)サードパーティによりAPIを通じて展開された生成的AIモデル
Another route to generative AI model deployment is for the developer to make the model available via an API to a third-party. In this context, the third party does not have their own copy of the underlying generative AI model but can query it through the API, feeding into it their own data. This is sometimes referred to as a ‘closed-source’ approach. 生成的AIモデル展開のもう一つのルートは、開発者がAPIを通じてサードパーティにモデルを提供することである。この場合、サードパーティは基盤となる生成的AIモデルの独自のコピーを持たないが、APIを通じてクエリーを実行し、独自のデータを投入することができる。これは「クローズド・ソース」アプローチと呼ばれることもある。
In this case, the initial generative AI developer can seek to ensure that the third party’s deployment is in line with the legitimate interest identified at the generative AI training phase, by implementing technical (eg output filters, etc) and organisational controls over that specific deployment. この場合、最初の生成的AI開発者は、サードパーティの展開が、生成的AIのトレーニング段階で特定された正当な利益に沿ったものであることを、その特定の展開に対して技術的(例えば出力フィルタなど)および組織的な管理を実施することで保証しようとすることができる。
For example, API access can be used to limit queries (preventing those likely to result in risks or harms to individuals) and to monitor the use of the model. Contractual restrictions and measures could also be used to support this, with the developer legally limiting the ways in which the generative AI model can be used by its customers. We are interested in hearing more about mitigation measures and how their efficacy is evaluated and documented. 例えば、APIアクセスは、クエリーアクセスの制限(個人へのリスクや危害をもたらす可能性の高いクエリーの防止)やモデルの使用の監視に使用することができる。契約上の制限や措置も、これをサポートするために使用することができ、開発者は生成的AIモデルがその顧客によって使用される方法を法的に制限することができる。我々は、低減策と、その有効性がどのように評価され文書化されるかについて、より多くの情報を得たいと考えている。
Generative AI models provided to third parties 生成的AIモデルのサードパーティへの提供
If copies or extensive details (eg model weights, starting code, etc) of the underlying generative AI models are made available by the initial developer to third parties, developers are expected to have much less control over how the model will be used downstream. In these cases (sometimes referred to as an ‘open-source’ approach), customers typically run their own instance of the generative AI model. 基礎となる生成的AIモデルのコピーまたは広範な詳細(モデルの重み、開始コードなど)が、最初の開発者によってサードパーティに提供される場合、開発者はモデルが下流でどのように使用されるかについて、あまりコントロールできないと予想される。このような場合(「オープンソース」アプローチと呼ばれることもある)、顧客は通常、生成的AIモデルの独自のインスタンスを実行する。
Where the generative AI model has the capacity to be implemented in unlimited variety of downstream applications, its initial developers may not be able to restrict or monitor how the model is used and therefore its impact. This means they may have no way of knowing whether the potential broad societal interest identified at the initial training stage is being realised in practice. Additionally, where the third-party’s use of the model is unrestricted, articulating clearly and with precision the broad societal interest of developing the initial model could become extremely difficult, as the developer may not meaningfully know or monitor how the model will be used. 生成的AIモデルが無制限に様々な下流アプリケーションに展開できる能力を持つ場合、その最初の開発者は、モデルがどのように使用され、その結果どのような影響を与えるかを制限したり監視したりすることができない可能性がある。このことは、最初の訓練段階で特定された潜在的な広範な社会的関心が、実際に実現されているかどうかを知る方法がない可能性があることを意味する。加えて、サードパーティによるモデルの利用が制限されない場合、 開発者はモデルがどのように利用されるかを有意義に知ることも監視す ることもできないため、最初のモデルを開発することによる広範な社会的利益を 明確かつ正確に表現することが極めて困難になる可能性がある。
Contractual controls may mitigate this risk, though the developer would also need to evidence that any such controls are being complied with in practice" 契約による管理はこのリスクを軽減するかもしれないが、開発者は、そのような管理が実 際に遵守されていることを証明する必要もある。
Conclusion 結論
Training generative AI models on web scraped data can be feasible if generative AI developers take their legal obligations seriously and can evidence and demonstrate this in practice. 生成的AI開発者が法的義務を真摯に受け止め、それを実際に証明することができれば、ウェブスクレイピングされたデータで生成的AIモデルをトレーニングすることは実現可能である。
Key to this is the effective consideration of the legitimate interest test. Developers using web scraped data to train generative AI models need to be able to: その鍵となるのは、合法的利益テストを効果的に考慮することである。生成的AIモデルの学習にウェブスクレイプデータを使用する開発者は、以下のことができる必要がある:
・Evidence and identify a valid and clear interest. ・有効かつ明確な利益を証明し、特定する。
・Consider the balancing test particularly carefully when they do not or cannot exercise meaningful control over the use of the model. ・モデルの使用について意味のあるコントロールを行わない、または行えない場合は、特にバランステストを慎重に検討する。
・Demonstrate how the interest they have identified will be realised, and how the risks to individuals will be meaningfully mitigated, including their access to their information rights. ・特定した利益がどのように実現されるのか、また、個人の情報権利へのアクセスを含め、個人に対するリスクがどのように有意義に低減されるのかを実証する。

 

 

 

|

« ドイツ 連邦情報セキュリティー局 BSI 強化学習のセキュリティ概要 (2024.01.16) | Main | 米国 FTC プライバシーおよびデータ・セキュリティの法執行に関する協力強化のための多国間協定に署名 (2024.01.17) »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



« ドイツ 連邦情報セキュリティー局 BSI 強化学習のセキュリティ概要 (2024.01.16) | Main | 米国 FTC プライバシーおよびデータ・セキュリティの法執行に関する協力強化のための多国間協定に署名 (2024.01.17) »