英国 科学技術省データ倫理・イノベーションセンター 「AIシステムをより公平にするために、人口統計データへの責任あるアクセスを可能にする」
こんにちは、丸山満彦です。
英国の科学技術省データ倫理・イノベーションセンター が「AIシステムをより公平にするために、人口統計データへの責任あるアクセスを可能にする」という報告書を公表していますね。。。
バイアスと減らし、できる限り公平性が担保されたAIとするための施策の一つということなのでしょうかね。。。
● Gov.UK - Department for Science, Innovation and Technology - Centre for Data Ethics and Innovation; CDEI
・2023.06.17 Enabling responsible access to demographic data to make AI systems fairer
Enabling responsible access to demographic data to make AI systems fairer | AIシステムをより公平にするために、人口統計データへの責任あるアクセスを可能にする |
The CDEI has published a report on approaches to accessing demographic data for bias detection and mitigation. | CDEIは、バイアスの検出と緩和のための人口統計データへのアクセスのアプローチに関する報告書を発表した。 |
[HTML] Report: Enabling responsible access to demographic data to make AI systems fairer | 報告書: AIシステムをより公平にするために、人口統計データへの責任あるアクセスを可能にする |
[PDF] Annex 1: Deltapoll public attitudes report | 附属書1:Deltapoll 国民意識調査報告書 |
[PDF] Annex 2: Frazer Nash technical study | 附属書2:Frazer Nash 技術調査 |
Details | 詳細 |
Over the last year, CDEI has been exploring the challenges around access to demographic data for detecting and mitigating bias in AI systems, and the potential of novel solutions to address these challenges. Organisations who use artificial intelligence (AI) systems should monitor the outcomes of these systems to ensure they are fair. However, many techniques for detecting and mitigating bias in AI systems rely on access to data about the demographic traits of service users, and many service providers struggle to access the data they need. In a period where algorithmic bias has been a major focus in academia and industry, approaches to data access have received relatively little attention, despite often being highlighted as a major constrain | CDEIは昨年来、AIシステムにおけるバイアスを検出・軽減するための人口統計データへのアクセスに関する課題と、これらの課題に対処するための新規ソリューションの可能性を探ってきた。人工知能(AI)システムを使用する組織は、これらのシステムの結果が公正であることを確認するために監視する必要がある。しかし、AIシステムにおけるバイアスを検出・軽減するための多くの技術は、サービス利用者の人口統計学的特性に関するデータへのアクセスに依存しており、多くのサービスプロバイダーが必要なデータへのアクセスに苦労している。アルゴリズムによるバイアスが学界や産業界で大きな注目を集める中、データアクセスへのアプローチは、しばしば大きな制約として強調されているにもかかわらず、比較的注目されていない。 |
This report sets out the main barriers service providers face when seeking to collect demographic data for bias detection and mitigation, and explores two promising groups of novel approaches to addressing some of them: data intermediaries and proxies. | 本報告書では、バイアスの検出と緩和のために人口統計データを収集しようとする際にサービスプロバイダーが直面する主な障壁を示し、その一部に対処するための2つの有望な新規アプローチ、すなわちデータ仲介者と代理人について検討する。 |
This report has been informed by the work that CDEI has conducted over the last year, including a landscape review, a public attitudes study commissioned from Deltapoll, a technical study commissioned from Frazer Nash, and four workshops with legal and ethical experts. We are grateful for all those who have contributed to this work. | 本報告書は、CDEIが昨年実施した、ランドスケープレビュー、Deltapoll社に依頼した市民意識調査、Frazer Nash社に依頼した技術調査、法律・倫理専門家との4回のワークショップなどの作業から得られたものである。この作業に貢献したすべての人々に感謝する。 |
Next steps | 次のステップ |
This report has been published alongside the announcement of CDEI’s Fairness Innovation Challenge. This will support organisations in their efforts to implement the proposed fairness principle set out in the UK government’s AI White Paper. The challenge will provide an opportunity to test new ideas for addressing AI fairness challenges in collaboration with government and regulators. We hope that it will generate innovative new approaches to addressing some of the data access challenges described in this report. | 本報告書は、CDEIのFairness Innovation Challengeの発表と同時に発行された。このチャレンジは、英国政府のAI白書で提案されたフェアネス原則を実施するための組織を支援するものである。このチャレンジは、政府や規制当局と協力して、AIの公平性の課題に取り組むための新しいアイデアをテストする機会を提供するものである。本報告書に記載されているデータアクセスの課題のいくつかに対処するための革新的な新しいアプローチを生み出すことを期待している。 |
・2023.06.14 Report: Enabling responsible access to demographic data to make AI systems fairer
目次的なもの...
1. Executive summary | 1. エグゼクティブサマリー |
2. Introduction | 2. 序文 |
2.1 Aims of this publication | 2.1 本書のねらい |
2.2 Why should service providers address bias in AI systems? | 2.2 なぜサービスプロバイダーはAIシステムのバイアスに対処すべきなのか? |
3. Barriers and risks | 3. 障壁とリスク |
3.1 Barriers | 3.1 障壁 |
Concerns around public trust | 社会的信用をめぐる懸念 |
Navigating regulatory compliance | 規制コンプライアンスに対応する |
Data collection expertise | データ収集の専門知識 |
3.2 Risks | 3.2 リスク |
Privacy | プライバシー |
Misrepresentation | 誤認識 |
Data theft or misuse | データの盗難や悪用 |
4. Novel approaches | 4. 斬新なアプローチ |
4.1 Data intermediaries | 4.1 データ仲介者 |
What is a data intermediary? | データ仲介とは何か? |
What could a demographic data intermediary look like? | 人口統計データの仲介者はどのような存在になり得るか? |
Potential benefits | 想定されるメリット |
Potential data intermediary models | データ仲介の可能なモデル |
Barriers and risks | 障壁とリスク |
Conclusions | 結論 |
4.2 Proxies | 4.2 代理者 |
What are proxies? | 代理者とは何であろうか。 |
Existing proxy methods and tools | 既存の代理者メソッドとツール |
Potential benefits | 想定されるメリット |
Barriers and risks | 障壁とリスク |
Legal risk | 法的リスク |
Accuracy | 正確性 |
Privacy | プライバシー |
Transparency and user autonomy | 透明性とユーザーの自主性 |
Public trust | 社会的信頼 |
Accessibility | アクセス性 |
Data quality | データの品質 |
Using proxies responsibly | 責任ある代理者の利用 |
5. Enabling a better landscape | 5. より良い状況を実現する |
5.1 Role of government and regulators | 5.1 政府と規制当局の役割 |
5.2 Role of service providers | 5.2 サービスプロバイダの役割 |
5.3 Role of researchers and civil society | 5.3 研究者と市民社会の役割 |
1. Executive summary | 1. エグゼクティブサマリー |
The use of artificial intelligence (AI), and broader data-driven systems, is becoming increasingly commonplace across a variety of public and commercial services.[footnote 1] With this, the risks associated with bias in these systems have become a growing concern. Organisations deploying such technologies have both legal and ethical obligations to consider these risks. The White Paper on AI Regulation, published in March 2023, reinforced the importance of addressing these risks by including fairness as one of five proposed key regulatory principles to guide and inform the responsible development and use of AI. | 人工知能(AI)やより広範なデータ駆動型システムの利用は、様々な公共・商業サービスにおいてますます一般的になりつつある。このような技術を導入する組織には、これらのリスクを考慮する法的・倫理的な義務がある。2023年3月に発表されたAI規制白書では、AIの責任ある開発と利用を導き、知らせるための5つの主要な規制原則案の1つとして公平性を含めることで、これらのリスクに対処することの重要性を強化した。 |
Many approaches to detecting and mitigating bias require access to demographic data. This includes characteristics that are protected under the Equality Act 2010, such as age, sex, and race, as well as other socioeconomic attributes.[footnote 2] | バイアスを検出し緩和するための多くのアプローチでは、人口統計データへのアクセスが必要である。これには、年齢、性別、人種など、2010年平等法で保護されている特性や、その他の社会経済的属性が含まれる[脚注2]。 |
However, many organisations building or deploying AI systems struggle to access the demographic data they need. Organisations face a number of practical, ethical, and regulatory challenges when seeking to collect demographic data for bias monitoring themselves, and must ensure that collecting or using such data does not create new risks for the individuals that the data refers to. | しかし、AIシステムを構築または展開する多くの組織は、必要な人口統計データへのアクセスに苦労している。組織は、バイアスモニタリングのための人口統計データを自ら収集しようとする場合、実用的、倫理的、規制上の多くの課題に直面し、そうしたデータの収集や使用が、そのデータが参照する個人に新たなリスクを生じさせないことを保証しなければならない。 |
There is growing interest in the potential of novel approaches to overcome some of these challenges. These include techniques to generate synthetic training data that is more representative of the demographics of the overall population, as well as a variety of governance or technical interventions to enable more responsible data access. | このような課題を克服するための新しいアプローチの可能性に関心が高まっている。これには、全人口の人口動態をより代表する合成トレーニングデータを生成する技術や、より責任あるデータアクセスを可能にするための様々なガバナンスや技術的介入が含まれる。 |
Access to demographic data to address bias is important for those working across the AI lifecycle, including organisations developing, deploying and regulating AI. This report primarily explores approaches with the potential to assist service providers, i.e. those who are deploying data-driven systems (including AI) to offer a service, to responsibly access data on the demographics of their users to assess for potential bias. This has led us to focus on two contrasting sets of promising data access solutions: data intermediaries and proxies. Of course, these approaches may have relevance to other parties. However, we have not considered in detail techniques such as synthetic generation of training data, which are specifically relevant to developers. | バイアスに対処するための人口統計データへのアクセスは、AIを開発、導入、規制する組織など、AIのライフサイクルに関わる人々にとって重要である。本報告書では、主にサービスプロバイダー、すなわちデータ駆動型システム(AIを含む)を導入してサービスを提供する者が、潜在的なバイアスを評価するためにユーザーのデモグラフィックに関するデータに責任を持ってアクセスできるよう支援する可能性のあるアプローチを検討する。このため、我々は、有望なデータアクセスソリューションとして、データ仲介者と代理者という対照的な2つのセットに注目することになった。もちろん、これらのアプローチは、他の関係者にも関連性がある可能性がある。しかし、特に開発者に関連する学習データの合成生成のような技術については、詳しく検討していない。 |
Data intermediary is a broad term that covers a range of different activities and governance models for organisations that facilitate greater access to or sharing of data.[footnote 3] The National Data Strategy identified data intermediaries as a promising area to enable greater use and sharing of data, and CDEI has previously published a report exploring the opportunities they present. | データ仲介とは、データへのアクセスや共有を促進する組織の様々な活動やガバナンスモデルをカバーする広い用語である[脚注 3] 国家データ戦略では、データ仲介をデータの利用や共有を拡大するための有望な分野と位置づけ、CDEIは以前、彼らがもたらす機会を探る報告書を発表している。 |
There is potential for various forms of data intermediary to help service providers collect, manage and/or use demographic data. Intermediaries could help organisations navigate regulatory complexity, better protect user autonomy and privacy, and improve user experience and data governance standards. However, the overall market for data intermediaries remains nascent, and to our knowledge there are currently no intermediaries offering this type of service in the UK. This gap may reflect the difficulties of being a first mover in this complex area, where demand is unclear and the risks around handling such data require careful management. | サービスプロバイダーが人口統計データを収集、管理、利用するのを支援する様々な形態のデータ仲介の可能性がある。仲介者は、組織が規制の複雑さを回避し、ユーザーの自律性とプライバシーをより良く保護し、ユーザーエクスペリエンスとデータガバナンスの基準を改善するのを助けることができる。しかし、データ仲介の市場全体はまだ発展途上であり、我々の知る限り、この種のサービスを提供する仲介業者は現在英国に存在しない。このギャップは、需要が不明確で、データの取り扱いに関するリスクに慎重なマネジメントが必要なこの複雑な分野で、最初に参入することの難しさを反映しているのかもしれない。 |
If gathering demographic data is difficult, another option is to attempt to infer it from other proxy data already held. For example, an individual’s forename gives some information about their gender, with the accuracy of the inference highly dependent on context, and the name in question. There are already some examples of service providers using proxies to detect bias in their AI systems.[footnote 4] | 人口統計データの収集が困難な場合、すでに保有されている他の代理データから推論する方法もある。例えば、個人の姓名から性別に関する情報が得られるが、その推論の精度は文脈や当該姓名に大きく依存する。サービスプロバイダーがAIシステムのバイアスを検出するために代理者を使用している例がすでにいくつかある[脚注4]。 |
Proxies have the potential to offer an approach to understanding bias where direct collection of demographic data is not feasible. In some circumstances, proxies can enable service providers to infer data that is the source of potential bias under investigation, which is particularly useful for bias detection.[footnote 5] Methods that draw inferences at higher levels of aggregation could enable bias analysis without requiring service providers to process individually-identifiable demographic data. | 代理者は、人口統計データの直接収集が不可能な場合に、バイアスを理解するためのアプローチを提供する可能性を持っている。状況によっては、代理者によってサービスプロバイダーが調査中の潜在的なバイアスの元となるデータを推論することができ、バイアス検出に特に有効である[脚注5]。 より高いレベルの集計で推論を行う方法は、サービスプロバイダーが個人を特定できるデモグラフィックデータを処理しなくてもバイアス分析を可能にするかもしれない。 |
However, significant care is needed. Using proxies does not avoid the need for compliance with data protection law. Inferred demographic data (and in some cases proxy data itself) will likely fall under personal or special categories of data under the UK GDPR. Use of proxies without due care can give rise to damaging inaccuracies and pose risks to service users’ privacy and autonomy, and there are some cases in which the use of proxies is likely to be entirely inappropriate. Inferring demographic data for bias detection using proxies should therefore only be considered in certain circumstances, such as when bias can be more accurately identified using a proxy than information about an actual demographic characteristic, where inferences are drawn at a level of aggregation that means no individual is identifiable, or where no realistic better alternative exists. In addition, proxies should only be used with robust safeguards and risk mitigations in place. | しかし、かなりの注意が必要である。代理者を使用しても、データ保護法の遵守の必要性を回避することはできない。推測される人口統計データ(および場合によっては代理者データ自体)は、おそらく英国GDPRの個人データまたは特別なカテゴリのデータに該当することになる。適切な注意を払わない代理人の使用は、有害な不正確さを生じさせ、サービス利用者のプライバシーと自律性にリスクをもたらす可能性があり、代理人の使用が完全に不適切であると思われるケースもある。したがって、代理者を用いたバイアス検出のための人口統計データの推測は、実際の人口統計的特性に関する情報よりも代理者を用いた方がより正確にバイアスを特定できる場合、個人が特定できない集計レベルで推測が行われる場合、現実的に優れた代替手段が存在しない場合など、特定の状況でのみ検討されるべきである。さらに、代理者は、強固な保護措置とリスク軽減措置が講じられている場合にのみ使用されるべきである。 |
In the short term, direct collection of demographic data is likely to remain the best option for many service providers seeking to understand bias. It is worth emphasising that, in most circumstances, organisations are able to legally collect most types of demographic data for bias detection provided they take relevant steps to comply with data protection law. Where this is not feasible, use of proxies may be an appropriate alternative, but significant care is needed. | 短期的には、バイアスを理解しようとする多くのサービスプロバイダーにとって、人口統計学的データの直接収集が最善の選択肢であり続けるであろう。ほとんどの状況において、組織はデータ保護法を遵守するために関連する措置を講じれば、バイアス検出のためにほとんどのタイプの人口統計データを合法的に収集できることを強調する価値がある。これが実行不可能な場合、代理人の利用が適切な代替手段となり得るが、大きな注意が必要である。 |
However, there is an opportunity for an ecosystem to emerge that offers better options for the responsible collection and use of demographic data to improve the fairness of AI systems. In a period where algorithmic bias has been a major focus in academia and industry, approaches to data access have received relatively little attention, despite often being highlighted as a major constraint. This report aims to highlight some of the opportunities for responsible innovation in this area. | しかし、AIシステムの公平性を向上させるために、人口統計データを責任を持って収集・利用するためのより良い選択肢を提供するエコシステムが出現する機会が存在する。アルゴリズムによるバイアスが学界や産業界で大きな焦点となっているこの時期、データアクセスへのアプローチは、しばしば大きな制約として強調されているにもかかわらず、比較的小さな注目を浴びている。本報告書は、この分野における責任あるイノベーションの機会を明らかにすることを目的としている。 |
This kind of ecosystem would be characterised by increased development and deployment of a variety of data access solutions that best meet the needs of service providers and service users, such as data intermediaries. This is one area that CDEI is keen to explore further through the Fairness Innovation Challenge announced in parallel to this report. | このようなエコシステムは、サービスプロバイダーやデータ仲介者などのサービス利用者のニーズに最適な、さまざまなデータアクセスソリューションの開発と展開の増加によって特徴づけられるだろう。この分野は、CDEIが本報告書と並行して発表した「フェアネス・イノベーション・チャレンジ」を通じてさらに探求していきたいと考えている。 |
However, this is only a partial answer to the genuine challenges in this area. Ongoing efforts by others to develop a robust data assurance ecosystem, ensure regulatory clarity, support research and development, and amplify the voices of marginalised groups are also crucial to enable a better landscape for the responsible use of demographic data. | しかし、これはこの分野における真の課題に対する部分的な答えに過ぎない。強固なデータ保証エコシステムの開発、規制の明確化、研究開発の支援、疎外された集団の声の増幅など、他の機関による継続的な取り組みも、人口統計データの責任ある利用をより良い形で実現するために不可欠である。 |
・[DOCX] 仮対訳
Comments