世界経済フォーラム (WEF) データの公平性 生成的AIのための基礎概念
こんにちは、丸山満彦です。
世界経済フォーラム (WEF) が「データの公平性 生成的AIのための基礎概念」という報告書を公表していますね。。。
公平性を主に4つの視点で考えていますね。。。
・表現上の公平性
・特徴上の公平性
・アクセス上の公平性
・結果の公平性
● World Economic Forum - Report
・2023.10.17 Data Equity: Foundational Concepts for Generative AI
Data Equity: Foundational Concepts for Generative AI | データの公平性 生成的AIのための基礎概念 |
This briefing paper focuses on data equity within foundation models, both in terms of the impact of Generative AI (genAI) on society and on the further development of genAI tools. | 本ブリーフィングペーパーは、生成的AI(genAI)が社会に与える影響と、genAIツールのさらなる開発の両面から、基礎モデルにおけるデータの公平性に焦点を当てる。 |
This white paper sheds light on recent advances in the field of generative AI, its potential and its application areas in manufacturing, and presents a new guidebook for harnessing the AI revolution in industrial operations. The guidebook describes the main considerations and steps of the journey – from defining the overarching objectives to identifying, building and scaling the relevant applications and required foundations, and staying at the forefront of AI innovations. | 本ホワイトペーパーは、生成的AI分野における最近の進歩、その可能性、製造業における応用分野に光を当て、産業オペレーションにおけるAI革命を活用するための新しいガイドブックを提示する。本ガイドブックでは、包括的な目標の定義から、関連するアプリケーションや必要な基盤の特定、構築、拡張、AIイノベーションの最前線にとどまることまで、その道のりにおける主な検討事項とステップについて説明している。 |
・[PDF]
目次...
Introduction | 序文 |
1 Classes of data equity | 1 データ公平性の分類 |
2 Data equity across the data lifecycle | 2 データライフサイクル全体におけるデータの公平性 |
3 Data equity challenges in foundation models | 3 基礎モデルにおけるデータ公平性の課題 |
4 Focus areas for key stakeholders | 4 主要関係者の重点分野 |
5 Discussion | 5 議論 |
Conclusion | 結論 |
Contributors | 協力者 |
Endnotes | 注 |
序文...
Introduction | 序文 |
Over the past several months, a series of technological advances have emerged as a result of generative artificial intelligence (genAI) tools, including ChatGPT, Bard, Midjourney, and Stable Diffusion. The use of these tools has gained significant attention and captured the imagination of public and industry stakeholders due to its capabilities, wide range of applications and ease of use. | 過去数ヶ月の間に、ChatGPT、Bard、Midjourney、Stable Diffusionなどの生成的人工知能(genAI)ツールの結果として、一連の技術的進歩が現れた。これらのツールの使用は大きな注目を集め、その機能、幅広い応用範囲、使いやすさにより、世間や業界の関係者の想像力をかきたてた。 |
Given its potential to challenge established business practices and operational paradigms, and the promise of rapid innovation coupled with the likelihood of significant disruption, genAI is sparking global conversations. These anticipated, far-reaching consequences have a societal dimension and will require comprehensive engagement from key stakeholders such as industry, government, academia and civil society. | 既成のビジネス慣行やオペレーションのパラダイムに挑戦する可能性があり、急速なイノベーションが約束され、大きな破壊が起こる可能性があることから、genAIは世界的な議論を巻き起こしている。これらの予想される遠大な影響には社会的な側面があり、産業界、政府、学界、市民社会といった主要な利害関係者の包括的な関与が必要となる。 |
At the heart of these discussions lies the concept of “data equity” – a core notion within data governance centred on the impact of data on the equity of technical systems for individuals, groups, enterprises and ecosystems.1 It includes concepts of data fairness, bias, access, control and accountability, all underpinned by principles of justice, non-discrimination, transparency and inclusive participation. | これらの議論の中心には「データ公平性」という概念がある。データの公平性とは、個人、グループ、エ ンタープライズ、エコシステムにとっての技術システムの公平性にデータが与える影響を中心とした、データガバナンス の中核をなす概念であり、正義、非差別、透明性、包括的参加の原則に裏打ちされたデータの公平性、バイアス、アクセ ス、管理、説明責任といった概念を含む。 |
Data equity is not a new concept; it is grounded in human rights and part of ongoing work on data privacy, protection, ethics, Indigenous data sovereignty and responsibility. The intersection of data equity and genAI, however, is new and presents unique challenges. The datasets used to train AI models are prone to biases that reinforce existing inequities. This requires proactively auditing data and algorithms and intervening at every step of the AI process, from data collection to model training to implementation, to ensure that the resulting genAI tools fairly represent all communities. With the advent of genAI significantly increasing the rate at which AI is deployed and developed, exploring frameworks for data equity is more urgent than ever. |
データ公平性は新しい概念ではなく、人権に根ざしており、データ・プライバシー、防御、倫理、先住民のデータ主権と責任に関する現在進行中の作業の一部である。しかし、データ公平性とGenAIの交差は新しく、独自の課題を提示している。AIモデルの訓練に使われるデータセットには、既存の不公平を強化するバイアスがかかりやすい。そのため、データとアルゴリズムを積極的に監査し、データの収集からモデルのトレーニング、実装に至るまで、AIプロセスのあらゆる段階で介入する必要がある。 その結果、genAIツールはすべてのコミュニティを公平に代表することになる。genAIの登場により、AIの導入・開発速度が大幅に向上する中、データの公平性を確保するための枠組みを模索することは、これまで以上に急務となっている。 |
This briefing paper delves into these issues, with a particular focus on data equity within foundation models, both in terms of the impact of genAI on society and on the further development of genAI tools. Our goals are threefold: to establish a shared vocabulary to facilitate collaboration and dialogue; to scope initial concerns to establish a framework for inquiry on which stakeholders can focus; and to shape future development of promising technologies proactively and positively. | 本ブリーフィング・ペーパーは、GENAIが社会に与える影響とGENAIツールのさらなる開発の両面から、基盤モデルにおけるデータの公平性に特に焦点を当て、これらの問題を掘り下げている。我々の目標は3つある:コラボレーションと対話を促進するための共通の語彙を確立すること、利害関係者が焦点を当てることができる調査の枠組みを確立するために初期の懸念事項を範囲化すること、そして有望な技術の将来の開発を積極的かつ前向きに形成することである。 |
The World Economic Forum’s Global Future Council (GFC) on Data Equity2 envisions this as a first step in a broader conversation, recognizing the need for further exploration and discussion to be comprehensively understood, scrutinised, and addressed. The issues are complex and interconnected. Tackling them now creates a unique opportunity to positively shape the future of these exciting, promising tools. | 世界経済フォーラムのデータ公平性に関するグローバル・フューチャー・カウンシル(GFC)2 は、これをより広範な対話の第一歩として想定しており、包括的に理解し、精査し、対処するためには、さらなる探求と議論が必要であることを認識している。問題は複雑で、相互に関連している。今、この問題に取り組むことは、エキサイティングで有望なツールの未来を前向きに形作るまたとない機会を生み出す。 |
BOX 1: : Definitions of key concepts | BOX 1: : 主要概念の定義 |
To provide context and clarity, the following key concepts are highlighted: | 文脈を明らかにし、明確にするために、以下の主要概念を強調する: |
– Artificial intelligence is a broad field that encompasses the ability of a machine or computer to emulate certain aspects of human intelligence for diverse tasks based on predetermined objectives.3 | ・人工知能は、あらかじめ決められた目的に基づき、多様なタスクに対して人間の知能のある側面をエミュレートする機械やコンピュータの能力を包含する幅広い分野である3。 |
– Machine learning is a subset of artificial intelligence which utilizes algorithms to enable machines to identify and learn from patterns found in datasets.4 | ・機械学習は人工知能のサブセットであり、機械がデータセットに見られるパターンを識別し、そこから学習できるようにするためのアルゴリズムを利用する4。 |
– Generative AI is a branch of machine learning that is capable of producing new text, images and other media, replicating patterns and relationships found in the training data.5 | ・生成的AIは機械学習の一分野であり、学習データから発見されたパターンや関係を再現し、新しいテキストや画像、その他のメディアを生成することができる5。 |
– Foundation models are a type of large-scale, machine-learning model that is trained on diverse multi-modal data at scale and can be adapted to many downstream tasks.6 | ・ファウンデーションモデルは、大規模な機械学習モデルの一種であり、多様なマルチモーダルデータに対して大規模に学習され、多くの下流タスクに適応させることができる6。 |
– Large language models represent a subset of foundation models specializing in comprehending and generating human language, often employed for text-related functions. The latest iteration of LLMs facilitates natural conversations through advanced chatbot mechanisms.7 | ・大規模言語モデルは、人間の言語を理解し、生成することに特化した基礎モデルのサブセットであり、テキスト関連の機能に採用されることが多い。LLMの最新の反復は、高度なチャットボット機構を通じて自然な会話を促進する7。 |
データ公平性
Classes of data equity | データ公平性の分類 |
Effectively addressing the complexities of data equity mandates an appreciation of the diverse viewpoints held by various stakeholders regarding data. The academic literature has identified four distinct classes of data equity, which are closely interrelated:8 | データ衡平性の複雑性に効果的に対処するには、データに関して様々な利害関係者が持つ多様な視点を 理解することが必要である。学術文献はデータ衡平性の4つの分類を明らかにしているが、これらは相互に密接に関連している。 |
– Representation equity seeks to enhance the visibility of historically marginalized groups within datasets while also accounting for data relevancy for the target populations. The development of models primarily within the Global North introduces disparities in representation, potentially leading to systemic biases in subsequent decisions rooted in such data. A proactive approach is indispensable to ensure that AI training data and models authentically reflect all stakeholders without encoding biases. | ・表現上の公平性は、対象集団にとってのデータの妥当性を考慮しつつ、データセット内で歴史的に疎外されてきた集団の可視性を高めようとするものである。北半球を中心にモデルが開発されることで、表現上の格差が生じ、そのようなデータに根ざしたその後の意思決定において、体系的なバイアスにつながる可能性がある。AIのトレーニングデータとモデルが、バイアスを内包することなく、すべてのステークホルダーを正確に反映するためには、積極的なアプローチが不可欠である。 |
– Feature equity seeks to ensure the accurate portrayal of individuals, groups and communities represented by data, necessitating the inclusion of attributes such as race, gender, location and income alongside other data. Without these attributes, it is often difficult to identify and address latent biases and inequalities. | ・特徴上の公平性は、データによって代表される個人、グループ、コミュニティの正確な描写を確保しようとするものであり、他のデータとともに人種、性別、場所、収入などの属性を含める必要がある。これらの属性がなければ、潜在的なバイアスや不平等を特定し、対処することはしばしば困難である。 |
– Access equity focuses on the equitable accessibility of data and tools across varying levels of expertise. Addressing transparency and visibility issues related to model construction and data sources is critical. Additionally, access equity also encompasses disparities in terms of AI literacy and the digital divide. | ・アクセス上の公平性は、様々な専門知識レベルにおいて、データやツールに公平にアクセスできることに焦点を当てる。モデル構築やデータソースに関連する透明性や可視性の問題に対処することが重要である。さらに、アクセスの公平性には、AIリテラシーやデジタルデバイドの観点からの格差も含まれる。 |
– Outcome equity pertains to impartiality and fairness in results. Beyond developing unbiased models, maintaining vigilance over unintended consequences that impact individuals or groups is necessary. Transparency, disclosure and shared responsibility are crucial to achieve fairness. | ・結果の公平性は、結果の公平性と公正さに関係する。偏りのないモデルを開発するだけでなく、個人や集団に影響を与える意図しない結果に対する警戒を維持することが必要である。公平性を達成するためには、透明性、情報開示、責任の共有が極めて重要である。 |
These four classes of data equity are particularly relevant to genAI, but not exhaustive. Two other prominent types of equity broadly applicable to technology that need to be considered are procedural and decision-making equity. These procedural elements underscore broad equity concerns and include transparent decision-making, fair treatment of workers who develop and deploy technology, and inclusive development and deployment practices.9 | データの公平性に関するこれら4つの分類は、特にgenAIに関連しているが、網羅的なものではない。テクノロジーに広く適用される衡平性のうち、他に考慮すべき顕著な2つのタイプは、手続き上の衡平性と意思決定上の衡平性である。これらの手続き的要素は、広範な衡平性への懸念を強調するものであり、透明性のある意思決定、技術を開発・展開する労働者の公正な待遇、包括的な開発・展開慣行などが含まれる9。 |
Going further, consideration must also be given to issues of temporal equity (sustainability and long-term impacts) and relational equity (fostering equitable stakeholder relationships). These latter issues are not unique to genAI or technology broadly and, as such, are beyond the scope of this paper. Nonetheless, they are acknowledged here as integral components of the overarching fabric of technology equity. | さらに踏み込めば、時間的衡平性(持続可能性と長期的影響)と関係的衡平 性(公平なステークホルダー関係の醸成)の問題も考慮しなければならない。後者の問題は、genAIやテクノロジーに特有なものではないため、本稿の範囲外である。しかし、テクノロジーの公平性という包括的な枠組みを構成する不可欠な要素として、本稿で取り上げることにする。 |
Comments