Reimagining data for Open Source AI: A call to action
January 23, 2025; Nick Vidal
Theo: https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
Bài được đưa lên Internet ngày:
Trí tuệ nhân tạo - AI (Artificial Intelligence) đang thay đổi thế giới với tốc độ chưa từng thấy, với AI Nguồn Mở - OSAI (Open Source AI) đóng vai trò then chốt trong việc định hình quỹ đạo của nó. Tuy nhiên, khi AI phát triển, một thách thức cơ bản xuất hiện: Làm thế nào để tạo ra một hệ sinh thái dữ liệu không chỉ mạnh mẽ mà còn công bằng và bền vững?
Sáng kiến Nguồn Mở - OSI (Open Source Initiative) và Tương lai Mở (Open Future) đã tiến hành một bước đáng kể hướng tới việc giải quyết thách thức này bằng việc phát hành sách trắng: “Quản trị dữ liệu trong AI Nguồn Mở: Xúc tác cho quyền truy cập có trách nhiệm và hệ thống”. Tài liệu này là đỉnh cao của quá trình đồng thiết kế toàn cầu, được bổ sung thêm những hiểu biết sâu sắc từ hội thảo sôi nổi kéo dài hai ngày được tổ chức tại Paris vào tháng 10 năm 2024.
Một bước ngoặt cho AI Nguồn Mở
Về cốt lõi, sách trắng này giải quyết một câu hỏi cấp bách: Làm thế nào chúng ta có thể quản trị dữ liệu có trách nhiệm thúc đẩy AI Nguồn Mở? Câu trả lời đòi hỏi một sự chuyển đổi sâu sắc trong cách chúng ta suy nghĩ về dữ liệu. Nó không chỉ là một nguồn tài nguyên để khai thác mà còn là một tài sản chung được chia sẻ (shared commons) —một nền tảng chung mà sự đổi mới có thể phát triển mạnh mẽ trong khi tôn trọng các quyền và thúc đẩy công bằng.
AI Nguồn Mở phát triển mạnh mẽ trên các tập dữ liệu được chia sẻ. Tuy nhiên, bối cảnh hiện tại đầy rẫy những thách thức:
Tính mở và minh bạch: Nhiều mô hình AI được dán nhãn "mở" thiếu tính minh bạch liên quan đến nguồn gốc dữ liệu, việc cấp phép và hạn chế sử dụng, tạo ra sự nhầm lẫn về những gì thực sự cấu thành nên AI Nguồn Mở.
Sự khan hiếm và bất bình đẳng về dữ liệu: Mặc dù có rất nhiều thông tin trên internet, nhiều tập dữ liệu có chất lượng thấp và không thể hiện được sự đa dạng của thế giới của chúng ta.
Mối quan ngại về quyền riêng tư: Một số dữ liệu không thể được chia sẻ hợp pháp do các luật khác nhau trên khắp các quyền tài phán liên quan đến dữ liệu cá nhân và các tiêu chuẩn nhân quyền quốc tế về quyền riêng tư.
Đại diện cho các bên liên quan: Hệ sinh thái AI thường ưu tiên các nhà phát triển và tập đoàn hơn là những người đóng góp, các cộng đồng bị ảnh hưởng và các tổ chức vì lợi ích công cộng.
Tính bền vững về môi trường: Bản chất sử dụng nhiều tài nguyên của AI làm dấy lên mối lo ngại về tác động của nó đến môi trường.
Tầm nhìn cho sự thay đổi
Sách trắng này đưa ra bản thiết kế cho hệ sinh thái dữ liệu bắt nguồn từ sự công bằng, tính bao hàm toàn diện và tính bền vững. Sách trắng kêu gọi hai sự thay đổi mang tính chuyển đổi:
Từ Dữ liệu mở đến Dữ liệu chung (tài sản chung về dữ liệu): Đi vượt ra ngoài khái niệm dữ liệu không hạn chế để đến một mô hình cân bằng giữa tính mở với các quyền và nhu cầu của tất cả các bên liên quan.
Mở rộng phạm vi các bên liên quan: Tạo ra các khung cộng tác tập hợp các cộng đồng, người quản lý và người sáng tạo trong các hoạt động chia sẻ dữ liệu công bằng.
Để hiện thực hóa những thay đổi này, sách trắng đi sâu vào sáu lĩnh vực trọng tâm quan trọng:
Chuẩn bị dữ liệu
Tín hiệu ưu tiên và việc cấp phép
Người quản lý và người giám hộ dữ liệu
Tính bền vững của môi trường
Sự tương hỗ và đền bù
Can thiệp chính sách
Mỗi lĩnh vực trọng tâm là một bước đệm hướng tới việc xây dựng một tương lai mà dữ liệu trao quyền thay vì khai thác, nơi dữ liệu phản ánh sự đa dạng các trải nghiệm của con người thay vì củng cố bất bình đẳng có hệ thống.
Lời kêu gọi hành động
Sách trắng này là lời mời gọi cộng đồng toàn cầu hình dung lại vai trò của dữ liệu trong AI Nguồn Mở. Sách trắng này thách thức chúng ta:
Cộng tác giữa các lĩnh vực, từ dữ liệu mở và khoa học mở đến các tổ chức văn hóa.
Trao quyền cho các cộng đồng, đặc biệt là ở các khu vực chưa được phục vụ đầy đủ, để định hình cách sử dụng dữ liệu của họ.
Ưu tiên các mô hình AI nhỏ hơn, cục bộ để phản ánh các bối cảnh và nhu cầu cụ thể, giảm sự phụ thuộc vào các hệ thống đơn khối.
Việc phát hành sách trắng này đánh dấu một thời điểm quan trọng trong quá trình phát triển của AI Nguồn Mở. Sách trắng này đại diện cho trí tuệ tập thể của các chuyên gia quản trị dữ liệu và Nguồn Mở trên toàn thế giới, tập hợp xung quanh tầm nhìn chung về sự công bằng, tính bao hàm toàn diện và tính bền vững. Chúng tôi hy vọng nguồn tài nguyên này sẽ thúc đẩy cuộc trò chuyện xung quanh dữ liệu đào tạo trong AI Nguồn Mở.
Hãy đọc toàn bộ sách trắng và tham gia cùng chúng tôi. Cùng nhau, chúng ta có thể tạo ra một thế giới mà dữ liệu vừa là nguồn lực vừa là nền tảng chung cho sự đổi mới công bằng.
Quản trị dữ liệu trong AI Nguồn Mở. Tải xuống (bản dịch sang tiếng Việt)
---------------
Giới thiệu
Tiến sĩ Alek Tarkowski là Giám đốc Chiến lược tại Open Future. Ông có bằng Tiến sĩ xã hội học của Viện Hàn lâm Khoa học Ba Lan. Ông có hơn 15 năm kinh nghiệm trong việc vận động vì lợi ích công cộng, xây dựng phong trào và nghiên cứu về mối quan hệ giữa xã hội, văn hóa và các công nghệ kỹ thuật số.
OSI là cơ quan có thẩm quyền định nghĩa Nguồn Mở, được các cá nhân, công ty và các tổ chức công trên toàn cầu công nhận.
Open Future là một nhóm chuyên gia tư vấn của Châu Âu phát triển các phương pháp tiếp cận mới đối với Internet mở nhằm tối đa hóa lợi ích của xã hội từ dữ liệu, kiến thức và văn hóa được chia sẻ.
Artificial intelligence (AI) is changing the world at a remarkable pace, with Open Source AI playing a pivotal role in shaping its trajectory. Yet, as AI advances, a fundamental challenge emerges: How do we create a data ecosystem that is not only robust but also equitable and sustainable?
The Open Source Initiative (OSI) and Open Future have taken a significant step toward addressing this challenge by releasing a white paper: “Data Governance in Open Source AI: Enabling Responsible and Systematic Access.” This document is the culmination of a global co-design process, enriched by insights from a vibrant two-day workshop held in Paris in October 2024.
A turning point for Open Source AI
At its core, this white paper addresses a pressing question: How can we responsibly govern the data that fuels Open Source AI? The answer requires a profound transformation in how we think about data. It’s not just a resource to exploit but a shared commons—a collective foundation upon which innovation can flourish while respecting rights and fostering equity.
Open Source AI thrives on shared datasets. Yet, the current landscape is fraught with challenges:
Openness and transparency: Many AI models labeled “open” lack transparency regarding data provenance, licensing and usage restrictions, creating confusion about what truly constitutes Open Source AI.
Data scarcity and inequity: Despite the vast amount of information on the internet, many datasets are of low quality and fail to represent the diversity of our world.
Privacy concerns: Some data cannot be legally shared due to varied laws across jurisdictions concerning personal data and international human rights standards on the right to privacy.
Stakeholder representation: The AI ecosystem often prioritizes developers and corporations over contributors, affected communities, and public interest organizations.
Environmental sustainability: AI’s resource-intensive nature raises concerns about its environmental impact..
A vision for change
The white paper offers a blueprint for a data ecosystem rooted in fairness, inclusivity and sustainability. It calls for two transformative shifts:
From Open Data to Data Commons: Moving beyond the notion of unrestricted data to a model that balances openness with the rights and needs of all stakeholders.
Broadening the stakeholder universe: Creating collaborative frameworks that unite communities, stewards and creators in equitable data-sharing practices.
To bring these shifts to life, the white paper delves into six critical focus areas:
Data preparation
Preference signaling and licensing
Data stewards and custodians
Environmental sustainability
Reciprocity and compensation
Policy interventions
Each focus area is a stepping stone toward building a future where data empowers rather than exploits, where it reflects the diversity of human experience rather than reinforcing systemic inequities.
A call to action
This white paper is an invitation to the global community to reimagine the role of data in Open Source AI. It challenges us to:
Collaborate across sectors, from open data and open science to cultural institutions.
Empower communities, particularly in underserved regions, to shape how their data is used.
Prioritize smaller, localized AI models that reflect specific contexts and needs, reducing reliance on monolithic systems.
The release of this white paper marks a pivotal moment in the evolution of Open Source AI. It represents the collective wisdom of data governance and Open Source experts worldwide, coalescing around a shared vision of fairness, inclusivity, and sustainability. We hope this resource will catalyze the conversation around training data in Open Source AI.
Read the full white paper and join us. Together, we can create a world where data is both a resource and a shared foundation for equitable innovation.
Data Governance in Open Source AI Download
About
Dr. Alek Tarkowski is the Strategy Director at Open Future. He holds a PhD in sociology from the Polish Academy of Science. He has over 15 years of experience with public interest advocacy, movement building, and research into the intersection of society, culture, and digital technologies.
The OSI is the authority that defines Open Source, recognized globally by individuals, companies, and by public institutions.
Open Future is a European think tank that develops new approaches to an open internet that maximize societal benefits of shared data, knowledge and culture.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.