The Role of Open Data in AI systems as Digital Public Goods
October 29, 2024
Theo: https://www.digitalpublicgoods.net/blog/the-role-of-open-data-in-ai-systems-as-digital-public-goods
Bài được đưa lên Internet ngày: 29/10/2024
Author: Liv Marte Nordhaug, Secretariat CEO, Digital Public Goods Alliance
Tác giả: Liv Marte Nordhaug, Giám đốc điều hành của Ban Thư ký, Liên minh Hàng hóa Công cộng Kỹ thuật số
Trong vài năm qua, đã có sử nổi lên của mối quan tâm và việc áp dụng các hệ thống trí tuệ nhân tạo tạo sinh (Generative AI), và mối quan tâm tương tự trong việc làm rõ và phân định nguồn mở có nghĩa là gì đối với AI và làm thế nào để đảm bảo AI phục vụ vì lợi ích của công chúng. Ban Thư ký của DPGA đã tham gia tích cực vào các thảo luận đó. Nhận biết được tiềm năng biến đổi của AI, chúng tôi đã khám phá các cách thức để dân chủ hóa những lợi ích của nó, ủng hộ việc chi tiêu công cho AI mà ưu tiên lợi ích của công chúng (bản dịch sang tiếng Việt) và quyền truy cập công bằng. Ngoài ra, chúng tôi đã và đang xem xét cách Tiêu chuẩn DPG có thể cần thiết để tùy chỉnh nhằm xác định tốt hơn những gì tạo nên các hệ thống AI như một dạng hàng hóa công cộng kỹ thuật số, thông qua một cộng đồng thực hành - CoP (Community of Practice), được UNICEF đồng tổ chức.
Công việc này được triển khai trong bối cảnh các sáng kiến và tổ chức khác cũng giải quyết các câu hỏi phức tạp xung quanh sự phát triển và sử dụng trí tuệ nhân tạo trong tương lai trong phạm vi lợi ích công cộng. Một trong những sáng kiến đặc biệt quan trọng đó là công việc định nghĩa AI Nguồn Mở do Sáng kiến nguồn mở (OSI) quản lý với sự tham gia của nhiều bên liên quan và chuyên gia. Sau quá trình kéo dài hai năm, Định nghĩa AI Nguồn Mở (OSAID) Phiên bản 1.0 (bản dịch sang tiếng Việt) đã được phát hành vào ngày 28/10/2024.
Quá trình mà OSI thực hiện, theo lời của Mozilla, "là một bước tiến đáng kể hướng tới việc mang lại sự rõ ràng và chặt chẽ cho cuộc thảo luận về AI Nguồn Mở" và "đã thiết lập một điểm tham chiếu quan trọng cho các cuộc thảo luận về AI Nguồn Mở". Mozilla cũng lưu ý rằng một số vấn đề phức tạp đã được đưa ra hàng đầu, đặc biệt là xung quanh việc liệu dữ liệu đào tạo cho các mô hình AI có nên được chia sẻ như một phần của AI Nguồn Mở hay không và chia sẻ như thế nào.
Với việc các hệ thống AI mở có thể nhận được sự công nhận của DPG, các chủ đề đã được giải quyết như một phần của quá trình định nghĩa AI Nguồn Mở - OSAID (Open Source AI Definition) có tầm quan trọng sống còn đối với Liên minh Hàng hóa Công cộng Kỹ thuật số - DPGA (Digital Public Goods Alliance). Theo Lộ trình Hợp tác Kỹ thuật số của Tổng thư ký Liên hợp quốc, hàng hóa công cộng kỹ thuật số là các phần mềm nguồn mở, tiêu chuẩn mở, dữ liệu mở, hệ thống AI mở và bộ sưu tập nội dung mở tuân thủ luật về quyền riêng tư và các luật hiện hành khác cũng như các thông lệ tốt nhất, không gây hại và giúp đạt được các Mục tiêu Phát triển Bền vững (SDG). Định nghĩa này được vận hành thông qua Tiêu chuẩn DPG, một bộ chín chỉ số được sử dụng để xác định liệu một giải pháp có thể được công nhận là hàng hóa công cộng kỹ thuật số hay không. Do đó, Tiêu chuẩn DPG không chỉ yêu cầu cấp phép nguồn mở; Tiêu chuẩn này còn đánh giá rằng các giải pháp kỹ thuật số có liên quan đến SDG, có thể truy cập, có thể tùy chỉnh, không phụ thuộc vào nền tảng, tuân thủ các thông lệ tốt nhất và được thiết kế để giảm thiểu rủi ro gây hại. Ban thư ký DPGA duy trì Tiêu chuẩn DPG và cũng đánh giá các giải pháp kỹ thuật số được đề cử theo tiêu chuẩn này. Các giải pháp được xác minh đáp ứng các tiêu chí của Tiêu chuẩn DPG được liệt kê trong Sổ đăng ký DPG.
Vào năm 2023, Ban thư ký DPGA, cùng với UNICEF, đã đồng triệu tập một CoP chuyên gia về các hệ thống AI như là hàng hóa công cộng kỹ thuật số. Mục đích là đưa ra các khuyến nghị về cách Tiêu chuẩn DPG có thể phát triển để định nghĩa và công nhận tốt hơn các hệ thống AI là DPG. Mặc dù CoP bao gồm những người tham gia vào quá trình OSAID song song, nhưng mục đích của CoP là xây dựng dựa trên các bài học kinh nghiệm và kết quả của quá trình OSAID.
Gần đây, CoP đã đưa ra các khuyến nghị cuối cùng cho Hội đồng Tiêu chuẩn DPG. Các khuyến nghị này bao gồm duy trì cách tiếp cận nhị phân của Tiêu chuẩn DPG để xác định các mô hình AI là nguồn mở hay không, cung cấp càng nhiều dữ liệu càng tốt, loại trừ các giấy phép AI có trách nhiệm và thêm một số yêu cầu không gây hại như bắt buộc thực hiện một số biện pháp giảm thiểu rủi ro, bao gồm đánh giá rủi ro AI cho các trường hợp sử dụng cụ thể mà mô hình được phát triển, hướng dẫn sử dụng có trách nhiệm và kế hoạch sử dụng các nguyên tắc thiết kế an toàn AI. Bạn có thể tìm thấy toàn bộ các khuyến nghị và hiểu biết sâu sắc về các lĩnh vực chưa bao giờ đạt được sự đồng thuận hoàn toàn tại đây.
Hội đồng Tiêu chuẩn DPG hiện đang trong quá trình thực hiện một số bản cập nhật cho Tiêu chuẩn DPG liên quan đến các hệ thống AI, được thông báo bởi các khuyến nghị của CoP cũng như các cam kết và tham vấn khác với các bên liên quan. Điều quan trọng là đề xuất, sẽ sớm chuyển sang tham vấn cộng đồng, là tiếp tục yêu cầu dữ liệu đào tạo mở cho các hệ thống AI được coi là DPG.
Tiêu chuẩn DPG có thể phát triển theo hướng dễ dãi hơn theo thời gian, nhưng trước khi xem xét bất kỳ trường hợp ngoại lệ nào, điều quan trọng là phải hiểu rõ hơn về các phương pháp tiếp cận và công cụ đang được xem xét để giải quyết một số thách thức chính hiện tại xung quanh việc chia sẻ dữ liệu và AI. Những thách thức này bao gồm quản trị dữ liệu, tính minh bạch và trách nhiệm giải trình; sự đồng ý và cấp phép cho việc đào tạo; tuân thủ quy định và các ưu tiên về chính sách. Chúng ta cần thời gian để khám phá sâu hơn mối liên hệ giữa dữ liệu mở, chia sẻ dữ liệu và các hệ thống AI, đồng thời thu thập thêm nhiều quan điểm và sở thích từ các bên liên quan chiếm đa số trên toàn cầu. Điều này mở rộng đến tầm quan trọng tương đối của dữ liệu mở cho đào tạo chất lượng cao như một yếu tố đầu vào cho các hệ thống AI mà họ muốn xây dựng.
Ban thư ký DPGA cũng dành riêng cho việc bảo vệ tính toàn vẹn của dữ liệu mở. Gần đây, một bản cập nhật quan trọng đã được giới thiệu để củng cố cam kết này: hiện tại, chỉ các bộ sưu tập nội dung mở và tập dữ liệu có giấy phép mở hoàn toàn mới đủ điều kiện được công nhận là hàng hóa công cộng kỹ thuật số. Đối với các hệ thống AI, cần phải đảm bảo rằng chúng ta không vô tình làm suy yếu phong trào dữ liệu mở và dữ liệu mở như một loại DPG bằng cách thúc đẩy một cách tiếp cận đối với các hệ thống AI dễ dãi hơn so với các chủng loại DPG khác.
Việc duy trì một rào cản cao đối với dữ liệu đào tạo có khả năng dẫn đến ít hệ thống AI đáp ứng các tiêu chí Tiêu chuẩn DPG hơn. Tuy nhiên, tính liên quan đến SDG, tính độc lập của nền tảng và không gây hại theo thiết kế là những tính năng giúp DPG khác biệt với các giải pháp nguồn mở khác—và vì những lý do đó, việc đưa dữ liệu đào tạo vào là cần thiết. Với DPG, chúng tôi muốn giúp phát triển bối cảnh AI vì lợi ích công cộng khi hệ sinh thái này hiểu rõ hơn về cách giải quyết những phức tạp liên quan đến dữ liệu mở và chia sẻ dữ liệu.
Đề xuất cuối cùng của Hội đồng Tiêu chuẩn DPG, bao gồm việc yêu cầu dữ liệu đào tạo mở cho các hệ thống AI dưới dạng DPG, sẽ xuất hiện trên GitHub vào đầu tháng 11 và sẽ mở để công chúng bình luận trong thời gian đánh giá cộng đồng kéo dài 4 tuần. Tại cuộc họp thường niên sắp tới của các thành viên và trong năm tới, Ban thư ký DPGA mong muốn thúc đẩy và đóng góp vào các cuộc thảo luận cực kỳ quan trọng này cùng với bối cảnh ngày càng mở rộng của các bên liên quan cam kết đảm bảo AI Nguồn Mở thúc đẩy các mục tiêu vì lợi ích công cộng. Điều đó cũng bao gồm các bên liên quan trong cộng đồng dữ liệu mở, nội dung mở và kiến thức mở có thể giúp cung cấp thông tin cho các cuộc thảo luận cực kỳ quan trọng này. Hãy tham gia cùng chúng tôi trong các cuộc thảo luận này!
*Cập nhật: Đề xuất cuối cùng của Hội đồng Tiêu chuẩn DPG, sẽ mở để công chúng bình luận trong 4 tuần, đã được công bố vào ngày 5/11 trên GitHub và có thể xem tại đây.
Over the last few years, there has been a surge in interest and adoption of generative artificial intelligence systems, and a corresponding interest in clarifying and delineating what open source should mean for AI and how to ensure AI serves the public interest. The DPGA Secretariat has been an active part of these conversations. Recognizing the transformative potential of AI, we have explored ways to democratise its benefits, advocating for public spending on AI that prioritises public interest and equitable access. Additionally, we have been examining how the DPG Standard may need to adapt in order to better determine what constitutes AI systems as a type of digital public good, via a community of practice (CoP), co-hosted by UNICEF.
This work has been unfolding against a backdrop of other initiatives and organisations similarly addressing complex questions surrounding the future development and use of artificial intelligence in the public interest domain. One such particularly important initiative has been the work to define open source AI stewarded by the Open Source Initiative (OSI) with the involvement of a large number of stakeholders and experts. After a two year long process the Open Source AI Definition (OSAID) Version 1.0 was released on October 28.
The process OSI undertook, in the words of Mozilla, “is a significant step toward bringing clarity and rigour to the open source AI discussion” and “has established a crucial reference point for discussions on open source AI”. Mozilla also notes that several complex issues have been brought to the forefront, particularly around whether and how training data for AI models should be shared as part of open source AI.
Given that open AI systems can receive DPG recognition, the topics that have been addressed as part of the OSAID process are of critical importance to the Digital Public Goods Alliance. According to the UN Secretary General’s Roadmap for Digital Cooperation, digital public goods are open source software, open standards, open data, open AI systems, and open content collections that adhere to privacy and other applicable laws and best practices, do no harm, and help attain the Sustainable Development Goals (SDGs). This definition is operationalised through the DPG Standard, a set of nine indicators that are used to determine whether or not a solution can be recognized as a digital public good. The DPG Standard therefore goes beyond requiring open source licensing; It also assesses that digital solutions are SDG-relevant, accessible, adaptable, platform-independent, adhere to best practices, and have been designed to minimise the risk of doing harm. The DPGA Secretariat maintains the DPG Standard and also assesses nominated digital solutions against it. Solutions verified to meet the DPG Standard’s criteria are listed on the DPG Registry.
In 2023 the DPGA Secretariat, alongside UNICEF, co-convened an expert CoP on AI systems as digital public goods. The purpose was to provide recommendations on how the DPG Standard could evolve to better define and recognize AI systems as DPGs. Though the CoP included participants who were involved in the parallel OSAID process, the intention of the CoP was to build on the learnings and outcomes of the OSAID process.
The CoP recently delivered its final recommendations for the DPG Standard Council. These recommendations included maintaining the DPG Standard’s binary approach to defining AI models as open source or not, making as much data available as possible, excluding responsible AI licences, and adding a number of do-no-harm requirements such as making several risk mitigation measures mandatory, including an AI risk assessment for the specific use cases for which the model was developed, a responsible use guide, and a plan for utilising AI safety by design principles. The recommendations, in their entirety, and insights into the areas where consensus was never fully reached can be found here.
The DPG Standard Council is now in the process of making several updates to the DPG Standard as it relates to AI systems, informed by the CoP recommendations as well as by other engagements and consultations with stakeholders. Importantly, the proposal, which will soon move to community consultation, is to continue requiring open training data for AI systems to be considered DPGs.
The DPG Standard may evolve in a more permissive direction over time, but before considering any exceptions, it’s important to have a better understanding of the approaches and tools that are under consideration to address some of the current main challenges around data sharing and AI. These challenges include data governance, transparency and accountability; consent and licensing for training; and regulatory compliance and policy priorities. We need time to explore the intersection of open data, data sharing and AI systems in depth, and to gather more perspectives and preferences from global majority stakeholders. This extends to the relative importance of high-quality open training data as an input factor for the AI systems they would like to see built.
The DPGA Secretariat is also dedicated to preserving the integrity of open data. Recently, an important update was introduced to reinforce this commitment: now, only open content collections and datasets with fully open licenses are eligible for recognition as digital public goods. With regards to AI systems, there is a need to ensure that we don’t inadvertently undermine the open data movement and open data as a category of DPGs by advancing an approach to AI systems that is more permissive than for other categories of DPGs.
Maintaining a high bar on training data could potentially result in fewer AI systems meeting the DPG Standard criteria. However, SDG relevance, platform independence, and do-no-harm by design are features that set DPGs apart from other open source solutions—and for those reasons, the inclusion of training data is needed. With DPGs, we want to help evolve the public interest AI landscape as the ecosystem gains a better understanding of how to address complexities regarding open data and data sharing.
The DPG Standard Council’s final proposal, which includes mandating open training data for AI systems as DPGs, will appear on GitHub in early November and will be open for public comment for a 4-week community review period. At our upcoming annual members’ meeting and in the coming year, the DPGA Secretariat looks forward to advancing and contributing to these tremendously important conversations together with the growing landscape of stakeholders committed to ensuring open source AI advances public interest goals. That also includes stakeholders in the open data, open content and open knowledge communities that can help inform these critically important conversations. Please join us in these conversations!
*Update: The DPG Standard Council’s final proposal, which will be open for public comment for 4 weeks, was published on November 5 on GitHub and can be viewed here.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com