Thứ Tư, 2 tháng 4, 2025

Vì sao Hàng hóa Công cộng Kỹ thuật số, bao gồm cả AI, nên dựa vào Dữ liệu Mở

Dữ liệu Mở của Auregann được cấp phép mở CC BY-SA 3.0.

Why Digital Public Goods, including AI, Should Depend on Open Data

by Cable Green, Creative Commons

Posted 27 January 2025

Theo: https://creativecommons.org/2025/01/27/why-digital-public-goods-including-ai-should-depend-on-open-data/

Bài được đưa lên Internet ngày: 27/01/2025

Thừa nhận rằng một số dữ liệu không nên được chia sẻ (vì lý do luân lý, đạo đức và/hoặc quyền riêng tư) và một số không thể được chia sẻ (vì lý do pháp lý hoặc lý do khác), Creative Commons (CC) cho rằng có giá trị trong việc khuyến khích việc tạo lập, chia sẻ và sử dụng dữ liệu mở để thúc đẩy sản xuất kiến thức. Khi các cộng đồng mở tiếp tục tưởng tượng, thiết kế và xây dựng các hàng hóa công cộng kỹ thuật số và dịch vụ cơ sở hạ tầng công cộng cho giáo dục, khoa học và văn hóa, các hàng hóa và dịch vụ này - bất cứ khi nào có thể và phù hợp - nên sản xuất, chia sẻ và/hoặc xây dựng dựa trên dữ liệu mở.

Dữ liệu Mở và Hàng hóa Công cộng Kỹ thuật số - DPG (Digital Public Goods)

CC là thành viên của Liên minh Hàng hóa Công cộng Kỹ thuật số - DPGA (Digital Public Goods Alliance) và các công cụ pháp lý của CC đã được công nhận là hàng hóa công cộng kỹ thuật số (DPG). CÁc DPG là “phần mềm nguồn mở, các tiêu chuẩn mở, dữ liệu mở, các hệ thống AI mở, và các bộ sưu tập nội dung mở mà gắn với quyền riêng tư và các thông lệ tốt nhất áp dụng được khác, không gây hại, và có liên quan cao độ cho việc đạt được các Mục tiêu Phát triển Bền vững (SDGs) 2030 của Liên hiệp quốc”. Nếu chúng ta muốn giải quyết các thách thức lớn nhất toàn cầu, các chính phủ và các nhà cấp vốn khác sẽ cần phải đầu tư, phát triển, cấp phép mở, chia sẻ, và sử dụng các DPG.

Dữ liệu mở rất quan trọng đối với DPG vì dữ liệu là động lực chính thúc đẩy sức sống kinh tế với tiềm năng đã được chứng minh là phục vụ lợi ích công cộng. Trong khu vực công, dữ liệu cung cấp thông tin cho việc hoạch định chính sách và cung cấp dịch vụ công bằng cách giúp chuyển hướng các nguồn lực khan hiếm đến những người cần nhất; cung cấp phương tiện để yêu cầu chính phủ chịu trách nhiệm và thúc đẩy đổi mới xã hội. Tóm lại, dữ liệu có tiềm năng cải thiện cuộc sống của mọi người. Khi dữ liệu bị đóng hoặc không khả dụng, công chúng sẽ không nhận được những lợi ích này.

CC gần đây là một phần của một tiểu ban DPGA làm việc để bảo vệ tính toàn vẹn của dữ liệu mở như một phần của Tiêu chuẩn DPG. Bản cập nhật quan trọng (bản dịch sang tiếng Việt) này đối với Tiêu chuẩn DPG được giới thiệu để đảm bảo chỉ các tập dữ liệu mở và bộ sưu tập nội dung có các giấy phép mở mới đủ điều kiện được công nhận là DPG. Yêu cầu mới này có nghĩa là các tập dữ liệu mở và bộ sưu tập nội dung phải đáp ứng các tiêu chí sau để được công nhận là hàng hóa công cộng kỹ thuật số.

  1. Cấp phép mở toàn diện:

    1. Toàn bộ tập dữ liệu /bộ sưu tập nội dung phải có một giấy phép mở được chấp nhận. Các bộ sưu tập được cấp phép hỗn hợp sẽ không được chấp nhận

  2. Có khả năng truy cập được và phát hiện được:

    1. Tất cả các tập dữ liệu và bộ sưu tập nội dung DPG phải được cấp phép mở và dễ dàng truy cập được từ một vị trí riêng biệt, duy nhất, chẳng hạn như một URL duy nhất.

  3. Các hạn chế quyền truy cập được phép:

    1. Một số hạn chế quyền truy cập nhất định – chẳng hạn như đăng nhập, đăng ký, khóa API và điều tiết – được phép miễn là chúng không phân biệt đối xử với người dùng hoặc hạn chế việc sử dụng dựa trên địa lý hoặc bất kỳ yếu tố nào khác.

DPGA viết: “Yêu cầu mới này được thiết kế để tăng cường sự tin tưởng và tự tin vào tất cả các DPG bằng cách đảm bảo rằng người dùng có thể tham gia đầy đủ vào các giải pháp mà không lo ngại về vi phạm quyền sở hữu trí tuệ. Việc đơn giản hóa quyền truy cập và sử dụng phù hợp với mục tiêu của DPGA là làm cho DPG thực sự mở và dễ tiếp cận để áp dụng rộng rãi… điều này giúp thúc đẩy một môi trường và hệ sinh thái nơi sự đổi mới có thể phát triển mà không có bất kỳ sự không chắc chắn nào về mặt pháp lý”.

AI và Dữ liệu mở

Khi CC xem xét AI và tiềm năng của nó để trở thành một hàng hóa công cộng giúp giải quyết các thách thức toàn cầu, chúng tôi tin rằng dữ liệu mở sẽ đóng một vai trò quan trọng tương tự.

CC nhận thấy AI là một không gian phát triển nhanh chóng và chúng tôi đánh giá cao công sức cần cù của mọi người trong việc tạo ra các định nghĩa, khuyến nghị, hướng dẫn và cảnh báo về AI. Sau hai năm tham vấn cộng đồng, Sáng kiến Nguồn Mở – OSI (Open Source Initiative) đã phát hành phiên bản 1.0 của Định nghĩa AI Nguồn Mở (OSAID) (bản dịch sang tiếng Việt) vào ngày 28/10/2024. Định nghĩa này là một bước quan trọng để bắt đầu cuộc thảo luận về ý nghĩa của mở đối với các hệ thống AI. Tuy nhiên, các yêu cầu chia sẻ dữ liệu của OSAID vẫn còn gây tranh cãi, đặc biệt là xung quanh việc có nên chia sẻ dữ liệu đào tạo cho các mô hình AI hay không và chia sẻ như thế nào.

CC cho rằng chỉ vì khó xây dựng và phát hành các tập dữ liệu mở, điều đó không có nghĩa là chúng ta không nên khuyến khích điều đó. Trong trường hợp dữ liệu đào tạo không được hoặc không thể chia sẻ, chúng tôi khuyến khích tóm tắt chi tiết giải thích nội dung của tập dữ liệu và đưa ra hướng dẫn về khả năng tái tạo, nhưng dù sao thì dữ liệu cũng phải được định nghĩa là đóng. Khi dữ liệu có thể được mở và chia sẻ, thì nên như vậy.

Chúng tôi đồng ý với Liv Marte Nordhaug, Tổng giám đốc điều hành, Liên minh hàng hóa công cộng kỹ thuật số, người đã nói trong một bài đăng gần đây: “Liên quan đến các hệ thống AI, cần phải đảm bảo rằng chúng ta không vô tình làm suy yếu phong trào dữ liệu mở và dữ liệu mở như một loại DPG bằng cách thúc đẩy một cách tiếp cận đối với các hệ thống AI dễ dãi hơn so với các loại DPG khác. Việc duy trì một rào cản cao đối với dữ liệu đào tạo có khả năng dẫn đến ít hệ thống AI đáp ứng các tiêu chí của Tiêu chuẩn DPG hơn. Tuy nhiên, tính liên quan đến SDG, tính độc lập của nền tảng và không gây hại theo thiết kế là những tính năng giúp DPG khác biệt với các giải pháp nguồn mở khác—và vì những lý do đó, cần phải đưa dữ liệu đào tạo [AI] vào”.

Các bước tiếp theo

CC sẽ tiếp tục làm việc với DPGA và các đối tác khác khi xây dựng một tiêu chuẩn về những gì đủ điều kiện để một mô hình AI trở thành một hàng hóa công cộng kỹ thuật số. Trong lĩnh vực đó, chúng tôi sẽ ủng hộ các tập dữ liệu mở và xem xét phương pháp tiếp cận theo từng cấp độ, để các thành phần của mô hình AI có thể được coi là hàng hóa công cộng kỹ thuật số, mà không cần toàn bộ mô hình phải chia sẻ công khai mọi thành phần. Các khuyến nghị và hướng dẫn được cập nhật công nhận giá trị của các hệ thống AI hoàn toàn mở sử dụng và chia sẻ các tập dữ liệu mở sẽ là một phần quan trọng để đảm bảo AI phục vụ cho lợi ích công cộng.

-------------------------------------------

¹Digital Public Goods Standard (Tiêu chuẩn Hàng hóa Công cộng Kỹ thuật số)

²Data for Better Lives. World Bank (2021). (Dữ liệu để cuộc sống tốt hơn. Ngân hàng Thế giới) CC BY 3.0 IGO

Acknowledging that some data should not be shared (for moral, ethical and/or privacy reasons) and some cannot be shared (for legal or other reasons), Creative Commons (CC) thinks there is value in incentivizing the creation, sharing, and use of open data to advance knowledge production. As open communities continue to imagine, design, and build digital public goods and public infrastructure services for education, science, and culture, these goods and services – whenever possible and appropriate – should produce, share, and/or build upon open data.

Open Data by Auregann is licensed under CC BY-SA 3.0.

Open Data and Digital Public Goods (DPGs)

CC is a member of the Digital Public Goods Alliance (DPGA) and CC’s legal tools have been recognized as digital public goods (DPGs). DPGs areopen-source software, open standards, open data, open AI systems, and open content collections that adhere to privacy and other applicable best practices, do no harm, and are of high relevance for attainment of the United Nations 2030 Sustainable Development Goals (SDGs).” If we want to solve the world’s greatest challenges, governments and other funders will need to invest in, develop, openly license, share, and use DPGs.

Open data is important to DPGs because data is a key driver of economic vitality with demonstrated potential to serve the public good. In the public sector, data informs policy making and public services delivery by helping to channel scarce resources to those most in need; providing the means to hold governments accountable and foster social innovation. In short, data has the potential to improve people’s lives. When data is closed or otherwise unavailable, the public does not accrue these benefits.
CC was recently part of a DPGA sub-committee working to preserve the integrity of open data as part of the DPG Standard. This important update to the DPG Standard was introduced to ensure only open datasets and content collections with open licenses are eligible for recognition as DPGs. This new requirement means open data sets and content collections must meet the following criteria to be recognised as a digital public good.

  1. Comprehensive Open Licensing:

    1. The entire data set/content collection must be under an acceptable open licence. Mixed-licensed collections will no longer be accepted.

  2. Accessible and Discoverable:

    1. All data sets and content collection DPGs must be openly licensed and easily accessible from a distinct, single location, such as a unique URL.

  3. Permitted Access Restrictions:

    1. Certain access restrictions – such as logins, registrations, API keys, and throttling – are permitted as long as they do not discriminate against users or restrict usage based on geography or any other factors.

The DPGA writes: “This new requirement is designed to increase trust and confidence in all DPGs by ensuring that users can fully engage with solutions without concerns over intellectual property infringement. Simplifying access and usage aligns with the DPGA’s goal of making DPGs truly open and accessible for widespread adoption… it helps foster an environment and ecosystem where innovation can thrive without legal uncertainties.”

AI and Open Data

As CC examines AI and its potential to be a public good that helps solve global challenges, we believe open data will play a similarly important role.

CC recognizes AI is a rapidly developing space, and we appreciate everyone’s diligent work to create definitions, recommendations, and guidance for and warnings about AI. After two years of community consultation, the Open Source Initiative released version 1.0 of the Open Source AI Definition (OSAID) on October 28, 2024. This definition is an important step in starting the conversation about what open means for AI systems. However, the OSAID’s data sharing requirements remain contentious, particularly around whether and how training data for AI models should be shared.

CC is of the opinion that just because it is difficult to build and release open datasets, that does not mean we should not encourage it. In cases where training data should not or cannot be shared, we encourage detailed summaries that explain the contents of the dataset and give instructions for reproducibility, but nonetheless that data should be defined as closed. When data can be made open and shared, it should be.

We agree with Liv Marte Nordhaug, CEO, Digital Public Goods Alliance who said in a recent post: “With regards to AI systems, there is a need to ensure that we don’t inadvertently undermine the open data movement and open data as a category of DPGs by advancing an approach to AI systems that is more permissive than for other categories of DPGs. Maintaining a high bar on training data could potentially result in fewer AI systems meeting the DPG Standard criteria. However, SDG relevance, platform independence, and do-no-harm by design are features that set DPGs apart from other open source solutions—and for those reasons, the inclusion of [AI] training data is needed.”

Next Steps

CC will continue to work with the DPGA, and other partners, as it develops a standard as to what qualifies an AI model to be a digital public good. In that arena we will advocate for open datasets, and consideration of a tiered approach, so that components of an AI model can be considered digital public goods, without the entire model needing to have every component openly shared. Updated recommendations and guidelines that recognize the value of fully open AI systems that use and share open datasets will be an important part of ensuring AI serves the public good.

-------------------------------------------

¹Digital Public Goods Standard

²Data for Better Lives. World Bank (2021). CC BY 3.0 IGO

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Ba, 1 tháng 4, 2025

Các công cụ pháp lý CC được thừa nhận là Hàng hóa Công cộng Kỹ thuật số

Power Grid” by Ram Joshi is licensed via CC BY-NC-ND 2.0.

CC Legal Tools Recognized as Digital Public Goods

by Cable Green, Creative Commons

Posted 08 October 2024

Theo: https://creativecommons.org/2024/10/08/cc-legal-tools-recognized-as-digital-public-goods/

Bài được đưa lên Internet ngày: 08/10/2024

Các công cụ pháp lý CC là hạ tầng công cộng kỹ thuật số làm cho việc chia sẻ hợp pháp các Hàng hóa Công cộng Kỹ thuật số - DPGs (Digital Public Goods) có thể.

Chúng tôi tự hào thông báo rằng các Công cụ pháp lý của Creative Commons đã được xem xét và chấp nhận vào Sổ đăng ký DPG của Liên minh hàng hóa công cộng kỹ thuật số – DPGA (Digital Public Goods Alliance). DPGA là sáng kiến của nhiều bên liên quan, được Tổng thư ký Liên hợp quốc chứng thực, nhằm đẩy nhanh việc đạt được các Mục tiêu phát triển bền vững của Liên hợp quốc tại các quốc gia có thu nhập thấp và trung bình. DPGA thực hiện điều này bằng cách tạo điều kiện cho việc khám phá, phát triển, sử dụng và đầu tư vào hàng hóa công cộng kỹ thuật số (DPG) để tạo ra một thế giới công bằng hơn.

Được công nhận là DPG sẽ làm tăng khả năng hiển thị, hỗ trợ và sự nổi bật của các dự án mở có tiềm năng giải quyết các thách thức toàn cầu. Để trở thành một hàng hóa công cộng kỹ thuật số, tất cả các dự án đều phải đáp ứng Tiêu chuẩn DPG để đảm bảo rằng các dự án thực sự bao hàm các nguyên tắc nguồn mở.

Creative Commons cung cấp và quản lý các giấy phép CCcác công cụ phạm vi công cộng, mang đến cho mọi cá nhân và tổ chức trên thế giới một cách miễn phí, đơn giản và được chuẩn hóa để cấp quyền bản quyền cho các tác phẩm sáng tạo và học thuật. Ngoài ra, các giấy phép này hỗ trợ việc ghi công đúng và cho phép những người khác sao chép, phân phối và sử dụng các tác phẩm đó. Các công cụ pháp lý CC là cơ sở hạ tầng công cộng kỹ thuật số giúp việc chia sẻ hợp pháp các DPG trở nên khả thi.

Tại Creative Commons, chúng tôi rất vui mừng khi các Công cụ pháp lý của mình được công nhận là DPG vì chúng có thể trao quyền cho mọi người để cải thiện đáng kể khả năng tiếp cận nội dung mở. Bằng cách ủng hộ việc sử dụng và triển khai DPG, các cộng đồng toàn cầu có thể cùng nhau hợp tác để ưu tiên và huy động các nguồn lực nhằm giúp giải quyết các thách thức toàn cầu. Các công cụ pháp lý của CC và các chương trình của chúng tôi đóng vai trò quan trọng trong việc giúp thúc đẩy hệ sinh thái DPG.

Đối với bất kỳ thắc mắc nào về sự tham gia của CC vào Liên minh hàng hóa công cộng kỹ thuật số, vui lòng liên hệ với Cable Green. Để biết thêm thông tin về Liên minh hàng hóa công cộng kỹ thuật số, vui lòng liên hệ với hello@digitalpublicgoods.net.

Hãy tham gia cùng chúng tôi bằng cách ủng hộ công việc đang diễn ra này. Bạn có khả năng tạo ra sự khác biệt theo cách phù hợp nhất với bạn. Bằng cách quyên góp cho CC, bạn không chỉ giúp chúng tôi tiếp tục công việc quan trọng của mình mà còn được hưởng lợi từ các khoản đóng góp được khấu trừ thuế. Việc tặng quà của bạn rất đơn giản – chỉ cần nhấp vào đây. Cảm ơn sự ủng hộ của bạn.

CC legal tools are digital public infrastructure that make the legal sharing of DPGs possible.

We’re proud to announce Creative Commons’ Legal Tools have been reviewed and accepted into the Digital Public Goods Alliance (DPGA) DPG Registry. The DPGA is a multi-stakeholder initiative, endorsed by the United Nations Secretary-General, that is working to accelerate the attainment of the UN Sustainable Development Goals in low- and middle-income countries. DPGA does this by facilitating the discovery, development, use of, and investment in digital public goods (DPGs) in order to create a more equitable world.

Being recognized as a DPG increases the visibility, support for, and prominence of open projects that have the potential to tackle global challenges. To become a digital public good, all projects are required to meet the DPG Standard to ensure that projects truly encapsulate open source principles.

Creative Commons provides and stewards the CC licenses and public domain tools that give every person and organization in the world a free, simple, and standardized way to grant copyright permissions for creative and academic works. In addition, the licenses support proper attribution and enable others to copy, distribute, and make use of those works. CC legal tools are digital public infrastructure that make the legal sharing of DPGs possible.

At Creative Commons, we are thrilled to have our Legal Tools recognised as DPGs as they can empower people to dramatically improve access to open content. By advocating for the use and implementation of DPGs, global communities can work together in prioritizing and mobilizing resources to help solve global challenges. CC’s legal tools and our programs play a critical role in helping to advance the DPG ecosystem.

For any inquiries about CC’s involvement in the Digital Public Goods Alliance, please reach out to Cable Green. For more information on the Digital Public Goods Alliance please reach out to hello@digitalpublicgoods.net.

Join us by supporting this ongoing work. You have the power to make a difference in a way that suits you best. By donating to CC, you are not only helping us continue our vital work, but you also benefit from tax-deductible contributions. Making your gift is simple – just click here. Thank you for your support.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com