Thứ Hai, 3 tháng 3, 2025

Hàng hóa công cộng kỹ thuật số có thể giúp mở khóa tiềm năng lợi ích công cộng của AI như thế nào


How digital public goods can help unlock the public interest potential of AI

December 12, 2024

Theo: https://www.digitalpublicgoods.net/blog/how-digital-public-goods-can-help-unlock-the-public-interest-potential-of-ai

Bài được đưa lên Internet ngày: 12/12/2024

Author: Liv Marte Nordhaug, Secretariat CEO, Digital Public Goods Alliance

Trong vài tháng qua, đỉnh điểm là các hội thảo chuyên sâu tại Cuộc họp thường niên của Liên minh Hàng hóa Công cộng Kỹ thuật số - DPGA (Digital Public Goods Alliance) năm 2024 tại Singapore, Ban thư ký DPGA đã dành nhiều thời gian để triệu tập các cuộc thảo luận về trí tuệ nhân tạo (AI), đặc biệt liên quan đến cách hàng hóa công cộng kỹ thuật số có thể thúc đẩy AI vì lợi ích công cộng. Trong suốt các cuộc thảo luận này, những người tham gia đã nêu bật nhiều thách thức đang ngăn cản sự phát triển của AI vì lợi ích công cộng ở quy mô lớn. Đây là lý do tại sao vào năm 2025, chúng tôi muốn giúp tìm nguồn các công cụ nguồn mở có thể giảm bớt những rào cản này và trở thành một phần của các giải pháp cần thiết.

Mặc dù không có sự đồng thuận chính xác về định nghĩa AI vì lợi ích công cộng, nhưng hiểu biết chung được chấp nhận, như đã đề cập trên blog của Ban thư ký DPGA vào tháng 6, bao gồm những điều sau: "các mục tiêu mong muốn như cho phép sử dụng AI tốt hơn để giải quyết các thách thức xã hội và môi trường cấp bách, cải thiện khả năng tiếp cận các năng lực phát triển AI để thúc đẩy đổi mới và thúc đẩy việc tạo ra các giải pháp cục bộ địa phương cho các thách thức cụ thể theo bối cảnh, hỗ trợ nghiên cứu AI cơ bản và nghiên cứu trong các lĩnh vực khác như phát triển thuốc và định hình cấu trúc thị trường để giải quyết tình trạng mất cân bằng thị trường".

Với suy nghĩ này, có vẻ tự nhiên khi hàng hóa công cộng kỹ thuật số (DPG) đóng vai trò quan trọng trong việc theo đuổi AI vì lợi ích công cộng, nhưng điều đó không có nghĩa là mọi việc sẽ đơn giản. Như tôi đã nêu trên một blog DPGA khác trước đây, "việc duy trì một rào cản cao đối với dữ liệu đào tạo có khả năng dẫn đến ít hệ thống AI đáp ứng các tiêu chí Tiêu chuẩn DPG hơn. Tuy nhiên, tính liên quan của SDG, tính độc lập của nền tảng và tính không gây hại theo thiết kế là những tính năng giúp DPG khác biệt với các giải pháp nguồn mở khác—và vì những lý do đó, việc đưa dữ liệu đào tạo vào là cần thiết".

Trên cùng blog đó, tôi cũng đã viết rằng "với DPG, chúng tôi muốn giúp phát triển bối cảnh AI vì lợi ích công cộng khi hệ sinh thái hiểu rõ hơn về cách giải quyết những phức tạp liên quan đến dữ liệu mở và chia sẻ dữ liệu".

Tại Ban thư ký DPGA, chúng tôi tiếp tục tự hỏi bản thân và các chuyên gia có liên quan về cách chúng tôi có thể giúp giải quyết một số phức tạp này. Ở đây, tôi xin nêu bật quan điểm hiện tại của chúng tôi:

DPG là công cụ cho AI vì lợi ích công cộng

Chúng tôi muốn đẩy nhanh việc sử dụng DPG có thể đóng vai trò là công cụ để giải quyết các rào cản trong việc thúc đẩy AI vì lợi ích công cộng. Ví dụ, điều này có thể bao gồm các giải pháp cải thiện quản trị dữ liệu, tính minh bạch và trách nhiệm giải trình; sự đồng ý và cấp phép để đào tạo; tuân thủ quy định và các ưu tiên về chính sách. Chúng tôi sẽ nỗ lực để đưa các công cụ nguồn mở như vậy lên trước trong khi vẫn cam kết hoàn toàn thúc đẩy các hệ thống AI dưới dạng DPG, trong đó mỗi thành phần có liên quan của một hệ thống AI nhất định (bao gồm dữ liệu đào tạo) được công khai và các tiêu chí liên quan đến DPG khác được đáp ứng.

Một số rào cản hoàn toàn mang tính công nghệ, trong khi những rào cản khác liên quan đến các quy trình và chuẩn mực đã được thiết lập, bao gồm nhu cầu xây dựng nhận thức, kiến thức và lòng tin. Trong một số trường hợp, cần phải có những thay đổi về luật pháp hoặc các hình thức thủ tục pháp lý khác trước khi có thể thực hiện hành động có ý nghĩa, trong khi những thách thức khác có thể được giải quyết ngay lập tức - bằng các công cụ phù hợp. Sau đây là một số ví dụ về các thách thức hoặc chủ đề kỹ thuật mà chúng tôi đã nghe đề cập cho đến nay, trong đó DPG có thể hữu ích:

  • Trích xuất dữ liệu từ các định dạng không thể đọc được bằng máy (như PDF).

  • Xác định thông tin cấp phép, trạng thái phạm vi công cộng hoặc tín hiệu đồng ý của nội dung/dữ liệu.

  • Theo dõi nguồn gốc dữ liệu.

  • Kiểm tra và xác thực tập dữ liệu.

  • Thu thập và dán nhãn dữ liệu (như dữ liệu đa ngôn ngữ).

  • Tạo dữ liệu tổng hợp, ẩn danh và che giấu.

DPG, với vai trò là các giải pháp kỹ thuật số mở, có thể thích ứng, có tài liệu hướng dẫn có thể giúp tạo điều kiện tái sử dụng, có thể đóng vai trò quan trọng như các công cụ để giải quyết những thách thức chung đối với việc mở rộng AI vì lợi ích công cộng - cả trong tương lai gần và dài hạn. Đặc biệt, DPG có thể giúp mở khóa nhiều dữ liệu đào tạo mở chất lượng cao hơn và chia sẻ dữ liệu. Chúng cũng có thể giải quyết các thách thức khác về AI vì lợi ích công cộng như thử nghiệm và xác thực các hệ thống AI và có khả năng cung cấp các công cụ, tài nguyên hoặc đóng vai trò là ví dụ về cách giảm yêu cầu về sức mạnh tính toán để phát triển và triển khai AI, giúp AI dễ tiếp cận hơn trong các môi trường hạn chế về tài nguyên và giảm tiêu thụ năng lượng.

Lý tưởng nhất là chúng tôi muốn thấy sự phát triển của một bộ công cụ đồng tiến hóa gồm các công cụ nguồn mở bổ sung mà nhiều bên liên quan có thể sử dụng và điều chỉnh khi cần để giải quyết các thách thức cụ thể hoặc độc đáo của họ. Thành công trong việc xác định và/hoặc xây dựng các DPG có tác động cao nhất như một phần của bộ công cụ sẽ phụ thuộc vào việc huy động các nhóm chuyên gia và bên liên quan đa dạng cam kết thúc đẩy AI vì lợi ích công cộng để hợp tác. Chúng tôi tin rằng việc tập trung vào các trường hợp sử dụng sẽ rất quan trọng đối với những nỗ lực này.

Các trường hợp sử dụng tác động cao

Ban thư ký DPGA đã nhận được những khuyến nghị và hiểu biết hữu ích về nơi có nhiều cơ hội nhất để liên kết trong ba phiên họp AI vì lợi ích công cộng khác nhau tại Cuộc họp thành viên thường niên của DPGA tại Singapore.

Một điểm chung là trong khi có những thách thức cực kỳ phức tạp liên quan đến dữ liệu mở và chia sẻ dữ liệu, đặc biệt là khi liên quan đến những cân nhắc quan trọng về quyền riêng tư và dữ liệu cá nhân nhạy cảm, thì vẫn có những lĩnh vực khác có thể được giải quyết theo cách đơn giản hơn. Ví dụ, các lĩnh vực phần lớn không liên quan đến dữ liệu nhận dạng cá nhân, như hình ảnh vệ tinh, khoa học khí hậu và thiên nhiên mở, và thông tin chuỗi cung ứng có thể dễ dàng phát triển hơn và có giá trị đối với lợi ích công cộng của AI và các mục tiêu phát triển bền vững.

Một suy nghĩ khác được chia sẻ là trong khi nhiều loại thu thập dữ liệu có thể gây ra rủi ro về quyền riêng tư, ví dụ như dữ liệu giọng nói được sử dụng để phát triển các mô hình ngôn ngữ lớn, thì nhiều rủi ro về quyền riêng tư có thể được giải quyết nếu có các quy trình thu thập và quản lý bảo vệ quyền riêng tư được thiết kế tốt.

Cuối cùng, những người tham gia đã đưa ra một số ví dụ về nhu cầu xây dựng lòng tin giữa các viên chức khu vực công về cách AI có thể được sử dụng theo cách an toàn để cải thiện các dịch vụ công của họ. Bắt đầu từ quy mô nhỏ bằng cách sử dụng dữ liệu mở hiện có từ các tổ chức này để đào tạo một mô hình ngôn ngữ nhỏ nhằm giải quyết nhu cầu dịch vụ công cụ thể có thể là một cách giúp giải quyết mối quan tâm này và thúc đẩy sự thay đổi tích cực và lòng tin vào AI.

Dựa trên những thảo luận này và các thảo luận khác, chúng tôi đã đưa ra các trường hợp sử dụng tham chiếu sau đây về nơi DPG nên được xác định và/hoặc xây dựng thành công cụ cho AI vì lợi ích công cộng có tác động cao hơn:

  • Các mô hình ngôn ngữ lớn (LLM) đa ngôn ngữ bao gồm các ngôn ngữ chưa được phục vụ,

  • Các mô hình ngôn ngữ nhỏ (SLM) có thể giải quyết các nhu cầu cụ thể hơn, đặc biệt là trong cung cấp dịch vụ công,

  • Hành động vì khí hậu dựa trên nghiên cứu (giám sát, giảm thiểu, thích ứng).

Chúng tôi tin rằng các trường hợp sử dụng này phù hợp với Tầm nhìn của DPGA về việc thúc đẩy các mục tiêu phát triển bền vững và đóng góp cho một thế giới công bằng hơn. Điều quan trọng là khi chúng tôi tinh chỉnh các chủ đề này hơn nữa, chúng tôi sẽ đảm bảo rằng sự hiểu biết của chúng tôi về các nhu cầu và thách thức cấp bách liên quan đến từng trường hợp sử dụng tiếp tục được các bên liên quan từ các quốc gia có thu nhập thấp và trung bình, bao gồm cả cơ chế thành viên của DPGA, thông báo.

Chúng tôi sẽ khởi chạy quy trình tạo bộ công cụ này vào cuối tháng 2 năm 2025 và hy vọng bạn sẽ tham gia cùng chúng tôi trong hành trình này!

Over the course of the last few months, culminating with in-depth workshops at the recent 2024 Digital Public Goods Alliance Annual Members Meeting in Singapore, the DPGA Secretariat has spent a lot of time convening discussions on artificial intelligence (AI), in particular related to how digital public goods can advance public interest AI. Throughout these discussions, participants have highlighted multiple challenges that are preventing the advancement of public interest AI at scale. This is why in 2025 we want to help source open-source tools that can reduce these hurdles and be part of the solutions needed.

While there is no precise agreement on the definition of public interest AI, the generally accepted understanding, as mentioned in a June DPGA Secretariat blog, includes the following: “desired objectives such as better enabling the use of AI to tackle urgent social and environmental challenges, improving access to AI development capacities to spur innovation and foster the creation of localised solutions for context-specific challenges, supporting basic AI research and research in other fields such as drug development, and shaping market structures to address market imbalances”.

With this in mind, it feels natural that digital public goods (DPGs) should play a strong role in the pursuit of public interest AI, but that’s not to say it will be straightforward. As I previously highlighted in another DPGA blog, “maintaining a high bar on training data could potentially result in fewer AI systems meeting the DPG Standard criteria. However, SDG relevance, platform independence, and do-no-harm by design are features that set DPGs apart from other open source solutions—and for those reasons, the inclusion of training data is needed”.

In the same blog I also wrote that “with DPGs, we want to help evolve the public interest AI landscape as the ecosystem gains a better understanding of how to address complexities regarding open data and data sharing”.

At the DPGA Secretariat we have continued to ask ourselves and relevant experts how we can help move the needle on some of these complexities. Here, I highlight where our thinking currently stands:

DPGs as tools for public interest AI

We would like to fast-track the use of DPGs that can serve as tools for addressing the barriers to advancing public interest AI. This could for instance include solutions for improving data governance, transparency and accountability; consent and licensing for training; and regulatory compliance and policy priorities. We will work to surface such open source tools while remaining fully committed to advancing AI systems as DPGs, where each relevant component of a given AI system (including the training data) is made openly available and other DPG-relevant criteria are met.

Some barriers are purely technological, whereas others relate to established processes and norms, including a need to build awareness, knowledge and trust. In some cases, legislative changes or other forms of legal procedures are needed before meaningful action can be taken, whereas other challenges could be addressed right away – with the right tools. Here are some examples of technical challenges or topics we have heard mentioned so far, where DPGs could potentially be of use:

  • Extracting data from non-machine-readable formats (such as PDF).

  • Identifying licensing information, public domain status or consent signals of content/data.

  • Data provenance tracking.

  • Testing and validation datasets.

  • Collection and labelling of data (such as multilingual data).

  • Synthetic data generation, anonymization and masking.

DPGs, as open, adaptable digital solutions, with documentation that can help facilitate reuse, can play an important role as tools for addressing common challenges to scaling public interest AI – both in the near future and longer term. In particular DPGs can help unlock more and higher-quality open training data and data sharing. They can also address other public interest AI challenges such as the testing and validation of AI systems, and potentially provide tools, resources, or serve as examples for how to lower the computing power requirements for AI development and deployment, making AI more accessible in resource-constrained environments and reducing the energy footprint.

Ideally, we would like to see the development of a co-evolved toolkit of complementary open source tools that many stakeholders can use and adapt as needed to address their specific or unique challenges. Success in identifying and/or building the most high-impact DPGs as part of the toolkit will depend on mobilizing diverse groups of experts and stakeholders committed to advancing public interest AI to collaborate. We believe that focusing on use cases will be important for these efforts.

High-impact use cases

The DPGA Secretariat received helpful recommendations and insights on where the greatest opportunities for alignment are during the three different public interest AI-sessions at the DPGA’s Annual Members Meeting in Singapore.

One point of consensus was that while there are highly complex challenges pertaining to open data and data sharing, particularly when significant privacy considerations and sensitive personal data is involved, there are other sectors that can be addressed in a more straightforward manner. For example, areas that largely do not involve personally identifiable data, like satellite imagery, open climate and nature science, and supply chain information may be more straightforward to advance and valuable for public interest AI and the sustainable development goals.

Another reflection shared was that while many types of data collection could bring privacy risks, for instance voice data used for developing large language models, many privacy risks can be addressed if there are well designed privacy preserving collection and management processes in place.

Lastly, participants gave several examples of the need to build confidence among public sector officials in how AI can be used in a safe way to improve their public service offerings. Starting small by using existing open data from these institutions to train a small language model to address a specific public service need could be a way of helping address this concern and foster positive change and trust in AI.

Informed by these and other discussions we have arrived at the following reference use cases for where DPGs should be identified and/or built as tools for more high-impact public interest AI:

  • Multilingual large language models (LLMs) covering underserved languages,

  • Small language models (SLMs) that can address more specific needs, particularly in public service delivery,

  • Research-based climate action (monitoring, mitigation, adaptation).

We believe these use cases are well aligned with the DPGA Vision of advancing the sustainable development goals and contributing to a more equitable world. Importantly, as we refine these topics further, we will ensure that our understanding of pressing needs and challenges in relation to each use case continues to be informed by stakeholders from low- and middle-income countries, including from among the DPGA membership.

We will launch a process for creating this toolkit in late February 2025, and hope you will join us in this journey!

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.