Thứ Sáu, 30 tháng 8, 2024

AI tạo sinh đang trượt vào “vũng lầy của sự vỡ mộng”

Generative AI is sliding into the ‘trough of disillusionment’

Aug 22, 2024 by Lucas Mearian

Theo: https://www.computerworld.com/article/3489912/generative-ai-is-sliding-into-the-trough-of-disillusionment.html

Bài được đưa lên Internet ngày: 22/08/2024

Sự cường điệu về genAI và công nghệ AI liên quan đang giảm dần, khiến các công ty phải tìm kiếm lợi nhuận cụ thể cho khoản đầu tư của họ.


Credit: Shutterstock/Shutterstock AI Generator

Hãng nghiên cứu thị trường Gartner ngày hôm qua đã xuất bản Chu kỳ thổi phồng cho các công nghệ mới nổi năm 2024 của nó, và nghiên cứu đã hé lộ rằng AI tạo sinh - genAI (Generative AI) đã đi qua “đỉnh cao của kỳ vọng thái quá” và hiện đang trượt xuống “đáy của sự vỡ mộng”.

Cùng với genAI, kỹ thuật phần mềm tăng cường AI cũng đang đi xuống sau khi vượt qua kỳ vọng quá cao trên thị trường, theo Gartner, công ty có Hype Cycle mô tả quá trình tăng trưởng nóng và cuối cùng là hạ nhiệt trong việc áp dụng công nghệ.


CREDIT: Gartner

Các công cụ tạo mã hỗ trợ AI ngày càng phổ biến trong kỹ thuật phần mềm và bất ngờ trở thành mục tiêu dễ đạt được đối với hầu hết các tổ chức thử nghiệm genAI. Tỷ lệ áp dụng đang tăng vọt. Điều đó giải thích vì sao ngay cả nếu chúng chỉ gợi ý một mã cơ sở cho một ứng dụng mới, các công cụ tự động hóa vẫn có thể giúp loại bỏ nhiều giờ phải dành cho việc tạo lập và cập nhật mã thủ công.

Theo Gartner, đạt đến đỉnh cao của kỳ vọng thổi phồng là kỹ thuật nhắc (prompt engineering). Trong khi hầu hết các mô hình ngôn ngữ lớn như GPT-4 của OpenAI được điền sẵn một lượng thông tin khổng lồ, thì "kỹ thuật nhắc", một cách đào tạo thuật toán, cho phép genAI được điều chỉnh cho phù hợp với ngành cụ thể hoặc thậm chí là mục đích sử dụng của tổ chức.

Video: Vòi tiền AI đang chậm lại | Ep. 178

Sự quan tâm đến GenAI giảm dần khi ROI (hoàn vốn đầu tư) trở thành trọng tâm

Sự phấn khích xung quanh các mô hình nền tảng, chẳng hạn như Google Gemini, Anthropic Claude, Amazon Bedrock và OpenAI GPT-4, đang giảm dần trong các doanh nghiệp vì thay vào đó, các công ty tìm kiếm hoàn vốn đầu tư (ROI) cụ thể. Ngày nay, các công ty thường chỉ triển khai genAI cho các trường hợp sử dụng thúc đẩy ROI, theo Arun Chandrasekaran, một nhà phân tích là phó chủ tịch nổi tiếng của Gartner.

"AI tạo sinh đang trượt qua vực thẳm của sự vỡ mộng do sự không phù hợp giữa kỳ vọng cao so với thực tế, những thách thức của doanh nghiệp trong việc hoàn thiện kỹ thuật dữ liệu và quản trị AI, cũng như ROI vô hình của nhiều sáng kiến genAI", Chandrasekaran cho biết.

Trong khi công nghệ này được ca ngợi là một lợi ích cho năng suất, thì việc xác định được ROI trong genAI có thể tỏ ra khó nắm bắt. Điều đó không nhất thiết là vì việc tìm ra ROI là khó, nhưng việc thể hiện ROI là khó khăn vì nhiều lợi ích như năng suất có tác động gián tiếp hoặc phi tài chính tạo ra kết quả tài chính trong tương lai, theo Rita Sallam, một phó chủ tịch phân tích nổi tiếng tại Gartner.

Đáy vỡ mộng của Gartner mô tả thời điểm mà sự quan tâm giảm dần khi các thử nghiệm và triển khai không mang lại hiệu quả như sự cường điệu ban đầu về một công nghệ. Các nhà sản xuất công nghệ sẽ bị loại bỏ hoặc thất bại. Theo Gartner, đầu tư chỉ tiếp tục nếu các nhà cung cấp còn sống sót cải thiện sản phẩm của họ để làm hài lòng những người dùng sớm.

Các tác nhân AI bước vào ánh đèn sân khấu

Nhưng không phải là một tác động tiêu cực, mà là sự suy thoái của sự vỡ mộng có thể dẫn đến cái mà Gartner mô tả là "đỉnh cao của năng suất", khi việc áp dụng chính thống bắt đầu cất cánh. Điều đó cũng có nghĩa là sự tập trung của doanh nghiệp vào ROI có thể sẽ thúc đẩy việc áp dụng AI tự động dưới dạng các tác nhân AI — một thứ có tiềm năng vững chắc hơn về năng suất và hiệu quả.

Một tác nhân AI là một chương trình phần mềm thu thập dữ liệu và sử dụng dữ liệu để thực hiện các nhiệm vụ tự xác định để đáp ứng các mục tiêu đã định trước. Ví dụ, một tác nhân AI có thể hoạt động như một đại diện chăm sóc khách hàng và tự động hỏi khách hàng những câu hỏi khác nhau, tra cứu thông tin trong các tài liệu nội bộ và trả lời bằng một giải pháp. Dựa trên phản hồi của khách hàng, nó xác định xem nó có thể tự giải quyết truy vấn hay chuyển cho con người.

Theo Gartner, đến năm 2030, các công ty sẽ chi 42 tỷ đô la mỗi năm cho các dự án genAI như chatbot, công cụ nghiên cứu, viết và tóm tắt.

Các hệ thống AI tự động có thể hoạt động với sự giám sát tối thiểu của con người. Theo Chandrasekaran, chúng tìm cách "hiểu" môi trường của mình, rút ra kết luận từ đó và điều chỉnh hành động của mình cho phù hợp.

"Chúng có thể đưa ra quyết định, mua sắm và thực hiện nhiệm vụ, đạt được mục tiêu trong nhiều môi trường khác nhau một cách hiệu quả như con người. Các hệ thống có thể thực hiện bất kỳ nhiệm vụ nào mà con người có thể thực hiện đang bắt đầu chuyển dần từ khoa học viễn tưởng sang thực tế", ông cho biết.

Trong khi thế hệ mô hình AI hiện tại thiếu "tác nhân", các phòng thí nghiệm nghiên cứu AI đang nhanh chóng phát hành các tác nhân có thể tương tác động với môi trường của chúng để đạt được mục tiêu, mặc dù đây sẽ là một quá trình dần dần, Chandrasekaran lưu ý.

Chú ý đến các công nghệ mới nổi khác

“Ngay cả khi AI tiếp tục thu hút sự chú ý, các CIO và các giám đốc điều hành CNTT khác cũng phải xem xét các công nghệ mới nổi khác có tiềm năng chuyển đổi cho các nhà phát triển, bảo mật và trải nghiệm của khách hàng và nhân viên và lập chiến lược khai thác các công nghệ này phù hợp với khả năng xử lý các công nghệ chưa được chứng minh của tổ chức họ”, Chandrasekaran cho biết.

Gartner cho biết Chu kỳ thổi phồng các công nghệ mới nổi của họ là duy nhất trong số các Chu kỳ thổi phồng khác của công ty vì nó chắt lọc những hiểu biết sâu sắc từ hơn 2.000 công nghệ và tập trung vào các công nghệ mới nổi “phải biết”.

“Những công nghệ này có tiềm năng mang lại lợi ích chuyển đổi trong vòng hai đến 10 năm tới”, Gartner cho biết.

Phần mềm AI tự động là một trong bốn công nghệ mới nổi được nêu tên trong báo cáo vì nó có thể hoạt động với sự giám sát tối thiểu của con người, tự cải thiện và trở nên hiệu quả trong việc ra quyết định trong các môi trường phức tạp.

“Những hệ thống AI tiên tiến này có thể thực hiện bất kỳ nhiệm vụ nào mà con người có thể thực hiện đang bắt đầu chuyển dần từ khoa học viễn tưởng sang thực tế”, Gartner cho biết trong báo cáo của mình. “Những công nghệ này bao gồm các hệ thống đa tác nhân, mô hình hành động lớn, khách hàng máy móc (machine customers), rô bốt làm việc giống người, tác nhân tự động và học tăng cường”.

Các tác nhân tự động hiện đang hướng lên đỉnh cao của kỳ vọng bị thổi phồng. Ngay trước các tác nhân tự động trên con dốc đó là trí tuệ nhân tạo tổng quát (artificial general intelligence), hiện là một dạng AI giả định, trong đó máy móc học và suy nghĩ giống như con người.

Chandrasekaran lưu ý rằng các công nghệ GenAI đang phát triển với tốc độ nhanh chóng và quá trình đổi mới tiếp tục diễn ra với tốc độ nhanh chóng, điều này có thể khiến các nhà lãnh đạo CNTT của doanh nghiệp choáng ngợp.

"Nhiều doanh nghiệp cũng nhận ra rằng chỉ riêng genAI có thể không phải là giải pháp chữa bách bệnh cho mọi trường hợp sử dụng của họ và họ cần kết hợp nó với các kỹ thuật AI khác để tạo ra giá trị có ý nghĩa", Chandrasekaran cho biết. "Tiềm năng dài hạn của AI tạo sinh vẫn sẽ rất đáng kể, nhưng các nhà lãnh đạo CNTT của doanh nghiệp cần giải quyết các rủi ro trong ngắn hạn để đạt đến ngưỡng năng suất".

--------------------------

Lucas Mearian

Phóng viên cao cấp

Phóng viên cao cấp Lucas Mearian đưa tin về AI trong doanh nghiệp, các vấn đề về Tương lai của công việc, CNTT chăm sóc sức khỏe và FinTech.

The hype over genAI and associated AI tech is waning, leading companies to seek concrete returns for their investments.

Market research firm Gartner yesterday published its 2024 Hype Cycle for Emerging Technologies, and the study revealed that generative AI (genAI) has passed the “peak of inflated expectations” and is now sliding down into the “trough of disillusionment.”

Along with genAI, AI-augmented software engineering is also heading down the slope, after passing its inflated expectations in markets, according to Gartner, whose Hype Cycle describes the hot ascent and eventual cooling off of technology adoption.

AI-assisted code generation tools are increasingly prevalent in software engineering, and somewhat unexpectedly have become low-hanging fruit for most organizations experimenting with genAI. Adoption rates are skyrocketing. That’s because even if they only suggest a baseline of code for a new application, automation tools can eliminate hours that otherwise would have been devoted to manual code creation and updating.

Hitting the peak of inflated expectations is prompt engineering, according to Gartner. While most large language models like OpenAI’s GPT-4 are pre-filled with massive amounts of information, “prompt engineering,” a way of training the algorithm, allows genAI to be tailored for specific industry or even organizational use.

Video: The AI money spigot is slowing down | Ep. 178

GenAI interest wanes as ROI becomes the focus

Excitement around foundation models, such as Google Gemini, Anthropic Claude, Amazon Bedrock, and OpenAI GPT-4, is waning among enterprises as companies instead seek concrete returns on investment (ROI). These days, companies are more often than not deploying genAI only for use cases that drive ROI, according to Arun Chandrasekaran, a Gartner distinguished vice president analyst.

“Generative AI is sliding through the trough of disillusionment due to mismatch between high expectations vs. reality, enterprise challenges in maturing their data engineering and AI governance, as well as intangible ROI of many genAI initiatives,” Chandrasekaran said.

While the technology has been heralded as a boon to productivity, nailing down an ROI in genAI can prove to be elusive. That’s not necessarily because finding ROI is difficult, but expressing ROI has been difficult because many benefits like productivity have indirect or non-financial impacts that create financial outcomes in the future, according to Rita Sallam, a distinguished vice president analyst at Gartner.

Gartner’s trough of disillusionment describes a time when interest wanes as experiments and implementations fail to deliver on the initial hype of a technology. Producers of the technology shake out or fail. Investment continues only if the surviving providers improve their products to the satisfaction of early adopters, according to Gartner.

AI agents step into the spotlight

But far from a negative effect, the trough of disillusionment can lead to what Gartner describes as the “plateau of productivity,” when mainstream adoption starts to take off. It also means enterprise focus on ROI will likely spur adoption of autonomous AI in the form of AI agents — something with a more solid potential for productivity and efficiency gains.

An AI agent is a software program that collects data and uses the data to perform self-determined tasks to meet predetermined goals. For example, an AI agent could act as a customer care representative and automatically ask the customer different questions, look up information in internal documents, and respond with a solution. Based on the customer responses, it determines if it can resolve the query itself or pass it on to a human.

By 2030, companies will spend $42 billion a year on genAI projects such as chatbots, research, writing, and summarization tools, according to Gartner.

Autonomous AI systems can operate with minimal human oversight. They seek to “understand” their environment, draw conclusions from it and adjust their actions accordingly, according to Chandrasekaran.

“They can make decisions, purchase things and perform tasks, achieving goals in a range of environments as effectively as humans can. Systems that can perform any task a human can perform are beginning to move slowly from science fiction to reality,” he said.

While the current generation of AI models lack “agency,” AI research labs are quickly releasing agents that can dynamically interact with their environment to achieve goals, although it will be a gradual process, Chandrasekaran noted.

An eye on other emerging tech

“Even as AI continues to grab the attention, CIOs and other IT executives must also examine other emerging technologies with transformational potential for developers, security, and customer and employee experience and strategize how to exploit these technologies in line with their organizations’ ability to handle unproven technologies,” Chandrasekaran said.

Gartner said its Hype Cycle for Emerging Technologies is unique among the company’s other Hype Cycles because it distills insights from more than 2,000 technologies and focuses on “must-know” emerging technologies.

“These technologies have potential to deliver transformational benefits over the next two to 10 years,” Gartner said.

Autonomous AI software was among four emerging technologies called out in the report because it can operate with minimal human oversight, improve itself, and become effective at decision-making in complex environments.

“These advanced AI systems that can perform any task a human can perform are beginning to move slowly from science fiction to reality,” Gartner said in its report. “These technologies include multiagent systems, large action models, machine customers, humanoid working robots, autonomous agents, and reinforcement learning.”

Autonomous agents are currently heading up the slope to the peak of inflated expectations. Just ahead of autonomous agents on that slope is artificial general intelligence, currently a hypothetical form of AI where a machine learns and thinks like a human does.

GenAI technologies are evolving at a rapid pace, Chandrasekaran noted, and the innovation continues at a rapid pace, which can be overwhelming enterprise  IT leaders.

“Many enterprises are also realizing that genAI alone may not be a panacea for all their use cases, and they need to combine it with other AI techniques for meaningful value,” Chandrasekaran said. “The long-term potential of generative AI will still be significant, but enterprise IT leaders need to address the near-term risks to reach the plateau of productivity.”

--------------------------

by Lucas Mearian

Senior Reporter

Senior Reporter Lucas Mearian covers AI in the enterprise, Future of Work issues, healthcare IT and FinTech.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Năm, 29 tháng 8, 2024

AI lấy dữ liệu làm trung tâm


Data-centric AI

Không có dữ liệu, sẽ không có AI. Để cung cấp AI an toàn chúng ta cần xem xét hạ tầng dữ liệu của các ứng dụng AI hiện hành và tương lai.

Tue Nov 28, 2023

Theo: https://theodi.org/insights/projects/data-centric-ai/

Bài được đưa lên Internet ngày: 28/11/2023

Trí tuệ nhân tạo - AI (Artificial Intelligence) có lẽ không là khái niệm mới trong thế giới công nghệ, nhưng sự phát hành công khai ChatGPT năm ngoái đã đánh dấu một bước thay đổi. Phát hành đó đã trao cho bất kỳ ai có truy cập tới Internet khả năng “nói chuyện” với một chương trình AI như ChatGPT, Claude, hoặc Midjourney bằng việc sử dụng các lời nhắc văn bản thay vì ngôn ngữ chuyên gia. Nó đã làm bùng phát một làn sóng chưa từng thấy về nghiên cứu, phát triển, và hoạch định chính sách đã thúc đẩy hiểu biết của chúng ta về công nghệ và cách nó có thể được sử dụng có đạo đức và công bằng.

Vượt ra khỏi sự cường điệu, tiến bộ gần đây trong các mô hình nền tảng - FM (Foundation Models) và việc các doanh nghiệp và chính phủ tăng tốc áp dụng chúng có thể mạng lại các cơ hội đáng kể để đạt được hiệu quả, tăng trưởng kinh tế và đổi mới, nhưng cũng có những rủi ro đáng kể về thông tin sai lệch, mất việc làm, phân biệt đối xử và bất bình đẳng xã hội. Việc cân bằng các đặc tính này đòi hỏi quan điểm hệ sinh thái về AI, thừa nhận vai trò của dữ liệu, điện toán, quản trị và quy định để đưa lĩnh vực này đi đúng hướng trong vài năm tới.

AI lấy dữ liệu làm trung tâm là gì và vì sao nó quan trọng?

Không có dữ liệu, sẽ không có AI - điều đó áp dụng cho bất kỳ dạng AI nào, từ học sâu, lý luận và lập kế hoạch cho đến biểu đồ tri thức. Chúng ta cần nhìn sát vào các liên kết giữa dữ liệu và các thuật toán, đưa ra các cách tiếp cận từ nhiều lĩnh vực và thu hút những người bị ảnh hưởng trực tiếp bởi AI, cũng như xã hội dân sự. Làn sóng lớn nhất các mô hình ngôn ngữ lớn - LLM (Large Language Model) và các FM khác đã phá vỡ cách chúng ta nghĩ về nhiều thành phần hạ tầng dữ liệu của chúng ta: từ giá trị dữ liệu chúng ta xuất bản mở và các quyền chúng ta nắm giữ về dữ liệu, cả cá nhân và tập thể, tới chất lượng và quản trị các tập dữ liệu quan trọng. Chúng tôi đang sử dụng khái niệm ‘AI lấy dữ liệu làm trung tâm’ (data-centric AI) để cải thiện tư duy của chúng tôi trong môi trường này - khái niệm này đã được đưa ra vài năm trước trong cộng đồng AI để biện hộ cho sự chú ý nhiều hơn tới dữ liệu các kỹ sư AI nuôi các mô hình của họ. Mở rộng khái niệm đó, chúng tôi sử dụng nó để tham chiếu tới toàn bộ hạ tầng dữ liệu xã hội - kỹ thuật của AI - điều này bao gồm các tập, các công cụ, các tiêu chuẩn, các thực hành, và các cộng đồng dữ liệu.


Video: https://vimeo.com/884929644

Để cung cấp AI an toàn và tuân theo các cam kết từ Tuyên bố Bletchley, và các tuyên bố khác gần đây và các quy định toàn cầu, chúng ta cần xem xét hạ tầng dữ liệu của các ứng dụng AI hiện có và tương lai. Điều này đi vượt ra khỏi các nỗ lực hiện hành để tạo ra các tập dữ liệu chuẩn mực mà, dù hữu dụng cho việc đánh giá và so sánh các mô hình, không thể hiện được các kịch bản khổng lồ trong đó AI được hình dung sẽ được áp dụng. Khi AI tạo sinh (generative AI) giành được sự chú ý, có rủi ro là, các chi phí liên quan đến các thực hành dữ liệu tốt, các mô hình sẽ được đào tạo và kiểm thử dựa trên dữ liệu tổng hợp hoặc chất lượng thấp, dẫn tới - đúng lúc - sự xuống cấp trong hiệu năng và làm gia tăng khả năng gây hại. Hạ tầng dữ liệu AI và các thực hành dữ liệu tốt hơn cần được áp dụng và bắt buộc khắp ngành, được những tiến bộ mới nhất trong khoa học và kỹ thuật dữ liệu cung cấp, và được các cơ sở dữ liệu chuyên tâm hỗ trợ.

Chương trình AI lấy dữ liệu làm trung tâm của chúng tôi nhằm đạt được điều gì

Xây dựng dựa vào hơn một thập kỷ công việc tạo lập các hệ sinh thái dữ liệu mở, tin cậy, ODI đã giúp dịch chuyển sự kể chuyện AI khỏi trọng tâm tuyệt đối về phát triển và sử dụng mẫu hướng tới sự hiểu biết rộng hơn về các nguồn lực - và các bên liên quan - cần thiết để cho phép phát triển công nghệ bền vững và có trách nhiệm. ODI hành động như một cơ sở chính nghiên cứu, kết nối, và khuếch đại các ý tưởng và các tiếp cận đa dạng, phát triển và xúc tác cho các thực hành tốt nhất cho quản trị dữ liệu, và tập hợp dải rộng lớn các bên liên quan trong hệ sinh thái, bao gồm các công ty khởi nghiệp, các doanh nhân, nhà nghiên cứu, nhà hoạch định chính sách và xã hội dân sự, để giúp phát triển một hệ sinh thái dữ liệu AI dựa trên các thực hành dữ liệu có trách nhiệm.

Hiện thực hóa tiềm năng của AI để làm lợi cho bất kỳ ai và đáp ứng các cam kết của Tuyên bố Bletchley, sẽ đòi hỏi vài bước cơ bản trong AI lấy dữ liệu làm trung tâm:

Làm cho dữ liệu sẵn sàng cho AI

  1. Chúng ta cần xúc tác và hỗ trợ tạo lập các tập dữ liệu AI chất lượng cao. Nhiều tập dữ liệu AI là nhỏ, tổng hợp, hoặc không là đại diện của một quốc gia, công ty hay bối cảnh cụ thể nào. Kết quả là bão hòa điểm chuẩn - các mô hình hoạt động tốt dựa trên dữ liệu có sẵn nhưng kém hơn khi áp dụng để giải quyết các vấn đề thực tế.

  2. Bản quyền, bảo vệ dữ liệu, và các quyền hiện có của người lao động phải được tôn trọng khi tạo lập các tập dữ liệu AI mới. Chúng ta cần nghiên cứu nhiều hơn để xác định các khoảng trống trong cách các quyền đó hiện được bảo vệ hoặc không trong các tập dữ liệu được các hệ thống AI sử dụng như thế nào.

  3. Các tập dữ liệu AI chủ chốt phải được quản trị và điều hành có trách nhiệm. Một số tập dữ liệu là quan trọng cho các lĩnh vực cụ thể và cần các cơ chế quản trị thông thái để đảm bảo chúng được sử dụng công bằng và được duy trì với tiêu chuẩn cao.

  4. Các tập dữ liệu vì lợi ích chung cần được hỗ trợ liên tục vì chúng thúc đẩy đổi mới trong nhiều lĩnh vực, bao gồm cả AI. Nhiều tiến bộ trong AI từng dựa vào các tập dữ liệu mở, nhưng có mối nguy hiểm mọi người sẽ dừng đóng góp và đầu tư vào dữ liệu mở và hầu hết dữ liệu mới được nuôi dưỡng trong các mô hình AI sẽ là tổng hợp hoặc có chất lượng thấp hơn.

  5. Các thực hành tốt nhất trong đảm bảo dữ liệu AI phải được thiết lập và tiêu chuẩn hóa. Trong khi một số bộ công cụ đang nổi lên, có ít hướng dẫn hoặc qui định nhằm đảm bảo các tập dữ liệu được sử dụng trong các dịch vụ công.

Làm cho dữ liệu AI truy cập được và sử dụng được

  1. Chúng ta cần làm việc với những người nắm giữ dữ liệu để nghiên cứu các tập dữ liệu quan trọng. Hầu hết các tập dữ liệu được ghi thành tài liệu kém, ngụ ý người dùng thấy khó hiểu mục đích dự kiến, khó biết các trường hợp sử dụng, và các hạn chế của chúng.

  2. Truy cập công bằng và không thiên vị phải là bắt buộc để phát triển các trường hợp sử dụng AI với các ý nghĩa xã hội lớn, ví dụ, thông tin sai lệch, khí hậu và các bệnh truyền nhiễm.

  3. Các tiêu chuẩn dữ liệu cần được phát triển để giảm chi phí vận hành dữ liệu và cho phép các nhà nghiên cứu và các doanh nghiệp nhỏ xây dựng tốt hơn hạ tầng dữ liệu AI.

  4. Truy cập an toàn tới các tập dữ liệu cho các công ty khởi nghiệp và các doanh nghiệp vừa và nhỏ phải được tạo thuận lợi, để khuyến khích thí nghiệm và đổi mới có trách nhiệm. Đây là một trong các trở ngại cùng với quyền truy cập tới điện toán và nhân tài AI.

  5. Tiềm năng cho các khả năng mới của AI để làm cho dữ liệu truy cập được, sử dụng được nhiều hơn, và hữu ích cho tất cả mọi người nên được khám phá. Có các cơ hội cho AI để tự động hóa hoặc tối ưu hóa các quy trình hiện đang hạn chế hoặc làm chậm việc chia sẻ và sử dụng dữ liệu.

Làm cho các hệ thống Ai sử dụng dữ liệu có trách nhiệm

  1. Khám phá các cơ chế để nâng cao sự hiểu biết về dữ liệu trong vòng đời AI. Điều này bao gồm việc khám phá liệu những người nắm giữ công nghệ AI và các ứng dụng dòng dưới có nên phải chia sẻ thông tin về nguồn gốc và dòng dõi dữ liệu để thúc đẩy các thực hành dữ liệu tốt trong hệ sinh thái và phân tích các tác động chi tiết hơn.

  2. Đầu tư vào nghiên cứu và đổi mới để phát triển các mô hình AI hiệu quả và bảo vệ tốt hơn. Điều này có thể giúp phát triển các mô hình ít dựa hơn vào các tập dữ liệu khổng lồ, cũng như các mô hình dựa ít hơn vào luonwjg dữ liệu đại trà và không đánh đổi quyền riêng tư và bảo vệ dữ liệu để lấy hiệu suất.

  3. Thiết kế, đánh giá và thúc đẩy các giấy phép dữ liệu có ý nghĩa hơn để hỗ trợ cho các nhà xuất bản và người dùng triển khai các thực hành dữ liệu tốt trong AI.

  4. Đầu tư vào việc tạo ra các bộ công cụ thực tế hơn để thông tin cho các quy định mới và giảm thiểu các chi phí tuân thủ. Các bộ công cụ, trường hợp sử dụng, và việc học tập ngang hàng có vai trò trong việc vận hành các khung pháp lý hiện có và đang nổi lên.

  5. Tăng cường các thực hành AI có trách nhiệm thông qua nghiên cứu, đào tạo và hiểu biết dữ liệu. Các kỹ sư AI cần được đào tạo về các thực hành AI có trách nhiệm, và các nhân viên phi kỹ thuật nên có quyền truy cập tới các công cụ và đào tạo để giúp họ hiểu các liên kết giữa dữ liệu và AI có trách nhiệm.

ODI cam kết thúc đẩy nghiên cứu và thực hành triển khai các bước đó. Điều này gồm:

Xây dựng dựa trên công việc này, trong vài tháng tới, chúng tôi sẽ:

  • đưa ra lộ trình dữ liệu trong thiết kế, đào tạo, thẩm định, kiểm thử và sử dụng mô hình AI để nêu bật các thách thức chung trong các thực hành dữ liệu có trách nhiệm cho AI

  • nghiên cứu các thực hành quản trị và điều hành dữ liệu hiện có và đang nổi lên trong các tập dữ liệu AI phổ biến nhất

  • hiểu và mô tả vai trò của các thách thức liên quan đến dữ liệu trong các báo cáo sự cố AI

  • thiết kế các cách tiếp cận tính toán để đánh giá tác động của các nguồn dữ liệu mở về hiệu năng của các mô hình AI

  • đề xuất các cách tiếp cận có sự tham gia cho việc nhắc dữ liệu như một phương tiện giúp các đối tượng đa dạng sử dụng các công cụ AI tạo sinh để tìm kiếm và hiểu ý nghĩa của dữ liệu

  • thiết lập các ưu tiên chính sách cho dự luật AI tương lai ở Vương quốc Anh, và các luật dữ liệu khác, xây dựng dựa trên các phát hiện của chương trình

Có nhiều việc phải làm và khi công nghệ và quy định phát triển với tốc độ cực nhanh, chúng ta phải ưu tiên lĩnh vực tìm hiểu này – và làm việc nhanh chóng để biến ý tưởng thành hành động. Chúng tôi rất vui mừng được cộng tác với Microsoft, Hiệp hội Đối tác Xã hội về Dữ liệu Công nghiệp (Industry Data for Society Partnership), King's College London, Đại học Oxford và nhiều tổ chức khác để đạt được tiến bộ và tạo sự khác biệt.

Chúng tôi rất mong nhận được phản hồi từ các nhà cấp vốn, đối tác và các tổ chức khác quan tâm đến việc giúp phát triển chương trình làm việc của chúng tôi. Nếu bạn muốn đóng góp, hãy nói về việc cấp vốn cho công việc của chúng tôi hoặc thách thức suy nghĩ của chúng tôi, chúng tôi hoan nghênh ý kiến của bạn.

Without data, there would be no AI. To deliver on AI safety we need to consider the data infrastructure of existing and future applications of AI.

Artificial Intelligence (AI) may not be a new concept in the technology world, but the public release of ChatGPT a year ago marked a step change. The release gave anyone with access to the internet the ability to "talk" to an AI programme like ChatGPT, Claude, or Midjourney using text prompts rather than specialist language. It sparked an unprecedented wave of research, development, and policy-making that advanced our understanding of the technology and how it could be used ethically and equitably. It also sparked a lot of fear, uncertainty and doubt, including concerns about data privacy, the use of copyrighted content, and authenticity.

Beyond the hype, recent progress in foundational models (FMs) and their accelerated adoption by businesses and government bodies can bring significant opportunities for efficiencies, economic growth and innovation, but there are also significant risks of misinformation, job losses, discrimination, and social inequalities. Balancing these features requires an ecosystem view of AI, which acknowledges the role of data, computing, governance and regulation to move the field in the right direction over the next few years.

What is data-centric AI and why is it important?

Without data, there would be no AI – that applies to any form of AI, from deep learning, reasoning and planning to knowledge graphs. We need to look closer at the links between data and algorithms, drawing on approaches from multiple disciplines and engaging those directly affected by AI, as well as civic society. The latest wave of large language models (LLMs) and other FMs has disrupted how we think about many components of our data infrastructure: from the value of data we publish openly and the rights we hold on data, both individually and collectively, to the quality and governance of critical datasets. We are using the term ‘data-centric AI’ to advance our thinking in this space – the term was introduced a few years ago in the AI community to advocate for more attention to the data that AI engineers feed into their models. Expanding on the term, we use it to refer to the entire socio-technical data infrastructure of AI – this includes data assets, tools, standards, practices, and communities.

To deliver on AI safety and follow through on the commitments from the Bletchley Declaration, and other recent announcements and global regulations, we need to consider the data infrastructure of existing and future applications of AI. This goes beyond ongoing efforts to create benchmark datasets that, although useful for evaluating and comparing models, do not represent the vast scenarios in which AI is envisioned to be applied. As generative AI gains traction, there is a risk that, given the costs associated with good data practices, models will be trained and tested on synthetic or lower-quality data, leading – in time – to a degradation in performance and increasing the likelihood of harm. AI data infrastructure and better data practices should be adopted and mandated across industry, informed by the latest advances in data science and engineering, and supported by dedicated data institutions.

What our data-centric AI programme aims to achieve

Building on more than a decade of work creating open, trustworthy data ecosystems, the ODI has helped shift the AI narrative away from an exclusive focus on model development and use towards a wider understanding of the resources – and stakeholders – needed to enable sustainable and responsible technological development. The ODI acts as a key institution researching, connecting, and amplifying diverse ideas and approaches, developing and enabling best practices for data stewardship, and convening a wide range of stakeholders in the ecosystem, including startups, entrepreneurs, researchers, policy-makers and civic society, to help develop an AI data ecosystem grounded in responsible data practices.

Realising the potential of AI to benefit everyone and meet the commitments of the Bletchley Declaration, will require several essential steps in data-centric AI:

Make data AI-ready

  1. We need to enable and support the creation of high-quality AI datasets. Many AI datasets are small, synthetic, or not representative of a particular country, company or context. The result is benchmark saturation - models perform well on the data that is available, but worse when applied to solve real problems.

  2. Existing copyright, data protection, and worker rights must be respected when creating new AI datasets. We need more research to identify gaps in how these rights are currently protected or not in the datasets used by AI systems.

  3. Key AI datasets must be responsibly stewarded and governed. Some datasets are critical for specific sectors and need wise stewardship mechanisms to ensure they are used equitably and maintained to a high standard.

  4. Public-good datasets should be continuously supported as they boost innovation in many areas, including AI. A lot of progress in AI has been on the back of open datasets, but there is a danger people would stop contributing and investing in open data and most new data fed into AI models will be synthetic or of lower quality.

  5. Best practices in AI data assurance must be established and standardised. While some toolkits are emerging, there is limited guidance or regulation to assure datasets used in public services.

Make AI data accessible and usable

  1. We need to work with data holders to study critical datasets. Most datasets are poorly documented, which means that users find it difficult to understand their intended purpose, known use cases, and limitations.

  2. Fair and equitable data access must be mandated to develop AI use cases with big societal implications e.g. misinformation, climate, and infectious diseases.

  3. Data standards should be developed to reduce the cost of data operations and allow researchers and smaller businesses to build better AI data infrastructure.

  4. Safe access to datasets for startups and SMEs must be enabled, to boost responsible experimentation and innovation. This is one of the main roadblocks alongside access to computing and AI talent.

  5. The potential for new AI capabilities in making data more accessible, usable, and useful for everyone should be explored. There are opportunities for AI to automate or streamline processes that currently restrict or delay data sharing and use.

Make AI systems use data responsibly

  1. Explore mechanisms that improve understanding of data in the AI lifecycle. This includes exploring whether AI tech holders and downstream applications should be required to share information about data provenance and lineage to foster good data practices in the ecosystem and more thorough analysis of impacts.

  2. Invest in research and innovation to develop more protective and efficient AI models. This can aid the development of models that are less reliant on huge datasets, as well as models that rely less on massive amounts of data and do not trade off privacy and data protection for performance.

  3. Design, assess and promote more meaningful data licences that support publishers and users to implement good data practices in AI.

  4. Invest in creating more practical toolkits to inform new regulations and reduce compliance costs. Toolkits, case studies, and peer learning have a role to play in operationalising existing and emerging regulatory frameworks.

  5. Strengthen responsible AI practices through research, training and data literacy. AI engineers should be trained in responsible AI practices, and non-technical workers should have access to tools and training that help them understand the links between data and responsible AI.

The ODI is committed to advancing research and practice to implement these steps. This includes:

Building on this work, in the next few months, we will:

  • map out the journey of data in AI model design, training, validation, testing and use to highlight common challenges in responsible data practices for AI

  • study existing and emerging data stewardship and governance practices in the most popular AI datasets

  • understand and describe the role of data-related challenges in AI incidents reports

  • design computational approaches to assess the impact of open data sources on AI models' performance

  • propose participatory approaches to data prompting as a means to help diverse audiences use generative AI tools to find and make sense of data

  • establish policy priorities for a future AI bill in the UK, and other data legislation, building on the findings of the programme

There is much to do, and as technology and regulation move at lightning speed, we must prioritise this field of enquiry – and work quickly to transform ideas into action. We are excited to collaborate with Microsoft, the Industry Data for Society Partnership, King's College London, the University of Oxford, and many others to make progress and make a difference.

We are keen to hear from funders, partners and other organisations who are interested in helping to develop our programme of work. If you would like to contribute, talk about funding our work or challenge our thinking we welcome hearing from you.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Tư, 28 tháng 8, 2024

‘Đủ chi tiết? Đề xuất thực hiện yêu cầu minh bạch dữ liệu đào tạo của Đạo luật AI đối với GPAI. Tháng 6/2024’ - bản dịch sang tiếng Việt


Là bản dịch sang tiếng Việt tài liệu của các tác giả Zuzanna Warso (Open Future), Maximilian Gahntz (Mozilla Foundation) và Paul Keller (Open Future), cùng các tác giả đóng góp khác, do Open Future xuất bản tháng 6/2024. Giấy phép CC BY 4.0 Quốc tế.

Kết luận

Tính minh bạch xung quanh dữ liệu được sử dụng để đào tạo AI có thể phục vụ nhiều chức năng khác nhau: nó có thể tăng cường khả năng của mọi người và tổ chức trong việc thực hiện các quyền của mình, nó có thể cho phép nghiên cứu và giám sát độc lập một trong những đầu vào chính trong quá trình phát triển AI, và nó có thể nâng cao trách nhiệm giải trình trong toàn ngành AI. Đồng thời, điều trở nên rất rõ ràng là sự mù mờ không minh bạch xung quanh dữ liệu đào tạo được sử dụng một cách có chiến lược để bảo vệ các công ty phát triển AI mục đích chung – GPAI (General Purpose AI) khỏi sự giám sát và cạnh tranh, gây tổn hại cho cả chủ sở hữu bản quyền và các bên khác.

Do đó, bản tóm tắt đầy đủ chi tiết về dữ liệu được sử dụng để đào tạo GPAI được quy định trong Luật AI cung cấp một cơ chế quan trọng để nâng cao tính minh bạch theo khía cạnh này. Luật AI nêu rõ hơn rằng bản tóm tắt này sẽ bảo vệ lợi ích hợp pháp của các bên khác và – như đã nêu ở trên – có nhiều bên có lợi ích bị ảnh hưởng trong bối cảnh này. Nhưng để bản tóm tắt có hiệu quả trong thực tế, thông tin do các nhà phát triển GPAI cung cấp cần phải vừa có ý nghĩa vừa toàn diện. Nó phải hữu ích hơn nữa cho cả chủ sở hữu bản quyền và chuyên gia kỹ thuật. Đây là tiêu chuẩn mà mẫu template do Ủy ban Châu Âu cung cấp phải tuân theo.

Kế hoạch chi tiết cho mẫu template được nêu trong bản tóm tắt này, được phát triển với sự cộng tác của các chuyên gia từ các khu vực và lĩnh vực khác nhau, đưa ra một bản tóm tắt hiệu quả và tài liệu có ý nghĩa về dữ liệu đào tạo sẽ trông như thế nào. Nó cũng có thể đóng vai trò là đầu vào cho các cuộc thảo luận về vấn đề này và là cơ sở cho công việc triển khai của Ủy ban trong việc phát triển mẫu template.

Tự do tải về bản dịch sang tiếng Việt của tài liệu có 19 trang tại địa chỉ: https://www.dropbox.com/scl/fi/8x09h0ickgbgygk7gaf0y/240618AIAtransparency_template_requirements-2_Vi-18082024.pdf?rlkey=c1za2hnb63ok6t65paaykxi83&st=49dlhtuz&dl=0

Xem thêm:

Blogger: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Ba, 27 tháng 8, 2024

‘Chuyên gia IP của GPAI. Báo cáo Sơ bộ về Cấp phép cho Dữ liệu và Mô hình AI. Tháng 11/2022’ - bản dịch sang tiếng Việt


Là bản dịch sang tiếng Việt của tài liệu của GPAI 2022, Bảo vệ đổi mới, sở hữu trí tuệ (IP) của AI: Chuyên gia IP của GPAI: (I) Hướng dẫn cạo hoặc thu thập dữ liệu truy cập được công khai và (II) Báo cáo sơ bộ về cấp phép cho dữ liệu và mô hình Ai, Báo cáo, tháng 11/2022, Đối tác Toàn cầu về AI.

Kết luận và hướng tới

Công việc sơ bộ nhấn mạnh rằng có sự quan tâm đáng kể đến việc phát triển các điều khoản cấp phép dữ liệu được tiêu chuẩn hóa để tạo điều kiện thuận lợi cho việc chia sẻ dữ liệu, nhưng công việc này gặp nhiều thách thức vì nhiều lý do. Tuy nhiên, được cho rằng công việc này có lợi và có khả năng thúc đẩy nhiều mục tiêu quan trọng, vì vậy chúng tôi khuyến khích tiếp tục thực hiện. Để giúp thúc đẩy những nỗ lực này, phần sau đây tóm tắt một số thách thức và con đường tiềm năng để giải quyết chúng:

  • Để được chấp nhận rộng rãi, các điều khoản được tiêu chuẩn hóa có thể sẽ cần được phát triển thông qua quy trình có sự tham gia toàn diện của nhiều bên liên quan. Nhiều tổ chức khác nhau đang làm việc dựa trên các điều khoản cấp phép được tiêu chuẩn hóa và họ được khuyến khích (và các tổ chức khác quyết định theo đuổi công việc này) đưa càng nhiều quan điểm và các bên liên quan khác nhau vào quy trình càng tốt. Điều này sẽ dẫn đến những quyết định sáng suốt hơn về nội dung và cấu trúc của các điều khoản được tiêu chuẩn hóa cũng như sự chấp nhận và áp dụng rộng rãi hơn các điều khoản đó.

  • Có thể sẽ tiếp tục có nhiều thỏa thuận chia sẻ dữ liệu và trường hợp sử dụng khác nhau, đồng thời cách tiếp cận “một kích thước phù hợp cho tất cả” để cấp phép dữ liệu có thể không tối ưu hoặc thậm chí không khả thi. Chúng tôi khuyến khích các tổ chức làm việc về các điều khoản cấp phép dữ liệu được tiêu chuẩn hóa xem xét việc phát triển một danh mục gồm các điều khoản hoặc thỏa thuận khác nhau nhằm cung cấp cho cộng đồng các lựa chọn. Điều này tương tự với cách tiếp cận được sử dụng cho các thỏa thuận cấp phép Nguồn Mở và Creative Commons và đã được phản ánh trong một số nỗ lực không ngừng nhằm phát triển các điều khoản cấp phép dữ liệu được tiêu chuẩn hóa.

  • Dự kiến nhu cầu về giấy phép dữ liệu riêng sẽ tiếp tục, ngay cả khi các điều khoản được tiêu chuẩn hóa trở nên phổ biến và được chấp nhận hơn. Điều này tương đương việc trải nghiệm với giấy phép Nguồn Mở và Creative Commons...

Tự do tải về bản dịch sang tiếng Việt của tài liệu có 57 trang tại địa chỉ: https://www.dropbox.com/scl/fi/frdev2kvsxq7rv29uuzba/intellectual-property-expert-preliminary-report-on-data-and-AI-model-licensing_Vi-16082024.pdf?rlkey=ioawedt19y3ds41mdulh9tdaz&st=l985o5yx&dl=0

Xem thêm:

Blogger: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Hai, 26 tháng 8, 2024

Viện Dữ liệu Mở (ODI) sẽ giúp phát triển một tiêu chuẩn siêu dữ liệu mở cho dữ liệu máy học


The ODI to help develop an open metadata standard for machine learning data

Wed Mar 6, 2024

Theo: https://theodi.org/news-and-events/blog/the-odi-to-help-develop-an-open-metadata-standard-for-machine-learning-data/

Bài được đưa lên Internet ngày: 06/03/2024

MLCommons đã công bố phát hành Croissant, một định dạng siêu dữ liệu để giúp tiêu chuẩn hóa tài liệu của các tập dữ liệu máy học - ML (Machine Learning). Croissant được thiết lập để tạo ra sự khác biệt lớn đối với hoạt động xử lý dữ liệu trong AI - khi những người thực hành AI áp dụng nó để mô tả các tập dữ liệu của họ và nhiều nền tảng AI hơn hỗ trợ các tập dữ liệu có chú thích Croissant. Điều này hứa hẹn trở thành người thay đổi cuộc chơi trong AI an toàn và có đạo đức, nơi các tập dữ liệu chất lượng cao, được ghi thành tài liệu tốt là thiết yếu.

Hiện hành, nhiều tập dữ liệu ML không có đủ tài liệu máy đọc được để cho phép mọi người sử dụng chúng có trách nhiệm. Không có thông tin này, việc tìm kiếm, hiểu, và sử dụng các tập dữ liệu đó một cách an toàn và có đạo đức có thể rất mất thời gian.

Croissant có mục đích làm cho dữ liệu truy cập được và có khả năng khám phá được dễ dàng hơn. Nó cho phép các tập dữ liệu được tải lên các nền tảng AI khác nhau mà không cần định dạng lại. Người dùng xuất bản một tập dữ liệu ở định dạng Croissant hưởng lợi từ ‘trình biên tập Croissant’ (Croissant Editor), nó cho phép họ dễ dàng kiểm tra, tạo lập, hoặc sửa đổi các mô tả Croissant cho các tập dữ liệu của họ. Cũng có Thư viện Python MLCroissant để hỗ trợ lập trình.

ODI từng là một người ủng hộ sớm sáng kiến này, với Giám đốc Nghiên cứu của chúng tôi GS. Elena Simperl đồng chủ tịch nhóm công tác Croissant. Hướng về tương lại, ODI sẽ giúp thúc đẩy Croissant theo vài cách thức, bao gồm việc thí điểm và đánh giá tiêu chuẩn này trong các tập dữ liệu ML chính, và quảng bá Croissant tới cộng đồng AI/ML rộng lớn hơn, đặc biệt ở Vương quốc Anh và châu Âu.

ODI có hồ sơ theo dõi mở rộng việc thiết kế, đánh giá, và thúc đẩy các tiêu chuẩn dữ liệu mở trong nhiều lĩnh vực, bao gồm cả tiêu chuẩn Ngân hàng Mở của Vương quốc Anh, tiêu chuẩn OpenAcitve, và Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) Data4Policy. Các tiêu chuẩn mở và hạ tầng dữ liệu tương hợp được là cốt lõi của kế hoạch 15 điểm cho chương trình AI lấy dữ liệu làm trung tâm (data-centric AI) của chúng tôi. Cùng với công việc của chúng tôi về hạ tầng dữ liệu, quản trị và điều hành dữ liệu, chúng tôi hướng tới việc xây dựng cộng đồng toàn cầu và thúc đẩy áp dụng Croissant.

Dữ liệu là yếu tố rất quan trọng đối với hiệu suất của bất kỳ mô hình nào và như một số chuyên gia đề xuất, dữ liệu sẽ cạn kiệt, khiến nhu cầu khai thác dữ liệu càng trở nên quan trọng hơn. Croissant cho phép nhiều người hơn làm được nhiều việc hơn với dữ liệu. Với tư cách là đồng chủ tịch của nhóm làm việc, tôi rất vinh dự được cộng tác với các nhà khoa học và kỹ sư máy học đẳng cấp thế giới trên toàn cầu, đóng góp to lớn cho hệ sinh thái dữ liệu AI.”

Giáo sư Elena Simperl

Giám đốc Nghiên cứu tại ODI, Giáo sư Khoa học Máy tính tại Cao đẳng Hoàng gia Luân Đôn và đồng chủ trì nhóm công tác Croissant

Croissant được làm cho có thể nhờ các nỗ lực của nhóm công tác Croissant MLCommons bao gồm những người đóng góp từ các tổ chức: Bayer, cTuning Foundation, DANS-KNAW, Dotphoton, Google, Harvard, Hugging Face, Kaggle, King's College London, the ODI, Meta, NASA, Open University of Catalonia - Luxembourg Institute of Science and Technology, và TU Eindhoven.

Bạn có thể ra nhập Nhóm Công tác Croissant, đóng góp cho kho GitHub, và tải về Croissant Editor để triển khai từ vựng Croissant trong các tập dữ liệu hiện có của bạn.

MLCommons has announced the release of Croissant, a metadata format to help standardise the documentation of machine learning (ML) datasets. Croissant is set to make a huge difference to data practices in AI - as AI practitioners adopt it to describe their datasets and more AI platforms support Croissant-annotated datasets. This promises to be a game changer in AI safety and ethics, where high-quality, well-documented datasets are essential.

Currently, many ML datasets lack sufficient machine-readable documentation to allow people to use them responsibly. Without this information, finding, understanding, and using these datasets safely and ethically can be very time-consuming.

Croissant aims to make data more easily accessible and discoverable. It enables datasets to be loaded into different AI platforms without the need for reformatting. Users looking to publish a dataset in the Croissant format benefit from the ‘Croissant editor’, which allows them to easily inspect, create, or modify Croissant descriptions for their datasets. There is also the MLCroissant Python Library for programmatic support.

The ODI has been an early supporter of the initiative, with our Director of Research Prof Elena Simperl co-chairing the Croissant working group. Moving forward, the ODI will help to advance Croissant in several ways, including piloting and evaluating the standard on key ML datasets, and promoting Croissant to the wider AI/ML community, in particular in the UK and Europe.

The ODI has an extensive track record designing, evaluating, and promoting open data standards in multiple domains, including the UK Open Banking standard, the OpenActive standard, and the Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) Data4Policy. Open standards and interoperable data infrastructure are at the core of the 15-point plan for our data-centric AI programme. Together with our work on data infrastructure, data stewardship and governance, we look forward to building a global community and fostering the adoption of Croissant.

“Data is a critical element of any model's performance, and as some experts suggest, it will run out, making the need to harness it even more important. Croissant allows more people to do more with data. As co-chair of the working group, it is a privilege to collaborate with world-class machine learning scientists and engineers around the globe, making an enormous contribution to the AI data ecosystem.”

Prof Elena Simperl

Director of Research at the ODI, Professor of Computer Science at King’s College London and co-chair of the Croissant working group

Croissant is made possible thanks to efforts by the MLCommons Croissant working group, which includes contributors from these organisations: Bayer, cTuning Foundation, DANS-KNAW, Dotphoton, Google, Harvard, Hugging Face, Kaggle, King's College London, the ODI, Meta, NASA, Open University of Catalonia - Luxembourg Institute of Science and Technology, and TU Eindhoven.

You can join the Croissant Working Group, contribute to the GitHub repository, and download the Croissant Editor to implement the Croissant vocabulary on your existing datasets.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Chủ Nhật, 25 tháng 8, 2024

Minh bạch dữ liệu AI: hiểu các nhu cầu và hiện trạng


AI data transparency: understanding the needs and current state of play

Có rất ít sự minh bạch về dữ liệu được sử dụng trong các hệ thống AI - một thực tế gây ra mối lo ngại gia tăng khi các hệ thống đó ngày càng được sử dụng với các hệ lụy của thế giới thực.

Mon Jun 24, 2024

Theo: https://theodi.org/news-and-events/blog/ai-data-transparency-understanding-the-needs-and-current-state-of-play/#main

Bài được đưa lên Internet ngày: 24/06/2024

Khi các hệ thống AI ngày càng được sử dụng trong công việc và cuộc sống hàng ngày, việc hiểu các khía cạnh chính cách các hệ thống đó đã được tạo ra như thế nào và tin tưởng các kết quả đầu ra xa đến thế nào đang ngày càng trở nên thiết yếu hơn.

Như chúng tôi đã viết trong một bài báo được xuất bản gần đây trên Harvard Business Review, các nguồn dữ liệu khổng lồ, khó sử dụng và mù mờ không rõ ràng được sử dụng như là cơ sở cho việc sản xuất các kết quả đầu ra của các hệ thống AI tạo sinh (Generative AI). Việc không ghi lại thành tài liệu một cách công khai các nội dung và việc sử dụng các tập dữ liệu cản trở khả năng của các nhà phát triển, các nhà nghiên cứu, các nhà đạo đức học, và các nhà hoạch định chính sách để giải quyết các vấn đề khác nhau như các thành kiến, nội dung độc hại, lo ngại về bản quyền, và các rủi ro cho dữ liệu cá nhân và dữ liệu nhạy cảm. Sự thiếu tài liệu này lan sang tất cả các yếu tố của dữ liệu, bao gồm cả các tệp dữ liệu đào tạo và tinh chỉnh, cũng như các quy trình xác định gốc gác và gắn nhãn.

Trong bối cảnh cần minh bạch hơn trong thực hành dữ liệu AI, việc thiếu các phương pháp giám sát có hệ thống vẫn tồn tại trên nhiều hệ thống. Một nghiên cứu vào tháng 10 năm 2023 về 10 mô hình AI (“nền tảng”) chủ chốt của các nhà nghiên cứu Stanford đã nhấn mạnh rằng trong số các mô hình nói chung có tính minh bạch thấp khắp trong quá trình phát triển hệ thống AI, thì tính minh bạch về dữ liệu đặc biệt kém. Một bản cập nhật được phát hành gần đây cho nghiên cứu bao gồm một số mô hình khác và đã ghi nhận sự cải thiện nhỏ của một số nhà phát triển, nhưng nhìn chung, tính minh bạch dữ liệu vẫn còn kém.


Trong một nghiên cứu sắp tới của các thành viên trong nhóm nghiên cứu AI lấy dữ liệu làm trung tâm (Data-centric AI) của chúng tôi, chúng tôi đã sao chép phân tích trên phạm vi rộng hơn gồm 54 hệ thống AI đang gây lo ngại cho công chúng, vốn là trung tâm của các sự cố AI được ghi lại trong Cơ sở dữ liệu sự cố AI của Quan hệ đối tác AI. Chúng tôi nhận thấy rằng chỉ một số ít các hệ thống AI này cung cấp thông tin có thể nhận dạng được về các mô hình cơ bản và cách thực hành dữ liệu của chúng. Điểm số về tính minh bạch (được đánh giá cho những hệ thống cung cấp thông tin về tính minh bạch của mô hình cơ bản) ở mức thấp trên tất cả các chỉ số bao gồm kích thước dữ liệu, nguồn và giám tuyển dữ liệu, với từng chỉ số hiện diện trong ít hơn 40% mô hình được đánh giá. Hầu như không có hệ thống nào ghi điểm bao gồm thông tin về việc đưa dữ liệu có bản quyền, thông tin cá nhân trong dữ liệu hoặc việc sử dụng giấy phép dữ liệu.

Để dựa trên những phát hiện của mình, chúng tôi đang phát triển chỉ số minh bạch dữ liệu AI để cung cấp bức tranh rõ ràng hơn về mức độ minh bạch dữ liệu khác nhau giữa các loại nhà cung cấp hệ thống khác nhau, dựa trên sự hiểu biết sâu sắc hơn về nhu cầu đối với thông tin đó. Việc điều tra nhu cầu minh bạch dữ liệu trong hệ sinh thái sẽ dựa trên bằng chứng hiện tại, bao gồm cả nghiên cứu Tương lai mở gần đây về tài liệu minh bạch. Nghiên cứu sâu hơn sẽ tập trung vào việc trao quyền cho những người không chuyên và các cộng đồng bằng thông tin minh bạch, đồng thời hiểu rõ các rào cản và cơ hội để những người thực hành AI truyền đạt tính minh bạch của dữ liệu một cách hiệu quả.

Mặc dù tính minh bạch không thể được coi là “viên đạn bạc” để giải quyết các thách thức về đạo đức liên quan đến hệ thống AI hoặc xây dựng lòng tin, nhưng đó là điều kiện tiên quyết để đưa ra quyết định sáng suốt và các hình thức can thiệp khác như các quy định. Nếu bạn quan tâm đến việc cộng tác với chúng tôi trong nghiên cứu và vận động đang diễn ra của chúng tôi trong lĩnh vực này hoặc muốn thảo luận thêm về công việc này, vui lòng liên hệ.

There is very little transparency about the data used in AI systems - a fact that is causing growing concern as these systems are increasingly deployed with real-world consequences.

As AI systems become increasingly used in everyday work and life, understanding key aspects of how these systems have been created and how far to trust the outcomes is becoming more and more essential.

As we outline in an article we recently published in the Harvard Business Review, enormous, unwieldy and opaque data sources are used as the basis for producing the generative AI systems’ outcomes. The failure to publicly document the contents and usage of datasets hampers the ability of developers, researchers, ethicists, and lawmakers to address various issues such as biases, harmful content, copyright concerns, and risks to personal or sensitive data. This lack of documentation spans all data elements, including training and fine-tuning datasets, as well as the sourcing and labelling processes.

The demand for AI transparency has become increasingly recognised in recent years. This has led to parts of the AI community making significant progress and contributions to AI data transparency, including the increasing emergence and uptake of standardised transparency guidelines. For example, but not limited to, Hugging Face, a vast repository of AI models and datasets, promoting the use of Model Cards and Dataset Cards to its community of developers. In another example, the Croissant initiative, supported by major platforms like Tensorflow and Hugging Face, provides machine-readable metadata (information about the datasets) for machine learning (ML) datasets, improving their accessibility, discoverability, and reproducibility and also helping to improve the management and accountability of work with the datasets by AI practitioners. All these resources guide developers on documenting how a model dataset was created and what it contains as well as potential legal or ethical issues to consider when working with it. Lawmakers are also responding to increasing demands by proposing legislation that specifically addresses AI data transparency - a topic we discuss further in our first policy position (of five we will publish in total) on what is needed to build the strong data infrastructure needed to realise responsible AI.

Amidst the need for greater transparency in AI data practices, a lack of systematic monitoring methods persists across many systems. An October 2023 study of 10 key generative AI (‘foundation’) models by Stanford researchers highlighted that among general low transparency across AI system development, transparency about data is particularly poor. A recently released update to the study included several more models and noted slight improvement by some developers, but overall, there is still poor data transparency.

In a forthcoming study by members of our data-centric AI research team, we replicated the analysis on a wider range of 54 AI systems that are causing public concern, having been at the centre of AI incidents recorded in the Partnership of AI's AI Incidents Database. We found that only a minority of these AI systems provided identifiable information about their underlying models and data practices. Transparency scores (evaluated for those systems offering basic model transparency information) were low across all indicators including data size, data sources and curation, with each indicator present in less than 40% of the models evaluated. Almost none of the systems scored included information about the inclusion of copyrighted data, personal information in data, or the use of data licences.

To build on our findings, we are developing an AI data transparency index to provide a clearer picture of how data transparency varies across different types of system providers, based on a deeper understanding of the needs for such information. Investigating the need for data transparency within the ecosystem will build on current evidence, including recent Open Futures research on transparency documentation. Further research will focus on empowering non-specialists and communities with transparency information, and on understanding the barriers and opportunities for AI practitioners to communicate data transparency effectively.

While transparency cannot be considered a ‘silver bullet’ for addressing the ethical challenges associated with AI systems, or building trust, it is a prerequisite for informed decision-making and other forms of intervention like regulation. If you are interested in collaborating with us on our ongoing research and advocacy in this area or would like to discuss this work further, please get in touch.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Sáu, 23 tháng 8, 2024

Tập huấn trên trực tuyến ‘Chuyển đổi số - Khung năng lực số và các điều kiện xây dựng nhà trường số” với một số trường cao đẳng nghề tại Hà Nội


Ngày 24/08/2024, Văn phòng đại diện Hiệp hội Giáo dục Nghề nghiệp và nghề Công tác Xã hội Việt Nam tại thành phố Hồ Chí Minh tổ chức tập huấn với nội dung "Chuyển đổi số, các điều kiện xây dựng Khung năng lực số và xây dựng Nhà trường số" và một số điển hình các trường đã xây dựng nhà truờng số trên thế giới, trong đó có việc giới thiệu cho các cán bộ, giảng viên các trường về PIX: Dịch vụ trên trực tuyến để đánh giá, phát triển và chứng thực các kỹ năng kỹ thuật số


Tập huấn trực tuyến tại đầu cầu Hà Nội với 5 trường Cao đẳng và Trung cấp: (1) Cao đẳng Quốc tế Hà Nội; (2) Cao đẳng Kỹ thuật y dược Hà Nội; (3) Cao đẳng Ngoại ngữ - Công nghệ và truyền thông Hà Nội; (4) Trung cấp Thẩm mỹ Việt Hàn; và (5) Trung cấp Y Thái Nguyên .


Tham dự và đồng hành tại đầu cầu TP. HCM gồm: (1) Viện Nghiên cứu, Đào tạo và Phát triển Tài nguyên Giáo dục Mở (InOER); và (2) Tổ chức Google Education.

Dưới đây là một số bài trình bày tại tập huấn:

Tự do tải về các bài trình chiếu tại hội thảo, buổi sáng, theo các địa chỉ:

  • Chuyển đổi số giáo dục Việt Nam: năng lực số, văn hóa số và tính mở là điều kiện tiên quyết để thành công. DOI: 10.5281/zenodo.7980030;

  • Giới thiệu các khung năng lực số và gợi ý cách xây dựng công cụ đánh giá năng lực số; DOI: 10.5281/zenodo.7980046; và

  • Khung năng lực Tài nguyên Giáo dục Mở cho giảng viên và gợi ý xây dựng mô hình nguồn tài nguyên giáo dục mở, DOI: 10.5281/zenodo.10512192;

Tự do tải về bài trình chiếu lần đầu tiên tại hội thảo, buổi chiều, theo địa chỉ:

  • PIX: Dịch vụ trên trực tuyến để đánh giá, phát triển và chứng thực các kỹ năng kỹ thuật số, DOI: 10.5281/zenodo.13365254

X (Twitter): https://twitter.com/nghiafoss/status/1827181133781725229

Xem thêm:

Blogger: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Năm, 22 tháng 8, 2024

Can thiệp chính sách 5: Trao quyền cho mọi người để có tiếng nói nhiều hơn trong việc chia sẻ và sử dụng dữ liệu cho AI


Policy intervention 5: Empowering people to have more of a say in the sharing and use of data for AI

Nếu chúng ta muốn mọi người tin tưởng và các hệ thống Ai và các kết quả đầu ra của chúng, chúng ta cần cho họ biết cách các hệ thống này được đào tạo và sử dụng.

Fri Jul 5, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-5-empowering-people-to-have-more-of-a-say-in-the-sharing-and-use-of-data-for-ai/

Bài được đưa lên Internet ngày: 05/07/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là phần kết luận của loạt bài gồm năm phần khám phá các biện pháp can thiệp chính sách này và cách chúng có thể giúp định hình tích cực bối cảnh.

Vì sao trao quyền là quan trọng trong bối cảnh AI lấy dữ liệu làm trung tâm?

Việc đạt được các lợi ích kinh tế và xã hội của AI phụ thuộc rất nhiều vào việc tin tưởng vào công nghệ. Đã có nhiều lời kêu gọi rộng rãi về việc tham gia nhiều hơn vào AI như một phương tiện để xây dựng các giải pháp đáng tin cậy bằng thiết kế thay vì cố gắng giành được lòng tin đó sau đó. Các mô hình nền tảng là một bước thay đổi so với các loại AI trước đó về hiệu suất, rủi ro và tác động - do đó, các cuộc thảo luận về thời điểm khi nào và cách sử dụng AI như thế nào cần phải tận dụng chuyên môn và ý kiến của nhiều người và cộng đồng hơn.

Những thập kỷ qua đã nhiều lần cho thấy rằng việc không trao quyền cho mọi người để định hình và tham gia vào các hệ thống thu thập, chia sẻ và sử dụng dữ liệu sẽ tạo ra sự ngờ vực. Như chúng tôi mô tả trong Lý thuyết thay đổi của mình, có một rủi ro là việc không giải quyết được nỗi sợ hãi và mối quan tâm chính đáng của mọi người - chẳng hạn như về việc ai có quyền truy cập vào dữ liệu và dữ liệu này có thể được sử dụng như thế nào - sẽ ngăn cản chúng ta nhận ra tiềm năng của các công nghệ lấy dữ liệu làm trung tâm, bao gồm cả AI.

AI và dữ liệu có mối liên hệ chặt chẽ với nhaukhông có dữ liệu thì không có AI. Việc tiếp cận lượng lớn dữ liệu đã trở nên vô cùng quan trọng đối với sự phát triển của AI - phần lớn dữ liệu này do công chúng tạo ra và bao gồm nội dung do người dùng tạo ra được thu thập từ Internet. Hơn nữa, các hệ thống AI tạo ra tương tác với người tiêu dùng ở quy mô mà AI dự đoán hoặc phân tích không có - mỗi khi chúng ta yêu cầu một công cụ như ChatGPT hoặc Midjourney tạo nội dung cho chúng ta, chúng ta cung cấp hướng dẫn dưới dạng lời nhắc. Những lời nhắc đó và phản hồi mà chúng ta cung cấp cho các công cụ sẽ nắm bắt được những gì chúng ta quan tâm, những gì chúng ta đang làm và những gì chúng ta dự định làm. Chúng giúp cải thiện cách thức hoạt động của các mô hình nền tảng, vì vậy chúng ta cần đảm bảo rằng những lợi ích của những cải tiến này được phân bổ công bằng.

Để trao cho mọi người quyền tự chủ đối với cách sử dụng lời nhắc và sở thích của họ, một số chatbot đã giới thiệu các biện pháp kiểm soát của người dùng, chẳng hạn như khả năng tắt lịch sử 'cuộc trò chuyện' và xuất dữ liệu ra khỏi hệ thống của họ. Tuy nhiên, những lỗi của cơ chế thông báo và đồng ý đã được ghi chép lại đầy đủ. Các yêu cầu liên tục để đồng ý thu thập và xử lý dữ liệu đã tạo ra sự mệt mỏi khi đồng ý. Khi người dùng đồng ý, họ không được thông báo đầy đủ, cũng không biết họ đang đồng ý với điều gì. Lựa chọn giữa việc chọn tham gia/không tham gia thường không đủ để trao quyền thực sự vì nó không cung cấp cơ hội cho mọi người định hình hoặc kiểm soát hệ thống.

Dữ liệu được tạo ra thông qua việc sử dụng nền tảng AI chỉ là một nguồn dữ liệu cho AI nền tảng. Hiện tại, các công ty AI đang tìm cách tiếp cận các tập dữ liệu lớn - đặc biệt có giá trị là dữ liệu từ các cộng đồng trực tuyến vì chúng được giám tuyển chặt chẽ và do đó có chất lượng tốt hơn hầu hết nội dung trên Internet. Một số công ty đang cấp phép và cung cấp dữ liệu này để tạo doanh thu, nhưng đã gặp phải sự phản đối từ những người đóng góp. Ví dụ, cộng đồng Reddit đã tham gia vào các cuộc đình công và sau đó đóng cửa các subreddit trên nền tảng mà đang bán dữ liệu của họ cho các công ty AI. Reddit sau đó đã tiếp quản một số subreddit và ký kết các thỏa thuận với Google và OpenAI. DeviantArt đã phải đảo ngược quyết định của nó sử dụng tác phẩm của các nghệ sĩ để đào tạo các mô hình AI theo mặc định; thay vào đó, người dùng hiện có thể chủ động đồng ý với việc sử dụng như vậy. StackOverflow đã đi xa đến mức chặn những người dùng đã xóa các đóng góp của họ để phản đối việc bán dữ liệu của họ cho OpenAI. Rõ ràng, việc xóa dữ liệu này có thể gây ra tác động dây chuyền đến các công ty AI cần dữ liệu đó.

Chúng ta cần vượt ra ngoài sự minh bạch và trách nhiệm giải trình để hướng đến một thế giới mà mọi người có thể tham gia một cách có ý nghĩa vào cách làm thế nào để dữ liệu được chính phủ, ngành công nghiệp và nhiều bên khác sử dụng. Việc trao quyền cho mọi người và các cộng đồng trong bối cảnh AI có nghĩa là cho phép họ định hình cách các thuật toán và dữ liệu cơ bản được thiết kế, triển khai và sử dụng như thế nào để mang lại lợi ích cho xã hội, môi trường và nền kinh tế.

Việc trao quyền thực sự sẽ có nhiều hình thức và bao trùm toàn bộ vòng đời của AI. Từ các quyết định về việc có nên sử dụng AI hay không, đến các công đoàn lao động cho những người làm việc về dữ liệu, từ những người tạo ra dữ liệu công khai cho đến việc bảo vệ những người đảm bảo tính an toàn của dữ liệu. Do đó, bài viết này nên được đọc cùng với các can thiệp trước đây của chúng tôi về bảo vệ dữ liệu và quyền lao động, cũng như quyền truy cập rộng rãi vào dữ liệu, cả hai đều bao gồm các khuyến nghị hơn nữa về AI, dữ liệu và trao quyền thông qua các quyền.

Trong phần còn lại của bài đăng này, chúng ta sẽ tập trung vào một phần của công việc này – cách các cá nhân và cộng đồng có thể được trao quyền để tích cực đóng góp và định hình các mô hình AI, và cách dữ liệu mà họ có cổ phần được sử dụng.

Làm thế nào mọi người có thể được trao quyền để tác động đến dữ liệu AI?

Sự tham gia có thể là đòn bẩy để cân bằng lại nền kinh tế dữ liệu. Nó có thể trao quyền cho các cá nhân và cộng đồng bằng cách tăng quyền kiểm soát của mọi người đối với dữ liệu liên quan đến họ, cải thiện chất lượng dữ liệu và việc ra quyết định bằng cách kết hợp các quan điểm, kiến thức và kinh nghiệm đa dạng, đồng thời xây dựng lòng tin và sự cộng tác.

Viện Ada Lovelace đã điều chỉnh 'thang tham gia' của Arnstein để quản lý dữ liệu, trong đó nêu chi tiết các mức độ tham gia khác nhau, từ việc được thông báo hoặc tham khảo ý kiến về cách sử dụng dữ liệu cho đến việc được trao quyền để đưa ra quyết định về việc sử dụng dữ liệu. Trong công việc của chúng tôi về dữ liệu có sự tham gia, chúng tôi thấy sự tham gia diễn ra ở các cấp độ khác nhau của hệ sinh thái dữ liệu:

Cũng giống như AI tạo sinh đã thay đổi cách chúng ta suy nghĩ về dữ liệu và công nghệ, việc trao quyền trong bối cảnh dữ liệu và AI có thể khác nhau. Ví dụ, một nghiên cứu gần đây cho thấy rằng việc tham gia trực tiếp vào các mô hình nền tảng rất khó tạo thuận lợi, do sự bất cân xứng về quyền lực trong quá trình phát triển của chúng (tức là các công ty lớn so với các cộng đồng nhỏ đang cố gắng đóng góp); tuy nhiên, việc tham gia vào cơ sở hạ tầng kỹ thuật và quản trị cụ thể theo từng lĩnh vực cho thấy triển vọng.

Dự án Trí tuệ Tập thể đã phác thảo những cách khác nhau mà mọi người có thể tham gia vào quá trình phát triển AI, tương ứng với các bậc khác nhau của 'thang tham gia':

  • Làm cho AI dễ tiếp cận hơn và cho phép xã hội được hưởng lợi từ AI rộng rãi hơn, ví dụ như thu hẹp khoảng trống kỹ thuật số bằng các công cụ AI tạo sinh.

  • Đồng thiết kế các hệ thống AI bằng cách tạo điều kiện cho sự tham gia trong quá trình phát triển, ví dụ như Wikibench cho phép mọi người và cộng đồng thiết kế các tập dữ liệu đánh giá để đảm bảo là nó được đánh giá theo nhu cầu của họ.

  • Mở rộng hệ sinh thái AI thông qua nguồn vốn cấp và dữ liệu dễ tiếp cận hơn, bao gồm các sáng kiến như Aya, nơi huy động cộng đồng để xây dựng các tập dữ liệu mới nhằm hỗ trợ các ngôn ngữ chưa được đại diện đầy đủ.

  • Trực tiếp thu hút công chúng vào quá trình quản trị AI, ví dụ như thông qua các tổ chức dữ liệu như quỹ tín thác dữ liệu (data trusts) hoặc thông qua các hội đồng công dân (citizen panels).

Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác

Sự tham gia có lịch sử lâu đời ở Vương quốc Anh, có nghĩa là nó có vị thế tốt để trở thành người dẫn đầu về dữ liệu có sự tham gia và AI với một khu vực xã hội dân sự mạnh mẽ coi trọng nó, các tổ chức mà tạo thuận lợi cho sự tham gia của công dân, và lịch sử các dự án liên ngành xem xét quyền của người dùng.

Một số sửa đổi đối với Dự luật Bảo vệ Dữ liệu và Thông tin Kỹ thuật số (DPDI) - không được thông qua vì cuộc bầu cử năm 2024 - đã định nghĩa 'cộng đồng dữ liệu' dưới hình thức các bên trung gian có thể được chỉ định quyền của chủ thể dữ liệu và có thể thực hiện các quyền đó thay mặt cho họ, bao gồm đàm phán quyền truy cập vào dữ liệu của họ đối với các nhà phát triển AI. Tuy nhiên, đã có những chỉ trích rằng nó được 'đồng thiết kế với giới công nghiệp, vì giới công nghiệp, nhằm tối đa hóa lợi ích kinh tế', với cái giá phải trả là sự tham gia của xã hội dân sự và lợi ích công cộng rộng rãi hơn.

AI Fringe 2023: Ban Công chúng về AI đã tập hợp một nhóm đại diện gồm các thành viên của công chúng để tham dự, quan sát và thảo luận về các sự kiện quan trọng từ Fringe. Một đề xuất chính từ ban công chúng là một hình thức thu hút sự tham gia của công dân, tương tự như dịch vụ bồi thẩm đoàn, có thể cung cấp 'hướng dẫn, khuyến nghị hoặc phán quyết về AI' cho giới công nghiệp và chính phủ.

Sự kiện dẫn đến cuộc Tổng tuyển cử Vương quốc Anh năm 2024 đã thu hút sự chú ý lớn hơn đến sự tham gia của công chúng, sau các đề xuất của Đảng Lao động, Đảng Dân chủ Tự doĐảng Xanh nhằm xem xét việc sử dụng các hội đồng công dân để tham vấn về các vấn đề chính sách quan trọng, bao gồm cả AI.

Ngoài Vương quốc Anh, Ủy ban Châu Âu tiếp tục thúc đẩy chương trình nghị sự dữ liệu 'lấy con người làm trung tâm', xuyên khắp công việc chính sách dữ liệu rộng lớn của mình, đã được thảo luận trong các phần trước của loạt bài này. Đạo luật Quản trị Dữ liệu tìm cách cho phép các cá nhân chia sẻ dữ liệu của họ một cách tự nguyện vì lợi ích của xã hội thông qua các tổ chức đáng tin cậy tuân thủ các giá trị và nguyên tắc của EU. Đạo luật này gọi đây là 'các tổ chức vị tha dữ liệu'. Mức độ thành công của những nỗ lực này hiện vẫn chưa thể xác định, nhưng tất cả đều hướng đến mục tiêu xây dựng các môi trường được kiểm soát, trong đó dữ liệu để phát triển AI có thể được chia sẻ.

Chính phủ Canada đã tiến hành tham vấn công khai về AI, bị chỉ trích là 'không hoàn thành các mục đích chính của cuộc tham vấn, chẳng hạn như tính minh bạch, sự tham gia dân chủ và giáo dục công chúng' và do đó không trao quyền cho công dân. Năm 2023, Brazil đã đưa ra dự thảo luật AI mới, trong đó có 'Quyền tham gia của con người vào các quyết định về hệ thống AI'. Năm 2023, Đại hội AI Công cộng Hoa Kỳ đã nghiên cứu thái độ của công chúng liên quan đến rủi ro và việc sử dụng AI trên nhiều lĩnh vực bao gồm hồ sơ hành chính, hồ sơ sức khỏe, lịch sử trình duyệt và nhận dạng khuôn mặt. Thành phố Amsterdam đã sử dụng cả đối thoại với người dân về tương lai của AI tại Amsterdam cũng như hội đồng công dân để cung cấp ý kiến đóng góp vào việc thiết kế và sử dụng thuật toán cho chương trình hỗ trợ xã hội.

Có vẻ như sự tham gia do chính sách dẫn dắt xung quanh dữ liệu và AI vẫn chưa được phát triển tốt. Nơi nào có sự tham gia, thì thường là ở mức thấp hơn trong thang Arnstein. Các cấp độ trao quyền cao hơn liên quan đến việc chia sẻ quyền lực để định hình hoặc đóng góp vào các quyết định, điều này có thể khó khăn trong bối cảnh chính phủ. Nhưng có những sáng kiến đang nổi lên từ xã hội dân sự, giới công nghiệp và hơn thế nữa mà các nhà hoạch định chính sách có thể học hỏi.

Đề xuất từ xã hội dân sự, giới công nghiệp và các tác nhân phi chính phủ khác

Ngoài hành động của chính phủ, đã có nhiều hoạt động từ giới công nghiệp, khu vực thứ ba và hơn thế nữa. Những đề xuất này nhằm trao quyền cho mọi người trong bối cảnh dữ liệu và AI có ba mục tiêu khác nhau: cho phép kiểm soát, nhúng quá trình ra quyết định của công chúng vào các mô hình AI và đóng góp dữ liệu vào các mô hình AI.

Cho phép kiểm soát

Cũng như hệ sinh thái lâu đời của các phương pháp tiếp cận kỹ thuật đối với việc trao quyền của dữ liệu, cũng có một số phương pháp tiếp cận mới hơn đang nổi lên để trao quyền cho mọi người kiểm soát cách dữ liệu được sử dụng để đào tạo AI (đôi khi được gọi là 'lớp đồng ý cho AI' hoặc 'đánh tín hiệu ưu tiên').

Những cách tiếp cận mới này cho thấy phạm vi trao quyền có ý nghĩa như thế nào đối với những người và cộng đồng khác nhau trong thực tế. Ví dụ, một số cách tiếp cận này được thiết kế để minh bạch và tạo điều kiện cho cá nhân đóng góp dữ liệu, trong khi những cách khác hỗ trợ các cá nhân từ chối. Một số ví dụ bao gồm:

Nhúng việc ra quyết định của công chúng vào các mô hình AI

Hầu hết công việc đều nhằm mục đích cho phép công chúng đóng góp vào quá trình phát triển các mô hình AI trong lĩnh vực liên kết AI.

OpenAI đã điều hành một chương trình trợ cấp về 'đầu vào dân chủ cho AI', dẫn đến việc họ thành lập một nhóm 'Liên kết tập thể' (Collective Alignment), bao gồm các nhà nghiên cứu và kỹ sư. Nhóm này sẽ 'triển khai một hệ thống để thu thập và mã hóa đầu vào của công chúng về hành vi của mô hình vào hệ thống của chúng tôi'.

Vào tháng 10 năm 2023, Anthropic đã công bố kết quả công việc liên kết của riêng mình với Collective Intelligence và Polis để 'soạn thảo một hiến pháp AI' dựa trên ý kiến của 1000 người Mỹ. Hiến pháp cuối cùng tập trung nhiều hơn vào tính khách quan, công bằng và khả năng tiếp cận và khi được sử dụng để đào tạo một mô hình AI, nó 'ít thiên vị hơn một chút và có khả năng ngang bằng với mô hình Anthropic tiêu chuẩn'. Recursive Public là một thử nghiệm nhằm xác định các lĩnh vực đồng thuận và bất đồng giữa cộng đồng AI quốc tế, các nhà hoạch định chính sách và công chúng nói chung.

Các thí điểm của WeBuildAI, một khung tham gia tập thể, nhận thấy rằng việc sử dụng khung này dẫn đến những cải thiện về tính công bằng được nhận thức trong quá trình ra quyết định, nhận thức của công chúng về công nghệ thuật toán đang được sử dụng cũng như nhận thức của tổ chức về tác động của thuật toán.

Đóng góp dữ liệu cho các mô hình AI

Một cách khác mà chúng tôi thấy các cá nhân và cộng đồng tham gia là thông qua đóng góp vào các tập dữ liệu. Những đóng góp này có thể có nhiều hình thức và phục vụ nhiều mục đích, ví dụ, phản ánh những trải nghiệm thực tế của cộng đồng, giúp các nhà khoa học và nhà hoạch định chính sách hoặc cùng nhau quyết định phạm vi các phân tích dữ liệu mới. Một ví dụ là khoa học công dân - các dự án như FoldIt hoặc bất kỳ dự án nào của Zooniverse đều được thiết kế ngay từ đầu để tạo ra các tập dữ liệu tốt hơn cho việc đào tạo AI, ví dụ như chú thích hình ảnh, âm thanh hoặc nội dung video mà các thuật toán thấy khó xử lý.

Mặc dù sự tham gia không được lan truyền rộng rãi, nhưng những câu chuyện thành công hiện có cho thấy con đường phía trước.

Các cộng đồng xung quanh các nền tảng như Wikipedia có hàng trăm nghìn người đóng góp từ khắp nơi trên thế giới. Dữ liệu từ các nền tảng này có sẵn theo giấy phép mở cho nhiều mục đích, bao gồm phát triển AI. Các giải pháp như Wikibench cho phép cộng đồng tham gia trực tiếp vào việc định hình dữ liệu đưa vào các mô hình AI mà Wikipedia sử dụng, ví dụ, để xác định các biên tập viên độc hại.

Các dự án như BLOOMBigCode đang khám phá các phương pháp cộng tác để phát triển dữ liệu và AI. Có những phương pháp thu thập dữ liệu và đào tạo mô hình mới mang tính tham gia tập trung cụ thể vào dữ liệu ngôn ngữ, chẳng hạn như CommonVoice, AyaFLAIR. Trong khi Karya điều hành một nền tảng chú thích dữ liệu trả lương công bằng cho những người đóng góp. Những sáng kiến này nhằm mục đích tạo ra các tập dữ liệu về các ngôn ngữ chưa được đại diện đầy đủ, để cuối cùng trao quyền cho các cộng đồng trên toàn thế giới nhận ra giá trị của AI.

Các bước cần thực hiện

Tuyên ngôn Chính sách mới ra mắt của chúng tôi, đã nhận được sự ủng hộ của nhiều đảng phái tại Anh, lập luận rằng "trao quyền cho mọi người và cộng đồng để giúp định hình cách dữ liệu được sử dụng cho xã hội, môi trường, nền kinh tế và lợi ích công cộng".

Chúng tôi hy vọng rằng chính phủ Anh mới sẽ tiếp tục thực hiện các kế hoạch trao quyền cho nghiên cứu, đổi mới và nền công nghiệp bằng dữ liệu cho AI và thực hiện theo cách có trách nhiệm. Chúng tôi khuyến nghị rằng chính phủ mới của Anh:

  • Tăng cường kiểm soát cá nhân đối với dữ liệu, xây dựng dựa trên thành công của tín khả chuyển dữ liệu trong lĩnh vực ngân hàng, Chính phủ phải khám phá những thay đổi về quy định hỗ trợ mọi người kiểm soát dữ liệu nhiều hơn. Điều này có thể bao gồm việc xây dựng dựa trên GDPR của Anh để cung cấp quyền kiểm soát dữ liệu cá nhân nhiều hơn trong kỷ nguyên AI. Quy định này phải liên quan đến các đặc điểm về cách dữ liệu được sử dụng cho AI để đảm bảo dữ liệu hoạt động vì lợi ích của mọi người và cộng đồng cũng như ngành công nghiệp và phải vượt ra ngoài dữ liệu đào tạo để bao gồm các lời nhắc và nhiều hình thức phản hồi khác nhau.

  • Sử dụng có ý nghĩa các phương pháp có sự tham gia để thu hút công chúng vào việc định hình tương lai của dữ liệu và AI tại Vương quốc Anh, đặc biệt là khi nói đến các điều khoản sử dụng tài sản dữ liệu quốc gia quan trọng và dữ liệu nhạy cảm khác. Thu hút mọi người thông qua đối thoại và tham gia để quyết định cách AI được các cơ quan công quyền tại Vương quốc Anh quản lý và sử dụng là một khởi đầu tốt. Chính phủ có thể học hỏi từ các ví dụ hiện tại về các diễn đàn và hội đồng công dân để khám phá tính khả thi của việc phân quyền và kiểm soát thực sự đối với việc ra quyết định.

  • Hỗ trợ hệ sinh thái tham gia phát triển mạnh mẽ tại Vương quốc Anh và hợp tác với họ để cải thiện hoạt động hiện tại. Có rất nhiều chuyên môn và đổi mới đang diễn ra tại Vương quốc Anh. Bối cảnh này có thể hỗ trợ các nỗ lực cải thiện sự tham gia của công chúng đối với dữ liệu mới và quy định về AI, bao gồm cả việc đóng góp vào các quyết định về AI cũng như tạo ra các tập dữ liệu mới cần thiết cho đổi mới AI. Điều này cũng đòi hỏi phải hiểu được phương pháp có sự tham gia trong vòng đời AI hiệu quả nhất ở đâu và như thế nào, điều này cần được nghiên cứu thông qua việc cấp vốn nhất quán cho các sáng kiến có sự tham gia và nghiên cứu có sự tham gia được công nhận.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra các mô hình cấp phép dữ liệu và khung quản trị công bằng và toàn diện. Blog này là một phần của loạt các can thiệp chính sách mà bạn có thể khám phá tại đây.

Nếu chúng tôi bỏ lỡ bất kỳ ví dụ nào về trao quyền dữ liệu hoặc bạn muốn trò chuyện với chúng tôi về công việc của chúng tôi về AI lấy dữ liệu làm trung tâm, vui lòng liên hệ theo địa chỉ research@theodi.org.

If we want people to trust AI systems and their outputs, we need to give them a stake in how these systems are trained and used.

The age of foundation AI is characterised by models of large scale and high flexibility, capable of producing rich outputs. Recognising both the potential and the risks of these new models, the ODI has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices. We’re exploring what policy interventions could be made to ensure these technologies are developed and deployed in ways that benefit everyone – people, communities and businesses. This is the conclusion of our five-part series exploring these policy interventions, and how they can help to positively shape the landscape.

Why is empowerment important in the context of data centric AI?

Achieving the economic and societal benefits of AI critically depends on having trust in the technology. There have been widespread calls for more participation in AI as a means to build trustworthy solutions by design rather than trying to gain that trust afterwards. Foundational models are a step change from earlier types of AI in terms of performance, risks and impacts - as such, conversations around when and how AI should be used need to leverage the expertise and opinions of a broader range of people and communities.

The last decades have shown time and time again that not empowering people to shape and participate in systems of collecting, sharing and using data will create mistrust. As we describe in our Theory of Change, there is a risk that failing to address people’s fears and legitimate concerns – such as about who has access to data and how this data might be used – will prevent us from realising the potential of data-centric technologies, including AI.

AI and data are intrinsically linked – without data there is no AI. Access to large amounts of data has become crucial for the development of AI - much of this data is created by the public and includes user-generated content scraped from the internet. Moreover, generative AI systems interact with consumers at a scale that predictive or analytical AI haven’t - every time we ask a tool like ChatGPT or Midjourney to generate content for us, we provide instructions in the form of prompts. Those prompts and the feedback we provide to the tools capture what we're interested in, what we work on, and what we plan to do. They help improve how foundational models work, so we need to make sure that the benefits of these improvements are spread equitably.

To give people some autonomy over how their prompts and preferences are used, some chatbots have introduced user controls, such as the ability to turn off ‘conversation’ history and export data out of their system. However, the failures of the notice and consent mechanism are well documented. Constant requests to consent to data collection and processing has created consent fatigue. When users do consent they are not fully informed, nor aware of what they are consenting to. A choice between opt-in/opt-out is often insufficient for genuine empowerment as it doesn’t provide the opportunity for people to shape or control systems.

Data generated through the use of AI platforms is only one source of data for foundational AI. Right now, AI companies are looking to get access to large datasets –particularly valuable is data from online communities because it is highly curated and as such better quality than most Internet content. Some companies are licensing and supplying this data to generate revenue, but have met resistance from contributors. For example, the Reddit community has engaged in blackouts and subsequent closure of subreddits over the platform selling their data to AI firms. Reddit has subsequently taken over several subreddits and signed deals with Google and OpenAI. DeviantArt had to reverse its decision to use artists’ work to train AI models by default; instead, users can now actively consent to such use. StackOverflow has gone as far as blocking users who deleted their contributions in protest over the sale of their data to OpenAI. Clearly, the withdrawal of this data can have knock-on effects to AI companies who need it.

We need to move beyond transparency and accountability to a world where people can meaningfully participate in how data is used by the government, industry and beyond. Empowering people and communities in the context of AI means enabling them to shape how algorithms and the underlying data are designed, deployed and used for societal, environmental, and economic benefit.

Genuine empowerment will take many forms and cover the entire AI lifecycle. From decisions about whether AI should be used, to labour unions for data workers, from those generating public data to protecting those ensuring its safety. This piece, therefore, should be read in conjunction with our previous interventions in data protection and labour rights, and broad access to data, which both include further recommendations on AI, data and empowerment through rights.

In the remainder of this post, we will focus on a slice of this work – how individuals and communities can be empowered to actively contribute to and shape AI models, and how data they have a stake in is used.

How can people be empowered to affect AI data?

Participation can be a lever to rebalance the data economy. It can empower individuals and communities by increasing people’s control over the data that relates to them, improving data quality and decision making by incorporating diverse perspectives, knowledge and experiences, and building trust and collaboration.

The Ada Lovelace Institute has adapted Arnstein's ‘ladder of participation’ for data stewardship, which details the different degrees of participation, from being informed or consulted about how data is used through to empowered to make decisions about data use. In our work on participatory data, we see participation happening at different levels of the data ecosystem:

Just as generative AI has changed how we think about data and technology, empowerment in the context of data and AI can be different. For example, a recent study suggests that direct engagement in foundation models is hard to facilitate, given the power asymmetries in their development (i.e. big companies vs small communities trying to contribute); however, engagement in domain-specific technical infrastructure and governance shows promise.

The Collective Intelligence Project have outlined the different ways that people can be engaged in AI development, corresponding to the different rungs of the ‘ladder of participation’:

  • Making AI more accessible and enabling society more broadly to benefit from it, for example by bridging the digital divide with generative AI tools.

  • Co-designing AI systems by facilitating engagement during development, for example Wikibench enables people and communities to design evaluation datasets to ensure it is assessed on their needs.

  • Expanding the AI ecosystem through more accessible funding and data, including initiatives like Aya, which crowdsource new datasets to support underrepresented languages.

  • Directly involving the public in the governance of AI, for example through data institutions like data trusts or via citizen panels.

Current policy status in the UK and elsewhere

Participation has a long history in the UK, meaning that it is well-placed to become a leader on participatory data and AI with a strong civil society sector who value it, organisations who facilitate citizen involvement, and a history of cross-sector projects looking at user rights.

Several amendments to the Data Protection and Digital Information (DPDI) Bill – which was not passed because of the 2024 election – defined ‘data communities’ in the form of intermediaries that could be assigned data subject's rights and be able to exercise them on their behalf, including negotiating access to their data for AI developers. However there has been criticism that it was 'co-designed with industry, for industry, in order to maximise the economic benefits', at the cost of the involvement of civil society and wider public benefit.

The 2023 AI Fringe: People’s Panel on AI brought together a representative group of members of the public to attend, observe and discuss key events from the Fringe. One key suggestion from the panel was a form of citizen engagement, similar to jury service, which could provide 'guidance, recommendations or judgements about AI' to industry and government.

The lead to the 2024 UK General Election has brought greater attention to public participation, following proposals by Labour, the Liberal Democrats and the Greens to explore the use of citizen assemblies to consult on significant policy issues, including AI.

Beyond the UK, the European Commission continues to drive a ’human-centric’ data agenda that cuts across its broad data policy work, discussed in prior parts of this series. The Data Governance Act seeks to enable individuals to share their data voluntarily for the benefit of society through trusted organisations adhering to EU values and principles. It calls these ‘data altruism organisations’. To which degree these efforts will be successful cannot yet be determined, but they all aim to build controlled environments under which data for AI development could be shared.

The Canadian Government ran a public consultation on AI, which was criticised for ‘not fulfilling key purposes of a consultation, such as transparency, democratic engagement and public education' and therefore falling short on citizen empowerment. In 2023, Brazil introduced new draft AI legislation which would include the ‘The right to human participation in decisions about AI systems’. In 2023, US Public AI Assembly explored public attitudes regarding risk and uses of AI across multiple domains including administrative records, health records, browser history, and facial recognition. The City of Amsterdam has used both citizen dialogues on the future of AI in Amsterdam as well as citizen council providing input into the design and use of an algorithm for a social assistance programme.

It seems policy-led participation around data and AI is not yet well developed. Where participation does exist, it is usually towards the lower end of Arnstein's ladder. Higher levels of empowerment involve sharing power to shape or contribute to decisions, which can be difficult in a government context. But there are initiatives emerging from civil society, industry and beyond that policy-makers can learn from.

Proposals from civil society, industry and other non-government actors

Beyond government action, there has been a wide range of activity from industry, the third sector and beyond. These proposals to empower people in the context of data and AI have broadly three different aims: enabling control, embedding the public decision making in AI models, and contributing data to AI models.

Enabling control

As well as long standing ecosystem of technical approaches to data empowerment, there are also some newer approaches emerging to empower people to control how data is used to train AI (sometimes referred to as ‘consent layers for AI’ or ‘preference signalling’).

These new approaches show the range of what empowerment means to different people and communities in practice. For example, some of these approaches are designed for transparency and to facilitate individuals’ contribution of data, while others support individuals in refusal. Some examples include:

Embedding the public decision making in AI models

Most work on enabling the public to contribute towards the development of AI models in the area of AI alignment.

OpenAI has run a grant programme on ‘democratic inputs to AI’, which led to them forming a ‘Collective Alignment’ team, consisting of researchers and engineers. This team will 'implement a system for collecting and encoding public input on model behaviour into our systems'.

In October 2023, Anthropic published the results of its own alignment work with Collective Intelligence and Polis to 'curate an AI constitution' based on the opinions of 1000 Americans. The final constitution focused more on objectivity, impartiality, and accessibility and when used to train an AI model, it was ‘slightly less biased and equally as capable as the standard Anthropic model'. Recursive Public is an experiment to identify areas of consensus and disagreement among the international AI community, policymakers and the general public.

Pilots of WeBuildAI, a collective participatory framework, found that using the framework led to improvements in the perceived fairness of decision making, public awareness of the algorithmic technology in use, as well as the organisation’s awareness of the algorithm’s impact.

Contributing data to AI models

Another way that we have seen individuals and communities engaged is through contributions to datasets. These contributions can take many forms and serve many purposes, for instance, reflecting communities' lived experiences, helping scientists and policy makers, or collectively deciding on the scope of new data analyses. An example is citizen science - projects such as FoldIt or any of the Zooniverse projects are designed from the outset to create better datasets for AI training, for instance by annotating images, audio or video content that algorithms find hard to process.

While participation is not widely spread, existing success stories show the way forward.

Communities around platforms like Wikipedia have hundreds of thousands of contributors from around the world. Data from these platforms is available under open licences for many purposes, including AI development. Solutions like Wikibench allow the community to participate directly in shaping the data that goes into AI models that Wikipedia uses, for instance, to identify malicious editors.

Projects such as BLOOM and BigCode are exploring collaborative methods for data and AI development. There are new participatory methods of data collection and model training specifically focused on language data, such as CommonVoice, Aya and FLAIR. While Karya runs a data annotation platform which pays a fair wage to its contributors. These initiatives seek to create datasets of underrepresented languages, to ultimately empower communities around the world to realise the value of AI.

Steps to take

Our recently launched Policy Manifesto, which received UK cross-party support, argued for 'empowering people and communities to help shape how data is used for society, the environment, the economy and the public good'.

We expect that the new UK government will continue to work on plans to empower research, innovation and industry with data for AI, and do so in a responsible way. We recommend that the incoming UK government:

  • Strengthens individual controls over data, building on the success of data portability in the banking sector, the Government must explore regulatory changes which support people to have more control over data. This could include building on the UK GDPR to provide more individualised control over data in the era of AI. This regulation must engage with the characteristics of how data is used for AI to ensure it functions in the interests of people and communities as well as industry, and should go beyond training data to include prompts and various forms of feedback.

  • Meaningfully utilises participatory methods to involve the public in shaping the future of data and AI in the UK, especially when it comes to the terms of use of critical national data assets and other sensitive data. Involving people through dialogue and engagement to decide how AI is regulated and used by public bodies in the UK is a good place to start. The Government can learn from current examples of citizen assemblies and forums to explore the viability of genuine delegation and control over decision making.

  • Supports the thriving ecosystem of participation in the UK, and works with them to improve current practice. There is a lot of expertise and innovation happening in the UK. This landscape can support efforts to improve public engagement for new data and AI regulation, including by contributing to decisions about AI as well as generating new datasets needed for AI innovation. This will also require understanding where and how engagement methods in AI lifecycles are most effective, which should be investigated through consistent funding for participatory initiatives and recognised participatory research.

At the ODI, we’re keen to provide insights and resources to policymakers working towards creating fair and inclusive data licensing models and governance frameworks. This blog is part of a series of policy interventions, which you can explore here.

If we’ve missed any examples of data empowerment or you’d like to chat with us about our work on data-centric AI please get in touch at research@theodi.org.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com