Policy
intervention 5: Empowering people to have more of a say in the
sharing and use of data for AI
Nếu chúng ta muốn mọi người tin tưởng
và các hệ thống Ai và các kết quả đầu ra của chúng,
chúng ta cần cho họ biết cách các hệ thống này được
đào tạo và sử dụng.
Fri Jul 5, 2024
Theo:
https://theodi.org/news-and-events/blog/policy-intervention-5-empowering-people-to-have-more-of-a-say-in-the-sharing-and-use-of-data-for-ai/
Bài được đưa lên Internet ngày:
05/07/2024
Thời đại của AI nền tảng được
đặc trưng bởi các mô hình có quy mô lớn và tính linh
hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận
thức được cả tiềm năng và rủi ro của các mô hình
mới này, ODI đã bắt tay vào một chương trình làm việc
về AI lấy dữ liệu làm trung tâm, được thiết kế để
tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ
liệu có trách nhiệm. Chúng tôi đang khám phá những can
thiệp chính sách nào có thể được thực hiện để đảm
bảo các công nghệ này được phát triển và triển khai
theo cách có lợi cho tất cả mọi người - con người,
các cộng đồng và các doanh nghiệp. Đây là phần kết
luận của loạt bài gồm năm phần khám phá các biện
pháp can thiệp chính sách này và cách chúng có thể giúp
định hình tích cực bối cảnh.
Vì sao trao quyền là quan trọng trong bối
cảnh AI lấy dữ liệu làm trung tâm?
Việc đạt được các lợi ích kinh tế
và xã hội của AI phụ
thuộc rất nhiều vào việc tin tưởng vào công nghệ.
Đã có nhiều lời kêu gọi rộng rãi về việc tham gia
nhiều hơn vào AI như một phương tiện để xây dựng các
giải pháp đáng tin cậy bằng thiết kế thay vì cố gắng
giành được lòng tin đó sau đó. Các mô hình nền tảng
là một bước thay đổi so với các loại AI trước đó
về hiệu suất, rủi ro và tác động - do đó, các
cuộc thảo luận về thời điểm
khi nào
và cách sử dụng AI như
thế nào cần
phải tận dụng chuyên môn và ý kiến của nhiều người
và cộng đồng hơn.
Những thập kỷ qua đã
nhiều lần cho thấy rằng việc không trao quyền cho mọi
người để định hình và tham gia vào các hệ thống thu
thập, chia sẻ và sử dụng dữ liệu sẽ tạo
ra sự ngờ vực. Như chúng tôi mô tả trong Lý
thuyết thay đổi của mình, có một
rủi ro là việc không giải quyết được nỗi sợ hãi và
mối quan tâm chính đáng của mọi người - chẳng hạn
như về việc ai có quyền truy cập vào dữ liệu và dữ
liệu này có thể được sử dụng như thế nào - sẽ
ngăn cản chúng ta nhận ra tiềm năng của các công nghệ
lấy dữ liệu làm trung tâm, bao gồm cả AI.
AI và dữ liệu có mối
liên hệ chặt chẽ với nhau – không
có dữ liệu thì không có AI. Việc
tiếp cận lượng lớn dữ liệu đã trở nên vô cùng
quan trọng đối với sự phát triển của AI - phần
lớn dữ liệu này do công chúng tạo ra và bao gồm nội
dung do người dùng tạo ra được
thu thập từ Internet. Hơn nữa, các hệ thống AI tạo
ra tương tác với người tiêu dùng ở quy mô mà AI dự
đoán hoặc phân tích không có - mỗi khi chúng ta yêu cầu
một công cụ như ChatGPT hoặc Midjourney tạo nội dung cho
chúng ta, chúng ta cung cấp hướng dẫn dưới dạng lời
nhắc. Những lời nhắc đó và phản hồi mà chúng ta cung
cấp cho các công cụ sẽ nắm bắt được những gì chúng
ta quan tâm, những gì chúng ta đang làm và những gì chúng
ta dự định làm. Chúng giúp cải thiện cách thức hoạt
động của các mô hình nền tảng, vì vậy chúng ta cần
đảm bảo rằng những lợi ích của những cải tiến này
được phân bổ công bằng.
Để trao cho mọi người quyền tự chủ
đối với cách sử dụng lời nhắc và sở thích của họ,
một số chatbot đã giới thiệu các
biện pháp kiểm soát của người dùng, chẳng hạn như
khả năng tắt lịch sử 'cuộc trò chuyện' và xuất dữ
liệu ra khỏi hệ thống của họ. Tuy nhiên, những lỗi
của cơ chế thông báo và đồng ý đã
được
ghi chép lại đầy đủ. Các yêu cầu
liên tục để đồng ý thu thập và xử lý dữ liệu đã
tạo ra sự
mệt mỏi khi đồng ý. Khi người dùng đồng ý, họ
không được thông báo đầy đủ, cũng không biết họ
đang đồng ý với điều gì. Lựa chọn giữa việc chọn
tham gia/không tham gia thường không
đủ để trao quyền thực sự vì nó không cung cấp cơ
hội cho
mọi người định hình hoặc kiểm soát hệ thống.
Dữ liệu được tạo
ra thông qua việc sử dụng nền tảng AI chỉ là một
nguồn dữ liệu cho AI nền tảng. Hiện tại, các
công ty AI đang tìm cách tiếp cận các tập dữ liệu lớn
- đặc biệt có giá trị là dữ liệu
từ các cộng đồng trực tuyến vì chúng được giám
tuyển chặt chẽ và do đó có chất lượng tốt hơn hầu
hết nội dung trên Internet. Một
số công ty đang cấp phép và cung cấp dữ liệu này để
tạo doanh thu, nhưng đã gặp phải sự phản đối từ
những người đóng góp. Ví dụ, cộng đồng Reddit
đã tham gia vào các
cuộc đình công và sau đó đóng cửa các subreddit trên
nền tảng mà đang bán dữ liệu của họ cho các công ty
AI. Reddit sau đó đã tiếp quản một số subreddit và ký
kết các thỏa thuận với Google và OpenAI. DeviantArt đã
phải đảo
ngược quyết định
của nó sử dụng tác phẩm của các nghệ sĩ
để đào tạo các mô hình AI theo mặc định; thay vào đó,
người dùng hiện có thể chủ động đồng ý với việc
sử dụng như vậy. StackOverflow đã đi xa đến mức chặn
những người dùng đã xóa các đóng góp của họ để
phản đối việc bán dữ liệu của họ cho OpenAI. Rõ
ràng, việc xóa dữ liệu này có thể gây ra tác động
dây chuyền đến các công ty AI cần dữ liệu đó.
Chúng ta cần vượt ra
ngoài sự minh bạch và trách nhiệm giải trình để hướng
đến một thế giới mà mọi người có thể tham gia một
cách có ý nghĩa vào cách làm thế nào để dữ liệu được
chính phủ, ngành công nghiệp và nhiều bên khác sử dụng.
Việc
trao quyền cho mọi người và các cộng đồng trong bối
cảnh AI có nghĩa là cho phép họ định hình cách các
thuật toán và dữ liệu cơ bản được thiết kế, triển
khai và sử dụng như thế nào để mang lại lợi ích cho
xã hội, môi trường và nền kinh tế.
Việc trao quyền thực sự sẽ có nhiều
hình thức và bao trùm toàn bộ vòng đời của AI. Từ các
quyết định về việc có nên sử dụng AI hay không,
đến các công đoàn lao động
cho những người làm việc về dữ liệu, từ những
người tạo
ra dữ liệu công khai cho đến việc bảo vệ những
người đảm
bảo tính an toàn của dữ liệu. Do đó, bài viết này
nên được đọc cùng với các can thiệp trước đây của
chúng tôi về bảo vệ dữ
liệu và quyền lao động, cũng như quyền
truy cập rộng rãi vào dữ liệu, cả hai đều bao gồm
các khuyến nghị hơn nữa về AI, dữ liệu và trao quyền
thông qua các quyền.
Trong phần còn
lại của bài đăng này, chúng ta sẽ tập trung vào một
phần của công việc này – cách các cá nhân và cộng
đồng có thể được trao quyền để tích cực đóng góp
và định hình các mô hình AI, và cách dữ liệu mà họ
có cổ phần được sử dụng.
Làm thế nào mọi người có thể được
trao quyền để tác động đến dữ liệu AI?
Sự
tham gia có thể là đòn bẩy để cân bằng lại nền kinh
tế dữ liệu. Nó có thể trao quyền cho các cá nhân
và cộng đồng bằng cách tăng quyền kiểm soát của mọi
người đối với dữ liệu liên quan đến họ, cải thiện
chất lượng dữ liệu và việc ra quyết định bằng cách
kết hợp các quan điểm, kiến thức và kinh nghiệm đa
dạng, đồng thời xây dựng lòng tin và
sự cộng tác.
Viện Ada Lovelace đã điều chỉnh 'thang
tham gia' của Arnstein để
quản lý dữ liệu, trong đó nêu chi tiết các mức độ
tham gia khác nhau, từ việc được thông báo hoặc tham
khảo ý kiến về cách sử dụng dữ liệu cho đến việc
được trao quyền để đưa ra quyết định về việc sử
dụng dữ liệu. Trong công việc của chúng tôi về dữ
liệu có sự tham gia, chúng tôi thấy
sự tham gia diễn ra ở các cấp độ khác nhau của hệ
sinh thái dữ liệu:
Cũng
giống như AI tạo sinh
đã thay đổi cách chúng ta suy nghĩ về dữ liệu và công
nghệ, việc trao quyền trong bối cảnh dữ liệu và AI có
thể khác nhau. Ví dụ, một
nghiên cứu gần
đây cho thấy rằng việc tham gia trực tiếp vào các
mô hình nền tảng rất khó tạo thuận lợi, do sự bất
cân xứng về quyền lực trong quá trình phát triển của
chúng (tức là các công ty lớn so với các cộng đồng
nhỏ đang cố gắng đóng góp); tuy nhiên, việc tham gia vào
cơ sở hạ tầng kỹ thuật và quản trị cụ thể theo
từng lĩnh vực cho thấy triển vọng.
Dự
án Trí tuệ Tập thể đã phác thảo những cách khác nhau
mà mọi người có thể tham gia vào quá trình phát triển
AI, tương ứng với các bậc khác nhau của 'thang
tham gia':
Làm cho AI dễ tiếp cận hơn và cho
phép xã hội được hưởng lợi từ AI rộng rãi hơn, ví
dụ như thu
hẹp khoảng trống kỹ thuật số bằng các công cụ AI
tạo sinh.
Đồng thiết kế các hệ thống AI
bằng cách tạo điều kiện cho sự tham gia trong quá trình
phát triển, ví dụ như Wikibench
cho phép mọi người và cộng đồng thiết kế các tập
dữ liệu đánh giá để đảm bảo là nó được đánh
giá theo nhu cầu của họ.
Mở rộng hệ sinh thái AI thông qua
nguồn vốn cấp và dữ liệu dễ tiếp cận hơn, bao gồm
các sáng kiến như Aya,
nơi huy động cộng đồng để xây dựng các tập dữ
liệu mới nhằm hỗ trợ các ngôn ngữ chưa được đại
diện đầy đủ.
Trực tiếp thu hút công chúng vào quá
trình quản trị AI, ví dụ như thông qua các tổ chức dữ
liệu như quỹ tín thác dữ liệu (data
trusts) hoặc thông qua các hội đồng công dân (citizen
panels).
Tình hình chính sách hiện tại ở Vương
quốc Anh và những nơi khác
Sự
tham gia có lịch sử lâu đời ở Vương quốc Anh, có
nghĩa là nó có vị thế tốt để trở thành người dẫn
đầu về dữ liệu có sự tham gia và AI với một khu vực
xã hội dân sự mạnh mẽ coi trọng nó, các tổ chức mà
tạo thuận lợi cho sự tham gia của công dân, và lịch sử
các dự án liên ngành xem xét quyền của người dùng.
Một số sửa
đổi đối với Dự luật Bảo vệ Dữ liệu và Thông
tin Kỹ thuật số (DPDI) - không được thông qua vì cuộc
bầu cử năm 2024 - đã định nghĩa 'cộng đồng dữ liệu'
dưới hình thức các bên trung gian có thể được chỉ
định quyền của chủ thể dữ liệu và có thể thực
hiện các quyền đó thay mặt cho họ, bao gồm đàm phán
quyền truy cập vào dữ liệu của họ đối với các nhà
phát triển AI. Tuy nhiên, đã có những
chỉ trích rằng nó được 'đồng thiết kế với giới
công nghiệp, vì giới công nghiệp, nhằm tối đa hóa lợi
ích kinh tế', với cái giá phải trả là sự tham gia của
xã hội dân sự và lợi ích công cộng rộng rãi hơn.
AI Fringe 2023: Ban
Công chúng về AI đã tập hợp một
nhóm đại diện gồm các thành viên của công chúng để
tham dự, quan sát và thảo luận về các sự kiện quan
trọng từ Fringe. Một
đề xuất chính từ ban công chúng là một hình thức
thu hút sự tham gia của công dân, tương tự như dịch vụ
bồi thẩm đoàn, có thể cung cấp 'hướng dẫn, khuyến
nghị hoặc phán quyết về AI' cho giới công nghiệp và
chính phủ.
Sự kiện dẫn đến cuộc Tổng tuyển cử
Vương quốc Anh năm 2024 đã thu hút sự chú ý lớn hơn
đến sự tham gia của công chúng, sau các đề xuất của
Đảng
Lao động, Đảng
Dân chủ Tự do và Đảng
Xanh nhằm xem xét việc sử dụng các hội đồng công
dân để tham vấn về các vấn đề chính sách quan trọng,
bao gồm cả AI.
Ngoài Vương quốc Anh, Ủy ban Châu Âu tiếp
tục thúc đẩy chương trình nghị sự dữ liệu 'lấy con
người làm trung tâm', xuyên khắp công việc chính sách dữ
liệu rộng lớn của mình, đã
được thảo luận trong các phần trước của loạt bài
này. Đạo
luật Quản trị Dữ liệu tìm cách cho phép các cá
nhân chia sẻ dữ liệu của họ một cách tự nguyện vì
lợi ích của xã hội thông qua các tổ chức đáng tin cậy
tuân thủ các giá trị và nguyên tắc của EU. Đạo luật
này gọi đây là 'các
tổ chức vị tha dữ liệu'. Mức độ
thành công của những nỗ lực này hiện vẫn chưa thể
xác định, nhưng tất cả đều hướng đến mục tiêu
xây dựng các môi trường được kiểm soát, trong đó dữ
liệu để phát triển AI có thể được chia sẻ.
Chính phủ Canada đã tiến hành tham vấn
công khai về AI, bị
chỉ trích là 'không hoàn thành các mục đích chính
của cuộc tham vấn, chẳng hạn như tính minh bạch, sự
tham gia dân chủ và giáo dục công chúng' và do đó không
trao quyền cho công dân. Năm 2023, Brazil đã đưa ra dự
thảo luật AI mới, trong đó có 'Quyền tham gia của
con người vào các quyết định về hệ thống AI'. Năm
2023, Đại hội AI Công cộng
Hoa Kỳ đã nghiên cứu thái độ của công chúng liên
quan đến rủi ro và việc sử dụng AI trên nhiều lĩnh
vực bao gồm hồ sơ hành chính, hồ sơ sức khỏe, lịch
sử trình duyệt và nhận dạng khuôn mặt. Thành phố
Amsterdam đã sử dụng cả đối
thoại với người dân về tương lai của AI tại Amsterdam
cũng như hội
đồng công dân để cung cấp ý kiến đóng góp vào việc
thiết kế và sử dụng thuật toán cho chương trình hỗ
trợ xã hội.
Có vẻ như sự
tham gia do chính sách dẫn dắt xung quanh dữ liệu và AI
vẫn chưa được phát triển tốt. Nơi nào có sự tham
gia, thì thường là ở mức thấp hơn trong thang Arnstein.
Các cấp độ trao quyền cao hơn liên quan đến việc chia
sẻ quyền lực để định hình hoặc đóng góp vào các
quyết định, điều này có thể khó khăn trong bối cảnh
chính phủ. Nhưng có những sáng kiến đang nổi lên từ
xã hội dân sự, giới công nghiệp và hơn thế nữa mà
các nhà hoạch định chính sách có thể học hỏi.
Đề xuất từ xã hội dân sự, giới
công nghiệp và các tác nhân phi chính phủ khác
Ngoài hành động của chính phủ, đã có
nhiều hoạt động từ giới công nghiệp, khu vực thứ ba
và hơn thế nữa. Những đề xuất này nhằm trao quyền
cho mọi người trong bối cảnh dữ liệu
và AI có ba mục tiêu khác nhau: cho phép kiểm soát, nhúng
quá trình ra quyết định của công chúng vào các mô hình
AI và đóng góp dữ liệu vào các mô hình AI.
Cho phép kiểm soát
Cũng như hệ sinh thái lâu đời của các
phương pháp tiếp cận kỹ thuật đối với việc trao
quyền của dữ liệu, cũng có một số phương pháp tiếp
cận mới hơn đang nổi lên để trao quyền cho mọi người
kiểm soát cách dữ liệu được sử dụng để đào tạo
AI (đôi khi được gọi là 'lớp đồng ý cho AI' hoặc
'đánh tín hiệu ưu tiên').
Những cách tiếp cận mới này cho thấy
phạm vi trao quyền có ý nghĩa như thế nào đối với
những người và cộng đồng khác nhau trong thực tế. Ví
dụ, một số cách tiếp cận này được thiết kế để
minh bạch và tạo điều kiện cho cá nhân đóng góp dữ
liệu, trong khi những cách khác hỗ
trợ các cá nhân từ chối. Một số ví dụ bao gồm:
Nhúng việc ra quyết định của công
chúng vào các mô hình AI
Hầu hết công việc đều
nhằm mục đích cho phép công chúng đóng góp vào quá
trình phát triển các mô hình AI trong lĩnh vực liên kết
AI.
OpenAI đã điều hành một chương trình
trợ cấp về 'đầu
vào dân chủ cho AI', dẫn đến việc họ thành lập
một nhóm 'Liên kết tập thể' (Collective Alignment), bao gồm
các nhà nghiên cứu và kỹ sư. Nhóm này sẽ 'triển khai
một hệ thống để thu thập và mã hóa đầu vào của
công chúng về hành vi của mô hình vào hệ thống của
chúng tôi'.
Vào tháng 10 năm 2023, Anthropic đã công bố
kết
quả công việc liên kết của riêng mình với
Collective Intelligence và Polis để 'soạn thảo một hiến
pháp AI' dựa trên ý kiến của 1000 người Mỹ. Hiến pháp
cuối cùng tập trung nhiều hơn vào tính khách quan, công
bằng và khả năng tiếp cận và khi được sử dụng để
đào tạo một mô hình AI, nó 'ít thiên vị hơn một chút
và có khả năng ngang bằng với mô hình Anthropic tiêu
chuẩn'. Recursive Public
là một thử nghiệm nhằm xác định các lĩnh vực đồng
thuận và bất đồng giữa cộng đồng AI quốc tế, các
nhà hoạch định chính sách và công chúng nói chung.
Các
thí điểm của WeBuildAI, một khung tham gia tập thể,
nhận thấy rằng việc sử dụng khung này dẫn đến những
cải thiện về tính công bằng được nhận thức trong
quá trình ra quyết định, nhận thức của công chúng về
công nghệ thuật toán đang được sử dụng cũng như nhận
thức của tổ chức về tác động của thuật toán.
Đóng góp dữ liệu cho các mô hình AI
Một cách khác mà chúng
tôi thấy các cá nhân và cộng đồng tham gia là thông qua
đóng góp vào các tập dữ liệu. Những đóng góp
này có thể có nhiều hình thức và phục vụ nhiều mục
đích, ví dụ, phản ánh những trải nghiệm thực tế của
cộng đồng, giúp các nhà khoa học và nhà hoạch định
chính sách hoặc cùng nhau quyết định phạm vi các phân
tích dữ liệu mới. Một ví dụ là khoa học công dân -
các dự án như FoldIt hoặc bất
kỳ dự án nào của Zooniverse
đều được thiết kế ngay từ đầu để tạo ra các tập
dữ liệu tốt hơn cho việc đào tạo AI, ví dụ như chú
thích hình ảnh, âm thanh hoặc nội dung video mà các thuật
toán thấy khó xử lý.
Mặc dù sự tham gia không được lan truyền
rộng rãi, nhưng những câu chuyện thành công hiện có cho
thấy con đường phía trước.
Các cộng đồng xung
quanh các nền tảng như Wikipedia có hàng trăm nghìn người
đóng góp từ khắp nơi trên thế giới. Dữ
liệu từ các nền tảng này có sẵn theo giấy phép mở
cho nhiều mục đích, bao gồm phát triển AI. Các
giải pháp như Wikibench
cho phép cộng đồng tham gia trực tiếp vào việc định
hình dữ liệu đưa vào các mô hình AI mà Wikipedia sử
dụng, ví dụ, để xác định các biên tập viên độc
hại.
Các dự án như BLOOM
và BigCode đang khám
phá các phương pháp cộng tác để phát triển dữ liệu
và AI. Có những phương pháp thu thập dữ liệu và đào
tạo mô hình mới mang tính tham gia tập trung cụ thể vào
dữ liệu ngôn ngữ, chẳng hạn như CommonVoice,
Aya và FLAIR.
Trong khi Karya điều hành một
nền tảng chú thích dữ liệu trả lương công bằng cho
những người đóng góp. Những sáng kiến này nhằm mục
đích tạo ra các tập dữ liệu về các ngôn ngữ chưa
được đại diện đầy đủ, để cuối cùng trao quyền
cho các cộng đồng trên toàn thế giới nhận ra giá trị
của AI.
Các bước cần thực hiện
Tuyên
ngôn Chính sách mới ra mắt của chúng tôi, đã nhận
được sự ủng hộ của nhiều đảng phái tại Anh, lập
luận rằng "trao quyền cho mọi người và cộng đồng
để giúp định hình cách dữ liệu được sử dụng cho
xã hội, môi trường, nền kinh tế và lợi ích công
cộng".
Chúng tôi hy vọng rằng chính phủ Anh mới
sẽ tiếp tục thực hiện các kế hoạch trao quyền cho
nghiên cứu, đổi mới và nền công nghiệp bằng dữ liệu
cho AI và thực hiện theo cách có trách nhiệm. Chúng tôi
khuyến nghị rằng chính phủ mới của Anh:
Tăng cường kiểm
soát cá nhân đối với dữ liệu,
xây dựng dựa
trên thành công của tín khả chuyển dữ liệu trong lĩnh
vực ngân hàng, Chính phủ phải khám phá những thay đổi
về quy định hỗ trợ mọi người kiểm soát dữ liệu
nhiều hơn. Điều này có thể
bao gồm việc xây dựng dựa trên GDPR của Anh để cung
cấp quyền kiểm soát dữ liệu cá nhân nhiều hơn trong
kỷ nguyên AI. Quy định này phải liên quan đến
các đặc điểm về cách dữ liệu được sử dụng cho
AI để đảm bảo dữ liệu hoạt động vì lợi ích của
mọi người và cộng đồng cũng như ngành công nghiệp
và phải vượt ra ngoài dữ liệu đào tạo để bao gồm
các lời nhắc và nhiều hình thức phản hồi khác nhau.
Sử dụng có ý nghĩa các phương
pháp có sự tham gia để thu hút công chúng vào việc
định hình tương lai của dữ liệu và AI tại Vương
quốc Anh, đặc biệt là khi nói đến các điều khoản
sử dụng tài sản dữ liệu quốc gia quan trọng và dữ
liệu nhạy cảm khác. Thu hút mọi người thông qua đối
thoại và tham gia để quyết định cách AI được các cơ
quan công quyền tại Vương quốc Anh quản lý và sử dụng
là một khởi đầu tốt. Chính phủ có thể học hỏi từ
các ví dụ hiện tại về các diễn đàn và hội
đồng công dân để khám phá tính khả thi của việc
phân quyền và kiểm soát thực sự đối với việc ra
quyết định.
Hỗ trợ hệ sinh thái tham gia phát
triển mạnh mẽ tại Vương quốc Anh và hợp tác với
họ để cải thiện hoạt động hiện tại. Có rất
nhiều chuyên môn và đổi mới đang diễn ra tại Vương
quốc Anh. Bối cảnh này có thể hỗ trợ các nỗ lực
cải thiện sự tham gia của công chúng đối với dữ
liệu mới và quy định về AI, bao gồm cả việc đóng
góp vào các quyết định về AI cũng như tạo ra các tập
dữ liệu mới cần thiết cho đổi mới AI. Điều này
cũng đòi hỏi phải hiểu được phương pháp có sự
tham gia trong vòng đời AI hiệu quả nhất ở đâu và như
thế nào, điều này cần được nghiên cứu thông qua
việc cấp vốn nhất quán cho các sáng kiến có sự tham
gia và nghiên cứu có sự tham gia được công nhận.
Tại ODI, chúng tôi mong muốn cung cấp
thông tin chi tiết và nguồn lực cho các nhà hoạch định
chính sách đang nỗ lực tạo ra các mô hình cấp phép dữ
liệu và khung quản trị công bằng và toàn diện. Blog này
là một phần của loạt các can thiệp chính sách mà bạn
có thể khám phá tại
đây.
Nếu chúng tôi bỏ lỡ bất kỳ ví dụ
nào về trao quyền dữ liệu hoặc bạn muốn trò chuyện
với chúng tôi về công việc của chúng tôi về AI lấy
dữ liệu làm trung tâm, vui lòng liên hệ theo địa chỉ
research@theodi.org.
If we want
people to trust AI systems and their outputs, we need to give them a
stake in how these systems are trained and used.
The age of
foundation AI is characterised by models of large scale and high
flexibility, capable of producing rich outputs. Recognising both the
potential and the risks of these new models, the ODI has embarked on
a programme of work on data-centric AI, designed to bring about an AI
ecosystem grounded in responsible data practices. We’re exploring
what policy interventions could be made to ensure these technologies
are developed and deployed in ways that benefit everyone – people,
communities and businesses. This is the conclusion of our five-part
series exploring these policy interventions, and how they can help to
positively shape the landscape.
Why is
empowerment important in the context of data centric AI?
Achieving the
economic and societal benefits of AI critically
depends on having trust in the technology.
There have been widespread calls for more participation in AI as a
means to build trustworthy solutions by design rather than trying to
gain that trust afterwards. Foundational models are a step change
from earlier types of AI in terms of performance, risks and impacts -
as such, conversations
around when and how AI should be used need to leverage the expertise
and opinions of a broader range of people and communities.
The last decades
have shown time and time again that not empowering people to shape
and participate in systems of collecting, sharing and using data will
create
mistrust.
As we describe in our Theory
of Change, there is
a risk that failing to address people’s fears and legitimate
concerns – such as about who has access to data and how this data
might be used – will prevent us from realising the potential of
data-centric technologies, including AI.
AI and data are
intrinsically linked – without
data there is no AI.
Access
to large amounts of data has become crucial for the development of AI
- much of this data is created by the public and includes
user-generated content scraped
from the internet.
Moreover, generative AI systems interact with consumers at a scale
that predictive or analytical AI haven’t - every time we ask a tool
like ChatGPT or Midjourney to generate content for us, we provide
instructions in the form of prompts. Those prompts and the feedback
we provide to the tools capture what we're interested in, what we
work on, and what we plan to do. They help improve how foundational
models work, so we need to make sure that the benefits of these
improvements are spread equitably.
To give people
some autonomy over how their prompts and preferences are used, some
chatbots have introduced
user controls, such
as the ability to turn off ‘conversation’ history and export data
out of their system. However, the failures of the notice and consent
mechanism are well
documented. Constant
requests to consent to data collection and processing has created
consent
fatigue. When users
do consent they are not fully informed, nor aware of what they are
consenting to. A choice between opt-in/opt-out is often insufficient
for genuine empowerment
as it doesn’t provide the opportunity for people
to shape or control systems.
Data generated
through the use of AI platforms is only one source of data for
foundational AI. Right now, AI
companies are looking to get access to large datasets
–particularly valuable is data from online communities because it
is highly curated and as such better quality than most Internet
content. Some companies are licensing and supplying this data to
generate revenue, but have met resistance from contributors. For
example, the Reddit community has engaged in blackouts
and subsequent closure of subreddits over the platform selling their
data to AI firms. Reddit has subsequently taken over several
subreddits and signed deals
with Google and OpenAI.
DeviantArt had to reverse
its decision to use
artists’ work to train AI models by default; instead, users can now
actively consent to such use. StackOverflow has gone as far as
blocking
users who deleted
their contributions in protest over the sale of their data to OpenAI.
Clearly, the withdrawal of this data can have knock-on effects to AI
companies who need it.
We need to move
beyond transparency and accountability to a world where people can
meaningfully participate in how data is used by the government,
industry and beyond. Empowering
people and communities
in the context of AI means enabling them to shape how algorithms and
the underlying data are designed, deployed and used for societal,
environmental, and economic benefit.
Genuine
empowerment will take many forms and cover the entire AI lifecycle.
From decisions
about whether AI should be used,
to labour
unions for data workers,
from those generating
public data to
protecting those ensuring
its safety. This
piece, therefore, should be read in conjunction with our previous
interventions in data
protection and labour rights,
and broad
access to data,
which both include further recommendations on AI, data and
empowerment through rights.
In the remainder
of this post, we will focus on a slice of this work – how
individuals and communities can be empowered to actively contribute
to and shape AI models, and how data they have a stake in is used.
How can
people be empowered to affect AI data?
Participation
can be a lever to rebalance the data economy.
It can empower individuals and communities by increasing people’s
control over the data that relates to them, improving data quality
and decision making by incorporating diverse perspectives, knowledge
and experiences, and building trust and collaboration.
The Ada Lovelace
Institute has adapted Arnstein's ‘ladder of participation’ for
data
stewardship,
which details the different degrees of participation, from being
informed or consulted about how data is used through to empowered to
make decisions about data use. In our work on participatory
data, we see
participation happening at different levels of the data ecosystem:
Just
as generative AI has changed how we think about data and technology,
empowerment in the context of data and AI can be different. For
example, a recent
study suggests that
direct engagement in foundation models is hard to facilitate, given
the power asymmetries in their development (i.e. big companies vs
small communities trying to contribute); however, engagement in
domain-specific technical infrastructure and governance shows
promise.
The
Collective Intelligence Project
have outlined the different ways that people can be engaged in AI
development, corresponding to the different rungs of the ‘ladder
of participation’:
Making AI
more accessible and enabling society more broadly to benefit from
it, for example by bridging
the digital divide with generative AI tools.
Co-designing
AI systems by facilitating engagement during development, for
example Wikibench
enables people and communities to design evaluation datasets to
ensure it is assessed on their needs.
Expanding
the AI ecosystem through more accessible funding and data, including
initiatives like Aya,
which crowdsource new datasets to support underrepresented
languages.
Directly
involving the public in the governance of AI, for example through
data institutions like data
trusts or via
citizen
panels.
Current
policy status in the UK and elsewhere
Participation
has a long history in the UK,
meaning that it is well-placed to become a leader on participatory
data and AI with a strong civil society sector who value it,
organisations who facilitate citizen involvement, and a history of
cross-sector projects looking at user rights.
Several
amendments
to the Data Protection and Digital Information (DPDI) Bill – which
was not passed because of the 2024 election – defined ‘data
communities’ in the form of intermediaries that could be assigned
data subject's rights and be able to exercise them on their behalf,
including negotiating access to their data for AI developers. However
there has been criticism
that it was
'co-designed with industry, for industry, in order to maximise the
economic benefits', at the cost of the involvement of civil society
and wider public benefit.
The 2023 AI
Fringe: People’s
Panel on AI brought
together a
representative group of members of the public
to attend, observe and discuss key events from the Fringe. One key
suggestion from the panel
was a form of citizen engagement, similar to jury service, which
could provide 'guidance, recommendations or judgements about AI' to
industry and government.
The lead to the
2024 UK General Election has brought greater attention to public
participation, following proposals by Labour,
the Liberal
Democrats and the
Greens
to explore the use of citizen assemblies to consult on significant
policy issues, including AI.
Beyond the UK,
the European Commission continues to drive a ’human-centric’ data
agenda that cuts across its broad data policy work, discussed
in prior parts of this series.
The Data
Governance Act seeks
to enable individuals to share their data voluntarily for the benefit
of society through trusted organisations adhering to EU values and
principles. It calls these ‘data
altruism organisations’.
To which degree these efforts will be successful cannot yet be
determined, but they all aim to build controlled environments under
which data for AI development could be shared.
The Canadian
Government ran a public consultation on AI, which
was criticised for
‘not fulfilling key purposes of a consultation, such as
transparency, democratic engagement and public education' and
therefore falling short on citizen empowerment. In 2023, Brazil
introduced new draft
AI legislation which
would include the ‘The right to human participation in decisions
about AI systems’. In 2023, US
Public AI Assembly explored public attitudes
regarding risk and uses of AI across multiple domains including
administrative records, health records, browser history, and facial
recognition. The City of Amsterdam has used both citizen
dialogues on the future of AI in
Amsterdam as well as
citizen
council providing input into the design and use of an algorithm
for a social assistance programme.
It seems
policy-led
participation around data and AI is not yet well developed.
Where participation does exist, it is usually towards the lower end
of Arnstein's ladder. Higher levels of empowerment involve sharing
power to shape or contribute to decisions, which can be difficult in
a government context. But there are initiatives emerging from civil
society, industry and beyond that policy-makers can learn from.
Proposals
from civil society, industry and other non-government actors
Beyond
government action, there has been a wide range of activity from
industry, the third sector and beyond. These proposals to empower
people in the context of data and AI have broadly three different
aims: enabling control, embedding the public decision making in AI
models, and contributing data to AI models.
Enabling
control
As well as long
standing ecosystem of technical approaches to data empowerment, there
are also some newer approaches emerging to empower people to control
how data is used to train AI (sometimes referred to as ‘consent
layers for AI’ or ‘preference signalling’).
These new
approaches show the range of what empowerment means to different
people and communities in practice. For example, some of these
approaches are designed for transparency and to facilitate
individuals’ contribution of data, while others support
individuals in refusal.
Some examples include:
New web
publishing protocols,
such as ai.txt,
NoML, W3C’s TDM
Reservation Protocol,
Adobe’s Do
Not Train metadata
tag.
New
technical tools,
such as Nightshade,
Glaze and Data
Levers and other
methods to limit
web scraping or
block
crawlers.
New
transparency services
like ‘Have
I been trained’
and ‘Exposing
AI’ that help
co-generators to understand if data about them, or their content,
has been used to train AI models.
New types
of data licences,
such as RAILs
and the Data
Science Law Lab’s non-extractive licence.
Te Hiku Media has developed the Kaitiakitanga
Licence for
'indigenous people's retention of mana over data and other
intellectual property in a Western construct'.
New
platforms and
marketplaces for
data/content, such as MetaLabel
and UbuntuAI.
Embedding the
public decision making in AI models
Most work on
enabling the public to contribute towards the development of AI
models in the area of AI alignment.
OpenAI has run a
grant programme on ‘democratic
inputs to AI’,
which led to them forming a ‘Collective Alignment’ team,
consisting of researchers and engineers. This team will 'implement a
system for collecting and encoding public input on model behaviour
into our systems'.
In October 2023,
Anthropic published the
results of its own alignment work
with Collective Intelligence and Polis to 'curate an AI constitution'
based on the opinions of 1000 Americans. The final constitution
focused more on objectivity, impartiality, and accessibility and when
used to train an AI model, it was ‘slightly less biased and equally
as capable as the standard Anthropic model'. Recursive
Public is an
experiment to identify areas of consensus and disagreement among the
international AI community, policymakers and the general public.
Pilots
of WeBuildAI, a
collective participatory framework, found that using the framework
led to improvements in the perceived fairness of decision making,
public awareness of the algorithmic technology in use, as well as the
organisation’s awareness of the algorithm’s impact.
Contributing
data to AI models
Another way that
we have seen individuals and communities engaged is through
contributions to datasets. These contributions can take many forms
and serve many purposes, for instance, reflecting communities' lived
experiences, helping scientists and policy makers, or collectively
deciding on the scope of new data analyses. An example is citizen
science - projects such as FoldIt
or any of the Zooniverse
projects are designed from the outset to create better datasets for
AI training, for instance by annotating images, audio or video
content that algorithms find hard to process.
While
participation is not widely spread, existing success stories show the
way forward.
Communities
around platforms like Wikipedia have hundreds of thousands of
contributors from around the world. Data from these platforms is
available under open licences for many purposes, including AI
development. Solutions like Wikibench
allow the community to participate directly in shaping the data that
goes into AI models that Wikipedia uses, for instance, to identify
malicious editors.
Projects such as
BLOOM
and BigCode
are exploring collaborative methods for data and AI development.
There are new participatory methods of data collection and model
training specifically focused on language data, such as CommonVoice,
Aya
and FLAIR.
While Karya
runs a data annotation platform which pays a fair wage to its
contributors. These initiatives seek to create datasets of
underrepresented languages, to ultimately empower communities around
the world to realise the value of AI.
Steps to take
Our recently
launched Policy
Manifesto, which
received UK cross-party support, argued for 'empowering people and
communities to help shape how data is used for society, the
environment, the economy and the public good'.
We expect that
the new UK government will continue to work on plans to empower
research, innovation and industry with data for AI, and do so in a
responsible way. We recommend that the incoming UK government:
Strengthens
individual controls over data, building on the success of data
portability in the banking sector, the Government must explore
regulatory changes which support people to have more control over
data. This could include building on the UK GDPR to provide more
individualised control over data in the era of AI. This regulation
must engage with the characteristics of how data is used for AI to
ensure it functions in the interests of people and communities as
well as industry, and should go beyond training data to include
prompts and various forms of feedback.
Meaningfully
utilises participatory methods
to involve the public in shaping the future of data and AI in the
UK, especially when it comes to the terms of use of critical
national data assets and other sensitive data. Involving people
through dialogue and engagement to decide how AI is regulated and
used by public bodies in the UK is a good place to start. The
Government can learn from current examples of citizen
assemblies and
forums to explore the viability of genuine delegation and control
over decision making.
Supports
the thriving ecosystem of participation
in the UK, and works with them to improve current practice. There is
a lot of expertise and innovation happening in the UK. This
landscape can support efforts to improve public engagement for new
data and AI regulation, including by contributing to decisions about
AI as well as generating new datasets needed for AI innovation. This
will also require understanding where and how engagement methods in
AI lifecycles are most effective, which should be investigated
through consistent funding for participatory initiatives and
recognised participatory research.
At the ODI,
we’re keen to provide insights and resources to policymakers
working towards creating fair and inclusive data licensing models and
governance frameworks. This blog is part of a series of policy
interventions, which you can explore here.
If we’ve
missed any examples of data empowerment or you’d like to chat with
us about our work on data-centric AI please get in touch at
research@theodi.org.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com