Thứ Hai, 19 tháng 8, 2024

Can thiệp chính sách 2: Cập nhật chế độ sở hữu trí tuệ của chúng ta để đảm bảo các mô hình AI được đào tạo công bằng


Policy intervention 2: Update our intellectual property regime to ensure AI models are trained fairly

Chúng ta cần một hệ thống công nhận và khen thưởng cho tính sáng tạo của con người, và dẫn dắt nghiên cứu và đổi mới mới.

Thu Jun 13, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-2-update-our-intellectual-property-regime-to-ensure-ai-models-are-trained-fairly/

Bài được đưa lên Internet ngày: 13/07/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ hai trong loạt năm bài khám phá các can thiệp này.

Sở hữu trí tuệ là gì và nó liên quan như thế nào tới việc đào tạo các mô hình AI?

Sở hữu trí tuệ đề cập đến các phát minh, thiết kế, tác phẩm nghệ thuật và các 'sáng tạo của trí óc' khác.

Luật sở hữu trí tuệ được thiết kế để cho phép mọi người kiếm được sự công nhận hoặc lợi ích tài chính từ những thứ họ tạo ra. Mặc dù luật pháp khác nhau trên toàn thế giới, nhưng hầu hết các chế độ đều tìm cách cân bằng lợi ích của người sáng tạo với lợi ích của công chúng nói chung.

Các nhà lập pháp nhận ra các kịch bản mà mọi người có thể sử dụng sở hữu trí tuệ của người khác một cách khá thoải mái. Khai thác văn bản và dữ liệu là một trong số đó. Nó bao gồm việc biên soạn một lượng lớn số liệu, văn bản và hình ảnh, thường là từ khắp nơi trên web, để tiết lộ những hiểu biết mới. Do tầm quan trọng của nó trong việc giải quyết kiểm duyệt và gian lận trên web, cũng như các nghiên cứu khác, nhiều quyền tài phán đã đưa ra các loại trừ đối với luật sở hữu trí tuệ để cho phép thực hiện khai thác văn bản và dữ liệu.

Nhưng trong khi nội dung của web đã bị thu thập trong nhiều thập kỷ và các loại trừ khai thác văn bản và dữ liệu đã được áp dụng, thì AI nền tảng đã gây sốc cho hệ thống sở hữu trí tuệ.

Trong bài viết này, chúng tôi chủ yếu tập trung vào văn bản, hình ảnh, âm thanh, video và tác phẩm nghệ thuật được phân phối rộng rãi trên web. Chúng tôi sẽ nói về các loại dữ liệu khác và về các tập dữ liệu mới được xây dựng riêng để đào tạo các mô hình AI trong một bài viết sau trong loạt bài này. Ngoài ra, trọng tâm của chúng tôi ở đây là về sở hữu trí tuệ trong quá trình đào tạo các mô hình AI, thay vì cách sở hữu trí tuệ có khả năng tiềm tàng áp dụng cho nội dung do AI tạo ra.

Tại sao sở hữu trí tuệ lại quan trọng trong bối cảnh AI nền tảng?

Các công ty AI đưa ra các lập luận khác nhau về lý do tại sao việc thu thập dữ liệu để đào tạo AI nên được phép. Những lập luận này bao gồm lý do cho rằng quy mô của các tập dữ liệu đào tạo hiện đại khiến việc đàm phán cấp phép trở nên bất khả thi hoặc lý do đằng sau hành động loại trừ việc khai thác văn bản và dữ liệu vẫn không thay đổi.

Nhiều người không đồng tình. Một số chủ sở hữu bản quyền lớn đã đưa các công ty AI ra tòa vì cách họ đào tạo mô hình của mình, một số yêu cầu bồi thường thiệt hại tài chính đáng kể hoặc thậm chí là phá hủy chúng. Ví dụ, Getty Images đang kiện Stability AIcáo buộc đào tạo mô hình AI của mình trên hơn 12 triệu bức ảnh mà không được phép hay đền bù. Vào tháng 7 năm 2023, tác giả Sarah Silverman đã kiện OpenAI vì sử dụng tập dữ liệu Books3 bao gồm các tác phẩm viết của hàng nghìn tác giả. Cùng thời điểm đó, một bức thư được hơn 8.000 tác giả ký tên lập luận rằng "hàng triệu cuốn sách, bài báo, tiểu luận và thơ có bản quyền cung cấp 'thức ăn' cho các hệ thống AI, những bữa ăn vô tận mà không có hóa đơn nào". Một cuộc khảo sát do Hiệp hội tác giả thực hiện cho thấy 90% các nhà văn tin rằng họ nên được đền bù nếu tác phẩm của họ được sử dụng để đào tạo các mô hình AI.

Việc đào tạo các mô hình dựa trên nội dung của web đã gây ra rạn nứt ngay cả trong các cộng đồng có ý định để các tác phẩm của họ được tiêu thụ rộng rãi. Trong năm 2023, nhiều diễn đàn lớn nhất của Reddit đã bị làm cho 'tối đen' để phản đối các kế hoạch của nền tảng này nhằm cho phép các nhà phát triển AI truy cập vào khối lượng lớn các thảo luận trên diễn đàn mà họ đã đóng vai trò quan trọng trong việc tạo ra chúng. Những người đóng góp cho Stack Overflow, một diễn đàn Internet dành cho các nhà phát triển, đã bị cấm khỏi trang web này sau khi họ xóa nội dung của mình để ngăn chặn việc sử dụng nội dung đó để đào tạo ChatGPT.

Do đó, cải cách chế độ sở hữu trí tuệ của Vương quốc Anh là chìa khóa để mang lại lợi ích của hệ sinh thái dữ liệu AI cho tất cả mọi người, cũng như đảm bảo chúng ta không bước vào "mùa đông dữ liệu". Theo Henry Farrell, "nếu bạn muốn Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) có giá trị lâu dài, bạn cần phải có một hệ thống xã hội đi kèm, trong đó con người tiếp tục sản xuất kiến thức, nghệ thuật và thông tin khiến chúng trở nên có giá trị. Các hệ thống sở hữu trí tuệ không có động lực để sản xuất kiến thức có giá trị của con người sẽ khiến LLM ngày càng trở nên vô giá trị theo thời gian".

Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác

Các nhà lập pháp về sở hữu trí tuệ đang phản ứng với AI nền tảng theo những cách khác nhau.

Một số quốc gia đang cố gắng tạo ra một chế độ cho phép đào tạo mô hình. Ví dụ, Đạo luật Bản quyền của Singapore được mô tả là "định vị Singapore như một trung tâm hấp dẫn cho các nhà phát triển AI". Những quốc gia khác quan tâm nhiều hơn đến việc tăng cường - hoặc ít nhất là thực thi - các biện pháp bảo vệ và kiểm soát của chủ sở hữu quyền hiện có. Tại EU, Chỉ thị về Bản quyền trong Thị trường Kỹ thuật số Đơn nhất cho phép khai thác văn bản và dữ liệu chỉ cho mục đích nghiên cứu khoa học và chủ sở hữu quyền có thể chọn không cho phép sử dụng tác phẩm của họ cho mục đích đào tạo AI thương mại. Đạo luật AI mới nêu rõ rằng bất kỳ công ty nào đưa mô hình AI mục đích chung vào thị trường EU đều phải tuân thủ đạo luật này, bất kể mô hình của họ được đào tạo ở đâu.

Vương quốc Anh dường như không chắc chắn phải làm gì về vấn đề này. Quay trở lại năm 2014, Chính phủ Vương quốc Anh đã đưa ra một ngoại lệ cho phép khai thác văn bản và dữ liệu chỉ dành cho "nghiên cứu phi thương mại". Năm 2020, Chính phủ Vương quốc Anh cho biết họ có ý định tách khỏi EU để cho phép khai thác văn bản và dữ liệu tại Vương quốc Anh cho bất kỳ mục đích nào, trên cơ sở rằng những thay đổi này có thể "giúp Vương quốc Anh cạnh tranh hơn với tư cách là một địa điểm cho các công ty khai thác dữ liệu". Sau khuyến nghị của Ngài Patrick Vallance rằng mối quan hệ giữa sở hữu trí tuệ và các hình thức AI mới cần được làm rõ, Chính phủ Vương quốc Anh đã lùi bước và thay vào đó bắt đầu làm việc với các nhà xuất bản và nhà phát triển AI để thống nhất về một "bộ quy tắc thực hành". Tuy nhiên, vào tháng 2 năm 2024, Chính phủ Vương quốc Anh kết luận rằng "nhóm làm việc sẽ không thể thống nhất về một bộ quy tắc tự nguyện có hiệu lực".

Gần đây hơn, Ủy ban Khoa học, Đổi mới và Công nghệ của Hạ viện đã kết luận rằng một chính phủ hướng nội nên kết thúc các cuộc thảo luận này, đề xuất một giải pháp tài chính cho "các hành vi vi phạm trong quá khứ của các nhà phát triển AI" cũng như một khung cấp phép mới và thẩm quyền của chính phủ để giám sát nó.

Đề xuất từ xã hội dân sự, giới công nghiệp và các tác nhân phi chính phủ khác

Ở một mức độ nào đó, thị trường đang bắt đầu phản ứng. Những người nắm giữ bản quyền lớn - bao gồm các hãng tin tức, hãng thu âm, hãng phim - đã có động thái thực hiện các thỏa thuận cấp phép với các công ty AI. Riêng OpenAI đã ký các thỏa thuận với Associated Press, ShutterstockAxel Springer. Thỏa thuận của Google với Reddit để truy cập vào dữ liệu diễn đàn của mình được cho là trị giá 60 triệu đô la mỗi năm. Các nhà phát triển mô hình KL3M đưa ra một điểm bán hàng để thể hiện là nó được đào tạo trên 'một tập dữ liệu đào tạo được giám tuyển gồm các tài liệu pháp lý, tài chính và quy định', dành cho các khách hàng 'không muốn bị lôi kéo vào các vụ kiện về sở hữu trí tuệ như OpenAI, Stability AI và những công ty khác đã từng bị'. Fairly Trained là một tổ chức phi lợi nhuận mới được thành lập để chứng nhận rằng các công ty AI đã đào tạo các mô hình của họ dựa trên nội dung được cấp phép.

Nhưng rốt cuộc ai sẽ hưởng lợi từ một hệ sinh thái AI phụ thuộc vào việc cấp phép tốn kém? Clement Delangue, CEO của Hugging Face, đã gợi ý rằng 'nếu chúng ta kết thúc trong một hệ thống mà bạn chỉ có thể đào tạo các mô hình AI tốt dựa trên dữ liệu được cấp phép $$, thì sẽ có nguy cơ có sự tập trung quyền lực rất lớn. Có thể không phải người dùng, nghệ sĩ hoặc người sáng tạo nội dung sẽ được hưởng lợi từ điều này mà là các công ty lớn và hãng phim Hollywood sẽ giao dịch quyền của họ và không phân phối lại'. Theo Sáng kiến Nguồn mở, một hệ sinh thái AI phụ thuộc quá nhiều vào việc cấp phép có thể trở nên kém đa dạng và cạnh tranh hơn, vì các công ty nhỏ và các học giả không có đủ khả năng tài chính để ra tòa hoặc ký kết các thỏa thuận song phương để cấp phép cho dữ liệu.

Ngoài ra còn có các nỗ lực mới nhằm tạo ra các cơ chế cho những người nắm giữ quyền nhỏ hơn, cá nhân riêng lẻ kiểm soát cách sử dụng các tác phẩm của họ. Đôi khi được mô tả là 'các mức đồng ý cho AI' hoặc 'dấu hiệu ưu tiên', chúng bao gồm các giao thức xuất bản web mới (ví dụ: Giao thức Đặt chỗ Khai thác Dữ liệu và Văn bản của W3C), các công cụ kỹ thuật (ví dụ: Nightshade) và giấy phép dữ liệu (ví dụ: Giấy phép Dữ liệu Mở Chung - [Open Data Commons Licences]).

Mặc dù những điều này có thể hiệu quả với một số nhà xuất bản nhất định, nhưng chúng ta không thể dựa vào chúng để giải quyết câu đố về sở hữu trí tuệ. Như Arvind Narayanan đã lập luận, 'quyền từ chối là một cơ chế quản lý không hiệu quả. Các vấn đề về cấu trúc với mô hình kinh doanh của các công ty AI tạo sinh (Generative AI) — và bối cảnh pháp lý khiến chúng trở nên khả thi — không thể được giải quyết bằng cách bắt cá nhân phải xóa từng hình ảnh của họ'. Creative Commons đã bày tỏ lo ngại rằng 'nếu các dấu hiệu ưu tiên được triển khai rộng rãi chỉ để hạn chế [việc sử dụng dữ liệu], thì đó có thể là tổn thất ròng cho các tài sản chung... những dấu hiệu này có thể được sử dụng theo cách hạn chế quá mức đối với việc thể hiện'.

Các bước cần thực hiện

Chúng tôi nhận thức rằng Chính phủ Anh sắp nhậm chức sẽ ở trong tình thế khó khăn. Họ sẽ muốn Vương quốc Anh tiếp tục được coi là nơi phát triển AI, điều này đòi hỏi một chế độ bản quyền khá dễ dãi, nhưng họ cũng sẽ phải bảo vệ lợi ích của các ngành công nghiệp sáng tạo quan trọng của chúng ta.

Để hiện đại hóa chế độ sở hữu trí tuệ của Vương quốc Anh, chúng tôi khuyến nghị rằng Chính phủ Anh sắp nhậm chức:

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một chế độ sở hữu trí tuệ công bằng để ứng phó với AI nền tảng.

Chúng tôi cũng sẽ công bố thêm các lập luận liên quan về sự can thiệp của chính sách trong những tuần tới, tập trung vào bảo vệ dữ liệu, tính sẵn sàng của các tập dữ liệu đào tạo AI phạm vi rộng có cấu trúc hơn và các hoạt động dữ liệu có sự tham gia.

We need a system that recognises and rewards human creativity, and drives new research and innovation.

The age of foundation AI is characterised by models of large scale and high flexibility, capable of producing rich outputs. Recognising both the potential and the risks of these new models, the ODI has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices. We’re exploring what policy interventions could be made to ensure these technologies are developed and deployed in ways that benefit everyone - people, communities and businesses. This is the second in a series of five pieces exploring these interventions.

What is intellectual property and how does it relate to training AI models?

Intellectual property refers to inventions, designs, artistic works and other ‘creations of the mind’.

Intellectual property laws are designed to enable people to earn recognition or financial benefit from the things they create. While laws are different across the world, most regimes seek to balance the interests of creators with the interests of the wider public.

Lawmakers recognise scenarios where people should be able to use the intellectual property of others quite permissively. Text and data mining is one of those. It involves compiling vast amounts of numbers, text and images, often from across the web, to reveal new insights. Given its importance for tackling web censorship and fraud, as well as other research, many jurisdictions have introduced exclusions to intellectual property laws that allow for text and data mining to be undertaken.

But while the web’s content has been scraped for decades, and text and data mining exclusions are in place, foundation AI has provided a shock to the intellectual property system.

In this article we’re focusing primarily on text, images, audio, video and artworks that are widely distributed on the web. We’ll talk about other types of data and about new datasets that are built specifically to train AI models in a later article in this series. Also, our focus here is on intellectual property during the training of AI models, rather than on how intellectual property would potentially apply to AI-generated content.

Why is intellectual property important in the context of foundation AI?

AI firms make different arguments as to why data scraping for AI training should be permitted. These include the reasoning that the scale of modern training datasets makes licensing negotiation impossible, or that the rationale behind text and data mining exclusions remains unchanged.

Many disagree. A number of large rights holders have taken AI firms to court over the way they have trained their models, with some seeking significant financial damages or even their destruction. Getty Images, for example, is suing Stability AI for allegedly training its AI model on more than 12 million of its photos without permission or compensation. In July 2023, the author Sarah Silverman sued OpenAI over its use of the Books3 dataset that includes the written works of thousands of authors. Around the same time, a letter was signed by more than 8,000 authors that argued 'millions of copyrighted books, articles, essays, and poetry provide the ‘food’ for AI systems, endless meals for which there has been no bill'. A survey run by the Authors Guild found that 90% of writers believe they should be compensated if their work is used to train AI models.

The training of models on the web’s content has caused rifts even among communities who intended for their works to be widely consumed. During 2023, many of Reddit’s biggest forums ‘went dark’ in protest over the platform’s plans to enable AI developers to access the mass of forum conversations they’d played a vital role in creating. Contributors to Stack Overflow, an internet forum for developers, have been banned from the site after they deleted their content in order to stop it being used to train ChatGPT.

Reforming the UK’s intellectual property regime is therefore key to making the AI data ecosystem benefit everyone, as well as ensuring we don’t enter a ‘data winter’. As put by Henry Farrell, 'if you want LLMs to have long term value, you need to have an accompanying social system in which humans keep on producing the knowledge, the art and the information that makes them valuable. Intellectual property systems without incentives for the production of valuable human knowledge will render LLMs increasingly worthless over time'.

Current policy status in the UK and elsewhere

Intellectual property lawmakers are responding to foundation AI in different ways.

Some nations are trying to create a permissive regime for model training. Singapore’s Copyright Act, for example, has been described as 'positioning Singapore as an attractive hub for AI developers'. Others are more interested in strengthening - or at least enforcing existing - rights holder protections and controls. In the EU, the Directive on Copyright in the Digital Single Market allows for text and data mining for scientific research purposes only, and rights holders can choose to opt out of their works being used for commercial AI training. The new AI Act says that any firm placing a general purpose AI model on the EU market must comply with this, regardless of where their models were trained.

The UK seems unsure what to do on this issue. Back in 2014, the UK Government introduced an exception that allows text and data mining for ‘non-commercial research’ only. In 2020, the UK Government said it intended to diverge from the EU to allow text and data mining in the UK for any purpose, on the basis that the changes could “help make the UK more competitive as a location for firms doing data mining”. Following Sir Patrick Vallance’s recommendation that the relationship between intellectual property and new forms of AI should be clarified, the UK Government backtracked and instead set out to work with publishers and AI developers to agree a ‘code of practice’. However, in February 2024, the UK Government concluded that 'the working group will not be able to agree on an effective voluntary code'.

More recently, the House of Commons Science, Innovation and Technology Committee concluded that an inbound government should bring these discussions to a close, suggesting a financial settlement for ‘past infringements by AI developers’ as well as a new licensing framework and government authority to oversee it.

Proposals from civil society, industry and other non-government actors

To some extent, the market is beginning to respond. Large rights holders - including news outlets, music labels, movie studios - have moved to make licensing deals with AI firms. OpenAI alone has signed deals with Associated Press, Shutterstock and Axel Springer. Google’s deal with Reddit for access to its forum data is said to be worth $60m per year. The developers of the model KL3M make a selling point that is was trained on 'a curated training dataset of legal, financial, and regulatory documents’, for clients that 'didn’t want to get dragged into lawsuits about intellectual property as OpenAI, Stability AI, and others have been'. Fairly Trained is a new non-profit created to certify that AI companies have trained their models on licensed content.

But who will ultimately benefit from an AI ecosystem that relies on costly licensing? Clement Delangue, the CEO of Hugging Face, has suggested that 'if we end up in a system where you can only train good AI models on $$ licensed data, there's a massive risk of concentration of power. It might not be the users, artists, or content creators who will benefit from this but big companies and Hollywood studios who will trade their rights and not redistribute'. According to the Open Source Initiative, an AI ecosystem overly reliant on licensing may end up less diverse and competitive, as small firms and academics do not have the financial means to go to court or enter into bilateral agreements to licence data.

There are also new efforts to create mechanisms for smaller, individual rights holders to control how their works are used. Sometimes described as ‘consent layers for AI’ or ‘preference signalling’, these consist of new web publishing protocols (eg W3C’s Text and Data Mining Reservation Protocol), technical tools (eg Nightshade) and data licences (eg Open Data Commons Licences).

While these may work for certain publishers, we can’t rely on them to solve the intellectual property conundrum. As Arvind Narayanan has argued, 'opt-outs are an ineffective governance mechanism. The structural problems with generative AI companies' business models — and the legal landscape that makes them possible — can't be solved by burdening individuals to withdraw their images one by one’. Creative Commons has expressed concern that 'if preference signals are broadly deployed just to limit [the use of data], it could be a net loss for the commons... these signals may be used in a way that is overly limiting to expression'.

Steps to take

We’re conscious that an incoming UK Government will be in a difficult position. It will want the UK to continue to be seen as a place for AI development, which would require a fairly permissive copyright regime, but it will also have the interests of our significant creative industries to protect.

To modernise the UK’s intellectual property regime, we recommend that the incoming UK Government:

At the ODI, we’re keen to provide insights and resources to policymakers working towards creating a fair intellectual property regime in response to foundation AI.

We will also publish further, related arguments for policy intervention in the coming weeks, focusing on data protection, the availability of more structured AI-scale training datasets and participatory data practices.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.