Thứ Năm, 29 tháng 8, 2024

AI lấy dữ liệu làm trung tâm


Data-centric AI

Không có dữ liệu, sẽ không có AI. Để cung cấp AI an toàn chúng ta cần xem xét hạ tầng dữ liệu của các ứng dụng AI hiện hành và tương lai.

Tue Nov 28, 2023

Theo: https://theodi.org/insights/projects/data-centric-ai/

Bài được đưa lên Internet ngày: 28/11/2023

Trí tuệ nhân tạo - AI (Artificial Intelligence) có lẽ không là khái niệm mới trong thế giới công nghệ, nhưng sự phát hành công khai ChatGPT năm ngoái đã đánh dấu một bước thay đổi. Phát hành đó đã trao cho bất kỳ ai có truy cập tới Internet khả năng “nói chuyện” với một chương trình AI như ChatGPT, Claude, hoặc Midjourney bằng việc sử dụng các lời nhắc văn bản thay vì ngôn ngữ chuyên gia. Nó đã làm bùng phát một làn sóng chưa từng thấy về nghiên cứu, phát triển, và hoạch định chính sách đã thúc đẩy hiểu biết của chúng ta về công nghệ và cách nó có thể được sử dụng có đạo đức và công bằng.

Vượt ra khỏi sự cường điệu, tiến bộ gần đây trong các mô hình nền tảng - FM (Foundation Models) và việc các doanh nghiệp và chính phủ tăng tốc áp dụng chúng có thể mạng lại các cơ hội đáng kể để đạt được hiệu quả, tăng trưởng kinh tế và đổi mới, nhưng cũng có những rủi ro đáng kể về thông tin sai lệch, mất việc làm, phân biệt đối xử và bất bình đẳng xã hội. Việc cân bằng các đặc tính này đòi hỏi quan điểm hệ sinh thái về AI, thừa nhận vai trò của dữ liệu, điện toán, quản trị và quy định để đưa lĩnh vực này đi đúng hướng trong vài năm tới.

AI lấy dữ liệu làm trung tâm là gì và vì sao nó quan trọng?

Không có dữ liệu, sẽ không có AI - điều đó áp dụng cho bất kỳ dạng AI nào, từ học sâu, lý luận và lập kế hoạch cho đến biểu đồ tri thức. Chúng ta cần nhìn sát vào các liên kết giữa dữ liệu và các thuật toán, đưa ra các cách tiếp cận từ nhiều lĩnh vực và thu hút những người bị ảnh hưởng trực tiếp bởi AI, cũng như xã hội dân sự. Làn sóng lớn nhất các mô hình ngôn ngữ lớn - LLM (Large Language Model) và các FM khác đã phá vỡ cách chúng ta nghĩ về nhiều thành phần hạ tầng dữ liệu của chúng ta: từ giá trị dữ liệu chúng ta xuất bản mở và các quyền chúng ta nắm giữ về dữ liệu, cả cá nhân và tập thể, tới chất lượng và quản trị các tập dữ liệu quan trọng. Chúng tôi đang sử dụng khái niệm ‘AI lấy dữ liệu làm trung tâm’ (data-centric AI) để cải thiện tư duy của chúng tôi trong môi trường này - khái niệm này đã được đưa ra vài năm trước trong cộng đồng AI để biện hộ cho sự chú ý nhiều hơn tới dữ liệu các kỹ sư AI nuôi các mô hình của họ. Mở rộng khái niệm đó, chúng tôi sử dụng nó để tham chiếu tới toàn bộ hạ tầng dữ liệu xã hội - kỹ thuật của AI - điều này bao gồm các tập, các công cụ, các tiêu chuẩn, các thực hành, và các cộng đồng dữ liệu.


Video: https://vimeo.com/884929644

Để cung cấp AI an toàn và tuân theo các cam kết từ Tuyên bố Bletchley, và các tuyên bố khác gần đây và các quy định toàn cầu, chúng ta cần xem xét hạ tầng dữ liệu của các ứng dụng AI hiện có và tương lai. Điều này đi vượt ra khỏi các nỗ lực hiện hành để tạo ra các tập dữ liệu chuẩn mực mà, dù hữu dụng cho việc đánh giá và so sánh các mô hình, không thể hiện được các kịch bản khổng lồ trong đó AI được hình dung sẽ được áp dụng. Khi AI tạo sinh (generative AI) giành được sự chú ý, có rủi ro là, các chi phí liên quan đến các thực hành dữ liệu tốt, các mô hình sẽ được đào tạo và kiểm thử dựa trên dữ liệu tổng hợp hoặc chất lượng thấp, dẫn tới - đúng lúc - sự xuống cấp trong hiệu năng và làm gia tăng khả năng gây hại. Hạ tầng dữ liệu AI và các thực hành dữ liệu tốt hơn cần được áp dụng và bắt buộc khắp ngành, được những tiến bộ mới nhất trong khoa học và kỹ thuật dữ liệu cung cấp, và được các cơ sở dữ liệu chuyên tâm hỗ trợ.

Chương trình AI lấy dữ liệu làm trung tâm của chúng tôi nhằm đạt được điều gì

Xây dựng dựa vào hơn một thập kỷ công việc tạo lập các hệ sinh thái dữ liệu mở, tin cậy, ODI đã giúp dịch chuyển sự kể chuyện AI khỏi trọng tâm tuyệt đối về phát triển và sử dụng mẫu hướng tới sự hiểu biết rộng hơn về các nguồn lực - và các bên liên quan - cần thiết để cho phép phát triển công nghệ bền vững và có trách nhiệm. ODI hành động như một cơ sở chính nghiên cứu, kết nối, và khuếch đại các ý tưởng và các tiếp cận đa dạng, phát triển và xúc tác cho các thực hành tốt nhất cho quản trị dữ liệu, và tập hợp dải rộng lớn các bên liên quan trong hệ sinh thái, bao gồm các công ty khởi nghiệp, các doanh nhân, nhà nghiên cứu, nhà hoạch định chính sách và xã hội dân sự, để giúp phát triển một hệ sinh thái dữ liệu AI dựa trên các thực hành dữ liệu có trách nhiệm.

Hiện thực hóa tiềm năng của AI để làm lợi cho bất kỳ ai và đáp ứng các cam kết của Tuyên bố Bletchley, sẽ đòi hỏi vài bước cơ bản trong AI lấy dữ liệu làm trung tâm:

Làm cho dữ liệu sẵn sàng cho AI

  1. Chúng ta cần xúc tác và hỗ trợ tạo lập các tập dữ liệu AI chất lượng cao. Nhiều tập dữ liệu AI là nhỏ, tổng hợp, hoặc không là đại diện của một quốc gia, công ty hay bối cảnh cụ thể nào. Kết quả là bão hòa điểm chuẩn - các mô hình hoạt động tốt dựa trên dữ liệu có sẵn nhưng kém hơn khi áp dụng để giải quyết các vấn đề thực tế.

  2. Bản quyền, bảo vệ dữ liệu, và các quyền hiện có của người lao động phải được tôn trọng khi tạo lập các tập dữ liệu AI mới. Chúng ta cần nghiên cứu nhiều hơn để xác định các khoảng trống trong cách các quyền đó hiện được bảo vệ hoặc không trong các tập dữ liệu được các hệ thống AI sử dụng như thế nào.

  3. Các tập dữ liệu AI chủ chốt phải được quản trị và điều hành có trách nhiệm. Một số tập dữ liệu là quan trọng cho các lĩnh vực cụ thể và cần các cơ chế quản trị thông thái để đảm bảo chúng được sử dụng công bằng và được duy trì với tiêu chuẩn cao.

  4. Các tập dữ liệu vì lợi ích chung cần được hỗ trợ liên tục vì chúng thúc đẩy đổi mới trong nhiều lĩnh vực, bao gồm cả AI. Nhiều tiến bộ trong AI từng dựa vào các tập dữ liệu mở, nhưng có mối nguy hiểm mọi người sẽ dừng đóng góp và đầu tư vào dữ liệu mở và hầu hết dữ liệu mới được nuôi dưỡng trong các mô hình AI sẽ là tổng hợp hoặc có chất lượng thấp hơn.

  5. Các thực hành tốt nhất trong đảm bảo dữ liệu AI phải được thiết lập và tiêu chuẩn hóa. Trong khi một số bộ công cụ đang nổi lên, có ít hướng dẫn hoặc qui định nhằm đảm bảo các tập dữ liệu được sử dụng trong các dịch vụ công.

Làm cho dữ liệu AI truy cập được và sử dụng được

  1. Chúng ta cần làm việc với những người nắm giữ dữ liệu để nghiên cứu các tập dữ liệu quan trọng. Hầu hết các tập dữ liệu được ghi thành tài liệu kém, ngụ ý người dùng thấy khó hiểu mục đích dự kiến, khó biết các trường hợp sử dụng, và các hạn chế của chúng.

  2. Truy cập công bằng và không thiên vị phải là bắt buộc để phát triển các trường hợp sử dụng AI với các ý nghĩa xã hội lớn, ví dụ, thông tin sai lệch, khí hậu và các bệnh truyền nhiễm.

  3. Các tiêu chuẩn dữ liệu cần được phát triển để giảm chi phí vận hành dữ liệu và cho phép các nhà nghiên cứu và các doanh nghiệp nhỏ xây dựng tốt hơn hạ tầng dữ liệu AI.

  4. Truy cập an toàn tới các tập dữ liệu cho các công ty khởi nghiệp và các doanh nghiệp vừa và nhỏ phải được tạo thuận lợi, để khuyến khích thí nghiệm và đổi mới có trách nhiệm. Đây là một trong các trở ngại cùng với quyền truy cập tới điện toán và nhân tài AI.

  5. Tiềm năng cho các khả năng mới của AI để làm cho dữ liệu truy cập được, sử dụng được nhiều hơn, và hữu ích cho tất cả mọi người nên được khám phá. Có các cơ hội cho AI để tự động hóa hoặc tối ưu hóa các quy trình hiện đang hạn chế hoặc làm chậm việc chia sẻ và sử dụng dữ liệu.

Làm cho các hệ thống Ai sử dụng dữ liệu có trách nhiệm

  1. Khám phá các cơ chế để nâng cao sự hiểu biết về dữ liệu trong vòng đời AI. Điều này bao gồm việc khám phá liệu những người nắm giữ công nghệ AI và các ứng dụng dòng dưới có nên phải chia sẻ thông tin về nguồn gốc và dòng dõi dữ liệu để thúc đẩy các thực hành dữ liệu tốt trong hệ sinh thái và phân tích các tác động chi tiết hơn.

  2. Đầu tư vào nghiên cứu và đổi mới để phát triển các mô hình AI hiệu quả và bảo vệ tốt hơn. Điều này có thể giúp phát triển các mô hình ít dựa hơn vào các tập dữ liệu khổng lồ, cũng như các mô hình dựa ít hơn vào luonwjg dữ liệu đại trà và không đánh đổi quyền riêng tư và bảo vệ dữ liệu để lấy hiệu suất.

  3. Thiết kế, đánh giá và thúc đẩy các giấy phép dữ liệu có ý nghĩa hơn để hỗ trợ cho các nhà xuất bản và người dùng triển khai các thực hành dữ liệu tốt trong AI.

  4. Đầu tư vào việc tạo ra các bộ công cụ thực tế hơn để thông tin cho các quy định mới và giảm thiểu các chi phí tuân thủ. Các bộ công cụ, trường hợp sử dụng, và việc học tập ngang hàng có vai trò trong việc vận hành các khung pháp lý hiện có và đang nổi lên.

  5. Tăng cường các thực hành AI có trách nhiệm thông qua nghiên cứu, đào tạo và hiểu biết dữ liệu. Các kỹ sư AI cần được đào tạo về các thực hành AI có trách nhiệm, và các nhân viên phi kỹ thuật nên có quyền truy cập tới các công cụ và đào tạo để giúp họ hiểu các liên kết giữa dữ liệu và AI có trách nhiệm.

ODI cam kết thúc đẩy nghiên cứu và thực hành triển khai các bước đó. Điều này gồm:

Xây dựng dựa trên công việc này, trong vài tháng tới, chúng tôi sẽ:

  • đưa ra lộ trình dữ liệu trong thiết kế, đào tạo, thẩm định, kiểm thử và sử dụng mô hình AI để nêu bật các thách thức chung trong các thực hành dữ liệu có trách nhiệm cho AI

  • nghiên cứu các thực hành quản trị và điều hành dữ liệu hiện có và đang nổi lên trong các tập dữ liệu AI phổ biến nhất

  • hiểu và mô tả vai trò của các thách thức liên quan đến dữ liệu trong các báo cáo sự cố AI

  • thiết kế các cách tiếp cận tính toán để đánh giá tác động của các nguồn dữ liệu mở về hiệu năng của các mô hình AI

  • đề xuất các cách tiếp cận có sự tham gia cho việc nhắc dữ liệu như một phương tiện giúp các đối tượng đa dạng sử dụng các công cụ AI tạo sinh để tìm kiếm và hiểu ý nghĩa của dữ liệu

  • thiết lập các ưu tiên chính sách cho dự luật AI tương lai ở Vương quốc Anh, và các luật dữ liệu khác, xây dựng dựa trên các phát hiện của chương trình

Có nhiều việc phải làm và khi công nghệ và quy định phát triển với tốc độ cực nhanh, chúng ta phải ưu tiên lĩnh vực tìm hiểu này – và làm việc nhanh chóng để biến ý tưởng thành hành động. Chúng tôi rất vui mừng được cộng tác với Microsoft, Hiệp hội Đối tác Xã hội về Dữ liệu Công nghiệp (Industry Data for Society Partnership), King's College London, Đại học Oxford và nhiều tổ chức khác để đạt được tiến bộ và tạo sự khác biệt.

Chúng tôi rất mong nhận được phản hồi từ các nhà cấp vốn, đối tác và các tổ chức khác quan tâm đến việc giúp phát triển chương trình làm việc của chúng tôi. Nếu bạn muốn đóng góp, hãy nói về việc cấp vốn cho công việc của chúng tôi hoặc thách thức suy nghĩ của chúng tôi, chúng tôi hoan nghênh ý kiến của bạn.

Without data, there would be no AI. To deliver on AI safety we need to consider the data infrastructure of existing and future applications of AI.

Artificial Intelligence (AI) may not be a new concept in the technology world, but the public release of ChatGPT a year ago marked a step change. The release gave anyone with access to the internet the ability to "talk" to an AI programme like ChatGPT, Claude, or Midjourney using text prompts rather than specialist language. It sparked an unprecedented wave of research, development, and policy-making that advanced our understanding of the technology and how it could be used ethically and equitably. It also sparked a lot of fear, uncertainty and doubt, including concerns about data privacy, the use of copyrighted content, and authenticity.

Beyond the hype, recent progress in foundational models (FMs) and their accelerated adoption by businesses and government bodies can bring significant opportunities for efficiencies, economic growth and innovation, but there are also significant risks of misinformation, job losses, discrimination, and social inequalities. Balancing these features requires an ecosystem view of AI, which acknowledges the role of data, computing, governance and regulation to move the field in the right direction over the next few years.

What is data-centric AI and why is it important?

Without data, there would be no AI – that applies to any form of AI, from deep learning, reasoning and planning to knowledge graphs. We need to look closer at the links between data and algorithms, drawing on approaches from multiple disciplines and engaging those directly affected by AI, as well as civic society. The latest wave of large language models (LLMs) and other FMs has disrupted how we think about many components of our data infrastructure: from the value of data we publish openly and the rights we hold on data, both individually and collectively, to the quality and governance of critical datasets. We are using the term ‘data-centric AI’ to advance our thinking in this space – the term was introduced a few years ago in the AI community to advocate for more attention to the data that AI engineers feed into their models. Expanding on the term, we use it to refer to the entire socio-technical data infrastructure of AI – this includes data assets, tools, standards, practices, and communities.

To deliver on AI safety and follow through on the commitments from the Bletchley Declaration, and other recent announcements and global regulations, we need to consider the data infrastructure of existing and future applications of AI. This goes beyond ongoing efforts to create benchmark datasets that, although useful for evaluating and comparing models, do not represent the vast scenarios in which AI is envisioned to be applied. As generative AI gains traction, there is a risk that, given the costs associated with good data practices, models will be trained and tested on synthetic or lower-quality data, leading – in time – to a degradation in performance and increasing the likelihood of harm. AI data infrastructure and better data practices should be adopted and mandated across industry, informed by the latest advances in data science and engineering, and supported by dedicated data institutions.

What our data-centric AI programme aims to achieve

Building on more than a decade of work creating open, trustworthy data ecosystems, the ODI has helped shift the AI narrative away from an exclusive focus on model development and use towards a wider understanding of the resources – and stakeholders – needed to enable sustainable and responsible technological development. The ODI acts as a key institution researching, connecting, and amplifying diverse ideas and approaches, developing and enabling best practices for data stewardship, and convening a wide range of stakeholders in the ecosystem, including startups, entrepreneurs, researchers, policy-makers and civic society, to help develop an AI data ecosystem grounded in responsible data practices.

Realising the potential of AI to benefit everyone and meet the commitments of the Bletchley Declaration, will require several essential steps in data-centric AI:

Make data AI-ready

  1. We need to enable and support the creation of high-quality AI datasets. Many AI datasets are small, synthetic, or not representative of a particular country, company or context. The result is benchmark saturation - models perform well on the data that is available, but worse when applied to solve real problems.

  2. Existing copyright, data protection, and worker rights must be respected when creating new AI datasets. We need more research to identify gaps in how these rights are currently protected or not in the datasets used by AI systems.

  3. Key AI datasets must be responsibly stewarded and governed. Some datasets are critical for specific sectors and need wise stewardship mechanisms to ensure they are used equitably and maintained to a high standard.

  4. Public-good datasets should be continuously supported as they boost innovation in many areas, including AI. A lot of progress in AI has been on the back of open datasets, but there is a danger people would stop contributing and investing in open data and most new data fed into AI models will be synthetic or of lower quality.

  5. Best practices in AI data assurance must be established and standardised. While some toolkits are emerging, there is limited guidance or regulation to assure datasets used in public services.

Make AI data accessible and usable

  1. We need to work with data holders to study critical datasets. Most datasets are poorly documented, which means that users find it difficult to understand their intended purpose, known use cases, and limitations.

  2. Fair and equitable data access must be mandated to develop AI use cases with big societal implications e.g. misinformation, climate, and infectious diseases.

  3. Data standards should be developed to reduce the cost of data operations and allow researchers and smaller businesses to build better AI data infrastructure.

  4. Safe access to datasets for startups and SMEs must be enabled, to boost responsible experimentation and innovation. This is one of the main roadblocks alongside access to computing and AI talent.

  5. The potential for new AI capabilities in making data more accessible, usable, and useful for everyone should be explored. There are opportunities for AI to automate or streamline processes that currently restrict or delay data sharing and use.

Make AI systems use data responsibly

  1. Explore mechanisms that improve understanding of data in the AI lifecycle. This includes exploring whether AI tech holders and downstream applications should be required to share information about data provenance and lineage to foster good data practices in the ecosystem and more thorough analysis of impacts.

  2. Invest in research and innovation to develop more protective and efficient AI models. This can aid the development of models that are less reliant on huge datasets, as well as models that rely less on massive amounts of data and do not trade off privacy and data protection for performance.

  3. Design, assess and promote more meaningful data licences that support publishers and users to implement good data practices in AI.

  4. Invest in creating more practical toolkits to inform new regulations and reduce compliance costs. Toolkits, case studies, and peer learning have a role to play in operationalising existing and emerging regulatory frameworks.

  5. Strengthen responsible AI practices through research, training and data literacy. AI engineers should be trained in responsible AI practices, and non-technical workers should have access to tools and training that help them understand the links between data and responsible AI.

The ODI is committed to advancing research and practice to implement these steps. This includes:

Building on this work, in the next few months, we will:

  • map out the journey of data in AI model design, training, validation, testing and use to highlight common challenges in responsible data practices for AI

  • study existing and emerging data stewardship and governance practices in the most popular AI datasets

  • understand and describe the role of data-related challenges in AI incidents reports

  • design computational approaches to assess the impact of open data sources on AI models' performance

  • propose participatory approaches to data prompting as a means to help diverse audiences use generative AI tools to find and make sense of data

  • establish policy priorities for a future AI bill in the UK, and other data legislation, building on the findings of the programme

There is much to do, and as technology and regulation move at lightning speed, we must prioritise this field of enquiry – and work quickly to transform ideas into action. We are excited to collaborate with Microsoft, the Industry Data for Society Partnership, King's College London, the University of Oxford, and many others to make progress and make a difference.

We are keen to hear from funders, partners and other organisations who are interested in helping to develop our programme of work. If you would like to contribute, talk about funding our work or challenge our thinking we welcome hearing from you.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.