Thứ Tư, 8 tháng 4, 2020

Bạn đã sẵn sàng làm gì để duy trì chất lượng dữ liệu?

What Are You Ready to Do to Preserve Data Quality?
Diane Drubay, Aug 15, 2019 · 4 min read
(back from the first edition of the API Culture Day on 28th June 2019 in Lyon, France)
Bài được đưa lên Internet ngày: 15/08/2020
Tiếp theo hai bài báo mới nhất của tôi thu thập những điều học được từ Ngày Văn hóa API (API Culture Day) đầu tiên của chúng ta. Được biinlab tổ chức với sự cộng tác với Chúng ta là các viện bảo tàng (We Are Museums) ở viện bảo tàng Mỹ thuật Lyon ở Pháp ngày 28/06 năm ngoái, chúng tôi đã vui mừng nghe Philippe Rivière, Giám đốc Phòng Truyền thông và Số ở Viện bảo tàng Paris, nói về việc mở các bộ sưu tập của các viện bảo tàng của người dân Paris và sử dụng một API mở để tạo thuận lợi thực sự cho cuộc sống của bất kỳ ai.
Ngạc nhiên lớn đối với chúng tôi, chúng tôi đã học được từ đầu bài nói chuyện của Philippe rằng 14 viện bảo tàng ở Paris đã và đang sử dụng các API nhiều năm theo sự giám sát của “Paris Musées” (Viện bảo tàng Paris).
Quả thực, vào tháng 5/2016, viện bảo tàng Paris đã bắt đầu thiết kế lại các website các viện bảo tàng Paris để nhấn mạnh các bộ sưu tập và tin tức trong khi tránh mất thời gian và giá trị trong việc đúp bản dữ liệu. Điều mới mẻ chính rằng các API của các viện bảo tàng Paris được phép từng là sự tạo ra một website chuyên dụng cho mạng này để thu thập tất cả các thông tin từ 14 viện bảo tàng với tối thiểu hạng mục đầu vào làm bằng tay.
Trên website này, chỉ các trang “About” (Giới thiệu) và “News” (Tin tức) từ website đã được làm bằng tay, còn mọi điều khác được cập nhật tự động từ các trang của các viện bảo tàng nhờ các API thông minh: các bộ sưu tập, thông tin thực tế, và chương trình nghị sự.
Chất lượng dữ liệu là sơ khởi cho phần “Chương trình nghị sự” của website mạng này, nó sau đó sẽ nuôi dưỡng website Tòa thị chính Paris và chương trình nghị sự của các bộ trưởng. Ở đây, dòng chảy thông thường của dữ liệu từ các trang viện bảo tàng tới trang mạng chưa làm việc tốt. Quả thực, bất chấp sự khắt khe của các đội và mong muốn tìm ra thuật ngữ tiêu chuẩn để tạo ra các yếu tố có thể nhân bản được, sự đa dạng của các lĩnh vực và cơ sở ngụ ý là quy trình đó là không đủ. Bây giờ là lúc đưa ra câu hỏi về việc thay đổi dòng chảy dữ liệu cho phần “Chương trình nghị sự” này. Các viện bảo tàng sẽ phải điền vào phần bên trong website mà sẽ được sản xuất theo các yêu cầu của các trang chính thức bên ngoài.


Thách thức thứ 2 là xung quanh các bộ sưu tập của các viện bảo tàng của người dân Paris (collections of Parisian museums) với mục tiêu 600.000 công việc trên trực tuyến tới cuối năm 2020. Dự án này đã bắt đầu bằng việc thiết kế lại website, nó mang tới cùng nhau các cơ sở dữ liệu khác nhau đang tồn tại và trở thành ống silo duy nhất. Đây là hệ thống API cho phép nuôi dưỡng các website các viện bảo tàng Paris nhưng cũng nuôi dưỡng các công cụ hòa giải và truyền thông sẵn sàng. Hệ thống này sẽ xúc tác cho bạn để giữ kiểm soát đối với chất lượng nội dung phát hành và tránh đúp bản đầu vào khi nội dung cần được cập nhật. Bước tiếp sau là mở API các viện bảo tàng Paris đó vào đầu năm 2020 sao cho bất kỳ ai cũng có thể tìm ra thông tin về các bộ sưu tập và các hình ảnh liên quan tới chúng. Nội dung trong phạm vi công cộng vì thế sẽ là truy cập được theo Creative Commons.

Một lần nữa, chất lượng dữ liệu được chào trong Nội dung Mở (Open Content) là quan trọng và thách thức. Trong trường hợp này, bộ sưu tập trên trực tuyến được xây dựng từ 3 cơ sở dữ liệu với các thuộc tính và các tổ chức khác nhau. Một API vì thế đã được tạo ra giữa 2 cơ sở dữ liệu để làm cho 2 nội dung đó tương tác được và làm giàu cho chúng mà không cần phải can thiệp bằng tay.
Philippe đã kết luận bài nói chuyện của ông bằng việc gợi nhớ lại rằng việc mở một API ra là đi kèm với sự cộng tác với các đối tác khác nhau để làm sinh động các cộng đồng, chỉ ra các ví dụ tốt và hướng dẫn sử dụng.

Đây từng là phần thứ 3 của rà soát lại từ Ngày Văn hóa API đầu tiên của chúng tôi được tổ chức với sự cộng tác với biinlab. Tôi sẽ sớm xuất bản rà soát lại từ khóa tập huấn chúng tôi đã tổ chức ngay sau các bài trình bày - sẵn sàng cho vài ý tưởng khái niệm + thực hành tốt về tương lai của các viện bảo tàng đang pha trộn các API mở và trí tuệ nhận tạo AI!

Following up on my two last articles gathering the learnings from our first API Culture Day. Organized by biinlab in collaboration with We Are Museums at the Museum of Fine Arts of Lyon in France last June 28th, we had the pleasure to hear Philippe Rivière, Head of Communications and Digital Departments at Paris Musées, talking about the opening of the collections of the Parisians museums and the use of an open-API to facilitate literally the life of everyone.
To our great surprise, we learned from the beginning of Philippe’s speech that the 14 museums in Paris have been using APIs for years under the supervision of “Paris Musées”.
Indeed, in May 2016, Paris Musées embarked on the redesign of the websites of Parisian museums to highlight collections and news while avoiding the loss of time and value in the duplication of data. The main novelty that the Paris Museums APIs allowed was the creation of a website dedicated to the network to gather all the information from the 14 museums with the minimum of manual entry.
On this website, only the pages “About” and the “News” from the website have been produced manually, everything else is automatically updated from the museum sites thanks to smart APIs: collections, practical information, and agenda.
The quality of the data is primordial for the “Agenda” part of this network website, which will then feed the Paris City Hall website and the ministerial agenda. Here, the usual flow of data from museum sites to the network site does not work so well. Indeed, despite the rigour of the teams and the desire to find a standard terminology to create replicable elements, the diversity of fields and institutions means that the process is not efficient. It is now a question of changing the direction of the data flow for this “Agenda” part. Museums will have to fill in a section within the website that will have been produced according to the requirements of the external official sites.
The second challenge is around the collections of Parisian museums with a target of 600,000 works online by the end of 2020. The project began with a redesign of the website, which brings together the various existing databases and becomes a single silo. It is an API system that allows feeding the websites of Parisian museums but also the mediation and communication tools available. This system will enable you to keep control over the quality of the content broadcast and avoid duplicate entries when content needs to be updated. The next step is to open the API of the Parisian museums at the beginning of 2020 so that everyone can find information about the collections and the images related to them. The public domain content will thus be accessible under Creative Commons.
Once again, the quality of the data offered in Open Content is crucial and challenging. In this case, the online collection is built from three databases with different attributes and organizations. An API has thus been created between two databases to make the two contents interact and enrich them without having to intervene manually.
Philippe concluded his speech by recalling that the opening of an API is accompanied by collaborations with different partners to animate communities, show good examples and guide uses.
This was the third part of the review from our first API Culture Day organised in collaboration with biinlab. Soon, I will publish the review from the workshop we ran right after the speeches — get ready for some great conceptual + practical ideas of a future of museums mixing open APIs and AI!
Dịch: Lê Trung Nghĩa

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.