Thứ Ba, 18 tháng 4, 2023

Europeana và các nguyên tắc FAIR cho dữ liệu nghiên cứu


Europeana and the FAIR principles for research data

What are the ‘FAIR’ principles used by the research community? Why do they matter for Europeana? And how do our data and services comply with them?

Các nguyên tắc ‘FAIR’ nào được cộng đồng nghiên cứu sử dụng? Vì sao chúng là quan trọng đối với Europeana? Và làm thế nào dữ liệu và các dịch vụ của chúng tôi tuân thủ với chúng?

Theo: https://pro.europeana.eu/post/europeana-and-the-fair-principles-for-research-data

Bài được đưa lên Internet ngày: 01/02/2022

Hướng dẫn các nguyên tắc FAIR cho quản lý và quản trị dữ liệu khoa học có ý định để cải thiện hạ tầng và các dịch vụ xung quanh dữ liệu học thuật. Các nguyên tắc đó, như được trình bày trên website GO FAIR, có dự kiến như là ‘hướng dẫn để cải thiện khả năng tìm thấy được, truy cập được, tương hợp được, và sử dụng lại được các tài sản kỹ thuật số’. Chúng bây giờ hướng dẫn việc thiết kế và triển khai các sáng kiến chủ chốt như Đám mây Khoa học Mở châu Âu - EOSC (European Open Science Cloud) như được minh họa bằng dự án FAIRsFAIR được khởi xướng gần đây.

Các bộ sưu tập của Europeana và các giao diện lập trình ứng dụng – API (Application Programming Interface) của nó làm cho di sản văn hóa được số hóa từ hơn 3.700 nhà cung cấp (các phòng trưng bày, thư viện, kho lưu trữ, viện bảo tàng) sẵn sàng trong tất cả các ngôn ngữ của châu Âu. Europeana Research (Nghiên cứu của Europeana) muốn nhiều người hơn tận dụng được các tư liệu này trong nghiên cứu hàn lâm, đặc biệt trong khoa học nhân văn.

Chúng tôi đang khám phá các khả năng để liên kết với EOSC, tổ chức này cũng đáp ứng các nhu cầu nghiên cứu về khoa học xã hội và nhân văn. Trong bối cảnh này, làm thế nào các dịch vụ của Europeana tuân thủ với các nguyên tắc FAIR và làm thế nào chúng tôi có thể đóng vai trò trong việc áp dụng rộng rãi hơn các nguyên tắc đó trong lĩnh vực di sản văn hóa?

Các nguyên tắc FAIR phù hợp với Europeana như thế nào?

Có nhiều sự cộng hưởng giữa các nguyên tắc FAIR và các giá trị và mục đích của Europeana, như được thể hiện trong chiến lược của nó. Các nguyên tắc của chúng tôi ‘Sử dụng được, Đôi bên cùng có lợi, Tin cậy được’ và cách thức chúng tôi đã triển khai chúng trong 10 năm qua phù hợp với các nguyên tắc FAIR ‘Tìm thấy được, Truy cập được, Tương hợp được, Sử dụng lại được’ (Findable, Accessible, Interoperable, Re-usable). Chúng tôi đã tham gia trong phát triển công nghệ mà có tiềm năng lớn để cải thiện tính FAIR (FAIRness) của dữ liệu, như các API web mở, Dữ liệu Liên kết và Khung Tương hợp Ảnh Quốc tế - IIIF (International Image Interoperability Framework), triển khai nó cho bản thân chúng tôi cũng như khuyến khích bất cứ ai trong lĩnh vực của chúng tôi áp dụng nó.

Europeana và mạng lưới các đối tác rộng khắp của nó đã phát triển một Khung Cấp phép xúc tác cho siêu dữ liệu mở đầy đủ và gắn nhãn bắt buộc cho nội dung với các tuyên bố quyền tương hợp được và được tiêu chuẩn hóa mà chúng làm cho các khả năng sử dụng lại đối với từng hạng mục là rõ ràng. Chúng tôi cũng đã và đang biện hộ cho việc áp dụng các chính sách bản quyền tốt hơn để làm cho dễ dàng hơn cho việc chia sẻ mở các dữ liệu văn hóa trên phạm vi rộng. Cuối cùng, mạng lưới rộng lớn các đối tác dữ liệu của Europeana đã làm việc để cải thiện chất lượng dữ liệu được cung cấp trong một nỗ lực để làm cho dữ liệu với mức độ đa dạng lớn của chúng tôi sử dụng lại được nhiều hơn khắp các lĩnh vực và ngôn ngữ.


[Ontwerp:] S[ocié]té A[nony]me de l'Exposition universelle et internationale de Gand 1913. Entrée principale. Coupe A-B, Oscar Henricus Van de Voorde, 1913, Thư viện Đại học Ghent, CC BY-SA

Dữ liệu và các dịch vụ của Europeana đáp ứng được các yêu cầu FAIR như thế nào?

Europeana tổng hợp các bản ghi siêu dữ liệu về các đối tượng di sản văn hóa. Các bản ghi đó cung cấp các đường liên kết tới nội dung được số hóa là truy cập được trên các website các đối tác của Europeana và xúc tác cho một dịch vụ tìm kiếm tạo thuận lợi để phát hiện ra tư liệu văn hóa cho nhiều khán thính phòng đa dạng rộng lớn. Cả dữ liệu và các dịch vụ được trình bày qua một nền tảng web và một loạt các API. Vì thế, có vài mức để cân nhắc khi đánh giá tính FAIR mà Europeana chào.

F - Để Tìm thấy được

Nội dung được số hóa mà Europeana cung cấp quyền truy cập tới được mô tả bằng siêu dữ liệu, sự tổng hợp nó tạo thành xương sống các dịch vụ của Europeana. Mức độ phạm vi và sự đa dạng của các tập hợp siêu dữ liệu của Europeana ngụ ý sự phong phú của chúng rất đa dạng. Nhưng Europeana đã trang bị cho bản thân một mô hình dữ liệu (xem bên dưới) tuân thủ các nguyên tắc dữ liệu kết nối mà, ngoài tính linh hoạt, trao cho các đối tác khả năng - hoặc bản thân Europeana - để làm phong phú cho siêu dữ liệu với các đường liên kết tới các tài nguyên ngữ nghĩa (đa ngôn ngữ) mà chúng cũng mô tả ‘ngữ cảnh’ của các đối tượng văn hóa, làm cho chúng dễ hơn để tìm ra.

Như được nêu trước đó, chúng tôi đánh chỉ mục tập hợp dữ liệu của Europeana và làm cho bản thân nó tìm kiếm được trên trực tuyến. Ngoài ra, tập hợp dữ liệu đó là tìm kiếm được thông qua các hạ tầng tìm kiếm của châu Âu như CLARINEUDAT.

Europeana và các đối tác của chúng tôi thúc đẩy sự nhận diện thường trực của cả siêu dữ liệu và các phiên bản kỹ thuật số của các đối tượng di sản văn hóa. Europeana chỉ định các mã nhận diện cho từng bản ghi được tổng hợp, và có các thủ tục để hỗ trợ cho sự thường trực của các mã nhận diện của nó bất kỳ khi nào có thể. Các mã nhận diện của Europeana là các các Mã nhận diện Tài nguyên Thống nhất - URI (Uniform Resource Identifier) và được đưa vào trong các bản ghi dữ liệu ở tất cả các định dạng theo đó tập hợp dữ liệu là sẵn sàng. Trong ngữ cảnh của tổng hợp nơi dữ liệu được truyền đi và được xử lý xuyên khắp các đối tượng khác nhau, chúng tôi không thể (và vì các lo ngại về nguồn gốc xuất xứ không muốn) thực thi tính độc nhất toàn cầu, nghĩa là có thể có vài mã nhận diện cho vài phiên bản của một tài nguyên. Nhưng chúng tôi cố gắng duy trì các đường liên kết xuyên khắp tất cả các phiên bản đó sao cho người tiêu dùng các dịch vụ của chúng tôi luôn có thể tìm ra những gì họ tìm kiếm.

A - Để Truy cập được

Các mã nhận diện của Europeana là các (HTTP) URI phân giải được, nó hướng người sử dụng và các dịch vụ tiêu dùng dữ liệu tới các trang trên website của chúng tôi hoặc dữ liệu từ các API của chúng tôi. Europeana cũng cố gắng phân giải các URI bị lỗi thời và đã được cập nhật vì các lý do kỹ thuật, bằng việc sử dụng tái định tuyến HTTP.

Tập hợp dữ liệu của Europeana là truy cập được thông qua Web APIs mà triển khai các giao thức mở, tiêu chuẩn, như các giao thức và các thực hành Dữ liệu Liên kết (bao gồm SPARQL), OpenSearch, OAI-PMH.

Truy cập tới các bản ghi của tập hợp dữ liệu đó thông qua các URI của chúng là miễn phí và không cần phải xác thực. Vài API (như Annotations API) và các phần nền tảng của chúng tôi (như Europeana 1914-1918) có yêu cầu xác thực, vì chúng cho phép sửa đổi dữ liệu của chúng tôi.

I - Để Tương hợp được

Europeana sử dụng Mô hình Dữ liệu Europeana - EDM (Europeana Data Model) để trao đổi dữ liệu với các nhà cung cấp dữ liệu, cho hệ thống thông tin nội bộ của nó, và cũng để sử dụng cho các bên thứ 3. EDM là một mô hình cộng tác, dựa vào cộng đồng, được phát triển trong sự tham vấn với các đại diện từ tất cả các lĩnh vực có đại diện trong Europeana. Nó luôn được cải tiến. EDM dựa vào Khung Mô tả Tài nguyên - RDF (Resource Description Framework), nó cho phép chúng tôi tạo ra một mô hình cho siêu dữ liệu của chúng tôi mà hầu hết sử dụng lại các từ vựng tiêu chuẩn hiện có (Dữ liệu Liên kết), như Dublin Core, SKOS, và FOAF.

Europeana hỗ trợ cho các đối tác dữ liệu của nó để sử dụng các từ vựng nhằm tham chiếu tới các khái niệm, địa điểm, con người và tổ chức. Các từ vựng nổi bật nhất được sử dụng trọng tập hợp dữ liệu là DBpediaGeonames. Việc sử dụng các từ vựng bên ngoài của chúng tôi để làm phong phú thêm luôn tuân thủ các thực hành tiêu chuẩn của Dữ liệu Mở Liên kết (Linked Open Data) và quan tâm tới chất lượng và quyền truy cập.

Lưu ý là trong một vài trường hợp là quan trọng đối với Europeana, chúng tôi đã sử dụng các từ vựng của riêng chúng tôi, như từ vựng trong RightsStatements.org (xem bên dưới) để bổ sung cho các tiêu chuẩn hiện có. Một lần nữa, điều này là do cộng đồng dẫn dắt và tuân thủ với các thực hành tốt nhất hiện có (như cung cấp các URI).

R - Để Sử dụng lại được

Tạo thuận lợi cho sử dụng lại dữ liệu di sản văn hóa là mục đích chính của Europeana.

Bất kỳ siêu dữ liệu nào được cung cấp cho Europeana cũng cần phải được cấp phép theo CC0, và Europeana làm cho toàn bộ tập hợp các siêu dữ liệu được tổng hợp (bao gồm cả các kết quả đầu ra những cải tiến dữ liệu của riêng nó) thành sẵn sàng mở cũng theo giấy phép CC0.

Các quyền sử dụng nội dung đó được nêu trong từng bản ghi, sử dụng các tuyên bố quyền hoặc từ Creative Commons hoặc từ RightsStatements.org, cái sau là một từ vựng được phát triển như một sáng kiến cộng đồng để cải thiện truyền thông tình trạng bản quyền và sử dụng lại các đối tượng số bởi các cơ sở di sản văn hóa, làm dễ dàng hơn cho người sử dụng để ‘để xem liệu các tác phẩm di sản văn hóa trên trực tuyến có thể được tái sử dụng hay không và bằng cách nào’.

Nguồn gốc xuất xứ của dữ liệu luôn được nêu, thừa nhận nhà cung cấp dữ liệu gốc ban đầu (ví dụ, một viện bảo tàng hoặc thư viện) và tất cả các bên trung gian trong tiến trình tổng hợp trong siêu dữ liệu.

Cuối cùng, siêu dữ liệu của chúng tôi được làm cho sẵn sàng với việc sử dụng các tiêu chuẩn dữ liệu được sử dụng phổ biến trong các lĩnh vực di sản văn hóa, giáo dục và nghiên cứu, ví dụ như Schema.org, Dublin Core, SKOS và khác (một phần nhờ vào EDM tuân thủ các thực hành tốt nhất cho việc mô hình hóa dữ liệu và đang dựa vào rồi các tiêu chuẩn đó.

Europeana sẽ làm gì trong tương lai gần?

Để khuyến khích xa hơn các đối tác cung cấp dữ liệu phong phú để làm cho di sản văn hóa kỹ thuật số tìm kiếm được nhiều hơn và sử dụng lại được nhiều hơn, Europeana liên tục có các nỗ lực về chất lượng dữ liệu để chia sẻ các thực hành tốt nhất và báo cáo về chất lượng nội dung và siêu dữ liệu theo cách thức là hữu ích và tạo động lực cả cho các nhà cung cấp và người sử dụng.

Chúng tôi gần đây đã xác định các biện pháp cho chất lượng của siêu dữ liệu, xác định các yếu tố và các giá trị dữ liệu chính mà xúc tác cho các giao diện người sử dụng phong phous và trải nghiệm người sử dụng tốt hơn. Trong những tháng tới, chúng tôi sẽ làm cho các biện pháp đó truy cập được tới những người sử dụng dữ liệu của chúng tôi sao cho họ có thể xác định được các tư liệu hữu dụng nhất đối với họ.

Về khía cạnh khả năng tiếp cận nội dung được số hóa, Europeana là một thành viên sáng lập Khung Tương hợp Ảnh Quốc tế (IIIF) mới. IIIF là một tập hợp các API được thiết kế để giúp cho mọi người xuất bản nội dung kỹ thuật số lên web theo cách thức tương hợp được nhiều hơn, cho phép tương tác phong phú với nội dung xuyên khắp các kho lưu trữ và duy trì tốt hơn nguồn gốc xuất xứ của nội dung. Europeana thừa nhận và khai thác nội dung IIIF được cung cấp cho chúng tôi và làm việc cật lực để khuyến khích các đối tác dữ liệu của chúng tôi áp dụng nó.

Các phát triển khác có liên quan tới các thước đo FAIR bao gồm triển khai sắp tới của một cơ chế ủy quyền ‘đăng nhập duy nhất’ (single sign-on) xuyên khắp tất cả các sản phẩm của chúng tôi, và nỗ lực liên tục để áp dụng mô hình dữ liệu của chúng tôi cho các nhu cầu mới về ứng dụng và chia sẻ dữ liệu, theo cách thức do cộng đồng dẫn dắt (một ví dụ gần đây là sự mở rộng để trình bày và xuất bản nội dung toàn văn báo chí).

Duy trì việc cập nhật thông tin và tham gia với chúng tôi

Để duy trì việc cập nhật thông tin về những phát triển như những gì được nêu trong bài đăng này, hãy ra nhập Europeana Research và/hoặc các cộng đồng EuropeanaTech của Hiệp hội các Mạng lưới của Europeana (Europeana Network Association), và đi với chúng tôi trên Twitter (@eurresearch@europeanatech)

Bài đăng này đã được biên soạn vào ngày 01/02/2022 để làm rõ làm thế nào Europeana chỉ định các mã nhận diện cho các bản ghi.


Liên hệ với Alba Irollo

Nhà điều phối nghiên cứu, Quỹ Europeana

Alba có trách nhiệm đối với Europeana Research, cầu nối giữa Quỹ Europeana và các nhà nghiên cứu, các cơ sở và các hạ tầng nghiên cứu. Cô điều phối các hoạt động của Ban Cố vấn Nghiên cứu và là nhà quản lý của Cộng đồng Nghiên cứu Europeana. Ngoài việc có trách nhiệm về Nghiên cứu...

alba.irollo@europeana.eu +31 (0)70 314 0972

The FAIR Guiding Principles for scientific data management and stewardship are intended to improve the infrastructure for and services around scholarly data. These principles, as presented on the GO FAIR website that hosts them, are intended as ‘guidelines to improve the findability, accessibility, interoperability, and reuse of digital assets’. They now guide the design and implementation of major initiatives such as the European Open Science Cloud (EOSC) as illustrated by the recently launched FAIRsFAIR project.

Europeana Collections and its APIs make digitised cultural heritage from over 3,700 providers (galleries, libraries, museums and archives) available in all European languages. Europeana Research wants more people to make use of this material in academic research, especially in the humanities.

We are exploring possibilities to liaise with the EOSC, which also caters to research needs in the social sciences and humanities. In this context, how do Europeana services comply with the FAIR principles and how can we play a role in the wider adoption of these principles in the cultural heritage sector?

How do the FAIR principles align with Europeana's?

There is much resonance between the FAIR principles and Europeana's values and objectives, as embodied in its strategy. Our principles ‘Usable, Mutual, Reliable’ and the way we have implemented them in the past ten years align with FAIR's own 'Findable, Accessible, Interoperable, Re-usable’ principles. We have been involved in the development of technology that has great potential for enhancing the FAIRness of data, such as open web APIs, Linked Data and the International Image Interoperability Framework (IIIF), implementing it for ourselves as well as encouraging everyone in our sector to adopt it.

Europeana and its wide network of partners have developed a Licensing Framework enabling fully open metadata and the mandatory labelling of content with standardised and interoperable rights statements which make the reuse possibilities for each item clear. We have also been advocating for the adoption of better copyright policies that make it easier to openly share cultural data across the board.  Finally, the large network of Europeana’s data partners has worked on improving the quality of the data provided in an effort to make our vastly diverse data more usable across domains and languages.

[Ontwerp:] S[ocié]té A[nony]me de l'Exposition universelle et internationale de Gand 1913. Entrée principale. Coupe A-B, Oscar Henricus Van de Voorde, 1913, Ghent University Library, CC BY-SA

How do Europeana's data and services meet the FAIR requirements?

Europeana aggregates metadata records about cultural heritage objects. These records provide links to digitised content that is accessible on the websites of Europeana's partners and fuels a search service that facilitates the discovery of cultural material for a wide variety of audiences. Both data and services are presented via a web platform and a series of APIs. There are, therefore, several levels to consider when assessing the FAIRness of Europeana's offer.

F- To be Findable

The digitised content that Europeana provides access to is described by metadata, the aggregation of which constitutes the backbone of Europeana's services. The scale and diversity of Europeana's metadata sets imply that their richness varies greatly. But Europeana has equipped itself with a data model (see below) that follows the linked data principles which give, besides flexibility, the possibility for our partners - or Europeana itself - to enrich metadata with links to (multilingual) semantic resources that also describe the ’context’ of cultural objects, making them easier to find.

As mentioned earlier, we index the Europeana dataset and make it searchable online ourselves. In addition, the dataset is findable through the European research infrastructures CLARIN and EUDAT.

Europeana and our partners promote the persistent identification of both cultural heritage objects’ metadata and digital versions. Europeana assigns identifiers to every aggregated record, and has procedures in place to support the persistence of its identifiers whenever possible. Europeana identifiers are URIs and are included in the data records in all formats in which the dataset is available. In a context of aggregation where data is passed and processed across different partners, we cannot (and for provenance concerns do not want to) enforce global uniqueness, i.e. there can be several identifiers for several versions of a resource. But we do try to maintain links across all these versions so that consumers of our services can always find what they search for.

A - To be Accessible

Europeana identifiers are resolvable (HTTP) URIs, which orient users and data-consuming services towards pages on our website or data from our APIs. Europeana also tries to resolve URIs that are obsolete and have been updated for technical reasons, by using HTTP redirection.

Europeana’s dataset is accessible through Web APIs that implement open, standard protocols, such as the Linked Data protocols and practices (including SPARQL), OpenSearch, OAI-PMH.

Access to the dataset’s records via their URIs is free and no authentication is required. Some APIs (such as the Annotations API) and parts of our platform (such as Europeana 1914-1918) require authentication, as they allow the modification of our data.

I - To be Interoperable

Europeana uses the Europeana Data Model (EDM) for data exchange with data providers, for its internal information system, and also for third-party use. EDM is a collaborative, community-based model, developed in consultation with representatives from all the domains represented in Europeana. It is under continuous improvement. EDM is based on the Resource Description Framework (RDF), which allows us to create a model for our metadata that mostly reuses existing (Linked Data) standard vocabularies, such as Dublin Core, SKOS, and FOAF.

Europeana supports its data partners to use vocabularies for referring to concepts, places, persons and organisations. The most prominent vocabularies in use within the dataset are DBpedia and Geonames. Our use of external vocabularies for enrichment always follows the standard practices of Linked Open Data and concerns such as quality and access.

Note that in a couple of cases that are crucial for Europeana, we have embarked on making our own vocabularies, such as the one at RightsStatements.org (see below) to complement existing standards. Again, this is community-driven and follows existing best practices (such as providing URIs).

R - To be Reusable

Facilitating the reuse of cultural heritage data is a key Europeana objective.

Any metadata provided to Europeana needs to be licensed under CC0, and Europeana makes the complete aggregated metadata set (including the outcomes of its own data improvements) openly available under CC0 as well.

The rights for using the content are stated in every record, using rights statements from either Creative Commons or RightsStatements.org, the latter being a vocabulary developed as a community initiative to improve the communication of the copyright and reuse status of digital objects by cultural heritage institutions, making it easier for users to ‘see if and how online cultural heritage works can be reused’.

Provenance of the data is always stated, acknowledging the original data provider (e.g. a museum or library) and all intermediaries in the aggregation workflow in the metadata.

Finally, our metadata is made available with the use of data standards commonly used in the cultural heritage, education and research domains, such as Schema.org, Dublin Core, SKOS and others (thanks partly to EDM following best practices for data modelling and being already based on these standards).

What will Europeana do in the near future?

To further encourage partners to provide richer data that makes digital cultural heritage more findable and more reusable, Europeana has ongoing data quality efforts to share best practices and report on the quality of content and metadata in a way that is helpful and motivating both for providers and users.

We have recently defined measures for metadata quality, identifying key data elements and values that enable rich user interfaces and better user experience. In the coming months, we are going to make these measurements accessible to our data reusers so that they can identify the material that is most useful to them.

With respect to accessibility of digitised content, Europeana is a founding member of the new International Image Interoperability Framework (IIIF). IIIF is a set of open APIs designed to help people publish digital content on the web in a way that is more interoperable, allows richer interaction with content across any repositories and keeps better track of provenance of content. Europeana recognises and exploits IIIF content that is provided to us and works hard on encouraging our data partners to adopt it.

Other developments that are relevant to FAIR metrics include the upcoming implementation of a ’single sign-on’ authorisation mechanism across all our products, and the continuous effort to adapt our data model to new application and data-sharing needs, in a community-driven way (a recent example being an extension to represent and publish the full-text content of newspapers).

Stay informed and join us

To stay informed about developments like those outlined in this post, join the Europeana Research and/or the EuropeanaTech communities of the Europeana Network Association, and follow us on Twitter (@eurresearch and @europeanatech)

This post was edited on 01/02/2022 to clarify how Europeana assigns identifiers to records.

Contact Alba Irollo

Research Coordinator, Europeana Foundation

Alba is in charge of Europeana Research, the bridge between the Europeana Foundation and researchers, research institutions and infrastructures. She coordinates the Research Advisory Board's activities and is the Europeana Research Community manager. Besides being responsible for the Research …

alba.irollo@europeana.eu +31 (0)70 314 0972

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.