Europeana and
the FAIR principles for research data
What are the
‘FAIR’ principles used by the research community? Why do they
matter for Europeana? And how do our data and services comply with
them?
Các nguyên tắc ‘FAIR’
nào được cộng đồng nghiên cứu sử dụng? Vì sao chúng
là quan trọng đối với Europeana? Và làm thế nào dữ
liệu và các dịch vụ của chúng tôi tuân thủ với
chúng?
Theo:
https://pro.europeana.eu/post/europeana-and-the-fair-principles-for-research-data
Bài được đưa lên Internet ngày:
01/02/2022
Hướng
dẫn các nguyên tắc FAIR cho quản lý và quản trị dữ
liệu khoa
học có ý định để cải thiện hạ tầng và các
dịch vụ xung quanh dữ liệu học thuật. Các nguyên tắc
đó, như được trình bày trên website
GO FAIR, có dự kiến như là ‘hướng dẫn để cải
thiện khả năng tìm thấy được, truy cập được, tương
hợp được, và sử dụng lại được các tài sản kỹ
thuật số’. Chúng bây giờ hướng dẫn việc thiết kế
và triển khai các sáng kiến chủ chốt như Đám mây Khoa
học Mở châu Âu - EOSC
(European Open Science
Cloud) như được minh họa bằng dự án FAIRsFAIR
được khởi xướng gần đây.
Các bộ sưu
tập của Europeana và
các giao diện lập trình ứng dụng – API (Application
Programming Interface) của nó làm cho di sản văn hóa được
số hóa từ hơn 3.700 nhà cung cấp (các
phòng trưng bày, thư viện, kho lưu
trữ, viện bảo tàng) sẵn sàng trong tất cả các ngôn
ngữ của châu Âu. Europeana
Research (Nghiên cứu của Europeana) muốn nhiều người
hơn tận dụng được các tư liệu này trong nghiên cứu
hàn lâm, đặc biệt trong khoa
học nhân văn.
Chúng tôi đang
khám phá các khả năng để liên kết với EOSC, tổ chức
này cũng đáp ứng các nhu cầu nghiên cứu về khoa học
xã hội và nhân văn. Trong bối cảnh này, làm thế nào
các dịch vụ của Europeana
tuân thủ với các nguyên tắc FAIR và làm thế nào chúng
tôi có thể đóng vai trò trong việc áp dụng rộng rãi
hơn các nguyên tắc đó trong lĩnh vực di sản văn hóa?
Các nguyên tắc FAIR phù hợp với
Europeana như thế nào?
Có nhiều sự
cộng hưởng giữa các nguyên tắc FAIR và các giá trị và
mục đích của Europeana, như được thể hiện trong chiến
lược của nó. Các nguyên tắc của chúng tôi ‘Sử
dụng được, Đôi bên cùng có lợi, Tin cậy được’ và
cách thức chúng tôi đã triển khai chúng trong 10 năm qua
phù hợp với các nguyên tắc FAIR ‘Tìm thấy được,
Truy cập được, Tương hợp được, Sử dụng lại được’
(Findable, Accessible, Interoperable, Re-usable). Chúng tôi đã
tham gia trong phát triển
công nghệ mà có tiềm năng lớn để cải thiện tính
FAIR (FAIRness) của dữ liệu, như các API web mở, Dữ liệu
Liên kết và Khung Tương hợp Ảnh Quốc tế - IIIF
(International Image Interoperability Framework), triển khai nó
cho bản thân chúng tôi cũng như khuyến khích bất cứ ai
trong lĩnh vực của chúng tôi áp dụng nó.
Europeana và mạng
lưới các đối tác rộng khắp của nó đã phát triển
một Khung
Cấp phép xúc tác cho siêu dữ liệu mở đầy đủ và gắn
nhãn bắt buộc cho nội dung với các
tuyên bố quyền tương hợp được và được tiêu
chuẩn hóa mà chúng làm cho các khả năng sử dụng lại
đối với từng hạng mục là rõ ràng. Chúng tôi cũng đã
và đang biện hộ cho việc áp dụng các
chính sách bản quyền tốt hơn để làm cho dễ dàng
hơn cho việc chia sẻ mở các dữ liệu văn hóa trên phạm
vi rộng. Cuối cùng, mạng lưới rộng lớn các đối tác
dữ liệu của Europeana đã làm việc để cải thiện chất
lượng dữ liệu được cung cấp trong một nỗ lực để
làm cho dữ liệu với mức độ đa dạng lớn của chúng
tôi sử dụng lại được nhiều hơn khắp các lĩnh vực
và ngôn ngữ.
[Ontwerp:]
S[ocié]té A[nony]me de l'Exposition universelle et internationale
de Gand 1913. Entrée principale. Coupe A-B, Oscar Henricus Van
de Voorde, 1913, Thư viện Đại học Ghent, CC BY-SA
Dữ liệu và các dịch vụ của
Europeana đáp ứng được các yêu cầu FAIR như thế nào?
Europeana tổng hợp các bản ghi siêu dữ
liệu về các đối tượng di sản văn hóa. Các bản ghi
đó cung cấp các đường liên kết tới nội dung được
số hóa là truy cập được trên các website các đối tác
của Europeana và xúc tác cho một dịch vụ tìm kiếm tạo
thuận lợi để phát hiện ra tư liệu văn hóa cho nhiều
khán thính phòng đa dạng rộng lớn. Cả dữ liệu và các
dịch vụ được trình bày qua một nền tảng web và một
loạt các API. Vì thế, có vài mức để cân nhắc khi đánh
giá tính FAIR mà Europeana chào.
F - Để Tìm thấy được
Nội dung được số hóa mà Europeana cung
cấp quyền truy cập tới được mô tả bằng siêu dữ
liệu, sự tổng hợp nó tạo thành xương sống các dịch
vụ của Europeana. Mức độ phạm vi và sự đa dạng của
các tập hợp siêu dữ liệu của Europeana ngụ ý sự
phong phú của chúng rất
đa dạng. Nhưng Europeana đã trang bị cho bản thân một
mô hình dữ liệu (xem bên dưới) tuân thủ các nguyên tắc
dữ liệu kết nối mà, ngoài tính linh hoạt, trao cho các
đối tác khả năng - hoặc bản thân Europeana - để làm
phong phú cho siêu dữ
liệu với các đường liên kết tới các tài nguyên
ngữ nghĩa (đa ngôn ngữ) mà chúng cũng mô tả ‘ngữ
cảnh’ của các đối tượng văn hóa, làm cho chúng dễ
hơn để tìm ra.
Như được nêu trước đó, chúng tôi đánh
chỉ mục tập hợp dữ liệu của Europeana và làm cho bản
thân nó tìm kiếm được trên trực tuyến. Ngoài ra, tập
hợp dữ liệu đó là tìm kiếm được thông qua các hạ
tầng tìm kiếm của châu Âu như CLARIN
và EUDAT.
Europeana và các đối tác của chúng tôi
thúc đẩy sự nhận diện thường trực của cả siêu dữ
liệu và các phiên bản kỹ thuật số của các đối
tượng di sản văn hóa. Europeana chỉ định các mã nhận
diện cho từng bản ghi được tổng hợp, và có các thủ
tục để hỗ trợ cho sự thường trực của các mã nhận
diện của nó bất kỳ khi nào có thể. Các mã nhận diện
của Europeana là các các Mã nhận diện Tài nguyên Thống
nhất - URI (Uniform Resource Identifier) và được đưa vào
trong các bản ghi dữ liệu ở tất cả các định dạng
theo đó tập hợp dữ liệu là sẵn sàng. Trong ngữ cảnh
của tổng hợp nơi dữ liệu được truyền đi và được
xử lý xuyên khắp các đối tượng khác nhau, chúng tôi
không thể (và vì các lo ngại về nguồn gốc xuất xứ
không muốn) thực thi tính độc nhất toàn cầu, nghĩa là
có thể có vài mã nhận diện cho vài phiên bản của một
tài nguyên. Nhưng chúng tôi cố gắng duy trì các đường
liên kết xuyên khắp tất cả các phiên bản đó sao cho
người tiêu dùng các dịch vụ của chúng tôi luôn có thể
tìm ra những gì họ tìm kiếm.
A - Để Truy cập được
Các mã nhận diện của Europeana là các
(HTTP) URI phân giải được, nó hướng người sử dụng
và các dịch vụ tiêu dùng dữ liệu tới các trang trên
website của chúng tôi hoặc dữ liệu từ các API của
chúng tôi. Europeana cũng cố gắng phân giải các URI bị
lỗi thời và đã được cập nhật vì các lý do kỹ
thuật, bằng việc sử dụng tái định tuyến HTTP.
Tập hợp dữ liệu của Europeana là truy
cập được thông qua Web
APIs mà triển khai các giao thức mở, tiêu chuẩn, như
các giao thức và các thực hành Dữ liệu Liên kết (bao
gồm SPARQL),
OpenSearch,
OAI-PMH.
Truy cập tới các bản ghi của tập hợp
dữ liệu đó thông qua các URI của chúng là miễn phí và
không cần phải xác thực. Vài API (như Annotations
API) và các phần nền tảng của chúng tôi (như
Europeana
1914-1918) có yêu cầu xác thực, vì chúng cho phép sửa
đổi dữ liệu của chúng tôi.
I - Để Tương hợp được
Europeana sử dụng Mô hình Dữ liệu
Europeana - EDM (Europeana
Data Model) để trao đổi dữ liệu với các nhà cung
cấp dữ liệu, cho hệ thống thông tin nội bộ của nó,
và cũng để sử dụng cho các bên
thứ 3. EDM là một mô hình cộng tác, dựa vào cộng đồng,
được phát triển
trong sự tham vấn với các đại diện từ tất cả các
lĩnh vực có đại diện trong Europeana.
Nó luôn được cải tiến. EDM dựa vào Khung Mô tả Tài
nguyên - RDF (Resource Description Framework), nó cho phép chúng
tôi tạo ra một mô hình cho siêu dữ liệu của chúng tôi
mà hầu hết sử dụng lại các từ vựng tiêu chuẩn hiện
có (Dữ liệu Liên kết), như Dublin Core, SKOS, và FOAF.
Europeana hỗ trợ cho các đối tác dữ
liệu của nó để sử dụng các từ vựng nhằm tham chiếu
tới các khái niệm, địa điểm, con người và tổ chức.
Các từ vựng nổi bật nhất được sử dụng trọng tập
hợp dữ liệu là DBpedia và
Geonames. Việc sử dụng
các từ vựng bên ngoài của chúng tôi để làm phong phú
thêm luôn tuân thủ các thực hành tiêu chuẩn của Dữ
liệu Mở Liên kết (Linked Open Data) và
quan tâm tới chất lượng và quyền truy cập.
Lưu ý là trong một vài trường hợp là
quan trọng đối với Europeana, chúng tôi đã sử dụng các
từ vựng của riêng chúng tôi, như từ vựng trong
RightsStatements.org
(xem bên dưới) để bổ sung cho các tiêu chuẩn hiện có.
Một lần nữa, điều này là do cộng đồng dẫn dắt và
tuân thủ với các thực hành tốt nhất hiện có (như
cung cấp các URI).
R - Để Sử dụng lại được
Tạo thuận lợi cho sử
dụng lại dữ liệu di sản văn hóa là mục đích chính
của Europeana.
Bất kỳ siêu dữ liệu
nào được cung cấp cho Europeana
cũng cần phải được cấp phép theo CC0, và Europeana làm
cho toàn bộ tập hợp các siêu dữ liệu được tổng hợp
(bao gồm cả các kết quả đầu ra những cải tiến dữ
liệu của riêng nó) thành sẵn sàng mở cũng theo giấy
phép CC0.
Các quyền sử dụng nội dung đó được
nêu trong từng bản ghi, sử dụng các tuyên bố quyền
hoặc từ Creative Commons
hoặc từ RightsStatements.org,
cái sau là một từ vựng được phát triển như một sáng
kiến cộng đồng để cải thiện truyền thông tình trạng
bản quyền và sử dụng lại các đối tượng số bởi
các cơ sở di sản văn hóa, làm dễ dàng hơn cho người
sử dụng để ‘để xem liệu các tác phẩm di sản văn
hóa trên trực tuyến có thể được tái sử dụng hay
không và bằng cách nào’.
Nguồn gốc xuất xứ
của dữ liệu luôn được nêu, thừa nhận nhà cung cấp
dữ liệu gốc ban đầu (ví dụ, một viện bảo tàng hoặc
thư viện) và tất cả các bên trung gian trong tiến trình
tổng hợp trong siêu dữ liệu.
Cuối cùng, siêu dữ
liệu của chúng tôi được làm cho sẵn sàng với việc
sử dụng các tiêu chuẩn dữ liệu được sử dụng phổ
biến trong các lĩnh vực di sản văn hóa, giáo dục và
nghiên cứu, ví dụ như Schema.org,
Dublin Core, SKOS
và khác (một phần nhờ vào EDM tuân
thủ các thực hành tốt nhất cho việc mô hình hóa dữ
liệu và đang dựa vào rồi các tiêu chuẩn đó.
Europeana sẽ làm gì trong tương lai gần?
Để khuyến khích xa hơn các đối tác
cung cấp dữ liệu phong phú để làm cho di sản văn hóa
kỹ thuật số tìm kiếm được nhiều hơn và sử dụng
lại được nhiều hơn, Europeana liên tục có các
nỗ lực về chất lượng dữ liệu để chia sẻ các
thực hành tốt nhất và báo
cáo về chất lượng nội
dung và siêu dữ liệu theo cách thức là hữu ích và
tạo động lực cả cho các nhà cung cấp và người sử
dụng.
Chúng tôi gần đây
đã xác định các biện pháp cho chất lượng của siêu
dữ liệu, xác định các yếu tố và các giá trị dữ
liệu chính mà xúc tác cho các giao diện người sử dụng
phong phous và trải nghiệm người sử dụng tốt hơn.
Trong những tháng tới, chúng tôi sẽ làm cho các biện
pháp đó truy cập được tới những người sử dụng dữ
liệu của chúng tôi sao cho họ có thể xác định được
các tư liệu hữu dụng nhất đối với họ.
Về khía cạnh khả năng
tiếp cận nội dung được số
hóa, Europeana là một thành viên
sáng lập Khung Tương hợp Ảnh Quốc tế (IIIF) mới.
IIIF là một tập hợp các API được
thiết kế để giúp cho mọi người xuất bản nội
dung kỹ thuật số lên web theo cách thức tương hợp được
nhiều hơn, cho phép tương tác phong phú với nội dung
xuyên khắp các kho lưu trữ và
duy trì tốt hơn nguồn gốc xuất xứ của nội
dung. Europeana thừa nhận và khai thác nội dung IIIF
được cung cấp cho chúng tôi và làm việc cật lực để
khuyến khích các đối tác dữ liệu của chúng tôi áp
dụng nó.
Các phát triển khác có liên quan tới các
thước đo FAIR bao gồm triển khai sắp tới của một cơ
chế ủy quyền ‘đăng nhập duy nhất’ (single sign-on)
xuyên khắp tất cả các sản phẩm của chúng tôi, và nỗ
lực liên tục để áp dụng mô hình dữ liệu của chúng
tôi cho các nhu cầu mới về ứng dụng và chia sẻ dữ
liệu, theo cách thức do cộng đồng dẫn dắt (một ví dụ
gần đây là sự mở rộng để trình bày và xuất bản
nội dung toàn văn báo
chí).
Duy trì việc cập nhật thông tin và
tham gia với chúng tôi
Để duy trì việc cập nhật thông tin về
những phát triển như những gì được nêu trong bài đăng
này, hãy ra nhập Europeana
Research và/hoặc các cộng đồng EuropeanaTech
của Hiệp hội các Mạng lưới của Europeana (Europeana
Network Association), và đi với chúng tôi trên Twitter
(@eurresearch và
@europeanatech)
Bài đăng này đã được biên soạn
vào ngày 01/02/2022 để làm rõ làm thế nào Europeana
chỉ định các mã nhận diện cho các bản ghi.
Liên hệ với
Alba
Irollo
Nhà điều phối nghiên cứu, Quỹ
Europeana
Alba có trách nhiệm đối với Europeana
Research, cầu nối giữa Quỹ Europeana và các nhà nghiên
cứu, các cơ sở và các hạ tầng nghiên cứu. Cô điều
phối các hoạt động của Ban Cố vấn Nghiên cứu và là
nhà quản lý của Cộng đồng Nghiên cứu Europeana. Ngoài
việc có trách nhiệm về Nghiên cứu...
alba.irollo@europeana.eu
+31 (0)70 314 0972
The FAIR
Guiding Principles for scientific data management and stewardship
are intended to improve the infrastructure for and services around
scholarly data. These principles, as presented on the GO
FAIR website that hosts them, are intended as ‘guidelines to
improve the findability, accessibility, interoperability, and reuse
of digital assets’. They now guide the design and implementation of
major initiatives such as the European Open Science Cloud (EOSC)
as illustrated by the recently launched FAIRsFAIR
project.
Europeana
Collections and its APIs make digitised cultural heritage from
over 3,700 providers (galleries, libraries, museums and archives)
available in all European languages. Europeana
Research wants more people to make use of this material in
academic research, especially in the humanities.
We are exploring
possibilities to liaise with the EOSC, which also caters to research
needs in the social sciences and humanities. In this context, how do
Europeana services comply with the FAIR principles and how can we
play a role in the wider adoption of these principles in the cultural
heritage sector?
How do the
FAIR principles align with Europeana's?
There is much
resonance between the FAIR principles and Europeana's values and
objectives, as embodied in its strategy.
Our principles ‘Usable, Mutual, Reliable’ and the way we have
implemented them in the past ten years align with FAIR's own
'Findable, Accessible, Interoperable, Re-usable’ principles. We
have been involved in the development of technology that has great
potential for enhancing the FAIRness of data, such as open web APIs,
Linked Data and the International Image Interoperability Framework
(IIIF), implementing it for ourselves as well as encouraging everyone
in our sector to adopt it.
Europeana and
its wide network
of partners have developed a Licensing Framework
enabling fully open metadata and the mandatory labelling of content
with standardised and interoperable rights
statements which make the reuse possibilities for each item
clear. We have also been advocating for the adoption of better
copyright
policies that make it easier to openly share cultural data across
the board. Finally, the large network of Europeana’s data
partners has worked on improving the quality of the data provided in
an effort to make our vastly diverse data more usable across domains
and languages.
[Ontwerp:]
S[ocié]té A[nony]me de l'Exposition universelle et internationale
de Gand 1913. Entrée principale. Coupe A-B, Oscar Henricus Van
de Voorde, 1913, Ghent University Library, CC BY-SA
How do
Europeana's data and services meet the FAIR requirements?
Europeana
aggregates metadata records about cultural heritage objects.
These records provide links to
digitised content that is accessible on the websites of Europeana's
partners and fuels a search service that facilitates the discovery of
cultural material for a wide variety of audiences. Both data and
services are presented via a web platform and a series of APIs. There
are, therefore, several levels to consider when assessing the
FAIRness of Europeana's offer.
F- To be
Findable
The digitised
content that Europeana provides access to is described by metadata,
the aggregation of which constitutes the backbone of Europeana's
services. The scale and diversity of Europeana's metadata sets imply
that their richness
varies greatly. But Europeana has equipped itself with a data
model (see below) that follows the linked data principles which give,
besides flexibility, the possibility for our partners - or Europeana
itself - to enrich
metadata with links to (multilingual) semantic resources that
also describe the ’context’ of cultural objects, making them
easier to find.
As
mentioned earlier, we index the Europeana dataset and make it
searchable online ourselves. In addition, the dataset is findable
through the European research infrastructures CLARIN
and EUDAT.
Europeana and
our partners promote the persistent identification of both cultural
heritage objects’ metadata and digital versions. Europeana assigns
identifiers to every aggregated record, and has procedures in place
to support the persistence of its identifiers whenever possible.
Europeana identifiers are URIs and are included in the data records
in all formats in which the dataset is available. In a context of
aggregation where data is passed and processed across different
partners, we cannot (and for provenance concerns do not want to)
enforce global uniqueness, i.e. there can be several identifiers for
several versions of a resource. But we do try to maintain links
across all these versions so that consumers of our services can
always find what they search for.
A - To be
Accessible
Europeana
identifiers are resolvable (HTTP) URIs, which orient users and
data-consuming services towards pages on our website or data from our
APIs. Europeana also tries to resolve URIs that are obsolete and have
been updated for technical reasons, by using HTTP redirection.
Europeana’s
dataset is accessible through Web
APIs that implement open, standard protocols, such as the Linked
Data protocols and practices (including SPARQL),
OpenSearch,
OAI-PMH.
Access to the
dataset’s records via their URIs is free and no authentication is
required. Some APIs (such as the Annotations
API) and parts of our platform (such as Europeana
1914-1918) require authentication, as they allow the modification
of our data.
I - To be
Interoperable
Europeana uses
the Europeana
Data Model (EDM) for data exchange with data providers, for its
internal information system, and also for third-party use. EDM is a
collaborative, community-based model, developed in consultation with
representatives from all the domains represented in Europeana. It is
under continuous improvement. EDM is based on the Resource
Description Framework (RDF), which allows us to create a model for
our metadata that mostly reuses existing (Linked Data) standard
vocabularies, such as Dublin Core, SKOS, and FOAF.
Europeana
supports its data partners to use vocabularies for referring to
concepts, places, persons and organisations. The most prominent
vocabularies in use within the dataset are DBpedia
and Geonames. Our use of
external vocabularies for enrichment always follows the standard
practices of Linked Open Data and
concerns such as quality and access.
Note that in a
couple of cases that are crucial for Europeana, we have embarked on
making our own vocabularies, such as the one at
RightsStatements.org (see below) to complement existing
standards. Again, this is community-driven and follows existing best
practices (such as providing URIs).
R - To be
Reusable
Facilitating the
reuse of cultural heritage data is a key Europeana objective.
Any metadata
provided to Europeana needs to be licensed under CC0, and Europeana
makes the complete aggregated metadata set (including the outcomes of
its own data improvements) openly available under CC0 as well.
The rights for
using the content are stated in every record, using rights statements
from either Creative Commons
or RightsStatements.org,
the latter being a vocabulary developed as a community initiative to
improve the communication of the copyright and reuse status of
digital objects by cultural heritage institutions, making it easier
for users to ‘see if and how online cultural heritage works can be
reused’.
Provenance of
the data is always stated, acknowledging the original data provider
(e.g. a museum or library) and all intermediaries in the aggregation
workflow in the metadata.
Finally, our
metadata is made available with the use of data standards commonly
used in the cultural heritage, education and research domains, such
as Schema.org, Dublin
Core, SKOS and
others (thanks partly to EDM following best practices for data
modelling and being already based on these standards).
What will
Europeana do in the near future?
To further
encourage partners to provide richer data that makes digital cultural
heritage more findable and more reusable, Europeana has ongoing data
quality efforts to share best practices and report
on the quality of content and metadata in a way that is helpful
and motivating both for providers and users.
We have recently
defined measures for metadata quality, identifying key data elements
and values that enable rich user interfaces and better user
experience. In the coming months, we are going to make these
measurements accessible to our data reusers so that they can identify
the material that is most useful to them.
With respect to
accessibility of digitised content, Europeana is a founding member of
the new International Image Interoperability Framework (IIIF). IIIF
is a set of open APIs designed to help people publish digital content
on the web in a way that is more interoperable, allows richer
interaction with content across any repositories and keeps better
track of provenance of content. Europeana recognises and exploits
IIIF content that is provided to us and works hard on encouraging our
data partners to adopt it.
Other
developments that are relevant to FAIR metrics include the upcoming
implementation of a ’single sign-on’ authorisation mechanism
across all our products, and the continuous effort to adapt our data
model to new application and data-sharing needs, in a
community-driven way (a recent example being an extension to
represent and publish the full-text content of newspapers).
Stay informed
and join us
To stay informed
about developments like those outlined in this post, join the
Europeana
Research and/or the EuropeanaTech
communities of the Europeana Network Association, and follow us on
Twitter (@eurresearch
and @europeanatech)
This post
was edited on 01/02/2022 to clarify how Europeana assigns identifiers
to records.
Contact Alba
Irollo
Research
Coordinator, Europeana Foundation
Alba is in
charge of Europeana Research, the bridge between the Europeana
Foundation and researchers, research institutions and
infrastructures. She coordinates the Research Advisory Board's
activities and is the Europeana Research Community manager. Besides
being responsible for the Research …
alba.irollo@europeana.eu
+31 (0)70 314 0972
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com