Guiding Principles for Findable, Accessible, Interoperable and Re-usable Data Publishing version b1.0
CÁC NGUYÊN TẮC FAIR
Lời nói đầu:
Trong
hệ
sinh thái Khoa học Điện tử (eScience), thách
thức của việc xúc tác cho sử dụng tối ưu dữ liệu
và phương pháp nghiên cứu là thách thức phức tạp với
nhiều bên tham gia đóng góp: Các nhà
nghiên cứu muốn chia sẻ dữ liệu và giải thích
làm sáng tỏ; Các nhà
xuất bản dữ liệu chuyên
nghiệp chào các dịch vụ của họ, Các
lập
trình viên xây dựng phần mềm và công cụ cung cấp
các dịch vụ phân tích và xử lý dữ liệu; Các cơ quan
cấp vốn (cả tư nhân lẫn nhà nước) ngày càng quan tâm
tới Quản lý Dữ liệu đúng thích hợp; và cộng đồng
Khoa học Dữ liệu khai phá, tích hợp và phân tích đầu
ra để cải tiến sự phát hiện. Phân tích tính toán để
phát hiện các mẫu có ý nghĩa trong các tập hợp khổng
lồ được kết nối với nhau nhanh chóng trở thành hoạt
động nghiên cứu thường xuyên. Việc
cung cấp dữ liệu máy đọc được là nền tảng chính
cho Phát hiện Tri thức và cho các quy trình Khoa học Điện
tử đó chạy được trơn tru và bền vững là một trong
những Thách thức Lớn của Khoa học Điện tử.
Vào
tháng 01/2014,
các đại diện của một dải các
bên tham gia đóng góp đã
cùng
nhau đi tới yêu cầu Trung tâm Khoa học Điện tử Hà
Lan (Netherlands eScience Center) và Trung tâm Kỹ thuật Hà Lan
về Khoa học Đời sống - DTL (Dutch Techcentre for the Life
Sciences) ở Trung tâm Lorentz Center ở Leiden, The Netherlands,
nghĩ và tranh luận về cách tiếp tục cải thiện hệ
sinh thái này.
Từ các thảo luận đó, ý niệm nổi lên rằng, qua định
nghĩa và sự hỗ trợ lan rộng của một
tập hợp tối thiểu các nguyên tắc chỉ dẫn và thực
hành được sự đồng thuận của cộng đồng,
các nhà cung cấp dữ liệu và những người tiêu dùng dữ
liệu - cả
cho máy và người
- có thể dễ dàng hơn để phát hiện, truy cập, tương
hợp, và sử dụng lại hợp lý, với trích dẫn đúng phù
hợp. lượng khổng lồ thông tin đang được khoa học
tăng cường dữ liệu đương thời ngày nay tạo ra. Các
nguyên tắc và thực hành đơn giản đó nên xúc tác cho
dải rộng lớn các hành vi có tính hợp nhất và thăm dò,
và hỗ trợ cho dải rộng lớn các lựa chọn công nghệ
và triển khai, hệt như Giao thức Internet - IP (Internet
Protocol)
đã cung cấp lớp tối thiểu - “cái thắt lưng” của
đồng hồ cát - xúc tác cho sự tạo ra dải khổng lồ
các công cụ dữ liệu trong cung cấp, tiêu dùng, và trực
quan hóa trên Internet.
2. Ngữ cảnh
Là
quan trọng để lưu ý rằng tài liệu này là ‘chỉ dẫn
chung cho các nguyên tắc FAIR của dữ liệu‘, chứ không
phải là “đặc tả”. Trong việc biên dịch các nguyên
tắc chỉ dẫn FAIR cho tài liệu này, các lựa chọn triển
khai kỹ thuật đã được tránh có chủ ý. [Các nguyên
tắc Chỉ dẫn FAIR] tối thiểu ngụ ý chỉ dẫn cho
những người triển khai các môi trường dữ liệu FAIR
trong việc kiểm tra xem liệu các lựa
chọn triển khai đặc thù của họ quả thực có trả về
các dữ liệu kết quả FAIR hay không. Trong lưu ý
Giải thích và các phụ lục chúng tôi đưa ra vài giải
thích và chỉ dẫn không ràng buộc về quan điểm FAIR về
dữ liệu và những gì tạo thành một kho dữ liệu FAIR
(một ‘cổng Dữ liệu FAIR - Data FAIRport’).
3. FAIR cho máy và cho người
Trong
eScience, 2 nền tảng được tách biệt nhau rõ ràng để
phát hiện tri thức có thể phân biệt được.
-
Dữ liệu thực sự, nó như là quy định nằm ngoài khả năng tri thức con người để phân tích và
-
‘Explicitome’ (mọi điều chúng ta đã làm rõ ràng trong văn bản, các cơ sở dữ liệu và bất kỳ định dạng nào khác cho tới nay).
Điều
cơ bản của eScience
là dữ
liệu được liên
kết với nhau hoặc theo chức năng hoặc kết hợp chúng
với các tập hợp dữ liệu ‘khá nhỏ’ mới được
sinh ra dẫn tới sự thấu hiểu mới. Bước sống còn là
‘thừa nhận mẫu’ được máy hỗ trợ trong dữ liệu
đó, điều được nghiên cứu về Explicitome của con người
‘phù hợp’ tuân theo để hợp lý hóa các mẫu và xác
định giả thuyết có thể thử được. Rõ ràng điều
này là quy trình tuần hoàn theo bản chất tự nhiên, nhưng
phân tích có tính toán các tập hợp dữ liệu khổng lồ,
phân tán và hay biến động ban đầu là pha sống còn
trong bất kỳ quy trình eScience nào.
Nhận
thức được thách thức mới và to lớn này trong khoa học
đương thời, trong cuộc họp ban đầu của nó: [Thiết kế
Chung cổng Dữ liệu FAIR - Jointly
Designing a Data FAIRTport], nhóm các bên tham gia đóng
góp đã thống nhất xung quanh 4 điều mong ước và môi
trường xuất bản dữ liệu hiện đại nên cung cấp để
hỗ trợ cả cho thủ công và tự động ký gửi, khai
thác, chia sẻ và sử dung lại để hỗ
trợ cho máy cũng như người.
Chúng
được tóm tắt như là các “Khía cạnh – Facets” của
FAIR:
-
Dữ liệu nên có khả năng tìm được – Findable
-
Dữ liệu nên có khả năng truy cập được – Accessible
-
Dữ liệu nên có khả năng tương hợp được - Interoperable
-
Dữ liệu nên có khả năng sử dụng lại được – Re-usable.
Các
khía cạnh FAIR rõ ràng có liên quan, nhưng về mặt kỹ
thuật khá độc lập với nhau, và có thể được
triển khai trong sự kết hợp, dần dần, khi các nhà cung
cấp và cổng FAIR (FAIRport) ngày càng tiến hóa tới các
mức độ của tính FAIR. Bằng cách đó, rào cản lối vào
đối với các nhà sản xuất dữ liệu FAIR, các nhà
xuất bản và các nhà quản trị được duy trì càng
thấp có thể càng tốt, với các nhà cung cấp đang được
khuyến khích gia tăng dần dần số các Khía cạnh FAIR
(FAIR Facets) mà họ tuân thủ.
Vì
thế, mục đích của tài liệu này không phải là định
nghĩa cũng không gợi ý bất kỳ triển khai công nghệ nào
cho bất kỳ khía cạnh nào, mà thay vào đó định nghĩa
các đặc tính, các chuẩn mực, và các thực hành mà các
nguồn dữ liệu, các công cụ và hạ tầng nên thể hiện
để được coi là ‘FAIR’, và tính FAIR có thể đạt
được với dải rộng lớn các công nghệ và triển khai.
Các
nguyên tắc chỉ dẫn dữ liệu FAIR
Đối
với tất cả các bên có liên quan trong Quản trị Dữ
liệu (Data Stewardship), các khía cạnh của tính FAIR, được
mô tả bên dưới, cung cấp chỉ dẫn từng chút một về
cách họ có thể hưởng lợi từ việc rốt cuộc chuyển
sang mục đích có tất cả các khái niệm được tham
chiếu tới các Đối tượng Dữ liệu (Siêu dữ liệu
hoặc bản thân các Yếu tố Dữ liệu) được phân
giải rõ ràng không mù mờ cho máy, và vì thế cũng
cho con người.
Bằng
việc áp dụng tất cả các khía cạnh của FAIR, các Đối
tượng Dữ liệu trở nên đầy đủ: Tìm kiếm được,
Truy cập được, Tương hợp được và Sử dụng lại
được.
Các định nghĩa
-
Khái niệm là bất kỳ ‘đơn vị tư duy’ (unit of thought) được định nghĩa nào chúng tôi tham chiếu tới trong các định dạng số của chúng ta [1]
-
Đối tượng Dữ liệu được định nghĩa vì mục đích của các nguyên tắc bên dưới như: Hạng mục Dữ liệu có khả năng Nhận diện được với các Yếu tố Dữ liệu + Siêu dữ liệu + Mã nhận diện [2]
-
Khi chúng tôi sử dụng khái niệm (Siêu) dữ liệu ở đây, chúng tôi có ý định chỉ ra rằng nguyên tắc đó là đúng cho Siêu dữ liệu - Metadata cũng như cho các Yếu tố Dữ liệu thực tế, được thu thập trong Đối tượng Dữ liệu, nhưng nguyên tắc theo yêu cầu có thể được triển khai độc lập cho từng trong số chúng [3].
Các nguyên tắc Chỉ dẫn FAIR
1.
Để có
khả năng tìm kiếm được - Findable,
bất kỳ Đối tượng Dữ liệu nào cũng nên có khả năng
nhận diện được duy nhất và thường trực [4]
1.1.
Đối tượng Dữ liệu y hệt nên là tìm kiếm lại được
ở bất kỳ thời điểm nào, vì thế các Đối tượng Dữ
liệu nên là thường
trực - persistent,
với sự nhấn mạnh vào siêu dữ liệu của chúng , [4
và JDDCP 4
và JDDCP 6]
1.2.
Đối tượng Dữ liệu nên tối thiểu gồm siêu dữ liệu
cơ bản máy
có khả năng hành động được,
cho phép nó phân biệt được với các Đối tượng Dữ
liệu khác [xem JDDCP
5]
1.3.
Các mã nhận diện cho bất kỳ khái niệm nào được sử
dụng trong các Đối tượng Dữ liệu vì thế cũng nên là
Độc
nhất - Unique và Thường trực – Persistence
[5 and JDDCP
4 and JDDCP
6].
2.
Dữ liệu là có khả năng Truy
cập được – Accessible
theo đó máy
và con người luôn có thể giành được nó
2.1.
Dựa vào sự ủy quyền đúng thích hợp [6]
2.3.
Vì thế, máy và con người tương tự
như nhau sẽ có khả năng phán xét về khả năng
truy cập thực sự từng Đối tượng Dữ liệu.
3.
Các Đối tượng Dữ liệu có thể Tương
hợp được - Interoperable
chỉ nếu:
3.2.
Các định dạng (siêu) dữ liệu sử dụng từ vựng
và/hoặc bản thể học được chia sẻ [9]
3.3.
(Siêu) dữ liệu trong Đối tượng Dữ liệu vì thế nên
vừa là có khả năng phân tích cú pháp được và máy
truy cập theo ngữ nghĩa được
[10]
4.
Đối với các Đối tượng Dữ liệu có tiêu chí bổ
sung Sử
dụng lại được – Re-usable
là:
4.1.
Các Đối tượng Dữ liệu nên tuân thủ với các
nguyên tắc từ 1 tới 3
4.2.
(Siêu) dữ liệu nên được mô tả đủ tốt và giàu để
nó có thể được liên kết hoặc tích hợp tự động
(hoặc với nỗ lực tối thiểu của con người), giống
như với các nguồn dữ liệu khác [11
và JDDCP 7
và JDDCP
8]
4.3.
Các Đối tượng Dữ liệu Được xuất bản nên tham
chiếu tới các nguồn của chúng với siêu dữ liệu đủ
giàu và gốc gác để xúc tác cho sự trích dẫn đúng phù
hợp (tham chiếu tới JDDCP
1-3).
RDA
DFT (Thuật ngữ và Quỹ Dữ liệu)
Chúng
tôi tuân theo các định nghĩa và lý lẽ của Tam giác
Richard / Ogden ( Ogden/Richard Triangle) và lý thuyết về ý
nghĩa cho khái niệm, biểu tượng và các định nghĩa có
ý nghĩa: xem http://en.m.wikipedia.org/wiki/Triangle_of_reference.
Bản thân Khái niệm đó không phải là Đối tượng Số,
nhưng bất kỳ biểu tượng nào tham chiếu tới nó trong
các máy tính cũng là Đối tượng
Số. Các từ phát âm, các URL của các URI và bất kỳ mã
nhận diện nào khác tất cả đều là các biểu tượng
tham chiếu tới khái niệm đó.
Chúng
tôi đề xuất khái niệm ‘Đối tượng Dữ liệu - Data
Object’ để tham chiếu tới sự kết hợp của các yếu
tố dữ liệu + siêu dữ liệu của nó + mã nhận diện
độc nhất. Các đối tượng đó là tùy tiện phức tạp
và có thể xuất hiện ở bất kỳ mẫu dạng và cú pháp
nào.
[3]
Chúng tôi rõ ràng nhận thức được rằng các kho các Đối
tượng Dữ liệu với siêu dữ liệu FAIR cho các Yếu tố
Dữ liệu như vậy là (chưa) phải là FAIR (như trong máy
đọc được,
ví dụ như các hình ảnh, video
hoặc văn bản được ghi lại) là có giá trị cao,
nhưng nên phân biệt được với các kho với các yếu tố
dữ liệu được tuyển chọn cao, máy
đọc được hoàn toàn (điều sau rõ ràng cũng đi
với siêu dữ liệu FAIR gắn kèm). Vì thế siêu dữ liệu
FAIR là bắt buộc phải có và các yếu tố dữ liệu FAIR
là ‘mục tiêu cuối cùng’.
[4]
Sự thường trực – Persistence là đặc tính của tổ
chức; một cách có hiệu quả, nó là bắt buộc, dù chính
thức hay không chính thức, rằng một tổ chức đảm bảo
rằng thứ gì đó sẽ được duy trì. Bằng cách đó,
chính sách thường trực của các tổ chức nên là rõ
ràng và công khai. Chúng tôi đề xuất rằng các cổng
FAIR - FAIRports nêu rõ ràng các đảm bảo thường trực
của họ và tìm cách nhân bản và sao lưu các tài nguyên
của họ bất kỳ khi nào có thể.
[5]
Có các cuộc tranh luận liên tục và nóng bỏng về chính
xác những gì tạo thành mã nhận diện ’thường trực’.
Khái niệm đồng nghĩa PID cố tình được/bị tránh ở
đây vì nó có thể có những nghĩa rộng của các triển
khai sở hữu độc quyền. Chúng tôi đề xuất cho phép
nhiều mã nhận diện trong các môi trường xuất bản dữ
liệu FAIR, miễn là mã đó tham chiếu độc nhất
tới chỉ một khái niệm và nhà
xuất bản cung cấp chính sách và mô tả rõ ràng về
đảm bảo tối đa có khả năng đạt được cho việc
phân giải thường trực của mã nhận diện đó tới vị
trí/ý nghĩa đúng. Rõ ràng, các mã nhận
diện được sử dụng ‘cục bộ’ không thể ánh xạ
được tự động tới cộng đồng áp dụng và các lược
đồ mã nhận diện được chia sẻ công khai không phải
là FAIR. Nhà
xuất bản dữ liệu lựa chọn một lược đồ mã nhận
diện ‘sở
hữu độc quyền’, sẽ cần
phải cung cấp các ánh xạ đúng và thích hợp tới các
mã công khai để được coi là FAIR.
Các
tổ chức cung cấp các mã nhận diện thường trực (như,
‘các nhà chức trách’ nên xuất bản rõ ràng các chính
sách điều chỉnh tiêu chí thường trực đó của các mã
nhận diện đó. Các chính sách như vậy
nên là máy đọc được.
Cũng
đặc biệt để sử dung thương mại dữ liệu FAIR, các
công ty cần phải có quan điểm pháp lý và đánh giá rõ
ràng về khả năng sử dụng dữ liệu của họ. Các
dữ liệu không được cấp phép, dù ‘mở’ trong đầu
của hầu hết các nhà
nghiên cứu hàn lâm, sẽ
được/bị các công ty chủ chốt lảng tránh, vì các rủi
ro pháp lý. Chúng tôi đánh giá
cao các loại trừ ngoại lệ đối với Truy cập Mở đầy
đủ của dữ liệu (ví dụ đối với tính riêng tư của
bệnh nhân hoặc vì các lý do về sở
hữu trí tuệ).
Chúng tôi vì thế coi việc cấp phép
đúng thích hợp của các Đối tượng Dữ liệu (hoặc
thậm chí các yếu tố dữ liệu riêng bên trong chúng) như
là chìa khóa cho việc xuất bản dữ liệu FAIR.
Các
giấy phép và các điều kiện sử dụng Đối tượng Dữ
liệu (hàn lâm và/hoặc riêng tư/thương mại) nên được
mô tả tốt. Các giấy phép như vậy có thể được tham
chiếu tới với các mã nhận diện thường trực cũng như
phần của siêu dữ liệu trong các Đối tượng Dữ liệu.
Cộng đồng FAIRport sẽ cung cấp và khuyến cáo ngày càng
nhiều các giấy phép tiêu chuẩn để lựa chọn. Cộng
đồng FAIRport mạnh mẽ khuyến cáo rằng hầu hết ‘các
nhà chức trách’ phê chuẩn FAIRport sẽ yêu cầu rằng
các loại trừ ngoại lệ đối với Truy cập Mở cần
phải được tranh luận tốt (xem
Phụ
lục
3).
(Danh
sách các giấy
phép) Jan
Velterop/Hohn Wilbanks.
[7]
Việc đặt dữ liệu ‘lên web’ là không đủ. Để thực
sự tương hợp được và sử dụng lại được, các Đối
tượng Dữ liệu nên không chỉ được cấp phép đúng
thích hợp, mà còn cả các phương pháp để truy cập
và/hoặc tải chúng về cũng nên được mô tả tốt và
ưu tiên được tự động hóa đầy đủ bằng việc sử
dụng các giao thức được thiết lập tốt.
[8]
Trong eScience, khả năng máy
đọc được dữ liệu là cấp thiết. Siêu
dữ liệu máy đọc được là
điều kiện không thể thiếu (conditio sine qua non)
cho tính FAIR. Việc có các yếu tố dữ liệu thực máy
cũng đọc được sẽ làm cho Đối tượng Dữ liệu
mức tương hợp cao hơn và làm cho việc kết nối lẫn
nhau và phân tích chức năng trong ngữ cảnh rộng lớn hơn
dễ dàng hơn nhiều, ví dụ như các hình ảnh và ‘dữ
liệu thô’ có thể không luôn được làm để máy
có khả năng xử lý được. Được xuất bản với
siêu dữ liệu FAIR là có giá trị rất cao theo đúng nghĩa
của nó.
[9]
Khi sự sử dụng của cộng đồng được áp dụng và các
hệ thống thuật ngữ công khai là không thể, ví dụ vì
các lý do được mô tả trong lưu ý giải thích số 5,
hoặc vì các Đối tượng Dữ liệu gồm các khái niệm
còn chưa được mô tả trong bất kỳ từ vựng hoặc bản
thể luận công khai nào được biết đối với nhà cung
cấp, thì các nhà cung cấp, dù vậy, vẫn nên thử tạo
ra hạng mục từ vựng của riêng họ và xuất bản nó
công khai và mở, ưu tiên ở dạng máy
đọc được. Từ vựng hoặc bản thể luận mà
ràng buộc từng trường dữ liệu bị/được ràng buộc
nên được nhận diện rõ ràng không tù mù hoặc bằng
bản thân trường đó hoặc bằng siêu dữ liệu có liên
quan của Đối tượng Dữ liệu đó. Đối với các trường
không bị/được ràng buộc, bất kỳ khi nào có thể,
dạng giá tri của trường đó nên được chú giải bằng
việc sử dụng từ vựng hoặc bản thể luận truy cập
được công khai. Chú giải này nên là rõ ràng trong siêu
dữ liệu của Đối tượng Dữ liệu đó.
Cả
cú pháp và ngữ nghĩa của các mô hình và các định dạng
dữ liệu được sử dụng cho dữ liệu (Đáp ứng) trong
các Đối tượng Dữ liệu nên là dễ để nhận diện và
sử dụng, phân tích cú pháp hoặc dịch bằng máy. Như
trong trường hợp của các lược đồ mã nhận diện và
các từ vựng, sự đa dạng rộng lớn các định dạng dữ
liệu (trải từ các URI đặc trưng cho các bảng tính như
RightField hoặc
OntoMaton cho tới RDF giàu) về nguyên tắc đều có thể là
FAIR. Là rõ ràng rằng bất kỳ việc phân tích cú pháp và
giao thức dịch nào cũng có khuynh hướng gây lỗi và tình
trạng lý tưởng là hạn chế việc xuất bản dữ liệu
FAIR như các định dạng và các tiêu chuẩn được càng
ít cộng đồng áp dụng có thể càng tốt. Tuy nhiên, nếu
nhà cung
cấp có thể chứng minh rằng mô hình/định dạng
dữ liệu có thể thay thế là có khả năng phân tích được
cú pháp một cách rõ ràng cho một trong các định dạng
FAIR được cộng đồng áp dụng, thì không có lý do đặc
biệt nào giải thích vì sao định dạng như vậy lại
không được coi là FAIR.
Vài
dạng dữ liệu đơn giản có lẽ không ‘nắm bắt được’
trong một trong những định dạng đang tồn tại, và trong
trường hợp đó có lẽ chỉ một phần của các yếu tố
dữ liệu đó có thể phân tích được cú pháp. Các
FAIRport sẽ ngày càng nhiều hơn chào chỉ dẫn và hỗ trợ
trong các trường hợp như vậy.
[11]
Siêu dữ liệu của một Đối tượng Dữ liệu nên giàu
đủ sao
cho máy hoặc người
sử dụng,
khi phát
hiện, có thể tiến hành lựa chọn có đầy đủ thông
tin về việc liệu có hay không phù hợp để sử dụng
Đối tượng Dữ liệu đó trong ngữ cảnh phân tích của
họ. Siêu dữ liệu có trong Đối tượng Dữ liệu đó
nên thông báo cho người
tiêu dùng về giấy phép của các yếu tố dữ liệu;
siêu dữ liệu này nên là máy đọc
được để tạo thuận lợi cho việc thu thập dữ
liệu tự động trong khi vẫn duy trì sự thừa nhận ghi
công đúng thích hợp. Siêu dữ liệu có trong Đối tượng
Dữ liệu đó nên thông báo về bất kỳ chính sách kiểm
tra truy cập nào, như việc những người tiêu dùng có thể
xác định các thành phần nào của dữ liệu họ được
phép truy cập. Siêu dữ liệu trong Đối tượng Dữ liệu
đó nên thông báo về thủ tục xác thực dẫn tới sự
truy cập, nếu áp dụng được.
Hơn
nữa, trong eScience, nơi sự thừa nhận mẫu trong các tập
hợp dữ liệu ‘lớn’ được tích hợp hoặc được
liên kết về chức năng đang trở thành chuẩn mực, thì
gốc gác là chủ chốt. Trong trường
hợp một mẫu nổi lên từ các thuật toán phân tích dữ
liệu, các nghiên cứu hợp lý hóa và có tính xác định
về các nguồn dữ liệu nằm bên dưới là bước sống
còn tiếp theo. Nếu gốc gác của các Yếu tố Dữ liệu
đó đối với Đối tượng Dữ liệu gốc của chúng và
sau đó tới các nguồn nằm bên dưới (văn bản người
đọc được, các cơ sở dữ liệu, các tệp dữ liệu
thô, …) bị mất, thì các nhà
nghiên cứu sẽ không có khả năng lần vết bằng
chứng đối với những gì mẫu đó gợi ý cho giả thuyết
có thể kiểm thử được.
Lưu
ý cuối cùng: Chúng tôi rõ ràng thừa nhận rằng là có
khả năng để triển khai bất kỳ khía cạnh con nào mà
không triển khai tất cả chúng. Ở đây chúng tôi đưa ra
một vài chỉ dẫn ban đầu về cách cải thiện dần dần
tính FAIR của các Đối tượng Dữ liệu.
Facet-I-syn:
Siêu dữ liệu được cung cấp ở định dạng có
thể được máy phân tích cú pháp được; nghĩa là
có một tiêu chuẩn mở cho định dạng theo đó việc phân
tích tin cậy cú pháp mã có thể được viết.
Siêu
dữ liệu nên tham chiếu tới lược đồ được sử dụng
Facet-I-sem:
Siêu dữ liệu tận dụng các từ vựng hoặc bản thể
luận được kiểm soát được chia sẻ, cho phép ánh xạ
các trường siêu dữ liệu giữa các nguồn phân tán (bất
kể cú pháp của chúng trong từng kho của các kho đó)
Siêu
dữ liệu nên tham chiếu tới các từ vựng và các bản
thể luận được sử dụng
Facet-I-data:
Bất kỳ khi nào có thể, dữ liệu nên được cung cấp ở
định dạng có thể được máy phân
tích cú pháp; nghĩa là có một tiêu chuẩn mở cho
định dạng theo đó việc phân tích tin cậy cú pháp mã
có thể được viết.
Các
cấu trúc dữ liệu nên được định nghĩa theo lược đồ
công khai, được làm thành tài liệu, và ở những nơi có
khả năng, được làm để máy đọc
được.
Cốt
lõi của quy trình định dạng và xuất bản dữ
liệu FAIR là cách nhìn toàn diện về những gì tạo
nên Dữ liệu và cấu trúc của nó được tạo nên như
thế nào. Triển vong về giá trị gia tăng (của eScience)
của dữ liệu FAIR đầu tiên và trước
hết là ‘FAIR cho máy’. Khả năng con người đọc
được là ‘dẫn xuất’ của dữ liệu
máy đọc được được định dạng và được định
nghĩa tốt rõ ràng là sống còn cho sự diễn giải cuối
cùng.
Thực
sự, dữ liệu FAIR sẽ cải thiện khả năng đọc được
của con người, ví dụ, như các khoản mục biểu thị
khái niệm có thể được trình bày cho những người
sử dụng là con người theo ngôn ngữ của riêng họ,
dựa vào ARTA (Also Referred To As - Còn được Tham chiếu Tới
Như là) các bảng dịch các mã nhận diện máy
phân giải được sang các khoản mục ngôn ngữ.
Vì
thế chúng tôi coi dữ liệu ở đây ban đầu ở ‘định
dang số’. Từ đó quan điểm cũng ‘Dữ liệu’ và
‘Siêu dữ liệu’ chỉ khác nhau về ‘những gì chúng
trình bày’ và về ‘những gì chúng được sử dụng
cho’ không ở trong định dạng kỹ thuật của chúng.
Cuối cùng, trong eScience, ‘phần mềm’ làm việc với dữ
liệu là không tách bạch khỏi bản thân dữ liệu đó và
vì lý do đơn giản hóa chúng tôi sẽ ứng xử với ‘mã’
như là ‘dữ liệu có khả năng thực thi được’ vì
mục đích của tài liệu tóm tắt ngắn gọn này.
-
Dữ liệu được máy sử dụng về bản chất là ‘số’ và từng Đối tượng Dữ liệu (được xác định theo các nguyên tắc FAIR) vì thế là một ‘Đối tượng Số’ một cách tự nhiên.
-
Một trong các Đối tượng Số nhỏ nhất trong việc thiết lập dữ liệu FAIR là Mã nhận diện duy nhất tham chiếu tới khái niệm (đơn vị tư duy - unit of thought), trong khi khái niệm mà nó biểu thị, bản thân nó, không phải là Đối tượng Dữ liệu. [tham chiếu tới Ogden Triangle xem các nguyên tắc FAIR, lưu ý giải thích 1]
-
Các mã nhận diện có thể được chỉ định cho các máy tính và con người, trong ngữ ảnh của dữ liệu FAIR chúng tôi khuyến cáo tối thiểu một Mã nhận diện Thường trực - PID (Persistent Identifier) máy phân giải được cho từng khái niệm được sử dụng trong một Đối tượng Dữ liệu.
-
Nhiều PID và các ID khác cho cùng các khái niệm y hệt là thực tế cuộc sống và vì thế được chấp nhận, nhưng các ID FAIR phải đảm bảo ánh xạ tới chỉ 1 khái niệm.
-
Việc ánh xạ các bảng và dịch vụ ánh xạ để làm việc với nhiều (P)ID cho các khái niệm vì thế được chấp nhận trong dữ liệu FAIR và nên được cung cấp ở những nơi cần thiết.
-
Các yếu tố dữ liệu được định nghĩa như là dữ liệu thực, và vì thế là thực tế dù không phân biêt được về mặt kỹ thuật với siêu dữ liệu của chúng.
-
Một trong những ‘Yếu tố Dữ liệu’ nhỏ nhất có thể là mối liên hệ độc nhất giữa 2 khái niệm.
-
Mỗi Đối tượng Dữ liệu (thậm chí sự khẳng định đơn giản về sự liên quan duy nhất) nên có một PID (cho Đối tượng dữ liệu như là toàn bộ) và tập hợp tối thiểu siêu dữ liệu ‘về’ Đối tượng Dữ liệu thực tế đó
-
Nhiều yếu tố dữ liệu có khả năng nhận diện được có thể chia sẻ cùng y hệt siêu dữ liệu và PID và tạo thành một Đối tượng Dữ liệu FAIR (ví dụ tập hợp các hình ảnh hoặc tập hợp các mảng dữ liệu siêu nhỏ với hàng trăm giá trị diễn đạt cho các gen).
-
Các Yếu tố Dữ liệu Nhận diện được có thể được sử dụng, được tích hợp và được phân phối một cách tách biệt như là các Đối tượng Dữ liệu mới với một PID mới và mang siêu dữ liệu đủ từ Đối tới Dữ liệu gốc ban đầu để có khả năng lần vết ngược về nó và trích dẫn được trong bản thân nó hoặc như ‘được dẫn xuất từ’ Đối tượng Dữ liệu gốc ban đầu lớn hơn.
-
Các Đối tượng Dữ liệu vì thế là các Đối tượng Số dạng ‘module’ và ‘lặp lại’ mà có thể mở rộng phạm vi từ liên quan đơn nhất giữa 2 khái niệm cho tới toàn bộ các cơ sở dữ liệu hoặc tiến trình công việc với nhiều module.
-
Các Đối tượng Dữ liệu FAIR có thể có siêu dữ liệu giàu hoặc tối thiểu, bản chất bên trong và do người sử dụng định nghĩa (xem hình 1), chúng có thể có từ 1 tới hàng triệu yếu tố dữ liệu tách biệt nhau có thể nhận diện được.
-
Vì
FAIR không phải là thương hiệu, chúng tôi đề xuất rời
khỏi quyết định ‘phê chuẩn’ các kho như là FAIRports
(dữ liệu siêu - meta data hoặc siêu dữ liệu + dữ liệu
có thể tách biệt nhau được) sang ‘các nhà chức
trách’, như các nút ELIXIR/trung tâm Hub, NIH hoặc SciELO.
Chúng
tôi đề xuất định nghĩa một FAIRport ‘ứng viên’ như
bất kỳ kho dữ liệu hướng máy
nào khác mà:
-
Gồm các Đối tượng Dữ liệu FAIR (sẽ được nhà chức trách phê chuẩn phán xét)
-
Cung cấp cho các Đối tượng Dữ liệu đó theo khả năng truy cập được định nghĩa tốt để Sử dụng lại
-
Có mô tả mở và đầy đủ tất cả các công nghệ, các từ vựng được kiểm soát và các định dạng được sử dụng.
Chúng
tôi đề xuất rằng các Bên Tin cậy trong từng nghành
khoa học
-
Định nghĩa ‘các nhà chức trách’ cho từng ‘chủng loại ngữ nghĩa’ các khái niệm thường được tham chiếu tới trong các Đối tượng Dữ liệu trong ngành của họ.
-
Định nghĩa các tiêu chí tối thiểu của họ để định tính các Đối tượng Dữ liệu như là FAIR
-
Rà soát lại các FAIRport dữ liệu riêng rẽ đối với các tiêu chí được thiết lập
-
Trao cho [bên Tin cậy] FAIR con dấu phê chuẩn tuân thủ với các FAIRport
-
Xuất bản trong các Kho Mở (ưu tiên bản thân FAIR) những gì có thẻ được kỳ vọng từ các FAIRport trong chỉ mục của nó và với con dấu chất lượng của nó.
Chúng
tôi đề xuất xem xét ‘các mức’ sau đây cho các
FAIRport, hoặc các Đối tượng Dữ liệu thực sự bao gồm
trong chúng (nói cách khác, một FAIRport có thể gồm các
Đối tượng Dữ liệu với các mức về tính FAIR khác
nhau) (xem hình).
Mức
1: Từng Đối tượng Dữ liệu có PID và siêu dữ liệu
FAIR thực chất (‘tĩnh’ thực chất)
Mức
2: Từng Đối tượng Dữ liệu có siêu dữ liệu ‘người
sử dụng định nghĩa’ (và được cập nhật) để trao
cho gốc gác lai lịch giàu ở định dạng FAIR của dữ
liệu đó, những gì đã xảy ra với nó, những gì từng
được sử dụng cho, có thể được sử dụng cho …,
điều cũng có thể được xem như là các chú giải FAIR
giàu
Mức
3: Bản thân các Yếu tố Dữ liệu trong các Đối tượng
Dữ liệu ‘về mặt kỹ thuật’ cũng là FAIR, nhưng
không Truy cập Mở đầy đủ và không Sử dụng lại được
mà không có các hạn chế (ví dụ, dữ liệu bệnh nhân
hoặc dữ liệu sở
hữu độc quyền).
Mức
4: Siêu dữ liệu cũng như bản thân các yếu tố dữ liệu
là FAIR đầy đủ và hoàn toàn công khai, theo giấy phép
được định nghĩa tốt. (Các dữ liệu
không được cấp phép được chủ nhân của chúng coi là
‘công khai’ vẫn sẽ được/bị các công ty dược phẩm
loại trừ khỏi các dự án tích hợp, ví dụ thế).
(được
áp dụng từ những đóng góp ban đầu của Michel và Juns)
Trong
khoa học được dữ liệu dẫn dắt, các nhà
nghiên cứu, mà ngày càng gia tăng trước nhất các
máy móc, cần trước hết tất cả phải tìm ra/phát hiện
ra dữ liệu có các đặc tính quan tâm, theo đó họ sẽ
sử dụng các đường liên kết, các siêu dữ liệu, cũng
như các yếu tố/các nội dung dữ liệu thực sự.
Một
khi được tìm thấy, máy cần có khả
năng truy cập/truy xuất dữ liệu quan tâm (như,
giành được bản sao các nội dung ở vài định dạng).
Tiếp theo, đối với các nhà
nghiên cứu quyết định ‘đi tiếp’ tới các máy
tính của họ để bắt đầu sử dụng lại / phân tích
dữ liệu quan tâm trong danh sách dài được truy xuất ra
từ ‘web các dữ liệu’, họ cần phải có sự truy cập
dễ dàng và các công cụ tiến trình công việc để xử
lý dễ dàng (như):
a.
Thông tin Siêu dữ liệu Giàu về các Đối tượng Dữ
liệu quan tâm được thu thập
b.
Trả lời câu hỏi bằng việc sử dụng một hoặc một
nhóm nhiều các tập hợp dữ liệu
c.
Tổng hợp các tập hợp dữ liệu và tiến hành phân tích
thống kê
d.
Thẩm định tính đúng đắn / tính xác thực của dữ
liệu
e.
Tạo gương soi/Trao đổi dữ liệu giữa các kho (tính bền
vững bởi sự dư thừa)
f.
Lặp lại / Tái tạo sự sinh ra / phân tích dữ liệu
g.
Liên kết hoặc tích hợp dữ liệu theo chức năng để có
cái nhìn gắn kết
h.
Truy xuất bằng chứng ở nhiều mức để chỉ ra sự hỗ
trợ cho giả thuyết có thể kiểm thử
i.
Trích dẫn toàn bộ các Đối tượng Dữ liệu hoặc các
yếu tố dữ liệu riêng rẽ (ở những nơi có khả năng)
vì sự tin cậy đúng.
j.
Ở bất kỳ thời điểm nào, hãy truy xuất ‘cụm dữ
liệu được trích dẫn’ như nó từng có ở thời điểm
nó đã được trích dẫn (đối với các tập hợp dữ
liệu gia tăng động, như các bộ nuôi của Twitter hoặc
các blog bệnh nhân và các hồ sơ phản ứng phụ.
Đối
với tất cả các bước đó trong tiến trình công việc
của eScience (và nhiều hơn có thể tưởng tượng được),
các đặc tính sau của dữ liệu đúng như là nền tảng
chính cho sự Phát hiện Tri thức được
máy hỗ trợ là:
-
độ giàu có của mô tả (ở định dạng máy đọc được)
-
sự thường trực (sẵn sàng khi được yêu cầu)
-
các mã nhận diện và các lược đồ trích dẫn có tại chỗ
-
khả năng truy cập - tính sẵn sàng ở nhiều định dạng khác nhau
-
tính tương hợp - các định dạng và các tiêu chuẩn / các chỉ dẫn
-
được chuẩn bị liên kết với nhau theo chức năng và ở những nơi sự tích hợp cần có
-
việc cấp phép đúng thích hợp của từng đối tượng dữ liệu
-
kiểm soát người sử dụng
-
khả năng sử dụng lại
-
gốc gác lai lịch
-
các đo đếm chất lượng
-
các nội dung do người sử dụng đóng góp
Các
nguyên tắc FAIR (Tìm thấy được, Truy cập được, Tương
hợp được và Sử dụng lại được) từng được thiết
kế với các bước tiến trình công việc nghiên
cứu đó và
các mối quan tâm trong đầu:
-
để có khả năng tìm được (F) hoặc phát hiện được, dữ liệu và siêu dữ liệu nên đươc mô tả giàu để xúc tác cho tìm kiếm dựa vào thuộc tính.
-
để truy cập được rộng rãi (A), dữ liệu và siêu dữ liệu nên có khả năng truy xuất được ở nhiều định dạng khác nhau mà chúng là dễ nhận thấy với con người và máy bằng việc sử dụng các mã nhận diện thường trực
-
để tương hợp được (I), mô tả các yếu tố siêu dữ liệu nên tuân theo các chỉ dẫn của cộng đồng mà sử dụng từ vựng mở, được định nghĩa tốt.
-
để sử dụng lại được (R), mô tả các yếu tố siêu dữ liệu cơ bản, được khuyến cáo và tùy chọn nên là máy xử lý được và thẩm định được, sử dụng nên là dễ dàng và dữ liệu nên là trích dẫn được để duy trì việc chia sẻ dữ liệu và thừa nhận giá trị của dữ liệu.
-
(được
áp dụng từ Jun và với tham chiếu tới JDDCP)
Dữ
liệu đang là
FAIR cũng là cách hỗ trợ cho ‘7-R’, điều ban đầu đã
thúc đẩy tạo ra các Đối tượng Nghiên cứu. 7-R phù
hợp với các nguyên tắc FAIR và các hoạt động khoa học
và nghiên cứu theo đó các Đối tượng Nghiên cứu
đóng vai trò chính.
Tham
chiếu: 7-R (v1); Vì sao Dữ liệu Liên kết là không đủ
cho các nhà
khoa học (2012). DOI:10.1016/j.future.2011.08.004
-
Reusable - Sử dụng lại được.
-
Repurposeable - Tái mục đích được
-
Repeatable - Lặp lại được
-
Reproducible - Tái tạo được
-
Replayable - Chơi lại được
-
Referenceable - Tham chiếu được
-
Respectful - Tôn trọng được
Chúng
tôi sẽ chi tiết hóa về sự triển khai các nguyên tắc
FAIR trong các hoạt động liên quan mà tìm
cách hỗ trợ thân thiện với máy,
chất lượng cao và khoa học tái tạo lại được như các
Đối tượng Nghiên cứu, Chia sẻ lai lịch (BioSharing),
Force11, và FAIRdom (các mô hình FAIR SB). Chúng tôi coi các
nguyên tắc FAIR như là cách bao quát tổng thể để hỗ
trợ cho nhiều thực hành mới có liên quan tới eScience,
chia sẻ dữ liệu và việc cung cấp sử dụng lại dữ
liệu và các phần mềm đi kèm theo, các thực hành nắm
bắt dữ liệu trong thiết kế nghiên
cứu và
nhiều mô hình phạm vi, trực quan hóa và trích dẫn dữ
liệu đúng cách và các đo đếm lựa chọn thay thế
(alt-metrics).
FAIR PRINCIPLES
Preamble:
In
the eScience ecosystem, the challenge of enabling optimal use of
research data and methods is a complex one with multiple
stakeholders: Researchers wanting to share their data and
interpretations; Professional data publishers offering their
services, software and tool-builders providing data analysis and
processing services; Funding agencies (private and public)
increasingly concerned with proper Data Stewardship; and a Data
Science community mining, integrating and analysing the output to
advance discovery. Computational analysis to discover meaningful
patterns in massive, interlinked datasets is rapidly becoming a
routine research activity. Providing machine-readable data as the
main substrate for Knowledge Discovery and for these eScientific
processes to run smoothly and sustainably is one of the Grand
Challenges of eScience.
In
January 2014, representatives of a range of these stakeholders came
together
at the request of the Netherlands eScience Center and the Dutch
Techcentre for the Life Sciences (DTL) at the Lorentz Center in
Leiden, The Netherlands, to think and debate about how to further
enhance this ecosystem. From these discussions, the notion emerged
that, through the definition and widespread support of a minimal
set of community-agreed guiding principles and practices, data
providers and data consumers - both machine and human - could more
easily discover, access, interoperate, and sensibly re-use, with
proper citation, the vast quantities of information being generated
by contemporary data-intensive science. These simple principles and
practices should enable a broad range of integrative and exploratory
behaviors, and support a wide range of technology choices and
implementations, just as the Internet Protocol (IP) provided a
minimal layer - the "waist" of an hourglass - that enabled
the creation of a vast array of data provision, consumption, and
visualization tools on the Internet
2. Context
It
is important to note that this document is a general 'guide to
FAIRness of data', not
a “specification”. In compiling the FAIR guiding principles for
this document, technical implementation choices have been consciously
avoided. The minimal [FAIR
Guiding Principles]
are meant to guide implementers of FAIR data environments in checking
whether their particular implementation choices are indeed rendering
the resulting data FAIR. In Explanatory notes and annexes we give
some non-binding explanation and guidance for a FAIR view on data and
what constitutes a repository of FAIR data (a 'Data FAIRport')
3. FAIR for machines as well a people
In
eScience, two clearly separated substrates for knowledge discovery
can be distinguished.
-
The actual data, which is as a rule beyond human intellectual capacity to analyse and
-
The 'Explicitome' (everything we already made explicit in text, databases and any other format to date).
The
essence of eScience is that either functionally interlinked existing
data or the combination of those with newly generated 'relatively
small' datasets lead to new insights. A crucial step is
machine-assisted 'pattern recognition' in the data, which is followed
by 'conformational' human study of the Explicitome to rationalise
patterns and determine testable hypotheses. Obviously this is a
cyclical process by nature, but computational analysis of massive,
originally dispersed and variable datasets is a crucial phase in any
eScience process.
Recognizing
this new grand challenge in contemporary science, in its inaugural
meeting: [Jointly Designing a Data FAIRTport'] the stakeholder group
coalesced around four desiderata that a modern data publishing
environment should provide to support both manual and automated
deposition, exploration, sharing, and use to support machines as well
as humans.
These
are summarized as the FAIR "Facets":
-
Data should be Findable
-
Data should be Accessible
-
Data should be Interoperable
-
Data should be Re-usable.
These
FAIR Facets are obviously related, but technically somewhat
independent from one another, and may be implemented in any
combination, incrementally, as data providers and FAIRports evolve to
increasing degrees of FAIR-ness. As such, the barrier-to-entry for
FAIR data producers, publishers and stewards is maintained as low as
possible, with providers being encouraged to gradually increase the
number of FAIR Facets they comply with.
Therefore,
the purpose of this document is not to define nor suggest any
technological implementation for any of these facets, but rather to
define the characteristics, norms, and practices that data resources,
tools, and infrastructures should exhibit in order to be considered
'FAIR', and FAIR-ness can be achieved with a wide range of
technologies and implementations.
FAIR data Guiding Principles
For
all parties involved in Data Stewardship, the facets of FAIRness,
described below, provide incremental guidance regarding how they can
benefit from moving toward the ultimate objective of having all
concepts referred-to in Data Objects (Meta data or Data Elements
themselves) unambiguously resolvable for machines, and thus also for
humans.
By
adopting all FAIR facets, Data Objects become fully: Findable,
Accessible, Interoperable, and Reusable
Definitions
-
A Data Object is defined for the purpose of the principles below as: An Identifiable Data Item with Data elements + Metadata + an Identifier [2]
-
When we use the term (Meta) data here, we intend to indicate that the principle is true for Metadata as well as for the actual, collected Data Elements in the Data Object, but that the principle in question can be independently implemented for each of them [3].
FAIR Guiding Principles
1.
To be Findable
any Data Object should be uniquely and persistently identifiable
[4]
1.1. The same Data Object should be re-findable at any point in time, thus Data Objects should be persistent, with emphasis on their metadata, [4 and JDDCP 4 and JDDCP 6]
1.2. A Data Object should minimally contain basic machine actionable metadata that allows it to be distinguished from other Data Objects [see JDDCP 5]
1.3. Identifiers for any concept used in Data Objects should therefore be Unique and Persistent [5 and JDDCP 4 and JDDCP 6].
1.1. The same Data Object should be re-findable at any point in time, thus Data Objects should be persistent, with emphasis on their metadata, [4 and JDDCP 4 and JDDCP 6]
1.2. A Data Object should minimally contain basic machine actionable metadata that allows it to be distinguished from other Data Objects [see JDDCP 5]
1.3. Identifiers for any concept used in Data Objects should therefore be Unique and Persistent [5 and JDDCP 4 and JDDCP 6].
2.
Data is Accessible
in that it can be always obtained by machines and humans
2.1 Upon appropriate authorization [6]
2.2 Through a well-defined protocol [7 and JDDCP 5]
2.3 Thus, machines and humans alike will be able to judge the actual accessibilty of each Data Object.
2.1 Upon appropriate authorization [6]
2.2 Through a well-defined protocol [7 and JDDCP 5]
2.3 Thus, machines and humans alike will be able to judge the actual accessibilty of each Data Object.
3.
Data Objects can be Interoperable
only
if:
3.1. (Meta) data is machine-actionable [8]
3.2. (Meta) data formats utilize shared vocabularies and/or ontologies [9]
3.3 (Meta) data within the Data Object should thus be both syntactically parseable and semantically machine-accessible [10]
3.1. (Meta) data is machine-actionable [8]
3.2. (Meta) data formats utilize shared vocabularies and/or ontologies [9]
3.3 (Meta) data within the Data Object should thus be both syntactically parseable and semantically machine-accessible [10]
4.
For Data Objects to be Re-usable
additional criteria are:
4.1 Data Objects should be compliant with principles 1-3
4.2 (Meta) data should be sufficiently well-described and rich that it can be automatically (or with minimal human effort) linked or integrated, like-with-like, with other data sources [11 and JDDCP 7 and JDDCP 8]
4.3 Published Data Objects should refer to their sources with rich enough metadata and provenance to enable proper citation (ref to JDDCP 1-3).
4.1 Data Objects should be compliant with principles 1-3
4.2 (Meta) data should be sufficiently well-described and rich that it can be automatically (or with minimal human effort) linked or integrated, like-with-like, with other data sources [11 and JDDCP 7 and JDDCP 8]
4.3 Published Data Objects should refer to their sources with rich enough metadata and provenance to enable proper citation (ref to JDDCP 1-3).
RDA
DFT (Data Foundation and Terminology)
We
follow the definitions and arguments of the Ogden/Richard Triangle
and theory of meaning for concept, symbol and meaning definitions:
see http://en.m.wikipedia.org/wiki/Triangle_of_reference.
The Concept itself is not a Digital Object, but any symbol referring
to it in computers is a Digital Object. Lingual words, URI's URLs and
any other identifier are all symbols referring to the concept
[2]
See an exemplar view on Data Objects in Annex
4
We
propose the term 'Data Object' to refer to the combination of data
elements + their metadata + a unique identifier. These objects are
arbitrarily complex and may appear in many forms and syntaxes.
[3]
We explicitly recognize that repositories of Data Objects with FAIR
metadata for Data Elements that as such are not (yet) FAIR (as in
machine-readable, for instance pictures, video or recorded text) are
highly valuable, but should be distinct from repositories of fully
machine readable, highly curated data elements (the latter obviously
also with FAIR metadata attached). So FAIR metadata is a must-have
and FAIR data elements are the 'ultimate goal'.
[4]
Persistence is an organizational property; effectively, it is an
obligation, formally or informally, that an organization guarantees
that something will be maintained. As such, the organizations
persistence policy should be explicit and public. We propose that
FAIRports clearly state their persistence guarantees and seek for
replication and back up of their resources whenever possible.
[5]
There are ongoing and fierce debates on what exactly constitutes a
'persistent' identifier. The acronym-term PID is consciously avoided
here as it may have connotations of proprietary implementations. We
propose to allow many identifiers in FAIR data publishing
environments as long as an identifier is uniquely
referring to only
one
concept and the publisher provides a clear policy and description on
the maximum achievable guarantee for persistent resolving of the
identifier to the correct location/meaning. Obviously, 'locally' used
identifiers that cannot be mapped automatically to community adopted
and publicly shared identifier schemes are not FAIR.
The
data publisher choosing a 'proprietary' identifier scheme, will need
to provide appropriate and correct mappings to public identifiers to
be considered FAIR.
Organizations
providing persistent identifiers (i.e. 'authorities') should clearly
publish the policies that govern the persistence criteria of these
identifiers. Such policies should be machine readable.
Especially
also for commercial use of FAIR data, companies need to have a clear
appreciation and legal position on their ability to use data.
Non-licensed data, although 'open' in the mind of most academics,
will be avoided by most major companies, due to legal risks. We
appreciate exceptions to full Open Access of data (for instance for
patient privacy or intellectual property reasons). We therefore
consider appropriate licensing of Data Objects (or even individual
data elements within them) as key to FAIR data publishing.
Data
Object Licenses and conditions of use (academic and/or
private/commercial) should be well described. Such licenses can be
referred to with persistent identifiers as well as part of the
metadata in Data Objects. The FAIRport community will increasingly
provide and recommend standard licenses to choose from. The FAIRport
community strongly recommends to publish data in complete Open Access
wherever possible. It is expected that most 'authorities' to endorse
FAIRports will require that exceptions to Open Access need to be
well-argued (see
Annex 3)
(list
of licenses) Jan Velterop/John Wilbanks.
[7]
Putting data 'on the web' is not enough. To be actually interoperable
and reusable, Data Objects should not only be properly licensed, but
the methods to access and/or download them should also be well
described and preferably fully automated and using well established
protocols.
[8]
in eScience, machine-readability
of data is imminent. Metadata being machine readable is a conditio
sine qua non
for FAIRness. Having the actual data elements also machine-readable
will make the Data Object of a higher level of interoperability and
makes functional interlinking and analysis in broader context much
easier, but it is not
a pre-condition for FAIR data publishing. Some data elements, for
instance images and 'raw data' can not always be made
machine-processable. Being published with FAIR metadata is of very
high value in its own right.
[9]
When the use of community adopted and public terminology systems is
not possible, for instance for reasons described in explanatory note
5, or because the Data Objects contain concepts that have not yet
been described in any public vocabulary or ontology known to the
provider, the provider should nevertheless try to create a term
vocabulary of their own and publish it publicly and openly,
preferably in a machine-readable form. The vocabulary or ontology
that constrains each constrained data field should be unambiguously
identified either by the field itself or by the associated Data
Object metadata. For non-constrained fields, whenever possible the
value-type of the field should be annotated using a
publicly-accessible vocabulary or ontology. This annotation should be
clear in the Data Object metadata.
Both
syntax and semantics of data models and formats used for (Meat) data
in Data Objects should be easy to identify and use, parse or
translate by machines. As in the case of identifier schemes and
vocabularies, a wide variety of data formats (ranging from
URI-featuring spread-sheets such as RightField or OntoMaton to rich
RDF) can be principally FAIR. It is obvious that any parsing and
translation protocol is error-prone and the ideal situation is to
restrict FAIR data publishing to as few community adopted formats and
standards as possible. However, if a provider can prove that an
alternative data model/format is unambiguously parsable to one of the
community adopted FAIR formats, there is no particular reason why
such a format could not be considered FAIR. Some data types may
simply be not 'capturable' in one of the existing formats, and in
that case maybe only part of the data elements can be parsed.
FAIRports will increasingly offer guidance and assistance in such
cases.
[11]
The metadata of a Data Object should be sufficiently rich that a
machine or a human user, upon discovery, can make an informed choice
about whether or not it is appropriate to use that Data Object in the
context of their analysis. Metadata contained within the Data Object
should inform the consumer about the license of the data elements;
this metadata should be machine-readable to facilitate automated data
harvesting while maintaining proper attribution. The Metadata
contained within the Data Object should inform about any
access-control policy, such that consumers can determine which
components of the data they are allowed to access. The Metadata
within the Data Object should inform about the authentication
protocol leading to access, if applicable.
Furthermore,
in eScience, where pattern recognition in 'big' functionally linked
or integrated data sets is becoming the norm, provenance
is key.
In case a pattern emerges from the data analysis algorithms,
rationalization and confirmational studies in the underlying data
sources is a crucial next step. If the provenance of the Data
Elements to their original Data Object and subsequently to the
underlying resources (human readable text, data bases, raw data files
etc.) is lost, researchers will not be able to track the evidence for
what the pattern seems to suggest for a testable hypothesis.
Final
note: We explicitly acknowledge that it is possible to implement any
of these sub-facets without implementing all of them. Here we give
some initial guidance on how to gradully improve FAIR-ness of Data
Objects.
Facet-I-syn:
Metadata is provided in a format that can be parsed by a machine;
i.e. that there is an open standard for the format against which
reliable parsing code can be written
Metadata
should refer to the schemata used
Facet-I-sem:
Metadata takes advantage of shared controlled vocabularies or
ontologies, allowing the mapping of metadata fields between disparate
resources (regardless of their syntax in each of those repositories)
Metadata
should refer to the vocabularies or ontologies used
Facet-I-data:
Whenever possible, data should be provided in a format that can be
parsed by a machine; i.e. that there is an open standard for the
format against which reliable parsing code can be written
Data
structures should be defined according to public, documented, and
where possible machine readable, schemata.
At
the core of the FAIR data formatting and publishing process is a
comprehensive view on what constitutes Data and how is it structured.
The added value (eScience) perspective of FAIR data is first and
foremost 'FAIR for machines'. Human readability as a 'derivative' of
well formatted and defined machine readable data is obviously crucial
for final interpretation.
Actually,
FAIR data will improve human readability as for instance
concept-denoting terms can be presented to human users in their own
language, based on ARTA (Also Referred To As) tables translating
machine resolvable identifiers to lingual terms.
So
we view data here initially in the 'digital format'. From that
perspective also 'Data' and 'Metadata' are only different in 'what
they represent' and in 'what they are used for' not in their
technical format. Finally, in eScience,'software' dealing with the
data is inseparable from the data itself and for simplicity sake we
will treat 'code' as 'executable data' for the purpose of this brief
document.
-
Data used by machines are intrinsically 'digital' and each Data Object (defined in the FAIR principles) is therefore a 'Digital Object' by nature.
-
One of smallest Digital Objects in a FAIR data setting is a single Identifier referring to a concept (unit of thought), while the concept it denotes in itself is not a Digital Object. [ref. to Ogden Triangle see FAIR principles, explanatory note 1]
-
Identifiers can be designed for computers or for people, in FAIR data context we recommend minimally one machine-resolvable Persistent Identifier (PID) for each concept used in a Data Object.
-
Multiple PIDs and other IDs for the same concepts are a fact of life and thus accepted, but FAIR ID's must be guaranteed to map to only one concept.
-
Mapping Tables and Mapping Service to deal with multiple (P)IDs for concepts are thus accepted in FAIR data and should be provided where needed.
-
Data Elements are defined as the actual data, and are therefore practically although not technically distinct from their metadata.
-
One of the smallest possible 'Data Elements' is a single association between two concepts.
-
Each FAIR Data Object (even a simple assertion about a single association) should have a PID (for the Data Object as a whole) and a minimal set of metadata 'about' the actual Data Object
-
Multiple identifiable data elements can share the same metadata and PID and form one FAIR Data Object (for instance a set of images or a micro-arry data set with hundreds of expression values for genes).
-
Individual Identifiable Data Elements can be separately used, integrated, cited and distributed as new Data Objects with a new PID and carrying sufficient metadata from the original Data Object to be traceable back to it and citable in itself or as 'derived from' the original larger Data Object.
-
Data Objects are thus 'modular' and 'recurrent' Digital Objects that can scale from a single association between two concepts to entire databases or workflows with many modules.
-
FAIR Data Objects can have rich or minimal, intrinsic and user defined metadata (see picture 1), they can have one or up to millions of separately identifiable data elements.
-
As
FAIR is not a trademark, we propose to leave the decision to
'endorse' repositories as FAIRports (meta data or metadata + data can
be separated) to 'authorities', such as ELIXIR nodes/the Hub, NIH or
SciELO.
We
propose to define a 'candidate' FAIRport as any machine-oriented data
repository that:
-
Contains FAIR Data Objects (to be judged by the endorsing authority)
-
Provides these Data Objects under well defined accessibility for Re-use
-
Has a full and open description of all technologies, controlled vocabularies and formats used.
We
propose that Trusted Parties in each scientific discipline
-
Define the 'authorities' for each 'semantic category' of concepts typically referred to in Data Objects in their discipline.
-
Define their minimal criteria to qualify Data Objects as FAIR
-
Review individual data FAIRports against these established criteria
-
Give a FAIR[Trusted party] stamp of approval to compliant FAIRports
-
Publish in Open Repositories (preferably FAIR themselves) what can be expected from FAIRports in their index and with their quality stamp.
We
propose to consider the following 'levels' for FAIRports, or actually
Data Objects contained in them (in other words, one FAIRport could
contain Data Objects with Different 'levels of FAIRness) (see
figure).
Level
1: Each Data Object has a PID and intrinsic FAIR metadata (in essence
'static')
Level
2: Each Data Object has 'user defined' (and updated) metadata to give
rich provenance in FAIR format of the data, what happened to it, what
it has been used for, can be used for etc., which could also be seen
as rich FAIR annotations
Level
3. The Data Elements themselves in the Data Objects are 'technically'
also FAIR, but not fully Open Access and not Reusable without
restrictions (for instance Patient data or Proprietary data).
Level
4: The metadata as well as the data elements themselves are fully
FAIR and completely public, under well defined license. (Non-licensed
data considered 'public' by their owner will still be excluded from
integration projects by for instance Pharmaceutical companies).
In
data driven science, researchers, but increasingly primarily
machines, need first of all to find/discover data having features of
interest, for which they will be using using links, metadata, as well
as actual data elements/contents)
Once
found, machines need to be able to access/retrieve data of interest
(i.e. obtain a copy of the contents in some format). Next, for
researchers to decide on 'giving a go' to their computers to start to
re-use/analyze data of interest in the long-list retrieved from 'the
web of data' they need to have easy access to and easy workflow tools
to process (a.o.):
a.
Rich Metadata Information about the harvested Data Objects of
interest
b.
Answer a question using one or a group of many more datasets
c.
Aggregate datasets and perform a statistical analysis
d.
Validate the correctness / authenticity of the data
e.
Mirror/exchange of data between repositories (sustainability by
redundancy)
f.
Repeat/reproduce data generation/analysis
g.
Functionally link or Integrate data in order to have a coherent view
h.
Retrieve evidence at multiple levels to indicate support for a
testable hypothesis
i
Cite entire Data Objects or individual data elements (where possible)
for proper credit.
j.
At any point in time, retrieve the 'cited data cluster' as it was at
the time it was cited (for dynamically growing data sets, such as
twitter feeds or patient blogs and side effect records.
For
all these eScience workflow steps (and many more could be imagined),
the following features of proper data as the main substrate for
machine-assisted Knowledge Discovery are (ao):
-
a richness of description (in machine readable format)
-
persistence (available when requested)
-
identifiers and citation schemes in place
-
accessibility - available in a variety of formats
-
interoperability - formats and standards/guidelines
-
prepared for functional interlinking and where needed integration
-
appropriate licensing of each data object
-
user control
-
reusability
-
provenance
-
quality measures
-
user-contributed content
The
FAIR (Findable, Accessible, Interoperable and Re-usable) principles
have been designed with these research workflow steps and concerns in
mind:
-
to be findable (F) or discoverable, data and metadata should be richly described to enable attribute-based search.
-
to be broadly accessible (A), data and metadata should be retrievable in a variety of formats that are sensible to humans and machines using persistent identifiers
-
to be interoperable (I), the description of metadata elements should follow community guidelines that use an open, well defined vocabulary.
-
to be reusable (R), the description of essential, recommended, and optional metadata elements should be machine processable and verifiable, use should be easy and data should be citable to sustain data sharing and recognize the value of data.
-
(adopted
from Jun and with ref. to JDDCP)
Data
being FAIR is also a way to supporting the '7-R's', that initially
motivated the creation of Research Objects. The 7-R's fit into the
FAIR principles and the desired scientific and research activities in
which Research Objects play the key role.
Reference:
7-R (v1): Why Linked Data is not enough for scientists (2012).
DOI:10.1016/j.future.2011.08.004
-
Reusable.
-
Repurposeable
-
Repeatable
-
Reproducible
-
Replayable
-
Referenceable
-
Respectful
We
will elaborate on the implementation of FAIR principles in sister
activities that seek to support machine-friendly, high quality and
reproducible science such as Research Objects, BioSharing, Force11,
and FAIRdom (FAIR SB models). We see FAIR principles as an
overarching way to support many novel practices associated with
eScience, data sharing and re-use catering for data and the
accompanying software, data capture practices in study design and
multi scale models, visualization and proper data citation and
alt-metrics.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.