Thứ Hai, 3 tháng 7, 2017

Chỉ dẫn các Nguyên tắc Xuất bản Dữ liệu để Tìm kiếm được, Truy cập được, Tương hợp được và Sử dụng lại được phiên bản b1.0

Guiding Principles for Findable, Accessible, Interoperable and Re-usable Data Publishing version b1.0

Theo: https://www.force11.org/fairprinciples

Xem thêm: Khoa học mở - Open Science và Dữ liệu Mở Liên kết - LOD (Linked Open Data)

CÁC NGUYÊN TẮC FAIR

Lời nói đầu:

Trong hệ sinh thái Khoa học Điện tử (eScience), thách thức của việc xúc tác cho sử dụng tối ưu dữ liệu và phương pháp nghiên cứu là thách thức phức tạp với nhiều bên tham gia đóng góp: Các nhà nghiên cứu muốn chia sẻ dữ liệu và giải thích làm sáng tỏ; Các nhà xuất bản dữ liệu chuyên nghiệp chào các dịch vụ của họ, Các lập trình viên xây dựng phần mềm và công cụ cung cấp các dịch vụ phân tích và xử lý dữ liệu; Các cơ quan cấp vốn (cả tư nhân lẫn nhà nước) ngày càng quan tâm tới Quản lý Dữ liệu đúng thích hợp; và cộng đồng Khoa học Dữ liệu khai phá, tích hợp và phân tích đầu ra để cải tiến sự phát hiện. Phân tích tính toán để phát hiện các mẫu có ý nghĩa trong các tập hợp khổng lồ được kết nối với nhau nhanh chóng trở thành hoạt động nghiên cứu thường xuyên. Việc cung cấp dữ liệu máy đọc được là nền tảng chính cho Phát hiện Tri thức và cho các quy trình Khoa học Điện tử đó chạy được trơn tru và bền vững là một trong những Thách thức Lớn của Khoa học Điện tử.

Vào tháng 01/2014, các đại diện của một dải các bên tham gia đóng góp đã cùng nhau đi tới yêu cầu Trung tâm Khoa học Điện tử Hà Lan (Netherlands eScience Center) và Trung tâm Kỹ thuật Hà Lan về Khoa học Đời sống - DTL (Dutch Techcentre for the Life Sciences) ở Trung tâm Lorentz Center ở Leiden, The Netherlands, nghĩ và tranh luận về cách tiếp tục cải thiện hệ sinh thái này. Từ các thảo luận đó, ý niệm nổi lên rằng, qua định nghĩa và sự hỗ trợ lan rộng của một tập hợp tối thiểu các nguyên tắc chỉ dẫn và thực hành được sự đồng thuận của cộng đồng, các nhà cung cấp dữ liệu và những người tiêu dùng dữ liệu - cả cho máy và người - có thể dễ dàng hơn để phát hiện, truy cập, tương hợp, và sử dụng lại hợp lý, với trích dẫn đúng phù hợp. lượng khổng lồ thông tin đang được khoa học tăng cường dữ liệu đương thời ngày nay tạo ra. Các nguyên tắc và thực hành đơn giản đó nên xúc tác cho dải rộng lớn các hành vi có tính hợp nhất và thăm dò, và hỗ trợ cho dải rộng lớn các lựa chọn công nghệ và triển khai, hệt như Giao thức Internet - IP (Internet Protocol) đã cung cấp lớp tối thiểu - “cái thắt lưng” của đồng hồ cát - xúc tác cho sự tạo ra dải khổng lồ các công cụ dữ liệu trong cung cấp, tiêu dùng, và trực quan hóa trên Internet.

2. Ngữ cảnh

Là quan trọng để lưu ý rằng tài liệu này là ‘chỉ dẫn chung cho các nguyên tắc FAIR của dữ liệu‘, chứ không phải là “đặc tả”. Trong việc biên dịch các nguyên tắc chỉ dẫn FAIR cho tài liệu này, các lựa chọn triển khai kỹ thuật đã được tránh có chủ ý. [Các nguyên tắc Chỉ dẫn FAIR] tối thiểu ngụ ý chỉ dẫn cho những người triển khai các môi trường dữ liệu FAIR trong việc kiểm tra xem liệu các lựa chọn triển khai đặc thù của họ quả thực có trả về các dữ liệu kết quả FAIR hay không. Trong lưu ý Giải thích và các phụ lục chúng tôi đưa ra vài giải thích và chỉ dẫn không ràng buộc về quan điểm FAIR về dữ liệu và những gì tạo thành một kho dữ liệu FAIR (một ‘cổng Dữ liệu FAIR - Data FAIRport’).

3. FAIR cho máy và cho người

Trong eScience, 2 nền tảng được tách biệt nhau rõ ràng để phát hiện tri thức có thể phân biệt được.

Dữ liệu thực sự, nó như là quy định nằm ngoài khả năng tri thức con người để phân tích và
‘Explicitome’ (mọi điều chúng ta đã làm rõ ràng trong văn bản, các cơ sở dữ liệu và bất kỳ định dạng nào khác cho tới nay).

Điều cơ bản của eScience là dữ liệu được liên kết với nhau hoặc theo chức năng hoặc kết hợp chúng với các tập hợp dữ liệu ‘khá nhỏ’ mới được sinh ra dẫn tới sự thấu hiểu mới. Bước sống còn là ‘thừa nhận mẫu’ được máy hỗ trợ trong dữ liệu đó, điều được nghiên cứu về Explicitome của con người ‘phù hợp’ tuân theo để hợp lý hóa các mẫu và xác định giả thuyết có thể thử được. Rõ ràng điều này là quy trình tuần hoàn theo bản chất tự nhiên, nhưng phân tích có tính toán các tập hợp dữ liệu khổng lồ, phân tán và hay biến động ban đầu là pha sống còn trong bất kỳ quy trình eScience nào.

Nhận thức được thách thức mới và to lớn này trong khoa học đương thời, trong cuộc họp ban đầu của nó: [Thiết kế Chung cổng Dữ liệu FAIR - Jointly Designing a Data FAIRTport], nhóm các bên tham gia đóng góp đã thống nhất xung quanh 4 điều mong ước và môi trường xuất bản dữ liệu hiện đại nên cung cấp để hỗ trợ cả cho thủ công và tự động ký gửi, khai thác, chia sẻ và sử dung lại để hỗ trợ cho máy cũng như người.

Chúng được tóm tắt như là các “Khía cạnh – Facets” của FAIR:

Dữ liệu nên có khả năng tìm được – Findable
Dữ liệu nên có khả năng truy cập được – Accessible
Dữ liệu nên có khả năng tương hợp được - Interoperable
Dữ liệu nên có khả năng sử dụng lại được – Re-usable.

Các khía cạnh FAIR rõ ràng có liên quan, nhưng về mặt kỹ thuật khá độc lập với nhau, và có thể được triển khai trong sự kết hợp, dần dần, khi các nhà cung cấp và cổng FAIR (FAIRport) ngày càng tiến hóa tới các mức độ của tính FAIR. Bằng cách đó, rào cản lối vào đối với các nhà sản xuất dữ liệu FAIR, các nhà xuất bản và các nhà quản trị được duy trì càng thấp có thể càng tốt, với các nhà cung cấp đang được khuyến khích gia tăng dần dần số các Khía cạnh FAIR (FAIR Facets) mà họ tuân thủ.

Vì thế, mục đích của tài liệu này không phải là định nghĩa cũng không gợi ý bất kỳ triển khai công nghệ nào cho bất kỳ khía cạnh nào, mà thay vào đó định nghĩa các đặc tính, các chuẩn mực, và các thực hành mà các nguồn dữ liệu, các công cụ và hạ tầng nên thể hiện để được coi là ‘FAIR’, và tính FAIR có thể đạt được với dải rộng lớn các công nghệ và triển khai.

Các nguyên tắc chỉ dẫn dữ liệu FAIR

Đối với tất cả các bên có liên quan trong Quản trị Dữ liệu (Data Stewardship), các khía cạnh của tính FAIR, được mô tả bên dưới, cung cấp chỉ dẫn từng chút một về cách họ có thể hưởng lợi từ việc rốt cuộc chuyển sang mục đích có tất cả các khái niệm được tham chiếu tới các Đối tượng Dữ liệu (Siêu dữ liệu hoặc bản thân các Yếu tố Dữ liệu) được phân giải rõ ràng không mù mờ cho máy, và vì thế cũng cho con người.

Bằng việc áp dụng tất cả các khía cạnh của FAIR, các Đối tượng Dữ liệu trở nên đầy đủ: Tìm kiếm được, Truy cập được, Tương hợp được và Sử dụng lại được.

Các định nghĩa

Khái niệm là bất kỳ ‘đơn vị tư duy’ (unit of thought) được định nghĩa nào chúng tôi tham chiếu tới trong các định dạng số của chúng ta [1]
Đối tượng Dữ liệu được định nghĩa vì mục đích của các nguyên tắc bên dưới như: Hạng mục Dữ liệu có khả năng Nhận diện được với các Yếu tố Dữ liệu + Siêu dữ liệu + Mã nhận diện [2]
Khi chúng tôi sử dụng khái niệm (Siêu) dữ liệu ở đây, chúng tôi có ý định chỉ ra rằng nguyên tắc đó là đúng cho Siêu dữ liệu - Metadata cũng như cho các Yếu tố Dữ liệu thực tế, được thu thập trong Đối tượng Dữ liệu, nhưng nguyên tắc theo yêu cầu có thể được triển khai độc lập cho từng trong số chúng [3].

Các nguyên tắc Chỉ dẫn FAIR

1. Để có khả năng tìm kiếm được - Findable, bất kỳ Đối tượng Dữ liệu nào cũng nên có khả năng nhận diện được duy nhất và thường trực [4]

1.1. Đối tượng Dữ liệu y hệt nên là tìm kiếm lại được ở bất kỳ thời điểm nào, vì thế các Đối tượng Dữ liệu nên là thường trực - persistent, với sự nhấn mạnh vào siêu dữ liệu của chúng , [4 và JDDCP 4 và JDDCP 6]

1.2. Đối tượng Dữ liệu nên tối thiểu gồm siêu dữ liệu cơ bản máy có khả năng hành động được, cho phép nó phân biệt được với các Đối tượng Dữ liệu khác [xem JDDCP 5]

1.3. Các mã nhận diện cho bất kỳ khái niệm nào được sử dụng trong các Đối tượng Dữ liệu vì thế cũng nên là Độc nhất - Unique và Thường trực – Persistence [5 and JDDCP 4 and JDDCP 6].

2. Dữ liệu là có khả năng Truy cập được – Accessible theo đó máy và con người luôn có thể giành được nó

2.1. Dựa vào sự ủy quyền đúng thích hợp [6]

2.2. Thông qua giao thức được định nghĩa tốt [7 and JDDCP 5]

2.3. Vì thế, máy và con người tương tự như nhau sẽ có khả năng phán xét về khả năng truy cập thực sự từng Đối tượng Dữ liệu.

3. Các Đối tượng Dữ liệu có thể Tương hợp được - Interoperable chỉ nếu:

3.1. (Siêu) dữ liệu máy có thể hành động được [8]

3.2. Các định dạng (siêu) dữ liệu sử dụng từ vựng và/hoặc bản thể học được chia sẻ [9]

3.3. (Siêu) dữ liệu trong Đối tượng Dữ liệu vì thế nên vừa là có khả năng phân tích cú pháp được và máy truy cập theo ngữ nghĩa được [10]

4. Đối với các Đối tượng Dữ liệu có tiêu chí bổ sung Sử dụng lại được – Re-usable là:

4.1. Các Đối tượng Dữ liệu nên tuân thủ với các nguyên tắc từ 1 tới 3

4.2. (Siêu) dữ liệu nên được mô tả đủ tốt và giàu để nó có thể được liên kết hoặc tích hợp tự động (hoặc với nỗ lực tối thiểu của con người), giống như với các nguồn dữ liệu khác [11 và JDDCP 7 và JDDCP 8]

4.3. Các Đối tượng Dữ liệu Được xuất bản nên tham chiếu tới các nguồn của chúng với siêu dữ liệu đủ giàu và gốc gác để xúc tác cho sự trích dẫn đúng phù hợp (tham chiếu tới JDDCP 1-3).

Tuyên bố chung về các Nguyên tắc Trích dẫn Dữ liệu - JDDCP (Joint Declaration of Data Citation Principles)

RDA DFT (Thuật ngữ và Quỹ Dữ liệu)

Chúng tôi tuân theo các định nghĩa và lý lẽ của Tam giác Richard / Ogden ( Ogden/Richard Triangle) và lý thuyết về ý nghĩa cho khái niệm, biểu tượng và các định nghĩa có ý nghĩa: xem http ://en .m .wikipedia .org /wiki /Triangle _of _reference. Bản thân Khái niệm đó không phải là Đối tượng Số, nhưng bất kỳ biểu tượng nào tham chiếu tới nó trong các máy tính cũng là Đối tượng Số. Các từ phát âm, các URL của các URI và bất kỳ mã nhận diện nào khác tất cả đều là các biểu tượng tham chiếu tới khái niệm đó.

[2] Xem quan điểm ví dụ về các Đối tượng Dữ liệu trong Phụ lục 4

Chúng tôi đề xuất khái niệm ‘Đối tượng Dữ liệu - Data Object’ để tham chiếu tới sự kết hợp của các yếu tố dữ liệu + siêu dữ liệu của nó + mã nhận diện độc nhất. Các đối tượng đó là tùy tiện phức tạp và có thể xuất hiện ở bất kỳ mẫu dạng và cú pháp nào.

[3] Chúng tôi rõ ràng nhận thức được rằng các kho các Đối tượng Dữ liệu với siêu dữ liệu FAIR cho các Yếu tố Dữ liệu như vậy là (chưa) phải là FAIR (như trong máy đọc được, ví dụ như các hình ảnh, video hoặc văn bản được ghi lại) là có giá trị cao, nhưng nên phân biệt được với các kho với các yếu tố dữ liệu được tuyển chọn cao, máy đọc được hoàn toàn (điều sau rõ ràng cũng đi với siêu dữ liệu FAIR gắn kèm). Vì thế siêu dữ liệu FAIR là bắt buộc phải có và các yếu tố dữ liệu FAIR là ‘mục tiêu cuối cùng’.

[4] Sự thường trực – Persistence là đặc tính của tổ chức; một cách có hiệu quả, nó là bắt buộc, dù chính thức hay không chính thức, rằng một tổ chức đảm bảo rằng thứ gì đó sẽ được duy trì. Bằng cách đó, chính sách thường trực của các tổ chức nên là rõ ràng và công khai. Chúng tôi đề xuất rằng các cổng FAIR - FAIRports nêu rõ ràng các đảm bảo thường trực của họ và tìm cách nhân bản và sao lưu các tài nguyên của họ bất kỳ khi nào có thể.

[5] Có các cuộc tranh luận liên tục và nóng bỏng về chính xác những gì tạo thành mã nhận diện ’thường trực’. Khái niệm đồng nghĩa PID cố tình được/bị tránh ở đây vì nó có thể có những nghĩa rộng của các triển khai sở hữu độc quyền. Chúng tôi đề xuất cho phép nhiều mã nhận diện trong các môi trường xuất bản dữ liệu FAIR, miễn là mã đó tham chiếu độc nhất tới chỉ một khái niệm và nhà xuất bản cung cấp chính sách và mô tả rõ ràng về đảm bảo tối đa có khả năng đạt được cho việc phân giải thường trực của mã nhận diện đó tới vị trí/ý nghĩa đúng. Rõ ràng, các mã nhận diện được sử dụng ‘cục bộ’ không thể ánh xạ được tự động tới cộng đồng áp dụng và các lược đồ mã nhận diện được chia sẻ công khai không phải là FAIR. Nhà xuất bản dữ liệu lựa chọn một lược đồ mã nhận diện ‘sở hữu độc quyền’, sẽ cần phải cung cấp các ánh xạ đúng và thích hợp tới các mã công khai để được coi là FAIR.

Các tổ chức cung cấp các mã nhận diện thường trực (như, ‘các nhà chức trách’ nên xuất bản rõ ràng các chính sách điều chỉnh tiêu chí thường trực đó của các mã nhận diện đó. Các chính sách như vậy nên là máy đọc được.

Cũng đặc biệt để sử dung thương mại dữ liệu FAIR, các công ty cần phải có quan điểm pháp lý và đánh giá rõ ràng về khả năng sử dụng dữ liệu của họ. Các dữ liệu không được cấp phép, dù ‘mở’ trong đầu của hầu hết các nhà nghiên cứu hàn lâm, sẽ được/bị các công ty chủ chốt lảng tránh, vì các rủi ro pháp lý. Chúng tôi đánh giá cao các loại trừ ngoại lệ đối với Truy cập Mở đầy đủ của dữ liệu (ví dụ đối với tính riêng tư của bệnh nhân hoặc vì các lý do về sở hữu trí tuệ). Chúng tôi vì thế coi việc cấp phép đúng thích hợp của các Đối tượng Dữ liệu (hoặc thậm chí các yếu tố dữ liệu riêng bên trong chúng) như là chìa khóa cho việc xuất bản dữ liệu FAIR.

Các giấy phép và các điều kiện sử dụng Đối tượng Dữ liệu (hàn lâm và/hoặc riêng tư/thương mại) nên được mô tả tốt. Các giấy phép như vậy có thể được tham chiếu tới với các mã nhận diện thường trực cũng như phần của siêu dữ liệu trong các Đối tượng Dữ liệu. Cộng đồng FAIRport sẽ cung cấp và khuyến cáo ngày càng nhiều các giấy phép tiêu chuẩn để lựa chọn. Cộng đồng FAIRport mạnh mẽ khuyến cáo rằng hầu hết ‘các nhà chức trách’ phê chuẩn FAIRport sẽ yêu cầu rằng các loại trừ ngoại lệ đối với Truy cập Mở cần phải được tranh luận tốt (xem Phụ lục 3).

(Danh sách các giấy phép) Jan Velterop/Hohn Wilbanks.

[7] Việc đặt dữ liệu ‘lên web’ là không đủ. Để thực sự tương hợp được và sử dụng lại được, các Đối tượng Dữ liệu nên không chỉ được cấp phép đúng thích hợp, mà còn cả các phương pháp để truy cập và/hoặc tải chúng về cũng nên được mô tả tốt và ưu tiên được tự động hóa đầy đủ bằng việc sử dụng các giao thức được thiết lập tốt.

[8] Trong eScience, khả năng máy đọc được dữ liệu là cấp thiết. Siêu dữ liệu máy đọc được là điều kiện không thể thiếu (conditio sine qua non) cho tính FAIR. Việc có các yếu tố dữ liệu thực máy cũng đọc được sẽ làm cho Đối tượng Dữ liệu mức tương hợp cao hơn và làm cho việc kết nối lẫn nhau và phân tích chức năng trong ngữ cảnh rộng lớn hơn dễ dàng hơn nhiều, ví dụ như các hình ảnh và ‘dữ liệu thô’ có thể không luôn được làm để máy có khả năng xử lý được. Được xuất bản với siêu dữ liệu FAIR là có giá trị rất cao theo đúng nghĩa của nó.

[9] Khi sự sử dụng của cộng đồng được áp dụng và các hệ thống thuật ngữ công khai là không thể, ví dụ vì các lý do được mô tả trong lưu ý giải thích số 5, hoặc vì các Đối tượng Dữ liệu gồm các khái niệm còn chưa được mô tả trong bất kỳ từ vựng hoặc bản thể luận công khai nào được biết đối với nhà cung cấp, thì các nhà cung cấp, dù vậy, vẫn nên thử tạo ra hạng mục từ vựng của riêng họ và xuất bản nó công khai và mở, ưu tiên ở dạng máy đọc được. Từ vựng hoặc bản thể luận mà ràng buộc từng trường dữ liệu bị/được ràng buộc nên được nhận diện rõ ràng không tù mù hoặc bằng bản thân trường đó hoặc bằng siêu dữ liệu có liên quan của Đối tượng Dữ liệu đó. Đối với các trường không bị/được ràng buộc, bất kỳ khi nào có thể, dạng giá tri của trường đó nên được chú giải bằng việc sử dụng từ vựng hoặc bản thể luận truy cập được công khai. Chú giải này nên là rõ ràng trong siêu dữ liệu của Đối tượng Dữ liệu đó.

Cả cú pháp và ngữ nghĩa của các mô hình và các định dạng dữ liệu được sử dụng cho dữ liệu (Đáp ứng) trong các Đối tượng Dữ liệu nên là dễ để nhận diện và sử dụng, phân tích cú pháp hoặc dịch bằng máy. Như trong trường hợp của các lược đồ mã nhận diện và các từ vựng, sự đa dạng rộng lớn các định dạng dữ liệu (trải từ các URI đặc trưng cho các bảng tính như RightField hoặc OntoMaton cho tới RDF giàu) về nguyên tắc đều có thể là FAIR. Là rõ ràng rằng bất kỳ việc phân tích cú pháp và giao thức dịch nào cũng có khuynh hướng gây lỗi và tình trạng lý tưởng là hạn chế việc xuất bản dữ liệu FAIR như các định dạng và các tiêu chuẩn được càng ít cộng đồng áp dụng có thể càng tốt. Tuy nhiên, nếu nhà cung cấp có thể chứng minh rằng mô hình/định dạng dữ liệu có thể thay thế là có khả năng phân tích được cú pháp một cách rõ ràng cho một trong các định dạng FAIR được cộng đồng áp dụng, thì không có lý do đặc biệt nào giải thích vì sao định dạng như vậy lại không được coi là FAIR.

Vài dạng dữ liệu đơn giản có lẽ không ‘nắm bắt được’ trong một trong những định dạng đang tồn tại, và trong trường hợp đó có lẽ chỉ một phần của các yếu tố dữ liệu đó có thể phân tích được cú pháp. Các FAIRport sẽ ngày càng nhiều hơn chào chỉ dẫn và hỗ trợ trong các trường hợp như vậy.

[11] Siêu dữ liệu của một Đối tượng Dữ liệu nên giàu đủ sao cho máy hoặc người sử dụng, khi phát hiện, có thể tiến hành lựa chọn có đầy đủ thông tin về việc liệu có hay không phù hợp để sử dụng Đối tượng Dữ liệu đó trong ngữ cảnh phân tích của họ. Siêu dữ liệu có trong Đối tượng Dữ liệu đó nên thông báo cho người tiêu dùng về giấy phép của các yếu tố dữ liệu; siêu dữ liệu này nên là máy đọc được để tạo thuận lợi cho việc thu thập dữ liệu tự động trong khi vẫn duy trì sự thừa nhận ghi công đúng thích hợp. Siêu dữ liệu có trong Đối tượng Dữ liệu đó nên thông báo về bất kỳ chính sách kiểm tra truy cập nào, như việc những người tiêu dùng có thể xác định các thành phần nào của dữ liệu họ được phép truy cập. Siêu dữ liệu trong Đối tượng Dữ liệu đó nên thông báo về thủ tục xác thực dẫn tới sự truy cập, nếu áp dụng được.

Hơn nữa, trong eScience, nơi sự thừa nhận mẫu trong các tập hợp dữ liệu ‘lớn’ được tích hợp hoặc được liên kết về chức năng đang trở thành chuẩn mực, thì gốc gác là chủ chốt. Trong trường hợp một mẫu nổi lên từ các thuật toán phân tích dữ liệu, các nghiên cứu hợp lý hóa và có tính xác định về các nguồn dữ liệu nằm bên dưới là bước sống còn tiếp theo. Nếu gốc gác của các Yếu tố Dữ liệu đó đối với Đối tượng Dữ liệu gốc của chúng và sau đó tới các nguồn nằm bên dưới (văn bản người đọc được, các cơ sở dữ liệu, các tệp dữ liệu thô, …) bị mất, thì các nhà nghiên cứu sẽ không có khả năng lần vết bằng chứng đối với những gì mẫu đó gợi ý cho giả thuyết có thể kiểm thử được.

Lưu ý cuối cùng: Chúng tôi rõ ràng thừa nhận rằng là có khả năng để triển khai bất kỳ khía cạnh con nào mà không triển khai tất cả chúng. Ở đây chúng tôi đưa ra một vài chỉ dẫn ban đầu về cách cải thiện dần dần tính FAIR của các Đối tượng Dữ liệu.

Facet-I-syn: Siêu dữ liệu được cung cấp ở định dạng có thể được máy phân tích cú pháp được; nghĩa là có một tiêu chuẩn mở cho định dạng theo đó việc phân tích tin cậy cú pháp mã có thể được viết.

Siêu dữ liệu nên tham chiếu tới lược đồ được sử dụng

Facet-I-sem: Siêu dữ liệu tận dụng các từ vựng hoặc bản thể luận được kiểm soát được chia sẻ, cho phép ánh xạ các trường siêu dữ liệu giữa các nguồn phân tán (bất kể cú pháp của chúng trong từng kho của các kho đó)

Siêu dữ liệu nên tham chiếu tới các từ vựng và các bản thể luận được sử dụng

Facet-I-data: Bất kỳ khi nào có thể, dữ liệu nên được cung cấp ở định dạng có thể được máy phân tích cú pháp; nghĩa là có một tiêu chuẩn mở cho định dạng theo đó việc phân tích tin cậy cú pháp mã có thể được viết.

Các cấu trúc dữ liệu nên được định nghĩa theo lược đồ công khai, được làm thành tài liệu, và ở những nơi có khả năng, được làm để máy đọc được.

Cốt lõi của quy trình định dạng và xuất bản dữ liệu FAIR là cách nhìn toàn diện về những gì tạo nên Dữ liệu và cấu trúc của nó được tạo nên như thế nào. Triển vong về giá trị gia tăng (của eScience) của dữ liệu FAIR đầu tiên và trước hết là ‘FAIR cho máy’. Khả năng con người đọc được là ‘dẫn xuất’ của dữ liệu máy đọc được được định dạng và được định nghĩa tốt rõ ràng là sống còn cho sự diễn giải cuối cùng.

Thực sự, dữ liệu FAIR sẽ cải thiện khả năng đọc được của con người, ví dụ, như các khoản mục biểu thị khái niệm có thể được trình bày cho những người sử dụng là con người theo ngôn ngữ của riêng họ, dựa vào ARTA (Also Referred To As - Còn được Tham chiếu Tới Như là) các bảng dịch các mã nhận diện máy phân giải được sang các khoản mục ngôn ngữ.

Vì thế chúng tôi coi dữ liệu ở đây ban đầu ở ‘định dang số’. Từ đó quan điểm cũng ‘Dữ liệu’ và ‘Siêu dữ liệu’ chỉ khác nhau về ‘những gì chúng trình bày’ và về ‘những gì chúng được sử dụng cho’ không ở trong định dạng kỹ thuật của chúng. Cuối cùng, trong eScience, ‘phần mềm’ làm việc với dữ liệu là không tách bạch khỏi bản thân dữ liệu đó và vì lý do đơn giản hóa chúng tôi sẽ ứng xử với ‘mã’ như là ‘dữ liệu có khả năng thực thi được’ vì mục đích của tài liệu tóm tắt ngắn gọn này.

Dữ liệu được máy sử dụng về bản chất là ‘số’ và từng Đối tượng Dữ liệu (được xác định theo các nguyên tắc FAIR) vì thế là một ‘Đối tượng Số’ một cách tự nhiên.
Một trong các Đối tượng Số nhỏ nhất trong việc thiết lập dữ liệu FAIR là Mã nhận diện duy nhất tham chiếu tới khái niệm (đơn vị tư duy - unit of thought), trong khi khái niệm mà nó biểu thị, bản thân nó, không phải là Đối tượng Dữ liệu. [tham chiếu tới Ogden Triangle xem các nguyên tắc FAIR, lưu ý giải thích 1]
Các mã nhận diện có thể được chỉ định cho các máy tính và con người, trong ngữ ảnh của dữ liệu FAIR chúng tôi khuyến cáo tối thiểu một Mã nhận diện Thường trực - PID (Persistent Identifier) máy phân giải được cho từng khái niệm được sử dụng trong một Đối tượng Dữ liệu.
Nhiều PID và các ID khác cho cùng các khái niệm y hệt là thực tế cuộc sống và vì thế được chấp nhận, nhưng các ID FAIR phải đảm bảo ánh xạ tới chỉ 1 khái niệm.
Việc ánh xạ các bảng và dịch vụ ánh xạ để làm việc với nhiều (P)ID cho các khái niệm vì thế được chấp nhận trong dữ liệu FAIR và nên được cung cấp ở những nơi cần thiết.
Các yếu tố dữ liệu được định nghĩa như là dữ liệu thực, và vì thế là thực tế dù không phân biêt được về mặt kỹ thuật với siêu dữ liệu của chúng.
Một trong những ‘Yếu tố Dữ liệu’ nhỏ nhất có thể là mối liên hệ độc nhất giữa 2 khái niệm.
- Mỗi Đối tượng Dữ liệu (thậm chí sự khẳng định đơn giản về sự liên quan duy nhất) nên có một PID (cho Đối tượng dữ liệu như là toàn bộ) và tập hợp tối thiểu siêu dữ liệu ‘về’ Đối tượng Dữ liệu thực tế đó
- Nhiều yếu tố dữ liệu có khả năng nhận diện được có thể chia sẻ cùng y hệt siêu dữ liệu và PID và tạo thành một Đối tượng Dữ liệu FAIR (ví dụ tập hợp các hình ảnh hoặc tập hợp các mảng dữ liệu siêu nhỏ với hàng trăm giá trị diễn đạt cho các gen).
- Các Yếu tố Dữ liệu Nhận diện được có thể được sử dụng, được tích hợp và được phân phối một cách tách biệt như là các Đối tượng Dữ liệu mới với một PID mới và mang siêu dữ liệu đủ từ Đối tới Dữ liệu gốc ban đầu để có khả năng lần vết ngược về nó và trích dẫn được trong bản thân nó hoặc như ‘được dẫn xuất từ’ Đối tượng Dữ liệu gốc ban đầu lớn hơn.
- Các Đối tượng Dữ liệu vì thế là các Đối tượng Số dạng ‘module’ và ‘lặp lại’ mà có thể mở rộng phạm vi từ liên quan đơn nhất giữa 2 khái niệm cho tới toàn bộ các cơ sở dữ liệu hoặc tiến trình công việc với nhiều module.
- Các Đối tượng Dữ liệu FAIR có thể có siêu dữ liệu giàu hoặc tối thiểu, bản chất bên trong và do người sử dụng định nghĩa (xem hình 1), chúng có thể có từ 1 tới hàng triệu yếu tố dữ liệu tách biệt nhau có thể nhận diện được.

Vì FAIR không phải là thương hiệu, chúng tôi đề xuất rời khỏi quyết định ‘phê chuẩn’ các kho như là FAIRports (dữ liệu siêu - meta data hoặc siêu dữ liệu + dữ liệu có thể tách biệt nhau được) sang ‘các nhà chức trách’, như các nút ELIXIR/trung tâm Hub, NIH hoặc SciELO.

Chúng tôi đề xuất định nghĩa một FAIRport ‘ứng viên’ như bất kỳ kho dữ liệu hướng máy nào khác mà:

Gồm các Đối tượng Dữ liệu FAIR (sẽ được nhà chức trách phê chuẩn phán xét)
Cung cấp cho các Đối tượng Dữ liệu đó theo khả năng truy cập được định nghĩa tốt để Sử dụng lại
Có mô tả mở và đầy đủ tất cả các công nghệ, các từ vựng được kiểm soát và các định dạng được sử dụng.

Chúng tôi đề xuất rằng các Bên Tin cậy trong từng nghành khoa học

Định nghĩa ‘các nhà chức trách’ cho từng ‘chủng loại ngữ nghĩa’ các khái niệm thường được tham chiếu tới trong các Đối tượng Dữ liệu trong ngành của họ.
Định nghĩa các tiêu chí tối thiểu của họ để định tính các Đối tượng Dữ liệu như là FAIR
Rà soát lại các FAIRport dữ liệu riêng rẽ đối với các tiêu chí được thiết lập
Trao cho [bên Tin cậy] FAIR con dấu phê chuẩn tuân thủ với các FAIRport
Xuất bản trong các Kho Mở (ưu tiên bản thân FAIR) những gì có thẻ được kỳ vọng từ các FAIRport trong chỉ mục của nó và với con dấu chất lượng của nó.

Chúng tôi đề xuất xem xét ‘các mức’ sau đây cho các FAIRport, hoặc các Đối tượng Dữ liệu thực sự bao gồm trong chúng (nói cách khác, một FAIRport có thể gồm các Đối tượng Dữ liệu với các mức về tính FAIR khác nhau) (xem hình).

Mức 1: Từng Đối tượng Dữ liệu có PID và siêu dữ liệu FAIR thực chất (‘tĩnh’ thực chất)

Mức 2: Từng Đối tượng Dữ liệu có siêu dữ liệu ‘người sử dụng định nghĩa’ (và được cập nhật) để trao cho gốc gác lai lịch giàu ở định dạng FAIR của dữ liệu đó, những gì đã xảy ra với nó, những gì từng được sử dụng cho, có thể được sử dụng cho …, điều cũng có thể được xem như là các chú giải FAIR giàu

Mức 3: Bản thân các Yếu tố Dữ liệu trong các Đối tượng Dữ liệu ‘về mặt kỹ thuật’ cũng là FAIR, nhưng không Truy cập Mở đầy đủ và không Sử dụng lại được mà không có các hạn chế (ví dụ, dữ liệu bệnh nhân hoặc dữ liệu sở hữu độc quyền).

Mức 4: Siêu dữ liệu cũng như bản thân các yếu tố dữ liệu là FAIR đầy đủ và hoàn toàn công khai, theo giấy phép được định nghĩa tốt. (Các dữ liệu không được cấp phép được chủ nhân của chúng coi là ‘công khai’ vẫn sẽ được/bị các công ty dược phẩm loại trừ khỏi các dự án tích hợp, ví dụ thế).

Data as increasingly FAIR Digital Objects

(được áp dụng từ những đóng góp ban đầu của Michel và Juns)

Trong khoa học được dữ liệu dẫn dắt, các nhà nghiên cứu, mà ngày càng gia tăng trước nhất các máy móc, cần trước hết tất cả phải tìm ra/phát hiện ra dữ liệu có các đặc tính quan tâm, theo đó họ sẽ sử dụng các đường liên kết, các siêu dữ liệu, cũng như các yếu tố/các nội dung dữ liệu thực sự.

Một khi được tìm thấy, máy cần có khả năng truy cập/truy xuất dữ liệu quan tâm (như, giành được bản sao các nội dung ở vài định dạng). Tiếp theo, đối với các nhà nghiên cứu quyết định ‘đi tiếp’ tới các máy tính của họ để bắt đầu sử dụng lại / phân tích dữ liệu quan tâm trong danh sách dài được truy xuất ra từ ‘web các dữ liệu’, họ cần phải có sự truy cập dễ dàng và các công cụ tiến trình công việc để xử lý dễ dàng (như):

a. Thông tin Siêu dữ liệu Giàu về các Đối tượng Dữ liệu quan tâm được thu thập

b. Trả lời câu hỏi bằng việc sử dụng một hoặc một nhóm nhiều các tập hợp dữ liệu

c. Tổng hợp các tập hợp dữ liệu và tiến hành phân tích thống kê

d. Thẩm định tính đúng đắn / tính xác thực của dữ liệu

e. Tạo gương soi/Trao đổi dữ liệu giữa các kho (tính bền vững bởi sự dư thừa)

f. Lặp lại / Tái tạo sự sinh ra / phân tích dữ liệu

g. Liên kết hoặc tích hợp dữ liệu theo chức năng để có cái nhìn gắn kết

h. Truy xuất bằng chứng ở nhiều mức để chỉ ra sự hỗ trợ cho giả thuyết có thể kiểm thử

i. Trích dẫn toàn bộ các Đối tượng Dữ liệu hoặc các yếu tố dữ liệu riêng rẽ (ở những nơi có khả năng) vì sự tin cậy đúng.

j. Ở bất kỳ thời điểm nào, hãy truy xuất ‘cụm dữ liệu được trích dẫn’ như nó từng có ở thời điểm nó đã được trích dẫn (đối với các tập hợp dữ liệu gia tăng động, như các bộ nuôi của Twitter hoặc các blog bệnh nhân và các hồ sơ phản ứng phụ.

Đối với tất cả các bước đó trong tiến trình công việc của eScience (và nhiều hơn có thể tưởng tượng được), các đặc tính sau của dữ liệu đúng như là nền tảng chính cho sự Phát hiện Tri thức được máy hỗ trợ là:

độ giàu có của mô tả (ở định dạng máy đọc được)
sự thường trực (sẵn sàng khi được yêu cầu)
các mã nhận diện và các lược đồ trích dẫn có tại chỗ
khả năng truy cập - tính sẵn sàng ở nhiều định dạng khác nhau
tính tương hợp - các định dạng và các tiêu chuẩn / các chỉ dẫn
được chuẩn bị liên kết với nhau theo chức năng và ở những nơi sự tích hợp cần có
việc cấp phép đúng thích hợp của từng đối tượng dữ liệu
kiểm soát người sử dụng
khả năng sử dụng lại
gốc gác lai lịch
các đo đếm chất lượng
các nội dung do người sử dụng đóng góp

Các nguyên tắc FAIR (Tìm thấy được, Truy cập được, Tương hợp được và Sử dụng lại được) từng được thiết kế với các bước tiến trình công việc nghiên cứu đó và các mối quan tâm trong đầu:

để có khả năng tìm được (F) hoặc phát hiện được, dữ liệu và siêu dữ liệu nên đươc mô tả giàu để xúc tác cho tìm kiếm dựa vào thuộc tính.
để truy cập được rộng rãi (A), dữ liệu và siêu dữ liệu nên có khả năng truy xuất được ở nhiều định dạng khác nhau mà chúng là dễ nhận thấy với con người và máy bằng việc sử dụng các mã nhận diện thường trực
để tương hợp được (I), mô tả các yếu tố siêu dữ liệu nên tuân theo các chỉ dẫn của cộng đồng mà sử dụng từ vựng mở, được định nghĩa tốt.
- để sử dụng lại được (R), mô tả các yếu tố siêu dữ liệu cơ bản, được khuyến cáo và tùy chọn nên là máy xử lý được và thẩm định được, sử dụng nên là dễ dàng và dữ liệu nên là trích dẫn được để duy trì việc chia sẻ dữ liệu và thừa nhận giá trị của dữ liệu.

(được áp dụng từ Jun và với tham chiếu tới JDDCP)

Dữ liệu đang là FAIR cũng là cách hỗ trợ cho ‘7-R’, điều ban đầu đã thúc đẩy tạo ra các Đối tượng Nghiên cứu. 7-R phù hợp với các nguyên tắc FAIR và các hoạt động khoa học và nghiên cứu theo đó các Đối tượng Nghiên cứu đóng vai trò chính.

Tham chiếu: 7-R (v1); Vì sao Dữ liệu Liên kết là không đủ cho các nhà khoa học (2012). DOI:10.1016/j.future.2011.08.004

Reusable - Sử dụng lại được.
Repurposeable - Tái mục đích được
Repeatable - Lặp lại được
Reproducible - Tái tạo được
Replayable - Chơi lại được
Referenceable - Tham chiếu được
Respectful - Tôn trọng được

Xem thêm: http ://www .scilogs .com /eresearch /more -rs -than -pirates /

Chúng tôi sẽ chi tiết hóa về sự triển khai các nguyên tắc FAIR trong các hoạt động liên quan mà tìm cách hỗ trợ thân thiện với máy, chất lượng cao và khoa học tái tạo lại được như các Đối tượng Nghiên cứu, Chia sẻ lai lịch (BioSharing), Force11, và FAIRdom (các mô hình FAIR SB). Chúng tôi coi các nguyên tắc FAIR như là cách bao quát tổng thể để hỗ trợ cho nhiều thực hành mới có liên quan tới eScience, chia sẻ dữ liệu và việc cung cấp sử dụng lại dữ liệu và các phần mềm đi kèm theo, các thực hành nắm bắt dữ liệu trong thiết kế nghiên cứu và nhiều mô hình phạm vi, trực quan hóa và trích dẫn dữ liệu đúng cách và các đo đếm lựa chọn thay thế (alt-metrics).

FAIR PRINCIPLES

Preamble:

In the eScience ecosystem, the challenge of enabling optimal use of research data and methods is a complex one with multiple stakeholders: Researchers wanting to share their data and interpretations; Professional data publishers offering their services, software and tool-builders providing data analysis and processing services; Funding agencies (private and public) increasingly concerned with proper Data Stewardship; and a Data Science community mining, integrating and analysing the output to advance discovery. Computational analysis to discover meaningful patterns in massive, interlinked datasets is rapidly becoming a routine research activity. Providing machine-readable data as the main substrate for Knowledge Discovery and for these eScientific processes to run smoothly and sustainably is one of the Grand Challenges of eScience.

In January 2014, representatives of a range of these stakeholders came together at the request of the Netherlands eScience Center and the Dutch Techcentre for the Life Sciences (DTL) at the Lorentz Center in Leiden, The Netherlands, to think and debate about how to further enhance this ecosystem. From these discussions, the notion emerged that, through the definition and widespread support of a minimal set of community-agreed guiding principles and practices, data providers and data consumers - both machine and human - could more easily discover, access, interoperate, and sensibly re-use, with proper citation, the vast quantities of information being generated by contemporary data-intensive science. These simple principles and practices should enable a broad range of integrative and exploratory behaviors, and support a wide range of technology choices and implementations, just as the Internet Protocol (IP) provided a minimal layer - the "waist" of an hourglass - that enabled the creation of a vast array of data provision, consumption, and visualization tools on the Internet

2. Context

It is important to note that this document is a general 'guide to FAIRness of data', not a “specification”. In compiling the FAIR guiding principles for this document, technical implementation choices have been consciously avoided. The minimal [FAIR Guiding Principles] are meant to guide implementers of FAIR data environments in checking whether their particular implementation choices are indeed rendering the resulting data FAIR. In Explanatory notes and annexes we give some non-binding explanation and guidance for a FAIR view on data and what constitutes a repository of FAIR data (a 'Data FAIRport')

3. FAIR for machines as well a people

In eScience, two clearly separated substrates for knowledge discovery can be distinguished.

The actual data, which is as a rule beyond human intellectual capacity to analyse and
The 'Explicitome' (everything we already made explicit in text, databases and any other format to date).

The essence of eScience is that either functionally interlinked existing data or the combination of those with newly generated 'relatively small' datasets lead to new insights. A crucial step is machine-assisted 'pattern recognition' in the data, which is followed by 'conformational' human study of the Explicitome to rationalise patterns and determine testable hypotheses. Obviously this is a cyclical process by nature, but computational analysis of massive, originally dispersed and variable datasets is a crucial phase in any eScience process.

Recognizing this new grand challenge in contemporary science, in its inaugural meeting: [Jointly Designing a Data FAIRTport'] the stakeholder group coalesced around four desiderata that a modern data publishing environment should provide to support both manual and automated deposition, exploration, sharing, and use to support machines as well as humans.

These are summarized as the FAIR "Facets":

Data should be Findable
Data should be Accessible
Data should be Interoperable
Data should be Re-usable.

These FAIR Facets are obviously related, but technically somewhat independent from one another, and may be implemented in any combination, incrementally, as data providers and FAIRports evolve to increasing degrees of FAIR-ness. As such, the barrier-to-entry for FAIR data producers, publishers and stewards is maintained as low as possible, with providers being encouraged to gradually increase the number of FAIR Facets they comply with.

Therefore, the purpose of this document is not to define nor suggest any technological implementation for any of these facets, but rather to define the characteristics, norms, and practices that data resources, tools, and infrastructures should exhibit in order to be considered 'FAIR', and FAIR-ness can be achieved with a wide range of technologies and implementations.

FAIR data Guiding Principles

For all parties involved in Data Stewardship, the facets of FAIRness, described below, provide incremental guidance regarding how they can benefit from moving toward the ultimate objective of having all concepts referred-to in Data Objects (Meta data or Data Elements themselves) unambiguously resolvable for machines, and thus also for humans.

By adopting all FAIR facets, Data Objects become fully: Findable, Accessible, Interoperable, and Reusable

Definitions

A Concept is any defined 'unit of thought' to which we refer in our digital formats [1]
A Data Object is defined for the purpose of the principles below as: An Identifiable Data Item with Data elements + Metadata + an Identifier [2]
When we use the term (Meta) data here, we intend to indicate that the principle is true for Metadata as well as for the actual, collected Data Elements in the Data Object, but that the principle in question can be independently implemented for each of them [3].

FAIR Guiding Principles

1. To be Findable any Data Object should be uniquely and persistently identifiable [4]
1.1. The same Data Object should be re-findable at any point in time, thus Data Objects should be persistent, with emphasis on their metadata, [4 and JDDCP 4 and JDDCP 6]
1.2. A Data Object should minimally contain basic machine actionable metadata that allows it to be distinguished from other Data Objects [see JDDCP 5]
1.3. Identifiers for any concept used in Data Objects should therefore be Unique and Persistent [5 and JDDCP 4 and JDDCP 6].

2. Data is Accessible in that it can be always obtained by machines and humans
2.1 Upon appropriate authorization [6]
2.2 Through a well-defined protocol [7 and JDDCP 5]
2.3 Thus, machines and humans alike will be able to judge the actual accessibilty of each Data Object.

3. Data Objects can be Interoperable only if:
3.1. (Meta) data is machine-actionable [8]
3.2. (Meta) data formats utilize shared vocabularies and/or ontologies [9]
3.3 (Meta) data within the Data Object should thus be both syntactically parseable and semantically machine-accessible [10]

4. For Data Objects to be Re-usable additional criteria are:
4.1 Data Objects should be compliant with principles 1-3
4.2 (Meta) data should be sufficiently well-described and rich that it can be automatically (or with minimal human effort) linked or integrated, like-with-like, with other data sources [11 and JDDCP 7 and JDDCP 8]
4.3 Published Data Objects should refer to their sources with rich enough metadata and provenance to enable proper citation (ref to JDDCP 1-3).

JDDCP (Joint Declaration of Data Citation Principles)

RDA DFT (Data Foundation and Terminology)

We follow the definitions and arguments of the Ogden/Richard Triangle and theory of meaning for concept, symbol and meaning definitions: see http ://en .m .wikipedia .org /wiki /Triangle _of _reference. The Concept itself is not a Digital Object, but any symbol referring to it in computers is a Digital Object. Lingual words, URI's URLs and any other identifier are all symbols referring to the concept

[2] See an exemplar view on Data Objects in Annex 4

We propose the term 'Data Object' to refer to the combination of data elements + their metadata + a unique identifier. These objects are arbitrarily complex and may appear in many forms and syntaxes.

[3] We explicitly recognize that repositories of Data Objects with FAIR metadata for Data Elements that as such are not (yet) FAIR (as in machine-readable, for instance pictures, video or recorded text) are highly valuable, but should be distinct from repositories of fully machine readable, highly curated data elements (the latter obviously also with FAIR metadata attached). So FAIR metadata is a must-have and FAIR data elements are the 'ultimate goal'.

[4] Persistence is an organizational property; effectively, it is an obligation, formally or informally, that an organization guarantees that something will be maintained. As such, the organizations persistence policy should be explicit and public. We propose that FAIRports clearly state their persistence guarantees and seek for replication and back up of their resources whenever possible.

[5] There are ongoing and fierce debates on what exactly constitutes a 'persistent' identifier. The acronym-term PID is consciously avoided here as it may have connotations of proprietary implementations. We propose to allow many identifiers in FAIR data publishing environments as long as an identifier is uniquely referring to only one concept and the publisher provides a clear policy and description on the maximum achievable guarantee for persistent resolving of the identifier to the correct location/meaning. Obviously, 'locally' used identifiers that cannot be mapped automatically to community adopted and publicly shared identifier schemes are not FAIR. The data publisher choosing a 'proprietary' identifier scheme, will need to provide appropriate and correct mappings to public identifiers to be considered FAIR.

Organizations providing persistent identifiers (i.e. 'authorities') should clearly publish the policies that govern the persistence criteria of these identifiers. Such policies should be machine readable.

Especially also for commercial use of FAIR data, companies need to have a clear appreciation and legal position on their ability to use data. Non-licensed data, although 'open' in the mind of most academics, will be avoided by most major companies, due to legal risks. We appreciate exceptions to full Open Access of data (for instance for patient privacy or intellectual property reasons). We therefore consider appropriate licensing of Data Objects (or even individual data elements within them) as key to FAIR data publishing.

Data Object Licenses and conditions of use (academic and/or private/commercial) should be well described. Such licenses can be referred to with persistent identifiers as well as part of the metadata in Data Objects. The FAIRport community will increasingly provide and recommend standard licenses to choose from. The FAIRport community strongly recommends to publish data in complete Open Access wherever possible. It is expected that most 'authorities' to endorse FAIRports will require that exceptions to Open Access need to be well-argued (see Annex 3)

(list of licenses) Jan Velterop/John Wilbanks.

[7] Putting data 'on the web' is not enough. To be actually interoperable and reusable, Data Objects should not only be properly licensed, but the methods to access and/or download them should also be well described and preferably fully automated and using well established protocols.

[8] in eScience, machine-readability of data is imminent. Metadata being machine readable is a conditio sine qua non for FAIRness. Having the actual data elements also machine-readable will make the Data Object of a higher level of interoperability and makes functional interlinking and analysis in broader context much easier, but it is not a pre-condition for FAIR data publishing. Some data elements, for instance images and 'raw data' can not always be made machine-processable. Being published with FAIR metadata is of very high value in its own right.

[9] When the use of community adopted and public terminology systems is not possible, for instance for reasons described in explanatory note 5, or because the Data Objects contain concepts that have not yet been described in any public vocabulary or ontology known to the provider, the provider should nevertheless try to create a term vocabulary of their own and publish it publicly and openly, preferably in a machine-readable form. The vocabulary or ontology that constrains each constrained data field should be unambiguously identified either by the field itself or by the associated Data Object metadata. For non-constrained fields, whenever possible the value-type of the field should be annotated using a publicly-accessible vocabulary or ontology. This annotation should be clear in the Data Object metadata.

Both syntax and semantics of data models and formats used for (Meat) data in Data Objects should be easy to identify and use, parse or translate by machines. As in the case of identifier schemes and vocabularies, a wide variety of data formats (ranging from URI-featuring spread-sheets such as RightField or OntoMaton to rich RDF) can be principally FAIR. It is obvious that any parsing and translation protocol is error-prone and the ideal situation is to restrict FAIR data publishing to as few community adopted formats and standards as possible. However, if a provider can prove that an alternative data model/format is unambiguously parsable to one of the community adopted FAIR formats, there is no particular reason why such a format could not be considered FAIR. Some data types may simply be not 'capturable' in one of the existing formats, and in that case maybe only part of the data elements can be parsed. FAIRports will increasingly offer guidance and assistance in such cases.

[11] The metadata of a Data Object should be sufficiently rich that a machine or a human user, upon discovery, can make an informed choice about whether or not it is appropriate to use that Data Object in the context of their analysis. Metadata contained within the Data Object should inform the consumer about the license of the data elements; this metadata should be machine-readable to facilitate automated data harvesting while maintaining proper attribution. The Metadata contained within the Data Object should inform about any access-control policy, such that consumers can determine which components of the data they are allowed to access. The Metadata within the Data Object should inform about the authentication protocol leading to access, if applicable.

Furthermore, in eScience, where pattern recognition in 'big' functionally linked or integrated data sets is becoming the norm, provenance is key. In case a pattern emerges from the data analysis algorithms, rationalization and confirmational studies in the underlying data sources is a crucial next step. If the provenance of the Data Elements to their original Data Object and subsequently to the underlying resources (human readable text, data bases, raw data files etc.) is lost, researchers will not be able to track the evidence for what the pattern seems to suggest for a testable hypothesis.

Final note: We explicitly acknowledge that it is possible to implement any of these sub-facets without implementing all of them. Here we give some initial guidance on how to gradully improve FAIR-ness of Data Objects.

Facet-I-syn: Metadata is provided in a format that can be parsed by a machine; i.e. that there is an open standard for the format against which reliable parsing code can be written

Metadata should refer to the schemata used

Facet-I-sem: Metadata takes advantage of shared controlled vocabularies or ontologies, allowing the mapping of metadata fields between disparate resources (regardless of their syntax in each of those repositories)

Metadata should refer to the vocabularies or ontologies used

Facet-I-data: Whenever possible, data should be provided in a format that can be parsed by a machine; i.e. that there is an open standard for the format against which reliable parsing code can be written

Data structures should be defined according to public, documented, and where possible machine readable, schemata.

At the core of the FAIR data formatting and publishing process is a comprehensive view on what constitutes Data and how is it structured. The added value (eScience) perspective of FAIR data is first and foremost 'FAIR for machines'. Human readability as a 'derivative' of well formatted and defined machine readable data is obviously crucial for final interpretation.

Actually, FAIR data will improve human readability as for instance concept-denoting terms can be presented to human users in their own language, based on ARTA (Also Referred To As) tables translating machine resolvable identifiers to lingual terms.

So we view data here initially in the 'digital format'. From that perspective also 'Data' and 'Metadata' are only different in 'what they represent' and in 'what they are used for' not in their technical format. Finally, in eScience,'software' dealing with the data is inseparable from the data itself and for simplicity sake we will treat 'code' as 'executable data' for the purpose of this brief document.

Data used by machines are intrinsically 'digital' and each Data Object (defined in the FAIR principles) is therefore a 'Digital Object' by nature.
One of smallest Digital Objects in a FAIR data setting is a single Identifier referring to a concept (unit of thought), while the concept it denotes in itself is not a Digital Object. [ref. to Ogden Triangle see FAIR principles, explanatory note 1]
Identifiers can be designed for computers or for people, in FAIR data context we recommend minimally one machine-resolvable Persistent Identifier (PID) for each concept used in a Data Object.
Multiple PIDs and other IDs for the same concepts are a fact of life and thus accepted, but FAIR ID's must be guaranteed to map to only one concept.
Mapping Tables and Mapping Service to deal with multiple (P)IDs for concepts are thus accepted in FAIR data and should be provided where needed.
Data Elements are defined as the actual data, and are therefore practically although not technically distinct from their metadata.

One of the smallest possible 'Data Elements' is a single association between two concepts.
- Each FAIR Data Object (even a simple assertion about a single association) should have a PID (for the Data Object as a whole) and a minimal set of metadata 'about' the actual Data Object
- Multiple identifiable data elements can share the same metadata and PID and form one FAIR Data Object (for instance a set of images or a micro-arry data set with hundreds of expression values for genes).
- Individual Identifiable Data Elements can be separately used, integrated, cited and distributed as new Data Objects with a new PID and carrying sufficient metadata from the original Data Object to be traceable back to it and citable in itself or as 'derived from' the original larger Data Object.
- Data Objects are thus 'modular' and 'recurrent' Digital Objects that can scale from a single association between two concepts to entire databases or workflows with many modules.
- FAIR Data Objects can have rich or minimal, intrinsic and user defined metadata (see picture 1), they can have one or up to millions of separately identifiable data elements.

As FAIR is not a trademark, we propose to leave the decision to 'endorse' repositories as FAIRports (meta data or metadata + data can be separated) to 'authorities', such as ELIXIR nodes/the Hub, NIH or SciELO.

We propose to define a 'candidate' FAIRport as any machine-oriented data repository that:

Contains FAIR Data Objects (to be judged by the endorsing authority)
Provides these Data Objects under well defined accessibility for Re-use
Has a full and open description of all technologies, controlled vocabularies and formats used.

We propose that Trusted Parties in each scientific discipline

Define the 'authorities' for each 'semantic category' of concepts typically referred to in Data Objects in their discipline.
Define their minimal criteria to qualify Data Objects as FAIR
Review individual data FAIRports against these established criteria
Give a FAIR[Trusted party] stamp of approval to compliant FAIRports
Publish in Open Repositories (preferably FAIR themselves) what can be expected from FAIRports in their index and with their quality stamp.

We propose to consider the following 'levels' for FAIRports, or actually Data Objects contained in them (in other words, one FAIRport could contain Data Objects with Different 'levels of FAIRness) (see figure).

Level 1: Each Data Object has a PID and intrinsic FAIR metadata (in essence 'static')

Level 2: Each Data Object has 'user defined' (and updated) metadata to give rich provenance in FAIR format of the data, what happened to it, what it has been used for, can be used for etc., which could also be seen as rich FAIR annotations

Level 3. The Data Elements themselves in the Data Objects are 'technically' also FAIR, but not fully Open Access and not Reusable without restrictions (for instance Patient data or Proprietary data).

Level 4: The metadata as well as the data elements themselves are fully FAIR and completely public, under well defined license. (Non-licensed data considered 'public' by their owner will still be excluded from integration projects by for instance Pharmaceutical companies).

(adopted from Michel's and Juns original contributions)

In data driven science, researchers, but increasingly primarily machines, need first of all to find/discover data having features of interest, for which they will be using using links, metadata, as well as actual data elements/contents)

Once found, machines need to be able to access/retrieve data of interest (i.e. obtain a copy of the contents in some format). Next, for researchers to decide on 'giving a go' to their computers to start to re-use/analyze data of interest in the long-list retrieved from 'the web of data' they need to have easy access to and easy workflow tools to process (a.o.):

a. Rich Metadata Information about the harvested Data Objects of interest

b. Answer a question using one or a group of many more datasets

c. Aggregate datasets and perform a statistical analysis

d. Validate the correctness / authenticity of the data

e. Mirror/exchange of data between repositories (sustainability by redundancy)

f. Repeat/reproduce data generation/analysis

g. Functionally link or Integrate data in order to have a coherent view

h. Retrieve evidence at multiple levels to indicate support for a testable hypothesis

i Cite entire Data Objects or individual data elements (where possible) for proper credit.

j. At any point in time, retrieve the 'cited data cluster' as it was at the time it was cited (for dynamically growing data sets, such as twitter feeds or patient blogs and side effect records.

For all these eScience workflow steps (and many more could be imagined), the following features of proper data as the main substrate for machine-assisted Knowledge Discovery are (ao):

a richness of description (in machine readable format)
persistence (available when requested)
identifiers and citation schemes in place
accessibility - available in a variety of formats
interoperability - formats and standards/guidelines
prepared for functional interlinking and where needed integration
appropriate licensing of each data object
user control
reusability
provenance
quality measures
user-contributed content

The FAIR (Findable, Accessible, Interoperable and Re-usable) principles have been designed with these research workflow steps and concerns in mind:

to be findable (F) or discoverable, data and metadata should be richly described to enable attribute-based search.
to be broadly accessible (A), data and metadata should be retrievable in a variety of formats that are sensible to humans and machines using persistent identifiers
to be interoperable (I), the description of metadata elements should follow community guidelines that use an open, well defined vocabulary.
- to be reusable (R), the description of essential, recommended, and optional metadata elements should be machine processable and verifiable, use should be easy and data should be citable to sustain data sharing and recognize the value of data.

(adopted from Jun and with ref. to JDDCP)

Data being FAIR is also a way to supporting the '7-R's', that initially motivated the creation of Research Objects. The 7-R's fit into the FAIR principles and the desired scientific and research activities in which Research Objects play the key role.

Reference: 7-R (v1): Why Linked Data is not enough for scientists (2012). DOI:10.1016/j.future.2011.08.004

Reusable.
Repurposeable
Repeatable
Reproducible
Replayable
Referenceable
Respectful

We will elaborate on the implementation of FAIR principles in sister activities that seek to support machine-friendly, high quality and reproducible science such as Research Objects, BioSharing, Force11, and FAIRdom (FAIR SB models). We see FAIR principles as an overarching way to support many novel practices associated with eScience, data sharing and re-use catering for data and the accompanying software, data capture practices in study design and multi scale models, visualization and proper data citation and alt-metrics.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.

Phần mềm tự do nguồn mở cho Việt Nam