(Bài
đăng trên tạp chí Tia Sáng số 16,
ra ngày 20/08/2019,
trang 14-17.
Phiên bản điện tử của
Tia Sáng trên trực tuyến đăng ngày 26/08/2019
tại địa chỉ:
http://www.tiasang.com.vn/-doi-moi-sang-tao/Hai-dieu-kien-tien-quyet-cho-du-lieu-mo-20567).
Dữ
liệu là nền tảng cơ bản và quan trọng cho hàng loạt
các công nghệ đương thời dựa vào nó như trí tuệ nhân
tạo (AI), Internet của Vạn vật (IoT), dữ liệu lớn (Big
Data). Dữ liệu được hình thành từ số hóa và/hoặc
chuyển đổi số. Để quản
lý tốt và tin cậy,
máy đọc được, sử dụng lại được, lần vết được,
và tránh đúp bản, thì số hóa và/hoặc chuyển đổi số,
bên cạnh các việc khác, phải đi với: (1) mã nhận diện
thường trực duy nhất phù hợp với các tiêu chuẩn quốc
tế; và (2) cấp phép mở, nhất là đối với các dữ
liệu được tạo ra từ cấp vốn nhà nước.
Trong
một thế giới ngày càng được số hóa, mở và dựa vào
dữ liệu như hiện nay, để có thể quản lý và lần vết
được các tài nguyên số ngày càng trở nên thừa thãi
trên Internet, cùng với nhu cầu mới của thời đại CMCN4
với yếu tố chưa từng có trước đây là máy đọc
được, thế giới đã và đang hướng với việc xây
dựng hệ thống các mã nhận diện thường trực
duy nhất cho các đối tượng số. Cùng với điều đó,
để có thể tạo ra được tri thức mới trong khi ‘đứng
trên vai những người khổng lồ’, các tài nguyên tri
thức ngày càng được chia sẻ và truy cập mở nhiều hơn
trên Internet một cách hợp pháp nhờ vào việc cấp
phép mở cho chúng để bất kỳ ai cũng có khả năng
sử dụng lại chúng một cách hợp pháp, trong nhiều
trường hợp vì bất kỳ mục đích gì, kể cả thương
mại hóa nhưng vẫn đảm bảo tôn trọng bản quyền và
các quyền hợp pháp của tác giả, tránh mọi rào cản về
tài chính, pháp lý và kỹ thuật, đặc biệt là các tài
nguyên được tạo ra từ các nguồn vốn cấp của nhà
nước.
A.
Tiếp cận Dữ liệu Mở Liên kết - LOD (Linked
Open Data) với quy tắc 4 điểm và lược đồ
tiêu chuẩn 5 sao của Tim Berners-Lee
Vào
ngày 27/07/2006, Tim Berners - Lee, nhà phát minh ra Web của các
tài liệu siêu văn bản được kết nối với nhau những
năm đầu thập niên 1990 với sự sử dụng các bộ định
vị tài nguyên thống nhất - URL (Uniform Resource Locator), đã
đề xuất một khái niệm mới, Web của dữ liệu (Web of
Data) được kết nối với nhau với sự sử dụng các mã
nhận diện tài nguyên thống nhất - URI (Uniform Resource
Identifier). Cùng với nó, ông đã đưa ra đề xuất về Dữ
liệu Liên kết (Linked Data) với quy tắc 4 điểm và lược
đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết - LOD
(Linked Open Data)[1].
A.1
Mã nhận diện thường trực duy nhất trong tiếp cận Dữ
liệu Mở Liên kết
Giải
thích cho đề xuất này, Tim Berners-Lee nhấn mạnh tới khả
năng sinh ra tri thức mới của LOD và khả năng máy đọc
được, điều rất quan trọng trong CMCN4 với các công
nghệ thời thượng như trí tuệ nhân tạo - AI (Artificial
Intelligence), Internet của vạn vật - IoT (Internet of Things),
hay Dữ liệu lớn (Big Data), và đặc biệt các mô hình
kinh doanh mới dựa vào dữ liệu. Tương tự, ông cũng đưa
ra giải thích về sự khác biệt giữa URI và URL, dù tranh
luận về sự khác biệt giữa chúng và tên tài nguyên
thống nhất – URN (Uniform Resource Name) tới nay vẫn chưa
có hồi kết.
Hình
1. Khác biệt giữa các URI, URL và URN[2]
Đi
theo tiếp cận LOD, nhiều quốc gia trên thế giới đã xây
dựng cho mình các tài liệu URI cho mọi điều, từ hữu
hình tới vô hình. Ví dụ, tại châu Âu, Eurovoc xây dựng
tài liệu URI cho từng ngôn ngữ khác nhau của từng quốc
gia châu Âu. Gần đây nhất, tài liệu Eurovoc, v4.9.1,
2019[3] đã được xuất bản ngày 17/04/2019 với các URI.
Hình
2. Trích từ tài liệu Eurovoc, v4.5, 2016, bản
tiếng Anh[4] với các URI
Trên
thực tế, URI và LOD không chỉ được sử dụng ở mức
quốc gia, mà còn ở mức lĩnh vực và/hoặc ngành nghề.
Ví dụ:
-
LandVoc[5] được sử dụng cho Dữ liệu Mở Liên kết (LOD) về đất đai
-
AgroVoc[6] được sử dụng cho Dữ liệu Mở liên kết (LOD) về nông nghiệp
A.2
Cấp phép mở trong tiếp cận Dữ liệu Mở Liên kết
Theo
lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết
(LOD) trong đề xuất Web dữ liệu của Tim Berners-Lee như
được minh họa trên Hình 3: (1) Để đạt được 1
sao, dữ liệu cần phải được cấp phép mở; (2) Để
đạt được 2 sao, dữ liệu cần phải có 1 sao cộng thêm
với máy đọc được; (3) Để đạt được 3 sao, dữ
liệu cần phải có 2 sao cộng thêm với định dạng mở;
(4) Để đạt được 4 sao, dữ liệu cần phải có 3 sao
cộng thêm với URI; (5) Để có được 5 sao, dữ liệu cần
phải có 4 sao cộng thêm với việc liên kết dữ liệu
mức toàn cầu.
Hình
3. Lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở
Liên kết (LOD)[7]
Tuân
thủ với định nghĩa về Dữ liệu Mở, chỉ một số
giấy phép mở có thể gắn cho dữ liệu để nó trở
thành dữ liệu mở. Ngày nay, các giấy phép trong hệ
thống giấy phép mở Creative Commons thường được sử
dụng nhiều nhất khi cấp phép cho dữ liệu để nó trở
thành dữ liệu mở, như các giấy phép CC BY, CC BY-SA và
CC0.
Cũng
có hệ thống giấy phép khác, như Open Data Commons License
(Giấy phép Chung cho Dữ liệu Mở) được sử dụng để
cấp phép cho dữ liệu; nó có các giấy phép tương tự
như 3 giấy phép được nêu ở trên của Creative Commons,
như trên Hình 4.
Hình
4. Các (hệ thống) giấy phép được sử dụng
để cấp phép mở cho dữ liệu[8]
B.
Tiếp cận theo nguyên tắc Dữ liệu
Tìm thấy được, Truy cập được, Tương hợp được, Sử
dụng lại được - FAIR (Findable, Accessible, Interoperable,
Reusable)
Để
hiểu chi tiết FAIR là
gì và giải nghĩa từng
ký tự của FAIR, có thể
tham khảo phần ‘Định
nghĩa FAIR[9]’
trong tài liệu EC xuất bản năm 2018 với tiêu đề ‘Biến
FAIR thành hiện thực’.
Hình
5. Các
nguyên tắc hướng dẫn FAIR
FAIR
đã bắt đầu được Ủy ban châu Âu sử dụng trong
dự án Thí điểm Dữ
liệu Nghiên cứu Mở - ORD Pilot (Open Research Data Pilot)[10]
trong chương trình
Horizon 2020 giai đoạn 2014-2020 và
hiện nay
là cách tiếp cận chủ đạo của EC cho dữ liệu/siêu
dữ liệu.
B.1
Mã nhận diện thường trực duy nhất trong tiếp cận Dữ
liệu FAIR
Hình
6. Mô hình các đối tượng FAIR
Theo
tiếp cận FAIR, để có nghĩa và
để là FAIR, dữ liệu
và các đối tượng số khác đều phải đi với các mã
nhận diện thường trực - PID (Persistent Identifier) cùng
với siêu dữ liệu và tài liệu liên quan. Các
mã nhận diện đó không chỉ là thường trực đối với
một đối tượng số, mà thường là duy nhất trên phạm
vi toàn cầu. Ví dụ các
mã nhận diện thường
trực duy nhất như:
-
Mã nhận diện đối tượng số - DOI (Digital Object Identifier)
-
Mã nhận diện các nhà nghiên cứu / những người đóng góp sáng tạo – ORCID (Open Researcher and Contributor ID);
-
Mã nhận diện tài nguyên nghiên cứu - RRID (Research Resource Identifiers)
B.2
Cấp phép mở trong tiếp cận Dữ liệu
FAIR
Ngay
cả khi chọn tiếp cận FAIR, cấp phép mở cũng là một
khía cạnh không thể thiếu. Trong chương trình Horizon 2020
giai đoạn 2014-2020, châu Âu đã có Thí điểm Dữ liệu
Nghiên cứu Mở - ORD Pilot (Open Research Data Pilot) chọn đi
theo tiếp cận FAIR và khuyến cáo cấp phép mở bằng các
giấy phép CC BY và CC0 của hệ thống giấy phép Creative
Commons cho dữ liệu và siêu dữ liệu[11].
Còn
trong Kế hoạch S cho giai đoạn 2021-2027, việc chọn tiếp
cận vừa FAIR vừa MỞ là rõ ràng hơn, các giấy phép CC
BY, CC BY-SA và CC0 của hệ thống Creative Commons được chỉ
ra rõ ràng để cấp phép cho cả các xuất bản phẩm
nghiên cứu và các dữ liệu nghiên cứu cùng các siêu dữ
liệu[12].
Điều
này cho thấy, việc cấp phép mở trong tiếp cận Dữ liệu
FAIR cũng không khác so với của tiếp cận Dữ liệu Mở
Liên kết với lược đồ tiêu chuẩn 5 sao được Tim
Berners-Lee đề xuất, như được minh họa trong Hình 4.
C.
Mối quan hệ giữa 2 tiếp cận dữ liệu FAIR và MỞ
Để
có chi tiết về mối quan hệ giữa FAIR và MỞ, xem phần
‘FAIR và dữ liệu Mở[13]’ trong tài liệu EC xuất bản
năm 2018 với tiêu đề ‘Biến FAIR thành hiện thực’.
Dữ
liệu FAIR được giải thích không nhất thiết phải là
dữ liệu mở, kể cả trong ngữ cảnh của khoa học mở,
vì có những lý do để các dữ liệu riêng tư của cá
nhân và dữ liệu bí mật quốc gia không thể là mở
được. Quan điểm của
EC về dữ liệu là như sau:
Dữ
liệu có thể là FAIR hoặc Mở, vừa là FAIR vừa là Mở,
hoặc không là FAIR không là Mở. Các lợi ích lớn nhất
tới khi dữ liệu vừa là FAIR vừa là Mở, vì khi không
có các hạn chế sẽ hỗ trợ được rộng lớn nhất có
thể cho sử dụng lại, và sử dụng lại ở phạm vi
rộng. Để tối đa hóa những lợi ích của việc biến
dữ liệu FAIR thành hiện thực, và trong ngữ cảnh của
các sáng kiến Khoa học Mở, các nguyên tắc FAIR nên được
triển khai kết hợp với yêu cầu chính sách rằng dữ
liệu nghiên cứu nên là Mở mặc định - đó là, Mở trừ
phi có lý do tốt để hạn chế truy cập hoặc sử dụng
lại. Trong công thức của Ủy ban châu Âu gần đây, châm
ngôn ‘càng mở càng tốt, đóng khi cần thiết’ (as open
as possible, as closed as necessary) đã được giới thiệu, nó
là sự khớp nối hữu ích các nguyên tắc đang được
thi hành. Hơn nữa, các cố gắng nên được tiến hành để
làm cho dữ liệu và siêu dữ liệu nghiên cứu truy cập
được mà không lấy tiền của những người sử dụng
đầu cuối. Bất kỳ việc lấy tiền nào hay chế độ
phục hồi chi phí nào cũng nên là thích hợp và không ở
mức làm hạn chế khả năng truy cập.
Từ
quan điểm này, EC có khuyến cáo số 17 như sau:
Điều
chỉnh phù hợp và hài hòa hóa chính sách dữ liệu FAIR
và Mở. Các chính sách nên
được điều chỉnh phù hợp và tăng cường để đảm
bảo rằng dữ liệu nghiên cứu được nhà nước cấp
vốn được làm thành FAIR và Mở, ngoại trừ các hạn
chế hợp pháp. Châm ngôn ‘càng mở càng tốt, đóng khi
có thể’ nên được áp dụng tương xứng với các nỗ
lực thực sự tốt nhất để chia sẻ.
Nói
một cách khác, mối quan hệ giữa FAIR và MỞ có thể
được diễn giải là tính FAIR (FAIRness) càng cao thì càng
nhanh tiệm cận tới tính MỞ (Openness), và ngược lại,
tính mở càng cao thì càng nhanh tiệm cận tới tính FAIR.
Hình
7. Mối quan hệ giữa FAIR và MỞ
D.
Gợi ý cho Việt Nam
Chuyển
đổi số ở Việt Nam, dù
là đi theo tiếp cận nào về
dữ liệu,
FAIR hay MỞ, hay
vừa FAIR vừa MỞ, cũng
đều cần
thiết phải
xây dựng hệ
thống các mã
nhận diện thường trực duy nhất cho các đối tượng
số,
phù hợp với
các tiêu chuẩn quốc tế,
cho cả
các đối tượng hữu hình và vô hình, bao
gồm các xuất bản phẩm và
dữ
liệu nghiên cứu,
để có
thể quản lý tốt
và tin cậy, sử dụng lại được, lần
vết được, tránh
đúp bản (đúp
bản càng nhiều, rác dữ liệu cũng sẽ càng nhiều),
và
quan trọng hơn, để dữ liệu máy
đọc được
- một trong những đặc
tính quan trọng bậc nhất để tiếp cận tới CMCN4,
điều
còn
chưa rõ (các)
cơ quan hay
tổ chức nào
sẽ chịu trách nhiệm xây dựng chúng. Có
lẽ, ngành thư viện Việt Nam sẽ có vai trò chủ đạo,
khi kết hợp với ngành công nghệ thông tin và truyền
thông và các ngành khác có thể xây dựng hệ thống các
mã thường trực duy nhất cho các đối tượng số cho
Việt Nam.
Mặt
khác, vì tính FAIR càng cao thì càng nhanh tiệm
cận tới tính MỞ,
trong khi để bất kỳ đối tượng số nào là mở, điều
kiện tiên quyết là đối tượng số đó phải được
cấp phép mở,
công việc hầu như cũng
chưa có
ở bất kỳ đâu, kể cả trong các cơ sở giáo dục mọi
cấp ở Việt Nam, cũng chưa rõ (các) cơ quan nào sẽ chịu
trách nhiệm phổ biến nó.
Có lẽ là tốt nhất nếu cấp phép mở là
môn học bắt buộc và
được giảng dạy càng
sớm càng tốt trong tất cả các cơ sở giáo dục ở tất
cả các cấp, từ cấp tiểu học, đặc biệt trong toàn
bộ hệ thống các trường sư phạm trên phạm vi toàn
quốc ở Việt Nam.
Cuối
cùng, mọi con đường đều dẫn tới giáo dục. Nó là
đặc biệt đúng ở Việt Nam, khi gần 25 triệu người,
khoảng 1/4 dân số Việt Nam, đang hàng ngày sống và làm
việc trong khu vực giáo dục, nơi có ‘nguyên khí quốc
gia’, nơi có lực lượng đông đảo nhất những người
có khả năng giành được tri thức, đào sâu tri thức và
tạo lập tri thức mới dựa vào tri thức sẵn có của
thế giới, rất nhiều trong số chúng là các tri thức
MỞ. Không có giáo dục đi cùng, CMCN4 - cách mạng của
tri thức - khó có thể hiện thực hóa được trong thực
tế, để tạo ra hàng loạt các sản phẩm và dịch vụ
‘Make in Vietnam’ trên diện rộng, theo đúng nghĩa của
từ ‘Cách mạng’.
E.
Các chú giải
[1]
Tim Berners-Lee, 27/07/2006: Linked Data:
https://www.w3.org/DesignIssues/LinkedData.html
[2]
Daniel Miessler, May 4, 2019: The Difference Between URLs, URIs,
and URNs: https://danielmiessler.com/study/url-uri/
[3]
EU Vocabularies: Eurovoc v4.9.1:
https://publications.europa.eu/en/web/eu-vocabularies/news/-/blogs/eurovoc-4-9-1
[4]
Eurovoc v4.5, 2016, bản tiếng Anh:
https://www.dropbox.com/s/4ikrbcm6vrbg9z3/EuroVoc45_ReleaseNote_en.pdf?dl=0
[5]
LandPortal: LandVoc: https://landportal.org/voc/landvoc
[6]
FAO, AIMS: AGROVOC Linked Open Data:
http://aims.fao.org/standards/agrovoc/linked-data
[7]
Tim Berners-Lee: 5 star Open Data: https://5stardata.info/en/
[8]
Lê Trung Nghĩa biên dịch, 2018: Chỉ dẫn của nhà xuất
bản về cấp phép dữ liệu mở:
https://vnfoss.blogspot.com/2018/02/chi-dan-cua-nha-xuat-ban-ve-cap-phep-du.html
[9]
Lê Trung Nghĩa biên dịch, 2019: Biến FAIR thành hiện
thực:
https://www.dropbox.com/s/wtiraui8svilgei/turning_fair_into_reality_1-Vi-30042019.pdf?dl=0,
tr. 30-32
[10]
Lê Trung Nghĩa biên dịch, 2019: Hướng
dẫn của Hội đồng Nghiên cứu châu Âu về Triển khai
Truy cập Mở tới các Xuất bản phẩm Khoa học và Dữ
liệu Nghiên cứu trong các dự án được Hội đồng
Nghiên cứu châu Âu hỗ trợ trong Horizon 2020:
https://www.dropbox.com/s/lb0i9vr3t6cl1dt/h2020-hi-erc-oa-guide_en_Vi-06052019.pdf?dl=0,
trang 8-9
[11]
Lê Trung Nghĩa biên dịch, 2019:
Hướng dẫn của Hội đồng
Nghiên cứu châu Âu (ERC) về Triển khai Truy cập Mở tới
các Xuất bản phẩm Khoa học và Dữ liệu Nghiên cứu
trong các dự án được Hội đồng Nghiên cứu châu Âu hỗ
trợ trong Horizon 2020:
https://www.dropbox.com/s/lb0i9vr3t6cl1dt/h2020-hi-erc-oa-guide_en_Vi-06052019.pdf?dl=0,
tr. 8, 10.
[12]
Lê Trung Nghĩa biên dịch, 2019: Làm
cho Truy cập Mở đầy đủ và tức thì thành hiện thực:
https://www.dropbox.com/s/qv5adcecb47g65d/271118_cOAlitionS_Guidance-Vi-10042019.pdf?dl=0,
phần ‘Cấp phép và các quyền’, tr. 7.
[13]
Lê Trung Nghĩa biên dịch, 2019:
Biến FAIR thành hiện thực:
https://www.dropbox.com/s/wtiraui8svilgei/turning_fair_into_reality_1-Vi-30042019.pdf?dl=0,
tr. 34-36
Giấy
phép nội dung:
Lê
Trung
Nghĩa
PS:
Tự
do tải về bài viết ở định dạng PDF ở địa chỉ:
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.