Thứ Sáu, 10 tháng 11, 2017

Xã hội hiện đại hướng dữ liệu và tác động của nó tới các thư viện


Lê Trung Nghĩa, letrungnghia.foss@gmail.com
Bài viết cho: Hội thảo khoa học: “Dịch vụ thông tin - thư viện trong xã hội hiện đại”
tại Trường Đại học Văn hóa Hà Nội, ngày 07/11/2017

Kỷ yếu Hội thảo “Dịch vụ thông tin thư viện trong xã hội hiện đại”, trang 153-160


Tóm tắt: Cuộc cách mạng công nghiệp lần thứ 4 (CMCN4.0) đang diễn ra là một xu thế toàn cầu, có ảnh hưởng tới từng con người ở mọi quốc gia trên thế giới với những dịch chuyển được dự báo là chưa từng có trong lịch sử. Nhiều trong số các dịch chuyển đó chỉ có khả năng xảy ra được nhờ vào khoa học mở, truy cập mở và dữ liệu mở trong môi trường kết nối mạng, điều gián tiếp giúp cho người máy có thể thay thế nhiều công việc chân tay của con người. Trong bối cảnh đó, có ý kiến tổng hợp cho rằng: Các thư viện là một trong các tác nhân chính, có vai trò xúc tác và tạo nên hạ tầng vật lý để các nhà khoa học tiến hành các công việc của họ theo hướng khoa học mở, truy cập mở và dữ liệu mở. Vai trò nổi bật của các thư viện là trong quản lý toàn bộ vòng đời dữ liệu nghiên cứu.


Đặt vấn đề

Trong tài liệu giới thiệu về cách mạng công nghiệp 4.0 (CMCN4.0) của Cục Thông tin và Khoa học Công nghệ Quốc gia[1] có đoạn mô tả chuyến viếng thăm một nhà máy sản xuất của tập đoàn Siemens của Thủ tướng Đức Angela Merkel như sau:
Ngày 23/02/2015, Thủ tướng Đức Angela Merkel đã đến thăm EWA. Bà đã chứng kiến quá trình giao tiếp tự động giữa máy với máy, nơi thế giới ảo và thế giới thực được kết nối với nhau qua công nghệ thông tin để tích hợp vào quá trình sản xuất, để tự động hóa hoàn toàn quá trình sản xuất tạo ra sản phẩm”.


Đoạn trích dẫn tương tự có thể xem được trong các bài báo khác trên Internet, ví dụ như ở đây[2].
Trích đoạn ở trên cho thấy, với CMCN4.0, máy móc và/hoặc người máy có khả năng giao tiếp với nhau, và để làm được điều đó, chúng phải hiểu được nhau.


Câu hỏi bao trùm bài viết này là: việc máy móc và/hoặc người máy hiểu được nhau, giao tiếp được với nhau thì liên quan gì tới các công việc hay dịch vụ của thư viện?


Internet ngày nay đã và đang thay đổi nhanh chóng

Nếu bạn là một trong nhiều tỷ người trên trái đất có khả năng truy cập Internet, thì có lẽ tin chắc là bạn thường xuyên sử dụng nó để làm việc, học tập và/hoặc giải trí.
Để truy cập tới bất kỳ tài liệu siêu văn bản (hypertext) nào trên Internet, điều bạn tối thiểu cần phải có là một thiết bị có kết nối với Internet và một trình duyệt web.
Thao tác bạn thường xuyên phải làm trước khi có khả năng xem được bất kỳ tài liệu siêu văn bản nào trên Internet là gõ vào dòng địa chỉ (Address Bar) của trình duyệt web địa chỉ của tài liệu siêu văn bản bạn muốn xem rồi nhấn phím Enter trên bàn phím máy tính hoặc thiết bị của bạn.
Ví dụ, để có thể xem được tài liệu siêu văn bản của Đại học Văn hóa Hà Nội, bạn phải gõ vào dòng Address Bar của trình duyệt web trên máy của bạn địa chỉ: http://huc.edu.vn/ rồi nhấn phím Enter để truy cập tới nó, khi có kết nối với Ineternet.
Từ đây, bạn có thể xem được nhiều tài liệu siêu văn bản không chỉ của Đại học Văn hóa Hà Nội, mà còn xem được vô vàn tài liệu siêu văn bản khác ở bất kỳ đâu trên thế giới, nếu ở đâu đó trong tài liệu siêu văn bản của Đại học Văn hóa Hà Nội có các đường siêu liên kết (hyperlink) tới các địa chỉ của các tài liệu siêu văn bản khác đó.
Các địa chỉ của các tài liệu siêu văn bản được liên kết với nhau đó còn được gọi là các Bộ định vị Tài nguyên Thống nhất - URL (Uniform Resource Locator). Nói cách khác, để xem một tài liệu siêu văn bản nào đó, bạn phải gõ URL của nó vào dòng Address Bar trên trình duyệt web rồi nhấn phím Enter để truy cập và xem.
Bạn thấy đấy, hiện tại, hầu hết chúng ta đang hàng ngày sử dụng Web của các tài liệu (siêu văn bản) được kết nối với nhau (Web of interlinked documents).


Tuy nhiên, thực tế này có thể sẽ bị/được thay đổi nhanh chóng từ nay trở đi.


Đề xuất của người đã phát minh ra Web, ngài Tim Berners-Lee



Web đang tiến hóa từ “Web” của các tài liệu được liên kết với nhau thành “Web” của các dữ liệu được liên kết với nhau.
Web is evolving from a “Web of linked documents” into a “Web of linked data”.


Vào ngày 27/07/2006, Tim Berners-Lee, người phát minh ra Web đã có đề xuất về Dữ liệu Liên kết (Linked Data) với Web ngữ nghĩa (Semantic Web) và khung mô tả tài nguyên - RDF (Resource Description Framework), đi kèm theo bộ quy tắc 4 điểm và lược đồ tiêu chuẩn 5 sao cho dữ liệu mở liên kết (Linked Open Data)[3].
Điều quan trọng nhất trong đề xuất của Tim Berners-Lee nằm ở chỗ ông tin tưởng rằng với Web của các tài liệu được liên kết với nhau, như chúng ta đã và đang sử dụng từ trước tới nay, thì chỉ con người mới hiểu được; trong khi với Web của các dữ liệu được liên kết với nhau, như có lẽ từ nay trở đi chúng ta sẽ sử dụng ngày một nhiều hơn, thì máy cũng có khả năng hiểu được.
Để máy có khả năng hiểu được, các tài nguyên được đưa lên Internet cần phải tuân thủ quy tắc 4 điểm và hướng tới lược đồ tiêu chuẩn 5 sao cho dữ liệu mở liên kết, một cách khái quát có thể được nêu như sau:
Với quy tắc 4 điểm, bạn sẽ:
  1. Sử dụng các mã định danh tài nguyên thống nhất - URI (Uniform Resource Identifier) như là tên cho mọi điều, thay vì sử dụng các bộ định vị tài nguyên thống nhất (URL) như chúng ta thường quen sử dụng từ trước tới nay.
  2. Sử dụng HTTP URI thay vì HTTP URL để mọi người có thể tra cứu được các tên đó.
  3. Hãy cung cấp các thông tin hữu dụng bằng việc sử dụng các tiêu chuẩn, như RDF (Resource Description Framework), SPARQL (Simple Protocol And RDF Query Language), khi ai đó tra cứu một URI. RDF và SPARQL là những tiêu chuẩn mới, chưa từng có trước kia.
  4. Đưa ra các đường liên kết tới các URI khác, sao cho mọi người có thể phát hiện ra được nhiều điều hơn nữa.
Với lược đồ tiêu chuẩn 5 sao của dữ liệu mở liên kết, bạn sẽ: có nhu cầu liên tục phải cải tiến để nâng hạng sao, sao cho các dữ liệu bạn đưa lên Internet có khả năng đạt được các lợi ích lớn nhất mà dữ liệu mở liên kết có thể đem lại cho bạn.


Bảng 1. Lược đồ tiêu chuẩn 5 sao của dữ liệu mở liên kết
Sẵn sàng trên web (bất kể định dạng nào) nhưng với một giấy phép mở, để trở thành Dữ liệu Mở
★★
Sẵn sàng như là dữ liệu có cấu trúc và máy đọc được (ví dụ, excel thay vì quét ảnh cái bảng)
★★★
Như 2 sao cộng với định dạng không sở hữu độc quyền (ví dụ, CSV thay vì excel)
★★★★
Tất cả ở trên cộng với, sử dụng các tiêu chuẩn mở từ W3C (RDF và SPARQL) để nhận diện mọi thứ, sao cho mọi người có thể trỏ tới đồ của bạn
★★★★★
Tất cả ở trên, cộng với: liên kết dữ liệu của bạn tới dữ liệu của những người khác để cung cấp ngữ cảnh


Từ thực tế triển khai khoa học mở, truy cập mở và dữ liệu mở

Để có được mã định dạng thống nhất URI gắn cho mọi điều, cả vật lý lẫn trừu tượng, trong chương trình khoa học mở của mình, Ủy ban châu Âu đã xây dựng trang EuroVoc[4] nhằm cung cấp kho từ vựng tiêu chuẩn cho nhiều ngôn ngữ khác nhau của châu Âu. Dưới đây là vài ví dụ của việc gắn từ vựng tiêu chuẩn với các mã URI đó:
Quỹ Nhi đồng của Liên hiệp quốc – Unicef bây có mã URI là:
Các chương trình và quỹ của Liên hiệp quốc có mã URI là:
Trẻ em bây giờ có mã URI là:


Câu hỏi mới nảy sinh: Ai sẽ là người có trách nhiệm xây dựng các bộ từ vựng tiêu chuẩn được tốt nhất?


Có lẽ một trong những người có khả năng đó là các thư viện và thủ thư chăng?


Một câu hỏi khác được đặt ra là: Vì sao lại là dữ liệu, dữ liệu lớn (Big Data), dữ liệu mở (Open Data) và dữ liệu mở liên kết (Linked Open Data)?


Trả lời câu hỏi trên là nằm ngoài phạm vi của bài viết này. Mặc dù vậy, có thể thấy được tầm quan trọng của các khái niệm ở trên, như được nêu trong báo cáo khảo sát về “Dịch chuyển sâu: Các điểm tới hạn về công nghệ và ảnh hưởng của công nghệ” (Deep Shift - Technology Tipping Points and Societal Impact)[5] được chuẩn bị cho Diễn đàn Kinh tế Thế giới Davos 2015. Báo cáo này đã dự báo 21 dịch chuyển sâu trong tương lai gần, một trong những dịch chuyển sâu đó có liên quan tới dữ liệu lớn (Big Data) (dịch chuyển số 11, trang 19[5]) mà với nó, nhiều quyết định theo thời gian thực sẽ được đưa ra trong quản lý điều hành và/hoặc sản xuất sẽ dựa vào các kết quả phân tích các dữ liệu lớn được liên kết với nhau qua Internet trên phạm vi toàn cầu.
Hình 1: Lộ trình dự kiến xảy ra các dịch chuyển trong tương lai[5]


Dễ nhận thấy, nhiều dịch chuyển phụ thuộc vào dữ liệu lớn, dữ liệu mở, dữ liệu mở liên kết và các công nghệ có liên quan tới dữ liệu, phụ thuộc vào việc sử dụng các phân tích dữ liệu lớn, dữ liệu mở, dữ liệu mở liên kết trên phạm vi toàn cầu theo thời gian thực để đưa ra các quyết định có đầy đủ thông tin, ví dụ như:
  • Dữ liệu lớn để ra các quyết định (Big Data for Decisions)
  • Các chính phủ và blockchain (Government and Blockchain). Blockchain[6] cơ sở dữ liệu phân tán được sử dụng để duy trì danh sách các bản ghi được bổ sung vào liên tục, được gọi là các khối. Từng khối chứa dấu thời gian và đường liên kết tới khối trước đó.
  • Trí tuệ nhân tạo và ra quyết định (AI and Decision Making)
  • Thành phố thông minh (Smart Cities)
  • Các dịch chuyển khác


Câu hỏi quan trọng: Ai sẽ là người có trách nhiệm quản lý dữ liệu tốt nhất có thể?

Nhiều bài báo trên Internet đã trả lời cho câu hỏi này và trong số đó không ít bài nói về vai trò của các thư viện[7], [8], [9] trong việc quản lý vòng đời dữ liệu nghiên cứu nói riêng và trong việc xúc tác cho khoa học mở, truy cập mở và dữ liệu mở nói chung - đã chỉ ra rằng, chính các thư viện - chứ không phải ai khác - là một trong các tác nhân chính, có vai trò xúc tác và tạo nên hạ tầng vật lý để các nhà khoa học tiến hành các công việc của họ theo hướng khoa học mở, truy cập mở và dữ liệu mở. Vai trò nổi bật của các thư viện là trong quản lý toàn bộ vòng đời dữ liệu nghiên cứu.
Các thư viện là một trong các tác nhân chính, có vai trò xúc tác và tạo nên hạ tầng vật lý để các nhà khoa học tiến hành các công việc của họ theo hướng khoa học mở, truy cập mở và dữ liệu mở. Vai trò nổi bật của các thư viện là trong quản lý toàn bộ vòng đời dữ liệu nghiên cứu.


Vòng đời dữ liệu nghiên cứu

Câu hỏi quan trọng: Các thư viện và thủ thư sẽ làm gì khi trách nhiệm của họ là quản lý toàn bộ vòng đời dữ liệu nghiên cứu?


Một trong các phát hiện trong bài báo “Vai trò nổi bật đối với các thư viện: nghiên cứu quản lý dữ liệu”[7] là đưa ra được mô hình vòng đời quản lý dữ liệu – xem Hình 2 bên dưới, mà theo tác giả bài báo, các thư viện bây giờ có trách nhiệm phải quản lý.
Vòng đời dữ liệu với 6 giai đoạn và các công việc đi kèm trong từng giai đoạn bao gồm:
  1. Tạo ra dữ liệu
    1. thiết kết nghiên cứu
    2. lên kế hoạch quản lý dữ liệu (các định dạng, kho lưu trữ, …)
    3. lên kế hoạch tán thành cho việc chia sẻ
    4. định vị dữ liệu hiện đang có
    5. thu thập dữ liệu (thí điểm, quan sát, đo đếm, mô phỏng)
    6. chụp và tạo siêu dữ liệu
  2. Xử lý dữ liệu
    1. vào dữ liệu, số hóa, sao lục, dịch
    2. kiểm tra, thẩm định, làm sạch dữ liệu
    3. nặc danh hóa dữ liệu ở những nơi cần thiết
    4. mô tả dữ liệu
    5. quản lý và lưu trữ dữ liệu


Hình 2. Vòng đời dữ liệu và các công việc đi kèm trong từng giai đoạn[7]


  1. Phân tích dữ liệu
    1. diễn giải dữ liệu
    2. dẫn xuất dữ liệu
    3. sản xuất các kết quả đầu ra nghiên cứu
    4. xác định tác giả cho các xuất bản phẩm
    5. chuẩn bị dữ liệu để bảo tồn
  2. Bảo tồn dữ liệu
    1. chuyển đổi dữ liệu sang định dạng tốt nhất
    2. chuyển đổi dữ liệu sang phương tiện phù hợp
    3. sao lưu và lưu giữ dữ liệu
    4. tạo siêu dữ liệu và tài liệu
    5. lưu trữ dữ liệu
  3. Cho phép truy cập dữ liệu
    1. phân phối dữ liệu
    2. chia sẻ dữ liệu
    3. kiểm soát dữ liệu
    4. thiết lập bản quyền
    5. quảng bá dữ liệu
  4. Sử dụng lại dữ liệu
    1. theo dõi nghiên cứu
    2. nghiên cứu mới
    3. triển khai rà soát các nghiên cứu
    4. soi xét các phát hiện
    5. dạy và học


Không khó để có thể nhận ra, sẽ có vô vàn công việc mới, sản phẩm và dịch vụ mới sẽ được tạo ra, dựa vào vai trò và công việc của các thư viện, các thủ thư bao quanh việc quản lý toàn bộ vòng đời dữ liệu.


KẾT LUẬN

CMCN4.0 đòi hỏi trước nhất hạ tầng nền tảng cơ bản về tri thức để đáp ứng cho sự phát triển. Các thư viện là một trong các tác nhân chính, có vai trò xúc tác và tạo nên hạ tầng vật lý để các nhà khoa học tiến hành các công việc của họ theo hướng khoa học mở, truy cập mở và dữ liệu mở. Vai trò nổi bật của các thư viện là trong quản lý toàn bộ vòng đời dữ liệu nghiên cứu. Không có nó, có thể CMCN4.0 chỉ có ở trên giấy và không có cách gì để hiện thực hóa nó được.
Hiện nay trên thế giới cũng đã có những ví dụ nổi bật của một vài cơ sở trong lĩnh vực thư viện đi theo con đường cung cấp các dịch vụ hướng dữ liệu nêu trên, như Thư viện Quốc gia Đức, Europeana hoặc BBC của Vương quốc Anh[10]. Chúng có thể là những ví dụ rất tốt để các thư viện của Việt Nam tham khảo để phát triển phù hợp với xu thế mới của thời đại, để các thư viện chuyển đổi dần từ việc xây dựng các bộ sưu tập sang việc kết nối các bộ sưu tập (from cataloging to catalinking), nắm lấy việc quản lý vòng đời dữ liệu và các công việc hệ trọng khác vì sự phát triển của quốc gia trong hội nhập với thế giới trong tương lai.
Như một lời nhắc nhở, một bài báo khác trên Internet có nêu 2 đoạn sau[8]: (1) “Ở những nơi các thư viện không cung cấp được đủ các dịch vụ dữ liệu mới và có tính đổi mới, thì những người khác sẽ làm. Một ví dụ của điều này là các tạp chí dữ liệu mới”; và (2) “Nếu các thư viện tiếp tục hoàn thành vai trò truyền thống cốt lõi của họ, thì sẽ có các nhu cầu đối với các tiếp cận có tính đổi mới hơn rất nhiều về dữ liệu. Không đổi mới thành công có thể sẽ thấy thư viện và các thủ thư với vai trò mờ nhạt hơn rất nhiều”.
Xã hội luôn vận hành để tiến lên; nếu các thư viện và các thủ thư không nhận diện được vai trò quan trọng của mình trong tương lai và hành động quyết liệt để thay đổi cho phù hợp, chắc chắn, những tác nhân khác sẽ tới để thay thế họ!

Thông tin và tài liệu tham chiếu

[1] Tài liệu giới thiệu về cách mạng công nghiệp 4.0 (CMCN4.0) của Cục Thông tin và Khoa học Công nghệ Quốc gia. https://www.dropbox.com/s/yc9rqmxtagddniw/TL8_2016.pdf?dl=0
[3] Linked Data, Tim Berners-Lee, 27/07/2006. https://www.w3.org/DesignIssues/LinkedData.html
[4] Trang EuroVoc. http://eurovoc.europa.eu/
[5] WORLD ECONOMIC FORUM, 2015. Deep Shift - Technology Tipping Points and Societal Impact, được chuẩn bị cho Diễn đàn Kinh tế Thế giới DAVOS 2015. https://www.dropbox.com/s/81py239ihmkmrlb/WEF_GAC15_Technological_Tipping_Points_report_2015.pdf?dl=0
[7] Vai trò nổi bật của các thư viện: quản lý dữ liệu nghiên cứu. http://vnfoss.blogspot.com/2017/05/vai-tro-noi-bat-cua-cac-thu-vien-quan.html
[8] Các thư viện có thể đóng vai trò chính trong quản lý dữ liệu nghiên cứu. http://vnfoss.blogspot.com/2017/05/cac-thu-vien-co-ong-vai-tro-chinh-trong.html
[9] Các thư viện: các vai trò và cơ hội trong Khoa học Mở. http://vnfoss.blogspot.com/2017/05/cac-thu-vien-cac-vai-tro-va-co-hoi.html
[10] Phil Archer et al. Nghiên cứu các mô hình kinh doanh cho Dữ liệu Chính phủ Mở Liên kết (BM4LOGD). EC xuất bản ngày 12/11/2013. https://www.dropbox.com/s/fksk1ri4ost7gyx/Study_on_business_models_for_Linked_Open_Government_Data_BM4LOGD_v1.00-Vi-26042017.pdf?dl=0

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.