Thứ Ba, 17 tháng 3, 2020

Bài 10 - Dữ liệu của tôi hữu dụng thế nào?

Dữ liệu của tôi hữu dụng thế nào?
Việc đánh giá dữ liệu mở hữu dụng như thế nào có thể biến động phụ thuộc vào lĩnh vực và nội dung. Để hỗ trợ cho quy trình này, có một số hướng dẫn thực hành tốt nhất các nhà xuất bản và những người sử dụng có thể đi theo.
Trong bài này chúng ta xem xét 5 Sao của dữ liệu mở liên kết và khám phá cách điều này có thể được sử dụng để đo đếm tính khả dụng về mặt kỹ thuật của dữ liệu.
Trong bài này chúng ta sẽ khai thác những điều sau đây:
  • 5 Sao của dữ liệu mở liên kết là gì
  • 3 sao đầu tiên
  • Làm thế nào để nhận thức được các ngôi sao trong dữ liệu

Đánh giá tính khả dụng của dữ liệu – trong 2 phút

Giảng viên David Tarrant của ODI giới thiệu 5 Sao của dữ liệu mở như là công cụ đánh giá và giúp bạn hiểu nó có thể được sử dụng như thế nào và ở đâu.

5 Sao của dữ liệu mở

Hướng dẫn 5 Sao cho dữ liệu mở liên kết (linked open data) là cách để đo đếm dữ liệu được tích hợp vào Web tốt như thế nào.
Nó xem xét khả năng truy cập và tính khả dụng về kỹ thuật của tập hợp dữ liệu trải từ đang có sẵn sàng trên trực tuyến (1 sao) cho tới đang là một phần của web dữ liệu (5 sao). Từng ngôi sao phải được trao tuần tự và không ngôi sao nào được/bị bỏ qua.
Các hướng dẫn đã được Ngài Tim Berners-Lee phát triển vào năm 2001 và đã được các nhà xuất bản trên thế giới áp dụng để giúp hướng dẫn cho nhiều sáng kiến dữ liệu mở, như Cơ quan Số của nước Ý (Italian Digital Agency) để gắn các huy hiệu cho tất cả các tập hợp dữ liệu của họ.
Trong bài này chúng ta xem xét 3 sao đầu, chúng phù hợp với dữ liệu dạng bảng và giao dịch. Còn 2 sao cuối được khai thác trong bài số 13.

3 sao đầu tiên

3 sao đầu tiên của dữ liệu mở liên kết cho phép bạn thiết lập nếu dữ liệu có sẵn là sử dụng được.

1 sao - Một giấy phép mở

Sao đầu tiên được trao cho bất kỳ dữ liệu nào là mở ở mức cơ bản. Nội dung, ở bất kỳ định dạng nào, phải là sẵn sàng theo một giấy phép mở.
Bất kể chất lượng của tập hợp dữ liệu, nó không thể đủ điều kiện để có sao đầu tiên trừ phi nó là sẵn sàng theo một giấy phép mở.
Một tệp PDF trên một website sẵn sàng theo một giấy phép mở là đủ để đáp ứng sao đầu tiên này.

2 sao - Định dạng sử dụng lại được

Sao thứ hai được trao cho bất kỳ dữ liệu nào cho phép sử dụng lại đơn giản. Các hướng dẫn nêu rằng dữ liệu đó phải là sẵn sàng ở ‘định dạng có cấu trúc, sử dụng lại được cao độ’ để có thể được máy đọc được và người hiểu được.
Chìa khóa để đạt được 2 sao là lựa chọn định dạng sử dụng lại được nhiều nhất. Trong vài trường hợp, định dạng sử dụng lại được nhiều nhất có thể là định dạng đóng hoặc sở hữu độc quyền, như tệp Excel hoặc Numbers.
Làm cho dữ liệu sẵn sàng ở bất kỳ định dạng nào là tốt hơn so với không ở định dạng nào.

3 sao - Định dạng mở

Các hướng dẫn cho sao thứ ba của dữ liệu mở nêu rằng dữ liệu phải là sẵn sàng ở định dạng có cấu trúc, máy đọc được để không bị trói vào một gói phần mềm nhất định nào.
Ví dụ một tập hợp dữ liệu có thể được trao 3 sao là tệp CSV với một giấy phép mở đúng thích hợp.
Enel, một công ty năng lượng của Ý, cung cấp ví dụ tốt về một tập hợp dữ liệu 3 sao với huy hiệu xếp hạng sao được trình bày rõ ràng.

Mở khóa cho tính khả dụng của dữ liệu mở

Từng ngôi sao giành được đại diện cho sự tiến bộ về tính khả dụng của một tập hợp dữ liệu. Hãy sử dụng các kiểm tra sau đây để đánh giá bất kỳ tập hợp dữ liệu nào có bao nhiêu sao.

Sao 1 - Kiểm tra giấy phép

Việc tìm kiếm giấy phép cho một tập hợp dữ liệu mở có thể là một trong những bước khó khăn nhất.
Giấy phép mở là sự cho phép rõ ràng để sử dụng dữ liệu đó cho các mục đích, cả thương mại và phi thương mại.
  • Bản ghi siêu dữ liệu về dữ liệu đó
  • Các điều khoản và điều kiện của trang web hoặc website
  • Nhấn vào tệp dữ liệu đó, có thể có màn hình popup
  • Kiểm tra bên trong bản thân tệp dữ liệu đó

Các websites có thông tin cấp phép theo các cách thức khác nhau, bạn có thể phải tìm kiếm một chút trên từng trang để tìm ra chúng.

Sao 2 - Kiểm tra tính khả dụng

Khi bạn phát hiện ra dữ liệu mở trên Web, có vài cách thức ở đó bạn có thể đánh giá nó hữu dụng như thế nào. Hãy tự hỏi:
  • Bạn có nghĩ đây là định dạng thân thiện nhất với người sử dụng để xuất bản dữ liệu cụ thể này hay không?
  • Liệu tệp đó có là y hệt như tệp mà nhà xuất bản đó sử dụng hay không?
  • Liệu có bất kỳ thông tin nào khác đã được ai đó đã bổ sung thêm vào hay không?

Sao 3 - Kiểm tra tính mở

Các định dạng mở đôi khi là khó để đánh giá. Các câu hỏi sau sẽ giúp bạn hiểu liệu dữ liệu đó có là sẵn sàng ở một định dạng mở hay không:
  • Tôi có thể mở tệp đó trong hơn 1 chương trình trên máy tính của tôi và vẫn thấy đầy đủ các chức năng của tệp đó hay không?
  • Khi tôi tra cứu định dạng tệp (như CSV) trên trực tuyến, liệu nó có nói Tôi cần tải về một chương trình nhất định nào đó để mở nó hay không?
CSV là định dạng mở phổ biến nhất và dễ dàng để nhận diện. CSV đủ điều kiện cho 3 sao miễn là 2 sao khác đã đạt được. Cổng dữ liệu mở của Vương quốc Anh cung cấp vài ví dụ tốt các tập hợp dữ liệu CSV 3 sao được đánh dấu rõ ràng với cả giấy phép và định dạng tệp.
Nhiều cổng dữ liệu mở cũng đang xuất bản các tệp Định dạng Tài liệu Mở - ODF (Open Document Format). Các tệp đó có lẽ là tuyệt vời cho dữ liệu mở, dù nó có thể là khó để nhận diện công cụ có thể mở được các tệp đó.
Bạn sẵn sàng để đánh giá tính mở?
Có 4 điều đơn giản để nhớ khi nói về việc đánh giá tính mở. Bạn có thể nhắc lại chúng?
Bạn đánh giá xếp hạng tính mở của tập hợp dữ liệu bằng việc sử dụng 5 Sao như thế nào?
Bạn có thể đánh giá tính mở của tập hợp dữ liệu bạn tìm thấy trên trực tuyến?
  • Xem từng sao riêng rẽ và đánh giá xếp hạng theo sao cao nhất đạt được
  • Hãy bắt đầu bằng sao đầu tiên và đánh giá xếp hạng từng sao một cách tuần tự
  • Chỉ đoán

Đáp án đúng!
Từng sao phải được trao tuần tự và không sao nào có thể bị/được bỏ qua.
Bạn chắc chắn chứ?
Từng sao phải được trao tuần tự và không sao nào bị/được bỏ qua.
Sao thứ 2 là gì?
Sao thứ 2 được trao cho ...
  • một giấy phép mở
  • định dạng mở
  • định dạng sử dụng lại được
Đáp án đúng!
Sao thứ 2 tất cả là về khả năng sử dụng lại dữ liệu và khuyến cáo dữ liệu nên là sẵn sàng ở dạng sử dụng lại được nhiều nhất của nó bất kể định dạng đó là mở hay sở hữu độc quyền.
Bạn chắc chắn chứ?
Sao thứ 2 tất cả là về khả năng sử dụng lại dữ liệu và khuyến cáo dữ liệu nên là sẵn sàng ở dạng sử dụng lại được nhiều nhất của nó bất kể định dạng đó là mở hay sở hữu độc quyền.

Đánh giá dữ liệu mở

Việc đánh giá dữ liệu hữu dụng như thế nào có thể biến động phụ thuộc mạnh vào lĩnh vực và nội dung nhất định. Để giúp quy trình này có một vài hướng dẫn, bao gồm 5 Sao của dữ liệu mở liên kết.
Hướng dẫn 5 Sao cho dữ liệu mở liên kết là cách để đo đếm dữ liệu được tích hợp trong Web như thế nào.
Từng sao phải được trao tuần tự và không sao nào có thể bị/được bỏ qua.
Trong bài này chúng ta xem xét 3 sao đầu tiên:
  • Cấp phép mở
  • Định dạng sử dụng lại được
  • Định dạng mở

2 sao cuối cùng sẽ có trong bài 13.


Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com


Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.