Thứ Hai, 16 tháng 3, 2020

Bài 9 - Chọn định dạng đúng cho dữ liệu mở


Chọn định dạng đúng cho dữ liệu mở

‘Định dạng’ của tập hợp dữ liệu mở tham chiếu tới cách thức ở đó dữ liệu có cấu trúc và được làm cho sẵn sàng cho người và máy.
Việc chọn đúng định dạng giúp đảm bảo dữ liệu đó có thể được quản lý và sử dụng lại đơn giản. Để tối đa hóa sử dụng lại dữ liệu, có thể cần thiết đối với nhà xuất bản sử dụng một số định dạng và cấu trúc sẵn sàng xuyên khắp các nền tảng khác nhau để đáp ứng các nhu cầu của những người sử dụng.
Trong bài này chúng ta khai thác những điều sau:
  • Vì sao các định dạng quan trọng đối với dữ liệu mở
  • Chọn cấu trúc đúng
  • Truy cập các định dạng dữ liệu mở khác nhau
  • Duy trì nó đơn giản với CSV

Các định dạng của dữ liệu mở

Giảng viên David Tarrant của ODI giải thích vì sao các định dạng là quan trọng trong dữ liệu mở, cách để chọn cấu trúc và các định dạng đúng, và vì sao CSV là điểm khởi đầu tốt cho hầu hết các dữ liệu mở dạng bảng.

Tính khả dụng, quản lý và truy cập

Dữ liệu mở phải là sẵn sàng cho bất kỳ ai để truy cập, sử dụng và chia sẻ. Trong phần này, chúng ta xem xét các định dạng nào tối đa hóa tính khả dụng của dữ liệu, dễ dàng truy cập đối với những người sử dụng và quản lý đơn giản cho các nhà xuất bản.

Tính khả dụng

Hầu hết định dạng sử dụng được cho dữ liệu có khả năng là định dạng ở đó tập hợp dữ liệu lần đầu tiên đã được tạo ra. Trong nhiều trường hợp, định dạng này có thể là một chương trình phần mềm sở hữu độc quyền như Microsoft Excel. Trong khi các chương trình như vậy thường có khả năng để xuất dữ liệu sang các định dạng khác, sự phổ biến chúng có thể làm cho việc xuất bản ở định dạng khác trở thành cản trở cho những người khác để sử dụng lại.
Các chương trình phần mềm như Excel cũng đi với nội dung giàu hơn, như các kiểu trong các bảng và các đồ thị dữ liệu. Tất cả chúng có thể giúp đưa ra ngữ cảnh cho người đang cố gắng hiểu dữ liệu đó.

Quản lý

Đối với một vài nhà xuất bản, dữ liệu mở bây giờ là nguồn dữ liệu chính của họ, thậm chí đối với các nhân viên trong tổ chức xuất bản đó. Việc sử dụng dữ liệu mở như là cách thức để các nhân viên truy cập thông tin bên trong tổ chức có nhiều lợi ích:
  • Nó gia tăng tri thức về dữ liệu mở trong nhóm.
  • Nó gia tăng tính bền vững và sự tin cậy trong dữ liệu đó, bằng việc làm cho nó trở thành thành phần chính của các hoạt động của tổ chức.
  • Nó tạo ra các cơ hội rõ ràng cho đổi mới sáng tạo.

Truy cập

Để dữ liệu mở truy cập được càng nhiều càng tốt, nó phải là:
  • Ở định dạng người sử dụng có thể hiểu được.
  • Định dạng mà máy có thể đọc được.
  • Ở định dạng mà hỗ trợ cho sử dụng lại dễ dàng dữ liệu đó.
  • Ở định dạng không yêu cầu các công cụ đắt tiền để truy cập.
Một định dạng thích hợp cho từng tập hợp dữ liệu có thể là khác nhau. Tài liệu (như tệp PDF) có thể làm cho dữ liệu dễ dàng cho con người để hiểu nhưng hầu hết không đọc được đối với máy. Vì lý do này, khả năng truy cập thường đạt được bằng việc tạo ra dữ liệu y hệt trong một dải các định dạng khác nhau.

Các cấu trúc dữ liệu phổ biến

Không phải tất cả các dữ liệu có thể được trình bày đúng thích hợp như là bảng tính. Các định dạng tệp khác nhau có thể phải xem xét. Có 3 cấu trúc chính được thừa nhận: dạng bảng, phân cấp và mạng.

Dạng bảng

Cấu trúc phổ biến nhất cho dữ liệu là dạng bảng. Dữ liệu được tổ chức thành các hàng và cột liệt kê các giá trị tuần tự, như sự chi tiêu.
Nếu dữ liệu dựa vào các hạng mục đầu vào tách biệt nhau và không có liên kết với nhau thì cấu trúc tệp dạng bảng ở định dạng như CSV là lý tưởng. Ví dụ dữ liệu dạng bảng đúng thích hợp là số liệu khách thăm viện bảo tàng trên cổng dữ liệu của nước Ý.

Phân cấp


Dữ liệu phân cấp chỉ ra các mối quan hệ giữa các điểm dữ liệu, như cây họ tộc hoặc các vùng tự trị ở từng quốc gia. Nếu tập hợp dữ liệu đó phụ thuộc vào mối quan hệ giữa các điểm dữ liệu và tuân theo cấu trúc ở đó các điểm dữ liệu được liên kết theo ‘các cây’ theo chiều dọc, cấu trúc dữ liệu phân cấp ở định dạng như JSON là lý tưởng. Ví dụ về dữ liệu phân cấp đúng thích hợp là tệp JSON này từ json.org. Xem ví dụ trên json.org

Mạng

Dữ liệu có cấu trúc mạng cho phép các mối quan hệ tồn tại giữa bất kỳ sự kết hợp nào các yếu tố theo bất kỳ hướng nào.
Ví dụ tốt về cấu trúc dữ liệu mạng là mạng xã hội. Hãy nghĩ về mạng những người bạn của bạn và những người bạn của họ trên Facebook; xem xét các mối liên hệ theo các mức đầu, mức hai và mức ba trên LinkedIn.
Web là ví dụ khác về cấu trúc dữ liệu mạng. nơi các trang web liên kết tới bất kỳ số lượng nào các trang web khác theo bất kỳ hướng nào.

Tìm kiếm dữ liệu mở trong các định dạng đúng

Như một người sử dụng dữ liệu mở, là quan trọng để hiểu các nhà xuất bản đang phân phối các định dạng khác nhau cho bạn để sử dụng lại như thế nào.
Không phải tất cả dữ liệu là phù hợp để tải về hoặc vì nó là quá lớn, được cập nhật quá thường xuyên hoặc quá phức tạp để phơi lộ như là các tệp tĩnh. Vài dữ liệu có thể được chia tách ra thành các phần nhỏ hơn. Các dữ liệu khác có thể cần phải được xuất bản như là các bộ nuôi sống động (live feeds) để đảm bảo nó luôn cập nhật.


Dữ liệu mở có thể tải về được

Dữ liệu dạng bảng là phù hợp nhất để tải về. Điều này giải thích vì sao hầu hết các cổng dữ liệu mở của chính phủ áp đảo là dữ liệu dạng bảng. Tuy nhiên, việc quản lý hàng triệu hàng dữ liệu có thể cần các xem xét khác:
  • Dữ liệu có nên được phân thành các tập hợp dữ liệu nhỏ hơn hay không?
  • Dữ liệu thường được cập nhật như thế nào?
  • Những thay đổi theo cách bạn xuất bản ảnh hưởng tới các phiên bản trước đó thế nào?

Dữ liệu sống và các bộ cấp dữ liệu

Vài dữ liệu là không phù hợp để được làm cho sẵn sàng như là tệp tải về được.
Nhiều trong số các dữ liệu này được cập nhật quá thường xuyên tới mức tệp tải về có thể quá lớn đối với hầu hết những người sử dụng. Dạng cấu trúc dữ liệu mở này có thể được làm cho sẵn sàng bằng giao diện máy, còn được biết tới như là giao diện lập trình ứng dụng (API).
Có nhiều dịch vụ làm cho các giao diện máy sẵn sàng qua Web. Các dịch vụ đó có thể được tích hợp trực tiếp vào các ứng dụng Web khác. Ví dụ về API dữ liệu mở, xem ở công ty đường sắt Bỉ.

Chọn định dạng đúng cho dữ liệu mở

Khi nói về các định dạng dữ liệu mở, hãy bắt đầu bằng CSV.
Tệp các giá trị tách bạch nhau bằng dấu phẩy – CSV (Comma Separated Values) đơn giản là các dòng dữ liệu, với từng điểm dữ liệu tách bạch nhau bằng một dấu phẩy. CSV là tuyệt vời cho dữ liệu dạng bảng và có thể dễ dàng được tải vào và lưu giữ từ các ứng dụng như Excel, làm cho nó truy cập được tới những người sử dụng.
Dù CSV không duy trì việc định dạng và các đồ thị như các định dạng của Excel, nó là định dạng mở, máy đọc được. CSV trình bày định dạng đơn giản nhất mà vẫn hỗ trợ sử dụng lại rộng rãi dữ liệu mở. Nói cách khác, CSV là ‘mẫu số chung thấp nhất’ cho dữ liệu mở - dữ liệu mở nên được làm cho sẵn sàng ở định dạng này bất kỳ khi nào có thể.

Các định dạng dữ liệu mở về không gian địa lý

Dữ liệu không gian địa lý thường phức tạp hơn so với các tập hợp dữ liệu dạng bảng đơn giản.
Nó có thể tồn tại như là tập hợp dữ liệu phân cấp, chi tiết hóa các quốc gia và các quốc gia/các bang, hoặc như là tập hợp dữ liệu mạng, chi tiết hóa các con đường.
Khi xuất bản dạng dữ liệu này, các định dạng như geoJSON (dựa vào Khái niệm Đối tượng JavaScript - JSON [JavaScript Object Notation) và KML (dựa vào Ngôn ngữ Đánh dấu Mở rộng – XML [Extensible Markup Language]) nên được cân nhắc.
Các định dạng đó được thiết kế đặc biệt với tính khả dụng trong đầu và có thể dễ dàng được nhập khẩu và xuất khẩu từ các công cụ ánh xạ đặc biệt như Open Street MapCartoDB.
Các định dạng của bạn là theo trật tự?
Hãy kiểm thử tri thức của bạn về các định dạng dữ liệu mở với các câu hỏi của chúng tôi. Bạn có thể nhớ lại các điểm quan trọng?


Vì sao là quan trọng để chọn định dạng đúng?
Là quan trọng để chọn định dạng đúng để...
  • Đảm bảo rằng tính riêng tư được bảo vệ
  • Làm giảm các chi phí
  • Dễ dàng, khả dụng, quản lý và truy cập

Đáp án đúng!
Việc chọn các định dạng đúng sẽ trợ giúp cho tính khả dụng, làm cho quản lý dễ dàng hơn và làm giảm các rào cản truy cập. Các lựa chọn ở đây sẽ không ảnh hưởng tới tính riêng tư và có thể thậm chí có thể làm tăng chi phí.
Bạn chắc chắn chứ?
Việc chọn các định dạng đúng sẽ trợ giúp cho tính khả dụng, làm cho quản lý dễ dàng hơn và làm giảm các rào cản truy cập. Các lựa chọn ở đây sẽ không ảnh hưởng tới tính riêng tư và có thể thậm chí có thể làm tăng chi phí.


Cấu trúc dữ liệu nào bạn có thể sử dụng cho dữ liệu trong ảnh?
Cấu trúc dữ liệu nào bạn có thể sử dụng cho dữ liệu trong hình ảnh?
  • Dạng bảng
  • Phân cấp
  • Mạng



Đáp án đúng!
Bức ảnh chỉ ra rằng các mối quan hệ giữa các điểm dữ liệu là quan trọng. Các mối quan hệ đó tất cả là các mối quan hệ ‘cha con’, ngụ ý là cấu trúc phân cấp là lý tưởng.
Bạn chắc chắn chứ?
Bức ảnh chỉ ra rằng các mối quan hệ giữa các điểm dữ liệu là quan trọng. Các mối quan hệ đó tất cả là các mối quan hệ ‘cha con’, ngụ ý là cấu trúc phân cấp là lý tưởng.
Ở định dạng nào dữ liệu mở nên được làm cho sẵn sàng bất kỳ ở đâu có thể?
Định dạng nào dữ liệu mở nên được làm cho sẵn sàng ở bất kỳ đâu có thể?
  • CSV
  • PDF
  • DOC

Đáp án đúng!
Định dạng các giá trị tách bạch nhau bằng dấu phẩy (CSV) là đơn giản để hiểu, là định dạng sử dụng lại cao. Nó cũng là mở cho bất kỳ ai để viết các công cụ mới để giải nghĩa cho nó. Các định dạng khác là hữu dụng nhưng không được áp dụng rộng rãi cho dữ liệu.
Bạn chắc chắn chứ?
Định dạng các giá trị tách bạch nhau bằng dấu phẩy (CSV) là đơn giản để hiểu, là định dạng sử dụng lại cao. Nó cũng là mở cho bất kỳ ai để viết các công cụ mới để giải nghĩa cho nó. Các định dạng khác là hữu dụng nhưng không được áp dụng rộng rãi cho dữ liệu.

Các định dạng của dữ liệu mở

‘Định dạng’ của tập hợp dữ liệu mở tham chiếu tới cách thức ở đó dữ liệu có cấu trúc và được làm cho sẵn sàng cho người và máy.
Việc chọn định dạng đúng giúp đảm bảo dữ liệu có thể được quản lý và sử dụng lại đơn giản. Để tối đa hóa sử dụng lại dữ liệu đó, có thể cần thiết đối với nhà xuất bản để sử dụng một số định dạng và cấu trúc có sẵn xuyên khắp các nền tảng khác nhau để đáp ứng các nhu cầu của những người sử dụng.
Ở bất kỳ đâu có thể, định dạng tệp CSV nên được sử dụng để chia sẻ dữ liệu mở. CSV là đơn giản để hiểu, là định dạng được sử dụng lại cao và máy đọc được.


Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com


Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.