Chọn định dạng đúng cho dữ liệu mở
‘Định dạng’ của tập hợp dữ liệu mở tham chiếu
tới cách thức ở đó dữ liệu có cấu trúc và được
làm cho sẵn sàng cho người và máy.
Việc chọn đúng định dạng giúp đảm bảo dữ liệu đó
có thể được quản lý và sử dụng lại đơn giản. Để
tối đa hóa sử dụng lại dữ liệu, có thể cần thiết
đối với nhà xuất bản sử dụng một số định dạng
và cấu trúc sẵn sàng xuyên khắp các nền tảng khác
nhau để đáp ứng các nhu cầu của những người sử
dụng.
Trong bài này chúng ta khai thác những điều sau:
-
Vì sao các định dạng quan trọng đối với dữ liệu mở
-
Chọn cấu trúc đúng
-
Truy cập các định dạng dữ liệu mở khác nhau
-
Duy trì nó đơn giản với CSV
Các định dạng của dữ liệu mở
Giảng viên David Tarrant của ODI giải thích vì sao các định
dạng là quan trọng trong dữ liệu mở, cách để chọn
cấu trúc và các định dạng đúng, và vì sao CSV là điểm
khởi đầu tốt cho hầu hết các dữ liệu mở dạng
bảng.
Tính khả dụng, quản lý và truy cập
Dữ liệu mở phải là sẵn sàng cho bất kỳ ai để truy
cập, sử dụng và chia sẻ. Trong phần này, chúng ta xem
xét các định dạng nào tối đa hóa tính khả dụng của
dữ liệu, dễ dàng truy cập đối với những người sử
dụng và quản lý đơn giản cho các nhà xuất bản.
Tính khả dụng
Hầu hết định dạng sử dụng được cho dữ liệu có
khả năng là định dạng ở đó tập hợp dữ liệu lần
đầu tiên đã được tạo ra. Trong nhiều trường hợp,
định dạng này có thể là một chương trình phần mềm
sở hữu độc quyền như Microsoft Excel. Trong khi các chương
trình như vậy thường có khả năng để xuất dữ liệu
sang các định dạng khác, sự phổ biến chúng có thể
làm cho việc xuất bản ở định dạng khác trở thành
cản trở cho những người khác để sử dụng lại.
Các chương trình phần mềm như Excel cũng đi với nội
dung giàu hơn, như các kiểu trong các bảng và các đồ
thị dữ liệu. Tất cả chúng có thể giúp đưa ra ngữ
cảnh cho người đang cố gắng hiểu dữ liệu đó.
Quản lý
Đối với một vài nhà xuất bản, dữ liệu mở bây giờ
là nguồn dữ liệu chính của họ, thậm chí đối với
các nhân viên trong tổ chức xuất bản đó. Việc sử
dụng dữ liệu mở như là cách thức để các nhân viên
truy cập thông tin bên trong tổ chức có nhiều lợi ích:
-
Nó gia tăng tri thức về dữ liệu mở trong nhóm.
-
Nó gia tăng tính bền vững và sự tin cậy trong dữ liệu đó, bằng việc làm cho nó trở thành thành phần chính của các hoạt động của tổ chức.
-
Nó tạo ra các cơ hội rõ ràng cho đổi mới sáng tạo.
Truy cập
Để dữ liệu mở truy cập được càng nhiều càng tốt,
nó phải là:
-
Ở định dạng người sử dụng có thể hiểu được.
-
Định dạng mà máy có thể đọc được.
-
Ở định dạng mà hỗ trợ cho sử dụng lại dễ dàng dữ liệu đó.
-
Ở định dạng không yêu cầu các công cụ đắt tiền để truy cập.
Một định dạng thích hợp cho từng tập hợp dữ liệu
có thể là khác nhau. Tài liệu (như tệp PDF) có thể làm
cho dữ liệu dễ dàng cho con người để hiểu nhưng hầu
hết không đọc được đối với máy. Vì lý do này, khả
năng truy cập thường đạt được bằng việc tạo ra dữ
liệu y hệt trong một dải các định dạng khác nhau.
Các cấu trúc dữ liệu phổ biến
Không phải tất cả các dữ liệu có thể được trình
bày đúng thích hợp như là bảng tính. Các định dạng
tệp khác nhau có thể phải xem xét. Có 3 cấu trúc chính
được thừa nhận: dạng bảng, phân cấp và mạng.
Dạng bảng
Cấu trúc phổ biến nhất cho dữ liệu là dạng bảng. Dữ
liệu được tổ chức thành các hàng và cột liệt kê
các giá trị tuần tự, như sự chi tiêu.
Nếu dữ liệu dựa vào các hạng mục đầu vào tách biệt
nhau và không có liên kết với nhau thì cấu trúc tệp
dạng bảng ở định dạng như CSV là lý tưởng. Ví dụ
dữ liệu dạng bảng đúng thích hợp là số liệu khách
thăm viện bảo tàng trên cổng dữ liệu của nước Ý.
Phân cấp
Dữ liệu phân cấp chỉ ra các mối quan hệ giữa các
điểm dữ liệu, như cây họ tộc hoặc các vùng tự trị
ở từng quốc gia. Nếu tập hợp dữ liệu đó phụ thuộc
vào mối quan hệ giữa các điểm dữ liệu và tuân theo
cấu trúc ở đó các điểm dữ liệu được liên kết
theo ‘các cây’ theo chiều dọc, cấu trúc dữ liệu phân
cấp ở định dạng như JSON là lý tưởng. Ví dụ về dữ
liệu phân cấp đúng thích hợp là tệp JSON này từ
json.org. Xem
ví dụ trên json.org
Mạng
Dữ liệu có cấu trúc mạng cho phép các mối quan hệ tồn
tại giữa bất kỳ sự kết hợp nào các yếu tố theo
bất kỳ hướng nào.
Ví dụ tốt về cấu trúc dữ liệu mạng là mạng xã
hội. Hãy nghĩ về mạng những người bạn của bạn và
những người bạn của họ trên Facebook; xem xét các mối
liên hệ theo các mức đầu, mức hai và mức ba trên
LinkedIn.
Web là ví dụ khác về cấu trúc dữ liệu mạng. nơi các
trang web liên kết tới bất kỳ số lượng nào các trang
web khác theo bất kỳ hướng nào.
Tìm kiếm dữ liệu mở trong các định dạng đúng
Như một người sử dụng dữ liệu mở, là quan trọng để
hiểu các nhà xuất bản đang phân phối các định dạng
khác nhau cho bạn để sử dụng lại như thế nào.
Không phải tất cả dữ liệu là phù hợp để tải về
hoặc vì nó là quá lớn, được cập nhật quá thường
xuyên hoặc quá phức tạp để phơi lộ như là các tệp
tĩnh. Vài dữ liệu có thể được chia tách ra thành các
phần nhỏ hơn. Các dữ liệu khác có thể cần phải được
xuất bản như là các bộ nuôi sống động (live feeds) để
đảm bảo nó luôn cập nhật.
Dữ liệu mở có thể tải về được
Dữ liệu dạng bảng là phù hợp nhất để tải về.
Điều này giải thích vì sao hầu hết các cổng dữ liệu
mở của chính phủ áp đảo là dữ liệu dạng bảng. Tuy
nhiên, việc quản lý hàng triệu hàng dữ liệu có thể
cần các xem xét khác:
-
Dữ liệu có nên được phân thành các tập hợp dữ liệu nhỏ hơn hay không?
-
Dữ liệu thường được cập nhật như thế nào?
-
Những thay đổi theo cách bạn xuất bản ảnh hưởng tới các phiên bản trước đó thế nào?
Dữ liệu sống và các bộ cấp dữ liệu
Vài dữ liệu là không phù hợp để được làm cho sẵn
sàng như là tệp tải về được.
Nhiều trong số các dữ liệu này được cập nhật quá
thường xuyên tới mức tệp tải về có thể quá lớn
đối với hầu hết những người sử dụng. Dạng cấu
trúc dữ liệu mở này có thể được làm cho sẵn sàng
bằng giao diện máy, còn được biết tới như là giao
diện lập trình ứng dụng (API).
Có nhiều dịch vụ làm cho các giao diện máy sẵn sàng
qua Web. Các dịch vụ đó có thể được tích hợp trực
tiếp vào các ứng dụng Web khác. Ví dụ về API dữ liệu
mở, xem ở công ty đường sắt Bỉ.
Chọn định dạng đúng cho dữ liệu mở
Khi nói về các định dạng dữ liệu mở, hãy bắt đầu
bằng CSV.
Tệp các giá trị tách bạch nhau bằng dấu phẩy – CSV
(Comma Separated Values) đơn giản là các dòng dữ liệu, với
từng điểm dữ liệu tách bạch nhau bằng một dấu phẩy.
CSV là tuyệt vời cho dữ liệu dạng bảng và có thể dễ
dàng được tải vào và lưu giữ từ các ứng dụng như
Excel, làm cho nó truy cập được tới những người sử
dụng.
Dù CSV không duy trì việc định dạng và các đồ thị
như các định dạng của Excel, nó là định dạng mở,
máy đọc được. CSV trình bày định dạng đơn giản
nhất mà vẫn hỗ trợ sử dụng lại rộng rãi dữ liệu
mở. Nói cách khác, CSV là ‘mẫu số chung thấp nhất’
cho dữ liệu mở - dữ liệu mở nên được làm cho sẵn
sàng ở định dạng này bất kỳ khi nào có thể.
Các định dạng dữ liệu mở về không gian địa lý
Dữ liệu không gian địa lý thường phức tạp hơn so với
các tập hợp dữ liệu dạng bảng đơn giản.
Nó có thể tồn tại như là tập hợp dữ liệu phân cấp,
chi tiết hóa các quốc gia và các quốc gia/các bang, hoặc
như là tập hợp dữ liệu mạng, chi tiết hóa các con
đường.
Khi xuất bản dạng dữ liệu này, các định dạng như
geoJSON
(dựa vào Khái niệm Đối tượng JavaScript - JSON
[JavaScript Object Notation) và KML
(dựa vào Ngôn ngữ Đánh dấu Mở rộng – XML [Extensible
Markup Language]) nên được cân nhắc.
Các định dạng đó được thiết kế đặc biệt với
tính khả dụng trong đầu và có thể dễ dàng được
nhập khẩu và xuất khẩu từ các công cụ ánh xạ đặc
biệt như Open
Street Map và CartoDB.
Các định dạng của
bạn là theo trật tự?
Hãy kiểm thử tri thức của bạn về các định dạng dữ
liệu mở với các câu hỏi của chúng tôi. Bạn có thể
nhớ lại các điểm quan trọng?
Vì sao là quan trọng để
chọn định dạng đúng?
Là quan trọng để chọn định dạng đúng để...
-
Đảm bảo rằng tính riêng tư được bảo vệ
-
Làm giảm các chi phí
-
Dễ dàng, khả dụng, quản lý và truy cập
Đáp án đúng!
Việc chọn các định dạng đúng sẽ trợ giúp cho tính
khả dụng, làm cho quản lý dễ dàng hơn và làm giảm các
rào cản truy cập. Các lựa chọn ở đây sẽ không ảnh
hưởng tới tính riêng tư và có thể thậm chí có thể
làm tăng chi phí.
Bạn chắc chắn chứ?
Việc chọn các định dạng đúng sẽ trợ giúp cho tính
khả dụng, làm cho quản lý dễ dàng hơn và làm giảm các
rào cản truy cập. Các lựa chọn ở đây sẽ không ảnh
hưởng tới tính riêng tư và có thể thậm chí có thể
làm tăng chi phí.
Cấu trúc dữ liệu nào
bạn có thể sử dụng cho dữ liệu trong ảnh?
Cấu trúc dữ liệu nào bạn có thể sử dụng cho dữ
liệu trong hình ảnh?
-
Dạng bảng
-
Phân cấp
-
Mạng
Đáp án đúng!
Bức ảnh chỉ ra rằng các mối quan hệ giữa các điểm
dữ liệu là quan trọng. Các mối quan hệ đó tất cả là
các mối quan hệ ‘cha con’, ngụ ý là cấu trúc phân
cấp là lý tưởng.
Bạn chắc chắn chứ?
Bức ảnh chỉ ra rằng các mối quan hệ giữa các điểm
dữ liệu là quan trọng. Các mối quan hệ đó tất cả là
các mối quan hệ ‘cha con’, ngụ ý là cấu trúc phân
cấp là lý tưởng.
Ở định dạng nào dữ
liệu mở nên được làm cho sẵn sàng bất kỳ ở đâu
có thể?
Định dạng nào dữ liệu mở nên được làm cho sẵn
sàng ở bất kỳ đâu có thể?
-
CSV
-
PDF
-
DOC
Đáp án đúng!
Định dạng các giá trị tách bạch nhau bằng dấu phẩy
(CSV) là đơn giản để hiểu, là định dạng sử dụng
lại cao. Nó cũng là mở cho bất kỳ ai để viết các
công cụ mới để giải nghĩa cho nó. Các định dạng
khác là hữu dụng nhưng không được áp dụng rộng rãi
cho dữ liệu.
Bạn chắc chắn chứ?
Định dạng các giá trị tách bạch nhau bằng dấu phẩy
(CSV) là đơn giản để hiểu, là định dạng sử dụng
lại cao. Nó cũng là mở cho bất kỳ ai để viết các
công cụ mới để giải nghĩa cho nó. Các định dạng
khác là hữu dụng nhưng không được áp dụng rộng rãi
cho dữ liệu.
Các định dạng của dữ liệu mở
‘Định dạng’ của tập hợp dữ liệu mở tham chiếu
tới cách thức ở đó dữ liệu có cấu trúc và được
làm cho sẵn sàng cho người và máy.
Việc chọn định dạng đúng giúp đảm bảo dữ liệu có
thể được quản lý và sử dụng lại đơn giản. Để
tối đa hóa sử dụng lại dữ liệu đó, có thể cần
thiết đối với nhà xuất bản để sử dụng một số
định dạng và cấu trúc có sẵn xuyên khắp các nền
tảng khác nhau để đáp ứng các nhu cầu của những
người sử dụng.
Ở bất kỳ đâu có thể, định dạng tệp CSV nên được
sử dụng để chia sẻ dữ liệu mở. CSV là đơn giản để
hiểu, là định dạng được sử dụng lại cao và máy
đọc được.
Về bài trước ………. Tới bài sau
Dịch: Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.