What
is Five-Star Linked Open Data?
Xem
thêm: Dữ
liệu Mở liên kết - Linked Open Data.
Dữ
liệu Liên
kết
(Linked Data) là tập hợp các nguyên tắc thiết kế cho
việc chia sẻ các dữ liệu được liên kết với nhau mà
máy đọc được trên Web. Mặt khác, Dữ liệu Mở (Open
Data), là dữ liệu có thể được bất kỳ ai tự do sử
dụng và phân phối, miễn là nhiều nhất chỉ tuân thủ
yêu cầu ghi công và chia sẻ tương tự. Các tập hợp dữ
liệu vừa mở và vừa có liên kết là Dữ liệu Mở Liên
kết (Linked
Open Data).
Tương
tự như các nguyên tắc và các tiêu chuẩn định nghĩa
những gì là dữ liệu liên kết hoặc dữ liệu mở,
chúng ta cũng có thể đo đếm được một tập hợp dữ
liệu liên kết và mở tới đâu.
Vào
năm 2010, người phát minh ra World Wide Web, người
tạo ra và bảo vệ Web Ngữ nghĩa (Semantic
Web) và Dữ liệu Liên kết (Linked Data), Ngài Tim
Berners-Lee, đã gợi ý sơ
đồ phát triển 5 sao cho Dữ liệu Mở Liên kết
(Linked Open Data).
Việc
xếp hạng bắt đầu từ 1 sao và dữ liệu được gắn
thêm các sao khi các định dạng sở hữu độc quyền được
loại bỏ và các liên kết được thêm vào.
Hãy
xem qua những gì sẽ ‘thưởng' từng trong số 5 sao và
đâu là những lợi ích những người sử dụng các tập
hợp dữ liệu đó được hưởng từ việc 'đếm sao' đó.
Dữ
liệu Mở 1 Sao
Dữ
liệu Mở 1 Sao được định nghĩa như là dữ liệu sẵn
sàng trên web, ở bất kỳ định dạng nào, nhưng với một
giấy phép mở, để trở thành Dữ liệu Mở (Open Data).
Những người sử dụng có thể xem, tìm
kiếm, lưu trữ, thay đổi dữ liệu và chia sẻ dữ liệu
đó với bất kỳ ai họ thích. Như
một nhà xuất bản dữ liệu, một
tổ chức biết rằng là đơn giản để xuất bản và
không cần lúc nào cũng phải giải thích cho những người
khác rằng họ có thể sử dụng dữ liệu đó.
Dữ
liệu Mở 2 Sao
Đề
giành được 2 sao, dữ liệu mở
cần phải là sẵn sàng như là dữ liệu có cấu trúc mà
máy đọc được, ví dụ, một bảng tính excel thay vì
hình ảnh quét của một bảng. Những
người sử dụng dữ liệu mở 2 sao có thể làm bất kỳ
điều gì họ muốn như với dữ liệu mở 1 sao cộng thêm
việc xử lý nó trực tiếp bằng phần mềm sở hữu độc
quyền và xuất khẩu nó sang định dạng có cấu trúc
khác. Tuy nhiên, dạng dữ liệu đó vẫn còn bị
khóa trói vì những người sử dụng phụ thuộc vào phần
mềm sở hữu độc quyền để có khả năng lấy được
dữ liệu ra khỏi tài liệu.
Dữ
liệu Mở 3 Sao
Vì
thế, 3 sao được thưởng cho dữ liệu theo đó những
người sử dụng không đòi hỏi phải
có gói phần mềm sở hữu độc
quyền để phân tích nó. Một ví dụ của điều
này là định dạng các giá trị phân cách nhau bằng dấu
phẩy (CSV) mà lưu trữ các dữ liệu bảng theo văn bản
thô (plain text).
Dữ
liệu Mở 4 Sao
Một
sao được thêm cho dữ liệu sử dụng các
tiêu chuẩn mở từ W3C,
như RDF và SPARQL, để xác định mọi điều.
RDF, là Khung Mô tả Tài nguyên (Resource Description
Framework), là tiêu chuẩn được sử dụng trong cơ
sở dữ liệu đồ họa
ngữ nghĩa (semantic
graph database).
Cơ sở dữ liệu này, còn được gọi là triplestore
RDF, là dạng công nghệ theo ngữ nghĩa để lưu trữ và
quản lý các dữ liệu được liên kết với nhau và tạo
ra ý nghĩa của dữ liệu được kết nối với nhau. Không
giống như cơ
sở dữ liệu quan
hệ, triplestore ánh xạ các mối quan hệ khác nhau giữa
các thực thể trong các cơ
sở dữ liệu đồ họa.
SPARQL là ngôn ngữ truy vấn được W3C tiêu chuẩn hóa cho
cơ
sở dữ liệu RDF.
Khái
niệm cốt lõi của triplestore và nguyên tắc của Dữ liệu
Liên kết nằm bên dưới là Mã Tài nguyên Thống nhất -
URI (Uniform Resource Indentifier), Mã ID duy nhất cho tất cả
mọi điều được kết nối. Bằng
việc thể hiện dữ liệu trong cơ
sở dữ liệu đồ họa, người
sử dụng có thể liên kết tới
nó từ bất kỳ đâu khác hoặc sử dụng lại các phần
của dữ liệu đó.
Dữ
liệu Mở Liên kết 5 Sao
Với
sự trợ giúp các tiêu chuẩn của W3C và các nguyên tắc
của Dữ liệu Liên kết, các nhà xuất bản dữ liệu
liên kết các dữ liệu của họ tới dữ liệu của những
người khác để đưa ra ngữ cảnh. Điều này là tiên
quyết cho việc có được 5 sao đối với Dữ liệu Mở
Liên kết, theo Tim Berners-Lee.
Cơ
sở dữ liệu đồ họa ngữ nghĩa có khả năng điều
khiển các tập hợp dữ liệu khác nhau và ánh xạ các
đường liên kết tới các nguồn dữ liệu mở liên
kết
như DBpedia
hoặc GeoNames,
ví dụ thế.
Những
người sử dụng dữ liệu 5
sao có thể phát hiện ngày càng nhiều thông tin được
liên kết với nhau trong khi sử dụng các dữ liệu đó.
Vì cơ sở
dữ liệu đồ họa ngữ nghĩa có
khả năng suy luận ra các đường liên kết mới bên ngoài
các sự kiện đang tồn tại, người
sử dụng có thể phát hiện ra
nhiều mối quan hệ hơn trong các dữ liệu liên kết của
họ.
Nói
đơn giản, Dữ liệu Mở Liên kết (Linked
Open Data)
5 sao là dữ liệu mở sẵn sàng trên Web được kết nối
với các dữ liệu khác, và hiệu ứng mạng của nó là
vì lợi ích của cả những người tiêu dùng dữ liệu và
những người xuất bản dữ liệu.
Linked
Data is a set of design principles for sharing machine-readable
interlinked data on the Web. Open Data, on the other hand, is data
that can be freely used and distributed by anyone, subject just to
the requirement to attribute and share-alike, at most. Datasets that
are both open and linked are Linked
Open Data.
Similarly
to the principles and standards for defining what linked data or open
data is, we can also measure how much linked and open a set of data
is.
The 5-Star Rating of Linked Open Data
In
2010, the inventor of the World Wide Web and the creator and advocate
of the Semantic
Web and Linked Data, Sir Tim Berners-Lee, suggested a 5-star
deployment scheme for Linked Open Data. The rating begins at one
star and data gets stars when proprietary formats are removed and
links are added.
Let’s
take a look at what does it take to be ‘awarded’ each of the five
stars and what benefits the users of those datasets draw from going
up the ‘stars count’.
One-Star Open Data
The
one-star open data is defined as data available on the web, in
whatever format, but with an open license, so as to be Open Data.
Consumers can look, search, store, change data and share the data
with anyone they like. As a data publisher, an organization knows
that it’s simple to publish and does not need to constantly explain
to others that they can use the data.
Two-Star Open Data
In
order to win a second star, the open data needs to be available as
machine-readable structured data, for example, an excel spreadsheet
instead of an image scan of a table. The users of 2-star open data
can do anything they do with a 1-star data plus directly processing
it with proprietary software and exporting it into another structured
format. However, that type of data is still locked up because users
depend on proprietary software to be able to get the data out of a
document.
Three-Star Open Data
Therefore,
the third star is awarded to data for which users don’t require
proprietary software package in order to analyze it. One example of
this is the comma-separated values (CSV) format that stores tabular
data in plain text.
Four-Star Open Data
Another
star goes to data that uses open
standards from W3C, such as RDF and SPARQL, to identify things.
RDF, which stands for Resource Description Framework, is the standard
used in a semantic
graph database. This graph database, also called an RDF
triplestore, is a type of semantic technology for storing and
managing interlinked data and making sense of that interconnected
data. Unlike the relational database, the triplestore maps the
various relationships between entities in graph databases. SPARQL is
the W3C-standardized query language for the RDF database.
The
core concept of the triplestore and the underlying Linked Data
principle is the Uniform Resource Identifier (URI), a unique ID for
all things linked. By representing data in a graph database, the user
can link to it from any other place or reuse parts of the data.
Five-Star Linked Open Data
With
the help of the W3C standards and Linked Data principles, data
publishers link their data to other people’s data to provide
context. This is the prerequisite for getting the fifth star for
Linked Open Data, according to Sir Berners-Lee.
The
semantic graph database is capable of handling various datasets and
maps links to linked open data sources such as DBpedia
or GeoNames,
for example.
Users
of five-star data can discover more and more interlinked information
while using the data. As the semantic graph database is capable of
inferring new links out of existing facts, users can discover more
relationships within their linked data.
Simply
put, the five-star Linked
Open Data is open data available on the Web linked to other data,
and its network effect is to the benefit of both data consumers and
data publishers.
Dịch:
Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.