What are Linked Data and Linked Open Data?
Xem
thêm:
Dữ liệu Mở
liên kết - Linked Open Data.
Dữ liệu Liên
kết (Linked Data) là một trong những khái niệm và trụ
cột chính của Web Ngữ nghĩa (Semantic Web), còn được
biết tới như là Web của Dữ liệu. Web
Ngữ nghĩa tất cả là về các liên kết giữa các tập
hợp dữ liệu có thể hiểu được không chỉ cho con
người mà còn cho máy tính, và Dữ liệu Liên kết đưa
ra các thực hành tốt nhất để tạo ra các liên kết đó.
Dữ liệu Liên kết là tập hợp các
nguyên tắc thiết kế cho việc chia sẻ dữ liệu được
liên kết với nhau trên Web mà máy tính đọc được.
Các quy
định của cuộc chơi Dữ liệu Liên kết
Nhiều thứ hơn, các khái niệm, các đối
tượng, con người, các vị trí được kết nối cùng
nhau, Web Dữ liệu là mạnh hơn. Tuy nhiên, để liên kết,
pha trộn và tích hợp các tập hợp dữ liệu khổng lồ
từ các nguồn dữ liệu thô rải rác phân tán, phong trào
Dữ liệu Liên kết cần các chỉ dẫn cơ bản để gắn
vào.
Nhà phát minh ra World Wide Web và là người
sáng tạo và bảo vệ Web Ngữ nghĩa và Dữ liệu Liên
kết, ngài Tim Berners-Lee, đã đưa ra 4
nguyên tắc thiết kế Dữ liệu Liên kết vào đầu
năm 2006.
1. Sử dụng URI như là tên cho mọi thứ.
Mã nhận diện Tài nguyên Thống nhất -
URI (Uniform Resource Identifier) là nhận diện toàn cầu duy
nhất, dạng mã ID độc nhất, cho tất cả mọi thứ được
kết nối. sao cho chúng ta có thể phân biệt được giữa
các thứ đó, tích hợp chúng mà không bị lẫn lộn, hoặc
biết rằng một thứ từ tập hợp dữ liệu này là y hệt
như thứ khác trong tập hợp dữ liệu khác vì chúng có
một và chỉ một URI.
2. Sử dụng các HTTP URI sao cho mọi
người có thể tra cứu được các tên đó.
3. Khi ai đó tra cứu một URI, hãy cung
cấp thông tin hữu ích, bằng việc sử dụng các tiêu
chuẩn (RDF, SPARQL).
Khung Mô tả Tài nguyên - RDF (Resource
Description Framework) là mô hình tiêu chuẩn cho việc
xuất bản và trao đổi dữ liệu trên Web được W3C
phát triển. RDF là tiêu chuẩn được sử dụng trong cơ
sở dữ liệu đồ thị
ngữ nghĩa, còn được tham chiếu tới như là
bộ 3 RDF (RDF triplestore).
Cơ
sở dữ liệu đồ thị
ngữ nghĩa là
công nghệ được phát triển để lưu trữ các dữ liệu
được kết nối với nhau và tạo ý nghĩa cho các dữ
liệu được kết nối lẫn nhau đó bằng việc làm giàu
về ngữ
nghĩa cho các tập hợp dữ liệu. Không giống
như cơ
sở dữ liệu quan hệ, bộ 3 ánh xạ các mối
quan hệ khác nhau giữa các thực thể trong các cơ
sở dữ liệu đồ thị.
Mặc
khác,
SPARQL,
là
ngôn ngữ truy vấn được W3C tiêu chuẩn hóa cho RDF
triplestore.
4.
Gồm các liên kết tới các URI khác sao cho chúng có thể
phát hiện được nhiều thứ hơn.
Dữ
liệu Liên kết so với Dữ liệu Mở
Hơn nữa, không phải tất cả các dữ
liệu là sẵn sàng tự do và mở cho bất kỳ ai để sử
dụng và chia sẻ. Dữ liệu Mở (Open Data) là dữ liệu có
thể được bất kỳ ai sử dụng và phân phối tự do,
miễn là, nhiều nhất, tuân theo yêu cầu ghi công và chia
sẻ tương tự.
Dữ liệu Mở không y
hệt như Dữ liệu Liên kết. Dữ liệu Mở có thể được
làm cho sẵn sàng cho bất kỳ ai mà không có các đường
liên kết tới các dữ liệu khác. Cùng lúc, dữ liệu có
thể được liên kết mà không là sẵn sàng tự do để
sử dụng lại và phân phối.
Vì thế, các nỗ lực của cộng đồng
W3C và tất cả những người bảo vệ cho tính mở của
dữ liệu đều hướng tới làm giàu cho đám mây Dữ liệu
Mở Liên kết - LOD (Linked
Open Data).
Dữ
liệu Mở Liên kết
Dữ liệu Mở Liên kết
là sự pha trộn sức mạnh của Dữ liệu Liên kết và Dữ
liệu Mở: nó vừa có liên kết và sử dụng các nguồn
dữ liệu mở. Cơ
sở dữ liệu đồ thị
(graph
db),
ví dụ thế, có khả năng điều khiển các tập hợp dữ
liệu thô khổng lồ từ các nguồn khác nhau và liên kết
chúng với Dữ liệu Mở, điều cung cấp cho các truy vấn
và các phát hiện giàu có hơn trong quản lý và phân tích
dữ liệu. Một ví dụ nổi bật về nguồn dữ liệu mở
liên kết là Dbpedia,
một nỗ lực của cộng đồng nguồn đám đông để
trích xuất thông tin có cấu trúc từ Wikipedia và làm cho
các thông tin này sẵn sàng trên Web.
Những
lợi ích của Dữ liệu (Mở) Liên kết
Dữ liệu Liên kết phá
hủy các ống thông tin đóng đang tồn tại giữa các định
dạng khác nhau và loại bỏ các hàng rào giữa các nguồn
khác nhau. Dữ liệu Liên kết làm cho sự tích hợp
và duyệt dữ liệu qua các dữ liệu phức tạp được dễ
dàng hơn, vì các tiêu chuẩn mà nó gắn vào. Các chỉ dẫn
đó cũng cho phép dễ dàng cập nhật và mở rộng các mô
hình dữ liệu.
Việc trình bày dữ liệu theo cách thức
được liên kết và theo một tập hợp các nguyên tắc
toàn cầu cũng làm gia tăng chất lượng dữ liệu. Hơn
nữa, cơ
sở dữ liệu đồ thị
ngữ nghĩa cho
việc trình
bày Dữ liệu Liên kết tạo ra các liên kết ngữ
nghĩa giữa các nguồn và định dạng rời rạc
phân tán khác nhau và suy diễn ra tri thức mới vượt ra
khỏi các sự việc đang tồn tại.
Hơn nữa, việc liên kết
các tập hợp dữ liệu mở cải thiện tính sáng tạo và
đổi mới vì tất cả những người phát triển, các công
dân và các doanh nghiệp có thể sử dụng tất cả các
tập hợp dữ liệu đó để đặt mọi thứ vào ngữ cảnh
và tạo ra tri thức và các ứng dụng. Ví
dụ, Dữ liệu Mở Liên kết khuyến khích tạo ra các ứng
dụng để phát hiện hàng xóm tốt nhất để sống, dựa
vào dữ liệu về các trường học, giao thông, các tòa
nhà văn phòng và các câu lạc bộ/các vườn hoa trong khu
vực đó.
Vì các tiêu chuẩn phổ biến và chính
sách minh bạch của dữ liệu mở, Dữ liệu Mở Liên kết
là hữu dụng cho các tổ chức cũng như xã hội.
Bạn sẽ kết nối như thế nào Dữ liệu Liên kết mà không có Công cụ Cơ sở dữ liệu Đồ thị?
Nếu bạn đã biết dễ dàng như thế nào để tìm ra tri thức mới với các cơ sở dữ liệu đồ thị thì bạn có lẽ không bao giờ quay trở lại với các cơ sở dữ liệu quan hệ.
Linked Data is
one of the core concepts and pillars of the Semantic Web, also known
as the Web of Data. The Semantic Web is all about making links
between datasets understandable not only to humans but also to
machines, and Linked Data provides the best practices for making
those links. Linked Data is a set of design principles for sharing
machine-readable interlinked data on the Web.
The Linked Data Rules of the Game
The more things,
concepts, objects, persons, locations are connected together, the
more powerful the Web of Data is. However, in order to link, merge
and integrate huge sets of data from disparate raw sources, the
Linked Data movement needs basic guidelines to stick to.
The inventor of
the World Wide Web and the creator and advocate of the Semantic Web
and Linked Data, Sir Tim Berners-Lee, laid down the four
design principles of Linked Data as early as in 2006.
1. Use URI as names for things.
The Uniform
Resource Identifier (URI) is a single global identification, a kind
of unique ID, for all things linked, so that we can distinguish
between those things, integrate them without confusion, or know that
one thing from one dataset is the same as another in a different
dataset because they have one and the same URI.
2. Use HTTP URIs so that people can look up those names.
3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL).
The
Resource Description Framework (RDF) is a standard model for data
publishing and interchange on the Web developed by the W3C.
RDF is the standard used in a semantic graph database, also referred
to as an RDF triplestore.
The semantic
graph database is technology developed to store interlinked data and
make sense of that interconnected data by semantically enriching the
datasets. Unlike the relational database, the triplestore maps the
various relationships between entities in graph databases. SPARQL, on
the other hand, is the W3C-standardized query language for the RDF
triplestore.
4. Include links to other URIs so that they can discover more things.
Linked Data vs. Open Data
Still, not all
data is freely available and open for anyone to use and share. Open
Data is data that can be freely used and distributed by anyone,
subject only to, at most, the requirement to attribute and
share-alike.
Open Data does
not equal Linked Data. Open Data can be made available to everyone
without links to other data. At the same time, data can be linked
without being freely available for reuse and distribution.
Therefore, the
efforts of the W3C community and all advocates of data openness are
channeled to enrich Linked
Open Data cloud (LOD) .
Linked Open Data
Linked Open Data
is a powerful blend of Linked Data and Open Data: it is both linked
and uses open data sources. A graph
db for instance is able to handle huge raw datasets from various
sources and link them to Open Data, which provides richer queries and
findings in data management and analysis. One notable example for a
linked open data source is DBpedia,
a crowd-sourced community effort to extract structured information
from Wikipedia and make this information available on the Web.
The Benefits of Linked (Open) Data
Linked Data
breaks down the information silos that exist between various formats
and brings down the fences between various sources. Linked Data makes
data integration and browsing through complex data easier, due to the
standards it adheres to. Those guidelines also allow for easy updates
and extensions of the data models.
Representing
data in a linked way under a set of global principles also increases
data quality. In addition, the semantic graph database for
representing Linked Data creates semantic links between varied
disparate sources and formats and infers new knowledge out of
existing facts.
Furthermore,
linking open datasets enhances creativity and innovation as all
developers, citizens and businesses can use all those datasets to put
things into context and create knowledge and apps. For example,
Linked Open Data encourages the creation of applications to discover
the best neighborhood to live in, based on data on schools,
transportation, office buildings and clubs/parks in the area.
Due to the
common standards and the open data policy for transparency, Linked
Open Data is useful to organizations and society alike.
How are you going to connect Linked Data without a Graph Database Tool?
If you knew how easy it is to find new knowledge with graph databases you would never go back to relational databases.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.