What is RDF Triplestore?
Xem
thêm:
Dữ liệu Mở
liên kết - Linked Open Data.
RDF
triplestore là dạng cơ
sở dữ liệu đồ thị
lưu trữ các sự việc theo ngữ
nghĩa. RDF là viết tắt từ tiếng Anh cho Khung
Mô tả Tài nguyên (Resource Description Framework), là mô hình
để xuất bản và trao đổi dữ liệu trên Web được W3C
tiêu chuẩn hóa.
Là cơ
sở dữ liệu đồ thị, triplestore lưu trữ dữ
liệu như là mạng các đối tượng với các đường liên
kết được cụ thể hóa giữa chúng. Điều này làm cho
RDF triplestore trở thành lựa chọn được ưu tiên để
quản lý các dữ liệu được kết nối cao độ với
nhau. Triplestore là mềm dẻo và ít tốn
kém hơn so với cơ
sở dữ liệu quan hệ, ví
dụ thế.
Cơ sở dữ liệu RDF,
thường được gọi là cơ
sở dữ liệu đồ thị
ngữ nghĩa, cũng
có khả năng điều khiển các truy vấn ngữ
nghĩa mạnh và sử dụng suy
diễn để phát hiện ra thông tin mới vượt ra khỏi các
mối quan hệ đang tồn tại.
RDF Triplestore từ bên trong
Đối nghịch lại với các dạng cơ
sở dữ liệu đồ thị
khác, các động cơ RDF triplestore hỗ trợ các
mô hình sơ đồ tùy chọn, được gọi là bản thể học
(ontologies). Các bản thể học cho phép mô tả chính thức
các dữ liệu.
Chúng chỉ định cả các lớp đối tượng
và các thuộc tính quan hệ, và trật tự phân cấp của
chúng.
Dữ liệu trong RDF triplestore được lưu
trữ trong mối quan hệ được gọi là triple (bộ 3), vì
thể có tên là triplestore. Bộ 3 đó cũng được tham chiếu
tới như là ‘các câu lệnh’ và ‘các câu lệnh RDF’.
Định dạng chủ ngữ
→ vị ngữ → bổ ngữ (subject → predicate →
object) có khả năng lấy bất kỳ chủ ngữ hoặc
khái niệm nào và kết nối nó với bất kỳ bổ
ngữ nào khác bằng việc sử dụng vị ngữ
(động từ) để chỉ ra dạng của mối quan hệ đang tồn
tại giữa chủ ngữ và bổ ngữ đó.
Ví dụ, ‘Joe bán các cuốn sách’ có thể
được lưu trữ như một lệnh RDF trong triplestore và mô
tả mối quan hệ giữa chủ ngữ của câu, Joe, và bổ
ngữ, các cuốn sách. Vị ngữ “bán” chỉ ra cách mà
chủ ngữ và bổ ngữ được kết nối.
Xem video: Video:
https://www.youtube.com/embed/iuQrBf2Oq-E
Khái niệm cốt lõi của
định dạng RDF triplestore cũng như trong các hệ biến hóa
Dữ liệu Liên kết là Mã nhận diện Tài nguyên Vạn năng
- URI (Universal Resource Identifier). URI là hệ thống nhận
diện toàn cầu duy nhất được sử dụng trên Web, dạng
mã ID duy nhất.
Trao quyền cho Dữ liệu Liên kết
Các cơ
sở dữ liệu RDF
triplestore được sử dụng thành công cho việc
quản lý các tập hợp dữ liệu của Dữ liệu Mở Liên
kết (Linked Open Data), như DBPedia
và GeoNames,
chúng được xuất bản như là các RDF và được kết nối
với nhau. Dữ liệu Mở Liên kết cho phép truy vấn và trả
lời các truy vấn có tính liên đoàn nhanh hơn nhiều và
để giành được các kết quả tìm kiếm thích hợp cao.
Triplestore làm cho những nỗ lực truy vấn
dữ liệu đa dạng và đang tiến hóa từ các nguồn khác
nhau hiệu quả hơn về chi phí và tốn ít thời gian hơn.
Vì các
tiêu chuẩn vạn năng áp dụng cho RDF triplestore, chúng
làm cho việc chuyển dữ liệu khỏi triplestore này tới
triplestore khác là dễ dàng.
Các triển khai RDF Triplestore của doanh nghiệp
RDF triplestore điều khiển lượng dữ liệu
khổng lồ, chúng cải thiện cho sức mạnh tìm kiếm và
phân tích của các tổ chức. Điều quan trọng hơn là các
triplestore có khả năng suy diễn ra các sự việc tiềm ẩn
vượt ra khỏi các câu lệnh rõ ràng. Việc suy diễn ra
các mối quan hệ nằm ngoài dữ liệu ban đầu, với sự
trợ giúp của cơ
sở dữ liệu đồ thị
ngữ nghĩa, biến
thông tin thành tri thức. Điều này cho phép các tổ chức
phát hiện ra các mối quan hệ ẩn dấu trong khắp các dữ
liệu của họ.
Giành
được nhiều tri thức hơn các đối thủ cạnh tranh, các
doanh nghiệp có thể dễ dàng hơn trong việc mở rộng
phạm vi tri thức đó thành các giải pháp thông minh hơn
và có được lợi
thế lớn hơn trong cạnh tranh. Truyền
thông & xuất bản,
y
tế và khoa học đời sống,
nhân
văn số
và các
lĩnh vực dịch vụ tài chính
đang sử dụng rộng rãi rồi RDF triplestore để quản lý
các dữ liệu có cấu trúc và phi cấu trúc.
Tham chiếu tới dữ liệu phi cấu trúc
Các triplestore cũng giúp trích xuất thông
tin và làm giàu nội dung từ các dữ liệu phi cấu trúc
bằng việc khai
thác văn bản (text mining). Sau khi văn bản được trích
xuất từ bất kỳ dạng dữ liệu phi cấu trúc nào, dù
nó là các bài báo hay tài liệu, thì các câu được chia
thành các phần bài nói chuyện. Các khái niệm và các
thực thể quan trọng, như các danh từ riêng, được nhận
diện bằng các danh sách từ trong từ điển.
Công nghệ ngữ nghĩa và các thuật toán
máy học phân loại và làm sáng tỏ ngữ nghĩa giữa các
thực thể. Bằng ‘việc học’ ngữ cảnh và ý nghĩa
của các thực thể, các thuật toán có khả năng làm sáng
tỏ ngữ nghĩa ‘Paris’, ví dụ, dù nó được tham chiếu
tới Paris, nước Pháp, hay Paris, Texas, hoặc Paris Hilton,
hay Paris, Chúa Trời trong thần thoại Hy Lạp.
Ngoài các mối quan hệ đang có, các bộ 3
cũng trình bày các liên kết giữa các cơ
sở dữ liệu với
các dữ liệu và tài liệu có cấu trúc mà chứa văn bản
tuôn
chảy tự do, phi cấu trúc. RDF triplestore, thường được
tham chiếu tới như là cơ
sở dữ liệu đồ thị
và graph db, liên kết các thực thể từ đó
chúng đã được trích xuất.
Các trường hợp điển hình khác
Các cơ
sở dữ liệu đồ thị, và đặc biệt là RDF
triplestore, có các ứng dụng thực tế đa dạng đối với
các tổ chức có mục đích có ngữ cảnh cũng như nội
dung. Một vài ứng dụng đó là tích
hợp dữ liệu, tìm
kiếm và phát hiện, các
sản phẩm thông tin năng động, nội
dung và các khuyến cáo được cá nhân hóa, và trực
quan hóa dữ liệu. Các giải pháp đó,
được kết hợp với phát hiện tri thức vượt ra ngoài
thông tin từ các nguồn rời rạc phân tán, giúp cho các
tổ chức giành được ưu thế cạnh tranh, tạo ra nhiều
giá trị hơn, và tiếp cận được các nguồn doanh thu
mới.
Nếu
bạn
từng biết các triplestores
nhanh
hơn thế nào so với các cơ sở dữ liệu quan hệ thì bạn
có lẽ chỉ sử dụng các cơ sở dữ liệu no-SQL.
Hãy
thử GraphDB
Free và
tự thấy.
RDF triplestore
is a type of graph database that stores semantic facts. RDF, which
stands for Resource Description Framework, is a model for data
publishing and interchange on the Web
standartized by W3C.
Being a graph
database, triplestore stores data as a network of objects with
materialised links between them. This makes RDF triplestore a
preferred choice for managing highly interconnected data.
Triplestores are more flexible and less costly than a relational
database, for example.
The RDF
database, often called a semantic graph database, is also capable of
handling powerful semantic queries and of using inference for
uncovering new information out of the existing relations.
RDF Triplestore from within
In contrast to
other types of graph databases, RDF triplestore engines support
optional schema models, called ontologies. Ontologies allow for
formal description of the data. They specify
both object classes and relationship properties, and their
hierarchical order.
The data in RDF
triplestore is stored in the relationship which is called a triple,
hence the name triplestores. The triples are also referred to as
‘statements’ and ‘RDF statements’.
The
subject->predicate->object format is able to take any subject
or concept and connect it to any other object by using the predicate
(verb) to show the type of relationship existing between the subject
and the object.
For example,
‘Joe sells books’ can be stored as an RDF statement in a
triplestore and describes the relationship between the subject of the
sentence, Joe, and the object, books. The predicate “sells” shows
how the subject and the object are connected.
The core concept
of the RDF triplestore format as well as in the Linked Data paradigm
is the Universal Resources Identifier (URI). URI is a single
global identification system used in the Web, a kind of unique ID.
Empowering Linked Data
RDF triplestore
databases are successfully used for managing Linked Open Data
datasets, such as DBPedia
and GeoNames,
which are published as RDFs and are interconnected with one another.
Linked Open Data allows for querying and answering federated queries
much faster and for obtaining highly relevant search results.
The triplestore
makes the efforts to query diverse and evolving data from different
sources more cost-efficient and less time-consuming.
Since universal
standards apply to RDF triplestore, they make moving data
from one triplestore to another trivial.
Enterprise Deployments of RDF Triplestore
RDF triplestore
handle huge amounts of data, which improves the search and analytics
powers of organizations. What’s more important is that triplestores
are able to infer implicit facts out of the explicit statements.
Inferencing relationships out of the original data, with the help of
a semantic graph
database, turns information into knowledge. This allows
organizations to uncover hidden relationships across all their data.
Having gained
more knowledge than competitors, enterprises can more easily scale up
that knowledge into smarter solutions and have the upper hand in
competition. The media
& publishing, healthcare
and life sciences, digital
humanities and financial
services sectors are already widely using RDF triplestore to
manage unstructured and structured data.
Referencing Unstructured Data
Triplestores
also help extract information and enrich content from unstructured
data by text
mining. After a text is extracted from any form of unstructured
data, be it articles or documents, sentences are broken down into
parts of speech. The important concepts and entities, such as proper
nouns, are identified with dictionary word lists.
Semantic
technology and machine learning algorithms classify and
disambiguate between entities. By ‘learning’ the context and
meaning of entities, the algorithms are able to disambiguate ‘Paris’,
for example, whether it is referred to Paris, France, or Paris,
Texas, or Paris Hilton, or Paris, the God in Greek mythology.
Apart from
containing relationships, triples also demonstrate links between
databases with structured data and documents that contain
unstructured, free-flowing text. RDF triplestore, often referred to
as graph database and graph db, links entities from databases to
documents which mention those entities by denoting relationships from
which they were extracted.
Other Use Cases
Graph databases,
and RDF triplestore in particular, have various practical usages for
organizations that aim to have context as well as content. Some of
the uses are data
integration, search
and discovery, dynamic
information products, personalized
content and recommendations, and data visualization. These
solutions, combined with knowledge discovery out of information from
disparate sources, help organizations gain a competitive edge, create
more value, and tap into new sources of revenues.
If you knew how much faster are triplestores than relational databases you would use only no-SQL databases. Try GraphDB Free and see for yourself.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.