Thứ Năm, 20 tháng 4, 2017

RDF Triplestore là gì?


What is RDF Triplestore?



RDF triplestore là dạng cơ sở dữ liệu đồ thị lưu trữ các sự việc theo ngữ nghĩa. RDF là viết tắt từ tiếng Anh cho Khung Mô tả Tài nguyên (Resource Description Framework), là mô hình để xuất bản và trao đổi dữ liệu trên Web được W3C tiêu chuẩn hóa.
cơ sở dữ liệu đồ thị, triplestore lưu trữ dữ liệu như là mạng các đối tượng với các đường liên kết được cụ thể hóa giữa chúng. Điều này làm cho RDF triplestore trở thành lựa chọn được ưu tiên để quản lý các dữ liệu được kết nối cao độ với nhau. Triplestore là mềm dẻo và ít tốn kém hơn so với cơ sở dữ liệu quan hệ, ví dụ thế.
Cơ sở dữ liệu RDF, thường được gọi là cơ sở dữ liệu đồ thị ngữ nghĩa, cũng có khả năng điều khiển các truy vấn ngữ nghĩa mạnh và sử dụng suy diễn để phát hiện ra thông tin mới vượt ra khỏi các mối quan hệ đang tồn tại.

RDF Triplestore từ bên trong

Đối nghịch lại với các dạng cơ sở dữ liệu đồ thị khác, các động cơ RDF triplestore hỗ trợ các mô hình sơ đồ tùy chọn, được gọi là bản thể học (ontologies). Các bản thể học cho phép mô tả chính thức các dữ liệu.
Chúng chỉ định cả các lớp đối tượng và các thuộc tính quan hệ, và trật tự phân cấp của chúng.
Dữ liệu trong RDF triplestore được lưu trữ trong mối quan hệ được gọi là triple (bộ 3), vì thể có tên là triplestore. Bộ 3 đó cũng được tham chiếu tới như là ‘các câu lệnh’ và ‘các câu lệnh RDF’.
 RDF triple (sjubject -> predicate -> object)
Định dạng chủ ngữ → vị ngữ → bổ ngữ (subject → predicate → object) có khả năng lấy bất kỳ chủ ngữ hoặc khái niệm nào và kết nối nó với bất kỳ bổ ngữ nào khác bằng việc sử dụng vị ngữ (động từ) để chỉ ra dạng của mối quan hệ đang tồn tại giữa chủ ngữbổ ngữ đó.
Ví dụ, ‘Joe bán các cuốn sách’ có thể được lưu trữ như một lệnh RDF trong triplestore và mô tả mối quan hệ giữa chủ ngữ của câu, Joe, và bổ ngữ, các cuốn sách. Vị ngữ “bán” chỉ ra cách mà chủ ngữ và bổ ngữ được kết nối.
Khái niệm cốt lõi của định dạng RDF triplestore cũng như trong các hệ biến hóa Dữ liệu Liên kết là Mã nhận diện Tài nguyên Vạn năng - URI (Universal Resource Identifier). URI là hệ thống nhận diện toàn cầu duy nhất được sử dụng trên Web, dạng mã ID duy nhất.

Trao quyền cho Dữ liệu Liên kết

Các cơ sở dữ liệu RDF triplestore được sử dụng thành công cho việc quản lý các tập hợp dữ liệu của Dữ liệu Mở Liên kết (Linked Open Data), như DBPediaGeoNames, chúng được xuất bản như là các RDF và được kết nối với nhau. Dữ liệu Mở Liên kết cho phép truy vấn và trả lời các truy vấn có tính liên đoàn nhanh hơn nhiều và để giành được các kết quả tìm kiếm thích hợp cao.
Triplestore làm cho những nỗ lực truy vấn dữ liệu đa dạng và đang tiến hóa từ các nguồn khác nhau hiệu quả hơn về chi phí và tốn ít thời gian hơn.
Linked Open Data (LOD) Cloud to be load in RDF triplestore
các tiêu chuẩn vạn năng áp dụng cho RDF triplestore, chúng làm cho việc chuyển dữ liệu khỏi triplestore này tới triplestore khác là dễ dàng.

Các triển khai RDF Triplestore của doanh nghiệp

RDF triplestore điều khiển lượng dữ liệu khổng lồ, chúng cải thiện cho sức mạnh tìm kiếm và phân tích của các tổ chức. Điều quan trọng hơn là các triplestore có khả năng suy diễn ra các sự việc tiềm ẩn vượt ra khỏi các câu lệnh rõ ràng. Việc suy diễn ra các mối quan hệ nằm ngoài dữ liệu ban đầu, với sự trợ giúp của cơ sở dữ liệu đồ thị ngữ nghĩa, biến thông tin thành tri thức. Điều này cho phép các tổ chức phát hiện ra các mối quan hệ ẩn dấu trong khắp các dữ liệu của họ.
Giành được nhiều tri thức hơn các đối thủ cạnh tranh, các doanh nghiệp có thể dễ dàng hơn trong việc mở rộng phạm vi tri thức đó thành các giải pháp thông minh hơn và có được lợi thế lớn hơn trong cạnh tranh. Truyền thông & xuất bản, y tế và khoa học đời sống, nhân văn sốcác lĩnh vực dịch vụ tài chính đang sử dụng rộng rãi rồi RDF triplestore để quản lý các dữ liệu có cấu trúc và phi cấu trúc.

Tham chiếu tới dữ liệu phi cấu trúc

Các triplestore cũng giúp trích xuất thông tin và làm giàu nội dung từ các dữ liệu phi cấu trúc bằng việc khai thác văn bản (text mining). Sau khi văn bản được trích xuất từ bất kỳ dạng dữ liệu phi cấu trúc nào, dù nó là các bài báo hay tài liệu, thì các câu được chia thành các phần bài nói chuyện. Các khái niệm và các thực thể quan trọng, như các danh từ riêng, được nhận diện bằng các danh sách từ trong từ điển.
Công nghệ ngữ nghĩa và các thuật toán máy học phân loại và làm sáng tỏ ngữ nghĩa giữa các thực thể. Bằng ‘việc học’ ngữ cảnh và ý nghĩa của các thực thể, các thuật toán có khả năng làm sáng tỏ ngữ nghĩa ‘Paris’, ví dụ, dù nó được tham chiếu tới Paris, nước Pháp, hay Paris, Texas, hoặc Paris Hilton, hay Paris, Chúa Trời trong thần thoại Hy Lạp.
Ngoài các mối quan hệ đang có, các bộ 3 cũng trình bày các liên kết giữa các cơ sở dữ liệu với các dữ liệu và tài liệu có cấu trúc mà chứa văn bản tuôn chảy tự do, phi cấu trúc. RDF triplestore, thường được tham chiếu tới như là cơ sở dữ liệu đồ thị và graph db, liên kết các thực thể từ đó chúng đã được trích xuất.

Các trường hợp điển hình khác

Các cơ sở dữ liệu đồ thị, và đặc biệt là RDF triplestore, có các ứng dụng thực tế đa dạng đối với các tổ chức có mục đích có ngữ cảnh cũng như nội dung. Một vài ứng dụng đó là tích hợp dữ liệu, tìm kiếm và phát hiện, các sản phẩm thông tin năng động, nội dung và các khuyến cáo được cá nhân hóa, và trực quan hóa dữ liệu. Các giải pháp đó, được kết hợp với phát hiện tri thức vượt ra ngoài thông tin từ các nguồn rời rạc phân tán, giúp cho các tổ chức giành được ưu thế cạnh tranh, tạo ra nhiều giá trị hơn, và tiếp cận được các nguồn doanh thu mới.
RDF triplestore is a type of graph database that stores semantic facts. RDF, which stands for Resource Description Framework, is a model for data publishing and interchange on the Web standartized by W3C.
Being a graph database, triplestore stores data as a network of objects with materialised links between them. This makes RDF triplestore a preferred choice for managing highly interconnected data. Triplestores are more flexible and less costly than a relational database, for example.
The RDF database, often called a semantic graph database, is also capable of handling powerful semantic queries and of using inference for uncovering new information out of the existing relations.

RDF Triplestore from within

In contrast to other types of graph databases, RDF triplestore engines support optional schema models, called ontologies. Ontologies allow for formal description of the data. They specify both object classes and relationship properties, and their hierarchical order.
The data in RDF triplestore is stored in the relationship which is called a triple, hence the name triplestores. The triples are also referred to as ‘statements’ and ‘RDF statements’.
The subject->predicate->object format is able to take any subject or concept and connect it to any other object by using the predicate (verb) to show the type of relationship existing between the subject and the object.
For example, ‘Joe sells books’ can be stored as an RDF statement in a triplestore and describes the relationship between the subject of the sentence, Joe, and the object, books. The predicate “sells” shows how the subject and the object are connected.
The core concept of the RDF triplestore format as well as in the Linked Data paradigm is the Universal Resources Identifier (URI). URI  is a single global identification system used in the Web, a kind of unique ID.

Empowering Linked Data

RDF triplestore databases are successfully used for managing Linked Open Data datasets, such as DBPedia and GeoNames, which are published as RDFs and are interconnected with one another. Linked Open Data allows for querying and answering federated queries much faster and for obtaining highly relevant search results.
The triplestore makes the efforts to query diverse and evolving data from different sources more cost-efficient and less time-consuming.
Since universal standards apply to RDF triplestore, they make moving data from one triplestore to another trivial.

Enterprise Deployments of RDF Triplestore

RDF triplestore handle huge amounts of data, which improves the search and analytics powers of organizations. What’s more important is that triplestores are able to infer implicit facts out of the explicit statements. Inferencing relationships out of the original data, with the help of a semantic graph database, turns information into knowledge. This allows organizations to uncover hidden relationships across all their data.
Having gained more knowledge than competitors, enterprises can more easily scale up that knowledge into smarter solutions and have the upper hand in competition. The media & publishing, healthcare and life sciences, digital humanities and financial services sectors are already widely using RDF triplestore to manage unstructured and structured data.

Referencing Unstructured Data

Triplestores also help extract information and enrich content from unstructured data by text mining. After a text is extracted from any form of unstructured data, be it articles or documents, sentences are broken down into parts of speech. The important concepts and entities, such as proper nouns, are identified with dictionary word lists.
Semantic technology and machine learning algorithms classify and disambiguate between entities. By ‘learning’ the context and meaning of entities, the algorithms are able to disambiguate ‘Paris’, for example, whether it is referred to Paris, France, or Paris, Texas, or Paris Hilton, or Paris, the God in Greek mythology.
Apart from containing relationships, triples also demonstrate links between databases with structured data and documents that contain unstructured, free-flowing text. RDF triplestore, often referred to as graph database and graph db, links entities from databases to documents which mention those entities by denoting relationships from which they were extracted.

Other Use Cases

Graph databases, and RDF triplestore in particular, have various practical usages for organizations that aim to have context as well as content. Some of the uses are data integration, search and discovery, dynamic information products, personalized content and recommendations, and data visualization. These solutions, combined with knowledge discovery out of information from disparate sources, help organizations gain a competitive edge, create more value, and tap into new sources of revenues.

If you knew how much faster are triplestores than relational databases you would use only no-SQL databases. Try GraphDB Free and see for yourself.



Dịch: Lê Trung Nghĩa

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.