Thứ Ba, 18 tháng 4, 2017

Cơ sở dữ liệu đồ thị NoSQL là gì?


What is NoSQL Graph Database?



Cơ sở dữ liệu đồ thị NoSQL là công nghệ để quản lý dữ liệu được thiết kế để thao tác với các tập hợp rất lớn các dữ liệu có cấu trúc, bán cấu trúc và không có (phi) cấu trúc. Các cơ sở dữ liệu đồ thị ‘không chỉ SQL’ - NoSQL (‘not only SQL’) phục vụ cho các tổ chức để truy cập, tích hợp và phân tích cả các dữ liệu phi cấu trúc và các dữ liệu được lưu trữ trong đám mây, vì thế giúp họ phân tích các phương tiện xã hội và dữ liệu lớn.
Cơ sở dữ liệu đồ thị NoSQL so với Cơ sở dữ liệu Quan hệ
Tiếp cận truyền thống về quản lý dữ liệu, cơ sở dữ liệu quan hệ, từng được phát triển vào các năm 1970 để giúp các doanh nghiệp lưu trữ các thông tin có cấu trúc. Một cơ sở dữ liệu quan hệ cần sơ đồ của nó - định nghĩa cách mà dữ liệu được tổ chức và cách mà các mối quan hệ có liên quan tới nhau - sẽ được xác định trước khi bất kỳ thông tin mới nào được thêm vào.
Tuy nhiên, ngày nay, các dữ liệu di động, mạng xã hội và Internet của vạn vật - IoT (Internet of Things) là ở khắp mọi nơi, với các dữ liệu thời gian thực phi cấu trúc chất đống lên theo từng phút. Ngoài việc điều khiển lượng khổng lồ các dữ liệu của mọi dạng ra, cơ sở dữ liệu đồ thị NoSQL không cần sơ đồ của nó được xác định trước khi thêm vào các dữ liệu mới.
Điều này làm cho cơ sở dữ liệu đồ thị mềm dẻo, năng động và chi phí thấp hơn nhiều trong việc tích hợp các nguồn dữ liệu mới so với các cơ sở dữ liệu quan hệ.
Các cơ sở dữ liệu đồ thị NoSQL có khả năng lưu trữ, truy xuất, tích hợp và phân tích dữ liệu tốc độ cao tới từ nhiều vị trí, khi so sánh với tốc độ dữ liệu có mức độ vừa phải từ một hoặc vài vị trí của các cơ sở dữ liệu quan hệ.
Cơ sở dữ liệu Đồ thị NoSQL Giàu về Ngữ nghĩa
Cơ sở dữ liệu đồ thị ngữ nghĩa là dạng cơ sở dữ liệu đồ thị NoSQL mà có khả năng tích hợp các dữ liệu hỗn tạp từ nhiều nguồn và tạo các liên kết giữa các tập hợp dữ liệu.
Cơ sở dữ liệu đồ thị ngữ nghĩa, còn được tham chiếu tới như là bộ ba RDF (RDF triplestore), tập trung vào các mối quan hệ giữa các thực thể và có khả năng suy luận ra tri thức mới vượt ra ngoài các thông tin đang tồn tại. Đây là công cụ mạnh để sử dụng trong phân tích hướng vào các mối quan hệ và phát hiện tri thức.
Hơn nữa, khả năng điều khiển các tập hợp dữ liệu khổng lồ và tiếp cận ít sơ đồ hơn sẽ hỗ trợ để sử dụng cơ sở dữ liệu đồ thị ngữ nghĩa NoSQL trong phân tích dữ liệu lớn thời gian thực.
  • Trong các cơ sở dữ liệu quan hệ, nhu cầu phải có các sơ đồ được xác định trước khi thêm thông tin mới làm hạn chế sự tích hợp dữ liệu từ các nguồn mới vì toàn bộ sơ đồ cần phải được thay đổi mới lại.
  • Với cơ sở dữ liệu đồ thị ngữ nghĩa NoSQL ít sơ đồ hơn, không có nhu cầu phải thay đổi các sơ đồ mỗi lần một nguồn dữ liệu mới sẽ được thêm vào, các doanh nghiệp tích hợp được dữ liệu với nỗ lực ít hơn và các chi phí thấp hơn.
Cơ sở dữ liệu đồ thị ngữ nghĩa nổi lên từ các dạng cơ sở dữ liệu đồ thị khác với khả năng của nó để hỗ trợ thêm cho sơ đồ dữ liệu ngữ nghĩa giàu có, cái gọi là bản thể học (ontologies).
Cơ sở dữ liệu đồ thị ngữ nghĩa NoSQL có những điều tốt nhất của cả 2 thế giới: một mặt, dữ liệu là mềm dẻo vì nó không phụ thuộc vào sơ đồ. Mặt khác, các bản thể học trao cho cơ sở dữ liệu đồ thị ngữ nghĩa sự tự do và cơ hội để xây dựng các mô hình logic theo cách thức các tổ chức thích nó và thấy nó hữu ích cho các ứng dụng của họ, mà không cần phải thay đổi dữ liệu.
Những lợi ích của cơ sở dữ liệu đồ thị ngữ nghĩa
Ngoài các mô hình giàu ngữ nghĩa, các cơ sở dữ liệu đồ thị ngữ nghĩa sử dụng các tiêu chuẩn được phát triển toàn cầu của W3C trong việc trình bày các dữ liệu trên Web. Sử dụng các thực hành tiêu chuẩn làm cho sự tích hợp, trao đổi và ánh xạ dữ liệu tới các tập hợp dữ liệu khác dễ dàng hơn và làm giảm bớt rủi ro bị khóa trói vào nhà cung cấp khi làm việc với các cơ sở dữ liệu đồ thị.
Một trong các tiêu chuẩn đó là Mã Tài nguyên Thống nhất - URI (Uniform Resource Identifier), dạng mã ID duy nhất cho tất cả mọi thứ được kết nối, sao cho chúng ta có thể phân biệt được giữa những thứ đó, tích hợp chúng mà không sợ bị lẫn lộn, hoặc biết rằng một thứ từ một tập hợp dữ liệu là y hệt như một thứ khác trong một tập hợp dữ liệu khác vì chúng có một và duy nhất một URI. Sử dụng các URI không chỉ làm giảm được các chi phí trong việc tích hợp dữ liệu từ các nguồn phân tán rải rác, mà còn làm cho việc xuất bản và chia sẻ dữ liệu dễ dàng hơn bằng việc ánh xạ tới Dữ liệu (Mở) Liên kết (Linked (Open) Data).
Ontotext GraphDB có khả năng sử dụng giao diện, đó là, để suy diễn các liên kết mới ngoài các lệnh rõ ràng đang tồn tại trong bộ 3 RDF. Sự suy diễn làm giàu cho cơ sở dữ liệu đồ thị bằng việc tạo ra tri thức mới và trao cho các tổ chức khả năng thấy được tất cả các dữ liệu của họ được kết nối cao độ với nhau. Vì thế, các doanh nghiệp có được sự thấu hiểu nhiều hơn trong tay để sử dụng trong các quy trình ra quyết định của họ.
Các trường hợp điển hình về cơ sở dữ liệu đồ thị NoSQL
Ngoài việc trình bày các dữ liệu sở hữu độc quyền của các doanh nghiệp theo một cách thức có ý nghĩa và có kết nối với nhau, cơ sở dữ liệu đồ thị NoSQL làm cho việc quản lý và cá nhân hóa nội dung được dễ dàng hơn, vì cách thức tích hợp và kết hợp các tập hợp dữ liệu khổng lồ một cách có hiệu quả của nó. Quản lý, cá nhân hóa nội dung và khai thác văn bản cho các Nhà xuất bản - Publishers, Khoa học đời sống - Life Sciences Y tế - Healthcare hưởng lợi từ tiếp cận NoSQL về quản lý dữ liệu.
Công nghệ ngữ nghĩa và NoSQL còn giúp cho các tổ chức bằng các phân tích các phương tiện xã hội, hãy ngó qua báo cáo này về cách mà những người sử dụng Twitter cảm nhận về Brexit (Vương quốc Anh ra khỏi Liên minh châu Âu) một vài tuần trước khi biểu quyết ở Vương quốc Anh.
Một mặt, sự nổi lên của IoT và phương tiện xã hội, và mặt khác, sự gia tăng sử dụng các phân tích dữ liệu lớn, làm cho cơ sở dữ liệu đồ thị NoSQL trở thành lựa chọn được ưu tiên cho việc làm chủ các tập hợp dữ liệu khổng lồ, tích hợp các dữ liệu hỗn tạp từ các nguồn khác nhau, kết hợp và phân tích các dữ liệu được kết nối lẫn nhau cao độ, và giành được ý nghĩa và sự thấu hiểu để hỗ trợ ra quyết định.

Tải về GraphDB Free RDF triplestore

Làm quen nhanh chóng với việc tải về GraphDB Free

The NoSQL graph database is a technology for data management designed to handle very large sets of structured, semi-structured or unstructured data. NoSQL (‘not only SQL’) graph databases serve organizations to access, integrate and analyze both unstructured data and data stored in the cloud, thus helping them with their big data and social media analytics.

NoSQL Graph Database Vs. Relational Database

The traditional approach to data management, the relational database, was developed in the 1970s to help enterprises store structured information. The relational database needs its schema — the definition how data is organized and how the relations are associated – to be defined before any new information is added.
Today, however, mobile, social and IoT data is everywhere, with unstructured real-time data piling up by the minute. Apart from handling massive amount of data of all kind, the NoSQL graph database does not need its schema re-defined before adding new data.
This makes the graph database much more flexible, dynamic and lower-cost in integrating new data sources than relational databases.
NoSQL graph databases are able to store, retrieve, integrate and analyze high-velocity data coming from many locations, compared to the moderate data velocity from one or few locations of the relational databases.

Semantically Rich NoSQL Graph Database

The semantic graph database is a type of NoSQL graph database that is capable of integrating heterogeneous data from many sources and making links between datasets.
The semantic graph database, also referred to as an RDF triplestore, focuses on the relationships between entities and is able to infer new knowledge out of existing information.  It is a powerful tool to use in relationship-centered analytics and knowledge discovery.
In addition, the capability to handle massive datasets and the schema-less approach support the NoSQL semantic graph database usage in real-time big data analytics.
  • In relational databases, the need to have the schemas defined before adding new information restricts data integration from new sources because the whole schema needs to be changed anew.
  • With the schema-less NoSQL semantic graph database with no need to change schemas every time a new data source is about to be added, enterprises integrate data with less effort and fewer costs.

The semantic graph database stands out from the other types of graph databases with its capability to additionally support rich semantic data schema, the so-called ontologies.

The semantic NoSQL graph database gets the best of both worlds: on the one hand, data is flexible because it does not depend on schema. On the other hand, ontologies give the semantic graph database the freedom and opportunity to build logical models the way organizations like it and find it useful for their applications, without having to change the data.

The Benefits of the Semantic Graph Database

Apart from rich semantic models, semantic graph databases use the globally developed W3C standards of representing data on the Web. The use of standard practices makes data integration, exchange and mapping to other datasets easier and lowers the risk of vendor lock-in while working with a graph db.
One of those standards is the Uniform Resource Identifier (URI), a kind of unique ID for all things linked, so that we can distinguish between those things, integrate them without confusion, or know that one thing from one dataset is the same as another in a different dataset because they have one and the same URI. The use of URIs not only reduces costs in integrating data from disparate sources, it also makes data publishing and sharing easier with mapping to Linked (Open) Data.
The Ontotext GraphDB is able to use inference, that is, to infer new links out of existing explicit statements in the RDF triplestore. Inference enriches the graph database by creating new knowledge and gives organizations the ability to see all their data highly interlinked. Thus, enterprises have more insights at hand to use in their decision making processes.

NoSQL Graph Database Use Cases

Apart from representing proprietary enterprise data in a linked and meaningful way, the NoSQL graph database makes content management and personalization easier, due to its cost-effective way of integrating and combining huge sets of data. Content management, personalization and text mining for PublishersLife Sciences and Healthcare benefit from the NoSQL approach to data management.
Semantic technology and NoSQL also help organizations with social media analytics, just take a look at this report on how Twitter users felt about Brexit  a few weeks before the vote in the UK.
The rise of IoT and social media on the one hand, and the growing use of big data analytics on the other hand, makes the NoSQL graph database a preferred choice for mastering huge sets of data, integrating heterogeneous data from varied sources, combining and analyzing highly interlinked data, and obtaining meaning and insights to support decisions.

Download GraphDB Free RDF triplestore

Have a quick start with downloading GraphDB Free

Dịch: Lê Trung Nghĩa

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.