What is Semantic Data Integration?
Xem
thêm: Dữ
liệu Mở liên kết - Linked Open Data.
Tích
hợp dữ liệu ngữ nghĩa cho phép những người
sử dụng nhanh chóng thiết kế các công việc xử
lý dữ liệu có sự tham gia của GraphDB™ và Kiến trúc
Chung cho Kỹ thuật Văn bản - GATE (General Architecture for
Text Engineering). Những người
sử dụng có quan tâm trong dữ liệu “được RDF
hóa” của họ có thể xuất khẩu các công việc như là
các quy trình thực thi được hoặc các dịch vụ REST. Một
phần của quy trình này liên quan tới phân giải nhận
diện nơi những người
sử dụng có thể xác định trước các tiêu chí
trùng khớp. Khung Phân giải Nhận diện (Identity Resolution
Framework) trực tiếp hỗ trợ cho việc truy cập các kho
ngữ nghĩa thông qua SPARQL.
Ontotext
Workbench (công cụ quản lý GraphDB) cung cấp cho những
người sử
dụng giao diện web và giao diện lập trình ứng dụng
API (Application Programming Interface) để tạo thuận lợi cho
các tác vụ quản lý, quản trị, và phát triển ứng dụng
của cơ
sở dữ liệu RDF. Các bộ kết nối GraphDB™
Connectors gồm một tập hợp các bộ tiếp hợp (adapters)
và các giao diện cấu hình cho phép những người
sử dụng kết nối GraphDB™ với các động cơ
thường trực bên ngoài (external persistence engines). Hãy học
về các công cụ và Khung Khai phá Web (Web Mining Framework)
bên dưới.
Tạo
kiểu nhìn 360 độ với tích hợp dữ liệu ngữ nghĩa
Tích
hợp dữ liệu là tối thượng trong thế giới nơi mà
tính trực quan toàn diện, phân tích chính xác và sự phức
tạp của dữ liệu áp đảo bức tranh tổng thể. Ngày
nay, các tổ chức đang tìm kiếm các
giải pháp cho phép họ quản lý tất cả các dữ liệu
của họ - dữ liệu có cấu trúc,
bán cấu trúc và không có cấu trúc. Dù cơ
sở dữ liệu đồ họa
của
bạn vận hành đứng riêng lẻ một mình hay
được tích hợp vào hệ sinh thái cơ
sở dữ liệu lớn hơn, thì bạn vẫn cần một
tập hợp đầy đủ các công cụ để đảm bảo bạn có
được kiểu nhìn 360 độ được đồng bộ hóa các dữ
liệu của bạn. Khả năng dễ dàng thực hiện các tác vụ
- tạo ra các tài liệu từ các tệp, tạo và xuất khẩu
các chú giải, tải các lệnh RDF vào GraphDB™ và trộn 2
hoặc nhiều hơn cơ
sở dữ liệu GraphDB™ - là tất cả các chức
năng cơ bản hỗ trợ cho các giải pháp ngữ nghĩa cấp
thế giới. Với Bộ Tích hợp Ngữ nghĩa (Semantic
Integration Suite) của chúng tôi, khả năng tích hợp dữ
liệu của bạn là dễ hơn nhiều.
Các
công cụ tích hợp ngữ nghĩa
Đội
các chuyên gia của chúng tôi có hàng trăm năm kinh nghiệm
làm việc với các công cụ khai thác văn bản và tích hợp
dữ liệu RDF. Các khách hàng của chúng tôi sử dụng các
công cụ và dịch vụ của chúng tôi để giúp chỉ dẫn
cho họ qua vòng đời tích hợp dữ liệu ngữ nghĩa, gồm
việc tải các tài liệu, xử lý các chú giải, tạo các
lệnh RDF, tải các lệnh đó vào các kho ngữ nghĩa và
trộn 2 hoặc nhiều hơn các kho khi cần thiết. Người sử
dụng có thể nhanh chóng thiết kế các công việc xử lý
dữ liệu cho cả GraphDB™ và Gate. Họ có thể xuất khẩu
các công việc như là các quy trình thực thi được hoặc
như các dịch vụ REST và áp dụng chúng để tích hợp
lượng dữ liệu khổng lồ.
Khung
Phân giải Nhận diện (Identity Resolution Framework)
Trong
nhiều trường hợp, 2 hoặc nhiều hơn lệnh RDF có thể
được tham chiếu tới cùng một thực thể. Điều này
từng được xác định qua phân tích định hướng trong
quy trình khai thác văn bản. Biết rằng các thực thể
khác nhau đó thực sự là y hệt như nhau cho phép những
người sử
dụng sau này tìm kiếm và định vị tất cả các
tham chiếu theo một cách thức được tối ưu hóa. Các
kết quả nghiên cứu và phân tích là chính xác hơn. Khung
Phân giải Nhận diện (Identity Resolution Framework) sử dụng
các tiêu chí trùng khớp đặc thù lĩnh vực được xác
định trước và được trình bày theo cách thức thân
thiện với con người dựa vào logic của vị ngữ. Bản
thể học (Ontologies) được sử dụng để trình bày tri
thức trong GraphDB™. Truy cập trực tiếp được cung cấp
qua SPARQL.
Các
trường hợp điển hình để Phân giải Nhận diện
-
Data Consolidation - Tăng cường dữ liệu – Khi phân giải nhận diện, người sử dụng thường muốn phát hiện các tham chiếu tới cùng y hệt đối tượng đang tồn tại trong các nguồn dữ liệu khác nhau. Về cơ bản, họ muốn ghép các đối tượng đó. Kỹ thuật này có 2 lợi ích chính - các mã nhận diện được phân giải VÀ sự dư thừa trong các dữ liệu đến (incoming data) đã được tăng cường trong cơ sở dữ liệu đồ họa và sau này có thể được sử dụng trong phân tích. Nói cách khác, sự phân giải có các hiệu ứng lớn hơn nhiều và vượt ra khỏi sự tích hợp dữ liệu ngữ nghĩa.
-
Cross Document Co-Reference - Đồng tham chiếu liên các tài liệu - Tiếp cận của chúng tôi về điều này cho các tổ chức nhận diện các biến thể của cùng các đối tượng từ các định dạng khác nhau - các tài liệu văn bản, các trang web, các bản ghi cơ sở dữ liệu, bản thể học và hơn thế nữa. Chúng tôi tạo ra kiểu nhìn dữ liệu duy nhất nơi mà các sự kiện khác nhau được liên kết với nhau và sự dư thừa được loại bỏ. Điều này cho phép những người sử dụng dễ dàng truy vấn và sử dụng các tập hợp dữ liệu lớn theo các cách thức đa dạng khác nhau. Về cơ bản chúng tôi tăng cường cho các đối tượng, liên kết các bản ghi và cho phép phân giải đồng tham chiếu liên các tài liệu (cross document co-reference resolution), một năng lực rất mạnh được sử dụng rộng rãi bởi bất kỳ ai có quan tâm trong việc xử lý ngôn ngữ tự nhiên, tính lượng bản thể học (ontology population) và web ngữ nghĩa.
-
Efficient Extraction & Aggregation - Trích xuất và tổng hợp có hiệu quả – Các tổ chức có quan tâm trong việc tăng cường thông tin từ nhiều hệ thống và nguồn dữ liệu có thể giải quyết vấn đề thông tin lặp đi lặp lại. Các mã nhận diện có thể được phân giải qua các bản thể học khác nhau. Trích xuất thông tin có thể được thực hiện có hiệu quả từ các nguồn khác nhau. Việc quyết định dữ liệu nào là “mới” và dữ liệu nào đã được trích xuất rồi cần phải được quản lý thận trọng nếu các ứng dụng kết quả sẽ là thành công. Những người sử dụng có quan tâm trong việc tổng hợp các chi tiết về các mã nhận diện được phân giải cũng có thể làm thế. Chính tiếp cận rất y hệt này cũng có thể được áp dụng cho các đối tượng khác nơi bạn muốn kết hợp 2 đối tượng với nhau mà làm việc được cùng nhau như bu lông và ốc vít.
-
Industry Applications - Các ứng dụng công nghiệp – Trong các dịch vụ tài chính, các tổ chức ngân hàng và môi giới chứng khoán rất quan tâm về phân giải nhận diện để hỗ trợ phân tích dò tìm giả mạo và chống rửa tiền. Các công ty Truyền thông và Xuất bản cần tìm kiếm các kho lưu trữ lịch sử để nhanh chóng nhận diện khi nào 2 hoặc nhiều tham chiếu hơn về một thực thể là y như nhau. Các phòng dịch vụ khách hàng trong thương mại điện tử hoặc trong môi trường bán lẻ tăng cường dữ liệu từ các hệ thống khác nhau và cần phải phân giải các mã nhận diện trong quá trình đó. Các ứng dụng phát hiện điện tử (eDiscovery) có thể liên kết các tài liệu với nhau nơi mà một con người duy nhất được tham chiếu theo các cách thức khác nhau. Các trường hợp điển hình dạng này của tích hợp ngữ nghĩa là bất tận.
Khung
khai thác web - Web Minging Framework
Nhiều
doanh nghiệp muốn tải các cơ
sở dữ liệu đồ họa
với các thông tin được thu thập từ web. Điều này có
thể là tri thức có tính cạnh tranh, các cái tên có chủ
đích, các sự việc ở các địa điểm khác nhau - bất
kỳ sự việc nào bạn muốn sử dụng trong phân tích và
nghiên
cứu. Khung Khai thác Web là một nền tảng tìm
kiếm web và tri thức web toàn diện và có hiệu quả. Nó
cung cấp khả năng đào sâu, lấy, phân tích, trích xuất
và lưu trữ các tài liệu hỗn tạp khác nhau từ web, biến
chúng thành tập hợp dữ liệu có cấu trúc tốt. Dữ
liệu kết quả có thể được sử dụng để làm giàu
cho cơ
sở dữ liệu đồ họa
hiện hành của
bạn và được sử dụng trong các ứng dụng
nghiên cứu.
Các
bộ kết nối GraphDB™ - GraphDB™ Connectors
Các
bộ kết nối GraphDB™ là bộ các tiếp hợp (adapters) và
các giao diện cấu hình cho phép những người
sử dụng kết nối kho ngữ nghĩa với các động cơ
thường trực bên ngoài (external persistence engines) khác
nhau. Ví dụ bạn có thể kết nối các động cơ tìm kiếm
bên ngoài như Lucene, SoLR và Elasticsearch để tìm kiếm và
điều hướng nhanh hơn các trường hợp cùng diễn ra.
Những người
sử dụng có thể có được các bản cập nhật từ
các kho dữ liệu lớn và ghi vào các hệ thống tệp bên
ngoài để sao lưu hoặc nhân bản dữ liệu. Hiện hành,
chúng tôi hỗ trợ các kết nối tới SoLR, Lucene và
Elasticsearch, nhưng đang có các kế hoạch để mở rộng
thư viện này.
Các
đối tác công nghệ có quan tâm trong việc chào bộ đầy
đủ công nghệ ngữ nghĩa nên kết nối với chúng tôi.
Công nghệ này mở rộng nhanh chóng nền tảng của chúng
tôi, cho phép các tổ chức tích hợp các nguồn và quy
trình dữ liệu khác. Chúng làm việc với công nghệ chú
giải GraphDB™ và API cài cắm của chúng tôi.
GraphDB™
Workbench
GraphDB™
Workbench là giao diện web và API để tạo thuận lợi cho
các tác vụ quản lý, quản trị và phát triển ứng dụng
cơ
sở dữ liệu RDF. Với chỉ một cái nhấn
chuột, những người
sử dng có thể bắt đầu xác định mọi điều qua
giao diện này. Workbench cho phép dễ dàng cấu hình và vận
hành các cơ
sở dữ liệu RDF. Chúng tôi hỗ trợ Sesame
API, nền tảng Xuất bản Dữ liệu Kết nối (Linked Data
Publishing) từ W3C, khả năng để tạo, tái cấu hình và
xóa các kho, quản lý an toàn, thiết lập của người
sử dụng, ghi các quyền, tạo và sửa các nguồn dữ
liệu được liên kết và hơn thế nữa. Hãy liên hệ với
chúng tôi để có demo về GraphDB™ Workbench và tìm ra cách
thức nó được thiết lập và quản lý dễ dàng như thế
nào các kho RDF của chúng tôi.
Các
dịch vụ Chuyên nghiệp về Ontotext - Ontotext Professional
Services
Các
nhân viên các dịch vụ chuyên nghiệp của chúng tôi đã
giúp cho hàng trăm khách hàng áp dụng tập hợp toàn diện
này các công cụ tích hợp ngữ nghĩa. Nhiều tổ chức
liên hệ với chúng tôi để xây dựng, triển khai và duy
trì các kho GraphDB™ được phát triển và cập nhật bằng
việc sử dụng các công cụ quản lý tài liệu, khai thác
văn bản và chú giải. Họ coi chúng tôi như một phần
của đội mở rộng của họ. Để học được nhiều hơn
về các dịch vụ của chúng tôi, hãy
liên hệ ngày với chúng tôi.
RDF hóa dữ liệu của riêng bạn với bản mới nhất GraphDB Free 7.2. Hãy nhập khẩu dữ liệu của bạn và chạy các truy vấn siêu nhanh.
Semantic
Data Integration allows users to quickly design data processing jobs
involving GraphDB™ and GATE (General Architecture for Text
Engineering). Users interested in “RDF-izing” their data can
export the jobs as executable processes or REST services. Part of
this process involves identity resolution where users can predefine
matching criteria. The Identity Resolution Framework directly
supports accessing semantic repositories through SPARQL.
The
Ontotext Workbench provides users with a web interface and API to
facilitate RDF database management, administration, and application
development tasks. GraphDB™ Connectors include a set of adapters
and configuration interfaces allowing users to connect GraphDB™ to
external persistence engines. Learn about these tools and the Web
Mining Framework below.
Creating a 360 Degree View with Semantic Data Integration
Data
integration is paramount in a world where complete visibility,
accurate analysis and data complexity dominate the landscape. Today,
organizations are searching for solutions
that allow them to manage all of their data – structured,
semi-structured and unstructured data. Whether your graph database
operates standalone or integrated into a larger database ecosystem,
you need a complete set of tools to ensure you have a synchronized
360-degree view of your data. The ability to easily perform tasks –
create documents from files, create and export annotations, load RDF
statements into GraphDB™ and merge two or more GraphDB™ databases
– are all essential functions that support world-class semantic
solutions. With our Semantic Integration Suite, your ability to
integrate data is much easier.
Semantic Integration Tools
Our
team of experts has hundreds of years of experience working with text
mining and RDF data integration tools. Our customers use these tools
and our services to help guide them through a semantic data
integration lifecycle including loading documents, processing
annotations, creating RDF statements, loading those statements into
semantic repositories and merging two or more repositories when
needed. User can quickly design data processing jobs for both
GraphDB™ and Gate. They can export the jobs as executable processes
or REST services and apply them to integrate massive amounts of data.
Ontotext Semantic Data Integration allows you to rapidly RDF-ize your
data.
Identify Resolution Framework
In
many cases, two or more RDF statements may be referring to the same
entity. This has been determined through disambiguation analysis in
the text mining process. Knowing that these different entities are
really the same allows users to later search and locate all of the
references in an optimized way. Search results and analysis are more
accurate. The Identity Resolution Framework uses domain-specific
predefined matching criteria expressed in a human friendly way based
on predicate logic. Ontologies are used to represent the knowledge in
GraphDB™. Direct access is provided through SPARQL.
Use Cases for Identity Resolution
-
Data Consolidation – In identify resolution, users typically want to discover references to the same object that exist in different data sources. In essence, they want to pair these objects. This technique has two major benefits – the identities are resolved AND redundancy in the incoming data has been consolidated in the graph database and later can be used in analysis. In other words, the resolution has far reaching effects beyond semantic data integration.
-
Cross Document Co-Reference – Our approach to this allows organizations to identify variations of the same objects from different formats – textual documents, web pages, database records, ontologies and more. We create a single data view where different facts are interlinked and redundancy is removed. This allows users to easily query and use large data sets in a variety of ways. In essence we consolidate objects, linking records and allow for cross document co-reference resolution, a very powerful capability widely used by anyone interested in natural language processing, ontology population and the semantic web.
-
Efficient Extraction & Aggregation – Organizations interested in consolidating information from many systems and data sources can resolve repetitive information. Identities can be resolved across different ontologies. Information extraction can be done efficiently from different sources. Deciding which data is “new” and which has already been extracted needs to be carefully managed if the resulting applications are to be successful. Users interested in aggregating details about the resolved identities can do so. This very same approach can also be applied to different objects where you want to pair together two objects that work together like a nut and bolt.
-
Industry Applications – In financial services, banks and brokerages organizations are very interested in identity resolution in support of fraud detection and anti-money laundering analysis. Media and Publishing companies need to search historical archives to quickly identify when two or more references to an entity are the same. Customer service departments in the eCommerce or Retail space consolidate data from various systems and need to resolve identities in the process. eDiscovery applications can link together documents where the same person is referenced in different ways. The use cases for this type of semantic integration are endless.
Web Mining Framework
Many
businesses want to load graph databases with information collected
from the web. This could be competitive intelligence, target names,
facts about places – any fact that you want to use in analysis and
search. The Web Mining Framework is a comprehensive, efficient web
intelligence and web search platform. It provides the capability to
crawl, fetch, parse, extract and store heterogeneous documents from
the web, transforming them into a well-structured data set. The
resulting data can be used to enrich your current graph database and
used in search applications.
GraphDB™ Connectors
GraphDB™
Connectors are a suite of adapters and configuration interfaces
allowing users to connect the semantic repository to various external
persistence engines. For example you can connect external search
engines like Lucene, SoLR and Elasticsearch for faster co-occurrence,
faceted search and navigation. Users can obtain updates from big data
stores and write to external file systems for backup or data
replication. Today, we support connectors to SoLR, Lucene and
Elasticsearch but plans are well underway to extend this library.
Technology
partners interested in offering a full suite of semantic technology
should connect us. This technology dramatically extends our platform
allowing organizations to integrate other data sources and processes.
They work with our GraphDB™ notification technology and the plug-in
API.
GraphDB™ Workbench
GraphDB™
Workbench is a web interface and API to facilitate RDF database
management, administration and application development tasks. With a
single click users can start to define everything through this
interface. The workbench allows for easy configuration and operation
of RDF databases. We support a Sesame API, the Linked Data Publishing
platform from w3C, the ability to create, reconfigure and delete
repositories, security management, user setup, write permissions,
creating and modifying linked data sources and more. Contact us for a
demo of GraphDB™ Workbench and find out how easy it is to set up
and manage your RDF repositories.
Ontotext Professional Services
Our
professional services staff has helped hundreds of customers apply
this complete set of semantic integration tools. Many organizations
contract with us to build, deploy and maintain GraphDB™
repositories that are populated and updated using document
management, annotation and text mining tools. They consider us part
of their extended team. To learn more about our services, contact
us today.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.