Thứ Sáu, 28 tháng 4, 2017

Vai trò của các từ vựng cốt lõi, ADMS và DCAT-AP trong việc triển khai kế hoạch về tiêu chuẩn hóa CNTT-TT của Ủy ban châu Âu


The role of Core Vocabularies, ADMS and DCAT-AP in the Rolling plan on ICT standardisation of the European Commission
Submitted by Eva Cobos on March 30, 2017
Bài được đưa lên Internet ngày: 30/03/2017


Ủy ban châu Âu gần đây đã phát hành Triển khai kế hoạch thường niên Tiêu chuẩn hóa CNTT-TT của mình, nó nhận diện các hoạt động tiêu chuẩn hóa CNTT-TT mà hỗ trợ cho các chính sách của EU.
Việc triển khai kế hoạch tiêu chuẩn hóa CNTT-TT đó đưa ra cầu nối độc nhất vô nhị giữa các chính sách và các hoạt động tiêu chuẩn hóa của EU trong lĩnh vực các công nghệ thông tin và truyền thông (CNTT-TT) và vì thế, nó cho phép sự hội tụ gia tăng các nỗ lực của những người tiến hành tiêu chuẩn hóa hướng tới các mục tiêu chính sách của EU. Tài liệu này là kết quả của hội thoại hàng năm có liên quan tới một dải rộng lớn những người đại diện của các bên tham gia đóng góp chính về tiêu chuẩn hóa như được trình bày trong nền tảng nhiều bên tham gia đóng góp trong tiêu chuẩn hóa CNTT-TT.
Vai trò của các từ vựng cốt lõi, ADMS và DCAT-AP
Kế hoạch năm nay nhấn mạnh một lần nữa tầm quan trọng đóng góp của Ủy ban châu Âu, trong ngữ cảnh của Chương trình ISA2, trong lĩnh vực tính tương hợp Chính phủ điện tử thông qua 3 dòng công việc:
- DCAT-AP như là tiêu chuẩn dữ liệu để mô tả các catalog dữ liệu và các tập hợp dữ liệu của khu vực nhà nước, thúc đẩy sự trao đổi dữ liệu xuyên khắp các cổng ở châu Âu. Những mở rộng của DCAT-AP bao trùm các tập hợp dữ liệu không gian địa lý (GeoDCAT-AP) và các tập hợp dữ liệu thống kê (StatDCAT-AP) cũng được hoàn thành;
- ADMS như là mô tả siêu dữ liệu các đặc tả và tiêu chuẩn siêu dữ liệu, nó cho phép trao đổi siêu dữ liệu trong các tài sản tương hợp sử dụng lại được giữa các kho quốc gia và quốc tế; và
- Core Vocabularies - Các từ vựng cốt lõi như là các mô hình dữ liệu chung, đơn giản hóa của các dạng dữ liệu quan trọng được sử dụng xuyên khắp các hệ thống và ứng dụng thông tin hành chính. Chúng tạo thuận lợi cho sự phát triển các giải pháp CNTT tương hợp được bằng việc đảm bảo mức tương hợp tối thiểu cho các dữ liệu chủ chốt của hành chính nhà nước thường được lưu trữ trong các kho đăng ký.
Trong tất cả 3 dòng trên, sự quan tâm sẽ được tiến hành để đảm bảo tính tương thích giữa khu vực nhà nước và những gì khu vực tư nhân có thể đạt được với lưu ý về các tiêu chuẩn và các đặc tả kỹ thuật hiện hành.
Các hành động mới được đề xuất về tiêu chuẩn hóa
Một số hành động mới đã được đề xuất có liên quan tới tính tương hợp được các Từ vựng Cốt lõi, ADMS và DCAT-AP dẫn dắt. Một vài trong số chúng là:
- Tổ chức khóa huấn luyện về các chủ đề của ISA. Để thúc đẩy tiêu chuẩn hóa trong lĩnh vực này, sự tổ chức khóa huấn luyện thông qua tổ chức các tiêu chuẩn của châu Âu - ESO (European Standards Organisation) có liên quan tới các tổ chức của châu Âu (như Văn phòng Xuất bản và đơn vị DG DIGIT/ISA), các đại diện của các Quốc gia Thành viên, giới công nghiệp và các viện nghiên cứu và các trường đại học để đóng khung vấn đề được coi là điểm khởi đầu chính.
- Sự đóng góp các đặc tả kỹ thuật được phát triển theo chương trình ISA2 về tiêu chuẩn hóa quốc tế. Để tận dụng được khả năng ứng dụng các đặc tả kỹ thuật mà chúng đang hoặc đã được phát triển theo các chương trình của ISA và ISA2, có lẽ được khuyến cáo để thúc đẩy chúng vượt ra khỏi châu Âu bằng việc đề xuất chúng như là các tiêu chuẩn quốc tế thông qua ISO, IEC hoặc ITU, như ISO/IEC JTC1 SC32 (quản lý và trao đổi lẫn nhau các dữ liệu), nhóm nghiên cứu 16 của ITU-T (đa phương tiện), và nhóm nghiên cứu 17 (an toàn).
- W3C để cân nhắc từ vựng vị trí cốt lõi như là đầu vào quan trọng cho tiêu chuẩn hóa (nhóm kết nối mạng mới mà hiện đang được thảo luận trong W3C với sự tham gia của đội JRC, INSPIRE).
Hãy phát hiện tất cả các hành động được đề xuất trong Triển khai kế hoạch 2017 về tiêu chuẩn hóa CNTT-TT.
The European Commission has recently released its annual Rolling Plan on ICT Standardisation, which identifies ICT standardisation activities that support EU policies.
The Rolling Plan for ICT Standardisation provides a unique bridge between EU policies and standardisation activities in the field of information and communication technologies (ICT) and thus, it allows for increased convergence of the efforts of standardisation makers towards European policy goals. The document is the result of a yearly dialogue involving a wide range of representatives of the major standardisation stakeholders as represented in the multi-stakeholder platform on ICT standardisation.

The role of Core Vocabularies, ADMS and DCAT-AP

The plan of this year highlights once more the importance of the European Commission’s contribution, in the context of ISA2 Programme, in the area of eGovernment interoperability through 3 streams of work:
- DCAT-AP as a data standard to describe public sector data catalogues and data sets, promoting the exchange of data across portals in Europe. DCAT-AP extensions covering geospatial datasets (GeoDCAT-AP) and statistical datasets (StatDCAT-AP) have also been finalised;
- ADMS as a metadata description of semantic specifications and standards, which allows the exchange of metadata on re-usable interoperability assets among national and international repositories; and
- Core Vocabularies as generic, simplified and extensible data models of important master data types used across public administration information systems and applications. They facilitate the development of interoperable IT solutions by ensuring a minimum level of interoperability for public administration master data usually stored in base registries.


In all three streams, care should be taken to ensure compatibility between the public sector and what the private sector can achieve, noting existing standards and specifications.

Proposed new actions in standardisation

A number of new actions have been proposed in relation to interoperability driven by the Core Vocabularies, ADMS and DCAT-AP. Some of them are:
- Organising a workshop on ISA topics. In order to promote standardisation in this area the organisation of a workshop via an European standards organisation (ESO) involving European organisations (e.g. the Publications Office and DG DIGIT/ISA unit), Member States representatives, industry and relevant research institutes and universities to frame the issue is considered to be a key starting point.
- The contribution of specifications developed under ISA² programme to international standardisation. In order to leverage the applicability of technical specifications which are or have been developed under the ISA and ISA² programmes, it might be advisable to promote them beyond Europe by proposing them as international standards via ISO, IEC or ITU, e.g. ISO/IEC JTC1 SC32 (data management and interchange), ITU-T study group 16 (multimedia), and study group 17 (security).
- W3C to consider core location vocabulary as important input to standardisation (new working group that is currently discussed in W3C with the participation of the JRC, INSPIRE team).
Discover all the proposed actions of the 2017 Rolling plan on ICT standardisation.
Dịch: Lê Trung Nghĩa

Thứ Năm, 27 tháng 4, 2017

Nghiên cứu các mô hình kinh doanh cho Dữ liệu Chính phủ Mở Liên kết - BM4LOGD


Study on Business Models for Linked Open Government Data - BM4LOGD

Submitted by Semic .eu on November 12, 2013
Bài được đưa lên Internet ngày: 12/11/2013
Tải về bản dịch sang tiếng Việt tài liệu cùng tên, có 290 trang, tại địa chỉ:


Báo cáo được đính kèm trình bày kết quả nghiên cứu về Dữ liệu Chính phủ Mở Liên kết - LOGD (Linked Open Government Data), tập hợp các nguyên tắc cho việc xuất bản, liên kết và truy cập dữ liệu chính phủ mở như một dịch vụ trên Web. Nghiên cứu đã được ủy quyền bởi Chương trình các Giải pháp Tương hợp cho Hành chính Nhà nước châu Âu ISA (Interoperability Solutions for European Public Administrations) của Ủy ban châu Âu nhằm vào các chủ đề nghiên cứu sau đây:
  1. giá trị của LOGD cho các doanh nghiệp, công dân và hành chính nhà nước;
  2. các cấu trúc chi phí đằng sau sự cung cấp LOGD;
  3. các dòng doanh thu có liên quan tới sự tiêu dùng các dịch vụ LOGD; và
  4. các bộ xúc tác và các rào cản về khía cạnh tạo ra giá trị của LODG.
Báo cáo cung cấp khung lý thuyết để phân tích hệ sinh thái LOGD. Nó xác định 37 trường hợp ở đó các cơ quan hành chính nhà nước đã sử dụng LOGD để làm cho dữ liệu chính phủ mở sẵn sàng như là dịch vụ trên Web. 14 trường hợp đã được lựa chọn để phân tích tiếp. Các trường hợp điển hình được lựa chọn là:
  • Áo: Năng lượng tái tạo và Quan hệ đối tác Hiệu suất Năng lượng (REEEP);
  • Đức: Thư viện Quốc gia Đức (DNB);
  • Liên minh châu Âu: Europeana;
  • Liên minh châu Âu: Ban Tổng giám đốc của Ủy ban châu Âu về Y tế và Người tiêu dùng (DG SANCO);
  • Liên minh châu Âu: Cơ quan Môi trường châu Âu (EEA);
  • Liên minh châu Âu: Văn phòng Xuất bản của Liên minh châu Âu (OP);
  • Ý: Cơ quan Số của Ý (AgID);
  • Vương quốc Anh: BBC;
  • Vương quốc Anh: Companies House;
  • Vương quốc Anh: Bộ Môi trường, Lương thực và Nông thôn (DEFRA);
  • Vương quốc Anh: Lưu trữ Quốc gia National Archives;
  • Vương quốc Anh: OpenCorporates;
  • Vương quốc Anh: Khảo sát quân nhu (OS); và
  • Quốc tế: Tổ chức Lương thực và Nông nghiệp Liên hiệp Quốc (FAO).
Công việc có liên quan
Để biết nhiều hơn về Hành động 1.1 của ISA
Tài liệu bổ sung
The attached report presents the outcome of a study on Linked Open Government Data (LOGD), a set of principles for publishing, linking and accessing open government data as a service on the Web. The study was commissioned by the Interoperability Solutions for European Public Administrations (ISA) Programme of the European Commission to address the following research topics:
  1. the value of LOGD for businesses, citizens, and public administrations;
  2. the cost structures behind the provision of LOGD;
  3. the revenue streams linked to the consumption of LOGD services; and
  4. enablers and barriers with regard to the value creation of LODG.
The report provides a theoretical framework to analyse the LOGD ecosystem. It identifies 37 cases in which public administrations have used LOGD to make open government data available as a service on the Web. 14 cases have been selected for further analysis. The selected case studies are:
  • Austria: Renewable Energy and Energy Efficiency Partnership (REEEP);
  • Germany: German National Library (DNB);
  • European Union: Europeana;
  • European Union: European Commission Directorate-General Health and Consumers (DG SANCO);
  • European Union: European Environment Agency (EEA);
  • European Union: Publications Office of the European Union (OP);
  • Italy: Agenzia per l'Italia Digitale (AgID);
  • United Kingdom: BBC;
  • United Kingdom: Companies House;
  • United Kingdom: Department of Environment, Food and Rural Affairs (DEFRA);
  • United Kingdom: National Archives;
  • United Kingdom: OpenCorporates;
  • United Kingdom: Ordnance Survey (OS); and
  • International: Food and Agriculture Organization of the United Nations (FAO).
Related work
To know more about ISA Action 1.1

Additional documentation

Dịch: Lê Trung Nghĩa


Thứ Tư, 26 tháng 4, 2017

‘Nghiên cứu các mô hình kinh doanh cho Dữ liệu Chính phủ Mở Liên kết (BM4LOGD)’ - bản dịch sang tiếng Việt



Là tài liệu của các tác giả Phil Archer et al, do Ủy ban châu Âu xuất bản ngày 12/11/2013. Tài liệu đưa ra các ví dụ điển hình về 14 cơ quan của các nước thành viên Liên minh châu Âu và tổ chức thế giới sử dụng Dữ liệu Mở Liên kết - LOD (Linked Open Data) và Dữ liệu Chính phủ Mở Liên kết - LOGD (Linked Open Government Data) trong các hệ thống thông tin của mình để cung cấp các dịch vụ chính phủ điện tử (CPĐT) cho các khách hàng, đặc biệt là dịch vụ tích hợp dữ liệu một cách mềm dẻo khi các dữ liệu nằm rải rác khắp nơi trên Internet và với các định dạng khác nhau.
Các ví dụ được đưa ra bao trùm một dải rộng lớn các lĩnh vực: thư viện, lưu trữ, xuất bản, di sản văn hóa, tài nguyên môi trường, biến đổi khí hậu, năng lượng, bản đồ, thông tin doanh nghiệp, nông nghiệp, chống tội phạm…
Có lẽ, cuốn sách sẽ là tham khảo tốt cho tất cả những ai muốn triển khai Dữ liệu Mở Liên kết và Dữ liệu Chính phủ Mở Liên kết vào Việt Nam trong các lĩnh vực như chính phủ điện tử, nông nghiệp thông minh, thành phố thông minh,… những lĩnh vực không chỉ làm việc với công nghệ, mà quan trọng hơn, cần và phải làm việc với dữ liệu.

Tải về bản dịch sang tiếng Việt, có 290 trang, tại địa chỉ:


Blogger: Lê Trung Nghĩa

Thứ Ba, 25 tháng 4, 2017

Tích hợp dữ liệu liên kết cho các kho lưu trữ, thư viện và bảo tàng


Linked Data Integration for Archives, Libraries and Museums



Sử dụng Công nghệ Ngữ nghĩa và Dữ liệu Liên kết

Bản thể luận đã đưa ra các giải pháp ngữ nghĩa cho các tổ chức di sản văn hóa để hỗ trợ nghiên cứu có tính cộng tác, tải và truy vấn hiệu năng cao nhiều kho ngữ nghĩa cùng một lúc, một cách sáng tạo sử dụng lại các siêu dữ liệu, trình bày tri thức, tổng hợp các chế tác, tích hợp dữ liệu trong các ống silo khép kín và các ứng dụng nghiên cứu cho thông tin nghiên cứu và khoa học.
Hãy học vài giải pháp mà chúng tôi đã triển khai bên dưới. Hãy liên hệ với chúng tôi để nói với độ các chuyên gia của chúng tôi và tìm ra cách chúng tôi có thể cải thiện sự đại diện và truy cập các chế tác và nghiên cứu trong tổ chức của bạn.

Công nghệ ngữ nghĩa trang bị cho ứng dụng di sản văn hóa

Các công nghệ ngữ nghĩa khác nhau là cốt lõi của các giải pháp bên dưới. Trong vài trường hợp, bản thể luận đưa ra cách cộng tác và nghiên cứu hiệu quả bằng việc mô tả các chế tác, các sự kiện trong vòng đời di sản văn hóa, các chú giải và nghiên cứu ngữ nghĩa. Thông tin bổ sung về lĩnh vực này là có sẵn trong phần của các khách hàng trên website.

Viện bảo tàng Quốc gia Anh

ResearchSpace là dự án được Viện Bảo tàng Anh quốc (British Museum) trao thưởng và được Quỹ Andrew Mellon cấp vốn để hỗ trợ cho các dự án nghiên cứu có tính cộng tác cho các học giả di sản văn hóa. Nó gồm nền tảng được tổ chức cho nghiên cứu dựa vào web, chia sẻ tri thức và xuất bản web.
Nền tảng này gồm dữ liệu và các công cụ phân tích số, các nguồn dữ liệu cộng tác, các nguồn dữ liệu RDF ngữ nghĩa, các công cụ quản lý và dòng công việc dữ liệu.
Dựa vào bản thể luận CIDOC CRM cho lĩnh vực di sản văn hóa, hệ thống có GraphDB™ như là kho ngữ nghĩa thực hiện suy luận mạnh, hiệu năng nhanh, truy cập hiệu quả với nhiều người sử dụng và khẳng định và rút dữ liệu từ từ.

Trung tâm Yale về Nghệ thuật của nước Anh

Trung tâm Yale về Nghệ thuật của nước Anh có quan tâm trong việc xuất bản các bộ sưu tập như là Dữ liệu Liên kết và tích hợp các ứng dụng hoàn toàn khác nhau. Làm như vậy, dữ liệu có thể được sử dụng lại, được áp dụng trong các ứng dụng và được các lập trình viên sử dụng theo các cách thức sáng tạo. GraphDB™ và bản thể luận di sản văn hóa của CIDOC CRM là cốt lõi của giải pháp lưu trữ, trình bày và các chế tác tìm kiếm.
GraphDB™ đã được chọn vì nó có thể tải và truy vấn các câu lệnh RDF cùng một lúc với phạm vi rộng. Trong trường hợp này, lý lẽ suy luận và quy tắc suy diễn là rất quan trọng trong tìm kiếm phức tạp.

European

Sử dụng GraphDB™, Bản thể luận đã tải hơn 20 triệu đối tượng di sản văn hóa vào kho ngữ nghĩa cho European và tổ chức các điểm đầu cuối SPARQL. Suy luận của OWL-Horst được sử dụng gồm 993 triệu tuyên bố rõ ràng và 4 tỷ tuyên bố truy xuất được.
Bộ phận khác, European Creative cần thiết để tạo thuận lợi cho sử dụng lại có tính sáng tạo siêu dữ liệu và nội dung di sản văn hóa trong các lĩnh vực Giáo dục Lịch sử, Giáo dục Lịch sử Tự nhiên, Du lịch, các Mạng Xã hội, và Thiết kế. Bản thể luận đã phát triển thành phần phụ trợ (backend) cốt lõi của kiến trúc các đối tượng được gắn thẻ địa lý và di sản văn hóa.
Using Semantic Technology and Linked Data
Ontotext has delivered semantic solutions for cultural heritage organizations in support of collaborative research, high performance loading and querying of multiple semantic repositories simultaneously, creative re-use of meta data, knowledge representation, artifact aggregation, data silo integration and search applications for research and scientific information.
Learn about some of the solutions we have implemented below. Contact us to talk with our team of experts and find out how we can improve the representation and access to artifacts and research in your organization.
Semantic Technology Powers Cultural Heritage Applications
A variety of semantic technologies are at the core of the solutions below.  In some cases, an ontology provides an effective way for collaboration and research by describing artifacts, events in the cultural heritage lifecycle, semantic annotations and research.  Additional information about this domain is available in the customers section of the website.

The British Museum

ResearchSpace is a project awarded by the British Museum and funded by the Andrew Mellon Foundation to support collaborative research projects for cultural heritage scholars.  It includes a hosted platform for web-based research, knowledge sharing and web publishing.
This platform includes data and digital analysis tools, collaboration, semantic RDF data sources, data management and workflow tools.
Based on the CIDOC CRM ontology for the cultural heritage domain, the system has GraphDB™ as the semantic repository performing powerful reasoning, fast performance, efficient multi-user access and incremental assert and retraction of data.
Yale Center for British Art
The Yale Center for British Art is interested in publishing collections as Linked Open Data and integrating search applications that are completely different.   In doing so, the data can be reused, applied in applications and used by developers in creative ways. GraphDB™ and the CIDOC CRM cultural heritage ontology are at the core of the solution for storing, representing and searching artifacts.
GraphDB™ was selected because it can load and query RDF statements simultaneously at scale.  In this case, reasoning and rule inferencing are very important in complex search.
This capability facilitates collaboration and research even when the data is present across different collections. Search scenarios supported include finding all works by a certain author regardless of the collection in which they reside and joining data about a work or author across several repositories.
Europeana
Using GraphDB™, Ontotext has loaded over 20 million cultural heritage objects in the semantic repository for Europeana and hosts the SPARQL endpoint.  OWL-Horst inference is used comprising 993 million explicit statements and 4 billion retrievable statements.
A different division,  Europeana Creative needed to facilitate the creative re-use of cultural heritage metadata and content in the areas of History Education, Natural History Education, Tourism, Social Networks, and Design.  Ontotext developed the core back end component of the architecture and geo-tagged the cultural heritage objects.
Dịch: Lê Trung Nghĩa

Thứ Hai, 24 tháng 4, 2017

Cơ bản về GraphDB™


GraphDB ™ Fundamentals



Cơ bản về GraphDB™

Những điều cơ bản về GraphDB™ xây dựng cơ sở để làm việc với các cơ sở dữ liệu đồ thị sử dụng các tiêu chuẩn của W3C và đặc biệt GraphDB™. Đây là lớp huấn luyện đã đưa ra hàng loạt 9 video sẽ đi với bạn trong các bước đầu sử dụng các cơ sở dữ liệu đồ thị triplestore.
  • Học những điều cơ bản về các tiêu chuẩn của W3C cho các cơ sở dữ liệu đồ thị theo 3 chủ đề chính: RDF & RDFS, SPARQL và Bản thể học (Ontology).
  • Đi theo với các chỉ dẫn cài đặt và thiết lập cấu hình GraphDB để bắt đầu với các truy vấn đầu tiên của bạn hoặc tải các tập hợp dữ liệu của bạn.
  • Cuối cùng có được tối đa sự hiểu biết về chức năng của GraphDB, các chiến lược với các lý do của nó; RDFRank, không gian địa lý Geo-spatial và các mở rộng tìm kiếm toàn văn; và nơi nào để bắt đầu khi có hỏng hóc.
Đừng quên một điều - đăng ký kênh YouTube của bạn - và đi theo chúng tôi trên Twitter

Module 1 – RDF(S)

RDF là định dạng được tiêu chuẩn hóa cho trình bày dữ liệu đồ thị. Module này giới thiệu RDF, những gì RDFS thêm vào nó, và cách sử dụng nó bằng những ví dụ đễ đi theo từ biếm họa “Flintstones”.

Module 2 – SPARQL

SPARQL là ngôn ngữ truy vấn tương tự như SQL cho dữ liệu RDF. Nó được thừa nhận như là một trong những công cụ chính của công nghệ Ngữ nghĩa và từng được W3C làm thành tiêu chuẩn. Module này đề cập tới cơ bản về SPARQL, đủ để tạo cho bạn đồ thị RDF đầu tiên và chạy các truy vấn SPARQL đầu tiên của bạn.

Module 3 - Bản thể học

Module này xem xét các bản thể học – Ontologies: bản thể học là gì; dạng tài nguyên nào nó mô tả; và đâu là những lợi ích của việc sử dụng bản thể học. Bản thể học là cốt lõi của cách thức chúng ta mô hình hóa tri thức theo ngữ nghĩa. Chúng là một phần của tất cả các tập hợp Dữ liệu Liên kết.

Module 4 - Cài đặt GraphDB

Video này chỉ dẫn bạn qua 5 bước trong việc thiết lập GraphDB của bạn: từ việc tải về và triển khai các tệp war tới Máy chủ Ứng dụng Tomcat của bạn, qua việc khởi tạo Workbench (công cụ quản trị GraphDB), tới việc cuối cùng tạo cơ sở dữ liệu và chèn vào và lựa chọn dữ liệu trong nó. Ví dụ ưa thích của chúng tôi từ Flintstones là sẵn sàng ở đây như là dữ liệu để bạn bắt đầu.

Module 5 - Tinh chỉnh hiệu năng & mở rộng phạm vi

Module này cung cấp thông tin về cách thiết lập cấu hình cho GraphDB để có hiệu năng và khả năng mở rộng phạm vi tối ưu. Kích cỡ của các tập hợp dữ liệu và các trường hợp điển hình hưởng lợi từ các cấu hình bộ nhớ GraphDB khác nhau.
Hãy xem video này để học được nhiều hơn về 4 yếu tố bạn có thể kiểm soát cũng như cách sử dụng công cụ cấu hình GraphDB. Các gợi ý về dành riêng bộ nhớ trong thời gian tải và vận hành bình thường cũng được đưa ra.

Module 6 – GraphDB Workbench & Sesame

GraphDB Workbench là công cụ quản trị dựa vào web mà cho phép bạn quản lý các kho GDB, tải và xuất khẩu dữ liệu, giám sát thực thi truy vấn, phát triển và thực thi các truy vấn, quản lý các kết nối và những người sử dụng. Trong video này chúng tôi cung cấp tổng quan ngắn gọn chức năng chính mà bạn sẽ sử dụng hầu hết mọi lúc.

Module 7 - Tải dữ liệu

Dữ liệu là tài sản có giá trị nhất và GraphDB được thiết kế để lưu trữ và cải tiến nó. Module này chỉ cho bạn cách sử dụng GraphDB Workbench để tải các tệp riêng rẽ và đánh đống dữ liệu từ các thư mục. Đối với các tập hợp dữ liệu khổng lồ thì chúng tôi khuyến cáo tăng tốc độ quy trình đó bằng việc sử dụng trình tải đánh đống Parallel (song song).
Module 8 – Tập hợp quy tắc & các chiến lược lập luận
Module này đưa ra các chiến lược lập luận (cách để có thông tin mới từ dữ liệu của bạn) cũng như tập hợp quy tắc được GraphDB sử dụng. 3 chiến lược lập luận khác nhau được thảo luận là: xâu chuỗi tiến, xâu chuỗi lùi, xâu chuỗi hỗn hợp. Chúng hỗ trợ cho sự tối ưu hóa lập luận khác nhau của GraphDB, nghĩa là sử dụng owl:SameAs

Module 9 - Các mở rộng

  • Module này trình bày 3 mở rộng trang bị cho các truy vấn RDFRank của GraphDB tính toán các kết nối của các nút - tương tự với thuật toán PageRank (Xếp hạng trang) nổi tiếng.
  • Các truy vấn không gian địa lý trích xuất dữ liệu được đặt trong các hình tam giác, các hình đa giác và các hình tròn.
  • Tìm kiếm toàn văn đưa ra đánh giá nhanh hơn cho dữ liệu văn bản dựa vào Apache Lucene, Solr và ElasticSearch

Module 10 - Sửa chữa hỏng hóc

Module này đề cập tới việc sửa chữa hỏng hóc cho vài vấn đề phổ biến. Các vấn đề đó bao gồm cả các vấn đề cài đặt và vận hành. Các vấn đề cài đặt bao gồm: Workbench, Lucene, Informatiq và các tệp quy tắc tùy biến. Các vấn đề vận hành gồm: các tính toán lệnh, xóa các lệnh và socket timeouts.

GraphDB™ Fundamentals

GraphDB™ Fundamentals builds the basis for working with graph databases that utilize the W3C standards and particularly GraphDB™. It is a training class delivered in a series of nine videos that will accompany you in your first steps of using triplestore graph databases.
  • Learn the fundamentals of W3C standards for graph databases in the first three topics: RDF & RDFS, SPARQL and Ontology.
  • Follow with GraphDB installation and set-up instructions to start with your firs query or load your datasets.
  • Finally get maximum of GraphDB functionality understanding its reasoning strategies; RDFRank, Geo-spatial and Full-Text-Search extensions; and where to start while troubleshooting.
Don’t miss a thing – subscribe to our YouTube channel – and follow us on Twitter

Module 1 – RDF(S)

RDF is a standardized format for graph data representation. This module introduces RDF, what RDFS adds to it, and how to use it by easy-to-follow examples from “The Flintstones” cartoon.

Module 2 – SPARQL

SPARQL is a SQL-like query language for RDF data. It is recognized as one of the key tools of the Semantic technology and was made a standard by W3C. This module covers the basis of SPARQL, sufficient to create you first  RDF graph and run you first SPARQL queries.

Module 3 – Ontology

This module looks at Ontologies: what is ontology; what kind of resources does it describe; and what are the benefits of using ontologies. Ontologies are the core of how we model knowledge semantically. They are part of all Linked Data sets.

Module 4 – GraphDB Installation

This video guides you through five steps in setting up your GraphDB: from downloading and deploying war files to your Tomcat Application Server, through launching Workbench, to final creation of a database and inserting and selecting data in it. Our favourite example from The Flintstones is available here as data for you to start with.

Module 5 – Performance Tuning & Scalability

This module provides information on how to configure GraphDB for optimal performance and scalability. The size of datasets and the specific use cases benefit from different GraphDB memory configurations.
Watch this video to learn more about the four elements you can control as well as how to use GraphDB configuration tool. Tips about memory dedication during loading time and normal operation are provided as well.

Module 6 – GraphDB Workbench & Sesame

GraphDB Workbench is a web-based administration tool that allows you to manage GDB repositories, load and export data, monitor query execution, developing and executing queries,  managing connectors and users. In this video we provide brief overview of the main functionality that you’ll be using most of the time.

Module 7 – Loading Data

Data is the most valuable asset and GraphDB is designed to store and enhance it. This module shows you how to use GraphDB Workbench to load individual files and bulk data from directories.  For huge datasets we recommend speeding up the process by using Parallel bulk loader.

Module 8 – Rule Set & Reasoning Strategies

This module outlines the reasoning strategies (how to get new information from your data) as well as the rule set that are used by GraphDB. The three different reasoning strategies that are discussed are: forward chaining, backward chaining, hybrid chaining. They support various GraphDB Reasoning optimization e.g. using owl:SameAs

Module 9 – Extensions

  • This module presents three extensions that empower GraphDB queries RDFRank calculates connectives of notes – similar to well known PageRank algorithm.
  • Geo-spatial queries extracts data placed in rectangles, polygons and circles
  • Full test search provides faster assess to textual data based on Apache Lucene, Solr and ElasticSearch

Module 10 – Troubleshooting

This module covers troubleshooting some common issues. These issues include both installation and operational issues. Installation issues covered include: Workbench, Lucene, Informatiq and custom rule files. Operational issues covered include: statement counts, deleting statements and socket timeouts.
Dịch: Lê Trung Nghĩa

Chủ Nhật, 23 tháng 4, 2017

Kho ngữ nghĩa là gì?


What is Semantic Repository?



Các kho ngữ nghĩa là các động cơ tương tự như các hệ thống quản lý cơ sở dữ liệu – DBMS (database management systems). Chúng cho phép lưu trữ, truy vấn, và quản lý các dữ liệu có cấu trúc. Những khác biệt chính với DBMS có thể được tóm tắt như sau:
  • Chúng sử dụng các bản thể học như là lược đồ ngữ nghĩa. Điều này cho phép chúng tự động suy luận về dữ liệu
  • Chúng làm việc với các mô hình dữ liệu vật lý chung và mềm dẻo (như các đồ thị). Điều này cho phép chúng dễ dàng giải nghĩa và áp dụng “ngay được” (on the fly) các bản thể học hoặc các lược đồ siêu dữ liệu mới.
Kết quả là, các kho ngữ nghĩa chào sự tích hợp các dữ liệu đa dạng khác nhau dễ dàng hơn và sức mạnh phân tích nhiều hơn. Để minh họa sự hữu ích của giải thích (hoặc lý do) được tự động hóa, hãy cân nhắc truy vấn về các công ty viễn thông ở châu Âu; đưa ra bản thể học đơn giản, nó xác định ngữ nghĩa của các mối quan hệ lồng nhau của lĩnh vực công nghiệp và vị trí, kho ngữ nghĩa có thể trả về kết quả nhà vận hành di động đang hoạt động ở Vương quốc Anh.
Trong thập kỷ vừa qua, Web Ngữ nghĩa (Semantic Web)đã nổi lên như một lĩnh vực nơi mà các kho ngữ nghĩa đã trở nên quan trọng như các máy chủ HTTP. Xu thế này đã dẫn tới mối quan tâm và hoạt động rất cao trong lĩnh vực này và đã tạo ra một số tiêu chuẩn bản thể học và siêu dữ liệu mạnh, được các quy trình cộng đồng do W3C dẫn dắt phân phối, nổi bật nhất trong số chúng là RDF(S) OWL. Các tiêu chuẩn được nêu tên có vai trò tương tự như vai trò mà SQL đã đóng trong sự phát triển và lan truyền DBMS quan hệ. Dù ban đầu được thiết kế để sử dụng trong Web Ngữ nghĩa, thì các tiêu chuẩn đó đã được chấp nhận rộng rãi trong các lĩnh vực như Tích hợp Ứng dụng Doanh nghiệp và các khoa học đời sống.
Sesame là một trong các kho ngữ nghĩa phổ biến nhất hỗ trợ RDF(S) và tất cả các cú pháp chính và các ngôn ngữ truy vấn có liên quan tới nó. GraphDB™ là kho ngữ nghĩa khác, được đóng gói như là kho và lớp suy diễn (SAIL) cho Sesame. GraphDB™ sử dụng động cơ TRREE để kết hợp RDFS, OWL DLP, và OWL Horst hỗ trợ với lý luận hiệu năng cao và chiến lược thường trực đáng tin cậy.
Vì thế cho tới nay chưa có khái niệm được đồng thuận và chưa được xác định tốt cho những gì đã được mô tả ở trên như là “kho ngữ nghĩa”. Danh sách chưa vét cạn các từ đồng nghĩa yếu là như sau: nhà lý luận, máy chủ bản thể học, kho ngữ nghĩa, siêu kho (metastore), cơ sở dữ liệu RDF. Như một quy tắc, cách nói khác nhau là sự phản ánh những khác biệt nằm bên dưới sự triển khai, thực thi, ứng dụng có ý định, … Mô tả được nêu ở trên cố gắng bao phủ chức năng cốt lõi được đa số lớn các công cụ chào được tóm tắt bằng tên “kho ngữ nghĩa”.
Semantic repositories are engines similar to database management systems (DBMS). They allow for storage, querying, and management of structured data. The major differences with the DBMS are can be summarized as follows:
  • They use ontologies as semantic schemata. This allows them to automatically reason about the data
  • They work with flexible and generic physical data models (e.g. graphs). This allows them to easily interpret and adopt “on the fly” new ontologies or metadata schemata
As a result, semantic repositories offer easier integration of diverse data and more analytical power. To illustrate the usefulness of the automated interpretation (or reasoning), consider a query about telecom companies in Europe; given a simple ontology, which defines the semantics of the location and industry sector nesting relationships, a semantic repository can return as a result a mobile operator operating in the UK.
Over the last decade, the Semantic Web emerged as an area where the semantic repositories become as important as the HTTP servers. This tendency led to very high interest and activity in the field and resulted in a number of robust metadata and ontology standards, delivered by the W3C-driven community processes, most notable among which are RDF(S) and OWL. The named standards have a role similar to the role SQL played for the development and for the spread of the relational DBMS. Although primarily designed for use within the Semantic Web, the standards were widely accepted in areas like Enterprise Application Integration and life sciences.
Sesame is one of the most popular semantic repositories that supports RDF(S)and all the major syntaxes and query languages related to it. GraphDB™ is another semantic repository, packaged as a storage and inference layer (SAIL) for Sesame. GraphDB™ uses the TRREE engine to combine RDFS, OWL DLP, and OWL Horst support with high-performance reasoning and reliable persistence strategy.
Thus far there is no agreed upon and well-defined term for what were described above as a “semantic repository”. A non-exhaustive list of weak synonyms is as follows: reasoner, ontology server, semantic store, metastore, RDF database. As a rule, the different wording is a reflection of the differences underlying the implementation, performance, intended application, etc. The description given above tries to cover the core functionality offered by the vast majority of the tools summarized under the name “semantic repository”.
Dịch: Lê Trung Nghĩa


Thứ Năm, 20 tháng 4, 2017

RDF Triplestore là gì?


What is RDF Triplestore?



RDF triplestore là dạng cơ sở dữ liệu đồ thị lưu trữ các sự việc theo ngữ nghĩa. RDF là viết tắt từ tiếng Anh cho Khung Mô tả Tài nguyên (Resource Description Framework), là mô hình để xuất bản và trao đổi dữ liệu trên Web được W3C tiêu chuẩn hóa.
cơ sở dữ liệu đồ thị, triplestore lưu trữ dữ liệu như là mạng các đối tượng với các đường liên kết được cụ thể hóa giữa chúng. Điều này làm cho RDF triplestore trở thành lựa chọn được ưu tiên để quản lý các dữ liệu được kết nối cao độ với nhau. Triplestore là mềm dẻo và ít tốn kém hơn so với cơ sở dữ liệu quan hệ, ví dụ thế.
Cơ sở dữ liệu RDF, thường được gọi là cơ sở dữ liệu đồ thị ngữ nghĩa, cũng có khả năng điều khiển các truy vấn ngữ nghĩa mạnh và sử dụng suy diễn để phát hiện ra thông tin mới vượt ra khỏi các mối quan hệ đang tồn tại.

RDF Triplestore từ bên trong

Đối nghịch lại với các dạng cơ sở dữ liệu đồ thị khác, các động cơ RDF triplestore hỗ trợ các mô hình sơ đồ tùy chọn, được gọi là bản thể học (ontologies). Các bản thể học cho phép mô tả chính thức các dữ liệu.
Chúng chỉ định cả các lớp đối tượng và các thuộc tính quan hệ, và trật tự phân cấp của chúng.
Dữ liệu trong RDF triplestore được lưu trữ trong mối quan hệ được gọi là triple (bộ 3), vì thể có tên là triplestore. Bộ 3 đó cũng được tham chiếu tới như là ‘các câu lệnh’ và ‘các câu lệnh RDF’.
 RDF triple (sjubject -> predicate -> object)
Định dạng chủ ngữ → vị ngữ → bổ ngữ (subject → predicate → object) có khả năng lấy bất kỳ chủ ngữ hoặc khái niệm nào và kết nối nó với bất kỳ bổ ngữ nào khác bằng việc sử dụng vị ngữ (động từ) để chỉ ra dạng của mối quan hệ đang tồn tại giữa chủ ngữbổ ngữ đó.
Ví dụ, ‘Joe bán các cuốn sách’ có thể được lưu trữ như một lệnh RDF trong triplestore và mô tả mối quan hệ giữa chủ ngữ của câu, Joe, và bổ ngữ, các cuốn sách. Vị ngữ “bán” chỉ ra cách mà chủ ngữ và bổ ngữ được kết nối.
Khái niệm cốt lõi của định dạng RDF triplestore cũng như trong các hệ biến hóa Dữ liệu Liên kết là Mã nhận diện Tài nguyên Vạn năng - URI (Universal Resource Identifier). URI là hệ thống nhận diện toàn cầu duy nhất được sử dụng trên Web, dạng mã ID duy nhất.

Trao quyền cho Dữ liệu Liên kết

Các cơ sở dữ liệu RDF triplestore được sử dụng thành công cho việc quản lý các tập hợp dữ liệu của Dữ liệu Mở Liên kết (Linked Open Data), như DBPediaGeoNames, chúng được xuất bản như là các RDF và được kết nối với nhau. Dữ liệu Mở Liên kết cho phép truy vấn và trả lời các truy vấn có tính liên đoàn nhanh hơn nhiều và để giành được các kết quả tìm kiếm thích hợp cao.
Triplestore làm cho những nỗ lực truy vấn dữ liệu đa dạng và đang tiến hóa từ các nguồn khác nhau hiệu quả hơn về chi phí và tốn ít thời gian hơn.
Linked Open Data (LOD) Cloud to be load in RDF triplestore
các tiêu chuẩn vạn năng áp dụng cho RDF triplestore, chúng làm cho việc chuyển dữ liệu khỏi triplestore này tới triplestore khác là dễ dàng.

Các triển khai RDF Triplestore của doanh nghiệp

RDF triplestore điều khiển lượng dữ liệu khổng lồ, chúng cải thiện cho sức mạnh tìm kiếm và phân tích của các tổ chức. Điều quan trọng hơn là các triplestore có khả năng suy diễn ra các sự việc tiềm ẩn vượt ra khỏi các câu lệnh rõ ràng. Việc suy diễn ra các mối quan hệ nằm ngoài dữ liệu ban đầu, với sự trợ giúp của cơ sở dữ liệu đồ thị ngữ nghĩa, biến thông tin thành tri thức. Điều này cho phép các tổ chức phát hiện ra các mối quan hệ ẩn dấu trong khắp các dữ liệu của họ.
Giành được nhiều tri thức hơn các đối thủ cạnh tranh, các doanh nghiệp có thể dễ dàng hơn trong việc mở rộng phạm vi tri thức đó thành các giải pháp thông minh hơn và có được lợi thế lớn hơn trong cạnh tranh. Truyền thông & xuất bản, y tế và khoa học đời sống, nhân văn sốcác lĩnh vực dịch vụ tài chính đang sử dụng rộng rãi rồi RDF triplestore để quản lý các dữ liệu có cấu trúc và phi cấu trúc.

Tham chiếu tới dữ liệu phi cấu trúc

Các triplestore cũng giúp trích xuất thông tin và làm giàu nội dung từ các dữ liệu phi cấu trúc bằng việc khai thác văn bản (text mining). Sau khi văn bản được trích xuất từ bất kỳ dạng dữ liệu phi cấu trúc nào, dù nó là các bài báo hay tài liệu, thì các câu được chia thành các phần bài nói chuyện. Các khái niệm và các thực thể quan trọng, như các danh từ riêng, được nhận diện bằng các danh sách từ trong từ điển.
Công nghệ ngữ nghĩa và các thuật toán máy học phân loại và làm sáng tỏ ngữ nghĩa giữa các thực thể. Bằng ‘việc học’ ngữ cảnh và ý nghĩa của các thực thể, các thuật toán có khả năng làm sáng tỏ ngữ nghĩa ‘Paris’, ví dụ, dù nó được tham chiếu tới Paris, nước Pháp, hay Paris, Texas, hoặc Paris Hilton, hay Paris, Chúa Trời trong thần thoại Hy Lạp.
Ngoài các mối quan hệ đang có, các bộ 3 cũng trình bày các liên kết giữa các cơ sở dữ liệu với các dữ liệu và tài liệu có cấu trúc mà chứa văn bản tuôn chảy tự do, phi cấu trúc. RDF triplestore, thường được tham chiếu tới như là cơ sở dữ liệu đồ thị và graph db, liên kết các thực thể từ đó chúng đã được trích xuất.

Các trường hợp điển hình khác

Các cơ sở dữ liệu đồ thị, và đặc biệt là RDF triplestore, có các ứng dụng thực tế đa dạng đối với các tổ chức có mục đích có ngữ cảnh cũng như nội dung. Một vài ứng dụng đó là tích hợp dữ liệu, tìm kiếm và phát hiện, các sản phẩm thông tin năng động, nội dung và các khuyến cáo được cá nhân hóa, và trực quan hóa dữ liệu. Các giải pháp đó, được kết hợp với phát hiện tri thức vượt ra ngoài thông tin từ các nguồn rời rạc phân tán, giúp cho các tổ chức giành được ưu thế cạnh tranh, tạo ra nhiều giá trị hơn, và tiếp cận được các nguồn doanh thu mới.
RDF triplestore is a type of graph database that stores semantic facts. RDF, which stands for Resource Description Framework, is a model for data publishing and interchange on the Web standartized by W3C.
Being a graph database, triplestore stores data as a network of objects with materialised links between them. This makes RDF triplestore a preferred choice for managing highly interconnected data. Triplestores are more flexible and less costly than a relational database, for example.
The RDF database, often called a semantic graph database, is also capable of handling powerful semantic queries and of using inference for uncovering new information out of the existing relations.

RDF Triplestore from within

In contrast to other types of graph databases, RDF triplestore engines support optional schema models, called ontologies. Ontologies allow for formal description of the data. They specify both object classes and relationship properties, and their hierarchical order.
The data in RDF triplestore is stored in the relationship which is called a triple, hence the name triplestores. The triples are also referred to as ‘statements’ and ‘RDF statements’.
The subject->predicate->object format is able to take any subject or concept and connect it to any other object by using the predicate (verb) to show the type of relationship existing between the subject and the object.
For example, ‘Joe sells books’ can be stored as an RDF statement in a triplestore and describes the relationship between the subject of the sentence, Joe, and the object, books. The predicate “sells” shows how the subject and the object are connected.
The core concept of the RDF triplestore format as well as in the Linked Data paradigm is the Universal Resources Identifier (URI). URI  is a single global identification system used in the Web, a kind of unique ID.

Empowering Linked Data

RDF triplestore databases are successfully used for managing Linked Open Data datasets, such as DBPedia and GeoNames, which are published as RDFs and are interconnected with one another. Linked Open Data allows for querying and answering federated queries much faster and for obtaining highly relevant search results.
The triplestore makes the efforts to query diverse and evolving data from different sources more cost-efficient and less time-consuming.
Since universal standards apply to RDF triplestore, they make moving data from one triplestore to another trivial.

Enterprise Deployments of RDF Triplestore

RDF triplestore handle huge amounts of data, which improves the search and analytics powers of organizations. What’s more important is that triplestores are able to infer implicit facts out of the explicit statements. Inferencing relationships out of the original data, with the help of a semantic graph database, turns information into knowledge. This allows organizations to uncover hidden relationships across all their data.
Having gained more knowledge than competitors, enterprises can more easily scale up that knowledge into smarter solutions and have the upper hand in competition. The media & publishing, healthcare and life sciences, digital humanities and financial services sectors are already widely using RDF triplestore to manage unstructured and structured data.

Referencing Unstructured Data

Triplestores also help extract information and enrich content from unstructured data by text mining. After a text is extracted from any form of unstructured data, be it articles or documents, sentences are broken down into parts of speech. The important concepts and entities, such as proper nouns, are identified with dictionary word lists.
Semantic technology and machine learning algorithms classify and disambiguate between entities. By ‘learning’ the context and meaning of entities, the algorithms are able to disambiguate ‘Paris’, for example, whether it is referred to Paris, France, or Paris, Texas, or Paris Hilton, or Paris, the God in Greek mythology.
Apart from containing relationships, triples also demonstrate links between databases with structured data and documents that contain unstructured, free-flowing text. RDF triplestore, often referred to as graph database and graph db, links entities from databases to documents which mention those entities by denoting relationships from which they were extracted.

Other Use Cases

Graph databases, and RDF triplestore in particular, have various practical usages for organizations that aim to have context as well as content. Some of the uses are data integration, search and discovery, dynamic information products, personalized content and recommendations, and data visualization. These solutions, combined with knowledge discovery out of information from disparate sources, help organizations gain a competitive edge, create more value, and tap into new sources of revenues.

If you knew how much faster are triplestores than relational databases you would use only no-SQL databases. Try GraphDB Free and see for yourself.



Dịch: Lê Trung Nghĩa