What is Semantic Annotation?
Xem
thêm: Dữ
liệu Mở liên kết - Linked Open Data.
Chú
giải ngữ nghĩa là quy trình gắn thông tin bổ sung vào
các khái niệm khác nhau (như con người, đồ vật, địa
điểm, tổ chức…) trong văn bản hoặc bất kỳ nội
dung nào khác được đưa ra. Không giống như các chú giải
văn bản để tham chiếu của các độc giả, các chú giải
ngữ nghĩa được các máy tính sử dụng
để tham chiếu.
Khi
tài liệu (hoặc mẩu nội dung khác, như video chẳng hạn)
được chú giải ngữ
nghĩa thì nó trở thành nguồn thông tin dễ
dàng để các máy tính giải thích, kết
hợp và sử dụng lại.
Tạo nội dung thông minh với chú giải bên lề mà máy có khả năng xử lý được
Hãy
nghĩ về các chú giải ngữ
nghĩa như là dạng chú giải số bên lề có
cấu trúc cao (highly structured digital marginalia), thường
không nhìn thấy ở phần nội dung mà con người đọc
được. Được viết trong ngôn ngữ dữ liệu chính
thống tương hợp với máy tính, các chú giải đó giúp
các máy tính thực hiện các hoạt động
như phân loại, liên kết, suy diễn, tìm kiếm, lọc.
Ví dụ, để
chú giải về ngữ
nghĩa các khái niệm được chọn trong
câu “Aristotle, tác giả của cuốn Politics, đã thành
lập Lyceum” (Aristotle, the author of Politics,
established the Lyceum) ngụ ý nhận diện Aristotle
như là người và Politics như là tác phẩm được
viết về triết học chính trị và để sau đó đánh chỉ
số, phân loại và liên kết với các khái niệm được
nhận diện trong cơ
sở dữ liệu đồ họa
ngữ nghĩa. Trong trường hợp này Aristotle
có thể được liên kết với ngày sinh của ông, các giáo
viên của ông, các tác phẩm của ông và Politics có
thể được liên kết với chủ ngữ, tới ngày tạo ra
nó… Đưa ra siêu dữ liệu ngữ
nghĩa của
câu ở trên và các liên kết của nó tới tri thức chính
thống khác (bên trong hoặc bên ngoài), thì
các
thuật toán sẽ có khả năng tự động:
-
Tìm ra ai đã dạy kèm Alexander Đại đế.
-
Trả lời ai trong số các học trò của Plato đã thành lập Lyceum.
-
Trích xuất danh sách các nhà tư tưởng chính trị từng sống trong khoảng các năm 380 và 310 trước công nguyên.
-
Trả về trang các nhà triết học Hy Lạp và bao gồm cả Aristotle.
Chú giải ngữ nghĩa làm việc như thế nào?
Chú giải ngữ
nghĩa làm giàu cho nội dung bằng thông tin máy
xử lý được bằng cách liên kết thông tin nền
tảng với các khái niệm được trích xuất. Các khái
niệm đó, được thấy trong tài liệu hoặc mẩu nội
dung khác, được xác định rõ ràng không mơ hồ và được
liên kết với nhau bên trong và bên ngoài nội dung đó. Nó
biến nội dung đó thành nguồn dữ liệu có khả năng
quản lý được tốt hơn.
Quy trình điển hình làm giàu ngữ
nghĩa (1 khái niệm khác cho chú giải ngữ
nghĩa) gồm:
Nhận diện văn bản
Văn bản được trích xuất từ các nguồn
không phải văn bản như các tệp PDF, các video,
các tài
liệu, các bản ghi âm…
Phân tích văn bản
Các thuật toán chia các câu và nhận diện
các khái niệm, như con người, các đồ vật, các địa
điểm, các sự kiện, các con số.
Trích xuất khái niệm
Tất cả các khái niệm được thừa nhận
sẽ được phân loại, đó là chúng được xác định như
là con người, các tổ chức, các con số… Tiếp theo,
chúng được làm sáng tỏ, đó là chúng được xác định
một cách rõ ràng không mù mờ theo cơ sở tri thức đặc
thù lĩnh vực. Ví dụ, Rome được phân loại như là thành
phố và được làm sáng tỏ tiếp như là Rome, nước Ý
chứ không phải Rome, Iowa.
Đây là giai đoạn quan trọng nhất của
chú giải ngữ
nghĩa. Nó rất giống với Nhận dạng Thực
thể Được đặt tên - NER (Named Entity Recognition) nhưng là
khác vì nó không chỉ thừa nhận các đoạn văn bản mà
còn làm cho chúng trở thành các mẩu dữ liệu có thể
hiểu được và máy tính có thể xử lý được bằng
cách liên kết chúng với các tập hợp rộng lớn hơn các
dữ liệu đang tồn tại rồi.
Trích xuất quan hệ
Các mối quan hệ giữa các khái niệm được
trích xuất sẽ được nhận diện và được liên kết
với tri thức theo lĩnh vực có liên quan cả bên trong và
bên ngoài.
Đánh chỉ số và lưu trữ trong cơ sở dữ liệu đồ họa ngữ nghĩa
Tất cả các dữ liệu được thừa nhận
và được làm giàu cùng với các dữ liệu máy tính đọc
được đề cập tới con người, các đồ vật, các con
số … và các mối quan hệ giữa chúng sẽ được đánh
chỉ số và được lưu trữ trong cơ
sở dữ liệu đồ họa
ngữ nghĩa để tham
chiếu và sử dụng sau đó.
Đâu là nơi chú giải ngữ nghĩa được sử dụng?
Những
gì chú giải ngữ
nghĩa mang tới là các mẩu dữ liệu thông
minh chứa các chú giải có cấu trúc cao và có đầy đủ
thông tin cho các máy tính để tham chiếu
tới. Các giải pháp bao gồm chú
giải ngữ
nghĩa được sử
dụng rộng rãi để phân tích rủi ro, khuyến cáo nội
dung, phát hiện nội dung, dò tìm sự tuân thủ điều
chỉnh pháp lý và hơn thế nữa.
Nội dung được chú giải có hệ thống mở ra các cơ hội có hiệu quả về chi phí:
Chú giải ngữ nghĩa làm cho dễ dàng để:
-
Tìm ra thông tin thích hợp giữa hàng núi các tài liệu với sự trợ giúp của máy tính để làm hộ các công việc phải đi đây đi đó
-
Trích xuất tri thức từ các nguồn rời rạc phân tán
-
Cung cấp nội dung được cá nhân hóa, dựa vào ngữ cảnh máy tính hiểu được
-
Tự động kết nối lẫn nhau các nội dung
Nếu bạn đang tìm cách cung cấp nội dung chất lượng cao với chi phí thấp thì bạn nên đọc sách trắng của chúng tôi về Xuất bản Ngữ ngữ Động (Dynamic Semantic Publishing).
Semantic
annotation is the process of attaching additional information to
various concepts (e.g. people, things, places, organizations etc) in
a given text or any other content. Unlike classic text annotations
for reader’s reference, semantic annotations are used by machines
to refer to.
When a document
(or another piece of content, e.g. video) is semantically annotated
it becomes a source of information that is easy to interpret, combine
and reuse by our computers.
Create Smart Content with Machine-Processable Marginalia
Think of
semantic annotations as a sort of highly structured digital
marginalia, usually invisible in the human-readable part of the
content. Written in the machine-interpretable formal language of
data, these notes serve computers to perform operations like
classifying, linking, inferencing, searching, filtering.
For instance, to
semantically annotate chosen concepts in the sentence “Aristotle,
the author of Politics, established the Lyceum”
means to identify Aristotle
as person and Politics
as a written work of political philosophy and to further index,
classify and interlink the identified concepts in a semantic graph
database. In this case Aristotle can be linked to his date of birth,
his teachers, his works and Politics can be linked to its subject, to
its date of creation etc. Given
the semantic metadata about the above sentence and its links to other
(external or internal) formal knowledge, algorithms will be able to
automatically:
-
Find out who tutored Alexander the Great.
-
Answer which of Plato’s pupils established the Lyceum.
-
Retrieve a list of political thinkers who lived between 380 and 310 BC.
-
Render a page about Greek philosophers and include Aristotle.
How Does Semantic Annotation Work?
Semantic
annotation enriches content with machine-processable information by
linking background information to extracted concepts. These concepts,
found in a document or another piece of content, are unambiguously
defined and related to each other within and outside the
content. It turns
the content into better manageable data source.
A typical
process of semantic enrichment (yet another term for semantic
annotation) includes:
Text Identification
Text is
extracted from non-textual sources such as PDF files,
videos,documents, voice recordings etc.
Text Analysis
Algorithms split
sentences and identify concepts, such as people, things, places,
events, numbers.
Concept Extraction
All recognized
concepts are classified, that is they are defined as people,
organizations, numbers etc. Next, they are disambiguated, that is
they are unambiguously defined according to a domain-specific
knowledge base. For example, Rome is classified as a city and further
disambiguated as Rome, Italy not Rome, Iowa.
This is the most
important stage of semantic annotation. It very much resembles Named
Entity Recognition but is different for it not only recognizes text
chunks but also makes them machine-processable and understandable
data pieces by linking them to a broader sets of already existing
data.
Relationship Extraction
The
relationships between the extracted concepts are identified and
interlinked with related external or internal domain knowledge.
Indexing and storing in a semantic graph database
All the
recognized and enriched with machine-readable data mentions of
people, things, numbers etc and the relationships between them are
indexed and stored in a semantic graph database for further reference
and use.
Where is Semantic Annotation Used?
What semantic
annotation brings to the table are smart data pieces containing
highly-structured and informative notes for machines to refer
to. Solutions that include semantic annotation are widely used
for risk analysis, content recommendation, content discovery,
detecting regulatory compliance and more.
Semantically Annotated Content Opens Up Cost-Effective Opportunities:
Semantic Annotation Makes it Easy to:
-
Find relevant information among heaps of documents with the help of machines doing the legwork
-
Extract knowledge from disparate sources
-
Provide personalized content, based on machine-understandable context
-
Automatically interconnect content
If you are looking to provide high-quality content at low costs you should read our white paper on Dynamic Semantic Publishing.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.