Liên kết lên web dữ liệu
Web hiện hành được thiết lập cấu hình như là loạt
các trang hoặc ‘các tài liệu’. Trong khi các tài liệu
đó được thiết kế trên các nguồn dữ liệu giàu có,
họ ngụy trang nó bên dưới các trang được thiết kế
để con người xem được. Trong bài này, chúng ta khai thác
những gì có thể xảy ra nếu tất cả các trang hoặc các
tài liệu đã được/bị loại bỏ khỏi Web.
Hãy tưởng tượng bạn chỉ có dữ liệu thô, tất cả
là mở, tất cả sử dụng được và tất cả được
liên kết với nhau trong mạng hoặc ‘web’ của dữ liệu.
Bài này cũng giới thiệu web của dữ liệu liên kết mở
và xem xét 5 Sao của dữ liệu mở liên kết cung cấp lộ
trình để đạt được tầm nhìn này như thế nào.
Trong bài này chúng ta sẽ khai thác những điều sau đây:
-
Web của dữ liệu là gì?
-
Các mã nhận diện web được sử dụng như thế nào
-
Web của các dữ liệu liên kết mở trông giống cái gì
Lướt web của dữ liệu - trong 2 phút
Giảng viên David Tarrant của ODI giới thiệu web của dữ
liệu mở liên kết và xem xét 5 Sao của dữ liệu mở
liên kết có thể giúp bạn bắt đầu duyệt web dữ liệu
như thế nào.
Hiểu web dữ liệu
Web của dữ liệu mở liên kết đang thay đổi cách thức
chúng ta truy cập và duyệt dữ liệu mở.
Web dữ liệu là gì?
Web hiện hành được thiết lập cấu hình như là loạt
các trang hoặc ‘các tài liệu’. Các tài liệu đó được
con người thiết kế để hấp dẫn một cách trực quan
cho những người khác để đọc và cung cấp cho họ thông
tin.
Có sự khác biệt giữa dữ liệu là ‘trên web đó’ và
‘web dữ liệu’.
Dữ liệu ‘trên web đó’ là tệp có thể tải về được
từ một trang web. Web dữ liệu là tập hợp các tài
nguyên dữ liệu kết nối sâu có thể được cả con
người và máy đọc và hiểu tức thì.
Liên kết lên web dữ liệu
Hãy tưởng tượng tất cả các tài liệu hấp dẫn một
cách trực quan đã bị loại bỏ khỏi Web. Bạn có thể
tìm đường của bạn ra sao?
Để điều hướng, bạn có thể cần các biển chỉ dẫn
để nói cho bạn vị trí hiện hành của bạn có liên
quan như thế nào với các vị trí khác xung quanh nó.
‘Web dữ liệu’ cung cấp các biển chỉ dẫn đó bằng
việc yêu cầu tất cả các dữ liệu phải được kết
nối, thông qua các đường liên kết, với các dữ liệu
khác.
Các đường liên kết đó cho phép bạn điều hướng giữa
các điểm dữ liệu và cũng cho phép các máy làm như vậy.
Web của dữ liệu mở
liên kết có thể làm gì?
Web dữ liệu tồn tại rồi trong các phần nhất định
của Web.
Các tập đoàn lớn như Microsoft thậm chí đã nghiên cứu
các công cụ có thể cho phép chúng ta điều hướng Web
theo một cách thức hoàn toàn mới bằng việc sử dụng
dữ liệu, thay vì các trang web, để dịch chuyển quanh.
Xây dựng web dữ liệu
Để xây dựng web của dữ liệu liên kết mở, 2 điều
được yêu cầu:
-
Dữ liệu có thể được tham chiếu trên Web
-
Mọi người sẽ cung cấp các đường liên kết Web tới dữ liệu này từ bên trong dữ liệu của riêng họ
Đó là 2 điều kiện đáp ứng các yêu cầu của các ngôi
sao thứ 4 và 5 của dữ liệu mở liên kết.
Sao thứ 4: các mã nhận diện mở
Ngôi sao thứ 4 tất cả là về có khả năng để tham
chiếu mọi điều trên Web.
Mã nhận diện mở
Mã nhận diện là cách tham chiếu dạng ngắn gọn cho một
điều phức tạp hơn.
Các số công ty cho các doanh nghiệp và các ãm Zip/Bưu điện
cho các địa điểm là các ví dụ phổ biến.
Tuy nhiên, có nhiều mã nhận diện khác được cả các
khu vực nhà nước và tư nhân sử dụng.
Thách thức của nhiều mã nhận diện là không rõ ràng từ
bản thân con số đó những gì nó tham chiếu tới. Hầu
hết mọi người vì thế dựa vào các máy tìm kiếm để
nói cho chúng ta nhiều hơn về các mã nhận diện đó để
làm gì. Các mã nhận diện dựa vào Web không có vấn đề
này vì bạn có thể đơn giản nhấn vào mã nhận diện
đó để tìm ra nhiều hơn.
Ví dụ, số công ty cho một doanh nghiệp là 08030289. Để
tìm kiếm công ty đó từ con số này, bạn có thể phải
gõ nó vào máy tìm kiếm để tìm ra mã nhận diện đó là
gì trước khi liên kết qua tài nguyên đó. Ngược lại,
bạn có thể đi theo mã nhận diện dựa vào web đối với
cuốn sách y hệt một cách trực tiếp từ bất kỳ trình
duyệt web nào, ví dụ:
https://beta.companieshouse.gov.uk/company/08030289
Sử dụng sao thứ 4
Sao thứ 4 yêu cầu sự tạo lập và sử dụng các mã nhận
diện dựa vào web (http://) cho mọi điều, cả các dạng
vật lý và số.
Các mã nhận diện thường là các tập hợp của các ký
tự, như các mã bưu điện/zip (như EC2A4JE) hoặc đơn giản
là các con số (08030289).
Làm cho các mã nhận diện dựa vào web đó xúc tác cho sử
dụng dịch vụ phân giải tên HTTP để tra cứu những
điều đó, và thậm chí truy xuất một bản sao thực sự,
ví dụ như http://id.southampton.ac.uk/building/59
Dữ liệu mở 4 sao
Sao thứ 4 cũng yêu cầu rằng khi người sử dụng nhấn
vào đường liên kết và không thể được cung cấp một
hạng mục chính xác (ví dụ một cuốn sách, đối tượng,
con người, hoặc tòa nhà) thì họ nên thay vào đó được
cung cấp thông tin ngữ cảnh về hạng mục đó.
Điều này thường được thực hiện bằng việc tái định
tuyến khách hàng (người hoặc máy) tới thông tin đó.
Thông tin đó có thể ở dạng trang web, hoặc dữ liệu
thô.
Hãy thử nó...
Vài mã nhận diện dựa vào web nói cho độc giả mã nhận
diện đó là gì ngay từ văn bản trong URL đó. Trước khi
bạn nhấn vào URL đó, vì sao không thử điều này cho bản
thân bạn nhỉ? Bên dưới, hãy thử đoán mã nhận diện
nào nó liên kết tới:
http://data.ordnancesurvey.co.uk/id/postcodeunit/EC2A4JE
Đường liên kết đó gửi yêu cầu tới máy chủ hỏi mã
bưu điện. Để đáp ứng yêu cầu đó, máy chủ đã trả
về trang web về mã bưu điện vì nó không thể gửi cho
bạn bản thân mã bưu điện đó. Trình duyệt của bạn
đã trải qua một quy trình được biết tới như là
thương thảo nội dung với máy chủ đó, nơi bạn có được
trang web vì bạn đang xem qua trình duyệt. Nếu bạn đã
truy cập điều này với một máy bạn có thể có nó ở
định dạng khác, phụ thuộc vào bạn đã nói bạn thích
điều gì hơn.
Vì sao không xem máy có thể thấy gì với thương thảo
nội dung trên đường liên kết khảo sát Ordnance ở trên
bằng việc bổ sung thêm các phần mở rộng như “.json”
và “.xml” vào cuối của URL đó nhỉ?
Sao thứ 5: dữ liệu liên kết
Sao thứ 5 là về việc liên kết các điểm dữ liệu
riêng rẽ với nhau.
Liên kết
Sao thứ 5 giới thiệu khái niệm của việc liên kết các
điểm dữ liệu với nhau.
Các đường liên kết đó xúc tác cho người và máy để
điều hướng giữa các nguồn dữ liệu trên Web.
Việc liên kết các điểm dữ liệu trực tiếp với nhau
cho phép bạn chỉ đường cho người hoặc máy tới bản
ghi dứt khoát về đối tượng đó, thay vì từng người
duy trì bản ghi của dữ liệu đó của riêng họ. Dữ
liệu liên kết hoạt động giống như một website chính
thức bằng việc cung cấp cho mọi người tài nguyên có
thẩm quyền về chủ đề đó. Dữ liệu liên kết cũng
cứu mọi người khỏi việc đúp bản dữ liệu bằng
việc chia sẻ tài nguyên duy nhất trong vô số bất định
các tập hợp dữ liệu, bằng việc sử dụng các URI.
Sử dụng sao thứ 5
Ví dụ - cơ sở dữ liệu các tòa nhà do công ty sở hữu
thường sẽ có các mã bưu điện/Zip đối với từng tòa
nhà trong các bản ghi dữ liệu:
Số Tòa nhà: 32
Mã bưu điện: SO17 1BJ
Phường: Postwood
Quận: City of Southampton
Với dữ liệu liên kết chúng ta không có nhu cầu nhân
bản dữ liệu - như phường (ward) và quận
(district) – chúng được các nhà chức trách khác quản
lý. Vì thế, bản ghi trở thành:
Số Tòa nhà: 32
Thử sử dụng sao thứ 5
Bạn có thể đã lưu ý thấy vài đường liên kết trong
dữ liệu chúng tôi đã khai thác trước đó trong bài này.
Hãy thử tải đường liên kết đó từ trước trong bài
này:
http://data.ordnancesurvey.co.uk/id/postcodeunit/SO171BJ
Bây giờ hãy thử tải đường liên kết y hệt vào trình
duyệt dữ liệu:
Trình duyệt dữ liệu đó sử dụng thương thảo nội
dung tự động cho dữ liệu, không phải nội dung trang
web, và hiển thị dữ liệu thô ở dạng người đọc
được.
Bất kỳ văn bản màu đỏ nào trong trình duyệt đó là
đường liên kết trong dữ liệu đó, nó sẽ đi tới
nhiều dữ liệu hơn.
Hãy sử dụng URL sau đây để thấy bạn có thể khám phá
được gì bên trong web của dữ liệu mở liên kết.
http://www.bbc.co.uk/programmes/b006q2x0
Bạn sẵn sàng lướt
web dữ liệu?
Có 4 điều hữu ích để nhớ khi cân nhắc lướt web của
dữ liệu mở liên kết, bạn có thể nhắc lại chúng?
Web dữ liệu là gì?
Web dữ liệu là...
-
web của các cổng dữ liệu nơi bạn có thể tải về dữ liệu
-
tập hợp các tài nguyên dữ liệu được kết nối với nhau trên Web
-
mạng xã hội mới
Đáp án đúng!
Web dữ liệu là tập hợp các tài nguyên dữ liệu được
liên kết với nhau mà có thể được cả người và máy
đọc và hiểu được tức thì.
Bạn chắc chắn chứ?
Web dữ liệu là tập hợp các tài nguyên dữ liệu được
liên kết với nhau mà có thể được cả người và máy
đọc và hiểu được tức thì.
Điều sau đây nhận
diện cái gì?
-
trang web
-
tòa nhà
-
căn phòng
Đáp án đúng!
Hãy nhớ là mã nhận diện dựa vào web trỏ tới bản
thân điều đó và không trỏ tới trang web ở đó nó nằm.
Bạn chắc chắn chứ?
Hãy nhớ là mã nhận diện dựa vào web trỏ tới bản
thân điều đó và không trỏ tới trang web ở đó nó nằm.
Đâu là các mã nhận
diện cho nghệ sỹ Taylor Swift?
Đáp án đúng!
Tất cả chúng đều đúng! Hai đường liên kết đầu sử
dụng mã nhận diện con y hệt nhưng với các nhà chức
trách khác nhau. Đường liên kết thứ 3 là mã nhận diện
của Wikipedia (dbpedia) cho nghệ sỹ đó. Tất cả chúng đều
liên kết tới nhau và chia sẻ dữ liệu của nhau, bạn có
thể thấy các đường liên kết chứ?
Bạn chắc chắn chứ?
Tất cả chúng đều đúng! Hai đường liên kết đầu sử
dụng mã nhận diện con y hệt nhưng với các nhà chức
trách khác nhau. Đường liên kết thứ 3 là mã nhận diện
của Wikipedia (dbpedia) cho nghệ sỹ đó. Tất cả chúng đều
liên kết tới nhau và chia sẻ dữ liệu của nhau, bạn có
thể thấy các đường liên kết chứ?
Lướt web của dữ liệu mở liên kết
Web dữ liệu là tập hợp các tài nguyên dữ liệu được
liên kết sâu, có thể cả người và máy đều đọc và
hiểu được tức thì.
Vào năm 1989, Ngài Tim Berners-Lee đã phát minh ra web của
các tư liệu và nó lấy đi của chúng ta hơn 20 năm để
hiểu cách sử dụng nó. Bây giờ nó là phần cơ bản của
xã hội chúng ta.
Vào năm 2001, Tim đã hình dung ra web của dữ liệu mở
liên kết và chúng ta đang nhận ra rằng điều này sẽ
thay đổi triệt để tất cả web như thế nào một lần
nữa.
Về bài trước ………. Tới bài sau
Dịch: Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.