Chủ Nhật, 22 tháng 3, 2020

Bài 13 - Liên kết lên web dữ liệu


Liên kết lên web dữ liệu

Web hiện hành được thiết lập cấu hình như là loạt các trang hoặc ‘các tài liệu’. Trong khi các tài liệu đó được thiết kế trên các nguồn dữ liệu giàu có, họ ngụy trang nó bên dưới các trang được thiết kế để con người xem được. Trong bài này, chúng ta khai thác những gì có thể xảy ra nếu tất cả các trang hoặc các tài liệu đã được/bị loại bỏ khỏi Web.
Hãy tưởng tượng bạn chỉ có dữ liệu thô, tất cả là mở, tất cả sử dụng được và tất cả được liên kết với nhau trong mạng hoặc ‘web’ của dữ liệu.
Bài này cũng giới thiệu web của dữ liệu liên kết mở và xem xét 5 Sao của dữ liệu mở liên kết cung cấp lộ trình để đạt được tầm nhìn này như thế nào.
Trong bài này chúng ta sẽ khai thác những điều sau đây:
  • Web của dữ liệu là gì?
  • Các mã nhận diện web được sử dụng như thế nào
  • Web của các dữ liệu liên kết mở trông giống cái gì

Lướt web của dữ liệu - trong 2 phút

Giảng viên David Tarrant của ODI giới thiệu web của dữ liệu mở liên kết và xem xét 5 Sao của dữ liệu mở liên kết có thể giúp bạn bắt đầu duyệt web dữ liệu như thế nào.

Hiểu web dữ liệu

Web của dữ liệu mở liên kết đang thay đổi cách thức chúng ta truy cập và duyệt dữ liệu mở.
Web dữ liệu là gì?
Web hiện hành được thiết lập cấu hình như là loạt các trang hoặc ‘các tài liệu’. Các tài liệu đó được con người thiết kế để hấp dẫn một cách trực quan cho những người khác để đọc và cung cấp cho họ thông tin.
Có sự khác biệt giữa dữ liệu là ‘trên web đó’ và ‘web dữ liệu’.
Dữ liệu ‘trên web đó’ là tệp có thể tải về được từ một trang web. Web dữ liệu là tập hợp các tài nguyên dữ liệu kết nối sâu có thể được cả con người và máy đọc và hiểu tức thì.

Liên kết lên web dữ liệu


Hãy tưởng tượng tất cả các tài liệu hấp dẫn một cách trực quan đã bị loại bỏ khỏi Web. Bạn có thể tìm đường của bạn ra sao?
Để điều hướng, bạn có thể cần các biển chỉ dẫn để nói cho bạn vị trí hiện hành của bạn có liên quan như thế nào với các vị trí khác xung quanh nó.
‘Web dữ liệu’ cung cấp các biển chỉ dẫn đó bằng việc yêu cầu tất cả các dữ liệu phải được kết nối, thông qua các đường liên kết, với các dữ liệu khác.

Các đường liên kết đó cho phép bạn điều hướng giữa các điểm dữ liệu và cũng cho phép các máy làm như vậy.
Web của dữ liệu mở liên kết có thể làm gì?

Web dữ liệu tồn tại rồi trong các phần nhất định của Web.
Các tập đoàn lớn như Microsoft thậm chí đã nghiên cứu các công cụ có thể cho phép chúng ta điều hướng Web theo một cách thức hoàn toàn mới bằng việc sử dụng dữ liệu, thay vì các trang web, để dịch chuyển quanh.



Xây dựng web dữ liệu

Để xây dựng web của dữ liệu liên kết mở, 2 điều được yêu cầu:
  • Dữ liệu có thể được tham chiếu trên Web
  • Mọi người sẽ cung cấp các đường liên kết Web tới dữ liệu này từ bên trong dữ liệu của riêng họ
Đó là 2 điều kiện đáp ứng các yêu cầu của các ngôi sao thứ 4 và 5 của dữ liệu mở liên kết.

Sao thứ 4: các mã nhận diện mở


Ngôi sao thứ 4 tất cả là về có khả năng để tham chiếu mọi điều trên Web.

Mã nhận diện mở

Mã nhận diện là cách tham chiếu dạng ngắn gọn cho một điều phức tạp hơn.
Các số công ty cho các doanh nghiệp và các ãm Zip/Bưu điện cho các địa điểm là các ví dụ phổ biến.
Tuy nhiên, có nhiều mã nhận diện khác được cả các khu vực nhà nước và tư nhân sử dụng.
Thách thức của nhiều mã nhận diện là không rõ ràng từ bản thân con số đó những gì nó tham chiếu tới. Hầu hết mọi người vì thế dựa vào các máy tìm kiếm để nói cho chúng ta nhiều hơn về các mã nhận diện đó để làm gì. Các mã nhận diện dựa vào Web không có vấn đề này vì bạn có thể đơn giản nhấn vào mã nhận diện đó để tìm ra nhiều hơn.
Ví dụ, số công ty cho một doanh nghiệp là 08030289. Để tìm kiếm công ty đó từ con số này, bạn có thể phải gõ nó vào máy tìm kiếm để tìm ra mã nhận diện đó là gì trước khi liên kết qua tài nguyên đó. Ngược lại, bạn có thể đi theo mã nhận diện dựa vào web đối với cuốn sách y hệt một cách trực tiếp từ bất kỳ trình duyệt web nào, ví dụ: https://beta.companieshouse.gov.uk/company/08030289

Sử dụng sao thứ 4

Sao thứ 4 yêu cầu sự tạo lập và sử dụng các mã nhận diện dựa vào web (http://) cho mọi điều, cả các dạng vật lý và số.
Các mã nhận diện thường là các tập hợp của các ký tự, như các mã bưu điện/zip (như EC2A4JE) hoặc đơn giản là các con số (08030289).
Làm cho các mã nhận diện dựa vào web đó xúc tác cho sử dụng dịch vụ phân giải tên HTTP để tra cứu những điều đó, và thậm chí truy xuất một bản sao thực sự, ví dụ như http://id.southampton.ac.uk/building/59

Dữ liệu mở 4 sao

Sao thứ 4 cũng yêu cầu rằng khi người sử dụng nhấn vào đường liên kết và không thể được cung cấp một hạng mục chính xác (ví dụ một cuốn sách, đối tượng, con người, hoặc tòa nhà) thì họ nên thay vào đó được cung cấp thông tin ngữ cảnh về hạng mục đó.
Điều này thường được thực hiện bằng việc tái định tuyến khách hàng (người hoặc máy) tới thông tin đó. Thông tin đó có thể ở dạng trang web, hoặc dữ liệu thô.


Hãy thử nó...
Vài mã nhận diện dựa vào web nói cho độc giả mã nhận diện đó là gì ngay từ văn bản trong URL đó. Trước khi bạn nhấn vào URL đó, vì sao không thử điều này cho bản thân bạn nhỉ? Bên dưới, hãy thử đoán mã nhận diện nào nó liên kết tới: http://data.ordnancesurvey.co.uk/id/postcodeunit/EC2A4JE
Đường liên kết đó gửi yêu cầu tới máy chủ hỏi mã bưu điện. Để đáp ứng yêu cầu đó, máy chủ đã trả về trang web về mã bưu điện vì nó không thể gửi cho bạn bản thân mã bưu điện đó. Trình duyệt của bạn đã trải qua một quy trình được biết tới như là thương thảo nội dung với máy chủ đó, nơi bạn có được trang web vì bạn đang xem qua trình duyệt. Nếu bạn đã truy cập điều này với một máy bạn có thể có nó ở định dạng khác, phụ thuộc vào bạn đã nói bạn thích điều gì hơn.
Vì sao không xem máy có thể thấy gì với thương thảo nội dung trên đường liên kết khảo sát Ordnance ở trên bằng việc bổ sung thêm các phần mở rộng như “.json” và “.xml” vào cuối của URL đó nhỉ?

Sao thứ 5: dữ liệu liên kết


Sao thứ 5 là về việc liên kết các điểm dữ liệu riêng rẽ với nhau.

Liên kết

Sao thứ 5 giới thiệu khái niệm của việc liên kết các điểm dữ liệu với nhau.
Các đường liên kết đó xúc tác cho người và máy để điều hướng giữa các nguồn dữ liệu trên Web.
Việc liên kết các điểm dữ liệu trực tiếp với nhau cho phép bạn chỉ đường cho người hoặc máy tới bản ghi dứt khoát về đối tượng đó, thay vì từng người duy trì bản ghi của dữ liệu đó của riêng họ. Dữ liệu liên kết hoạt động giống như một website chính thức bằng việc cung cấp cho mọi người tài nguyên có thẩm quyền về chủ đề đó. Dữ liệu liên kết cũng cứu mọi người khỏi việc đúp bản dữ liệu bằng việc chia sẻ tài nguyên duy nhất trong vô số bất định các tập hợp dữ liệu, bằng việc sử dụng các URI.

Sử dụng sao thứ 5

Ví dụ - cơ sở dữ liệu các tòa nhà do công ty sở hữu thường sẽ có các mã bưu điện/Zip đối với từng tòa nhà trong các bản ghi dữ liệu:
Số Tòa nhà: 32
Mã bưu điện: SO17 1BJ
Phường: Postwood
Quận: City of Southampton
Với dữ liệu liên kết chúng ta không có nhu cầu nhân bản dữ liệu - như phường (ward)quận (district) – chúng được các nhà chức trách khác quản lý. Vì thế, bản ghi trở thành:
Số Tòa nhà: 32

Thử sử dụng sao thứ 5

Bạn có thể đã lưu ý thấy vài đường liên kết trong dữ liệu chúng tôi đã khai thác trước đó trong bài này.
Hãy thử tải đường liên kết đó từ trước trong bài này:
http://data.ordnancesurvey.co.uk/id/postcodeunit/SO171BJ Bây giờ hãy thử tải đường liên kết y hệt vào trình duyệt dữ liệu:
Trình duyệt dữ liệu đó sử dụng thương thảo nội dung tự động cho dữ liệu, không phải nội dung trang web, và hiển thị dữ liệu thô ở dạng người đọc được.
Bất kỳ văn bản màu đỏ nào trong trình duyệt đó là đường liên kết trong dữ liệu đó, nó sẽ đi tới nhiều dữ liệu hơn.
Hãy sử dụng URL sau đây để thấy bạn có thể khám phá được gì bên trong web của dữ liệu mở liên kết. http://www.bbc.co.uk/programmes/b006q2x0
Bạn sẵn sàng lướt web dữ liệu?
Có 4 điều hữu ích để nhớ khi cân nhắc lướt web của dữ liệu mở liên kết, bạn có thể nhắc lại chúng?
Web dữ liệu là gì?
Web dữ liệu là...
  • web của các cổng dữ liệu nơi bạn có thể tải về dữ liệu
  • tập hợp các tài nguyên dữ liệu được kết nối với nhau trên Web
  • mạng xã hội mới


Đáp án đúng!
Web dữ liệu là tập hợp các tài nguyên dữ liệu được liên kết với nhau mà có thể được cả người và máy đọc và hiểu được tức thì.
Bạn chắc chắn chứ?
Web dữ liệu là tập hợp các tài nguyên dữ liệu được liên kết với nhau mà có thể được cả người và máy đọc và hiểu được tức thì.
Điều sau đây nhận diện cái gì?
  • trang web
  • tòa nhà
  • căn phòng


Đáp án đúng!
Hãy nhớ là mã nhận diện dựa vào web trỏ tới bản thân điều đó và không trỏ tới trang web ở đó nó nằm.
Bạn chắc chắn chứ?
Hãy nhớ là mã nhận diện dựa vào web trỏ tới bản thân điều đó và không trỏ tới trang web ở đó nó nằm.
Đâu là các mã nhận diện cho nghệ sỹ Taylor Swift?
Đáp án đúng!
Tất cả chúng đều đúng! Hai đường liên kết đầu sử dụng mã nhận diện con y hệt nhưng với các nhà chức trách khác nhau. Đường liên kết thứ 3 là mã nhận diện của Wikipedia (dbpedia) cho nghệ sỹ đó. Tất cả chúng đều liên kết tới nhau và chia sẻ dữ liệu của nhau, bạn có thể thấy các đường liên kết chứ?
Bạn chắc chắn chứ?
Tất cả chúng đều đúng! Hai đường liên kết đầu sử dụng mã nhận diện con y hệt nhưng với các nhà chức trách khác nhau. Đường liên kết thứ 3 là mã nhận diện của Wikipedia (dbpedia) cho nghệ sỹ đó. Tất cả chúng đều liên kết tới nhau và chia sẻ dữ liệu của nhau, bạn có thể thấy các đường liên kết chứ?

Lướt web của dữ liệu mở liên kết

Web dữ liệu là tập hợp các tài nguyên dữ liệu được liên kết sâu, có thể cả người và máy đều đọc và hiểu được tức thì.
Vào năm 1989, Ngài Tim Berners-Lee đã phát minh ra web của các tư liệu và nó lấy đi của chúng ta hơn 20 năm để hiểu cách sử dụng nó. Bây giờ nó là phần cơ bản của xã hội chúng ta.
Vào năm 2001, Tim đã hình dung ra web của dữ liệu mở liên kết và chúng ta đang nhận ra rằng điều này sẽ thay đổi triệt để tất cả web như thế nào một lần nữa.


Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.