Thứ Năm, 19 tháng 3, 2020

Bài 12 - Tìm kiếm dữ liệu ẩn trên Web


Tìm kiếm dữ liệu ẩn trên Web

‘Dữ liệu mở’ không chỉ ngụ ý các tập hợp dữ liệu sẵn sàng để tải về. Dữ liệu mở tải về được chỉ đại diện cho phần nhỏ các dữ liệu sẵn sàng trên Web.
Đa số dữ liệu sẵn sàng trên Web là ẩn khỏi mắt người. Tuy nhiên, các máy có thể tìm thấy và đọc được các dữ liệu đó.
Trong bài này chúng ta sẽ khai thác những điều sau:
  • Định vị dữ liệu ẩn như thế nào
  • Những lợi ích của dữ liệu ẩn có thể cung cấp là gì
  • Làm thế nào để có được dữ liệu ẩn

Tìm kiếm dữ liệu ẩn - trong 2 phút

Giảng viên David Tarrant của ODI giải thích dữ liệu ẩn là gì, những lợi ích nào nó có thể cung cấp và làm thế nào bạn có thể có được nó.

Dữ liệu người không thể nhìn thấy


Dữ liệu không luôn dễ dàng tìm ra trên Web, vì hầu hết các tài nguyên sẵn sàng chỉ nhìn thấy được đối với máy. Con người điều hướng Web một cách trực quan nhìn thấy được, xem nội dung, nhấn vào các đường liên kết và tải về các tệp.
Máy, ngược lại, chỉ điều hướng Web qua các quy tắc logic được đặt ra trong mã. Trong khi con người tìm kiếm nội dung hấp dẫn, tương tác, thì máy yêu cầu cấu trúc, logic và sự rõ ràng.
Sự khác biệt này tạo ra ‘các điểm mù’ về cách thức con người và máy đọc Web.
Ví dụ, máy không luôn có thể tức thì tìm ra một đường liên kết tải về trên một trang; con người thấy khó để xem dữ liệu có cấu trúc, không trực quan có trong mã website.
Các tệp dữ liệu mở tải về được chỉ là một dạng dữ liệu trên Web. Nhiều dữ liệu hơn vẫn là ẩn trong mã website.

Tìm kiếm dữ liệu ẩn

Không phải tất cả dữ liệu là sẵn sàng để tải về. Thường thì nó là ẩn trên các website khác nhau mà chúng ta viếng thăm mỗi ngày.
Vì sao dữ liệu ẩn?

Sự dịch chuyển hướng tới Web do dữ liệu dẫn dắt, do di động xúc tác đã dẫn tới sự thay đổi trong cách các website được xây dựng. Để đáp ứng được các kỳ vọng của người sử dụng về các website tương tác, trực quan, các lập trình viên ngày càng đặt dữ liệu vào ‘lớp’ tách biệt hoặc thậm chí vào bản thân mã. Lớp dữ liệu này thường truy cập được tới những người bằng việc sử dụng các công cụ đúng.

Dữ liệu là ẩn ở khắp mọi nơi


Từ các trang Wikipedia tới các nhà lập kế hoạch cho các kỳ nghỉ, các website thời trang cho tới các nhà cung cấp năng lượng, Web là đầy các nguồn dữ liệu.
Các giấy phép cho các dữ liệu ẩn này không luôn là rõ ràng; chỉ vì dữ liệu là máy đọc được trên một website công cộng không làm cho nó trở thành dữ liệu mở. Nếu bạn không chắc chắn về việc liệu các dữ liệu ẩn đó có được cấp phép mở hay không, hãy kiểm tra với nhà xuất bản website đó.
Dạng dữ liệu nào là ẩn?

Dữ liệu ẩn trông hoàn toàn khác với tập hợp dữ liệu mở bạn tải về từ website.
Dữ liệu máy đọc được trên Web sẽ ở trong các định dạng như JSON - định dạng phổ biến và đơn giản nhất để sử dụng - được nhúng vào HTML, trong XML và đôi khi trong RDF.
Hãy thử các bài tập sau này trong bài này để thấy liệu bạn có thể trích dữ liệu ra trong các định dạng đó hay không.

Những lợi ích của dữ liệu ẩn

Chất lượng

Trong nhiều trường hợp dữ liệu ẩn sẽ là dữ liệu được nhà xuất bản sử dụng để trình bày trang web bạn đang xem trên trang của họ.
Dữ liệu ẩn vì thế là phần quan trọng trong các hoạt động trên trực tuyến của chúng và có khả năng nhà xuất bản đó quan tâm chăm sốc chất lượng của nó.
Dữ liệu được trích ra từ Web có xu hướng tin cậy hơn vì có khả năng đó là dữ liệu trong cốt lõi các hoạt động của một tổ chức. Vì thế, có nhiều khả năng hơn đó là nguồn dữ liệu dựa vào đó để làm việc.

Thích hợp

Các tổ chức không luôn xuất bản dữ liệu tải về được. Tuy nhiên, nhiều trong số họ quản lý các website do dữ liệu dẫn dắt. Bằng việc truy cập dữ liệu trực tiếp thông qua bộ cấp dữ liệu (data feeds) (hoặc từ bên trong mã website đó) có sự sử dụng rõ ràng dữ liệu đó rồi. Điều này sẽ giúp bạn nhanh chóng xác định dữ liệu thích hợp từ sử dụng đang có đó, thay vì tự mình phải thiết lập sự sử dụng đó. Ví dụ, các trang tin của BBC, các phần và các bộ cấp dữ liệu có liên quan.

Ngữ cảnh

Khi bạn truy cập dữ liệu trực tiếp từ Web, bạn đang xem rồi nó theo ngữ cảnh nó được sử dụng theo nhà xuất bản đó. Như chúng tôi đã đề cập tới trong các bài trước, ngữ cảnh của dữ liệu là thành phần quan trọng của sự sử dụng nó.

Độ rộng

Thường thì tổ chức bị giới hạn trng một lượng dữ liệu nó có thể xuất bản như là dữ liệu tải về được. Việc tìm kiếm dữ liệu ẩn mở ra dải rộng lớn hơn các tài nguyên.

Tìm kiếm dữ liệu ẩn như thế nào

Từ dữ liệu chúng ta có được thông tin, từ thông tin chúng ta có được tri thức và sự thấu hiểu.
Xin lưu ý là thực tế bạn có thể trích ra dữ liệu ẩn không làm cho dữ liệu đó thành mở. Bạn luôn nên kiểm tra các điều khoản sử dụng của website và các giấy phép trước khi thu thập hoặc sử dụng dữ liệu vì bất kỳ mục đích gì. Để có thêm thông tin về việc cấp phép, vui lòng tham chiếu ngược về bài 4 của khóa học này.

Phần mở rộng tải về


Vài website đã được xây dựng để chào cách thức trích xuất dữ liệu bằng cách bổ sung thêm phần mở rộng vào URL của trang web bạn đang xem. Các website như vậy thường được các tổ chức duy trì và họ cũng xuất bản dữ liệu mở tải về được, với việc bổ sung thêm phần mở rộng đúng sẽ kích hoạt bản tải về trang đó ở định dạng dữ liệu, đối nghịch với định dạng của trình duyệt.
Ví dụ tốt về điều này là website của chính phủ Vương quốc Anh (gov.uk), nó cung cấp cho bất kỳ trang nào ở định dạng dữ liệu đơn giản bằng việc bổ sung thêm mở rộng thích hợp như “.json”, ví dụ như www.gov.uk/browse/business.json.
Hãy thử nó với dữ liệu thương mại của Vương quốc Anh bằng việc xem trang sau đây và sau đó thêm “.json” để có được dữ liệu đó.
Để xem dữ liệu ở dạng người đọc được nhiều hơn, hãy sao chép nó vào jsonlint.com.

Các bộ cấp dữ liệu (Data feeds)


Nhiều website cung cấp các đường liên kết tới các bộ cấp tổng hợp dữ liệu mà có thể đăng ký tới nó.
Các bộ cấp đó có thể là các bộ cấp RSS, các bộ cấp cảnh báo của Twitter hoặc các dạng ít phổ biến hơn khác. Các bộ cấp có thể được sử dụng để lấy dữ liệu thô về sự lựa chọn nội dung rộng lớn.
Ví dụ bộ cấp dữ liệu thô, xem bộ cấp tin tức của BBC trong XML.
Bây giờ bạn có thể sử dụng công cụ tự do trên trực tuyến để làm cho dữ liệu đó dễ dàng hơn để sử dụng
hoặc có các cảnh báo về việc ngập tràn từ con sông gần bạn nhất (chỉ ở Vương quốc Anh).

Mã nguồn


Đi vượt ra khỏi việc cung cấp con đường đơn giản dẫn tới dữ liệu, nhiều trang có dữ liệu được nhúng vào mã nguồn của trang web đó.
Vì sao không kiểm tra công cụ ‘Hidden Data Extractor’ (Bộ Trích xuất Dữ liệu Ẩn) thí điểm của ODI để tìm ra mã nguồn nhỉ?

Các API hoặc các giao diện máy đọc được


Vài website hoặc dịch vụ Web sẽ hé lộ giao diện máy đọc được, hoặc API, cho việc truy vấn và truy cập dữ liệu của chúng.
Các ví dụ về các dịch vụ có các API gồm: Open Corporates (mở), OpenSteetMap (mở), Twitter (không hoàn toàn mở), Flickr (một số nội dung mở), LinkedIn (không mở).
Hầu hết các dịch vụ đó sử dụng API dựa vào Web và cho phép bổ sung các phần mở rộng (hãy thử “.json” trong OpenCorporates). Dù API này trông y hệt như ví dụ trước đó trong phần này, trạng thái chính thức của nó như là API cung cấp sự đảm bảo rằng dịch vụ đó sẽ là sẵn sàng.

Quét Web


Nếu không kỹ thuật nào làm việc, bạn có thể cần quét các trang web người đọc được. Trong khi điều này có thể là tin cậy, có rủi ro sự trình bày thay đổi cũng như nội dung thay đổi.
Vì sao không thử magic.import.io để thấy nó có thể dễ dàng như thế nào?
Bạn sẵn sàng tìm kiếm dữ liệu ẩn?
Bạn có thể nhớ lại những điều chính về dữ liệu ẩn?
Dữ liệu ẩn là gì?
Dữ liệu ẩn là...
  • một phần của săn tìm kho báu
  • dữ liệu nhìn thấy được đối với máy nhưng không nhìn thấy đối với mắt người
  • các tệp khó tải về được


Đáp án đúng!
Dữ liệu ẩn là dữ liệu con người không nhìn thấy được khi họ điều hướng Web nhưng máy lại có thể dễ dàng tìm thấy và hiểu được
Bạn chắc chắn chứ?
Dữ liệu ẩn là dữ liệu con người không nhìn thấy được khi họ điều hướng Web nhưng máy lại có thể dễ dàng tìm thấy và hiểu được


Vì sao lại là dữ liệu ẩn?
Mọi người ẩn dữ liệu đi vì...
  • họ xấu hổ vì nó
  • đó là mớ lộn xộn
  • hầu hết thời gian họ cố tình không phơi lộ nó


Đáp án đúng!
Hầu hết dữ liệu ẩn là được/bị ẩn đi một cách không cố ý. Thường thì một tổ chức xaayd ựng website đang tập trung vào cách để con người điều hướng các trang và vì thế không nghĩ về cách để dữ liệu được cung cấp.
Bạn chắc chắn chứ?
Hầu hết dữ liệu ẩn là được/bị ẩn đi một cách không cố ý. Thường thì một tổ chức xaayd ựng website đang tập trung vào cách để con người điều hướng các trang và vì thế không nghĩ về cách để dữ liệu được cung cấp.

Những lợi ích của dữ liệu ẩn

Cái gì sau đây không là lợi ích của dữ liệu ẩn?
  • Độ rộng
  • Chất lượng
  • Khả năng đọc được
  • Sự thích đáng
  • Ngữ cảnh

Đáp án đúng!
Dữ liệu ẩn có thể làm gia tăng sự thích đáng và chất lượng của dữ liệu, độ rộng sẵn sàng và nhấn mạnh ngữ cảnh ở đó dữ liệu đó được sử dụng.
Bạn chắc chắn chứ?
Dữ liệu ẩn có thể làm gia tăng sự thích đáng và chất lượng của dữ liệu, độ rộng sẵn sàng và nhấn mạnh ngữ cảnh ở đó dữ liệu đó được sử dụng.
Bạn có thể trích ra dữ liệu ẩn như thế nào từ website?
Cái gì sau đây là cách hữu dụng để trích ra dữ liệu ẩn từ website?
  • Đưa vào bộ nhớ đệm đường liên kết của website
  • Tải lại trang đó
  • Kiểm tra mã nguồn

Đáp án đúng!
Việc kiểm tra mã nguồn của website thường hé lộ dữ liệu ẩn được nhúng trong trang đó.
Bạn chắc chắn chứ?
Việc kiểm tra mã nguồn của website thường hé lộ dữ liệu ẩn được nhúng trong trang đó.

Tìm kiếm dữ liệu ẩn trên Web

Dữ liệu sẵn sàng để tải về chỉ là một phần nhỏ của dữ liệu sẵn sàng trên Web.
Trong khi mắt người không phải luôn nhìn thấy dữ liệu, là có khả năng để nhận diện và nắm bắt được độ rộng của dữ liệu mới bằng việc sử dụng máy.
Dữ liệu truy cập được từ các website đó thường rộng lớn hơn và thích đáng hơn nhiều cho công việc của bạn so với các tệp tải về được và cũng được rút ra trực tiếp từ ngữ cảnh ở đó nhà xuất bản đang sử dụng nó rồi.
Bằng việc nâng cao nhận thức về dữ liệu ẩn và học vài tiếp cận đơn giản trong bài này, như các truy vấn mở rộng và các API, bạn sẽ có khả năng truy cập được dải rộng lớn các dữ liệu thích đáng cho công việc trong tương lai của bạn.


Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.