Tìm kiếm dữ liệu ẩn trên Web
‘Dữ liệu mở’ không chỉ ngụ ý các tập hợp dữ
liệu sẵn sàng để tải về. Dữ liệu mở tải về được
chỉ đại diện cho phần nhỏ các dữ liệu sẵn sàng
trên Web.
Đa số dữ liệu sẵn sàng trên Web là ẩn khỏi mắt
người. Tuy nhiên, các máy có thể tìm thấy và đọc được
các dữ liệu đó.
Trong bài này chúng ta sẽ khai thác những điều sau:
-
Định vị dữ liệu ẩn như thế nào
-
Những lợi ích của dữ liệu ẩn có thể cung cấp là gì
-
Làm thế nào để có được dữ liệu ẩn
Tìm kiếm dữ liệu ẩn - trong 2 phút
Giảng viên David Tarrant của ODI giải thích dữ liệu ẩn
là gì, những lợi ích nào nó có thể cung cấp và làm
thế nào bạn có thể có được nó.
Dữ liệu người không thể nhìn thấy
Dữ liệu không luôn dễ dàng tìm ra trên Web, vì hầu hết
các tài nguyên sẵn sàng chỉ nhìn thấy được đối với
máy. Con người điều hướng Web một cách trực quan nhìn
thấy được, xem nội dung, nhấn vào các đường liên kết
và tải về các tệp.
Máy, ngược lại, chỉ điều hướng Web qua các quy tắc
logic được đặt ra trong mã. Trong khi con người tìm kiếm
nội dung hấp dẫn, tương tác, thì máy yêu cầu cấu
trúc, logic và sự rõ ràng.
Sự khác biệt này tạo ra ‘các điểm mù’ về cách
thức con người và máy đọc Web.
Ví dụ, máy không luôn có thể tức thì tìm ra một đường
liên kết tải về trên một trang; con người thấy khó để
xem dữ liệu có cấu trúc, không trực quan có trong mã
website.
Các tệp dữ liệu mở tải về được chỉ là một dạng
dữ liệu trên Web. Nhiều dữ liệu hơn vẫn là ẩn trong
mã website.
Tìm kiếm dữ liệu ẩn
Không phải tất cả dữ liệu là sẵn sàng để tải về.
Thường thì nó là ẩn trên các website khác nhau mà chúng
ta viếng thăm mỗi ngày.
Vì sao dữ liệu ẩn?
Sự dịch chuyển hướng tới Web do dữ liệu dẫn dắt,
do di động xúc tác đã dẫn tới sự thay đổi trong cách
các website được xây dựng. Để đáp ứng được các kỳ
vọng của người sử dụng về các website tương tác,
trực quan, các lập trình viên ngày càng đặt dữ liệu
vào ‘lớp’ tách biệt hoặc thậm chí vào bản thân mã.
Lớp dữ liệu này thường truy cập được tới những
người bằng việc sử dụng các công cụ đúng.
Dữ liệu là ẩn ở khắp mọi nơi
Từ các trang Wikipedia tới các nhà lập kế hoạch cho các
kỳ nghỉ, các website thời trang cho tới các nhà cung cấp
năng lượng, Web là đầy các nguồn dữ liệu.
Các giấy phép cho các dữ liệu ẩn này không luôn là rõ
ràng; chỉ vì dữ liệu là máy đọc được trên một
website công cộng không làm cho nó trở thành dữ liệu mở.
Nếu bạn không chắc chắn về việc liệu các dữ liệu
ẩn đó có được cấp phép mở hay không, hãy kiểm tra
với nhà xuất bản website đó.
Dạng dữ liệu nào là
ẩn?
Dữ liệu ẩn trông hoàn toàn khác với tập hợp dữ liệu
mở bạn tải về từ website.
Dữ liệu máy đọc được trên Web sẽ ở trong các định
dạng như JSON - định dạng phổ biến và đơn giản nhất
để sử dụng - được nhúng vào HTML, trong XML và đôi
khi trong RDF.
Hãy thử các bài tập sau này trong bài này để thấy liệu
bạn có thể trích dữ liệu ra trong các định dạng đó
hay không.
Những lợi ích của dữ liệu ẩn
Chất lượng
Trong
nhiều trường hợp dữ liệu ẩn sẽ là dữ liệu được
nhà xuất bản sử dụng để trình bày trang web bạn đang
xem trên trang của họ.
Dữ
liệu ẩn vì thế là phần quan trọng trong các hoạt động
trên trực tuyến của chúng và có khả năng nhà xuất bản
đó quan tâm chăm sốc chất lượng của nó.
Dữ
liệu được trích ra từ Web có xu hướng tin cậy hơn vì
có khả năng đó là dữ liệu trong cốt lõi các hoạt
động của một tổ chức. Vì thế, có nhiều khả năng
hơn đó là nguồn dữ liệu dựa vào đó để làm việc.
Thích hợp
Các tổ chức không luôn xuất bản dữ liệu tải về
được. Tuy nhiên, nhiều trong số họ quản lý các website
do dữ liệu dẫn dắt. Bằng việc truy cập dữ liệu trực
tiếp thông qua bộ cấp dữ liệu (data feeds) (hoặc từ
bên trong mã website đó) có sự sử dụng rõ ràng dữ liệu
đó rồi. Điều này sẽ giúp bạn nhanh chóng xác định
dữ liệu thích hợp từ sử dụng đang có đó, thay vì tự
mình phải thiết lập sự sử dụng đó. Ví dụ, các
trang tin của BBC, các phần và các bộ cấp dữ liệu có
liên quan.
Ngữ cảnh
Khi bạn truy cập dữ liệu trực tiếp từ Web, bạn đang
xem rồi nó theo ngữ cảnh nó được sử dụng theo nhà
xuất bản đó. Như chúng tôi đã đề cập tới trong các
bài trước, ngữ cảnh của dữ liệu là thành phần quan
trọng của sự sử dụng nó.
Độ rộng
Thường thì tổ chức bị giới hạn trng một lượng dữ
liệu nó có thể xuất bản như là dữ liệu tải về
được. Việc tìm kiếm dữ liệu ẩn mở ra dải rộng
lớn hơn các tài nguyên.
Tìm kiếm dữ liệu ẩn như thế nào
Từ dữ liệu chúng ta có được thông tin, từ thông tin
chúng ta có được tri thức và sự thấu hiểu.
Xin lưu ý là thực tế bạn có thể trích ra dữ liệu ẩn
không làm cho dữ liệu đó thành mở. Bạn luôn nên kiểm
tra các điều khoản sử dụng của website và các giấy
phép trước khi thu thập hoặc sử dụng dữ liệu vì bất
kỳ mục đích gì. Để có thêm thông tin về việc cấp
phép, vui lòng tham chiếu ngược về bài 4 của khóa học
này.
Phần mở rộng tải về
Vài website đã được xây dựng để chào cách thức trích
xuất dữ liệu bằng cách bổ sung thêm phần mở rộng
vào URL của trang web bạn đang xem. Các website như vậy
thường được các tổ chức duy trì và họ cũng xuất
bản dữ liệu mở tải về được, với việc bổ sung
thêm phần mở rộng đúng sẽ kích hoạt bản tải về
trang đó ở định dạng dữ liệu, đối nghịch với định
dạng của trình duyệt.
Ví dụ tốt về điều này là website của chính phủ Vương
quốc Anh (gov.uk), nó cung cấp cho bất kỳ trang nào ở
định dạng dữ liệu đơn giản bằng việc bổ sung thêm
mở rộng thích hợp như “.json”, ví dụ như
www.gov.uk/browse/business.json.
Hãy thử nó với dữ liệu thương mại của Vương quốc
Anh bằng việc xem trang sau đây và sau đó thêm “.json”
để có được dữ liệu đó.
Để xem dữ liệu ở dạng người đọc được nhiều
hơn, hãy sao chép nó vào jsonlint.com.
Các bộ cấp dữ liệu (Data feeds)
Nhiều website cung cấp các đường liên kết tới các bộ
cấp tổng hợp dữ liệu mà có thể đăng ký tới nó.
Các bộ cấp đó có thể là các bộ cấp RSS, các bộ cấp
cảnh báo của Twitter hoặc các dạng ít phổ biến hơn
khác. Các bộ cấp có thể được sử dụng để lấy dữ
liệu thô về sự lựa chọn nội dung rộng lớn.
Ví dụ bộ cấp dữ liệu thô, xem bộ cấp tin tức của
BBC trong XML.
Bây giờ bạn có thể sử dụng công cụ tự do trên trực
tuyến để làm cho dữ liệu đó dễ dàng hơn để sử
dụng
hoặc có các cảnh báo về việc ngập tràn từ con sông
gần bạn nhất (chỉ ở Vương quốc Anh).
Mã nguồn
Đi vượt ra khỏi việc cung cấp con đường đơn giản
dẫn tới dữ liệu, nhiều trang có dữ liệu được nhúng
vào mã nguồn của trang web đó.
Vì sao không kiểm tra công cụ ‘Hidden Data Extractor’ (Bộ
Trích xuất Dữ liệu Ẩn) thí điểm của ODI để tìm ra
mã nguồn nhỉ?
Các API hoặc các giao diện máy đọc được
Vài website hoặc dịch vụ Web sẽ hé lộ giao diện máy
đọc được, hoặc API, cho việc truy vấn và truy cập dữ
liệu của chúng.
Các ví dụ về các dịch vụ có các API gồm: Open
Corporates (mở), OpenSteetMap
(mở), Twitter
(không hoàn toàn mở), Flickr
(một số nội dung mở), LinkedIn
(không mở).
Hầu hết các dịch vụ đó sử dụng API dựa vào Web và
cho phép bổ sung các phần mở rộng (hãy thử “.json”
trong OpenCorporates). Dù API này trông y hệt như ví dụ
trước đó trong phần này, trạng thái chính thức của nó
như là API cung cấp sự đảm bảo rằng dịch vụ đó sẽ
là sẵn sàng.
Quét Web
Nếu không kỹ thuật nào làm việc, bạn có thể cần
quét các trang web người đọc được. Trong khi điều này
có thể là tin cậy, có rủi ro sự trình bày thay đổi
cũng như nội dung thay đổi.
Vì sao không thử magic.import.io
để thấy nó có thể dễ dàng như thế nào?
Bạn sẵn sàng tìm kiếm
dữ liệu ẩn?
Bạn có thể nhớ lại những điều chính về dữ liệu
ẩn?
Dữ liệu ẩn là gì?
Dữ liệu ẩn là...
-
một phần của săn tìm kho báu
-
dữ liệu nhìn thấy được đối với máy nhưng không nhìn thấy đối với mắt người
-
các tệp khó tải về được
Đáp án đúng!
Dữ liệu ẩn là dữ liệu con người không nhìn thấy
được khi họ điều hướng Web nhưng máy lại có thể dễ
dàng tìm thấy và hiểu được
Bạn chắc chắn chứ?
Dữ liệu ẩn là dữ liệu con người không nhìn thấy
được khi họ điều hướng Web nhưng máy lại có thể dễ
dàng tìm thấy và hiểu được
Vì sao lại là dữ liệu
ẩn?
Mọi người ẩn dữ liệu đi vì...
-
họ xấu hổ vì nó
-
đó là mớ lộn xộn
-
hầu hết thời gian họ cố tình không phơi lộ nó
Đáp án đúng!
Hầu hết dữ liệu ẩn là được/bị ẩn đi một cách
không cố ý. Thường thì một tổ chức xaayd ựng website
đang tập trung vào cách để con người điều hướng các
trang và vì thế không nghĩ về cách để dữ liệu được
cung cấp.
Bạn chắc chắn chứ?
Hầu hết dữ liệu ẩn là được/bị ẩn đi một cách
không cố ý. Thường thì một tổ chức xaayd ựng website
đang tập trung vào cách để con người điều hướng các
trang và vì thế không nghĩ về cách để dữ liệu được
cung cấp.
Những lợi ích của dữ liệu ẩn
Cái gì sau đây không là lợi ích của dữ liệu ẩn?
-
Độ rộng
-
Chất lượng
-
Khả năng đọc được
-
Sự thích đáng
-
Ngữ cảnh
Đáp án đúng!
Dữ liệu ẩn có thể làm gia tăng sự thích đáng và chất
lượng của dữ liệu, độ rộng sẵn sàng và nhấn mạnh
ngữ cảnh ở đó dữ liệu đó được sử dụng.
Bạn chắc chắn chứ?
Dữ liệu ẩn có thể làm gia tăng sự thích đáng và chất
lượng của dữ liệu, độ rộng sẵn sàng và nhấn mạnh
ngữ cảnh ở đó dữ liệu đó được sử dụng.
Bạn có thể trích ra
dữ liệu ẩn như thế nào từ website?
Cái gì sau đây là cách hữu dụng để trích ra dữ
liệu ẩn từ website?
-
Đưa vào bộ nhớ đệm đường liên kết của website
-
Tải lại trang đó
-
Kiểm tra mã nguồn
Đáp án đúng!
Bạn chắc chắn chứ?
Việc kiểm tra mã nguồn của website thường hé lộ dữ
liệu ẩn được nhúng trong trang đó.
Tìm kiếm dữ liệu ẩn trên Web
Dữ liệu sẵn sàng để tải về chỉ là một phần nhỏ
của dữ liệu sẵn sàng trên Web.
Trong khi mắt người không phải luôn nhìn thấy dữ liệu,
là có khả năng để nhận diện và nắm bắt được độ
rộng của dữ liệu mới bằng việc sử dụng máy.
Dữ liệu truy cập được từ các website đó thường rộng
lớn hơn và thích đáng hơn nhiều cho công việc của bạn
so với các tệp tải về được và cũng được rút ra
trực tiếp từ ngữ cảnh ở đó nhà xuất bản đang sử
dụng nó rồi.
Bằng việc nâng cao nhận thức về dữ liệu ẩn và học
vài tiếp cận đơn giản trong bài này, như các truy vấn
mở rộng và các API, bạn sẽ có khả năng truy cập được
dải rộng lớn các dữ liệu thích đáng cho công việc
trong tương lai của bạn.
Về bài trước ………. Tới bài sau
Dịch: Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.