Làm sạch dữ liệu của
bạn như thế nào
Một trong những thách thức lớn nhất khi làm việc với
bất kỳ dữ liệu nào là làm việc với các lỗi. Thường
thì ngay cả các nhà xuất bản dữ liệu cũng không nhìn
ra các lỗi vì dữ liệu đó có thể thay đổi qua nhiều
năm tháng. Trong các trường hợp khác, như đánh máy sai
hoặc viết tắt sai.
Khi làm việc với bất kỳ dữ liệu nào, là quan trọng
phải biết tìm ra các lỗi và sửa chúng cho đúng như thế
nào để làm cho dữ liệu đó hữu dụng hơn.
Trong bài này chúng ta khai thác những điều sau:
-
Các lỗi dữ liệu phổ biến
-
Các công cụ làm sạch dữ liệu hữu dụng
-
Các lý do để làm sạch dữ liệu
Làm sạch dữ liệu -
trong 2 phút
Giảng viên David Tarrant của ODI giải thích vì sao dữ liệu
mở sạch là quan trọng, cách để làm sạch dữ liệu mở
bạn tìm thấy và các công cụ nào là sẵn sàng để hỗ
trợ cho bạn.
Mở ra giá trị; chúng
ta ngụ ý gì khi làm sạch dữ liệu?
Biết rằng dữ liệu sạch là quan trọng để đảm bảo
bạn có điểm khởi đầu đáng tin cậy khi làm việc với
nó và sáng tạo giá trị mới từ nó.
Dữ liệu sạch là dữ liệu nhất quán, không bị đúp
bản và sẵn sàng để máy sử dụng được.
Nếu dữ liệu là sạch, là dễ dàng hơn để kết hợp
nó với các tập hợp dữ liệu khác và giành được sự
thấu hiểu sâu hơn.
Các lỗi phổ biến
trong dữ liệu
Có một số lỗi phổ biến trong dữ liệu mà bạn nên
tìm ra đối với bất kỳ tập hợp dữ liệu nào bạn
đang làm việc.
Các định dạng không đúng
Ngày tháng có thể được viết theo các cách thức không
nhất quán. Các định dạng ngày tháng pha trộn nhau đôi
khi là đơn giản để nhặt ra:
8-sep-2013 so với 8/9/2013
và đôi khi ít rõ ràng hơn:
8/9/2013 so với 9/8/2013.
Một thách thức khác là vài ứng dụng, như Excel, sẽ
‘đoán’ định dạng khi một tập hợp dữ liệu được
mở ra, điều dó có thể ẩn dấu đi cách thức ngày
tháng thực sự được viết trong tệp đó.
Lỗi phổ biến nhất là sử dụng pha trộn các định
dạng của Mỹ (MM/DD/YYYY) và của châu Âu (DD/MM/YYYY).
Nhiều đại diện
Mọi người thường cố gắng tiết kiệm thời gian khi
nhập dữ liệu bằng việc sử dụng các khái niệm viết
tắt. Nếu các viết tắt đó là không nhất quán, nó có
thể gây ra các lỗi trong một tập hợp dữ liệu.
Những khác biệt về chữ hoa, dấu trống và giống của
các tính từ, tất cả đều có thể là các lỗi.
Đúp bản các bản ghi
Bản ghi đúp bản là nơi mẩu dữ liệu y hệt đã được
nhập vào nhiều hơn một lần. Đúp bản các bản ghi
thường xảy ra khi các tập hợp dữ liệu đã được kết
hợp hoặc vì nó đã không biết từng có rồi một hạng
mục đầu vào.
Dữ liệu dư thừa
Dữ liệu dư thừa là điều gì đó không thích hợp cho
công việc của bạn với một tập hợp dữ liệu. Thường
thì một tập hợp dữ liệu đã được tạo ra cho một
mục đích cụ thể đòi hỏi các chi tiết bạn có thể
cần.
Các trường hợp phổ biến của dữ liệu dư thừa bao
gồm các hàng đại diện cho tổng số.
Các trường hợp khác là khi các cột dữ liệu đã được
kết hợp hoặc được nhân bản để hỗ trợ cho khả
năng đọc của con người.
Các thước đo số pha trộn
Các giá trị số trong các tập hợp dữ liệu thường sử
dụng các thước đo khác nhau để làm cho dễ dàng hơn
cho con người để đọc. Trong các tập hợp dữ liệu về
ngân sách, ví dụ, các đơn vị thường là hàng triệu.
1.200.000 thường được viết thành 1,2m. Tuy nhiên, các số
nhỏ hơn như 800.000 vẫn được viết đầy đủ. Đối
với máy, điều này ngụ ý chúng đọc số lớn hơn như
là 1,2 và điều này gây ra các lỗi.
Các dải pha trộn
Dữ liệu đôi khi được đo đếm theo các dải, như độ
tuổi hoặc dải lương. Để cho máy hiểu được các dải
đó, là quan trọng phải tách các giá trị cao và thấp ra
khỏi nhau.
Các lỗi chính tả
Các lỗi chính tả thường khó xác định trong các dữ
liệu dạng bảng.
Đừng quên chạy dữ liệu của bạn qua bộ kiểm tra
chính tả để bắt các lỗi chính tả.
Bộ công cụ làm sạch
dữ liệu
Không có dữ liệu sạch, chúng ta không thể xây dựng
thông tin. Có một số công cụ hữu dụng có thể giúp xử
lý làm sạch dữ liệu.
Bộ công cụ làm sạch dữ liệu
Khi bạn đang tìm kiếm các lỗi trong dữ liệu, có thể
cần thiết phải tải về và tải lên các tập hợp dữ
liệu theo nhiều công cụ để làm sạch và xử lý.
Cũng là quan trọng để ghi lại những thay đổi gì đã
được thực hiện và chia sẻ chúng công khai với những
người khác sao cho mọi người có thể hưởng lợi từ
công việc của bạn, đặc biệt nếu dữ liệu đó bạn
đang làm sạch là dữ liệu mở đang tồn tại mà dã được
xuất bản rồi.
Trong phần này chúng ta xem xét 2 công cụ chính và các sử
dụng của chúng:
-
Open Refine
-
Excel và các chương trình bảng tính tương tự
Open Refine (Tinh chỉnh Mở)
Open Refine là công cụ phần mềm được thiết kế để
làm việc với dữ liệu chưa được làm sạch. Công cụ
đó là trình duyệt dựa vào các cột, cho phép bạn sửa
các lỗi xuyên khắp toàn bộ tập hợp dữ liệu mở với
một hành động duy nhất. Các lỗi có thể được sửa
bao gồm:
-
Các định dạng ngày tháng
-
Nhiều đại diện
-
Các bản ghi đúp bản
-
Dữ liệu dư thừa
-
Các thước đo số pha trộn
-
Các dải pha trộn
Các chương trình bảng tính
Open Refine là công cụ làm sạch dữ liệu. Tuy nhiên, đôi
khi là dễ dàng hơn để sửa vài lỗi trong một chương
trình bảng tính:
-
Các lỗi chính tả
-
Dữ liệu dư thừa
-
Thẩm định số
-
Sửa dữ liệu bị/được dịch chuyển
Các lợi ích của làm
sạch dữ liệu là gì?
Ngoài việc các công cụ đó có thể được sử dụng để
làm sạch dữ liệu, là quan trọng để hiểu những lợi
ích mà việc làm sạch đó mang lại.
Ưu tiên làm sạch
Nếu dữ liệu không sạch thì các quyết định được
đưa ra dựa trên cơ sở của nó có thể là sai. Điều
này có thể ảnh hưởng tới các sản phẩm và sự hiểu
thấu bạn phát triển từ dữ liệu và, trong một vài
trường hợp, có tác động lên hàng ngàn hoặc thậm chí
hàng triệu người.
Một nghiên
cứu gần đây thấy rằng quy trình
chuẩn bị dữ liệu để phân tích có thể chiếm đâu đó
trong khoảng từ 60% cho tới 80% thời gian của dự án do
dữ liệu dẫn dắt.
Cải thiện tính khả dụng
Việc chia sẻ tập hợp dữ liệu mở sạch sẽ làm cho dữ
liệu đó hữu dụng hơn. Các công cụ như Open Refine cho
phép bạn chia sẻ lịch sự các thay đổi, cho phép mọi
người biết những gì đã được làm sạch và như thế
nào. Việc làm cho quy trình đó là mở cũng như bản thân
dữ liệu đó giúp bổ sung thêm tính bền vững và lòng
tin mà người sử dụng có thể đặt vào một tập hợp
dữ liệu.
Cũng có các cộng đồng làm sạch dữ liệu đang nổi lên
có thể được hỗ trợ tích cực hơn, ví dụ như các
cộng đồng của OpenStreetMap (OSM).
Phát hiện những hiểu thấu
Nhiều công cụ làm sạch dữ liệu, bao gồm cả Open
Refine, giúp bạn kết hợp và làm giàu các tập hợp dữ
liệu. Điều này có thể dẫn tới những thấu hiểu đang
được phát hiện có giá trị.
Ví dụ, việc làm giàu một tập hợp dữ liệu tham chiếu
tới các doanh nghiệp (theo tên hoặc theo vài mã nhận diện
khác) có thể thông tin cho bạn liệu doanh nghiệp đó có
còn đang hoạt động thương mại hay không và tình hình
tài chính hiện hành của nó.
Bạn sẵn sàng để làm
sạch dữ liệu?
Bạn có thể nhớ lại các lý do vì sao dữ liệu cần
được làm sạch, các công cụ hữu dụng để sử dụng
và các lỗi phổ biến nào bạn nên tìm kiếm trong các
tập hợp dữ liệu hay không?
Vì sao dữ liệu cần
được làm sạch?
Dữ liệu mở không được làm sạch là một vấn đề
vì:
-
nó không thể được vẽ trên đồ thị
-
nó không thể được xuất bản
-
nó có thể dẫn tới các kết luận sai
Đáp án đúng!
Dữ liệu không sạch là vấn đề vì nó có thể dẫn tới
các kết luận sai được đưa ra. Điều này không nên gây
cản trở cho xuất bản hoặc sử dụng dữ liệu đó, dù
việc làm sạch phải được thực hiện.
Bạn chắc chắn chứ?
Dữ liệu không sạch là vấn đề vì nó có thể dẫn tới
các kết luận sai được đưa ra. Điều này không nên gây
cản trở cho xuất bản hoặc sử dụng dữ liệu đó, dù
việc làm sạch phải được thực hiện.
Đâu là 2 công cụ hữu
dụng nhất để làm sạch dữ liệu?
-
Microsoft Access và Adobe Photoshop
-
Apple Notes và Microsoft Word
-
Microsoft Excel và Open Refine
Đáp án đúng!
Open Refine và Excel (hoặc các trình soạn thảo bảng tính
tương đương) là 2 trong số các công cụ hữu dụng nhất
để làm sạch dữ liệu.
Bạn chắc chắn chứ?
Open Refine và Excel (hoặc các trình soạn thảo bảng tính
tương đương) là 2 trong số các công cụ hữu dụng nhất
để làm sạch dữ liệu.
Nhận biết các lỗi
Những thứ sau đây đâu là các lỗi trong dữ liệu đòi
hỏi phải làm sạch?
-
Các thước đo số pha trộn
-
Thiếu chi tiết
-
Dữ liệu dư thừa
-
Thiếu giấy phép
-
Nhiều đại diện
Đáp án đúng!
Sử dụng các thước đo pha trộn, dữ liệu dư thừa và
nhiều đại diện của dữ liệu y hệt chỉ là vài lỗi
cần phải được sửa trong dữ liệu không sạch. Trong
khi sự chi tiết và thiếu giấy phép là vấn đề, thì
chúng không có liên quan tới bản thân dữ liệu đang là
không sạch đó.
Bạn chắc chắn chứ?
Sử dụng các thước đo pha trộn, dữ liệu dư thừa và
nhiều đại diện của dữ liệu y hệt chỉ là vài lỗi
cần phải được sửa trong dữ liệu không sạch. Trong
khi sự chi tiết và thiếu giấy phép là vấn đề, thì
chúng không có liên quan tới bản thân dữ liệu đang là
không sạch đó.
Có thể bỏ ra bao nhiêu
thời gian để làm sạch và chuẩn bị dữ liệu?
Trong bất kỳ dự án nào do dữ liệu dẫn dắt, có thể
bỏ ra bao nhiêu thời gian để làm sạch và chuẩn bị dữ
liêu?
-
Khoảng từ 20% tới 40%
-
Khoảng từ 40% tới 60%
-
Khoảng từ 60% tới 80%
Đáp án đúng!
Bằng chứng gợi ý khoảng từ 60% tới 80% thời gian của
dự án dữ liệu sẽ được bỏ ra cho việc làm sạch,
biến đổi và chuẩn bị dữ liệu để phân tích.
Bạn chắc chắn chứ?
Bằng chứng gợi ý khoảng từ 60% tới 80% thời gian của
dự án dữ liệu sẽ được bỏ ra cho việc làm sạch,
biến đổi và chuẩn bị dữ liệu để phân tích.
Làm sạch dữ liệu
Làm sạch dữ liệu là cơ bản để đảm bảo khi dữ
liệu được sử dụng, các kết luận đúng được đưa
ra.
Thường thì thậm chí các nhà xuất bản dữ liệu cũng
không nhận ra các lỗi vì dữ liệu đó có thể thay đổi
qua nhiều năm. Các lỗi có thể là kết quả của những
sai lầm của con người khi nhập dữ liệu, như đánh máy
sai hoặc viết tắt không đúng.
Hãy nhớ là việc làm sạch có thể mất lâu thời gian
hơn so với bạn nghĩ. Quy trình làm sạch cẩn thận, vì
thế, tiết kiệm thời gian đáng kể về dài hạn.
Đi theo bài tập làm sạch dữ liệu của chúng tôi để
làm quen với Open Refine và tự bản thân bạn khám phá nó
dễ dàng làm sao.
Về bài trước ………. Tới bài sau
Dịch: Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.