What
can you do with open data?
Posted
09 May 2016 by Gordon Haff
Bài
được đưa lên Internet ngày: 09/05/2016
Xem
thêm: Khoa
học mở - Open Science
Chơi
trò chơi có liên quan tới từ ngữ và từ “mở” sẽ
gần như chắc chắn được đi theo với từ “nguồn”.
Và nguồn mở chắc chắn là sức mạnh quan trọng cho việc
lưu giữ các quyền tự do và sự truy cập của người sử
dụng tới điện toán. Tuy nhiên, mã không chỉ là dạng
tính mở quan trọng.
Dữ
liệu mở
Dữ
liệu mở đã được thảo luận ít nhất một thập kỷ.
Ở hội nghị OSCON năm 2007, Tim O'Reilly đã khởi động
một chút huyên náo khi ông đã gợi ý rằng dữ
liệu mở thực sự có thể quan trọng hơn là mã mở. Dữ
liệu mở trong ngữ cảnh này hầu hết tham chiếu tới
khả năng xuất các dữ liệu “Web 2.0” được người
sử dụng tạo ra, nó từng trở thành quan trọng vào thời
điểm đó. Tim Bray, sau đó ở Sun Microsystems, đã nhấn
mạnh vấn đề đó khi ông
đã viết:
Cuối cùng, thông tin sống ngoài phần mềm và vượt qua
phần mềm và giá trị hơn phần mềm.
Cùng
lúc, các khía cạnh khác của dữ liệu
mở đã bắt đầu được đặt ra - bao gồm sự truy cập
tới các nguồn dữ liệu của nhà nước. Thậm chí khi dữ
liệu nhà nước đã sẵn sàng rồi cho các nhà
nghiên cứu và những người khác, thường nó không ở
dạng có thể tự do và dễ dàng truy cập được. Ví dụ,
khi tôi đã nhìn vào việc sử dụng thông tin mức nước
sông từ Khỏa sát Địa lý Mỹ xung quanh thời gian đó,
tôi đã thấy rằng tôi có lẽ cần phải làm vài trang
web phức tạp nạo vét để có thông tin ở dạng tôi có
thể nhập vào một chương trình. Nhiều dạng khác của
dữ liệu là hoàn toàn không có sẵn trên
trực tuyến.
Điều
này đã bắt đầu thay đổi theo một cách thức có hệ
thống. Vào tháng 5/2009, Giám đốc Thông tin của Mỹ khi
đó là Vikek Kundra đã khởi xướng Data.gov.
Tới lượt nó, điều này đã dẫn tới lệnh
thực thi năm 2013 mà "đã làm cho dữ liệu mở và
máy đọc được trở thành mặc định cho các thông tin
của chính phủ". Nhiều bang và vùng
tự trị cũng đã mở rộng dữ liệu họ đã làm cho sẵn
sàng. Vào tháng 3/2016, Nhà
Trắng đã tung ra cái gọi là Dự
án Cơ hội (Opportunity Project) tập
trung vào các công cụ để trực quan hóa và sử dụng các
dữ liệu nhà nước theo các cách thức hữu dụng. 8 thành
phố của nước Mỹ — Baltimore, Detroit, Kansas City
(Missouri), New Orleans, New York, Philadelphia, San Francisco, và
Washington D.C.— hiện đang tham gia trong dự án này.
Nhiều
trong số các tập hợp dữ liệu đó đại diện cho sự
kiện, sự đo đếm, hoặc đối tượng vật lý ở một
địa điểm đặc thù. Như
tôi đã từng viết trước đó, dữ liệu như vậy có
thể được trực quan hóa bằng việc sử dụng dữ liệu
bản đồ từ nguồn như OpenStreetMap và nhúng nó vào trang
web với thư viện Javascript như Leaflet.
Many
of these data sets represent an event, a measurement, or a physical
object at a specific location. As
I've written about previously, such data can be visualized by
using map data from a source such as OpenStreetMap and embedding it
into a web page with a Javascript library like Leaflet.
Để
làm cho mọi điều cụ thể hơn, hãy
nhìn vào dữ liệu từ một thành phố cụ thể:
Cambridge, Massachusetts. Cambridge làm cho 160 bộ dữ liệu sẵn
sàng. Chúng bao gồm dữ liệu điều tra y tế, tai nạn,
các báo cáo tội phạm, thông tin điều tra dân số, các
cây được duy trì trong thành phố, các yêu cầu sửa chữa
các ổ gà, và nhiều hơn thế nữa.
Dữ
liệu có thể tải về được ở các định dạng khác
nhau (JSON, XML, CSV). Định dạng nào bạn sử dụng sẽ phụ
thuộc vào các ưu tiên của bạn và liệu bạn có muốn
làm việc với các dữ liệu có tính chương trình hoặc
trong các công cụ thông thường hơn đối với những
người sử dụng, như một bảng tính. Bạn sẽ lưu ý
rằng nhiều dữ liệu như vậy tham chiếu tới các vị
trí, mặc dù bạn thường cần chuyển đổi các địa chỉ
đường phố thành các tọa độ địa lý (như, kinh độ
và vĩ độ) bằng việc sử dụng cơ sở dữ liệu mã địa
lý/giải mã địa lý để hiển thị nó bằng việc sử
dụng các chương trình được nêu ở trên như Leaflet và
OpenStreetMap. Nominatum
là máy tìm kiếm cho dữ liệu của OpenStreetMap. Các lựa
chọn khác bao gồm Google Maps.
Tuy
nhiên, những khai thác dữ liệu của bạn không cần phải
bị hạn chế để chọc que lên bản đồ. Việc tưởng
tượng thực hiện các tổng hợp và đối sánh phức tạp
hơn đối với các bộ dữ liệu khác nhau bằng việc sử
dụng dải rộng lớn các kỹ thuật thống kê và trực
quan hóa không khó khăn. (D3.js
là thư viện đặc biệt phổ biến của Javascript cho việc
điều khiển các tài liệu dựa vào dữ liệu, và là công
cụ mạnh cho việc hiển thị dữ liệu theo các cách thức
có thể vừa nắm bắt được vừa cả nguồn của sự
hiểu thấu thực sự). Ví dụ, hãy tưởng tượng nhìn
vào cách các dịch vụ của thành phố được cung cấp
trong các vùng lân cậnkhác nhau thông qua thành phố; các
dạng mẫu đó có thể là cơ sở cho nghề báo chí với
dữliệu dựa vào bằng chứng.
Điều
đó để nói, là đáng đưa ra cảnh báo trước khó khăn
ở thời điểm này rằng dữ liệu mở
là chủ đề cho sự hiểu sai và sử dụng sai y hệt như
dữ liệu từ bất kỳ nguồn nào khác. Hiểu được nguồn
gốc và các hạn chế của bất kỳ các tập hợp dữ
liệu nào bạn sử dụng. Nói chung, ngày càng có dải lớn
các dữ liệu mở có sẵn từ các nguồn tin cậy mà đã
thu thập nó bằng việc sử dụng các kỹ thuật khá khó
khăn. Tuy nhiên, thậm chí dạng dữ liệu này có thể lỗi
thời - hoặc nó có thể đơn giản không truyền đạt
được thông tin bạn nghĩ nó làm được dựa vào cái
nhìn nhanh ban đầu.
Hơn
nữa hãy nhận thức được về những cạm bẫy tiềm
tàng có liên quan tới việc tổng hợp dữ liệu ở các
phạm vi mức độ khác nhau, cũng như các vấn đề rộng
lớn hơn có liên quan tới việc thể hiện các thiệt hại.
Người ta cần phải đặc biệt cẩn thận về việc tổng
hợp dữ liệu cho các sự trực quan hóa thông tin địa
lý. Ví dụ, nếu bạn tổng hợp dữ liệu và đánh mã đỏ
để hiển thị một vài mức hoạt động của khối đồng
thuận hoặc khu vực trong thành phố, thì mức độ đó có
thể bị ảnh hưởng nhiều hơn bởi dân số hoặc kích
cỡ không đó, thay vì bởi những khác biệt thực sự
trong tỷ lệ nằm bên dưới của hoạt động đó.
Ngày
một gia tăng, một dải rộng lớn các dữ liệu và các
thông tin khác là sẵn sàng theo cách là dễ dàng để tiêu
dùng và không đặt ra hạn chế nào lên sử dụng nó.
Hơn
nữa đối với các dạng dữ liệu của chính quyền địa
phương mà tôi đi qua ở trên, cũng có sự
truy cập công khai được mở rộng của các nghiên cứu
được liên bang cấp vốn,
ví dụ thế.
Dữ
liệu mở trong các lĩnh vực như thế đặc biệt là đáng
kể vì nó có thể làm gia tăng sự cộng tác và xây dựng
dựa vào công việc của những người khác - giống hệt
như với sự thành công được chứng minh của mô hình
phát triển nguồn mở.
Play
a word association game and the word "open" will almost
surely be followed by "source." And open source is
certainly an important force for preserving user freedoms and access
to computing. However, code isn't the only form of openness that's
important.
Open data
Open
data has been discussed for at least a decade. At the OSCON
conference in 2007, Tim O'Reilly kicked off a bit of a ruckus when he
suggested that open data might actually be more important than open
code. Open data in this context mostly referred to the ability to
export the user-created "Web 2.0" data, which was becoming
important at that time. Tim Bray, then at Sun Microsystems,
highlighted the issue when
he wrote:
At the end of the day, information outlives software and transcends software and is more valuable than software.
At
the same time, other aspects of open data were starting to come to
the fore—including access to public data sources. Even when public
data was already available to researchers and others, often it wasn't
in a form that could be freely and easily accessed. For example, when
I looked into using river-level information from the US Geological
Survey around that time, I found that I would need to do some
complicated web page scraping to get the information into a form I
could import into a program. Many other types of data weren't
available online at all.
This
started to change in a systematic way. In May 2009, then-US chief
information officer Vivek Kundra launched Data.gov.
This, in turn, led
to a 2013 executive order that "made open and
machine-readable data the new default for government information."
Many states and municipalities also expanded the data that they made
available. In March 2016, the White
House launched the Opportunity
Project to focus on tools for visualizing and using public data
in useful ways. Eight US cities—Baltimore, Detroit, Kansas City
(Missouri), New Orleans, New York, Philadelphia, San Francisco, and
Washington D.C.—are currently participating in the project.
Many
of these data sets represent an event, a measurement, or a physical
object at a specific location. As
I've written about previously, such data can be visualized by
using map data from a source such as OpenStreetMap and embedding it
into a web page with a Javascript library like Leaflet.
To
make things more concrete, let's take a look
at data from one specific city: Cambridge, Massachusetts.
Cambridge makes 160 datasets available. These include health
inspection data, accidents, crime reports, census information, city
maintained trees, pothole repair requests, and much more.
Data
can be downloaded in a variety of formats (JSON, XML, CSV). Which you
use will depend on your preferences and whether you want to work with
the data programmatically or in a more typical end-user tool, such as
a spreadsheet. You'll notice that much of this data does refer to
locations, although you'll typically need to convert street addresses
to geographical coordinates (i.e., latitude and longitude) using a
geocoding/geoencoding database to display it using the aforementioned
Leaflet and OpenStreetMaps. Nominatum
is a search engine for OpenStreetMaps data. Other options include
Google Maps.
Your
data explorations, however, don't need to be limited to sticking pins
on a map. Imagining doing more complex aggregations and correlations
of different datasets using a wide range of statistical techniques
and visualizations isn't hard. (D3.js
is a particularly popular Javascript library for manipulating
documents based on data, and is a powerful tool for displaying data
in ways that can be both visually arresting and the source of genuine
insights.) For example, imagine looking at how city services are
provided in different neighborhoods throughout the city; these sort
of patterns can be the basis for evidence-based data journalism.
That
said, it's worth interjecting the caveat at this point that open data
is subject to the same misinterpretation and misuse as data from any
other source. Understand the provenance and limitations of any
datasets that you use. In general, there is an increasingly wide
range of open data available from trusted sources that have collected
it using relatively rigorous techniques. However, even this sort of
data can get stale—or it may simply not communicate the information
you think it does based on a quick initial look.
Also
be aware of the potential pitfalls associated with aggregating data
at different scales, as well as broader issues related to
demonstrating causality. One needs to be especially careful about
aggregating data for spatial visualizations. For example, if you
aggregate data and color-code to display the level of some activity
by census block or city ward, that level may be influenced more by
the population or size of the block, rather than by actual
differences in the underlying rate of the activity.
Increasingly,
a wide range of data and other information is available in a way
that's easy to consume and doesn't put limits on its use. In addition
to the types of local government data that I went into above, there's
also expanded
public access to results of federally funded research, for
example. Open data in areas such as these is particularly significant
because it can increase collaboration and building upon the work of
others—just as with the proven success of the open source
development model.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.