The
future of scientific discovery relies on open
Posted
04 Aug 2014 by Marcus D. Hanwell
Bài
được đưa lên Internet ngày: 04/08/2014
Lời
người dịch: Định nghĩa Mở:
“Một mẩu dữ liệu hoặc nội dung là mở nếu bất kỳ
ai đó được tự do sử dụng, sử dụng lại và phân
phối lại nó - chỉ tuân thủ, nhiều nhất, yêu cầu ghi
nhận công và/hoặc chia sẻ tương tự”.
“Đây là thời điểm cực kỳ thú vị cho khoa học mở
và sự giao cắt của nó với cộng đồng nguồn mở”.
“Khoa học mở là quan trọng sống còn cho việc tăng tốc
độ phát hiện và cấp vốn tiếp tục cho các nghiên cứu
hàn lâm. Ít nhất 80%
các nghiên cứu hàn lâm được cấp vốn nhà nước, hoặc
từ thiện. Vì thế rõ ràng là
nghiên cứu nên được thực hiện theo cách thức tối đa
hóa hoàn vốn đầu tư; khuyến khích việc chia sẻ, sử
dụng lại, và cộng tác cho sự giành được tổng thể.
Trong khoa học 'đóng', ít người
có thể đọc được xuất bản phẩm (nó phải trả tiền)
và không ai ngoài nhóm tác giả gốc ban đầu có thể sử
dụng lại các dữ liệu hoặc mã được sử dụng để
sinh ra các kết quả đó. Mô
hình khoa học đóng dẫn tới tiến bộ không có hiệu quả
sâu sắc, chậm hơn, khó khăn hơn. Theo
mô hình khoa học mở, các xuất bản phẩm sẽ mở cho bất
kỳ ai đọc và khám phá, và tương tự các dữ liệu và
mã sẽ là mở cho sử dụng lại ngay lập tức đối với
tất cả những người khác. Rõ ràng đối với tôi khoa
học có thể tiến bộ nhanh hơn nếu nó được vận hành
thường xuyên hơn theo mô hình mở”.
Ross
Mounce là nhà nghiên cứu sau khi hoàn thành luận án
tiến sĩ ở Đại học Bath
và đang nghiên cứu sử dụng hóa thạch trong phylogeny và
phyloinformatics, hoàn thành luận án tiến sĩ khoa học của
mình ở Đại học Bath vào năm ngoái. Ross từng là một
trong những người của Panton Fellows và là một thành viên
tích cực của Quỹ Tri thức Mở
(Open Knowledge Foundation), đặc biệt là Nhóm
Làm việc Khoa học Mở (Open Science Working Group). Ông là
một người bảo vệ khoa học mở, và ông làm việc tích
cực trong các xuất bản phẩm hàn lâm khai thác nội dung
để sử dụng lại các nghiên cứu khoa học trong các siêu
phân tích để giành được sự thấu hiệu mức cao hơn
trong các mẫu tiến hóa.
Đọc
nhiều hơn trong cuộc phỏng vấn của tôi với ông trong
mục Sự nghiệp trên tờ Tuần Nguồn Mở.
Ông
có thể cho chúng tôi biết ngắn gọn tổng quan về nghiên
cứu của ông?
Lĩnh
vực nghiên cứu hiện nay của tôi là tin học về loài
(Phyloinformatic), và tôi là một tiến sĩ trong nhóm
Wills ở Đại học Bath. Tôi đã xuất bản cây
tiến hóa và các dữ liệu tiến hóa khác từ tư liệu
hàn lâm và thực hiện các siêu phân tích và tổng hợp
các thông tin này khắp hàng trăm và hàng ngàn tài liệu
để có được sự hiểu thấu mức cao hơn trong các mẫu
tiến hóa khắp các nhóm loài khác nhau. Chỉ việc đưa
các dữ liệu đó ngược lại về các mẫu biêu sử dụng
lại được, tính toán lại được từ các tư liệu được
xuất bản cũng là thách thức nặng nề nhất cho tới nay
trong dự án của chúng tôi. Như một phần của dự án
PLUTo
do BBSRC cấp vốn, tôi đang làm việc với Peter
Murray-Rust và đội ContentMine
(Khai thác Nội dung) để phát triển các công cụ phần
mềm và các tiếp cận để giúp tự động hóa qui trình
tìm kiếm và trích xuất các dữ liệu chủng loài từ các
tư liệu.
Đây
một phần là việc tìm kim trong đống cỏ; có hơn 100.000
tài liệu được xuất bản có chứa các chủng loài trong
một thập kỷ qua, rải rác khắp hơn 1.000 tạp chí, và
có hơn 2 triệu bài báo được xuất bản mỗi năm!
Tại
Đại học Bath, chúng tôi thậm chí không có sự truy cập
hợp pháp tới tất cả các tạp chí trong đó chúng tôi
biết có các dữ liệu chủng loài. Một khi tìm thấy, các
dữ liệu thường phải được diễn giải lại tử các
hình ảnh được đưa ra trong xuất bản phẩm đó. Chỉ
gần 4% các
nghiên cứu được xuất bản có một phân tích giống
loài trong năm 2010 la cung cấp các dữ liệu mà máy có thể
đọc được và sử dụng lại được. Tình trạng 'dữ
liệu tồi' này không phải là hiếm trong nhiều lĩnh vực
khoa học và được hệ thống xuất bản tạp chí có từ
trước tạo thuận lợi - hầu hết các tạp chí đơn giản
không có các yêu cầu chia sẻ dữ liệu mạnh.
Vì
sao khoa học mở, nguồn mở và các dữ liệu mở là quan
trọng đối với bạn?
Khoa
học mở là quan trọng sống còn cho việc tăng tốc độ
phát hiện và cấp vốn tiếp tục cho các nghiên cứu hàn
lâm. Ít nhất 80%
các nghiên cứu hàn lâm được cấp vốn nhà nước, hoặc
từ thiện. Vì thế rõ ràng là
nghiên cứu nên được thực hiện theo cách thức tối đa
hóa hoàn vốn đầu tư; khuyến khích việc chia sẻ, sử
dụng lại, và cộng tác cho sự giành được tổng thể.
Trong khoa học 'đóng', ít người có thể đọc được
xuất bản phẩm (nó phải trả tiền) và không ai ngoài
nhóm tác giả gốc ban đầu có thể sử dụng lại các dữ
liệu hoặc mã được sử dụng để sinh ra các kết quả
đó. Mô hình khoa học đóng dẫn tới tiến bộ không có
hiệu quả sâu sắc, chậm hơn, khó khăn hơn. Các nhà
nghiên cứu có thể bỏ qua các tài liệu các đồng nghiệp
của họ đơn giản vì họ không có sự truy cập tới
chúng. Tương tự, các nhà nghiên cứu rất mất thời gian
và tài nguyên tái tạo lại các dữ liệu hoặc chức năng
phần mềm y hệt vì các nhà nghiên cứu khác đã không/sẽ
không chia sẻ các dữ liệu/mã gốc ban đầu.
Theo
mô hình khoa học mở, các xuất bản phẩm sẽ mở cho bất
kỳ ai đọc và khám phá, và tương tự các dữ liệu và
mã sẽ là mở cho sử dụng lại ngay lập tức đối với
tất cả những người khác. Rõ ràng đối với tôi khoa
học có thể tiến bộ nhanh hơn nếu nó được vận hành
thường xuyên hơn theo mô hình mở.
Ở
mức độ cá nhân, khoa học mở là rất tốt với tôi.
Tôi đã bỏ ra hầu hết thời gian
nghiên cứu luận án tiến sĩ khoa học của mình để nạo
các dữ liệu ra khỏi các tệp PDF hàn lâm, hoặc các tác
giả thư điện tử (với khá ít trả lời có ích) vì một
bản sao chụp các dữ liệu được xuất bản của họ.
Điều đó thực sự lả kinh khủng
khổng lồ. thay vì làm 'khoa học' tôi đã làm các nhiệm
vụ nặng nhọc, lặp đi lặp lại nhưng đơn giản cao độ
bằng tay. Nếu các tác giả đã xuất bản các dữ
liệu của họ cùng với các tài liệu của họ theo các
định dạng dữ liệu được thiết lập từ lâu thì tôi
có thể bỏ thời gian của mình ra hữu ích hơn trong việc
phân tích lại và mở rộng các giới hạn tri thức của
chúng ta. Tôi đã nói với các đồng nghiệp của mình và
thấy họ cũng đã có các vấn đề y hệt; sự không hiệu
quả khổng lồ từng là thứ gì đó 'bình thường' trong
cộng đồng của chúng ta. Vì thế, tôi đã viết một thư
ngỏ vào năm 2011 với các bạn của tôi để nhấn mạnh
sự hoang phí nảy, và để khuyến khích việc lưu trữ
các dữ liệu tri thức, và tờ Nature
News đã viết một câu chuyện về nó mà đã giúp lan
truyền nó khắp cộng đồng nghiên cứu về chủng loài.
Kể từ đó, các cơ sở dữ liệu như http://morphobank.org/
đã có tỷ lệ đóng góp cao hơn nhưng vấn đề chung vẫn
còn: các dữ liệu phần lớn vẫn thường là công dân
hạng 2 so với các xuất bản phẩm được viết ra.
Ông
là một trong những người đầu tiên của Panton Fellows.
Điều đó có ý nghĩa gì, và làm thế nào điều này đã
thay đổi sự nghiệp của ông?
Panton
Fellowships được Quỹ Tri thức Mở (Open
Knowledge Foundation) trao một cách cạnh tranh cho các nhà
nghiên cứu mới khởi nghiệp và sinh viên mới ra trường,
mục tiêu của chúng là để trang bị cho họ thúc đẩy
các dữ liệu mở trong các lĩnh vực nghiên cứu của họ.
Các dự án thành công ôm lấy các nguyên tắc Panton
(Panton Principles) đối
với các dữ liệu mở trong khoa học, ngắn gọn thừa
nhận rằng:
Khoa
học dựa vào việc xây dựng trên, việc sử dụng lại,
và việc phê bình mở cơ quan xuất bản tri thức khoa học.
Để khoa học vận hành có hiệu quả, và để xã hội
với tới được những lợi ích đầy đủ từ các nỗ
lực khoa học, là sống còn rằng các dữ liệu khoa học
phải được làm thành mở.
Học
bổng của tôi đã trao cho tôi ý nghĩa mạnh về mục đích
làm thứ gì đó tích cực với sự vỡ mộng của tôi
cách thức theo đó các dữ liệu đã được làm cho sẵn
sàng theo nguyên tắc của tôi. Nó từng và vẫn là, sự
nhấn mạnh thực sự về lý lịch (CV) của tôi. Sự thừa
nhận và sự hỗ trợ về cả tài chính và tinh thần của
phần thưởng này đã trao cho tôi sự tin cậy để nói về
dữ liệu mở có liên quan tới các vấn đề trong khoa học
tại nhiều hội nghị khác nhau, mang các vấn đề tới
một khán thính phòng của các nhà khoa học mà có thể
nếu khác đi sẽ miễn cưỡng nghe bất kỳ điều gì mà
không phải là nghiên cứu hàn lâm, hẹp, chủ đề có
liên quan. Học bổng đó đã mở các con mắt của tôi tới
tầm quan trọng của việc ra chính sách và gây ảnh hưởng
tới chính sách, thứ gì đó thường bị bỏ qua trong các
viện hàn lâm truyền thống. Quả thực, bài
nói chuyện phổ biến nhất mà tôi đã từng thực
hiện tại một cuộc gặp với Ủy ban châu Âu (EC) 'Các
giấy phép cho các Văn bản của châu Âu & Nhóm Làm
việc Khai thác Dữ liệu', ở Brussels, đưa ra bằng chứng
cho EC đối với những thách thức và khó khăn gì các nhà
nghiên cứu châu Âu sẽ đối mặt trong dạng nghiên cứu
này. Tôi có lẽ sẽ không bao giờ có mặt trong cuộc gặp
này, hoặc nhiều cuộc như thế, đưa ra một tác động
tích cực tới chính sách nghiên cứu, nếu đó không phải
là Panton Fellowship.
Học
bổng đó cũng đã thay đổi đường hướng nghiên cứu
hàn lâm của tôi. Cùng với một trong những hướng đạo
viên học bổng của tôi (Peter Murray-Rust) và Tiến sĩ khoa
học, người giám sát của tôi (Matthew Wills), 3 chúng tôi
đã viết một đề
xuất học bổng khoa học mở để giải phóng và làm
cho các dữ liệu bị thiêu đốt trong các tư liệu trở
thành sử dụng lại được một lần nữa, điều từng
là thành công và là những gì tôi đang làm việc bây giờ
sau khi bảo vệ xong luận án tiến sĩ của tôi, dự án
PLUTo.
Mở
có nghĩa gì đối với bạn như là một nhà khoa học, và
cách mà các nhà khoa học khác có thể trở nên mở hơn?
Lấy
một định nghĩa chính thức của mở, hoặc theo ngữ cảnh
khoa học hoặc bên ngoài điều đó, như Định
nghĩa Mở sau:
“Một
mẩu dữ liệu hoặc nội dung là mở nếu bất kỳ ai đó
được tự do sử dụng, sử dụng lại và phân phối lại
nó - chỉ tuân thủ, nhiều nhất, yêu cầu ghi nhận công
và/hoặc chia sẻ tương tự”.
Theo
ngữ cảnh khoa học, điều này có nghĩa là các xuất bản
phẩm hàn lâm chỉ là truy cập mở nếu chúng được cấp
phép theo các giấy phép mở tuân thủ OKD như Creative
Commons Attribution Licence hoặc Creative
Commons Zero Waiver. Tương tự, các dữ liệu là dữ liệu
mở chỉ nếu nó được cấp phép rõ ràng theo một giấy
phép tuân thủ OKD, nếu không thì rõ ràng không tuân thủ
bản quyền.
Dường
như là nặng nề sẽ là chính xác như vậy về định
nghĩa của mở nhưng điều đó thực tế đúng như vậy.
Hình tượng hình dung rằng tôi đang khai thác cho dự án
PLUTo là rõ ràng tuân thủ bản quyền, thậm chí nếu họ
có các dữ liệu không có khả năng xác định bản quyền.
Tôi có thể đưa lại các hình tượng được cấp phép
mở của các cây tiến hóa trong Flickr
ở đây mà nó làm cho qui trình nghiên cứu của tôi
truy cập được nhiều hơn (ít chán hơn!) và có thể tìm
kiếm được. Tôi có thể gán thẻ nội dung giúp cho cộng
đồng và xem các số đo để trình bày tác động.
Nhưngt
các hình tượng nghiên cứu không được xuất bản theo
các giấy phép mở sẽ không/không thể có được ứng xử
này, và tôi có một bộ sưu tập về chúng lớn hơn nhiều
hiện đang ở trong ổ đĩa cứng của tôi. Tôi đơn giản
không được phép chia sẻ chúng, thậm chí dù bộ sựu
tập như một tổng thể nếu được đưa lên trực tuyến
cởi mở có thể hữu dụng hơn nhiều cho cộng đồng.
Những hạn chế mà các nhà xuất bản áp đặt có nghĩa
là tôi chỉ có thể đưa lại có lẽ 10% các hình tượng
phù hợp mà tôi đang tìm kiếm.
Bản
thân các nhà khoa học có mọi điều để giành được từ
việc thực hiện học bổng mở, và có một
số bước rất đơn giản mà có thể được thực
hiện theo hướng này, ấy là: đưa lên các báo cáo và sử
dụng kho chủ đề hoặc của cơ quan bạn cho tất cả các
kết quả đầu ra nghiên cứu của bạn (đặc biệt bao
gồm mã và các dữ liệu, chứ không chỉ các xuất bản
phẩm. Bằng chứng chỉ ra có một ưu thế trích dẫn rõ
ràng cho cả các xuất
bản phẩm truy cập mở và các
xuất bản phẩm cung cấp các dữ liệu mở, sao cho nó
thực sự là nằm trong mối quan tâm của cá nhân thực
hiện học bổng mở.
Bạn
có thấy phạm vi cho sự tương tác lớn hơn với cộng
đồng nguồn mở trong tương lai không?
Tuyệt
đối có. Nguồn mở rõ ràng đang 'thắng' bây giờ trong
các lĩnh vực khoa học của tôi (sinh thái học, cổ sinh
vật học, chủng loài học). Phần mềm nguồn mở giống
như R và các ngôn ngữ lập trình như Python cực kỳ phổ
biến. Các nền tảng trực tuyến như GitHub
hầu hết là văn hóa hàn lâm chuyển một tay, có nhiều
nhà khoa học sử dụng các hệ thống kiểm soát phiên bản
phân tán đúng phù hợp lần đầu, qua sử dụng git. Tôi
thậm chí đã giúp viết
một tài liệu hàn lâm trên GitHub! Đây
là thời điểm cực kỳ thú vị cho khoa học mở và sự
giao cắt của nó với cộng đồng nguồn mở.
Ross Mounce is a postdoctoral researcher at the University of Bath studying the use of fossils in phylogeny and phyloinformatics, completing his PhD at the University of Bath last year. Ross was one of the first Panton Fellows and is an active member of the Open Knowledge Foundation, particularly the Open Science Working Group. He is an advocate for open science, and he is actively working on content mining academic publications to reuse scientific research in meta-analyses to gain higher level insights in evolutionary patterns.
Ross Mounce is a postdoctoral researcher at the University of Bath studying the use of fossils in phylogeny and phyloinformatics, completing his PhD at the University of Bath last year. Ross was one of the first Panton Fellows and is an active member of the Open Knowledge Foundation, particularly the Open Science Working Group. He is an advocate for open science, and he is actively working on content mining academic publications to reuse scientific research in meta-analyses to gain higher level insights in evolutionary patterns.
Read
more in my interview with him for Careers in Open Source Week.
Can
you give us a brief overview of your research?
My
current area of research is phyloinformatics, and I'm a postdoc in
the Wills
group at the University of Bath. I take published evolutionary
trees and other evolutionary data from the academic literature
and perform meta-analyses and syntheses of this information across
hundreds and thousands of papers to gain higher-level insights into
evolutionary patterns across different species groups. Just getting
these data back into re-usable, re-computable forms from the
published literature is by far and away the hardest challenge of our
project. As part of the BBSRC-funded
PLUTo project (Phyloinformatic Literature Unlocking Tools), I'm
working with Peter Murray-Rust and the ContentMine
team to develop software tools and approaches to help automate the
process of finding and extracting phylogenetic data from the
literature.
It's
partly a needle in the haystack problem; there are 100,000+ papers
published containing-phylogeny in the past decade, scattered across
1,000+ journals, and there are 2,000,000+ articles published per
year!
At
the University of Bath, we don't even have legal access to all the
journals in which we know phylogenetic data lies. Once found, data
must typically be re-interpreted from the figure images provided in
the publication. Only ~4%
of published studies containing a phylogenetic analysis in 2010
provided machine-readable, re-usable data of their results. This
'data-poor' situation is not uncommon in many areas of science and is
facilitated by the legacy journal publication system—most journals
simply don't have strong data sharing requirements yet.
Why
is open science, open source, and open data important to you?
Open
science is vitally important to accelerating the pace of discovery
and the continued funding of academic research. At least 80%
of academic research is publicly, or charitably funded. It's
therefore obvious that research should be done in a manner that
maximizes the return-on-investment; encouraging sharing, re-use, and
collaboration for overall gain. In 'closed' science, fewer people can
read the publication (it's paywalled) and no one outside of the
original author group can re-use the data or the code used to
generate the results. The closed science model leads to deeply
inefficient, slower, harder, progress. Researchers may overlook their
peers papers simply because they don't have access to them. Likewise,
researchers waste immense time and resources re-generating the same
data or software functionality because other researchers didn't/won't
share the original data/code.
Under
the open science model, the publications are open for everyone to
read and discover, and likewise the data and code are open for
immediate re-use by all others too. It's
clear to me that science would progress more quickly if it operated
more frequently under the open model.
On
a personal level, open science matters a great deal to me. I spent
most of my PhD research time scraping data out of academic PDFs, or
emailing authors (with relatively few helpful replies) for a copy of
their published data. It was immensely frustrating. Instead of doing
'science' I was doing tedious, repetitive but highly-manual simple
tasks. If authors had published their data alongside their papers
according to long-established data formats I could have spent my time
more usefully on re-analysis and extending the limits of our
knowledge. I talked with my peers and found they had these problems
too; the immense inefficiency was somehow 'normal' in our community.
So, I wrote an open letter in 2011 with my friends to highlight this
wastefulness, and to encourage intelligent data archiving, and Nature
News wrote a story about it which helped spread it around the
palaeontology community. Since then, databases like
http://morphobank.org/ have had
a higher-rate of contribution but the general problem still remains:
data is largely still a second-class citizen relative to written
publications.
You
were one of the first Panton Fellows. What does that mean, and how
did this change your career?
Panton
Fellowships are competitively awarded by the Open
Knowledge Foundation to graduate and early career researchers,
their goal is to empower the fellows promote open data in their
research fields. Successful projects embrace the Panton
Principles for open data in science, which in short recognise
that:
Science
is based on building on, reusing, and openly criticising the
published body of scientific knowledge. For science to effectively
function, and for society to reap the full benefits from scientific
endeavours, it is crucial that science data be made open.
My
fellowship gave me a strong sense of purpose to do something positive
with my disillusionment of the way in which data was made available
in my discipline. It was and still is, a real highlight of my CV. The
recognition and financial and moral support of this award gave me the
confidence to speak-up about open data related issues in science at
many different conferences, bringing the issues to an audience of
scientists that can be otherwise reluctant to listen to anything that
isn't narrow, subject-related, academic research. The fellowship
opened my eyes to the importance of policy-making &
policy-influence, something commonly dismissed in traditional
academia. Indeed, the most
popular talk I have ever given was at a meeting of the European
Commission (EC) 'Licenses for Europe' Text & Data Mining Working
Group, in Brussels, providing evidence to the EC as to what
challenges and difficulties European researchers face in this type of
research. I would never have been at this meeting, or many like it,
making a positive impact on research policy, if it wasn't for the
Panton Fellowship.
The
fellowship also changed the direction of my academic research.
Together with one of the mentors of my fellowship award (Peter
Murray-Rust) and my PhD supervisor (Matthew Wills), the three of us
wrote a very open
science-y grant proposal to liberate and make data buried in the
literature re-usable again, which was successful and is what I'm
working on now in my first postdoc, the PLUTo project.
What
des open mean to you as a scientist, and how can other scientists be
more open?
Take
a formal definition of open, whether in the context of science or
outside it, like the The Open
Definition:
"A
piece of data or content is open if anyone is free to use, reuse, and
redistribute it—subject only, at most, to the requirement to
attribute and/or share-alike."
In
the context of science, this means that academic publications are
only open access if they are licensed under OKD-compliant open
licenses such as the Creative
Commons Attribution Licence or the Creative
Commons Zero Waiver. Likewise, data is only open data if it is
explicitly licensed under an OKD-compliant licence, or otherwise
clearly not subject to copyright.
It
may seem tedious to be so precise about the definition of open but it
really does matter. The figure images that I'm mining for the PLUTo
project are clearly subject to copyright, even if they contain
uncopyrightable data. I can re-post open-licensed figures of
evolutionary trees on
Flickr here which makes my research-process more accessible (less
boring!) and searchable. I can get community-aided tagging of content
and view metrics to demonstrate impact.
But
research figures not published under open licenses don't/can't get
this treatment, and I have a much larger collection of these
currently languishing on my hard-drives. I'm simply not allowed to
share them, even though the collection-as-a-whole if posted openly
online would be far more useful to the community. Publisher-imposed
restrictions mean I can only re-post perhaps 10% of the relevant
figures I'm finding.
Scientists
themselves have everything to gain from doing open scholarship, and
there are some very
simple steps that can be taken in that direction, namely: posting
preprints and using your institutional or subject repository for all
your research outputs (specifically including code and data, not just
publications). Evidence shows there's a clear citation advantage for
both open
access publications and publications
supplying open data, so it really is in the interest of the
individual to do open scholarship.
Do
you see scope for greater interaction with the open source community
in the future?
Absolutely.
Open source is clearly 'winning' now in my areas of science (ecology,
palaeontology, phylogenetics). Open source software like R and
programming languages like Python are extremely popular. Online
platforms like GitHub are almost
single-handedly transforming academic culture, getting many
scientists to use proper distributed version-control systems for the
first-time, through the use of git. I've even helped write
an academic paper on GitHub! It's an extremely exciting time for
open science and its intersection with the open source community.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.