Thứ Ba, 12 tháng 8, 2014

Tương lai của khám phá khoa học là dựa vào mở


The future of scientific discovery relies on open
Posted 04 Aug 2014 by Marcus D. Hanwell
Bài được đưa lên Internet ngày: 04/08/2014
Lời người dịch: Định nghĩa Mở: “Một mẩu dữ liệu hoặc nội dung là mở nếu bất kỳ ai đó được tự do sử dụng, sử dụng lại và phân phối lại nó - chỉ tuân thủ, nhiều nhất, yêu cầu ghi nhận công và/hoặc chia sẻ tương tự”. “Đây là thời điểm cực kỳ thú vị cho khoa học mở và sự giao cắt của nó với cộng đồng nguồn mở”. “Khoa học mở là quan trọng sống còn cho việc tăng tốc độ phát hiện và cấp vốn tiếp tục cho các nghiên cứu hàn lâm. Ít nhất 80% các nghiên cứu hàn lâm được cấp vốn nhà nước, hoặc từ thiện. Vì thế rõ ràng là nghiên cứu nên được thực hiện theo cách thức tối đa hóa hoàn vốn đầu tư; khuyến khích việc chia sẻ, sử dụng lại, và cộng tác cho sự giành được tổng thể. Trong khoa học 'đóng', ít người có thể đọc được xuất bản phẩm (nó phải trả tiền) và không ai ngoài nhóm tác giả gốc ban đầu có thể sử dụng lại các dữ liệu hoặc mã được sử dụng để sinh ra các kết quả đó. Mô hình khoa học đóng dẫn tới tiến bộ không có hiệu quả sâu sắc, chậm hơn, khó khăn hơn. Theo mô hình khoa học mở, các xuất bản phẩm sẽ mở cho bất kỳ ai đọc và khám phá, và tương tự các dữ liệu và mã sẽ là mở cho sử dụng lại ngay lập tức đối với tất cả những người khác. Rõ ràng đối với tôi khoa học có thể tiến bộ nhanh hơn nếu nó được vận hành thường xuyên hơn theo mô hình mở”.
Ross Mounce là nhà nghiên cứu sau khi hoàn thành luận án tiến sĩ ở Đại học Bath và đang nghiên cứu sử dụng hóa thạch trong phylogeny và phyloinformatics, hoàn thành luận án tiến sĩ khoa học của mình ở Đại học Bath vào năm ngoái. Ross từng là một trong những người của Panton Fellows và là một thành viên tích cực của Quỹ Tri thức Mở (Open Knowledge Foundation), đặc biệt là Nhóm Làm việc Khoa học Mở (Open Science Working Group). Ông là một người bảo vệ khoa học mở, và ông làm việc tích cực trong các xuất bản phẩm hàn lâm khai thác nội dung để sử dụng lại các nghiên cứu khoa học trong các siêu phân tích để giành được sự thấu hiệu mức cao hơn trong các mẫu tiến hóa.
Đọc nhiều hơn trong cuộc phỏng vấn của tôi với ông trong mục Sự nghiệp trên tờ Tuần Nguồn Mở.
Ông có thể cho chúng tôi biết ngắn gọn tổng quan về nghiên cứu của ông?
Lĩnh vực nghiên cứu hiện nay của tôi là tin học về loài (Phyloinformatic), và tôi là một tiến sĩ trong nhóm Wills ở Đại học Bath. Tôi đã xuất bản cây tiến hóa và các dữ liệu tiến hóa khác từ tư liệu hàn lâm và thực hiện các siêu phân tích và tổng hợp các thông tin này khắp hàng trăm và hàng ngàn tài liệu để có được sự hiểu thấu mức cao hơn trong các mẫu tiến hóa khắp các nhóm loài khác nhau. Chỉ việc đưa các dữ liệu đó ngược lại về các mẫu biêu sử dụng lại được, tính toán lại được từ các tư liệu được xuất bản cũng là thách thức nặng nề nhất cho tới nay trong dự án của chúng tôi. Như một phần của dự án PLUTo do BBSRC cấp vốn, tôi đang làm việc với Peter Murray-Rust và đội ContentMine (Khai thác Nội dung) để phát triển các công cụ phần mềm và các tiếp cận để giúp tự động hóa qui trình tìm kiếm và trích xuất các dữ liệu chủng loài từ các tư liệu.
Đây một phần là việc tìm kim trong đống cỏ; có hơn 100.000 tài liệu được xuất bản có chứa các chủng loài trong một thập kỷ qua, rải rác khắp hơn 1.000 tạp chí, và có hơn 2 triệu bài báo được xuất bản mỗi năm!
Tại Đại học Bath, chúng tôi thậm chí không có sự truy cập hợp pháp tới tất cả các tạp chí trong đó chúng tôi biết có các dữ liệu chủng loài. Một khi tìm thấy, các dữ liệu thường phải được diễn giải lại tử các hình ảnh được đưa ra trong xuất bản phẩm đó. Chỉ gần 4% các nghiên cứu được xuất bản có một phân tích giống loài trong năm 2010 la cung cấp các dữ liệu mà máy có thể đọc được và sử dụng lại được. Tình trạng 'dữ liệu tồi' này không phải là hiếm trong nhiều lĩnh vực khoa học và được hệ thống xuất bản tạp chí có từ trước tạo thuận lợi - hầu hết các tạp chí đơn giản không có các yêu cầu chia sẻ dữ liệu mạnh.