"500,000 data scientists needed in European open research data"
Submitted
by Adrian Offerman
on November 08, 2016
Bài
được đưa lên Internet ngày: 08/11/2016
Xem
thêm: Khoa
học Mở - Open Science
Có
sự thiếu hụt đáng báo động các chuyên gia dữ liệu
cả trên toàn cầu và ở Liên minh châu Âu (EU). Điều này
một phần dựa vào hệ thống cấp vốn và thưởng cổ
lỗ cho khoa học và đổi mới, duy trì văn hóa bài báo và
ngăn cản việc xuất bản dữ liệu và sử dụng lại có
hiệu quả. Thiếu sự tinh thông cốt lõi về các phương
tiện đã tạo ra khe hở sâu giữa các nhà cung cấp hạ
tầng điện tử và các chuyên gia trong lĩnh vực khoa học.
Đó
là 3 sự quan sát thấy được thực hiện trong báo cáo
‘Hiện thực hóa Đám mây Khoa học Mở của châu Âu
(Realising
the European Open Science Cloud): Báo cáo và những khuyến
cáo đầu tiên của Nhóm Chuyên gia Mức cao của Ủy ban về
Đám mây Khoa học Mở châu Âu’.
Đám
mây Khoa học Mở châu Âu
Đám
mây Khoa học Mở châu Âu - EOSC (European Open Science Cloud)
là sáng
kiến của EC theo Thị trường Số Duy nhất (Digital
Single Market) — một phần của chương trình Nghị sự
Số 2020 của chau Âu (Digital
Agenda for Europe 2020 programme). Nó đang làm việc hướng
tới hạ tầng để hỗ trợ cho Dữ liệu Nghiên cứu Mở
và Khoa học Mở ở châu Âu.
Sáng
kiến đã được thiết lập vào tháng 9/2015 khi nó đã
hình thành Nhóm Chuyên gia Mức Cao của Ủy ban - HLEG (High
Level Expert Group) để tư vấn về điều hành và cấp vốn
của Đám mây Khoa học Mở. Nhóm này đã được yêu cầu
thiết kế lộ trình rõ ràng và thiết lập các
cam kết cụ thể cho Ủy ban để làm cho tầm nhìn này
thành thực tế vào năm 2020.
Các
chuyên gia cốt lõi về dữ liệu
Các
tác giả của báo cáo đầu tiên này mô tả khe hở sâu
theo lịch sử đã phát triển giữa các chuyên gia theo lĩnh
vực và các chuyên gia về hạ tầng điện tử. Trong khi
phân tích nghiên
cứu truyền thống từng là thành viên đầy đủ và
nhà đồng xuất bản của đội nghiên cứu, thì các
chuyên gia hiện đại về máy tính và dữ liệu tới từ
các văn hóa khoa học và kỹ thuật với các hệ thống và
các khuyến khích thưởng rất khác nhau, các biệt ngữ
khác nhau, và các tập hợp các kỹ năng rất khác nhau.
Những khác biệt về văn hóa đã gây ra sự khan hiếm
đáng báo động và sự mất các kỹ năng sống còn có
liên quan tới dữ liệu trong nghiên cứu.
Như
là hiệu ứng phụ của những điều trên, có sự thiếu
hụt đáng báo động sự tinh thông về dữ liệu ở EU,
và sức ép yêu cầu về sự tinh thông dữ liệu cần để
hỗ trợ cho các mục tiêu của EOSC. Là rõ ràng - và được
phản ánh trong gần như tất cả các đóng góp của các
bên tham gia đóng góp cho HLEG - rằng sẽ có lỗ hổng cực
lớn trong việc lên kế hoạch của EOSC nếu chúng ta không
sửa được sự thiếu hụt đáng kể các Chuyên gia Cốt
lõi về Dữ liệu.
Chúng
tôi sử dụng khái niệm các Chuyên gia Cốt lõi về Dữ
liệu (Core Data Expert) ở đây một cách có chủ ý, nhấn
mạnh rằng chúng tôi đang làm việc với một dải các kỹ
năng mà đảm bảo định nghĩa lớp mới các đồng nghiệp
với các năng lực chuyên môn khoa học cốt lõi và các kỹ
năng giao tiếp để lấp đầy khe hở giữa 2 văn hóa đó.
Số những người có các kỹ năng cần thiết để vận
hành có hiệu quả EOSC là, chúng tôi ước tính, có khả
năng vượt quá 500.000 người trong vòng một thập kỷ.
Các
khuyến cáo
Các
tác giả khuyến cáo (khuyến cáo I3) việc cấp vốn của
nỗ lực có dự kiến để phát triển sự tinh thông cốt
lõi về dữ liệu ở châu Âu, so với sáng kiến huấn
luyện đáng kể ở châu Âu sao cho để định vị, tạo
ra, bảo hành và duy trì bền vững sự tinh thông cốt lõi
dữ liệu được yêu cầu.
Chương
trình này nên nhằm vào:
-
tới năm 2022, huấn luyện hàng trăm ngàn chuyên gia cốt lõi về dữ liệu có chứng chỉ với hiệu ứng có thể trình bày được trong các sáng kiến của ESFRI/e-INFRA và sự cộng tác và các triển vọng cho tính bền vững lâu dài của nguồn nhân lực sống còn này;
-
tăng cường và phát triển tiếp hỗ trợ tư liệu và các công cụ để xây dựng và rà soát các Kế hoạch Quản lý Dữ liệu (bao gồm cả việc cấp vốn cho sử dụng lại dữ liệu) và các kế hoạch Giám quản Dữ liệu (bao gồm cả việc cấp vốn cho xuất bản dữ liệu và lưu giữ dài han theo tình trạng của FAIR);
-
Tới 2020, có trong từng Quốc gia Thành viên và cho từng chuyên ngành ít nhất một viện có chứng chỉ để hỗ trợ triển khai Giám quản Dữ liệu cho mỗi chuyên ngành.
Từ
dữ liệu lơ thơ tới bão hòa dữ liệu
Các
máy tính đã từ lâu vượt trội các cá nhân trong khả
năng của chúng để thực hiện công nhận mẫu đối với
các tập hợp dữ liệu lớn, Barend
Mons, Chủ tịch của HLEG-EOSC, trong lời nói đầu của
ông cho báo cáo, đã nêu. Dữ liệu khoa học cực kỳ cần
tính mở, điều khiển tốt hơn, quản lý thận trọng,
năng lực hành động của máy và sử dụng lại bất tận.
Một trong những kết luận khiêm tốn trong các tư vấn
của chúng tôi từng là hạ tầng và truyền thông nghiên
cứu dường như
bế tắc trong hệ biến hóa của thế kỷ 20 về sự khan
hiếm dữ liệu. Chúng ta nên thấy từng bước thay đổi
này trong khoa học như là cơ hội khổng lồ chứ không
phải là mối đe dọa.
Theo
Mons, hệ thống khoa học là sự chuyển
đổi long trời lở đất từ sự lơ thơ dữ liệu tới
sự bão hòa dữ liệu. Trong khi đó, truyền thông nghiên
cứu,
các
phương pháp luận quản lý dữ liệu, các hệ thống
thưởng và chương trình giảng dạy huấn luyên không
thích nghi nhanh đủ nếu không nói là hoàn toàn không đáp
ứng được cuộc cách mạng này. Các nhà
nghiên cứu,
các
nhà cấp vốn và các nhà
xuất bản nắm
giữ nhau làm con tin trong cái ôm chết người bằng việc
tiếp tục tiến hành, xuất bản, cấp vốn và phán xét
khoa học theo cách thức y hệt như trong thế kỷ trước.
There
is an alarming shortage of data experts both globally and in the
European Union. This is partly based on an archaic reward and funding
system for science and innovation, sustaining the article culture and
preventing effective data publishing and re-use. A lack of core
intermediary expertise has created a chasm between e-infrastructure
providers and scientific domain specialists.
These
are three of the observations made in the report 'Realising
the European Open Science Cloud: First report and recommendations
of the Commission High Level Expert Group on the European Open
Science Cloud'.
European Open Science Cloud
The
European Open Science Cloud (EOSC) is an EC
initiative under the Digital
Single Market — part of the Digital
Agenda for Europe 2020 programme. It is working towards an
infrastructure to support Open Research Data and Open Science in
Europe.
The
initiative was established in September 2015 when it formed the
Commission High Level Expert Group (HLEG) to advise on the governance
and the funding of an Open Science Cloud. The group was asked to draw
a clear roadmap and set concrete commitments for the Commission to
make this vision a reality by 2020.
Core Data Experts
The
authors of this first report describe a historically grown chasm
between domain specialists and e-infrastructure specialists. While
the traditional research analyst was a full member and co-publisher
of the research team, the modern computer and data specialists come
from scientific and engineering cultures with very different reward
systems and incentives, different jargons, and very different skill
sets. These cultural differences have resulted in alarming scarcity
and loss of crucial data-related skills in research.
As
a side effect of the above, there is an alarming shortage of data
expertise in the EU, and a pressing requirement with regard to the
data expertise needed to support the aims of the EOSC. It became
clear — and has been reflected in nearly all stakeholder
contributions to the HLEG — that there will be a major hole in the
EOSC planning if we do not repair the significant lack of Core Data
Experts.
We
use the term Core Data Experts here deliberately, emphasising that we
are dealing with a range of skills that warrant the definition of a
new class of colleagues with core scientific professional
competencies and the communication skills to fill the gap between the
two cultures. The number of people with these skills needed to
effectively operate the EOSC is, we estimate, likely exceeding half a
million within a decade.
Recommendations
The
authors recommend (recommendation I3) the funding of a concerted
effort to develop core data expertise in Europe, comprising a very
substantial training initiative in Europe so as to locate, create,
maintain and sustain the required core data expertise.
This
program should aim to:
-
by 2022, train hundreds of thousands of certified core data experts with a demonstrable effect on ESFRI/e-INFRA activities and collaboration and prospects for long-term sustainability of this critical human resource;
-
consolidate and further develop assisting material and tools for the construction and review of Data Management Plans (including budgeting for re-use of data) and Data Stewardship plans (including budgeting for data publication and long-term preservation in FAIR status);
-
by 2020, have in each Member State and for each discipline at least one certified institute to support implementation of Data Stewardship per discipline.
From data-sparse to data-saturated
Computers
have long surpassed individuals in their ability to perform pattern
recognition over large data sets,
says Barend
Mons, Chairman of the HLEG-EOSC, in his foreword to the report.
Scientific
data is in dire need of openness, better handling, careful
management, machine actionability and sheer re-use. One of the
sobering conclusions of our consultations was that research
infrastructure and communication appear to be stuck in the 20th
century paradigm of data scarcity. We should see this step-change in
science as an enormous opportunity and not as a threat.
According
to Mons, the science system is in landslide transition from
data-sparse to data-saturated. Meanwhile,
scholarly communication, data management methodologies, reward
systems and training curricula do not adapt quickly enough if at all
to this revolution. Researchers, funders and publishers keep each
other hostage in a deadly embrace by continuing to conduct, publish,
fund and judge science in the same way as in the past century.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.