Libraries
could play key role in managing research data
12
December 2014
Theo:
https://www.researchinformation.info/feature/libraries-could-play-key-role-managing-research-data
Bài
được đưa lên Internet ngày: 12/12/2014
Xem
thêm: Khoa
học Mở - Open Science
David
Stuart khai thác vai trò tiềm năng của thư viện nghiên cứu
trong kỷ nguyên số. Việc chia sẻ và
bảo tồn dài hạn các dữ liệu nghiên cứu đang trở nên
ngày càng quan trọng cho quy trình nghiên cứu,
tăng cường cho quy trình khoa học
và tối đa hóa sự hoàn vốn
đầu tư nghiên cứu của các nhà cấp vốn.
Trong khi vài lĩnh vực này đã ôm lấy việc chia sẻ dữ
liệu đầy đủ hơn so với các lĩnh vực khác, thì việc
chia sẻ dữ liệu còn là mối quan tâm ngày một gia tăng
xuyên khắp tất cả các ngành khoa học.
Tuy
nhiên, chúng ta vẫn đang chuyển từ quan điểm khoa học
hướng vào tài liệu sang quan điểm hướng vào dữ liệu,
và hạ tầng còn chưa có cho việc chia sẻ và sử dụng
lại một cách thông suốt các dữ liệu khoa học.
Số lượng ngày một gia tăng các công cụ và cảm biến
ngày càng phức tạp ngụ ý rằng dữ liệu khoa học sẵn
sàng cho việc chia sẻ đang gia tăng nhanh chóng, nhưng có
nhiều việc phải làm có liên quan tới việc trích xuất
dữ liệu từ các ổ đĩa cứng của các nhà
nghiên cứu và đảm bảo rằng nó là truy cập được
về lâu dài.
Sự
gia tăng của việc xuất bản điện tử đã phá vỡ các
vai trò thông tin truyền thống, và quan điểm rằng thư
viện sẽ nắm giữ khoa học hướng dữ liệu ngày càng
gia tăng là còn chưa được rõ ràng. Không nghi ngờ gì là
có những cơ hội, nhưng nếu các thư viện dịch chuyển
quá chậm thì họ có thể thấy các tổ chức khác đang
đáp ứng các vai trò đó.
Hệ
sinh thái phức tạp
Hệ
thống xuất bản khoa học hiện đại đã trở nên ngày
càng phức tạp. Quy trình xuất bản
truyền thống có thể được mô hình hóa như là một
vòng lặp đơn giản, với các bài báo chảy từ các nhà
nghiên cứu tới các nhà
xuất bản tới các thư viện
và quay ngược về các nhà
nghiên cứu. Ngược
lại, hệ thống hiện đại được mô hình hóa như một
mạng - với các mối quan hệ mới và các vai trò ngày
càng chồng lấn nhau. Ngày nay, các tài liệu nghiên
cứu không chỉ được đệ trình cho các tạp chí, mà còn
cho các kho của cơ sở hoặc các kho theo chủ đề. Các
kho của cơ sở thường được các dịch vụ thư viện
đặt chỗ, và nắm giữ các các tư liệu xám cũng như
các xuất bản phẩm chính thức. Hơn nữa, việc đánh
đống các tạp chí điện tử bởi các nhà
xuất bản bỏ qua vai trò mua sắm của thư viện,
trong khi các tạp chí truy cập mở có
thể tiềm tàng phá hủy vai trò phân phối truyền thống
của các công ty xuất bản.
Tất
cả các mô hình là những sự đơn giản hóa thái quá tất
yếu, và mô hình tạp chí truyền thống từng là phức
tạp hơn so với vòng lặp đơn giản được gợi ý ở
đây. Dù vậy, là rõ ràng đúng rằng các vai trò của tổ
chức đang ngày càng ít khô cứng trong việc xuất bản
hàn lâm. Chính trong hệ sinh thái hay
biến đổi hơn này, nhu cầu có nhiều dịch vụ hơn hướng
tới dữ liệu đã nổi lên.
Mối
quan tâm gia tăng về dữ liệu khoa học và nhu cầu về
các dịch vụ hướng dữ liệu đưa ra một đống các cơ
hội cho thư viện để tự do tái thành lập khi có vai trò
trung tâm trong các cơ sở nghiên cứu, nhưng các vai trò
chồng lấn nhau của các tổ chức cạnh tranh ngụ ý rằng
các tổ chức khác có thể nhanh chóng khẳng định trong
các lĩnh vực mà nghề thư viện có lẽ được coi như là
của họ theo quyền hạn.
Vòng
đời dữ liệu
Các
mô hình vòng đời dữ liệu có thể đưa ra khung cho việc
xem xét các cơ hội có sẵn cho các dịch vụ thư viện
trong việc chia sẻ dữ liệu nghiên cứu. Vòng
đời dữ liệu nghiên cứu của Kho lưu trữ Dữ liệu
Vương
quốc Anh phân biệt 6 giai
đoạn trong vòng đời dữ liệu; xử lý dữ liệu; phân
tích dữ liệu; bảo tồn dữ liệu; cho
phép truy cập tới dữ liệu; và
sử dụng lại dữ liệu. Nhiều trong số các giai
đoạn đó có thể hưởng lợi từ các kỹ năng của cộng
đồng thư viện.
Quản
lý dữ liệu có hiệu quả bắt đầu từ đầu của quy
trình nghiên cứu, chứ không là sau đó. Các thư viện
nghiên cứu nên ở vị thế chào tư vấn về cấu trúc
thích hợp, lưu trữ và siêu dữ liệu, cho dữ liệu
nghiên cứu.
Bảo
tồn dữ liệu lâu dài có khả năng có các nhu cầu định
dạng, lưu trữ, và siêu dữ liệu khác nhau đối với dữ
liệu trong quá trình tạo ra. Một lần nữa, các thư viện
nghiên cứu nên ở vài vị thế chào tư vấn. Quan trọng
nhất, lưu trữ các dữ liệu của các dự án nghiên cứu
có khả năng sẽ mở rộng vượt ra khỏi phạm vi của
một dự án riêng rẽ, và cần phải được lưu trữ
trong khi thích hợp.
Việc
trao sự truy cập tới dữ liệu là lĩnh vực khác nơi mà
các thư viện có thể có liên quan. Việc cung cấp sự
truy cập tới dữ liệu không chỉ đòi hỏi dữ liệu đó
là sẵn sàng, mà còn đòi hỏi nó có thể được tìm
thấy và các quyền thích hợp được cung cấp để sử
dụng lại nó. Cộng đồng thư viện có lịch sử lâu đời
trong thiết lập các hệ thống phân loại, và kinh nghiệm
mở rộng bản quyền.
Ở
giai đoạn kết thúc vòng đời, sử dụng lại dữ liệu
đòi hỏi việc tìm ra dữ liệu, và đảm bảo rằng đủ
thông tin là sẵn sàng cho dữ liệu sẽ được sử dụng
lại. Tất nhiên có sự khác biệt giữa các cơ hội đang
có sẵn và các cơ hội đang được nắm lấy, và đối
với hầu hết các thư viện tiếp tục trước hết là
hướng tài liệu.
Dù
nhiều thư viện đã thiết lập các kho cơ sở, các kho
tiếp tục được tập trung vào các tài liệu hơn là vào
các dữ liệu. Trong số 2.727 kho được
liệt kê trong OpenDOAR, Thư mục các Kho Truy cập Mở, chỉ
131 hiện đang được liệt kê như là có chứa các tập
hợp dữ liệu (4,8%). Điều này là cũng không khác
nhiều với các kết quả từ truy vấn y hệt vào đầu
năm 2011, điều đã thấy tỷ lệ đó là 4,1%.
Sự
phân biệt giữa các kho cơ sở và các tập hợp dữ liệu
chuyên ngành vẽ nên bức tranh ảm đạm về các kho cơ
sở, nơi mà chỉ 4% các kho cơ sở được liệt kê như là
có chứa các tập hợp dữ liệu khi so với 11,1% các kho
chuyên ngành.
Các
kho được chuyên môn hóa có thể tiềm tàng cung cấp
nhiều giao diện tương tác có tính đổi mới hơn cho các
dạng đặc thù dữ liệu so với kho chung hơn của cơ sở
có thể hy vọng đạt được, dù khi dữ liệu tồn tại
lâu hơn so với dự án, thì các câu hỏi vẫn còn là ai
sẽ có trách nhiệm đối với các tác phẩm mồ côi đó
về lâu dài nếu kho đóng cửa hoặc dữ liệu/ siêu dữ
liệu cần phải được cập nhật.
Ở
những nơi các thư viện không cung cấp được đủ các
dịch vụ dữ liệu mới và có tính đổi mới, thì những
người khác sẽ làm. Một ví dụ của điều này là các
tạp chí dữ liệu mới.
Đóng
gói lại dữ liệu
2
tạp chí mới về truy cập mở dựa vào dữ liệu nghiên
cứu hơn là các tìm kiếm nghiên cứu đã bát đầu xuất
bản vào năm 2014: Scientific Data (Dữ liệu Khoa học), từ
Nhóm Xuất bản Tự nhiên (Nature Publishing Group); và Tạp
chí Dữ liệu Khoa học Địa lý của Wiley (Wiley’s
Geoscience Data Journal). Các xuất bản phẩm đó cung cấp
địa điểm cho các mô tả chi tiết về cách làm thế nào
và vì sao một tập hợp dữ liệu đã được thu thập,
và được liên kết tới bản thân tập hợp dữ liệu đó
trong 1 trong số các kho được phê chuẩn.
Các
sản phẩm như vậy tiềm tàng có các ưu điểm cho cả
các nhà nghiên
cứu riêng lẻ và khoa học về tổng thể. Chúng
cung cấp sự khuyến khích lớn hơn cho việc chia sẻ dữ
liệu bằng việc cung cấp xuất bản phẩm được rà soát
lại ngang hàng mà có thể được trích dẫn và theo đó
một nhà nghiên
cứu có thể nhận được sự tin tưởng, không nhất
thiết là những hiểu thấu mới hoặc các phát hiện mới.
Họ cũng giúp các nhà
nghiên cứu trong việc tìm kiếm và sử dụng lại
các tập hợp dữ liệu đang tồn tại.
Nhiều
ưu điểm của các tạp chí dữ liệu mới đó có thể đã
đạt được bởi cộng đồng thư viện mà không cần các
nhà
xuất bản thương mại.
Cũng có các mối lo ngại về các nhà
xuất bản mở rộng phạm
vi của họ khi vài người công nhận họ đã lạm dụng
vị thế thị trường của họ để tăng cao giá thành tạp
chí. Nhưng nếu các thư viện vẫn tiếp tục là
thích hợp, thì họ phải có thiện chí tùy
biến thích nghi và học hoải từ thiện chí của
các nhà xuất
bản để đổi mới
với dữ liệu.
Dịch
vụ nào các thư viện sẽ cung cấp?
Iain
Hrynaszkiewicz, người đứng đầu về dữ liệu và xuất
bản của HSS trong nghiên
cứu mở ở Nhóm Xuất bản Tự nhiên / Palgrave
Macmillan, thấy vai trò của thủ thư như là vai trò sẽ
tiếp tục tiến hóa, với sự nhấn mạnh nhiều hơn vào
ngăn lực dữ liệu: ‘Các thủ thư về
lịch sử đã tham gia trong huấn luyện năng lực thông tin
ở tất cả các dạng của nó, và dữ liệu nghiên cứu
ngày càng ngang bằng với các kết quả đầu ra nghiên cứu
khác, như các tài liệu, trong đánh giá và cấp vốn
nghiên cứu. Việc cung cấp các khóa huấn luyện về truy
cập, lưu trữ, xuất bản và quản lý dữ liệu vì thế
là tiến bộ tự nhiên của vai trò này’.
‘Những
người mô tả dữ liệu, như những người được
Scientific Data xuất bản, là quan trọng cho khả năng phát
hiện và sử dụng lại dữ liệu và đáp ứng các yêu
cầu của người cấp vốn và cơ sở về chia sẻ dữ
liệu. Họ có thể được coi như là một phần của thực
hành tốt nhất cho quản lý dữ liệu nghiên cứu và lên
kế hoạch xuất bản cho bất kỳ mẩu nghiên cứu nào. Vì
lý do này, chúng tôi rất mong muốn làm việc cùng với
các thủ thư và các nhà chuyên nghiệp về thông tin, trong
việc thiết lập các kỹ năng của các nhà
nghiên cứu và hiểu biết về tầm quan trọng của
quản lý dữ liệu’, ông nói.
Nhu
cầu về sự tinh thông trong quản lý dữ liệu tại chỗ
đảm bảo sẽ có vai trò cho thư viện và chuyên gia về
thông tin trong tương lai của quản lý dữ liệu, dù ở
mức độ nào đó hầu hết các thư viện và các thủ thư
có thể hoàn thành các nhu cầu đó là còn chưa rõ ràng.
Đối với từng ví dụ về các dịch vụ dữ liệu chủ
động tích cực mạnh, dường như có nhiều nơi các dịch
vụ dữ liệu của nó là hạn chế hoặc chưa tồn tại.
Sự
thay đổi công nghệ đòi hỏi các tập hợp kỹ năng mà
có thể có hạn chế trong lĩnh vực thông tin vì trọng
tâm của các trường học về thư viện trong quá khứ.
Những người chuyên nghiệp về thông tin có thể tiếp
tục là một phần của công việc, nhưng luôn có khả
năng những công nhân đó được phân bổ trong các dự án
đặc thù.
Kết
luận
Bản
chất tự nhiên đang biến đổi của đổi mới trong các
dịch vụ thư viện đã từng là sản phẩm chủ yếu
thường xuyên của tư liệu chuyên ngành trong nhiều năm.
Thường thì các công việc như vậy có liên quan tới các
dự đoán rằng, nếu không bị diệt vong, có thể thay đổi
vai trò của thư viện vượt ra khỏi tất cả sự thừa
nhận. Để so sánh, nhu cầu cho các dịch vụ hướng dữ
liệu nhiều hơn cung cấp các cơ hội lớn mà rõ ràng nằm
trong điều lệ của thư viện, nhưng cũng còn có nhiều
các đối thủ cạnh tranh tiềm tàng khác.
Nếu
các thư viện tiếp tục hoàn thành vai trò truyền thống
cốt lõi của họ, thì sẽ có các nhu cầu đối với các
tiếp cận có tính đổi mới hơn rất nhiều về dữ
liệu. Không đổi mới thành công có thể sẽ thấy thư
viện và các thủ thư với vai trò mờ nhạt hơn rất
nhiều.
David
Stuart là nhà nghiên cứu tại Trung tâm Nghiên cứu
Điện tử, Cao đẳng King’s College, London.
David
Stuart explores the potential role of the research library in the
data age. Sharing and long-term preservation of research data are
increasingly important to the research process, strengthening the
process of science and maximising a funder’s return on research
investment. While some fields have embraced the sharing of data more
fully than others, the sharing of research data is of growing
interest across all scientific disciplines.
However,
we are still transitioning from a document-centric view of science to
a data-centric view, and the infrastructure is not yet in place for
the seamless sharing and reuse of scientific data. A growing number
of increasingly sophisticated instruments and sensors mean that the
scientific data available for sharing is growing rapidly, but there
is a lot of work involved in extracting that data from researchers’
hard drives and ensuring that it is accessible in the long term.
The
rise of electronic publishing has disrupted traditional information
roles, and the position that the library will hold in an increasingly
data-centric science is not yet clear. There are undoubtedly
opportunities, but if libraries move too slowly they may find other
organisations fulfilling these roles.
A complex ecosystem
The
modern scientific publishing system has become increasingly
complicated. The traditional publishing process could be modelled as
a simple loop, with articles flowing from researchers to publishers
to libraries and back to researchers. In contrast, the modern system
is modelled more as a network – with new relationships and
increasingly overlapping roles. Today, research papers are not only
submitted to journals, but to institutional and subject repositories
as well. Institutional repositories are often hosted by library
services, and hold grey literature as well as formal publications. In
addition, the bundling of electronic journals by publishers
diminishes the acquisitions role of the library, while open-access
journals can potentially disrupt the traditional distribution role of
publishing companies.
All
models are necessarily over-simplifications, and the traditional
journal model was more complex than the simple loop suggested here.
Nonetheless, it is clearly the case that organisational roles are
increasingly less rigid in academic publishing. It is into this more
fluid ecosystem that the need for more data-centric services has
emerged.
Increased
interest in scientific data and a need for data-centric services
provides a host of opportunities for the library to re-establish
itself as having a central role within research institutions, but the
overlapping roles of competing organisations mean that other
organisations can quickly stake claims in areas that the library
profession may have considered theirs by right.
The data lifecycle
Data
lifecycle models can provide a framework for considering the
opportunities available to library services in the sharing of
research data. The UK Data Archive research data lifecycle
distinguishes six stages in the data lifecycle; processing data;
analysing data; preserving data; giving access to data; and re-using
data. Many of these stages can benefit from the skills of the library
community.
Effective
data management starts at the beginning of the research process, not
as an afterthought. Research libraries should be in a position to
offer advice on the appropriate structure, storage, and metadata, for
research data.
The
long-term preservation of data is likely to have different
formatting, storage, and metadata needs to the data during the
creation process. Once again, research libraries should be in a
position to offer advice. Most importantly, the storage of a research
project’s data is likely to extend beyond the scope of an
individual project, and needs to be stored in an appropriate
repository.
Giving
access to data is another area in which libraries can be involved.
Providing access to the data not only requires that the data is
available, but that it can be found and appropriate rights are
provided for its reuse. The library community has a long history in
the establishment of classification systems, and extensive experience
of copyright.
At
the final stage in the lifecycle, reuse of data requires the finding
of data, and ensuring that sufficient information is available for
the data to be reused. Of course there is a difference between
opportunities being available and opportunities being taken, and for
the most part libraries continue to be primarily document-centric.
Although
many libraries have established institutional repositories,
repositories continue to be focused on documents rather than data. Of
the 2,727 repositories listed in OpenDOAR, the Directory of Open
Access Repositories, only 131 are currently listed as containing
datasets (4.8 per cent). This is not too dissimilar to the results
from the same query at the beginning of 2011, which found the
proportion to be 4.1 per cent.
Distinguishing
between institutional repositories and disciplinary datasets draws a
bleaker picture for institutional repositories, where only four per
cent of institutional repositories are listed as containing datasets
in comparison to 11.1 per cent of disciplinary repositories.
Specialised
repositories can potentially provide more innovative interactive
interfaces for specific types of data than a more general
institutional repository might hope to achieve, although when data
lasts longer than the project, questions remain over who will take
responsibility for these orphan works in the long term if a
repository closes or data/metadata needs to be updated.
Where
libraries fail to provide sufficient new and innovative data
services, others will. One example of this is the new data journals.
Repackaging data
Two
new open-access journals that are based on research data rather
research findings started publication in 2014: Scientific Data, from
the Nature Publishing Group; and Wiley’s Geoscience Data Journal.
These publications provide a place for detailed descriptions about
how and why a dataset was collected, and are linked to the dataset
itself in one of a number of approved repositories.
Such
products potentially have advantages for both individual researchers
and science as a whole. They provide a greater incentive for the
sharing of data by providing a peer-reviewed publication that can be
cited and for which a researcher can receive credit, without
necessitating new insights or novel findings. They also help with
researchers finding and reusing existing datasets.
Many
of the advantages of these new data journals could have been achieved
by the library community without the need for commercial publishers.
There are also concerns about publishers expanding their scope when
some people perceive them to have abused their market position with
high journal price increases. But if libraries are to continue to be
relevant, they must be as willing to adapt and learn from publishers’
willingness to innovate with data.
What service will libraries provide?
Iain
Hrynaszkiewicz, head of data and HSS publishing in open research at
Nature Publishing Group/Palgrave Macmillan, sees the role of the
librarian as one that will continue to evolve, with greater emphasis
on data literacy: ‘Librarians have historically been involved in
information literacy training in all its forms, and research data are
increasingly equal to other research outputs, such as papers, in
research assessment and funding. Providing training on accessing,
archiving, publishing and managing data is therefore a natural
progression of this role.
‘Data
Descriptors, such as those published by Scientific Data, are
important for data discoverability and reusability and meeting funder
and institution requirements for data sharing. They could be
considered part of best practice for research data management and
publication planning for any piece of research. For this reason, we
are keen to work together with librarians and information
professionals, in establishing researchers’ skills and
understanding of the importance of data management,’ he said.
The
need for on-site data management expertise ensures there will be a
role for the library and information professional in the future of
data management, although the extent to which most libraries and
librarians can fulfil these needs is not yet clear. For every example
of strong proactive data services, there seem to be many where its
data services are limited or non-existent.
Technological
change requires skill sets that may be limited in the information
sector due to the focus of library schools in the past. Information
professionals may continue to be part of work, but it is always
possible that these workers are distributed on specific projects.
Conclusion
The
transformative nature of innovation on library services has been a
regular staple of the profession’s literature for many years. Often
such works involve predictions that, if not doom-laden, may change
the library role beyond all recognition. In comparison, the need for
more data-centric services provides great opportunities that clearly
fall within a library’s remit, but there are also many potential
competitors.
If
libraries continue to fulfil their core traditional role, then there
needs to be far more innovative approaches to data. Failure to
innovate successfully may see the library and librarians with a far
more diminished role.
David
Stuart is a research fellow at the Centre for e-Research, King’s
College, London
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.