Thứ Sáu, 19 tháng 5, 2017

Các thư viện có thể đóng vai trò chính trong quản lý dữ liệu nghiên cứu


Libraries could play key role in managing research data
12 December 2014
Bài được đưa lên Internet ngày: 12/12/2014


David Stuart khai thác vai trò tiềm năng của thư viện nghiên cứu trong kỷ nguyên số. Việc chia sẻ và bảo tồn dài hạn các dữ liệu nghiên cứu đang trở nên ngày càng quan trọng cho quy trình nghiên cứu, tăng cường cho quy trình khoa học và tối đa hóa sự hoàn vốn đầu tư nghiên cứu của các nhà cấp vốn. Trong khi vài lĩnh vực này đã ôm lấy việc chia sẻ dữ liệu đầy đủ hơn so với các lĩnh vực khác, thì việc chia sẻ dữ liệu còn là mối quan tâm ngày một gia tăng xuyên khắp tất cả các ngành khoa học.
Tuy nhiên, chúng ta vẫn đang chuyển từ quan điểm khoa học hướng vào tài liệu sang quan điểm hướng vào dữ liệu, và hạ tầng còn chưa có cho việc chia sẻ và sử dụng lại một cách thông suốt các dữ liệu khoa học. Số lượng ngày một gia tăng các công cụ và cảm biến ngày càng phức tạp ngụ ý rằng dữ liệu khoa học sẵn sàng cho việc chia sẻ đang gia tăng nhanh chóng, nhưng có nhiều việc phải làm có liên quan tới việc trích xuất dữ liệu từ các ổ đĩa cứng của các nhà nghiên cứu và đảm bảo rằng nó là truy cập được về lâu dài.
Sự gia tăng của việc xuất bản điện tử đã phá vỡ các vai trò thông tin truyền thống, và quan điểm rằng thư viện sẽ nắm giữ khoa học hướng dữ liệu ngày càng gia tăng là còn chưa được rõ ràng. Không nghi ngờ gì là có những cơ hội, nhưng nếu các thư viện dịch chuyển quá chậm thì họ có thể thấy các tổ chức khác đang đáp ứng các vai trò đó.
Hệ sinh thái phức tạp
Hệ thống xuất bản khoa học hiện đại đã trở nên ngày càng phức tạp. Quy trình xuất bản truyền thống có thể được mô hình hóa như là một vòng lặp đơn giản, với các bài báo chảy từ các nhà nghiên cứu tới các nhà xuất bản tới các thư viện và quay ngược về các nhà nghiên cứu. Ngược lại, hệ thống hiện đại được mô hình hóa như một mạng - với các mối quan hệ mới và các vai trò ngày càng chồng lấn nhau. Ngày nay, các tài liệu nghiên cứu không chỉ được đệ trình cho các tạp chí, mà còn cho các kho của cơ sở hoặc các kho theo chủ đề. Các kho của cơ sở thường được các dịch vụ thư viện đặt chỗ, và nắm giữ các các tư liệu xám cũng như các xuất bản phẩm chính thức. Hơn nữa, việc đánh đống các tạp chí điện tử bởi các nhà xuất bản bỏ qua vai trò mua sắm của thư viện, trong khi các tạp chí truy cập mở có thể tiềm tàng phá hủy vai trò phân phối truyền thống của các công ty xuất bản.
Tất cả các mô hình là những sự đơn giản hóa thái quá tất yếu, và mô hình tạp chí truyền thống từng là phức tạp hơn so với vòng lặp đơn giản được gợi ý ở đây. Dù vậy, là rõ ràng đúng rằng các vai trò của tổ chức đang ngày càng ít khô cứng trong việc xuất bản hàn lâm. Chính trong hệ sinh thái hay biến đổi hơn này, nhu cầu có nhiều dịch vụ hơn hướng tới dữ liệu đã nổi lên.
Mối quan tâm gia tăng về dữ liệu khoa học và nhu cầu về các dịch vụ hướng dữ liệu đưa ra một đống các cơ hội cho thư viện để tự do tái thành lập khi có vai trò trung tâm trong các cơ sở nghiên cứu, nhưng các vai trò chồng lấn nhau của các tổ chức cạnh tranh ngụ ý rằng các tổ chức khác có thể nhanh chóng khẳng định trong các lĩnh vực mà nghề thư viện có lẽ được coi như là của họ theo quyền hạn.
Vòng đời dữ liệu
Các mô hình vòng đời dữ liệu có thể đưa ra khung cho việc xem xét các cơ hội có sẵn cho các dịch vụ thư viện trong việc chia sẻ dữ liệu nghiên cứu. Vòng đời dữ liệu nghiên cứu của Kho lưu trữ Dữ liệu Vương quốc Anh phân biệt 6 giai đoạn trong vòng đời dữ liệu; xử lý dữ liệu; phân tích dữ liệu; bảo tồn dữ liệu; cho phép truy cập tới dữ liệu; và sử dụng lại dữ liệu. Nhiều trong số các giai đoạn đó có thể hưởng lợi từ các kỹ năng của cộng đồng thư viện.
Quản lý dữ liệu có hiệu quả bắt đầu từ đầu của quy trình nghiên cứu, chứ không là sau đó. Các thư viện nghiên cứu nên ở vị thế chào tư vấn về cấu trúc thích hợp, lưu trữ và siêu dữ liệu, cho dữ liệu nghiên cứu.
Bảo tồn dữ liệu lâu dài có khả năng có các nhu cầu định dạng, lưu trữ, và siêu dữ liệu khác nhau đối với dữ liệu trong quá trình tạo ra. Một lần nữa, các thư viện nghiên cứu nên ở vài vị thế chào tư vấn. Quan trọng nhất, lưu trữ các dữ liệu của các dự án nghiên cứu có khả năng sẽ mở rộng vượt ra khỏi phạm vi của một dự án riêng rẽ, và cần phải được lưu trữ trong khi thích hợp.
Việc trao sự truy cập tới dữ liệu là lĩnh vực khác nơi mà các thư viện có thể có liên quan. Việc cung cấp sự truy cập tới dữ liệu không chỉ đòi hỏi dữ liệu đó là sẵn sàng, mà còn đòi hỏi nó có thể được tìm thấy và các quyền thích hợp được cung cấp để sử dụng lại nó. Cộng đồng thư viện có lịch sử lâu đời trong thiết lập các hệ thống phân loại, và kinh nghiệm mở rộng bản quyền.
Ở giai đoạn kết thúc vòng đời, sử dụng lại dữ liệu đòi hỏi việc tìm ra dữ liệu, và đảm bảo rằng đủ thông tin là sẵn sàng cho dữ liệu sẽ được sử dụng lại. Tất nhiên có sự khác biệt giữa các cơ hội đang có sẵn và các cơ hội đang được nắm lấy, và đối với hầu hết các thư viện tiếp tục trước hết là hướng tài liệu.
Dù nhiều thư viện đã thiết lập các kho cơ sở, các kho tiếp tục được tập trung vào các tài liệu hơn là vào các dữ liệu. Trong số 2.727 kho được liệt kê trong OpenDOAR, Thư mục các Kho Truy cập Mở, chỉ 131 hiện đang được liệt kê như là có chứa các tập hợp dữ liệu (4,8%). Điều này là cũng không khác nhiều với các kết quả từ truy vấn y hệt vào đầu năm 2011, điều đã thấy tỷ lệ đó là 4,1%.
Sự phân biệt giữa các kho cơ sở và các tập hợp dữ liệu chuyên ngành vẽ nên bức tranh ảm đạm về các kho cơ sở, nơi mà chỉ 4% các kho cơ sở được liệt kê như là có chứa các tập hợp dữ liệu khi so với 11,1% các kho chuyên ngành.
Các kho được chuyên môn hóa có thể tiềm tàng cung cấp nhiều giao diện tương tác có tính đổi mới hơn cho các dạng đặc thù dữ liệu so với kho chung hơn của cơ sở có thể hy vọng đạt được, dù khi dữ liệu tồn tại lâu hơn so với dự án, thì các câu hỏi vẫn còn là ai sẽ có trách nhiệm đối với các tác phẩm mồ côi đó về lâu dài nếu kho đóng cửa hoặc dữ liệu/ siêu dữ liệu cần phải được cập nhật.
Ở những nơi các thư viện không cung cấp được đủ các dịch vụ dữ liệu mới và có tính đổi mới, thì những người khác sẽ làm. Một ví dụ của điều này là các tạp chí dữ liệu mới.
Đóng gói lại dữ liệu
2 tạp chí mới về truy cập mở dựa vào dữ liệu nghiên cứu hơn là các tìm kiếm nghiên cứu đã bát đầu xuất bản vào năm 2014: Scientific Data (Dữ liệu Khoa học), từ Nhóm Xuất bản Tự nhiên (Nature Publishing Group); và Tạp chí Dữ liệu Khoa học Địa lý của Wiley (Wiley’s Geoscience Data Journal). Các xuất bản phẩm đó cung cấp địa điểm cho các mô tả chi tiết về cách làm thế nào và vì sao một tập hợp dữ liệu đã được thu thập, và được liên kết tới bản thân tập hợp dữ liệu đó trong 1 trong số các kho được phê chuẩn.
Các sản phẩm như vậy tiềm tàng có các ưu điểm cho cả các nhà nghiên cứu riêng lẻ và khoa học về tổng thể. Chúng cung cấp sự khuyến khích lớn hơn cho việc chia sẻ dữ liệu bằng việc cung cấp xuất bản phẩm được rà soát lại ngang hàng mà có thể được trích dẫn và theo đó một nhà nghiên cứu có thể nhận được sự tin tưởng, không nhất thiết là những hiểu thấu mới hoặc các phát hiện mới. Họ cũng giúp các nhà nghiên cứu trong việc tìm kiếm và sử dụng lại các tập hợp dữ liệu đang tồn tại.
Nhiều ưu điểm của các tạp chí dữ liệu mới đó có thể đã đạt được bởi cộng đồng thư viện mà không cần các nhà xuất bản thương mại. Cũng có các mối lo ngại về các nhà xuất bản mở rộng phạm vi của họ khi vài người công nhận họ đã lạm dụng vị thế thị trường của họ để tăng cao giá thành tạp chí. Nhưng nếu các thư viện vẫn tiếp tục là thích hợp, thì họ phải có thiện chí tùy biến thích nghi và học hoải từ thiện chí của các nhà xuất bản để đổi mới với dữ liệu.
Dịch vụ nào các thư viện sẽ cung cấp?
Iain Hrynaszkiewicz, người đứng đầu về dữ liệu và xuất bản của HSS trong nghiên cứu mở ở Nhóm Xuất bản Tự nhiên / Palgrave Macmillan, thấy vai trò của thủ thư như là vai trò sẽ tiếp tục tiến hóa, với sự nhấn mạnh nhiều hơn vào ngăn lực dữ liệu: ‘Các thủ thư về lịch sử đã tham gia trong huấn luyện năng lực thông tin ở tất cả các dạng của nó, và dữ liệu nghiên cứu ngày càng ngang bằng với các kết quả đầu ra nghiên cứu khác, như các tài liệu, trong đánh giá và cấp vốn nghiên cứu. Việc cung cấp các khóa huấn luyện về truy cập, lưu trữ, xuất bản và quản lý dữ liệu vì thế là tiến bộ tự nhiên của vai trò này’.
‘Những người mô tả dữ liệu, như những người được Scientific Data xuất bản, là quan trọng cho khả năng phát hiện và sử dụng lại dữ liệu và đáp ứng các yêu cầu của người cấp vốn và cơ sở về chia sẻ dữ liệu. Họ có thể được coi như là một phần của thực hành tốt nhất cho quản lý dữ liệu nghiên cứu và lên kế hoạch xuất bản cho bất kỳ mẩu nghiên cứu nào. Vì lý do này, chúng tôi rất mong muốn làm việc cùng với các thủ thư và các nhà chuyên nghiệp về thông tin, trong việc thiết lập các kỹ năng của các nhà nghiên cứu và hiểu biết về tầm quan trọng của quản lý dữ liệu’, ông nói.
Nhu cầu về sự tinh thông trong quản lý dữ liệu tại chỗ đảm bảo sẽ có vai trò cho thư viện và chuyên gia về thông tin trong tương lai của quản lý dữ liệu, dù ở mức độ nào đó hầu hết các thư viện và các thủ thư có thể hoàn thành các nhu cầu đó là còn chưa rõ ràng. Đối với từng ví dụ về các dịch vụ dữ liệu chủ động tích cực mạnh, dường như có nhiều nơi các dịch vụ dữ liệu của nó là hạn chế hoặc chưa tồn tại.
Sự thay đổi công nghệ đòi hỏi các tập hợp kỹ năng mà có thể có hạn chế trong lĩnh vực thông tin vì trọng tâm của các trường học về thư viện trong quá khứ. Những người chuyên nghiệp về thông tin có thể tiếp tục là một phần của công việc, nhưng luôn có khả năng những công nhân đó được phân bổ trong các dự án đặc thù.
Kết luận
Bản chất tự nhiên đang biến đổi của đổi mới trong các dịch vụ thư viện đã từng là sản phẩm chủ yếu thường xuyên của tư liệu chuyên ngành trong nhiều năm. Thường thì các công việc như vậy có liên quan tới các dự đoán rằng, nếu không bị diệt vong, có thể thay đổi vai trò của thư viện vượt ra khỏi tất cả sự thừa nhận. Để so sánh, nhu cầu cho các dịch vụ hướng dữ liệu nhiều hơn cung cấp các cơ hội lớn mà rõ ràng nằm trong điều lệ của thư viện, nhưng cũng còn có nhiều các đối thủ cạnh tranh tiềm tàng khác.
Nếu các thư viện tiếp tục hoàn thành vai trò truyền thống cốt lõi của họ, thì sẽ có các nhu cầu đối với các tiếp cận có tính đổi mới hơn rất nhiều về dữ liệu. Không đổi mới thành công có thể sẽ thấy thư viện và các thủ thư với vai trò mờ nhạt hơn rất nhiều.
David Stuart là nhà nghiên cứu tại Trung tâm Nghiên cứu Điện tử, Cao đẳng King’s College, London.
David Stuart explores the potential role of the research library in the data age. Sharing and long-term preservation of research data are increasingly important to the research process, strengthening the process of science and maximising a funder’s return on research investment. While some fields have embraced the sharing of data more fully than others, the sharing of research data is of growing interest across all scientific disciplines.
However, we are still transitioning from a document-centric view of science to a data-centric view, and the infrastructure is not yet in place for the seamless sharing and reuse of scientific data. A growing number of increasingly sophisticated instruments and sensors mean that the scientific data available for sharing is growing rapidly, but there is a lot of work involved in extracting that data from researchers’ hard drives and ensuring that it is accessible in the long term.
The rise of electronic publishing has disrupted traditional information roles, and the position that the library will hold in an increasingly data-centric science is not yet clear. There are undoubtedly opportunities, but if libraries move too slowly they may find other organisations fulfilling these roles.

A complex ecosystem

The modern scientific publishing system has become increasingly complicated. The traditional publishing process could be modelled as a simple loop, with articles flowing from researchers to publishers to libraries and back to researchers. In contrast, the modern system is modelled more as a network – with new relationships and increasingly overlapping roles. Today, research papers are not only submitted to journals, but to institutional and subject repositories as well. Institutional repositories are often hosted by library services, and hold grey literature as well as formal publications. In addition, the bundling of electronic journals by publishers diminishes the acquisitions role of the library, while open-access journals can potentially disrupt the traditional distribution role of publishing companies.
All models are necessarily over-simplifications, and the traditional journal model was more complex than the simple loop suggested here. Nonetheless, it is clearly the case that organisational roles are increasingly less rigid in academic publishing. It is into this more fluid ecosystem that the need for more data-centric services has emerged.
Increased interest in scientific data and a need for data-centric services provides a host of opportunities for the library to re-establish itself as having a central role within research institutions, but the overlapping roles of competing organisations mean that other organisations can quickly stake claims in areas that the library profession may have considered theirs by right.

The data lifecycle

Data lifecycle models can provide a framework for considering the opportunities available to library services in the sharing of research data. The UK Data Archive research data lifecycle distinguishes six stages in the data lifecycle; processing data; analysing data; preserving data; giving access to data; and re-using data. Many of these stages can benefit from the skills of the library community.
Effective data management starts at the beginning of the research process, not as an afterthought. Research libraries should be in a position to offer advice on the appropriate structure, storage, and metadata, for research data.
The long-term preservation of data is likely to have different formatting, storage, and metadata needs to the data during the creation process. Once again, research libraries should be in a position to offer advice. Most importantly, the storage of a research project’s data is likely to extend beyond the scope of an individual project, and needs to be stored in an appropriate repository.
Giving access to data is another area in which libraries can be involved. Providing access to the data not only requires that the data is available, but that it can be found and appropriate rights are provided for its reuse. The library community has a long history in the establishment of classification systems, and extensive experience of copyright.
At the final stage in the lifecycle, reuse of data requires the finding of data, and ensuring that sufficient information is available for the data to be reused. Of course there is a difference between opportunities being available and opportunities being taken, and for the most part libraries continue to be primarily document-centric.
Although many libraries have established institutional repositories, repositories continue to be focused on documents rather than data. Of the 2,727 repositories listed in OpenDOAR, the Directory of Open Access Repositories, only 131 are currently listed as containing datasets (4.8 per cent). This is not too dissimilar to the results from the same query at the beginning of 2011, which found the proportion to be 4.1 per cent.
Distinguishing between institutional repositories and disciplinary datasets draws a bleaker picture for institutional repositories, where only four per cent of institutional repositories are listed as containing datasets in comparison to 11.1 per cent of disciplinary repositories.
Specialised repositories can potentially provide more innovative interactive interfaces for specific types of data than a more general institutional repository might hope to achieve, although when data lasts longer than the project, questions remain over who will take responsibility for these orphan works in the long term if a repository closes or data/metadata needs to be updated.
Where libraries fail to provide sufficient new and innovative data services, others will. One example of this is the new data journals.

Repackaging data

Two new open-access journals that are based on research data rather research findings started publication in 2014: Scientific Data, from the Nature Publishing Group; and Wiley’s Geoscience Data Journal. These publications provide a place for detailed descriptions about how and why a dataset was collected, and are linked to the dataset itself in one of a number of approved repositories.
Such products potentially have advantages for both individual researchers and science as a whole. They provide a greater incentive for the sharing of data by providing a peer-reviewed publication that can be cited and for which a researcher can receive credit, without necessitating new insights or novel findings. They also help with researchers finding and reusing existing datasets.
Many of the advantages of these new data journals could have been achieved by the library community without the need for commercial publishers. There are also concerns about publishers expanding their scope when some people perceive them to have abused their market position with high journal price increases. But if libraries are to continue to be relevant, they must be as willing to adapt and learn from publishers’ willingness to innovate with data.

What service will libraries provide?

Iain Hrynaszkiewicz, head of data and HSS publishing in open research at Nature Publishing Group/Palgrave Macmillan, sees the role of the librarian as one that will continue to evolve, with greater emphasis on data literacy: ‘Librarians have historically been involved in information literacy training in all its forms, and research data are increasingly equal to other research outputs, such as papers, in research assessment and funding. Providing training on accessing, archiving, publishing and managing data is therefore a natural progression of this role.
‘Data Descriptors, such as those published by Scientific Data, are important for data discoverability and reusability and meeting funder and institution requirements for data sharing. They could be considered part of best practice for research data management and publication planning for any piece of research. For this reason, we are keen to work together with librarians and information professionals, in establishing researchers’ skills and understanding of the importance of data management,’ he said.
The need for on-site data management expertise ensures there will be a role for the library and information professional in the future of data management, although the extent to which most libraries and librarians can fulfil these needs is not yet clear. For every example of strong proactive data services, there seem to be many where its data services are limited or non-existent.
Technological change requires skill sets that may be limited in the information sector due to the focus of library schools in the past. Information professionals may continue to be part of work, but it is always possible that these workers are distributed on specific projects.

Conclusion

The transformative nature of innovation on library services has been a regular staple of the profession’s literature for many years. Often such works involve predictions that, if not doom-laden, may change the library role beyond all recognition. In comparison, the need for more data-centric services provides great opportunities that clearly fall within a library’s remit, but there are also many potential competitors.
If libraries continue to fulfil their core traditional role, then there needs to be far more innovative approaches to data. Failure to innovate successfully may see the library and librarians with a far more diminished role.
David Stuart is a research fellow at the Centre for e-Research, King’s College, London
Dịch: Lê Trung Nghĩa

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.