On
the role of a university library in the TDM landscape
By
Martine Oudenhoven, LIBER's Community Engagement Officer.
Bài
được đưa lên Internet ngày: 02/06/2017
25
năm trước, khi Laurents Sesink từng vẫn còn là sinh viên
sử học, luận án của anh về các quan hệ chính trị
quốc tế đã gồm nhiều đánh dấu các nhãn và các bài
đọc. Khi đó anh đã nghĩ “Phải có cách tốt hơn để
làm điều này”, vì thế anh đã xây dựng cơ
sở dữ liệu và bắt đầu công việc
về thông tin và số hóa. Bây giờ anh là người đứng
đầu của Trung tâm Hàn lâm Số (Centre
for Digital Scholarship) ở thư viện
Đại học Leiden. Trung tâm đã
được khởi xướng vào tháng 7/2016, và họ hiện đang
chỉ ra cách tốt nhất để hỗ trợ cho nghiên cứu.
Trung
tâm Hàn lâm Số ở Đại học Leiden vẫn còn quá mới. Nó
đã được bắt đầu như thế nào?
Nó
đã được ban lãnh đạo trường đại học khởi xướng,
vì họ muốn các nhà
khoa học có khả năng sử dụng các công cụ và các
công nghệ mới nhanh hơn. Đã có rồi
nhiều hoạt động liên tục trong lĩnh vực quản lý dữ
liệu và truy cập mở ở đại
học
này. Điều đó giải
thích vì sao tầm nhìn là phải có cửa hàng một cửa duy
nhất (one-stop-shop), nó làm việc cùng và tham chiếu tới
sự tinh thông đang có lan truyền khắp đại học. Trung
tâm rõ ràng không ngụ ý sẽ nắm lấy sự tinh thông này,
mà là để kết nối nó tốt hơn.
Trung
tâm Hàn lâm Số thực sự làm gì?
Chúng
tôi làm các việc khác nhau. Trước
hết, chúng tôi hỗ trợ các nhà
nghiên cứu để làm
cho các xuất
bản phẩm của họ là truy
cập mở và tìm kiếm các xuất bản phẩm truy cập mở.
Thứ 2, chúng tôi hỗ trợ họ bằng sự
quản lý dữ liệu nghiên cứu,
điều này cũng bao gồm sự bảo
tồn dữ liệu. Nhưng điều mới mẻ và thực sự
thú vị mà chúng tôi đang làm, là chúng tôi hỗ trợ các
nhà nghiên cứu
bằng khoa học dữ liệu. Việc khai thác văn bản và
dữ liệu cũng là một phần của gói này.
Các
thư viện đại học khác cũng có tiếp cận tương tự
chứ?
Chủ
yếu ở Mỹ và Anh, tôi nghĩ thế. Tại
Hà Lan chúng tôi là đầu tiên. Ở hầu hết các thư
viện đại học ở Hà Lan, các hoạt động đó là một
phần của ‘hỗ trợ nghiên cứu’, nên nó đang diễn
ra. Nhưng ở Leiden chúng tôi chọn phân đoạn nó, và phải
có các nhân viên chuyên tâm.
Vì
sao việc hỗ trợ cho các nhà
nghiên cứu bằng khoa học dữ liệu lại rất thú
vị?
Vì
nó là mới và vì chúng tôi vẫn còn chỉ ra cách để tổ
chức nó, những gì phải tập trung vào. Đó là những gì
làm cho nó trở nên thú vị. Có hàng ngàn nhà
nghiên cứu ở đại
học
này, và chúng tôi chỉ có 6 FTE ở trung tâm
của chúng tôi. Chúng tôi hy vọng mở rộng thành 12 FTE.
Nhưng thậm chí như vậy, chúng tôi vẫn phải tiến hành
lựa chọn.
Dạng
các lựa chọn nào vậy?
Chúng
tôi không thể chỉ hỗ trợ các nhà
nghiên cứu và phân phối các kết quả, chúng tôi
cũng phải huấn luyện cho họ để tiến hành, ví dụ,
việc khai thác văn bản và dữ liệu cho bản thân họ.
Chúng tôi đang thiết lập việc này qua
Dạy nghề Thư viện - Library
Carpentry
(trang
chuyên đào tạo các kỹ năng phần mềm cho những người
chuyên nghiệp về thư viện),
để chắc
chắn rằng các thủ thư của riêng chúng tôi trở thành
các đối tác hội thoại tốt khi nói về khoa học dữ
liệu.
Hiện
tại chúng tôi đang bắt đầu với Dạy nghề Dữ liệu -
Data Carpentry, cùng với Trung tâm Công nghệ Hà Lan về Khoa
học Đời sống (Dutch
Tech Centre for Life Sciences).
Các
thủ thư hàn lâm số của riêng chúng tôi cũng đang tham
gia khóa huấn luyện, để có khả năng huấn luyện những
người khác.
Ông
đã nói với tôi trước đó, ông đang làm việc chặt chẽ
cùng với các nhà
khoa học để tìm
ra những hỗ trợ nào họ cần. Ông có thể nói một chút
về điều này?
Chúng
tôi sử dụng phương pháp luận của dự án Agile, với
các yếu tố scrum. Ví dụ: một trong các nhà
nghiên cứu chúng tôi cùng làm việc đang nghiên cứu
văn học Trung Quốc - Malaysia (Sino-Malaysian literature). Chúng
tôi chia nhỏ nghiên cứu đó thành 2 bước lớn. Trước
tiên chúng tôi xem xét các dữ liệu, những gì cần thiết
để biến chúng thành FAIR
có được chăng? Ở bước thứ 2 chúng tôi đã xem xét
tính sẵn sàng của dữ liệu. Các cuốn sách, ví dụ, vẫn
nên được công nhận như những cuốn sách. Rồi chúng
tôi đi tới các phân tích: những phân tích nào nhà
nghiên cứu này có
thể làm, các công cụ nào có sẵn?
Nghe
có vẻ thú vị khi làm việc này chặt chẽ với các nhà
nghiên cứu!
Đúng
vậy, nhưng đó cũng là công việc rất nặng nhọc. Vì
thế chúng tôi đã học được là chúng tôi cần một
tiếp cận khác, đặc biệt khi nói về khai thác văn bản
và dữ liệu - TDM (Text and Data Mining). Trong tương
lai, chúng tôi sẽ chia sự hỗ trợ của chúng tôi thành 3
mức:
-
Khóa học giới thiệu về khai thác văn bản và dữ liệu, với các ví dụ. Chúng tôi cũng phải xem liệu chúng tôi có thể kết nối tới thứ gì đó đang tồn tại rồi hay không.
-
Tư vấn cho các nhà nghiên cứu, những người có sự hiểu biết rồi về TDM về các công cụ có sẵn, và cách họ có thể tùy biến chúng cho các nhu cầu của họ.
-
Việc hỗ trợ cho một nhà nghiên cứu biết rồi chính xác những gì anh/chị ta cần, nhưng các công cụ đang tồn tại còn chưa đủ, nên họ cần nhiều hỗ trợ hơn. Nhưng chúng tôi chũng sẽ chỉ có khả năng chào điều này cho số lượng giới hạn các nhà nghiên cứu.
Chúng
tôi đã học được nhiều từ làm việc với các nhà
nghiên cứu, rằng chúng tôi có thể đã học được
trong khi ngồi ở các bàn làm việc của riêng chúng tôi.
Và họ cũng học được từ chúng tôi, vì thế đó là sự
tương tác vui vẻ.
Ông
chủ yếu làm việc với các nhà
nghiên cứu nhân văn à?
Nếu
nói về việc khai thác văn bản và dữ liệu: đúng. Vâng,
nhân văn, luật, một chút khoa học xã hội. Các ngành
nghề khác nhau đi tới chúng tôi với các câu hỏi khác
nhau. Các nhà
khoa học đời sống
quen thuộc hơn trong việc tự họ phát triển các công cụ.
Họ
chủ yếu tìm kiếm sự hỗ trợ với truy
cập mở và quản lý dữ
liệu nghiên cứu.
Theo
ông, đâu là thách thức lớn nhất cho việc khai thác văn
bản và dữ liệu?
Để
giữ cho tổng quan công việc được hoàn thành, thì các
công nghệ, các kết quả, các công cụ phần mềm tốt
nhất… Có rồi nhiều điều mới luôn xuất hiện. Là
thách thức để nêu ra các công việc nào là tốt nhất
trong từng trường hợp. Và sau đó: nếu
bạn muốn TDM được triển khai rộng rãi hơn, tri thức
phải được cải thiện. Ở vài thời điểm, từng
người nên có sự tinh thông cơ bản, và sau đó chúng tôi
có thể bắt đầu huấn luyện ở mức chuyên gia.
Ông
nghĩ gì về vai trò của các thư viện trong bức tranh TDM?
Hiện
tại chúng tôi hầu hết làm việc theo yêu cầu. Chúng tôi
không nên chào những điều không có nhu cầu. Nhu cầu
này có thể tới từ chính sách, hoặc trực tiếp từ các
nhà khoa
học. Nhưng tôi nghĩ cũng là quan trọng để nhìn
trước, ví dụ, để thấy các công nghệ nào đang được
phát triển rồi, và các xu thế đang diễn ra. Điều đó
sẽ làm cho dễ dàng hơn để chuẩn bị cho sự chuyển
đổi quá độ. Sẽ có những vấp váp trên con đường
đó, và dễ dàng hơn nhiều để làm việc với họ nếu
bạn được chuẩn bị tốt hơn. Các
thư viện theo truyền thống được tập trung nhiều hơn
vào phần hành chính của mọi điều, nhưng tôi nghĩ chúng
tôi có thể cũng thích nghi được nhiều hơn mà không
đánh mất đi độ tin cậy, tất
nhiên rồi. Ở đây chúng
tôi có thể học được từ các viện nghiên cứu.
Bài
báo này ban đầu được đăng trên website của FutureTDM
và OpenMinTeD, 2 dự án mà
LIBER là
đối
tác.
25
years ago, when Laurents Sesink was still a history student, his
thesis on political internal relations included a lot of reading and
tally marks. Back then he already thought “There must be a better
way to do this”, so he built a database and started to get into
informatics and digitisation. Now he is the head of the Centre
for Digital Scholarship at the library of Leiden University. The
centre kicked off in July 2016, and they are currently figuring out
the best way to support research.
The
Centre for Digital Scholarship at Leiden University is still very
new. How did it start?
It
was initiated by the executive board of the university, because they
wanted scientists to be able to use new tools and technologies
faster. There were already a lot of activities going on in the field
of data management and open access in this university. That’s why
the vision is to have a one-stop-shop, that works together and refers
to the existing expertise spread out through the university. The
centre is explicitly not meant to take over this expertise, but to
connect it better.
What
does the Centre for Digital Scholarship actually do?
We
do different things. Firstly, we support researchers to make their
publications open access and to find open access publications.
Secondly, we support them with research data management, this also
includes digital preservation of data. But the real fun and new thing
we are doing, is that we support researchers with data science. Text
and data mining is also part of this package.
Do
other university libraries have a similar approach?
Mainly
in the US and the UK I think. In The Netherlands we are the first. In
most Dutch university libraries, the activities are part of the
‘research support’, so it does happen. But in Leiden we chose to
cluster it, and to have dedicated staff.
Why
is supporting researchers with data science so much fun?
Because
it is new and because we are still figuring out how to organise it,
what to focus on. That’s what makes it interesting. There are
thousands of researchers in this university, and we only have 6 FTE
in our centre. We hope to extend it to 12 FTE. But even then, we
still have to make choices.
What
kind of choices?
We
cannot only support researchers and deliver results, we also have to
train them to do for example text and data mining themselves. We are
setting this up through a
Library Carpentry, to make sure that our own librarians become
good conversation partners when it comes to data science. Currently
we are starting this up together with the National Library and the
Vrije University. We are also starting with Data Carpentry, together
with the Dutch Tech Centre for Life
Sciences. Our own digital scholarship librarians are also doing a
workshop, in order to be able to train others.
You
told me before, that you are working closely together with scientists
to find out what support they need. Can you tell a bit more about
this?
We
use the Agile project methodology, with elements of scrum. An
example: one of the researchers we work with investigates
Sino-Malaysian literature. We broke down the research into big steps.
First we looked at the data, what is necessary to have them FAIR?
In the second step we looked at the availability of the data. Books
for example, should still be recognized as books. Then we went to the
analyses: which analyses can this researcher do, which tools are
available?
Sounds
like fun to work this closely with researchers!
Absolutely,
but it is also very labour intensive. So we did learn that we need a
different approach, especially when it comes to TDM. In the future,
we will break down our support into 3 levels:
-
An introductory course on text and data mining, with examples. We also have to see if we can connect to something that already exists.
-
Advise researchers who already have an understanding of TDM on the tools that are available, and how they can adapt them to their needs.
-
Supporting a researcher who already knows exactly what he or she needs, but the existing tools are not sufficient, so they need more support. But we will only be able to offer this to a limited number of researchers.
We
did learn a lot from working with researchers, that we could not have
learned while sitting at our own desks. And they learn from us, so it
is a nice interaction.
Do
you mainly work with humanities researchers?
When
it comes to text and data mining: yes. Well, humanities, law, a bit
of social sciences. Different disciplines come to us with different
questions. Life scientists are more used to developing tools on their
own. They are mainly looking for support with open access and
research data management.
What
do you think is the biggest challenge for text and data mining?
To
keep the overview of the work that has been done, the technologies,
the results, the best software tools… There already is a lot and
new things pop up all the time. It can be challenging to figure out
what works best in each case. And then: if you want TDM to be taken
up more widely, knowledge has to be improved. At some point,
everybody should have the basic expertise, and then we can start
training at the expert level.
What
do you think is the role of libraries in the TDM landschape?
At
the moment we mostly work demand-driven. We should not offer things
if there is no demand. This demand can come from policy, or directly
from scientists. But I think it is also important to look ahead, for
example to see which technologies are already being developed, the
trends that are occurring. That will make it easier to prepare the
transition. There will be bumps in the road, and it is much easier to
deal with them if you are better prepared. Libraries are
traditionally more focused on the administrative side of things, but
I think we can be more adaptive as well, without losing reliability
of course. Here we can learn from research institutes.
This
article was originally posted on the websites of FutureTDM
and OpenMinTeD, two projects in
which LIBER is a partner.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.