Published
or Private: How to do both? via OpenAIRE-Advance & EOSC-hub
Kalliroi Mavrantoni
2018-05-23
Bài được đưa
lên Internet ngày: 23/05/2018
Lời
người dịch: Với những ai ở Việt Nam thực sự muốn
làm việc với dữ liệu mở và muốn nặc danh hóa các dữ
liệu cá nhân sao cho chúng vẫn có khả năng tuân thủ các
nguyên tắc FAIR, thì bài này là hướng dẫn thực hành
tốt với các dịch vụ của OpenAIRE và EOSC-hub của châu
Âu. Nó là hoàn toàn khác với những gì chúng ta thường
làm về
dữ liệu.
Vòng đời nghiên
cứu dễ dàng được làm bằng việc sử dụng các dịch
vụ của OpenAIRE và EOSC-hub: làm cho dữ liệu thành mở và
nặc danh
Becky là nhà khoa
học xã hội sự nghiệp sớm. Cô thích thú khi được
chào vào vị trí có tính cạnh tranh trong một phòng danh
tiến để làm việc trong một dự án nghiên cứu 5 năm
của chương trình quốc tế Horizon của Ủy ban châu Âu
với nhiều đối tác. Dự án đã bắt đầu 1 năm trước
khi cô tới, và cơ sở của cô lãnh đạo nghiên cứu về
ngôn ngữ được sử dụng để mô tả sự nhập cư trên
báo chí quốc gia.
Dữ liệu khắp
mọi nơi
Becky biết rằng
số lượng đáng kể các dữ liệu nghiên cứu được thu
thập rồi trong các cuộc phỏng vấn với các bàn biên
tập viên. Dữ liệu nghiên cứu này được lưu trữ an
toàn trong khu vực tính toán đám mây đóng trong Dịch vụ
Dữ liệu Nhạy cảm - TSD (Service for Sensitive Data). TSD là
nền tảng điện toán đám mây được thiết kế tuân thủ
các quy định về an toàn phù hợp để xử lý các dữ
liệu nhạy cảm. Dịch vụ này được cung cấp qua Hub.
Có dữ liệu được
lưu trữ an toàn và an ninh qua dịch vụ TSD ngụ ý là chỉ
các nhà nghiên cứu có ủy quyền có được truy cập tới
nó. Dữ liệu đó đã giới hạn sự tiếp cận, không
phát hiện được và không thể được chia sẻ dễ dàng
với các nhà nghiên cứu khác. Điều này giải thích vì
sao ‘tính FAIR’ (FAIRness) của dữ liệu là khá tệ.
Trong tuần thứ 2
của côm Becky nhận được lời nhắc từ người điều
phối dự án rằng Kế hoạch Quản lý Dữ liệu - DMP
(Data
Management Plan) H2020 tới lúc phải cập nhật. Cô cần
tìm ra 2 điều:
-
Cách để cập nhật kế hoạch quản lý dữ liệu - về những gì cô có ít kinh nghiệm và;
-
Cách để tuân thủ với chỉ thị dữ liệu nghiên cứu mở của Ủy ban châu Âu (EC).
Văn phòng châu Âu
của trường Đại học của Becky trước đó đã trao cho
cô thông tin về Bàn trợ giúp của OpenAIRE (OpenAIRE
Helpdesk). Bàn trợ giúp của OpenAIRE là nơi tất
cả các nhà nghiên cứu tham gia trong các dự án được
Horizon của EC cấp vốn có thể hưởng lợi từ sự hỗ
trợ cá nhân từ một loạt các chuyên gia để làm cho dữ
liệu của dự án của họ phát hiện được và truy cập
được tới những người khác. Điều này bao gồm các
khuyến cáo làm cho chúng thành tìm kiếm được, truy cập
được, tương hợp được và sử dụng lại được -
FAIR (Findable, Accessible, Interoperable, Reusable) và phác thảo
DMP. DMP là quan trọng, vì nó cho phép nhà cấp vốn kiểm
tra liệu nghiên cứu của dự án có được quản lý phù
hợp với thỏa thuận cấp vốn hay không. Becky được chỉ
dẫn tới bộ
các tư liệu tuân thủ chỉ thị có thể giúp cô hiểu
các lợi ích của dữ
liệu mở và vì sao việc chia sẻ dữ liệu các kết
quả đầu ra của dự án xa và rộng là tốt cho xã hội,
cho bản thân dự án và cho lĩnh vực nghiên cứu của cô.
Mà dữ liệu là
có thể chia sẻ được?
Theo DMP, mỗi khi
một tập hợp dữ liệu được đưa vào một xuất bản
phẩm, nó cần phải sẵn sàng công khai để tuân thủ với
các nguyên tắc FAIR. Vì tập hợp dữ liệu đó chứa các
thông tin nhạy cảm, Becky trước hết cần nặc danh hóa
các thông tin cá nhân từ những người được phỏng vấn.
Quan tâm của cô
về tính nhạy cảm của dữ liệu được tăng cường
bằng một thư điện tử từ phòng đạo đức của trường
đại học của cô nhắc cô kiểm tra tình trạng dữ liệu
cá nhân và nhu cầu tuân thủ với các
nguyên tắc GDPR. Nhận thức được rằng nhiều dữ
liệu của dự án là nhạy cảm, Becky quay lại Bàn trợ
giúp của OpenAIRE để chỉ dẫn cho cô qua các lựa chọn
khác nhau.
Giải
pháp nặc danh
Bàn
trợ giúp đề xuất AMNESIA,
một công cụ được OpenAIRE phát triển để hỗ trợ cho
các nhà nghiên cứu nặc danh hóa dữ liệu nghiên cứu của
họ. AMNESIA là công cụ nặc danh hóa dữ liệu mềm dẻo,
cho phép loại bỏ các thông tin nhận diện khỏi dữ liệu.
Nó loại bỏ các tên như các mã
nhận diện, các SSN …, nhưng cũng biến đổi các mã nhận
diện như ngày sinh và mã thành phố (zip code) sao cho các
cá nhân không thể nhận diện được theo dữ liệu đó.
Đủ
riêng tư - Mở cho tất cả
Bây
giờ tập hợp dữ liệu được nặc danh hóa, Becky làm
cho nó sẵn sàng và phát hiện được, bằng việc tải nó
lên B2SHARE
- một kho dữ
liệu được cung
cấp qua Hub. Với B2SHARE, các nhà
nghiên cứu và các cộng
đồng có thể xuất bản các tập hợp dữ liệu và có
được Mã nhận diện Đối tượng Số - DOI (Digital Object
Identifier) để sử dụng trong các xuất bản phẩm. Tất
cả các tập hợp dữ liệu được xuất bản trong B2SHARE
được tự động làm cho phát hiện được và tìm thấy
được qua B2FIND
- một cổng phát hiện siêu
dữ liệu của EUDAT mà cho
phép Bây giờ tập hợp dữ liệu được nặc danh hóa,
Becky làm cho nó sẵn sàng và phát hiện được, bằng việc
tải nó lên B2SHARE
- một kho dữ
liệu được cung
cấp qua Hub. Với B2SHARE, các nhà
nghiên cứu và các cộng
đồng có thể xuất bản các tập hợp dữ liệu và có
được Mã nhận diện Đối tượng Số - DOI (Digital Object
Identifier) để sử dụng trong các xuất bản phẩm. Tất
cả các tập hợp dữ liệu được xuất bản trong B2SHARE
được tự động làm cho phát hiện được và tìm thấy
được qua B2FIND
- một cổng phát hiện siêu
dữ liệu của EUDAT mà cho
phép những người sử dụng tìm các bộ sưu tập dữ
liệu ở phạm vi quốc tế và liên lĩnh vực.
Sau vài tháng,
Becky phát hiện rằng tập hợp dữ liệu đó đã được
trích dẫn trong một số trường hợp bởi các nhà nghiên
cứu khác và cô có thể thấy qua thống kê các bản tải
về được duy trì trong dịch vụ B2SHARE (chỉ ra số lượng
các bản tải về) rằng các đối tượng trong tập hợp
dữ liệu đó đã được tải về thường xuyên.
Kết quả:
Nhờ có các dịch vụ của OpenAIRE và EOSC-hub, Becky đã có
khả năng có được sự hỗ trỡ tại chỗ để làm cho
nghiên cứu là mở vì lợi ích của tất cả, chắc chắn
rằng dữ liệu của cô được quản lý tốt với kế
hoạch quản lý, được lưu trữ và được xuất bản an
toàn, cùng lúc tuân thủ với các yêu cầu GDPR.
The
research life-cycle made easy using OpenAIRE and EOSC-hub services:
making data open yet anonymous
Becky
is an early career social scientist. She is excited to have been
offered a competitive post in a well-established department to work
on an international EC Horizon 2020 5-year research project with many
partners. The project started a year before she arrived, and her
institution leads the research on the language used to describe
immigration in the national press.
Data
Everywhere
Becky
knows that a significant amount of research data has already been
gathered during interviews with desk editors. This research data is
safely stored in a closed cloud computing area on the secure TSD –
Service for Sensitive Data service. TSD is a cloud computing platform
designed to comply with the security regulations appropriate to
handle sensitive data. This service is provided through the Hub.
Having
the data safely and securely stored via the TSD service means that
only the authorised researchers have access to it. The data has
limited accessibility, is not discoverable and cannot be easily
shared with other researchers. This is why the ‘FAIRness’ of the
data is rather poor.
In
her second week, Becky receives a reminder from the project’s
coordinator that their H2020
Data Management Plan (DMP)
is
due for update. She needs to find out two things:
-
How to update the data management plan – about which she has little experience and;
-
How to comply with the EC’s open research data mandate.
Becky’s
University European Office had previously given her information about
the OpenAIRE
Helpdesk. The OpenAIRE Helpdesk is where all the researchers
participating in EC’s Horizon 2020 funded projects can benefit from
personal assistance from a range of experts to make their project
data discoverable and accessible to others. This includes
recommendations for making them FAIR (Findable, Accessible,
Interoperable and Reusable) and drafting the DMP. The DMP is
important, since it
allows
the funder to check whether the project’s research is managed
according to the funding agreement.
Becky
is directed to a
suite of materials about mandate compliance
that
can help her understand the benefits of open data and why sharing the
project data outcomes far and wide is good for society, the project
itself and her research field.
But
Is the Data Shareable?
According
to the DMP, everytime a dataset is included in a publication, it
needs to be publicly available to comply to the FAIR principles.
Since the dataset contains sensitive information, Becky first needs
to anonymise personal information from the people interviewed.
Her
concern about the sensitiveness of the data is reinforced by an email
from her university’s ethics department reminding her to check the
status of personal data and the need to conform to GDPR
principles. Realising that much of the project data is sensitive,
Becky goes back to the OpenAIRE Helpdesk to guide her through the
different options.
An
Anonymous Solution
The
helpdesk proposes AMNESIA,
a tool developed by OpenAIRE to support researchers to anonymise
their research data. AMNESIA is a flexible data anonymization tool
that allows to remove identifying information from data. It removes
direct identifiers like names, SSNs etc., but also transforms
secondary identifiers like birth date and zip code so that
individuals cannot be identified in the data.
Private
Enough – Open to All
Now
that the dataset is anonymised, Becky makes it available and
discoverable, by uploading it to B2SHARE
— a
data repository provided via the Hub. With B2SHARE, researchers and
communities can publish datasets and get Digital Object Identifier
(DOI) to use in publications. All datasets published in B2SHARE are
automatically made discoverable and findable via B2FIND
— an
EUDAT metadata discovery portal that allows users to find data
collections within an international and inter-disciplinary scope.
After
a few months, Becky discovers that the dataset has been cited on a
number of occasions by other researchers and she can see via the
download statistics maintained within the B2SHARE service (showing
the number of downloads) that objects within the dataset has been
downloaded frequently.
The
Outcome: Thanks
to OpenAIRE and EOSC-hub services, Becky was able to get on-the-spot
support to make research open for the benefit of all, making sure
that her data is well-managed with a management plan, safely stored
and published, complying at the same time with GDPR requirements.
Dịch: Lê Trung
Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.