Thứ Hai, 2 tháng 7, 2018

Xuất bản hay riêng tư: Cách để làm cả 2? qua OpenAIRE-Advance & EOSC-hub

Published or Private: How to do both? via OpenAIRE-Advance & EOSC-hub
Kalliroi Mavrantoni 2018-05-23
Bài được đưa lên Internet ngày: 23/05/2018
Lời người dịch: Với những ai ở Việt Nam thực sự muốn làm việc với dữ liệu mở và muốn nặc danh hóa các dữ liệu cá nhân sao cho chúng vẫn có khả năng tuân thủ các nguyên tắc FAIR, thì bài này là hướng dẫn thực hành tốt với các dịch vụ của OpenAIRE và EOSC-hub của châu Âu. Nó là hoàn toàn khác với những gì chúng ta thường làm về dữ liệu.
Vòng đời nghiên cứu dễ dàng được làm bằng việc sử dụng các dịch vụ của OpenAIRE và EOSC-hub: làm cho dữ liệu thành mở và nặc danh
Becky là nhà khoa học xã hội sự nghiệp sớm. Cô thích thú khi được chào vào vị trí có tính cạnh tranh trong một phòng danh tiến để làm việc trong một dự án nghiên cứu 5 năm của chương trình quốc tế Horizon của Ủy ban châu Âu với nhiều đối tác. Dự án đã bắt đầu 1 năm trước khi cô tới, và cơ sở của cô lãnh đạo nghiên cứu về ngôn ngữ được sử dụng để mô tả sự nhập cư trên báo chí quốc gia.
Dữ liệu khắp mọi nơi
Becky biết rằng số lượng đáng kể các dữ liệu nghiên cứu được thu thập rồi trong các cuộc phỏng vấn với các bàn biên tập viên. Dữ liệu nghiên cứu này được lưu trữ an toàn trong khu vực tính toán đám mây đóng trong Dịch vụ Dữ liệu Nhạy cảm - TSD (Service for Sensitive Data). TSD là nền tảng điện toán đám mây được thiết kế tuân thủ các quy định về an toàn phù hợp để xử lý các dữ liệu nhạy cảm. Dịch vụ này được cung cấp qua Hub.
Có dữ liệu được lưu trữ an toàn và an ninh qua dịch vụ TSD ngụ ý là chỉ các nhà nghiên cứu có ủy quyền có được truy cập tới nó. Dữ liệu đó đã giới hạn sự tiếp cận, không phát hiện được và không thể được chia sẻ dễ dàng với các nhà nghiên cứu khác. Điều này giải thích vì sao ‘tính FAIR’ (FAIRness) của dữ liệu là khá tệ.
Trong tuần thứ 2 của côm Becky nhận được lời nhắc từ người điều phối dự án rằng Kế hoạch Quản lý Dữ liệu - DMP (Data Management Plan) H2020 tới lúc phải cập nhật. Cô cần tìm ra 2 điều:
  1. Cách để cập nhật kế hoạch quản lý dữ liệu - về những gì cô có ít kinh nghiệm và;
  2. Cách để tuân thủ với chỉ thị dữ liệu nghiên cứu mở của Ủy ban châu Âu (EC).
Văn phòng châu Âu của trường Đại học của Becky trước đó đã trao cho cô thông tin về Bàn trợ giúp của OpenAIRE (OpenAIRE Helpdesk). Bàn trợ giúp của OpenAIRE là nơi tất cả các nhà nghiên cứu tham gia trong các dự án được Horizon của EC cấp vốn có thể hưởng lợi từ sự hỗ trợ cá nhân từ một loạt các chuyên gia để làm cho dữ liệu của dự án của họ phát hiện được và truy cập được tới những người khác. Điều này bao gồm các khuyến cáo làm cho chúng thành tìm kiếm được, truy cập được, tương hợp được và sử dụng lại được - FAIR (Findable, Accessible, Interoperable, Reusable) và phác thảo DMP. DMP là quan trọng, vì nó cho phép nhà cấp vốn kiểm tra liệu nghiên cứu của dự án có được quản lý phù hợp với thỏa thuận cấp vốn hay không. Becky được chỉ dẫn tới bộ các tư liệu tuân thủ chỉ thị có thể giúp cô hiểu các lợi ích của dữ liệu mở và vì sao việc chia sẻ dữ liệu các kết quả đầu ra của dự án xa và rộng là tốt cho xã hội, cho bản thân dự án và cho lĩnh vực nghiên cứu của cô.
Mà dữ liệu là có thể chia sẻ được?
Theo DMP, mỗi khi một tập hợp dữ liệu được đưa vào một xuất bản phẩm, nó cần phải sẵn sàng công khai để tuân thủ với các nguyên tắc FAIR. Vì tập hợp dữ liệu đó chứa các thông tin nhạy cảm, Becky trước hết cần nặc danh hóa các thông tin cá nhân từ những người được phỏng vấn.
Quan tâm của cô về tính nhạy cảm của dữ liệu được tăng cường bằng một thư điện tử từ phòng đạo đức của trường đại học của cô nhắc cô kiểm tra tình trạng dữ liệu cá nhân và nhu cầu tuân thủ với các nguyên tắc GDPR. Nhận thức được rằng nhiều dữ liệu của dự án là nhạy cảm, Becky quay lại Bàn trợ giúp của OpenAIRE để chỉ dẫn cho cô qua các lựa chọn khác nhau.
Giải pháp nặc danh
Bàn trợ giúp đề xuất AMNESIA, một công cụ được OpenAIRE phát triển để hỗ trợ cho các nhà nghiên cứu nặc danh hóa dữ liệu nghiên cứu của họ. AMNESIA là công cụ nặc danh hóa dữ liệu mềm dẻo, cho phép loại bỏ các thông tin nhận diện khỏi dữ liệu. Nó loại bỏ các tên như các mã nhận diện, các SSN …, nhưng cũng biến đổi các mã nhận diện như ngày sinh và mã thành phố (zip code) sao cho các cá nhân không thể nhận diện được theo dữ liệu đó.
Đủ riêng tư - Mở cho tất cả
Bây giờ tập hợp dữ liệu được nặc danh hóa, Becky làm cho nó sẵn sàng và phát hiện được, bằng việc tải nó lên B2SHARE - một kho dữ liệu được cung cấp qua Hub. Với B2SHARE, các nhà nghiên cứu và các cộng đồng có thể xuất bản các tập hợp dữ liệu và có được Mã nhận diện Đối tượng Số - DOI (Digital Object Identifier) để sử dụng trong các xuất bản phẩm. Tất cả các tập hợp dữ liệu được xuất bản trong B2SHARE được tự động làm cho phát hiện được và tìm thấy được qua B2FIND - một cổng phát hiện siêu dữ liệu của EUDAT mà cho phép Bây giờ tập hợp dữ liệu được nặc danh hóa, Becky làm cho nó sẵn sàng và phát hiện được, bằng việc tải nó lên B2SHARE - một kho dữ liệu được cung cấp qua Hub. Với B2SHARE, các nhà nghiên cứu và các cộng đồng có thể xuất bản các tập hợp dữ liệu và có được Mã nhận diện Đối tượng Số - DOI (Digital Object Identifier) để sử dụng trong các xuất bản phẩm. Tất cả các tập hợp dữ liệu được xuất bản trong B2SHARE được tự động làm cho phát hiện được và tìm thấy được qua B2FIND - một cổng phát hiện siêu dữ liệu của EUDAT mà cho phép những người sử dụng tìm các bộ sưu tập dữ liệu ở phạm vi quốc tế và liên lĩnh vực.
Sau vài tháng, Becky phát hiện rằng tập hợp dữ liệu đó đã được trích dẫn trong một số trường hợp bởi các nhà nghiên cứu khác và cô có thể thấy qua thống kê các bản tải về được duy trì trong dịch vụ B2SHARE (chỉ ra số lượng các bản tải về) rằng các đối tượng trong tập hợp dữ liệu đó đã được tải về thường xuyên.
Kết quả: Nhờ có các dịch vụ của OpenAIRE và EOSC-hub, Becky đã có khả năng có được sự hỗ trỡ tại chỗ để làm cho nghiên cứu là mở vì lợi ích của tất cả, chắc chắn rằng dữ liệu của cô được quản lý tốt với kế hoạch quản lý, được lưu trữ và được xuất bản an toàn, cùng lúc tuân thủ với các yêu cầu GDPR.
The research life-cycle made easy using OpenAIRE and EOSC-hub services: making data open yet anonymous
Becky is an early career social scientist. She is excited to have been offered a competitive post in a well-established department to work on an international EC Horizon 2020 5-year research project with many partners. The project started a year before she arrived, and her institution leads the research on the language used to describe immigration in the national press.
Data Everywhere
Becky knows that a significant amount of research data has already been gathered during interviews with desk editors. This research data is safely stored in a closed cloud computing area on the secure TSD – Service for Sensitive Data service. TSD is a cloud computing platform designed to comply with the security regulations appropriate to handle sensitive data. This service is provided through the Hub.
Having the data safely and securely stored via the TSD service means that only the authorised researchers have access to it. The data has limited accessibility, is not discoverable and cannot be easily shared with other researchers. This is why the ‘FAIRness’ of the data is rather poor.
In her second week, Becky receives a reminder from the project’s coordinator that their H2020 Data Management Plan (DMP) is due for update. She needs to find out two things:
  1. How to update the data management plan – about which she has little experience and;
  2. How to comply with the EC’s open research data mandate.
Becky’s University European Office had previously given her information about  the OpenAIRE Helpdesk. The OpenAIRE Helpdesk is where all the researchers participating in EC’s Horizon 2020 funded projects can benefit from personal assistance from a range of experts to make their project data discoverable and accessible to others. This includes recommendations for making them FAIR (Findable, Accessible, Interoperable and Reusable) and drafting the DMP. The DMP is important, since it allows the funder to check whether the project’s research is managed according to the funding agreement. Becky is directed to a suite of materials about mandate compliance that can help her understand the benefits of open data and why sharing the project data outcomes far and wide is good for society, the project itself and her research field.
But Is the Data Shareable?
According to the DMP, everytime a dataset is included in a publication, it needs to be publicly available to comply to the FAIR principles. Since the dataset contains sensitive information, Becky first needs to anonymise personal information from the people interviewed.
Her concern about the sensitiveness of the data is reinforced by an email from her university’s ethics department reminding her to check the status of personal data and the need to conform to GDPR principles. Realising that much of the project data is sensitive, Becky goes back to the OpenAIRE Helpdesk to guide her through the different options.
An Anonymous Solution
The helpdesk proposes AMNESIA, a tool developed by OpenAIRE to support researchers to anonymise their research data. AMNESIA is a flexible data anonymization tool that allows to remove identifying information from data. It removes direct identifiers like names, SSNs etc., but also transforms secondary identifiers like birth date and zip code so that individuals cannot be identified in the data.
Private Enough – Open to All
Now that the dataset is anonymised, Becky makes it available and discoverable, by uploading it to B2SHAREa data repository provided via the Hub. With B2SHARE, researchers and communities can publish datasets and get Digital Object Identifier (DOI) to use in publications. All datasets published in B2SHARE are automatically made discoverable and findable via B2FINDan EUDAT metadata discovery portal that allows users to find data collections within an international and inter-disciplinary scope.
After a few months, Becky discovers that the dataset has been cited on a number of occasions by other researchers and she can see via the download statistics maintained within the B2SHARE service (showing the number of downloads) that objects within the dataset has been downloaded frequently.
The Outcome: Thanks to OpenAIRE and EOSC-hub services, Becky was able to get on-the-spot support to make research open for the benefit of all, making sure that her data is well-managed with a management plan, safely stored and published, complying at the same time with GDPR requirements.
Dịch: Lê Trung Nghĩa

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.