Thứ Hai, 25 tháng 8, 2014

Chúng ta không thể làm khoa học hiện đại trừ phi nó là mở


We cannot do modern science unless it's open
Posted 11 Aug 2014 by Peter Murray-Rust
Bài được đưa lên Internet ngày: 11/08/2014
Lời người dịch: Kinh nghiệm của một nhà khoa học với 5 công việc có được từ nguồn mở đã chỉ ra rằng sẽ không thể làm khoa học hiện đại được nếu nó không là mở.
Mở là về việc chia sẻ và cộng tác. Chính ý tưởng rằng “chúng ta” là mạnh mẽ hơn, đáng làm và đầy đủ hơn là cái “Tôi”. Tôi không thể hứa công việc, nhưng tôi biết rằng mở đang trở nên rất lớn. Các chính phủ và những người cấp vốn đang thúc đẩy chương trình nghị sự mở, thậm chí qua các viện sỹ thường không có quan tâm hoặc tự quan tâm nghiêm túc.
Một số chính phủ và một số công ty nhận thức được giá trị của các đội; các viện trường và các viện sỹ thường không. Các giá trị sai về yếu tố tác động và các giá trị sai về việc thúc đẩy hàn lâm ngụ ý rằng truy cập mở là một sự phản ánh nghèo nàn của mở, hoặc những gì bạn có thể nhận thức được như một cách thức nguồn mở.
Lần đầu tiên tôi đã bắt đầu nghĩ về sử dụng lại mã vào năm 1980 khi tôi đã phát triển một tiếp cận dữ liệu tinh thể học sử dụng lại được như một công cụ nghiên cứu. Các tinh thể đã được xuất bản như hàng chục ngàn các tài liệu độc lập; tầm nhìn của tôi từng là bằng việc sử dụng tất cả chúng cùng nhau thì chúng ta có thể phát hiện các mẫu mà có thể chỉ ra khoa học mới. Đặc biệt, bản thân tôi và các cộng tác viên của tôi đã chỉ ra rằng các hình chụp của một tinh thể trong các môi trường khác nhau có thể đưa ra thông tin về các dao động và thậm chí các phản ứng hóa học. Tôi đã viết nhiều về phần mềm trong FORTRAN IV. Nó xây dựng trên các gói CONNSER và GEOM lớn của Sam Motherwell. Tôi xây dựng trên toàn bộ một mảng lớn các công cụ thống kê và phân tích, và chúng tôi đã xuất bản các tài liệu cùng. Sau đó, tôi đã đi vào nền công nghiệp dược phẩm để sử dụng các ý tưởng đó trong phát hiện thuốc và quyên góp phần mềm cho một tổ chức, trên cơ sở là nếu họ muốn phát triển nó thì họ có thể liên hệ với tôi và chúng tôi có thể làm việc chung cùng nhau. Điều đó đã không xảy ra. Điều này xảy ra trước cả các giấy phép, trước cả Richard M. Stallman, trước khi mọi người lo lắng về quyền sở hữu. Phần mềm đã gộp vào hệ thống của chúng, và tên tôi đã bị loại bỏ. Tôi thậm chí ngồi qua một bài giảng nơi mà họ đã trình bày nó như là của riêng họ. Tôi đã bỏ qua nó bây giờ, nhưng tôi đã học được.
Mã từng rất phức tạp, và tôi nhận thức được rằng phải có cách tốt hơn, nơi mà chúng tôi viết các module sử dụng lại được. Tôi từng có ấn tượng với NAG và lấy tiếp cận theo module như là trọng tâm. Từng là khó để làm điều này trong hóa học khi còn ít rõ ràng những điều cơ bản là gì. Bạn có thể viết một trình đường chéo của mảng vì nó rõ những gì các đầu vào và đầu ra, nhưng ít rõ ràng hơn cách để tính toán một đống các module (khó khăn hơn so với nó dường như - bạn có nhớ về các chất đồng vị không!?) Vì thế tôi đã bắt đầu viết một tập hợp các thủ tục sử dụng lại được trong 1990 trên FORTRAN. Ở giai đoạn đó, tôi cũng từng dạy các lớp buổi tối ở Birkbeck College về sinh và hóa tin và lấy các module đó cho sinh viên. Vấn đề là các ngôn ngữ đã thay đổi, và vì thế tôi đã biến đổi chúng sang C bằng việc sử dụng f2c (nó làm việc, nhưng không giống như mã được sinh ra!). Sau đó, tôi đã phát hiện ra TCL/TK và đã yêu nó vì về đồ họa - ngay sau đó tôi được một người bán hàng từ Sun Microsystems phát hiện ra.
Họ đã tìm thấy tôi chỉ vì tôi từng nổi bật hơn nhiều so với những người khác.
Vào năm 1994 Henry Rzepa và tôi đã phát triển Chemical MIME - đây từng là một dự án mở (dù không được gắn nhãn chính thức) nơi mà chúng tôi đã tạo ra một ý tưởng hóa học mà quét web trong 6 tuần. Nó dựa vào các chương trình mở RasMol và Mage, chúng tôi có thể tự do phân phối nó để chạy trên các trình duyệt. Chemical MIME từng là một ý tưởng dự án mở: các đặc tả mở, phần mềm mở, và các phân tử mở đủ để trao cho nó một yếu tố WOW! Tính có thể nhìn thấy được đó đã trao cho tôi việc làm tư vấn (bán thời gian) đầu tiên của tôi và giữ cho tôi sống vài năm sau khi tôi rời Glaxo. Cùng lúc, Alan Mills và tôi đã quản lý khóa học đa phương tiện đầu tiên trên web (1995), Các nguyên tắc Cấu trúc Protein. Chúng tôi đã quản lý nó trong một biến thể của BioMOO và Viện Mạng Toàn cầu (Globewide Network Academy); chúng tất cả từng hoàn toàn là các dự án mở xuất phát từ LambdaMOO (Pavel Curtis, Xerox). PPS đã chỉ ra giá trị của cộng đồng, và chúng tôi đã có 250 tình nguyện viên/sinh viên (chúng tôi đã không phân biệt) trong khóa học. Và, PPS cho tôi việc làm thứ 2 của tôi, như một Giáo sư bán thời gian về Dược học ở Nottingham, thiết lập giáo dục ảo.
Chúng tôi tất cả từng là những người lạc quan và nghĩ rằng nó sẽ cất cánh nhanh, nhưng chúng tôi đã thất bại để nhận ra rằng giáo dục là siêu bảo thủ và phải ánh xạ vào các ràng buộc thế giới thực. Đối với tôi, vào năm 1993, world wide web từng biến đổi vì đã không có các rào cản. Nó đã sinh ra các hệ thống, các nguồn và giao thức mở. Chúng từng quá thịnh hành mà bạn đã không nghĩ về chúng. Chúng ta đã không nhận thức được một lực lượng mạnh như thế nào mà Tim Berners-Lee đã từng làm cho mở. Khi tôi từng xoay trong một sự nghiệp vác cặp về nghiên cứu, tư vấn, đột nhập, tôi từng có khả năng để sống và phát triển các ý tưởng của tôi. Nó đã làm tốt cho tôi khi một số các ý tưởng đó đã cần 20 năm để xây dựng và đối với cộng đồng để nhận ra chúng. (Đó không phải là sự ngạo mạn, nhiều giao thức web như MathML, SVG hoặc RDF đã có những khởi đầu chật vật nhưng bây giờ là dòng chính).
Tôi từng có liên quan nhiều trong XML và quản lý danh sách thư XML-DEV - nó đã có 10.000 thư điện tử một năm và từng là cơ sở nơi mà cộng đồng đã phát triển XML. Tôi tự hào nhất về giao thức SAX từng hoàn toàn được phát triển trong danh sách đó trong 4 tuần. Tất cả XML này không chỉ trao cho tôi cơ sở cho ngôn ngữ đánh dấu hóa học - CML (Chemical Markup Language), mà còn dẫn dắt tới một cuộc tư vấn với JB ở Luân Đôn, đưa ra sự huấn luyện trong XML. Việc quản lý các khóa học có thể là công việc khó khăn nhưng đủ đáng làm để sống từ nó. (Đây từng là công việc thứ 3 của tôi). Rồi, tôi đã thấy tai ương cho hạ tầng không gian mạng trong hóa học ở Cambridge (Trung tâm Unilever) nơi mà một trong những trụ cột từng huấn luyện. Vì kinh nghiệm của tôi mà tôi đã có khả năng tạo ra và phân phối các khóa huấn luyện và điều này đã dẫn tới cuộc gặp ở Bộ (Đây từng là công việc thứ 4 của tôi).
Cambridge đã trao cho tôi các tài nguyên lớn (đặc biệt qua chương trình eScience 250 triệu bảng do Tony Hey ở Southampton quản lý). Tôi đã định ra mục tiêu cho mình xây dựng một nhà hóa học trí tuệ nhân tạo (AI) (dù tôi đã không làm ồn ào về nó). Nó đã dựa vào tri thức và các module mã mà tôi đã và đang xây dựng trong 10 năm. Tôi đã bắt đầu xây dựng nó tất cả tự mình trong Java. Tôi đi tới một giai đoạn nơi mà tôi bổ sung thêm các hình đồ họa, sử dụng Java3D. Java3D từng là kinh sợ; một bộ đóng góp trong mã C và các tệp nhị phân đóng. Nó từng ngốn thời gian của tôi rất nhiều. Có lẽ tôi đã sử dụng sớm hơn XMol, nó là trình xem phân tử của Dan Gezelter mà chạy dưới X Windows. Ở giai đoạn đó, là khá cơ bản và Java từng là một tiếp cận tốt hơn. Tôi sau đó đã lưu ý tính cấp bách của Jmol, bản chuyển sang Java. Tôi đã bỗng nhiên nghĩ: “Nếu tôi không thử hoàn thiện với Jmol, tôi có thể làm mọi điều mà tôi thực sự muốn làm (ngữ nghĩa hóa học)”. Vì thế, tôi đã quyết định băm mã của tôi và liên kết vào Jmol ở giai đoạn đó.
Đó thực sự là một quyết định quan trọng trong sơ đồ của mọi điều. Dù tôi thường hành động cởi mở, tôi đã nhận thức được về nó ở thời điểm này và đã bắt đầu tìm kiếm các kho mã khác để liên kết. Việc hợp nhất kiến trúc từng là Ngôn ngữ Đánh dấu Hóa học - CML. CML được thiết kế để hỗ trợ hầu hết hóa học ở dạng ngữ nghĩa. Vì tôi từng cộng tác với các nhóm mã khác - CDK, Bioclipse, Jmol, JSpecview, OpenBabel, ... - chúng đã áp dụng CML. Đây từng là một cộng đồng lớn và nhiều hơn bất kỳ nhà sản xuất thương mại nào có thể đạt được.
Không ai sẽ viết mã cho một đối thủ nhưng nhiều người sẽ viết để tương hợp với một người cộng tác. Chúng tôi biết lẫn nhau, và trong năm 2005 hầu hết chúng tôi đã gặp nhau ở Xã hội Hóa học Mỹ - ACS (American Chemical Society) dưới tháp xanh ở San Diego. Tôi đã gợi ý chúng tôi thành lập một cộng đồng gần gũi, không chính thức dưới cái tên Blue Obelisk và rằng chúng tôi áp dụng câu thần chú: dữ liệu mở, các tiêu chuẩn mở, nguồn mở - ODOSOS. Chúng tôi có một danh sách thư và đôi lúc tôi coi Blue Obelisks như phần thưởng cho những đóng góp có giá trị một cách công khai. Có một thỏa thuận chung để tương hợp nhưng không kiểm soát trở xuống. Nó chỉ xảy ra theo cách riêng của nó và ở tốc độ riêng của nó. Chúng tôi đã rà soát lại 5 năm và đã có 20 nhóm taccs giả tài liệu, nó là một thành tích đáng ghi nhận cho một nguyên tắc rất bảo thủ (hóa học) nơi mà các công ty có tiếng tăm có giá trị nhiều hơn so với sự đổi mới.
Và nhà hóa học trí tuệ nhân tạo ư? Những gì tôi chưa biết là tôi không thể xây dựng trên tri thức vì các nhà đầu tư được phong có thể ném các luật sư để dừng nó. “Các ông chủ” của các dữ liệu chính đấu tranh để ngăn chặn sử dụng lại các dữ liệu. Khi Wikipedia muốn sử dụng các số đăng ký CAS họ có một bức thư hợp pháp từ ACS. Khi NIH đã phát triển một cơ sở dữ liệu tự do các thông tin hóa học (PubChem), ACS đã vận động hành lang Quốc hội nhờ nó đóng lại. Vì thế, tôi đã phát triển các công cụ để trích xuất các số liệu từ tư liệu khoa học; Các nhà xuất bản STM đang ném tiền và các nhà vận động hành lang ở Brussels sẽ dừng nó xảy ra. Không ngạc nhiên là tôi bây giờ được biết như là một nhà hoạt động xã hội (xem khoản Wikipedia của tôi).
Chúng ta không thể làm khoa học hiện đại trừ phi nó là mở. Và tôi đang tìm kiếm các đồng minh. Năm ngoái tôi đã áp dụng cho một học bổng của Quỹ Shuttleworth (Chúng tôi cấp vốn cho các nhà lãnh đạo năng động đang đứng ở tiền tiêu của sự thay đổi xã hội). Và, vào tháng 3/2014 tôi đã được thưởng một học bổng (đây là công việc thứ 5 của tôi trong nguồn mở). Chúng tôi sẽ trích 100 triệu số liệu từ tư liệu dù các nhà xuất bản có thích điều đó hay không, vì chúng tôi đã có luật được thay đổi.
Đối với các viện sĩ, câu hỏi là: Liệu nguồn mở có thể cho bạn một công việc hay không? Câu trả lời của tôi là: bản thân nó có lẽ sẽ không cho bạn một vị thế giảng bài, nhưng tất cả nhóm của tôi từng có khả năng có các công việc tốt trong nền công nghiệp công nghệ cao, hoặc khoa học. Tôi nghĩ sự mở ra công khai con đường nguồn mở đã giúp. Tôi rất tự hào về họ.
Open is about sharing and collaboration. It's the idea that "we" is more powerful, more rewarding and fulfilling than "I". I can't promise jobs, but I do know that open is becoming very big. Governments and funders are pushing the open agenda, even though academics are generally uninterested or seriously self-interested.
Some governments and some companies recognize the value of teams; academia and academics generally don't. The false values of impact factor and the false values of academic publishing mean that open access is a poor reflection of open, or what you may recognize as the open source way.
I first started thinking about code re-use in 1980 when I had developed an approach to re-using crystallographic data as a research tool. Crystals were published as tens of thousands of single papers; my vision was that by using all of these together we'd discover patterns that would show new science. In particular, myself and my collaborators showed that snapshots of a crystal in different environments could give information on vibrations and even chemical reactions. I wrote lots of software in FORTRAN IV. It built on Sam Motherwell's great CONNSER and GEOM packages. I built on a whole raft of statistical and analytical tools, and we published papers together.
Then, I went into pharmaceutical industry to use these ideas in drug discovery and donated the software to an organization, on the basis that if they wanted to develop it they would contact me and we would work jointly together. It didn't happen. This was before licences, before RMS, before people worried about ownership. The software got subsumed into their system, and my name got removed. I even sat through a lecture where they presented it as their own. I've gotten over it now, but I've learned.
The code was very complex, and I realised that there must be a better way, where we write re-usable modules. I'd been impressed with NAG and took the modular approach as central. It was difficult to do this in chemistry as it's less clear what the fundamentals are. You can write a matrix diagonalizer becasue it's clear what the inputs and outputs are, but it's less clear how to calculate a molecular mass (it's harder than it looks—remember isotopes!?) So I started writing a reusable set of routines in 1990 in FORTRAN. At that stage, I was also giving evening lectures at Birkbeck College on bio- and chemo-informatics and took these modules to the students. The problem was that languages were changing, and so I converted them to C using f2c (it works, but don't look at the generated code!). Then, I discovered tcl/tk and loved it because of the graphics—soon after which I was discovered by a salesmen from Sun Microsystems.
They found me only because I was much more visible than others.
In 1994 Henry Rzepa and I had developed Chemical MIME—this was an open project (though not formally labelled) where we generated a chemical meme that swept the web in six weeks. It relied on the open programs RasMol and Mage, which we could freely distribute to run in browsers. Chemical MIME was the ideal open project: open specs, open software, and enough open molecules to give it a WOW factor! That visibility gave me my first (part-time) consultancy job and kept me alive for some years after I left Glaxo. At the same time, Alan Mills and I ran the first multimedia course on the web (1995), Principles of Protein Structure. We ran it in a derivative of BioMOO and the Globewide Network Academy; they were all completely open projects stemming from LambdaMOO (Pavel Curtis, Xerox). PPS showed the value of community, and we had 250 volunteers/students (we didn't distinguish) on the course. And, the PPS got me my second job, as a part-time Professor of Pharmacy at Nottingham, setting up virtual educations.
We were all optimists and thought that it would take off rapidly, but we failed to realise that education is ultra-conservative and has to map into real-world constraints. For me, in 1993, the world wide web was transforming because there were no barriers. It engendered open systems, sources, and protocols. They were so prevalent you didn't think about them. We don't realise how powerful a force Tim Berners-Lee has been for open. As I whirled along in a portfolio career of research, consultancy, hacking, I was able to stay alive and develop my ideas. It's worked well for me as some of these ideas have needed 20 years to build and for the community to realise them. (That's not arrogance, many web protocols like MathML or SVG or RDF have had stuttering starts but are now mainstream.)
I was very heavily involved in XML and ran the XML-DEV mailing list—it had 10,000 emails a year and was the basis whereby the community developed XML. I'm most proud of the SAX protocol which was entirely developed on the list in 4 weeks. All this XML not only gave me the basis for the Chemical Markup Language (CML) but lead to a consultancy with JB in London, delivering training in XML. Running courses can be hard work but rewarding enough to gain a living from it. (This was my third job.) Then, I saw the advert for Cyberinfrastructure in Chemistry in Cambridge (Unilever Centre) where one of the pillars was training. Because of my experience I was able to create and deliver training courses and this led to my appointment in the Department (This was my fourth job).
Cambridge gave me great resources (especially through the 250 million GBP eScience program run by Tony Hey in Southampton). I set the goal for myself of building an artificially intelligent (AI) chemist (though I didn't make much noise about it). It was to be based on knowledge and code modules that I had been building for 10 years. I started building it all myself in Java. I got to one stage where I added graphics, using Java3D. Java3D was awful; a wrapper on C code and closed binary. It was consuming my time to too great of an extent. I'd earlier used XMol, which is Dan Gezelter's molecular viewer that ran under X windows. At that stage, it was fairly basic and Java was a better approach. I then noticed the emergence of Jmol, the port to Java. I suddenly thought: "If I don't try to compete with Jmol, I can do the things I really want to do (chemical semantics)." So, I decided to junk my code and link in Jmol at that stage.
This was a really important decision in the scheme of things. Although I generally acted openly, I wasn't really conscious of the open source way in terms of licensing and commitments. But, I became aware of it at this point and started to look for other codebases to link. The uniting architecture was Chemical Markup Language. CML is designed to support most of chemistry in semantic form. Because I was collaborating with the other code groups—CDK, Bioclipse, Jmol, JSpecview, OpenBabel, etc—they adopted CML. This was a massive community win and more than any commercial manufacturer can achieve.
No one will write code for a competitor but many will write to interoperate with a collaborator. We got to know each other, and in 2005 most of us met at the American Chemical Society (ACS) under the blue obelisk in San Diego. I suggested we form a close, informal community under the label Blue Obelisk and that we adopt the mantra: open data, open standards, open source (ODOSOS). We have a mailing list and at intervals I buy Blue Obelisks as awards for publicly valuable contributions. There's a communal agreement to interoperate but no downwards control. It just happens in its own way and at its own speed. We reviewed 5 years on and had 20 groups authoring the paper, which is a remarkable achievement for a very conservative discipline (chemistry) wher established companies are more valued than innovation.
And the AI chemist? What I hadn't reckoned on is that I couldn't build on knowledge because vested interests would throw lawyers to stop it. The major data "owners" fight to prevent re-use of data. When Wikpedia wanted to use CAS registry numbers they got a legal letter from ACS. When NIH developed a free database of chemical information (PubChem), the ACS lobbied Congress to have it closed down. So, I have developed tools to extract facts from the scientific literature; the STM publishers are throwing money and lobbyists at Brussels to stop it happening. It's no surprise that I am now known as an open activist (see my Wikipedia entry).
We cannot do modern science unless it's open. And, I am looking for allies.
Last year I applied for a Shuttleworth Foundation Fellowship (We provide funding for dynamic leaders who are at the forefront of social change.) And, in March 2014 I was awarded one (This was my fifth job in open source). We are going to extract 100 million facts from the literature whether or not the publishers like it, because we've had the law changed.
For my fellow academics, the question is: Can open source get you a job? My answer is: By itself it probably won't get you a lectureship, but all my group have been able to get good jobs in the high-tech industry, or science. I think the public exposure of the open source way has helped. I'm very proud of them.
Dịch: Lê Trung Nghĩa

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.