We
cannot do modern science unless it's open
Posted
11 Aug 2014 by Peter Murray-Rust
Bài
được đưa lên Internet ngày: 11/08/2014
Lời
người dịch: Kinh nghiệm của một nhà khoa học với 5
công việc có được từ nguồn mở đã chỉ ra rằng sẽ
không thể làm khoa học hiện đại được nếu nó không
là mở.
Mở
là về việc chia sẻ và cộng tác. Chính ý tưởng rằng
“chúng ta” là mạnh mẽ hơn, đáng làm và đầy đủ
hơn là cái “Tôi”. Tôi không thể hứa công việc, nhưng
tôi biết rằng mở đang trở nên rất lớn. Các chính phủ
và những người cấp vốn đang thúc đẩy chương trình
nghị sự mở, thậm chí qua các viện sỹ thường không
có quan tâm hoặc tự quan tâm nghiêm túc.
Một
số chính phủ và một số công ty nhận thức được giá
trị của các đội; các viện trường và các viện sỹ
thường không. Các giá trị sai về yếu
tố tác động và các giá trị sai về việc thúc đẩy
hàn lâm ngụ ý rằng truy
cập mở là một sự phản ánh nghèo nàn của mở,
hoặc những gì bạn có thể nhận thức được như một
cách thức nguồn mở.
Lần
đầu tiên tôi đã bắt đầu nghĩ về sử dụng lại mã
vào năm 1980 khi tôi đã phát triển một tiếp cận dữ
liệu tinh thể học sử dụng lại được như một công
cụ nghiên cứu. Các tinh thể đã được xuất bản như
hàng chục ngàn các tài liệu độc lập; tầm nhìn của
tôi từng là bằng việc sử dụng tất cả chúng cùng
nhau thì chúng ta có thể phát hiện các mẫu mà có thể
chỉ ra khoa học mới. Đặc biệt, bản thân tôi và các
cộng tác viên của tôi đã chỉ ra rằng các hình chụp
của một tinh thể trong các môi trường khác nhau có thể
đưa ra thông tin về các dao động và thậm chí các phản
ứng hóa học. Tôi đã viết nhiều về phần mềm trong
FORTRAN IV. Nó xây dựng trên các gói CONNSER và GEOM lớn
của Sam Motherwell. Tôi xây dựng trên toàn bộ một mảng
lớn các công cụ thống kê và phân tích, và chúng tôi đã
xuất bản các tài liệu cùng. Sau đó, tôi đã đi vào nền
công nghiệp dược phẩm để sử dụng các ý tưởng đó
trong phát hiện thuốc và quyên góp phần mềm cho một tổ
chức, trên cơ sở là nếu họ muốn phát triển nó thì
họ có thể liên hệ với tôi và chúng tôi có thể làm
việc chung cùng nhau. Điều đó đã không xảy ra. Điều
này xảy ra trước cả các giấy phép, trước cả Richard
M. Stallman, trước khi mọi người lo lắng về quyền sở
hữu. Phần mềm đã gộp vào hệ thống của chúng, và
tên tôi đã bị loại bỏ. Tôi thậm chí ngồi qua một
bài giảng nơi mà họ đã trình bày nó như là của riêng
họ. Tôi đã bỏ qua nó bây giờ, nhưng tôi đã học được.
Mã
từng rất phức tạp, và tôi nhận thức được rằng
phải có cách tốt hơn, nơi mà chúng tôi viết các module
sử dụng lại được. Tôi từng có ấn tượng với NAG
và lấy tiếp cận theo module như là trọng tâm. Từng là
khó để làm điều này trong hóa học khi còn ít rõ ràng
những điều cơ bản là gì. Bạn có thể viết một trình
đường chéo của mảng vì nó rõ những gì các đầu vào
và đầu ra, nhưng ít rõ ràng hơn cách để tính toán một
đống các module (khó khăn hơn so với nó dường như - bạn
có nhớ về các chất đồng vị không!?) Vì thế tôi đã
bắt đầu viết một tập hợp các thủ tục sử dụng
lại được trong 1990 trên FORTRAN. Ở giai đoạn đó, tôi
cũng từng dạy các lớp buổi tối ở Birkbeck College về
sinh và hóa tin và lấy các module đó cho sinh viên. Vấn đề
là các ngôn ngữ đã thay đổi, và vì thế tôi đã biến
đổi chúng sang C bằng việc sử dụng f2c (nó làm việc,
nhưng không giống như mã được sinh ra!). Sau đó, tôi đã
phát hiện ra TCL/TK và đã yêu nó vì về đồ họa - ngay
sau đó tôi được một người bán hàng từ Sun
Microsystems phát hiện ra.
Họ
đã tìm thấy tôi chỉ vì tôi từng nổi bật hơn nhiều
so với những người khác.
Vào
năm 1994 Henry
Rzepa và tôi đã phát triển Chemical MIME - đây từng là
một dự án mở (dù không được gắn nhãn chính thức)
nơi mà chúng tôi đã tạo ra một ý tưởng hóa học mà
quét web trong 6 tuần. Nó dựa vào các chương trình mở
RasMol và Mage,
chúng tôi có thể tự do phân phối nó để chạy trên các
trình duyệt. Chemical MIME từng là một ý tưởng dự án
mở: các đặc tả mở, phần mềm mở, và các phân tử
mở đủ để trao cho nó một yếu tố WOW! Tính có thể
nhìn thấy được đó đã trao cho tôi việc làm tư vấn
(bán thời gian) đầu tiên của tôi và giữ cho tôi sống
vài năm sau khi tôi rời Glaxo. Cùng lúc, Alan Mills và tôi
đã quản lý khóa học đa phương tiện đầu tiên trên
web (1995), Các nguyên tắc Cấu trúc Protein. Chúng tôi đã
quản lý nó trong một biến thể của BioMOO và Viện Mạng
Toàn cầu (Globewide Network Academy); chúng tất cả từng
hoàn toàn là các dự án mở xuất phát từ LambdaMOO
(Pavel Curtis, Xerox). PPS đã chỉ ra giá trị của cộng
đồng, và chúng tôi đã có 250 tình nguyện viên/sinh viên
(chúng tôi đã không phân biệt) trong khóa học. Và, PPS
cho tôi việc làm thứ 2 của tôi, như một Giáo sư bán
thời gian về Dược học ở Nottingham, thiết lập giáo
dục ảo.
Chúng
tôi tất cả từng là những người lạc quan và nghĩ rằng
nó sẽ cất cánh nhanh, nhưng chúng tôi đã thất bại để
nhận ra rằng giáo dục là siêu bảo thủ và phải ánh xạ
vào các ràng buộc thế giới thực. Đối với tôi, vào
năm 1993, world wide web từng biến đổi vì đã không có
các rào cản. Nó đã sinh ra các hệ thống, các nguồn và
giao thức mở. Chúng từng quá thịnh hành mà bạn đã
không nghĩ về chúng. Chúng ta đã không nhận thức được
một lực lượng mạnh như thế nào mà Tim
Berners-Lee đã từng làm cho mở. Khi tôi từng xoay trong
một sự nghiệp vác cặp về nghiên cứu, tư vấn, đột
nhập, tôi từng có khả năng để sống và phát triển
các ý tưởng của tôi. Nó đã làm tốt cho tôi khi một
số các ý tưởng đó đã cần 20 năm để xây dựng và
đối với cộng đồng để nhận ra chúng. (Đó không phải
là sự ngạo mạn, nhiều giao thức web như MathML,
SVG hoặc RDF
đã có những khởi đầu chật vật nhưng bây giờ là
dòng chính).
Tôi
từng có liên quan nhiều trong XML
và quản lý danh sách thư XML-DEV - nó đã có 10.000 thư
điện tử một năm và từng là cơ sở nơi mà cộng đồng
đã phát triển XML. Tôi tự hào nhất về giao
thức SAX từng hoàn toàn được phát triển trong danh
sách đó trong 4 tuần. Tất cả XML này không chỉ trao cho
tôi cơ sở cho ngôn ngữ đánh dấu hóa học - CML (Chemical
Markup Language), mà còn dẫn dắt tới một cuộc tư vấn
với JB ở Luân Đôn, đưa ra sự huấn luyện trong XML.
Việc quản lý các khóa học có thể là công việc khó
khăn nhưng đủ đáng làm để sống từ nó. (Đây từng
là công việc thứ 3 của tôi). Rồi, tôi đã thấy tai
ương cho hạ tầng không gian mạng trong hóa
học ở Cambridge (Trung
tâm Unilever) nơi mà một trong những trụ cột từng
huấn luyện. Vì kinh nghiệm của tôi mà tôi đã có khả
năng tạo ra và phân phối các khóa huấn luyện và điều
này đã dẫn tới cuộc gặp ở Bộ (Đây từng là công
việc thứ 4 của tôi).
Cambridge
đã trao cho tôi các tài nguyên lớn (đặc biệt qua chương
trình eScience 250 triệu bảng do Tony Hey ở Southampton quản
lý). Tôi đã định ra mục tiêu cho mình xây dựng một
nhà hóa học trí tuệ nhân tạo (AI) (dù tôi đã không làm
ồn ào về nó). Nó đã dựa vào tri thức và các module mã
mà tôi đã và đang xây dựng trong 10 năm. Tôi đã bắt
đầu xây dựng nó tất cả tự mình trong Java. Tôi đi tới
một giai đoạn nơi mà tôi bổ sung thêm các hình đồ
họa, sử dụng Java3D. Java3D từng là kinh sợ; một bộ
đóng góp trong mã C và các tệp nhị phân đóng. Nó từng
ngốn thời gian của tôi rất nhiều. Có lẽ tôi đã sử
dụng sớm hơn XMol, nó là trình xem phân tử của Dan
Gezelter mà chạy dưới X Windows. Ở giai đoạn đó, là khá
cơ bản và Java từng là một tiếp cận tốt hơn. Tôi sau
đó đã lưu ý tính cấp bách của Jmol,
bản chuyển sang Java. Tôi đã bỗng nhiên nghĩ: “Nếu tôi
không thử hoàn thiện với Jmol, tôi có thể làm mọi điều
mà tôi thực sự muốn làm (ngữ nghĩa hóa học)”. Vì
thế, tôi đã quyết định băm mã của tôi và liên kết
vào Jmol ở giai đoạn đó.
Đó
thực sự là một quyết định quan trọng trong sơ đồ
của mọi điều. Dù tôi thường hành động cởi mở, tôi
đã nhận thức được về nó ở thời điểm này và đã
bắt đầu tìm kiếm các kho mã khác để liên kết. Việc
hợp nhất kiến trúc từng là Ngôn ngữ Đánh dấu Hóa
học - CML. CML được thiết kế để hỗ trợ hầu hết
hóa học ở dạng ngữ nghĩa. Vì tôi từng cộng tác với
các nhóm mã khác - CDK, Bioclipse, Jmol, JSpecview, OpenBabel,
... - chúng đã áp dụng CML. Đây từng là một cộng đồng
lớn và nhiều hơn bất kỳ nhà sản xuất thương mại
nào có thể đạt được.
Không
ai sẽ viết mã cho một đối thủ nhưng nhiều người sẽ
viết để tương hợp với một người cộng tác. Chúng
tôi biết lẫn nhau, và trong năm 2005 hầu hết chúng tôi
đã gặp nhau ở Xã hội Hóa học Mỹ - ACS (American
Chemical Society) dưới tháp xanh ở San Diego. Tôi đã gợi
ý chúng tôi thành lập một cộng đồng gần gũi, không
chính thức dưới cái tên Blue
Obelisk và rằng chúng tôi áp dụng câu thần chú: dữ
liệu mở, các tiêu chuẩn mở, nguồn mở - ODOSOS. Chúng
tôi có một danh sách thư và đôi lúc tôi coi Blue Obelisks
như phần thưởng cho những đóng góp có giá trị một
cách công khai. Có một thỏa thuận chung để tương hợp
nhưng không kiểm soát trở xuống. Nó chỉ xảy ra theo
cách riêng của nó và ở tốc độ riêng của nó. Chúng
tôi đã rà soát lại 5
năm và đã có 20 nhóm taccs giả tài liệu, nó là một
thành tích đáng ghi nhận cho một nguyên tắc rất bảo
thủ (hóa học) nơi mà các công ty có tiếng tăm có giá
trị nhiều hơn so với sự đổi mới.
Và
nhà hóa học trí tuệ nhân tạo ư? Những gì tôi chưa
biết là tôi không thể xây dựng trên tri thức vì các
nhà đầu tư được phong có thể ném các luật sư để
dừng nó. “Các ông chủ” của các dữ liệu chính đấu
tranh để ngăn chặn sử dụng lại các dữ liệu. Khi
Wikipedia muốn sử dụng các số đăng ký CAS họ có một
bức thư hợp pháp từ ACS. Khi NIH đã phát triển một cơ
sở dữ liệu tự do các thông tin hóa học (PubChem), ACS đã
vận động hành lang Quốc hội nhờ nó đóng lại. Vì
thế, tôi đã phát triển các công cụ để trích xuất
các số liệu từ tư liệu khoa học; Các nhà xuất bản
STM đang ném tiền và các nhà vận động hành lang ở
Brussels sẽ dừng nó xảy ra. Không ngạc nhiên là tôi bây
giờ được biết như là một nhà hoạt động xã hội
(xem khoản Wikipedia của tôi).
Chúng
ta không thể làm khoa học hiện đại trừ phi nó là mở.
Và tôi đang tìm kiếm các đồng minh. Năm ngoái tôi đã
áp dụng cho một học bổng của Quỹ Shuttleworth (Chúng
tôi cấp vốn cho các nhà lãnh đạo năng động đang đứng
ở tiền tiêu của sự thay đổi xã hội). Và, vào tháng
3/2014 tôi đã được thưởng một học bổng (đây là
công việc thứ 5 của tôi trong nguồn mở). Chúng tôi sẽ
trích 100 triệu số liệu từ tư liệu dù các nhà xuất
bản có thích điều đó hay không, vì chúng tôi đã có
luật được thay đổi.
Đối
với các viện sĩ, câu hỏi là: Liệu nguồn mở có thể
cho bạn một công việc hay không? Câu trả lời của tôi
là: bản thân nó có lẽ sẽ không cho bạn một vị thế
giảng bài, nhưng tất cả nhóm của tôi từng có khả
năng có các công việc tốt trong nền công nghiệp công
nghệ cao, hoặc khoa học. Tôi nghĩ sự mở ra công khai con
đường nguồn mở đã giúp. Tôi rất tự hào về họ.
Open
is about sharing and collaboration. It's the idea that "we"
is more powerful, more rewarding and fulfilling than "I". I
can't promise jobs, but I do know that open is becoming very big.
Governments and funders are pushing the open agenda, even though
academics are generally uninterested or seriously self-interested.
Some
governments and some companies recognize the value of teams; academia
and academics generally don't. The false values of impact
factor and the false values of academic publishing mean that open
access is a poor reflection of open, or what you may recognize as
the open source way.
I
first started thinking about code re-use in 1980 when I had developed
an approach to re-using crystallographic data as a research tool.
Crystals were published as tens of thousands of single papers; my
vision was that by using all of these together we'd discover patterns
that would show new science. In particular, myself and my
collaborators showed that snapshots of a crystal in different
environments could give information on vibrations and even chemical
reactions. I wrote lots of software in FORTRAN IV. It built on Sam
Motherwell's great CONNSER and GEOM packages. I built on a whole raft
of statistical and analytical tools, and we published papers
together.
Then,
I went into pharmaceutical industry to use these ideas in drug
discovery and donated the software to an organization, on the basis
that if they wanted to develop it they would contact me and we would
work jointly together. It didn't happen. This was before licences,
before RMS, before people worried about ownership. The software got
subsumed into their system, and my name got removed. I even sat
through a lecture where they presented it as their own. I've gotten
over it now, but I've learned.
The
code was very complex, and I realised that there must be a better
way, where we write re-usable modules. I'd been impressed with NAG
and took the modular approach as central. It was difficult to do this
in chemistry as it's less clear what the fundamentals are. You can
write a matrix diagonalizer becasue it's clear what the inputs and
outputs are, but it's less clear how to calculate a molecular mass
(it's harder than it looks—remember isotopes!?) So I started
writing a reusable set of routines in 1990 in FORTRAN. At that stage,
I was also giving evening lectures at Birkbeck College on bio- and
chemo-informatics and took these modules to the students. The problem
was that languages were changing, and so I converted them to C using
f2c (it works, but don't look at the generated code!). Then, I
discovered tcl/tk and loved it because of the graphics—soon after
which I was discovered by a salesmen from Sun Microsystems.
They
found me only because I was much more visible than others.
In
1994 Henry Rzepa
and I had developed Chemical MIME—this was an open project (though
not formally labelled) where we generated a chemical meme that swept
the web in six weeks. It relied on the open programs RasMol
and Mage, which we could freely distribute to run in browsers.
Chemical MIME was the ideal open project: open specs, open software,
and enough open molecules to give it a WOW factor! That visibility
gave me my first (part-time) consultancy job and kept me alive for
some years after I left Glaxo. At the same time, Alan Mills and I ran
the first multimedia course on the web (1995), Principles of Protein
Structure. We ran it in a derivative of BioMOO and the Globewide
Network Academy; they were all completely open projects stemming from
LambdaMOO (Pavel
Curtis, Xerox). PPS showed the value of community, and we had 250
volunteers/students (we didn't distinguish) on the course. And, the
PPS got me my second job, as a part-time Professor of Pharmacy at
Nottingham, setting up virtual educations.
We
were all optimists and thought that it would take off rapidly, but we
failed to realise that education is ultra-conservative and has to map
into real-world constraints. For me, in 1993, the world wide web was
transforming because there were no barriers. It engendered open
systems, sources, and protocols. They were so prevalent you didn't
think about them. We don't realise how powerful a force Tim
Berners-Lee has been for open. As I whirled along in a portfolio
career of research, consultancy, hacking, I was able to stay alive
and develop my ideas. It's worked well for me as some of these ideas
have needed 20 years to build and for the community to realise them.
(That's not arrogance, many web protocols like MathML
or SVG or RDF
have had stuttering starts but are now mainstream.)
I
was very heavily involved in XML
and ran the XML-DEV mailing list—it had 10,000 emails a year and
was the basis whereby the community developed XML. I'm most proud of
the SAX
protocol which was entirely developed on the list in 4 weeks. All
this XML not only gave me the basis for the Chemical
Markup Language (CML) but lead to a consultancy with JB in
London, delivering training in XML. Running courses can be hard work
but rewarding enough to gain a living from it. (This was my third
job.) Then, I saw the advert for Cyberinfrastructure in Chemistry
in Cambridge (Unilever
Centre) where one of the pillars was training. Because of my
experience I was able to create and deliver training courses and this
led to my appointment in the Department (This was my fourth job).
Cambridge
gave me great resources (especially through the 250 million GBP
eScience program run by Tony Hey in Southampton). I set the goal for
myself of building an artificially intelligent (AI) chemist (though I
didn't make much noise about it). It was to be based on knowledge and
code modules that I had been building for 10 years. I started
building it all myself in Java. I got to one stage where I added
graphics, using Java3D. Java3D was awful; a wrapper on C code and
closed binary. It was consuming my time to too great of an extent.
I'd earlier used XMol, which is Dan Gezelter's molecular viewer that
ran under X windows. At that stage, it was fairly basic and Java was
a better approach. I then noticed the emergence of Jmol,
the port to Java. I suddenly thought: "If I don't try to compete
with Jmol, I can do the things I really want to do (chemical
semantics)." So, I decided to junk my code and link in Jmol at
that stage.
This
was a really important decision in the scheme of things. Although I
generally acted openly, I wasn't really conscious of the open source
way in terms of licensing and commitments. But, I became aware of it
at this point and started to look for other codebases to link. The
uniting architecture was Chemical Markup Language. CML is designed to
support most of chemistry in semantic form. Because I was
collaborating with the other code groups—CDK, Bioclipse, Jmol,
JSpecview, OpenBabel, etc—they adopted CML. This was a massive
community win and more than any commercial manufacturer can achieve.
No
one will write code for a competitor but many will write to
interoperate with a collaborator. We got to know each other, and in
2005 most of us met at the American
Chemical Society (ACS) under the blue obelisk in San Diego. I
suggested we form a close, informal community under the label Blue
Obelisk and that we adopt the mantra: open data, open standards,
open source (ODOSOS). We have a mailing list and at intervals I buy
Blue Obelisks as awards for publicly valuable contributions. There's
a communal agreement to interoperate but no downwards control. It
just happens in its own way and at its own speed. We reviewed 5
years on and had 20 groups authoring the paper, which is a
remarkable achievement for a very conservative discipline (chemistry)
wher established companies are more valued than innovation.
And
the AI chemist? What I hadn't reckoned on is that I couldn't build on
knowledge because vested interests would throw lawyers to stop it.
The major data "owners" fight to prevent re-use of data.
When Wikpedia wanted to use CAS registry numbers they got a legal
letter from ACS. When NIH developed a free database of chemical
information (PubChem), the ACS lobbied Congress to have it closed
down. So, I have developed tools to extract facts from the scientific
literature; the STM publishers are throwing money and lobbyists at
Brussels to stop it happening. It's no surprise that I am now known
as an open activist (see my Wikipedia entry).
We
cannot do modern science unless it's open. And, I am looking for
allies.
Last
year I applied for a Shuttleworth Foundation Fellowship (We provide
funding for dynamic leaders who are at the forefront of social
change.) And, in March 2014 I was awarded one (This was my fifth job
in open source). We are going to extract 100 million facts from the
literature whether or not the publishers like it, because we've had
the law changed.
For
my fellow academics, the question is: Can open source get you a job?
My answer is: By itself it probably won't get you a lectureship, but
all my group have been able to get good jobs in the high-tech
industry, or science. I think the public exposure of the open source
way has helped. I'm very proud of them.
Dịch:
Lê Trung Nghĩa
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.