专访微软副总裁:eScience,科学研究的革命

  托尼·海(Tony Hey)博士曾是一位粒子物理学家,现在专门为计算技术和其他科学研究牵线搭桥。和他的老朋友万维网之父蒂姆·伯纳斯-李(Tim Berners-Lee)一样,他也在关注网络及计算技术的应用——不过他关注的方向并非社会生活,而是科学研究。2008年11月5日,作为微软公司技术计算副总裁,他在北京参加了微软亚洲研究院为庆祝建院十周年而举办的“创新日”活动,本刊记者对他进行了专访。
 
   《环球科学》:万维网的发明,最初是为了方便粒子物理学家之间的合作交流,如今已经极大地改变了我们的日常生活。而你一直倡导的eScience,目的也是为科研合作交流提供平台和工具。eScience 的提出是否和万维网一样,与粒子物理学有着不解之缘呢?
 
  托尼·海:我以前就是一名粒子物理学家,目前在英国科学技术办公室任职,工作就是负责英国的eScience 项目。eScience 这个单词是英国科学技术局研究理事会前任会长约翰·泰勒(John Taylor)提出的。他经常与粒子物理学、生物学、环境科学等领域的研究人员合作,知道他们早就有一个愿望:有一天计算能够像网络搜索一样变成一项服务。这促使他提出了eScience 这个概念:由计算科学家提供平台或者工具,帮助其他科学家更好地完成研究工作。
 
   粒子物理学对网络及计算能力的要求很高。明年,大型强子对撞机将开始产生海量实验数据,粒子物理学家必须把这些数据分散到世界各地,供分布在全球的上千名参与合作的物理学家分析和计算之用。为此,他们建造了所谓的“计算网格”,通过这个网络把不同部门的计算机联网在一起,你可以把计算任务分散到网格上的任何一台计算机上去执行。(参见《环球科学》20083期《LHC撞开发现之门》一文
 
   不过,粒子物理学家是一个十分特殊的群体——他们非常“聪明”,为了达成目的不介意在自己的机器上安装上千万条硬件连接线。根据我的经验,生物学家、化学家和环境科学家就没有这么“聪明”了。他们不愿意自己动手去安装大量软硬件,而是想得到一些“网络2.0”式的服务来搞定这些棘手问题,好让他们专心从事自己领域内的研究工作。事实上,如何让这些不太“聪明”的科学家方便地使用我们所提供的合作技术和数据处理技术,这是eScience所面临的真正挑战。
 
   《环球科学》:在各类学术期刊上发表论文是最为传统的学术交流方式。随着互联网的发展,在线学术交流日益普遍,比如把学术论文发表在arXiv电子文库实现共享。与这些方式相比,eScience 在学术交流方面能够带来哪些便利?
 
  托尼·海:我曾经在英国南安普顿大学担任电子和计算机科学学院院长。过去15 年来,学术期刊的价格一直在飙升,每年至少上涨10%,但是学院图书馆的经费每年最多增长3%。所以每到年底,我都要痛苦地抉择:明年到底要舍弃哪一本。我甚至没有经费去订阅新的期刊,因此也就无法为学院拓展新的研究方向。这件事清楚地表明,传统的学术交流模式已经过时了。但是新模式应该是什么样子,还没有人知道。
 
  在我以前工作过的英国南安普顿大学,我坚持这样一种做法:所有公开发表的作品,包括研究论文、会议文集、访谈记录、数据甚至软件,学院都必须保留一份电子版本。这些资料随后被汇总成一个学院级的研究资料库。我认为,未来的大学图书馆所扮演的角色,就相当于大学所有脑力劳动成果的监护人。这些数据库通过整合来实现文献共享。
 
  我相信,计算技术将彻底变革学术交流的面貌。许多拉美国家已经把所有的研究论文汇集在一起,建立了一个名叫SciELO 的数据库。由于拉美地区语言环境复杂,这些论文使用的语言也五花八门,有西班牙语、葡萄牙语,还有英语。因此,我们在这个数据库中整合了一套在线机器翻译服务。如果设置把葡萄牙语翻译成英语,点击需要查阅的葡萄牙语论文,旁边就显示在线翻译的英语版本。这项功能很受用户欢迎,反响热烈。这个数据库中的科研论文,每个人都可以免费访问并阅读。
 
  这些数据库都建立在SQLserver的基础之上,不光可以添加论文,还可以储存原始数据。未来,数据库中的论文都会有链接指向原始数据,方便阅读者查阅调用。我们正在与美国约翰斯·霍普金斯大学及《天体物理学报》(Astronomy Physics Journal)展开合作,尝试将天文学领域的论文与原始数据链接起来。事实上,在查阅文献的时候,不光可以找到这篇论文,看到原始数据,还可以将网络上的一切相关信息全显示出来。所有这些资料都通过XML标签绑定在一起,将来通过语义网能够很方便地查询。
 
  除了论文和数据的共享以外,我们与大英图书馆(British Library)合作的“研究信息中心”项目,还允许用户围绕数据资料做一些其他的事情。你可以开博客,写维基,点评数据库中的论文,甚至能够建立“社交圈”,选择让一部分人看到你的评论,另一些人则看不到。把类似于“网络2.0”的技术结合到科学研究之中,会是一件非常有趣的事情。这样的论文数据周边服务已经出现。
 
  现在, 你已经可以从BioMed Central 订阅一种名叫“Faculty of 1000”的专业服务了。这家电子出版机构聘请一千多位专家,从生物医药领域每个月发表的论文中,选出他们最喜欢和最不喜欢的,并进行点评。你可以阅读这些著名科学家的评论,并且把论文品味与你相似的科学家筛选出来,重点关注他们推荐的论文。
 
  《环球科学》:今年第6期《环球科学》杂志提到的“科学2.0”引发了巨大的争议,因为这可能会让剽窃者有可乘之机。eScience 的数据分享模式是否也可能为剽窃者打开方便之门?
 
  托尼·海:确实有这方面的担心,但是在不同的领域,对待这个问题的方式也不一样。在物理学界,许多论文在正式出版之前,草稿会先发表在arXiv电子文库当中。但是,物理学界已经达成共识:草稿在arXiv 上发表的日期就是论文的正式出版日期。这样就杜绝了从草稿中剽窃想法的可能。而在生物学领域,科学家在正式论文发表之前,绝对不会让别人先看到内容。在艺术界和人文学科方面,他们的理念不同,做法也不相同。
 
  《环球科学》:科学进步有哪些特点适合eScience的发展?未来它的前景如何?
 
  托尼·海:科学变化的一个重要特点就是,以后的科学研究会涉及越来越大量的数据。未来的科学家在从事科学研究时,需要从不同的地方甚至不同的领域获取数据,加上自己的数据分析计算,进而得出新的成果。要完成这样的工作,需要用到许多不同的技能,数据共享和计算能力肯定是不可或缺的。eScience 会为科学家提供众多技术,帮助他们轻松执行计算,发布研究成果,最大程度地实现资源共享及利用。
 
  我相信,eScience 能够应用于各种学科,包括自然科学和工程学,甚至艺术、人文及社会科学。日本东京大学的池内克史(Katsushi Ikeuchi)教授将计算科学与遗产保护结合起来,他称之为eHeritage(e 遗产);把计算科学与工程学结合起来,或许可以称为eEngineering(e 工程)。未来,字母“e”可能不会再被特别指出,因为它将成为我们研究科学的方式和工具,就像我们今天浏览万维网一样方便简单。
 
(来源:《环球科学》 2008-12-09)

附件下载: