数据聚合是收集信息并以摘要的形式表现出来的过程,它在商业上已经被成功应用了几十年了。比如现在登录某些网站的时候,推送的广告很可能跟你相关度很高。这是因为这些公司已经在收集与你相关的信息,比如年龄、专业,或者收入等信息,然后这些信息被用于网站的个性化。在学术发表领域,数据聚合还没有大规模的应用。现在由于科研文章的发表数量几乎是以指数的方式在增长,数据聚合的使用有着巨大的潜力。在数据聚合之后,采用搜索或者数据挖掘的方式对数据进行处理,能够总结出很多有用的信息,并且可以节省大量的时间。
但是问题并没有那么简单,最大的障碍是如何免费得到这些有用的海量数据。虽然开放获取出版致力于研究数据的免费提供,并且在最近几年得到迅速的发展。开放获取数据库如公共科学图书馆(Public Library of Science ,PLoS)和斯坦福大学的HIGHWIRE图书馆的规模也日益庞大。但是这些数据库仍然有它们的限制:
比如社会科学研究网(The Social Science Research Network ,SSRN)提供了总数几十万的文章,但很多都是预印版,要得到文章的最终版本可能需要与作者进一步联系。美国国立卫生研究院(National Institutes of Health, NIH)的PubMed数据库包含超过2400万篇文章,但其中有很多无法访问。谷歌学术搜索(Google Scholar)中包含大量的信息,但搜索结果中包含了很多无法访问的文章,还有一些期刊已被标记为缺乏严格同行评审过程的可疑刊物。
使用数据聚合是个喜忧参半的事情,它的确可以将相关的数据整合到一个大的数据库里头。但是在这个开放获取的时代,可以获取的数据的质量真的是无法预知的。而且,虽然先进的搜索算法可以帮助识别相关的数据,但是其中一些可能是受限制的,而且还可能存在署名权的问题。所以数据聚合在科学出版上的应用仍然是一个任重道远的事情。