文本挖掘口角升温

发布时间：13年05月19日

编译邢鸿飞

科学家和出版商就使用机器查阅科研论文的许可产生分歧。

　　要是那些把守信息的人们能给科学家们自由，那么未来就会是基于计算机的研究时代。研究者们过去一年一直在苦苦抱怨，出版商不允许他们使用电脑程序下载或者浏览科研文章的文本，这一方法即是文本挖掘，可在研究中呈现范围较大的整体模式。

　　出版商们担心文章内容可能会被任意重组，因此一般会屏蔽他们发现到的浏览全文的程序，对那些付费使用者也不例外。他们只就具体个例，给予那些对协议条款让步的人使用许可。目前，欧盟委员会和出版社联盟正准备制定更明细的条款。但是上个月，有人向欧盟一个正在讨论文本和信息挖掘相关内容的小组投诉，这表明持不同意见者仍然为数不少。

　　去年九月，在布鲁塞尔知识产权峰会上，欧盟委员会副主席尼利·克罗斯（Neelie Kroes）曾表示：“要是我们不再像现在这样进行法律限制，信息和文本挖掘技术是通向下一次医学重大突破的关键。”

文本挖掘项目

　　将基因与研究论文相关联。“文本——基因组”项目从大约三百万份研究论文中找到DNA序列，创建了一个在线的基因组图，图中每个区域都与相关论文链接（go.nature.com/iupijx）。

　　绘制大脑谱图。“神经合成（NeuroSynth）”项目从大约4 400篇科研论文中提取出大脑扫描数据，使用者可以将人脑部的不同位置与相关研究术语和研究主题相链接（neurosynth.org）。

　　化学数据。SureChem成果颇丰，拥有从约2 000万项专利中获取的有关分子研究的可用数据（surechem.com）。

　　新药研发。研究者们从MEDLINE（联机医学文献分析和检索系统）数据库中的2 000多万篇文章中免费搜索摘要，并发现E-cadherin（一种细胞黏附分子）和帕金森症之间某种间接关联（go.nature.com/fsv4az）。

　　出版商们表示，到目前为止，要求获许挖掘文本的研究者寥寥无几。尽管如此，据位于阿姆斯特丹的Elsevier出版公司说，2012年，机器人在整个网络平台上浏览其ScienceDirect网站的流量占总流量的百分之四，几乎是2011年的两倍。无论这些项目有任何意图，这一数据表明，除了人类，现在越来越多的机器开始浏览相关的文章。

　　康涅狄格州瑞吉菲尔德的Boehringer Ingelheim医药公司的计算生物学家劳尔·罗德里格斯——埃斯特班（Raul Rodriguez-Esteban）说，他在2012年处理了160次文本挖掘的查询。其中有一次，他搜索了超过23 000篇文章后，选出上百个能够缓解一个多发性硬化症的小鼠模型的蛋白质。接着，他将其他与之相关的蛋白质草拟了一个网络，并由此发现新的潜在药物靶标。学术科研工作者垂涎这一技能，但也表示，对相关使用协议条款进行协商需要花上数月甚至数年。加利福尼亚州圣克鲁斯大学的马克斯·霍伊斯勒（Max Haeussler）花了三年的时间才争取到下载三百万篇文章的资格，从这些文章中他找到了所需的DNA数据来注解一个在线人类基因组图（见《自然》483,134-135,2012）。

争议何其多

　　今年晚些时候，英国将允许非商业化使用文本挖掘，即允许科学家们挖掘他们付费查询的任何内容。文本挖掘者们希望欧盟委员会也能做到这一点。英国曼彻斯特大学国家文本挖掘中心的副主任约翰·麦克诺特（John McNaught）说道：“流传在使用者们中的口号是‘阅读权是我自己的权利’。”

　　然而，欧盟今年成立的讨论文本和数据挖掘的工作小组已经饱受争议。2月4日的会议之后，研究者们和图书管理者们抱怨该小组只是讨论了如何处理文本挖掘的许可，并没有讨论如何给予文本挖掘免除版权的问题。“这将会对文本挖掘技术的使用制造障碍，并且使得诸多方面进行计算机辅助研究举步维艰。”这是他们2月26日写给克罗斯以及其他三位欧盟委员的信中的一段，委员们并未对此做出任何回应。

　　据英国巴斯大学的罗丝·芒瑟（Ross Mounce）说，3月8日的第二次会晤几乎没有能够对免责条款进行正式讨论，罗丝本人正在使用文本挖掘从文献综述中选取进化关系的树状结构。欧盟工作小组希望能够在年底达成相关结论。

　　同样的问题在美国，情况略微好些。一些律师认为，文本挖掘获得允许的可能性在于“公平使用”权利，也就是说人们可复制文本的部分片段。但没有人能够肯定，而且很多研究者们担心，这样做会触及到法律的灰色区域。

　　一些出版社表示，不受约束的文本挖掘会给他们的服务器增加负担，因此还需要有协议来明确说明下载文章的时间和方式。无数学术出版商的非营利合作平台CrossRef，正在研发一种系统，能够让研究者们通过点击出版商网站上的按钮接受标准格式的文本挖掘条款。CrossRef平台的杰夫·比尔德（Geoff Bilder）希望该系统在年底能够正式推出。

　　曼彻斯特丹佛的版权税计算中心（CCC）与出版社就版权许可进行合作，他们的努力更加有野心。据该中心的罗伊·考夫曼（Roy Kaufman）介绍，他们想做中间人，收集各个出版社的相关条款和内容，并将它们收录进为研究者们开放的网站。目前该中心正就此与包括自然出版集团在内的六家出版社，以及一些迫切需要挖掘文献的医药化学公司合作。

　　北卡罗来纳州达勒姆的美国国家进化综合中心的希瑟·比沃华尔（Heather Piwowar）对研究者如何使用信息进行研究，她说，允许像谷歌这样的大公司浏览网络内容并编入索引，而限制科学家们这样做不公平。她在博客中写道：“谷歌知道它在做什么，而我们这些人却无法被人信任，这说得过去吗？我希望不要这样。”

资料来源 Nature

责任编辑彦隐