同行评议：Twitter的尝试

发布时间：12年03月30日

编译王键

博客和推特正在把论文从出版时代剥离，留下一群不知所措的研究人员……

　　“科学家发现了长寿的秘诀”，去年6月1日《华尔街日报》的大标题如此宣布。“谁会活到100岁？基因测试可以给出答案”，美国全国公共广播电台（NPR）一天后也这样说。

　　这些以及几百条相似的狂热标题在跟风《科学》杂志上的一篇论文，其中研究人员宣布识别了一组能够预测人类寿命的基因，准确率达77%――这是一项在医疗、卫生政策和经济方面具有巨大潜在意义的发现。

　　正当主流媒体歌颂这一发现的时候，另一些研究人员却在网络上批评这篇论文，“我们期待这项研究的大多数结果将不会同它的参与者拥有同样的寿命”，一些研究者发布的博客这样讽刺道，他们属于一家常驻加利福尼亚芒廷维尤的私营基因组公司“23andMe”。

　　批评者特别对论文作者用于识别长寿基因的全基因组关联研究（GWAS）感到不安：在该研究中的百岁老人和控制因子经过多种不同的DNA芯片而得到检测，而这可能扭曲了结果。

　　“基本上任何做过GWAS的研究者都了解这一缺陷，这就是为什么我们都说它太快了”，大卫·古德斯坦（David Goldstein）表示。他是杜克大学人类基因组变异中心的主任，该研究发表的当天，他在《新闻周刊》博客上表达了他的关切。

　　这一批评的冲击效果非常显著。在几小时而不是几年内，在公众而不是私人的小型会议中，该论文在博客、推特（Twitter）和其他社交媒体上被变本加厉地拆析。例如在去年12月，许多科学家在博客上直接发布了对另一篇广受宣扬的论文的批评――这篇文章通报了某种可能的细菌，作者声称在DNA骨架试验中利用了砷而不是磷。

反对意见

　　对许多研究者来说，这样迅速的回应再好不过了，因为它更快地铲除了有水分的工作。“当这类东西在科学文献中长时间无人回应，它们可能会带来危害：它们能够影响人们的工作内容，或者影响整个领域”，古德斯坦说。但这在长寿基因论文的案例中得以避免。在这篇论文出版一个星期之后，作者发布了一份声明，部分地表明，“我们已经意识到在实验室测试中存在技术上的错误……而且，我们正在仔细地重新检查分析内容”。接着在11月份，《科学》杂志刊登了一份关于该论文的“关注启示”，集中反思了其结果的有效性。

　　当《自然》杂志询问评价时，该论文的首席调查员、波士顿大学的生物统计学家保拉·赛巴斯蒂安尼（Paola Sebastiani）只是说她和她的合作作者“可说的还不是太多，因为这还只是个摸索中的议题”。

　　在很多研究者看来，此次在线评论的步态和论调可能是具有胁迫性的――并且很像是人身攻击。作者怎么可能对来自所有方面的批评进行回应？甚至于，他们是否应当回应？或者，他们是否应当把回应局限在传统的、更深思熟虑的范围内，比如学术会议或期刊上？“沟通的速度跑到了在实验室和工作中思考所需时间的前头”，菲莉莎·沃尔芙-西蒙（Felisa Wolfe-Simon）说，她是加州芒廷维尤美国宇航局（NASA）天体生物学研究所的博士后，还是该篇“砷”论文第一作者。随后，她在Twitter上发布了一条短评，很多科学家利用它发表了更长的文章和博客贴文。

　　若要给这种混乱带来某种秩序，一组新的文化规范将是必须的，同时需要支持这种规范的在线系统。开放的、在线的同行评议的理念几乎是全新的。自从互联网的使用在1990年代开始膨胀，热心人已经在争论在线评议是否能够、且是否应当取代传统的用来决定一篇论文可否发表的同行评议过程。

　　“实际上，发表所有论文并且在事后进行过滤是更有意义的”，卡麦隆·奈仑（Cameron Neylon）说，他是科学和技术成员会议（Science & Technology Facilities Council）的高级科学家，这是一家英国的资助机构。

快速反馈

　　在某些领域，特别是数学和物理学，这种关于论文的公共讨论已经形成规范，既包括出版之前，也包括之后。在那些领域，过去的20年中大多数研究人员已在预印服务器arXiv.org中保存他们的草稿。当博客开始流行于千禧年交接之际，他们就很快以这种形式讨论研究内容。

　　在其他领域的科学家，则不愿意参与出版前的讨论。生物学家，尤其明显地不愿基于其他人的工作来公开讨论他们自己的工作和评价，因为他们担心竞争者或带有恶意的评议人的挖墙脚行为。终身制评定委员会和基金会机构明显不会鼓励这样的在线活动。

　　作为结果，几家期刊――包括2005年的《自然》――已经尝试过激发科学家对于各种开放式评审形式的兴趣，而且大都失败了。“大多数论文集中于科学的荒芜之地，根本无法吸引注意力”，菲尔·戴维斯（Phil Davis）说，他是康奈尔大学的一名通信研究员、“学者厨房”博客的执行编辑，是一家由科罗拉多惠特里学者出版学会运作的。

　　通过对论文在线版本评论的方式进行出版后的同行评议，一些期刊获得了少许成功。但是讨论并非是充满活力的，这很大程度是因为这些期刊通常要在它们自己的网站上征求这些出版后的批评，而不是在流行的社交网站上。

　　“谁会发自内心地去登陆PLoS One网站，只为评论一篇论文？”乔纳森·伊森（Jonathan Eisen）问道，他是PLoS 生物的首席学术编辑，尽管这一网站还是一个高产的博客和推特。“关于一篇PLoS的论文，我保证在Twitter上会有更多的评论。”

　　对于研究者来说，问题是如何处理关于论文的这一假设分析？无组织的，无规则的，而且经常是匿名的，对习惯于更传统讨论方式的生物学家而言，在线评论可能是令人不愉快的。像塞巴斯蒂安尼一样，例如对于那篇“砷”论文的嘈杂声音，沃尔芙-西蒙最初试图置身事外。“任何讨论将必须是同行评议的，就像我们论文所接受的同样方式，并且通过一个预检过程，让所有的讨论都是完全适当的”，当争议最初冒出来时，她如是说。她和一位合作作者随后向网站上的一些批评者做出了回应。

　　古德斯坦试图跨过这一过程，尽管在收到负面在线评议结果时已事先发表过他的观点。“我认为如果该工作是过硬的，它就能够经受时间考验，这些风言风语无法损害过硬的工作”，他这样表示。然而他补充说，“对这个问题也可能存在跟风心态，对此我们应当非常小心”。特别像前面所提的长寿和“砷”论文这样的例子，对名誉的迅猛抨击，以及使作者名声大跌，都不是很合理的。

　　解决办法要依赖于捕捉、组织和度量所有这些分散信息的新方法，最终为科学提供了持续的贡献，而不只是在博客圈里渐渐褪色。这种最成功和最令人感兴趣的试验，也许能在像Faculty 1000（F1000）和thirdviewer.com，包括在线文献图书馆，如Mendeley、CiteULike以及Zotero这样的网站中被发现，这些网站允许用户收藏和共享在线论文或其他网站的链接。

　　F1000，于2002年推出对生物学领域的期刊论文进行评估，是这些网站中最知名的一个，是一个超过10000名研究人员和临床医师组成的群体，由他们通过分数6（推荐）、8（必读）或10（超棒）对论文进行选择、评估和定级。单个分数再用一个公式加以复合，产生出该论文的Ｆ1000因子。这些分数，依次产生出终身教职申报和经费申请方面的表现。“这是我们所采用的唯一一种系统化方法”，韦尔康姆信托基金会的李兹·埃伦（Liz Allen）说，“这为引用指标增加了另一个维度。”

　　然而，很多批评意见提到F1000的各项排行榜同传统的引用方式有太紧密的关联，这意味着它们如果有价值的话，也并没有特别的价值。而且大多数论文从没引起群体成员的注意，因此它们根本没获得等级。

推特之后

　　对于聚合和量化一篇论文所有在线回复和评估的方法的兴趣在不断增长，这产生了奈伦和其他研究者所提出的“选择计量学”（alt-metrics），以及它同传统计量方法的比较。

　　“当学者迁移到更新的交流形式中，度量他们正在做的事情并进行比较就变得非常重要了”，杰森·普瑞姆（Jason Priem）说，他是北卡莱罗纳大学教堂山分校的信息科学二年级研究生，目前正专注于选择计量学方面的研究。

　　奈伦在主导一项3万欧元的经费申请，以创建并测试一个运行中的选择计量学原型，通过评定围绕一篇论文的所有在线活动，它将会快速的度量论文的影响力。另外，他和许多同事也支持一个出版前同行评议的完全在线的系统，它将会基于arXiv.org的模板，并且将会用一个更平等更透明的过程来取代那些被他们看作是有缺陷的过程。

　　无论如何，最近的步伐可能比大多数科学家――甚至是那些精力充沛的在博客和推特上发表评语的人所预想的更遥远一点。虽然近来的行动是“很不错的把握事物的第二代机制”，古德斯坦说，“我认为我们不想让它只是成为一个仿佛是唯一质量仲裁者的对所有人开放的评注。”

　　“它确实像是与民主类似的事物”，他补充说。“同行评议过程并不是非常棒――但是，实际上也没什么更棒的东西。”

资料来源 Nature

责任编辑李辉