美国政府正在开发一种海量数据的处理系统,它能够从博客、电子邮件中搜集大量数据,并把这些不相关的信息连接到政府的记录以及情报报告中,以搜索恐怖分子的活动模式。

目前,这个系统尚有一部分还处于开发之中,但先期开发出来的系统已经帮助政府阻止了一些恐怖活动的计划。这是美国联邦政府近期的一种尝试——通过强大的数据分析系统对广泛收集来的数据进行分析,以此来对付恐怖主义。但是,这个项目却涉及到一个很关键的问题——政府侵犯了公民的太多隐私。

“我们不会意识到这些,我们还会过着自己的生活,我们还是一样地每天要买杂货,到国外买东西,在网上搜索,我们在每一处都会留下踪迹,”美国电子前沿基金会(Electronic Frontier Foundation)的李天(Lee Tien,音译)说“,我们一直以为没有人会把这些连到一起。但是这些项目正在做这样的事情,以一种我们没有想过的方式收集和分析它们。”

该系统代号为ADVISE,即分析(Analysis)、分发(Dissemination)、可视化(Visualization)、洞察(Insight)、语义增强(Semantic Enhancement)的英文缩写。ADVISE系统由美国国土安全部(DHS)负责研发,是“威胁弱点,测试评估”(TVTA)安全项目的一部分。今年,美国联邦基金为TVTA计划提供了约5000万美元的资助。

当谈及ADVISE时,国土安全部的官员十分慎重。“我听说过”,隐私技术主管彼特 · 桑德(Peter Sand)说“,但我并不知道这个项目的进展情况。在某种程度上说,如果这个系统已经被讨论过,那么就有使用的可能。”

数据挖掘是关键技术

数据挖掘是ADVISE的主要部分,也有人称之为“数据监控”,即通过筛选数据来发现模式。假如一个超级市场发现买苹果酒的顾客也倾向于买现烤的面包,那么它就会把这两样东西放在一起。为防欺诈,信用卡发行者可以使用数据挖掘来发现诈骗者的活动方式。

ADVISE会搜集大量的、团体的、以及公开在线的信息(从金融记录到CNN新闻故事)。国土安全部在2004年亚历山大会议中的报告指出,该系统可以把各种信息存为“实体(entity)”——关于人员、地点、事情、组织以及事件的链接数据。存储需求是巨大的,该报告估计,系统的存储空间应该达到1015条实体信息以上。如果把每个实体看成一个美分,它们会形成一个半英里高的立方体,大约是帝国大厦的2倍。但是负责TVTA计划的主管约瑟夫 · 凯勒曼(Joseph Kielman)认为,ADVISE以及DHS等相关技术的目标并不只是这些。他在去年11月华盛顿州里士兰会议的发言上说,关键不是仅标识出恐怖分子,或者筛选关键词,而是能在数据中发现能够表明人们动机和目的的关键模式。

例如:几个人之间的突发通信流量意味着恐怖分子在谋划,或者是博客们在争论?在把数据模式交给分析员分析之前,ADVISE算法会设法确定其关键模式。

ADVISE中至少有几部分是可运行的。让我们看看星光软件(Starlight),它和其他可视化软件工具一样,能够给分析员一个关于数据的图形化视图。以这种方式观看数据能够揭示一些在文本和数据形式中不太明显的模式。凯勒曼说,理解人员、组织、地点以及事情之间的关系(使用社会行为分析以及其他技术)对于从纯数据挖掘转到全面的“数据库知识发现”是必要的。

利用数据分析瓦解恐怖活动

美国国家可视化分析中心的工程师吉姆 · 托马斯(Jim Thomas)说,星光软件已经成功破译了一些恐怖策划。他说“:毫无疑问,我们在实验室发明的技术已经用于保卫我们的自由。”

和预想的那样,ADVISE以及它的分析工具将被其他团体用于寻找恐怖分子。ADVISE系统可以使所有联邦政府、州、地方的以及私人安全部门实时分享分布式数据的仓库,并进行协作,共同抵御恐怖活动。

阴影中的项目

然而,ADVISE的范围(它的开发阶段、成本以及其他更多细节)是如此模糊,以致批评者认为它引发了大量有关隐私的问题。

“我们不是很了解它的有关技术,它是怎么工作的,或者它用于什么,”位于华盛顿的电子隐私信息中心的玛西亚 · 霍夫曼(Marcia Hofmann)说“,这些程序和软件的存在影响了很多人,我们真的不知道政府挖掘个人数据到什么程度了。”甚至一些喜爱数据挖掘、对DHS直接监管的国会议员,也认为他们对这个项目并不很了解。

对隐私的关注过去已经破坏了联邦政府在数据挖掘上的努力。2002年,新闻报道揭示了美国国防部正在进行一项名为“全信息感知”(TIA)的项目,目标是搜集并且筛选大量的个人以及政府数据以寻找恐怖主义的线索。一年后,迫于舆论压力使得议会取消了TIA项目。

争论仍然存在

ADVISE“看起来非常像TIA,”李天先生在电子邮件中写道“,它们都强调广泛的搜集以及模式分析。”

但是,国土安全部的桑德强调,隐私保护是内在的“,在系统离开这个部门之前,已经有了隐私评审......,那是我们的重点。”

一些计算机科学家支持ADVISE背后的概念。“这种技术真的能够阻止真正的袭击,”斯坦福大学的计算机科学名誉教授杰弗里 · 厄尔曼(Jeffrey Ullman)说“,如果计算机怀疑我是恐怖分子,只是说将会有一个分析员来看看怎么回事......好的,这没什么大不了的。这是我们愿意放弃某些隐私来做的事情。”

其他人却很少这样想。拉坦雅 · 斯维妮(Latanya Sweeney)是卡内基梅隆大学数据隐私实验室的创始人,她说“:这并不是个坏主意,但是你得证实它的效用,并且具有可证明的隐私保护。”但由于国土安全部曾在2004年一次研讨会上针对隐私的发言,她现在怀疑该部门正在将隐私构建到ADVISE中。“在这点上,ADVISE还没有得到关于隐私技术的资金资助。”

斯维妮引用了代国土安全部的海军研究所的一份申请报告,尽管它字面上没有提到ADVISE,但是该申请报告所描述的数据技术研究与ADVISE文档中引用的技术非常接近。她说,这份申请报告以及她所见到的其他文件,都没有看到关于隐私技术的资金资助证据。

国会议员建议加强监管

对于在国家安全部门广泛存在的电子窃听的狂热,议会持纵容态度,并对政府挖掘公共数据以发现恐怖活动线索的相关工作的审批大开绿灯。威斯康星州参议员拉塞尔 · 费因戈尔德(Sen. Russell Feingold)于1月23日说:“国土安全部的国内侦察项目很少受到关注的一个原因是,传言政府广泛使用了数据挖掘技术来分析普通美国人之间的通信。”

费因戈尔德和其他一些议员曾经提出以立法来要求联邦政府各部门对于数据挖掘项目以及他们怎样维护隐私提交一个报告,但这个提议未能成功。

批评者说,如果没有良好的监管体系,那么任何反恐计划都得不到很好的发展。“这种类型的数据挖掘技术的开发对于个人隐私的未来有着严肃的含义。”美国科学家联盟主席史蒂文 · 阿弗特古德(Steven Aftergood)说。甚至国会中对这项工作的支持者也想要了解更多的关于数据挖掘的信息。

“必须要有更多更好的国会监管,”美国众议院国家安全委员会副主席科特 · 韦尔登(Curt Weldon)视察国土安全部时说。“但是必须等到国会理解了数据挖掘是什么时才能有监管。”

数据挖掘被认为是帮助检测恐怖袭击的“越来越有用的工具”,美国会计总署(GAO)在2004年的报告中说,在GAO统计的大约200个联邦数据挖掘工作中,至少有14个是致力于反恐怖主义的。

隐私专家说,虽然隐私法对于政府使用隐私数据(如医学记录)有一些限制,但是并不阻止情报机构从商业数据搜集者那里购买信息。到目前为止,国会没有任何行动来规范这项活动,甚至没有要求来自这些机构的基本通知。

实际上,即便看上去是匿名的数据也不一定这样。例如:通过从档案中提取的名字和社会安全号码,可以轻易地知道87%的美国人的出生日期、性别以及邮政编码等。这是由卡内基梅隆大学的数据隐私研究员斯维妮作出的研究。

GAO在递交给国会的2004年年度报告中指出,政府在数据挖掘过程中必须解决8个问题,以保障网上的个人隐私,其中最重要的一条是建立相关的监管委员会。