人工智能(AI)时代依赖易于存储和检索的海量数据,而生物学或许能提供一个巧妙的解决方案。
一位科学家正在屏幕上查看DNA图谱
科学家已经能够将莎士比亚的所有十四行诗作品与八部悲剧、维基百科所有英文页面以及一部早期电影的全部内容都塞进一个比微型试管还小的空间里。不过,他们并非通过某种方式将其缩小了,而是利用DNA——所有生命的基本构成单元——对这些作品中的信息进行编码,并以微观尺度存储它们。
随着人类采用AI等先进工具,数据将成为未来的货币。如今,微软等科技巨头已筹集数十亿美元用于建设AI数据中心。一场真正的“存储大战”正在上演,各方都在争相探索如何保存和保护呈指数级增长的数据。足球场大小、能耗高达吉瓦级的数据中心是一种选择,而DNA存储则可能成为一种节能、紧凑型的解决方案。
那么,DNA存储如何实现?
第一步:计算机存储?我们通常将DNA视为蓝图或说明书,其四种碱基(腺嘌呤A、胞嘧啶C、胸腺嘧啶T和鸟嘌呤G)的序列告诉分子机器该如何构建生命体。而DNA存储则彻底颠覆了这一范式:输入的是计算机数据,终端产品是DNA。
多家初创公司正努力完善将二进制计算机代码转换为实体DNA链的技术,试图以此颠覆价值数十亿美元的存储行业。他们计划推动行业转型,逐步淘汰缩微胶卷、缩微平片、磁盘和服务器等传统存储设备。
传统数据存储依赖持续转移,以防止旧数据损坏或技术过时。Atlas数据存储公司的首席执行官瓦伦 · 梅塔(Varun Mehta)将长期数据存储比作粉刷金门大桥——当你从一端刷到另一端时,最先刷的那一端已经生锈,你又得重新开始刷。
他说:“长期数据存储也存在同样的情况,会让人总是忙于把数据从旧存储介质迁移到新介质。”他预测,那些想要摆脱这种循环的人将率先转向DNA存储。
第二步:编码?在实际操作中,DNA存储涉及多个步骤,不仅包括确定编码方式、人工合成DNA以及存储生成的DNA链,还包括对存储的DNA链进行分类,并将核苷酸序列转换回可与计算机兼容或以其他方式可访问的信息。尽管行业成员已于2020年成立DNA数据存储联盟,目的之一就是制定行业标准,但该领域的各家公司在每个步骤的具体操作细节上仍略有不同。
首先,要将信息以DNA形式存储,科学家必须确定数据如何转译。DNA是四进制系统,而计算机则以二进制系统存储和处理信息。与其为每个DNA核苷酸(A、C、T或G)分配“1”或“0”,不如为每个碱基分配一个特定的两位数字组合,比如“00”代表A,“01”代表C,“10”代表T,“11”代表G。理论上,这意味着每个DNA核苷酸最多可编码为2个独立的比特。但在实际操作中,并没有那么行之有效,因为某些DNA核苷酸组合稳定性较差或不理想,且存在将比特转换为DNA碱基的不同化学方案。
DNA存储公司Catalog在2022年宣布,已将莎士比亚的八部悲剧编码进单一试管。为此,科学家利用一种名为重组酶的酶,将约20.7万个单词翻译成核苷酸链。他们声称其DNA构建机器“香农”(Shannon)在几分钟内就能将这些作品编码为数百万个核苷酸。
Catalog公司DNA计算部门的负责人斯瓦普尼尔 · 巴蒂亚(Swapnil Bhatia)解释道:“需要给这里的每一个单词都关联一个随机比特向量。比特向量其实就是一串固定长度的0和1。”比如,“rose”这个单词可能对应一个长达1000个数字的随机比特向量,而不同公司将单词转换为1、0和核苷酸的编码规则也各不相同。
第三步:合成?DNA合成,即实际构建定制DNA链的步骤,是各家公司在方法上存在差异的另一环节。Catalog公司利用喷墨打印原理,使含有预先合成的DNA片段的微小液滴精准喷出。每个液滴中每秒会发生数十万次化学反应,促使DNA链不断延长。而Atlas公司则依托半导体芯片和硅晶圆来组装合成的DNA链。
梅塔说:“一旦这些DNA链组装完成,我们便从芯片中将它们提取出来。这些DNA链就像芯片这片田地里生长的玉米秆,等它们达到我们想要的高度(也就是达到指定的碱基数)时,我们就开始收割。”
第四步:存储?存储和保存这些合成DNA链又带来了一系列挑战。Catalog和Atlas这两家公司将DNA样本存储在金属胶囊中,以避免DNA链因受外界环境影响而降解。要将DNA转换回比特形式,可对其进行测序——所用技术与“23andMe”这类公司做基因检测使用的技术同源。但这种方法无法无限次使用。最终,样本仍需再次复制以进行恢复。为打造更持久、易访问的存储系统,一些团队正在研究荧光标记技术。样本上亮着光,这样研究人员就能一眼获取样本的相关信息,就像元数据技术能帮我们整理计算机文件,而无需打开它们一样。
如果企业能够克服这些挑战,相较于传统存储方式,DNA存储系统所占的空间将得到极大缩减。
梅塔说:“理论极限相当惊人。你可以在一颗泰诺胶囊大小的容器里存储50拍字节的数据,这大约是一部iPhone存储容量的5万倍。”
第五步:检索?将信息存储在如此之小的物理载体中,也引发了关于存储目的的哲学思考:存储设备本身能否具备某种实用功能?科学家已经提出相关理论并完成了概念验证,例如含有DNA存储信息的织物和日常物品(如眼镜)。
Catalog公司设有专门从事“DNA计算”的部门——无需先将DNA中编码的信息转换回比特形式,就能直接对其进行检索和分析。以DNA形式处理数据可能具备一些优势:不同于计算机处理器需要将数据从一端搬运到另一端,它可以在多处并行处理。
梅塔表示,DNA作为生命基本构成单元的地位有朝一日或许能使其成为我们最耐用的技术之一,因为它永远不会消失。“一千年后,可能不会有DVD播放器了。事实上,现在连VHS录像机都很难找到了。但DNA永远不会出现这种情况,因为我们自身的健康离不开它。我们将永远拥有这项技术。”
资料来源 National Geographic












