DNA存储是您从未听说过的最重要的创新
随着互联网活动、数字设备和物联网传感器产生的数据量继续以惊人的速度增长,企业已经没有时间解决一个关键问题:将所有数据放在哪里。根据最近的 IDC 报告,未来五年内创建的数据量将是自数字存储开始使用以来产生的数据量的两倍以上。
其余的要么被覆盖要么被临时缓存),但全球数据存储需求仍然超过了总容量的扩张。
虽然硬盘驱动器(HDD) 和固态驱动器(SSD) 在保存和提供我们日常设备运行所需的大量数据方面做得非常出色,但它们都不太适合大量和长时间存储信息。
在档案存储方面,线性磁带开放 (LTO)磁带占据主导地位,其单位容量成本是任何技术中最低的。当前这一代磁带 LTO-8 的本机容量为 12TB,只需 75 美元(或 6.25 美元/TB)即可购买。
然而,虽然具有成本效益,但磁带也有其弱点。数据只能串行访问,难以定位特定文件,企业还需要半定期迁移到新磁带上,以避免数据丢失。
为了尝试解决迫在眉睫的数据危机,研究人员正在寻找新的超密集和超耐用存储技术。出现了一些不同的候选物,但一个概念看起来特别有前途:脱氧核糖核酸,更广为人知的名称是 DNA。
什么是 DNA 存储以及它是如何工作的?
DNA 是生物体的基础材料,由四个分子组成部分组成:腺嘌呤 (A)、鸟嘌呤 (G)、胞嘧啶 (C) 和胸腺嘧啶 (T)。这些化合物成对连接(AT 和 GC)以形成著名的双螺旋阶梯的梯级。
通过将二进制 1 和 0 转换为四字母的遗传字母表,这种结构可以用作一种极其密集和持久的数据存储形式。已发现一克 DNA能够存储 215 PB (220,000 TB) 的数据。
“DNA 数据存储是在合成的 DNA 链上编码和解码二进制数据的过程,”去年由微软、西部数据、Twist Bioscience 和 Ilumina 创立的 DNA 数据存储联盟 (DDSA) 的一位发言人解释说。
“为了将数据存储在 DNA 中,对原始数字数据进行编码,然后写入(使用化学/生物过程合成)并存储。当再次需要存储的数据时,会对 DNA 分子进行测序以按顺序显示每个单独的 A、C、G 或 T,并从 DNA 碱基重新映射回 1 和 0。”
DNA数据存储联盟
DNA 几乎在所有类别中都优于当前的档案存储技术。甲最近的一篇论文估计编码DNA的9TB可以挤进只是1毫米^ 3的空间中,这意味着单个LTO盒的体积将持有2000000 TB的数据,一个LTO-8带的大致167000倍的容量。
在现实世界中,DNA 可用于将整个 YouTube(被认为每年托管大约400,000 TB 的新视频)存储在一个小冰箱中,而不是数英亩的数据中心。
与需要根据使用情况每十年或两年更换一次的磁带不同,DNA 在适当的条件下可以持续数千年。这意味着总拥有成本 (TCO) 可能非常低。
DNA 也是可生物降解的,易于复制,除了制造必要的气候所需的能量外,消耗的能量很少,因此非常环保。
然而,DNA 尚未使磁带存储过时的原因仍然很多。该技术仍处于起步阶段,几乎在整个过程的每个阶段都需要解决问题,从编码到合成再到测序。
存储公司 Quantum 的 LTO 高级开发总监 Turguy Goker 表示,现在“对这匹马下任何赌注”还为时过早。
“DNA 存储现在正在一些波涛汹涌的水域中游泳,它需要几年时间才能安全地驶向商业海岸,”他解释道。
密集耐用,但速度慢且价格昂贵
尽管早期迹象可能很有希望,但在 DNA 开始解决世界存储容量问题之前,仍有许多障碍需要克服。主要问题涉及成本和速度。
为了防止降解,DNA 需要非常特殊的气候,维持这种气候既困难又昂贵。具体来说,DNA 要么需要保持在极低的温度下,要么暴露在严格控制的气流中。
与现有技术相比,使用当前技术将数据写入 DNA 的过程也极其耗时。在这一点得到改善之前,DNA 存储将无法大规模使用。
“DNA 写入是一个化学过程,本质上比我们目前习惯使用的数字电子设备要慢得多,”Goker 解释说。“如果不克服这个障碍,写入基于 DNA 的存储类似于使用吸管清空游泳池。”
脱氧核糖核酸
读取存储在 DNA 中的数据也带来了挑战,在测序过程中很可能会引入错误。出于这个原因,DDSA 期望该技术的最早采用者将其用于一次写入、永不读取 (WORN) 或一次写入、很少读取 (WORSE) 用例(例如,存储某些数据类型以满足监管要求)。
除了技术问题之外,还需要解决缺乏通用标准的问题,以确保 DNA 存储技术能够与其他技术和传统技术互操作。
然而,随着 DNA 存储吸引了政府、存储老牌企业和科技巨头的关注和投资,正在努力寻找这些问题的解决方案。
Advertisement
例如,欧洲国家情报总监办公室去年启动了分子信息存储(MIST)计划,其既定目标是开发能够在 24 小时内写入 1TB 和读取 10TB 的 DNA 技术,成本低于 1000 美元.
另外,Twist Bioscience 开发了一种方法,通过使用使所需化学物质小型化的硅平台,将DNA 合成产量提高 1,000 倍。
根据 DDSA 的说法,能够纠正序列问题的脚本将减轻对数据准确性的担忧,该组织还认为,仍有时间建立规范,以防止整个行业出现碎片化。
“与必须完美的医疗保健合成不同,由于当今存储中通常使用的校正算法,DNA 存储可以容忍错误。DNA 存储先驱们已经在致力于改进编码和纠错算法,以降低这种风险并准确地恢复数据,”一位发言人解释说。
“随着商业上可行的 DNA 数据存储的方法和工具得到更好的理解和更广泛的应用,联盟将考虑创建特定的规范和标准(例如编码、物理接口、保留、文件系统),以促进可互操作的 DNA 的出现基于数据存储的解决方案可以补充现有的存储层次结构。”
尽管 DNA 存储的到来会对磁带的持久用途提出质疑,但仍有一些人认为,这本书还没有写在墙上。
例如,当被问及 DNA 是否会让其磁带存储产品受到威胁时,IBM 表示要提高磁带的密度,这在商业环境中也是经过验证的。
IBM 闪存部门首席技术官兼首席架构师 Andy Walls 表示:“随着全球数据量持续飙升,磁带技术仍然是本地和混合云环境中企业数据保留、保护和弹性的首选解决方案。
“这也是最环保的存储技术,零功耗,可持续使用数十年。而且由于我们不断提高磁带的密度,今天 IBM 的单个磁带(比 VHS 磁带还小)可以容纳令人难以置信的 60TB 压缩数据。这些特性使磁带成为最大的超大规模企业的首选解决方案,这些企业依靠它来获得廉价、可靠的档案存储。”
标签: DNA存储