Революционное исследование делает значительный шаг вперед на пути к разработке системы хранения цифровых данных на основе ДНК.
Цифровое дата сегодня растет экспоненциально из-за нашей зависимости от гаджетов и требует надежного долгосрочного хранения. Хранение данных постепенно становится проблематичным, потому что современные цифровые технологии не могут предоставить решение. Примером может служить то, что за последние два года было создано больше цифровых данных, чем за всю историю компьютеров, фактически создается 2.5 квинтиллиона байт {1 квинтиллион байт = 2,500,000 2,500,000,000 XNUMX терабайт (ТБ) = XNUMX XNUMX XNUMX XNUMX гигабайт (ГБ)} данных. каждый день в мире. Сюда входят данные на сайтах социальных сетей, транзакции онлайн-банкинга, записи компаний и организаций, данные со спутников, наблюдения, исследования, разработки и т. Д. Эти данные огромны и неструктурированы. Поэтому сейчас большая проблема - удовлетворить огромные потребности в хранении данных и их экспоненциальный рост, особенно для организаций и корпораций, которым требуется надежное долгосрочное хранилище.
В настоящее время доступны следующие варианты: жесткий диск, оптические диски (CD), карты памяти, флэш-накопители и более продвинутый ленточный накопитель или оптические диски BluRay, на которых хранится примерно до 10 терабайт (ТБ) данных. Такие запоминающие устройства, хотя и используются обычно, имеют много недостатков. Во-первых, они имеют срок хранения от низкого до среднего, и их необходимо хранить в идеальных условиях температуры и влажности, чтобы они могли прослужить многие десятилетия, и, следовательно, требуют специально спроектированных физических складских помещений. Почти все они потребляют много энергии, громоздки и непрактичны и могут быть повреждены при простом падении. Некоторые из них очень дороги, часто содержат ошибки в данных и, следовательно, недостаточно надежны. Вариант, который был повсеместно принят в организации, называется облачными вычислениями - договоренность, при которой компания в основном нанимает «внешний» сервер для обработки всех своих требований к ИТ и хранению данных, называемый «облаком». Одним из основных недостатков облачных вычислений являются проблемы с безопасностью и конфиденциальностью, а также уязвимость для атак хакеров. Есть и другие проблемы, такие как высокие затраты, ограниченный контроль со стороны родительской организации и зависимость от платформы. Облачные вычисления по-прежнему считаются хорошей альтернативой долгосрочному хранению. Однако похоже, что цифровая информация, генерируемая во всем мире, определенно превосходит наши возможности по ее хранению, и необходимы еще более надежные решения для обслуживания этого потока данных, при этом обеспечивая масштабируемость для учета будущих потребностей в хранении.
Может ли ДНК помочь в хранении компьютерных данных?
Наш ДНК (дезоксирибонуклеиновая кислота) рассматривается как захватывающий альтернативный носитель для хранения цифровых данных. ДНК — это самовоспроизводящийся материал, присутствующий почти во всех живых организмах и составляющий нашу генетическую информацию. Искусственный или синтетический ДНК представляет собой прочный материал, который можно изготовить с использованием имеющихся в продаже машин для синтеза олигонуклеотидов. Основным преимуществом ДНК является ее долговечность, поскольку ДНК служит в 1000 раз дольше, чем кремний (кремниевый чип — материал, используемый для построения компьютеры). Удивительно, но всего один кубический миллиметр ДНК может содержать квинтиллион байтов данных! ДНК также является сверхкомпактным материалом, который никогда не разлагается и может храниться в прохладном сухом месте в течение сотен столетий. Идея использования ДНК для хранения существовала давно, еще в 1994 году. Основная причина заключается в том, что информация хранится в компьютере и в нашей ДНК схожим образом, поскольку оба хранят чертежи информации. Компьютер хранит все данные в виде нулей и единиц, а ДНК хранит все данные о живом организме, используя четыре основания - тимин (T), гуанин (G), аденин (A) и цитозин (C). Следовательно, ДНК можно назвать стандартным запоминающим устройством, как и компьютер, если эти основания могут быть представлены как 0 (основания A и C) и 1 (основания T и G). ДНК прочна и долговечна, простейшее отражение заключается в том, что наш генетический код - план всей нашей информации, хранящейся в ДНК, - эффективно передается от одного поколения к следующему повторяющимся образом. Все гиганты программного и аппаратного обеспечения стремятся использовать синтетическую ДНК для хранения огромных объемов данных, чтобы достичь своей цели по долгосрочному архивированию данных. Идея состоит в том, чтобы сначала преобразовать компьютерные коды 0 и 1 в код ДНК (A, C, T, G), а затем преобразованный код ДНК используется для создания синтетических цепей ДНК, которые затем могут быть помещены в холодное хранилище. При необходимости нити ДНК могут быть извлечены из холодного хранилища, а их информация расшифрована с помощью машины для секвенирования ДНК, а последовательность ДНК, наконец, преобразуется обратно в двоичный компьютерный формат единиц и нулей для считывания на компьютере.
Это было показано1 что всего несколько граммов ДНК могут хранить квинтиллионы байтов данных и сохранять их нетронутыми до 2000 лет. Однако это простое понимание столкнулось с некоторыми проблемами. Во-первых, это довольно дорого и мучительно медленно записывать данные в ДНК, то есть фактическое преобразование нулей и единиц в основания ДНК (A, T, C, G). Во-вторых, после того, как данные «записаны» на ДНК, становится сложно найти и извлекать файлы и требуется метод, называемый секвенированием ДНК - процесс определения точного порядка оснований в молекуле ДНК, после которого данные декодируются обратно в 0 и 1.
Недавнее исследование2 ученые из Microsoft Research и Вашингтонского университета добились «произвольного доступа» к хранилищу ДНК. Аспект «произвольного доступа» очень важен, потому что он означает, что информация может быть передана в место или из места (обычно в память), в котором каждое место, независимо от того, в каком месте последовательности, может быть доступно напрямую. Используя этот метод произвольного доступа, файлы могут быть извлечены из хранилища ДНК выборочно по сравнению с предыдущим, когда такой поиск требовал последовательности и декодирования всего набора данных ДНК, чтобы найти и извлечь несколько файлов, которые хотелось бы. Важность «произвольного доступа» еще больше возрастает, когда объем данных увеличивается, и становится огромной, поскольку он уменьшает объем необходимой последовательности операций. Впервые случайный доступ был показан в таком большом масштабе. Исследователи также разработали алгоритм для более эффективного декодирования и восстановления данных с большей устойчивостью к ошибкам данных, что делает процедуру секвенирования также более быстрой. В этом исследовании было закодировано более 13 миллионов синтетических олигонуклеотидов ДНК, которые представляли собой данные размером 200 МБ, состоящие из 35 файлов (содержащих видео, аудио, изображения и текст) размером от 29 КБ до 44 МБ. Эти файлы были получены по отдельности без ошибок. Кроме того, авторы разработали новые алгоритмы, которые более надежны и устойчивы к ошибкам при записи и чтении последовательностей ДНК. Это исследование опубликовано в Nature Biotechnology в крупном достижении, демонстрирующем жизнеспособную крупномасштабную систему для хранения и поиска ДНК.
Система хранения ДНК выглядит очень привлекательно, потому что она имеет высокую плотность данных, высокую стабильность и проста в хранении, но, очевидно, у нее есть много проблем, прежде чем она может быть принята повсеместно. Немногочисленные факторы - это время и трудоемкое декодирование ДНК (секвенирование), а также синтез ДНК. Техника требует большей точности и более широкого охвата. Несмотря на то, что в этой области были достигнуты успехи, точный формат, в котором данные будут храниться в долгосрочной перспективе, будет сохраняться, поскольку ДНК все еще развивается. Microsoft пообещала улучшить производство синтетической ДНК и решить проблемы, связанные с разработкой полностью работоспособного ДНК система хранения к 2020 году.
{Вы можете прочитать исходную исследовательскую работу, щелкнув ссылку DOI, приведенную ниже в списке цитируемых источников}
Источник (ы)
1. Erlich Y и Zielinski D 2017. DNA Fountain обеспечивает надежную и эффективную архитектуру хранения. Наука. 355 (6328). https://doi.org/10.1126/science.aaj2038
2. Organick L et al. 2018. Произвольный доступ в крупномасштабном хранилище ДНК-данных. Природа Биотехнологии. 36. https://doi.org/10.1038/nbt.4079