ДНК как среда для хранения огромных компьютерных данных: реальность очень скоро? -

Прорывное исследование делает значительный шаг вперед в поисках разработки ДНК-система хранения цифровых данных.

Цифровое данным сегодня растет экспоненциально из-за нашей зависимости от гаджетов и требует надежного долгосрочного хранения. Хранение данных постепенно становится проблематичным, потому что современные цифровые технологии не могут предоставить решение. Примером может служить то, что за последние два года было создано больше цифровых данных, чем за всю историю компьютеров, фактически создается 2.5 квинтиллиона байт {1 квинтиллион байт = 2,500,000 2,500,000,000 XNUMX терабайт (ТБ) = XNUMX XNUMX XNUMX XNUMX гигабайт (ГБ)} данных. каждый день в мире. Сюда входят данные на сайтах социальных сетей, транзакции онлайн-банкинга, записи компаний и организаций, данные со спутников, наблюдения, исследования, разработки и т. Д. Эти данные огромны и неструктурированы. Поэтому сейчас большая проблема - удовлетворить огромные потребности в хранении данных и их экспоненциальный рост, особенно для организаций и корпораций, которым требуется надежное долгосрочное хранилище.

В настоящее время доступны следующие варианты: жесткий диск, оптические диски (CD), карты памяти, флэш-накопители и более продвинутый ленточный накопитель или оптические диски BluRay, на которых хранится примерно до 10 терабайт (ТБ) данных. Такие запоминающие устройства, хотя и используются обычно, имеют много недостатков. Во-первых, они имеют срок хранения от низкого до среднего, и их необходимо хранить в идеальных условиях температуры и влажности, чтобы они могли прослужить многие десятилетия, и, следовательно, требуют специально спроектированных физических складских помещений. Почти все они потребляют много энергии, громоздки и непрактичны и могут быть повреждены при простом падении. Некоторые из них очень дороги, часто содержат ошибки в данных и, следовательно, недостаточно надежны. Вариант, который был повсеместно принят в организации, называется облачными вычислениями - договоренность, при которой компания в основном нанимает «внешний» сервер для обработки всех своих требований к ИТ и хранению данных, называемый «облаком». Одним из основных недостатков облачных вычислений являются проблемы с безопасностью и конфиденциальностью, а также уязвимость для атак хакеров. Есть и другие проблемы, такие как высокие затраты, ограниченный контроль со стороны родительской организации и зависимость от платформы. Облачные вычисления по-прежнему считаются хорошей альтернативой долгосрочному хранению. Однако похоже, что цифровая информация, генерируемая во всем мире, определенно превосходит наши возможности по ее хранению, и необходимы еще более надежные решения для обслуживания этого потока данных, при этом обеспечивая масштабируемость для учета будущих потребностей в хранении.

Может ли ДНК помочь в хранении компьютерных данных?

Наши ДНК (Дезоксирибонуклеиновая кислота) рассматривается как интересная альтернативная среда для хранения цифровых данных. ДНК — это самовоспроизводящийся материал, присутствующий почти во всех живых организмах, и именно он составляет нашу генетическую информацию. Искусственный или синтетический ДНК представляет собой прочный материал, который можно получить с помощью имеющихся в продаже машин для синтеза олигонуклеотидов. Основное преимущество ДНК – ее долговечность как ДНК служит в 1000 раз дольше, чем кремний (кремниевый чип – материал, используемый для изготовления компьютеры). Удивительно, но всего один кубический миллиметр ДНК может хранить квинтиллион байт данных! ДНК Это также сверхкомпактный материал, который никогда не разлагается и может храниться в сухом прохладном месте в течение сотен веков. Идея использования ДНК для хранения возникла уже давно, еще в 1994 году. Основная причина заключается в том, что информация хранится на компьютере и в нашей памяти схожим образом. ДНК – поскольку оба хранят чертежи информации. Компьютер хранит все данные в виде 0 и 1, а ДНК хранит все данные живого организма, используя четыре основания — тимин (Т), гуанин (G), аденин (А) и цитозин (С). Следовательно, ДНК можно было бы назвать стандартным запоминающим устройством, как и компьютер, если бы эти основания можно было представить в виде 0 (основания A и C) и 1 (основания T и G). ДНК прочна и долговечна. Самое простое объяснение состоит в том, что наш генетический код – схема всей нашей информации, хранящейся в ДНК – эффективно передается от одного поколения к другому повторяющимся образом. Все гиганты программного и аппаратного обеспечения заинтересованы в использовании синтетической ДНК для хранения огромных объемов данных для достижения своей цели — решения долгосрочного архивирования данных. Идея состоит в том, чтобы сначала преобразовать компьютерный код 0 и 1 в код ДНК (A, C, T, G), преобразованный код ДНК затем используется для создания синтетических нитей ДНК, которые затем можно поместить в холодное хранилище. При необходимости нити ДНК могут быть извлечены из холодного хранилища, а их информация декодирована с помощью машины для секвенирования ДНК, а последовательность ДНК окончательно переведена обратно в двоичный компьютерный формат 1 и 0 для считывания на компьютере.

Это было показано¹ что всего несколько граммов ДНК могут хранить квинтиллион байт данных и сохранять их нетронутыми до 2000 лет. Однако это простое понимание сталкивается с некоторыми проблемами. Во-первых, запись данных в ДНК, т. е. фактическое преобразование нулей и единиц в основания ДНК (A, T, C, G), обходится довольно дорого и очень медленно. Во-вторых, как только данные «записаны» в ДНК, становится сложно найти и извлечь файлы, и для этого требуется метод, называемый ДНК секвенирование – процесс определения точного порядка оснований внутри ДНК молекула - после чего данные декодируются обратно в 0 и 1.

Недавнее исследование² ученые из Microsoft Research и Вашингтонского университета добились «произвольного доступа» к хранилищу ДНК. Аспект «произвольного доступа» очень важен, потому что он означает, что информация может быть передана в место или из места (обычно в память), в котором каждое место, независимо от того, в каком месте последовательности, может быть доступно напрямую. Используя этот метод произвольного доступа, файлы могут быть извлечены из хранилища ДНК выборочно по сравнению с предыдущим, когда такой поиск требовал последовательности и декодирования всего набора данных ДНК, чтобы найти и извлечь несколько файлов, которые хотелось бы. Важность «произвольного доступа» еще больше возрастает, когда объем данных увеличивается, и становится огромной, поскольку он уменьшает объем необходимой последовательности операций. Впервые случайный доступ был показан в таком большом масштабе. Исследователи также разработали алгоритм для более эффективного декодирования и восстановления данных с большей устойчивостью к ошибкам данных, что делает процедуру секвенирования также более быстрой. В этом исследовании было закодировано более 13 миллионов синтетических олигонуклеотидов ДНК, которые представляли собой данные размером 200 МБ, состоящие из 35 файлов (содержащих видео, аудио, изображения и текст) размером от 29 КБ до 44 МБ. Эти файлы были получены по отдельности без ошибок. Кроме того, авторы разработали новые алгоритмы, которые более надежны и устойчивы к ошибкам при записи и чтении последовательностей ДНК. Это исследование опубликовано в Nature Biotechnology в крупном достижении, демонстрирующем жизнеспособную крупномасштабную систему для хранения и поиска ДНК.

Система хранения ДНК выглядит очень привлекательно, поскольку она имеет высокую плотность данных, высокую стабильность и ее легко хранить, но, очевидно, ей предстоит преодолеть множество проблем, прежде чем ее можно будет повсеместно принять. Немногими факторами являются время и трудозатратное декодирование ДНК (секвенирование), а также синтез ДНК. Этот метод требует большей точности и более широкого охвата. Несмотря на то, что в этой области были достигнуты успехи, точный формат, в котором данные будут храниться в долгосрочной перспективе, как ДНК все еще развивается. Microsoft пообещала улучшить производство синтетической ДНК и решить проблемы разработки полностью работоспособного ДНК система хранения к 2020 году.

{Вы можете прочитать исходную исследовательскую работу, щелкнув ссылку DOI, приведенную ниже в списке цитируемых источников}

Источник (ы)

1. Erlich Y и Zielinski D 2017. DNA Fountain обеспечивает надежную и эффективную архитектуру хранения. Наука. 355 (6328). https://doi.org/10.1126/science.aaj2038

2. Organick L et al. 2018. Произвольный доступ в крупномасштабном хранилище ДНК-данных. Природа Биотехнологии. 36. https://doi.org/10.1038/nbt.4079

ДНК как среда для хранения огромных компьютерных данных: реальность очень скоро?

Подписка на рассылку

Самые популярные статьи

РЕДАКТОРЫ

ПОПУЛЯРНОЕ

Популярная категория