РЕКЛАМА

ДНК как среда для хранения огромных компьютерных данных: реальность очень скоро?

A breakthrough study takes significant step forward in the quest to develop a ДНК-based storage system for digital data.

Цифровое данным сегодня растет экспоненциально из-за нашей зависимости от гаджетов и требует надежного долгосрочного хранения. Хранение данных постепенно становится проблематичным, потому что современные цифровые технологии не могут предоставить решение. Примером может служить то, что за последние два года было создано больше цифровых данных, чем за всю историю компьютеров, фактически создается 2.5 квинтиллиона байт {1 квинтиллион байт = 2,500,000 2,500,000,000 XNUMX терабайт (ТБ) = XNUMX XNUMX XNUMX XNUMX гигабайт (ГБ)} данных. каждый день в мире. Сюда входят данные на сайтах социальных сетей, транзакции онлайн-банкинга, записи компаний и организаций, данные со спутников, наблюдения, исследования, разработки и т. Д. Эти данные огромны и неструктурированы. Поэтому сейчас большая проблема - удовлетворить огромные потребности в хранении данных и их экспоненциальный рост, особенно для организаций и корпораций, которым требуется надежное долгосрочное хранилище.

В настоящее время доступны следующие варианты: жесткий диск, оптические диски (CD), карты памяти, флэш-накопители и более продвинутый ленточный накопитель или оптические диски BluRay, на которых хранится примерно до 10 терабайт (ТБ) данных. Такие запоминающие устройства, хотя и используются обычно, имеют много недостатков. Во-первых, они имеют срок хранения от низкого до среднего, и их необходимо хранить в идеальных условиях температуры и влажности, чтобы они могли прослужить многие десятилетия, и, следовательно, требуют специально спроектированных физических складских помещений. Почти все они потребляют много энергии, громоздки и непрактичны и могут быть повреждены при простом падении. Некоторые из них очень дороги, часто содержат ошибки в данных и, следовательно, недостаточно надежны. Вариант, который был повсеместно принят в организации, называется облачными вычислениями - договоренность, при которой компания в основном нанимает «внешний» сервер для обработки всех своих требований к ИТ и хранению данных, называемый «облаком». Одним из основных недостатков облачных вычислений являются проблемы с безопасностью и конфиденциальностью, а также уязвимость для атак хакеров. Есть и другие проблемы, такие как высокие затраты, ограниченный контроль со стороны родительской организации и зависимость от платформы. Облачные вычисления по-прежнему считаются хорошей альтернативой долгосрочному хранению. Однако похоже, что цифровая информация, генерируемая во всем мире, определенно превосходит наши возможности по ее хранению, и необходимы еще более надежные решения для обслуживания этого потока данных, при этом обеспечивая масштабируемость для учета будущих потребностей в хранении.

Может ли ДНК помочь в хранении компьютерных данных?

Наши ДНК (Deoxyribonucleic acid) is being considered as an exciting alternative medium for digital data storage. ДНК is the self-replicating material present in nearly all living organisms and is what constitutes our genetic information. An artificial or synthetic ДНК is a durable material which can be made using commercially available oligonucleotide synthesis machines. The primary benefit of DNA is its longevity as a ДНК lasts 1000 times longer than silicon (silicon-chip – the material used for building компьютеры). Удивительно, но всего один кубический миллиметр ДНК can hold a quintillion of bytes of data! ДНК is also an ultracompact material which never degrades and can be stored in a cool, dry place for hundreds of centuries. The idea of using DNA for storage has been around for a long time way back to 1994. The main reason is the similar fashion in which information is being stored in a computer and in our ДНК – since both store the blueprints of information. A computer stores all data as 0s and 1s and DNA stores all data of a living organism using the four bases – thymine (T), guanine (G), adenine (A) and cytosine (C). Therefore, DNA could be called a standard storage device, just like a computer, if these bases can be represented as 0s (bases A and C) and 1s (bases T and G). DNA is tough and long-lasting, the simplest reflection being that our genetic code – the blueprint of all our information stored in DNA – is efficiently transmitted from one generation to next in a repeated manner. All software and hardware giants are keen on using synthetic DNA for storing vast amounts to achieve their goal of solving long-term archival of data. The idea is to first convert the computer code 0s and 1s into the DNA code (A, C, T, G), the converted DNA code is then used to produce synthetic strands of DNA which can then be put into cold storage. Whenever required, DNA strands can be removed from cold storage and their information decoded using DNA sequencing machine and DNA sequence is finally translated back to binary computer format of 1s and 0s to be read on the computer.

Это было показано1 that just a few grams of DNA can store quintillion byte of data and keep it intact for up to 2000 years. However, this simple understanding has faced some challenges. Firstly, it is quite expensive and also painfully slow to write data to DNA i.e. the actual conversion of 0s and 1s to the DNA bases (A, T, C, G). Secondly, once the data is “written” onto the DNA, it is challenging to find and retrieve files and requires a technique called ДНК sequencing – process of determining the precise order of bases within a ДНК molecule -after which the data is decoded back to 0s and 1s.

Недавнее исследование2 ученые из Microsoft Research и Вашингтонского университета добились «произвольного доступа» к хранилищу ДНК. Аспект «произвольного доступа» очень важен, потому что он означает, что информация может быть передана в место или из места (обычно в память), в котором каждое место, независимо от того, в каком месте последовательности, может быть доступно напрямую. Используя этот метод произвольного доступа, файлы могут быть извлечены из хранилища ДНК выборочно по сравнению с предыдущим, когда такой поиск требовал последовательности и декодирования всего набора данных ДНК, чтобы найти и извлечь несколько файлов, которые хотелось бы. Важность «произвольного доступа» еще больше возрастает, когда объем данных увеличивается, и становится огромной, поскольку он уменьшает объем необходимой последовательности операций. Впервые случайный доступ был показан в таком большом масштабе. Исследователи также разработали алгоритм для более эффективного декодирования и восстановления данных с большей устойчивостью к ошибкам данных, что делает процедуру секвенирования также более быстрой. В этом исследовании было закодировано более 13 миллионов синтетических олигонуклеотидов ДНК, которые представляли собой данные размером 200 МБ, состоящие из 35 файлов (содержащих видео, аудио, изображения и текст) размером от 29 КБ до 44 МБ. Эти файлы были получены по отдельности без ошибок. Кроме того, авторы разработали новые алгоритмы, которые более надежны и устойчивы к ошибкам при записи и чтении последовательностей ДНК. Это исследование опубликовано в Nature Biotechnology в крупном достижении, демонстрирующем жизнеспособную крупномасштабную систему для хранения и поиска ДНК.

DNA storage system looks very appealing because it is having high data density, high stability and is easy to store but it obviously has many challenges before it can be universally adopted. Few factors are time and labour-intensive decoding of the DNA (the sequencing) and also synthesis of ДНК. The technique requires more accuracy and broader coverage. Even though advances have been made in this area the exact format in which data will be stored in the long-term as ДНК is still evolving. Microsoft has vowed to improve production of synthetic DNA and address the challenges to design a fully operational ДНК система хранения к 2020 году.

{Вы можете прочитать исходную исследовательскую работу, щелкнув ссылку DOI, приведенную ниже в списке цитируемых источников}

Источник (ы)

1. Erlich Y и Zielinski D 2017. DNA Fountain обеспечивает надежную и эффективную архитектуру хранения. Наука. 355 (6328). https://doi.org/10.1126/science.aaj2038

2. Organick L et al. 2018. Произвольный доступ в крупномасштабном хранилище ДНК-данных. Природа Биотехнологии. 36. https://doi.org/10.1038/nbt.4079

Команда SCIEU
Команда SCIEUhttps://www.ScientificEuropean.co.uk
Scientific European® | SCIEU.com | Значительные достижения науки. Воздействие на человечество. Вдохновляющие умы.

Подписка на рассылку

Быть в курсе всех последних новостей, предложений и специальных объявлений.

Самые популярные статьи

- Реклама -
94,492ПоклонникиПодобно
47,677ПодписчикиПодписаться
1,772ПодписчикиПодписаться
30ПодписчикиПодписаться