Ежедневно генерируется 2, 5 квинтиллиона байтов новых данных. Где же их хранить? Как обычно, далеко ходить не надо — все, что необходимо есть в природе — в ДНК молекулах
Количество информации постоянно растет — ежедневно генерируется 2, 5 квинтиллиона байтов новых данных. Где же их хранить? Как обычно, далеко ходить не надо — все, что необходимо есть в самом человеке
Основные задачи, которые должны решать современные носители информации — это плотность записи данных, надежность их сохранения и экономичность. В настоящее время ведутся разработки по сохранению информации на магнитных лентах с использованием новых технологий. Эти носители информации уже называют революционными в области хранения данных. Мы писали о них св статье «Старые новые магнитные ленты». Но даже та плотность записи данных, которую предполагает новая технология, не может сравниться с природным носителем информации, которые существует в теле человека — с ДНК-нитями.
Информацию можно хранить в ДНК?
Нити ДНК — это естественное природное хранилище информации. При этом объем информации, который зашифрован в молекулах ДНК при помощи аминокислот — огромен.
Если рассмотреть принцип записи информации на ДНК, то можно увидеть, что используется не двоичный, а четверичный код. Вся информация записана в виде последовательности нуклеотидов.
Это такие молекулярные блоки, в которых содержатся четыре вида азотистых оснований. Это аденин, гуанин, тимин и цитозин (AGTC). Есть в ДНК нитях и защита от сбоев. Нити представляют из себя не одну, а две цепочки нуклеотидов, которые закручены в виде двойной спирали.
Ученые давно присматривались к этому природному носителю информации. Но для того, чтобы использовать его, нужно научиться считывать и записывать данные.
Методы считывания информации с молекул ДНК
Сначала информацию, которая содержится в ДНК считывали при помощи рентгеновского структурного анализа или масс-спектрометрии. Однако эти методы можно применять лишь для расшифровки небольшого количества данных, содержащихся на небольших молекулах, состоящих из нескольких атомов. Однако ДНК — самая большая молекула в организме человека. Поэтому на исследование ДНК при помощи таких методов занимает месяцы и годы.
Новый метод изучения ДНК молекул — секвенирование, позволил в разы увеличить скорость расшифровки, до нескольких часов. Смысл метода в том, что ДНК делится на короткие отрезки, которые расшифровываются не последовательно, а параллельно. Во время расшифровки генетический материал распределяют по пробиркам, добавляют формамид и проводят электрофорез. Затем при помощирадиоавтографии определяют последовательность нуклеотидов.
Однако для использования в хранении данных скорость все равно пока недостаточна.
Первые записи информации в молекулах ДНК
Первыми, кому удалось «записать» информацию на новый природный носитель, были ученые из Европейского института биоинформатики (The European Bioinformatics Institute).
В 2009 году они опубликовали статью, в которой описали способ устойчивой записи информации на молекулы ДНК. Они предложили отказаться от четверичной системы хранения, заложенной в молекуле. И вместо нее использовать троичную систему. А четвертый нуклеотид использовать для того, чтобы разбивать длинные цепочки.
Во время экспериментам ученым удалось записать 739 Кбайт информации. В частности, 154 сонета Шекспира в формате .txt, видеооролик с выступлением Мартина Лютера Кинга, продолжительностью в 26 секунд, один документ в формате .pdf, а также файл с описанием процесса кодирования. При этом плотность записи составила 2, 2 петабайта на 1 грамм биологического материала. Что касается надежности считывания данных, то она составила 100%.
Исследования Microsoft
Во время совместных исследований, проведенных компанией Microsoft и Вашингтонским университетом, ученым удалось значительно увеличить объем информации — до 200 Мбайт. Еще одна инновация заключается в том, что ученые нашли способ считывать не всю нить ДНК, а лишь ее отдельный участок.
Но главное достижение, по мнению исследователей, состоит в том, что им удалось автоматизировать процесс перевода цифровой информации в ДНК и обратно в биты. Один из исследователей, Катрин Штраус, объяснила, почему при записи и считывании информации так важна автоматизация:
Наша глобальная цель — запустить в производство систему, которая для конечного пользователя будет выглядеть как любой другой облачный сервис: биты отсылаются в дата-центр и хранятся там, а потом просто появляются на компьютере, когда они нужны клиенту.
Это первое в мире автоматизированное хранилище данных на основе ДНК получила название Hello по первому зашифрованному слову.
По размеру фрагмент ДНК, на котором хранилась информация был размером с крупицу соли.
Цифровая нуклеотидная память
Последним словом в облоасти хранения данных в молекуле ДНК является технология цифровой нуклеотидной памяти, dNAM (digital Nucleic Acid Memory). Статья «Альтернативный подход к нуклеотидной памяти» с описанием этой технологии была опубликована 22 апреля 2021 года в журнале Nature Communications.
Суть нового метода заключается в том, что информацию с молекулы ДНК можно считывать при помощи микроскопа. Без использования метода секвенирования. А это еще больше упрощает и ускоряет процесс. При этом запись информации происходит про помощи пегов из ДНК. Слово пег взято из игры Lite-Brite. В этой игре дано поле с ячейками, которое заполняется цветными пластиковыми прищепками, пегами, которые светятся. Пегами составляют картинки по шаблону или произвольно. Вот по аналогии с этой игрой — конструктором и записывается информация при новом методе. Пеги из нитей ДНК расположены очень близко — в 10 нанометрах друг от друга. Нити ДНК светятся и мигают. Вот такие светящиеся паттерны, узоры, — это код для хранения фрагментов данных, который легко «прочитать» при помощи микроскопа.
Микроскоп может считать сотни тысяч пегов из одного изображения. Прототип, который создали учены, позволил считать данные с плотностью 330 Гигабит на один квадратный сантиметр. Это огромное количество информации на очень маленькой площади.
Плюсы и минусы хранения данных при помощи ДНК
Плюсов у новой технологии много и они серьезные. Прежде всего, это огромная плотность записи информации на очень маленьких носителях. Ученые обещают, что с новыми носителями информации все имеющиеся в мире данные можно будет разместить в платяном шкафу. Так что вопрос места для хранения информации сразу решится.
Кроме того, базы данных на основе ДНК могут существовать значительно дольше, чем все известные в настоящее время носители информации. Даже в далеко не идеальных условиях молекулы ДНК сохранялись десятки тысяч лет, что же говорить о сроке хранения, если будет создана оптимальная для сохранности молекул среда.
Но есть и несколько минусов. И они тоже существенные. Во-первых, считывание все же происходит очень долго. Для чистой науки сокращение сроков с месяца до нескольких часов — огромный прорыв. Но для практического IT использования несколько часов скачивания информации — неприемлемы.
И второй минус — дороговизна. Так, например, Microsoft на реализацию своего эксперимента использовала 13 тысяч уникальных фрагментов ДНК. Стоимость только этих материалов на рынке составляет около 800 тысяч долларов. Но этот минус временный. Новые технологии редко бывают дешевыми на старте разработки.
Так что, будем надеяться, что в будущем процесс записи данных на ДНК будет и быстрее и дешевле. И все смогут его использовать, чтобы сохранить все, что нам дорого на долгие годы.
Комментариев: 0 обсудить?