В корпорации Microsoft, судя по всему, утвердились в планах предложить в трехлетний срок коммерчески доступную систему хранения данных на основе ДНК.
Об опытном проекте разработки решения для архивного хранения данных на ДНК было объявлено еще в прошлом году. Согласно описанию, это решение обеспечит возможность «уместить всю информацию большого дата-центра в объеме нескольких кубиков сахара или все общедоступные данные Интернета — в объеме обувной коробки».
«Именно это обещает технология ДНК-хранения в том случае, когда ученые сумеют ее масштабировать и преодолеют некоторые технические сложности», — сообщалось тогда в официальном блоге Microsoft.
В самой корпорации о ходе соответствующего исследования ничего не сообщается. Но в публикации на сайте MIT Technoogy Review Даг Кармин, архитектор исследовательского подразделения Microsoft, сообщил, что в корпорации рассчитывают «в трехлетний срок создать систему для узкоспециальных применений, которая будет хранить некоторый объем информации в одном из наших центров обработки данных».
Наталья Ежкова, директор по исследованиям IDC, говорит, что при нынешних гигантских темпах роста объемов данных потребность в информационных носителях на основе ДНК станет крайне насущной уже в ближайшие 10–15 лет: «Сейчас единственный способ справляться — это повышать эффективность методов оптимизации хранения данных, в том числе компрессии и дедупликации.
Доцент Вашингтонского университета Луис Энрике Сезе и научный сотрудник Ли Органик готовят ДНК с цифровыми данными для секвенирования, посредством которого будут извлечены записанные ранее файлы Источник: University of Washington |
В частности, некоторые медицинские данные необходимо хранить в течение всей жизни пациента, есть также требующие многолетнего хранения законы, бухгалтерские записи для аудиторских и судебных нужд. По мере развития средств аналитики все больше компаний находят способы извлекать полезную для маркетинга информацию из архивных данных по клиентам и продажам.
Исследователи Microsoft и Вашингтонского университета разработали новый принцип кодирования длинных двоичных последовательностей в виде азотистых оснований ДНК — аденина, гуанина, тимина и цитозина. Цифровые данные разбиваются на фрагменты и сохраняются путем синтеза огромного количества молекул ДНК, которые затем можно высушить для долговременного хранения.
Для доступа к хранимым данным в последовательностях ДНК дополнительно кодируются координаты размещения информации. Поиск необходимых индексов осуществляется с помощью полимеразной цепной реакции — метода, широко применяемого в молекулярной биологии.
Теоретически в одном миллиметре ДНК можно сохранить около экзабайта информации — это на восемь порядков больше по сравнению с магнитной лентой.
При всей перспективности ДНК-хранения существует ряд проблем, которые нужно решить, чтобы такие системы архивации появились в дата-центрах. Например, есть проблема совместимости с существующими приложениями и оборудованием. Но если ее удастся преодолеть, прорыв будет просто колоссальным, уверены аналитики.
Согласно результатам исследования IDC Digital Universe, объемы цифровых данных в мире удваиваются каждые два года, начиная с 2005-го.
При этом лишь ничтожная часть цифровой вселенной на сегодня изучена с точки зрения аналитической ценности. Как прогнозируют в IDC, к 2020 году до 33% всех цифровых данных будут содержать информацию, которая может оказаться ценной после анализа. К тому же сроку почти 40% всех данных будут храниться или обрабатываться в облаке.
В прошлом году исследователи из Microsoft и Вашингтонского университета сумели сохранить 200 Мбайт данных на синтезированных спиралях ДНК. Ученые подчеркивают, что, помимо самого объема данных, которые удалось закодировать в ДНК и считать из нее, важно то, сколько места заняла информация. По словам Кармина, после кодировки данные в пробирке уместились «в объеме гораздо меньшем, чем кончик грифеля карандаша».
Период полураспада ДНК-хранилищ (срок, через который половина связей между цепочками нуклеотидов разрушится) составляет 500 лет. Для сравнения, срок службы магнитной ленты, жестких дисков, оптических дисков и флеш-памяти NAND гораздо короче — от пяти лет до нескольких десятилетий.