Компания разработала исключительно эффективный алгоритм поиска в базе данных, хранящей генетическую информацию

Компания Fujitsu и Японский национальный институт генетики приступили к тестированию прототипной системы, основанной на разработанном в Fujitsu ядре базы данных Shunsaku XML.

Сейчас в мире всего два хранилища генетической информации, подобных нынешней базе данных института. В ней хранятся данные, полученные в ходе всех проектов по исследованию генома, проводимых под эгидой японского правительства. Кроме того, база данных содержит всю открытую информацию Патентного бюро Японии. Сегодня в этой базе данных хранится, в частности, 39,8 млрд. шаблонов ДНК. Ежегодно объем базы удваивается.

Поскольку к базе данных ежедневно обращается свыше 10 тыс. пользователей, вопрос о скоростном поиске стал одним из приоритетных. Нынешняя база данных построена на основе реляционной модели и поиск по двум-трем ключевым словам в ней выполняется примерно за десять минут. В новой системе на ту же работу требуется не более пять секунд.

Столь высокая скорость Shunsaku обусловлена использованием особого алгоритма поиска, который не требует создания индекса. Каждая операция поиска выполняется в реальном времени, новые документы могут появляться в ответах на запросы практически сразу же после того, как они были добавлены в базу данных.

Если бы информация, хранящаяся в базе данных, была статичной, то реляционная СУБД и Shunsaku выполняли бы поиск примерно за одно и то же время. Однако база данных института растет, что требует обновления индекса. Кроме того, индекс невозможно создавать сразу же по мере добавления информации.

Поскольку Shunsaku всегда работает с базой данных в реальном времени, подобные проблемы не возникают.

Партнеры планируют работать над оптимизацией Shunsaku. Предполагается, что после этого система будет эффективнее работать со сложными данными. Как утверждают в Fujitsu, после усовершенствования скорость работы Shunsaku будет, возможно, в 200 раз быстрее, чем у реляционной СУБД.

Shunsaku уже предлагается на японском рынке под названием Interstage Shunsaku Data Manager Enterprise Edition, и в Fujitsu намерены к концу года начать продажи этого программного инструментария в Соединенных Штатах.