Записывая историю раковых заболеваний, исследователи из онкологического центра MD Anderson Cancer Center при Техасском университете решили прибегнуть к помощи вычислительных систем и ресурсов хранения частного "облака".
"Облака" общедоступное и частное: почему не оба?
Однако "облако" это необычное, ведь при исследовании таких необъятных вещей, как человеческий геном, широта мышления должна быть соответствующей. "Облако" центра MD Anderson вполне соответствует этим масштабам. "Речь идет о 8 тыс. процессорах и полудюжине машин с большим объемом памяти, которые обращаются к хранилищам, где находятся сотни терабайт данных", – сообщил Линн Фогель, вице-президент и директор ИТ-службы центра MD Anderson в Хьюстоне.
Альтернативный путь
Несмотря на то что общая серверная инфраструктура центра MD Anderson использует типичную для "облака" технологию виртуализации, в специализированном исследовательском подразделении все обстоит по-другому. Здесь построен кластер на базе компьютеров HP с процессорами AMD.
"В настоящее время у нас создан крупнейший в мире высокопроизводительный вычислительный комплекс, предназначенный исключительно для проведения онкологических исследований, – сообщил Фогель, ставший недавно лауреатом премии Premier 100 IT Leader, присваиваемой журналом Computerworld. – Вычислительные мощности и емкости хранения выделяются исследователям центра MD Anderson в необходимом им объеме, независимо от того, занимаются ли они изучением человеческого генома, радиационной физики и эпидемиологии, рассчитывают дозы радиационной терапии или моделируют клинические испытания".
К ресурсам "облака" регулярно обращаются около трех десятков исследователей, у каждого из которых имеется от двух до десяти помощников. Доступ к "облаку" осуществляется через веб-портал ResearchStation, построенный на базе сервисно-ориентированной архитектуры.
"Классическое определение облака предполагает удобный доступ через сеть по требованию к разделяемому пулу настраиваемых вычислительных ресурсов, которые оперативно выделяются и освобождаются, – отметил Фогель. – Именно такой подход используется и в нашей среде".
Корпоративные облачные сервисы: повестка дня
Вместе с тем, в "облаке" центра MD Anderson отсутствует возвратный механизм – часто упоминаемый, но вместе с тем, малоиспользуемый "облачный" атрибут. "Возвратный механизм нам не нужен, потому что мы управляем спросом, главным образом, путем проведения экспертных оценок, – пояснил Фогель. – Приоритеты использования ресурсов определяют сами врачи и исследователи, а не ИТ-специалисты.
Это означает, что я не испытываю никаких трудностей с наращиванием, скажем, емкости хранения. Достаточно прийти к руководству и сказать, что для продолжения работ и сохранения звания ведущего онкологического центра в мире нам нужно увеличить объем ресурсов там-то и там-то".
Дальше, дальше, дальше
В центре MD Anderson нет существенных колебаний спроса на ресурсы, с которыми, возможно, приходится сталкиваться другим компаниям.
"Мы видим, что как врачи, так и исследователи демонстрируют буквально 'ненасытный спрос' на вычислительные ресурсы, и кривая этого спроса продолжает расти", – отметил Фогель.
Оборудованная 8 тыс. процессорами система HPC, на базе которой построено частное "облако", уже исчерпала запас своих ресурсов на 80-90%. То же самое произошло и с ее предшественницей, оснащенной 1100 процессорами. Приложения с интенсивным расходом памяти запускаются на шести 32-процессорных серверах с частотой 512 ГГц.
Часть "облака", которая будет работать в новом ЦОД, должна быть открыта нынешним летом.
Это будет уже второй ЦОД, открытый организацией за последние четыре года. Площадь каждого такого центра составляет от 1100 до 1400 квадратных метров. "Мы рассчитывали, что мощностей второго ЦОД нам хватит на четыре-пять лет, однако он был заполнен уже за 18-20 месяцев, – сообщил Фогель. – Пришлось переносить систему восстановления после сбоев в производственный ЦОД и приступать к строительству следующего".
В центрах обработки данных MD Anderson хранится около 3 петабайт данных. Это может показаться удивительным, если учесть, что онкологический центр рассчитан всего на 500 пациентов. Однако объемы исследовательской информации, составляющей около 1,4 петабайт, уже сейчас превышают объемы клинических данных.
"Любой, кто занимается сегодня геномной медициной и упорядочением человеческих геномов, начинает понимать, что соответствующие процессы порождают огромную волну данных, – указал Фогель. – У нас в центре объем исследовательской информации уже сегодня превышает объемы клинических данных с учетом всех изображений и фотографий. Мы столкнулись с колоссальным количеством данных, которые надо где-то хранить и которыми необходимо управлять".
Для удовлетворения потребностей системы хранения в "облаке" в центре MD Anderson используется продукт HP-Ibrix, обеспечивающий потрясающую масштабируемость. "Мы отдали предпочтение системе Ibrix, потому что она отличается устойчивостью и позволяет передавать данные через интерфейсы Ethernet и InfiniBand с использованием CICS, FTP, HTTP, клиента Linux, NFS и других технологий, – заметил Фогель. – Кроме того, у нас появляется возможность связать данные в пределах кластера".
Немаловажное значение имеет и управляемость. Наличие единого поставщика в лице HP гарантирует, что все компоненты окажутся совместимы друг с другом и будут контролироваться системой мониторинга без каких-либо накладок.
Для управления каждым отдельным элементом хранения в центре MD Anderson используются средства HP Storage Essentials и CIM, но на самом верхнем уровне управление осуществляется с помощью управляющего сервера Ibrix Fusion Manager. Каждый сервер также направляет отчеты Fusion Manager.
"В качестве бонуса с учетом ограниченного количества персонала мы получили конфигурацию, требующую минимального вмешательства со стороны человека, – добавил Фогель. – Все обслуживание осуществляется силами всего лишь двух специалистов".
Общедоступное "облако": ни в коем случае
"Мне довелось разговаривать с поставщиками услуг, которые хранили внутри своей инфраструктуры изображения, полученные с помощью методов магнитного резонанса, компьютерной томографии и т.д., – заметил Фогель. – Общее число снимков превышало миллиард. Однако это не наш путь.
Мы рассматривали такую возможность, но пришли к выводу, что с точки зрения производительности, организации доступа и управления данными переход в общедоступное "облако" является слишком рискованным шагом. Ведь речь идет о данных пациентов, которые можно идентифицировать, а общедоступное "облако" уже само по себе создает дополнительные бреши.
Кроме того, поставщики услуг общедоступного "облака" не обладают теми знаниями предметной области, которые имеются у ИТ-персонала MD Anderson. Некоторые из наших сотрудников имеют степень доктора философии.
Если вы подобно нам связаны с биологией, важно понимать используемые структуры данных, методы доступа и применяемые модели, а также знать приложения, которые должны быть доступны исследователям. И как ни пытались нас убедить поставщики, мы все же решили не складывать все данные в одну корзину, оставляя при этом возможность управления ими кому-то другому".