Камиль Исаев, генеральный директор и вице-президент «EMC Россия и СНГ»После пяти лет функционирования центра разработок EMC в Санкт-Петербурге [1] компания EMC открыла весной 2013 года свой центр в Сколково. О том, в чем особенности новой структуры, какие задачи перед ней поставлены, как прошел первый год жизни центра, рассказывает его генеральный директор, вице-президент «EMC Россия и СНГ» Камиль Исаев.

Центр отмечает первый день рождения, расскажите о его создании.

В структуре Research&Development компании EMC исследовательское направление относительно новое — их во всем мире всего два, в отличие от центров разработок, таких как центр EMC в Санкт-Петербурге. Эти центры занимаются реализацией проектов, горизонты планирования которых составляют несколько лет. Первая исследовательская группа EMC была создана в Бразилии, и задачей наших исследовательских коллективов является создание решений для нужд определенной отрасли — бразильский центр фокусируется на потребностях нефтегазовой индустрии, а российский — на науках о жизни и медицине будущего, или трансляционной медицине (translation medicine). Иначе говоря, трансляции достижений биомедицинских наук в клиническую практику и фармакологию.

Рынок ИТ переживает сегодня существенную трансформацию, которую аналитики IDC классифицируют как переход от второй к третьей платформе ИТ: мэйнфреймы, клиент-сервер, а теперь мобильность, социальные сети, облака, Большие Данные. Компаниям, пришедшим из эры второй платформы, необходимо найти свое место в новом мире, и для этого в том числе нужны исследования.

Каким образом было определено направление исследований центра?

Область деятельности EMC — это инфраструктурные технологии, но за счет партнерства с другими компаниями мы выступаем разработчиком решений для определенных индустрий. EMC считает для себя ключевыми три «вертикали»: нефтегазовую промышленность, телекоммуникации и здравоохранение. Мы надеемся, что проекты нашего центра помогут преобразовать здравоохранение и создать медицину будущего. Сегодня в мире наблюдается бурный рост биомедицинских исследований, начало которому было положено расшифровкой генома человека десять лет назад. Сегодня мы начинаем следующий этап — внедрение результатов исследований в клиническую практику и фармакологию. Если стоимость расшифровки первого генома составляла миллиарды долларов, а проект продолжался 10 лет, то сейчас цена одного полного геномного секвенирования вплотную приблизилась к отметке в 1 тыс. долл., поэтому мы ожидаем, что процесс учета генетической информации в практической медицине скоро станет массовым.

Однако этот процесс порождает огромное количество данных и предъявляет нетривиальные требования к ИТ-инфраструктуре. Например, в научных исследованиях данные должны быть выложены в открытый доступ, поскольку это статистический процесс. Недостаточно просто посмотреть, что представляет собой геном, необходимо отслеживать, как он меняется в процессе заболевания, какие отклонения являются вариантами нормы, а какие патогенными мутациями. Чем больше геномов мы сложим вместе, тем выше статистическая вероятность правильных выводов. Кроме этого, в мире клинических данных предъявляются строгие требования к конфиденциальности — необходимо соблюдать этические нормы и законодательные акты, которые подчас не позволяют перемещать данные не только за пределы страны, но и за пределы медицинского учреждения. ИТ-инфраструктура, которая будет создана для трансляционной медицины, должна поддерживать возможность работы как с научными, так и с клиническими данными. Это сложная и интересная научная задача, решением которой мы и занимаемся.

Есть ощущение, что трансляционная медицина в России пока развита слабо. Вы ориентируетесь на партнерство с организациями в других странах или готовы строить нужную ИТ-инфраструктуру без тесного взаимодействия с медиками?

Партнерство для нас крайне важно, потому что без партнеров мы не поймем проблематику предметной области — партнерские связи центра не ограничены Россией. В частности, EMC в лице нашего центра недавно стала членом альянса Global Alliance for Genomic and Health, объединяющего крупнейшие биологические и медицинские центры по всему миру, работающие над различными проблемами трансляционной медицины, начиная с этических — например, выявления критериев обнародования или закрытия данных. Такие критерии становятся основой для построения политик безопасности, которые реализуются в инструментах защиты данных, интегрируемых в ИТ-платформу медицины будущего. Россия не относится к мировым лидерам в этой области — например, на встрече этого глобального альянса в начале марта 2013 года в Лондоне единственным человеком из России был я, хотя там представлен весь мир, от Австралии до Бразилии и от Японии до Южной Африки.

В момент создания у центра уже были конкретные проекты?

Было задано направление исследований, но конкретных проектов не было, хотя была проделана подготовительная работа — в частности, коллегами из центра разработок в Санкт-Петербурге, проведены переговоры с потенциальными партнерами. Не стоит забывать также, что это новое направление для всей корпорации, и нам предстояло найти свое организационное место в ее структуре, убедить акционеров в необходимости исследований, установить правильные взаимоотношения с бизнес-партнерами внутри EMC, спланировать работу центра и т. д. Все эти задачи были выполнены за прошедший год. Сейчас в центре восемь сотрудников, а к концу года планируется довести штат до 20. Запущено три проекта, определены бизнес-партнеры внутри компании.

Расскажите о проектах центра.

Два проекта реализуются совместно с российскими партнерами. Один из них — компания Parseq Labs, стартап из Санкт-Петербурга, которая использует методы секвенирования генома нового поколения для диагностики врожденных заболеваний из списка обязательной диагностики для неонатального скрининга, принятого в России. Для этих заболеваний существуют традиционные методы диагностики, которые, как правило, дают большой процент ошибок. Внедрение более точных методов существенно повысит надежность такой диагностики. Эти заболевания нельзя вылечить, но можно существенно облегчить их течение, в том числе подбором режима, диеты. Если диагностировать их на максимально раннем этапе, человек сможет жить практически нормально, а если этого не сделать, то он станет инвалидом.

Специалисты Parseq Labs не только предложили свою методологию, но и сертифицировали ее для использования в клинической практике по требованиям Евросоюза и провели клинические испытания в Европе. Сейчас мы вместе с ними дорабатываем ИТ-инфраструктуру этого решения, чтобы получить готовый продукт, который можно будет использовать в неонатальном скрининге новорожденных в России.

Второй наш партнер — лаборатория алгоритмической биологии Санкт-Петербургского академического университета, которая работает в сотрудничестве с Калифорнийским университетом в Сан Диего. Исследования в обоих университетах возглавляет известный ученый в области биоинформатики Павел Певзнер. Американская группа занимается протеомикой — исследованием структуры белков для определения новых методов диагностики раковых заболеваний. В организме миллионы белков, и все они играют важную роль. Для того чтобы определить, какой из вновь появившихся в клетке белков является биомаркером, показывающим наличие ракового заболевания, требуются прецизионные методы измерения и статистики. Идея нашего проекта заключается в том, чтобы выстроить в единую систему протеомику, геномику и транскриптомику (исследования РНК). Связав в единое целое все эти звенья, можно более надежно идентифицировать биомаркеры.

Пока это научный проект, его результаты еще не внедряются в клиническую практику, но мы считаем его очень важным и перспективным. В отличие от первого проекта, где на площадке компании Parseq развертывается частное облако, в этом проекте необходимо публичное облако для работы соответствующих инструментов анализа белков, генов и РНК, доступ к которым на определенных условиях может быть предоставлен любым пользователям.

Кроме того, в центре ведется проект по заказу подразделения EMC Isilon, которое специализируется на объектном хранении данных. Решения Isilon используют многие геномные и биологические центры по всему миру. В рамках этого проекта мы принимаем участие в реализации концепции data grid. Аналогично — compute grid, когда вычисления распределяются по множеству компьютеров, данные можно хранить на огромном количестве носителей в лабораториях по всему миру. Если договориться о способах описания данных (метаданных), определить политики копирования, права доступа и т. д. и добиться, чтобы все участники data grid соблюдали определенные правила, то можно получать информацию из любого места этой системы. Концепция data grid реализуется в проекте с открытым кодом Integrated Rule Oriented Data Storage (IRODS). В задачу нашего центра входит разработка расширения для IRODS, которое позволит системе хранения данных на основе Isilon работать с data grid. Например, в European Bioinformatics Institute (Великобритания) развернута система хранения на базе Isilon — это кластер емкостью 35 Пбайт. Благодаря включению такой системы в data grid можно будет получить из любой точки мира быстрый и простой доступ к этому хранилищу.

Помимо трансляционной медицины, будут ли в центре другие направления исследований?

Выбор новых направлений зависит от того, какие партнеры придут к нам на российском рынке. Если медицина будущего рассматривается нами как сфера международного сотрудничества, то следующее направление исследований в центре должно быть обязательно связано с потребностями российского рынка. Сейчас идут переговоры с банками, представителями телекоммуникационной отрасли, энергетическими компаниями.

Какие специалисты работают в центре?

Мой заместитель по науке Леонид Левкович-Маслюк — по образованию математик, выпускник мехмата МГУ, долгие годы работал в ИПМ им. М. В. Келдыша РАН. Это специалист, которых сейчас принято называть data scientist. Мы рассчитываем, что наш интеллектуальный вклад в постановку задачи с точки зрения data science со временем будет все более значительным. Помимо разработки ИТ-инфраструктуры, мы планируем реализовать программный стек, который позволит нашим партнерам в полной мере использовать продукты всей федерации EMC, включая решения компании Pivotal, которая специализируется на аналитике Больших Данных, и обогатить нашими разработками продуктовую линейку EMC. Роль Леонида заключается в развитии этого направления.

В центре есть программисты — разработчики и менеджеры, управляющие проектами разработки, в том числе из нашего центра в Санкт-Петербурге. Они продолжают работать там, хотя основной офис нового центра находится в Москве. Кроме того, мы нанимаем консультантов на временной основе, в том числе специалистов с медицинским образованием. Как правило, они активно участвуют в проекте на стадии постановки задачи.

Как строится сотрудничество центра с российскими университетами?

Мы участвуем в академической программе компании EMC, взаимодействуем с МФТИ, НИУ ВШЭ, Академическим университетом. Но, в отличие от центра разработок в Санкт-Петербурге, где работает около 300 человек и постоянно нужны новые специалисты, целью нашего взаимодействия с университетами не является подготовка кадров. У нас «штучный» набор, и нашим проектам, особенно на стадии старта, нужны уже опытные специалисты, поэтому взаимодействие центра с вузами должно строиться вокруг совместных исследовательских проектов. Для реализации проектов в области трансляционной медицины нужны партнеры, готовые поделиться с нами доступом как к научным, так и к клиническим данным.

Литература

  1. Наталья Дубова. В авангарде Больших Данных // Открытые системы.СУБД. — 2012. — № 3. — С. 46–49. URL: http://www.osp.ru/os/2012/03/13015159 (дата обращения: 22.06.2014).

Наталья Дубова (osmag@osp.ru) — научный редактор, «Открытые системы.СУБД» (Москва).