Сергей Сорокин: «C точки зрения врача система представляет собой 'черный ящик'» |
Основной опыт работы с большими данными, который удалось накопить в фармацевтической отрасли, связан главным образом с фармакокинетическим и фармакодинамическим моделированием. После того как определена доза препарата и начинается этап перехода «от пробирки к человеку», в цепочке накопления данных появляются разрывы. Потенциально полезные для фармацевтики большие данные – геномные данные, сведения о назначенной терапии, данные лабораторной диагностики и мониторинга состояния пациентов, посты на форумах и в социальных сетях – скапливаются отдельными «островами». Фармацевтические компании не успевают перерабатывать этот вал данных в знания и тем более применять их.
Сэкономить время и деньги
Интересы биотех- и фармкомпаний к технологиям анализа больших данных и искусственного интеллекта очень широки и простираются от собственно разработки препаратов до получения обратной связи от пациентов, контроля приема лекарств и соблюдения рекомендаций врачей, совместной работы и повышения операционной эффективности.
Однако, как отметили участники конференции «Большие данные в фарме», организованной Semantic Hub при содействии Агентства стратегических инициатив, прекрасные ожидания фармкомпаний, связанные с цифровизацией здравоохранения, связаны прежде всего с сокращением сроков разработки и исследований, а следовательно – снижением затрат на выпуск новых препаратов.
Чтобы вывести на рынок один новый препарат, требуется минимум 10 лет и несколько миллиардов долларов, но и тогда вероятность того, что этот препарат будет продаваться, составляет примерно 10%, отмечает Кирилл Жуденков, старший научный сотрудник M&S Decisions. По его словам, остановка проектов на ранних стадиях в 80% случаев связана с безопасностью препарата, на поздних – с его неэффективностью. Поэтому при принятии решений о разработке новых лекарственных препаратов очень высоко востребованы аналитика и компьютерное моделирование. «Иначе как понять, эта молекула – «бомба» или не «бомба»», – объясняет Жуденков.
Избежать неудач на поздних стадиях разработки препарата и предсказать влияние лекарств на поведение биомаркеров помогает моделирование динамики основных компонентов биосистемы. Для этого в Институте системной биологии моделируют заболевания, виртуальных пациентов и их популяции и проводят виртуальные клинические исследования. Построенные на ранних стадиях разработки системно-фармакологические модели дают возможность предсказать, что же получат разработчики на второй фазе клинических испытаний. Кроме того, в институте разработали программу Immune Research Template, упрощающую создание системно-фармакологических моделей в области иммуноонкологии.
Между тем и западные, и российские регуляторы остаются достаточно консервативными, даже когда заявляют о готовности принимать данные математического моделирования. И, как отмечает Михаил Самсонов, директор медицинского департамента «Р-Фарм», такая консервативность тоже является барьером для развития.
«Сказать, что интерес фармотрасли к информационным технологиям большой, – это ничего не сказать», – констатирует Александр Чернавин, руководитель группы по поддержке бизнеса в медицинском департаменте «Р-Фарм». Этот интерес охватывает разработку новых препаратов, организацию доклинических и клинических исследований, в том числе создание баз данных. Однако пока мало говорится о создании всеобъемлющих баз данных химических субстанций, которые можно было бы использовать на ранних стадиях разработки препаратов, до получения патента. Фармкомпании многое держат в секрете и потому часто идут параллельными курсами, хотя могли бы продвигаться совместными усилиями. По мнению Чернавина, сотрудничество между фармацевтическими и ИТ-компаниями в период после выпуска препарата развито недостаточно. Крайне важно, чтобы препарат попал в руки хороших специалистов, и здесь возможности образовательных мероприятий, позволяющих с помощью интернет-технологий и вебинаров охватить большее число специалистов, очень велики.
Чернавин также обращает внимание на серьезнейшую глобальную проблему, которую невозможно решить без анализа больших данных, – рост устойчивости возбудителей инфекционных заболеваний к воздействию антибактериальных препаратов. В Смоленске российскими учеными создана база данных результатов лабораторных исследований, которая позволяет анализировать изменения резистентности микроорганизмов со временем. Но этого, увы, недостаточно.
Очевидно, что экономические реалии требуют от фармацевтической отрасли более интеллектуальных подходов и к продвижению своей продукции и к изучению поведения потребителей. В год на подобные мероприятия расходуется около 300 млрд руб. Как признает Иван Глушков, заместитель гендиректора по развитию из Stada CIS, «стремление накачивать телевизор деньгами в условиях падения покупательской способности населения выглядит очень рискованной стратегией».
«Фармацевтика – венчурная по своей природе отрасль, поскольку слишком большое число самых разных факторов влияют на успех препарата, – отмечает Ирина Ефименко, генеральный директор Semantic Hub. – И при анализе большого объема неструктурированных данных всегда есть риск проглядеть что-то важное, упустив перспективную разработку или вложившись в продукт, который сойдет с дистанции». Semantic Hub, специализирующаяся на анализе естественного языка, создает сервисы, помогающие экспертам исследовательских департаментов ускорить разработку перспективных препаратов путем более раннего выявления перспективных направлений, таких как новые решения, молекулы, их комбинации, системы доставки. «Мы надеемся, что с помощью технологий анализа больших данных, искусственного интеллекта, в том числе семантических технологий, сможем ускорить исследования в десятки раз, чтобы каждый этап занимал часы, а не недели», – говорит Ефименко.
Проблемы с интеллектом
По объемам инвестиций в системы искусственного интеллекта здравоохранение уверенно лидирует среди других отраслей. И, возможно, именно поэтому основные проблемы развития искусственного интеллекта в здравоохранении проявляются особенно ярко. Например, Сергей Сорокин, генеральный директор компании «Интеллоджик», отметил такую проблему, как необходимость больших объемов данных для обучения нейронных сетей и невозможность построить эффективные модели с использованием гетерогенных данных на небольших выборках для каждого заболевания.
Но одно из самых серьезных препятствий, затрудняющих распространение в медицине решений на базе ИИ, заключается в том, что врач, принимающий конечное решение и несущий за него ответственность, не понимает, почему ему предлагаются те или иные результаты работы алгоритма. C его точки зрения, система представляет собой «черный ящик», и нет возможности объяснить ему логику получения результата применения ИИ, чтобы валидировать этот результат. Необходима такая система представления результатов, которая позволила бы упростить оценку достоверности работы математической модели врачом.
Попытку создать такое решение предприняли в Российском онкологическом центре им. Н. Н. Блохина – в этом учреждении сейчас тестируется интеллектуальная система анализа медицинских изображений для распознавания рака легких.
Одна из проблем фармотрасли, которую помогает решить ИИ, – повышение эффективности предварительного скрининга пациентов, отбираемых для проведения клинических исследований. По статистике, до 70% набранных пациентов не соответствуют критериям включения (или невключения) в исследование. Как утверждает Сорокин, благодаря математическому моделированию сроки поиска подходящих пациентов сокращаются, а точность повышается.
Наиболее перспективные направления использования искусственного интеллекта в медицине – диагностика и оценка рисков развития заболеваний. В платформе, которую разрабатывает «Интеллоджик», технологии ИИ применяют для обработки диагностических изображений и объединения гетерогенных медицинских данных в вектор, кодирующий всю информацию о пациенте. Первичная модель представления пациентов строится на доступных публичных базах данных, а ее уточнение производится на частных наборах данных. И уже на основе созданных векторных математических моделей разрабатываются инструменты диагностики и оценки рисков заболеваний. В проекте под названием Botkin.AI предусматривается автоматическая подготовка наборов данных и обучение моделей, а также визуализация результатов.
Осознать потребности
Примеров удачной монетизации больших данных на российском рынке ИТ для фармацевтики немного: соединения «боли» заказчика с ИТ-решением часто не происходит, хотя у обеих сторон есть ощущение, что оно где-то рядом.
Один из мировых фармгигантов, компания Bayer, к примеру, развивает акселератор стартапов в области цифровой медицины, ежегодно отбирая перспективные российские ИТ-компании и помогая им сфокусировать свои решения на актуальных для фармацевтики задачах.
Как отмечает Глушков, монетизация – следствие удовлетворения осознанной потребности. Видимо, фармкомпании все еще недостаточно четко осознают, какие именно задачи следует ставить перед ИТ-подрядчиками.
Копилки данных
Ценные для искусственного интеллекта базы создают исследовательские лаборатории. Например, Unim – российская гистологическая лаборатория, где весь онкоморфологический анализ проводится полностью в цифровом виде, накапливает архив диагностированных и дважды валидированных данных.
Не выпускают из вида медицинское направление и интернет-холдинги. В совместном проекте Yandex Data Factory фармацевтической компании «АстраЗенека» и Российского общества клинической онкологии RUSSCO на платформу RAY закачиваются сырые данные молекулярно-генетических лабораторий. А в проекте «Здоровье.Mail.ru» накапливаются и анализируются во многих разрезах результаты пользовательских запросов на всех ресурсах компании.
Предполагается, что накопление данных о здоровье облегчит легализация телемедицины. Сорокин, однако, скептически относится к гипотетическому прорыву в области накопления медицинских данных, ожидаемому после вступления в силу закона о применении ИТ в сфере охраны здоровья. «Теоретически телемедицина – драйвер отрасли и нашего проекта, – говорит он. – Но я не верю, что, как только откроется юридический «шлюз», сразу хлынет поток дистанционных консультаций».
Тем не менее «копилки данных», собранных в процессе онлайн-консультаций, уже начали наполняться.