Когда речь заходит о некоммерческих организациях (НКО), у многих в сознании всплывают призывы «отправь смс по такому-то номеру» и прозрачные боксы на кассах магазинов для сборов на благотворительность. Однако эти расхожие образы не вполне отвечают действительности. НКО в России недаром называют «третьим сектором экономики», наряду с государственным и коммерческим бизнесом, с достаточно большим оборотом капитала. В благотворительные фонды выделяются огромные деньги и из бюджета, и со стороны частных доноров. Как следствие, у НКО высока потребность в цифровизации и обеспечении прозрачности и эффективности работы.
Бизнес-аналитика и прогнозирование с использованием машинного обучения становятся для НКО хорошим шансом повысить доверие к себе, привлечь большие объемы средств, и в результате помочь большему числу нуждающихся. В благотворительном фонде «Дети-бабочки» с этой целью внедрили BI-систему Analytic Workspace. О реализации этого проекта и его роли для организации рассказывает Михаил Греков, директор по развитию BI-системы Analytic Workspace «БАРС Груп» и номинант на премию Data Award.
- Какую задачу решали в ходе реализации проекта?
Благотворительный фонд «Дети-бабочки» с 2011 года помогает детям, страдающим генными дерматозами – поражающими кожу наследственными заболеваниями. Одна из главных задач фонда – наладить эффективную систему оказания медицинской помощи больным. Для этого в фонде внедрена система «Регистр генетических и других редких заболеваний», поддерживающая базу по подопечным фонда: персональные данные, медицинские показания, информация по оказанной помощи и прочее – более 1 тыс. характеристик.
Основным предназначением аналитического решения является управление процессами и поддержка деятельности некоммерческой организации. В числе прочего, с его помощью рассчитывали улучшить прогнозы по объемам помощи, необходимой подопечным фонда, а также повысить эффективность фандрайзинга и работы с донорами.
- Почему это важно для организации?
Если поднять цифры, фонд «Дети-бабочки» за несколько лет своей работы оказал помощь на 3,5 млрд руб. И поскольку это некоммерческая организация, к ней предъявляются особые требования: все, что есть у фонда, – это его репутация, которую он может монетизировать для того, чтобы собрать деньги с частных доноров и организаций в виде грантов. В связи с этим критически важно прозрачно показывать структуру и отчетность по объему и тратам пожертвований. Внедрение BI в НКО призвано обеспечить максимальную прозрачность отчетности и принятие правильных управленческих решений по распределению средств.
Наши понятия о социальной ответственности вендора совпадают с ценностями некоммерческих организаций, помогающих людям с ограниченными возможностями здоровья, поэтому Analytic Workspace выделяет гранты и придерживается облегченной лицензионной политики для НКО.
- С какими данными ведется работа?
Источники данных фонда представляют собой довольно разветвленную систему. Например, к ним относится регистр генетических и других редких заболеваний. Здесь хранятся данные о подопечных фонда, медицинском персонале и сотрудниках фонда. В фонде накоплена самая большая в мире база результатов генетических исследований заболеваний буллезного эпидермоза и ихтиоза по более чем 2,5 тыс. параметров.
Второй важный источник – система учета взаимоотношений с жертвователями. Сюда поступает финансовая информация из систем CloudPayments, «1C: Бухгалтерии», MixPlat. Наконец, как и в большинстве организаций, есть Excel-файлы, где хранятся архивные и исторические данные фонда.
- Какая платформа была выбрана и почему?
Аналитическое решение создано на базе BI-платформы Analytic Workspace. У нее есть несколько важных особенностей. Во-первых, это развитая функциональность машинного обучения в моделях, позволяющая реализовывать довольно сложные сценарии прогнозной аналитики. Во-вторых, высокий уровень self-service, в том числе автоматические ETL-блоки для самостоятельной глубокой обработки данных. Стоит отметить ролевую модель с разграничением доступа, позволяющую обеспечить высокий уровень безопасности конфиденциальных медицинских данных. Кроме того, имеет значение низкий технический порог входа для пользователей, что обеспечивается дружелюбным интерфейсом. А для некоммерческих организаций предусмотрена облегченная ценовая и лицензионная политика.
- Что представляет собой созданное решение?
Для решения прикладных аналитических задач фонда был создан ряд информационных панелей по четырем основным направлениям: эпидемиология, медицина, социальная информация и фандрайзинг.
Так, информационная панель «Эпидемиология» дает представление о том, какие мутации встречаются в каких регионах страны, в каком возрасте, у людей каких национальностей и т.д. Здесь собраны данные по половозрастной структуре с автоматическим пересчетом данных в динамике времени. Обеспечено распределение подопечных по диагнозам, список которых постоянно расширяется. Реализован drill-down и фильтрация данных друг относительно друга.
Особую задачу представлял учет изменения половозрастного состава подопечных фонда с течением времени. В частности, ранее большинство пациентов не доживало до 18 лет. Информационная панель дает возможность наглядно оценить, каким образом помощь фонда позволила увеличить среднюю продолжительность жизни подопечных. Эта статистика важна, среди прочего, для обеспечения прозрачности данных для обоснования эффективности деятельности фонда.
Информационная панель «Медицина» дает возможность проанализировать все медицинские данные. В частности, каждый подопечный фонда прошел генетический анализ по секвенированию ДНК. Таким образом собрана огромная база данных, визуализация которых дает возможность определить, какова популяционная частота возникновения мутаций, как мутация в определенной нуклеотидной замене влияет на развитие клинической картины заболевания и т.д.
- Что в ходе проекта было самым сложным?
Определенную сложность при работе с медицинскими данными представляет их объем и разрозненность их представления, что потребовало глубокой обработки и трансформации данных на этапе построения логической модели. Analytic Workspace обладает мощным встроенным ETL-модулем на базе связки сервисов Apache Spark и Apache Airflow. Без ложной скромности хочу сказать, что мы добились одной из лидирующих позиций на российском рынке по ETL благодаря разработке и внедрению автоматических ETL-блоков для самостоятельной обработки данных, в том числе блока ML-прогнозирования. Возможности ETL-модуля позволяют решать весьма сложные задачи обработки данных.
Отмечу также, что в Analytic Worksapce имеется возможность обеспечить полную конфиденциальность и безопасность данных, что особенно важно при работе с медицинскими данными.
- Каких фактических результатов удалось достичь?
Уже сейчас аналитика, в том числе предиктивная, помогает рассчитать объем необходимого лечения и финансирования каждого пациента, что позволяет продлить срок и существенно улучшить качество жизни подопечных фонда. Обработка и анализ данных в рамках созданной аналитической системы позволила сделать ряд серьезных выводов, которые привели в частности к созданию терапевтического препарата, который будет помогать детям справляться с симптомами заболевания.
- В чем роль этого проекта?
Благодаря внедрению BI-системы Analytic Workspace с функцией ML-прогнозирования у фонда «Дети-бабочки» появились данные, которые позволяют планировать свою деятельность. Простыми словами – у каждого подопечного фонда имеются определенные проблемы с кожей. Система умеет автоматически предсказывать, какие объемы денежных средств и необходимой терапии потребуются конкретному ребенку, исходя из его клинической динамики и результатов анализов ДНК для достижения максимально благоприятного результата.
Еще один важный момент: ранее среди подопечных фонда было очень много детей-отказников. Представьте себе весь ужас родителей, когда у них рождается ребенок с таким страшным генетическим заболеванием – многие, к сожалению, отказывались от ребенка уже в роддоме. Теперь эта цифра фактически сведена к нулю, поскольку благодаря возможностям прогнозирования заболевания имеется возможность показать маме, что с этим можно жить. При правильном уходе и подобранной терапии такие дети ходят в детский сад и школу, вырастают, женятся и выходят замуж – то есть живут полноценной жизнью.
- Каковы перспективы развития проекта?
Сейчас для нужд фонда проводится внедрение машинного обучения, которое расширит существующую прогнозную аналитику и откроет новые возможности: прогнозирование развития заболевания у подопечного, прогнозирование требуемых объемов помощи, what-if анализ с учетом прогнозной модели.
- А как начет проектов в подобных организациях? Вероятно, их потребности схожи.
Благотворительный фонд «Дети-бабочки» стал нашим первым НКО-проектом. Поскольку он оказался весьма успешным и полезным для решения задач фонда, сейчас BI-система внедряется в других НКО. Так, в благотворительном фонде «АиФ. Доброе сердце» нами вместе с нашим постоянным партнером по работе с НКО компанией «Редермио» реализована сквозная аналитика с применением ML-прогнозирования для повышения эффективности фандрайзинга.