Илья Катчан, руководитель Центра развития аналитических продуктов Axenix

Взрывной рост использования ИИ и машинного обучения порождают проблему адекватного объема качественных данных для обучения. Она может успешно решаться за счет использования синтетических данных.

Данные качества

Качество данных играет ключевую роль в развитии искусственного интеллекта (ИИ) и машинного обучения. Некачественные данные (неверный формат, искаженные или неполные атрибуты) могут привести к ряду проблем.

Например, увеличатся затраты на исследование и разработку ИИ-алгоритма. Придется тратить дополнительное время на анализ, очистку и восстановление данных перед их использованием.

ИИ-алгоритмы, обученные на некачественных данных, часто демонстрируют плохую производительность и делают неверные предсказания. Боле того, если в исходных данных присутствует предвзятость – модель машинного обучения может не только воспроизводить ее, но и усиливать.

Решения, основанные на таких ИИ-прогнозах, могут иметь серьезные последствия. Возможно появление дискриминационных элементов, например при рассмотрении кредитных заявок в банке. В медицинской диагностике ошибки ИИ будут представлять реальную угрозу для безопасности человека.

Синтетический мир победил?

В ситуации, где применение реальной информации невозможно (коммерческая тайна, безопасность, недостаток данных или их невысокое качество) могут применяться искусственно смоделированные данные – синтетические.

В таком случае информация может быть получена с помощью различных методов синтетической генерации, включая моделирование. По основным характеристикам эти данные полностью сопоставимы с реальными. Синтетические данные легко доступны, они выступают удобной альтернативой для обучения моделей машинного обучения.

Преимущество использования синтетических данных – высокая адаптивность, позволяющая создавать дата-сеты под конкретные бизнес-потребности, и экономия средств. Например, добыча и обработка реальных данных о дорожных происшествиях для автомобильных компаний будет значительно дороже, чем генерация синтетических.

Синтетические данные можно производить значительно быстрее, так как они не привязаны к реальным событиям и их можно генерировать в больших объемах за более короткое время. Кроме того, они обеспечивают конфиденциальность и возможность безопасного использования, не содержат отслеживаемой информации об оригинальных данных.

Как работает синтетическая генерация данных?

Все начинается с определения типа необходимых данных – учитывается структура, характеристики и объем. Далее разрабатывают модели, воспроизводящие взаимосвязи и структуры, встречающиеся в реальности.

С помощью ИИ на основе сценариев, обеспечивающих имитацию закономерностей и изменчивости реальных данных, генерируются дата-сеты необходимого объема и с заданными характеристиками. Завершается процесс фазой валидации: необходимо убедиться, что синтетические данные сохраняют схожесть с реальными.

Методы и технологии, используемые для создания синтетических данных:

  • рандомизация – генерация случайных величин с заданными распределениями;
  • имитация – использование модели для имитации генерации данных в контролируемых условиях;
  • дополнение данных – модификация существующих реальных данных для создания новых синтетических экземпляров;
  • глубокое обучение: использование генеративно-состязательных сетей (Generative-adversarial network, GAN) или вариационных автокодировщиков (Variational autoencoder, VAE). Впрочем, эти способы сегодня стремительно устаревают — на текущий момент для графики чаще всего используются различные производные модели Stable Diffusion, а для текстов – GPT-подобные трансформеры.

Назначение синтетических данных в современном мире

В сценариях, где использование реальных данных может нарушить конфиденциальность, синтетические данные позволяют проводить исследования и разработки, не раскрывая конфиденциальную информацию. Они также позволяют соблюдать различные правила защиты данных и регулирования их оборота в бизнесе и социуме (152 ФЗ).

Синтетические данные могут быть использованы для безопасного и эффективного тестирования ПО, приложений и алгоритмов. Они также позволяют обучать ИИ-модели, когда реальных данных мало, они несбалансированы или недоступны.

В случаях, когда реальные данные ограничены, синтетические могут дополнять наборы, повышая надежность моделей. Также могут использоваться для создания недопредставленных выборок в несбалансированных наборах, что способствует созданию более качественных моделей.

Синтетические данные используются для моделирования сценариев кибератак и проверки устойчивости систем без компрометации и ущерба для реальной информации. В моделировании клинических испытаний позволяют изучать различные исходы и стратегии лечения без риска для жизни людей.

Также, их использование улучшает показатель Time2market – еще недавно некоторые сценарии применения аналитики в бизнесе откладывались в долгий ящик из-за того, что на реализацию проекта требовался минимум годовой объем исторических данных. С синтетическими данными можно серьезно сократить сроки накопления статистики и быстрее принести пользу бизнесу.

Основные сложности

Поддержание реализма и точности синтетических данных может стать серьезной проблемой, поскольку они должны точно отражать свойства и сложные закономерности реальности, включая сложные корреляции между переменными.

Есть этические и юридические дилеммы: создание и использование синтетических данных в сценариях принятия решений или исследований в сфере медицины должны быть тщательно изучены.

Безопасность и конфиденциальность также являются жизненно важными проблемами. Обеспечение того, чтобы конфиденциальность не была случайно нарушена в процессе генерации синтетических данных, требует бдительности.

С технологической точки зрения модели в сложных областях могут быть трудоемкими в вычислительном отношении, попадая в зависимость от значительных ИТ-ресурсов.

Проверка синтетических данных может оказаться сложной и ресурсоемкой задачей, включающей разработку и применение верных показателей и критериев для оценки качества.

Наконец, нельзя игнорировать проблемы масштабируемости. Создание синтетических данных в большом масштабе при сохранении согласованности и качества требует эффективных в вычислительном отношении решений и оптимизации ресурсов, что часто является сложной задачей.

Будущее синтетических данных

Создание точных синтетических данных требует глубоких знаний в области ИИ и наличия специальных навыков работы с соответствующими инструментами и платформами. Это позволит получать синтетические дата-сеты, в которых нет атрибутов данных, искажающих его и отрывающих их реальности.

По мере распространения ИИ и машинного обучения роль синтетических данных будет расти из-за способности существенно снижать стоимость обучения. Например, настоящее учебное изображение для задач компьютерного зрения, которое стоит $5, можно заменить сгенерированным синтетически по цене всего в $0,05.

В масштабах дата-сета это огромные средства, экономия которых частично оправдывает риски, связанные с «синтетикой», и позволяет решать часть проблем, связанных с генерацией данных.

Кроме того, синтетические данные будут все больше обеспечивать необходимое ИИ-модели разнообразие рабочих ситуаций и сценариев за счет включения редких случаев, которые трудно получить в реальности.

Синтетические данные играют важную роль в мире аналитики и моделирования, однако их применение не является универсальным и всегда эффективным. Одним из ключевых ограничений является то, что они могут порождать наблюдения, которые могут отсутствовать в реальности. Это происходит в результате того, что моделирование сложных систем часто основывается на упрощенных предположениях и аппроксимациях.

В частности, если процесс моделирования выполнен не с должной точностью, данные, сгенерированные таким образом, могут вводить в заблуждение, искажая реальное состояние системы или процесса, воссоздавая сценарии, которые невозможны или маловероятны в реальном мире.

С другой стороны, синтетические данные могут быть созданы таким образом, чтобы соответствовать определенному заранее заданному распределению. Такой подход позволяет генерировать данные, которые «усредняют» реальные характеристики и поведение системы, что может быть полезным при тестировании алгоритмов машинного обучения или при планировании ресурсов.

Однако это также влечет за собой риск утраты уникальных или редких случаев, которые могут иметь критическое значение для анализа. Используя усредненные данные, исследователи и аналитики могут пропустить важные аномалии или закономерности, которые только и могут быть обнаружены при анализе реальных данных

***

Таким образом, при использовании синтетических данных необходимо тщательно оценивать контекст их применения. Важно понимать, что данные, идеально подходящие для одной задачи, могут быть совершенно неадекватны для другой.

Решение о применении синтетических данных должно базироваться на глубоком понимании целей исследования, ограничений выбранного метода моделирования и потенциальных последствий использования данных, которые могут быть либо искаженным отображением реальности, либо слишком обобщенным представлением о ней.