Сбербанк предлагает командам разработчиков промышленную платформу TagMe для подготовки датасетов, необходимых при обучении моделей ИИ и оценки сложных ИИ-решений. В ее рамках создается «топливо» для искусственного интеллекта — качественные датасеты для обучения моделей. Решение отвечает на ключевой вызов всей индустрии искусственного интеллекта: проблему «мусора на входе». О создании и развитии решения рассказывает Сергей Горелов, управляющий директор Сбербанка и номинант на премию Data Award.
- Как появилась эта платформа?
История TagMe показательна с точки зрения эволюции технологий. Изначально это был внутренний стартап и инструмент в правовом департаменте Сбера, который разработали для запуска проекта «Робот-юрист» — ИИ для проверки правоспособности юрлиц. Но официальной точкой отсчета можно считать 2020 год, когда этот опыт отмасштабировали в платформу TagMe и запустили для всей компании. Запуск TagMe сопровождался множеством пилотов: от технических задач по автоматизации бизнес-процессов human-in-the-loop с OCR, до социально значимых инициатив. Сейчас это полноценная продакшн-технология.
- Какую задачу решает TagMe?
Мы предоставляем командам разработчиков и исследователей не просто инструмент, а промышленную среду для управления процессами разметки — от гибкого конструирования интерфейсов и подключения исполнителей до встроенного контроля качества и аналитики. Это позволяет нашим заказчикам концентрироваться на результате и сократить время рутинных операций и ручной менеджмент исполнителей.
- Насколько это важно для рынка?
Сегодня качество данных — это критический этап, определяющий успех или провал любых ИИ-инициатив. Неточные, несогласованные или смещенные данные создают фундаментальные риски: они приводят к разработке неэффективных, небезопасных и этически проблемных моделей, дорогостоящая переработка которых сводит на нет конкурентное преимущество.
TagMe решает эту проблему системно, предоставляя не просто инструменты разметки, а полноценную среду для гарантированного контроля качества данных на промышленном уровне. Платформа позволяет выстроить сквозной и управляемый процесс: многоэтапные обучения и экзамены для формирования квалифицированных исполнителей, добавление контрольных заданий и работа с навыками исполнителей, мониторинг согласованности и оперативное исключение исполнителей, которые совершают ошибки. Очень полезна и встроенная аналитика для сравнения похожести текстов, близости сегментов аудио, ограничивающая рамка в задачах компьютерного зрения, а также настройка многоуровневой валидации и отложенной приемки для минимизации ошибок.
Использование платформенных компонент напрямую влияет на экономику ИИ-проектов: минимизирует объем бракованных данных, устраняет «мусор на входе» и обеспечивает создание качественных данных для ИИ. Это позволяет не только снижать риски, но и радикально ускорять вывод надежных и эффективных моделей на рынок.
- Что представляет собой решение?
TagMe реализована как веб-платформа (SaaS), что обеспечивает мгновенный старт проектов без затрат на инфраструктуру. Для глубокой интеграции в процессы мы предоставляем API и Python SDK. На уровне архитектуры используется микросервисный подход на базе Openshift/DropApp, что гарантирует масштабируемость, высокую доступность и отказоустойчивость. Это позволяет нам обслуживать как единовременные исследовательские задачи, так и непрерывные промышленные потоки данных для крупнейших ИИ-проектов.
- На какие данные ориентирована платформа?
Платформа поддерживает встроенные интерфейсы для работы с любыми типами данных, которые требуются современным ИИ-моделям. TagMe поддерживает тексты, изображения, видео, аудио, мультимодальные диалоги с LLM и предоставляет полный спектр операций для их обработки: классификацию, сегментацию, транскрибацию, попарное сравнение и генерацию.
- Какие возможности решения можно выделить?
Ключевым технологическим и продуктовым результатом стало выстраивание сквозного процесса управления исполнителями — от привлечения внешних специалистов и внутренних команд до их системного обучения, контроля и мотивации. Это включает многоэтапный отбор, мониторинг качества и согласованности разметки, автоматическое исключение с проектов при падении качества и детальную аналитику по работе с инструкциями. Кроме того, создан маркетплейс интерфейсов разметки и плагинов платформы, где команды могут делиться готовыми решениями для разметки и аналитики, значительно ускоряя старт новых проектов. И мы успешно интегрируем ИИ-разметчиков в рабочие процессы, используя их как дополнительный ресурс для повышения скорости, согласованности и снижения затрат.
- В чем платформа уникальна?
Рынок платформ разметки устроен таким образом, что при потребности в гибкости мы не получим безопасность и возможность работать в on-premise. При работе с гибкими on-premise платформами мы не сможем работать с десятками тысяч исполнителей. А высоконагруженные on-premise дистрибутивы потребуют колоссальных усилий по доработке. Наша платформа разрабатывалась нативно под весь набор требований: высокие требования кибербезопасности, возможность быстрого автоматического развертывания on-premise, универсальность в плане работы с любыми типами данных и любыми заданиями, а также модульность и расширяемость. Интеграция платформы со всем современным стеком подготовки данных для обучения LLM делает ее действительно уникальным продуктом.
- Какую роль играет эта платформа внутри Сбера?
TagMe играет ключевую инфраструктурную роль в реализации стратегии по переходу к человекоцентричности и созданию персональных ИИ-помощников. Платформа является технологическим фундаментом, который позволяет превращать сырые данные в качественное «топливо» для любых ИИ-решений.
Внутри компании платформа стала централизованным стандартом для подготовки данных, который решает критически важную задачу: ускоряет и удешевляет внедрение ИИ в продукты и процессы. Мы позволяем командам фокусироваться на своих целях, а не на рутине сбора и контроля данных. Это создает эффект масштаба, синергию между командами и гарантирует единообразное, высокое качество данных, что напрямую влияет на надежность и безопасность конечных ИИ-продуктов для миллионов клиентов.
Роль TagMe выходит за рамки внутреннего инструментария: это стратегический актив, который обеспечивает скорость, качество и масштабируемость в создании ИИ-решений, расширяющих возможности каждого человека.
- Насколько вообще платформа востребована? Каковы показатели ее проникновения на рынок разработчиков ИИ?
TagMe – продукт внутри экосистемы Сбера для закрытия собственных амбициозных задач по ИИ-трансформации. На внешнем рынке мы работаем точечно, в пилотном режиме. Внутри экосистемы мы видим колоссальный рост, объемы датасетов выросли в сотни раз с момента запуска. Если говорить о порядках цифр, то мы уже оперируем датасетами в сотни миллионов объектов, а пул наших исполнителей-самозанятых исчисляется десятками тысяч человек по всей стране. Мы обеспечиваем все флагманские ИИ-продукты Сбера размеченными данными, для меня это и есть главный показатель востребованности. И все-таки, когда мне становится тревожно за будущее платформы, я открываю графики продаж GPU и успокаиваюсь, потому что объем данных, генерируемый ИИ, еще долго будет расти экспоненциально.
- Что может дать TagMe отрасли ИИ?
TagMe отвечает на ключевой вызов всей индустрии искусственного интеллекта: проблему «мусора на входе», которая тормозит разработку и делает рискованным промышленное внедрение ИИ.
Можно выделить три ключевых аспекта. Во-первых, ускорение перехода от экспериментов к промышленному ИИ. Платформа минимизирует главные риски и издержки, связанные с подготовкой данных, что позволяет компаниям быстрее и безопаснее выводить модели в реальные продукты. Во-вторых, создание культуры доверия к данным. TagMe делает процесс создания датасетов прозрачным, управляемым и воспроизводимым. Это превращает данные в надежный, контролируемый актив. Наконец, профессионализация рынка труда. Мы систематизируем труд по разметке данных, создавая новые цифровые профессии с четкими критериями качества, возможностями для роста.
Таким образом, TagMe выполняет роль инфраструктурного проекта, который закладывает основу для следующего этапа развития индустрии — массового создания качественных, безопасных и полезных человеку ИИ-решений.
- В каких направлениях развивается платформа?
Сейчас у платформы два вектора развития. Первый — повышение уровня автоматизации рутинных операций. Мы стремимся к тому, чтобы разметка не требовала ручного труда там, где модель может справиться сама или с минимальным контролем. Это позволяет на порядки ускорять подготовку данных и снижать стоимость датасетов.
Второй вектор — внедрение инструментов для работы с большими языковыми моделями и агентными системами. Здесь одно из самых интересных направлений — развитие симуляторов окружения (LLM-gym), в которых модель может взаимодействовать с API, базами знаний и другими агентами. Такие среды позволяют применять обучение с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback, RLHF) для обучения на многошаговых сценариях, а для сбора обратной связи от людей мы используем наших исполнителей — это естественное развитие краудсорсинга в сторону более сложных задач.