Компания Microsoft сделала важный шаг в сторону децентрализованного ИИ, представив Fara-7B – компактную, но мощную модель Computer Use Agent (CUA), способную автономно выполнять сложные задачи прямо на устройстве пользователя. Экспериментальный вариант позволяет получить представление о том, как ИИ-агенты для ПК справляются с важными рабочими процессами без отправки данных в облако.
В отличие от традиционных языковых моделей, генерирующих только текст, Fara-7B взаимодействует с интерфейсом компьютера напрямую, используя для автоматизации действий виртуальные мышь и клавиатуру. Модель анализирует скриншоты экрана на пиксельном уровне, что позволяет ей работать даже с приложениями, у которых нет открытых интерфейсов API. Имея всего 7 млрд параметров, Fara-7B обеспечивает самую современную производительность в своем классе и конкурирует с более крупными и ресурсоемкими агентными системами, которые предполагают обращение сразу к нескольким крупным моделям.
В ходе внутренних испытаний агент Fara-7B успешно выполнил в тесте WebVoyager 73,5% заданий, превзойдя GPT-4o. В Microsoft утверждают, что для выполнения заданий ему требуется гораздо меньше шагов по сравнению с предыдущими системами класса 7B, а это в свою очередь ускоряет автоматизацию на ПК и делает ее более предсказуемой.
Разработчики Microsoft встроили в модель защиту «критических точек», требующую от агента приостановки и запроса подтверждения пользователя перед выполнением необратимых действий – отправкой электронных писем или завершением финансовых транзакций.
Аналитики отмечают, что переход к компактным локальным моделям отражает более широкий сдвиг в корпоративной архитектуре ИИ. Облачные системы по-прежнему используются для анализа и поиска информации в масштабах всей организации. Но многие повседневные рабочие процессы на предприятии замыкаются на внутренние приложения на ноутбуке, при функционировании которых данные не покидают устройство. Облачный ИИ не всегда подходит в силу высокой стоимости вычислений, выхода данных за пределы предприятия и задержек. Большинство корпоративных задач решаются с помощью внутренних приложений, а локальный агент подходит для этого гораздо лучше.
Переход к гибридным архитектурам искусственного интеллекта предполагает управление рабочими процессами, чувствительными к конфиденциальности, с помощью локальных агентов, в то время как облачные системы продолжают обеспечивать масштабируемость.
Агенты «пиксельного» уровня обладают более широкой совместимостью, поскольку не требуют дополнительной интеграции, но их использование сопряжено с определенными операционными рисками. Если пользовательский интерфейс изменится, у агента могут возникнуть проблемы.
В динамичных корпоративных средах с частыми изменениями пользовательского интерфейса такие агенты рискуют стать уязвимыми, если заранее не позаботиться об управлении данными, адаптивном переобучении и возможных альтернативах, поэтому на данном этапе они больше подходят для контролируемых рабочих процессов, чем для автоматизации критически важных задач. Тем не менее уже сейчас ясно: будущее агентного ИИ связано не только с облаком, но и с обычными ноутбуками.