Исследование университета Ватерлоо (Канада) показывают, что системы искусственного интеллекта по-прежнему испытывают трудности с выполнением даже базовых задач в области разработки программного обеспечения, что ставит под сомнение надежность их помощи разработчикам.
Поскольку большие языковые модели (LLM) все чаще используются при создании ПО, разработчики стараются обеспечить точность, согласованность и простоту интеграции ответов, генерируемых искусственным интеллектом, в существующие процессы.
Ранее LLM отвечали на вопросы разработчиков в свободной текстовой форме, что было не слишком удобно. В целях повышения эффективности ряд компаний, в том числе OpenAI, Google и Anthropic, решили использовать «структурированные выходные данные», которые заставляют LLM выдавать результаты в определенных форматах – JSON, XML или Markdown, что упрощает их чтение и обработку как людьми, так и программными системами.
Однако новое исследование показало, что технология еще не настолько надежна, как рассчитывали многие разработчики. Даже самые продвинутые модели в тестах показали точность на уровне лишь 75%, а точность моделей с открытым кодом опускалась до 65%.
В ходе исследования 11 языковых моделей использовали 18 форматов структурированного вывода и решали 44 задачи, специально предназначенные для оценки способности систем соблюдать заданные правила.
При этом оценивалась не только синтаксическая корректность кода – то есть соблюдение формальных правил, но и смысловая точность результатов. Выяснилось, что модели хорошо справляются с текстовыми заданиями, но испытывают серьезные трудности при работе с изображениями, видео или генерацией веб-страниц.
Несмотря на перспективность ИИ для автоматизации разработки, авторы считают, что системы еще не готовы к функционированию без человеческого контроля. Разработчики могут делегировать часть задач ИИ-агентам, но о возможном ослаблении надзора речи пока не идет.
Результаты исследования 'StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs' опубликованы в журнале Transactions on Machine Learning Research и будут представлены на конференции ICLR 2026.