Исследование: ИИ-инструменты для написания кода ошибаются в каждом четвертом случае

26.03.2026

1037 прочтений

Разработчики могут делегировать часть задач ИИ-агентам, но об их самостоятельности речи пока не идет.

Исследование университета Ватерлоо (Канада) показывают, что системы искусственного интеллекта по-прежнему испытывают трудности с выполнением даже базовых задач в области разработки программного обеспечения, что ставит под сомнение надежность их помощи разработчикам.

Поскольку большие языковые модели (LLM) все чаще используются при создании ПО, разработчики стараются обеспечить точность, согласованность и простоту интеграции ответов, генерируемых искусственным интеллектом, в существующие процессы.

Ранее LLM отвечали на вопросы разработчиков в свободной текстовой форме, что было не слишком удобно. В целях повышения эффективности ряд компаний, в том числе OpenAI, Google и Anthropic, решили использовать «структурированные выходные данные», которые заставляют LLM выдавать результаты в определенных форматах – JSON, XML или Markdown, что упрощает их чтение и обработку как людьми, так и программными системами.

Однако новое исследование показало, что технология еще не настолько надежна, как рассчитывали многие разработчики. Даже самые продвинутые модели в тестах показали точность на уровне лишь 75%, а точность моделей с открытым кодом опускалась до 65%.

В ходе исследования 11 языковых моделей использовали 18 форматов структурированного вывода и решали 44 задачи, специально предназначенные для оценки способности систем соблюдать заданные правила.

При этом оценивалась не только синтаксическая корректность кода – то есть соблюдение формальных правил, но и смысловая точность результатов. Выяснилось, что модели хорошо справляются с текстовыми заданиями, но испытывают серьезные трудности при работе с изображениями, видео или генерацией веб-страниц.

Несмотря на перспективность ИИ для автоматизации разработки, авторы считают, что системы еще не готовы к функционированию без человеческого контроля. Разработчики могут делегировать часть задач ИИ-агентам, но о возможном ослаблении надзора речи пока не идет.

Результаты исследования 'StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs' опубликованы в журнале Transactions on Machine Learning Research и будут представлены на конференции ICLR 2026.

Исследование: ИИ-инструменты для написания кода ошибаются в каждом четвертом случае

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности