LLM следующего поколения: точечные усовершенствования или архитектурная перестройка?

Вопрос «Куда двигаться дальше?» часто выходит на первый план, когда та или иная технология в своем совершенствовании достигает «точки перегиба» и уже не может обеспечить экспоненциальный рост ключевых показателей производительности. Достаточно близко к такому состоянию или даже уже в самой этой точке, по мнению Сергея Маркова, директора по развитию технологии ИИ «Сбербанка», сейчас и находится базовый декодерный трансформерный стек LLM, с подачи Google задававший основной тренд развития языковых моделей на протяжении почти целого десятилетия. А ведь некоторое время назад иные «горячие головы» всерьез говорили о том, что это чуть ли не магистральный путь к сильному, или универсальному, ИИ (AGI) – осталось лишь «добавить немного вычислений и немного данных».

LLM следующего поколения: точечные усовершенствования или архитектурная перестройка?

Сергей Марков: «Как только механизм самовнимания (self-attention) сталкивается с необходимостью обработки действительно длинных последовательностей, все становится не очень хорошо»

Говоря о проблемах сегодняшних LLM, Марков в первую очередь выделил квадратичный рост сложности вычислений в зависимости от количества обрабатываемых элементов – токенов. «Как только механизм самовнимания (self-attention) сталкивается с необходимостью обработки действительно длинных последовательностей, все становится не очень хорошо. К текстовым задачам это, как правило, не относится, но может создавать серьезные трудности, когда речь заходит о мультимедийном контенте или, например, программном коде», – заметил он.

При этом сама по себе токенизация остается краеугольным камнем трансформерной архитектуры LLM – недаром генеральный директор Nvidia Дженсен Хуанг охарактеризовал недавно токены как новую валюту эпохи ИИ. И хотя некоторые авторы и предлагают от них отказаться (например, в пользу вычислительных элементов более высокого уровня абстракции), токены по-прежнему рассматриваются как основной инструмент для эффективной обработки информации, упрощающий и ускоряющий анализ контекстов и генерацию ответов модели. «Токенизация нам нужна, потому что у нас длинные контексты. Сократить в пять раз количество элементов, которые приходят на вход трансформера – это дорогого стоит», – объяснил Марков.

«Говорят складно, но пока не рассуждают»

Отсутствие рекуррентности (как результат отказа от последовательной обработки в пользу параллельного анализа всей последовательности через так называемые «механизмы внимания», устанавливающие взаимосвязи между токенами) также может в некоторых случаях становиться недостатком LLM. Как бы глубока ни была нейросеть, глубины трансформера все равно может оказаться недостаточно для решения каких-то задач.

Юрий Куратов: «У будущих моделей границы обучения точно быть не должно, они должны обучаться постоянно в течение всей своей жизни»

Существенным недостатком многих нынешних LLM является и отсутствие дообучения модели в процессе реального использования. Иными словами – знания сети фиксируются на момент старта обучения и впоследствии при взаимодействии с пользователем практически не изменяются. Особую важность этой проблемы подчеркнул Юрий Куратов, руководитель группы «Модели с памятью» лаборатории когнитивных систем ИИ «Института искусственного интеллекта» (AIRI). По его словам, новые методы (например, обучение модели во время тестирования ответа) делают явное обучение частью процесса обработки пользовательского запроса, размывая границу между ними. «У будущих моделей границы обучения точно быть не должно, они должны обучаться постоянно в течение всей своей жизни», – уточнил он.

Конечно, если посмотреть на историю развития LLM в предыдущие годы, нельзя не отметить тот факт, что разработчикам удалось добиться немалых успехов. Но оценивать эти успехи можно по-разному. Например, если провести аналогию с пылесосами, как это сделал технический директор Института искусственного интеллекта МФТИ Алексей Кадейшвили, то можно сделать вывод, что LLM уже оставили позади общегородские пылесосы, которые ездили по улицам, и вышли на уровень общедомовых. Но чтобы прийти к AGI (или, продолжая аналогию с инструментами пылеочистки, к персональным роботам-пылелосам) им предстоит еще довольно долгий путь эволюции.

Позади остался и казус 2023 года, получивший известность благодаря исследователям из Оксфордского университета и ставший с тех пор почти хрестоматийным. Тогда даже самые продвинутые на тот момент модели, уверенно отвечая, что маму Тома Круза звали Мэри-Ли Пфайффер, не могли дать правильного ответа на вопрос «Как зовут сына Мэри-Ли Пфайффер?» Теперешние модели, понятно, конкретно этим вопросом уже не смутить. Но в целом эффект, получивший броское название Reversal Curse (что может переводиться на русский как «реверсивное проклятие»), по-прежнему считается одной из фундаментальных проблем LLM.

Механизмы рассуждений (reasoning), которыми обладает нынешнее поколение языковых моделей, частично способствуют улучшению ситуации с Reversal Curse и некоторыми другими известными ограничениями, позволяя разбивать задачи на шаги и использовать косвенные подсказки. Но кардинально при этом ситуация не меняется. А в вопросе о том, действительно ли модели научились рассуждать, по мнению Кадейшвили, ответ пока должен быть отрицательным. «Модели, которые мы учим, это – модели, которые умеют говорить. Говорят они очень складно, и это создает у нас впечатление, что они умеют рассуждать. Но на самом деле это – иллюзия», – уточнил он.

Природа большого количества фундаментальных проблем, присущих на сегодняшний день большим языковым моделям, по словам Кадейшвили, такова, что вряд ли их удастся решить за счёт более хитрой процедуры обучения или добавления каких-то данных без кардинального изменения парадигмы обучения. И надеяться, что эти проблемы могут быть решены с помощью ставших популярными в последнее время LLM-агентов также особо не приходится: «Агенты в большей степени лишь маскируют проблемы вместо того, чтобы их решать».

Алексей Кадейшвили: «Модели, которые мы учим, это – модели, которые умеют говорить. Говорят они очень складно, и это создает у нас впечатление, что они умеют рассуждать. Но на самом деле это – иллюзия»

«Если пофантантазировать, то что хотелось бы поменять в современных LLM, чтобы сделать их лучше? Первое — это поменять архитектуру, уйти от нынешней ее однородности и добавить память. И второе – самое интересное – процедура обучения: вместо пассивного запоминания шаблонов необходимо перейти к активному обучению модели мира», – продолжил Кадейшвили. В частности, в архитектуре следующего поколения LLM механизмы рассуждений могли бы быть вынесены в отдельный блок, отдельно обучаемый и занимающий центральное место в системе. Память же следовало бы выполнить в виде «сменных картриджей», привязанных к предметным областям знаний и подключаемых по мере необходимости, либо создаваемых в процессе обучения с возможностью сохранения и дальнейшего многократного использования. А при построении моделей мира для LLM разумно было бы воспользоваться опытом и идеологией решения аналогичных задач в робототехнике.

Куда движутся LLM

С тем, что использование памяти представляет собой одну из главных проблем современных LLM согласен и Сергей Николенко, старший научный сотрудник Санкт-Петербургского отделения Математического института имени В. А. Стеклова Российской академии наук (ПОМИ РАН). «С памятью нужно действительно уметь эффективно взаимодействовать, и это в ИИ – проблема нерешенная. Долгосрочная память для LLM – это действительно сложно и действительно может требовать новых архитектур. И если есть множество разных подходов к тому, как делать память для LLM – это значит, что пока нет одного хорошего подхода. Это значит, что пока еще мы не знаем, на основе какого из предлагаемых подходов мы придем к по-настоящему правильной организации памяти», – объяснил он.

Продолжая диалог о дальнейшем совершенствовании LLM, Николенко выделил три основных направления. Первое из них – физическое масштабирование, то есть создание все больших моделей, – наверное, скоро закончится, но это всего лишь одна из компонент прогресса в ИИ. Второе направление – это алгоритмический прогресс. У него тоже когда-нибудь будет насыщение, но когда – неизвестно. Но самое интересное — это третья часть, которую бывший сотрудник OpenAI Леопольд Ашенбреннер в своей мини-книге Situational Awareness назвал unhobbling, и с тех пор этот термин стал стандартным.

Сергей Николенко: «Если есть множество разных подходов к тому, как делать память для LLM – это значит, что пока нет одного хорошего подхода»

Термином unhoblling (в буквальном переводе – «снятие шор») вслед за Ашенбреннером стали называть то, что делается с моделью после того, как процесс обучения уже завершен – когда кластер поработал уже полгода, миллиарды долларов уже потрачены, и алгоритмический прогресс уже не поможет. Самым первым примером unhobbling стал метод RLHF (Reinforcement Learning From Human) – «обучение с подкреплением на основе человеческих предпочтений». Затем появились и другие примеры (в частности, механизмы рассуждений), а затем к unhobbling стали относить и небольшие «надстройки» над LLM – например, обеспечивающие интерфейс мультиагентного взаимодействия, не затрагивая саму LLM. Причем, как оказалось, при небольших затратах полезный эффект от этих «надстроек» может быть весьма значительным.

Прогресс систем ИИ, как отметил Николенко, идет параллельными курсами по этим трем перечисленным направлениям и пока только ускоряется. Поэтому ставить вопрос о том, что будет «после LLM», не совсем правильно.

«Может быть, придет новая архитектура, которая заменит трансформеры. У меня была надежда на архитектуру Mamba – пока она не очень подтвердилась. Но даже если никакого прогресса в базовых архитектурах больше не будет и мы останемся с трансформерными LLM, у специалистов по ИИ все равно будет чем заняться еще на десятки лет», – подытожил Николенко.

LLM следующего поколения: точечные усовершенствования или архитектурная перестройка?

Коммуникационные сервисы и эпоха перемен