Компания Google анонсировала свою самую мощную на текущий момент модель генеративного искусственного интеллекта Gemini. Представленную в трех различных вариантах модель можно использовать везде – от ЦОДов до мобильных устройств.
Разработкой большой языковой модели (LLM) Gemini в Google занимаются на протяжении последних восьми месяцев. Недавно небольшая группа компаний получила доступ к существующей на сегодняшний день ранней версии.
Этот инструмент генеративного искусственного интеллекта является у Google самым мощным и может составить серьезную конкуренцию другим большим языковым моделям, в том числе модели Llama 2 компании Meta и OpenAI GPT-4.
«Вступление в новую эпоху моделирования стало одним из крупнейших научных и инженерных достижений нашей компании», – указал в своем блоге генеральный директор Google Сундар Пичаи.
Новая LLM поддерживает множество методов ввода, включая фотографии, аудио и видео, и превращаясь таким образом в мультимодальную модель. Стандартный подход к созданию мультимодальных моделей обычно предусматривает подготовку отдельных компонентов для различных модальностей с последующим их объединением.
«Иногда модели хорошо проявляют себя при выполнении определенных задач, например, при описании изображений, но с трудом справляются с более концептуальным и сложным выводом, – добавил Пичаи. – Модель Gemini изначально проектировалась с прицелом на мультимодальность и предварительное обучение с использованием различных модальностей. А доработка с помощью дополнительных мультимодальных данных способствовала еще большему повышению ее эффективности».
Версия Gemini 1.0 представлена в трех различных вариантах.
— Gemini Ultra – самая крупная и «наиболее мощная» модель для решения задач повышенной сложности.
— Gemini Pro – модель, наилучшим образом подходящая для масштабирования при решении задач широкого спектра.
— Gemini Nano – версия, созданная для выполнения задач непосредственно на клиентских устройствах.
Одновременно с запуском новой модели Google представила свой самый мощный специализированный чип Cloud TPU v5p, проектировавшийся специально для удовлетворения огромных потребностей искусственного интеллекта в обработке данных. Новый чип может обучать LLM в 2,8 раза быстрее по сравнению с предыдущей версией TPU v4.
Модели LLM выполняют сегодня роль алгоритмических платформ для чат-ботов генеративного искусственного интеллекта, таких как Bard и ChatGPT.
Ранее в этом году Google объявила о широкой доступности ускорителя Cloud TPU v5e, соотношение цены к производительности у которого в 2,3 раза лучше, чем у TPU v4 предыдущего поколения. TPU v5p работает намного быстрее, но и цена у него в три с половиной раза выше, чем у v4.
Новая модель Gemini уже доступна в ряде основных продуктов Google. Например, чат-бот Bard использует версию Gemini Pro для совершенствования процессов обоснования, планирования и понимания.
Pixel 8 Pro стал первым смартфоном, разработанным с учетом особенностей Gemini Nano и обращающимся к этой модели при составлении резюме аудиозаписей и выдаче «умных ответов» при использовании клавиатуры Gboard.
«Мы начинаем экспериментировать с Gemini при организации поиска, что позволяет ускорить работу службы SGE (Search Generative Experience), – заявили в Google. – В начале следующего года Gemini Ultra будет интегрирована с Bard Advanced. В ближайшие месяцы Gemini появится и в других наших продуктах и сервисах, включая Ads, Chrome и Duet AI».
Разработчики Android, желающие создавать приложения на базе Gemini для мобильных устройств, теперь могут зарегистрироваться для предварительного просмотра Gemini Nano в системе Android AICore.
Разработчики и корпоративные клиенты будут обращаться к Gemini Pro через API Gemini на платформе Vertex AI или в бесплатном веб-инструменте для разработчиков Google AI Studio. После дополнительных усовершенствований, включающих расширенные проверки уровня доверия и безопасности, доступ к Gemini Ultra получат избранные группы, а уже затем, в начале 2024 года – разработчики и корпоративные клиенты.
Компания Google анонсировала также новый ускоритель искусственного интеллекта (tensor processing unit, TPU) и гиперкомпьютер AI Cloud Hypercomputer. По уровню масштабируемости новая модель TPU v5p в четыре раза превосходит TPU v4 с точки зрения общего количества операций FLOPS на один модуль искусственного интеллекта.
Из-за огромного объема обрабатываемых данных модели LLM нужна высокая вычислительная мощность. Прежде, чем что-то делать, необходимо выполнить процедуру, называемую предварительной обработкой данных, их систематизацией или маркировкой. Затем LLM нужно обучить интерпретации данных для генерации следующего слова, изображения или строки компьютерного кода, запрашиваемого пользователем.
В ходе обучения LLM может учитывать миллиарды или даже более триллиона параметров.
В дополнение к новому процессору Google анонсировала «гиперкомпьютер с искусственным интеллектом» – суперкомпьютернyю архитектуру, использующую интегрированную систему оптимизированного оборудования, открытого программного обеспечения, фреймворков машинного обучения и гибких моделей потребления.
По данным Google, клиенты могут использовать гиперкомпьютер с искусственным интеллектом для повышения эффективности и продуктивности обучения, настройки и обслуживания своих систем.