Alibaba выпустила по лицензии Apache 2.0 новую большую языковую модель Qwen3-Omni, способную обрабатывать текст, изображения, звук и видео. Как заявляют в самой Alibaba, она демонстрирует характеристики не хуже, чем у других ее моделей, поддерживающих только один тип обрабатываемых данных, и показывает более высокие результаты при работе с аудио. Последнее достигнуто за счет особой двухкомпонентной архитектуры и распараллеливания задач «мышления» и обработки звука, объясняют в компании.

В Alibaba утверждают, что Qwen3-Omni показала лучшие результаты в 32 тестах с открытым кодом и в 22 смешанных, опередив Google Gemini 2.5 Pro, Seed-ASR и OpenAI GPT-4o-Transcribe. В частности, заявлено, что китайская модель превосходит соперников с закрытым кодом в задачах распознавания речи, перевода речи в текст и формирования рассуждений.

В открытом доступе находится исходный код Qwen3-Omni на Python, веса и техническая документация — все, что необходимо для запуска модели на предприятии или даже на индивидуальной системе подходящей мощности. Аналогичным образом Alibaba раскрывает код всех своих LLM, которых на сегодня уже больше 300.