Недавно Microsoft представила Phi-1, первую из так называемых малых языковых моделей (SLM). У них гораздо меньше параметров, чем у больших языковых моделей (LLM) — например, у GPT-3 и GPT-4. Малые языковые модели ориентированы на частные случаи использования, и в них, как утверждают в компании, могут конкурировать с большими моделями, требуя при этом значительно меньших вычислительных ресурсов. В модели Phi-2 всего 2,7 млрд параметров. Для сравнения — в модели GPT-3 около 175 млрд параметров, а в GPT-4 — около 1,7 трлн.
Благодаря компактному размеру Phi-2 отлично подходит для исследований, считают в Microsoft, в том числе для изучения механистической интерпретируемости, безопасности или экспериментов с точной настройкой модели под различные задачи. Phi-2 доступна в каталоге моделей Azure AI Studio.
Из-за дефицита графических процессоров стоимость обучения больших языковых моделей чрезвычайно высока, отмечают аналитики Ernst & Young, и поэтому многие пытаются строить расширения и библиотеки запросов к моделям, а также снижать размеры моделей.