В Facebook выпустили в открытых кодах PyText, библиотеку функций обработки текстов на естественном языке с помощью машинного обучения. PyText создана на базе другой библиотеки Facebook — фреймворка машинного обучения PyTorch, написанного на Python.
По словам специалистов Facebook, преимуществом PyText является то, что библиотека оптимизирована как для экспериментов, так и для рабочего применения. Соединяя компоненты библиотеки, можно создавать полноценные конвейеры обработки естественного языка. Обучение новых моделей можно распределять между несколькими узлами, и несколько моделей можно обучать одновременно. PyText может использовать для классификации текста многие уже существующие модели, благодаря чему в соответствующих случаях от этапа обучения можно отказаться.
Модели PyText можно экспортировать в формат ONNX для использования в среде глубинного обучения Caffe2, которая работает быстрее, чем функции Python, так как написана на C++. PyTorch недавно выпустили в версии 1.0, в которой для ускорения работы предусмотрен механизм JIT-компиляции Torch Script, правда он поддерживает не все возможности Python.
В планах для PyText — поддержка многоязычных моделей, средства упрощенной отладки и оптимизация для распределенного обучения.