На конференции Future Decoded в Лондоне компания Microsoft объявила, что ее набор инструмент для разработчиков Project Oxford, созданный на базе средств машинного обучения и исследований в области искусственного интеллекта, получил новый набор сервисов.
Теперь разработчики могут воспользоваться сервисом распознавания чувств, который формирует список обнаруженных им на фотографиях эмоций. Для каждого человека, представленного на фотографии, сервис возвращает вероятность того, что на его лице отражены гнев, радость, страх, удивление, недовольство, грусть, презрение или же что оно не выражает вообще ничего.
По словам руководителя программы Microsoft Райана Галгона, компания построила этот сервис после того, как заметила, что разработчики используют существующую технологию распознавания лиц Project Oxford в приложениях анализа эмоций, отраженных на фотографиях. Новый сервис позволяет создавать различные приложения (например, фоторедакторы) на основе чувств, которые присутствуют на лицах.
Конечно, нельзя сказать, что Microsoft передает разработчикам готового эксперта по распознаванию эмоций. На данном этапе сервис способен обрабатывать только неподвижные изображения. Кроме того, по словам Галгона, одни эмоции (например, радость) программе удается распознавать лучше, а другие (презрение и недовольство) хуже.
Обработка видео большого объема может занимать достаточно продолжительное время. Корпорация Microsoft указала максимальный размер видеофайлов, которые будут обрабатываться сервисами. Для того чтобы вписаться в эти рамки, разработчикам предлагается уменьшать разрешение больших файлов.
Сервис Custom Recognition Intelligent Services (CRIS) позволяет создавать модели распознавания голоса при определенных условиях. Он может оказаться полезен для обработки голосовой информации (например, речи маленьких детей или для оформления заказа в киоске), для которой традиционные модели подходят не слишком хорошо.
Чтобы получить персонально ориентированные результаты, разработчики должны снабдить сервис набором аудиофайлов, принадлежащих конкретному человеку, с расшифровкой записанных там фраз и построить речевую модель.
В наборе инструментов для обработки речи Project Oxford имеется также функция распознавания речи новых людей. На данном этапе сервис еще не в состоянии анализировать запись беседы и вычленять из нее речь того или иного человека. Но разработчики могут вырезать небольшой фрагмент разговора и определить, соответствует ли записанная на нем речь голосу того человека, на котором проводилось обучение системы.
По мнению Галгона, технологии такого рода могут использоваться в качестве упрощенной формы аутентификации. Они не столь надежны, как пароли или отпечатки пальцев, но вполне подходят для подтверждения того, что человек является именно тем, за кого себя выдает.
Сочетание сервисов идентификации голоса и определения лиц могло бы стать основой для создания систем безопасности аналогичных Google Project Abacus, где аутентификация пользователя проводится на основе набора разнообразных сигналов, включая распознавание голоса и лиц. Система Abacus находится пока на стадии проектирования.
Вся обработка выполняется в облаке Microsoft, а значит, приложения, использующие API машинного обучения, созданный в рамках Project Oxford, могут решать возложенные на них задачи лишь при наличии подключения к Интернету. Галгон подтвердил, что Microsoft получает от разработчиков множество просьб реализовать выполнение функций Project Oxford в автономном режиме, но пока Microsoft намерена предлагать их лишь в виде интернет-сервисов.
Появление общедоступных инструментов должно привлечь пользователей к облачной платформе Microsoft Azure. Три сервиса Project Oxford входят в состав пакета Cortana Analytics Suite. Разработчики имеют возможность опробовать все предлагаемые им функции бесплатно и при появлении каких-то других потребностей или пожеланий сообщить об этом Microsoft.