Ученые МТИ создали сверточную нейронную сеть, способную автоматически заполнять пробелы между отрывочными кадрами и благодаря этому быстро распознавать действия, происходящие на видео.
Систему обучили на группах ключевых кадров, изображающих разные стадии действия.
При тестировании система существенно лучше других моделей справлялась с распознаванием сотен простых действий, таких как подбрасывание предмета в воздух, толкание объектов, демонстрация жеста одобрения. Она также точно предсказывала, что произойдет на видео дальше по нескольким начальным кадрам, например, «увидев» изображение едва надорванного листа бумаги, который держат двумя руками. Точность идентификации достигала 95%.
Система умеет распознавать даже неоднозначные действия, например, отличать притворное открытие книги от реального; для этого она анализирует дополнительные ключевые кадры, на последнем из которых видно, что руку убрали, а книга все еще закрыта.
Когда-нибудь с помощью такого модуля роботы смогут лучше понимать происходящее вокруг них, уверены разработчики. В дальнейшем они хотят совместить в своей системе распознавание движений и объектов, а также добавить «интуитивное понимание физики» — определение примерных физических свойств объектов на видео.