Глубокая нейронная сеть, созданная учеными МТИ, имитирует работу слуховой коры человека при решении достаточно сложных задач: она определяет стиль музыки по фрагменту продолжительностью всего в две секунды и способна разобрать слово в середине фрагмента речи такой же длительности.
Исследование также позволило получить свидетельства того, что звуковая кора мозга имеет иерархическую организацию, подобно визуальной: на первых уровнях иерархии обрабатывается базовая информация, а на последующих решаются более сложные задачи, например, определяется значение слова.
Модель, которую реализовали исследователи, обучалась на тысячах двухсекундных фрагментах музыки и речи. Для повышения сложности и реализма все они содержали фоновый шум.
После обучения нейронная сеть начала справляться с распознаванием жанров и слов не хуже людей. Примечательно, что ошибки компьютер делал на тех же фрагментах, на которых чаще всего ошибался и человек.
Авторы планируют создать модели, которые будут способны выполнять и другие задачи, например, определять местонахождение источника определенного звука.