Система машинного обучения угадывает стиль музыки по двухсекундному фрагменту

Источник: Chelsea Turner/MIT

12:22 08.08.2018

2776 прочтений

Созданная в МТИ нейронная сеть справляется с распознаванием жанров и слов не хуже людей. Примечательно, что ошибки компьютер делал на тех же фрагментах, на которых чаще всего ошибался и человек.

Глубокая нейронная сеть, созданная учеными МТИ, имитирует работу слуховой коры человека при решении достаточно сложных задач: она определяет стиль музыки по фрагменту продолжительностью всего в две секунды и способна разобрать слово в середине фрагмента речи такой же длительности.

Исследование также позволило получить свидетельства того, что звуковая кора мозга имеет иерархическую организацию, подобно визуальной: на первых уровнях иерархии обрабатывается базовая информация, а на последующих решаются более сложные задачи, например, определяется значение слова.

Модель, которую реализовали исследователи, обучалась на тысячах двухсекундных фрагментах музыки и речи. Для повышения сложности и реализма все они содержали фоновый шум.

После обучения нейронная сеть начала справляться с распознаванием жанров и слов не хуже людей. Примечательно, что ошибки компьютер делал на тех же фрагментах, на которых чаще всего ошибался и человек.

Авторы планируют создать модели, которые будут способны выполнять и другие задачи, например, определять местонахождение источника определенного звука.