Систему, способную обучиться различать в потоке речи слова, слоги и звуки, описывают в недавно опубликованном научном докладе специалисты Массачусетского технологического института. В отличие от систем распознавания речи, применяемых, например, в смартфонах, она действует по принципу обучения без учителя — ей не требуется предварительное аннотирование учебных данных человеком.
Она руководствуется лишь стандартными свойствами языков, например знанием о том, что большинство слов в языке встречаются относительно редко, а меньшинство — очень часто. По словам разработчиков, чтобы учитывать вариативность произношения одних и тех же звуков, система полагается на теоремы Шеннона, рассматривая аудиосигнал как последовательность идеально произнесенных звуков, отправленную по каналу с шумами. Задача системы — выучить статистические корреляции между «полученным на выходе» звуком и соответствующей фонемой.
Авторы уверены, что их работа поможет в создании автоматизированных систем обработки речи для языков с менее изученной, чем у широко распространенных, фонетикой, а также в придании таким системам способности действовать независимо от индивидуальных особенностей произношения. Наряду с этим работа может помочь разобраться в том, как человек обучается говорить.