Открытое соревнование по многоязычному распознаванию именованных сущностей BSNLP организовано Проблемной группой по автоматической обработке славянских языков Ассоциации компьютерной лингвистики и проводится с целью оценки и анализа текущего уровня развития технологии NLP (Natural Language Processing, обработка естественного языка) для определенной группы языков или отдельного языка. По итогам соревнования организация публикует выводы о качестве решения задач в рассматриваемом сегменте, методах и общих тенденциях.
В этом году в соревновании приняли участие 8 команд. Они продемонстрировали возможности разработанных систем распознавания именованных сущностей для текстов на болгарском, чешском, польском и русском языках. Правила позволяли ограничиться одним языком или представить решение сразу для нескольких.
Команда Центра когнитивных технологий «АйТеко» приняла участие в двух дорожках соревнования: распознавании и лемматизации именованных сущностей для текстов на русском языке. Под именованными сущностями подразумеваются описывающие определенные объекты слова и фразы. В поставленной задаче требовалось извлечь из набора текстов пять типов таких объектов: персоны, локации, организации, события и продукты. Лемматизация — это одна из ключевых задач NLP для языков с развитой системой словоизменения, к которым относится и русский язык. При ее решении различные варианты написания сущностей приводятся к установленному.
Подобные задания отражают реальные потребности рынка обработки естественного языка и востребованы в различных контекстах. Например, для определения темы текстов, установления связей на основе упоминаемых в них географических мест или лиц, извлечения других фактов. Организаторы предложили участникам работу с двумя современными датасетами, источником для которых стали новостные сообщения русскоязычных онлайн-СМИ за март - апрель 2019 года.
«Мы хотели в первую очередь определить качество наших базовых технологий распознавания именованных сущностей на признанных мировым сообществом тестовых данных. Соревнование BSNLP-2019, несомненно, следует лучшим традициям подобных соревнований и не предоставляет возможных преимуществ определенному научному подходу или конкретной компании», — прокомментировал участие в соревновании старший лингвист Центра когнитивных технологий «АйТеко», к.ф.н. Сергей Куликов.
На дорожке распознавания именованных сущностей команда ЦКТ заняла второе место, обойдя конкурентов с признанной на международном уровне экспертизой: Институт информатики Вроцлавского университета (Польша), NLP-Cube (совместная разработка румынского подразделения Adobe Systems и Исследовательского института искусственного интеллекта Румынской академии наук) и Центр компетенций текстовой аналитики Объединенного исследовательского центра ЕС.
На дорожке лемматизации эксперты Центра когнитивных технологий «АйТеко» вошли в тройку лучших. В рамках соревнования применялась упрощенная версия системы лингвистической обработки текста, используемая в интеллектуальной системе корпоративного поиска SmartCS.
«Для нас значимо, что подобный результат был достигнут с помощью системы, являющейся основой наших коммерческих продуктов, которую мы незначительно адаптировали к решению соревновательных задач, — отметил руководитель ЦКТ, к.т.н. Илья Калагин. — Высокое качество и точность обработки обеспечиваются применяемым нами гибридным подходом с использованием комбинации интеллектуальных правил и методов машинного обучения».