Поисковые системы, бесспорно, представляют собой "зеркало" Интернета. Без них Всемирная паутина осталась бы малопривлекательным хранилищем разрозненной информации, которой было бы затруднительно пользоваться. Россия является одной из немногих государств, имеющих собственные Интернет-технологии индексирования и поиска информации в Глобальной сети. Помимо нашей страны национальные поисковые системы доминируют только в США, Китае, Южной Корее и Чехии.
Разработка и развитие поисковых систем неразрывно связаны с достижениями "машинного обучения" - области знаний, которая зародилась в 50-е годы прошлого столетия. Именно тогда, в эпоху холодной войны и повсеместного применения радиолокации, возникла задача автоматической сортировки обнаруживаемых целей по принципу "свой – чужой", поскольку при большом числе фиксируемых объектов "живой" оператор не мог этого делать достаточно быстро.
Сейчас принципы машинного обучения широко используются не только в военных целях, но и для обработки значительных массивов информации, например для распознавания текста, изображений, образов и голоса. По словам генерального директора "Яндекса" Аркадия Воложа, развитием теорий машинного обучения занимаются разные научные школы, но основой такой деятельности являются общие и достаточно простые принципы: человек описывает исследуемый объект с помощью множества факторов, "объясняет" машине на примерах, как следует делать выбор, а потом машина начинает самостоятельно определять самые важные факторы и формулировать правила поиска решений. Другими словами, обучив машину на тысяче примеров, мы получаем возможность автоматизировать обработку миллионов объектов.
Наибольший авторитет имеют две школы машинного обучения. Метод одной из них, созданной отечественными учеными Владимиром Вапником и Алексеем Червоненкисом (ныне работающим в "Яндексе"), получил название SVM (Support Vector Machines). Сейчас SVM, позволяющий быстро анализировать до сотни факторов, используется всеми поисковыми системами Интернета, в том числе Google и Yandex. Другой метод, Boosting, был разработан американцами Робертом Шарипе и Джеромом Фридманом. Их детище работает очень медленно, зато может анализировать тысячи факторов.
Алгоритм TreeNet, применяемый в методе Boosting, по праву считается лучшим в области машинного обучения. Именно TreeNet был задействован группой сотрудников "Яндекса" под руководством Андрея Гулина и Павла Карповича при разработке принципиально новой поисковой машины MatrixNet (она запущена компанией 17 ноября 2009 года). Основой решения, рассказывает директор по технологиям "Яндекса" Илья Сегалович, стали устойчивые решающие правила, в которых используются матричный принцип, кластеризация вычислений и учет каждого обучающего примера. Комбинация этих и ряда других принципов позволила устранить основной недостаток машинного обучения - излишнюю "заумность" правил, самостоятельно формулируемых машиной после анализа информации. В результате удалось получить технологию, обеспечивающую при поиске учет тысяч факторов и, одновременно, быструю работу.
Как сообщил Аркадий Волож, новая технология позволила увеличить точность поиска на порядок. После запуска MatrixNet произошел настоящий скачок качества поиска - в числовом значении этот показатель увеличился на 5%. Дабы оценить успешность проекта, достаточно сказать, что ввод в эксплуатацию новой версии поисковика оправдан уже в том случае, когда он дает прирост качества 0,1%.
По словам Воложа, принципы технологии MatrixNet будут реализованы в нынешнем году всеми ведущими поисковыми системами. Однако компания "Яндекс" успела в полной мере воспользоваться полученной форой, связанной с улучшением качества ее сервисов. Впервые с октября 2006 года рыночная доля "Яндекса" на российском рынке превысила 60%: сегодня она оценивается в 62,5%, и ее рост продолжается.