Подробно о поиске

Название книги «Введение в информационный поиск» несет некий элемент вступления в тему, но к этой работе следует отнестись с большим вниманием — предлагаемый читателям труд содержит достаточно глубокий анализ проблем организации поиска информации. Выпущенная в Cambridge University Press и переведенная издательским домом «Вильямс» для русскоязычного читателя книга, как следует из уведомления на обложке, предназначена для пользователей средней и высокой квалификации.

Проблема эффективной организации информационного поиска давно занимает умы практиков и исследователей, но если в последние двадцать лет эта проблема привлекала внимание пользователей различного рода информационных систем, применяющих глобальные сети для доставки информации, то чуть более полувека назад серьезные исследования проводились специалистами, занятыми автоматизацией библиотечной деятельности. При этом основное отличие в соответствующих подходах заключено в понимании принципа языкового описания того, на что направлен поиск.

В современных информационных системах при реализации поиска информации принят технологический подход автоматизации процесса контентного поиска, при котором пользователю предлагается результат в виде источника, в конечном итоге содержащего слово из запроса. Ввиду хорошо известной слабой эффективности такого подхода создателями современных поисковиков предпринимаются различные попытки дополнения учета контекстных зависимостей, переносимых из запроса, на поисковые массивы, использования результатов опыта предыдущих поисков и т. п. Все это принимает порой малоэффективные формы вроде «подсовывания» ответов на чужие «близкие» вопросы. И это, разумеется, определяется технологиями, опирающимися на обработку информации, «переведенную» с естественного языка на слегка контекстно-зависимый язык, которые быстро работают с большими объемами информации.

В подходе, принятом в библиотечных системах, была ориентация на смысловой поиск, поддерживаемый развитыми языками описания предметных областей, классификационными схемами каталогизации и др. Все это предполагало трудоемкие информационные представления библиотечных фондов на языках описания хранимых информационных объектов и языках запросов с грамматиками и контекстными связями, далекими от естественного языка. Кроме того, требовалась высокая степень проникновения в представление смысла описания информации и сути запроса, что серьезно тормозило технологию обработки информации, так как предполагало активное участие человека.

Книга «Введение в информационный поиск» предлагает достаточно глубокое изложение современных представлений об информационном поиске и является уникальной в первую очередь по детализации модельного и алгоритмического разбора процессов, связанных с описанием и поиском информации. Авторы книги являются специалистами в разных областях деятельности, имеющих отношение к информационному поиску, что также характеризует широту в описании проблемы поиска, от моделей представления информации и собственно поиска до алгоритмических описаний процессов поиска, а также их тестирования и определения эффективности.

Двадцать одна глава книги посвящена: пониманию сути информационного поиска, построению его модели, анализу возможности управления им; языковым моделям, используемым для описания информации при организации поиска; основам проведения поиска в сетевой среде.

Читатель познакомится с основной (булевой) моделью поиска на индексированном представлении информации в массиве, получаемом с помощью словарей и списка словопозиций. В книге рассмотрены особенности применения словарей, повышающих эффективность поиска, возможности использования нечеткого поиска и другие «ухищрения», вроде сжатия индекса и ранжирования результатов поиска. Также представлены материалы по оценке результатов поиска и альтернативным моделям поиска, например за счет использования обратной связи по релевантности и расширения запроса, XML-поиска и вероятностной модели информационного поиска.

Несколько глав книги посвящены языковым моделям информационного поиска, а также возможностям, повышающим эффективность поиска за счет классификации текстов в байесовском (частотном) подходе и в векторном пространстве. Рассмотрены также метод опорных векторов и машинное обучение на индексируемой информации, использование плоской и иерархической кластеризации, позволяющие осуществлять дифференциацию в ходе индексирования и поиска информации.

Завершает книгу глава о разложении матриц и латентно-семантическом индексировании, в которой рассматривается возможность использования в поиске матричной связи «термин-документ», позволяющей в ряде случаев получать выигрыш по времени поиска, его точности и по некоторым другим характеристикам.

Две главы книги специально посвящены организации поиска в Сети и индексированию информации в ресурсных источниках, по которым проводится поиск.

Книгу отличает высокий содержательный уровень и актуальность сведений, что делает ее полезной различным категориям читателей, от студентов, желающих хорошо понимать проблематику информационного поиска, до специалистов, стремящихся разобраться в тонкостях различных аспектов информационного поиска.

Маннинг, Кристофер Д., Рагхаван, Прабхакар, Шютце, Хайнрих. Введение в информационный поиск. М.: ИД «Вильямс», 2011. 528 с. ISBN 978-5-8459-1623-5.