Последние недели компания Powerset очень часто упоминается в прессе в связи с выпуском бета-версии ее механизма поиска, который, в отличие от других решений, использует обработку естественных языков, благодаря чему пользователи могут формулировать запросы на поиск информации в виде обычных вопросов (см. "Поиск со смыслом", Computerworld Россия, № 19, 2008).
Однако в будущем поиск, особенно на предприятиях, не ограничится только обработкой запросов или синтаксическим анализом контента. Новые системы поиска будут формировать представление о пользователе (и сообществе пользователей) во многом именно по тому контенту, который он просматривает, анализирует и индексирует.
"Адекватность, с точки зрения пользователя, – это то, что подходит ему, но не подходит другому. Как следствие, нужен профиль пользователя (его интересы, словарь, предыдущие поиски, должность и так далее) и профиль контента (автор, тема, дата, кто читал и так далее). Хороший механизм поиска устанавливает соответствие между этими двумя профилями", – считает Гай Крис, аналитик компании Burton Group.
"Для того чтобы выполнить это, оба профиля должны быть достаточно полными. Производители корпоративных систем поиска долгое время основное внимание уделяли профилированию контента, но не профилированию пользователей. Со временем эта ситуация изменится по мере того, как такие компании, как Amazon.com, осознают, что глубокие знания о пользователе существенно упрощают поиск и позволяют предложить наиболее адекватные результаты", - подчеркнул Крис.
Например, Крис пояснил, что, если пользователь, специалист по сетям, вводит в качестве запроса "ATM", то интеллектуальная система поиска может присвоить выражению "asynchronous transfer mode" более высокий приоритет, чем выражению "automated teller machine".
По мнению аналитика Стивена Арнольда, несмотря на то, что многие компании работают в этой области и есть немало работающих продуктов, именно Google является тем производителем, на стратегию которой имеет смысл обратить внимание, если вы хотите понять, как будут развиваться корпоративные системы поиска.
"Когда вы слышите заявления крупных компаний о том, что они делают корпоративные решения и Google – не проблема, вы должны спросить себя, а насколько эти люди отдают себе отчет о реальном положении дел", - заметил он в своем выступлении на недавнем семинаре Infonortics Search Engine Meeting в Бостоне.
В то же время рынок систем поиска разделен на несколько сегментов разного размера. Это предложения крупных производителей, таких как IBM, Oracle и, благодаря своему недавнему приобретению FAST Search & Transfer, корпорация Microsoft. Ко второму сегменту можно отнести достаточно крупных независимых производителей, таких как Autonomy, а к третьему – более мелкие, специализированные компании.
Недавно Арнольд написал почти 300-страничное исследование для Gilbane Group под названием Beyond Search. В нем аналитик предпринял попытки более глубоко изучить различные аспекты рынка корпоративных систем поиска. По своему размеру компании, специализирующиеся на поиске, распределены всего по нескольким категориям, но они серьезно различаются по своим технологическим приоритетам. В частности, Арнольд определил следующие сегменты рынка.
- Компании, разрабатывающие системы, ориентированные на базы данных, такие как Teratext и Intelligenx. "В силу свей специфики данные системы отличаются хорошей функциональностью, касающейся управления данными, видоизменения контента и генерации отчетов на основе контента, который имеется в базе данных системы", - пишет он.
- Компании, специализирующиеся на "глубоком анализе" контента, к числу которых относятся Attensity и Siderean Software. "Использование многочисленных процессов, повторяющихся на каждом этапе, указывает на направление поиска. Так выполняется обработка контента", - пояснил Арнольд.
- "Инструментальные" компании, такие как SchemaLogic, продают программное обеспечение, которое помогает пользователям систематизировать и готовить свой контент к последующему поиску. "Большинство тех, кто приобрел лицензию на системы поиска, не знает, чего они не знают, - пишет Арнольд. – Как только у вас появляется определенный опыт в поиске за пределами компании, вы начинаете лучше понимать важность контроля метаданных и управления ими".
По классификации Арнольда, существуют производители, продукты которых относятся к категориям "строительный блок", "лингвистическая обработка" и "анализ шаблонов".
Несмотря на то, что множество компаний борется за долю на рынке, всем предстоит еще очень много сделать. Аналитическая компания Gartner недавно подготовила прогноз, согласно которому к концу 2012 года технология поиска будет находить и анализировать свыше 90% данных в более чем половине крупнейших мировых компаний, входящих в список Global 2000.
Некоторые аналитики считают, что покупка Microsoft компании FAST – это свидетельство того, что рынок достиг своего рода переломного момента.
Планы Microsoft в отношении FAST пока только формулируются. "На первом этапе ее платформа совместной работы SharePoint будет служить своего рода 'центром притяжения'", - заявил представитель компании Джаред Спатаро.
Он отметил, что Microsoft, которая пытается, но пока безуспешно, купить Yahoo, отчасти делает это для того, чтобы более активно работать на рынке Web-поиска, и собирается встраивать возможности корпоративного поиска в своих продукты. "В будущем поисковые возможности будут везде. В интерфейсе каждого приложения. Поиск – это все еще новый и формирующийся рынок, - заметил Спатаро. – Для нас реальная возможность заключается в том, что он во многом остается еще непаханым полем".
Это уместное замечание, учитывая ситуацию, которая сейчас сложилась на предприятиях. Представители компаний, которые согласились говорить о своих реализациях, признали: даже если базовая работа по индексации контента и предоставлению внутренним пользователям результатов поиска идет вполне успешно, то, вероятно, пройдут годы, прежде чем они будут поддерживать возможности, описанные Крисом и другими.
Подразделение транспортных систем компании Honeywell стало одним из первых использовать Google Search Appliance, заменив этим решением ограниченный и более старый инструментарий поиска, как отметил Джерри Ибрагим, директор по ИТ по новым технологиям и инновациям.
Компания выбрала решение Google, поскольку оно реализовано на базе спецсервера и его установка не потребовала никаких усилий. Она использует созданные в компании инструментальные средства для интеграции с различными источниками данных и приложениями, и теперь экспериментирует с OneBox, прикладным программным интерфейсом компании Google, для формировании таких связей.
Чтобы объяснить, каковы цели компании в сфере корпоративного поиска, Ибрагим привел пример, когда недавно принятому на работу инженеру задают конкретный вопрос об одном из продуктов компании. "Вы спросите кого-нибудь, кто работает в Honeywell лет десять, они знают. Парень, который проработал всего месяц, не знает. И потратит неделю на то, чтобы выяснить ответ", - пояснил он.
Но, если Ибрагим задал бы сотруднику общий вопрос, например, сколько в мире насчитывается колибри, то он, скорее всего, обратился бы к системе Google и нашел ответ буквально за несколько минут.
"Именно этот путь мы выбрали для того, чтобы получить такие же возможности для наших внутренних материалов", - пояснил Ибрахим.
Что касается перспективы, то компания думает о способах получать информацию о пользователе и улучшить результаты. "Мы хотим начать собирать такую статистику и заложить в систему более совершенное мышление и логику и поддержку специфики", - сказал он.
Компания Edens & Avant, которой принадлежат торговые центры на Восточном побережье США, возможно, прошла несколько дальше по перспективном пути, обрисованному такими аналитиками, как Крис.
Как сообщил ее вице-президент Дейл Джонстон, компания использует продукт Oracle Secure Enterprise Search. По словам Джонстона, технология поиска работает в сочетании с порталом компании, который поддерживает "персонификацию".
"Мы разработали концепцию, согласно которой корпоративная intranet должна стать вашим коллегой, вашим лучшем другом в работе", - сказал он.
Портал также включает в себя компонент социальной сети, так что сотрудники могут поддерживать профили. "Мы надеемся, нам удастся устанавливать приоритеты для результатов поиска с учетом того, над чем работают сотрудники", - подчеркнул Джонстон.
Однако интеграция компонента социальной сети, по его словам, очень неразвита, что не позволяет в полной мере использовать весь потенциал имеющихся данных.
"Люди будут ее использовать, когда поймут, что эта возможность им помогает", - считает он. Компания планирует установить автоматические триггеры, которые будут напоминать пользователям о необходимости обновить свои профили.
По словам Джонстона, компания обрабатывает примерно 32 источника данных, и этот процесс с учетом поддержки возможностей поиска завершен только в семи из них. Этот проект был начат в марте 2007 года, и, как предполагает Джонстон, на его полное завершение потребуется еще три года.