Java проникает в разбросанные по всему миру лаборатории IBM, и скоро из их кухонь потянет всевозможными ароматами.
Среди разрабатываемых Java-технологий - механизм поиска под названием Grand Central Station (GCS), инструмент формирования карт и ссылок для Web-узлов Mappuccino, а также действующие от имени пользователя Java-агенты, именуемые "aglets".
Любовь IBM к Java ни для кого не составляет секрета. В лабораториях IBM, расположенных в США, Японии, Израиле и других странах, на Java работает более 2 тыс. программистов. Вкладывая в эту технологию сотни тысяч долларов, IBM стала одним из последовательных сторонников Java.
В числе наиболее интересных разработок инструментария - технология принудительного распространения GCS, рожденная в исследовательской лаборатории Almaden компании IBM и, по утверждению специалистов, написанная с использованием "100% чистого" Java. GCS сочетает в себе поисковый механизм, средства принудительного распространения и фильтр, которые используются для сбора информации по предварительно заданным критериям и доставки ее конечному пользователю.
Работает GCS следующим образом. Пользователи задают профайл интересующей их информации и через браузер запускают механизм поиска. Программа GCS, которая, вероятнее всего, будет выполняться на сервере, отправляет по Сети своих "пауков" на поиск запрошенной информации. При обнаружении таковой создается представление метаданных, обозначающее местонахождение и характеристики информации, например длину файла, дату создания и др. Метаданные доставляются в так называемый Gatherer (коллектор) и пропускаются через ряд фильтров, чтобы отсеять бесполезный материал. На настольную систему пользователя в конечном счете выдаются только самые существенные данные.
Главное предназначение технологии - освободить пользователей от необходимости перелопачивать горы информации, поставляемой типовыми поисковыми машинами. В IBM с гордостью утверждают, что их "паук" не только более избирателен в поиске информации, он способен еще и отыскивать материалы, которые другие поисковые машины пропускают.
GCS может извлекать информацию из разных репозитариев (хранилищ) - корпоративных узлов, серверов Web и новостей, баз данных (в том числе из DB/2 компании IBM), с почтовых серверов с поддержкой Post Office Protocol 3 (POP3), FTP-узлов и серверов транзакций CICS - перетаскивая все из файлов баз данных в байт-код Java.
В конечном счете программа GCS сможет отыскивать информацию по таким признакам, как форма и цвет - эта функция называется Query by Image Content ("запрос по содержимому изображения").
"Представьте, что в вашем распоряжении имеется поисковая машина Alta Vista и вы можете использовать ее для различных форматов данных", - говорит Дэн Форд, руководитель проекта GCS. Он утверждает, что GCS - это Терминатор среди пауков. "Паук вползет в любую файловую систему - в любой из имеющихся в сети или подключенных к сети файлов". Форд признает, что технология принудительного распространения не является оригинальной, но при этом отмечает уникальность некоторых возможностей GCS. Эта поисковая машина имеет, наверное, самый большой радиус поиска и, возможно, является первой из написанных полностью на Java.
Коммерческий выпуск GCS пока не планируется, но весьма вероятно, что она в том или ином виде вскоре появится, особенно после заявления руководителя IBM Луи Герстнера о том, что компании следует концентрировать усилия на исследованиях, которые могут быть востребованы на рынке.
Ряд аналитиков считает, что технология поможет хотя бы избавиться от никудышных Web-узлов. "Пользователей часто огорчает то, что они не могут найти Web-узлы, содержащие именно ту информацию, которая им нужна", - говорит Рон Раппопорт из консалтинговой компании Zona Research.
В итоге GCS будет представлена на Web-узле alphaWorks производства IBM вместе с другой разработкой IBM - технологией Mapuccino, - Java-апплетом, предназначенным для создания графического представления Web-узлов. Произведенная в Израиле технология Mapuccino составляет карту Web-узла и позволяет сохранять подобные узлы для дальнейшего применения или для одновременного использования несколькими заказчиками.