«У нее колоссальный потенциал», — уверен Джефф Шнайдер, профессор факультета компьютерных наук Университета Карнеги-Меллона. В этом году с его специалистами был заключен контракт на 3,6 млн долл. на участие в проекте Memex Агентства перспективных оборонных исследований DARPA.
Memex — рассчитанная на три года инициатива по разработке программного обеспечения для полного индексирования контента WWW и поиска по нему с учетом заданной предметной области.
«Исходный проект нацелен на борьбу с торговлей людьми — эта предметная область была выбрана в качестве целевой, — отметил Шнайдер. — Но нашу технологию можно применять и в других областях. Те же алгоритмы, которые мы используем для анализа рынка работорговли, можно легко адаптировать для других применений».
Сайты, которые выводятся в результатах популярных поисковых систем, индексируются ими, поскольку имеют ссылки на другие общедоступные страницы, известные механизмам обхода Всемирной паутины.
«Темный WWW» — это веб-страницы, недоступные обходчикам по различным причинам, например в связи с очень коротким сроком существования. По многим оценкам, крупные поисковики вроде Google индексируют лишь 10% того, что есть в Web; остальное — на «темной стороне».
Но потенциал инструментов анализа «темного WWW» может быть значительным. Это не только помощь инициативам по борьбе с преступностью, таким как Memex, — ведь по сути, «Темная Паутина» хранит большую часть всей цифровой информации мира. Биржевые аналитики могли бы с помощью Memex искать в темном WWW информацию по котировкам, эксперты по винам — находить самые свежие сведения в своей области.
«Технологии Memex можно было бы задействовать для раскрытия мошенничества и другой противозаконной деятельности в мире бизнеса, — отметила Эмили Кеннеди, генеральный директор Marinus Analytics, компании, созданной на базе Университета Карнеги-Меллон и тоже участвующей в проекте Memex. — Алгоритмы машинного обучения могут находить закономерности в огромных объемах данных, а Memex позволил бы намного увеличить эти объемы».
Сильная сторона Memex — возможность зондировать WWW и обнаруживать страницы, не индексируемые Google, повторил Шнайдер. Еще одно — это способность адаптироваться к конкретной области знаний. Сведения о различных предметных областях можно было бы пополнять, пользуясь обратной связью.
«Сами пользователи могли бы помечать интересные для них страницы тегами, это помогало бы Memex запоминать соответствия», — продолжил Шнайдер.
По его словам, правоохранительные органы уже пользуются технологиями, разработанными командой Memex. О перспективах же дальнейшего развития говорить непросто: «Это трехлетняя исследовательская программа, которая стартовала лишь полгода тому назад, так что сейчас по сути только самое начало».