С тех пор мало что изменилось, просто данные собираются теперь в различного рода архивы и базы.
Справиться с большими объемами информации призваны средства обработки данных, зачастую тяготеющие к искусственному интеллекту, как, например, разрабатываемые на базе ставшего популярным подхода Data Mining (дословно: "добыча данных"). Подобные программные продукты позволяют как бы "осмыслить" данные, оценивая их как с количественной, так и с качественной точки зрения. Более того, они отслеживают все новое, ценное, потенциально полезное.
За рубежом такого рода пакеты широко известны исследователям в научных и прикладных областях под названием Machine Knowledge Discovery Systems. Отечественная программа этого класса была представлена российской компанией "Мегапьютер Интеллидженс" на выставке Expo Windows"96. Это коммерческий продукт PolyAnalyst 2.0 - средство анализа данных с помощью ПК.
Пакет PolyAnalyst предназначается для получения аналитической информации путем автоматической обработки исходных данных и может использоваться аналитиками, занятыми в различных областях деятельности. Как отметили разработчики системы Сергей Арсеньев и Михаил Киселев, при проектировании они отошли от традиционных подходов к созданию аналогичных продуктов (скажем, статистических пакетов или систем на базе нейронных сетей) и считают, что PolyAnalyst - это шаг на пути совершенствования автоматического анализатора данных.
Хорошо известно, что системы, основанные на статистической обработке информации, требуют от аналитиков априорных допущений о моделях. Обычно необходима специальная подготовка исходных данных (например, формирование выборок), определенный выбор моделей из совокупности допущенных (для проверки адекватности описания данных) и, наконец, профессиональная интерпретация результатов. Поэтому развитие таких пакетов шло в основном по пути создания обширных библиотек программ, реализующих методы обработки и использования достижений компьютерной технологии (например, возможностей распределенной обработки данных в сети).
Системы, основывающиеся на нейронных сетях, не предполагают априорного запаса моделей знаний о данных, но требуют специальной сети для проведения анализа. И главное - приходится заранее устанавливать правила для автоматического принятия решения по результатам обработки.
Пакет PolyAnalyst - система, в основу которой положена технология искусственного интеллекта Data Mining. При обработке исходных данных она позволяет обнаруживать многофакторные зависимости, которым придает затем вид функциональных выражений (класс функций в них практически произволен), можно также строить структурные и классификационные правила (по автоматически формируемым обучающим примерам). При этом анализу подвергаются исходные данные различных типов: действительные числа, логические и категориальные величины. Выводимые правила принимают вид либо функций, либо циклов, либо условных конструкций.
Очень важно, что при работе с пакетом PolyAnalyst аналитику не нужно допускать какие-либо закономерности в данных, за него это сделает программа анализа. Разумеется, пользователь не устраняется полностью из процесса анализа данных - от него, конечно же, требуется указать зависимую и независимую переменные, роль которых играют поля записей в исследуемой базе данных. (Эта база образуется путем выборки из какой-либо СУБД с исходными данными.) Пакет допускает импорт файлов из баз данных с форматами записей: DBF, CSV и др.
Система PolyAnalist состоит из двух частей. Первая из них - модуль универсальной предварительной обработки данных ARNAVAC. Методы, реализованные в этом модуле, традиционны для автоматизации аналитической обработки данных. ARNAVAC обнаруживает в массивах данных функционально связные кластеры, фильтрует шум и случайные выбросы. Затем автоматический аналитик строит многомерную линейную регрессионную зависимость, как наиболее простое и доступное описание исходных данных, используя при этом уникальный быстродействующий алгоритм, автоматически выбирающий наиболее влияющие параметры с корректным определением их значимости.
Другая часть системы - Core PolyAnalyst - автоматический генератор функциональных процедур, служащих для описания скрытых закономерностей в данных. Его назначение - автоматическая генерация различных гипотез о взаимозависимости в исходных данных и их проверка.
Процесс построения гипотез идет автоматически, независимо от их сложности. Генерируемые функциональные зависимости охватывают широкий класс отношений между переменными: от аналитических функций (степенных, показательных, тригонометрических и их линейных комбинаций) до логических типа "если..., то...". В наиболее трудных случаях отношения могут быть запрограммированы на языке символьных правил SRL. Этот язык служит для формализации как описания обнаруживаемой информации, так и предположений аналитика.
Все логические объекты, возникающие в процессе анализа данных (подмножества данных, правила, зависимости, функциональные преобразования данных, графики, отчеты о прошлых анализах, текущие процессы в исследуемых данных), представляются на экране ПК в виде графических объектов, над которыми могут производиться с помощью мыши или клавиатуры интуитивно понятные операции.
PolyAnalyst может функционировать как на отдельном ПК, так и в сети с использованием технологии клиент - сервер. Причем в последнем случае анализ можно значительно ускорить, если его проводить параллельно на нескольких серверах. По мнению разработчиков, для этого лучше всего подходит OS/2 Warp, в среде которой и был реализован продукт. Уже подготовлена к выпуску версия PolyAnalyst и для Windows NT.
О целесообразности использования системы говорит убедительный ряд примеров из различных областей деятельности. Это прежде всего научные исследования, например моделирование распределения электронной плотности в полярной ионосферной области D, в результате которого была обнаружена новая зависимость электронной плотности в зоне от гео- и гелиофизических параметров. Разработана информационная система для анестезиологов, нашедшая применение в медицинских учреждениях.
Время предложило новые задачи, решаемые с помощью PolyAnalyst. Можно отметить анализ рынка ГКО и ОФЗ, результатом которого (причем в режиме реального времени) является модель принятия решений о покупке и продаже ценных бумаг на торгах. Важно, что эта модель работает затем в ходе торговой сессии.