К 2012 году потенциал традиционных подходов к развитию бизнес-аналитики (Business Intelligence, BI) оказался исчерпан в силу нескольких причин, и главная из них — неспособность созданных в рамках этих подходов решений адаптироваться к изменившимся условиям бизнеса. Речь идет об их недостаточной динамичности и неприспособленности для обработки данных, поступающих в больших объемах в режиме времени, близком к реальному. Но самый серьезный удар по классической бизнес-аналитике нанес взрывной рост объемов неструктурированных данных. Для компенсации этих недостатков был взят курс на интеграцию хорошо проверенных традиционных решений с технологиями работы с неструктурированными текстовыми данными. Обычно такие технологии называют Embraced Enterprise Search and Retrieval (ESR), а реализуют они две всеохватывающие (Embraced) функции: корпоративный поиск (Enterprise Search) и извлечение информации из данных (Retrieval). Включение функций ESR в существующие системы BI позволит быстрее и точнее принимать решения, поскольку методы ESR, помимо обеспечения доступа к новым типам данных, позволяют извлечь больше полезной информации из обычных структурированных данных.

Крупнейшие производители (Oracle, IBM, HP), специализирующиеся в том числе и на решениях бизнес-аналитики, раньше других заметили необходимость расширения функциональных возможностей своих продуктов, поэтому, начиная с осени 2011 года, стали скупать компании, которые предлагают решения в области ESR, работающие с неструктурированными данными. Нынешняя череда поглощений напоминает события 2007 года, когда практически те же игроки на удивление синхронно пополнили свой арсенал технологий, скупив почти всех существовавших на тот момент производителей классического, ориентированного на структурированные данные, ПО, предназначенного для аналитики бизнес-процессов: Oracle приобрела Hyperion, SAP — Business Objects, а IBM — Cognos. Список следующей волны сделок немного отличается: английская компания Autonomу вошла в состав HP, Endeca — в Oracle, а Vivisimo — в IBM. Среди этих трех слияний особое значение имеет сделка между HP и Autonomy, примечательная не столько гигантской суммой 10 млрд долл., сколько интеллектуальной ценностью приобретенного. За последние годы, успешно сочетая собственные исследования и разработки с несколькими приобретениями, Autonomy заняла позицию лидера в области работы с неструктурированными данными. Синергия капитала знаний Autonomy с потенциалом HP позволяет предположить, что рынок ожидает немало интересного.

 

Autonomy

За компанию, специализирующуюся на узком круге приложений, в основе которых лежит теорема Байеса, Hewlett-Packard выложила свыше 10 млрд долл., однако после сделки харизматический лидер Autonomy Майкл Линч, руководящий состав и 20% работников уволились, оставив новому хозяину свой флагманский продукт IDOL (Intelligent Data Operating Layer).

Идеологическая основа Autonomy IDOL — это Meaning-Based Computing, что можно перевести как «компьютерные системы, основанные на смысле»; в документах компании не используется понятие искусственного интеллекта, но на самом деле это именно он. MBC наделяет машину способностью выделять смысл из любых текстов, независимо от формы их представления и форматов. В Autonomy принята определенная иерархия технологий работы с текстами, где на нижнем уровне стоит простой поиск по ключевым словам, а верхний уровень занимает MBC.

  1. Поиск по ключевым cловам (Keyword Search), не предусматривающий вообще никакой связи между данными и содержащейся в них информацией, это просто посимвольное совпадение искомого слова со словом в тексте.
  2. Усовершенствованный поиск по ключевым словам (Keyword Search+), учитывающий простейшие закономерности (частоту повторений слов и т. п.).
  3. Ссылочное ранжирование (PageRank), основанное на частоте обращений к тому или иному документу. Этот механизм, предложенный Ларри Пейджем и Сергеем Брином, эффективен в Интернете, однако в корпоративных хранилищах число обращений может не быть репрезентативным, а редко используемые понятия могут иметь большое значение.
  4. Федеративный поиск (Federated Search), обладающий одним существенным недостатком, — в нем сложно поддерживать актуальные репозитории.
  5. Концептуальный поиск (Conceptual Search). Существует несколько разных подходов к созданию поисковых систем, учитывающих контекст, чаще всего в них используются те или иные эвристические алгоритмы, соответствующие определенной прикладной области (например, в ответ на запрос по слову «собака» выдаются еще и их породы).
  6. Безопасный поиск (Secure Search) — это почти то же самое, что поиск, учитывающий контекст, к которому добавлены средства ограничения доступа.
  7. Юридический поиск (Legal Search). В юридической практике приходится иметь дело с таким большим корпусом документов, что созданы специальные поисковые машины, ориентированные на юридический контекст.
  8. Мультимедийный поиск (Audio and Video Search), сочетающий собственно поиск с распознаванием образов.
  9. Categorize, Alert, Profile. Первым шагом к осмысленной работе с данными служат классификация и разделение по категориям данных, сообщение пользователям об изменениях в данных и формирование пользовательских профилей, позволяющих лучше адаптироваться к запросам определенных пользователей.
  10. Clustering, Scene Detection, Speaker Identification, Sentiment Analysis. На этом уровне осуществляется полноценная кластеризация данных, обнаружение сюжетов, идентификация говорящих, автоматическое оценивание какого-либо объекта в текстовых сообщениях и другие приемы, приближающие поиск к Data Mining.

MBC объединяет все перечисленные подходы. Autonomy IDOL включает в себя свыше 500 различных функций для извлечения смысла из текстов и более 400 коннекторов к различным источникам данных. Редакция Autonomy IDOL поддерживает работу со встроенными узлами Hadoop и СУБД Vertica. Для визуализации результатов используются либо собственные средства пользовательского интерфейса, либо технологии компаний QlikView или Tableau.

 

По сравнению с купленными пять лет назад Hyperion, Business Objects и Cognos тройка Autonomy, Endeca и Vivisimo отличается существенно большим разнообразием производственной программы. Их объединяет не только специализация на аналитике, но, в отличие от прошлого, еще и «управление знаниями», «корпоративный поиск», «управление контентом». К этим компаниям примыкают еще несколько близких по профилю — например, ветеран  Marklogic, а также ряд начинающих. Однако в целом данный сегмент рынка невелик, и тем не менее, судя по вниманию к нему со стороны крупных корпораций, его ожидает значительный рост.

По ряду признаков к перечисленным компаниям примыкают EMC Documentum и OpenText, но пока они в большей степени ориентированы не столько на работу непосредственно с контентом, сколько на работу с текстовыми файлами. Область действия лежит в сфере управления контентом предприятия (Enterprise Content Management, ECM). Однако EMC Documentum и OpenText постепенно переориентируются в сторону контента — в их производственных программах намечается явная конвергенция ESR и ECM. Стоит напомнить еще о некоторой подвижке в этом сегменте, имевшей место в 2007–2008 годах, когда Microsoft купила норвежскую компанию FAST, а затем Oracle приобрела Stellent и Tacit Software, название которой можно перевести как «ПО для скрытого», с ее специфическим продуктом для анализа содержания электронных писем. Через несколько лет после этого компания Convera, известная как поставщик популярного аналитического продукта Excalibur, объединилась с Firstlight ERA, образовав специализирующуюся на семантическом поиске в Web компанию Vertical Search Works. В 2008 году SAS купила компанию Teragram, которая занималась проблемами обработки текстов на естественных языках (Natural Language Processing, NLP).

Кому нужен «совершенный» поиск?

Тем, кто занимается разведкой или поиском доказательств преступлений.

Вадим Ефремов

Полностью осознать суть происходящего мешает своего рода «заговор молчания», и создается, скорее всего ошибочное, впечатление, будто всех тех, кто занимается корпоративным поиском, анализом Больших Данных и другими технологиями работы с неструктурированными данными, объединяет некая тайная договоренность. По непонятной причине все они явно избегают любых попыток соотнести предмет своей деятельности с хорошо известной осью «данные – информация – знания». В итоге наиболее существенные вещи оказываются не названными своими именами, а каждая компания ограничивается своей собственной системой понятий, хотя в общем все занимаются близким делом. Типичные примеры такого рода терминологической невнятности можно найти в материалах ряда конференций для стартапов, так или иначе связанных с извлечением полезных сведений из данных. Знаменательно, что проводят их такие достаточно специфические организации, как банк Silicon Valley Bank и In-Q-Tel, организация, известная своими связями с ЦРУ и отвечающая за поддержку компаний, технологии которых имеют значение для национальной безопасности. Если профильтровать выступления на этих конференциях, то их суть сводится к демонстрации частных решений из области, которую можно отнести к управлению знаниями (Knowledge Management), однако все называют это по-своему: перевод сырых данные в полезные; реализация преимуществ принятия решений, обоснованных фактами; придание смысла огромному потоку информации, поступающей в реальном времени из социальных сетей; поддержка принятия решений покупателями с помощью средств ИТ; поддержка динамичного принятия решений; коллаборация корпоративного контента; прогнозная аналитика, основанная на Больших Данных; использование данных для повышения прибыльности.

Таким образом, нынешние изменения в мире бизнес-аналитики и близких к ней областях вызваны двумя взаимосвязанными тенденциями: появлением Больших Данных и необходимостью обработки неструктурированных данных. Проблема Больших Данных — явление относительно новое, а вот интерес к работе с неструктурированными данными возник еще в пятидесятые годы. Методы работы с данными совершенствуются не с такой скоростью, с какой растут их объемы, и являются не столько продуктами технологий, сколько результатами научной работы, однако возникновение проблемы Больших Данных заметно ускорило ход событий. Почти все упомянутые компании, специализирующиеся на работе с неструктурированными данными, возникли примерно 10–20 лет назад в связи с замеченной уже тогда необходимостью практической работы с такими данными. Но в то время речь шла о небольших объемах и о скромном числе возможных приложений, поэтому компаний было немного и они, за исключением Autonomy, оставались в тени. Сегодня все радикально изменилось, и теперь необходимость работы с неструктурированными данными (Unstructured Data Analysis, UDA) стала актуальной — уже сейчас на них приходится свыше 80% всех хранимых данных, а их количество возрастает на порядок быстрее по сравнению со структурированными данными. При этом из всего объема корпоративных данных только 10–15% могут быть использованы в классических системах BI, а чтобы повысить конкурентоспособность, необходимо использовать их все.

 

Endeca Latitude

За компанию Endeca корпорация Oracle заплатила в шесть раз меньше, чем HP за Autonomy, приобретя несколько продуктовых линеек, среди которых выделяется технология Endeca Latitude, реализующая схему Text Mining и состоящая из трех основных компонентов:

  • Latitude Information Integration Suite — средства сбора и предварительной обработки структурированных, неструктурированных и квазиструктурированных данных;
  • Latitude Studio — среда для создания аналитических приложений;
  • MDEX Engine — гибридная поисково-аналитическая СУБД.

На входе Endeca Latitude стоит Latitude Information Integration Suite — набор продуктов для сбора воедино сведений из потока сырых входных данных. В этом наборе можно выделить три основные составляющие:

  • Latitude Content Acquisition System — система сбора контента, представляющая собой коллекцию коннекторов для выделения, очистки и интеграции неструктурированного контента из сетевых файловых систем, Web-сайтов и других источников данных всех видов;
  • Latitude Data Integrator — интегратор, выполняющий функции, аналогичные ETL в хранилищах данных;
  • Open Interfaces and Connectors — интерфейсы и коннекторы для получения данных из Apache Hadoop и других источников.

Сердцевиной Endeca Latitude является MDEX Engine — гибридная аналитическо-поисковая СУБД, для которой характерны высокая масштабируемость и ориентация на поколоночное хранение. В арсенале Oracle помимо собственной СУБД есть еще несколько приобретенных, из них к MDEX ближе всего ESSBASE (Extended Spread Sheet dataBASE), разработанная компанией Arbor Software, которая в 1998 году приобрела Hyperion Software и позднее вошла в состав Oracle. В СУБД Oracle Essbase данные проходят предварительную обработку и агрегированы таким образом, чтобы было удобнее выполнять аналитику, а MDEX нацелена на поиск и обнаружение знаний и является гибридом поисковой и аналитической СУБД, рассчитанной на работу с быстро меняющимися данными.

Принципиальное отличие MDEX от обычных СУБД в приближении хранящихся в ней записей к реальностям окружающего мира. Эти записи содержат пары атрибутов ключ/значение (key/value). В форме атрибутов хранятся иерархически организованные данные, например элементы иерархий XML, причем так, что пользователь получает возможность буквально ввинчиваться (drill-into) в наборы данных, используя для этой цели инструментальные приложения из Latitude Studio. Таким MDEX реализуется попытка в максимальной степени избавиться от процессов моделирования, для того чтобы работать с данными в том виде, как они поступили и хранятся, — добиться того, что называют «загрузил и пошел». Иначе говоря, Endeca сфокусирована на раскрытии содержимого данных (data discovery) в противоположность традиционному анализу, как это сделано в Oracle BI.

Внутренняя архитектура MDEX — это совокупность вертикальной организации хранения с размещением данных либо только в памяти (in-memory), либо в памяти и на диске. В MDEX реализован так называемый фасетный поиск — поиск в информационных средах, построенных по принципам фасетной классификации (классификации двоеточием). Она была предложена индийским библиотековедом Сиркали Ранганатаном как вариант библиотечно-библиографического подхода к многоаспектной классификации для обычных бумажных библиотек и позже распространена для компьютерных приложений. В этой классификации сочетаются индексы из различных таблиц в определенных комбинациях, что позволяет получить индексы для всевозможных предметов. Подход называют классификацией двоеточием, поскольку в записи двоеточие служит средством для скрепления (взаимосвязи) отдельных частей индекса в единый поисковый образ. В итоге фасетная формула задает агрегирование частных индексов в единый индекс. Фасетная формула не только определяет порядок следования терминов в поисковом образе документа (например, процесс – материал – оборудование – свойство и т. д.), но и играет роль индекса.

 

Поиск и неструктурированные данные

Выделение UDA в качестве отдельной научно-технической задачи датируется началом 2000 годов, когда аналитики Merrill Lynch и Gartner опубликовали информацию о неожиданно высоких трудозатратах при работе с данными — офисные служащие отдают до половины своего рабочего времени рутинной, не автоматизированной работе с контентом. В близком по содержанию отчете IDC «Расплата за невозможность обнаружить информацию» (“The High Cost of Not Finding Information”, 2003) было отмечено, что на средних предприятиях прямые убытки, вызванные потерей времени из-за неудобства работы с информацией, в пересчете на одного работающего оцениваются в 2,5–3,5 тыс. долл. Неудобство было связано как раз с необходимостью обработки неструктурированных данных: электронных писем, служебных записок, новостей, чатов, отчетов, маркетинговых материалов, презентаций и других данных, которые не могут быть занесены в реляционные СУБД, а хранятся в виде текстовых файлов различных форматов. Некоторые данные следует, скорее, отнести к классу квазиструктурированных, отличающихся тем, что основные данные сопровождаются метаданными, такими как автор, место создания и т. п., которые можно поместить в СУБД.

Корпоративный поиск 2.0

В «обычных» исторических архивах имеется обработанная часть, где документы описаны, а для доступа к ним служат каталоги. Для работы же с необработанными документами приходится использовать специальные поисковые методы.

Леонид Черняк

Вплоть до недавнего времени эти сигналы аналитиков не воспринимались всерьез и существенных мер противодействия не предпринималось, однако в конце первого десятилетия нынешнего века появились новые источники неструктурированных данных: многочисленные социальные сети, мобильные устройства, регистрирующая аппаратура — обострившие проблему Больших Данных. Естественно, что индустрия сразу же обратилась к поисковым системам — технологии корпоративного поиска показались решением проблемы, и оказалось, что лидерами в этом сегменте являются европейские компании: Autonomy, FAST и Endeca (хотя и из Бостона, но с немецкими корнями). Однако корпоративный поиск как способ доступа к неструктурированным данным оказался дорогим — у среднего служащего он отнимает до 5 рабочих часов в неделю и стоит более 10 тыс. долл. в год.

Первая слабость поисковых машин в том, что средняя длина запросов не превышает двух-трех слов, логические операции and, or и not используются редко, а в итоге полезными оказываются не более трети из нескольких десятков наиболее релевантных ответов на запрос. Конечно, по мере усовершенствования методов поиска эти цифры улучшаются, но незначительно. Вторая слабость — незначительная привязанность к контексту, каждый запрос выполняется независимо от предшествующих, и поисковые машины дают один и тот же ответ любому пользователю вне зависимости от предыстории его работы с базой. Некоторые компании (например, Google) используют ту или иную контекстную информацию (метаданные), относящуюся к предмету поиска.

Традиционные данные в электронных таблицах или реляционных СУБД по определению классифицированы, и при работе с неструктурированными данными тоже вполне естественно применять классификацию и создавать необходимые таксономии. Первыми автоматизированные методы создания таксономий освоили компании Verity и Stratify, поглощенные Autonomy (HP) и Inxight (SAP). Компании Documentum (EMC) и Interwoven (Autonomy) стали лидерами в направлении Content Intelligence, сочетающем в себе управление корпоративным контентом, то есть работу с неструктурированными данными, и бизнес-аналитику.

Проблемы UDA

В большинстве своем структурированные данные не имеют антропогенных особенностей, а неструктурированные, напротив, за редким случаем создаются именно людьми со всеми вытекающими отсюда последствиями. В системах UDA приходится иметь дело с «человеческой информацией» и «человеческим фактором», что обусловливает целую массу отличий.

  • Разнообразие. Возможно огромное количество различных способов создания и источников информации, которая по очевидным причинам не может быть структурирована и помещена в какую-то даже самую невероятную по современным представлениям СУБД, ее лишь можно записать в файлы с теми или иными форматами.
  • Неоднозначность. Если высказывания двух людей совпадают дословно, то это не значит, что они идентичны, а если одна и та же идея выражена разными словами, то смысл переданного различается — люди по-разному воспринимают одни и те же фразы в зависимости от своего опыта, взглядов и т. п.
  • Контекстная зависимость. Одно и то же слово или имя могут в разных условиях интерпретироваться по-разному («Дядя Федор» может быть чьим-то родственником или мальчиком из Простоквашино).
  • Динамика значения. Слова могут очень быстро менять свой смысл, например, название никому ранее не известного населенного пункта из-за происходивших в нем событий может стать нарицательным.
  • Этнокультурная зависимость. В разных этносах и культурах, использующих один и тот же язык, слова могут приобретать разный смысл и обозначать совершенное разное.

Понятно, что в таких условиях поиск по ключевым словам, пусть даже самый изощренный, весьма слабый инструмент.

 

Vivisimo

Сумма, которую IBM заплатила за Vivisimo, не исчисляется миллиардами — похоже, что путем этого приобретения компания создает исследовательское подразделение для выполнения трехлетнего проекта. Компания Vivisimo (по-испански «яркая, умная») была основана в 2000 году профессором Раулем Вальдес-Пересом из Университета Карнеги-Мелон и его двумя учениками, положившими в основу технологической политики методы кластеризации. На первых порах область применения их работ ограничивалась федеративным поиском, распространяющимся на удаленные файловые хранилища, локальные сети и Интернет. Самым успешным внедрением был поиск на сайте FirstGov.gov, позже переименованном в USA.gov — официальный портал правительства США. Затем интересы компании сместились в область управления корпоративным контентом.

У Vivisimo имеется три взаимосвязанных продукта, объединенных в платформу Velocity Platform.

  • Search Engine — многофункциональная поисковая машина, агенты-пауки которой способны просматривать файлы различных типов (HTML, TXT, RTF, Adobe Acrobat PDF, PostScript, MS Word, Excel, PowerPoint, WordPerfect, ZIP, GZIP, TAR Lotus Notes), а также извлекать информацию из реляционных СУБД и сохранять ее в промежуточной форме. Поддерживаются все европейские языки, арабский и китайский.
  • Clustering Mashine — машина кластеризации, группирующая результаты работы поисковых машин в Google, Autonomy, FAST и Ultraseek, а также тексты в разных форматах.
  • Content Integrator — интегратор, обеспечивающий федерирование поиска, умеющий работать с метаданными и передающий результаты в Clustering Engine.

 

Многоликий Text Mining

Аналитика неструктурированных данных
Рис. 1. Основные составляющие Text Mining

Итак, для продуктивной работы с текстами, содержащими «человеческую информацию», кроме поиска требуется еще что-то — например, технологии добычи, или разработки текстов (Text Mining), так или иначе связанные с извлечением полезной информации из текстов. Впервые словосочетание Text Mining было использовано в 1995 году как альтернатива термину «извлечение знаний из текста» (Knowledge Discovery from Text, KDT). На рис. 1 показаны основные составляющие Text Mining.

Наибольшую историю имеет извлечение полезной информации (Information Retrieval, IR), не отвечающее на поставленный вопрос, а помогающее найти документ, возможно, содержащий ответ. В IR поиск имеется, но на самом деле это широкая междисциплинарная область, включающая компьютерную науку, математику, библиотековедение, когнитивную психологию, статистику, лингвистику и даже право. Системы IR служат для доступа к книгам, журналам и другим опубликованным документам. Поисковые машины для Web можно рассматривать как частный случай IR, хотя спектр их приложений чрезвычайно широк и распространяется от систем классификации документов до фильтрации спама. Первые попытки автоматизации IR датируются прошлым веком и связаны с перфокартами, пик работ в этой области пришелся на шестидесятые годы, а радикальные изменения произошли с появлением Web и поисковых машин в девяностые годы.

Работа с текстами на естественных языках уходит своими корнями в 50-е годы, к первым наивным попыткам автоматизации процесса перевода. Общая цель NLP в большей мере исследовательская — это стремление понять суть естественного языка, используя компьютер в качестве инструмента. Реальных практических результатов NLP не дало, но это направление имеет полное право на существование, что доказывает пример компьютера Watson.

Обработка текстов на естественном языке

Задачи обработки текстов возникли сразу за появлением вычислительной техники, но, несмотря на полувековую историю исследований в области искусственного интеллекта, скачок в развитии ИТ и смежных дисциплин, удовлетворительного решения таких задач пока нет.

Константин Селезнев

Гораздо продуктивнее NLP оказалось направление Text Mining, суть которого в переводе текстов в цифру, переход от неструктурированных данных к структурированным с последующим анализом. Чаще всего в этом процессе игнорируется большая часть специфических особенностей естественного языка — они востребованы только на первом этапе разбора текстов, а на последующих используется модель «мешка слов», в которой не важен порядок слов (home made означает то же самое, что и made home). Есть версии модели, например векторная, где словам присваивается вес. Между Text Mining и другим, более известным, направлением, Data Mining (DM), есть много общего. Под DM обычно понимают извлечение содержащейся в данных полезной информации, недоступной для восприятия человеком без применения специальных технологий. Структурированные данные хранятся в форме и в количествах, адекватных машинным, а не человеческим способностям, поэтому в процессе DM их нужно извлечь, отфильтровать, преобразовать и визуализировать. Что же касается текстов, то здесь ситуация иная — в основном в них нет скрытой информации.

Аналитика неструктурированных данных
Рис. 2. Общая схема процесса Text Mining

Обычно авторы создают тексты, вполне понятные человеку, поэтому до тех пор, пока текстов было немного, особой нужды в технологиях Text Mining не возникало, но когда количество текстов стало превышать возможности восприятия человеком, возникла потребность в автоматизации. В таком случае складывается задача, обратная DM, — превратить человеческие тексты в нечто такое, что удобно для компьютера. Однако после этого Text Mining приобретает черты DM, естественно, с использованием специфических для этого направления методов и алгоритмов — теперь из большого объема данных можно извлечь новые знания. На рис. 2 показана обобщенная схема процесса Text Mining. На этапе предварительной обработки текст превращается в структуру, затем в нем выделяются существенные признаки — атрибуты, после чего выполняются собственно «раскопки», завершающиеся визуализацией результатов.

Новая жизнь старой теории

Реабилитацией идей Томаса Байеса занимались многие, но больше всех на этом поприще продвинулся Майкл Линч, основатель и генеральный директор Autonomy, которого называют британским Биллом Гейтсом.

Леонид Черняк

В 2007 году Бил Инмон, признанный «отец хранилищ данных», в соавторстве с Энтони Несвичем выпустил книгу «Введение в неструктурированные данные» (“Tapping into Unstructured Data”) с очень показательной второй частью названия: «Интегрирование неструктурированных данных в текстовую аналитику и BI» (“Integrating Unstructured Data and Textual Analytics into Business Intelligence”). В ней авторы показали, зачем нужен Text Mining в бизнесе, и разделили Text Mining на два направления: «обнаружение» (Discovery) и «анализ» (Analysis). Первое больше напоминает дедуктивный метод, а второе ближе к обычным технологиям, в основе которых лежит статистика, кластеризация и другие методы. В любом случае Text Mining позволяет обнаружить новое знание, подтвердить или опровергнуть ту или иную гипотезу, а не просто найти что-то, кем-то написанное прежде, — это новое знание и будет использовано в системах бизнес-аналитики.