Афоризм «знание — сила» (в оригинале Scientia potentia est), сформулированный Фрэнсисом Бэконом в 1605 году, спустя четыре столетия вполне справедливо переформулировать так: «информация — сила». Информация становится одним из важнейших активов современного общества, это признано всеми. Парадокс состоит в том, что определение понятия информация никогда не было достаточно точно сформулировано, а потому и не стало предметом адекватно серьезного внимания со стороны так называемых информационных технологий. Почему? Попробуем ответить на этот вопрос и понять, что из этого ответа следует.
Любой технологический процесс можно рассматривать с двух взаимодополняющих друг друга позиций. В центре внимания одной из них активные действия, т. е. та самая совокупность технологических операций, которые составляют процесс. Другая позиция фокусируется на последовательности трансформаций на пути от исходного сырья к готовому изделию; иначе говоря, рассматриваются те преобразования, которые происходят в предмете данной технологии по мере его прохождения по технологической цепочке. Во всех без исключения традиционных технологиях взаимосвязь между этими двумя точками зрения на технологический процесс вполне очевидна и неразрывна, прежде всего потому, что предмет обработки материален, его можно подвергать измерениям, испытаниям и другим необходимым контрольным действиям. К сожалению, классическая триада «данные, информация и знания», составляющая предмет информационных технологий, нематериальна. Как следствие процедуры работы с компонентами триады, опрометчиво названные информационными технологиями, страдают очевидной однобокостью. Десятилетиями ИТ были сосредоточены исключительно на разного рода технологических операциях, реализуемых теми или иными устройствами и приложениями, оставляя в забвении предмет. Большинство из определений ИТ, которые можно обнаружить, сводится к перечислению средств аппаратного и программного обеспечения, служащих для преобразования, хранения, защиты, обработки, передачи и выборки информации, при этом ни слова не говорится о том, что же подразумевается под термином «информация».
Операционный взгляд на информационные системы активно развивается, доминирует в сознании специалистов. Практически никто из них не может провести грань между данными и информацией, нередко эти термины вообще используют как синонимы. По этой причине практически все инновации так или иначе отражают только операционный взгляд на технологии. Даже сейчас, когда очень много говорят об информации, символом новой волны в ИТ становятся такие операционные подходы, как сервис-ориентированные архитектуры (Service-Oriented Architecture, SOA), архитектуры, стимулированные событиями (Event-Driven Architecture, EDA) и т.д. «Предметную» же точку зрения на ИТ отражает, пожалуй, лишь одно направление, получившее название управление жизненным циклом информации (Information Lifecycle Management, ILM). При этом часто обнаруживается ограниченное представление об ILM, которое сводится к распределению данных во времени по многоуровневым системам хранения, и в результате — исключительно к операционной стороне дела.
В итоге недостаточная определенность понятия «информация» как предмета и неспособность управлять качеством данных, являющихся носителем информации, остаются застарелой болезнью ИТ. Проблемы качества данных распространяются на самые разные формы их представления: на хранилища данных (data warehousing), на бизнес-аналитику (business intelligence), на управление отношениями с клиентами (customer relationship management), на управление цепочками поставок (supply chain management) и другие направления ИТ. Важно, что по мере роста объемов хранимых данных эта болезнь становится все более опасной — прежде всего потому, что в необходимой мере не развиты методы оценки качества данных. Это обстоятельство не может не вызывать удивления, если учесть, что в любых иных технологиях оценка качества продукта в процессе переработки является совершенно естественной. Как следствие недавно возникло новое — пока в большей мере теоретическое, делающее лишь первые шаги — направление, которое так и назвали — качество данных (data quality). Его появление обусловлено тем, что, как показали исследования, ущерб, вызванный низким качеством данных, огромен. Есть сведения, что в США он составляет свыше 600 млрд. долл. в год. Для снижения убытков из-за низкого качества данных в компаниях создаются специальные подразделения, осуществляющие руководство данными (data governance). Для координации действий в области управления качеством данных в 2004 году была создана Международная ассоциация по качеству информации и данных International Association for Information and Data Quality (IAIDQ), главным идеологом которой стал известный эксперт Ларри Инглиш. Фундаментальные исследования в области качества информации и данных ведутся в целом ряде университетов, прежде всего в Массачусетском технологическом институте по программе IQ (Information Quality), под руководством профессора Ричарда Ванга (mitiq.mit.edu). Среди решаемых задач:
- профилирование данных, т. е. сбор сведений о существующих данных и анализ этих сведений;
- стандартизация представления данных;
- геокодирование (geocoding) — приведение почтовых адресных данных в соответствие с почтовыми стандартами;
- установление соответствия (matching) и связи (linking) — поиск близких или идентичных данных, получивших разные наименования;
- мониторинг — отслеживание изменения данных.
Особое значение проблема качества данных приобретает в связи с возникновением предприятий, работающих в реальном времени (Real Time Enterprise, RTE).
Игнорирование ИТ-сообществом предмета своей деятельности привело к тому, что на долгое время его место заняли такие слабо определенные понятия, как «капитал знаний» и «интеллектуальный капитал», остающиеся предметом исследования для экономистов и философов. Исследования эти очень красивы и амбициозны, но, к великому разочарованию, малопродуктивны. Тем не менее все не так плохо: по мере развития информационных технологий наблюдается заметный прогресс. Так или иначе данные и информация отвоевывают свое место. Заметную роль в этом процессе играет ассоциация индустрии сетей хранения Storage Networking Industry Association (SNIA) — одна из самых молодых профессиональных организаций, образованная непосредственно после рождения концепции сетей хранения, в 1997 году. В отличие от аналогичных общественных образований SNIA пытается не только решать специфические узкие задачи, прежде всего, связанные со стандартизацией в области сетевого хранения данных, но и к тому же выйти на более высокий концептуальный уровень, стремясь переосмыслить роль данных и информации на уровне предприятия. Об этом, например, свидетельствует меморандум Information Convergence, подготовленный директором по программам развития SNIA Майклом Петерсоном, являющимся одновременно президентом консалтинговой компании Strategic Research.
Справедливости ради следует отметить, что Петерсон не первым употребил термин information convergence. За десять лет до него это сделал Джеффри Боукер, специалист в области библиотековедения и науки об информации (Information Science), т. е. по информатике в ее первом значении. Боукер имел в виду конвергенцию между социальной ролью информации и техническими формами ее представления. Разделение этих двух сторон информации он назвал «аномией», т. е. потерей самоидентификации. Обращение со стороны Боукера к этой теме было связано с тем, что еще с начала XX века, т. е. задолго до создания компьютеров специалисты, создавшие в последствие информатику, пытались решить вопрос о том, «как думают организации» (how institutions think). Не вдаваясь в суть работ Боукера и его коллег, стоит заметить, что совпадение не случайно. Оно свидетельствует о том, что в нем просматривается еще одна возможность для конвергенции — на этот раз между Information Science и информационными технологиями — эта наука и ИТ связаны общим предметом, информацией.
Стимулом для публикации Петерсоном его меморандума стало осознание того факта, что, несмотря на предпринимаемые в последнее время усилия по развитию прикладных систем для управления бизнесом, подразделения, осуществляющие управление бизнесом, с одной стороны, и ИТ-подразделения предприятий — с другой, оставались разделенными. Причина в том, что различные части информации и данных принадлежат разным владельцам и они по-разному ими оперируют. Петерсон отмечает, что традиционное английское выражение We don?t communicate («мы не общаемся») удачно отражает сложившиеся отношения между лицами, принимающими решения, и представителями ИТ-подразделений. Но под влиянием новых законодательных инициатив, а также в связи с необходимостью учитывать различного рода риски, принимать во внимание требования по повышению оперативности управления и с учетом прочих факторов эта модель дистанцированных отношений, устраивавшая до поры обе стороны, окончательно изжила себя. Новую информационную модель Петерсон назвал «информационной конвергенцией», в центре которой находится представление об информационно-центричном предприятии (Information-Centric Enterprise).
Рис. 1. Консолидация действующих сил для создания информационно-центричного предприятия |
Смысл такого подхода к предприятию, по мнению Петерсона, состоит в том, что требуется баланс; внимание должно быть сконцентрировано не только на приложениях, интеграции приложений, SOA, EDA и тому подобных вещах, но и в равной степени на корпоративной информации и данных. Иначе говоря, нужно совместить операционный и предметный взгляд на природу вещей — так, как это делается в более традиционных технологиях. Он считает, что в полной мере значение информации и данных, как одного из важнейших активов предприятия, пока осознано только в Америке, в Западной Европе этот процесс «прозрения» начнется в 2007 году, в других странах еще позже. Скорее всего, просто нигде, кроме США, не продлился анализ ущербов наносимых низким качеством данных.
В основу информационно-центричного предприятия должна быть положена единая информационная инфраструктура, которая позволяет принимать принципиально важные решения на уровне предприятия в целом, преодолевая внутриведомственные барьеры. Эта инфраструктура может стать «общим знаменателем» для конвергенции управления информацией, с информационными технологиями и средствами информационной безопасности, позволяя каждому из направлений оставаться ответственным за себя, но работать совместно в едином бизнес-контексте.
Для создания такой инфраструктуры есть технические предпосылки, оформленные в виде структуры данных предприятия (Enterprise Data Fabric, EDF). Основная задача, решаемая технологиями EDF, состоит в интеграции и виртуализации тех данных предприятия, которые находятся в оперативной памяти включенных в систему серверов. Но не это главное: более существенно налаживание организационного взаимодействия между такими участниками производственного процесса, как руководители бизнес-подразделений, финансовые работники, юристы, менеджеры, отвечающие за информацию, сотрудники ИТ-подразделений и специалисты по информационной безопасности. Цель этого объединения, в классификации, информации и данных, а также определения требований к работе с ними. Все это удается реализовать на первых двух фазах внедрения ILM по модели SNIA (рис. 2). На следующих фазах модель обогащается и развивается вплоть до создания полноценного информационно-центричного предприятия.
Рис. 2. Фазы развития ILM по модели SNIA |
Возможно, сегодня модель ILM, предложенная SNIA, выглядит если не утопичной, то отдаленной на перспективу. Однако у нее есть несомненное достоинство: она позволяет рассматривать ILM не как еще один, очередной набор технологий, но как новое понимание роли и места информации в ИТ-системах.