Одна из самых больших в Восточной Европе баз агрегированных данных находится в ГТК РФ
Александр Хотько: «Руководство ГТК ставит задачи совершенствования ИТ в число приоритетных, поскольку они являются одним из основных факторов повышения эффективности деятельности всей таможенной службы» |
По данным корпорации Oracle, одна из самых больших в Восточной Европе баз агрегированных данных находится в Государственном таможенном комитете РФ. О том, как развивалось это информационное хранилище и его программное окружение, рассказывает Александр Хотько, первый заместитель директора Главного научно-информационного вычислительного центра ГТК России. С ним беседует редактор еженедельника Computerworld Россия Михаил Зырянов.
Какой ИТ-инфраструктурой располагает ГТК России?
Большинство таможенных документов, которые создаются, обрабатываются и готовятся в процессе таможенного оформления и контроля, имеют электронные копии. Они используются практически на всех этапах и во всех процессах таможенной деятельности.
Информация с таможенных постов собирается в центральных базах данных суммарным объемом около 1,5 Тбайт. Центральные базы содержат всю информацию с 1995 года по грузовым таможенным декларациям, данные таможенно-банковского валютного контроля, учета транспортных средств, юридических лиц, занимающихся внешнеэкономической деятельностью.
Общий объем информации, поступающей в базы данных за год, достигает 50-80 Гбайт (разумеется, корреспонденция, служебная переписка и тому подобные материалы в этот объем не входят).
В 1993 году ГТК было принято решение ориентироваться на СУБД Oracle; этой линии мы придерживаемся и по сей день. Использование одной платформы помогает поддерживать единство системы.
Информационную поддержку деятельности таможенных органов обеспечивают около 24 тыс. компьютеров, более 1 тыс. серверов. На федеральном уровне используются серверы на платформах Alpha, Intel, SPARC/Solaris. В семи региональных таможенных управлениях функционируют мощные Intel-серверы. Центры сбора и передачи данных в региональных управлениях связаны с ГНИВЦ ГТК цифровыми каналами с пропускной способностью от 500 Кбит/с до 2 Мбит/с.
Cоздано, используется и продолжает развиваться более 180 программных комплексов и подсистем — наше прикладное программное обеспечение.
В центральном аппарате ГТК более 2 тыс. сотрудников подключены к единой сети и имеют доступ к центральной базе данных, расположенной в Москве, в Главном научно-информационном вычислительном центре.
ГНИВЦ создан более двенадцати лет назад. Это головное учреждение ГТК России в области реализации программ информатизации таможенной службы. Разумеется, мы сотрудничаем с большим числом организаций, отечественных и зарубежных компаний — ведущими поставщиками средств коммуникаций, вычислительной техники, программного обеспечения, других технических решений.
Как развивалось ваше информационное хранилище?
Создание и развитие информационных ресурсов происходило постепенно, эволюционным путем. На разных этапах использовались различные структуры данных, привлекались разные организации-разработчики. Жизнь заставляла нас в кратчайшие сроки реализовывать новые решения.
Когда суммарный объем данных, хранящихся на серверах ГНИВЦ, стал приближаться к 1 Тбайт, у нас имелось 10 различных центральных баз данных. Отдельная база данных со своими структурами и механизмами загрузки применялась для хранения и обработки таможенных деклараций, другая — для обслуживания операций валютного контроля, третья — для учета транспортных средств, четвертая — для документов контроля доставки и т.д. Базы данных использовались, они были между собой взаимосвязаны, поскольку проектировались и создавались под единым руководством ГНИВЦ, но эффективность их применения и избыточность (а точнее, дублирование) хранимых данных нас не устраивали. Пришлось задуматься об унификации.
Другая важная задача, которую мы перед собой поставили, — перейти от использования баз данных, хранящих электронные копии документов, к базам, содержащих сведения о состоянии процессов таможенного оформления. На всех этапах прохождения товаров от границы до выпуска их под тот или иной таможенный режим оформляется большое число различных документов, которые раньше хранились в отдельных базах. Необходимо было объединить все центральные базы данных в единую технологическую цепочку, упорядочив процедуры загрузки, хранения, очистки.
Для решения этой задачи мы подключили к работе компанию «РДТех», возложив на нее задачу разработки концепции создания единой интегрированной центральной базы данных на основе перепроектирования ранее созданных баз. Эта база получила название Центральной базы данных Единой автоматизированной информационной системы. В концепции, разработанной в течение 1999-2000 годов, были сформулированы основные пути интеграции баз данных.
Мы определили, что новая ЦБД ЕАИС должна состоять из четырех компонентов. Первый — база данных электронных копий таможенных документов, на их основе мы формируем другие компоненты ЦБД ЕАИС; кроме того, она используется для работы с первичными документами. Второй компонент — оперативная база данных, отражающая состояние таможенных процессов.
Она формируется на основании базы электронных копий. Третий компонент — хранилище и витрины данных. И когда сегодня мы говорим об агрегированной базе данных таможенной статистики, речь идет о части хранилища данных в составе ЦБД ЕАИС. Наконец, четвертый компонент — репозитарий метаданных. Такая структура нашей центральной базы данных соответствует и классическим подходам, и современному пониманию архитектуры сложных систем.
Одним из приоритетных направлений на 2001-2002 годы ГТК определил работу по унификации своего программного и информационного обеспечения. Для решения этой задачи выполняется опытно-конструкторская работа по проектированию, разработке и внедрению новых структур данных и программных компонентов на уровне центральной и региональных баз данных. Головным исполнителем по данной ОКР является компания «РДТех».
Как ведется работа со справочниками?
Сейчас у нас в эксплуатации находится более 120 классификаторов и справочников, имеющих внутренние взаимосвязи, иерархию вложенности и пр. Они актуализируются по разным регламентам. Какая-то часть регламентов определяется нашими нормативными документами, другая часть получается в готовом виде из взаимодействующих с нами структур. В ГНИВЦ есть специальное подразделение (отдел сопровождения нормативно-справочной информации), который ежедневно рассылает актуализированные версии этих классификаторов во все таможенные органы. Жесткое использование единых классификаторов и справочников, которые тщательно выверяются и поддерживаются в актуальном состоянии — один из основных системообразующих элементов таможенных информационных технологий.
Общий объем нормативно-справочной информации — более 300 Мбайт. Основу составляет товарная номенклатура внешнеэкономической деятельности, таможенный тариф, различные справочники, описывающие структуру таможенных органов, и классификаторы, используемые в процессах оформления таможенных документов. С этим набором справочников и классификаторов работают все 180 программных комплексов и подсистем.
Структура нашей нормативно-справочной информации разрабатывалась в начале 90-х годов в формате DBS. Мы поставили перед «РДТех» задачу перевести ведение справочников и классификаторов под управление СУБД Oracle и разработать программный инструментарий для ведения этих справочников.
Что предполагается сделать в рамках создания репозитария метаданных?
В 2000 году мы поставили вопрос о создании метабазы, описывающей все наши информационные ресурсы. Это очень сложная задача, так как процессы таможенной деятельности описываются очень сложной информационной моделью. Так, в таможенных документах, которые хранятся в наших базах, содержится около 4 тыс. атрибутов. Около 1 тыс. атрибутов содержится в нормативно-справочной информации. На уровне реализации центральной базы данных — сотни таблиц. При описании справочной информации используется два формата: имеются копии одних и тех же документов в форматах DBS для таможен и таможенных постов и Oracle — для уровня центральной и региональных баз. Хлопот прибавляет и динамика модификаций структуры баз данных, вызванная, прежде всего, изменениями в законодательстве. Несколько раз в год в эту структуру мы вносим достаточно существенные изменения.
Чтобы управлять всем этим, отслеживать и координировать изменения в этих структурах, необходим репозитарий метаданных, содержащий средства ER-моделирования и специализированную базу данных, в которой хранится и обрабатывается информация о взаимосвязях всех этих структур с компонентами программного и информационного обеспечения, нормативно-распорядительными документами, организационной структурой таможенных органов и т.п. С учетом необходимости хранения версий и хронологии изменений в структурах данных, предстоит разработать многомерное описание нашей информационно-организационной инфраструктуры.
Сейчас подходит к концу первый этап создания репозитария, идет проверка и тестирование его первой очереди.
Менялись ли цели функционирования информационной системы, ее функциональная направленность?
Первые десять лет существования нашей информационной системы цель ее формирования и развития заключалась в сборе и анализе данных таможенной статистики. По мере роста информационных ресурсов и изменения информационных потребностей ГТК в разряд приоритетных вышло управление таможенной деятельностью: сбор информации, поступающей с таможенных постов, ее анализ, обработка и выработка управляющих воздействий, способных влиять на процессы таможенного оформления и контроля в территориальных таможенных органах. Это естественный процесс: любая информационно-аналитическая система вырастает из информационно-справочной и статистической по мере роста баз данных и технологий обработки этих данных.
В конце 90-х годов ГТК поставил перед ГНИВЦ вопрос о проведении системного реинжиниринга всех технологий, которые были разработаны для сбора и обработки таможенной статистики. Началась разработка концепции, предусматривающей поэтапный переход на новые программные средства и технологии формирования таможенной статистики; этот переход должен быть завершен в 2005 году. Одновременно с 1997 года с помощью «РДТех» велось создание и внедрение новых решений для аналитической обработки данных.
Считаю успехом то, что нам удалось обеспечить нашим пользователям возможность прямо со своих рабочих мест обращаться к хранилищу данных и получать различные отчеты с использованием стандартных средств для аналитической работы. Это позволило повысить оперативность и гибкость формирования отчетов, статистической обработки данных и одновременно снизить нагрузку на подразделения ГНИВЦ, которые раньше занималось выполнением этих запросов. Высвободившиеся ресурсы мы смогли направить на решение перспективных задач.
В частности, создав хранилище, мы приступили к решению задачи создания новой системы формирования и публикации таможенной статистики, которая использовалась бы не только для аналитической обработки, но и для решения других классов задач.
Многие подразделения уже не представляют, как можно работать без программ и баз данных ЕАИС. Кроме того, у нас появилась возможность обеспечить сотрудникам региональных таможенных управлений доступ к агрегированным базам данных, используя возможности OLAP-технологий.
Кто в ГТК курирует ваши проекты?
В составе центрального аппарата ГТК есть Управление спецтехники и автоматизации таможенных технологий, которое осуществляет координацию работ по формированию и реализации научно-технической политики ГТК. Управление и осуществляет курирование деятельности ГНИВЦ, который ведет разработку, внедрение и сопровождение конкретных информационных таможенных технологий, а также осуществляет научно-техническое сопровождение работ предприятий и организаций, участвующих в модернизации и развитии ЕАИС.
Какие организационные изменения внутри ГТК происходят в связи с реинжинирингом используемых технологий и программных средств?
В результате внедрения новых программных решений в области таможенной статистики пользователи из функциональных подразделений получили прямой доступ к данным и приложения для их обработки, что позволило освободить ресурсы от части работ, связанных с подготовкой отчетности по заявкам пользователей.
В ГНИВЦ появилось два новых подразделения: отдел администрирования баз данных и отдел проектирования баз данных. В частности, после внедрения репозитария метаданных отдел проектирования баз данных будет осуществлять его сопровождение, управление структурой информационной системы и координировать действия всей кооперации разработчиков по внесению изменений в структуры данных.
Поскольку внедрение новых средств автоматизации неизбежно приводит к изменению оргструктуры объектов автоматизации и порядка взаимодействия между подразделениями, то в процессе внедрения новых информационно-программных решений структура ГНИВЦ также будет совершенствоваться.
Проводилась ли в ГТК оценка эффективности затрат на ИТ-проекты?
Эффективность инвестиций зависит от конечной цели ИТ-проектов. В настоящее время деятельность таможенных органов без использования средств автоматизации практически невозможна. Руководство ГТК ставит задачи совершенствования ИТ в число приоритетных, поскольку они являются одним из основных факторов повышения эффективности деятельности всей таможенной службы.
В 2001 году в Комитете была рассмотрена и принята концепция информационно-технической политики на 2001-2003 годы. Кроме того, принята целевая программа развития таможенной службы, в которой значительное число планируемых мероприятий также связано с развитием средств автоматизации.
Напомню, что в течение прошлого года около 40% доходной части бюджета страны составили поступления от таможенных платежей. Такие показатели были достигнуты, в том числе, и за счет совершенствования нашей информационной системы. Поэтому понятно, что инвестиции в ИТ в таможенной деятельности обеспечивают высокую отдачу. Одновременно использование ИТ помогает сократить очереди на пограничных переходах, за счет повышения эффективности деятельности таможенных инспекторов.
Вложение средств в реинжиниринг подсистемы формирования статистики позволило сократить номенклатуру поддерживаемых программных средств и расходы, связанные с их сопровождением. Мы проводили оценку экономической эффективности проекта и ожидали получение такого эффекта. Удалось ликвидировать дублирование функций в ПО, уменьшить объемы документации, освободить часть персонала для выполнения других функций и пр. Кроме того, сами программы стали более эффективными.
Что бы Вы порекомендовали организациям, которые ведут подобные крупные проекты?
Двенадцать лет назад, когда мы только приступали к комплексной автоматизации таможенной службы, мы начинали если не с чистого листа, то с небольших ИТ-компонентов, которые уже были. Разработка и внедрение новых систем фактически вела к замене, вытеснению прежних, а данные просто преобразовывались и загружались в новые решения. Особой сложности задача сохранения и преобразования ранее накопленных данных не представляла. Да и объемы их были незначительными. Сегодня решения по технологии миграции и преобразования данных очень существенно влияют как на выбор архитектуры информационно-программных средств, так и на конкретные планы внедрения новых систем. Это один из основных факторов, которые необходимо учитывать при модернизации крупных информационных систем.
Второй мой совет относится к ведению системы классификации и кодирования. Я встречал большое число проектов, где вопросы создания единой системы классификации и кодирования, вопросы сопровождения нормативно-справочной информации не были должным образом проработаны. По мере развития и масштабирования систем это становится препятствием в реализации функций анализа информации, приходится тратить очень много средств на преобразование, сопоставление и очистку данных. К счастью, в ЕАИС ГТК этих проблем в целом удалось избежать.
Еще один фактор, который необходимо учесть, связан с обучением и переподготовкой кадров. Динамика изменений в области ИТ настолько велика, что без организации процесса обучения ИТ-специалистов становится практически невозможно внедрить информационную систему и обеспечить ее функционирование.
По нашему мнению, этот процесс должен идти на трех уровнях.
Первый — уровень руководства подразделений, где система будет внедряться. Руководители должны понимать, какой эффект удастся достичь в результате внедрения средств информатизации.
На уровне ИТ-специалистов, которые будут заниматься администрированием и сопровождением новой системы, необходимо проводить обучение новым версиям операционных систем, СУБД и средств проектирования ПО.
Наконец, нужно подготовить пользователей — персонал, который будет использовать созданные решения в своей деятельности. Без организации такого трехуровневого обучения внедрить и поддерживать крупную информационную систему невозможно. Пожалуй, это самый главный фактор, влияющий на эффективность эксплуатации системы.
ИТ в таможенном деле
Глеб Каширский, начальник отдела Главного научно-информационного вычислительного центра Государственного таможенного комитета РФ, рассказывает о некоторых перспективных направлениях использования ИТ в таможенном деле.
Чтобы таможенная служба соответствовала мировым требованиям, в том числе требованиям Всемирных таможенной и торговой организаций, мы должны, с одной стороны, упрощать процедуры таможенного контроля, а с другой — обеспечивать определенный уровень их качества. Мы должны найти оптимальный вариант, обеспечивающий поддержку и наших производителей, и международной торговли, — вариант, при котором товары проходят через границу с минимальным количеством препятствий.
Еще одно обстоятельство: любая таможенная служба не бесконечна в своих ресурсах. Поэтому Всемирная таможенная организация рекомендует использовать системы анализа и управления рисками. В условиях ограниченности количества ресурсов они позволяют обеспечить заданный уровень качества таможенного контроля, не создавая длинных очередей на таможенных постах.
В подразделениях ГНИВЦ ГТК проводятся исследования современных ИТ. Например, с помощью наших партнеров из компании «РДТех» мы освоили OLAP-инструментарий Oracle Express, сейчас исследуем возможности технологии визуального анализа данных i2 и Watson. Большое будущее мы видим и в использовании технологии добычи знаний, которые позволяют находить скрытые закономерности в больших объемах данных. В частности, с коллегами из «РДТех» и Oracle мы изучили возможности использования продукта Oracle Data Mining Suite для решения наших задач анализа и управления таможенными рисками. Взяв данные из информационных массивов ЕАИС, мы применили этот инструментарий для поиска скрытых закономерностей — различных тенденций, характерных для нарушений при таможенном оформлении. Обычный эксперт-таможенник может и не заметить какие-то закономерности, система же добычи знаний помогает их найти. Экспериментальные расчеты подтвердили некоторые гипотезы, выдвинутые экспертами, а также нашли ряд закономерностей в поставках товаров, которые ранее не были очевидны.
Подчеркну: несмотря на уже имеющиеся неплохие результаты, исследования в области добычи знаний находятся у нас на начальной стадии. Мы намерены продолжить эту работу.