Создатель сайта «ГосЗакупки» и еще ряда общественно значимых проектов, в недавнем прошлом специалист по добыче данных (data mining) и обработке информации в сфере финансовых данных, Иван Бегтин рассказывает о том, почему нужно открывать государственные данные, какие препятствия существуют на этом пути и зачем открытые данные бизнесу.
- Для начала определимся с понятиями: что такое открытые данные? Как складывалась и развивалась эта концепция?
Открытые данные развивают идею свободы доступа к информации, произведенной государством, общественными организациями, гражданами, даже бизнесом. Такая информация может быть использована в разных целях, в том числе коммерческих, на основе свободных лицензий, которые снимают возможные юридические ограничения. Революционность концепции открытых данных состоит в том, что она декларирует доступ к информации не просто в визуальных, но в машиночитаемых форматах. Это обеспечивает возможность многократного использования информации и формирует своего рода рынок – государственный, общественный, коммерческий, где эти данные востребованы.
Появлению идеи открытых данных способствовало несколько движений и инициатив. Во-первых, это разработка с открытым исходным кодом, приверженцы которой также активно продвигали инициативы технологической открытости государства, включая доступность данных.
Во-вторых, это активное взаимодействие между научными организациями по всему миру, которые уже в течение многих лет открывают свои базы данных, будучи уверенными в том, что свободный обмен информацией позволяет перепроверять результаты исследований и инициировать новые.
И еще одна тенденция – открытость государства. В определенный момент на Западе запросы от граждан и бизнеса к государству достигли такого объема и уровня структурированности, при которых потребовалась доступность данных в машиночитаемом виде. Возможность доступа к огромному количеству государственной информации позволяет бизнесу создавать новые продукты и улучшать существующие, а гражданам и общественным организациям — вести эффективный контроль за деятельностью государства.
Эти тенденции развиваются в мире с 70-х годов XX века, активная фаза становления открытых данных длится последние 15 лет. Благодаря появлению Интернета значительная часть данных стала доступна не по инициативе государства, а посредством различных частных и общественных проектов. Примером может служить Википедия, которая является не только гигантской онлайн-энциклопедией, но и ресурсом открытых данных колоссального объема.
- Вы стояли у истоков движения открытых данных и открытого государства в нашей стране. Что удалось сделать?
Государственные органы в России начали открывать данные в силу ряда объективных причин. Усилиями активистов, и я вхожу в их число, открытые данные стали частью государственной политики. Кроме того, с середины 2000-х в госуправлении происходит смена поколений, к власти приходят молодые технократы, склонные вместо освоения бюджетов классическими способами вкладывать средства в ИТ.
Данные по госзакупкам начали публиковать в России в машиночитаемом формате с 2006 года, еще до того, как в стране стали употреблять термин «открытые данные», потому что на эту информацию всегда был большой спрос со стороны бизнеса. Это одно из наиболее масштабных раскрытий информации в России – сотни гигабайтов информации, десятки миллионов записей о контрактах, закупках, планировании закупок. На базе этих данных я сделал проект «ГосЗатраты» (clearspending.ru), который развивает Комитет гражданских инициатив, созданный при поддержке Алексея Кудрина. Это экспертно нейтральный проект, его цель – формирование экосистемы для всех, кто заинтересован в проведении общественного расследования в области государственных расходов.
«ГосЗатраты» – не единственный пример общественных проектов на базе открытых данных. Несколько проектов реализовано силами некоммерческого партнерства «Информационная культура», в том числе хаб открытых данных (hubofdata.ru) – большой реестр массивов данных из различных государственных источников.
В первые годы продвижения темы открытых данных в России политика нашего взаимодействия с государством состояла в том, что мы говорили: если вы не будете открывать данные, мы сделаем это сами, потому что на эту информацию есть коммерческий и общественный спрос. Например, нужен реестр школ и открытие данных о среднем балле ЕГЭ, чтобы делать программы для составления рейтингов школ, помогая гражданам в выборе учебного заведения для своих детей.
Мы самостоятельно собирали подобную информацию – писали специальные программы, которые перерабатывали данные, размещали информацию на хабе открытых данных и проводили регулярные хакатоны для привлечения разработчиков к использованию этих данных. Организация «Информационная культура» была создана вокруг первого конкурса для разработчиков Apps4Russia, призванного пропагандировать создание приложений на базе открытых данных.
Параллельно шел активный общественный лоббизм темы открытых данных, в том числе велась работа над законом, который вводит в законодательство это понятие (принят в 2013 году), и агитация министерств на открытие данных.
- Как государство относится к теме открытых данных – активно способствует открытию или воспринимает как неизбежное зло? Какова ситуация с этим в мире и в России?
Во всех странах, где достаточно сильное гражданское общество, открытые данные являются частью государственной доктрины. Например, в США в ближайшее время будет создан полный реестр государственных данных, а не только открытых, чтобы граждане и организации знали, с какими запросами они могут обращаться. Великобритания реализует концепцию цифрового правительства (digital government), неотъемлемой частью которой являются открытые данные. Существует ряд крупных международных организаций, которые занимаются открытыми данными, в частности Партнерство по открытому правительству (open government partnership).
Россия в значительной степени выключена из международной повестки дня по открытым данным, поскольку теперь не состоит в «большой восьмерке», принявшей хартию по открытым данным, и в последний момент отказалась вступить в Партнерство по открытому правительству, хотя вся подготовительная работа для этого была проведена. Взаимодействие осталось только на уровне регионов; например, правительство Москвы регулярно приглашает зарубежных экспертов по теме открытых данных.
В целом в России реализуется немало региональных инициатив по открытым данным, однако довольно скромные успехи на федеральном уровне. Отчасти причина заключается в том, что централизованное управление этой деятельностью перешло от Минкомсвязи в ведение Минэкономразвития, которое с ней не справляется. Есть несколько министерств, активно раскрывающих информацию, и есть государственные органы, которые этого практически не делают, например Росстат, МВД, Рособрнадзор, Минобрнауки.
Однако главная сложность – отсутствие централизованной политики в области открытых данных. Эта тема не включена в госпрограмму «Информационное общество» и вообще ни в одну из госпрограмм. И если московское правительство потратило пару сотен миллионов из собственного бюджета на портал открытых данных, то на федеральном уровне в открытые данные вложено в десять раз меньше.
- Государственные данные нужно не только открыть, но и знать, как их использовать. Что делается для того, чтобы продвигать возможности продуктивной работы с открытыми данными?
Есть несколько направлений взаимодействия с потребителями открытых данных. Одно из них – коммуникации с различными бизнес-ассоциациями и крупными коммерческими игроками. Например, компания «Яндекс» активно вовлечена в тему открытых данных. Есть ряд компаний, которые предоставляют информационные сервисы и используют в том числе и государственные данные. Конечно, в продвижении открытых данных они лоббируют в основном свои интересы, но иногда это идет на пользу всем.
Другая категория потребителей – рядовые разработчики. Чтобы увлечь их темой открытых данных, мы пропагандируем проведение хакатонов и соревнований и помогаем госорганам встречаться с программистами.
- Какие можно привести примеры получения бизнесом выгоды от работы с открытыми данными?
В России есть множество компаний, бизнес которых либо целиком основан на государственных данных, либо использует их косвенным образом. Однако представители такого бизнеса категорически не хотят это афишировать. Первая причина в том, что тем самым они выдают свою бизнес-модель и рискуют создать себе конкурентов. Вторая – они опасаются, что, если начнут рассказывать, какие данные используют и какую выгоду из этого получают, у чиновников, которые открывают данные, возникнет соблазн эти данные не публиковать или публиковать с ошибками, а чистые данные предоставлять кулуарно за деньги.
В качестве примера успешного бизнеса с использованием открытых данных можно привести операторов систем проверки контрагентов – «Спарк.Интерфакс», «Коммерсант.Картотека» или «Контур.Фокус». Эти компании наряду с закрытыми данными, которые получают по официальным каналам из Федеральной налоговой службы, обращаются к открытым реестрам лицензий, данным по закупкам, по контрактам и т. д.
Есть компании, например «Закупки360», бизнес которых целиком построен на данных по закупкам, в том числе открытым. Эти коммерческие проекты предоставляют на платной основе уведомления о тендерах, информацию о дополнительных услугах с применением этих государственных данных и др.
Бывает и так, что компания не создает напрямую продукт на базе открытых данных, а формирует возможность предоставления услуг на их основе, реализуя сервисы очистки, обогащения данных и т. д. Такие компании используют государственные классификаторы — ФИАС (федеральная информационная адресная система), КЛАДР (классификатор адресов России) и др.
Судя по мировой практике, есть множество других данных, для которых возможна очень быстрая прямая монетизация, например данные криминальной статистики, статистика сдачи единых госэкзаменов, климатические данные. Но наше государство не торопится такие данные открывать.
- Что представляет собой технологическая экосистема открытых данных?
В первую очередь для открытия данных требуется определенное качество внутренних ИТ-систем госорганов. Во многих министерствах ИТ находятся на катастрофическом уровне. Либо данные публикует пресс-служба, которая ничего в этом не понимает, либо делаются попытки привести к машиночитаемой форме данные устаревших форматов. С другой стороны, часто в ходе публикации данных оказывается, что та или иная система есть только на бумаге или реестр создан, но заполнен только на 10%. Все это является отражением качества автоматизации за много лет.
Существует множество инструментов публикации данных, например CKAN, в том числе российской разработки. Если есть желание раскрыть данные, неважно, с помощью какого движка это делать. Федеральное казначейство просто ежедневно публикует все данные о закупках на ftp-сервере. Главное, что у них реализовано описание схем данных и в техзадании на эту систему предусмотрена регулярность обновления. А, например, Росстат создал свой раздел на CKAN, опубликовал какое-то количество массивов данных и этим ограничился, требуя дополнительных средств на автоматизацию.
Существует два подхода к публикации открытых данных. Тот, которого придерживается Минэкономразвития, подразумевает, что все госорганы публикуют данные на своих сайтах, после чего они собираются на едином портале data.gov.ru. Но гораздо эффективнее подход, которому следует правительство Москвы: его департамент ИТ отвечает за публикацию данных, для чего экспортирует данные непосредственно из ИТ-систем различных организаций. Именно так предполагалось работать с открытыми данными федерального уровня в Минкомсвязи. В приоритете должны были быть не госорганы как таковые и их действия по публикации информации на своих сайтах, а государственные ИТ-системы, в которых эта информация уже есть и должна открываться с помощью унифицированных интерфейсов. Но эту идею не удалось реализовать после того, как регулирование государственных открытых данных перешло к Минэкономразвития.
- Есть ли среди открытых данных большие?
Открытые данные по госзакупкам – это сотни гигабайтов, ежедневные обновления, постоянные изменения, в том числе схем данных, и активная работа с этими данными на регулярной основе. Есть данные меньшего объема; например, на сайте bas.gov.ru собрано несколько десятков гигабайтов информации о госучреждениях в XML-файлах или несколько гигабайтов данных о каждом доме в России в системе ФИАС, которые публикует ФНС. Это примеры больших объемов государственных данных, которые регулярно обновляются и для работы с которыми востребованы масштабные, технологически сложные инструменты.
Но в России далеко не все из того, что есть у государства, сейчас публикуется. Поэтому более показательны международные примеры больших открытых данных. В США государственные научные учреждения публикуют огромные объемы открытых данных. Данные Большого адронного коллайдера или данные Википедии также относятся к большим открытым данным.
- Возникают ли в связи с открытием данных проблемы интеллектуальной собственности, защиты персональных данных?
В Евросоюзе есть институт информационных офицеров, на уровне которого принимается решение о том, какие данные можно публиковать, даже если они содержат персональную информацию, а для каких публикацию необходимо ограничивать. В ЕС, например, несколько лет назад раскрывали всю информацию о субсидиях фермерам, вплоть до фамилий и размеров субсидий. После долгих дебатов было принято решение скрыть часть персональных данных, раскрытие которых противоречит директивам ЕС. В результате качество информации резко снизилось.
В России ситуация неоднозначная. Так, раскрытие данных по госзакупкам «вытащило» на свет немало коммерческих тайн. Требование раскрывать все данные по контрактам было связано с реализацией жесткой антикоррупционной политики. Но в странах, где роль государства гораздо меньше, чем в России, такое насилие над бизнесом невозможно. С другой стороны, данные, гораздо менее чувствительные к проблемам интеллектуальной собственности, такие, например, как средний балл ЕГЭ по школам или данные криминальной статистики с детализацией по районам, не раскрываются.
Мы в первой десятке стран по открытости госбюджета, но очень отстаем в раскрытии других категорий государственных данных. России предстоит еще долгий и непростой путь. Но я занимаюсь открытыми данными независимо от того, будет ими заниматься государство или нет. Есть много областей, где можно реконструировать открытые данные из государственных источников даже без участия государства.