Стратегии, платформы, инструменты
и опыт реальных проектов
29 ноября 2018
Россия, Москва
Отель Palmira Business Club
(Москва, Новоданиловская набережная,6)

IV практическая конференция «Технологии управления данными»

Единственное в России мероприятие, объединяющее практиков и ведущих исследователей технологий управления данными, отраслевых гуру и разработчиков баз данных, готовых поделиться своими знаниями и опытом проектирования, развертывания и эксплуатации платформ управления и обработки данных в различных отраслях цифровой экономики.
Здесь вы сможете:
Получить информацию по всем аспектам управления данными
Узнать, как построить инфраструктуру поддержки
Data Lake с постоянно свежими данными
Познакомиться с опытом компаний, эффективно управляющих всеми своими данными
Узнать про инструменты создания целевого масштабируемого
ИТ-ландшафта управления данными
ДМИТРИЙ ВОЛКОВ
программный директор серии практических конференций издательства
«Открытые системы».
Цифровая трансформация невозможна без демократизации данных, принадлежащих всему бизнесу, а не
ИТ или аналитикам – управление данными призвано объединить тех, кто готовит данные, с теми, кто
их анализирует и применяет. Однако опыта такой демократизации и знаний инструментов ее обеспечения пока недостаточно, что и призвана восполнить четвертая конференция по технологиям управления данными.
Основные темы
Стратегия
  • перспективы развития систем управления данными;
  • HTAP, NewSQL,In-memory;
  • Data grids и СУБД для Edge computing;
  • автономные базы данных;
  • платформы демократизации данных.
Интеграция
  • мультимодельные СУБД: графовые, документооориентированные, реляционные, распределенные;
  • инструменты работы с данными неограниченных объемов.
DataOps
  • Agile: динамика при работе с данными;
  • преобразование средств доступа к корпоративным данным;
  • технологический стек для DataOps.
Практика
  • проекты управления корпоративными данными: находки и ошибки;
  • горизонтальное масштабирование решений управления данными.
Спикеры
Вернуться
к докладчикам
Сергей Кузнецов, ИСП РАН, МГУ, НИУ ВШЭ, МФТИ
Доктор технических наук, главный научный сотрудник ИСП РАН, профессор МГУ, МФТИ и НИУ ВШЭ, эксперт РАН и РФФИ. Член ACM и ACM SIGMOD, IEEE Computer Society., зам. председателя Московской секции ACM SIGMOD, член программных комитетов международных конференций DEXA, SOFSEM, ADBIS, ISD, BulticDB, SYRCoDIS и ряда других. Член редколлегии журналов «Открытые системы.СУБД», «Вычислительные методы и программирование» и «Электронные библиотеки», зам. главного редактора электронного издания «Труды Института системного программирования РАН».
Что тормозит развитие технологий баз данных?

Наблюдая в течение многих лет за развитием технологии баз данных, я убедился в наличии нескольких факторов, мешающих этому развитию. Во-первых, это инерция, заставляющая людей пользоваться устаревшими средствами при наличии более уместных вариантов. Во-вторых, это конъюнктура, приводящая к массовому увлечению вещами, объективно того не заслуживающими. И, наконец, это маркетинг, вынуждающий людей пользоваться тем, что объективно им не требуется. К сожалению, все эти факторы вредят не только людям, использующим технологии баз данных, но и исследователям, их развивающим. В докладе на ряде примеров иллюстрируются все эти факторы.
Вернуться
к докладчикам
Сергей Исаев, DataFabric
Получил три высших образования: инженер связи, специалист в области маркетинга, психолог. Около двадцати лет работает в области управления проектами, в том числе создания интеллектуальных информационных систем на основе инженерии знаний. Работал в компании Центр Речевых Технологий, где занимался развитием виртуальных ассистентов для контактных центров. Сейчас – генеральный директор компании DataFabric.
Управление данными на основе графов знаний

Относительная простота построения корпоративного хранилища привела к тому, что компании стали накапливать огромные массивы данных, неизбежно при этом сталкиваясь с проблемой их качества, согласованности и контроля. Компании сегодня буквально зарастают наборами данных, собранными в разное время разными подразделениями в разных форматах – как следствие, выросли расходы на инфраструктуру. Без формирования описания предметной области через онтологии, без понимания «смысла» данных любое озеро данных – это не более, чем свалка нулей и единиц. Для качественного изменения способов работы с хранилищами необходимо перейти от данных к знаниям, представив знания в базе знаний либо в графе. Доклад посвящен изложению принципов и подходов работы с графами знаний, формализующими сведения о реальном мире и содержащими все используемые компаниями источники информации вместе с их взаимосвязями. Особое внимание уделено обсуждению на примерах реальных проектов (в частности, граф знаний о всех юридических и физических лицах, участвующих в определенной деятельности в рамках российского правового поля) преимуществ и возможностей графов знаний, а также интерфейсов, позволяющих каждому конкретному сотруднику получать необходимую ему в каждый конкретный момент времени информацию вместе со всеми ее взаимосвязями.
Вернуться
к докладчикам
Илья Труб, Исследовательский центр Samsung
В 1991 году закончил Донецкий государственный технический университет, факультет вычислительной техники и информатики, преподавал в этом университете, а затем в Донецком институте проблем искусственного интеллекта и Сургутском государственном университете, доцент, к.т.н. Работал ведущим инженером-программистом в лаборатории геоинформационных систем "СургутГазПром", руководил отделом разработки корпоративной системы электронного документооборота в компании "Летограф". Сейчас работает ведущим инженером-программистов в исследовательском центре компании Samsung в Москве. Специализируется на проектировании баз данных, data mining, имитационном моделировании, теории массового обслуживания и численных методах.
Как ускорить поиск в больших таблицах: иерархические битовые индексы

Иерархические битовые индексы строятся на основе обычных битовых индексов – стандартном инструменте промышленных СУБД – позволяя ускорить обработку интервальных запросов для больших таблиц. Однако, для достижения кратного повышения производительности выполнения поиска требуется оптимизация. Применение битовых индексов в модифицированном виде, а не в виде, предоставляемом СУБД, существенно повышает эффективность поиска, причем затраты на такую модификацию с лихвой окупаются кратным повышением производительности обработки запросов. В докладе рассмотрены простые, но эффективные методы оптимизации иерархии индексов и приведены результаты практического использования полученного решения при эксплуатации информационных систем на базе промышленных СУБД.
Вернуться
к докладчикам
Дмитрий Пудов, Angara Technologies Group
В 2001 году закончил Московский государственный институт электроники и математики по специальности "Вычислительные машины, комплексы, системы и сети". Более десяти лет работает в сфере информационной безопасности и системной интеграции. Возглавлял подразделение информационной безопасности в Военно-страховой компании. Сейчас – заместитель генерального директора, технический директор компании Angara Technologies Group и Angara Professional Assistance, сервис-провайдера услуг в сфере кибербезопасности.
Data-Centric Security: как защитить данные?

Данные – основной актив цифровой экономики, а обеспечение их безопасности становится сегодня такой же стратегической задачей, как и повышение производительности труда или объема предоставляемых услуг. Тем не менее, декларируемые цели по обеспечению безопасности часто не совпадают с целями бизнеса, которому нужна именно защита его данных, а деятельность в сфере безопасности как правило сводится к выполнению комплекса мер по защите ИТ-инфраструктуры. Подход Data-Centric Security (DSC) предполагает защиту корпоративных данных на всех этапах их жизненного цикла и с учетом всех их состояний: хранение, передача и обработка. Доклад посвящен обзору современных технологий, позволяющих реализовать подход DSC, анализу возникающих проблем и путей их преодоления.
Вернуться
к докладчикам
Василий Флока, TmaxSoft Россия
Закончил Свердловское суворовское училище и Харьковскую военно-инженерную радиотехническую Академию по программе обучения военных инженеров-исследователей для ВПК СССР. Участвовал в разработке и тестировании ПО военно-космического назначения. Работал программистом, начальником отдела разработки и руководителем отдела администрирования в одном из дочерних обществ ПАО «Газпром». Был преподавателем курсов для разработчиков и администраторов СУБД, в том числе в рамках Oracle University. Сейчас – главный инженер компании TmaxSoft Rus.
СУБД Tibero: новые возможности секционирования, репликации и резервирования

Tibero – единственная СУБД, по основным параметрам совместимая с СУБД Oracle: максимальное сходство структур словаря, оптимизатора запросов, синтаксиса PL/SQL, DCL, DML и DDL дает возможность безболезненно выполнять миграцию между Tibero и Oracle, а специалистам по технологиям последней СУБД упростить процессы разработки, администрирования, оптимизации для среды Tibero. Первая версия СУБД Tibero была выпущена еще в 2003 году, что позволило Южной Корее решить задачу импортозамещения, обеспечив независимость своих корпоративных информационных систем от зарубежных поставщиков. Очевидно, что такая СУБД не может развиваться лишь в рамках одной страны, а для успешной конкуренции на международном рынке коммерческих систем управления базами данных ей требуется обеспечивать бесперебойную работу высоконагруженных конфигураций, надежно хранить, эффективно обрабатывать сотни терабайт данных и поддерживать выполнение еще множества других функций, без которых немыслима современная СУБД. Доклад посвящен обзору возможностей, которая компания TmaxSoft включила в СУБД Tibero за прошедший год. Особое внимание уделено новым и усовершенствованным технологиям секционирования, репликации и резервирования.
Вернуться
к докладчикам
Кирилл Юхин, Mail.ru
Закончил МИФИ в 2006 году, разрабатывал компиляторы и бинарные трансляторы в компании Intel. Сейчас – руководитель команды разработчиков СУБД Tarantool в компании Mail.ru.
СУБД Tarantool 2.х: SQL и другие

От современных корпоративных платформ управления данными требуется работа в памяти, масштабирование, мультиплатформность, поддержка высокопроизводительных приложений, распределенных хранилищ и Edge computing. Естественно, что и СУБД, как один из инструментов создания таких платформ, обязаны обеспечивать выполнение подобных требований. Не стала исключением и отечественная СУБД Tarantool, в очередной версии которой появилась, например, поддержка ANSI SQL, средства выполнения нетривиальных запросов над большими объемами распределенных данных, работа как с In-memory движком memtx, так и с дисковым vinyl. В докладе разбирается архитектура новых решений, которые сегодня можно реализовать с помощью СУБД Tarantool, рассмотрен симбиоз возможностей интерфейсного языка Lua и SQL, проанализирован ход выполнения сложных составных запросов. Особое внимание уделено особенностям выполнения сложных аналитических запросов в условиях корпоративных хранилищ, а также отличиям от реализаций в других СУБД.
Вернуться
к докладчикам
Виктор Чернов, NitrosData
Закончил МФТИ, затем аспирантуру МИФИ, к.т.н. Более двадцати лет в ИТ-индустрии, занимаясь различными аспектами работы с данными и знаниями, в том числе, технологиями исследования больших данных, хранения знаний, а также методами самообучения систем. Работал в компании «Российская телевизионная и радиовещательная сеть», Oracle и в ряде стартапов Кремниевой Долины. Сейчас – генеральный директор компании NitrosData.
Мультимодельные СУБД – основа современных корпоративных систем

Бурное развитие рынка NoSQL СУБД позволило компаниям перейти к глубокой обработке данных, собираемых из разных источников, как следствие, cовременные корпоративные информационные системы работают сразу с несколькими узкоспециализированными СУБД, применяемыми в разнообразных подсистемах и сервисах. Однако использование таких инфраструктур сопряжено с рядом проблем: сложность согласования данных между различными СУБД, проблемы безопасности, запутанные структуры данных, проблемы преобразования данных, масштабируемость и надежность, необходимость обеспечения приемлемого времени отклика системы и быстродействия отдельных запросов, и т.д. Мультимодельные СУБД призваны устранить все эти проблемы – сегодня все ведущие игроки рынка СУБД (Microsoft, Oracle, IBM, MongoDB и др.) предлагают соответствующие решения. Доклад посвящен анализу особенностей перехода корпораций к использованию мультимодельных СУБД и разбору имеющегося опыта. Особое внимание уделено особенностям объединения в единой системе разных моделей для получения синергетического эффекта работы с корпоративными данными.
Вернуться
к докладчикам
Михаил Сеткин, Райффайзенбанк
В 2006 году окончил МИФИ, факультет «Автоматика и электроника» и начал работать в индустрии разработки программного обеспечения для финансовых организаций. До 2008 года работал в компании-крупном производителе автоматизированных банковских систем в качестве системного аналитика, затем перешел в Райффайзенбанк на ту же позицию, а потом стал руководителем проектов, связанных с обработкой больших данных: внедрение корпоративного хранилища данных и хранилища операционных данных (ODS), системы управленческой отчетности (MIS), системы управления взаимоотношениями с клиентами, системы управления качеством данных (DQMS) и др. С 2016 года отвечает в Райффайзенбанке за развитие технологического стека Big Data.
Ролевая модель доступа в корпоративном «Озере» данных

Сегодня Hadoop – один из наиболее используемых инструментов для хранения и обработки больших объемов данных, что и неудивительно, ведь для развертывания работоспособной сборки Hadoop потребуется менее часа. Однако, как показывает практика, в большинстве случаев такие инсталляции не идут дальше установки и настройки базовых параметров, отвечающих за производительность. Серьезных применений Hadoop, используемого в качестве основы для построения корпоративного «Озера» данных емкостью в несколько десятков терабайт с более чем 50 пользователями, обеспечивающего соблюдение всех обязательств по защите персональных данных и защиту конфиденциальной информации не так уж и много. Здесь на помощь приходят такие инструменты как Kerberos и Apache Ranger, на базе которых можно построить ролевую модель доступа к данным, включающую аутентификацию, авторизацию и аудит действий пользователей «Озера» данных на базе Hadoop. Доклад посвящен изложению опыта создания и эксплуатации корпоративного «Озера» данных, разбору нюансов предлагаемого решения, а также анализу возможных альтернатив.
Вернуться
к докладчикам
Борис Новиков, СпбПГУ
На протяжении многих лет сочетает исследовательскую и преподавательскую деятельность с работой в промышленности, участвуя в проектировании, разработке, сопровождении и настройке баз данных: профессор кафедры информационно-аналитических систем Санкт-Петербургского государственного университета, руководитель лаборатории машинного обучения и организации информации в компании JetBrains Research. Занимается методами хранения и обработки данных, оптимизации запросов и поддержки согласованности, темпоральными моделями данных, распределенными системами хранения и средствами обработки потоковых данных.
PostgreSQL адаптивная СУБД

Адаптивная система способна менять свое поведение в зависимости от изменений условий функционирования или нагрузки, что, применительно к СУБД, означает, в частности, оптимизацию запросов, автоматический выбор индексов и материализованных представлений. В общем случае оптимизаторы запросов далеко не всегда генерируют оптимальные планы, что часто вызвано ошибками в оценках статистических свойств данных – кардинальности. Методы адаптивной оптимизации и выполнения запросов предусматривают пересмотр плана по ходу его выполнения – когда становятся известны фактические статистические характеристики промежуточных результатов. Доклад посвящен разбору свойств адаптивности СУБД PostgreSQL: адаптивных моделей стоимости, позволяющих с помощью машинного обучения повысить качество оценок кардинальности; средств автоматического выбора индексов и материализованных представлений для групповой оптимизации смеси запросов, фактически выполняемых на сервере и др. Кроме этого, излагаются способы достижения адаптивности путем изменения параметров настройки сервера в зависимости от характера нагрузки на СУБД, что особенно актуально при работе в облаке.
Вернуться
к докладчикам
Олег Бартунов, Postgres Professional
Один из трех российских разработчиков открытой СУБД PostgreSQL в международном статусе major contributor, член PostgreSQL Foundation. Профессиональный астроном, создатель известного сайта astronet.ru. Соавтор полнотекстового поиска, средств поддержки квазиструктурированных данных, индексных методов доступа, в том числе, к пространственным данным, а также различных расширений для СУБД PostgreSQL.
PostgreSQL – адаптивная СУБД

Адаптивная система способна менять свое поведение в зависимости от изменений условий функционирования или нагрузки, что, применительно к СУБД, означает, в частности, оптимизацию запросов, автоматический выбор индексов и материализованных представлений. В общем случае оптимизаторы запросов далеко не всегда генерируют оптимальные планы, что часто вызвано ошибками в оценках статистических свойств данных – кардинальности. Методы адаптивной оптимизации и выполнения запросов предусматривают пересмотр плана по ходу его выполнения – когда становятся известны фактические статистические характеристики промежуточных результатов. Доклад посвящен разбору свойств адаптивности СУБД PostgreSQL: адаптивных моделей стоимости, позволяющих с помощью машинного обучения повысить качество оценок кардинальности; средств автоматического выбора индексов и материализованных представлений для групповой оптимизации смеси запросов, фактически выполняемых на сервере и др. Кроме этого, излагаются способы достижения адаптивности путем изменения параметров настройки сервера в зависимости от характера нагрузки на СУБД, что особенно актуально при работе в облаке.
Вернуться
к докладчикам
Сергей Горшков, «ТриниДата»
ИТ-архитектор и разработчик с 20-летним опытом создания сложных автоматизированных систем. Фокус интересов – применение онтологических моделей для решения бизнес-задач, автоматизированная обработка знаний, поддержка принятия решений. Автор книги «Введение в онтологическое моделирование». Сейчас – директор компании «ТриниДата».
Онтологии: управление доступом к разрозненным данным

Любая крупная организация имеет в своем распоряжении огромные объемы данных, рассеянных по множеству автоматизированных систем, хранилищ или наборов плоских файлов – возможность извлекать выгоду из всего этого массива непосредственно зависит от доступности данных для поиска и анализа. Логическая витрина данных – один из способов организации разрозненных данных, включая слабо структурированные, в единое связное информационное пространство, позволяющее компаниям извлекать знания. Использование онтологий при построении витрины дает возможность строить поисковые запросы в привычных сотрудникам компании терминах и получать точные, верифицируемые результаты, как при обычном запросе к СУБД. Кроме этого, онтологии открывают путь к созданию средств автоматизированной обработки знаний. В докладе рассмотрены интерфейсы для работы с логическими витринами, а также типовые архитектуры приложений для работы с ними. Особое внимание уделено анализу опыта выполнения реальных проектов для заказчиков федерального уровня, работающих в различных отраслях экономики России.
Вернуться
к докладчикам
Валерий Артемьев, Банк России
Окончил МВТУ имени Н.Э. Баумана, проходил стажировку в Великобритании по банковским системам (De Montfort University, Leicester), изучал методы и средства создания аналитических систем и хранилищ данных в лаборатории IBM Silicon Valley Lab. С 1993 года работает в Центральном Банке РФ, где планировал и руководил проектами по веб-приложениям, XML-форматам сбора отчетности, хранилищам данных и бизнес–аналитике. Руководил инновационными проектами и разрабатывал архитектуру решений централи­зованных прикладных систем. Участвовал в создании систем блока банковского надзора на основе технологий хранилищ данных и бизнес–аналитики, а также управления метаданными: ЕИСПД для монито­рин­га и анализа деятельности кредитных организаций; АКС для анализа платежной информации. Имеет 40-летний преподавательский стаж. Сейчас работает в Управлении методологического и организационного обеспечения, Департамент статистики и управления данными Банка России.
Управление данными: проблемы, тенденции, рекомендации

Управление данными (Data Management) – обширная область деятельности, не сводимая лишь к технологиям управления базами вместе с дополняющими их технологиями интеграции и анализа. Доклад посвящен обзору секторов управления данными согласно международным рекомендациям Data Management Body of Knowledge (DAMA International), а также анализу подходов и технологий, обеспечивающих реализацию функций этих секторов. Какие насущные проблемы стоят перед разработчиками, какие возможны альтернативы их решения? Какие техно­логические тенденции наблюдаются в сфере управления данными, как аналитики оценивают зрелость и перспективы развития конкретных технологий управления данными? Также в докладе уделено внимание практическим соображениям о ключевых задачах и инициативах при становлении корпоративного управления данными.
Вернуться
к докладчикам
Марк Ривкин, Oracle
Более 30 лет работает в индустрии ИТ, начав профессиональную карьеру Институте проблем Управления АН СССР, затем в компаниях LVS и IBM. Сейчас в должности директора по технологическому консалтингу возглавляет отдел баз данных и облачных вычислений в компании Oracle CIS. Эксперт по базам данных, публикует много статей по проблемам СУБД, преподает студентам высших учебных заведений курс по СУБД, выступает на конференциях по корпоративным базам данных.
Как одному администратору сопровождать множество баз данных

Успех бизнеса любой компании цифровой экономики определяется скоростью и качеством обработки данных, однако объемы данных растут экспоненциально, увеличивается число приложений для решения бизнес задач и количество соответствующих баз данных – сегодня в активе многих отечественных компаний сотни баз, без которых невозможно функционирование бизнеса. Кроме этого, для надежной работы ИТ-инфраструктуры даже небольшой компании необходима не только основная база приложения, но и базы для разработки, тестирования, обеспечения катастрофоустойчивости, поддержки витрин и т.п. Для их эффективного сопровождения их всех требуется большая команда опытных и дорогих администраторов, ошибки или запоздалая реакция которых на нештатные ситуации приводят к простоям, деградации производительности, потерям данных и убыткам бизнеса. Как решить задачу оптимального управления множеством баз в условиях дефицита администраторов? Доклад посвящен автономным базам данных, способным самостоятельно выполнять основную часть работы администраторов. Особое внимание уделено новым механизмам, предложенным за прошедший год компанией Oracle, позволяющим сделать ее СУБД и сервисы Autonomous DW, Autonomous Tansaction Processing действительно автономными, облегчающими работу администраторов. Также рассматриваются «умные» систем мониторинга, управления, диагностики и настройки, обеспечивающие работу с множеством баз, как с единым целым.
Вернуться
к докладчикам
Михаил Кузнецов, GridGain
Почти 20 лет в индустрии ИТ, из них восемь на управляющих позициях. Имеет практические навыки работы как со стороны заказчика, так и исполнителя: создание, внедрение и поддержка программного обеспечения, аутсорсинг и управление сервисами. Опыт работы: БИНБАНК, Национальный банк TRUST, РОЛЬФ, OMNINET, MAYKOR, Performance Lab. Сертифицированный специалист по ITIL. Сейчас – директор по продажам компании GridGain в России/СНГ.
Технологии In-Memory для анализа данных в реальном времени

В цифровую эпоху большие данные требуется обрабатывать в режиме близком к реальному времени – пользователи уже привыкли к онлайн-банкам и онлайн-сервисам массового обслуживания. При этом в такой обработке задействуются и корпоративные информационные системы, производительность которых уже может не удовлетворять возросшим требованиям: онлайн-антифрод, анализ поведения пользователей, обработка событий в реальном времени, принятие решений на основе огромных массивов исторических данных и т.д. Доклад посвящен технологии хранения и обработки данных в оперативной памяти, позволяющей обеспечить поддержку анализа данных в реальном времени, а также разбору изменений, которая она несет ИТ-ландшафту современных предприятий. Особое внимание уделено потоковой аналитике, обеспечению быстрых транзакций и обсуждению "цены вопроса" решений класса In-Memory.
Вернуться
к докладчикам
Иван Панченко, Postgres Professional
Закончил физический факультет МГУ в 1994 году, к. физ-мат. наук. С 1996 года занимается разработкой сложных высокопроизводительных систем для бизнеса, а с 1998 года работает с СУБД PostgreSQL: руководил контентными проектами в компании «Рамблер», был директором по разработкам в «Стек Груп» и техническим директором социальной сети «Мой Мир», разработчиком Rambler Media и kassir.ru, портала НИУ ВШЭ, а также ряда других информационных площадок и систем для бизнеса. Сейчас – зам. генерального директора компании Postgres Professional.
СУБД PostgreSQL 11 – базовая технология цифровой экономики

Доклад посвящен обзору новых возможностей версии PostgreSQL 11, отвечающих современным тенденциям мира СУБД: автономность, облака, децентрализация. Разбираются такие направления развития, как: параллельная обработка данных, JIT-компиляция, секционирование данных, средства оптимизации и пр. Особое внимание в докладе уделено обсуждению перспективных направлений развития этой СУБД, определяемых, в том числе, обширным сообществом разработчиков и пользователей Postgres.
Вернуться
к докладчикам
Олег Финошин, Vizex
Создатель и первый руководитель служб оперативной информационной графики холдинга ВГТРК и телеканала «Рен-ТВ», разработчик информационного центра «Выборы» Центральной избирательной комиссии РФ, Ситуационного центра МО РФ, Центра мониторинга ЕМИАС и ряда других федеральных проектов. Курирует разработку новых программных инструментов для интерактивной визуализации аналитических, статистических и картографических данных, разрабатывает методы анализа информации и аналитические инфографические инструменты для корпораций и предприятий разных масштабов и форм собственности, нуждающихся в эффективной аналитики больших данных и средствах визуализации, работающих в реальном времени.
Большие проблемы аналитики больших данных в больших компаниях

Визуальный анализ — выявление скрытых проблем и их решений в больших массивах разнообразных сведений в области медицины, производства, транспорта и пр. – призван помочь предприятиям обнаружить знания в накопленных корпоративных данных путем их представления в форму, обеспечивающую обнаружение скрытых закономерностей и аномалий. Для этого сейчас применяются технологии интерактивной визуализации оперативной и стратегической информации, позволяющие сотрудникам компании через визуальные образы выявлять скрытые проблемы и находить пути их решения. Доклад посвящен разбору текущего состояния дел с анализом больших данных на предприятиях, обсуждению барьеров, возникающих на пути крупных компаний, реализующих проекты анализа и визуализации корпоративных данных. Особое внимание уделено конкретным примерам преодоления таких барьеров и демонстрации методов интегрированного представления множества информационных, управленческих и финансово-экономических аспектов бизнес-процессов с целью обнаружения скрытых взаимосвязей.
Вернуться
к докладчикам
Николай Ихалайнен, Percona
Закончил МГУ им.М.В.Ломоносова. Работал системным администратором в eHouse – одном из первых в России интернет-магазинов, где развертывал и поддерживал стек LAMP (Linux, Apache, MariaDB/MySQL, PHP). Затем строил архитектуру сервиса kinopoisk.ru и был разработчиком в компании NetUP – поставщике программного и аппаратного обеспечения для систем биллинга и цифрового телевидения. Почти 15 лет работает на ниве оптимизации корпоративных информационных систем на платформе СУБД MySQL. Сертифицированный администратор MySQL и MongoDB. Сейчас на позиции старшего инженера технической поддержки занимается задачами клиентов компании Percona – независимого международного поставщика решений на платформах MySQL, MongoDB и PostgreSQL.
Управление производительностью кластеров баз данных

Современные корпоративные базы данных на основе любых СУБД – это обычно множество узлов, связанных репликацией и\или и объединенных в кластеры. Решение задач выявления узких мест в такой конфигурации, планирование роста нагрузки, а также принятие решений по устранению эксплуатационных проблем облегчается в случае применения открытой системы Percona Monitoring and Management. Доклад посвящен анализу типичных проблем, возникающих в процессе обеспечения работоспособности корпоративных приложений, разбору сценариев поведения команды системных администраторов при устранении сбоев в кластерах. Особое внимание уделено мерам обеспечения бесперебойной работы инфраструктуры поддержки корпоративных баз данных и наглядной демонстрации возможных решений.
Вернуться
к докладчикам
Алексей Миловидов, «Яндекс»
Закончил МГУ им. Ломоносова. В компании Яндекс с 2008 года занимался сервисом "Яндекс.Метрика". Сейчас руководит группой разработки СУБД ClickHouse.
Разработчики «неизвестны»

На рынке систем управления базами данных сегодня верховодят всего несколько систем, в силу разных причин завоевавших благосклонность разработчиков и пользователей, однако мир СУБД намного богаче – многие плодотворные идеи и эффективные решения впервые появились в ряде малоизвестных сегодня систем. Митап посвящен обзору таких СУБД, некоторые из которых прекратили развиваться, заброшены или вошли в состав более успешных продуктов. Особое внимание уделено анализу интересных архитектурных решений и примеров утилизации наследия таких «крафтовых» СУБД, опыт разработки и эксплуатации которых может быть поучителен для современных участников движения СУБДстроения, в частности: EventQL, ряд конструктивных решений вошло в ClickHouse; LucidDB, кодовая база системы использовалась в Apache Calcite и в адаптированном виде применяется в Hive, Drill, Samza, Storm и др.; InfiniDB вдохновила создателей MariaDB; документоориентированная RethinkDB оказалась весьма эффективной для платформы SSD и поддержки приложений реального времени; идеи XML СУБД Sedna и ViyaDB применяются в ряде современных коммерческих систем.
Вернуться
к докладчикам
Леонид Юрьев, Positive Technologies
Почти 30 лет в ИТ-индустрии, специализируется на исследованиях и разработке нестандартных высокопроизводительных систем, исключающих применение типовых решений «из коробки». Работал ведущим разработчиком в «КБ Кроникс», системным архитектором и ведущим разработчиком в Infowatch/Центр Инноваций Натальи Касперской, где вместе с командой работал над модернизацией продукта Infowatch Traffic Monitor, позволившей на два порядка увеличить производительность. Затем был системным архитектором в компании Nexign (ранее «Петер-Сервис»). Сейчас – ведущий специалист отдела исследований и разработок в компании Positive Technologies.
Простые решения сложных задач

Как известно, для достижения предельной производительности достаточно избавить машину от лишней работы. Как правило, можно справиться со сложной задачей путем максимально эффективного использования сильных сторон простых/минималистических решений, например, в двух достаточно распространенных сценариях применения OLAP и OLTP: мало обновлений, но много «тяжелых», конкурирующих за ресурсы чтений записей; обновлений так много, что обработать их нельзя даже при наличии SSD/NVMe, не говоря об использовании систем хранения на шпиндельных дисках. Доклад посвящен разбору одного из таких решений технологической ниши специализированных высокопроизводительных хранилищ, способных конкурировать по производительности с популярными In-Memory решениями, а также его сравнению с другими подходами, используемыми, в том числе в СУБД Tarantool и RocksDB. Рассматриваются противопоказания, пограничные случаи и возможные компромиссы, востребованные при решении задачи обеспечения долговечности данных.
Вернуться
к докладчикам
Ольга Налгранян, MARS IS
Закончила факультет "Прикладная информатика в экономике" Новосибирского университета экономики и управления, а также прошла языковую стажировку в Канаде. Более пятнадцати лет в ИТ-индустрии, начав карьеру в качестве специалиста по внедрению банковских программных продуктов. Сейчас – специалист отдела автоматизации и анализа данных (COE BI Solution Developer – Business Intelligence Сenter of Excellence) в компании Mars (бренды в России: WHISKAS®, CHAPPI®, KITEKAT®, SNICKERS®, M&M'S®, MILKY WAY®, BOUNTY®, A.KORKUNOV®; Wrigley – ORBIT®, UNCLE BEN'S® и др.), где отвечает за анализ и функциональные спецификации проектов бизнес-аналитики, разработку и автоматизацию решений мониторинга и предупреждения нештатных ситуаций.
Управление потоками корпоративных данных на «Марсе»

В больших распределенных компаниях обычно эксплуатируются десятки систем мониторинга, работающих с потоками корпоративных данных, в цифровую эпоху составляющих основной актив бизнеса. Как компании ориентироваться в потоках разнородных данных, умудряясь получать выгоду от анализа обобщенных данных? Доклад посвящен изложению опыта построения в компании Mars системы «умного» мониторинга, хранения и анализа данных. Особое внимание уделено истории развертывания системы, анализу ошибок и обобщению полученного опыта, добытого в «боевых» условиях работы в реальном времени с неструктурированными данными и моделями.
Вернуться
к докладчикам
Егор Литвинов, Hitachi Vantara
Закончил МИФИ и начал карьеру в сфере ИТ как разработчик перспективных микропроцессоров, затем работал программистом, архитектором ИТ-инфраструктур и руководителем проектов в таких компаниях и организациях как НИЦЭВТ, Moscow Center of SPARC Technologies и IBM. Сейчас – консультант-эксперт компании Hitachi Vantara в регионе EMEA.
Экосистема работы с корпоративными данными

Хранение на уровне объектов – не новшество, однако острая необходимость обеспечения быстрого поиска в массивах неструктурированных данных, управления корпоративными данными на всех этапах их жизненного цикла, а также рост популярности таких технологий доступа к объектным хранилищам, как Ceph, AWS S3 RESTful, OpenStack Swift и пр., вызвали сегодня прилив интереса к системам хранения на уровне объектов. За более, чем десятилетие компания Hitachi Vantara выстроила экосистему объектного хранения, включающую хранилище, средства мобильного доступа к данным и поддержки контекстного поиска, систему мониторинга и пр., способствующую решению задач управления корпоративными данными. Доклад посвящен обзору возможностей систем объектного хранения, проблемам их развертывания и перспективам развития. Особое внимание уделено анализу задач, решаемых в рамках экосистемы, созданной на базе продуктов Hitachi Vantara.
Вернуться
к докладчикам
Константин Селезнев, РЕЛЭКС
Закончил Воронежский Государственный университет по специальности "Прикладная математика", к.т.н. Более 20 лет в ИТ-индустрии. Занимается созданием специализированных программных систем и разработкой методов обработки данных. Проводит исследования в области индексации и поиска в больших массивах данных, обработки текстовой и мультимедийной информации. Сейчас – ведущий специалист Научно-производственного предприятия РЕЛЭКС.
Работа с пространственными данными неограниченного объема

Многие современные задачи, такие как ГИС, решения класса Vehicle to everything (V2X) – обеспечение взаимодействия между всеми участниками дорожного движения (автомобили, инфраструктура и пр.), мониторинг транспортных потоков и т.д. подразумевают работу с пространственными данными большого объема. Доклад посвящен обсуждению методов индексации и поиска, на которых основана специализированная СУБД для работы с пространственными данными. Новые методы превосходят такие традиционные способы как M-tree, R-tree и позволяют поддерживать режим высокой нагрузки и доступности. Особое внимание уделено обсуждению на конкретных задачах (например, режим V2X) особенностей выполнения таких требований как: масштабируемость, балансировка нагрузки, хранение со сжатием и т.д., а также обеспечение режимов "Spatial DBMS", "Time spatial DBMS" и поддержки пространственной аналитики.
Вернуться
к докладчикам
Дмитрий Павлов, Arenadata
Более десяти лет в ИТ-индустрии, специализируется на массивно-параллельных СУБД, распределенных платформ хранения и обработки данных. Руководил отделом администрирования корпоративного хранилища данных в «Тинькофф Банке». Сейчас развивает проект Arenadata DB – коммерческий дистрибутив на базе СУБД Greenplum.
Greenplum – ядро корпоративной платформы данных

«Игра изменилась» – именно так лучше всего можно охарактеризовать ситуацию, сложившуюся сегодня в области корпоративных хранилищ. В противовес моновендорным решениям от ИТ-гигантов индустрии, современные решения управления данными все чаще строятся из нескольких отдельных компонентов, каждый из которых эффективно решает конкретную задачу. Однако, для максимально гибкого и эффективного использования наборов таких разнообразных компонентов необходима надежная, масштабируемая СУБД корпоративного уровня, выполняющая роль единой точки доступа всех пользователей к корпоративной информационной платформе. Доклад посвящен массивно-параллельной СУБД Greenplum – основе современных информационных платформ, поддерживающей выполнение всех функций, требуемых от корпоративной системы управления данными и обеспечивающей работу с сотнями серверов, составляющих сегодня основу аналитического ядра современных корпоративных хранилищ.
Вернуться
к докладчикам
Сергей Золотарев, Arenadata
Закончил МГТУ им Баумана по специальности «Кибернетические системы». Работал в таких ИТ-компаниях как EMC, Jet, Avaya, Microsoft и Compaq. С 2013 по 2016 годы возглавлял представительство компании Pivotal в России, СНГ и Восточной Европе, где были реализованы крупнейшие проекты в области больших данных. В 2015 году инициировал проект Arenadata разработки универсальной платформы данных на базе Open Source, результатом которого стал, в частности, сертифицированный Linux Foundation продукт Arenadata Hadoop. Сейчас – управляющий партнер проекта Arenadata компании IBS.
От базы данных к платформе

Сложность информационного ландшафта современных корпораций и многообразие бизнес-сценариев, которые им требуется реализовать сегодня и быть готовыми к завтрашним – означает, что выполнить все многообразие, порой взаимоисключающих требований, в рамках одной СУБД или конкретной технологии практически невозможно. Время монолитных систем прошло и сегодня все больше крупных компаний делает свой выбор в пользу интегрированных платформ данных, содержащих различные инструменты работы с данными: загрузка, трансформация, очистка, хранение, обеспечение безопасности, разграничение доступа и т.п., использующих, в частности, технологии и решения на базе продуктов Open Source. Доклад посвящен обзору многофункциональной платформы Arenadata Enterprise Data Platform, позволяющей решать большинство задач, возникающих при работе с корпоративными данными на всем протяжении их жизненного цикла.
Вернуться
к докладчикам
Дмитрий Никитенко, «МегаФон»
Окончил Пензенский Государственный Университет. Область интересов: операционный анализ данных, data mining, машинное обучение, построение и эксплуатация платформ управления корпоративными данными. С 2011 года работает в компании «МегаФон» – руководитель направления по системам анализа и обработки данных.
Платформа мониторинга клиентского опыта и доступности сервисов

В любой телекоммуникационной компании генерируются огромные потоки данных – различные ИТ-системы в реальном времени формируют массивы разнообразных сведений, которые до недавнего времени использовались лишь ИТ-специалистами, например для устранения технических проблем либо хранились мертвым грузом. Вместе с тем, новые подходы к анализу и обработке данных позволяют извлекать из накопленных сведений пользу и для бизнеса. Доклад посвящен анализу опыта построения платформы мониторинга доступности услуг, оценки качества обслуживания клиентов и уровня инфраструктурных сервисов, предоставляемых компанией «МегаФон».
Вернуться
к докладчикам
Ilias Katsardis, Google
Алексей Климентов, ЦЕРН

Закончил Университет Бристоля по направлению «Advanced Computing Internet Technologies with Security», специалист по информационной безопасности, высокопроизводительным вычислениям, облачным- и Web-технологиям. Около 15 лет в ИТ-индустрии, работал системным администратором, основал компанию, специализирующуюся на решениях по оптимизации сетевых инфраструктур. В компании ClusterVision (Бристоль, Великобритания) работал специалистом по высокопроизводительным приложениям для гетерогенных сред, а затем в корпорации Cray отвечал за оптимизацию приложений, выполняющихся в HPC-средах. Сейчас – специалист корпорации Google по решениям HPC в регионе EMEA.
Платформы и технологии управление «океаном» данных

Подразделения современных распределенных корпораций, медицинских учреждений, страховых компаний и пр. генерируют сотни петабайт данных, что требует иных подходов работы с ними, отличных, например от применяемых в Grid. Одна из возможных моделей обработки, хранения, доступа и управления экзабайтными массивами распределенных данных в различных форматах – это федерация ресурсов или модель «океана» данных, учитывающая возможности сетей, особенности конкретного оборудования, установленного в различных отделениях корпорации, параметры систем хранения и пр. Для нивелирования различий в архитектурных решениях подразделений требуется система управления потоками заданий обработки и анализа данных; система мониторинга, контроля и визуализации функционирования распределенной инфраструктуры. Доклад посвящен обзору проектов создания «океана» корпоративных данных – географически распределенной инфраструктуры, которая для конечного пользователя выглядит логически единой – ведущихся сегодня в рамках национальных и международных научных проектов, а также силами отдельных коммерческих компаний, включая и Google. Особое внимание уделено пилотному проекту создания "океана данных" на базе компонента Google Compute Engine облачной инфраструктуры Google Cloud Platform, обеспечивающий доступ к информационным ресурсам из различных точек Земного шара.
Вернуться
к докладчикам
Максим Зубарев, Pure Storage
Цифровая лихорадка: новые требования
к хранению данных

Приглашаем:
Директоров по данным (CDO);
Директоров по стратегии, инновациям и цифровизации;
Архитекторов ИТ-систем и руководителей подразделений разработки;
Исследователей данных, аналитиков, консультантов и инженеров данных;
Менеджеров проектов, программ и продуктов.
Форма заказа
Оставьте ваши контакты
Премиум Партнеры
Партнеры
Информационные партнеры
Партнер выставки
Отель-партнер конференции
Спонсор умных книг
Подать заявку на доклад
Пожалуйста, укажите свои контакты,
тему и аннотацию доклада