Доклады
Андрей Николаенко
IBS
Занимается проектированием серийных аппаратно-программных инфраструктурных и платформных комплексов, в качестве системного архитектора принимал участие в создании крупномасштабных информационных систем для федеральных структур, предприятий энергетики и ЖКХ, операторов связи. Сфера интересов — функциональное программирование для систем работы с большими данными, систематизация и энциклопедизация знаний по кластерным платформам и методам обработки данных.
Инструменты больших данных: от конкуренции к интеграции
Hadoop ворвался в мир корпоративных хранилищ — традиционную вотчину массово-параллельных реляционных СУБД, а на роль централизованных платформ данных сегодня претендуют резидентные гриды данных. С другой стороны, Hadoop и передовые NoSQL-системы «заговорили» на SQL, а реляционные СУБД научились выполнять задания MapReduce и овладели эффективным хранением JSON. Но такая конкуренция за ниши стала не только источником бурного развития самих инструментов, но и инициировала процессы интеграции инструментов. Уже сейчас можно на при помощи одной методики проектировать хранилища и на HDFS, и на MPP-СУБД, а одним SQL-запросом можно «обойти» базы данных всех видов — от резидентных гридов и NoSQL-систем до РСУБД и Hadoop. В докладе приводится обзор современных технологий больших данных и анализируются тенденции их взаимодополнения и сосуществования.
Денис Аникин
Mail.ru
Отвечает за технологическую инфраструктуру почтовых и облачных сервисов компании Mail.Ru. Эксперт по распределенным высоконагруженным системам и оптимизации инфраструктуры для выполнения масштабируемых нагрузок. За двенадцать лет профессиональной деятельности Денис вырос от программиста до технического директора.
Хранилище данных Интернета вещей
Без СУБД не обходится ни один Интернет-сервис – базы данных являются основой любой современной ИТ-инфраструктуры, причем сегодня они должны автоматически распределяться по различным узлам, обладать средствами восстановления в случае отказа оборудования и масштабироваться в зависимости от текущей нагрузки. Все это особенно важно для Интернета вещей, для поддержки которых возможностей традиционных СУБД недостаточно. В докладе на примере открытой системы Tarantool, преимущества которой уже оценили такие компании как Yota, «ВымпелКом», Badoo, Avito, QIWI и Wallarm, будет показано какой должна быть СУБД для поддержки решений Интернета вещей, позволяющая обрабатывать информацию в реальном времени.
Дмитрий Бабаев
МТС, OpenDataScience
Эксперт по наукам о данных в компании МТС. В должности data scientist занимается всем, что связано машинным обучением и работой с данными. Ранее работал в Tinkoff Bank и Яндекс.
Организация больших данных для их эффективного использования в машинном обучении
В докладе пойдет речь о типах данных, образующих нынешние «большие данные» на примере проблем, решаемых сегодня телеком-операторами и Интернет-компаниями. Будут рассмотрены способы представления данных применительно к задачам машинного обучения. Особое внимание в докладе будет уделено алгоритмам машинного обучения, позволяющим получить компактные представления больших данных, экономящим компьютерные ресурсы без потери качества решения реальных задач.
Артем Данилов
Avito.ru
Архитектор хранилища данных в Avito.ru, занимается разработкой хранилищ с 2011 года, в частности, в компании ВТБ Факторинг. С 2014 года создает хранилище на платформе HPE Vertica. Специализируется на создании распределенных систем хранения и анализе данных.
Развитие хранилища Avito.ru – от больших к очень большим данным
На первый взгляд, проектирование хранилища данных – типовая задача: собрать требования, построить модель данных и реализовать ETL, однако лавинообразный рост объема данных и их сложности легко может нарушить работоспособность хранилища. В докладе показано, как, вслед за расширением бизнеса, хранилище Авито за несколько лет выросло до 76 Тбайт: откуда вообще у компании большие данные; в чем состоят основные принципы аналитики; как эволюционировало хранилище Avito.ru. Особое внимание уделено ответу на вопрос: почему следование ограничениям шестой нормальной формы (Anchor Modeling) помогает оперативно расширять хранилище, эффективно масштабировать нагрузку в среде MPP СУБД и развиваться в условиях микросервисов.
Александр Сидоров
HeadHunter
Руководит направлением анализа данных в компании HeadHunter, занимается разработкой и развитием поисковых и рекомендательных систем, метрик и автомодерацией. Работал менеджером проектов и руководителем сервисов в компании Яндекс. С 2004 года увлекается проектированием и разработкой систем с элементами искусственного интеллекта.
Машинное обучение: умный поиск работников и работодателей
Значительное время специалистов по подбору кадров обычно уходит на разбор резюме и определение кого из претендентов на вакансию следует приглашать на очное или телефонное собеседование. Аналогичная ситуация возникает и при выборе работодателя – на личной странице соискателя необходимо выводить перечень вакансий наиболее точно отражающий его запросы. В докладе показано, как технологии машинного обучения позволили компании HeadHunter упростить поиск работы и найм сотрудников, на десятки процентов повысив точность рекомендаций и в каком направлении будет развиваться проект обработки больших данных.
Олег Финошин
Vizex
Создатель и первый руководитель служб оперативной информационной графики холдинга ВГТРК и телеканала «Рен-ТВ», разработчик информационного центра «Выборы» Центральной избирательной комиссии РФ, Ситуационного центра МО РФ, Центра мониторинга ЕМИАС и ряда других федеральных проектов. Курирует разработку новых программных инструментов для интерактивной визуализации аналитических, статистических и картографических данных, разрабатывает методы анализа информации и аналитические инфографические инструменты для государственных и частных компаний, которым требуется визуализация в реальном времени актуальных параметров бизнес-процессов.
Визуальный анализ — выявление скрытых проблем и их решений в больших массивах данных: медицина, производство, транспорт и др.
Визуальный анализ данных призван вовлечь человека в процесс обнаружения знаний в больших объемах сырых данных путем их представления в форме, обеспечивающей обнаружение скрытых закономерностей и аномалий, невозможное в случае применения какой-либо алгоритмической идентификации. В докладе показано как с помощью новых технологий интерактивной визуальной работы с большими массивами оперативной и стратегической информации погрузить человека в данные и через визуальные образы дать ему инструменты восприятия существующих проблем и возможных путей их решения. Особое внимание будет уделено способам интегрированного представления множества влияющих на проблему аспектов с целью облегчения понимания информационных, управленческих и финансово-экономических процессов, а также обнаружения их взаимосвязей.
Валерий Артемьев
Банк России
Окончил МВТУ имени Н.Э. Баумана, проходил стажировку по банковским системам в Великобритании по программе TACIS, изучал методы и средства создания аналитических систем и хранилищ данных в лаборатория IBM Silicon Valley Lab, получил квалификацию бизнес–аналитика по большим данным. В отраслевой лаборатории МГТУ им. Н.Э. Баумана совмест­но с НИИ «Восход» проводил анализ и моде­лирования ИВС специаль­ного на­зна­чения. С 1993 года Валерий работает в подразделении информатизации Центрального банка России, планировал и руководил проектами по web-приложениям, XML-форматам сбора отчетности, хранилищам данных и бизнес­–аналитике. Участвовал в создании централи­зованных систем для блока банков­ского надзора Банка России на основе технологий хранилищ данных и бизнес–аналити­ки: ЕИСПД для монито­рин­га и анализа деятельности кредитных организаций и АКС для анализа платежной информации. Сейчас работает архитектором ИТ-решений в должности консультанта Департамента информационных технологий Банка России.
Причины неудач проектов больших данных
Сегодня произошла консолидация технологий, связанных с обработкой больших данных – уровень зрелости и освоения этих технологий стал важной составляющей успеха проектов в условиях вольницы Open source и наличия корпоративных устоев. Однако оказалось, что одних лишь технологий для успеха проектов больших данных недостаточно.
Новые возможности для работы с большими данными вызвали всплеск интереса к продвинутой аналитике (машинному обучению, искусственному интеллекту и др.), data mining и исследованию данных. Открылись новые горизонты для предписывающей аналитике, анализа текстов, изменилось само отношение к качеству данных. Однако возник дефицит специалистов, обладающих знаниями и навыками в области анализа данных, программирования, управления данными и лингвистики. Вместе с тем, включение data scientists в проектную команду — необходимое, но не достаточное для успеха проекта условие.
Любой проект больших данных – это конкретная предметная область, однако недостаток знаний его участников в конкретной прикладной сфере, отсутствие постановок задач анализа и критериев эффективности их решения, а также неосведомленность бизнес–аналитиков о потенциале технологий больших данных, методов и средств их анализа приводят к краху проекта.
Доклад посвящен изложению причин неудач проектов больших данных и рекомендациям по устранению возникающих на их пути барьеров.
Евгений Линник
«Техносерв»
Окончил Современную Гуманитарную Академию по специальности "Информатика и вычислительная техника". В период 2006-2013 годы занимался разработкой различных информационных систем в крупных коммерческих организациях, включая "Газпром" и "Альфа-Банк". Начиная с 2015 года, занимается развитием направления BigData в компании "Техносерв", а с 2016 года работает директором департамента больших данных.
Большие данные в системах противодействия мошенничеству
В последние три года технологии больших данных все шире используются бизнесом для решения повседневных задач и одна из проблем, с которой можно эффективно справиться с помощью, например, алгоритмов machine learning ─ это борьба с мошенничеством в финансовом секторе. В докладе анализируется опыт решения задачи выявления мошенничества с помощью инструментов из экосистемы Hadoop и Spark MLlib.
Максим Савченко
"Сбербанк-Технологии"
Получил степень магистра в МФТИ, работал в Исследовательском центре им. М.В. Келдыша, Лаборатории квантовой химии AlgoDign и в Институте теоретической и прикладной электродинамики РАН. С середины нулевых занимается прикладной аналитикой, с 2009 года и по сей день – риск-моделированием, R&D и проектной работой, предусматривающей, в частности, применение технологий машинного обучения для решения задач финансовой индустрии. С 2010 года работает в группе компаний ПАО «Сбербанк», занимая на сегодняшний день должности руководителя разработки моделей в Центре компетенций исследований и разработки моделей компании "Сбербанк-Технологии" и аналитика в блоке «Риски» Сбербанка.
Модели нового поколения: принятие решений на основе поведенческой информации различного типа
Половина населения планеты подключена сегодня к Интернету, а число цифровых устройств, генерирующих данные о поведении и предпочтениях клиентов, измеряется миллиардами, однако в большинстве отраслей и компаний не заметно адекватного роста эффективности за счет использования накапливаемых сведений, которые либо вообще не собираются с прицелом на дальнейший анализ, либо игнорируются и лежат мертвым грузом. До сих пор компании склонны оценивать то, что клиент сам сообщает о себе, чем ориентироваться на его поведение – от анализа стиля его вождения автомобилем и потребительских предпочтений до анализа платежной дисциплины за пределами традиционного изучения кредитной истории. В результате промышленные системы, использующие источники данных нового типа для повышения эффективности бизнеса, по-прежнему редкость. Доклад посвящен изложению опыта использования Сбербанком данных, полученных из различных источников и иллюстрации того, как возникают потребности в новых подходах к их анализу и обработке.
Павел Клеменков
Rambler&Co
Руководит отделом машинного обучения в группе компаний Rambler&Co, где аккумулируется практически вся экспертиза компании по анализу данных и машинному обучению. Ранее работал математиком-программистом в агрегаторе Рамблер/Новости, где занимался развитием и оптимизацией кластеризатора и классификатора новостей средствами машинного обучения.
Машинное обучение: архитектура и конвейер больших данных
Задачи бизнеса, определяемого данными невозможно сегодня решить без специалистов по анализу данных (data scientists), однако найти и, тем более, привлечь к работе хороших специалистов в этой области очень трудно, но еще труднее обеспечить им условия для эффективного выполнения своих функций. В парадигме больших данных, распределенных систем и конкуренции за вычислительные ресурсы, это сделать еще сложнее. В докладе рассмотрена архитектура информационной системы, центральное звено которой – математик-программист, методами машинного обучения решающий бизнес-задачи на больших данных, начиная от неформальной постановки, подтверждения концепции (proof-of-concept) и далее, вплоть до запуска кода в промышленную эксплуатацию. На примере бизнеса компании Rambler&Co показана эволюция такой информационной системы, позволившей создать комфортную среду для решения любой задачи обработки больших данных. Особое внимание уделено разбору реальных примеров использования методов машинного обучения для решения конкретных бизнес-задач.
Алексей Натекин
DM Labs, OpenDataScience
Основатель компании Data Mining Labs и онлайн-сообщества специалистов по работе с данными – Open Data Science. В компании Data Mining Labs занимается выполнением проектов класса «data-driven» для предприятий-заказчиков, обеспечивает подбор и обучение команд специалистов. Алексей также организует серию митапов для профессионалов data scientist, в частности, Data Fest.
Вся правда о специалистах по данным
Промышленные системы работы с большими данными по-прежнему редкость – машинное обучение, Hadoop, искусственный интеллект сами по себе автоматически не трансформируются в дополнительную прибыль, а иногда инвестиции в технологии могут стать для бизнеса лишь бесполезной дорогостоящей игрушкой. Любой компании, решившей всерьез работать с большими данными обязательно потребуется команда специалистов по данным (data scientists), способная реализовать планы и идеи руководителей компаний и организаций. Что это за специалисты, какими навыками и знаниями они должны обладать? Где и как их искать? Как поставить им задачу и сформулировать проблему, чтобы они не сбежали еще до конца испытательного срока? Доклад посвящен анализу проблемы поиска и подготовки кадров для эпохи больших данных – социально зрелых специалистов, обладающих не только математическими и инженерными знаниями, но и системным мышлением. Особое внимание будет уделено вопросам оптимизации труда data scientists в условиях когда стоимость хранения и обработки данных неуклонно снижается, а стоимость труда специалистов по данным, неуклонно растет.
Руслан Хохлов
ВТБ24
С 2003-го года занимается системной и прикладной разработкой, а также вопросами архитектуры банковских информационных систем. Сейчас Руслан руководит проектом по развитию аналитической платформы ПАО «ВТБ24».
Даниил Зайцев
ГлоуБайт Консалтинг
Занимается построением и развитием хранилищ данных, отчетности и аналитических сервисов в проектах для финансовых компаний. Старший архитектор в компании ГлоуБайт Консалтинг (GlowByte Consulting).
Симбиоз реляционных СУБД и Hadoop в крупном банке
До недавнего времени в банковской сфере главенствовали традиционные подходы к построению хранилищ – сбор данных из систем-источников по четко сформулированным требованиям для решения заранее определенных задач. Однако, при сохранении всех традиционных функций, современному банку требуется осваивать более гибкие подходы к обработке данных, предусматривающие применение широкого спектра инструментов анализа и моделирования. Сегодня появляются все новые источники данных с динамической структурой, а скорость поддержки изменений в уже существующих перестает соответствовать ожиданиям бизнес-подразделений. Все это, в совокупности с быстро растущими объемами данных, подтолкнуло банк ВТБ24 к концепции Data Lake, которая гармонично вписалась в развивающуюся экосистему Hadoop. Доклад посвящен изложению опыта развития хранилища данных, удовлетворяющего как требованиям решаемых задач, так и учитывающего все особенности технологического стека Hadoop.
Артем Ведерников
Data-Centric Alliance
Работает в компании DCA с 2015 года, где принимает участие в создании платформы управления целевыми аудиториями рекламных кампаний. Артем закончил механико-математический факультет МГУ в 2014 году.
Персонализация рекламных кампаний в реальном времени
Основа любой системы, позволяющей рекламодателям управлять целевыми аудиториями рекламных кампаний, в условиях омниканальности показывая только адресную рекламу заинтересованной целевой аудитории – аналитическая платформа обработки аудиторных данных. Аналитическая платформа от Data-Centric Alliance, в реальном времени позволяющая обрабатывать данные о более 600 млн анонимных пользователей Интернета основана на Apache Kafka и уже более года находится в промышленной эксплуатации, демонстрируя высокую производительность и отказоустойчивость. В докладе обсуждается архитектура системы сегментации пользователей, опыт использования распределенной службы высокой готовности Flume для сбора, накопления и перемещения в хранилище Kafka больших объемов потоковых данных, получаемых из множества источников.
Сергей Золотарев
ArenaData
Сооснователь проекта ArenaData, возглавлял представительство компании Pivotal в России, где под его руководством были реализованы крупнейшие в стране проекты на базе стека технологий больших данных. Ранее занимал руководящие посты в компаниях EMC, Avaya, Microsoft, Compaq. Закончил МГТУ им Н.Э.Баумана, имеет степень MBA (Open University of London).
Зачем нужен «стандартный» Hadoop?
Сегодня с Hadoop работают почти все современные платформы бизнес-аналитики, многие инструменты визуальной аналитики, разнообразное связующее программное обеспечение и даже некоторые реляционные СУБД. Однако существует множество дистрибутивов Hadoop, имеется масса различных версий и библиотек его экосистемы и часто собранная конструкция ведет себя непредсказуемо. Чтобы отметка «совместимо» с Hadoop обрела однозначный смысл, под эгидой Linux Foundation в 2015 году был создан консорциум разработчиков платформ Open Data Platform initiative (ODPi.org), объединяющий крупнейшие ИТ-компании и призванный обеспечить стандартизацию и взаимную совместимость дистрибутивов Hadoop путем утверждения их единой спецификации и тестирования на полное соответствие. Среди прошедших сертификацию в ODPi дистрибутивов Hadoop имеется российский — ArenaData Hadoop. Доклад посвящен анализу причин необходимости наличия стандартного дистрибутива, изложению особенностей сборки ArenaData и возможностям ее применения для снижения затраты и сроков разработки прикладного ПО.
Никита Жаворонков
НИЯУ МИФИ
Никита на протяжении многих лет занимается вопросами защиты информации, противодействия отмыванию доходов и финансирования терроризма, разработал поисковик Blockchair для организации поиска в распределенных реестрах, принимал участие в реализации ряда проектов в сфере криптовалют. Преподает курс «Криптовалюты и блокчейн-технологии» в НИЯУ МИФИ.
Большие распределенные реестры. Аналитика блокчейна
Сегодня о распределенных реестрах можно услышать даже от далеких от ИТ политиков: блокчейн, криптовалюты, умные контракты — все это обещает кардинально изменить уклад многих сфер жизни общества. Одно из преимуществ блокчейна – его прозрачность: у каждого участника сети есть доступ ко всей информации цепи блоков, которую можно анализировать, однако, децентрализованные платежи, ведение распределенных реестров, сопровождение умных контрактов, и т.п., будет жизнеспособно лишь при наличии средств поиска и эффективного анализа огромных массивов неструктурированных данных из открытых реестров. В докладе разбираются подходы к извлечению полезной информации из таких реестров и технологии анализа больших данных, образуемых в огромных масштабируемых цепочках блоков.
Денис Турдаков
ИСП РАН
Заведующий отделом информационных систем ИСП РАН, окончил факультет вычислительной математики и кибернетики МГУ им. М.В.Ломоносова, кандидат физ.-мат. наук, награжден медалью РАН за работу «Методы и программные средства автоматического построения семантических моделей документов на естественных языках с использованием онтологий, извлекаемых и Веб-ресурсов», участник программных комитетов ряда международных конференций. Специализируется в области обработки естественного языка, машинного обучения, интеллектуального анализа данных и анализа социальных сетей, а также в сфере распределенной обработки данных.
Анализ социальных сетей: охота на ботов и троллей
Социальные сети - огромный неконтролируемый мир общения и распространения сведений, где любой может размещать произвольные данные о себе, притворяясь, например вымышленной личностью. Возможность оперировать не одним аккаунтом, а сотнями виртуальных персонажей, распространять практически любую информацию, включая фейковую стала почвой для развития целой отрасли на стыке рекламы и PR. В докладе будут представлены технологии "Талисман" и "Текстерра", предназначенные для анализа больших массивов данных из социальных сетей, восстановления неполных профилей пользователей, выявления умышленных искажений, обнаружения виртуальных личностей (ботов) и анализа информационных кампаний с целью выявления "троллей".
Алексей Мергасов
NoXA Data Lab
Основатель и технический директор компании NoXA Data Lab, специализирующейся на проектировании и внедрении "бережливых" инфраструктур данных (Lean Data Infrastructure) с экстремально высокими потребительскими характеристиками и низкой стоимостью владения. Алексей разрабатывал решения для клиентов компании Informatica (Western Union, Monsanto и др) и уже более 12 лет специализируется на проектировании и развертывании инфраструктур данных крупных предприятий.
Бережливая (Lean) инфраструктура данных
Доклад посвящен описанию уникальной архитектуры системы хранения данных емкостью свыше 50 Пбайт, обеспечивающей сквозную 100% консистентность данных, линейную масштабируемость по емкости и производительности при крайне низкой стоимости владения. Особое внимание будет уделено изложению первого опыта применения таких инфраструктур в телекоммуникационных компаниях, ретейле, банках, на промышленных предприятиях и в государственном секторе.
Юрий Петров
BigBigData Group
Архитектор данных команды Big Data в компании МТС, координатор сообщества BigBigData Russia - профессионалов в области больших данных. С 2008 года работает с такими технологиями больших данных и массивно-параллельных вычислений как: Teradata, Hadoop, NoSQL на проектах в Citibank Russia, Сбербанк, ВТБ24, ФНС, МФТИ и МТС.
Инфраструктура и организация работы на реальных проектах больших данных
Стратегии развития многих компаний сегодня предусматривают запуск проектов больших данных, однако, как правило, их старт задерживается или вообще откладывается на неопределенное время из-за незнания оптимальных требований к аппаратно-программной инфраструктуре и особенностей организации работы. В докладе даны практические рекомендации и пояснения по выполнению проектов больших данных и развертыванию инфраструктуры, адекватной поставленным бизнесом задачам сбора, хранения и анализа больших массивов разнообразных данных, получаемых из различных источников.