Американские федеральные ведомства — образцовый пример источника Больших Данных, поэтому неудивительно, что президент США Барак Обама объявил об учреждении исследовательской программы, направленной на развитие инструментов и методов доступа к огромным объемам цифровой информации, ее классификации и извлечения из нее ценных сведений. Бюджет программы — 200 млн долл.
Логотип проекта XDATA должен подчеркнуть сложность поставленной задачи — создание средств анализа больших объемов данных, как «полуструктурированных», так и неструктурированных |
«Подобно тому как прошлые инвестиции федерального правительства в области ИТ привели к революционным прорывам в сфере суперкомпьютеров и созданию Интернета, инициатива, которую мы начинаем, откроет абсолютно новые возможности использования Больших Данных в совершении научных открытий, экологических и биомедицинских исследованиях, образовании и национальной безопасности», — заявил Джон Холдрен, помощник президента и директор Управления Белого дома по политике в области науки и техники.
Программа получила название Big Data Research and Development Initiative. В ней примет участие целый ряд ключевых государственных структур США. В частности, Национальный научный фонд осуществит долгосрочную стратегию, включающую в себя разработку новых методов извлечения знаний из данных; создание инфраструктуры для отбора и сохранения данных, управления ими и их предоставления тем, кто в них заинтересован, а также выработку новых подходов в области образования и подготовки трудовых ресурсов. Фонд будет поощрять исследовательские учреждения к разработке междисциплинарных учебных программ для подготовки нового поколения ученых и инженеров по обработке данных; выделит 10 млн долл. на проект Expeditions in Computing Калифорнийского университета в Беркли, цель которого — интегрировать три мощных метода «превращения данных в информацию»: машинное обучение, облачные вычисления и краудсорсинг; предоставит первый транш грантов в поддержку создания EarthCube — системы, позволящей геологам и геофизикам осуществлять доступ к информации о нашей планете, анализировать данные и обмениваться ими; выдаст премию 2 млн. долл. организации, в которой студентов учат применять методы визуализации сложных данных; выделит 1,4 млн долл. исследовательской группе статистиков и биологов, занимающейся идентификацией структуры белков и изучением изменений в клетках.
В сферу интересов Национального института здравоохранения, в свою очередь, входит обработка медицинских снимков, а также молекулярных, клеточных, электрофизиологических, химических, поведенческих, эпидемиологических, клинических и других наборов данных, относящихся к здоровью и заболеваниям.
Крупную ставку на Большие Данные делает Пентагон, который будет инвестировать ежегодно около 250 млн долл. (в том числе по 60 млн на новые исследовательские проекты) в инициативы, направленные на использование больших массивов данных новыми способами, а также на объединение средств регистрации и интерпретации данных в целях создания истинно автономных систем, способных самостоятельно маневрировать и принимать решения. В Минобороны рассчитывают радикально расширить способности аналитиков в области извлечения полезных сведений из текстов на любых языках и наблюдения за объектами, действиями и событиями. Кроме того, в ближайшие несколько месяцев Пентагон объявит серию открытых конкурсов на получение грантов.
Агентство перспективных оборонных исследований DARPA начинает четырехлетнюю программу XDATA, в рамках которой будет ежегодно выделяться около 25 млн долл. на разработку вычислительных методов и программных инструментов анализа больших объемов данных, как «полуструктурированных», так и неструктурированных. Планируется решить следующие основные задачи: создать масштабируемые алгоритмы обработки «сырых» данных в распределенных хранилищах; создать эффективные средства взаимодействия человека с компьютером, помогающие с помощью настраиваемых визуализаций делать логические выводы из данных, полученных в ходе всевозможных миссий. Программа XDATA будет поддерживать развитие инструментариев с открытым кодом, чтобы гибко создавать программное обеспечение для обработки больших объемов данных в сроки, заданные оборонными проектами.
Национальный институт здоровья объявил о бесплатной доступности в облаке Amazon Web Services самого большого набора данных о генетической наследственной изменчивости людей, созданного в рамках международного проекта 1000 Genomes. Его размер — 200 Тбайт, что, как подсчитали в NIH, примерно соответствует объему информации в 16 млн картотечных шкафах, заполненных текстовыми документами, или 30 тыс. стандартных DVD. Набор данных 1000 Genomes — типичный образец Больших Данных, массива настолько огромного, что для его обработки нужны дорогостоящие вычислительные ресурсы, доступ к которым есть не у всех исследователей. В AWS данные 1000 Genomes Project размещены в свободном доступе; исследователям нужно платить только за вычислительные сервисы, которыми они будут пользоваться для анализа.
Министерство энергетики осуществляет программу Scientific Discovery Through Advanced Computing, в рамках которой выделено 25 млн долл. на создание Института масштабируемого управления данными, их анализа и визуализации. Возглавят проект специалисты Национальной лаборатории им. Лоуренса в Ливерморе, а всего он объединит силы шести национальных лабораторий и семи университетов, чтобы создать новые инструменты, помогающие ученым управлять данными и визуализировать их на суперкомпьютерах минэнерго, с целью упростить процессы совершения открытий. Потребность в таких инструментах растет, так как симуляции, исполняемые на суперкомпьютерах мининстерства, становятся все сложнее и масштабнее.
Геологическая служба США обнародовала список лауреатов грантов, которые ведомство распределяет через Центр анализа и синтеза им. Джона Уэсли Пауэлла. Согласно официальному описанию этого учреждения, центр поддерживает инновационные исследования в области наук о Земле, предоставляя ученым средства глубинного анализа, современные вычислительные ресурсы и инструменты совместной работы, помогающие извлекать ценные сведения из огромных наборов данных. Проекты ведомства в области Больших Данных обещают стать подспорьем в таких областях, как изучение реакции биологических видов на климатические изменения, прогнозирование землетрясений и создание нового поколения экологических индикаторов.