В Библиотеку конгресса США ежедневно добавляется полмиллиарда записей из Twitter

09:00 10.01.2013

2224 прочтения

В апреле 2010 года Библиотека конгресса США заключила соглашение, в соответствии с которым компания Twitter обязалась передать ей на хранение все записи, опубликованные в микроблогах сервиса с момента его запуска в 2006 году. Первый этап этого проекта уже подходит к концу. В библиотеке сейчас хранится примерно 170 млрд записей из Twitter, и ежедневно эта коллекция пополняется еще на 500 млн.

На следующем этапе предстоит решить, как обеспечить исследователям доступ к этому огромному информационному архиву. Twitter разрешила некоммерческое использование предоставленных данных, но технология для изучения таких больших массивов информации пока отстает от технологий их создания и распространения, отмечают в библиотеке.

Архив за четыре первых года содержит примерно 21 млрд записей, которые в несжатом виде и с учетом служебной информации занимают около 20 Тбайт. Новые записи поступают в библиотеку в виде файлов с архивами за каждый час. Этим занимается компания Gnip — партнер Twitter, предоставляющая коммерческий доступ к архивам микроблогов. Две копии полного архива в сжатом виде сейчас занимают 133,2 Тбайт. Для надежности они хранятся на лентах в двух разных местах.

В Библиотеку конгресса США ежедневно добавляется полмиллиарда записей из Twitter

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности