В Yahoo считают, что работают с самой большой и нагруженной базой данных в мире
18:16 26.05.2008
1102 прочтения
Объем базы данных со сведениями о действиях посетителей сайтов Yahoo достигает 2 петабайт, и она обрабатывает 24 млрд событий в сутки.
В компании считают, что это не только самая большая база данных в мире, но и самая нагруженная запросами. Базу создали только год назад, а к будущему году ее размер дойдет до десятков петабайт. База работает под управлением модифицированной версии СУБД PostgreSQL. Даже на крупных предприятиях размеры баз данных редко доходят до десятков терабайт. Например, база данных налоговой службы США «весит» всего лишь 150 терабайт. Конечно, существуют базы с огромными объемами архивированных данных — скажем, на магнитных лентах Всемирного центра данных о климате в Гамбурге хранится свыше 6 петабайт данных, но обслуживать такую базу - это не то же самое, что базу со структурированными, готовыми к обработке данными, к которым постоянно осуществляется доступ.Три года назад в Yahoo уже были базы данных объемами в сотни терабайт. Но поддержки SQL в них не было, и для работы с ними приходилось писать специальные программы. Поэтому новый вице-президент по инжинирингу в подразделении данных Yahoo Вагар Хасан первым делом приобрел компанию-"стартап" Mahat Technologies, работавшую с СУБД с открытым кодом PostgreSQL. С тех пор СУБД была модифицирована и приспособлена к работе с большими объемами данных — некоторые таблицы в базе содержат триллионы строк.Ни лицензировать свои технологии работы с базами данных сторонним компаниям, ни предоставлять доступ к ним через Web в Yahoo пока не планируют.