Вы находитесь на странице: 1из 15

Сверхбольшая БД

Тема: Сверхбольшая БД
Предмет:
Группа: Выполнил:
История сверхбольшие БД.

За историю существования человечества накопилось огромное


количество информации. Сегодня мы являемся свидетелем
информатизации общества, которая влечет за собой изменения во всех
сферах жизни общества.
Современные исследования информационных технологий показывают ,
что наиболее эффективным видом информационной системы , хранящей
разнородную информацию , выступают БД. Однако существующие
классические методы работы с данными уже не способны справится с
потоками данным. Поэтому на смену постепенно приходят сверхбольшие
БД.
На данном этапе сверхбольшая БД является новым понятием в науке ,
официальная дата рождения термина – 3 сентября 2008 года.
Следует отметить , что только у одного автора , Дайона Хинчклифа ,
приведена классификация больших данных.
Понятие сверхбольшой БД
Сверхбольшая база данных (англ. Very Large Database, VLDB) -- это база данных,
которая занимает чрезвычайно большой объём на устройстве физического хранения.
Термин подразумевает максимально возможные объёмы БД, которые определяются
последними достижениями в технологиях физического хранения данных и в
технологиях программного оперирования данными.
Сверхбольшая база данных – это база данных, для которой время выполнения
типичного запроса превышает допустимые для пользователя пределы.
Для разного времени понятие сверхбольшой объем соответствует разным
показателям.
1997 год - Текстовая база данных Knight Ridder’s DIALOG - 7 ТБ.
2006 год - Поисковая машина Google использовала базу данных 850 ТБ
2010 год - ПБ (петабайты)
Области приложений сверхбольших баз данных

информационные системы
электронная коммерция
здравоохранения

геоинформационные системы электронные библиотеки

мультимедиа архивы и
научные базы данных и т.д
коллекции

Специалисты отмечают необходимость особых подходов к проектированию сверхбольших БД. Для их создания
нередко выполняются специальные проекты с целью поиска таких системотехнических решений, которые позволили
бы хоть как-то работать с такими большими объёмами данных. Как правило, необходимы специальные решения для
дисковой подсистемы, специальные версии операционной среды и специальные механизмы обращения СУБД к
данным.
База данных проекта BaBar

Одной из самых больших научных баз данных является база данных проекта
BaBar.
Целью эксперимента BaBar является изучение поведения B-мезонов, получаемых
на коллайдере PEP-II в Стэндфордском центре линейного ускорителя (Stanford
Linear Accelerator Center).
Детектор BaBar поставляет около 500 Гбайт информации ежедневно. Данная
информация сохраняется в базе данных BaBar, объем которой сегодня составляет
более 500 Тбайт.
Система включает в себя 2000 процессоров и 100 серверов.
База данных проекта EOS/DIS

Другим примером сверхбольшой базы данных является база данных проекта


EOS/DIS (Earth Observation System/Data Information System), разрабатываемого
агентством NASA в США.
Система наблюдения земли EOS включает в себя множество спутников, которые
собирают информацию, необходимую для изучения долгосрочных тенденций
состояния атмосферы, океанов, земной поверхности.
Начиная с 1998 года спутники поставляют информацию в объеме 1/3 петабайт
(Petabyte – 1015 байт) в год. Предполагается, что к 2010 году общий объем
поддерживаемых в системе данных превысит 20 петабайт.
Система SkyServer

Еще одним примером системы, требующей обработки сверхбольших


объемов данных, является система SkyServer проекта SDSS (Sloan
Digital Sky Survey).
Данный проект предполагает создание виртуальной обсерватории,
доступной через Интернет. База данных проекта должна объединить в
себе полную информацию о наблюдениях всех участков звездного неба
различными обсерваториями мира.
Начальный объем базы данных проекта оценивается в 40 терабайт.
Работы по созданию виртуальной обсерватории ведутся также и в России
Проблемы разработки Сверхбольших баз данных

На современном этапе развития науки и техники разработка и функционирование СБД связаны с рядом проблем:

Большие объемы информации создают трудности в координации работы разных подразделений и


взаимодействии с внешними подрядчиками

Усложнение обеспечения эффективного последовательного и быстрого доступа к данным на всех


фазах обработки

Недостаточная производительность БД Нехватка квалифицированных специалистов

Высокая стоимость внедрения механизмов аналитики СБД.


Библиотека Конгресса США

Библиотека Конгресса может похвастаться более чем 130 млн.


экземпляров для хранения, коллекция составляет книги, журналы
начиная с книг повара и заканчивая колониальными газетами
разбирательства правительства США.
Считается, что текстовая часть Библиотеки Конгресса будет включать
20 терабайт данных и с каждым днем она расширяется на 10 000экз. в
день.
В цифрах:
130 000 000 предметов (книги, фотографии, карты и т.д.)
29 миллионов книг
10.000 новых элементов, добавляемых каждый день
530 миль полок
5 млн электронных документов
20 терабайт текстовых данных
Центральное разведывательное управление США

Центральное разведывательное управление (ЦРУ) в деле сбора и распространения


информации о людях, местах и вещах, поэтому данная просто должна быть одной
из больших так как накопила огромное количество информации на
государственном и частном секторах.
В цифрах:
Полную статистику по более чем 250 стран и организаций
Неизвестно количество секретной информации
Amazon

Amazon, крупнейший розничный магазин в мире, поддерживает обширные


записи на его 59 миллионов активных клиентов, включая общую личную
информацию (номер телефона адрес и т.д.), квитанции, список пожеланий, и
практически с любого из данных веб-сайт может извлечь из своих
пользователей, когда они вошли о.
Amazon также сохраняет более чем 250000 полный текст книги доступны в
Интернете и позволяет пользователям оставлять комментарии и общаться
практически на каждой странице сайта, что делает Amazon одной из
крупнейших в мире онлайн-сообществ.
В цифрах по Amazon это 59 миллионов активных клиентов и более 42
терабайт данных.
YouTube

Менее чем за два года работы YouTube собрал крупнейших видеотека (и


впоследствии одной из крупнейших баз данных) в мире. YouTube в
Настоящее время имеет пользовательскую базу, которая наблюдает более 100 млн
клипов в день приходится более 60% всех видео смотрели онлайн.
В цифрах:
100 миллионов видео смотрели в день
65000 видео добавляется каждый день
60% всех видео смотрели онлайн
По меньшей мере 45 терабайт видео
ChoicePoint

ChoicePoint - американская компания, специализирующаяся на сборе данных о


частных лицах или компаниях. Эти данные продаются правительственным и
неправительственным организациям.
ChoicePoint получает эти данные не только из различных общедоступных
источников, но и из частных баз данных. Предполагается, что компания имеет 17
миллиардов отдельных источников.
Представьте себе, что поиск в телефонной книге, содержащей миллиардов
страниц на телефон. Когда сотрудники ChoicePoint хотят знать что-то о вас, они
должны делать именно это. Если распечатать, базы данных ChoicePoint будет
распространяться на Луну и обратно 77 раз.
В компании ChoicePoint существует 250 терабайт личных данных и информации о
250 млн. человек!
Исследования в области хранения и обработки сверхбольших баз данных

Исследования в области хранения и обработки сверхбольших баз данных


VLDB всегда находятся на острие теории и практики баз данных.
В частности, с 1975 года проходит ежегодная конференция International
Conference on Very Large Data Bases («Международная конференция по
сверхбольшим базам данных»). Большинство исследований проводится под
эгидой некоммерческой организации VLDB Endowment (Фонд целевого
капитала «VLDB»), которая обеспечивает продвижение научных работ и обмен
информацией в области сверхбольших БД и смежных областях.
Следует отметить, что технология является крайне полезной и для государства,
поскольку она оперирует гигантскими массивами информации и на государство
возложен огромный объем управленческих задач
Спасибо за внимание!

Вам также может понравиться