Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
2 Управление метаданными
3 Data Lineage
4 Роли и процессы
Зачем нужны процессы и решения Data Governance
Крупнейшие организации инвестировали десятки и сотни миллионов долларов в аналитические системы
и хранилища данных, но не смогли достичь поставленных целей:
Data Governance – planning, oversight, and control over Data governance is the collection of decision rights, processes,
management of data and the use of data and data-related standards, policies and technologies required to manage,
resources… we understand that governance covers maintain and exploit information as an enterprise resource
‘processes’, not ‘things’, the common term for Data [Gartner]
Management Governance is Data Governance…
[DAMA International]
Data governance is the orchestration of a company’s staff,
technology’s and processes to transform data into an
Data governance is the capability that enables an enterprise asset that yields business value for the organization
organization to ensure that high data quality exists throughout [DMReview]
the complete lifecycle of the data. The key focus areas of
data governance include availability, usability, consistency,
data integrity and data security and includes establishing Data Governance is a system of decision rights and
processes to ensure effective data management throughout accountabilities for information-related processes, executed
the enterprise such as accountability for the adverse effects according to agreed-upon models which describe who can take
of poor data quality and ensuring that the data which an what actions with what information, and when, under what
enterprise has can be used by the entire organization circumstances, using what methods
[Wikipedia] [The Data Governance Institute]
Компоненты Data Governance
Data Architecture
2 Управление метаданными
3 Data Lineage
4 Роли и процессы
Что такое управление метаданными: что-то радикально
новое или известное со времен античности?
Если вы думаете, что метаданные - это что-то радикально новое, появившееся в эпоху цифровой трансформации, то вы ошибаетесь. Около 290 лет
до н.э. хранители библиотек прикрепляли небольшие свисающие ярлыки к концу каждого свитка. Ярлыки содержали информацию об авторах,
названиях и тематике свитков. Наверное, можно сказать - это был день рождения метаданных ...
Начиная с ~2005
Первое поколение специализированных
инструментов для управления метаданными.
1968 Основывались на идее общей модели метаданных -
Термин «метаданные» введен Филипом Common Warehouse Metamodel (CWM).
Бэгли в его книге «Расширение концепций
290 лет до н.э языка программирования».
Использовались на практике очень ограниченно.
Первое зарегистрированное использование
метаданных в Александрийской библиотеке.
Греческий грамматик и литературный критик
Зенодот прикрепил к концу каждого свитка
небольшой ярлык. Он содержал информацию об
авторе, названии и теме каждой работы.
1800-ые
Современное использование
метаданных. Фотографы 1980-ые
выцарапывают имена, даты и места на Ряд производителей ПО начинают
дагерротипе. разрабатывать программные Начиная с ~2015
системы для управления Современное поколение инструментов
бумажными документами. управления метаданными. Появление
требований регуляторов (например,
BCBS 239).
Типичные проблемы при отсутствии внимания
к управлению метаданными
Этапы процессов, на которых возникают проблемы
Мэппинги
Мэппинг S2T • Ведение правил мэппинга
Системные
аналитики • Генерация правил ETL
ETL инструменты
Технические метаданные ИС • ETL инструменты, осуществляющие
ИТ (ETL, BI, СУБД и др.) загрузку и трансформацию данных на
разработчики
основе сгенерированных правил
Демонстрация решения по управлению метаданными
Содержание
2 Управление метаданными
3 Data Lineage
4 Роли и процессы
Data Lineage: подход «снизу-вверх»
Демонстрация на примере одного из средств data linage
В случае отсутствия метаданных, связанных с преобразованиями данных, они могут быть автоматически извлечены с
помощью инструментов Data Lineage
Подход “снизу-вверх”
• Позволяет провести reverse-engineering
существующих потоков данных путем
парсинга метаданных ETL и скриптов SQL
• Объединяет и визуализирует потоки данных
из разнородных инструментов и позволяет
разработчику оценить влияние тех или
иных изменений в коде
• Не может гарантировать получение 100%
метаданных, в первую очередь это касается
кода на динамическом SQL, а также
файлового обмена
• Поток детальных технических метаданных
приносит пользу разработчикам процессов
интеграции данных, но чаще всего
оказывается слишком детальным и
сложным для понимания аналитикам и
бизнес-пользователям
Data Lineage: подход «сверху-вниз»
Подход к Data Lineage сверху-вниз базируется на подходе, когда сначала формируется спецификация – Source-2-Target (S2T)
mapping, затем они реализуются. S2T mapping-и ведутся в инструменте управления метаданными. Введенная информация
может использоваться для анализа Data Lineage, постановки задач разработчикам и генерации ETL
S2T mapping
Аналитики формируют мэппинги в Excel или Система
Power Designer, которые затем загружаются управления
в Alteryx Connect для: метаданными Подход “сверху-вниз”
• Анализа потоков данных
• Позволяет предоставить уровень
• Для постановки задач разработчикам ETL
детализации метаданных, который
необходим аналитику, не перегружая его
многими техническими деталями (такими
Разработка моделей данных Разработка моделей данных как временные таблицы, служебные
объекты и т.п.)
Разработка ETL
Разработка ETL
• Идеально подходит для процессов
управления данными и жизненным циклом
данных
Аналитические • Не требует приобретения дорогостоящих
Системы - источники Хранилище данных коннекторов для ETL и парсеров SQL
инструменты
ETL ETL
Содержание
2 Управление метаданными
3 Data Lineage
4 Роли и процессы
Ключевые роли Data Governance: Теория
Владелец данных и Data Steward
DG подразделение
IT
Проектировщик модели данных Проектирование модели данных Разработчик Разработка ETL и отчетов в ХД
Системный аналитик Source-to-target mapping Технический Data Steward Разрешение инцидентов качества данных в системе
Жизненный цикл данных и управление метаданными
Бизнес-требования
Создание / изменение Формирование / согласование бизнес-
требований к данным правил, индикаторов качества данных
Создание / изменение,
согласование Терминов
Управление
метаданными Модель данных и технические метаданные
Дизайн модели данных Формирование / изменение
технических метаданных
Алексей Ильин
http://ru.adastragrp.com
Alexey.ilyin@adastragrp.com
+7 916 103 16 54