Вы находитесь на странице: 1из 19

Содержание

1 Введение. Что такое Data Governance

2 Управление метаданными

3 Data Lineage

4 Роли и процессы
Зачем нужны процессы и решения Data Governance
Крупнейшие организации инвестировали десятки и сотни миллионов долларов в аналитические системы
и хранилища данных, но не смогли достичь поставленных целей:

• Невозможность оперативного развития хранилищ данных, слишком длительный time-2-market


• Недостаточное внимание к модели данных ХД и огромная стоимость исправления любой ошибки в модели,
отсутствие бизнес-модели данных
• Отдельные неинтегрированные «витрины данных» для различных
подразделений и аналитических задач, невозможность реконсиляции
данных и отчетов различных подразделений
• Неясное и неизмеримое качество данных, отсутствие
полного доверия к информации из ХД
• Невозможность сопоставления информации из-за хаоса
с нормативно-справочной информацией
• Отсутствие возможности эскалации – нет четко определенной
ответственности за данные и качество данных в организации

Потребовался новый подход по управлению


информацией – Data Governance
Что такое Data Governance?
Data Governance – подход к управлению данными, который определяет данные как основной актив организации и требующий
внедрения специфичных ролей процессов и решения для управления данными как ценным активом

Data Governance – planning, oversight, and control over Data governance is the collection of decision rights, processes,
management of data and the use of data and data-related standards, policies and technologies required to manage,
resources… we understand that governance covers maintain and exploit information as an enterprise resource
‘processes’, not ‘things’, the common term for Data [Gartner]
Management Governance is Data Governance…
[DAMA International]
Data governance is the orchestration of a company’s staff,
technology’s and processes to transform data into an
Data governance is the capability that enables an enterprise asset that yields business value for the organization
organization to ensure that high data quality exists throughout [DMReview]
the complete lifecycle of the data. The key focus areas of
data governance include availability, usability, consistency,
data integrity and data security and includes establishing Data Governance is a system of decision rights and
processes to ensure effective data management throughout accountabilities for information-related processes, executed
the enterprise such as accountability for the adverse effects according to agreed-upon models which describe who can take
of poor data quality and ensuring that the data which an what actions with what information, and when, under what
enterprise has can be used by the entire organization circumstances, using what methods
[Wikipedia] [The Data Governance Institute]
Компоненты Data Governance

Data Architecture

Ассоциация DAMA в DMBOK выделяет


множество компонент управления Data Quality Data Modelling
& Design
корпоративными данными, при этом
опыт программ Data Governance в
России и мире показывает, что Metadata Data Storage
основными фокусными областями & Operations
обычно становятся задачи: Data
• Управления качеством данных Governance
• Управления мастер-данными Data Warehousing &
Data Security
Business Intelligence
• Управления метаданными

Данная презентация фокусируется Data Integration


на задачах управления метаданными Reference & & Interoperability
Master Data
Documents
& Content
Содержание

1 Введение. Что такое Data Governance

2 Управление метаданными

3 Data Lineage

4 Роли и процессы
Что такое управление метаданными: что-то радикально
новое или известное со времен античности?
Если вы думаете, что метаданные - это что-то радикально новое, появившееся в эпоху цифровой трансформации, то вы ошибаетесь. Около 290 лет
до н.э. хранители библиотек прикрепляли небольшие свисающие ярлыки к концу каждого свитка. Ярлыки содержали информацию об авторах,
названиях и тематике свитков. Наверное, можно сказать - это был день рождения метаданных ...

Начиная с ~2005
Первое поколение специализированных
инструментов для управления метаданными.
1968 Основывались на идее общей модели метаданных -
Термин «метаданные» введен Филипом Common Warehouse Metamodel (CWM).
Бэгли в его книге «Расширение концепций
290 лет до н.э языка программирования».
Использовались на практике очень ограниченно.
Первое зарегистрированное использование
метаданных в Александрийской библиотеке.
Греческий грамматик и литературный критик
Зенодот прикрепил к концу каждого свитка
небольшой ярлык. Он содержал информацию об
авторе, названии и теме каждой работы.

1800-ые
Современное использование
метаданных. Фотографы 1980-ые
выцарапывают имена, даты и места на Ряд производителей ПО начинают
дагерротипе. разрабатывать программные Начиная с ~2015
системы для управления Современное поколение инструментов
бумажными документами. управления метаданными. Появление
требований регуляторов (например,
BCBS 239).
Типичные проблемы при отсутствии внимания
к управлению метаданными
Этапы процессов, на которых возникают проблемы

Сбор и оценка бизнес-требований • Данные описываются в WORD и EXCEL документах


• Огромное количество времени и денег тратится на развитие
Дизайн модели данных и сопровождение систем из-за отсутствия описания данных
• Невозможность проанализировать влияние изменений
Спецификации для потоков данных источников данных на аналитику и отчетность Организации,
большое количество «побочных эффектов»
Подготовка управленческой отчетности • Сильная зависимость от знаний конкретных людей

Стандартные симптомы проблемы


«…в хранилище уже доступны >10 вариантов показателей по «…очень часто из-за изменений в системах-источниках
выручке… когда мы обратились к технологам с вопросом какой у нас «отваливаются» куски хранилища и отчетности…
использовать, т.к. методология расчета была им не известна, устранение иногда занимает месяцы»
они посоветовали создать новый вариант в соответствии с
нашими требованиями» «… периодически нам бывает нужна дополнительная информация,
«…у нас есть 3 системы…- в каждой из них выручка которая есть в Организации, но мы не знаем к кому обратиться
рассчитывается по-разному и нигде не описан алгоритм расчета» … спрашиваем в курилках, что есть/чего нет»
Управление метаданными – от бизнес требований
к автоматизации разработки
Наша концепция управления метаданными, моделями данных, а также правилами трансформации основана на подходе
«сверху-вниз» - от бизнес требований к технической реализации. Система управления метаданными выступает как в роли
системы для формирования требований, так и системы интегрирующей бизнес и технические метаданные

Бизнес и организационные Система управления метаданными


метаданные • Единая база для ведения бизнес, организационных и
Бизнес (сущности, атрибуты, технических метаданных (бизнес модели данных)
аналитики
владельцы, потребители и др.) • Интеграция бизнес метаданных с техническими

PowerDesigner (или аналог)


Модель данных • Ведение логических и физических моделей данных
Разработчики (логическая и физическая) • Возможность формирования данных моделей на
моделей
основе бизнес модели данных

Мэппинги
Мэппинг S2T • Ведение правил мэппинга
Системные
аналитики • Генерация правил ETL

ETL инструменты
Технические метаданные ИС • ETL инструменты, осуществляющие
ИТ (ETL, BI, СУБД и др.) загрузку и трансформацию данных на
разработчики
основе сгенерированных правил
Демонстрация решения по управлению метаданными
Содержание

1 Введение. Что такое Data Governance

2 Управление метаданными

3 Data Lineage

4 Роли и процессы
Data Lineage: подход «снизу-вверх»
Демонстрация на примере одного из средств data linage

В случае отсутствия метаданных, связанных с преобразованиями данных, они могут быть автоматически извлечены с
помощью инструментов Data Lineage

Подход “снизу-вверх”
• Позволяет провести reverse-engineering
существующих потоков данных путем
парсинга метаданных ETL и скриптов SQL
• Объединяет и визуализирует потоки данных
из разнородных инструментов и позволяет
разработчику оценить влияние тех или
иных изменений в коде
• Не может гарантировать получение 100%
метаданных, в первую очередь это касается
кода на динамическом SQL, а также
файлового обмена
• Поток детальных технических метаданных
приносит пользу разработчикам процессов
интеграции данных, но чаще всего
оказывается слишком детальным и
сложным для понимания аналитикам и
бизнес-пользователям
Data Lineage: подход «сверху-вниз»
Подход к Data Lineage сверху-вниз базируется на подходе, когда сначала формируется спецификация – Source-2-Target (S2T)
mapping, затем они реализуются. S2T mapping-и ведутся в инструменте управления метаданными. Введенная информация
может использоваться для анализа Data Lineage, постановки задач разработчикам и генерации ETL

S2T mapping
Аналитики формируют мэппинги в Excel или Система
Power Designer, которые затем загружаются управления
в Alteryx Connect для: метаданными Подход “сверху-вниз”
• Анализа потоков данных
• Позволяет предоставить уровень
• Для постановки задач разработчикам ETL
детализации метаданных, который
необходим аналитику, не перегружая его
многими техническими деталями (такими
Разработка моделей данных Разработка моделей данных как временные таблицы, служебные
объекты и т.п.)
Разработка ETL

Разработка ETL
• Идеально подходит для процессов
управления данными и жизненным циклом
данных
Аналитические • Не требует приобретения дорогостоящих
Системы - источники Хранилище данных коннекторов для ETL и парсеров SQL
инструменты

ETL ETL
Содержание

1 Введение. Что такое Data Governance

2 Управление метаданными

3 Data Lineage

4 Роли и процессы
Ключевые роли Data Governance: Теория
Владелец данных и Data Steward

Владелец данных Data Steward


Обязанности Обязанности
• Отвечает за полноту и качество описания • Обеспечивает полноту и качество описания
метаданных, обеспечивает выделение необходимых метаданных
для этого ресурсов • Анализирует качество данных
• Принимает стратегические решения по вопросам • Определяет правила контроля качества данных
улучшения качества данных, формирует требования
• Организует процесс решения инцидентов качества
к качеству данных
данных
• Участвует в согласовании изменений, влияющих на
состав и качество данных
• Участвует в назначении Data Steward и определяет
его временной ресурс
Мотивация Мотивация
• КПЭ по полноте и качеству описания метаданных • КПЭ по полноте и качеству описания метаданных
• КПЭ по качеству данных • SLA и КПЭ по качеству данных
Роли в процессе управления данными Практика
Пример возможной ролевой модели
Комитет по управлению данными

Бизнес (аналитические подразделения) Бизнес (производители данных)


Ответственный за описание всех атрибутов
Владелец домена и других метаданных в его домене Владелец данных Ответственность за качество данных
Обеспечение высокого качества контента в бизнес-
Архитектор домена глоссарии, взаимодействие со смежными подразделениями
по части атрибутов Организация процесса решения
Data steward инцидентов качества данных
Ответственный за правильность описания атрибутов,
Владелец атрибута владельцем которых он является

DG подразделение

Менеджер бизнес-метаданных Обеспечение функционирования бизнес-глоссария, в т.ч. контроль правильности


домена для атрибутов заявки, методология создания качественных метаданных

CDO Менеджер аналитиков Бизнес-сервис по изменению ХД и аналитических систем


Ответственный за
управление данными DQ менеджер Ответственный за управление качеством данных, дизайн и настройка
индикаторов качества данных

IT

Проектировщик модели данных Проектирование модели данных Разработчик Разработка ETL и отчетов в ХД

Системный аналитик Source-to-target mapping Технический Data Steward Разрешение инцидентов качества данных в системе
Жизненный цикл данных и управление метаданными

Бизнес-требования
Создание / изменение Формирование / согласование бизнес-
требований к данным правил, индикаторов качества данных
Создание / изменение,
согласование Терминов

Управление
метаданными Модель данных и технические метаданные
Дизайн модели данных Формирование / изменение
технических метаданных

Системный анализ и разработка


Определение связей между описанными Разработка
объектами и моделью данных ETL и отчетов
Анализ влияния объектов друг на друга
Определение мэппингов source-2-target
Процесс управления бизнес-глоссарием
и развития аналитического контура
Бизнес-блок ИТ-блок

Владелец запроса Архитектор домена Системный аналитик


Формирование Запроса на: • Валидация принадлежности • Создание технической
• Создание новой витрины Терминов к домену спецификации
• Создание нового отчета / выгрузки • Определение владельца атрибута • Создание source-to-target mapping
• Изменение существующего • Назначение владельцев атрибута
отчета / выгрузки

Аналитик Владелец атрибута Разработчик


• Формирование Бизнес-требований • Подтверждение корректности • Разработка ETL и отчетов
и Набора данных согласно Запросу созданных / измененных Терминов
• Описание новых Терминов • Обновление описания
изменение существующих справочников при необходимости
• Предложение домена /
владельца атрибута

Менеджер бизнес-метаданных Проектировщик модели данных Владелец домена


• Проверка соблюдения • Формирование модели данных Архитектор домена
стандартов бизнес-глоссария • Связь модели данных • Финальное подтверждение
• Определение домена и бизнес-глоссария полноты и качества метаданных
• Оповещение потребителей данных
Контакты

Алексей Ильин

http://ru.adastragrp.com
Alexey.ilyin@adastragrp.com
+7 916 103 16 54