Вы находитесь на странице: 1из 26

SAS Data Quality

Ларичев Глеб
Старший бизнес-консультант

Copyright © 2013, SAS Institute Inc. All rights reserved.


Определение термина качество данных

Данные признаются качественными, "если они


пригодны для использования по своему прямому
назначению в операционной деятельности, при
принятии решений и для планирования"

Data are of high quality "if they are fit for their
intended uses in operations, decision making
and planning"
(J. M. Juran)
http://en.wikipedia.org/wiki/Data_quality

Copyright © 2013 SAS Institute Inc. All rights reserved.


Наиболее востребованные способы очистки данных

Анализ данных и стандартизация


 Профилирование данных
 анализ согласованности
 схемы стандартизации
 проверка целостности
 синтаксический и грамматический разбор и
форматирование.

Приведение в соответствие и слияние


 дедупликация данных
 поиск связей (анализ взаимозависимых данных)

Проверка корректности контактной информации


 Верификация и обогащение адресов (по базе КЛАДР)
 Верификация и обогащение телефонов (на основе
информации КЛАДР)

 Геокодирование или другое обогащение данных из


внешних источников

Copyright © 2013 SAS Institute Inc. All rights reserved.


Распространённые заблуждения о качестве данных

Улучшение качества данных Данные


устаревают
единоразовый процесс
• 4.7 млн. рождённых в Великобритании в данный момент живут
за границей
• 3+ млн. граждан изменили своё семейное положение в EU (2009/2010)
• ~2% записей персональных данных устаревают в течении одного месяца так как
люди умирают, разводятся, женятся и переезжают.
Необходим
постоянный
Качество данных – инициатива IT контроль

• 36% бизнес пользователей жалуются, что IT не понимает их запросов


• 46% CIO обвиняют бизнес в непредоставлении достаточной информации для
реализации бизнес-требований
• 77% CIO признают необходимость взаимодействия с бизнес-пользователями в
вопросах качества данных
Исследование Accenture, Август, 2013

Copyright © 2013 SAS Institute Inc. All rights reserved.


Распространённые заблуждения о качестве данных
Качество
данных-задача

Качество данных, задача для всей


организации

отдельного проекта
Американка отсудила $18.6млн у компании Эквифакс после двух лет попыток
изменить недостоверные данные в своей кредитной истории
Люди меняют
Культуру
Качество данных=очистка данных Данных
Очистка данных это часть процесса получения качественных данных

Кто владеет Плохими Данными Участие


ЛПР
Без подключения ЛПР в процессы управления данными невозможно
установить ответственных за Плохие данные

Copyright © 2013 SAS Institute Inc. All rights reserved.


Комплексный подход к управлению качеством данных

Управление качеством Данных -


дисциплина, включающая в себя
людей, технологии и процесс для
создания единой,
непротиворечивой, точной и
надежной информации в
организации.

Copyright © 2013 SAS Institute Inc. All rights reserved.


1. Процесс
Итерационный подход к улучшению данных

Copyright © 2013, SAS Institute Inc. All rights reserved.


Традиционный подход к решению задач качества данных

Copyright © 2013 SAS Institute Inc. All rights reserved.


Итерационный подход к решению задач качества данных

Исследование данных

Возврат к
исследованию
данных
Определение
ошибок
в данных

Исправление Назначение
выявленных ответственных
ошибок за исправление

Copyright © 2013 SAS Institute Inc. All rights reserved.


Формулирование терминов и источников
SAS Data Quality (Методология) используемых пользователями
Обновление и Улучшение систем и процессов
Формулировка
терминов
Согласование
Пользователь
изменений данных,
Контроль проверок
ИТ Эксперт DQ Аналитик Профилирование для понимания реального
качества входных данных
Сравнение и Мониторинг Текущее против
Ожидаемого, ведение изменений Что в данных?

DQ Аналитик
Публикация
данных,
Оценка изменений
DQ Аналитик Пользователь
Создание бизнес-правил для проверки
данных, настройка DQ-сервисов для
улучшения данных
Встроенные в операционные системы
и процессы DQ Сервисы и Бизнес- Выполнение процедур
и сервисов
Что в данных
правила Мониторинга данных
обеспечения качества должно быть?
данных Пользователь DQ Аналитик
ИТ Эксперт

Copyright © 2013 SAS Institute Inc. All rights reserved.


2. Технологии
Что внутри?

Copyright © 2013, SAS Institute Inc. All rights reserved.


SAS Data Quality Ключевые технологические возможности

Очистка “грязных” данных:


• Мощные инструменты очистки и дедубликации текстовых данных (грамматики,
словари,
SAS Quality
фонетика и др.) MDM
• Мощные инструменты очистки числовых данных (статистика, выбросы,
пропущенные значения и др.)
• Настраиваемые правила, визуальные инструменты SAS Data
• Локализация для России, поддержка КЛАДР Management
• Детерминированные алгоритмы – повторяемый результат

Мониторинг и контроль качества данных


• Проверка Real-Time (на этапе ввода в транзакционные системы)
SAS Data
Обогащение данных и аналитика Quality

• Обогащение данных из внешних источников


• Типовые задачи (определение пола, родственных связей и др.)
• Интеграция с аналитическими решениями
SAS (Scoring, Anti-Money Laundering и др.) – мощные средства аналитики

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Quality Quality Knowledge Base – База Знаний о Качестве данных

Quality Knowledge Base (QKB) – предоставляет правила, словари,


грамматики, фонетику и процессы для обеспечения качества данных,
интегрированного в системах управления НСИ:
- Стандартизация
- Грамматический разбор (парсинг)
- Проверка шаблона написания
- Построение кодов нечеткого поиска
- Анализ пола
- Идентификация типа (Юрлицо/Физлицо, тип ДУЛ и пр.)
- Выделение значимой части из строки текста

QKB является открытой, расширяемой, дорабатываемой базой знаний и


предоставляет готовое решение для информации о клиенте или контрагенте,
закупках и пр., включает локализацию для множества языков и более 30
стран.

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Quality QKB для здравоохранения (QKB HL v2.0)

Включает дополнительные типы данных:


 диагнозы (diagnosis)
 грамматический разбор
 стандартизация
 построение матч кодов
 рецепты (prescription)
 грамматический разбор
 стандартизация
 анализы (lab results)
 построение матч кодов
 стандартизация
 лпу (provider identifiers)
 идентификация
 стандартизация

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Quality QKB для здравоохранения (QKB HL v2.0)

QKB HL содержит правила для стандартов:


• ICD-9 (World Health Organization International
Classification of Disease)
• ICD-10
• SNOMED (Standard Nomenclature for Medical
Terminology)
• NPI (Medicare’s National Provider ID)
• ME (American Medical Association’s Medical
Education)
• NDC (US Food and Drug Administration’s
National Code Directory)

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Quality Ядро системы: Локализованная база знаний QKB RURUS (CI)

 С 2007 года существует и развивается локализация базы


знаний QKB для русского языка и России
 База содержит более ½ миллиона имен и фамилий, около 150
тысяч географических названий в РФ (по КЛАДР), десятки
правил грамматического и фонетического разбора и пр.
 Реализованы категории: ФИО, паспорт, адрес (короткий,
полный), телефоны, название организации и пр.
 Обогащение по базам КЛАДР, номерных ёмкостей операторов,
замены номерных ёмкостей и пр.
 Реализован механизм проверки и обогащения данных о
юридических лицах из ИС СПАРК
 Реализован анализ и корректировка отдельных латинских букв
в русских словах (C→C, A →A, и пр.)
 Реализованы проверки кодов ИНН, ОГРН, ОГРНИП, и др.,
Gartner DQ Tools 2012 кросс-проверки адреса, телефонов, паспортных данных и пр.

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Quality  Интерфейс редактирования базы знаний

База знаний не является


«черным ящиком» !

Встроенные
инструменты
редактирования
алгоритмов обработки
данных и создания
методов для новых
типов обрабатываемых
данных

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Management Универсальный интеграционный слой

 Реляционные базы данных


 Oracle, DB2, Informix, Microsoft SQL Server, MySQL, ODBC,
SAS OLE-DB, Sybase, Sybase IQ, Teradata
MDM/Data
Governance
 Программно-аппаратные средства построения Хранилищ Данных
SAS Data
 Aster nCluster, Greenplum, Microsoft Parallel Data
Management Warehouse, Netezza, ParAccel, Sun Oracle Database
Machine [Exadata], HP Vertica
 Распределенные файловые системы
SAS Data
 Hadoop Distributed File System
Quality
 Нереляционные базы данных
 ADABAS, Datacom, CA-IDMS, IMS, PC Files, SAP R/3,
System 2000 software
 Полная поддержка веб-интерфейсов и очередей

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Quality MDM УПРАВЛЕНИЕ НСИ НА ОСНОВЕ ТЕХНОЛОГИЙ SAS Data Quality
Модель на
основе ролей
Тонкий клиент
• Интерфейс пользователей на
основе ролей
• Гибкая настраиваемая модель
справочников
• Встроенные настраиваемые
правила схлопывания,
профилирования, настройки
Результаты поиска:
Золотые записи и записи бизнес-правил, очистки данных
первоисточники • Управление иерархиями и
взаимосвязями справочников
• Простой понятный
пользователю интерфейс
работы со значениями
справочников
Мульти-доменное • Управление Workflow
решение - не только
Нечёткий • Встроенная отчетность
справочник клиентов
поиск Простое построение
иерархий и поиск в них

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS Data Management Platform

1. Прямой доступ к множеству источников

Enterprise Data Access


2. Профилирование, 3. Извлечение,
Очистка, Трансформация,
Стандартизация Загрузка и
Имён/Адресов,
Data Quality Data Integration объединение данных
Проверка Адресов и из различных
мониторинг качества источников
данных 4. Единый взгляд на значимую для бизнеса информацию

Master Data Management

Data Governance
5. Согласование действий IT с бизнес целями компании.

Copyright © 2013 SAS Institute Inc. All rights reserved.


3. Люди
Какую помощь готов предложить SAS?

Copyright © 2013, SAS Institute Inc. All rights reserved.


Оценка качества данных (SAS Data Quality Assessment)
• Исследование данных Вашей организации средствами SAS Data Quality;
• Формирование отчёта о качестве данных;
• Формулирование рекомендаций по дальнейшим шагам по улучшению данных;

Обучение основам использования технологий SAS Data Quality


• Глубокое изучение вашими сотрудниками технологий SAS DQ;
• Обучение методологическим основам процесса получения и поддержания
качественных данных в организации;

Внедрение технологий SAS Data Quality любой сложности:


• Уровень отдельной бизнес-задачи;
• Уровень отдельного подразделения или ограниченной области данных;
• Уровень организации и её полного информационного поля.

Построение комплексной системы управления НСИ

Copyright © 2013 SAS Institute Inc. All rights reserved.


Клиенты SAS в государственном секторе
Федеральные службы статистики: Бразилия, Португалия,
Гонконг, Австралия, Германия, Эстония, Дания, Индия,
Бельгия, Корея
Федеральные налоговые службы: США, Корея, Франция,
Филиппины, Австралия
Министерства здравоохранения: США, Дания, Индия, Канада,
Франция, Швеция
Федеральные миграционные/таможенные службы: Австралия,
США, Корея
Силовые министерства и ведомства: Великобритания, США,
Сингапур, Саудовская Аравия, Бельгия, Швеция
Федеральные финансово-экономические службы:
Великобритания, США, Япония, Италия, ЮАР, Франция

Copyright © 2013 SAS Institute Inc. All rights reserved.


SAS = 36 лет работы с данными в государственном секторе
70% ресурсов при внедрении аналитической системы тратятся на подготовку
данных необходимой полноты и качества

Каким бы не был
Совершенным
аналитический механизм,
плохие данные не
позволят добиться
требуемого качества
анализа

Copyright © 2013 SAS Institute Inc. All rights reserved.


Признанный мировой лидер в технологиях подготовки данных

Leader in Data Quality


Tools

Champion in Data
Profiling & Discovery

Ranked No. 1 for Data


Quality Technology

Provides All Data


Mastery Components

Copyright © 2013 SAS Institute Inc. All rights reserved.


Спасибо за внимание
Глеб Ларичев
Gleb.Larichev@sas.com

Copyright © 2013, SAS Institute Inc. All rights reserved.

Оценить