Вы находитесь на странице: 1из 18

VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL

PRESENTADO POR:
ALEIXO EDER PINEDA RAMIREZ
1881772

ESPECIALIZACIÓN GESTIÓN Y SEGURIDAD DE BASE DE DATOS


SERVICIO NACIONAL DE APRENDIZAJE
MEDELLIN
26 AGOSTO/2019
INTRODUCCIÓN

La migración de datos es un proceso en el cual se traslada o se mueve


información entre bases de datos.
El éxito en una migración de datos depende en gran medida del nivel de
compresión que se llegue a alcanzar acerca del proceso y sus implicaciones.
Existen diferentes técnicas de migración de Base de Datos, por eso se aplicará
un plan de migración en el cual se tomará como referencia una de las cinco
secretarías para implementar un proceso de migración, el proceso tendrá la
misma disposición de información en tres motores de bases de datos donde se
validará la conservación de la integridad de los datos y que no exista la
posibilidad de pérdida de Datos.
SECRETARÍA DE HACIENDA
La migración de datos es un proceso en el cual se traslada o se mueve
información entre bases de datos. Este proceso requiere realizar una serie de
actividades técnicas para traspasar los datos almacenados en las bases de
datos de un sistema a otro.
TÉCNICAS EXISTENTES

Existen varias técnicas relacionadas con los procesos de migración de


datos, a continuación, se relacionan las más utilizadas en los procesos
actuales.

 Sincronización Base De Datos: Es una técnica muy utilizada en


procesos de migración de datos, consiste en hacer que dos bases
de datos sean equivalentes en el mismo tiempo. Se logra
mediante la copia de datos y metadatos de una Base de Datos de
origen a una base de datos destino mediante una herramienta
tecnológica.
Los asistentes de sincronización de los SMBD son configurados
con las bases de datos origen y las bases de datos destino,
parametrizando la ubicación de particiones y método de
seguridad.

 IMPORTACIÓN/EXPORTACIÓN DE ARCHIVOS (CSV) O XML A


TRAVÉS DE CONSOLA O INTERFAZ GRÁFICA
Para las actividades de migración de datos es muy común utilizar
archivos para el movimiento de los datos. Se pueden utilizar
diferentes tipos de archivos, pero los formatos más usados son
los archivos de texto, llamados archivos planos que guardan la
información sin formato usando solo caracteres.
Los sistemas de codificación para estos archivos son:

 ASCII,
 ISO-8859-1,
 LATIN-1
 Unicode.
Los archivos de texto pueden tener formato delimitado utilizando
coma (,), punto y coma (.,) o tabulaciones para delimitar los
campos definiendo de esa forma Columnas y filas, También
puede tener formato de ancho fijo para los campos que se utiliza
para delimitar columnas o filas.
Un formato de archivo plano muy usado es el “.CSV” (Comma-
Separated-values, valores separados por coma), dónde el
delimitador usado es una coma. Muy usado para movimientos de
datos con hojas de cálculo.
Otro formato útil para la migración de datos es el “.XML”
(extensible Marckup Lenguge), que usa un metalenguaje
extensible de etiquetas las cuales sirven como estándar para
intercambio de información estructurada entre distintas
plataformas.
 SENTENCIAS DML
Una posibilidad de los SMBD es la utilización de sentencias DML
para generar scripts
SQL que permiten realizar migraciones de bases de datos
existentes.
En un script SQL se pueden realizar las siguientes tareas:
 Copia de seguridad para creación de todos los usuarios,
grupos, inicios de sesión permisos.
 Creación o actualización de código para la implementación
de una base de datos.
 Creación de un entorno de pruebas.
 Los procesos se orientan al uso de las sentencias DML,
para realizar el paso de datos de la base de datos de
origen a la base de datos destino, a través de los entornos
 administrativos de los SMBD.
PROCEDIMIENTOS ETCL (EXTRACCIÓN, TRANSFORMACIÓN, LIMPIEZA
Y CARGA).
Si bien todas las tareas de un proceso ETL se pueden hacer por separado
(utilizando rutinas de carga de datos, tablas temporales, Query’s ad hoc, etc.)
Lo recomendable es utilizar herramientas especializadas que facilitan la
construcción del proceso de ETL. Esta técnica se basa en el diseño y
construcción de procedimientos técnicos para realizar Extracción,
Transformación, Limpieza y Cargue de Datos (ETCL). Los procedimientos o
pasos necesarios para el desarrollo de un proyecto de migración de datos
utilizando la metodología ETCL son:

Fig. 1 Pasos de migración


Fig. 2 Procesos

En todo proceso de Migración, se ha de integrar dos o más sistemas por lo cual


pueden usarse diferentes Técnicas, siendo las más comunes:
 Perfilado de datos: Permite explorar los propios datos, agregando a los
de origen las reglas necesarias. Esta técnica hace posible también el
obtener resultados acerca de duplicidades o errores en los datos.
 Limpieza de datos: Puede llevarse a cabo empleando para ello una
herramienta de Data Quality que ayude a eliminar errores,
incorrecciones o duplicidades, entre otras inconsistencias; y que, al
mismo tiempo, enriquezca y homologue los datos, preparándolos para el
sistema de destino.
 Conexión a distintas fuentes de datos: Técnica que precisa de una
herramienta ad hoc que garantice el hacerlo en condiciones de
simultaneidad. Las ventajas que proporciona el usar estas tecnologías
se traducen en un aumento de la precisión, reducción del índice de
errores, mayor agilidad y optimización del tiempo; ya que su
automatización evita los procesos manuales, algo que supone su
principal beneficio.
¿QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL
SOFTWARE DE ETL?
Existen muchas herramientas de ETL diferentes, como también hay
infinidad de bases de datos, sistemas y organizaciones distintas. En el
momento de seleccionar la que liderará la migración e integración de datos
pueden tomarse en consideración las recomendaciones de Gartner en
cuanto a las cualidades que la herramienta ha de presentar:
 Adaptabilidad a distintos sistemas operativos y plataformas hardware.
 Capacidades de gestión de datos, en cuanto a minería de Datos,
perfilado y calidad.
 Habilidades para monitorizar, gestionar y controlar los procesos de
integración de datos en lo relativo a gestión de errores, recolección de
estadísticas de ejecución, controles de seguridad, etc.
 Capacidades SOA.
 Capacidades de diseño y entorno de desarrollo: como soporte para test,
 representaciones gráficas, modelos y flujos de datos, etc.
 Cualidades de arquitectura e integración referidas al grado de
interoperabilidad,
 compactación y consistencia de los diferentes componentes que la
formen.
Aunque la elección de un software de ETL no es sencilla, su repercusión en el
curso del proyecto es decisiva. Una decisión correcta pasa por la
automatización y en base a ella quedan garantizados:

 Un aumento en la velocidad de desarrollo del proyecto.


 La descentralización del control de la ejecución y de todos los procesos.
 Una mayor agilidad en el negocio.
 Mayor Precisión.
 Minimización de errores.
HERRAMIENTAS ETCL

Si bien todas las tareas de un proceso ETL se pueden hacer por


separado (utilizando rutinas de carga de datos, tablas temporales,
query’s ad hoc, etc.) lo recomendable es utilizar herramientas
especializadas que facilitan la construcción del proceso ETL.
Algunos ejemplos de estas herramientas que permiten hacer todo ETL o
que auxilian en algunas partes son:

 SQL Server con su Integration Service.


 Kettle en la suite de Pentaho
 Open refine (antes Google Refine).
Fig. 3 Procesos

Fig. 4 Herramientas ETCL


APLICACIÓN DE USO LIBRE
Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007
– 2014, hecha en java y trabaja con base a lenguajes de base de datos
PostgreSQL o MySQL. Esta herramienta se creó para facilitar el trabajo con
archivos TXT, CSV o archivos de fuente de datos XML. Para recuperar los
datos que tendrán que definir un dato de tiempo y una entidad, que está
representado por datos a calcular o para mostrar. Todos los objetos útiles
serán creados por Benetl dentro de una base de datos MySQL o PostgreSQL.
La aplicación también es capaz de recuperar automáticamente los datos
mediante el uso de diversas tareas planificadas de su sistema. Mediante el uso
de Benetl podrá se ha podido recuperar fácilmente la información de los
archivos de datos planos, la organización y el filtrado de acuerdo con su dato
de tiempo y entidad.

Fig. 5 Características Benetl


 Tecnologías:
 Java 7 update 80
 PostgreSQL 9.5.0 (con el apoyo plpgsql)
 MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de
usuario (para controlador suministrado)
 Con Windows (se utiliza "tareas programadas")
 Benetl 4.7 funciona en Linux.
 Requerimientos Técnicos:
 ejecución de Java (JRE) 1.7
 base de datos PostgreSQL 9.5 con soporte plpgsql
 base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio
de sesión de usuario o el controlador oficial de MySQL (no incluido)
Probado en sistemas de 64 bits
 Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el
nombre de la tabla de PostgreSQL o tabla de MySQL donde se
almacenan las líneas de datos. Un archivo llamado "EtlTool.bat" se
creará en la carpeta de origen de datos.
Debe presionar enter para validar su nombre EtlTool, y luego se pueden
guardar los parámetros.

Fig. 6 APLICACIÓN SMBD SELECCIONADO


1. SQL SERVER INTEGRATION SERVICES: Microsoft Integration
Servicies es una plataforma para la creación de soluciones
empresariales de transformaciones de datos e integración de datos.
Integration Services sirve para resolver complejos problemas
empresariales mediante la copia o descarga de archivos, el envío de
mensajes de correo electrónico como respuesta a eventos, la
actualización de almacenamientos de datos, la limpieza y minería de
datos, y la administración de objetos y datos de SQL Server. Los
paquetes pueden funcionar en solitario o junto con otros paquetes para
hacer frente a las complejas necesidades de la empresa. Integration
Services puede extraer y transformar datos de diversos orígenes como
archivos de datos XML, archivos planos y orígenes de datos relacionales
y, después, cargar los datos en uno o varios destinos. Integration
Services contiene un variado conjunto de tareas y transformaciones
integradas, herramientas para la creación de paquetes y el servicio
Integration Services para ejecutar y administrar los paquetes. Las
herramientas gráficas de Integration Services se pueden usar para crear
soluciones sin escribir una sola línea de código. También se puede
programar el amplio modelo de objetos de Integration Services para
crear paquetes mediante programación y codificar tareas personalizadas
y otros objetos de paquete. El SSIS Import/Export Wizard permite mover
datos de origen a destino sin modificar los datos del origen y permitiendo
hacer iteraciones y cambios de información antes de llegar al destino
dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes
a SQL Server. Con la herramienta Business Intelligence Development
Studio, se pueden realizar tareas de migración fácilmente usando tareas
visuales. Si se desea crear nueva funcionalidad, se pueden crear scripts
en c# o VB.
Los paquetes, que son las unidades de almacenamiento de estas tareas de
migración se pueden guardar en archivos dtsx o en la base de datos en formato
XML. Una vez implementado el paquete puede ser depurado.

Características SSIS
Ultima Versión: SQL Server 2014 Integration Services
Requerimientos Técnicos:
Instalar en un equipo de 64 bits
Instalar en un servidor dedicado para ETL
Si requiere las características en tiempo de diseño de Integration
Services, también debe instalar Business Intelligence Development
Studio.
Si necesita las versiones de 32 bits de las herramientas y del motor en
tiempo de ejecución de Integration Services para ejecutar ciertos
paquetes en modo de 32 bits, también debe instalar Business
Intelligence Development Studio.

2. ORACLE WAREHOUSE BUILDER: Es una complete herramienta para todos


los aspectos de administración de datos y metadatos. Esta brinda
características para asegurar la calidad de datos, que integran el modelado
relacional y multidimensional y que permiten la administración de todo el ciclo
de vida de datos y metadatos Enterprise ETL Option

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es


una opción que puede ser adquirida con Oracle Warehouse Builder como parte
de la edición empresarial del motor de base de datos (Oracle DB Enterprise
Edition).
Figura 1 Opciones de Warehouse Builder.
Este resumen ejecutivo cubre únicamente la ETL Enterprise Option como se
muestra en la figura 1.
Opciones Avanzadas para Carga de Datos
En grandes implementaciones, más y más procesos se ejecutan en paralelo,
agotando los recursos debido a las grandes cantidades de datos que participan
en la carga.

Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar


cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data
Pump y transportable tablespaces. Esta es una aproximación completamente
diferente al movimiento de datos que se realiza por medio de conjuntos de
datos controlados por el motor de base de datos. Los incrementos en velocidad
de carga se deben entonces a la omisión de las capas SQL tradicionales.

Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es


diseñada en los metadatos de la dimensión. La dimensión captura toda la
lógica que será aplicada a los datos que se insertan dentro de la misma.
Fig. 8. Dimensiones Lentamente Cambiantes
Una vez, los usuarios de negocio han decidido que atributos son importantes,
el modelador de datos diseña la dimensión. Con los pasos de ETL el
desarrollador ve esta dimensión como cualquier otra. El siguiente paso es
definir cómo efectuar los cambios y actualizaciones en la dimensión.
Warehouse Builder automatiza esto basado en la
definición de la dimensión. La combinación entre estos pasos, el diseño y la
estandarización hacen que los procesos relacionados con dimensiones
lentamente cambiantes presente un alto desempeño en su ejecución. Traza
Lineal de Principio a Fin
Los servicios de administración de dependencias (Warehouse Builder
Dependency Management) le permiten prever el efecto que puedan tener los
cambios que se hagan en cualquier lugar de los metadatos del sistema ETL
antes de que estos puedan afectarlo y deterióralo.
Fig.8. Propagando cambios en el sistema.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema
de manera proactiva. Como un ejemplo (Figura 3), usted puede propagar los
cambios a través de su sistema haciendo uso el Mapping Editor.
Administración de Configuraciones Avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo,


de desarrollo a producción) es un problema frecuente.
Con la Enterprise ETL Option de Warehouse Builder, es posible generar un
modelo para configurar los ambientes de desarrollo, pruebas y producción a
niveles separados. Para mover los cambios desde el ambiente de desarrollo a
producción, el código generado en desarrollo es modificado en producción solo
en áreas específicas. Por ejemplo, la información sobre las conexiones es
substituida por la definida en desarrollo.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS
HERRAMIENTAS.
Técnica Descripción
Sincronización Es una técnica muy utilizada en procesos de migración de datos,
de base de consiste en hacer que dos bases de datos sean equivalentes en el
datos mismo tiempo. Se logra mediante la copia de datos y metadatos de
una base de datos origen a una base de datos destino mediante una
herramienta tecnológica. Los asistentes de sincronización de los
SMBD son configurados con las bases de datos origen y la base de
datos destino, parametrizando la ubicación de particiones y métodos
de seguridad.
Requerimientos Ventajas Desventajas Tiempo
técnicos
SQL SERVER SQL Server Es un sistema Utiliza mucho la
INTEGRATION Estándar de gestión de memoria RAM para
SERVICES base de datos. las instalaciones y
Es útil para utilización de Semana 1:
manejar y obtener software. No se Análisis de
datos de la red depuede utilizar como datos
redes. practicas porque se
prohíben muchas Semana 2:
Nos permite Migración y
cosas, tiene
olvidarnos de los validación
restricciones en lo
ficheros que de
particular. La
forman la base de información
relación, calidad y
datos.
el precio está muy Semana 3:
Si trabajamos debajo comparado Optimización
en una red social con oracle. Tiene de proceso
nos permite muchos bloqueos a
agregar otros nivel de página, un
servidores de tamaño de página
SQL Server. Por fijo y demasiado
ejemplo, dos pequeño, una
personas que pésima
trabajan con SQL implementación de
Server, uno de los tipos de datos
ellos se puede variables.
conectar al
servidor de su
otro compañero y
así se puede ver
las bases de
datos del otro
compañero con
SQL Server.
SQL permite
administrar
permisos a todo.
También permite
que alguien
conecte su SQLO
al nuestro, pero
sin embargo
podemos decirle
que no puede ver
esta base de
datos, pero otro
sí.
ORACLE Oracle Oracle es el Las versiones 3 semanas.
WAREHOUSE Estándar motor de base de más recientes de
Semana 1:
BUILDER datos objeto Oracle son la 11g,
Análisis de
relacional más 10g, 9g, 8g, desde
datos
usado a nivel el lanzamiento
mundial. original de la 8 se Semana 2:
sucedieron varias Migración y
Puede
versiones con validación
ejecutarse en
correcciones, hasta de
todas las
alcanzar la información
plataformas,
estabilidad en la
desde una Pc Semana 3:
8.0.3. El motivo de
hasta un Optimización
tantos fallos fue, al
supercomputador. de proceso
parecer, la
Oracle soporta
remodelación del
todas las
sistema de
funciones que se
almacenamiento
esperan de un
por causa de la
servidor "serio":
introducción de
un lenguaje de
extensiones
diseño de bases
orientadas a
de datos muy
objetos.
completo
(PL/SQL) que El mayor
permite inconveniente de
implementar Oracle es quizás su
diseños "activos", precio. Incluso las
con triggers y licencias de
procedimientos Personal Oracle
almacenados, son excesivamente
con una caras, en mi
integridad opinión. Otro
referencial problema es la
declarativa necesidad de
bastante potente. ajustes. Un error
Permite el uso frecuente consiste
de particiones en pensar que
para la mejora de basta instalar el
la eficiencia, de Oracle en un
replicación e servidor y enchufar
incluso ciertas directamente las
versiones aplicaciones
admiten la clientes. Un Oracle
administración de mal configurado
bases de datos puede ser
distribuidas. desesperantemente
lento.
El software del
servidor puede También es
ejecutarse en elevado el coste de
multitud de la información, y
sistemas sólo últimamente
operativos. han comenzado a
aparecer buenos
Existe incluso
libros sobre
una versión
asuntos técnicos
personal para
distintos de la
Windows 9x, lo
simple instalación y
cual es un punto
administración.
a favor para los
desarrolladores
que se llevan
trabajo a casa.
Oracle es la
base de datos
con más
orientación hacía
INTERNET.

Ediciones de Ideal para... Modelo de Disponibilidad de Precio de


SQL Server licencia canal Open NL
2014 (USD)
Enterprise Rendimiento confiable y Por núcleo** Licencias por $14,256***
completo para satisfacer volumen, hosting
los requisitos de base de
datos y de Business
Intelligence más
exigentes. La edición
Enterprise proporciona
los niveles de servicio y
rendimiento más altos
para las cargas de
trabajo de nivel 1.*
Business Una plataforma amplia Servidor + Licencias por $8,908**
Intelligence que permite a las CAL**** volumen, hosting
organizaciones compilar
e implementar
soluciones de BI
seguras, escalables y
administrables.
Standard Funcionalidad de Por núcleo* Licencias por $3,717***
Business Intelligence y volumen, hosting
administración de datos
básica para cargas de
trabajo que no son
críticas, con recursos de
TI mínimos.
Servidor + Licencias por $931***
CAL**** volumen, hosting,
minorista (FPP)
Developer Versión completamente Por usuario Licencias por $38***
funcional de SQL Server volumen, minorista
que permite a los (FPP)
desarrolladores
compilar, probar y
demostrar aplicaciones
con software de SQL
Server de una manera
rentable.
PRECIO LICENCIA ORACLE
http://www.oracle.com/us/corporate/pricing/price-lists/business-intelligence-
price-list071347.pdf

BIBLIOGRAFIA.
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/353132/ETL-t-
cnicas-demigraci-n-y-tipos-de-software https://platzi.com/blog/que-es-
postgresql/
http://www.oracle.com/technology/products/warehouse/11gr1/datasheets/wareh
ousebuilder-11g-etldatasheet.pdf

Вам также может понравиться