Вы находитесь на странице: 1из 16

VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETL

INTEGRANTE
ELVIA MARIA GENEZ PADILLA

INSTRUCTORA DIANA MARCELA CRUZ SUAREZ


INGENIERA DE SISTEMAS, ESPECIALISTA EN GERENCIA DE PROYECTOS Y DISEÑO
DE BASES DE DATOS

SERVICIO NACIONAL DE APRENDIZAJE SENA


PROGRAMA DE FORMACIÓN
ESPECIALIZACIÓN TECNOLÓGICA EN GESTIÓN Y SEGURIDAD DE BASES DE
DATOS
MODALIDAD VIRTUAL
2019
ALCALDIA DE SAN ANTONIO DEL SENA MIGRACIÓN: SECRETARÍA DE HACIENDA

TÉCNICAS EXISTENTES

Existen varias técnicas relacionadas con los procesos de migración de datos, a


continuación, se relacionan las más utilizadas en los procesos actuales.

SINCRONIZACIÓN DE BASE DE DATOS

Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer


que dos bases de datos sean equivalentes en el mismo tiempo.

Se logra mediante la copia de datos y metadatos de una base de datos origen a


una base de datos destino mediante una herramienta tecnológica. Los asistentes
de sincronización de los SMBD son configurados con las bases de datos origen y la
base de datos destino, parametrizando la ubicación de particiones y métodos de
seguridad.

IMPORTACIÓN/EXPORTACIÓN DE ARCHIVOS (CSV) O XML A TRAVÉS DE

COMANDOS DE CONSOLA O INTERFAZ GRÁFICA

Para las actividades de migración de datos es muy común utilizar archivos para el
movimiento de los datos. Se pueden utilizar diferentes tipos de archivos, pero los
formatos más usados son los archivos de texto, llamados archivos planos, que
guardan la información sin formato usando solo caracteres.

Los sistemas de codificación más comunes para estos archivos son: ASCII, ISO-
8859-1 o Latín-1 y Unicode.

Los archivos de texto pueden tener formato delimitado utilizando coma (,), punto
y coma (;) o Tabulaciones para delimitar los campos definiendo de esa forma
columnas y filas. También pueden tener formato de ancho fijo para los campos,
que se utiliza para delimitar columnas y filas.

Un formato de archivo plano muy usado es el “.CSV” (Comma-Separated-Values,


en español Valores Separados por Coma), donde el delimitador usado es una
coma. Muy usado para movimientos de datos con hojas de cálculo.

Otro formato útil para la migración de datos es el “.XML” (eXtensible Marckup


Language), que utiliza un metalenguaje extensible de etiquetas las cuales sirven
como estándar para intercambio de información estructurada entre distintas
plataformas.

SENTENCIAS DML

Una posibilidad de los SMBD es la utilización de sentencias DML para generar


scripts SQL que permiten realizar migraciones de bases de datos existentes.

En un script SQL se pueden realizar las siguientes tareas:

 Copia de seguridad para creación de todos los usuarios, grupos,


inicios de sesión y permisos.
 Creación o actualización de código para la implementación de una
base de datos.
 Creación de un entorno de pruebas.

Los procesos se orientan al uso de las sentencias DML, para realizar el paso de
datos de la base de datos de origen a la base de datos destino, a través de los
entornos administrativos de los SMBD.

PROCEDIMIENTOS ETCL (EXTRACCIÓN, TRANSFORMACIÓN, LIMPIEZA Y CARGA)

Esta técnica se basa en el diseño y construcción de procedimientos técnicos para


realizar Extracción, Transformación, Limpieza y Cargue de Datos (ETCL). Los
procedimientos o pasos necesarios para el desarrollo de un proyecto de migración
de datos utilizando la metodología ETCL son:

En todo proceso de migración, se ha de proceder a integrar dos o más sistemas


por lo cual pueden usarse diferentes técnicas, siendo las más comunes:

 Perfilado de datos: Permite explorar los propios datos, agregando a los de


origen las reglas necesarias. Esta técnica hace posible también el obtener
resultados acerca de duplicidades o errores en los datos.
 Limpieza de datos: Puede llevarse a cabo empleando para ello una
herramienta de Data Quality que ayude a eliminar errores, incorrecciones
o duplicidades, entre otras inconsistencias; y que, al mismo tiempo,
enriquezca y homologue los datos, preparándolos para el sistema de
destino.
 Conexión a distintas fuentes de datos: Técnica que precisa de una
herramienta ad hoc que garantice el hacerlo en condiciones de
simultaneidad.

Las ventajas que proporciona el usar estas tecnologías se traducen en un aumento


de la precisión, reducción del índice de errores, mayor agilidad y optimización del
tiempo; ya que su automatización evita los procesos manuales, algo que supone
su principal beneficio.
QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE DE ETL

Existen muchas herramientas de ETL diferentes, como también hay infinidad de


bases de datos, sistemas y organizaciones distintas. En el momento de seleccionar
la que liderará la migración e integración de datos pueden tomarse en
consideración las recomendaciones de Gartner en cuanto a las cualidades que la
herramienta ha de presentar:

 Adaptabilidad a distintos sistemas operativos y plataformas hardware.


 Capacidades de gestión de datos: en cuanto a minería, perfilado y
calidad.
 Habilidades para monitorizar, gestionar y controlar los procesos de
integración de datos: en lo relativo a gestión de errores, recolección de
estadísticas de ejecución, controles de seguridad, etc.
 Capacidades SOA.
 Capacidades de diseño y entorno de desarrollo: como soporte para test,
representaciones gráficas, modelos y flujos de datos y flujos de datos, etc.
 Cualidades de arquitectura e integración referidas al grado de
interoperabilidad, compactación y consistencia de los diferentes
componentes que la formen.

Aunque la elección de un software de ETL no es sencilla, su repercusión en el curso


del proyecto es decisiva. Una decisión correcta pasa por la automatización y en
base a ella quedan garantizados:

 Un aumento en la velocidad de desarrollo del proyecto.


 La descentralización del control de la ejecución y de todos los procesos.
 Una mayor agilidad en el negocio.
 Mayor precisión.
 Minimización de errores.
HERRAMIENTAS ETCL

APLICACIÓN DE USO LIBRE

Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 –
2014, hecha en java y trabaja con base a lenguajes de base de datos PostgreSQL o
MySQL.

Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos
de fuente de datos XML. Para recuperar los datos que tendrán que definir un dato
de tiempo y una entidad,

Que está representado por datos a calcular o para mostrar. Todos los objetos
útiles serán creados por Benetl dentro de una base de datos MySQL o PostgreSQL.
La aplicación también es capaz de recuperar automáticamente los datos mediante
el uso de diversas tareas planificadas de su sistema.

Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información


de los archivos de datos planos, la organización y el filtrado de acuerdo con su
dato de tiempo y entidad.
Caracteristicas Benetl
 Tecnologias:
o Java 7 update 80
o PostgreSQL 9.5.0 (con el apoyo plpgsql)
o MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de
usuario (para controlador suministrado)
o Con Windows (se utiliza "tareas programadas")
o Benetl 4.7 funciona en Linux.
 Requerimientos Tecnicos:
o ejecución de Java (JRE) 1.7
o base de datos PostgreSQL 9.5 con soporte plpgsql
o base de datos de MySQL 5.6 con OLD_PASSWORD la función de
inicio de sesión de usuario o el controlador oficial de MySQL (no
incluido)
o Probado en sistemas de 64 bits
 Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el
nombre de la tabla de PostgreSQL o tabla de MySQL donde se
almacenan las líneas de datos.

Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen de


datos.

Debe presionar enter para validar su nombre EtlTool, y luego se pueden


guardar los parámetros.
APLICACIÓN SMBD SELECCIONADO

SQL SERVER INTEGRATION SERVICES:


Microsoft Integration Services es una plataforma para la creación de soluciones
empresariales de transformaciones de datos e integración de datos. Integration
Services sirve para resolver complejos problemas empresariales mediante la copia
o descarga de archivos, el envío de mensajes de correo electrónico como respuesta
a eventos, la actualización de almacenamientos de datos, la limpieza y minería de
datos, y la administración de objetos y datos de SQL Server. Los paquetes pueden
funcionar en solitario o junto con otros paquetes para hacer frente a las complejas
necesidades de la empresa. Integration Services puede extraer y transformar
datos de diversos orígenes como archivos de datos XML, archivos planos y
orígenes de datos relacionales y, después, cargar los datos en uno o varios
destinos.

Integration Services contiene un variado conjunto de tareas y transformaciones


integradas, herramientas para la creación de paquetes y el servicio Integration
Services para ejecutar y administrar los paquetes. Las herramientas gráficas de
Integration Services se pueden usar para crear soluciones sin escribir una sola línea
de código. También se puede programar el amplio modelo de objetos de
Integration Services para crear paquetes mediante programación y codificar
tareas personalizadas y otros objetos de paquete.

El SSIS Import/Export Wizard permite mover datos de origen a destino sin


modificar los datos del origen y permitiendo hacer iteraciones y cambios de
información antes de llegar al destino dentro de tablas de ETL. Se pueden importar
datos de fuentes diferentes a SQL Server.

Con la herramienta Business Intelligence Development Studio, se pueden realizar


tareas de migración fácilmente usando tareas visuales. Si se desea crear nueva
funcionalidad, se pueden crear scripts en c# o VB.

Los paquetes, que son las unidades de almacenamiento de estas tareas de


migración se pueden guardar en archivos dtsx o en la base de datos en formato
XML.

Una vez implementado el paquete puede ser depurado. Caracteristicas SSIS

 Ultima Version: SQL Server 2014 Integration Services


 Requerimientos Técnicos:
o Instalar en un equipo de 64 bits
o Instalar en un servidor dedicado para ETL
o Si requiere las características en tiempo de diseño de Integration
Services, también debe instalar Business Intelligence
Development Studio.
o Si necesita las versiones de 32 bits de las herramientas y del motor
en tiempo de ejecución de Integration Services para ejecutar
ciertos paquetes en modo de 32 bits, también debe instalar
Business Intelligence Development Studio

ORACLE WAREHOUSE BUILDER:

Es una complete herramienta para todos los aspectos de administración de datos


y metadatos. Esta brinda características para asegurar la calidad de datos, que
integran el modelado relacional y multidimensional y que permiten la
administración de todo el ciclo de vida de datos y metadatos
Enterprise ETL Option

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una
opción que puede ser adquirida con Oracle Warehouse Builder como parte de la
edición empresarial del motor de base de datos (Oracle DB Enterprise Edition).

Opciones Avanzadas para Carga de Datos

En grandes implementaciones, más y más procesos se ejecutan en paralelo,


agotando los recursos debido a las grandes cantidades de datos que participan en
la carga.

Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar


cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data
Pump y transportable tablespaces. Esta es una aproximación completamente
diferente al movimiento de datos que se realiza por medio de conjuntos de datos
controlados por el motor de base de datos. Los incrementos en velocidad de carga
se deben entonces a la omisión de las capas SQL tradicionales.

Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es


diseñada en los metadatos de la dimensión. La dimensión captura toda la lógica
que será aplicada a los datos que se insertan dentro de la misma.

Una vez, los usuarios de negocio han decidido que atributos son importantes, el
modelador de datos diseña la dimensión. Con los pasos de ETL el desarrollador ve
esta dimensión como cualquier otra. El siguiente paso es definir cómo efectuar los
cambios y actualizaciones en la dimensión. Warehouse Builder automatiza esto
basado en la definición de la dimensión. La combinación entre estos pasos, el
diseño y la estandarización hacen que los procesos relacionados con dimensiones
lentamente cambiantes presente un alto desempeño en su ejecución.

Traza Lineal de Principio a Fin

Los servicios de administración de dependencias (Warehouse Builder Dependency


Management) le permiten prever el efecto que puedan tener los cambios que se
hagan en cualquier lugar de los metadatos del sistema ETL antes de que estos
puedan afectarlo y deterióralo.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de
manera proactiva. Como un ejemplo (Figura 3), usted puede propagar los cambios
a través de su sistema haciendo uso el Mapping Editor.

Administración de Configuraciones Avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de


desarrollo a producción) es un problema frecuente.

Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo


para configurar los ambientes de desarrollo, pruebas y producción a niveles
separados. Para mover los cambios desde el ambiente de desarrollo a producción,
el código generado en desarrollo es modificado en producción solo en áreas
específicas. Por ejemplo, la información sobre las conexiones es substituida por la
definida en desarrollo.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS.

Tecnica Descripcion
Sincroniz Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos
ación de bases de datos sean equivalentes en el mismo tiempo.
base de Se logra mediante la copia de datos y metadatos de una base de datos origen a una base de
datos datos destino mediante una herramienta tecnológica. Los asistentes de sincronización de los
SMBD son configurados con las bases de datos origen y la base de datos destino,
Parametrizando la ubicación de particiones y métodos de seguridad.
Requ Ventajas Desventajas Tiempo
erimi
entos
Técni
cos
SQL Sql  Es un sistema de  Utiliza 3
SERVER serve gestión de base mucho la semanas.
r de datos. memoria Semana 1:
stand  Es útil para RAM para Análisis
ar manejar y las de datos
obtener datos instalacion Semana 2:
de la red de es y Migración y
redes. Utilización de validación de
 Nos permite software. informaci
olvidarnos de los  No se ón
ficheros que puede Semana 3:
forman la base utilizar Optimizac
de datos. como practicas ión de
 Si trabajamos porque se proceso
en una red prohíben
social nos muchas
permite agregar otros cosas,
servidores de tiene
SQL Server. Por restriccion
ejemplo, dos es en lo
personas que particular.
trabajan con  La relación,
SQL Server, uno calidad y el
de ellos se precio está
puede conectar muy debajo
al servidor de su comparado
otro compañero con oracle.
y así se puede  Tiene muchos
ver las bases de bloqueos a
datos del otro nivel de
compañero con página, un
SQL Server. tamaño de
 SQL página fijo
permite y
administrar demasiado
permisos a todo. pequeño,
También una pésima
permite Implement
que alguien ación de los
conecte su tipos de
datos
variables.
SQLO al
nuestro,
pero sin
embargo
podemos
decirle que
no puede
ver esta
base de
datos,
Pero otro sí.
ORACL Oracle  Oracle es el  Las 3
E Estánd motor de versiones sema
WARE ar base de más nas.
HOUSE datos objeto recientes Sema
BUILDE relacional de Oracle na 1:
R más usado a son la 11g, Anális
nivel 10g, 9g, 8g, is de
mundial. desde el datos
 Puede lanzamient Sema
ejecutarse o original na 2:
en todas las de la 8 se Migra
plataformas, sucedieron ción y
desde una varias valida
Pc hasta un Versiones con ción de
supercompu correccione infor
tador. s, hasta maci
 Oracle alcanzar la ón
soporta estabilidad Sema
todas las en la 8.0.3. na 3:
funciones El motivo Opti
que se de tantos mizac
esperan de fallos fue, al ión
un servidor parecer, la de
"serio": un remodelaci proce
lenguaje de ón del so
diseño de sistema de
bases de almacenam
datos muy iento
completo
(PL/SQL) por causa
que permite
implementa de la
r diseños Introducció
"activos", n de
con triggers extensiones
y orientadas
procedimien a objetos.
tos  El mayor
almacenado Inconvenie
s, con una nte de
integridad Oracle es
referencial quizás su
declarativa bastante precio.
potente. Incluso las
 Permite el licencias de
uso de Personal
particiones Oracle son
para la Excesivame
mejora de la nte caras,
eficiencia, de en mi
replicación e opinión.
incluso Otro
ciertas versiones problema
admiten la es la
administraci necesidad
ón de de ajustes.
Bases Un error
d frecuente
e consiste en
d pensar que
atos basta
distribuidas. instalar el
 El software Oracle en
del servidor un servidor
puede y enchufar
ejecutarse Directamen
en multitud te las
de sistemas aplicacione
operativos. s clientes.
 Existe Un
incluso una Ora
versión cle mal
personal configurad
para o puede ser
Windows 9x, desesperan
lo cual es un temente
punto a lento.
favor para  También es
los elevado el
desarrollado coste
res que se de la
llevan informació
trabajo a n, y sólo
casa. últimament
 Oracle es la e
base de han
datos con comenzado
más a aparecer
Orientación hacía buenos
INTERNET. libros
sobre
asuntos técnicos
distintos de
la simple
instalación y
administrac
ión.

Вам также может понравиться