Вы находитесь на странице: 1из 6

UNIVERSIDAD TECNOLÓGICA DE PANAMÁ

FACULTAD DE INGENIERÍA DE SISTEMAS

COMPUTACIONALES

LICENCIATURA EN INGENIERIA EN SISTEMAS DE INFORMACIÓN

Grupo:

1IF-251

Data Cleaning

Presentado por:

Osorio, Estrella 8-912-328

Profesor:

Arturo Murillo
Panamá, 29 de abril de 2019
Índice

 Desarrollo
o Data cleansing
o Proceso de limpieza de datos
 Explicación
 Justificación
 Conclusión
Data Cleansing

La limpieza de datos data cleansing o


scrubbing es un proceso necesario para
asegurar la calidad de los datos que se
emplearán para analytics. Este paso es
fundamental para minimizar el riesgo que
supondría el basar la toma de decisiones en
información poco precisa, errónea o
incompleta.

Proceso de limpieza de datos:


 Auditoría de Datos: Los datos son
revisados con el empleo de métodos estadísticos de descubrir anomalías y
contradicciones. Esto tarde o temprano da una indicación de las características de
las anomalías y sus posiciones.
 Definición de Workflow (Flujo de Trabajo): La detección y el retiro de anomalías
son realizados por una secuencia de operaciones sobre los datos sabidos como el
workflow. Para alcanzar un workflow apropiado, se debe identificar las causas de
las anomalías y errores. Si por ejemplo encontramos que una anomalía es un
resultado de errores de máquina en etapas de entrada de datos, la disposición del
teclado puede ayudar en la solución de posibles problemas.
 Ejecución de Workflow: En esta etapa, el workflow es ejecutado después de que
su especificación es completa y su corrección es verificada. La implementación del
workflow debería ser eficiente aún sobre los juegos grandes de los datos que
inevitablemente plantean una compensación, porque la ejecución de la operación
limpiadora puede ser cara.
 Postproceso y Control: Los datos que no podían ser corregidos durante la
ejecución del workflow deberán ser corregidos manualmente, de ser posible. El
resultado es un nuevo ciclo en el proceso de limpieza de datos donde los datos
son revisados nuevamente para ajustarse a las especificaciones de un workflow
adicional y realizar un tratamiento automático.
Explicación

 El data cleansing es el proceso de detectar y corregir registros incorrectos


corruptos de unos conjuntos de datos, tablas o base de datos; donde se identifican
las partes incompletas, incorrectas, inexacta e irrelevantes, para sustituir, modificar
o eliminar los datos erróneos.
Justificación

 La data cleansing es una herramienta importante para utilizarla en el


negocio ya que te ayuda a depurar las bases datos y la data importante que
se utiliza, ya que se encarga de depurar, modificar y eliminar los datos
erróneos, que no son necesarios. Es importante esta información ya que es
un conocimiento extra que se puede utilizar en las empresas para facilitar el
proceso de la información.
Conclusión

 Data Cleansing no solo es una herramienta eficaz para eliminar datos no


deseados, erróneos, irrelevantes, sino que también es el medio para que
los datos de las bases de datos y de los sistemas se adapten, sean
selectivos y apropiados para poder atender mejor a los clientes, brindarles
mejor servicios y atender sus demandas.

Вам также может понравиться