Вы находитесь на странице: 1из 4

Laboratorio 11

INTRODUCCIÓN AL ANÁLISIS DE DATOS

El proceso de identificación de patrones de 6. Unidad de muestreo (objeto de estudio),


comportamiento desde los datos, requiere indicar a que corresponde cada registro de
seguir las siguientes actividades: los datos.
7. Atributo a predecir, indique qué atributo se
pretende predecir, describa el atributo
mediante alguna técnica de visualización de
datos.
8. Descripción de los datos, indicar que se
ha pretendido registrar durante el proceso
de toma de datos, si existe algún caso
especial, no use para este propósito el
diccionario de datos.
9. Diccionario de datos, indicar el significado
de cada atributo, el tipo de dato, el rango de
datos, la codificación, valores nulos.
10. Codificación, describir la codificación de los
atributos categóricos y su significado, apoye
su descripción con histogramas.
COMPRENSIÓN DEL PROBLEMA 11. Datos transformados, verifique si algún
Esta etapa pretende: atributo se ha obtenido aplicando alguna
1. Determinar los objetivos de la investigación. transformación desde los otros atributos,
2. Definir los criterios de éxito del proceso. describa la función de transformación.
3. Calificar la situación desde el punto de vista 12. Descripción de los datos. Use alguna
del analista, experiencias previas, técnica de descripción de datos para
disponibilidad de suficientes datos. visualizar las relaciones entre ellos, apoye
4. Determinar el plan de trabajo del proyecto. su descripción con histogramas o alguna
otra técnica de visualización.
COMPRENSIÓN DE LOS DATOS. 13. Exploración de los datos. Obtenga la
Esta etapa usa técnicas de análisis exploratorio matriz de correlación lineal de datos y
de los datos y de visualización con la finalidad verifique si se puede eliminar algún atributo.
de familiarizar al analista con los datos 14. Verificar la calidad de los datos. Aquí se
intentando descubrir alguna desde ellos. realizan chequeos sobre los datos para
determinar la consistencia de los valores
El analista prepara un informe, sustentando las individuales de los campos, la cantidad y
conclusiones a las que llega evaluando la distribución de los datos faltantes,
calidad de los datos: encontrar valores fuera de rango (que
pueden representar ruido o un nuevo e
1. Fuente de los datos, Indicar el origen de interesante fenómeno).
los datos (se evitará indicar que la data
viene de una base de datos). PREPARACION DE LOS DATOS
2. Antecedentes, indique si es que existe
algún trabajo previo donde se hizo uso de MODELACION
estos datos, indique la referencia
bibliográfica. EVALUACION DE RESULTADOS
3. Procedimiento de muestreo, indicar cómo
se han hecho el muestreo de los datos. DESPLEGUE DE RESULTADOS
4. Fecha de muestreo.
5. Frecuencia de muestreo, si es necesario
indicar la frecuencia de muestreo.
ESTADÍSTICA DESCRIPTIVA
(Visualización de datos)

La actividad de exploración y descripción de los datos tiene como finalidad examinar las propiedades
gruesas de los datos, los resultados que se pueden obtener son:
1. Resumen estadístico.
2. Visualización de los datos, identificar correlaciones.
3. Valores no disponibles.
4. Influencia de la medición en los datos (precisión, frecuencia)
5. Formato de los datos.
6. Indicar si se trata de series de tiempos o datos seriados.
7. Fuente de los datos y frecuencia de adquisición.
8. Cantidad de datos (atributos y registros).
A. B. C. ESTADÍSTICA
DESCRIPTIVA
DESCRIPCIÓN DE ESTADÍSTICOS. MULTIVARIADA
LA FORMA.
Frecuencia Para organizar datos
Histogramas de dos variables
(variables discretas) 1. Frecuencia categóricas o
absoluta Medidas de Forma o cualitativas se usan
• 2. Frecuencia distribución tablas de doble
relativa (Skewness, Kurtosis) entrada, diagramas
3. Porcentaje de cajas o diagramas
4. Frecuencia de dispersión.
absoluta Tablas de validación
acumulada cruzada:
5. Frecuencia
relativa
acumulada
6. Porcentaje Medidas de
acumulado Localización:
Cuartiles, deciles y
Caja de Puntos (Dot
Persona Númer percentiles.
Plot) (variables s o
continuas) Activas Familia Cuartiles.
s Deciles.
Xi ni Fi Boxplot (Diagrama
Percentiles. de Caja)
1 16 16/5
Ejemplos de cálculo. Cualitativa y
0
2 20 20/5 Algunas medidas de Cuantitativa
Gráfica de tallo y 0 dispersión Es el resumen de una
hojas (Stem & Leaf). 3 9 9/50 asociadas distribución empírica,
Semejante al se representa por una
histograma pero se 4 5 5/50 caja rectangular
puede recuperar la sobre el intervalo
Total 50
data original. inter-cuartil,
prolongada por líneas
Pesos de 15 varones hasta el primer y el
Medidas de tendencia
adultos. noveno decil. Se
central (media,
165 178 185 169 dibuja también la
mediana, moda,
152 180 175 189 mediana y a veces
suma)
195 200 183 191 los valores extremos.
197 208 179
Tallo: 2 primeros dígitos.
Hoja: últimos dígitos.

Medidas de
dispersión (Varianza,
STD, Máximo,
Mínimo, Rango)

Medidas de Posición
(cuartiles)
alguna relación entre
las variables, de qué
tipo, y si es posible
predecir el valor de
una de ellas en
función de la otra.

Diamond Plot
(Diagrama de
Coeficiente de
Diamante)
Correlación
Es similar a un
El coeficiente de
boxplot, pero en lugar
correlación de
de presentar el
Pearson (rr), es una
intervalo intercuartil
medida que
presente un intervalo
representa el grado
de confianza.
de asociación lineal
entre dos variables
Cubre los datos entre
cuantitativas X e Y.
el más y menos una
desviación de
estándar.

Se usa para evaluar


la eficacia de
tratamientos (t-
pruebas y F-pruebas)

Scatterplot
(Diagrama de
Dispersión)
2 Cuantitativas
Se usa para intentar
reconocer si existe

Вам также может понравиться