Академический Документы
Профессиональный Документы
Культура Документы
Análisis Exploratorio
de Datos
Clasificación de las Variables
Clasificación/Tipo de Datos
• Cualitativo:
Nominal (Categorías) Quito= 1 ; Guayaquil= 2 ; Cuenca = 3
NOTA:
El tipo de estadísticas que se pueden obtener o calcular depende
del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen sentido con
datos categóricos (si con proporciones)
Tipos de Variables
k
n = S ni número total de observaciones o tamaño de la muestra
i=1
Organización/Presentación
Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la
proporción de individuos que pertenecen a la clase
sobre el total de individuos o tamaño de la muestra.
Se de nota por fi. Se puede verificar que
k
n
fi = ---i nótese que .... S fi = 1
n i=1
Escala Nominal o
Cualitativa
Usa números como una manera de separar los elementos de la
población en diferentes clases o categorías. El número
asignado a la observación sólo sirve como un nombre o
código para distinguir la categoría a la cual pertenece la
observación.
• Tablas
• Moda
• Gráficos de Barras Diagrama de Pareto.
• Gráficos Circulares o de Pastel
Ejemplo: Tablas
2 60
3 51
4 25
5 10
6 8
Tabla de Frecuencias
Results for: Estudiantes.MTW
11
Moda – “Mo”
ni
fM fi = i = 1, 2, 3, ..., k.
n
Ejemplo
En un estudio de mercado se considera una muestra de 1100 fumadores
averiguando la marca de cigarrillo que fuman, se obtienen la siguiente
Tabla
Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273
120
107 Diagrama de Pareto
100
80
Frecuencia
60
60
51
40
25
20
10 8
0
1 2 3 4 5 6
Clase
Escala Nominal
5 6
4% 3%
4 Diagrama Circular
10%
1
40%
3
20%
2
23%
Escala Ordinal
9
Diagrama de Barras
8
0
Pobre Regular Aceptable Bueno Muy Bueno
Dotplot (diagrama de puntos)
• El "dotplot" muestra, en una escala continua, un punto
para cada dato de la muestra
– Ejemplo: duración del ciclo menstrual de 21 mujeres
participantes de un programa de control natural de
natalidad:
i Dias i Días
1 22,9 12 28,4
2 26,3 13 28,5
3 26,6 14 28,8
4 26,8 15 28,8
5 26,9
16 29,4
6 26,9
17 29,9
7 27,5
18 30,0
8 27,6
9 27,6 19 30,3
10 28,0 20 31,2
21 31,8 19
11 28,4
Dotplot of IQ
20
Escala
Intervalaria
Considera no sólo la información pertinente al orden, sino
además, el tamaño relativo de los intervalos a que pertenece
cada uno de los individuos. En este nivel es posible cuantificar
la diferencia de todos los individuos pertenecientes a los
intervalos, clases o categorías distintas.
• Tablas de Frecuencia.
• Histogramas: valores discretos y
continuos.
– Usar 5 a 20 clases (intervalos o grupos).
– (considerar anchos de clases, límites y marca de clase).
– (polígono de frecuencias – dibujar en marca de clase).
0
107 116 125 134 143 152 161
Polígono de Frecuencias
0
99 107 116 125 134 143 152 161 170
Frecuencia Acumulada: Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
12
10
8
Frequency
0
96 108 120 132 144
IQ
Qué analizar en el histograma
• Concentración de los valores en
determinadas regiones
B
i
mo
da
l
A
c
h
a
t
ad
a (Proceso fuera de
control o inestable)
Asimétrica
(Tiempo o
instrumento de
medición)
(Problemas con el
proceso o su T
r
u
nc
a
da
capacidad)
(Instumento de
Medición)
P
i
c
oLa
t
e
ra
l
Pico Aislado
(Causa o población
especial)
Extraer Información desde la Muestra
• Varianza •Rango
• Desviación Estándar •Rango Cuartílico
• Coeficiente de Variación
•Rango Semi-intercuartilico
•Rango Percentil
Medidas de Tendencia y Dispersión
0,5000
Mediana
Moda
0,4500
Media
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
0 1 2 3 4 5 6 7
Q1 Q2 Q3
Rango
Moda – “Mo”
~ ~ (n + 1)
n impar X = valor de orden
2
~ n n
n par X = media entre valores de orden y +1
2 2
Cálculo de la Mediana
~ (n + 1)
n impar X = valor de orden
2
~ n n
n par X = media entre valores de orden y +1
2 2
Donde:
Pp:= p-simo percentil
i:= parte entera de (n+1)*p/100
f:= parte fraccionaria de (n+1)*p/100
Xi:= i-simo dato en orden ascendente
Xi+1:= (i+1)-simo dato en orden ascendente
Cálculo de cuartiles
• Cuartil-q : Qq
Qq = (1 f ) * X i + f * X i +1
Donde:
Qq:= q-simo cuartil
i:= parte entera de (n+1)*q/4
f:= parte fraccionaria de (n+1)*q/4
Xi:= i-simo dato en orden ascendente
Xi+1:= (i+1)-simo dato en orden ascendente
Cuartiles
• De particular interés, tenemos los
siguientes percentiles:
Q1 (primer cuartil): es el percentil P25%, o sea:
25% de los datos están abajo de Q1
Q2 (segundo cuartil): es la mediana, P50%
Q3 (tercer cuartil): es el percentil P75%
• El intervalo Q3-Q1 es llamado rango
intercuartílico (“interquartile range”), y
abarca 50% de los datos
d = Q3-Q1
• En el Análisis Exploratorio de Datos (EDA,
Exploratory Data Analysis), se definen:
Límite Inferior: LO = Q1 – 1.5d
Límite Superior: HI = Q3 + 1.5d
X= f *X n
i i
i =1 Xi
ni i =1
X=
n
ai
xi Xi+1
X : Media Aritmética
fi : Frec. relativa Clase i = ni
n Xi : i-ésimo valor observado
Xi : Marca Clase i
_ n : Tamaño Muestra
X : Media Aritmética
k : N° de clases
ni : Frec. absoluta Clase i
n : Tamaño Muestra
ai : Amplitud de Clase i
Rango Inter-Cuartílico
RQ = Q 3– Q 1
Rango Semi-Inter-Cuartílico
RSQ = (Q3– Q1) / 2
Rango Percentil
RP = P90 – P10
Gráficos de Cajas- (Box-Plots)
Representación visual para describir, simultáneamente, varias
características importantes tales como
• Centro
• Dispersión
• Desviación de la asimetría
• Identificación de las observaciones (valores atípicos)
3
Resultado:
Boxplot of IQ vs Sexo
140
130
120
IQ
110
100
90
1 2
Sexo
51
Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de
tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de
0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2.
El laboratorio de resistencia de materiales proporciona la tabla de frecuencias
i
7
8 (X X ) 2
9 i =1
10 n -1
S
Media
scuadrada
N
s
Problema: Mediante el uso de la técnica anterior,
i
(X
i =1
X ) 2
50
0
0 5 10
Deviates
55
• Desviación Estándar Muestral “s”
– Mide la dispersión de los datos al rededor de
la media muestral (en la misma unidad de
medida de los datos originales)
n
( x x)
2
i
s = variancia = s =
2 i =1
n 1
L.A.: Cuando los datos representen toda la población,
en vez de una muestra de la misma, el cálculo de la variancia y
desviación estándar (populacional) es hecho usándose 'n' en el
denominador, en vez de 'n-1'. 56
Resumen de Ecuaciones
Computacionales
N
Media de la Población x i
= i =1
N
N
Desviación Estándar (X i )2
de la Población s = i=1
N
n
Media de la x
i=1
i
Muestra x=
n
n 2
Desviación Estandar x x i
de la Muestra sˆ = s = i =1
n 1
57
Coeficiente de Variación
• Coeficiente de
variación
s
cv =
RESUMEN
Variables Categóricas: (Escala Nominal)
Moda ( Medida del centro )