Вы находитесь на странице: 1из 38

Lección 3: Análisis Exploratorio de Datos

Parte I: Estudio Univariado


Prof. Dr. (c) Rodrigo Salas F. (rod.salas@gmail.com)
Departamento de Ingeniería Biomédica. Universidad de Valparaíso

Departamento de Informática. Universidad Técnica Federico Santa María


Agradecimientos

• Esta presentación fue desarrollada en


base a los apuntes del curso de
Estadística Computacional dictado por
el profesor Héctor Allende en la
Universidad Técnica Federico Santa
María.

ILI280 Estadística Computacional -- Dr.(c) R. Salas 2


Organización/Presentación
• Para estudiar las características de una variable se
ordenan los valores observados de la muestra en k clases
denominadas c1, c2, .. ck.
• Frecuencia Absoluta.
– Se llama frecuencia absoluta de la clase ci al número
total de individuos u observaciones que pertenece a
dicha clase y se denota por ni.
– Como las clases c1, c2, ..... ck son una partición de la
muestra, es fácil verificar que
k
n = ∑ ni  número total de observaciones
i =1 o tamaño de la muestra

ILI280 Estadística Computacional -- Dr.(c) R. Salas 3


Organización/Presentación
• Frecuencia Relativa.
– Se llama frecuencia relativa de la clase ci a la
proporción de individuos que pertenecen a la clase
sobre el total de individuos o tamaño de la muestra. Se
de nota por fi.
– Se puede verificar que

k
ni
fi =
n
notese que .... ∑f
i =1
i =1

ILI280 Estadística Computacional -- Dr.(c) R. Salas 4


Presentación de Datos Cualitativos
• Reglas: Partición de la Población
– Cada observación debe pertenecer a una, y sólo una
clase o categoría.
– Todas las observaciones deben pertenecer a una.

• Tablas  Tabligrama.
• Gráficos de Barras  Diagrama de Pareto.
• Gráficos Circulares o de Torta.

ILI280 Estadística Computacional -- Dr.(c) R. Salas 5


Ejemplo: Tablas

Clase Descripción Frecuencia


1 107

2 60

3 51

4 25

5 10

6 8

ILI280 Estadística Computacional -- Dr.(c) R. Salas 6


Escala Nominal

120
107 Diagrama de Pareto
100

80
Frecuencia

60
60
51

40

25
20
10 8

0
1 2 3 4 5 6
Clase

ILI280 Estadística Computacional -- Dr.(c) R. Salas 7


Escala Nominal

5 6
4% 3%
4
10%
Diagrama Circular

1
40%

3
20%

2
23%

ILI280 Estadística Computacional -- Dr.(c) R. Salas 8


Escala Ordinal

8
Diagrama de
7
Bloques
6

0
Pobre Regular Aceptable Bueno Muy Bueno

ILI280 Estadística Computacional -- Dr.(c) R. Salas 9


Ejemplo: Histograma

ILI280 Estadística Computacional -- Dr.(c) R. Salas 10


Ejemplo: Tabligrama
• Presentación:
– Tablas de frecuencias
– Gráficos: Diagramas de Bloques
– Circulares, Barras
– Diagrama acumulativo

Ejemplo: 40 Datos
10 7 8
11 1 2 3 7 9
12 0 3 3 4 6 8
13 1 2 2 4 5 6 7 8
14 0 1 2 3 3 5 7 8 8
15 0 2 3 3 8 8
16 0 0 1 2

ILI280 Estadística Computacional -- Dr.(c) R. Salas 11


Tabla de Frecuencias

K := N°Clases
R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55
A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites Marca Conteo Frecuencias


ABS - ABS. AC. -- REL - REL. AC.
106,5-114,5 110,5 //// 5 5 0,125 0,125
114,5-122,5 118,5 /// 3 8 0,075 0,200
122,5-130,5 126,5 //// 5 13 0,125 0,325
130,5-138,5 134,5 //// /// 8 21 0,200 0,525
138,5-146,5 142,5 //// / 6 27 0,150 0,675
146,5-154,5 150,5 //// // 7 34 0,175 0,85
154,5-162,5 158,5 //// / 6 40 0,150 1

ILI280 Estadística Computacional -- Dr.(c) R. Salas 12


Histograma

0
110,5 118,5 126,5 134,5 142,5 150,5 158,5

ILI280 Estadística Computacional -- Dr.(c) R. Salas 13


Polígono de Frecuencias

0
102,5 110.5 118,5 126,5 134,5 142,5 150,5 158,5 166,5

ILI280 Estadística Computacional -- Dr.(c) R. Salas 14


Frecuencia Acumulada: Ojiva
1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
102,5 110,5 118,5 126,5 134,5 142,5 150,5 158,5 166,5

ILI280 Estadística Computacional -- Dr.(c) R. Salas 15


Extraer Información desde la Muestra
• Mediciones de Tendencia Central
– Estas medidas tienden a ubicarse en el centro del
conjunto.
– Proporcionan un valor simple y representativo, que
resume un gran volumen de información.
• Media Aritmética • Moda
• Media Geométrica • Mediana
• Media Armónica • Semi Rango
• Mediciones de Dispersión
– Miden la “dispersión” de valores dentro del conjunto de
datos respecto de alguna medida de tendencia central.
• Varianza • Rango
• Desviación Estándar • Rango Cuartílico
• Desviación Media • Rango Percentil

ILI280 Estadística Computacional -- Dr.(c) R. Salas 16


Medidas de Tendencia y Dispersión

0,5000
Mediana
Moda
0,4500
Media
0,4000 Aritmética
0,3500

0,3000

0,2500

0,2000

0,1500

0,1000 Q1 Q2 Q3 Q4
0,0500

0,0000
0 1 2 3 4 5 6 7

Rango

ILI280 Estadística Computacional -- Dr.(c) R. Salas 17


Tipo de Variable
• Variables Categóricas: (Escala Nominal)
– Moda (Medida del centro)
– Tasa de Variación (Medida de Dispersión)

ni
fM ≥ fi = i = 1, 2, 3, ..., k.
n
nM n - nM
V = 1 – fM = 1- =
n n

ILI280 Estadística Computacional -- Dr.(c) R. Salas 18


Ejemplo
• En un estudio de mercado se considera una muestra de 1100
fumadores averiguando la marca de cigarrillo que fuman, se obtienen
la siguiente Tabla

Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273

• fM = 0,282  Clase modal C


• TV = 1 – 0,282 = 0,718  Tasa de variación

ILI280 Estadística Computacional -- Dr.(c) R. Salas 19


Escala Intervalar
• Existen dos maneras de realizar los cálculos de
las medidas características de datos de escala
intervalar, con …
– Datos Agrupados: cuando los datos disponibles se
presentan ya “trabajados” en tablas de frecuencias y
no se cuenta con los datos originales.
– Datos No agrupados: cuando los datos se presentan
como “materia” en bruto

ILI280 Estadística Computacional -- Dr.(c) R. Salas 20


Tendencia Central: Promedio

Datos Agrupados: Datos NO Agrupados:

k n
x = ∑ f i xi 1
x = ∑ xi
i =1 n i =1

fi : Frec. relativa Clase i X : Media Aritmética


Xi : Marca Clase i Xi : i-ésimo valor observado
k : N°de clases n : Tamaño Muestra

ILI280 Estadística Computacional -- Dr.(c) R. Salas 21


Tendencia Central: Moda

Datos Agrupados: Datos NO Agrupados:

 ∆1 
M 0 = L + aM   Es el valor que ocurre con
 ∆1 + ∆ 2  mayor frecuencia: el valor
∆1 más común.
nM ∆
2
n1 • Puede que no exista
n2 moda.
aM • Puede que exista
más un valor Modal
L xM
L : Límite inferior Clase modal
aM : Amplitud Clase Modal
∆1 : nM - n1
∆2 : nM - n2
nM : Frec. absoluta Clase Modal V = Tasa de Variación = 1 – fM
n1 : Frec. absoluta Clase anterior a Clase Modal
n2 : Frec. absoluta Clase posterior a Clase Modal

ILI280 Estadística Computacional -- Dr.(c) R. Salas 22


Tendencia Central: Mediana

Datos Agrupados: Datos NO Agrupados:


j
Clase M e = C j ∃j : min ∑ f k ≥ 0.5 C j : clase j
Si los datos se ordenan de
k =1 orden ascendente de
magnitud, entonces la
n Mediana está dada por:

e −1
M e = L + ae 2  x n +1  si n es impar
ne   2 
Me = 
 1 ( x( n / 2 ) + x(n / 2+1) ) si n es par
2
L : Límite inferior Clase Mediana (C Me)
Ne-1 : Frec. Acumulada hasta antes (C Me)
• Si n es impar , la Mediana
es exactamente el valor
ne : Frecuencia Absoluta (C Me) del medio
ae : Amplitud (C Me)
• Si n es par , la Mediana es el
n : Tamaño de la muestra promedio de los valores
centrales

ILI280 Estadística Computacional -- Dr.(c) R. Salas 23


Dispersión: Varianza Muestral

Datos Agrupados: Datos NO Agrupados:

n
s = ∑ f i ( xi − x )
n
1
s 2 = ∑ ( xi − x ) 2
2 2

i =1 n i =1

fi : Frec. relativa Clase i


Xi : Marca Clase i s2 : Variancia Muestral

X : Media Aritmética X : Media Aritmética


ni : Frec. absoluta Clase i
Xi : i-ésimo valor observado
n : Tamaño Muestra
_ k : N°de clases n : Tamaño Muestra

ILI280 Estadística Computacional -- Dr.(c) R. Salas 24


Dispersión: Desviación Media

Datos Agrupados: Datos NO Agrupados:

k
MD = ∑ f i | xi − x | 1 n
MD = ∑ | xi − x |
i =1 n i =1

fi : Frec. relativa Clase i MD : Desviación Media


Xi : Marca Clase i
X : Media Aritmética
X : Media Aritmética
ni : Frec. absoluta Clase i Xi : i-ésimo valor observado
n : Tamaño Muestra
k : N°de clases n : Tamaño Muestra
| | : valor absoluto

ILI280 Estadística Computacional -- Dr.(c) R. Salas 25


Cuartil

Rango Inter-Cuartílico = IRQ = (Q3– Q1)


Datos Agrupados: Datos NO Agrupados:
j
i Si los datos se ordenan de
Clase Qi = C j ∃j : min ∑ fk ≥ C j : clase j orden ascendente de
k =1 4
magnitud, entonces el
cuartil Qi, para i = 1, 2, 3, 4
n⋅i está dado por

Qi −1
Qi = L + aQi 4   n +1
nQi x
  i n +1  si i  es entero
Qi =   4   4 
(1 − α ) x n +1  + αx n +1  en caso contrario
 i 4 
 
i 4 
 
L : Límite inferior Qi; i = 1,2,3,4
NQí-1 : Frec. Absoluta acumulada hasta antes de la clase Qi  n + 1   n + 1
α = i  − i
 4   4 
aQi : Amplitud cuartil i-ésimo
nQi : Frecuencia Absoluta de la clase del cuartil i-ésimo
n : Tamaño de la muestra

ILI280 Estadística Computacional -- Dr.(c) R. Salas 26


Percentil

Rango Percentil = RP = (P90 – P10)


Datos Agrupados: Datos NO Agrupados:
j
i Si los datos se ordenan de
Clase Pi = C j ∃j : min ∑ f k ≥ C j : clase j
k =1 100 orden ascendente de
magnitud, entonces el
n ⋅i percentil Pi, para i = 1, 2, ..,

Pi −1 99 está dado por
Pi = L + aPi 100
nPi   n +1
x
  i n +1  si i  es entero
Pi =   100   100 
(1 − α ) x n +1  + αx n +1  en caso contrario
L : Límite inferior percentil i-ésimo
  i 100 
 
 i 100 
 
NPí-1 : Frec. Absoluta acumulada hasta antes de la

 n + 1   n + 1
clase percentil i-ésimo
aPi : Amplitud percentil i-ésimo
α = i  − i
 100   100 
nPi : Frecuencia Absoluta de la clase del percentil
i-ésimo
n : Tamaño de la muestra

ILI280 Estadística Computacional -- Dr.(c) R. Salas 27


Ejemplo
• Se tiene la impresión que el servicio prestado por una sucursal
bancaria no es buena; por lo tanto, la gerencia ordena un estudio al
respecto. Se toma una muestra de 70 respuestas de clientes
opinando sobre el servicio recibido

1 2 3 4 5
Calificacion P R S B E
Frec. Absoluta 20 10 18 16 6
Frec. Relativa 0,286 0,143 0,257 0,229 0,086
Frec. Acumul 20 30 48 64 70
Frec. Acumul. Relat. 0,286 0,429 0,686 0,914 1,000

f M = 0.286 → CM = P
Q1 = 0,286 > 0,25  P Med = C(Q2 ) → CMed = S
Q2 = 0,686 > 0,50  S
V = 1 − f M = 1 − 0.286 = 0.714
Q3 = 0,914 > 0,75  B
rC(Q3 ) − rC(Q1 ) 4 −1
Q4 = E D= = = 0.75
K −1 5 −1

ILI280 Estadística Computacional -- Dr.(c) R. Salas 28


Gráficos de Cajas
• Representación visual para describir, simultáneamente, varias
características importantes tales como
– Centro
– Dispersión
– Desviación de la asimetría
– Identificación de las observaciones (valores atípicos)

Valores Q1 Q2 Q3 Valores
Atípicos 1.5 IRQ 1.5 IRQ Atípicos

Mediana
rangQ3 − rangQ1
D = Indice de dispersion =
K −1

ILI280 Estadística Computacional -- Dr.(c) R. Salas 29


Gráficos de Cajas
• Comparaciones gráficas entre conjuntos de datos

70 80 90 100 110 120

ILI280 Estadística Computacional -- Dr.(c) R. Salas 30


Ejemplo BoxPlot

ILI280 Estadística Computacional -- Dr.(c) R. Salas 31


Momentos Muestrales
• Momentos no centrados:

1 n k
mk = ∑ xi
n i =1
– OBS:
x = m1
s 2 = m2 − m12
• Momentos centrados:

1 n
mk = ∑ ( xi − m1 ) k

n i =1
ILI280 Estadística Computacional -- Dr.(c) R. Salas 32
Características de forma: Simetría

Indice de Simetría
Q1 + Q3 − 2Q2
IS =
Q3 − Q1
Coeficiente de Simetría de Fisher γ = m3  Sesgo
1
0,09

0,08
s30,45

0,40
0,09

0,08

0,07 0,35 0,07

0,06
0,30
0,06

0,05
0,25
0,05

0,04 0,20 0,04

0,03 0,15 0,03

0,02 0,10
0,02

0,01 0,05 0,01

0,00
0 2,5 5 7,5 10 12,5 15 17,5 20 -4 -3 -2 -1 0 1 2 3 4 0 2,5 5 7,5 10 12,5 15 17,5 20
0

γ1 < 0 γ1 = 0 γ1 > 0

Distribución, tiende
Distribución, es Distribución, tiende
a concentrarse en simétrica respecto a a concentrarse en
Valores Altos de la
la Media Valores Bajos de la
Variable
Variable
Mo = MA = Me
Mo > Me > MA Mo < Me < MA

ILI280 Estadística Computacional -- Dr.(c) R. Salas 33


Características de forma: Achatamiento

m4
Coeficiente γ2 = 4 −3  Curtosis
s

0,45 0,45 0,45

0,40 0,40 0,40

0,35 0,35 0,35

0,30 0,30 0,30

0,25 0,25 0,25

0,20 0,20 0,20

0,15 0,15 0,15

0,10 0,10 0,10

0,05 0,05 0,05

0,00 0,00 0,00


-4 -3 -2 -1 0 1 2 3 4
-2 -1 0 1 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5

γ2 > 0 γ2 = 0 γ2 < 0
Leptocúrtica Platicúrtica
Distribución tiende a Mesocúrtica
Distribución tiende a
concentrarse alrededor de la dispersarse
Distribución
Media.
“Normal”
Variancia grande, Achatada.
Varianza Pequeña, Aguzada

ILI280 Estadística Computacional -- Dr.(c) R. Salas 34


Extraer Información desde la Muestra
• Medidas de Homogeneidad
– Esta medida es utilizada para comparar dos o más
muestras según su grado de homogeneidad.
– Es una relación entre la medida de tendencia central y
la de dispersión.
– No posee dimensión, es sólo un escalar.

• Señal de ruido  S2 
η = − log 2 
X 
S
•Coeficiente de Variación Cv =
X

ILI280 Estadística Computacional -- Dr.(c) R. Salas 35


Ejemplo
• Se desea determinar las características de resistencia a la ruptura
bajo cargas de tensión del concreto ofrecido por cierto proveedor.
Para ello se les solicita 125 probetas de 0,5 pies de diámetro por 1
pie de longitud. La carga de tensión se mide en lb/pug2.
• El laboratorio de resistencia de materiales proporciona la tabla de
frecuencias
Clase Limites Marca Frecuencia Frecuencia Frecuencia Frecuencia
de
de Clase
Clase de
de Clase
Clase Absoluta
Absoluta Abs.Abs.
Acum.
Acuml.
Relativa
Relativa
Relat. Acum.
Relat. Acuml.
1 407,5-412,5 410 4 4 0.032 0.032
2 412,5- 417,5 415 5 9 0.040 0.072
3 417,5- 422,5 420 8 17 0.064 0.136
4 422,5- 427,5 425 14 31 0.112 0.248
5 427,5- 432,5 430 13 44 0.104 0.352
6 432,5- 437,5 435 19 63 0.152 0.504
7 437,5- 442,5 440 20 83 0.160 0.664
8 442,5- 447,5 445 15 98 0.120 0.784
9 447,5- 452,5 450 12 110 0.096 0.880
10 452,5- 457,5 455 6 116 0.048 0.929
11 457,5- 462,5 460 7 123 0.056 0.984
12 462,5- 467,5 465 2 125 0.016 1.000

• Determine: Todas las medidas de localización, escala, simetría y


forma

ILI280 Estadística Computacional -- Dr.(c) R. Salas 36


Transformaciones

Sea yi = h ( xi ) con i = 1,...,n


1. Lineales yi = axi + b
y = ax + b
Sy = a Sx
2. No lineales yi = h( xi )
1
y = h(x) + 2 h”(x) SX2
Sy2≈ Sx2 [ h’ (x)]]2
En particular 1
h(x) = ln x y = ln x - 2 ( Sx2 / x2 )
Sy2 ≈ ( Sx2 / x2 ) = CV 2

ILI280 Estadística Computacional -- Dr.(c) R. Salas 37


¿Preguntas?

Lección 3: Análisis Exploratorio de Datos


Parte I: Estudio Univariado
Prof. Dr. (c) Rodrigo Salas F. (rod.salas@gmail.com)
Departamento de Ingeniería Biomédica. Universidad de Valparaíso

Departamento de Informática. Universidad Técnica Federico Santa María

Вам также может понравиться