Вы находитесь на странице: 1из 58

Capítulo 2

Análisis Exploratorio
de Datos
Clasificación de las Variables
Clasificación/Tipo de Datos

• Cualitativo:
Nominal (Categorías)  Quito= 1 ; Guayaquil= 2 ; Cuenca = 3

Ordinal  Pobre = 1; Aceptable = 2;


Bueno = 3; Excelente = 4

• Cuantitativo o Escalares (Números):


Intervalo  temperatura (ºC)
Razón  temperatura (ºK), peso...etc

NOTA:
El tipo de estadísticas que se pueden obtener o calcular depende
del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen sentido con
datos categóricos (si con proporciones)
Tipos de Variables

Variables Cuantitativas o Escalares


Tanto en la escala intervalaria como en la de razón es posible
distinguir dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto
de puntos aislados (subconjunto de valores en )
Variables Continuas: una que puede tomar sus valores en un conjunto
donde todos sus elementos son puntos de acumulación (un intervalo
en ). Siempre es posible tratar una variable continua como discreta
mediante la construcción de “intervalos de clase” representando cada
uno de los intervalos por su valor medio denominado “marca de clase”
Escalas de Medida

Clasificación : Nominal, Ordinal, Intervalos y


Razón

Organización :  Frecuencia absoluta


 Frecuencia relativa
A partir de nivel ordinal :
 Frecuencia absoluta acumulada
 Frecuencia relativa acumulada
Organización/Presentación

Para estudiar las características de una variable se agrupan


los valores observados de la muestra en k clases denominadas
c1, c2, .. ck.
Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de
individuos u observaciones que pertenece a dicha clase y se
denota por ni. Como las clases c1, c2, ..... ck una partición de la
muestra, es fácil verificar que

k
n = S ni  número total de observaciones o tamaño de la muestra
i=1
Organización/Presentación

Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la
proporción de individuos que pertenecen a la clase
sobre el total de individuos o tamaño de la muestra.
Se de nota por fi. Se puede verificar que
k
n
fi = ---i nótese que .... S fi = 1
n i=1
Escala Nominal o
Cualitativa
Usa números como una manera de separar los elementos de la
población en diferentes clases o categorías. El número
asignado a la observación sólo sirve como un nombre o
código para distinguir la categoría a la cual pertenece la
observación.

• La variable induce una partición sobre la población la


información puede clasificarse en clases o categorías.
• Cada clase debe estar perfectamente definida y diferenciada
de las demás.
• La recopilación se reduce a contar el número de individuos
en la muestra que pertenece a cada clases:
Ejemplos : Clasificación de alumnos por :

Sexo : masculino (M), femenino (F) (variable dicotómica);


Colegio : SEK (1); Alemán(2), Rudolf Steiner (3), etc.
Presentación de Datos Cualitativos

• Reglas: Partición de la Población


– Cada observación debe pertenecer a una, y sólo
una clase o categoría.
– Todas las observaciones deben ser pertenecer a
una.

• Tablas
• Moda
• Gráficos de Barras  Diagrama de Pareto.
• Gráficos Circulares o de Pastel
Ejemplo: Tablas

Clase Descripción Frecuencia


1 107

2 60

3 51

4 25

5 10

6 8
Tabla de Frecuencias
Results for: Estudiantes.MTW

Tally for Discrete Variables: IQ

IQ Count CumCnt Percent CumPct


X n F f P
91 1 1 2.00 2.00
93 1 2 2.00 4.00
94 1 3 2.00 6.00
101 4 7 8.00 14.00
102 1 8 2.00 16.00
103 2 10 4.00 20.00
104 1 11 2.00 22.00
105 1 12 2.00 24.00
106 1 13 2.00 26.00
107 3 16 6.00 32.00
109 1 17 2.00 34.00
110 2 19 4.00 38.00
111 2 21 4.00 42.00
113 1 22 2.00 44.00
114 1 23 2.00 46.00
115 2 25 4.00 50.00
116 1 26 2.00 52.00
118 3 29 6.00 58.00
119 4 33 8.00 66.00
120 1 34 2.00 68.00
121 3 37 6.00 74.00
122 1 38 2.00 76.00
123 1 39 2.00 78.00
124 1 40 2.00 80.00
126 1 41 2.00 82.00
127 1 42 2.00 84.00
128 1 43 2.00 86.00
129 1 44 2.00 88.00
131 1 45 2.00 90.00
132 1 46 2.00 92.00
133 1 47 2.00 94.00
135 1 48 2.00 96.00
141 2 50 4.00 100.00
N= 50

11
Moda – “Mo”

•Es el valor que ocurre con más frecuencia en la


muestra
Escala Nominal

Moda (Medida del centro)

ni
fM  fi = i = 1, 2, 3, ..., k.
n
Ejemplo
En un estudio de mercado se considera una muestra de 1100 fumadores
averiguando la marca de cigarrillo que fuman, se obtienen la siguiente
Tabla

Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273

fM = 0,282  Clase modal C


Escala Nominal

120
107 Diagrama de Pareto
100

80
Frecuencia

60
60
51

40

25
20
10 8

0
1 2 3 4 5 6
Clase
Escala Nominal
5 6
4% 3%
4 Diagrama Circular
10%

1
40%

3
20%

2
23%
Escala Ordinal

Dónde existe un orden implícito entre las mediciones. El valor


numérico es usado sólo como una manera de arreglar los
elementos de acuerdo al orden establecido.
La variable admite grados : existe una relación de orden total
entre las clases.
No es posible cuantificar la diferencia entre los individuos
pertenecientes a las distintas clases.
Ejemplo calificaciones de A (muy bueno), B (bueno), C
(satisfactorio), D (admisible), E (deficiente)
Escala Ordinal

9
Diagrama de Barras
8

0
Pobre Regular Aceptable Bueno Muy Bueno
Dotplot (diagrama de puntos)
• El "dotplot" muestra, en una escala continua, un punto
para cada dato de la muestra
– Ejemplo: duración del ciclo menstrual de 21 mujeres
participantes de un programa de control natural de
natalidad:
i Dias i Días
1 22,9 12 28,4
2 26,3 13 28,5
3 26,6 14 28,8
4 26,8 15 28,8
5 26,9
16 29,4
6 26,9
17 29,9
7 27,5
18 30,0
8 27,6
9 27,6 19 30,3
10 28,0 20 31,2
21 31,8 19
11 28,4
Dotplot of IQ

91 98 105 112 119 126 133 140


IQ

20
Escala
Intervalaria
Considera no sólo la información pertinente al orden, sino
además, el tamaño relativo de los intervalos a que pertenece
cada uno de los individuos. En este nivel es posible cuantificar
la diferencia de todos los individuos pertenecientes a los
intervalos, clases o categorías distintas.

Está involucrado en concepto de distancia, y la distancia entre


dos medias puede ser expresada en función de esta unidad.

Ejemplos: temperatura al interior de un silo (ºC)


Escala de Razón

Esta escala se usa cuando no sólo el orden y tamaño del


intervalo son importantes.
La única diferencia entre la escala de razón y la
intervalaria es que en la primera se puede definir un cero
absoluto y en la segunda no
Buscar ejemplos de Escala intervalaria
Buscar ejemplos de Escala de razón
Escalas Intervalarias y de Razón

• Tablas de Frecuencia.
• Histogramas: valores discretos y
continuos.
– Usar 5 a 20 clases (intervalos o grupos).
– (considerar anchos de clases, límites y marca de clase).
– (polígono de frecuencias – dibujar en marca de clase).

• Frecuencia Acumulada - Ojiva.


– (graficar en límite superior).
Tabla de Frecuencias

K := N° Clases  1 + 3.3 log n  7 (Ojo: ahora casi no se utiliza)


R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55
A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites Marca Conteo Frecuencias


ABS - REL - REL. AC.
102,5-111,5 107 /// 3 0,075 3
111,5-120,5 116 //// 5 0,125 8
120,5-129,5 125 //// 5 0,125 13
129,5-138,5 134 //// /// 8 0,2 21
138,5-147,5 143 //// // 7 0,175 28
147,5-156,5 152 //// / 6 0,15 34
156,5-165,5 161 //// / 6 0,15 40
Histograma

0
107 116 125 134 143 152 161
Polígono de Frecuencias

0
99 107 116 125 134 143 152 161 170
Frecuencia Acumulada: Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

99 107 116 125 134 143 152 161 170


Ejemplo de histograma
Histogram of IQ

12

10

8
Frequency

0
96 108 120 132 144
IQ
Qué analizar en el histograma
• Concentración de los valores en
determinadas regiones

• Amplitud de los valores (dispersión o


variabilidad)

• Forma por la cual las frecuencias se


distribuyen, o sea, el comportamiento del
fenómeno en estudio
Histograma: formas más
comunes
N
o
r
m
a
l (Dos poblaciones)

B
i
mo
da
l

A
c
h
a
t
ad
a (Proceso fuera de
control o inestable)
Asimétrica
(Tiempo o
instrumento de
medición)

(Problemas con el
proceso o su T
r
u
nc
a
da
capacidad)
(Instumento de
Medición)

P
i
c
oLa
t
e
ra
l

Pico Aislado
(Causa o población
especial)
Extraer Información desde la Muestra

• Medidas de Tendencia Central


• Medidas de Dispersión
• Coeficiente de Variación
Medidas de Tendencia Central

• Estas medidas tienden a ubicarse en el


centro del conjunto.
• Proporcionan un valor simple y
representativo, que resume un gran
volumen de información.

• Media Aritmética • Moda


• Mediana
Medidas de Dispersión

• Miden la “dispersión” de valores


dentro del conjunto de datos
respecto de alguna medida de
tendencia central.

• Varianza •Rango
• Desviación Estándar •Rango Cuartílico
• Coeficiente de Variación
•Rango Semi-intercuartilico
•Rango Percentil
Medidas de Tendencia y Dispersión

0,5000
Mediana
Moda
0,4500
Media
0,4000

0,3500

0,3000

0,2500

0,2000

0,1500

0,1000

0,0500

0,0000
0 1 2 3 4 5 6 7
Q1 Q2 Q3
Rango
Moda – “Mo”

•Es el valor que ocurre con más frecuencia en la


muestra

•Usada para distribuciones marcadamente


asimétricas

•Reduce el efecto de valores extremos


Mediana

~ ~ (n + 1)
n impar  X = valor de orden
2
~ n n
n par  X = media entre valores de orden y   +1
2 2
Cálculo de la Mediana

~ (n + 1)
n impar  X = valor de orden
2
~ n n
n par  X = media entre valores de orden y   +1
2 2

L.A.: Para obtener la mediana, ordene los datos en orden


creciente.
Cálculo de percentiles
• Percentil-p : Pp
Pp = (1  f )  X i + f  X i +1

Donde:
Pp:= p-simo percentil
i:= parte entera de (n+1)*p/100
f:= parte fraccionaria de (n+1)*p/100
Xi:= i-simo dato en orden ascendente
Xi+1:= (i+1)-simo dato en orden ascendente
Cálculo de cuartiles
• Cuartil-q : Qq
Qq = (1  f ) * X i + f * X i +1

Donde:
Qq:= q-simo cuartil
i:= parte entera de (n+1)*q/4
f:= parte fraccionaria de (n+1)*q/4
Xi:= i-simo dato en orden ascendente
Xi+1:= (i+1)-simo dato en orden ascendente
Cuartiles
• De particular interés, tenemos los
siguientes percentiles:
Q1 (primer cuartil): es el percentil P25%, o sea:
25% de los datos están abajo de Q1
Q2 (segundo cuartil): es la mediana, P50%
Q3 (tercer cuartil): es el percentil P75%
• El intervalo Q3-Q1 es llamado rango
intercuartílico (“interquartile range”), y
abarca 50% de los datos
d = Q3-Q1
• En el Análisis Exploratorio de Datos (EDA,
Exploratory Data Analysis), se definen:
Límite Inferior: LO = Q1 – 1.5d
Límite Superior: HI = Q3 + 1.5d

• Puntos fuera del intervalo LO – HI son


considerados puntos discrepantes
(“outliers”), y por lo general deben recibir
tratamiento especial (análisis aparte)
Métodos de Cálculo

Existen dos maneras de realizar los cálculos


de las medidas características de datos de
escala intervalaria, con ...

1. Datos Agrupados: cuando los datos


disponibles se presentan ya “trabajados” en
tablas de frecuencias y no se cuenta con los
datos originales.

2. Datos No agrupados: cuando los datos se


presentan como “materia” en bruto
Tendencia Central: Media
Datos Agrupados: Datos NO Agrupados:
k

X=  f *X n


i i
i =1 Xi
ni i =1
X=
n

ai

xi Xi+1
X : Media Aritmética
fi : Frec. relativa Clase i = ni
n Xi : i-ésimo valor observado
Xi : Marca Clase i
_ n : Tamaño Muestra
X : Media Aritmética
k : N° de clases
ni : Frec. absoluta Clase i
n : Tamaño Muestra
ai : Amplitud de Clase i
Rango Inter-Cuartílico
RQ = Q 3– Q 1
Rango Semi-Inter-Cuartílico
RSQ = (Q3– Q1) / 2
Rango Percentil
RP = P90 – P10
Gráficos de Cajas- (Box-Plots)
Representación visual para describir, simultáneamente, varias
características importantes tales como
• Centro
• Dispersión
• Desviación de la asimetría
• Identificación de las observaciones (valores atípicos)

"outlier" d (inter-quartile range)


(punto discrepante)

Q1-1.5d Media Q3+1,5d


Q1 Q3
Mediana (P75%)
(P25%)
Gráficos de Cajas

Comparaciones gráficas entre conjuntos de datos

70 80 90 100 110 120

3
Resultado:
Boxplot of IQ vs Sexo

140

130

120
IQ

110

100

90
1 2
Sexo

51
Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de
tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de
0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2.
El laboratorio de resistencia de materiales proporciona la tabla de frecuencias

Clase Límites Marca Frecuencia Frecuencia Frecuencia Frecuencia


de Clase de Clase Absoluta Abs. Acuml. Relativa Relat. Acuml.

1 407,5- 412,5 410 4 4 0,032 0,032


2 412,5- 417,5 415 5 9 0,040 0,072
3 417,5- 422,5 420 8 17 0,064 0,136
4 422,5- 427,5 425 14 31 0,112 0,248
5 427,5- 432,5 430 13 44 0,104 0,352
6 432,5- 437,5 435 19 63 0,152 0,504
7 437,5- 442,5 440 20 83 0,160 0,664
8 442,5- 447,5 445 15 98 0,120 0,784
9 447,5- 452,5 450 12 110 0,096 0,880
10 452,5- 457,5 455 6 116 0,048 0,929
11 457,5- 462,5 460 7 123 0,056 0,984
12 462,5- 467,5 465 2 125 0,016 1,000

Determine: Las medidas de localización


Varianza y desviación estándar
2
X X - X (X - X)
1
2
3
4
5
6
N

 i
7
8 (X  X ) 2

9 i =1
10 n -1
S
Media
scuadrada
N
s
Problema: Mediante el uso de la técnica anterior,
 i
(X 
i =1
X ) 2

calcular la desviación estándar de los números: n -1


21354
53
La Desviación Cuadrática
Obteniendo el cuadrado de la diferencia asignamos más peso a las
desviaciones extremas de la media natural.
2
(x - x)
100
Sq-Dev

50

0
0 5 10
Deviates

55
• Desviación Estándar Muestral “s”
– Mide la dispersión de los datos al rededor de
la media muestral (en la misma unidad de
medida de los datos originales)
n
 ( x  x)
2
i
s = variancia = s =
2 i =1
n 1
L.A.: Cuando los datos representen toda la población,
en vez de una muestra de la misma, el cálculo de la variancia y
desviación estándar (populacional) es hecho usándose 'n' en el
denominador, en vez de 'n-1'. 56
Resumen de Ecuaciones
Computacionales
N

Media de la Población x i
 = i =1

N
N
Desviación Estándar  (X i   )2
de la Población s = i=1

N
n

Media de la x
i=1
i
Muestra x=
n
n 2

Desviación Estandar  x  x i
de la Muestra sˆ = s = i =1

n 1
57
Coeficiente de Variación
• Coeficiente de
variación

s
cv =

RESUMEN
Variables Categóricas: (Escala Nominal)
Moda ( Medida del centro )

Variables Cualitativas: (Escala Ordinal)


Moda, Mediana

Variables Cuantitativas: (Escala Intervalaria o racional)


Moda, Mediana, Media
Coeficiente de Variación, Varianza
Rango, Rango Inter-Cuartílico, Rango Semi-intercuartilico

Вам также может понравиться