Вы находитесь на странице: 1из 30

129

Etapas de una investigacin


La Estadstica nos permite realizar inferencias y sacar conclusiones a partir de los datos.
Extrayendo la informacin contenida en los datos, podremos comprender mejor las
situaciones que ellos representan.
Los mtodos estadsticos abarcan todas las etapas de la investigacin, desde el diseo
de la investigacin hasta el anlisis final de los datos.
Podemos distinguir tres grandes etapas:
1. Diseo: Planeamiento y desarrollo de las investigaciones
2. Descripcin: Resumen y exploracin de los datos
3. Inferencia: Predicciones y toma de decisiones sobre las caractersticas de una
poblacin en base a la informacin recogida en una muestra de la poblacin.
En la etapa de Diseo se define cmo se desarrollar la investigacin con el fin de
responder las preguntas que le dieron origen. Un diseo bien realizado puede ahorrar
esfuerzos en etapas posteriores y puede redundar en un anlisis posterior ms sencillo.
Esta etapa es crucial, pues un estudio pobremente diseado o con datos incorrectamente
recolectados o registrados puede ser incapaz de responder las preguntas que originaron
el estudio.
Una vez formulado el problema, en la etapa de Diseo se definir, entre otras cosas, la
poblacin objetivo, los tamaos de muestra, los mecanismos de seleccin de individuos,
los criterios de inclusin y exclusin de sujetos, los mtodos de asignacin de
tratamientos, las variables que se medirn y cmo se entrenar al equipo de trabajo para
el cumplimiento del protocolo.
Los mtodos de Anlisis Exploratorio o Estadstica Descriptiva ayudan a comprender
la estructura de los datos, de manera de detectar tanto un patrn de comportamiento
general como apartamientos del mismo. Una forma de realizar sto es mediante grficos
de sencilla realizacin e interpretacin. Otra forma de describir los datos es resumiendo
los datos en uno, dos o ms nmeros que caractericen al conjunto de datos con fidelidad.
Explorar los datos permitir detectar datos errneos o inesperados y nos ayudar a
decidir qu mtodos estadsticos pueden ser empleados en etapas posteriores del anlisis
de manera de obtener conclusiones vlidas.
Finalmente, la Inferencia Estadstica nos permite tanto hacer predicciones y
estimaciones como decidir entre dos hiptesis opuestas relativas a la poblacin de la cual
provienen los datos (test de hiptesis).
La calidad de las estimaciones puede ser muy variada y estn afectadas por errores. La
ventaja de los mtodos estadsticos es que, aplicados sobre datos obtenidos a partir de
muestras aleatorias, permiten cuantificar el error que podemos cometer en una
estimacin o calcular la probabilidad de cometer un error al tomar una decisin en un test
de hiptesis.
Para entender qu tipo de problemas consideraremos en Estadstica tomemos, por
ejemplo, las siguientes mediciones de la proporcin de la masa de la Tierra con respecto
a la Luna
130
Mariner II 81.3001
Mariner IV 81.3015
Mariner V 81.3006
Mariner VI 81.3011
Mariner VII 81.2997
Pioneer VI 81.3005
Pioneer VII 81.3021
En Probabilidad podramos suponer que las posibles mediciones se distribuyen alrededor
del verdadero valor 81.3035 siguiendo una distribucin determinada y nos
preguntaramos
Cul es la probabilidad de que se obtengan 7 mediciones menores que el verdadero
valor de la media?
En Estadstica, a partir de los 7 observaciones nos preguntaramos:
Son consistentes los datos con la hiptesis de que el verdadero valor del cociente es
81.3035?
Cun confiable es decir que el verdadero valor est en el intervalo (81.2998, 81.3018)?
Las tcnicas del anlisis exploratorio nos ayudan a organizar la informacin que proveen
los datos, de manera de detectar algn patrn de comportamiento as como tambin
apartamientos importantes al modelo subyacente. Nos guan a la estructura subyacente
en los datos de manera rpida y simple.
Estadstica Descriptiva
Examinaremos los datos en forma descriptiva con el fin de:
Organizar la informacin
Sintetizar la informacin
Ver sus caractersticas ms relevantes
Presentar la informacin
Factores necesarios para un buen anlisis estadstico:
Diseo del Experimento o Investigacin
Calidad de los Datos
Definimos:
Poblacin: conjunto total de los sujetos o unidades de anlisis de inters en el estudio
Muestra: cualquier subconjunto de sujetos o unidades de anlisis de la poblacin en
estudio.
131
Organizaremos la informacin que proveen los datos
De manera de detectar algn patrn de comportamiento,
as como tambin apartamientos importantes
al modelo subyacente.
Asimismo, definimos:
- UNIDAD DE ANLISIS O DE OBSERVACIN: al objeto bajo estudio. Puede ser una
persona, una familia, un pas, una institucin o en general, cualquier objeto.
- VARIABLE: a cualquier caracterstica de la unidad de observacin que interese
registrar y que en el momento de ser registrada puede ser transformada en un
nmero.
- VALOR de una variable, DATO u OBSERVACIN o MEDICIN: al nmero que
describe a la caracterstica de inters en una unidad de observacin particular.
- CASO o REGISTRO: al conjunto de mediciones realizadas sobre una unidad de
observacin.
Datos Cuantitativos
Esquema de Tallo y Hoja
Nos da una primera aproximacin rpida a la distribucin de los datos sin perder de vista
las observaciones.
Ejemplo: La siguiente tabla muestra los datos de la fuerza de compresin de 45 muestras
de aleacin de Aluminio-Litio.
96 93 88 117 127 95 113 96
108 94 148 156 139 142 94 107
125 155 155 103 112 127 117 120
112 135 132 111 125 104 106 139
134 119 97 89 118 136 125 143
120 103 113 124 138
Ordenamos los datos de menor a mayor
88 89 93 94 94 95 96 96
97 103 103 104 106 107 108 111
112 112 113 113 117 117 118 119
120 120 124 125 125 125 127 127
132 134 135 136 138 139 139 142
143 148 155 155 156
1. Separamos a cada observacin en dos partes: tallo y hoja

2. Listamos en forma vertical y creciente los tallos y agregamos las hojas a la
derecha del tallo correspondiente.
132
Ejemplo. Consideremos el segundo dato :
8 9
TALLO HOJA
1. Elegimos un nmero de dgitos a la derecha de cada nmero que correspondern a
las hojas: 1 en este caso.
2. Separamos esos dgitos de los restantes, que constituirn los tallos. En este caso
obtendremos 8 tallos, de 8 a 15.
8 89
9 3445667
10 334678
11 122337789
12 00455577
13 2456899
14 238
15 556
Qu podemos ver en este tipo de diagrama?
Rango de las observaciones, valores mximo y mnimo.
Forma de la distribucin: simetra, asimetra a derecha, asimetra a izquierda y
cuntos picos tiene la distribucin.

Posicin del centro de la distribucin y concentracin de los datos.

Desviaciones marcadas respecto al comportamiento general: outliers o valores
atpicos.
Ejemplo: Los siguientes datos corresponden a tiempos de falla de de cables Kevlar
49/epoxy sometidos a una presin del 90%:
TIEMPOS DE FALLA
0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.04 0.05 0.06 0.07 0.07 0.08 0.09 0.09 0.10
0.10 0.11 0.11 0.12 0.13 0.18 0.19 0.20 0.23 0.80 0.80 0.83 0.85 0.90 0.92 0.95
0.99 1.00 1.01 1.02 1.03 1.05 1.10 1.10 1.11 1.15 1.18 1.20 1.29 1.31 1.33 1.34
1.40 1.43 1.45 1.50 1.51 1.52 1.53 1.54 1.54 1.55 1.58 1.60 1.63 1.64 1.80 1.80
1.81 2.02 2.05 2.14 2.17 2.33 3.03 3.03 3.24 4.20 4.69 7.89
El correspondiente esquema de tallo y hoja resulta:
133
0 0000000000000001111111122
0 88889999
1 000001111122333444
1 55555555666888
2 00113
2
3 002
3
4 2
4 6
5
5
6
6
7
7 8
En este caso cada tallo ha sido dividido en 2 lneas.
* 0, 1, 2, 3, 4
5, 6, 7, 8, 9
Se observa asimetra a derecha y un valor alejado del resto: 7.8
Veamos otro ejemplo
Ejemplo: Concentracin de Inmunoglobulina en 298 nios sanos entre 6 meses y 6 aos
de edad.

Igm n
o
de nios Igm n
o
de nios
0.1 3 1.3 7
0.2 7 1.4 9
0.3 19 1.5 6
0.4 27 1.6 2
0.5 32 1.7 3
0.6 35 1.8 3
0.7 38 2.0 3
0.8 38 2.1 2
0.9 22 2.2 1
1.0 16 2.5 1
1.1 16 2.7 1
1.2 6 4.5 1
134
Veamos el esquema de tallo y hoja resultante.
0 111
0 22222223333333333333333333
0 4444444444444444444444444445555555555555555555555555*
0 6666666666666666666666666666666666677777777777777777*
0 8888888888888888888888888888888888888899999999999999*
1 00000000000000001111111111111111
1 2222223333333
1 444444444555555
1 66777
1 888
2 00011
2 2
2 5
2 7
2
3
3
3
3
3
4
4
4 5
En este caso cada tallo ha sido dividido en 5 lneas.
* 0 y 1
t 2 y 3
f 4 y 5
s 6 y 7
8 y 9
Hay reglas heursticas para elegir el nmero de tallos. En general se recomienda utilizar
entre 8 y 20.
Cuando el volumen de datos es muy grande conviene usar otro tipo de grficos que
tambin son de fcil interpretacin .
Cmo elegimos el nmero de tallos?
El nmero de tallos debe ser tal que permita mostrar una imagen general de la estructura
del conjunto de datos. Aunque existen algunos criterios para definir el nmero de tallos, la
decisin depende fundamentalmente del sentido comn. Demasiados detalles en general
sern poco informativos, demasiado agrupamiento puede distorsionar la imagen del
conjunto.
Ejemplo: Consideremos el siguiente ejemplo con datos sobre consumo diario per cpita
de protenas en 32 pases desarrollados. Los datos se presentan ordenados de menor a
mayor por simplicidad.
135
Consumo de protenas per cpita en pases desarrollados.
7.83 9.03 10.56
8.06 9.16 10.52
8.45 9.23 10.75
8.49 9.34 10.86
8.53 9.39 10.89
8.60 9.42 11.07
8.64 9.56 11.27
8.70 9.89 11.36
8.75 10.00 11.58
8.92 10.28 11.76
8.93 10.41
Seleccionando como tallo la unidad obtenemos el grfico de tallo-hojas de la izquierda de
la figura:
Variaciones de los tallos. Datos de consumo de protenas per cpita.
7
8
9
10
11
8
0 4 4 5 6 6 7 7 9 9
0 1 2 3 3 4 5 8
0 2 4 5 5 7 8 8
0 2 3 5 7
7
8
8
9
9
10
10
11
11
8
0 4 4
5 6 6 7 7 9 9
0 1 2 3 3 4
5 8
0 2 4
5 5 7 8 8
0 2 3
5 7
En este grfico se acumula un nmero importante de hojas en cada tallo, por lo que
podramos estar perdiendo informacin acerca de la estructura de los datos. Dividiremos
cada tallo en dos, es decir, representaremos dos veces cada tallo, la primera vez que
ste aparezca ir acompaado por las hojas 0 a 4 y la segunda vez por las hojas 5 a 9.
Obtenemos, entonces, el grfico de la derecha.
Como puede observarse, al expandir la escala se observan ms detalles y parece haber
dos grupos de pases, uno con mayor consumo per cpita de protenas y otro con
menor consumo, ya que la distribucin de la variable tiene dos picos.
El problema de expandir la escala es que podran comenzar a aparecer detalles
superfluos, o simplemente atribuibles al azar.
Grfico de tallo-hojas espalda con espalda. Comparacin de grupos.
Los grficos de tallo-hojas son tiles para comparar la distribucin de una variable en dos
condiciones o grupos. El grfico se denomina tallo-hojas espalda con espalda porque
ambos grupos comparten los tallos.
136
A continuacin se muestra un grfico de la presin arterial sistlica a los 30 minutos de
comenzada la anestesia en pacientes sometidos a dos tcnicas anestsicas diferentes a
las que nos referiremos como T1 y T2.
Comparacin de la presin arterial sistlica en pacientes sometidos a dos tcnicas
anestsicas (30 minutos del inicio de la anestesia).
T1 T2
5 47
6 2
74 7 37
963 8 778999
660 9 0358
9662 10 222
821 11 37
70 12
2 13
14
15
4 16
El grfico nos muestra las siguientes caractersticas de la TAS en los dos grupos de
pacientes.
- La distribucin de TAS tiene forma similar en ambos grupos: Un pico o moda y forma
simtrica y aproximadamente acampanada.
- Diferencias en posicin. Los pacientes del grupo T1 tienen niveles de TAS levemente
mayores que los pacientes del grupo T2.
- Similar dispersin. Los valores de TAS de los pacientes de ambos grupos se
encuentran en rangos aproximadamente iguales, salvo por el valor atpico (outlier)
que se observa en el grupo T1.
Histogramas
Dividimos el rango donde viven los datos en intervalos o clases, que no se
superpongan. Las clases deben ser excluyentes y exhaustivas.

Contamos la cantidad de datos en cada intervalo o clase, es decir la
frecuencia. Tambin podemos usar para cada intervalo la
datos de total cantidad
frecuencia
relativa frecuencia =
Graficamos el histograma en un par de ejes coordenados representando en
las abscisas los intervalos y sobre cada uno de ellos un rectngulo cuya rea
sea proporcional a la frecuencia relativa de dicho intervalo.
Observaciones:
No existen criterios ptimos para elegir la cantidad de intervalos. En general,
entre 8 y 15 intervalos deberan ser suficientes. Utilizar muchos o muy pocos
intervalos puede ser poco informativo. Se debe buscar un equilibrio entre un
histograma muy irregular y uno demasiado suavizado.
137
No es necesario que todos los intervalos tengan la misma longitud, pero es
recomendable que as sea. Esto facilita su interpretacin.
El histograma representa la frecuencia o la frecuencia relativa a travs del
rea y no a travs de la altura.
Es recomendable tomar
intervalo del longitud
relativa frecuencia
rectngulo del altura =
De esta manera el rea es 1 y dos histogramas son fcilmente comparables
independientemente de la cantidad de observaciones en las que se basa cada
uno.
Ejemplo: Los siguientes datos corresponden a Porcentajes de Octanos en Naftas:
85.3 87.5 87.8 88.5 89.9 90.4 91.8 92.7
86.7 87.8 88.2 88.6 90.3 91.0 91.8 93.2
88.3 88.3 89.0 89.2 90.4 91.0 92.3 93.3
89.9 90.1 90.1 90.8 90.9 91.1 92.7 93.4
91.2 91.5 92.6 92.7 93.3 94.2 94.7 94.2
95.6 96.1
Clase Frecuencia f
i
Frecuencia relativa fr
i
[84, 86] 1 0.02380952
(86, 88] 4 0.09523810
(88, 90] 9 0.21428571
(90,92] 14 0.33333333
(92,94] 9 0.21428571
(94,96] 4 0.09523810
(96,98] 1 0.02380952
Total 42 1
138
Histogramas para datos de OCTANOS
Escala Densidad
84 86 88 90 92 94 96 98
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
octanos
Escala Frecuencia
84 86 88 90 92 94 96 98
0
2
4
6
8
1
0
1
2
1
4
octanos
En general, si el histograma es muy irregular puede ser imposible descubrir la forma. En
ese caso es conveniente tomar intervalos ms anchos.
Qu formas puede tener un histograma?
Un aspecto a tener en cuenta en la distribucin de los datos es la simetra. Un conjunto
de datos que no se distribuye simtricamente, se llama asimtrico. La asimetra puede
verse en el esquema de Tallo y Hoja o en el Histograma. Tambin se puede apreciar a
travs de la posicin relativa entre media y mediana. Ms adelante, en un boxplot lo
haremos a travs de la posicin relativa entre la mediana y los cuartos.
En los siguientes grficos mostramos algunas de las formas posibles que puede tener un
histograma:
Distribucin acampanada Distribucin uniforme
30 32 34 36 38 40 42 44 46 48 50 52 54
0
5
10
15
20
25
30
1 3 5 7 9 11 13 15 17
0
5
10
15
20
Asimetra a derecha Asimetra a izquierda
139
0 1 2 3 4 5 6 7 8 9 10
0
6
12
18
24
30
3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 14.5 15.5
0
5
10
15
20
Histograma con intervalos de distinta longitud.
Los datos de la siguiente tabla presentan los casos de rubola notificados al SINAVE
durante el ao 2000 segn grupos de edad. Notemos que los intervalos de edad tienen
diferente longitud.
Notificaciones de casos de rubola. Argentina, ao 2000. Fuente: SINAVE
Intervalo
(aos)
Frecuencia
(f
i
)
Frecuencia
relativa (f
r
)
[ 0, 1) 497 10.5%
[ 1, 2) 387 8.2%
[ 2, 5) 1100 23.3%
[ 5, 10) 1389 29.4%
[10, 15) 798 16.9%
[15, 50) 521 11.0%
50 28 0.6%
Total 4720 100.00%
Si errneamente se construye un histograma considerando como altura de la barra la
frecuencia relativa se obtiene la grfica siguiente. La ltima categora de edad se trunc
arbitrariamente en 80 aos para poder representarla.
A partir de este grfico concluiramos que la proporcin de casos es notablemente mayor
en los grupos de 2 a 5 aos, de 5 a 10 aos o de 10 a 15 aos que en los grupos de
0%
5%
10%
15%
20%
25%
30%
35%
0 10 20 30 40 50 60 70 80
edad
140
menores de 1 ao o de 1 a 2 aos. Adems, la proporcin de casos en el grupo de 15 a
50 aos impresiona como notable.
El problema es que en la imagen visual asociamos la frecuencia de casos con el rea de
la barra, por ello parece haber ms notificaciones de gente de 15 a 50 que de cualquier
otro grupo de edad.
Recordemos que la barra debe tener una altura tal que el rea (base x altura) sea igual a
la frecuencia (o a la frecuencia relativa). Es decir,
intervalo del longitud
intervalo el en frecuencia
barra la de altura = .
De este modo el rea de la barra coincide con la frecuencia en el intervalo. La altura de la
barra definida de este modo se denomina escala densidad porque indica el nmero de
datos por unidad de la variable. La ltima columna de la siguiente tabla muestra la escala
densidad para los datos de rubola y la figura siguiente muestra el histograma que se
obtiene usando la escala densidad.
Escala densidad. Notificaciones de casos de rubola. Argentina, ao 2000.
Fuente: SINAVE.
Categora
(aos)
Frecuencia
(f
i
)
Frecuencia
relativa (f
r
)
Escala
densidad
[ 0, 1) 497 10.5% 10.53%
[ 1, 2) 387 8.2% 8.20%
[ 2, 5) 1100 23.3% 7.77%
[ 5, 10) 1389 29.4% 5.89%
[10, 15) 798 16.9% 3.38%
[15, 50) 521 11.0% 0.32%
50 28 0.6% 0.01%
Total 4720 100.00% --
Histograma usando escala densidad. Notificaciones de casos de rubola. Argentina, ao
2000. Fuente: SINAVE
0%
2%
4%
6%
8%
10%
12%
0 10 20 30 40 50 60 70 80
edad
En este grfico, el porcentaje de casos de rubola notificados para cada grupo est
representado en el rea de la barra.
141
Si tuviramos individuos notificados por rubola parados en cada grupo etreo, la
altura del histograma representara el aglutinamiento en cada clase: hay partes del
eje de abscisas que estn ms densamente pobladas que otras.

El histograma muestra que una gran proporcin de casos ocurre en menores de 1 ao, y
que la proporcin desciende a medida que aumenta la edad. En este grfico estamos
representando la densidad de notificaciones por cada ao de edad.
El siguiente ejemplo nos muestra cmo vara el aspecto del histograma segn la longitud
de las clases.
Ejemplo: Concentracin de Img
Longitud de Clase= 0.1 g/l Longitud de Clase= 0.2 g/l
Longitud de Clase=1g/l
142
Medidas de Resumen
Resumiremos la informacin de los datos provenientes de variables numricas mediante
medidas de fcil interpretacin que reflejen sus caractersticas ms relevantes. La medida
a elegir depender de cada problema.
Medidas de Posicin o Centrado:
Un modo de resumir un conjunto de datos numricos es a travs de un nmero que
represente a todos, en el sentido de ser un valor tpico para el conjunto.
La pregunta que intentamos responder es: Cul es el valor central o que mejor
representa a los datos?
Si la distribucin es simtrica diferentes medidas darn resultados similares. Si es
asimtrica no existe un centro evidente y diferentes criterios para resumir los datos
pueden diferir considerablemente, en tanto tratan de captar diferentes aspectos de los
mismos.
Supongamos que tenemos un conjunto de n datos que genricamente. representaremos
por:
n
x x x ,......, ,
2 1
Promedio o Media Muestral: Sumamos todas las observaciones y dividimos por el
nmero total de datos.
n
x
x
n
i
i
=
=
1

Ejemplo: Fuerza de compresin de muestras de Aleacin de Aluminio-Litio
143
89 . 118
45
5350
45
45
1
= = =

= i
i
x
x
Es el punto de equilibrio del conjunto de datos.
Ejemplo: 2, 1, 0, 4, 8
Entonces 3
5
15
5
8 4 0 1 2
= =
+ + + +
= x
es el punto de equilibrio del conjunto de datos.
Xs: 1, 2, 2, 3
Si reemplazamos el valor 3 por 7, tenemos
Xs: 1, 2, 2, 7


Es una medida muy sensible a la presencia de datos anmalos (outliers).
Mediana Muestral: Es una medida del centro de los datos en tanto divide a la muestra
ordenada en dos partes de igual tamao. Deja la mitad de los datos a cada lado.
Sean los estadsticos de orden muestrales:

) ( ) 2 ( ) 1 (
....
n
x x x
Definimos como mediana
1 2 3
1 2 3 7
144

=
+
+ =
=
+
+
k n
x x
k n x
x
k k
k
2 si
2
1 2 si
~
) 1 ( ) (
) 1 (
La mediana es resistente a la presencia de datos atpicos. Tambin puede ser til cuando
algunos datos han sido censurados.
Ejemplos:
1) Supongamos que los datos son:
Xs: 3, 5, 2, 4, 6, 8, 7, 7, 6 n = 9 (n+1)/2 = 5
Ordenamos la muestra: 2 3 4 5 6 6 7 7 8
6
~
= x
2) Supongamos que los datos son:
Xs: 3, 5, 2, 4, 6, 8, 7, 7 n = 8 (n+1)/2 = 4.5
Ordenamos la muestra: 2 3 4 5 6 7 7 8
5 . 5
~
= x
3) Si tenemos:
Xs: 1,2,2,3 2
~
2 = = x x
Xs: 1,2,2, 7 2
~
2 = = x x
Ejercicios: 1) Qu pasa si, en el segundo caso, tenemos un 70 en lugar de 7?
2) Si tenemos una muestra de salarios de una poblacin dada, sera ms adecuado
tomar la media o la mediana muestral para representarlos?
Media - Podada: es un promedio calculado sobre los datos una vez que se han
eliminado 100 % de los datos ms pequeos y 100 % de los datos ms grandes.
Es una medida intermedia entre la media y la mediana. Formalmente podemos definirla
como:
145

| | | |
| |

n n
n n
x
n
x
x
2
) (
...
) 1 (


+ +
+
=
es decir, eliminando un nmero de datos en cada extremo de la muestra ordenada igual a
la parte entera de n .
Otra manera de definirla es eliminando n datos en cada extremo si n es entero y,
cuando no lo es, interpolando entre dos medias -podadas, una en la cual se podan
[n ] en cada extremo y otra en la que se podan [n ]+1 datos en cada extremo.
Ejemplos: 1) Sea el siguiente conjunto de 10 observaciones, ya ordenadas
Xs: 2 5 8 10 14 17 21 25 28 40
y calculemos la media 0.10-podada. Debemos podar 1 dato en cada extremo y calcular el
promedio de los 8 datos restantes, es decir
16
8
128
8
28 25 21 17 14 10 8 5
10 . 0
= =
+ + + + + + +
= x
2) Sea el siguiente conjunto de 12 observaciones, ya ordenadas
Xs: 1 2 5 8 10 14 17 21 25 28 40 45
y calculemos la media 0.10-podada. Usando la definicin dada inicialmente, debemos
podar [12 0.10] = [1.2] = 1 dato en cada extremo y calcular el promedio de los 10 datos
restantes, es decir
17
10
170
10
40 28 25 21 17 14 10 8 5 2
10 . 0
= =
+ + + + + + + + +
= x
Con la segunda definicin, deberamos calcular dos medias, una podando una
observacin en cada extremo de la muestra ordenada y otra podando dos observaciones
en cada extremo, e interpolar linealmente entre ambas medias. Es decir, calculamos

16
8
128
8
28 25 21 17 14 10 8 5
17
10
170
10
40 28 25 21 17 14 10 8 5 2
2
1
= =
+ + + + + + +
=
= =
+ + + + + + + + +
=
x
x
y la media podada se obtiene como la ordenada correspondiente a x = 1.2 en la recta que
pasa por (1,17) y (2, 16):
8 . 16
10 . 0
= x

como la ordenada correspondiente a x = 1.2 en la recta que pasa por (1,17) y (2, 16).
146
Observemos que la mediana puede ser vista como una media podada con =0.5. En ese
sentido, la media podada es una medida intermedia entre la media y la mediana. Es ms
resistente a datos atpicos que la media.
Cmo elegimos ?
Depende de cuantos outliers se pretende excluir y de cun robusta queremos que sea la
medida de posicin. Como dijimos, cuando seleccionamos = 0 tenemos la media, si
elegimos el mximo valor posible para (lo ms cercano posible a 0.5) tenemos la
mediana. Cualquier poda intermedia representa un compromiso entre ambas. Una
eleccin bastante comn es = 0.10, que excluye un 20% de los datos.
Ejemplo: En este ejemplo calcularemos las tres medidas.Los datos siguientes, ya
ordenados, corresponden al nmero de pulsaciones por minuto en pacientes con asma
durante un espasmo:
40 120 120 125 136 150 150 150 150 167
8 . 130 = x 143
~
= x 625 . 137
10 . 0
= x
Si la distribucin es simtrica la mediana y la media identifican al mismo punto. Sin
embargo, si la distribucin de los datos es asimtrica, esperamos que la relacin entre
ambas siga el siguiente patrn:
Asimetra derecha (cola larga hacia la derecha) X > X
~
Asimetra izquierda (cola larga hacia la izquierda) X < X
~
En ejemplo anterior tenamos:
Xs: 1,2,2,3 2 = x 2
~
= x
Xs: 1,2,2,7 3 = x 2
~
= x
Qu pasara con ambas medidas si reemplazamos el valor 7 por 70?
La mediana puede ser til cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo suele ser posible computar la mediana.
Ejemplos: a) Tiempo de supervivencia (en meses) de pacientes con cierta patologa. Los
datos que se indican entre parntesis tienen censura a derecha, es decir, se sabe que el
paciente sobrevivi ese tiempo, pero no se conoce el tiempo real de supervivencia.
1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
Como n = 15 la mediana es el octavo dato, por lo tanto X
~
= 28. Es posible calcularla
aunque haya datos censurados, porque los mismos no participan en el clculo de la
mediana. Por ejemplo, aunque no conocemos exactamente el tiempo que sobrevivi el
147
paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupar el lugar 11 o
uno superior.
b) Si los datos son:
1 5 10 (12) 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
no es posible calcular la mediana debido al dato indicado como (12). Sabemos que este
paciente sobrevivi por lo menos 12 meses, pero desconocemos el verdadero valor, el
que puede ocupar cualquier posicin entre la cuarta y la ltima.
Pregunta: Si tenemos una muestra de salarios de una poblacin dada, sera ms
adecuado tomar la media o la mediana muestral para representarlos?
Medidas de Dispersin o Variabilidad: Cun dispersos estn los datos? Cun
cercanos son los datos al valor tpico?
Supongamos que tenemos datos
n
x x x ,......, ,
2 1
Xs: 0 2 6 7 10
Ys: 2 3 6 6 8

5 = = Y X
6
~ ~
= = Y X
Cmo medir la diferencia que se observa entre ambas muestras?
Rango Muestral: Es la diferencia entre el valor ms grande y el pequeo de los datos:
Rango = mx(X
i
) mn(X
i
)
Ejemplo: en nuestros conjuntos de datos:
R
X
= 10 R
Y
= 6
Esta medida es muy sensible a la presencia de outliers.
148
Veamos otro ejemplo:
Xs: 0 1 5 9 10
Ys: 0 0 5 5 10

Y X
R R Y X Y X = = =
~ ~

Varianza Muestral:Mide la variabilidad de los datos alrededor de la media muestral.
Varianza muestral =
1
) (
1
2
2

=
n
x x
S
n
i
i


Desvo estndar muestral =
2
S S =
Ejemplo: en los dos ejemplos anteriores obtenemos
S
2
x
= 20.5 S
x
= 4.258
S
2
y
= 12.5 S
y
= 3.536
El desvo estndar tiene las mismas unidades que los datos, mientras que la varianza
no.
Al basarse en promedios, estas medidas son sensibles a la presencia de datos
atpicos. Por ejemplo, si en la muestra de los Ys cambiamos el 10 por un 15
obtenemos S
2
Y
= 30 y S
Y
= 5.477, mientras que si lo cambiamos por un 20 obtenemos
S
2
Y
= 57.5 y S
Y
= 7.583.
Coeficiente de Variacin: Es una medida que relaciona el desvo standard con la media
de una muestra.
149
X
S
CV =
Es una medida que est en desuso, ya que no tiene propiedades estadsticas muy
interesantes, sin embargo no depende de las unidades y si lo multiplicamos por 100 nos
da una idea de la variabilidad relativa.
Distancia Intercuartil: Es una medida basada en el rango de los datos centrales de la
muestra y ms resistente que el desvo estndar.
Comenzaremos por definir los percentiles. El percentil 100 % de la muestra es el
valor por debajo del cual se encuentra el 100 % de los datos en la muestra ordenada.
Para calcularlo:
Ordenamos la muestra de menor a mayor

Buscamos el dato que ocupa la posicin ). 1 ( + n Si este nmero no es entero se
interpolan los dos adyacentes.
Ejemplo: Tenemos 19 datos que ordenados son
1 1 2 2 3 4 4 5 5 6 7 7 8 8 9 9 10 10 11
Percentil Posicin Valor
10% 0.10 (19+1) = 2 1
25% 0.25 (19+1) = 5 3 Cuartil Inferior
50% 0.50 (19+1) = 10 6 Mediana
75% 0.75(19+1) = 15 9 Cuartil Superior
95% 0.95(19+1) = 19 11
Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana. Llamaremos
cuartil inferior (o primer cuartil) al percentil 25% y cuartil superior (o tercer cuartil) al
percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente
pobladas (aproximadamente un 25 % de los datos en cada una de ellas). Entre los
cuartiles se hallan aproximadamente el 50% central de los datos y el rango de stos es:
d
I
=distancia intercuartil= cuartil superior - cuartil inferior
Observacin: Si en ejemplo cambiramos el ltimo dato por 110, la distancia intercuartil
no cambiara, mientras que el desvo pasara de 3.2 a 24.13!!!!
Cuartos y Distancia entre Cuartos: Una medida muy cercana a los cuartiles inferior y
superior son el cuarto inferior y el cuarto superior. Se calculan de la siguiente manera:
Se ordena la muestra y se calcula la mediana de los datos.
Dividimos a la muestra ordenada en dos partes: la primera corresponde a los datos
ms pequeos que la mediana y la segunda parte a la los datos ms grandes que la
mediana
150
Si el tamao de la muestra es par, el cuarto inferior es la mediana de la primera
mitad, mientras que el cuarto superior es la mediana de la segunda mitad.
Si el tamao de la muestra es impar, a la primera y a la segunda parte se las
expande agregndoseles a cada una de ellas la mediana de todos los datos. El
cuarto inferior es la mediana de la primera parte expandida y el cuarto superior es
la mediana de la segunda parte expandida. Es decir, en el caso impar, la mediana
interviene en el cmputo de los dos cuartos.
Definimos la distancia entre cuartos como:
d
C
=distancia entre cuartos= cuarto superior-cuarto inferior
Ejemplo: Sean las siguientes muestras ordenadas
Cuarto inferior=3 Cuarto inferior=4

2 3 5 6 8 9 2 3 5 6 7 8 9


Cuarto superior=8 Cuarto superior=7.5
Desvo Absoluto Mediano (Desviacin absoluta respecto de la Mediana): Es una
versin robusta del desvo estndar basada en la mediana. Definimos la MAD como:
( ) x x MAD
i
~
mediana =
Cmo calculamos la MAD?
Ordenamos los datos de menor a mayor.
Calculamos la mediana.
Calculamos la distancia de cada dato a la mediana.
Despreciamos el signo de las distancias y las ordenamos de menor a mayor.
Buscamos la mediana de las distancias sin signo.
Observacin: Si deseamos comparar la distancia intercuartil y la MAD con el desvo
standard es conveniente dividirlas por constantes adecuadas. En ese caso se compara a
S con
675 . 0
MAD

35 . 1
I
d
151
5 Nmeros de Resumen:
Los 5 nmeros de resumen de la distribucin de un conjunto de datos consisten en el
Mnimo, el cuartil inferior, la mediana, el cuartil superior y el mximo.
Ejemplo: Los siguientes datos corresponden a tiempos de CPU (en segundos) de 25
trabajos enviados a un server tomados al azar.
CPU
1.17 1.23 0.15 0.19 0.92
1.61 3.76 2.41 0.82 0.75
1.16 1.94 0.71 0.47 2.59
1.38 0.96 0.02 2.16 3.07
3.53 4.75 1.59 2.01 1.40
Calculamos los 5 nmeros resumen y la media muestral para este conjunto de datos
> summary(server1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.02 0.82 1.38 1.63 2.16 4.75
Realizamos un esquema de Tallo y Hoja y graficamos un histograma para este conjunto
de datos:
0 1 2 3 4 5
0
.
0
0
.
1
0
.
2
0
.
3
CPU
stem(CPU)
N = 25 Median = 1.38
Quartiles = 0.82, 2.16
Decimal point is at the colon
0 : 01257789
1 : 022244669
2 : 0246
3 : 158
4 : 7
Todas las medidas y los grficos muestran que se trata de una distribucin asimtrica con
cola a derecha.
Box-Plots
Con las medidas anteriores podemos construir un grfico de fcil realizacin y lectura.
Cmo lo hacemos? Vamos a dar la versin, pero vale la pena advertir que hay
variaciones de un programa a otro.
1. Representamos una escala vertical u horizontal
152

2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento
que corresponde a la mediana.

3. A partir de cada extremo dibujamos un segmento hasta el dato ms alejado que est
a lo sumo 1.5 d
I
del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que estn entre 1.5 d
I
y 3 d
I
de cada extremo y con
o a aquellos que estn a ms de 3 d
I
de cada extremo. Algunos paquetes, como el R,
indican a todos los outliers de la misma forma.
Observacin: Muchos paquetes estadsticos realizan el boxplot usando los cuartos y la
distancia entre cuartos en lugar de la distancia intercuartil. Como estas medidas son muy
prximas, en general los resultados son anlogos. Lo importante es que entre los cuartos
o entre los cuartiles yace aproximadamente el 50% central de los datos.
Ejemplo: El box-plot correspondiente a los tiempos de CPU es el siguiente
0
1
2
3
4
CPU
Es interesante observar que en el boxplot se indica a uno de los datos como outlier,
mientras que en el anlisis anterior esto no pareca evidente.
A partir de un box-plot podemos podemos apreciar los siguientes aspectos de la
distribucin de un conjunto de datos:
posicin
dipersin
asimetra
longitud de las colas
puntos anmalos o outliers.
Los box-plots son especialmente tiles para comparar varios conjuntos de datos, pues
nos dan una rpida impresin visual de sus caractersticas.
153
Outliers: Los mtodos que hemos visto nos permiten identificar puntos atpicos, que
pueden aparecer en una o ms variables. Su deteccin es importante pues pueden
determinar o influenciar fuertemente los resultados de un anlisis estadstico clsico,
pues muchas de las tcnicas habitualmente usadas son muy sensibles a la presencia de
datos atpicos.
Los outliers deben ser cuidadosamente inspeccionados. Si no hay evidencia de error y su
valor es posible no deberan ser eliminados. Asimismo, la presencia de outliers puede
indicar que la escala elegida no es la ms adecuada.
Boxplots Paralelos
Una aplicacin muy til de los boxplots es la comparacin de la distribucin de dos o ms
conjuntos de datos graficando en una escala comn los boxplots paralelos de cada una
de las muestras. En este sentido los boxplots se muestran como un mtodo muy efectivo
de presentar y resumir los datos, tal como veremos en el siguiente ejemplo.
Ejemplo: Supongamos que se dispone de otros 25 datos correspondientes a tiempos de
CPU enviados a otro server. Si realizamos boxplots paralelos para ambos conjuntos de
datos obtenemos el siguiente grfico. La simple comparacin de los boxplots obtenidos
revela que los trabajos enviados al segundo server son ms largos. De hecho, el 75% de
los trabajos muestreados en el segundo server tienen tiempos de CPU mayores que el
cuartil superior de los trabajos muestreados en el primer server.
0
2
4
6
8
1
0
1er. server 2do. server
Ejemplo: Los siguientes boxplots corresponden a datos de concentracin mxima diaria
en partes por mil millones de dixido de azufre en Bayonne, en el estado de Nueva
Jersey, desde noviembre de 1969 hasta octubre de 1972 agrupados por meses. Hay 36
grupos de datos, cada uno de tamao aproximadamente 30.
Los boxplots muestran algunas caractersticas de estos datos en forma muy rpida.
Hay una reduccin general de la concentracin de dixido de azufre a lo largo del tiempo
debida a la conversin gradual en la zona al uso de combustibles con baja concentracin
de azufre. Esta disminucin es ms fuerte para los cuartiles superiores. Tambin se
muestran concentraciones ms elevadas para los meses de invierno debido al uso de
calderas a petrleo. Claramente se ve un efecto cclico y amortiguado. Los boxplots
muestran una distribucin asimtrica a derecha, con presencia de outliers en algunos
154
meses, y que la dispersin de la distribucin es mayor cuando el nivel general de la
concentracin es ms alto.
QQ-plot (Normal Probability Plot): El qq-plot es un grfico que nos sirve para evaluar la
cercana a una distribucin dada, en particular a la distribucin normal.
Consideremos la muestra aleatoria: X
1
, X
2
,....X
n
. Los estadsticos de orden se definen
como
X
(1)
X
(2)
....... X
(n)
Observemos que X
(1)
= min(X
1
, X
2
,....X
n
), mientras que X
(n)
= max(X
1
, X
2
,....X
n
).
En particular, si U
1
, U
2
,....U
n
son v.a. i.i.d tales que U(0,1) ~ U
i
, se puede demostrar que
1
) (
) (
+
=
n
i
U E
i
Por lo tanto esperamos que si graficamos U
(1)
,..., U
(n)
vs. sus valores esperados
1
,....,
1
1
+ + n
n
n
, el grfico debera parecerse a una recta si la distribucin subyacente
fuese Uniforme.
Por otro lado, si X es una variable continua con funcin de distribucin F estrictamente
creciente, entonces
) 1 , 0 ( ~ ) ( U X F Y =
155
Esto sugiere que si suponemos que X
i
~ F , entonces podemos graficar
) (
) (i
X F vs
1 + n
i
o equivalentemente
) (i
X vs )
1
(
1
+

n
i
F .
Observemos que si F es de la forma
) ( ) (


=
x
G x F
como es el caso de la normal, podemos graficar


) (i
X
vs |
.
|

\
|
+

1
1
n
i
G
o bien
) (i
X vs |
.
|

\
|
+

1
1
n
i
G
dar aproximadamente una recta pues
+
|
.
|

\
|
+


1
.
1
) (
n
i
G X
i
Notemos que si
1
F es la inversa de F, entonces el p-simo percentil de F, x
p
, es tal que
) ( ) (
1
p F x x F
p p

=
Por lo tanto, |
.
|

\
|
+

1
1
n
i
F es el
1 + n
i
-percentil de F.
En el QQ-plot se grafican en el eje de abscisas los percentiles de la distribucin terica
(en nuestro caso normal) y en el eje de ordenadas las observaciones ordenadas, que
pueden ser vistas como percentiles empricos.
En los siguientes grficos ilustramos con algunos ejemplos. Cabe observar que algunos
paquetes estadsticos representan a los percentiles tericos de la distribucin normal en
el eje de abscisas y otros en el eje de ordenadas
156
157
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
Asimetrica a izquierda
-
0
.
5
0
.
0
0
.
5
1
.
0
Colas Livianas
-
2
-
1
0
1
2
Normal
-
5
0
5
Colas Pesadas
0
.
0
0
.
1
0
.
2
0
.
3
Asimetrica a derecha
0.5 0.6 0.7 0.8 0.9 1.0
0
1
2
3
4
-1.0 -0.5 0.0 0.5 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
-2 -1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
-5 0 5
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0.0 0.1 0.2 0.3 0.4
0
1
2
3
4
5
6
R
o
j
o
=
M
e
d
i
a
n
a
,

N
e
g
r
o
=
M
e
d
i
a
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
-
0
.
5
0
.
0
0
.
5
1
.
0
-
2
-
1
0
1
2
-
5
0
5
0
.
0
0
.
1
0
.
2
0
.
3
158

Вам также может понравиться