Вы находитесь на странице: 1из 3

Probabilidad y Estadstica

http://web.frm.utn.edu.ar/estadistica

Grfico de Caja

Grfico de Caja Notas de clase


El grfico de caja fue descrito por Tukey, denominndolo box and whiskers. Para su construccin se utilizan
cinco estadsticos de la distribucin de frecuencias: el mnimo, el primer cuartil, la mediana, el tercer cuartil y el
mximo; tambin se indica la posicin de la media.

Construccin
1.

Para su construccin, es necesario conocer o calcular los siguientes valores: xmn ; xmx ; Q1 ; Q2 ; Q3 ;
REF1 = Q1 3 RI ; REF2 = Q1 1,5 RI ; REF3 = Q3 + 1,5 RI ; REF4 = Q3 + 3 RI.

2.

Se traza una lnea horizontal de longitud proporcional al recorrido de la variable, que llamaremos eje.
Los extremos del eje sern el mnimo y el mximo de la distribucin. El eje se grada segn la escala
conveniente y se sealan los valores referenciales REF1, REF2, REF3 y REF4 (en realidad estas
marcas referenciales no aparecern en el grfico final).

3.

Paralelamente al eje se construye una caja rectangular con altura arbitraria y cuya base abarca desde el
primer cuartil hasta el tercer cuartil. Como vemos, esta caja indica grficamente el intervalo de
variacin del 50% de valores centrales de la distribucin.

4.

La caja se divide en dos partes, trazando una lnea en la posicin de la mediana. As, cada una de las
partes en que ha quedado dividida la caja encierra una cuarta (25%) parte de las observaciones.

5.

Una vez dibujada la caja, se aaden dos lneas paralelas al eje, que llamaremos bigotes o extensiones,
una de cada lado. Si el xmn es igual o mayor que la REF2, la extensin se prolonga desde el Q1 hasta el
xmn. Si el xmn es menor que la REF2, la extensin se prolonga hasta el valor observado inmediato
mayor que la REF2. Si el xmx es igual o menor que la REF3, la extensin se prolonga desde el Q3 hasta
el xmx. Si el xmx es mayor que la REF3, la extensin se prolonga hasta el valor observado inmediato
menor que la REF3.

6.

Si hay datos observados que quedan por debajo de la REF2 o por encima de la REF3, se sealan en el
grfico de modo particular, por ejemplo, con un cuadradito o cualquier otro smbolo que lo represente.
A estos datos, genricamente, los denominamos DATOS APARTADOS o VALORES EXTREMOS del
conjunto al cual pertenecen. En ocasiones se hace distincin entre los datos apartados ATPICOS y
ANMALOS. Los datos atpicos son los que quedan comprendidos entre la REF1 y la REF2, y los que
quedan comprendidos entre la REF3 y la REF4. Los datos anmalos son los que quedan por debajo de
la REF1 y tambin los que quedan por encima de la REF4. Para diferenciarlos se utilizan marcas
diferentes, por ejemplo, Statgraphics utiliza un cuadradito para los atpicos y un cuadradito con una cruz
para los anmalos.

7.

Finalmente, se indica con otro signo la posicin de la media aritmtica. Statgraphics, por ejemplo,
utiliza el signo +.

Algunas utilidades del grfico de caja


El grfico de caja nos proporciona la posicin relativa de la mediana, los cuartiles y extremos de la

distribucin.
El grfico de caja nos proporciona informacin sobre los datos apartados, sugiriendo la necesidad o no
de utilizar determinados estadsticos.
El grfico de caja nos informa de la simetra o asimetra de la distribucin.
El grfico de caja se puede utilizar para comparar la misma variable en dos muestras distintas.

GraficoCaja 2004

Probabilidad y Estadstica

Grfico de Caja

http://web.frm.utn.edu.ar/estadistica

Ejemplo: toda la muestra sin distinguir por sexo


Para verificar las utilidades analizaremos una serie estadstica con el peso, en kilogramos, de un grupo de sesenta
personas:
55

64

70

74

75

70

62

93

60

62

70

71

70

80

61

60

62

68

65

65

66

68

71

72

60

49

52

54

56

66

45

52

48

54

56

61

46

50

52

53

56

68

47

50

53

57

60

64

47

50

53

57

60

64

55

52

54

44

65

60

Varones

Mujeres

En primer lugar, tomaremos la muestra en su conjunto, sin distinguir por sexo:


xmn = 44
xmx = 93
Q1 = 53
Q2 = 60 Q3 = 53 RI = 13
REF1 = Q1 3 RI = 14
; REF2 = Q1 1,5 RI = 33,5
REF3 = Q3 + 1,5 RI = 85,5 ; REF4 = Q3 + 3 RI = 92
Dado que xmn = 44 es mayor que la REF2 = 33,5 la extensin izquierda la prolongaremos hasta el xmn = 44.
Por otra parte, dado que el xmx = 93 es mayor que la REF 3 = 85,5, hay datos apartados. En este caso la
extensin derecha la prolongaremos hasta la observacin inmediata anterior a los 85,5 kg. Esta resulta ser 80 kg.
Como el valor mximo est por encima de la REF4, el dato apartado es un dato anmalo.

Box-and-Whisker Plot

40

45

50

55

60

65

70

75

80

85

90

95

PESO

Histogram

percentage

40
30
20

10
0
40

45

50

55

60

65

70

75

80

85

90

95 100

PESO

GraficoCaja 2004

Probabilidad y Estadstica

Grfico de Caja

http://web.frm.utn.edu.ar/estadistica

Ejemplo: consideracin de las muestras clasificadas por sexo


A continuacin, tomaremos la muestra por sexo, construyendo un grfico de caja para cada categora, a fin de
comparar ambas distribuciones:
Varones
xmn = 55 ; xmx = 93 ; Q1 = 62 ; Q2 = 68 ; Q3 = 71 ; RI = 9
REF1 = Q1 3 RI = 35
REF2 = Q1 1,5 RI = 48,5
REF3 = Q3 + 1,5 RI = 84,5
REF4 = Q3 + 3 RI = 98
Dado que xmn = 55 es mayor que la REF2 = 48,5 la extensin izquierda la prolongaremos hasta el xmn = 55.
Por otra parte, dado que el xmx = 93 es mayor que la REF 3 = 84,5, hay datos apartados. En este caso la
extensin derecha la prolongaremos hasta la observacin inmediata anterior a los 84,5 kg. Esta resulta ser 80 kg.
Como el valor mximo est entre la REF3 = 84,5 y la REF4 = 98, el dato apartado es un dato atpico.
Por lo anterior, vemos que en la muestra de varones, se presenta un valor atpico en el extremo superior.
Mujeres
xmn = 44 ; xmx = 68 ; Q1 = 50 ; Q2 = 54 ; Q3 = 60 ; RI = 10
REF 1 = Q1 3 RI = 20
REF2 = Q1 1,5 RI = 35
REF3 = Q3 + 1,5.RI = 75
REF4 = Q3 + 3 RI = 90
Dado que xmn = 44 es mayor que la REF2 = 35, la extensin izquierda la prolongaremos hasta el xmn = 44.
Por otra parte, dado que el xmx = 68 es menor que la REF 3 = 73 NO hay datos apartados. Prolongaremos
entonces la extensin derecha hasta la observacin mxima.
Por lo anterior, vemos que en la muestra de mujeres, no se presentan valores atpicos ni valores anmalos.

Box-and-Whisker Plot

HOM

MUJ

40

45

50

55

60

65

70

75

80

85

90

95

PESO

HOM

percentage

58
38
18
2
22
42
40

50

60

70

80

90

100

MUJ

GraficoCaja 2004

Вам также может понравиться