Вы находитесь на странице: 1из 13

Estadı́stica Descriptiva

Mtro. Gerardo Gomez de la Cruz


gerardo_gomez79@hotmail.com

Índice
1. Representación Gráfica de Datos 2
1.1. Diagrama de Puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Diagrama de Tallos y Hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Distribución de Frecuencias e Histograma . . . . . . . . . . . . . . . . . . . . . . . . 7

1
Estadı́stica Descriptiva – GGC 2

1. Representación Gráfica de Datos


En la práctica la distribución exacta de una variable aleatoria no se conoce; en lugar de esto, el
problema importante es determinar la forma aproximada de la distribución, basado en una muestra
obtenida de esta población y de esta manera encontrar valores aproximados de los parámetros que
la caracterizan.
En todo lo que sigue, los datos, formalmente la muestra, está dada por,
{ }
x1 , x2 , x3 , · · · , xn , (1)
y diremos que la muestra es de tamaño n. En general la muestra en 1, no está ordenada y puede
haber repetición de valores en los datos.
De inicio necesitamos caracterizar a la muestra con información como el mı́nimo, el máximo, el
rango y algunas otras medidas que de manera rápida nos den idea de este conjunto de datos.
La primera recomendación es ordenar la muestra en forma creciente. Es costumbre la siguiente
notación, { }
x(1) , x(2) , x(3) , · · · , x(n) , (2)
donde ahora,
x(1) 6 x(2) 6 x(3) 6 · · · 6 x(n)
Se sigue que,
xmin = x(1) y xmax = x(n) ,
y formalmente el rango de la muestra, que decimos “va de xmin a xmax ”, se define como,
Definición 1.1 (Rango) Dada la muestra 1, definimos como el rango de la muestra a,
Rango = xmax − xmin . (3)
Para tener idea del tamaño de los datos de la muestra, hay varias medidas llamadas de tendencia
central de las cuales sólo veremos la media, la mediana y la moda.

La Media o Media Aritmética


Definición 1.2 (Media) Dada la muestra 1, definimos como la media de la muestra a,
x1 + x2 + x3 + · · · + xn
x̄ = . (4)
n
También se le conoce como la media aritmética.
Se acostumbra la siguiente notación de “sumatoria” o notación “sigma” para indicar sumas.
∑n
xi
x̄ = i=1 . (5)
n
Como el tamaño de la muestra n es una cantidad fija, usualmente
∑ puede omitirse la referencia a
xi
esta cantidad en la sumatoria y simplemente escribir, x̄ = , entendiéndose que la suma es
n
sobre todos los datos de la muestra. 1

1
El punto acá es que casi cualquier calculadora
∑ ∑ 2 de bolsillo excepto de ∑las tipo
∑ “maı́zoro”,
∑ ∑ como ∑parte de sus
funciones es evaluar las siguientes sumas, xi , xi , si hay dos variables, xi , yi , xi yi , x2i , yi2 y algunas
mas.
Estadı́stica Descriptiva 3

La Mediana La mediana denotada x̃ o xmed es un número que puede o no estar en la muestra con
la propiedad de que particiona a la muestra ordenada en aproximadamente el 50 % a la izquierda
(o por abajo) y el otro 50 % a la derecha o por arriba. Está dada por la siguiente definición.
Definición 1.3 (Mediana) Dada la muestra 1, definimos como la mediana de la muestra a,

 x( n+1 )
2
si n en impar,
e=
x x n + x( n2 +1) (6)
 (2) si n en par.
2

La Moda Ente dato es el dato que aparece más en a muestra. Esto es, es el dato de mayor
frecuencia en la muestra.

Ejemplo 1.1 Considere el siguiente conjunto de datos representando los aciertos obtenidos en 9
reactivos por un grupo de 34 alumnos en un examen de Cálculo. Esto es en el primer reactivo 18
alumnos obtuvieron la respuesta correcta; en el segundo reactivo fueron 17; en el tercero fueron 4,
. . . , y ası́ sucesivamente en el último reactivo solo 3 alumnos obtuvieron la respuesta correcta.
Los datos son,
{18, 17, 4, 14, 6, 0, 17, 4, 3}.

Los datos colocados sobre un eje horizontal se muestran en la Figura,

-Aciertos
0 2 4 6 8 10 12 14 16 18

Observe que hay dos concentraciones de datos, uno al rededor de 4 puntos y el otro al rededor
de los 16 puntos.
La muestra ordenada es,
{0, 3, 4, 4, 6, 14, 17, 17, 18}.
Entonces, el tamaño de la muestra es n = 9,

xmin = 0 y xmax = 18,

de donde podemos ver que el número de aciertos va de 0 a 18, con un rango,

Rango = 18 − 0 = 18.

Para calcular la media podemos procedes de la siguiente manera,


∑ ∑
xi 83
xi = 83 y x̄ = = ≈ 9.22.
n 9
En este caso el número de datos es pequeño y pudimos haber calculado directamente,
0 + 3 + 4 + 4 + 6 + 14 + 17 + 17 + 18 83
x̄ = = ≈ 9.22.
9 9
¿La mediana?
Estadı́stica Descriptiva 4

Como n = 9 es impar, entonces la mediana es

e = x( 9+1 ) = x(5) = 6.
x
2

De la moda podemos decir que en este caso no es única y es (o son)

xmoda = 4 y 17.

Diremos que la muestra es bimodal.

♢♢

Ahora considere el siguiente ejemplo.

Ejemplo 1.2 Con relación al Ejemplo 1.1 si se agrega un reactivo extra, las respuestas obtenidas
que se obtuvieron son,
{16, 18, 17, 4, 14, 6, 0, 17, 4, 3}.

Los puntos colocados en un eje son,

-Aciertos
0 2 4 6 8 10 12 14 16 18

En este caso, ∑
n = 10 y xi = 99,
luego, la media es, ∑
xi 99
x̄ = = = 9.9.
n 10
La muestra ordenada es,
{0, 3, 4, 4, 6, 14, 16, 17, 17, 18}.
Al ser n par no hay dato central; entonces para calcular a la mediana necesitamos los dos datos
centrales.
x( 10 ) + x( 10 +1) x(5) + x(6) 6 + 14 20
2 2
x̄ = = = = = 10.
2 2 2 2
Otra vez hacemos notar que la mediana, como en este caso, puede no pertenecer a la muestra:
xmed = 10!
Con respecto a la moda el dato extra x0 = 16 en nada afecta a esta. Seguimos teniendo una
muestra bimodal.
xmoda = 4 y 17.

♢♢
Estadı́stica Descriptiva 5

1.1. Diagrama de Puntos


Simplemente, se colocan los datos en un eje (normalmente horizontal) para poder “ver” la
distribución ordenada de los datos.
Es particularmente útil cuando el número total de datos en a lo mas 20. Esto es, n 6 20.

Ejemplo 1.3 En la revista Applied Life Data Analysis (Wiley, 1982) Wayne Nelson presenta los
tiempos de ruptura para un fluido aislante entre dos electrodos a 34 kV. Los datos, en minutos, son

0.19 0.78 0.96 1.31 2.78 3.16 4.15 4.67 4.85 6.50
7.35 8.01 8.27 12.06 31.75 32.52 33.91 36.71 72.89

Construya un diagrama de puntos.

Solución: Como ya se mencionó, sólo colocamos los datos sobre un eje, en este caso horizontal, que
representa los tiempos de ruptura del aislante lı́quido mencionado.

-Tiempos de ruptura
O 10 20 30 40 50 60 70 80

Por evitar “el amontonamiento” de los puntos, algunos de estos datos has sido colocados ligeramente
arriba de otros puntos muy cercanos.
De este diagrama de puntos es fácil ver de manera inmediata la concentración de puntos que
hay en el intervalo de 0 a 10 mins; de otra concentración de tiempos en el intervalo de tiempos de
30 a 40 mins y de un tiempo que uno dirı́a es “atı́pico” y que es el dato x19 = 72.89 mins.

♢♢

1.2. Diagrama de Tallos y Hojas


1. Elija números que representarán los tallos.

2. Por cada tallo escriba enfrente de este la hoja que será el siguiente dı́gito que aparece. Por
ejemplo se el dato es xk = 32 y tiene a 3 como tallo, entonces la hoja será el siguiente dı́gito
que es el 2.

3. Cuando haya terminado de colocar todos los tallos y sus hojas, dele vuelta para ver en forma
vertical a la distribución.

Ejemplo 1.4 Considere el siguiente conjunto de datos representando la resistencia a la compresión


de 80 mezclas de Aluminio y Litio.
Estadı́stica Descriptiva 6

Cuadro 1: Se muestran la resistencia a la compresión de 80 mezclas de Aluminio y Litio.

105 221 183 186 121 181 180 143


97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149

Primero construiremos el diagrama de tallo y hojas eligiendo como tallos a,

7, 8, 9, 10, 11, 12, · · · , 22, 23, 24, 25.

Tendremos el siguiente arreglo,

Tallo Hojas Frecuencia


7 6 1
8 7 1
9 7 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 0361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1

Cuadro 2: Se muestra el diagrama de tallo-hojas para los datos en el Cuadro1. Si giramos este arreglo 90◦
en sentido positivo, podremos apreciar la forma de una campana que es tı́pica de una distribución normal.
Estadı́stica Descriptiva 7

1.3. Distribución de Frecuencias e Histograma


Para “ver” la forma de la distribución necesitamos del histograma que simplemente es una serie
particular de rectángulos.
¿Procedimiento?

Rango, Número de Clases y Ancho de Clase Calculamos el rango donde están distribuidos
los datos,
Rango = xmáx − xmı́n ,
y el ancho de clase,
xmáx − xmı́n
∆x = ,
N
donde N representa el número de clases.
Para el número de clases, N , (esto es, el número de rectángulos que nuestro histograma tendrá)
hay una recomendación en lo general de que sean mı́nimo 5 y máximo 20.
Una forma de elegir esta N es de acuerdo a la siguiente tabla2 ,

Número de Datos Numero de Clases


16 – 31 5
32 – 63 6
64 – 127 7
128 – 255 8
256 – 527 9
528 – 1023 10
1024 – 2047 11
.. ..
. .

Cuadro 3: Recomendación sobre el número de datos n y el número de clases N .

Una vez decidido el número de clases, un histograma es una serie de rectángulos consecutivos,
cada uno construido con base sobre el ancho de clase y cuya altura es la frecuencia de esa clase,
la que se define como el número de datos que se pertenecen a la clase.
Se recomienda la construcción de la siguiente tabla,
2
Si n es el número de datos (esto es, el tamaño de la muestra), entonces encuentre un entero K tal que,

2K 6 n < 2K+1 ,

entonces tome como número de clases a N = K + 1. De hecho, puede mostrarse que,

Número de Clases = ⌈log2 (n)⌉.

donde ⌈x⌉ significa la función techo que es también conocida como el mı́nimo entero mayor o igual que x. Por ejemplo,
si el número de datos es del orden de 2000, entonces,
ln(2000)
Número de Clases = ⌈log2 (2000)⌉ = ⌈ ⌉ = ⌈10.9658⌉ = 11.
ln(2)
Estadı́stica Descriptiva 8

i Clase MCi fi Fi fei Fei


1
2
..
.
N

1. Número de clase.
2. Marca de clase MCi . Usualmente se asigna como representante de cada clase al punto medio
de los lı́mites inferior y superior.
3. Frecuencia de clase fi . Como su nombre lo indica es el número de datos que pertenecen a la
i-ésima clase.
Nosotros tomaremos al intervalo cerrado por la izquierda y abierto por la derecha. Esto
significa que si uno de los datos cae justo en uno de los lı́mites de una clase, entonces se
contabiliza como frecuencia de la clase con el dato como lı́mite inferior. Por ejemplo, suponga
que el intervalo de clase es 23–34 entonces si tenemos como dato xj = 34, este dato se
contabiliza en la siguiente clase.
La razón es que,
34 ∈
/ [23, 34),
mientras que, si por ejemplo el siguiente intervalo de clase es 34–45,

34 ∈ [34, 45).

La última clase se toma como cerrada también por el lado derecho.


4. Frecuencia acumulada hasta la i-ésima clase Fi . Esto es,

i
Fi = f1 + f2 + · · · + fi = fk .
k=1

5. Frecuencia relativa de clase fei , definida por,


fi
fei = .
n

6. Frecuencia relativa acumulada hasta la i-ésima clase Fei .


Fi
Fei = .
n
Para nuestro ejemplo de la mezclas de aluminio y litio, Ejemplo 1.4, tenemos que la muestra de
tamaño n = 80, tendremos que,
ln(80)
Número de Clases = ⌈log2 (80)⌉ = ⌈ ⌉ = ⌈6.3219⌉ = 7.
ln(2)
Estadı́stica Descriptiva 9

Entonces,
xmı́n = 76 y xmáx = 245,
implicando que el rango es,
Rango = 245 − 76 = 169.
Ya hemos calculado que necesitamos 7 clases, luego el ancho de cada clase será,
Rango 169
∆Xi = = = 24.143.
7 7
Aquı́ viene un pequeño razonamiento por conveniencia: Para evitar un ancho de clase decimal
(aunque con mayor precisión), elijamos d manera arbitraria un ancho de clase cómodo. En este
caso es conveniente,
∆Xi = 25,
que al multiplicar por los 7 intervalos nos cubrirá 7 × 25 = 175 que es 6 puntos mayor que el rango.
De esta manera este exceso lo ponemos a los extremos del histograma; esto es iniciamos nuestra
primera clase no justo sobre el primer dato sino 3 puntos atrás. Esto es las clases quedarán de la
siguiente manera.

i Clase M Ci
1 73 – 97 85
2 98 – 122 110
3 123 – 147 135
4 148 – 172 160
5 173 – 197 185
6 198 – 222 210
7 223 – 248 235

Cuadro 4: Clases.

Se ha adicionado una columna en donde se han calculado las marcas de clase para cada uno
de los intervalos de clase que como ya se mencionó con anterioridad son los puntos medios de los
intervalos. por ejemplo,
73 + 97 98 + 122
M C1 = = 85, M C2 = = 110, · · ·
2 2
Estadı́stica Descriptiva 10

i Clase MCi fi Fi fei Fei


1 73 – 97 85 3 3 3/80 3/80
2 98 – 122 110 7 10 7/80 10/80
3 123 – 147 135 12 22 12/80 22/80
4 148 – 172 160 29 51 29/80 51/80
5 173 – 197 185 17 68 17/80 68/80
6 198 – 222 210 8 76 8/80 76/80
7 223 – 248 235 4 80 4/80 80/80

A continuación se muestra el histograma de frecuencias


y
6

30
FX (x) 29

25

20
17

15
12

10
8
7

5 4
3

-x
73 98 123 148 173 198 223 248
O

Distribución de Frecuencias Acumuladas y Ojiva. De la tabla de distribución de frecuencias


se puede conseguir algunas gráficas de cierto interés. Son,

Polı́gono de Frecuencias Este polı́gono une los puntos,

{(M C i , fei ), i = 1, 2, 3, · · · , N }

De alguna manera da una idea de donde hay mas probabilidad. Este polı́gono por motivos
de presentación se tiene que anclar a eje horizontal definiendo artificialmente dos clases una
antes de la primera clase y la segunda a continuación de la última clase y con frecuencia
cero.

Polı́gono de Frecuencias Acumuladas Este polı́gono une los puntos,

{(M C i , Fei ), i = 1, 2, 3, · · · , N }

De alguna manera da una idea de donde hay mas probabilidad.


Estadı́stica Descriptiva 11

Ojiva Este polı́gono une los puntos,

{(LDC i , Fei ), i = 1, 2, 3, · · · , N }

donde LDC i representa el Lı́mite Derecho de Clase de cada clase.

Problema 1 Otra regla para elegir el número de clases es por medio de,

N ≈ n,

donde n en el número de datos.


De
√ esta manera para el Ejemplo 1.4 siendo n = 80, le corresponde como número de clases
N = 80 ≈ 9 con lo que podemos elegir como número de clases N = 8 o N = 9.
Construya histogramas para N = 8 y para N = 9 y comente las diferencias en cada caso.

Ejemplo 1.5 La vida en horas de una baterı́a de Litio utilizada en un tipo especial de calculadora
está dada en la siguiente table.

4285 564 1278 205 3920 2066 604 209 602 1379
2584 14 349 3770 99 1009 4152 478 726 510
318 737 3032 3894 582 1429 852 1461 2662 308
981 1560 701 497 3367 1402 1786 1406 35 99
1137 520 261 2778 373 414 396 83 1379 454

En este caso, el tamaño de la muestra es n = 50 y como n ∈ [25 = 32, 26 = 64] la regla empı́rica
para escoger sugiere como número de clases, N = 6.
Fácil ver que,
xmin = 14 y xmax = 4285,
de donde,
Rango = xmax − xmin = 4285 − 14 = 4271,
quedando como ancho de clase a,
xmax − xmin 4271
∆x = = = 711.83.
N 6
Por conveniencia elijamos un ancho de clase ∆x = 712, el cual cubre un intervalo de N × ∆x =
712 × 6 = 4272.
Tomemos como lı́mites de clase los siguientes números que están 0.5 unidades por debajo (y
por arriba) de los datos. Esto es, tomemos las siguientes clases,
Estadı́stica Descriptiva 12

i Clase MC fi Fi
1 13.5 – 725.5 369.5 24 24
2 725.5 –1437.5 1081.5 12 36
3 1437.5–2149.5 1793.5 4 40
4 2149.5–2861.5 2505.5 3 43
5 2861.5–3573.5 3217.5 2 45
6 3573.5–4285.5 3929.5 5 50

Cuadro 5: Clases

Ejemplo 1.6 Se ha realizado un estudio sobre amnesia postraumática después de recibir un golpe
en la cabeza. Una variable estudiada es el número de dı́as que el paciente permanece en el hospital.
El diagrama de tallo-hojas se muestra a continuación. Construya el diagrama de caja para este
conjunto de datos.

Tallo Hojas Frecuencia


0 8 1
1 2 1
2 07 2
3 0256 4
4 00001257 8
5 02 2
6 1 1
7 0
8 9 1
9 0
10 8 1

Cuadro 6: Número de dı́as hospitalizado después de un golpe en la cabeza.

Los datos ordenados son,

{8, 12, 20, 27, 30, 32, 35, 36, 40, 40, 40, 40, 41, 42, 45, 47, 50, 52, 61, 89, 108}

Solución:
Con n = 21,
n+1 22
l = = = 11
2 2
L = ⌊l⌋ = 11
L+1 12
q = = = 6.
2 2
Entonces la mediana y los cuartiles son,

x̃ = x(11) = 40. también q1 = x(6) = 32 y q3 = y(6) = x(21−6+1) = x(16) = 47.


Estadı́stica Descriptiva 13

El rango intercuartil de la muestra será,

RIC = q3 − q1 = 47 − 32 = 15.

Las barreras internas,

f1 = q1 − (1.5)RIC = 32 − 1.5(15) = 9.5 y f3 = q3 + (1.5)RIC = 47 + (1.5)(15) = 69.5.

Los valores adyacentes,


a1 = 12 y a3 = 61.
Las barreras externas,

F1 = q1 − 2(1.5)RIC = 32 − 3.0(15) = −13 y F3 = q3 + 2(1.5)RIC = 47 + 3.0(15) = 92.

Entonces los valores atı́picos moderados se encuentran en el intervalo de F1 = −13 a f1 = 9.5 o en


el intervalo f3 = 69.5 a F3 = 92. Esto es,

Atı́picos Moderados = {8, 89},

mientras que los valores atı́picos extremos están fuera del intervalo definido por F1 = −13 y F3 = 92.
Por la izquierda no hay pero por la derecha se encuentra el valor atı́pico extremo

{108}.

¿El diagrama de caja?

Вам также может понравиться