Академический Документы
Профессиональный Документы
Культура Документы
Estadı́stica descriptiva
1
Notas de clase: Probabilidad y Estadı́stica
¿Cómo diseño un experimento de tal forma que los datos obtenidos sean susceptibles
de analizar con métodos estadı́sticos?
b. El estado civil, en el cual los individuos pueden clasificarse en solteros, casados, viudos y
separados; también puede asignarse a los cuatro estados los números 1, 2, 3 y 4.
En esta escala se pueden hacer algunas operaciones estadı́sticas como sacar frecuencias, por-
centajes, modas, y también aplicar algunas pruebas de hipótesis como la chi cuadrado (χ2 )
en el caso de tablas de contingencia.
Ejemplo 2. a. El nivel económico de las personas puede medirse con los atributos alto,
medio, bajo y pobre con los números 4, 3, 2, y 1 de tal forma que se puede establecer la
relación de orden 4 > 3 > 2 > 1.
b. El escalafón de los docentes universitarios, los cuales poseen las categorı́as auxiliar, asisten-
te, asociado y titular, también podrı́an señalarse con los números 1, 2, 3, 4 respectivamente
o también usar los números 2, 4, 6 y 8 sin que pierda sentido o calidad la clasificación.
Para analizar este tipo de datos la medida estadı́stica de tendencia central más apropiada es la
mediana (sección 1.5.1), y se pueden aplicar todos los métodos estadı́sticos no paramétricos.
Empresa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
tipo 1 2 2 3 1 2 3 2 1 2 3 1 1 2 3
clasi 1 2 3 2 4 2 3 2 1 2 3 4 2 3 1
Empresa 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
tipo 3 2 1 2 3 2 3 1 3 2 2 3 1 2 3
clasi 2 3 2 1 4 4 1 2 4 1 2 3 1 4 4
Empresa 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
tipo 1 2 3 1 3 2 1 3 2 3 1 2 3 1 2
clasi 2 3 2 1 4 2 3 1 4 2 1 3 2 1 4
Empresa 46 47 48 49 50
tipo 1 2 3 1 2
clasi 1 2 3 2 1
Continuas
Son las que pueden tomar cualquier valor dentro de un intervalo numérico, son ejemplos de
variables continuas el tiempo, peso, longitud, temperatura, Humedad relativa entre otras.
Discretas
Son las que pueden tomar un número finito o infinito contable de valores.
Clasificación
Tipo 1 2 3 4 Sum
1 7 5 1 2 15
2 3 7 5 4 19
3 3 5 4 4 16
Sum 13 17 10 10 50
Diagrama de sectores
Es un gráfico que se basa en una proporcionalidad entre la frecuencia y el ángulo central de
una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo central
de 360◦ . Para determinar el ángulo que corresponde a cada categorı́a se aplica la siguiente
fórmula
fi × 360
θi = P
fi
donde fi es la frecuencia de la i−ésima categorı́a.
Ejemplo 6. La tabla 1.3 muestra los resultados de un sondeo a cerca de la preferencia de
algunos clientes con respecto al sabor del yogur. Representar los datos en un diagrama de
sectores. P
Las frecuencias son: f1 = 210, f2 = 80 y f3 = 120 y fi = 410. Los ángulos correspondientes
son entonces:
20
10
Publicas Privadas Controladas Publicas Privadas Controladas
8
15
6
10
4
5
2
0
0
Clase 1 Clase 2 Clase 3 Clase 4 Clase 1 Clase 2 Clase 3 Clase 4
Figura 1.1: Diagramas de barras construidos a partir de los datos de la tabla 1.1 .
Una vez se tienen los ángulos se procede a dividir el circulo según estos, como se muestra en
la figura 1.2.
Fresa 51.22 %
Melocotón 19.51 %
Pasas 29.27 %
1. Se establece cierto número de clases (intervalos) para agrupar los valores observados,
en general el número de clases que usemos depende del número de observaciones, pero
tiene muy poca utilidad usar menos de 5 o mas de 15. Para unificar criterios usaremos
la siguiente formula empı́rica para determinar el número de clases
K ≈ 1 + 3,3 log(n)
2. Se obtiene el rango o amplitud (R), que es la diferencia entre el valor mas grande y el
más pequeño.
4. El limite inferior del primer intervalo (clase) es el menor de los datos, el limite su-
perior del primer intervalo se obtiene sumando al dato menor el ancho de clase. El
segundo intervalo se obtiene sumando el ancho de clase al limite superior del primero
y ası́ sucesivamente.
38 35 76 58 48 59
67 63 33 69 53 51
28 25 36 32 61 57
49 78 48 42 72 52
47 66 58 44 44 56
Construir una tabla que contenga la distribución de frecuencia relativa y frecuencia relativa
acumulada.
Solución:
4. El limite inferior de la primera clase es el menor de los datos (25), para obtener el limite
superior de la primera clase, al dato menor se le suma el ancho de clase: 25+8,83 = 33,83
de esa forma la primera clase es [25 − 33,83). El limite inferior de la segunda clase es el
superior de la primera y el superior es: 33,83 + 8,83 = 42,66 ası́ que la segunda clase es
[33,83 − 42,66) con ese procedimiento se continua hasta agotar las seis clases. Se debe
tener en cuenta que el limite superior de la última clase es el mayor de los datos.
5. Una vez se tienen todas las clases se cuenta el número de datos que pertenecen a cada
intervalo. La tabla se muestra a continuación
Representación Gráfica
La forma más común de representar una distribución de frecuencias es el histograma. Para
construir el histograma de una distribución de frecuencia se colocan los intervalos de clase
en el eje horizontal de un plano cartesiano y sobre estos se dibujan rectángulos cuyas alturas
son las frecuencias de clase.
Frecuencia
4
33.83
42.66
51.49
60.32
69.15
78.00
25.00 Clases
2 5 8
3 2 3 5 6 8
4 2 4 4 7 8 8 9
5 1 2 3 6 7 8 8 9
6 1 3 6 7 9
7 2 6 8
inglesa). Este diagrama de consiste en una caja y guiones con una linea a través de la caja
que representa la mediana (segundo cuartil Q2 ). El extremo inferior de la caja es el primer
cuartil Q1 y el superior es el tercer cuartil Q3 .
El bigote superior se extiende desde el tercer cuartil hasta la observación más grande
que es menor o igual que Q3 + 1,5 × (Q3 − Q1 )1 . El bigote inferior se extiende hasta
la observación más pequeña que es mayor o igual que Q1 − 1,5 × (Q3 − Q1 ) 2 Las
observaciones que sean mayores que el cerco interno superior o menores que el cerco interno
inferior se clasifican como datos atı́picos y se marcan en el diagrama. Supongase que se tienen
n datos, los cuales se han ordenado previamente:
3
X El segundo cuartil es el dato que ocupa la posición
n+1
si n es impar
2
o el promedio de las observaciones que ocupan las posiciones
n n
y + 1 si n es par
2 2
.
b. Construir un rectángulo cuyo borde inferior se ubica en el cuartil inferior (Q1 ) y cuyo
borde superior se ubica en el cuartil superior (Q3 ).
d. Prolongar una recta (el bigote) desde el extremo superior de la caja hasta la observación
más grande que es menor o igual que Q3 + 1,5 × (Q3 − Q1 ).
e. Prolongar una recta (el otro bigote) desde el extremo inferior de la caja hasta la observación
más pequeña que es mayor o igual que Q1 − 1,5 × (Q3 − Q1 )
f. Dibujar un ◦ para ubicar (e identificar) cada observación que queden fuera del alcance de
los bigotes.
Ejemplo 8. Los datos que se muestran en la siguiente tabla corresponden a el peso (en
kilogramos) de 25 niños al momento de nacer
1
Q3 + 1,5 × (Q3 − Q1 ) se conoce como cerco interno superior
2
Q1 − 1,5 × (Q3 − Q1 ) se conoce como cerco interno inferior
3
Es la mediana que veremos más adelante
Solución: Lo primero que hay que hacer es ordenar los datos de menor a mayor, con el fin
de obtener los cuartiles. Los datos ordenados se muestran en la tabla 1.4.
1 2 3 4 5 6 7 8 9 10
2.200 2.345 2.350 2.382 2.415 2.434 2.436 2.437 2.443 2.464
11 12 13 14 15 16 17 18 19 20
2.472 2.489 2.491 2.505 2.536 2.536 2.550 2.556 2.571 2.573
21 22 23 24 25
2.577 2.580 2.617 2.652 2.851
El Segundo cuartil (Q2 ) Como n = 25 es impar entonces el segundo cuartil (la mediana)
es la observación que ocupa la posición
n+1 25 + 1
= = 13
2 2
es decir
Me = 2,491
Cuartil inferior El cuartil inferior es la mediana de la primera mitad de los datos (los que
están antes de Q2 ) que son 12 luego se calcula como el promedio de las observaciones
que ocupan las posiciones
12 12
=6y +1=7
2 2
2,434 + 2,436
Q1 = = 2,435
2
Cuartil superior El cuartil superior es la observación que está en la posición las mismas
posiciones 6 y 7 pero contando del final de los datos hacia atrás es decir el promedio
de las observaciones 19 y 20
2,571 + 2,573
Q3 = = 2,572
2
El bigote superior debe extenderse hasta la observación más grande que sea menor o igual
a
Q3 + 1,5 × (Q3 − Q1 ) = 2,572 + 1,5 × (2,572 − 2,435) = 2,777
es decir hasta la observación 24. La observación 25 queda por fuera de este lı́mite, por
eso debe marcarse en el diagrama con una ◦
El bigote inferior debe extenderse hasta la observación más pequeña que sea mayor o igual
a
Q1 − 1,5 × (Q3 − Q1 ) = 2,435 − 1,5 × (2,572 − 2,435) = 2,229
es decir hasta la observación 2. La observación 1 queda por fuera de este lı́mite, por eso
debe marcarse en el diagrama con una ◦. El boxplot se muestra en la figura 1.5
2.9–
◦
2.8–
2.7–
2.6–
2.5–
2.4–
2.3–
2.2– ◦
8 10 4 3 8
5 6 8 7 6
7 7 5 11 7
Calcular la media
Solución:
8+5+7+···+8+6+7 102
y= = = 6,8
15 15
Media ponderada.
Útil cuando se deben promediar diferentes medias que provienen de muestras con diferente
número de observaciones, donde es conveniente usar ponderaciones que dependen del número
de observaciones, se calcula con la siguiente fórmula:
P
wi y
yw = P i (1.2)
wi
Ejemplo 10. Promediar las siguientes medias y 1 = 45, y 2 = 32, y 3 = 60, provenientes de
muestras de tamaño 25, 12 y 21 respectivamente.
3
P
Solución: wi = 58,
i=1
25 × 45 + 32 × 12 + 21 × 60 2769
yw = = = 47,74
58 58
Mediana
Moda.
Es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único se dice que la
distribución es unimodal, si en los datos se tienen tienen dos o mas valores con la misma
frecuencia máxima, se dice que la distribución es bimodal, trimodal, etc.
Ejemplo 13. Los tamaños de las camadas de una estación porcı́cola fueron los siguientes:
4, 5, 6, 8, 10, 9, 8, 8. Hallar la moda.
La moda puede no existir cuando los valores se presentan todos con la misma frecuencia.
En una tabla de frecuencias resulta útil para propósitos descriptivos, indicar
la clase modal, que es la clase con mayor frecuencia. Para calcular la moda se
usa el punto medio de la clase modal .
Rango.
Se obtiene como la diferencia entre el mayor y el menor de los valores del conjunto de
observaciones, esta medida de dispersión tiene la desventaja de dejarse influenciar por valores
extremos. Resulta útil cuando no se conoce la varianza de distribuciones normales, para
estimar de manera aproximada la desviación estándar.
Ejemplo 14. En el punto 2 del ejemplo 7 (página 7) se calculó el rango de los datos corres-
pondientes a la demanda diaria de un producto industrial.
Varianza.
La varianza (s2 ), de un conjunto de observaciones se define como la suma de cuadrados de las
desviaciones de las observaciones respecto a su media, dividida por el número de observaciones
menos uno.
n
(yi − y)2
P
S 2 = i=1 (1.3)
n−1
una fórmula alternativa para calcular la varianza es
n
yi2 − ny 2
P
i=1
S2 = (1.4)
n−1
Desviación estándar.
Se define como la raı́z cuadrada de la varianza
√
S = S2 (1.5)
Ejemplo 15. Calcular la varianza y la desviación estándar del siguiente conjunto de datos.
4 7 3 6 5
Una forma práctica para calcular la varianza es por medio de una tabla como la siguiente
i yi yi − y (yi − y)2
1 4 −1 1
2 7 2 4
3 3 −2 4
4 6 1 1
5 5 0 0
Sumas 25 0 10
Ejemplo 16. Se ilustrará el uso de la formula alternativa (1.4) para calcular la varianza,
usaremos los datos del ejemplo 15.
i yi yi2
1 4 16
2 7 49
3 3 9
4 6 36
5 5 25
Sumas 25 135
5
yi2 = 135 por lo tanto
P
se tiene que
i=1
135 − 125 10
S2 = = = 2,5
4 4
que como se esperaba coincide con el resultado del ejemplo 15.
Coeficiente de variación.
El coeficiente de variación (CV ) de un conjunto de datos se define como el cociente entre la
desviación estándar y la media.
S
CV = (1.6)
y
El coeficiente de variación es una medida de la dispersión relativa de un conjunto de datos.
Con frecuencia esta relación se indica en porcentajes. Resulta de gran utilidad para comparar
la variabilidad de diferentes conjuntos de datos.
1.6. Ejercicios.
1. La siguiente tabla muestra el número de artı́culos rechazados por control de calidad
discriminados según las causas de rechazo:
3. Para decidir acerca del número de mostradores de servicio que serán necesarios en las
tiendas que se construirán en el futuro, una cadena de supermercados querı́a obtener
información sobre el tiempo (en minutos) requerido para atender a los clientes. Para
obtener información acerca de la distribución de los tiempos de atención de los clientes,
se obtuvo una muestra de 60 clientes y se registró el tiempo empleado en atender a
cada uno de ellos, los datos se muestran a continuación.
3.6 1.0 0.3 0.8 0.4 0.6 0.4 0.8 1.1 1.8
1.9 1.4 1.1 1.7 2.3 2.8 1.3 1.0 2.2 0.3
2.1 1.8 0.5 1.4 1.8 2.5 0.8 0.9 1.6 1.1
0.3 1.6 1.2 0.2 4.5 1.1 1.3 0.7 1.9 0.6
0.8 1.1 0.6 1.3 0.9 0.4 1.1 3.1 5.2 0.7
0.2 1.8 1.1 3.1 0.7 1.2 1.2 1.7 0.5 0.6
4. Los siguientes datos son los números de torsiones requeridas para 12 barras de cierta
aleación:
33 24 39 48 26 35
38 54 23 34 29 37
5. Los siguientes datos son el número de minutos que en 15 dı́as laborales una persona
tiene que esperar el autobús que la llevará a su trabajo
10 1 13 9 5 9 2 10 3 8 6 17 2 10 15
6. Los siguientes datos son 12 lecturas de temperatura en varios puntos de un gran horno
(en grados Fahrenheit):
475 500 460 425 460 410 470 475 460 510 450 415