Академический Документы
Профессиональный Документы
Культура Документы
Índice
1. Representación Gráfica de Datos 2
1.1. Diagrama de Puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Diagrama de Tallos y Hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Distribución de Frecuencias e Histograma . . . . . . . . . . . . . . . . . . . . . . . . 7
1
Estadı́stica Descriptiva – GGC 2
1
El punto acá es que casi cualquier calculadora
∑ ∑ 2 de bolsillo excepto de ∑las tipo
∑ “maı́zoro”,
∑ ∑ como ∑parte de sus
funciones es evaluar las siguientes sumas, xi , xi , si hay dos variables, xi , yi , xi yi , x2i , yi2 y algunas
mas.
Estadı́stica Descriptiva 3
La Mediana La mediana denotada x̃ o xmed es un número que puede o no estar en la muestra con
la propiedad de que particiona a la muestra ordenada en aproximadamente el 50 % a la izquierda
(o por abajo) y el otro 50 % a la derecha o por arriba. Está dada por la siguiente definición.
Definición 1.3 (Mediana) Dada la muestra 1, definimos como la mediana de la muestra a,
x( n+1 )
2
si n en impar,
e=
x x n + x( n2 +1) (6)
(2) si n en par.
2
La Moda Ente dato es el dato que aparece más en a muestra. Esto es, es el dato de mayor
frecuencia en la muestra.
Ejemplo 1.1 Considere el siguiente conjunto de datos representando los aciertos obtenidos en 9
reactivos por un grupo de 34 alumnos en un examen de Cálculo. Esto es en el primer reactivo 18
alumnos obtuvieron la respuesta correcta; en el segundo reactivo fueron 17; en el tercero fueron 4,
. . . , y ası́ sucesivamente en el último reactivo solo 3 alumnos obtuvieron la respuesta correcta.
Los datos son,
{18, 17, 4, 14, 6, 0, 17, 4, 3}.
-Aciertos
0 2 4 6 8 10 12 14 16 18
Observe que hay dos concentraciones de datos, uno al rededor de 4 puntos y el otro al rededor
de los 16 puntos.
La muestra ordenada es,
{0, 3, 4, 4, 6, 14, 17, 17, 18}.
Entonces, el tamaño de la muestra es n = 9,
Rango = 18 − 0 = 18.
e = x( 9+1 ) = x(5) = 6.
x
2
xmoda = 4 y 17.
♢♢
Ejemplo 1.2 Con relación al Ejemplo 1.1 si se agrega un reactivo extra, las respuestas obtenidas
que se obtuvieron son,
{16, 18, 17, 4, 14, 6, 0, 17, 4, 3}.
-Aciertos
0 2 4 6 8 10 12 14 16 18
En este caso, ∑
n = 10 y xi = 99,
luego, la media es, ∑
xi 99
x̄ = = = 9.9.
n 10
La muestra ordenada es,
{0, 3, 4, 4, 6, 14, 16, 17, 17, 18}.
Al ser n par no hay dato central; entonces para calcular a la mediana necesitamos los dos datos
centrales.
x( 10 ) + x( 10 +1) x(5) + x(6) 6 + 14 20
2 2
x̄ = = = = = 10.
2 2 2 2
Otra vez hacemos notar que la mediana, como en este caso, puede no pertenecer a la muestra:
xmed = 10!
Con respecto a la moda el dato extra x0 = 16 en nada afecta a esta. Seguimos teniendo una
muestra bimodal.
xmoda = 4 y 17.
♢♢
Estadı́stica Descriptiva 5
Ejemplo 1.3 En la revista Applied Life Data Analysis (Wiley, 1982) Wayne Nelson presenta los
tiempos de ruptura para un fluido aislante entre dos electrodos a 34 kV. Los datos, en minutos, son
0.19 0.78 0.96 1.31 2.78 3.16 4.15 4.67 4.85 6.50
7.35 8.01 8.27 12.06 31.75 32.52 33.91 36.71 72.89
Solución: Como ya se mencionó, sólo colocamos los datos sobre un eje, en este caso horizontal, que
representa los tiempos de ruptura del aislante lı́quido mencionado.
-Tiempos de ruptura
O 10 20 30 40 50 60 70 80
Por evitar “el amontonamiento” de los puntos, algunos de estos datos has sido colocados ligeramente
arriba de otros puntos muy cercanos.
De este diagrama de puntos es fácil ver de manera inmediata la concentración de puntos que
hay en el intervalo de 0 a 10 mins; de otra concentración de tiempos en el intervalo de tiempos de
30 a 40 mins y de un tiempo que uno dirı́a es “atı́pico” y que es el dato x19 = 72.89 mins.
♢♢
2. Por cada tallo escriba enfrente de este la hoja que será el siguiente dı́gito que aparece. Por
ejemplo se el dato es xk = 32 y tiene a 3 como tallo, entonces la hoja será el siguiente dı́gito
que es el 2.
3. Cuando haya terminado de colocar todos los tallos y sus hojas, dele vuelta para ver en forma
vertical a la distribución.
Cuadro 2: Se muestra el diagrama de tallo-hojas para los datos en el Cuadro1. Si giramos este arreglo 90◦
en sentido positivo, podremos apreciar la forma de una campana que es tı́pica de una distribución normal.
Estadı́stica Descriptiva 7
Rango, Número de Clases y Ancho de Clase Calculamos el rango donde están distribuidos
los datos,
Rango = xmáx − xmı́n ,
y el ancho de clase,
xmáx − xmı́n
∆x = ,
N
donde N representa el número de clases.
Para el número de clases, N , (esto es, el número de rectángulos que nuestro histograma tendrá)
hay una recomendación en lo general de que sean mı́nimo 5 y máximo 20.
Una forma de elegir esta N es de acuerdo a la siguiente tabla2 ,
Una vez decidido el número de clases, un histograma es una serie de rectángulos consecutivos,
cada uno construido con base sobre el ancho de clase y cuya altura es la frecuencia de esa clase,
la que se define como el número de datos que se pertenecen a la clase.
Se recomienda la construcción de la siguiente tabla,
2
Si n es el número de datos (esto es, el tamaño de la muestra), entonces encuentre un entero K tal que,
2K 6 n < 2K+1 ,
donde ⌈x⌉ significa la función techo que es también conocida como el mı́nimo entero mayor o igual que x. Por ejemplo,
si el número de datos es del orden de 2000, entonces,
ln(2000)
Número de Clases = ⌈log2 (2000)⌉ = ⌈ ⌉ = ⌈10.9658⌉ = 11.
ln(2)
Estadı́stica Descriptiva 8
1. Número de clase.
2. Marca de clase MCi . Usualmente se asigna como representante de cada clase al punto medio
de los lı́mites inferior y superior.
3. Frecuencia de clase fi . Como su nombre lo indica es el número de datos que pertenecen a la
i-ésima clase.
Nosotros tomaremos al intervalo cerrado por la izquierda y abierto por la derecha. Esto
significa que si uno de los datos cae justo en uno de los lı́mites de una clase, entonces se
contabiliza como frecuencia de la clase con el dato como lı́mite inferior. Por ejemplo, suponga
que el intervalo de clase es 23–34 entonces si tenemos como dato xj = 34, este dato se
contabiliza en la siguiente clase.
La razón es que,
34 ∈
/ [23, 34),
mientras que, si por ejemplo el siguiente intervalo de clase es 34–45,
34 ∈ [34, 45).
Entonces,
xmı́n = 76 y xmáx = 245,
implicando que el rango es,
Rango = 245 − 76 = 169.
Ya hemos calculado que necesitamos 7 clases, luego el ancho de cada clase será,
Rango 169
∆Xi = = = 24.143.
7 7
Aquı́ viene un pequeño razonamiento por conveniencia: Para evitar un ancho de clase decimal
(aunque con mayor precisión), elijamos d manera arbitraria un ancho de clase cómodo. En este
caso es conveniente,
∆Xi = 25,
que al multiplicar por los 7 intervalos nos cubrirá 7 × 25 = 175 que es 6 puntos mayor que el rango.
De esta manera este exceso lo ponemos a los extremos del histograma; esto es iniciamos nuestra
primera clase no justo sobre el primer dato sino 3 puntos atrás. Esto es las clases quedarán de la
siguiente manera.
i Clase M Ci
1 73 – 97 85
2 98 – 122 110
3 123 – 147 135
4 148 – 172 160
5 173 – 197 185
6 198 – 222 210
7 223 – 248 235
Cuadro 4: Clases.
Se ha adicionado una columna en donde se han calculado las marcas de clase para cada uno
de los intervalos de clase que como ya se mencionó con anterioridad son los puntos medios de los
intervalos. por ejemplo,
73 + 97 98 + 122
M C1 = = 85, M C2 = = 110, · · ·
2 2
Estadı́stica Descriptiva 10
30
FX (x) 29
25
20
17
15
12
10
8
7
5 4
3
-x
73 98 123 148 173 198 223 248
O
{(M C i , fei ), i = 1, 2, 3, · · · , N }
De alguna manera da una idea de donde hay mas probabilidad. Este polı́gono por motivos
de presentación se tiene que anclar a eje horizontal definiendo artificialmente dos clases una
antes de la primera clase y la segunda a continuación de la última clase y con frecuencia
cero.
{(M C i , Fei ), i = 1, 2, 3, · · · , N }
{(LDC i , Fei ), i = 1, 2, 3, · · · , N }
Problema 1 Otra regla para elegir el número de clases es por medio de,
√
N ≈ n,
Ejemplo 1.5 La vida en horas de una baterı́a de Litio utilizada en un tipo especial de calculadora
está dada en la siguiente table.
4285 564 1278 205 3920 2066 604 209 602 1379
2584 14 349 3770 99 1009 4152 478 726 510
318 737 3032 3894 582 1429 852 1461 2662 308
981 1560 701 497 3367 1402 1786 1406 35 99
1137 520 261 2778 373 414 396 83 1379 454
En este caso, el tamaño de la muestra es n = 50 y como n ∈ [25 = 32, 26 = 64] la regla empı́rica
para escoger sugiere como número de clases, N = 6.
Fácil ver que,
xmin = 14 y xmax = 4285,
de donde,
Rango = xmax − xmin = 4285 − 14 = 4271,
quedando como ancho de clase a,
xmax − xmin 4271
∆x = = = 711.83.
N 6
Por conveniencia elijamos un ancho de clase ∆x = 712, el cual cubre un intervalo de N × ∆x =
712 × 6 = 4272.
Tomemos como lı́mites de clase los siguientes números que están 0.5 unidades por debajo (y
por arriba) de los datos. Esto es, tomemos las siguientes clases,
Estadı́stica Descriptiva 12
i Clase MC fi Fi
1 13.5 – 725.5 369.5 24 24
2 725.5 –1437.5 1081.5 12 36
3 1437.5–2149.5 1793.5 4 40
4 2149.5–2861.5 2505.5 3 43
5 2861.5–3573.5 3217.5 2 45
6 3573.5–4285.5 3929.5 5 50
Cuadro 5: Clases
Ejemplo 1.6 Se ha realizado un estudio sobre amnesia postraumática después de recibir un golpe
en la cabeza. Una variable estudiada es el número de dı́as que el paciente permanece en el hospital.
El diagrama de tallo-hojas se muestra a continuación. Construya el diagrama de caja para este
conjunto de datos.
{8, 12, 20, 27, 30, 32, 35, 36, 40, 40, 40, 40, 41, 42, 45, 47, 50, 52, 61, 89, 108}
Solución:
Con n = 21,
n+1 22
l = = = 11
2 2
L = ⌊l⌋ = 11
L+1 12
q = = = 6.
2 2
Entonces la mediana y los cuartiles son,
RIC = q3 − q1 = 47 − 32 = 15.
mientras que los valores atı́picos extremos están fuera del intervalo definido por F1 = −13 y F3 = 92.
Por la izquierda no hay pero por la derecha se encuentra el valor atı́pico extremo
{108}.