Estadisitica Descriptiva

Estadı́stica Descriptiva
Mtro. Gerardo Gomez de la Cruz

gerardo_gomez79@hotmail.com
Índice
1. Representación Gráfica de Datos 2
1.1. Diagrama de Puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Diagrama de Tallos y Hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Distribución de Frecuencias e Histograma . . . . . . . . . . . . . . . . . . . . . . . . 7
1
Estadı́stica Descriptiva – GGC 2
1. Representación Gráfica de Datos

En la práctica la distribución exacta de una variable aleatoria no se conoce; en lugar de esto, el
problema importante es determinar la forma aproximada de la distribución, basado en una muestra
obtenida de esta población y de esta manera encontrar valores aproximados de los parámetros que
la caracterizan.
En todo lo que sigue, los datos, formalmente la muestra, está dada por,
{ }
x1 , x2 , x3 , · · · , xn , (1)
y diremos que la muestra es de tamaño n. En general la muestra en 1, no está ordenada y puede
haber repetición de valores en los datos.
De inicio necesitamos caracterizar a la muestra con información como el mı́nimo, el máximo, el
rango y algunas otras medidas que de manera rápida nos den idea de este conjunto de datos.
La primera recomendación es ordenar la muestra en forma creciente. Es costumbre la siguiente
notación, { }
x(1) , x(2) , x(3) , · · · , x(n) , (2)
donde ahora,
x(1) 6 x(2) 6 x(3) 6 · · · 6 x(n)
Se sigue que,
xmin = x(1) y xmax = x(n) ,
y formalmente el rango de la muestra, que decimos “va de xmin a xmax ”, se define como,
Definición 1.1 (Rango) Dada la muestra 1, definimos como el rango de la muestra a,
Rango = xmax − xmin . (3)
Para tener idea del tamaño de los datos de la muestra, hay varias medidas llamadas de tendencia
central de las cuales sólo veremos la media, la mediana y la moda.
La Media o Media Aritmética

Definición 1.2 (Media) Dada la muestra 1, definimos como la media de la muestra a,
x1 + x2 + x3 + · · · + xn
x̄ = . (4)
n
También se le conoce como la media aritmética.
Se acostumbra la siguiente notación de “sumatoria” o notación “sigma” para indicar sumas.
∑n
xi
x̄ = i=1 . (5)
n
Como el tamaño de la muestra n es una cantidad fija, usualmente
∑ puede omitirse la referencia a
xi
esta cantidad en la sumatoria y simplemente escribir, x̄ = , entendiéndose que la suma es
n
sobre todos los datos de la muestra. 1
1
El punto acá es que casi cualquier calculadora
∑ ∑ 2 de bolsillo excepto de ∑las tipo
∑ “maı́zoro”,
∑ ∑ como ∑parte de sus
funciones es evaluar las siguientes sumas, xi , xi , si hay dos variables, xi , yi , xi yi , x2i , yi2 y algunas
mas.
Estadı́stica Descriptiva 3
La Mediana La mediana denotada x̃ o xmed es un número que puede o no estar en la muestra con
la propiedad de que particiona a la muestra ordenada en aproximadamente el 50 % a la izquierda
(o por abajo) y el otro 50 % a la derecha o por arriba. Está dada por la siguiente definición.
Definición 1.3 (Mediana) Dada la muestra 1, definimos como la mediana de la muestra a,

 x( n+1 )
2
si n en impar,
e=
x x n + x( n2 +1) (6)
 (2) si n en par.
2
La Moda Ente dato es el dato que aparece más en a muestra. Esto es, es el dato de mayor
frecuencia en la muestra.
Ejemplo 1.1 Considere el siguiente conjunto de datos representando los aciertos obtenidos en 9
reactivos por un grupo de 34 alumnos en un examen de Cálculo. Esto es en el primer reactivo 18
alumnos obtuvieron la respuesta correcta; en el segundo reactivo fueron 17; en el tercero fueron 4,
. . . , y ası́ sucesivamente en el último reactivo solo 3 alumnos obtuvieron la respuesta correcta.
Los datos son,
{18, 17, 4, 14, 6, 0, 17, 4, 3}.
Los datos colocados sobre un eje horizontal se muestran en la Figura,
-Aciertos
0 2 4 6 8 10 12 14 16 18
Observe que hay dos concentraciones de datos, uno al rededor de 4 puntos y el otro al rededor
de los 16 puntos.
La muestra ordenada es,
{0, 3, 4, 4, 6, 14, 17, 17, 18}.
Entonces, el tamaño de la muestra es n = 9,
xmin = 0 y xmax = 18,
de donde podemos ver que el número de aciertos va de 0 a 18, con un rango,
Rango = 18 − 0 = 18.
Para calcular la media podemos procedes de la siguiente manera,

∑ ∑
xi 83
xi = 83 y x̄ = = ≈ 9.22.
n 9
En este caso el número de datos es pequeño y pudimos haber calculado directamente,
0 + 3 + 4 + 4 + 6 + 14 + 17 + 17 + 18 83
x̄ = = ≈ 9.22.
9 9
¿La mediana?
Como n = 9 es impar, entonces la mediana es
e = x( 9+1 ) = x(5) = 6.
x
2
De la moda podemos decir que en este caso no es única y es (o son)
xmoda = 4 y 17.
Diremos que la muestra es bimodal.
♢♢
Ahora considere el siguiente ejemplo.
Ejemplo 1.2 Con relación al Ejemplo 1.1 si se agrega un reactivo extra, las respuestas obtenidas
que se obtuvieron son,
{16, 18, 17, 4, 14, 6, 0, 17, 4, 3}.
Los puntos colocados en un eje son,
-Aciertos
0 2 4 6 8 10 12 14 16 18
En este caso, ∑
n = 10 y xi = 99,
luego, la media es, ∑
xi 99
x̄ = = = 9.9.
n 10
La muestra ordenada es,
{0, 3, 4, 4, 6, 14, 16, 17, 17, 18}.
Al ser n par no hay dato central; entonces para calcular a la mediana necesitamos los dos datos
centrales.
x( 10 ) + x( 10 +1) x(5) + x(6) 6 + 14 20
2 2
x̄ = = = = = 10.
2 2 2 2
Otra vez hacemos notar que la mediana, como en este caso, puede no pertenecer a la muestra:
xmed = 10!
Con respecto a la moda el dato extra x0 = 16 en nada afecta a esta. Seguimos teniendo una
muestra bimodal.
xmoda = 4 y 17.
♢♢
1.1. Diagrama de Puntos

Simplemente, se colocan los datos en un eje (normalmente horizontal) para poder “ver” la
distribución ordenada de los datos.
Es particularmente útil cuando el número total de datos en a lo mas 20. Esto es, n 6 20.
Ejemplo 1.3 En la revista Applied Life Data Analysis (Wiley, 1982) Wayne Nelson presenta los
tiempos de ruptura para un fluido aislante entre dos electrodos a 34 kV. Los datos, en minutos, son
0.19 0.78 0.96 1.31 2.78 3.16 4.15 4.67 4.85 6.50
7.35 8.01 8.27 12.06 31.75 32.52 33.91 36.71 72.89
Construya un diagrama de puntos.
Solución: Como ya se mencionó, sólo colocamos los datos sobre un eje, en este caso horizontal, que
representa los tiempos de ruptura del aislante lı́quido mencionado.
-Tiempos de ruptura
O 10 20 30 40 50 60 70 80
Por evitar “el amontonamiento” de los puntos, algunos de estos datos has sido colocados ligeramente
arriba de otros puntos muy cercanos.
De este diagrama de puntos es fácil ver de manera inmediata la concentración de puntos que
hay en el intervalo de 0 a 10 mins; de otra concentración de tiempos en el intervalo de tiempos de
30 a 40 mins y de un tiempo que uno dirı́a es “atı́pico” y que es el dato x19 = 72.89 mins.
♢♢
1.2. Diagrama de Tallos y Hojas

1. Elija números que representarán los tallos.
2. Por cada tallo escriba enfrente de este la hoja que será el siguiente dı́gito que aparece. Por
ejemplo se el dato es xk = 32 y tiene a 3 como tallo, entonces la hoja será el siguiente dı́gito
que es el 2.
3. Cuando haya terminado de colocar todos los tallos y sus hojas, dele vuelta para ver en forma
vertical a la distribución.
Ejemplo 1.4 Considere el siguiente conjunto de datos representando la resistencia a la compresión

de 80 mezclas de Aluminio y Litio.
Cuadro 1: Se muestran la resistencia a la compresión de 80 mezclas de Aluminio y Litio.
105 221 183 186 121 181 180 143

97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
Primero construiremos el diagrama de tallo y hojas eligiendo como tallos a,
7, 8, 9, 10, 11, 12, · · · , 22, 23, 24, 25.
Tendremos el siguiente arreglo,
Tallo Hojas Frecuencia

7 6 1
8 7 1
9 7 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 0361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1
Cuadro 2: Se muestra el diagrama de tallo-hojas para los datos en el Cuadro1. Si giramos este arreglo 90◦
en sentido positivo, podremos apreciar la forma de una campana que es tı́pica de una distribución normal.
1.3. Distribución de Frecuencias e Histograma

Para “ver” la forma de la distribución necesitamos del histograma que simplemente es una serie
particular de rectángulos.
¿Procedimiento?
Rango, Número de Clases y Ancho de Clase Calculamos el rango donde están distribuidos
los datos,
Rango = xmáx − xmı́n ,
y el ancho de clase,
xmáx − xmı́n
∆x = ,
N
donde N representa el número de clases.
Para el número de clases, N , (esto es, el número de rectángulos que nuestro histograma tendrá)
hay una recomendación en lo general de que sean mı́nimo 5 y máximo 20.
Una forma de elegir esta N es de acuerdo a la siguiente tabla2 ,
Número de Datos Numero de Clases

16 – 31 5
32 – 63 6
64 – 127 7
128 – 255 8
256 – 527 9
528 – 1023 10
1024 – 2047 11
.. ..
. .
Cuadro 3: Recomendación sobre el número de datos n y el número de clases N .
Una vez decidido el número de clases, un histograma es una serie de rectángulos consecutivos,
cada uno construido con base sobre el ancho de clase y cuya altura es la frecuencia de esa clase,
la que se define como el número de datos que se pertenecen a la clase.
Se recomienda la construcción de la siguiente tabla,
2
Si n es el número de datos (esto es, el tamaño de la muestra), entonces encuentre un entero K tal que,
2K 6 n < 2K+1 ,
entonces tome como número de clases a N = K + 1. De hecho, puede mostrarse que,
Número de Clases = ⌈log2 (n)⌉.
donde ⌈x⌉ significa la función techo que es también conocida como el mı́nimo entero mayor o igual que x. Por ejemplo,
si el número de datos es del orden de 2000, entonces,
ln(2000)
Número de Clases = ⌈log2 (2000)⌉ = ⌈ ⌉ = ⌈10.9658⌉ = 11.
ln(2)
i Clase MCi fi Fi fei Fei

1
2
..
.
N
1. Número de clase.
2. Marca de clase MCi . Usualmente se asigna como representante de cada clase al punto medio
de los lı́mites inferior y superior.
3. Frecuencia de clase fi . Como su nombre lo indica es el número de datos que pertenecen a la
i-ésima clase.
Nosotros tomaremos al intervalo cerrado por la izquierda y abierto por la derecha. Esto
significa que si uno de los datos cae justo en uno de los lı́mites de una clase, entonces se
contabiliza como frecuencia de la clase con el dato como lı́mite inferior. Por ejemplo, suponga
que el intervalo de clase es 23–34 entonces si tenemos como dato xj = 34, este dato se
contabiliza en la siguiente clase.
La razón es que,
34 ∈
/ [23, 34),
mientras que, si por ejemplo el siguiente intervalo de clase es 34–45,
34 ∈ [34, 45).
La última clase se toma como cerrada también por el lado derecho.

4. Frecuencia acumulada hasta la i-ésima clase Fi . Esto es,
∑
i
Fi = f1 + f2 + · · · + fi = fk .
k=1
5. Frecuencia relativa de clase fei , definida por,

fi
fei = .
n
6. Frecuencia relativa acumulada hasta la i-ésima clase Fei .

Fi
Fei = .
n
Para nuestro ejemplo de la mezclas de aluminio y litio, Ejemplo 1.4, tenemos que la muestra de
tamaño n = 80, tendremos que,
ln(80)
Número de Clases = ⌈log2 (80)⌉ = ⌈ ⌉ = ⌈6.3219⌉ = 7.
ln(2)
Entonces,
xmı́n = 76 y xmáx = 245,
implicando que el rango es,
Rango = 245 − 76 = 169.
Ya hemos calculado que necesitamos 7 clases, luego el ancho de cada clase será,
Rango 169
∆Xi = = = 24.143.
7 7
Aquı́ viene un pequeño razonamiento por conveniencia: Para evitar un ancho de clase decimal
(aunque con mayor precisión), elijamos d manera arbitraria un ancho de clase cómodo. En este
caso es conveniente,
∆Xi = 25,
que al multiplicar por los 7 intervalos nos cubrirá 7 × 25 = 175 que es 6 puntos mayor que el rango.
De esta manera este exceso lo ponemos a los extremos del histograma; esto es iniciamos nuestra
primera clase no justo sobre el primer dato sino 3 puntos atrás. Esto es las clases quedarán de la
siguiente manera.
i Clase M Ci
1 73 – 97 85
2 98 – 122 110
3 123 – 147 135
4 148 – 172 160
5 173 – 197 185
6 198 – 222 210
7 223 – 248 235
Cuadro 4: Clases.
Se ha adicionado una columna en donde se han calculado las marcas de clase para cada uno
de los intervalos de clase que como ya se mencionó con anterioridad son los puntos medios de los
intervalos. por ejemplo,
73 + 97 98 + 122
M C1 = = 85, M C2 = = 110, · · ·
2 2
i Clase MCi fi Fi fei Fei

1 73 – 97 85 3 3 3/80 3/80
2 98 – 122 110 7 10 7/80 10/80
3 123 – 147 135 12 22 12/80 22/80
4 148 – 172 160 29 51 29/80 51/80
5 173 – 197 185 17 68 17/80 68/80
6 198 – 222 210 8 76 8/80 76/80
7 223 – 248 235 4 80 4/80 80/80
A continuación se muestra el histograma de frecuencias

y
6
30
FX (x) 29
25
20
17
15
12
10
8
7
5 4
3
-x
73 98 123 148 173 198 223 248
O
Distribución de Frecuencias Acumuladas y Ojiva. De la tabla de distribución de frecuencias

se puede conseguir algunas gráficas de cierto interés. Son,
Polı́gono de Frecuencias Este polı́gono une los puntos,
{(M C i , fei ), i = 1, 2, 3, · · · , N }
De alguna manera da una idea de donde hay mas probabilidad. Este polı́gono por motivos
de presentación se tiene que anclar a eje horizontal definiendo artificialmente dos clases una
antes de la primera clase y la segunda a continuación de la última clase y con frecuencia
cero.
Polı́gono de Frecuencias Acumuladas Este polı́gono une los puntos,
{(M C i , Fei ), i = 1, 2, 3, · · · , N }
De alguna manera da una idea de donde hay mas probabilidad.

Ojiva Este polı́gono une los puntos,
{(LDC i , Fei ), i = 1, 2, 3, · · · , N }
donde LDC i representa el Lı́mite Derecho de Clase de cada clase.
Problema 1 Otra regla para elegir el número de clases es por medio de,
√
N ≈ n,
donde n en el número de datos.

De
√ esta manera para el Ejemplo 1.4 siendo n = 80, le corresponde como número de clases
N = 80 ≈ 9 con lo que podemos elegir como número de clases N = 8 o N = 9.
Construya histogramas para N = 8 y para N = 9 y comente las diferencias en cada caso.
Ejemplo 1.5 La vida en horas de una baterı́a de Litio utilizada en un tipo especial de calculadora
está dada en la siguiente table.
4285 564 1278 205 3920 2066 604 209 602 1379
2584 14 349 3770 99 1009 4152 478 726 510
318 737 3032 3894 582 1429 852 1461 2662 308
981 1560 701 497 3367 1402 1786 1406 35 99
1137 520 261 2778 373 414 396 83 1379 454
En este caso, el tamaño de la muestra es n = 50 y como n ∈ [25 = 32, 26 = 64] la regla empı́rica
para escoger sugiere como número de clases, N = 6.
Fácil ver que,
xmin = 14 y xmax = 4285,
de donde,
Rango = xmax − xmin = 4285 − 14 = 4271,
quedando como ancho de clase a,
xmax − xmin 4271
∆x = = = 711.83.
N 6
Por conveniencia elijamos un ancho de clase ∆x = 712, el cual cubre un intervalo de N × ∆x =
712 × 6 = 4272.
Tomemos como lı́mites de clase los siguientes números que están 0.5 unidades por debajo (y
por arriba) de los datos. Esto es, tomemos las siguientes clases,
i Clase MC fi Fi
1 13.5 – 725.5 369.5 24 24
2 725.5 –1437.5 1081.5 12 36
3 1437.5–2149.5 1793.5 4 40
4 2149.5–2861.5 2505.5 3 43
5 2861.5–3573.5 3217.5 2 45
6 3573.5–4285.5 3929.5 5 50
Cuadro 5: Clases
Ejemplo 1.6 Se ha realizado un estudio sobre amnesia postraumática después de recibir un golpe
en la cabeza. Una variable estudiada es el número de dı́as que el paciente permanece en el hospital.
El diagrama de tallo-hojas se muestra a continuación. Construya el diagrama de caja para este
conjunto de datos.
Tallo Hojas Frecuencia

0 8 1
1 2 1
2 07 2
3 0256 4
4 00001257 8
5 02 2
6 1 1
7 0
8 9 1
9 0
10 8 1
Cuadro 6: Número de dı́as hospitalizado después de un golpe en la cabeza.
Los datos ordenados son,
{8, 12, 20, 27, 30, 32, 35, 36, 40, 40, 40, 40, 41, 42, 45, 47, 50, 52, 61, 89, 108}
Solución:
Con n = 21,
n+1 22
l = = = 11
2 2
L = ⌊l⌋ = 11
L+1 12
q = = = 6.
2 2
Entonces la mediana y los cuartiles son,
x̃ = x(11) = 40. también q1 = x(6) = 32 y q3 = y(6) = x(21−6+1) = x(16) = 47.

El rango intercuartil de la muestra será,
RIC = q3 − q1 = 47 − 32 = 15.
Las barreras internas,
f1 = q1 − (1.5)RIC = 32 − 1.5(15) = 9.5 y f3 = q3 + (1.5)RIC = 47 + (1.5)(15) = 69.5.
Los valores adyacentes,

a1 = 12 y a3 = 61.
Las barreras externas,
F1 = q1 − 2(1.5)RIC = 32 − 3.0(15) = −13 y F3 = q3 + 2(1.5)RIC = 47 + 3.0(15) = 92.
Entonces los valores atı́picos moderados se encuentran en el intervalo de F1 = −13 a f1 = 9.5 o en

el intervalo f3 = 69.5 a F3 = 92. Esto es,
Atı́picos Moderados = {8, 89},
mientras que los valores atı́picos extremos están fuera del intervalo definido por F1 = −13 y F3 = 92.
Por la izquierda no hay pero por la derecha se encuentra el valor atı́pico extremo
{108}.
¿El diagrama de caja?

Estadisitica Descriptiva

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadisitica Descriptiva

Загружено:

Авторское право:

Доступные форматы

Estadı́stica Descriptiva

Mtro. Gerardo Gomez de la Cruz

1. Representación Gráfica de Datos

La Media o Media Aritmética

Los datos colocados sobre un eje horizontal se muestran en la Figura,

xmin = 0 y xmax = 18,

de donde podemos ver que el número de aciertos va de 0 a 18, con un rango,

Para calcular la media podemos procedes de la siguiente manera,

Como n = 9 es impar, entonces la mediana es

De la moda podemos decir que en este caso no es única y es (o son)

Diremos que la muestra es bimodal.

Ahora considere el siguiente ejemplo.

Los puntos colocados en un eje son,

1.1. Diagrama de Puntos

Construya un diagrama de puntos.

1.2. Diagrama de Tallos y Hojas

Ejemplo 1.4 Considere el siguiente conjunto de datos representando la resistencia a la compresión

Cuadro 1: Se muestran la resistencia a la compresión de 80 mezclas de Aluminio y Litio.

105 221 183 186 121 181 180 143

Primero construiremos el diagrama de tallo y hojas eligiendo como tallos a,

7, 8, 9, 10, 11, 12, · · · , 22, 23, 24, 25.

Tendremos el siguiente arreglo,

Tallo Hojas Frecuencia

1.3. Distribución de Frecuencias e Histograma

Número de Datos Numero de Clases

Cuadro 3: Recomendación sobre el número de datos n y el número de clases N .

entonces tome como número de clases a N = K + 1. De hecho, puede mostrarse que,

Número de Clases = ⌈log2 (n)⌉.

i Clase MCi fi Fi fei Fei

La última clase se toma como cerrada también por el lado derecho.

5. Frecuencia relativa de clase fei , deﬁnida por,

6. Frecuencia relativa acumulada hasta la i-ésima clase Fei .

i Clase MCi fi Fi fei Fei

A continuación se muestra el histograma de frecuencias

Distribución de Frecuencias Acumuladas y Ojiva. De la tabla de distribución de frecuencias

Polı́gono de Frecuencias Este polı́gono une los puntos,

Polı́gono de Frecuencias Acumuladas Este polı́gono une los puntos,

De alguna manera da una idea de donde hay mas probabilidad.

Ojiva Este polı́gono une los puntos,

donde LDC i representa el Lı́mite Derecho de Clase de cada clase.

donde n en el número de datos.

Tallo Hojas Frecuencia

Cuadro 6: Número de dı́as hospitalizado después de un golpe en la cabeza.

Los datos ordenados son,

x̃ = x(11) = 40. también q1 = x(6) = 32 y q3 = y(6) = x(21−6+1) = x(16) = 47.

El rango intercuartil de la muestra será,

Las barreras internas,

f1 = q1 − (1.5)RIC = 32 − 1.5(15) = 9.5 y f3 = q3 + (1.5)RIC = 47 + (1.5)(15) = 69.5.

Los valores adyacentes,

F1 = q1 − 2(1.5)RIC = 32 − 3.0(15) = −13 y F3 = q3 + 2(1.5)RIC = 47 + 3.0(15) = 92.

Entonces los valores atı́picos moderados se encuentran en el intervalo de F1 = −13 a f1 = 9.5 o en

Atı́picos Moderados = {8, 89},

¿El diagrama de caja?

Вам также может понравиться