Академический Документы
Профессиональный Документы
Культура Документы
20
13
10
13
17
-10
N= 28 28
ENTRADAS ADJUNTOS
1
Probabilidad y Estadística I
ESTADISTICA DESCRIPTIVA
INTRODUCCION
Ejemplos
1.- EL TRABAJO DE LA
NIÑEZ EN EL MUNDO
El Tribuno (28/2/97)
Tenemos tres gráficos relativos al
trabajo de la niñez en el mundo.
En uno de ellos la población
mundial de niños está
discriminada según pertenezcan a
países desarrollados o a países en
vías de desarrollo. En el
diagrama circular, se observa la
cantidad de niños que trabajan en
los países en vías de desarrollo.
El tercero se refiere a los niños
que no asisten a la escuela en
distintas regiones del mundo.
2
Probabilidad y Estadística I
3.- PRODUCCION DE
PETROLEO Y GAS (El
Tribuno 1/2/99)
Se muestra en diagrama de
barras dobles la producción
de petróleo y gas en m3 en
el período 90-98, en Salta.
Las barras para el gas se
las representa con los
tubos de gas.
4.- PUNTUACION EN EL
CAMPEONATO
MUNDIAL DE
FORMULA 1 (El Tribuno
30/8/98)
En un gráfico de líneas se
muestra la puntuación
acumulada obtenida por los
conductores en las carreras
de fórmula 1
3
Probabilidad y Estadística I
Los números
Capital 471.721
San Martín 133.619
Orán 123.791
Anta 49.467
Gral. Güemes 41.959
Metán 38.958
R. de la Frontera 28.426
Rivadavia 27.374
Cerrillos 26.190
Chicoana 18.179
Cafayate 11.776
Cachi 7.243
San Carlos 7.212
La Viña 7.142
Iruya 6.344
La Caldera 5.689
Los Andes 5.642
Molinos 5.622
La Candelaria 5.285
Sta. Victoria 5.083
Guachipas 3.201
La Poma 1.715
TOTAL 1.065.291
4
Probabilidad y Estadística I
UN POCO DE HISTORIA
5
Probabilidad y Estadística I
Halley trabajó con los mismos archivos, y aplica sus estudios a la vida humana, sus
procedimientos dieron base a estudios para confeccionar las tablas de mortalidad.
Por otro lado el nacimiento de la teoría de la Probabilidad estuvo marcado por los
grandes matemáticos como fueron Pascal (1623-1662) y Fermat (1601-1665), y las
contribuciones de Poisson (1781-1840) Laplace (1749-1827), de Moivre (1667-1754) y
otros. Las investigaciones del matemático belga Adolphe Quetelet (1796-1874) dieron
un paso importante en la dirección de hacer confluir la Estadística y la Probabilidad.
A la simple recolección de datos, acompañó un desarrollo de la metodología
estadística. Se empezó a usar la estadística en ciencias como física, genética,
meteorología, etc.
Las figuras más importantes a fines del siglo XIX y principios del XX, fueron
Galton (1822-1911) y Pearson (1857-1936).
Galton (primo de Darwin) se interesó en herencias naturales y postuló las "Leyes de
herencia ancestral". Su contribución a la biología fue la aplicación de la metodología
estadística al análisis de la variación biológica.
Karl Pearson(1857-1936) continuó los estudios de Galton y sentó las bases para
gran parte de la estadística Descriptiva y de Correlación.
Gottfried Achenwall, profesor de Política en la Universidad de Gotinga, en 1760,
usó la palabra “Statistik” (estadística) del italiano statista (estadista) para definir la
ciencia de las cosas que pertenecen al estado.
Más remotamente, la palabra parece derivar del latín status, que significa estado o
situación, se usaba en el sentido de "estado político", de allí el uso de los censos que
ayudaban a describir el estado de las características más importantes de la población.
La estadística fue evolucionando hasta llegar a la actualidad de tal manera que su
campo de aplicación se encuentra en todas las áreas, puesto que los datos con los que
trabaja la estadística tienen una característica común: son variables, y sus variaciones
pueden ser medidas de acuerdo a criterios matemáticos muy complejos. Donde existan
factores de variación, es posible aplicar métodos estadísticos.
EJEMPLOS DE APLICACION
6
Probabilidad y Estadística I
que éstas dejaron la costa al final del verano patogénico de 1992. Esperaron
pacientemente durante 8 meses hasta el regreso de la colonia a tierra y recuperaron, con
bastante esfuerzo, cuatro de los cinco aparatos. Un resumen de la información se
muestra en la Tabla:
Hembr N° de Días Media Medi Max. Medi Max. Media Max. Int. %
a buceos en el buceos a Prof a Dur. Int. Superficie tiempo
mar /HR Prof. (m) Dur. (min) Superficie (min) buceo
(m) (min) (min)
1 3948 70 2.4 409 971 23.8 79 1.6 20 94
2 4137 71 2.6 402 1053 21.7 64 1.6 65 93
3 4080 63 2.7 454 1072 20.5 62 1.7 222 92
4 3671 68 2.2 460 990 25.2 62 1.5 17 93
Total 15836 272
Media 3959 68 2.5 428 1021 22.6 67 1.6 81 93
Desvío 208 3.6 0.2 197 49 7.5 8 0.6 97 1
7
Probabilidad y Estadística I
ORGANOS AFECTADOS
Digestivo 86 42,36% Sexo
Respiratorio 65 32,36% Masculino 192 94,58%
Sistema N. Central 25 12,32%
Piel 31 15,27% Femenino 11 5,42%
Sistema N. Periférico 16 7,88%
Aparato 11 5,42%
cardiovascular Estado Civil
Génito-urinario 1 0,49% Soltero 119 58,62%
Casado 68 33,50%
Viudo 13 6,40%
Divorciado 3 1,48%
Nuestro trabajo está, entonces, interrelacionado con las otras ciencias. Pero es
necesario definir cuál es la competencia de la estadística en cada estudio. Es por eso que
ahora daremos una definición formal de la estadística como ciencia.
8
Probabilidad y Estadística I
ESTADISTICA
La estadística es la ciencia que estudia los métodos para recoger, organizar,
resumir y analizar datos, así como para sacar conclusiones válidas y tomar
decisiones razonables en situaciones de incertidumbre.
Estadística Descriptiva
Tiene por objeto presentar y resumir los datos mediante cuadros, tablas y gráficos
con la finalidad de describir las características del conjunto observado. Se obtienen
conclusiones que no van más allá de ese conjunto.
Estadística Inferencial
Tiene por finalidad extender o generalizar conclusiones para un conjunto mayor que
el de los datos observados.
TRATAMIENTO DE DATOS
Tipos de datos
1- Datos de encuesta: la recopilación se realiza sin control de ninguno de los factores que
influyen en la característica de interés.
Ejemplo: El relevamiento de datos que se hace en un censo: a cada individuo del país se le
consulta sobre distintos caracteres individuales como: edad, sexo, estado civil, trabajo,
ingreso, escolaridad, etc.
Por otro lado, cuando los datos de encuesta se refieren a una recopilación sobre todos
los elementos bajo estudio, esa recopilación es un CENSO. El conjunto de todos los
elementos bajo estudio se llama POBLACION.
Cuando se realiza la recopilación a una parte de la población (seleccionada
adecuadamente) se dice que es una encuesta POR MUESTREO y al conjunto
seleccionado se le llama MUESTRA.
9
Probabilidad y Estadística I
10
Probabilidad y Estadística I
Cuantitativas
(numéricas) Continuas Entre dos valores dados pueden tomar cualquiera de los
valores intermedios, por lo tanto asumen valores reales.
Provienen generalmente de mediciones. Ej.: altura.
ESCALAS DE MEDICIÓN
Las mediciones tienen algo así como grados de perfección, según cumplan más o
menos todas las propiedades inherentes a los números. Son los niveles de medición.
Estos se dividen en cuatro escalas fundamentales: nominal, ordinal de intervalos y de
razón. La escala de nivel más elevado requiere normas más restrictivas, luego tiene más
perfección.
Escala nominal
Es el nivel más elemental. Divide a los objetos según sean iguales o no con respecto
a una característica y se utiliza en la clasificación de atributos. Se asignan modalidades
o categorías a los individuos.
Las clases, dadas por las categorías, son
mutuamente excluyentes. Es posible intercambiar
las categorías sin perder ninguna información. La
única relación posible es la de equivalencia. Es
decir los miembros de una clase son
"equivalentes" en la característica observada. La
relación de equivalencia es reflexiva, simétrica y
transitiva. Es posible una asignación numérica a
las clases, pero estos números sólo operan como
simples etiquetas de identificación, es una
codificación.
Ejemplo
La variable nominal "Región", según la cual fueron clasificadas las provincias
argentinas, usa para su clasificación la escala nominal. En el gráfico se observan las
categorías y sus frecuencias porcentuales.
11
Probabilidad y Estadística I
Escala ordinal
Esta escala divide a los objetos en categorías iguales o no con respecto a una
característica, donde las categorías están relacionadas Daño Neurológico
entre sí, o sea que hay un orden que puede ser parcial o
total.
Se puede realizar cualquier transformación que
mantenga el orden. Además de la relación de
equivalencia se tiene la relación de orden, que es
irreflexiva, asimétrica y transitiva.
Ejemplo
La variable ordinal "Daño neurológico" usa la escala ordinal para su clasificación.
En el gráfico vemos las categorías consideradas por el neurólogo.
Escala de intervalos
La usamos en variables cuantitativas. Está caracterizada por una unidad de medida
común y constante. Las distancias iguales, desde el punto de vista numérico,
representan distancias iguales empíricas en alguna característica de la variable bajo
estudio. La unidad de medida y el cero son arbitrarios. El cero no significa ausencia.
Todas las operaciones de la aritmética se pueden realizar. Las transformaciones deben
conservar el orden y las diferencias relativas. La medición es mucho más eficiente
porque se conocen las distancias entre dos números de la escala.
TEMPERATURAS ESTIMADAS
TEMPERATURAS
40
30
MAX EST NORTE
20
MIN EST. NORTE
10
0
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
DIAS DE ENERO
Ejemplo
La temperatura se mide en escala de intervalos. En el gráfico se observan las
temperaturas estimadas para los días de enero en el norte de la provincia de Salta, en el
año 1999.
9
ºF =
º C + 32
5
Algunos valores equivalentes en ambas temperatura se observan en la tabla:
C -17,8 0 10 30 100
F 0 32 50 86 212
12
Probabilidad y Estadística I
Observemos que las relaciones de diferencias en cada escala son iguales a la relación
de diferencias equivalentes en la otra escala:
(30 − 10) (86 − 50)
° C: =2 ° F: =2
(10 − 0) (50 − 32)
Escala de razón
Es igual que la de intervalos pero tiene un cero real en su origen. La razón entre dos
puntos es independiente de la unidad de medida. Todas las operaciones aritméticas están
permitidas.
Ejemplo
Las medidas que conocemos, como peso,
longitud, volumen, etc. usan escala de razón. El
gráfico es un histograma del peso en kg. de 40
crías vacunas de pocas semanas en una granja.
Con las variables categóricas lo más sencillo es realizar una tabla de frecuencias. Se
puede representar un diagrama de tortas o de barras. En general convienen barras si la
variable es ordinal, pero todo depende de la cantidad de categorías consideradas. En los
ejemplos anteriores, la variables "Región" es categórica nominal y se representó un
diagrama de tortas para mostrar la información. La variable "Daños neurológicos", es
categórica ordinal y se representó en un diagrama de barras. Según los datos se pueden
hacer barras múltiples que facilitan la comparación de distintos grupos.
En una investigación sobre el uso de Internet, se consideró la variable "artículos
adquiridos en la red”. Esta es una variable cualitativa nominal, tiene como principal
finalidad mostrar cuales son los productos que más se compran a través de la red de
INTERNET. Se muestra la tabla y el gráfico con la información:
Artículos comprados en la
Artículo frecuencia
CD 14
Software 13
Libros 18
Electrónicos 10
Pasajes 5
Total 60
13
Probabilidad y Estadística I
Tipo_Título Frecuencia
Secundario 6
Terciario 117
Universitario 27
Además, el eje vertical no comienza en el origen, lo que da una idea equivocada del
tamaño relativo de las barras.
14
Probabilidad y Estadística I
Otro problema que se presenta en las barras es cuando por razones de espacio, se
cortan las barras cuando son demasiado largas. Los cortes significan que un trozo de la
barra no está representado. Si la idea es comparar, los cortes deben ser iguales en todas
las barras. Si hay valores muy diferentes, conviene no considerar algunas variables con
valores alejados del resto.
Varones Mujeres
Edad
Cantidad
Pictogramas
Otra forma de presentar la información con un gráfico descriptivo que llame más la
atención del lector, es el pictograma. Pero se debe tener cuidado de no provocar una
impresión exagerada.
Supongamos que los sueldos promedios de los empleados de dos empresas se
quieren comparar. Una empresa paga a sus empleados una suma promedio de $1200 y
la otra paga $600. Los números están en una relación de 2 a 1. Bastará hacer un
diagrama de barras con las alturas que cumplan esa relación. Pero supongamos que
presentamos el siguiente dibujo:
$ 600 $1.200
15
Probabilidad y Estadística I
Las bolsas representan dinero, y eso es válido. La información está en la altura (igual
que en las barras), pero la visualización ya no es la misma porque el hecho de que sean
bolsas da una idea de volumen y el ojo aprecia más que el doble en la bolsa más grande.
De esta manera se logra dar una impresión exagerada de la información verdadera.
El uso de pictogramas hace más atractivo el diseño de los gráficos, pero debe tenerse en
cuenta lo siguiente:
• Usar símbolos sencillos
• Repetir los símbolos para indicar mayor cantidad (no agrandarlos)
• Usarlos sobre todo para hacer comparaciones
Gráficos de líneas
Para algunos tipos de datos será conveniente la representación gráfica con una curva
simple (diagrama de líneas). Es lo que ocurre cuando tenemos una variable con
clasificación temporal (series cronológicas o series de tiempo). Es importante en este
caso la escala elegida para los ejes, ya que la impresión visual del gráfico no debe ser
exagerada en ningún sentido. Los gráficos de líneas que se muestran a continuación son
las temperaturas estimadas máxima y mínima, en enero de 1999, registrada día a día en
el norte de la provincia de Salta.
Los tres gráficos muestran la misma información, pero en los tres la impresión visual
es diferente, debido a las diferentes escalas usadas en los ejes.
1.- T E M P E R A T U R A S E S T IM A D A S
40
30 TE
M
PE
RA
TU
R
ASE
S
TIM
A
DA
S
20
10
2.-
TEMPERATURAS
0
40
1
11
13
15
17
19
21
23
25
27
29
31
40
D IA S D E E N E R O
30
30
TEMPERATURAS ESTIMADAS
3.- 20
20
TEMPERATURAS
40 10
30
10
0
20 0
10
1
3
5
7
11
9
13
15
17
19
21
23
25
27
29
31
0
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
16
Probabilidad y Estadística I
N : cantidad de datos
fi : frecuencia absoluta del dato i-ésimo. Cantidad de veces que se presenta el dato en el
lote.
f
hi: frecuencia relativa del dato i-ésimo. hi = i
N
i
Fi : frecuencia absoluta acumulada hasta el dato i-ésimo. Fi = ∑ f i
j =1
i
F
∑f
j =1
i
Ejemplo:
Se estima que en Asunción del Paraguay existen alrededor de 15.000 niños que
trabajan en las calles, con ocupaciones diversas, desde la mendicidad, hasta de
carretilleros en mercados, vendedores ambulantes, etc. Con datos de encuestas
realizadas por la UNA (Universidad Nacional de Asunción – Paraguay) a un total de
206 “niños de la calle” de Asunción, se estudiaron diversas variables. Entre ellas, el nro.
de hermanos/as que tiene c/u de los encuestados,
17
Probabilidad y Estadística I
la altura del bastón, llamado así para distinguir de la barra, ya que en este caso al
tratarse de valores numéricos, se trata sólo de un segmento. El diagrama de frecuencias
acumuladas muestra una función de la cantidad de datos "menores que" para todos los
valores reales. Por lo tanto se trata de una función escalonada, con los valores indicados
en la tabla, ya que no puede haber datos intermedios entre dos valores dados. Se
muestran ambos diagramas a continuación:
Ejemplo
Los siguientes datos son las notas de 41 alumnos de un curso de Estadística,
calificados de 0 a 100:
81 87 86 60 51 90 88 90 78
100 97 70 88 88 90 60 45 60
62 11 50 91 35 97 63 100 91
41 81 98 74 89 98 76 47 66
78 60 94 53 75
Nº de intervalos = 1 + 3. 33 log N
siendo N la cantidad de datos. Esta fórmula es útil cuando N es muy grande, pudiendo
usarla como una guía y a partir de allí hacer algunos cambios convenientes.
18
Probabilidad y Estadística I
Los datos se agrupan con el fin de brindar información más rápida, pero al formar los
intervalos se pierde la información puntual. Se debe cuidar no perder demasiada
información.
En el histograma, las frecuencias de clase están representadas por el área de la barra
en cada clase. Por esto la altura de cada barra, será la frecuencia dividida por la
amplitud del intervalo. Si los intervalos son de la misma amplitud, se puede realizar el
histograma usando las frecuencias como alturas, ya que en ese caso el diagrama es el
mismo, sólo sufre un cambio de escala que no modifica la información mostrada. El
área de todas las barras es N, y en el caso de usar frecuencias relativas, el área es 1.
Dentro de lo posible, es conveniente trabajar con intervalos de igual amplitud.
Sobre el histograma se dibuja el polígono de frecuencias, se obtiene uniendo los
puntos medios de la parte superior de cada barra; se suele agregar intervalos de
frecuencia cero al comienzo y al final, para comenzar y terminar el polígono en el eje.
El polígono de frecuencias muestra la misma información que el histograma, pero da
una idea de crecimiento o decrecimiento más real que las barras del histograma.
Con los datos del ejemplo dibujaremos diferentes histogramas a fin de elegir el más
conveniente. Para cada caso se muestra la tabla de distribución de frecuencias por
intervalos y el gráfico obtenido con el programa ”Asistente de Estadística” en la
computadora. Como son intervalos de igual amplitud, el eje vertical muestra
frecuencias.
19
Probabilidad y Estadística I
histograma:
20
Probabilidad y Estadística I
Son menos intervalos, pero sigue siendo un problema para el análisis a juzgar por los
bruscos cambios de dirección del polígono de frecuencias.
21
Probabilidad y Estadística I
De nuevo se presenta un
quiebre del polígono. Es posible
que con una pequeña traslación
se consiga suavizar la curva. Si
esto persiste se debe investigar la
causa.
Vemos cómo al ir
disminuyendo la cantidad de
intervalos, se va perdiendo más
información.
22
Probabilidad y Estadística I
fi
hi: frecuencia relativa del intervalo i-ésimo. hi =
N
i
Fi : frecuencia absoluta acumulada hasta el intervalo i-ésimo. Fi = ∑ f i
j =1
i
F
∑f
j =1
i
Notas
13
Estadística El histograma nos da
información sobre el
conjunto de datos que se
analiza. Por ejemplo nos
permitirá responder
7 preguntas como:
5
En qué rango de
valores están nuestras
notas?
1
10 24 38 52 66 80 94 108 23
Probabilidad y Estadística I
Notas
41
34
21
14
24
Probabilidad y Estadística I
ANALISIS NUMERICO
Formas simétricas:
Formas asimétricas:
Si bien estas formas serán visibles ya con el histograma, será necesario hacer un
análisis más profundo para describir distintas características. Por ejemplo, dónde se
encuentra la distribución respecto a un eje, qué tendencia central tienen los datos, cómo
se concentran, cómo medimos la simetría, etc.
Para el estudio de estas características definiremos las medidas de posición,
dispersión y asimetría.
25
Probabilidad y Estadística I
MEDIDAS DE POSICIÓN
Cuando tenemos un conjunto de N datos, decimos que tenemos un lote y lo
simbolizamos con X, la variable en estudio:
X X1 , X2 , . . . , XN
Variable Datos
X 1 + X 2 + ...+ X N ∑X
i =1
i
X = =
N N
X f + X 2 f 2 + ...+ X N f N ∑X
i =1
fi
X= 1 1 =
f 1 + f 2 + ...+ f N N
∑f
i =1
i
Nº de Frecuencia 206
hnos. ∑X
i =1
i i f
0 23 X= 206
=
1 37 ∑f
i =1
i
2 58
3 57 0 × 23+1× 37 + 2 × 58+ 3 × 57 + 4 ×18+ 5 ×10+ 6 × 3
= =
4 18 206
5 10 = 2.25
6 3
Total 206
b) Caso continuo:
Si los datos están agrupados en intervalos de clase, se ha perdido la información de
los valores puntuales, por tal motivo el cálculo de la media se hace aproximado. En cada
intervalo, la marca de clase, que es el punto medio del intervalo, representa cada uno de
los datos. Entonces:
∑f x
'
f x + f 2 x 2 + ...+ f n xn
' ' '
X= 1 1 =
i i
f 1 + f 2 + ...+ f n ∑f i
26
Probabilidad y Estadística I
∑f x
'
1× 17 + 1× 31+ 5 × 45 + 7 × 59 + 7 ×73 + 13× 87 + 7 × 101
X= = = 74.02
i i
∑f i 41
Propiedades de la Media
1.- Si se aplica una traslación a un conjunto de datos, (sumamos una constante c) la
media sufre la misma traslación.
Variable Datos Media
X x1 , x2 , . . . , xN X
Y Yi = Xi + c Y = X +c
3.- La media representa a cada uno de los datos. El producto N X reproduce la suma
de todos los datos, se obtiene sumando n veces el mismo valor, la media:
N
NX= ∑X
i =1
i
∑ (X − X )= 0
N
4.- La suma de los desvíos respecto a la media es cero. i
i =1
X
27
Probabilidad y Estadística I
3 4 5 7 8 9
X
3 4 5 7 8 26
X
Mediana: Se denomina Mediana (Me) al número real tal que a lo sumo el 50% de los
datos son menores que él y a lo sumo el 50% son mayores.
Si el número de datos es impar, la mediana es el valor central. Si hubiese un número
par de datos, la mediana es por convención, la media aritmética de los dos valores
centrales.
Sea el lote de datos: X1 , X2 , . . . , XN . Para indicar el orden en el lote usaremos la
notación:
N impar: N par:
Me = X N + 1 X N + X N
+1
Me = 2 2
2
Ejemplos:
a) Si tenemos los siguientes datos, 11, 3, 7, 4, 8, para calcular la mediana ordenamos
los datos de menor a mayor,
3, 4, 7, 8, 11
como hay cinco datos distintos el valor central es el tercero, o sea la mediana es
Me = 7.
28
Probabilidad y Estadística I
b) Caso continuo:
Ejemplo: En el caso de los rendimientos de 41 alumnos:
N 41
En este caso = = 20.5 , el intervalo mediano es el quinto intervalo.
2 2
Interpolando la curva ojiva, se encuentra la mediana en el eje de abscisas:
Notas
41
34
21
20.5
14
2
Me
1010 2424 3838 52
52 66
66 80
80 94
94 108
108
29
Probabilidad y Estadística I
N
− F j −1
2 20.5 − 14
Me = l j + c = 66 + x 14 = 79
fj 7
donde:
lj: límite inferior del intervalo j-ésimo (en este caso el intervalo mediano)
Fj-1: frecuencia acumulada hasta el intervalo anterior al j-ésimo
fj : frecuencia absoluta del j-ésimo intervalo
c: amplitud del intervalo
Propiedades de la Mediana
1.- Si se aplica una traslación a un conjunto de datos, (sumamos una constante c) no
se altera el orden, la mediana de los datos transformados será la mediana transformada
por la traslación.
∑
i =1
xi − Me ≤ ∑
i =1
xi − a ∀a ∈ℜ
30
Probabilidad y Estadística I
3 4 5 7 8 9
Me
26
3 4 5 7 8
Me
La desventaja de la Mediana es que no tiene un tratamiento algebraico fácil.
Modo: Se llama Modo (Mo) al dato que presenta mayor frecuencia. Si tenemos una
distribución de frecuencias de datos discretos, nos fijamos la clase de mayor frecuencia.
El modo o moda es más útil para datos cualitativos que utilizan escala nominal. Es la
medida promedio de obtención más sencilla. Determinar el modo puede resultar inútil
cuando los datos se extraen de una variable continua, pues es posible que ningún dato se
repita. Pero si hay una distribución en intervalos de clase, se puede encontrar un valor
aproximado en la zona de mayor frecuencia.
Si existen dos valores que se presentan en el lote de datos mayoritariamente, la
distribución de frecuencias recibe el nombre de bimodal. Pueden existir distribuciones
multimodales.
Ejemplos
En el lote de datos 2, 3, 3, 4, 5, 5, 5, 5, 6, 7, 8 la moda es el valor 5, por que se repite
4 veces.
En un gráfico de bastones el modo corresponde al bastón más largo.
En el conjunto de datos 2, 2.1, 2.4, 2.5, 5.6, 6.7 ningún valor es moda.
Si en una clase se pregunta a los alumnos acerca de que equipo de fútbol es
simpatizante, la moda describiría con claridad las preferencias de la clase.
Si los datos están agrupados en intervalos de clase, se obtiene una buena
aproximación con el siguiente procedimiento:
En el histograma se identifica el intervalo modal (el de mayor frecuencia):
f j +1
Mo = l j + c
f j −1 + f j +1
Esta fórmula se obtiene igualando las áreas rayadas en el intervalo modal, que son los
rectángulos de alturas iguales a las frecuencias de los intervalos anterior y posterior.
Con este criterio, si las frecuencias de los intervalos anterior y posterior son las mismas,
entonces el Mo será el punto medio del intervalo modal.
31
Probabilidad y Estadística I
Primer Cuartil: Se denomina Primer cuartil ( Q1 )al número real tal que a lo sumo el
25% de los datos son menores que él y a lo sumo el 75% son mayores.
Segundo Cuartil: El segundo cuartil ( Q2 ) es la Me.
Tercer Cuartil: Se denomina Tercer cuartil ( Q3 )al número real tal que a lo sumo el
75% de los datos son menores que él y a lo sumo el 25% son mayores.
n + 1
2 +1
2
Esta posición u orden así calculada, nos da la correspondiente al primer cuartil, si
contamos desde el primer dato. Y nos da la posición del tercer cuartil, si contamos
desde el último dato.
Ejemplo 1:
Si tenemos los siguientes datos: 2, 11, 3, 7, 4, 8, 6 para calcular los cuartiles
ordenamos los datos de menor a mayor: 2, 3, 4, 6, 7, 8, 11.
Q2 (mediana) = 6
7 + 1
2 + 1 5
El orden del cuartil inferior o superior es = = 2.5 . Entonces el Q1 es el
2 2
promedio del segundo y tercer dato: Q1= 3.5 y el tercer cuartil: Q3 es el promedio del
sexto y quinto dato: Q3= 7.5
Con j = 1,2,3
Primer Decil: Se denomina Primer decil ( D1 ) al número real tal que a lo sumo el
10% de los datos son menores que él y a lo sumo el 90% son mayores.
32
Probabilidad y Estadística I
Segundo Decil: Se denomina Segundo decil ( D2 ) al número real tal que a lo sumo
el 20% de los datos son menores que él y a lo sumo el 80% son mayores.
...
k-ésimo Decil: Se denomina k-ésimo decil ( Dk ) al número real tal que a lo sumo el
10k% de los datos son menores que él y a lo sumo el (100-10k)% son mayores. El D5 =
Me
33
Probabilidad y Estadística I
Rango o amplitud
El rango o amplitud es la diferencia entre el mayor y el menor valor de la variable.
Ejemplos:
Para los lotes de datos 1 y 2 el rango es el mismo R = 70 − 30 = 40 pero presentan
aspectos diferentes. En cambio en el lote 3 los datos presentan un rango de 60 −40 =20.
Rango intercuartil
Un problema que presenta el rango es que sólo considera los valores extremos del
lote de datos, y estos pueden ser valores “extraños” (alejados) y en ese caso no nos
proporciona muy buena información acerca de la dispersión del conjunto de datos. Esto
se trata de evitar mediante el rango intercuartil. Se denomina rango intercuartil a la
diferencia entre el tercer cuartil y el primer cuartil.
34
Probabilidad y Estadística I
Desviación media
La desviación media se define como la media aritmética de las desviaciones
absolutas de cada valor respecto de la media. En símbolos:
n
∑ x −x i
DM = i =1
n
Esta medida de dispersión es fácil de calcular y tiene en cuenta todos los datos.
Ejemplo: Los precios de la docena de naranjas en 4 fruterías de dos diferentes zonas son
los siguientes:
Zona A: 1.20, 1.30, 1.30, 1.40 Zona B: 1.00, 1.30, 1.30, 1.60
La media en ambos casos es 1.30, las desviaciones medias valen en las distintas zonas:
0 .1 + 0 + 0 + 0 .1 0 .3 + 0 + 0 + 0 .3
Zona A: = 0.05 Zona B: = 0.15
4 4
Es claro que en el caso que los datos sean más homogéneos la desviación media es
menor.
Varianza
La varianza se define como el promedio de los cuadrados de las desviaciones.
n
∑ (xi =1
i − x)2
Su fórmula es s 2 = . Para su cálculo suele utilizarse la siguiente fórmula
n
equivalente:
35
Probabilidad y Estadística I
∑x i
2
s2 = i =1
− x2;
n
En el caso que los datos estén presentados en una tabla de frecuencias, la fórmula más
m
∑ f (x
j =1
j j − x)2
adecuada para el cálculo de la varianza es: s 2 = , donde m es la cantidad de
n
datos diferentes (si es una distribución discreta) o la cantidad de intervalos (si es una
distribución en intervalos de clase).
Desviación estándar
La desviación estándar se define como la raíz cuadrada de la varianza.
En símbolos:
n
∑ (x − x) i
2
s= i =1
n
Esta medida de dispersión es la más usada.
Ejemplos:
La varianza y el desvío estándar para los datos de los precios de la docena de naranjas
en 4 almacenes de dos diferentes zonas son:
Zona A
(1.20 − 1.30) 2 + (1.30 − 1.30) 2 + (1.30 − 1.30) 2 + (1.40 − 1.30) 2
s A2 = = 0.005
4
y el desvío estándar es s A = 0.07
Zona B
(1.00 − 1.30) 2 + (1.30 − 1.30) 2 + (1.30 − 1.30) 2 + (1.60 − 1.30) 2
sB =
2
= 0.045
4
y el desvío estándar es s B = 0.21
Para el caso de datos agrupados en intervalos, consideremos el siguiente ejemplo
referente a alturas de plantas de trigo.
Para facilitar el cálculo agregamos a la tabla de frecuencias algunas columnas más.
36
Probabilidad y Estadística I
Así de la columna VI se puede obtener el valor del desvío estándar para este conjunto de
datos, s = 3343.4 ≅ 7.5 .
60
37
Probabilidad y Estadística I
Trataremos sólo con los diagramas de cajas. Nos servirá recordar algunas definiciones
para la construcción de estos diagramas.
Cuartiles
Los cuartiles son números reales que dividen la distribución de datos numéricos
(ordenados de menor a mayor) en cuatro partes (los cuartos) que corresponden al 25%
cada una:
25 % 25 % 25 % 25 %
Xmin Q1 Me Q3 Xmax
DIAGRAMA DE CAJAS
El diagrama consiste en una caja a lo largo del eje de la variable, donde se encuentra
el 50% central de los datos (o sea que incluye los dos cuartos centrales), y el resto
constituyen las colas de la distribución (el primer cuarto, la cola izquierda; el cuarto, la
cola derecha), representadas por segmentos a los costados de la caja. La caja, por lo
tanto, se dibuja desde el primer cuartil hasta el tercero. Las colas representan el 25% de
la distribución, a ambos lados, desde los cuartiles, a los extremos si no hay valores
alejados o muy alejados:
50%
25% 25
Xmin Q1 Me Q3 Xmax
38
Probabilidad y Estadística I
Se debe establecer algún criterio para definir cuándo un dato es alejado o muy
alejado. Un criterio razonable y muy usado es el siguiente:
Definiendo
a = Q1 – 1,5 (Q3 – Q1) b = Q3 + 1,5 (Q3 – Q1)
c = Q1 – 3 (Q3 – Q1) d = Q3 + 3 (Q3 – Q1)
son "valores alejados" aquellos datos entre c y a o entre b y d. Son "valores muy
alejados" aquellos menores que c o mayores que d.
Si hay valores muy extremos, las colas no comienzan en los extremos sino que se
destacan estos valores con una marca y la cola comienza en el dato inmediato siguiente.
Se consideran los valores muy extremos con el mismo criterio tomado en el diagrama de
tallos y hojas.
o
▫ .
b d
Como vemos, la simplicidad del dibujo hace que notemos rápidamente en él las
características importantes de un lote de datos, como:
Valores alejados: se distinguen por las marcas especiales que lo separan del resto del
diagrama.
Posición: el eje de la variable dará los valores de las medidas, especialmente se observa la
posición de la mediana. En algunas cajas se puede agregar la posición de la media.
Dispersión: cajas anchas nos sugieren distribuciones muy dispersas en la parte central. Por
el contrario, cajas angostas nos muestran una gran concentración de datos (el ancho de la
caja es el rango intercuartil). La longitud de las colas por su parte nos dirán la mayor o
menor concentración de los datos en las zonas extremas.
Asimetría: la diferencia entre la longitud de las colas, y la posición de la mediana en la
caja, nos sugiere hacia donde se presentan valores más extremos, es decir qué tipo de
asimetría tiene el lote.
39
Probabilidad y Estadística I
Se observa el valor alejado (32 seg), destacado con un círculo rojo y una asimetría
positiva por el largo de la cola superior y la posición de la mediana. Observando la caja
se concluye que la parte central es casi simétrica. El rango intercuartil es casi la tercera
parte del rango total. No hay una fuerte concentración de datos en el centro. Con esta
técnica vemos entonces: valores alejados, posición, variabilidad y asimetría, es decir un
diagrama de cajas da buena información para la descripción de los datos.
Las características que se observan nos llevan a plantear hipótesis, que siempre
tendrán que validarse después.
Es importante destacar que este diagrama facilita la comparación de lotes. Si se
tienen varios lotes de datos en las mismas unidades, una representación múltiple permite
comparar sus características con la sola observación del diagrama.
40