Вы находитесь на странице: 1из 28

TEMA 1.- ESTADISTICA DESCRIPTIVA.

1.1. INTRODUCCION
1.1.1. UN EJEMPLO PARA EMPEZAR.
En la tabla siguiente se indica el número de productos que compra un cliente en un supermercado:

Tabla 1
13 7 5 11 12 7 9 8 8 11 11 8 9 9 12 6 7 12 14 7
12 12 11 6 9 5 10 8 10 12 7 12 6 9 9 7 10 7 9 11
11 8 8 13 12 12 10 10 12 10 8 15 7 10 8 10 15 8 11 4
18 10 7 11 6 7 7 12 16 11 7 10 10 11 16 5 15 14 9 11
9 9 8 8 11 8 16 14 15 6 8 12 12 8 5 4 11 16 7 16
9 8 14 2 18 11 8 11 10 12 8 7 7 15 11 9 13 6 8 10
11 10 12 7 9 7 12 10 6 15 8 10 17 7 14 10 18 10 10 11
7 10 10 8 16 11 7 12 12 12 11 12 11 20 12 9 7 11 14 8
8 11 8 10 17 11 7 16 15 10 18 10 10 10 15 12 15 6 6 9
12 9 11 10 17 12 11 7 9 11 7 11 12 9 8 8 9 10 8 10

La gerencia del supermercado está interesada en conocer la siguiente información:


• Cuál es el número máximo de productos que compra un cliente
• Cuál es el número mínimo de productos que compra un cliente
• Qué porcentaje de clientes compra menos de 10 artículos
• Qué porcentaje de clientes compra más de 15 artículos
• Cuál es el número medio de productos que compra un cliente
Si entregamos el cuadro anterior al gerente del supermercado no le será demasiado útil aunque
tenga la información completa.
En una época como la actual en la que el tiempo es un recurso cada vez más escaso se requiere que
la información se transmita y se asimile en el menor tiempo posible.
Para este cometido sería mejor estructurar la información en la tabla siguiente. Aunque se pierda
información (ya que no se tiene la información completa) pero es mucho más clara y fácil de utilizar
por la persona a que va destinada:

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 1


METODOS ESTADISTICOS Y APLICACIONES

Tabla 2
número máximo de productos que compra un cliente 2
número mínimo de productos que compra un cliente 20
porcentaje de clientes compra menos de 10 artículos 42,50%
porcentaje de clientes compra más de 15 artículos 7,50%
número medio de productos que compra un cliente 10,21

1.1.2. UN EJEMPLO PARA COMPARAR.


Ahora queremos comparar los resultados observados en dos grupos diferentes. En cada tabla se
recogen los datos de un grupo.

Tabla 3
Grupo 1 Grupo 2
9 1 9 5 5 5 6 7 5 8
1 2 4 3 4 4 5 4 3 4
7 4 5 7 6 3 5 4 7 2
9 5 5 2 4 3 5 6 3 5
4 7 4 6 5 6 4 5 2 3
7 6 4 5 1 8 4 6 3 4
7 3 4 3 9 5 6 6 4 5
6 7 4 6 5 4 8 4 6 4
6 7 8 6 5
6 5 7 6 5

En este caso nos interesa comparar cual de los dos grupos de clientes compra más artículos.
También es cometido de la Estadística Descriptiva facilitar el establecimiento de comparaciones entre
diferentes grupos. Bien entre grupos distintos, o bien para un mismo grupo en dos instantes de
tiempo diferentes.

1.1.3. TIPOS DE DATOS


Si sólo se tienen en cuenta una característica de la población, diremos que es un estudio
unidimensional.
Si se estudian dos o más características diremos que es un bidimensional o multidimensional,
respectivamente.
La característica objeto de estudio puede ser cualitativa o cuantitativa. Ejemplos:
Población: Característica Tipo
Vehículos que pasan por la Plaza Color Unidimensional Cualitativa
Vehículos que pasan por la Plaza nº de Ocupantes Unidimensional Cuantitativa
Alumnos de la Escuela Peso y Estatura Bidimensional Cuantitativa
Alumnos de la Escuela Sexo y Edad Bidimensional Mixta

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 2


METODOS ESTADISTICOS Y APLICACIONES

Los datos cuantitativos pueden clasificarse en varios tipos


Continua Tiempo que transcurre entre el paso de dos autobuses
Peso de las naranjas de un lote
Discreta finita Número de asignaturas en las que está matriculado un alumno
Discreta numerable Número de vehículos que pasan por un peaje de la A-7

1.1.4. POBLACION Y MUESTRA.


Población: es un conjunto de todos los elementos, de los que nos interesa estudiar alguna o algunas
características que presentan diversos estados.
Si queremos conocer con gran exactitud como es cierta característica de una determinada población,
la mejor forma sea recoger los datos de todos y cada uno de los individuos que integran la Población
completa. Analizarlos y extraer las conclusiones correspondientes.
Sin embargo hay algunas dificultades e inconvenientes para utilizar este planteamiento.
En primer lugar vamos a señalar el coste.
La información la buscamos porque al disponer de ella vamos a obtener algún beneficio. Sin
embargo obtener la información implica un coste o un esfuerzo. Al preparar un examen
(obtener información) podemos estudiar toda la asignatura dedicándole gran cantidad de
tiempo, o por el contrario podemos centrar nuestra atención en los temas que consideremos
más importantes o rentables para nuestro objetivo.
En otro caso tendríamos la imposibilidad material de realizar la encuesta a toda la población.
Por ejemplo para conocer la audiencia de un determinado programa de radio y de televisión,
no se puede conocer si todos y cada uno de los habitantes del estado español, o ni siquiera
de una única ciudad siguieron o no la evolución de dicho programa.
Pensemos en el ensayo destructivo de piezas. No se pueden analizar los efectos de un
choque frontal en todos los vehículos ensamblados en la cadena de montaje.
El tiempo durante el que la información es interesante:
Del ejemplo anterior se desprende otra circunstancia a tener presente, el tiempo disponible
para la toma de información y el tiempo requerido para su proceso. Es decir podemos recoger
una información con gran meticulosidad y analizarla con mucho rigor y cuando esté
disponible, es posible que ya no sirva para nada.
Por ejemplo, en el estudio de la intención de destino para las próximas vacaciones de los
habitantes de una ciudad de nada le sirve al responsable de la agencia de viajes disponer de
un completo y perfecto estudio sobre las preferencias de los viajeros cuando estos ya han
emprendido sus vacaciones.
De aquí surge la importancia de la Inferencia Estadística cuyo objetivo es obtener información de
una población completa a partir de los datos de una parte de ella.

Muestra: Es un subconjunto de la población.


Las propiedades que debe tener la muestra son la
representatividad de la población completa
La forma de escoger los individuos de la población que configuran la muestra es lo
fundamental para asegurar la validez de las conclusiones sobre la población completa.
Como ejemplo de lo que no debe ser una muestra para averiguar las preferencias sobre ocio
de los españoles no se puede encuestar sólo a cinco personas a la salida de un cine.
tamaño adecuado según los niveles de confianza exigidos a la información que buscamos de la
población completa.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 3


METODOS ESTADISTICOS Y APLICACIONES

El tamaño de la muestra condiciona el nivel de confianza de las conclusiones que se


establezcan sobre la población. A mayor tamaño, mayor confianza en los resultados y,
también, mayor coste.

1.1.5. CONCLUSIONES
El cometido de la Estadística Descriptiva es precisamente el de
• estructurar, presentar y resumir la información existente en colecciones de datos para
• facilitar su comprensión, su transmisión, su utilización
• cuantificar, resaltar y comparar los aspectos más relevantes

Para ello se utilizarán


• Representaciones gráficas de los datos que faciliten la percepción global del conjunto de
datos
• Parámetros estadísticos que resuman y sinteticen las principales características del
conjunto de datos

1.2. DISTRIBUCIONES DE FRECUENCIAS.


1.2.1. TABLAS DE FRECUENCIAS DE DATOS DISCRETOS.
Es evidente que en la Tabla 1 está toda la información recogida. Si queremos más información
tendremos que encuestar a más personas.
Pero no tenemos que olvidar que la información se obtiene para transmitirla o para extraer
conclusiones que nos permitan tomar decisiones. Para ello es necesario estructurar la información.
Una forma muy simple sería agrupar todas los resultados que sean iguales (y como veremos más
adelante las que sean similares).
Para ello construiremos una tabla en la que colocaremos junto a cada valor posible el número de
veces que aparece. Al número de veces que se observa un mismo valor le denominaremos
Frecuencia Absoluta.

Tabla 4
valor
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
observado
frecuencia
1 0 2 4 9 24 26 19 29 28 25 3 6 9 7 3 4 0 1
absoluta

Esta forma de presentar la información nos está ofreciendo una idea mucho más clara de cuales han
sido los resultados. En esta tabla indicamos los diferentes estados o resultados que pueden presentar
los individuos de la población y la frecuencia absoluta en la que presentan individuos en cada uno
de esos estados. De aquí su denominación como tabla de frecuencias absolutas.
Con esta tabla se ha conseguido simplificar la tabla inicial, y de forma sencilla y rápida se pueden
determinar los valores de la Tabla 2 (valor máximo, valor mínimo, porcentaje de observaciones con un
valor inferior a 10, porcentaje con un valor superior a 15,..)
Pero se puede mejorar la Tabla 4 elaborando un poco más la información, por ejemplo sumado las
frecuencias absolutas desde los valores mayores hasta los menores (Frecuencia Absoluta
Acumulada Decreciente) o sumado las frecuencias absolutas desde los valores menores hasta los
mayores (Frecuencia Absoluta Acumulada Creciente). Así se tendría la siguiente tabla:
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 4
METODOS ESTADISTICOS Y APLICACIONES

Tabla 5
valor
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
observado
frecuencia
1 0 2 4 9 24 26 19 29 28 25 3 6 9 7 3 4 0 1
absoluta
F.A. Acumulada
1 1 3 7 16 40 66 85 114 142 167 170 176 185 192 195 199 199 200
Creciente
F.A. Acumulada
200 199 199 197 193 184 160 134 115 86 58 33 30 24 15 8 5 1 1
Decreciente

Pero si se quieren comparar los resultados obtenidos en este grupo con los obtenidos en otros grupos
con diferente número de observaciones, o se quiere obtener de forma directa la respuesta a las
preguntas:
• Qué porcentaje de clientes compra menos de 10 artículos
• Qué porcentaje de clientes compra más de 15 artículos
La tabla de frecuencias debe agregar las Frecuencias Relativas (en tanto por uno o en tanto por cien),
y se obtendrán dividiendo las Frecuencias Absolutas por el número de observaciones.

Tabla 6
Clases 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Frecuencia
1 0 2 4 9 24 26 19 29 28 25 3 6 9 7 3 4 0 1
Absoluta
F.A. Acumulada
Creciente 1 1 3 7 16 40 66 85 114 142 167 170 176 185 192 195 199 199 200
F.A. Acumulada
Decreciente 200 199 199 197 193 184 160 134 115 86 58 33 30 24 15 8 5 1 1

Frecuencia 0,005 0,000 0,010 0,020 0,045 0,120 0,130 0,095 0,145 0,140 0,125 0,015 0,030 0,045 0,035 0,015 0,020 0,000 0,005
Relativa
F.R. Acumulada
0,005 0,005 0,015 0,035 0,080 0,200 0,330 0,425 0,570 0,710 0,835 0,850 0,880 0,925 0,960 0,975 0,995 0,995 1,000
Creciente
F.R. Acumulada
1,000 0,995 0,995 0,985 0,965 0,920 0,800 0,670 0,575 0,430 0,290 0,165 0,150 0,120 0,075 0,040 0,025 0,005 0,005
Decreciente

En la tabla 6 se han resaltado los valores correspondientes a las preguntas anteriores.

1.2.2. SIMPLIFICANDO LA TABLA DE FRECUENCIAS


Si el número diferente de valores observados es muy grande es conveniente simplificar la Tabla de
Frecuencias. En la Tabla 6 se recogen 200 observaciones clasificadas en 19 grupos o clases, en las
que cada grupo corresponde con un solo valor observado.
Para simplificar la tabla se agrupan los resultados vecinos, de modo que cada clase o grupo
represente varios valores.
En cada clase se agrupan tres resultados consecutivos. Así se tendría la tabla siguiente con siete
clases o grupos de datos.:

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 5


METODOS ESTADISTICOS Y APLICACIONES

Tabla 7
Clases ≤2 3-5 6-8 9 - 11 12 - 14 15 - 17 18 - 20
Frecuencia Absoluta 1 6 59 76 34 19 5
F.A. Acumulada Creciente 1 7 66 142 176 19 24
F.A. Acumulada Decreciente 200 199 193 134 58 24 5
Frecuencia Relativa 0,005 0,030 0,295 0,380 0,170 0,095 0,025
F.R. Acumulada Creciente 0,005 0,035 0,330 0,710 0,880 0,095 0,120
F.R. Acumulada Decreciente 1,000 0,995 0,965 0,670 0,290 0,120 0,025

Esta simplificación implica perder cierta información, pero ganar en claridad, sobre todo si el número
de valores observados es muy grande.
El número de clases debe fijarse entre 5 y 20. Y el número medio de observaciones por clase debe
ser igual o superior a 5.
No hay que olvidar que el objetivo de la tabla de frecuencias es mostrar como se distribuyen las
observaciones en los diferentes valores (o clases) posibles, de ahí el título de este punto de la lección
Distribuciones de Frecuencias.
Ejercicio propuesto:
1) obtener la tablas de frecuencias de cada uno de los grupos de datos que se muestran en la Tabla
2
2) comparar los resultados de ambas tablas

1.2.3. REPRESENTACION GRAFICA


Para transmitir de forma más intuitiva la información contenida en una Tabla de Frecuencia se recurre
a los Histogramas de Frecuencias o a los Polígonos de Frecuencias
En unos ejes coordenados, se representan para cada clase, en abscisas se la clase, y en ordenadas
la frecuencia correspondiente a cada clase.
Si dibujamos un rectángulo vertical desde cada uno de los puntos representados hasta el eje de
abscisas, tendremos el denominado Histograma de Frecuencias.
En este caso estamos representando la Frecuencia Absoluta, así tendremos El Histograma de
Frecuencias Absolutas.:

Histograma de Frecuencias
35
30
25
Frecuencia
Absoluta

20
15
10
5
0
10

12

14

16

18

20
2

Clases

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 6


METODOS ESTADISTICOS Y APLICACIONES

Si los puntos se unen con una línea poligonal se obtiene el Polígono de Frecuencias. En este caso el
Polígono de Frecuencias Absolutas, y su representación sería:

Polígono de Frecuencias
35
30
25
Frecuencia
Absoluta
20
15
10
5
0

10

12

14

16

18

20
2

8
Clases

Del mismo modo se pueden representar las frecuencias relativas y las frecuencias acumuladas.

1.2.4. TABLAS DE FRECUENCIAS DE DATOS CONTINUOS


Si la variable objeto de estudio es continua, por ejemplo el peso de individual de naranjas, no es
práctico computar las frecuencias individuales de cada estado posible, ya que el número de valores
posibles es infinito y es posible que todos los valores observados sean diferentes.
En la práctica lo que se hace es agrupar en clases las observaciones semejantes, tal y como
indicamos en las distribuciones de valores discretos. Formalmente podemos indicar que si la variable
es un número real, la clase es un intervalo cerrado.
El número de clases es recomendable que esté entre 5 y 20, dependiendo del número de
observaciones.
La anchura de la clase se obtendrá dividiendo la diferencia entre el mayor y el menor valor por el
número de clases.
También se puede hacer de otro modo, se establece una anchura de clase determinada, por ejemplo
5 cm para agrupar las estaturas. Pero hay que tener en cuenta que el número de clases resultantes
esté comprendido entre 5 y 20 para que la tabla y los gráficos puedan transmitir con facilidad la idea
de la distribución de frecuencias.
En realidad la agrupación en clases lo que hace es discretizar los estados que se consideran en la
variable objeto de estudio.
Todos las tablas de frecuencias absolutas y relativas, acumuladas o no, así como sus
correspondientes histogramas y polígonos de frecuencias pueden aplicarse sin ninguna restricción al
estudio de variables continuas, sin más que discretizar los datos agrupándolos en clases.
En la tabla siguiente se indica la estatura de un grupo de 200 personas:

Tabla 8
1,83 1,80 1,65 1,61 1,89 1,89 1,74 1,76 1,83 1,65 1,83 1,72 1,57 1,83 1,56 1,81 1,71 1,71 1,77 1,83
1,71 1,80 1,77 1,73 1,66 1,74 1,82 1,86 1,60 1,65 1,67 1,79 1,78 1,77 1,83 1,69 1,88 1,75 1,56 1,83
1,78 1,89 1,86 1,88 1,69 1,78 1,88 1,83 1,64 1,90 1,70 1,68 1,62 1,73 1,69 1,87 1,68 1,87 1,68 1,77
1,72 1,70 1,71 1,71 1,72 1,72 1,69 1,94 1,67 1,71 1,69 1,70 1,75 1,85 1,72 1,64 1,64 1,84 1,86 1,78
1,70 1,70 1,58 1,64 1,66 1,80 1,80 1,68 1,77 1,68 1,86 1,76 1,93 1,77 1,72 1,63 1,67 1,83 1,76 1,66
1,80 1,61 1,78 1,75 1,71 1,77 1,79 1,72 1,79 1,59 1,62 1,67 1,81 1,71 1,74 1,68 1,72 1,77 1,69 1,89

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 7


METODOS ESTADISTICOS Y APLICACIONES

1,71 1,83 1,68 1,69 1,68 1,74 1,51 1,60 1,75 1,79 1,69 1,73 1,62 1,91 1,72 1,88 1,69 1,60 1,77 1,74
1,58 1,76 1,77 1,63 1,75 1,61 1,64 1,87 1,71 1,79 1,68 1,67 1,79 1,54 1,73 1,80 1,78 1,65 1,81 1,73
1,63 1,65 1,74 1,82 1,78 1,54 1,85 1,77 1,78 1,58 1,74 1,75 1,81 1,74 1,82 1,50 1,62 1,74 1,80 1,79
1,71 1,69 1,94 1,70 1,69 1,68 1,65 1,69 1,70 1,73 1,75 1,71 1,87 1,70 1,83 1,74 1,79 1,83 1,71 1,88

El valor mínimo observado es 1,50 y el valor máximo 1,94. Utilizando el criterio anteriormente
comentado estableceremos 10 clases de 5 cm ( 0,05 m), tal y como se indica en la Tabla 9

Tabla 9
de 1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90
a 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95
Frec. Absoluta 4 9 19 38 44 39 24 18 5
F. A. Acum Creciente 4 23 61 105 144 168 186 191 191
F. A. Acum Decreciente 200 196 187 168 130 86 47 23 5
Frec. Rel 0,02 0,05 0,1 0,19 0,22 0,2 0,12 0,09 0,03
F. R. Acum Creciente 0,02 0,07 0,16 0,35 0,57 0,77 0,89 0,98 1
F. R. Acum Decreciente 1 0,98 0,94 0,84 0,65 0,43 0,24 0,12 0,03
Representante 1,53 1,58 1,63 1,68 1,73 1,78 1,83 1,88 1,93

En las Tablas de Frecuencias en las que se agrupan varios valores en una clase es conveniente
escoger un representante de clase.
En general se puede tomar como representante de cada clase el punto medio del intervalo que
abarca la clase.
Así el Histograma de frecuencias y el Polígono de Frecuencias serían:

Histograma de Frecuencias Polígono de Frecuencias

50 50
Frecuencia Absoluta
Frecuencia Absoluta

40 40
30 30
20 20
10 10
0 0
1,53 1,58 1,63 1,68 1,73 1,78 1,83 1,88 1,93 1,53 1,58 1,63 1,68 1,73 1,78 1,83 1,88 1,93
Clases Clases

1.2.5. COMPARACION DE DISTRIBUCIONES DE FRECUENCIAS


Vamos a comparar las valores observados de los grupos 1 y 2 que se indican en la Tabla 2.
Para comparar los valores observados en grupos diferentes (o en un mismo grupo en dos instante de
tiempo diferentes) es mejor utilizar las frecuencias relativas y/o sus acumuladas, especialmente si son
diferentes el número de datos de los grupos que se comparan.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 8


METODOS ESTADISTICOS Y APLICACIONES

En la Tabla siguiente se muestran las frecuencias relativas y las frecuencias relativa Acumuladas
Crecientes de ambos grupos de datos.

Tabla 10
Valor 1 2 3 4 5 6 7 8 9
Frec Rel. 1 6,0% 4,0% 6,0% 18,0% 22,0% 18,0% 16,0% 2,0% 8,0%
Frec Rel. 2 0,0% 5,0% 15,0% 27,5% 22,5% 17,5% 5,0% 7,5% 0,0%
Frec Rel. Acum Crec1 6,0% 10,0% 16,0% 34,0% 56,0% 74,0% 90,0% 92,0% 100,0%
Frec Rel. Acum Crec2 0,0% 5,0% 20,0% 47,5% 70,0% 87,5% 92,5% 100,0% 100,0%

Así tendríamos el gráfico que compara los polígonos de frecuencias relativas

POLIGONO DE FRECUENCIAS
30,0%

25,0%
Frecuencia Relativa

20,0%

15,0%

10,0%

5,0%

0,0%
1 2 3 4 5 6 7 8 9
Valores

Y el Gráfico que copara las Frecuencias Relativas Acumuladas Crecientes

POLIGONO DE FRECUENCIAS
ACUMULADAS
120,0%

100,0%
Frecuencia Relativa

80,0%

60,0%

40,0%

20,0%

0,0%
1 2 3 4 5 6 7 8 9
Valores

Es muy interesante relacionar los datos observados en la tabla con su representación gráfica.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 9


METODOS ESTADISTICOS Y APLICACIONES

1.2.6. GRAFICOS DE TARTA


Cuando se quiere dar una idea muy clara de como se distribuye la población según los diversos
estados en los que pueda clasificarse, pueden utilizarse los Gráficos de Tarta.
De una forma rápida puede apreciarse que estado es el más frecuente, cuales son los minoritarios
(que pueden agruparse).
La leyenda debe indicar el estado de cada porción de la tarta y el valor numérico asociado para
facilitar los cálculos posteriores o comparaciones más rigurosas. Si procede indicar el valor absoluto y
el porcentaje.
Mostramos como ejemplo el Gráfico de Tarta de la distribución de Frecuencias de la Tabla 7.

2%
2
4% 6% 0% 3-5
15%
6-8
9 - 11
12 - 14
15 - 17
40% 18 - 20
33%

1.2.7. GRAFICOS DE EVOLUCION


Hasta ahora hemos visto datos recogidos de diversos individuos de una población en un mismo
periodo de tiempo. Ahora vamos a
estudiar otro tipo de información 45
que son los valores de cierto
parámetro en el transcurso de 40
sucesivos periodos de tiempo. A
esta sucesión de datos se le 35
denomina Serie Temporal.
valor

30
Para la representación gráfica de
los valores obtenidos a lo largo del
25
tiempo pueden utilizarse diagramas
de barras, polígonos,... 20
En este caso en el eje de abscisas
representaremos el instante de 15
11
16
21
26
31
36
41
46
51
56
61
1
6

tiempo en el que hemos medido el


valor de la variable. A este lo tiempo
representaremos en el eje de
ordenadas.
La información que refleja la evolución de cierto parámetro puede estar dada en valor absoluto en
porcentaje de variación respecto a un determinado instante, en este caso hablaremos de Números
Indice (Indice de precios al consumo, inflación,..).
Si la serie de datos temporales registra los valores de una magnitud periódica, como por ejemplo el
consumo de helados es conveniente utilizar gráficos en espiral.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 10


METODOS ESTADISTICOS Y APLICACIONES

EL análisis de series temporales es la parte de la Estadística que sirve de base a las técnicas de
previsión cuantitativa.

1.3. PARAMETROS ESTADISTICOS


En el apartado anterior hemos observado como podemos crear una imagen gráfica de un conjunto de
datos. Intuitivamente captamos con rapidez muchos de los aspectos importante de la distribución de
los dichos valores.
Sin embargo, en muchos casos necesitamos comparar analíticamente dos conjuntos de datos. U
obtener ciertos parámetros que caractericen de forma abreviada los rasgos más significativos de ese
conjunto de datos.
A continuación mostraremos algunos gráficos en los que se comparan distintas distribuciones de
datos.
En el gráfico siguiente las distribuciones tienen, aproximadamente, la misma forma pero diferente
posición sobre los ejes coordenados. Los parámetros que resalten esta característica se
denominarán parámetros de posición.
Luego se muestra un gráfico con distribuciones que tienen la misma posición pero en unas los datos
estás más dispersos que en las otras. Los parámetros que miden esta característica de la forma se
denominan parámetros de dispersión. Si todos los datos del conjunto son iguales, la dispersión será
cero.

distinta posición 70
distinta dispersion
50
60
40
50
30 40
20 30
20
10
10
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 1 2 3 4 5 6 7 8 9 10 11 12 13

Otro aspecto de la forma de las distribuciones de los datos es la Asimetría. También mostraremos
parámetros para cuantificar este aspecto.

1.4. PARAMETROS ESTADISTICOS DE POSICION.


1.4.1. MEDIA
El parámetro más importante ( y el más utilizado) para crearnos una imagen de los elementos de un
cierto conjunto de datos o de variables asociadas a un conjunto de individuos es la Media. También
se denomina Promedio o Media Aritmética.
Así escuchamos con frecuencia:
- Nota media del expediente académico
- Renta media
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 11
METODOS ESTADISTICOS Y APLICACIONES

- Consumo medio de patatas


- Altura media

{ }
Si tenemos un conjunto de n valores x 1 , x 2 , ..., x n , el valor medio, se representa por x , será:

1
x= (x + x 2 + ....+ x n )
n 1

En el caso que haya muchos valores repetidos se pueden utilizar las frecuencias con las que aparece
cada valor para calcular la Media:
En la tabla siguiente se indican los beneficios que obtiene un concesionario en la venta de
automóviles:
Beneficio Unitario Unidades Vendidas
Automóvil pequeño 1.150 52
Automóvil Medio 2.225 23
Automóvil Lujo 5.400 5

El beneficio medio obtenido en la venta de coches se obtendrá ponderando el beneficio de cada tipo
de automóvil teniendo en cuenta el número de unidades vendidas de cada tipo.
Beneficio Medio = ( 150.000 * 52 + 225.000 * 23 + 400.000 * 5 ) / ( 52 + 23 + 5 ) =
Otra forma de entender la expresión anterior es sumar los beneficios aportados por las ventas de
cada tipo de automóvil y dividirlo por el total de automóviles vendidos.
Media de una Distribución de Frecuencias.
Cuando de un conjunto de datos se conoce sólo su distribución de frecuencias, no puede calcularse
la media con rigurosidad. Puede obtenerse un valor bastante aproximado de la media ( para la
mayoría de los caso es suficiente) ponderando los representantes de cada clase con la frecuencia de
cada clase.
Valores anómalos.
En algunos casos hay ciertos valores que distorsionan el significado de la Media. Son los valores
anómalos que deben identificarse y averiguar las causas que lo han producido.
Por ejemplo, el importe del recibo del teléfono en los últimos periodos de facturación ha sido:
511, 408, 470, 203, 553
El valor medio sería (511 + 408 + 470 + 203 + 553) / 5 =
Sin embargo hay un valor excesivamente bajo ( puede corresponder al periodo de vacaciones, a una
ausencia prolongada, o a una avería de larga duración) que altera el valor medio normal.
En este caso el valor medio sería (511 + 408 + 470 + 553) / 4 =
En Excel se puede calcular la Media de un conjunto de datos con la función PROMEDIO ( ).

1.4.2. MEDIANA
La mediana de un conjunto de datos es el valor del dato situado en el centro de la serie de valores
cuando estos están ordenados.
En una serie de 5 valores la mediana sería el valor correspondiente al tercer dato de la serie
ordenada.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 12


METODOS ESTADISTICOS Y APLICACIONES

N +1
En general si hay N valores (N impar) la mediana correspondería a la posición:
2
Así la mediana de la serie: 4, 8, 6, 9, 11 es 8, ya que la serie ordenada sería: 4, 6, 8, 9 11
En el caso de que el número de datos de la serie sea par, la mediana se obtiene como promedio de
los dos valores centrales.
N N
y +1
2 2
La serie: 4, 8, 6, 9, 11, 5 ; ordenada 4, 5, 6, 8, 9, 11, tendía como mediana 7, que es el promedio de
los valores centrales 6 y 8.

Indicar la mediana de la serie de datos: 1, 2, 5, 7, 3, 2, 1, 4, 1, 1, 9, 2, 3, 4, 6, 7

En Excel se puede calcular la Mediana de un conjunto de datos con la función MEDIANA ( ) .

1.4.3. MODA
La Moda de un conjunto de datos es el valor que se obtiene con mayor frecuencia.
En una encuesta sobre el número de bolígrafos que llevan los alumnos a clase se obtienen los
siguientes resultados:
- nº de bolígrafos: 1, 2, 1, 0, 2, 1, 1, 3, 2, 1
La moda de este conjunto de resultados es 1 . Ya que el valor 1 aparece más ( 5 veces ) que ningún
otro valor.
En una encuesta sobre las ventas de un determinado modelo de vestido para mujer se obtienen los
siguientes valores:
- talla solicitada: 26, 28, 28, 28, 28, 28, 30, 30, 32, 34, 36, 36, 36, 36, 36
En este caso el conjunto es bimodal, puesto que tanto la talla 28 como la 36 se solicitan 5 veces.
Pueden darse casos de distribuciones multimodales cuando hay más de dos modas.
Muchas veces las distribuciones bimodales son el resultado de unir dos distribuciones diferentes. en
el ejemplo anterior podrían ser las tallas correspondientes a niñas ( moda 28 ) y las tallas
correspondientes a mujer ( moda 36).
En Excel se puede calcular la Moda de un conjunto de datos con la función MODA( )

1.4.4. 3.5. Media Geométrica


La Media Geométrica de un conjunto de N valores es la raíz N-sima de los productos de dichos
números.
n
MG = n ∏x
i =1
i

La Media Geométrica de 1, 2, 4, 6 es: MG = 4 1 * 2 * 4 * 8 = 2.83


En Excel se puede calcular la Media Geométrica de un conjunto de datos con la función
MEDIA.GEOM( )

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 13


METODOS ESTADISTICOS Y APLICACIONES

1.4.5. CUARTILES
La mediana es el segundo cuartil. El primer cuartil es el elemento, una vez ordenado el conjunto
de los datos de forma creciente, que supera al 25% de los valores.
El tercer cuartil es el elemento, una vez ordenado el conjunto de los datos de forma creciente, que
es superado por el 25% de los datos.
Ejemplo: la serie 5, 6, 6, 7, 8, 9, 9, 10, 10, 11, 12, 12, 13, 15, 16
tiene de mediana 10, de primer cuartil 7 y de tercer cuartil 12.
En Excel se pueden calcular los Cuartiles de un conjunto de datos con la función CUARTIL(matriz;1)
y CUARTIL(matriz;3) para los cuartiles primero y tercero respectivamente.

1.4.6. PERCENTILES
Son análogos a los cuartiles. El primer cuartil indica el valor tal que hay un 25 de los datos inferiores a
él. El percentil del 10% de un conjunto de datos, será el dato tal que haya un 10% de los datos
inferiores a él.
En Excel se pueden calcular los Percentiles de un conjunto de datos con la función
PERCENTIIL(matriz;porcentaje).

1.4.7. EJEMPLOS:
Datos media Mediana cuartil 1 cuartil 2
1 2 3 4 5 6 7 8 9 10 11 12 6,5 6,5 3,75 9,25
1 2 3 4 5 6 7 8 9 10 11 6 6 3,5 8,5
1 2 3 4 5 6 7 8 9 10 5,5 5,5 3,25 7,75
1 2 3 4 5 6 7 11 13 5,778 5 3 7
3 3 3 4 5 6 7 7 7 5 5 3 7
1 2 3 4 4 5 5 5 6 3,889 4 3 5

Comparar las diferencias entre la media y la mediana.

1.5. MEDIDAS DE DISPERSION.


En el apartado anterior hemos indicado diversas formas de establecer un representante de un
determinado conjunto de datos o medidas.
Otro aspecto muy importante para completar la imagen que nos formamos del conjunto de datos a
partir de los parámetros de posición es la dispersión.
Entendemos que un conjunto de datos tiene poca dispersión si están agrupados entorno al valor
medio de ese conjunto de datos. Por el contrario diremos que la dispersión es alta si hay bastantes
datos suficientemente alejado del promedio.

1.5.1. Recorrido
El Recorrido es el parámetro de posición más intuitivo. Y para conjuntos pequeños de datos puede
ser el más significativo a efectos prácticos.
Se define el Recorrido como la diferencia entre el mayor valor observado y el menor valor observado.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 14


METODOS ESTADISTICOS Y APLICACIONES

- talla solicitada: 26, 28, 28, 28, 28, 28, 30, 30, 32, 34, 36, 36, 36, 36, 36
El recorrido de la serie anterior es: 36 - 26 = 10 tallas
En EXECEL no hay una función para determinar directamente el rango de un conjunto de datos. El
Rango se calcula en EXCEL calculando la diferencia entre el Máximo (Función MAXIMO ( ) ) y el
Mínimo (Función MINIMO ( ) ) .

1.5.2. Recorrido Intercuartílico


Es la diferencia entre el primer y tercer cuartil.
El recorrido intercuartílico será: 12 - 7 = 5
Uno de los significados del recorrido intercuartílico es que en un intervalo centrado en la mediana de
longitud, precisamente, el recorrido intercuartílico, se encuentran el 50% de los elementos del
conjunto.
Ejemplo: tenemos dos series de alambres trenzados de las que nos interesa comparar su resistencia
a la tracción. Estudiamos una muestra de 25 alambres de cada serie. La primera serie tiene una
resistencia media de 3.200 Kg con un recorrido intercuartílico de 150 Kg. La segunda serie tiene una
resistencia media de 3.300 Kg con un recorrido intercuartílico de 200 Kg. Contestar a las siguientes
preguntas:
- En que serie estará el alambre más resistente.
- En que serie podremos garantizar mejor la resistencia de 3.000 Kg
- ¿ Necesitamos más información ?
En EXECEL no hay una función para determinar directamente el recorrido Intercuartílico de un
conjunto de datos. Se calcula en EXCEL calculando la diferencia entre los cuartiles primero y tercero
CUARTL (datos,3) - CUARTL (datos,1) .

1.5.3. DESVIACION ABSOLUTA MEDIA


En un conjunto de n datos, de media x , se denomina desviación de cada elemento su diferencia de
la media del conjunto.
Por las propiedades de la media, la desviación promedio es cero.
Se define la desviación absoluta media como el promedio de los valores absolutos de las
desviaciones.

∑x i −x
n
En Excel se calcula la Desviación Absoluta Media de un conjunto de datos con la función
DESVPROM()

1.5.4. VARIANCIA
Se define la varianza como la media de las desviaciones al cuadrado. Se representa por σ2 .

σ 2
=
∑ (x − x) 2

n
La dificultad para comprender de forma intuitiva el valor de la Variancia es que viene dada en las
unidades al cuadrado
En Excel se calcula la Variancia de un conjunto de datos con la función VARP()
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 15
METODOS ESTADISTICOS Y APLICACIONES

1.5.5. DESVIACION TIPO


A la raíz cuadrada de la varianza se le denomina Desviación Típica. Y se expresa en las mismas
unidades que la media.
En Excel se calcula la Desviación Tipo de un conjunto de datos con la función DESVESTP()
En las calculadores se obtiene activando el modo estadístico y, según el modelo, con las teclas s o
σn

1.5.6. CUASIVARIANCIA
En Inferencia Estadística, para estimar la varianza de una población a partir de los datos de la
muestra extraída de dicha población, se utiliza la Cuasivarianza y se representa por:.

s 2
=
∑ (x − x) 2

n −1
Se calcula igual que la Variancia, pero se divide por n − 1 en lugar de por , ya que la “variabilidad” de
los datos de una muestra será generalmente menor que la de la población total. De este modo a partir
de la Cuasivariancia de la Muestra se puede estimar la Variancia de la Población.
En Excel se calcula la Cuasivariancia de un conjunto de datos con la función VAR()

1.5.7. CUASIDESVIACION TIPO


Y se denomina Cuasidesviación Típo a la raíz cuadrada de la Cuasivarianza. Y se representa por s.
Se utiliza para estimar la Desviación Tipo de una población a partir de los datos de una muestra.
En Excel se calcula la Desviación Tipo de un conjunto de datos con la función DESVEST()
En las calculadores se obtiene activando el modo estadístico y, según el modelo, con las teclas ϖ o
σ n −1

1.5.8. Coeficiente de Variación


Para comparar la variabilidad de dos poblaciones que tienen valores medios muy diferentes, analizar
las diferencias entre sus desviaciones típicas no es significativo.
La demanda de un detergente en un hipermercado tiene un promedio de 400 paquetes diarios con
una desviación típica de 75 paquetes. Este mismo producto en una pequeña tienda de barrio tiene
una demanda media de 10 paquetes con una desviación típica de 4 paquetes. ¿En que
establecimiento la demanda es mas variable?
El coeficiente de variación se define como la relación entre la desviación típica y la media de la
población:
σ
CV =
m

1.6. OTROS PARÁMETROS.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 16


METODOS ESTADISTICOS Y APLICACIONES

1.6.1. COEFICIENTE DE ASIMETRÍA


n

∑ (x − x)
3
i
i =1
CAx =
n σ x3

1.6.2. COMPARACIÓN DE MEDIA, MEDIANA Y MODA


Las diferencias existentes entre la Media, la Mediana y la Moda aportan una información muy
interesante sobre la forma de distribución de los datos.
En la distribución - nº de bolígrafos: 1, 2, 1, 0, 2, 1, 1, 3, 2, 1, comparar media, mediana y
moda. Obtener conclusiones sobre la simetría de los datos.

1.6.3. COEFICIENTE DE CURTOSIS ( APUNTAMIENTO ).


n

∑ (x
i =1
i − x)
4

CAp x =
n σ x4

1.7. GRAFICO DE CAJA Y BIGOTES.


El Gráfico de Caja y Bigotes se basa en la representación gráfica de los cuartiles (incluyendo la
mediana ) y el rango de los datos de un conjunto de datos.

La abscisa correspondiente al lado izquierdo de la caja es el primer cuartil, la correspondiente al lado


derecho el tercer cuartil, y la correspondiente a la línea central de la caja es la mediana.
El trazo vertical de la izquierda corresponde al mínimo valor de los datos y el de trazo de la derecha al
valor máximo de los datos. Estos trazos se unen con una línea horizontal a la caja y se les denomina
bigotes.
Con este diagrama se pueden apreciar los siguientes parámetros:
- Mediana (medida de la posición)
- primer y tercer cuartil (medida de la dispersión: recorrido intercuartílico)
- valores máximo y mínimo (medida de la dispersión: recorrido)
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 17
METODOS ESTADISTICOS Y APLICACIONES

Además la representación gráfica ofrece una imagen muy apropiada para observar la simetría de la
distribución.
Este gráfico se complementa con dos pares de líneas verticales separadas 1,5 veces el rango
intercuartílico (líneas del límite interior) y 3 veces el rango intercuartílico (líneas del límite exterior) de
las líneas del primer y tercer cuartil.

Los datos que están entre las líneas del límite interior y el límite exterior se denominan datos
atípicos; y los que están fuera de las líneas exteriores se les denomina datos atípicos extremos.
Los datos atípicos se excluyen del resto de datos para dibujar los bigotes. Los datos atípicos
requieren un análisis individualizado para conocer las causas que los han originado.

1.8. DISTRIBUCION DE FRECUENCIAS BIDIMENSIONALES.

1.8.1. TABLA DE CONTINGENCIA.


Cuando se considera el análisis simultáneo de dos características de los elementos de una población
se hace necesario registrar en una tabla de doble entrada todos los datos. A ésta se le denomina
Tabla de Contingencia.
La siguiente tabla registra los resultados de 200 alumnos en las asignaturas de matemáticas y física.
Aprueba Física Suspende Física
Aprueba Matemáticas 43 65
Suspende Matemáticas 53 39

Es decir del total de 200 alumnos, 65 han aprobado las matemáticas pero han suspendido la física.
La correspondencia de esta tabla con las de los datos unidimensionales sería la de Tabla de
Frecuencias Absolutas.
La tabla anterior la podemos expresar en porcentajes para tener una idea más rápida de la
distribución de los resultados, y facilitar la comparación con los resultados de otros grupos.
Aprueba Física Suspende Física
Aprueba Matemáticas 21.5% 32.5%
Suspende Matemáticas 26.5% 19.5%

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 18


METODOS ESTADISTICOS Y APLICACIONES

La correspondencia de esta tabla con las de los datos unidimensionales sería la de Tabla de
Frecuencias Relativas.
Si sumamos los valores de cada fila y de cada columna se obtienen las frecuencias marginales:

Aprueba Física Suspende Física Frecuencia Marginal


Aprueba Matemáticas 21.5% 32.5% 54%
Suspende Matemát. 26.5% 19.5% 46%
Frecuencia Marginal 48% 52% 100%

La frecuencia marginal nos indicaría, por ejemplo, que aprueban física el 48% de los alumnos,
independientemente de sus resultados en matemáticas.
Otra pregunta que puede plantearse en las distribuciones bidimensionales sería las siguiente:
¿Que porcentaje de los alumnos que aprueban matemáticas, suspenden la física?
En este caso deseamos conocer que porcentaje de alumnos suspenden la física, pero no de toda la
población, sino exclusivamente en un subconjunto que satisface cierta condición. En este caso la de
haber aprobado las matemáticas.
De aquí surge el concepto de frecuencia condicional:
¿Entre los alumnos que satisfacen la condición de haber aprobado las matemáticas, qué
porcentaje ha suspendido la física?
De los alumnos que han suspendido la física, ¿cuántos han aprobado las matemáticas?

Ejemplo: considerar la tabla de contingencia que indica la frecuencia de individuos con una
determinada talla y peso.
1.50- 1.70 mts 1.70 - 1.90 mts 1.90 - 2.10 mts
40 - 60 Kg 5 1 0
60 - 80 Kg 10 30 3
80-100 Kg 1 15 3

Indicar:
a) Peso medio
b) Estatura media
c) Peso medio de los que superan 1.70 mts de estatura

1.8.2. REPRESENTACIONES GRÁFICAS.


Si para representar gráficamente las frecuencias de variables unidimensionales necesitamos dos ejes
coordenados, uno para representar los valores de la variable y el otro para indicar las frecuencias,
para la representación gráfica de las variables bidimensionales requerimos tres ejes coordenados y
por lo tanto una representación tridimensional más compleja y difícil de comprender con facilidad.

En Excel seleccionar insertar gráfico

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 19


METODOS ESTADISTICOS Y APLICACIONES

30

25

20

frecuencia
15

10
peso
5
80-100 Kg
0 60 - 80 Kg
1.50- 40 - 60 Kg
1.70 1.70 -
1.90 1.90 -
estatura 2.10

1.8.3. OTRO EJEMPLO.


Hemos preguntado a varios alumnos el número de bolígrafos y de lápices que llevan a clase. Los
datos los hemos registrado en la siguiente tabla de contingencia, y su representación gráfica:

Bolígrafos
0 1 2 3 Tabla de contingencias
Lápices

0 2 23 7 2
25
1 5 9 1 0
20
2 3 4 0 1 frecuencia
15

10
A la tabla anterior le añadimos una fila, en
la que se totalizan la frecuencias 5
observadas para todos los que tienen el 0
láp

mismo número de bolígrafos, y una 1 0


ice

columna, en la que se totalizan las 2 0


s

1
frecuencias observadas para todos los 2
3 bolígrafos
que tienen el mismo número de lápices.
Estas frecuencias se denominan
frecuencias marginales y las indicamos
en la tabla siguiente:

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 20


METODOS ESTADISTICOS Y APLICACIONES

Bolígrafos
0 1 2 3 Marginal de
lápices
Lápices
0 2 23 7 2 34
1 5 9 1 0 15
2 3 4 0 1 8
Marginal de
10 36 8 3 57
bolígrafos

Las frecuencias marginales se pueden representar o sintetizar independientemente una de la otra


siguiendo las directrices dadas para variables unidimensionales.

Ejercicios
Responder a las siguientes preguntas:
- promedio de bolígrafos en este grupo
- promedio de lápices en este grupo
- promedio de bolígrafos de los alumnos que no traen lápiz (condicional)
- promedio de lápices en los que llevan un bolígrafo (condicional)
- porcentaje de alumnos que llevan dos bolígrafos (marginal)
- porcentaje de alumnos que no traen lápiz (marginal)
- porcentaje de alumnos que traen un bolígrafo y un lápiz
- porcentaje de alumnos que traen un lápiz (sin importar el nº de bolígrafos) o un bolígrafo (sin
importar el nº de lápices)
- porcentaje de alumnos que tienen dos o más instrumentos de escritura
- porcentaje de alumnos que tienen menos de dos instrumentos de escritura
- porcentaje de alumnos que tienen tres instrumentos de escritura

- desviación típica del número de bolígrafos


- desviación típica del número de lápices
- desviación típica del número de bolígrafos en los alumnos que traen un lápiz
- desviación típica del número de lápices en los alumnos que traen dos bolígrafos

1.9. DISTRIBUCIONES CONDICIONALES

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 21


METODOS ESTADISTICOS Y APLICACIONES

1.10. RELACIONES EN DISTRIBUCIONES BIDIMENSIONALES.

1.10.1. INTRODUCCION
Consideremos que en la población objeto de nuestro estudio analizamos dos parámetros de cada
elemento, x e y . Los datos los recogemos en la tabla siguiente:

Tabla 11
x 750 1381 2020 2220 2230 1400 871 1443 1550 2525 2400 1970
y 510 580 550 710 710 820 630 620 580 410 805 640

Para cada una de las variables podríamos determinar cualquiera de los parámetros que hemos visto
con anterioridad de posición (media, mediana,…), de dispersión (variancia, recorrido,…), de
asimetría…
Pero uno de los aspectos más interesantes
en el estudio de distribuciones de dispersión en distribuciones
bidimensionales es averiguar si existe una bidimensionales
relación entre las dos características objeto
de análisis.
900
Es bastante intuitivo comprender que existe 800
una relación entre el peso y la estatura de
las personas. A mayor estatura normalmente 700
Y
le corresponderá un peso más elevado 600
dentro de las variaciones influenciadas por la 500
edad, sexo, constitución física, tipo de
400
alimentación,....
0 1000 2000 3000
Podemos tener una idea más clara de esta
X
relación si representamos, mediante puntos,
en unos ejes coordenados de peso y
estatura, las características de cada individuo. Este gráfico tiene el nombre de Diagrama de
Dispersión.
En Excel, para representar los datos de una distribución bidimensional, escoger en el Menú Insertar
la opción Gráfico y seguir las instrucciones del asistente. Se recomienda utilizar el tipo de gráfico
XY Dispersión.
En los puntos siguientes iremos completando este gráfico con más información.
Para cuantificar esta relación entre las variables x e y ., en un conjunto de n elementos se definen
varios parámetros que se comentan seguidamente.
Además de los parámetros, la Representación Gráfica de los datos nos permitirá tener una idea más
rápida e intuitiva de la relación entre las dos variables.

1.10.2. COVARIANCIA
Covarianza entre las variables x e y se calcula:
1
σ xy2 = ∑ ( xi − m x )( yi − m y )
n i
Observar la similitud con la definición de la Variancia.
Se puede definir la Covariancia Muestral:

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 22


METODOS ESTADISTICOS Y APLICACIONES

1
cov xy = ∑ ( xi − m x )( yi − m y )
n −1 i
La dificultad para entender el significado de la Covariancia son sus unidades, cosa que sucedía ya
con la Variancia.

COVAR(matriz1;matriz2)
Devuelve la covariancia, o promedio de los productos entre las desviaciones, de los valores por
pares. Use la covariancia para determinar la relación entre dos conjuntos de datos, por ejemplo, para
examinar si un nivel elevado de ingresos corresponde a un mayor nivel educativo.

• Matriz1 es el primer rango de celdas de números enteros.


• Matriz2 es el segundo rango de celdas de números enteros.
• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si un argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías,
esos valores se pasan por alto; sin embargo, se incluyen las celdas cuyo valor sea 0.
• Si los argumentos matriz1 y matriz2 tienen números distintos de puntos de datos, COVAR
devuelve el valor de error #N/A.
• Si los argumentos matriz1 o matriz2 están vacíos, COVAR devuelve el valor de error
#¡DIV/0!

Ejemplo de la Tabla 11: COVAR(x;y) = 7.081


Otro Ejemplo: COVAR({3; 2; 4; 5; 6} \ {9; 7; 12; 15; 17}) es igual a 5,2

1.10.3. COEFICIENTE DE CORRELACION LINEAL


Coeficiente de Correlación Lineal entre las variables x,y

σ xy2 cov xy
rxy = =
σ x • σ y sx • sy
donde

• σ xσ y son las desviaciones tipo de cada una de las variables unidimensionales, y σ xy2 es
la covariancia.

• s x s y son las cuasi desviaciones tipo de cada una de las variables unidimensionales, y
cov xy es la covariancia muestral.
El coeficiente de correlación lineal es adimensional, por lo tanto no está afectado por las unidades en
las que se mide cada una de las variables, y su valor está comprendido entre -1 y +1.

Cuando rxy es próximo a cero indica que no existe relación lineal entre las dos variables. Y para
valores próximos a +1 ó -1 indica que existe una relación lineal muy alta. en este último caso la

coef de correlacion = 0,98 coef de correlacion = -0,40

1800 1400
1600
1200
1400
1200 1000
1000 800
TEMA
8001.- ESTADÍSTICA DESCRIPTIVA 23
600
600
400 400
0 1000 2000 3000 0 500 1000 1500 2000 2500 3000
METODOS ESTADISTICOS Y APLICACIONES

representación gráfica los datos casi se alinean sobre una línea recta.

COEF.DE.CORREL(matriz1;matriz2)
Devuelve el coeficiente de correlación entre dos rangos de celdas definidos por los argumentos
matriz1 y matriz2. Use el coeficiente de correlación para determinar la relación entre dos propiedades.
Por ejemplo, para examinar la relación entre la temperatura promedio de una localidad y el uso de
aire acondicionado.

• Matriz1 es un rango de celdas de valores.


• Matriz2 es un segundo rango de celdas de valores.
• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si un argumento de referencia o matriz contiene texto, valores lógicos o celdas vacías,
esos valores se pasan por alto; sin embargo, sí se incluyen las celdas con el valor cero.
• Si los argumentos matriz1 y matriz2 tienen un número diferente de puntos de datos,
COEF.DE.CORREL devuelve el valor de error #N/A.
• Si el argumento matriz1 o matriz2 está vacío, o si s (la desviación estándar de los valores)
es igual a cero, COEF.DE.CORREL devuelve el valor de error #¡DIV/0!.

Ejemplo de la Tabla 11: COEF.DE.CORREL(x;y) = 0,11


Otro Ejemplo : COEF.DE.CORREL({3,2,4,5,6},{9,7,12,15,17}) es igual a 0.997054

1.10.4. COEFICIENTE DE DETERMINACION LINEAL


2
Es el cuadrado del Coeficiente de Correlación Lineal, se representa por r . Es muy importante ya
que indica que porcentaje de la variación de una de las variables se puede explicar por la variación de
la otra variable.

COEFICIENTE.R2(conocido_y;conocido_x)
Devuelve el coeficiente de determinación lineal para una línea de regresión lineal creada con los
datos de los argumentos conocido_x y conocido_y. El coeficiente de determinación r2 se puede
interpretar como la proporción de la varianza de y, que puede atribuirse a la varianza de x.

• Conocido_y es una matriz o rango de puntos de datos.


• Conocido_x es una matriz o rango de puntos de datos.
• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías,
estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número diferente
de puntos de datos, COEFICIENTE.R2 devuelve el valor de error #N/A.

Ejemplo de la Tabla 11: COEFICIENTE.R2(x;y) = 0,01


Otro Ejemplo: COEFICIENTE.R2({2;3;9;1;8;7;5};{6;5;11;7;5;4;4}) es igual a 0,05795

1.10.5. RECTA DE REGRESION


Cuando el coeficiente de regresión es próximo a +1 o -1 los puntos que representan los datos
observados definen de forma aproximada una recta. En este caso es adecuado conocer cual es la
ecuación de la recta en torno a la cual se agrupan los datos observados. Esta se conoce como Recta
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 24
METODOS ESTADISTICOS Y APLICACIONES

de Regresión. Su ecuación será:

Este planteamiento de la ecuación de la recta de regresión considera diferentes naturalezas de las


variables, la x es la variable explicativa y la y es la variable a explicar

De la observación de las representación gráfica de los datos o, bien, del análisis de los estudios de
regresión pueden derivarse conclusiones sobre la relación existente entre las variables.
Podemos tener el caso en el que una de las variables es función de la otra. Por ejemplo cuando
estudiamos la dilatación de una varilla en función de la temperatura a la que se le somete.
En otros casos las dos variables no dependen directamente una de otra, sino que dependen de
ciertos factores que las condicionan. el peso y la estatura de las personas no están relacionadas
directamente, sino a través de factores genéticos y ambientales.
También puede darse el caso de que las dos variables sean una función de la otra pero que
intervengan otras variables diferentes. Por ejemplo existe una relación entre la población de un país y
su producto interior bruto. Pero también interviene el nivel de desarrollo del país en cuestión.

INTERSECCION.EJE(conocido_y;conocido_x)
Calcula el punto en el que una línea cruzará el eje y utilizando los valores X e Y existentes. El punto
de intersección se basa en el mejor ajuste de la línea de regresión trazado con los valores X y los
valores Y. Use esta función para determinar el valor de la variable dependiente cuando la variable
independiente es igual a 0.

• Conocido_y representa la serie dependiente de observaciones o de datos.


• Conocido_x representa la serie independiente de observaciones o de datos.
• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si un argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías,
esos valores se pasan por alto; sin embargo, se incluyen las celdas con el valor 0.
• Si los argumentos conocido_y y conocido_x contienen un número diferente de puntos de
datos o no contienen ninguno, INTERSECCION devuelve el valor de error #N/A.
Ejemplo: INTERSECCION({2; 3; 9; 1; 8}; {6; 5; 11; 7; 5}) es igual a 0,0483871

PENDIENTE(conocido_y;conocido_x)
Devuelve la pendiente de una línea de regresión lineal creada con los datos de los argumentos
conocido_x y conocido_y. La pendiente es la distancia vertical dividida por la distancia horizontal
entre dos puntos cualquiera de la recta, lo que corresponde a la tasa de cambio a lo largo de la línea
de regresión.Conocido_y es una matriz o rango de observaciones numéricos dependientes.

• Conocido_y son los valores que toma la variable dependiente, representada sobre el eje
de ordenadas.
• Conocido_x son los valores que toma la variable independiente, representada sobre el
eje de abscisas.
• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías,
estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número diferente
de puntos de datos, PENDIENTE devuelve el valor de error #N/A.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 25


METODOS ESTADISTICOS Y APLICACIONES

Ejemplo: PENDIENTE({2;3;9;1;8;7;5};{6;5;11;7;5;4;4}) es igual a 0,305556

1.10.6. INTRODUCCION A LA REGRESION LINEAL


En este tema hemos definido la recta de regresión que indica la ecuación de la recta que mejor
representa la relación entre las dos variables objeto de estudio, así como la capacidad de esta recta
de representar dicha relación (coeficiente de determinación lineal).
En el tema dedicado a los Modelos de Regresión Lineal se profundizará en aspectos muy
importantes para establecer relaciones entre variables, haciendo énfasis en el análisis de los
residuos (diferencias entre la ordenada indicada por la recta de regresión y el valor realmente
observado), en las transformaciones del modelo (ya que es posible que una línea recta no sea la
mejor forma de expresar la relación) y en el establecimiento de predicciones del valor de una
variable en función de la otra a partir del modelo.

CUESTIONES Y EJERCICIOS:

1.01 Calcular el tiempo medio de montaje si los tiempos obtenidos han sido:
3.4, 3.5, 2.7, 3.6, 2.8, 2.9, 3.2, 3.5, 2.6, 2.8 horas. (sol: 3.1 horas)

1.02 En el ejercicio anterior calcular la mediana de los tiempos de montaje. (sol: 3.05 horas)

1.03 El salario medio del encargado y de cinco operarios a sus órdenes es de 175.000 pesetas
mensuales. Si el salario medio de los cinco operarios es de 150.000, cuál será el salario del
encargado. (sol 300.000 pts)

1.04 Lanzar cuatro monedas y anotar el nº de caras que salen. Repetir el experimento 50 veces.
Construir el histograma de frecuencias relativas. Comparar el gráfico obtenido con el de u
compañero.

1.05 Lanzar 2 dados. Registrar el valor obtenido al sumar las puntuaciones de los dos dados. Repetir
el experimento 50 veces y construir el histograma de frecuencias relativas y el de frecuencias
relativas acumuladas en orden creciente.

1.06 Representar gráficamente la distribución de los pesos de 50 cerillas de madera. Dibujar su


histograma de frecuencias absolutas y el de frecuencias relativas. ¿qué diferencias hay entre ambos?

1.07 En una bolsa colocar 3 bolas blancas, dos rojas y una negra. Sin reposición ir extrayendo bolas
hasta que salga una roja. Anotar cuantas bolas ha sido necesario extraer hasta obtener la primera
bola roja. Volver a colocar las bolas en la bolsa. Repetir el experimento 30 veces. Construir la tabla de
frecuencias absoluta y relativa. Representar el polígono de frecuencias acumuladas en orden
creciente.

1.08 Los salarios, en dólares, de cuatro empleados son : 15.000, 16.000, 16.500, 40.000.
a) Indicar su media aritmética.
b) ¿El promedio calculado es significativo?

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 26


METODOS ESTADISTICOS Y APLICACIONES

c) Representar los datos gráficamente.

1.09 De los 70 empleados de una empresa 50 cobran a 2.500 pts/hora y el resto a 3.250 pts/hora.
cual es el coste medio por hora. (sol: 2714 pts/hora)

1.10 Cuatro grupos de estudiantes de 15, 20, 10 y 18 personas, dieron pesos medios de 75, 68, 72 y
70 Kg respectivamente. Indicar el peso medio de todos los estudiantes. ¿Cuál sería su media
geométrica?

1.11 Los honorarios de cinco profesionales son 3.200, 3.500, 2.750, 3.000 y 5.000pts/hora.
a) Indicar la media y la mediana de dichos honorarios.
b) Indicar el recorrido y la desviación típica.
c) Calcular el recorrido relativo y el coeficiente de variación.

1.12 Las estaturas, en cm, de 40 estudiantes son:


168 194 180 162 174 155 179 187
176 188 170 177 166 178 182 174
198 156 168 196 193 199 184 195
146 173 172 177 165 183 170 165
191 175 165 172 180 186 175 158
a) Construir la tabla de frecuencia con ancho de clase de 5 cm.
b) Construir la tabla de frecuencias con 8 clases.
c) Representar los histogramas de frecuencias. Analizar las diferencias.
d) ¿La distribución es simétrica?
e) Calcular la media y la mediana utilizando los datos originales.
f) Calcular la media y la mediana utilizando las distintas tablas de frecuencias.
g) Buscar la moda y compararla con la media y la mediana.
h) Indicar el primer y tercer cuartil de esta distribución.
i) Indicar el recorrido.
j) Indicar la distancia intercuartílica.

1.13 La población de microorganismos en cultivo creció de 100 a 400 en tres días. ¿Cuál fue el
crecimiento medio diario? (sol: 58%)

1.14 De un trayecto de 80Km se recorren 50Km entre 60 y 70 Km/h, 20Km entre 50 y 60 Km/h, y el
resto entre 40 y 50 Km/h. Indicar el tiempo empleado en recorrer todo el trayecto. ¿El valor sería
exacto?. (sol: 1.36 horas)

1.15 Los honorarios de cinco profesionales son 3.200, 3.500, 2.750, 3.000 y 2.500 pts/hora.
a) Indicar la media y la mediana de dichos honorarios.
b) Indicar el recorrido y la desviación típica.

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 27


METODOS ESTADISTICOS Y APLICACIONES

c) Calcular el recorrido relativo y el coeficiente de variación.


d) Comparar los resultados con los del problema 1.04.

1.16 El número de unidades defectuosas encontrados en la inspección sistemática de 20 cajas de un


lote es: 1, 0, 0, 1, 0, 2, 1, 3, 0, 0, 0, 1, 2, 0, 0, 1, 0, 2, 4, 1
a) Indicar promedio, moda y mediana de unidades defectuosas por caja.
b) ¿La distribución es simétrica?
c) Calcular el recorrido y la desviación típica.

1.17 El número de unidades defectuosas encontrados en la inspección sistemática de 20 cajas de un


lote es: 1, 1, 0, 1, 1, 1, 2, 1, 0, 1, 1, 1, 0, 1, 2, 1, 0, 1, 2, 1
a) Indicar promedio, moda y mediana de unidades defectuosas por caja.
b) Calcular el recorrido y la desviación típica.
c) ¿Que lote cabe suponer que es mejor, el del problema 1.16 o el del 1.17 ? ¿Por qué?

1.18 El número de respuestas incorrectas en una prueba realizada sobre 15 estudiantes, fueron las
siguientes: 2,1,3,0,1,3,6,0,3,3,5,2,1,4 y 2.Indicar:
a) la media aritmética, la mediana y la moda
b) el recorrido y la desviación típica
c) el coeficiente de variación.

1.19 En la tabla adjunta se muestra la distribución de frecuencias (tabla de contingencia) para una
variable aleatoria bidimensional.
x\y 1 2 3 4
1 5 7 8 10
2 6 8 9 12
3 9 10 12 11
4 10 11 13 15
Determinar:
a) Media, Moda y Mediana de la variable x
b) Media, Moda y Mediana de la variable y
c) Recorrido de x. Recorrido relativo de x.
d) Recorrido relativo de n.
e) Media, Moda y Mediana de x, condicionada a que y = 3
f) Desviación típica de x condicionada a que y = 3
g) Media, Moda y Mediana de x, condicionada a que y = 1
i) Desviación típica de x condicionada a que y = 1
j) Media, Moda y Mediana de y, condicionada a que x = 2
k) Desviación típica de y condicionada a que x = 2

TEMA 1.- ESTADÍSTICA DESCRIPTIVA 28

Вам также может понравиться