Академический Документы
Профессиональный Документы
Культура Документы
1.1. INTRODUCCION
1.1.1. UN EJEMPLO PARA EMPEZAR.
En la tabla siguiente se indica el número de productos que compra un cliente en un supermercado:
Tabla 1
13 7 5 11 12 7 9 8 8 11 11 8 9 9 12 6 7 12 14 7
12 12 11 6 9 5 10 8 10 12 7 12 6 9 9 7 10 7 9 11
11 8 8 13 12 12 10 10 12 10 8 15 7 10 8 10 15 8 11 4
18 10 7 11 6 7 7 12 16 11 7 10 10 11 16 5 15 14 9 11
9 9 8 8 11 8 16 14 15 6 8 12 12 8 5 4 11 16 7 16
9 8 14 2 18 11 8 11 10 12 8 7 7 15 11 9 13 6 8 10
11 10 12 7 9 7 12 10 6 15 8 10 17 7 14 10 18 10 10 11
7 10 10 8 16 11 7 12 12 12 11 12 11 20 12 9 7 11 14 8
8 11 8 10 17 11 7 16 15 10 18 10 10 10 15 12 15 6 6 9
12 9 11 10 17 12 11 7 9 11 7 11 12 9 8 8 9 10 8 10
Tabla 2
número máximo de productos que compra un cliente 2
número mínimo de productos que compra un cliente 20
porcentaje de clientes compra menos de 10 artículos 42,50%
porcentaje de clientes compra más de 15 artículos 7,50%
número medio de productos que compra un cliente 10,21
Tabla 3
Grupo 1 Grupo 2
9 1 9 5 5 5 6 7 5 8
1 2 4 3 4 4 5 4 3 4
7 4 5 7 6 3 5 4 7 2
9 5 5 2 4 3 5 6 3 5
4 7 4 6 5 6 4 5 2 3
7 6 4 5 1 8 4 6 3 4
7 3 4 3 9 5 6 6 4 5
6 7 4 6 5 4 8 4 6 4
6 7 8 6 5
6 5 7 6 5
En este caso nos interesa comparar cual de los dos grupos de clientes compra más artículos.
También es cometido de la Estadística Descriptiva facilitar el establecimiento de comparaciones entre
diferentes grupos. Bien entre grupos distintos, o bien para un mismo grupo en dos instantes de
tiempo diferentes.
1.1.5. CONCLUSIONES
El cometido de la Estadística Descriptiva es precisamente el de
• estructurar, presentar y resumir la información existente en colecciones de datos para
• facilitar su comprensión, su transmisión, su utilización
• cuantificar, resaltar y comparar los aspectos más relevantes
Tabla 4
valor
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
observado
frecuencia
1 0 2 4 9 24 26 19 29 28 25 3 6 9 7 3 4 0 1
absoluta
Esta forma de presentar la información nos está ofreciendo una idea mucho más clara de cuales han
sido los resultados. En esta tabla indicamos los diferentes estados o resultados que pueden presentar
los individuos de la población y la frecuencia absoluta en la que presentan individuos en cada uno
de esos estados. De aquí su denominación como tabla de frecuencias absolutas.
Con esta tabla se ha conseguido simplificar la tabla inicial, y de forma sencilla y rápida se pueden
determinar los valores de la Tabla 2 (valor máximo, valor mínimo, porcentaje de observaciones con un
valor inferior a 10, porcentaje con un valor superior a 15,..)
Pero se puede mejorar la Tabla 4 elaborando un poco más la información, por ejemplo sumado las
frecuencias absolutas desde los valores mayores hasta los menores (Frecuencia Absoluta
Acumulada Decreciente) o sumado las frecuencias absolutas desde los valores menores hasta los
mayores (Frecuencia Absoluta Acumulada Creciente). Así se tendría la siguiente tabla:
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 4
METODOS ESTADISTICOS Y APLICACIONES
Tabla 5
valor
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
observado
frecuencia
1 0 2 4 9 24 26 19 29 28 25 3 6 9 7 3 4 0 1
absoluta
F.A. Acumulada
1 1 3 7 16 40 66 85 114 142 167 170 176 185 192 195 199 199 200
Creciente
F.A. Acumulada
200 199 199 197 193 184 160 134 115 86 58 33 30 24 15 8 5 1 1
Decreciente
Pero si se quieren comparar los resultados obtenidos en este grupo con los obtenidos en otros grupos
con diferente número de observaciones, o se quiere obtener de forma directa la respuesta a las
preguntas:
• Qué porcentaje de clientes compra menos de 10 artículos
• Qué porcentaje de clientes compra más de 15 artículos
La tabla de frecuencias debe agregar las Frecuencias Relativas (en tanto por uno o en tanto por cien),
y se obtendrán dividiendo las Frecuencias Absolutas por el número de observaciones.
Tabla 6
Clases 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Frecuencia
1 0 2 4 9 24 26 19 29 28 25 3 6 9 7 3 4 0 1
Absoluta
F.A. Acumulada
Creciente 1 1 3 7 16 40 66 85 114 142 167 170 176 185 192 195 199 199 200
F.A. Acumulada
Decreciente 200 199 199 197 193 184 160 134 115 86 58 33 30 24 15 8 5 1 1
Frecuencia 0,005 0,000 0,010 0,020 0,045 0,120 0,130 0,095 0,145 0,140 0,125 0,015 0,030 0,045 0,035 0,015 0,020 0,000 0,005
Relativa
F.R. Acumulada
0,005 0,005 0,015 0,035 0,080 0,200 0,330 0,425 0,570 0,710 0,835 0,850 0,880 0,925 0,960 0,975 0,995 0,995 1,000
Creciente
F.R. Acumulada
1,000 0,995 0,995 0,985 0,965 0,920 0,800 0,670 0,575 0,430 0,290 0,165 0,150 0,120 0,075 0,040 0,025 0,005 0,005
Decreciente
Tabla 7
Clases ≤2 3-5 6-8 9 - 11 12 - 14 15 - 17 18 - 20
Frecuencia Absoluta 1 6 59 76 34 19 5
F.A. Acumulada Creciente 1 7 66 142 176 19 24
F.A. Acumulada Decreciente 200 199 193 134 58 24 5
Frecuencia Relativa 0,005 0,030 0,295 0,380 0,170 0,095 0,025
F.R. Acumulada Creciente 0,005 0,035 0,330 0,710 0,880 0,095 0,120
F.R. Acumulada Decreciente 1,000 0,995 0,965 0,670 0,290 0,120 0,025
Esta simplificación implica perder cierta información, pero ganar en claridad, sobre todo si el número
de valores observados es muy grande.
El número de clases debe fijarse entre 5 y 20. Y el número medio de observaciones por clase debe
ser igual o superior a 5.
No hay que olvidar que el objetivo de la tabla de frecuencias es mostrar como se distribuyen las
observaciones en los diferentes valores (o clases) posibles, de ahí el título de este punto de la lección
Distribuciones de Frecuencias.
Ejercicio propuesto:
1) obtener la tablas de frecuencias de cada uno de los grupos de datos que se muestran en la Tabla
2
2) comparar los resultados de ambas tablas
Histograma de Frecuencias
35
30
25
Frecuencia
Absoluta
20
15
10
5
0
10
12
14
16
18
20
2
Clases
Si los puntos se unen con una línea poligonal se obtiene el Polígono de Frecuencias. En este caso el
Polígono de Frecuencias Absolutas, y su representación sería:
Polígono de Frecuencias
35
30
25
Frecuencia
Absoluta
20
15
10
5
0
10
12
14
16
18
20
2
8
Clases
Del mismo modo se pueden representar las frecuencias relativas y las frecuencias acumuladas.
Tabla 8
1,83 1,80 1,65 1,61 1,89 1,89 1,74 1,76 1,83 1,65 1,83 1,72 1,57 1,83 1,56 1,81 1,71 1,71 1,77 1,83
1,71 1,80 1,77 1,73 1,66 1,74 1,82 1,86 1,60 1,65 1,67 1,79 1,78 1,77 1,83 1,69 1,88 1,75 1,56 1,83
1,78 1,89 1,86 1,88 1,69 1,78 1,88 1,83 1,64 1,90 1,70 1,68 1,62 1,73 1,69 1,87 1,68 1,87 1,68 1,77
1,72 1,70 1,71 1,71 1,72 1,72 1,69 1,94 1,67 1,71 1,69 1,70 1,75 1,85 1,72 1,64 1,64 1,84 1,86 1,78
1,70 1,70 1,58 1,64 1,66 1,80 1,80 1,68 1,77 1,68 1,86 1,76 1,93 1,77 1,72 1,63 1,67 1,83 1,76 1,66
1,80 1,61 1,78 1,75 1,71 1,77 1,79 1,72 1,79 1,59 1,62 1,67 1,81 1,71 1,74 1,68 1,72 1,77 1,69 1,89
1,71 1,83 1,68 1,69 1,68 1,74 1,51 1,60 1,75 1,79 1,69 1,73 1,62 1,91 1,72 1,88 1,69 1,60 1,77 1,74
1,58 1,76 1,77 1,63 1,75 1,61 1,64 1,87 1,71 1,79 1,68 1,67 1,79 1,54 1,73 1,80 1,78 1,65 1,81 1,73
1,63 1,65 1,74 1,82 1,78 1,54 1,85 1,77 1,78 1,58 1,74 1,75 1,81 1,74 1,82 1,50 1,62 1,74 1,80 1,79
1,71 1,69 1,94 1,70 1,69 1,68 1,65 1,69 1,70 1,73 1,75 1,71 1,87 1,70 1,83 1,74 1,79 1,83 1,71 1,88
El valor mínimo observado es 1,50 y el valor máximo 1,94. Utilizando el criterio anteriormente
comentado estableceremos 10 clases de 5 cm ( 0,05 m), tal y como se indica en la Tabla 9
Tabla 9
de 1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90
a 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95
Frec. Absoluta 4 9 19 38 44 39 24 18 5
F. A. Acum Creciente 4 23 61 105 144 168 186 191 191
F. A. Acum Decreciente 200 196 187 168 130 86 47 23 5
Frec. Rel 0,02 0,05 0,1 0,19 0,22 0,2 0,12 0,09 0,03
F. R. Acum Creciente 0,02 0,07 0,16 0,35 0,57 0,77 0,89 0,98 1
F. R. Acum Decreciente 1 0,98 0,94 0,84 0,65 0,43 0,24 0,12 0,03
Representante 1,53 1,58 1,63 1,68 1,73 1,78 1,83 1,88 1,93
En las Tablas de Frecuencias en las que se agrupan varios valores en una clase es conveniente
escoger un representante de clase.
En general se puede tomar como representante de cada clase el punto medio del intervalo que
abarca la clase.
Así el Histograma de frecuencias y el Polígono de Frecuencias serían:
50 50
Frecuencia Absoluta
Frecuencia Absoluta
40 40
30 30
20 20
10 10
0 0
1,53 1,58 1,63 1,68 1,73 1,78 1,83 1,88 1,93 1,53 1,58 1,63 1,68 1,73 1,78 1,83 1,88 1,93
Clases Clases
En la Tabla siguiente se muestran las frecuencias relativas y las frecuencias relativa Acumuladas
Crecientes de ambos grupos de datos.
Tabla 10
Valor 1 2 3 4 5 6 7 8 9
Frec Rel. 1 6,0% 4,0% 6,0% 18,0% 22,0% 18,0% 16,0% 2,0% 8,0%
Frec Rel. 2 0,0% 5,0% 15,0% 27,5% 22,5% 17,5% 5,0% 7,5% 0,0%
Frec Rel. Acum Crec1 6,0% 10,0% 16,0% 34,0% 56,0% 74,0% 90,0% 92,0% 100,0%
Frec Rel. Acum Crec2 0,0% 5,0% 20,0% 47,5% 70,0% 87,5% 92,5% 100,0% 100,0%
POLIGONO DE FRECUENCIAS
30,0%
25,0%
Frecuencia Relativa
20,0%
15,0%
10,0%
5,0%
0,0%
1 2 3 4 5 6 7 8 9
Valores
POLIGONO DE FRECUENCIAS
ACUMULADAS
120,0%
100,0%
Frecuencia Relativa
80,0%
60,0%
40,0%
20,0%
0,0%
1 2 3 4 5 6 7 8 9
Valores
Es muy interesante relacionar los datos observados en la tabla con su representación gráfica.
2%
2
4% 6% 0% 3-5
15%
6-8
9 - 11
12 - 14
15 - 17
40% 18 - 20
33%
30
Para la representación gráfica de
los valores obtenidos a lo largo del
25
tiempo pueden utilizarse diagramas
de barras, polígonos,... 20
En este caso en el eje de abscisas
representaremos el instante de 15
11
16
21
26
31
36
41
46
51
56
61
1
6
EL análisis de series temporales es la parte de la Estadística que sirve de base a las técnicas de
previsión cuantitativa.
distinta posición 70
distinta dispersion
50
60
40
50
30 40
20 30
20
10
10
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 1 2 3 4 5 6 7 8 9 10 11 12 13
Otro aspecto de la forma de las distribuciones de los datos es la Asimetría. También mostraremos
parámetros para cuantificar este aspecto.
{ }
Si tenemos un conjunto de n valores x 1 , x 2 , ..., x n , el valor medio, se representa por x , será:
1
x= (x + x 2 + ....+ x n )
n 1
En el caso que haya muchos valores repetidos se pueden utilizar las frecuencias con las que aparece
cada valor para calcular la Media:
En la tabla siguiente se indican los beneficios que obtiene un concesionario en la venta de
automóviles:
Beneficio Unitario Unidades Vendidas
Automóvil pequeño 1.150 52
Automóvil Medio 2.225 23
Automóvil Lujo 5.400 5
El beneficio medio obtenido en la venta de coches se obtendrá ponderando el beneficio de cada tipo
de automóvil teniendo en cuenta el número de unidades vendidas de cada tipo.
Beneficio Medio = ( 150.000 * 52 + 225.000 * 23 + 400.000 * 5 ) / ( 52 + 23 + 5 ) =
Otra forma de entender la expresión anterior es sumar los beneficios aportados por las ventas de
cada tipo de automóvil y dividirlo por el total de automóviles vendidos.
Media de una Distribución de Frecuencias.
Cuando de un conjunto de datos se conoce sólo su distribución de frecuencias, no puede calcularse
la media con rigurosidad. Puede obtenerse un valor bastante aproximado de la media ( para la
mayoría de los caso es suficiente) ponderando los representantes de cada clase con la frecuencia de
cada clase.
Valores anómalos.
En algunos casos hay ciertos valores que distorsionan el significado de la Media. Son los valores
anómalos que deben identificarse y averiguar las causas que lo han producido.
Por ejemplo, el importe del recibo del teléfono en los últimos periodos de facturación ha sido:
511, 408, 470, 203, 553
El valor medio sería (511 + 408 + 470 + 203 + 553) / 5 =
Sin embargo hay un valor excesivamente bajo ( puede corresponder al periodo de vacaciones, a una
ausencia prolongada, o a una avería de larga duración) que altera el valor medio normal.
En este caso el valor medio sería (511 + 408 + 470 + 553) / 4 =
En Excel se puede calcular la Media de un conjunto de datos con la función PROMEDIO ( ).
1.4.2. MEDIANA
La mediana de un conjunto de datos es el valor del dato situado en el centro de la serie de valores
cuando estos están ordenados.
En una serie de 5 valores la mediana sería el valor correspondiente al tercer dato de la serie
ordenada.
N +1
En general si hay N valores (N impar) la mediana correspondería a la posición:
2
Así la mediana de la serie: 4, 8, 6, 9, 11 es 8, ya que la serie ordenada sería: 4, 6, 8, 9 11
En el caso de que el número de datos de la serie sea par, la mediana se obtiene como promedio de
los dos valores centrales.
N N
y +1
2 2
La serie: 4, 8, 6, 9, 11, 5 ; ordenada 4, 5, 6, 8, 9, 11, tendía como mediana 7, que es el promedio de
los valores centrales 6 y 8.
1.4.3. MODA
La Moda de un conjunto de datos es el valor que se obtiene con mayor frecuencia.
En una encuesta sobre el número de bolígrafos que llevan los alumnos a clase se obtienen los
siguientes resultados:
- nº de bolígrafos: 1, 2, 1, 0, 2, 1, 1, 3, 2, 1
La moda de este conjunto de resultados es 1 . Ya que el valor 1 aparece más ( 5 veces ) que ningún
otro valor.
En una encuesta sobre las ventas de un determinado modelo de vestido para mujer se obtienen los
siguientes valores:
- talla solicitada: 26, 28, 28, 28, 28, 28, 30, 30, 32, 34, 36, 36, 36, 36, 36
En este caso el conjunto es bimodal, puesto que tanto la talla 28 como la 36 se solicitan 5 veces.
Pueden darse casos de distribuciones multimodales cuando hay más de dos modas.
Muchas veces las distribuciones bimodales son el resultado de unir dos distribuciones diferentes. en
el ejemplo anterior podrían ser las tallas correspondientes a niñas ( moda 28 ) y las tallas
correspondientes a mujer ( moda 36).
En Excel se puede calcular la Moda de un conjunto de datos con la función MODA( )
1.4.5. CUARTILES
La mediana es el segundo cuartil. El primer cuartil es el elemento, una vez ordenado el conjunto
de los datos de forma creciente, que supera al 25% de los valores.
El tercer cuartil es el elemento, una vez ordenado el conjunto de los datos de forma creciente, que
es superado por el 25% de los datos.
Ejemplo: la serie 5, 6, 6, 7, 8, 9, 9, 10, 10, 11, 12, 12, 13, 15, 16
tiene de mediana 10, de primer cuartil 7 y de tercer cuartil 12.
En Excel se pueden calcular los Cuartiles de un conjunto de datos con la función CUARTIL(matriz;1)
y CUARTIL(matriz;3) para los cuartiles primero y tercero respectivamente.
1.4.6. PERCENTILES
Son análogos a los cuartiles. El primer cuartil indica el valor tal que hay un 25 de los datos inferiores a
él. El percentil del 10% de un conjunto de datos, será el dato tal que haya un 10% de los datos
inferiores a él.
En Excel se pueden calcular los Percentiles de un conjunto de datos con la función
PERCENTIIL(matriz;porcentaje).
1.4.7. EJEMPLOS:
Datos media Mediana cuartil 1 cuartil 2
1 2 3 4 5 6 7 8 9 10 11 12 6,5 6,5 3,75 9,25
1 2 3 4 5 6 7 8 9 10 11 6 6 3,5 8,5
1 2 3 4 5 6 7 8 9 10 5,5 5,5 3,25 7,75
1 2 3 4 5 6 7 11 13 5,778 5 3 7
3 3 3 4 5 6 7 7 7 5 5 3 7
1 2 3 4 4 5 5 5 6 3,889 4 3 5
1.5.1. Recorrido
El Recorrido es el parámetro de posición más intuitivo. Y para conjuntos pequeños de datos puede
ser el más significativo a efectos prácticos.
Se define el Recorrido como la diferencia entre el mayor valor observado y el menor valor observado.
- talla solicitada: 26, 28, 28, 28, 28, 28, 30, 30, 32, 34, 36, 36, 36, 36, 36
El recorrido de la serie anterior es: 36 - 26 = 10 tallas
En EXECEL no hay una función para determinar directamente el rango de un conjunto de datos. El
Rango se calcula en EXCEL calculando la diferencia entre el Máximo (Función MAXIMO ( ) ) y el
Mínimo (Función MINIMO ( ) ) .
∑x i −x
n
En Excel se calcula la Desviación Absoluta Media de un conjunto de datos con la función
DESVPROM()
1.5.4. VARIANCIA
Se define la varianza como la media de las desviaciones al cuadrado. Se representa por σ2 .
σ 2
=
∑ (x − x) 2
n
La dificultad para comprender de forma intuitiva el valor de la Variancia es que viene dada en las
unidades al cuadrado
En Excel se calcula la Variancia de un conjunto de datos con la función VARP()
TEMA 1.- ESTADÍSTICA DESCRIPTIVA 15
METODOS ESTADISTICOS Y APLICACIONES
1.5.6. CUASIVARIANCIA
En Inferencia Estadística, para estimar la varianza de una población a partir de los datos de la
muestra extraída de dicha población, se utiliza la Cuasivarianza y se representa por:.
s 2
=
∑ (x − x) 2
n −1
Se calcula igual que la Variancia, pero se divide por n − 1 en lugar de por , ya que la “variabilidad” de
los datos de una muestra será generalmente menor que la de la población total. De este modo a partir
de la Cuasivariancia de la Muestra se puede estimar la Variancia de la Población.
En Excel se calcula la Cuasivariancia de un conjunto de datos con la función VAR()
∑ (x − x)
3
i
i =1
CAx =
n σ x3
∑ (x
i =1
i − x)
4
CAp x =
n σ x4
Además la representación gráfica ofrece una imagen muy apropiada para observar la simetría de la
distribución.
Este gráfico se complementa con dos pares de líneas verticales separadas 1,5 veces el rango
intercuartílico (líneas del límite interior) y 3 veces el rango intercuartílico (líneas del límite exterior) de
las líneas del primer y tercer cuartil.
Los datos que están entre las líneas del límite interior y el límite exterior se denominan datos
atípicos; y los que están fuera de las líneas exteriores se les denomina datos atípicos extremos.
Los datos atípicos se excluyen del resto de datos para dibujar los bigotes. Los datos atípicos
requieren un análisis individualizado para conocer las causas que los han originado.
Es decir del total de 200 alumnos, 65 han aprobado las matemáticas pero han suspendido la física.
La correspondencia de esta tabla con las de los datos unidimensionales sería la de Tabla de
Frecuencias Absolutas.
La tabla anterior la podemos expresar en porcentajes para tener una idea más rápida de la
distribución de los resultados, y facilitar la comparación con los resultados de otros grupos.
Aprueba Física Suspende Física
Aprueba Matemáticas 21.5% 32.5%
Suspende Matemáticas 26.5% 19.5%
La correspondencia de esta tabla con las de los datos unidimensionales sería la de Tabla de
Frecuencias Relativas.
Si sumamos los valores de cada fila y de cada columna se obtienen las frecuencias marginales:
La frecuencia marginal nos indicaría, por ejemplo, que aprueban física el 48% de los alumnos,
independientemente de sus resultados en matemáticas.
Otra pregunta que puede plantearse en las distribuciones bidimensionales sería las siguiente:
¿Que porcentaje de los alumnos que aprueban matemáticas, suspenden la física?
En este caso deseamos conocer que porcentaje de alumnos suspenden la física, pero no de toda la
población, sino exclusivamente en un subconjunto que satisface cierta condición. En este caso la de
haber aprobado las matemáticas.
De aquí surge el concepto de frecuencia condicional:
¿Entre los alumnos que satisfacen la condición de haber aprobado las matemáticas, qué
porcentaje ha suspendido la física?
De los alumnos que han suspendido la física, ¿cuántos han aprobado las matemáticas?
Ejemplo: considerar la tabla de contingencia que indica la frecuencia de individuos con una
determinada talla y peso.
1.50- 1.70 mts 1.70 - 1.90 mts 1.90 - 2.10 mts
40 - 60 Kg 5 1 0
60 - 80 Kg 10 30 3
80-100 Kg 1 15 3
Indicar:
a) Peso medio
b) Estatura media
c) Peso medio de los que superan 1.70 mts de estatura
30
25
20
frecuencia
15
10
peso
5
80-100 Kg
0 60 - 80 Kg
1.50- 40 - 60 Kg
1.70 1.70 -
1.90 1.90 -
estatura 2.10
Bolígrafos
0 1 2 3 Tabla de contingencias
Lápices
0 2 23 7 2
25
1 5 9 1 0
20
2 3 4 0 1 frecuencia
15
10
A la tabla anterior le añadimos una fila, en
la que se totalizan la frecuencias 5
observadas para todos los que tienen el 0
láp
1
frecuencias observadas para todos los 2
3 bolígrafos
que tienen el mismo número de lápices.
Estas frecuencias se denominan
frecuencias marginales y las indicamos
en la tabla siguiente:
Bolígrafos
0 1 2 3 Marginal de
lápices
Lápices
0 2 23 7 2 34
1 5 9 1 0 15
2 3 4 0 1 8
Marginal de
10 36 8 3 57
bolígrafos
Ejercicios
Responder a las siguientes preguntas:
- promedio de bolígrafos en este grupo
- promedio de lápices en este grupo
- promedio de bolígrafos de los alumnos que no traen lápiz (condicional)
- promedio de lápices en los que llevan un bolígrafo (condicional)
- porcentaje de alumnos que llevan dos bolígrafos (marginal)
- porcentaje de alumnos que no traen lápiz (marginal)
- porcentaje de alumnos que traen un bolígrafo y un lápiz
- porcentaje de alumnos que traen un lápiz (sin importar el nº de bolígrafos) o un bolígrafo (sin
importar el nº de lápices)
- porcentaje de alumnos que tienen dos o más instrumentos de escritura
- porcentaje de alumnos que tienen menos de dos instrumentos de escritura
- porcentaje de alumnos que tienen tres instrumentos de escritura
1.10.1. INTRODUCCION
Consideremos que en la población objeto de nuestro estudio analizamos dos parámetros de cada
elemento, x e y . Los datos los recogemos en la tabla siguiente:
Tabla 11
x 750 1381 2020 2220 2230 1400 871 1443 1550 2525 2400 1970
y 510 580 550 710 710 820 630 620 580 410 805 640
Para cada una de las variables podríamos determinar cualquiera de los parámetros que hemos visto
con anterioridad de posición (media, mediana,…), de dispersión (variancia, recorrido,…), de
asimetría…
Pero uno de los aspectos más interesantes
en el estudio de distribuciones de dispersión en distribuciones
bidimensionales es averiguar si existe una bidimensionales
relación entre las dos características objeto
de análisis.
900
Es bastante intuitivo comprender que existe 800
una relación entre el peso y la estatura de
las personas. A mayor estatura normalmente 700
Y
le corresponderá un peso más elevado 600
dentro de las variaciones influenciadas por la 500
edad, sexo, constitución física, tipo de
400
alimentación,....
0 1000 2000 3000
Podemos tener una idea más clara de esta
X
relación si representamos, mediante puntos,
en unos ejes coordenados de peso y
estatura, las características de cada individuo. Este gráfico tiene el nombre de Diagrama de
Dispersión.
En Excel, para representar los datos de una distribución bidimensional, escoger en el Menú Insertar
la opción Gráfico y seguir las instrucciones del asistente. Se recomienda utilizar el tipo de gráfico
XY Dispersión.
En los puntos siguientes iremos completando este gráfico con más información.
Para cuantificar esta relación entre las variables x e y ., en un conjunto de n elementos se definen
varios parámetros que se comentan seguidamente.
Además de los parámetros, la Representación Gráfica de los datos nos permitirá tener una idea más
rápida e intuitiva de la relación entre las dos variables.
1.10.2. COVARIANCIA
Covarianza entre las variables x e y se calcula:
1
σ xy2 = ∑ ( xi − m x )( yi − m y )
n i
Observar la similitud con la definición de la Variancia.
Se puede definir la Covariancia Muestral:
1
cov xy = ∑ ( xi − m x )( yi − m y )
n −1 i
La dificultad para entender el significado de la Covariancia son sus unidades, cosa que sucedía ya
con la Variancia.
COVAR(matriz1;matriz2)
Devuelve la covariancia, o promedio de los productos entre las desviaciones, de los valores por
pares. Use la covariancia para determinar la relación entre dos conjuntos de datos, por ejemplo, para
examinar si un nivel elevado de ingresos corresponde a un mayor nivel educativo.
σ xy2 cov xy
rxy = =
σ x • σ y sx • sy
donde
• σ xσ y son las desviaciones tipo de cada una de las variables unidimensionales, y σ xy2 es
la covariancia.
• s x s y son las cuasi desviaciones tipo de cada una de las variables unidimensionales, y
cov xy es la covariancia muestral.
El coeficiente de correlación lineal es adimensional, por lo tanto no está afectado por las unidades en
las que se mide cada una de las variables, y su valor está comprendido entre -1 y +1.
Cuando rxy es próximo a cero indica que no existe relación lineal entre las dos variables. Y para
valores próximos a +1 ó -1 indica que existe una relación lineal muy alta. en este último caso la
1800 1400
1600
1200
1400
1200 1000
1000 800
TEMA
8001.- ESTADÍSTICA DESCRIPTIVA 23
600
600
400 400
0 1000 2000 3000 0 500 1000 1500 2000 2500 3000
METODOS ESTADISTICOS Y APLICACIONES
representación gráfica los datos casi se alinean sobre una línea recta.
COEF.DE.CORREL(matriz1;matriz2)
Devuelve el coeficiente de correlación entre dos rangos de celdas definidos por los argumentos
matriz1 y matriz2. Use el coeficiente de correlación para determinar la relación entre dos propiedades.
Por ejemplo, para examinar la relación entre la temperatura promedio de una localidad y el uso de
aire acondicionado.
COEFICIENTE.R2(conocido_y;conocido_x)
Devuelve el coeficiente de determinación lineal para una línea de regresión lineal creada con los
datos de los argumentos conocido_x y conocido_y. El coeficiente de determinación r2 se puede
interpretar como la proporción de la varianza de y, que puede atribuirse a la varianza de x.
De la observación de las representación gráfica de los datos o, bien, del análisis de los estudios de
regresión pueden derivarse conclusiones sobre la relación existente entre las variables.
Podemos tener el caso en el que una de las variables es función de la otra. Por ejemplo cuando
estudiamos la dilatación de una varilla en función de la temperatura a la que se le somete.
En otros casos las dos variables no dependen directamente una de otra, sino que dependen de
ciertos factores que las condicionan. el peso y la estatura de las personas no están relacionadas
directamente, sino a través de factores genéticos y ambientales.
También puede darse el caso de que las dos variables sean una función de la otra pero que
intervengan otras variables diferentes. Por ejemplo existe una relación entre la población de un país y
su producto interior bruto. Pero también interviene el nivel de desarrollo del país en cuestión.
INTERSECCION.EJE(conocido_y;conocido_x)
Calcula el punto en el que una línea cruzará el eje y utilizando los valores X e Y existentes. El punto
de intersección se basa en el mejor ajuste de la línea de regresión trazado con los valores X y los
valores Y. Use esta función para determinar el valor de la variable dependiente cuando la variable
independiente es igual a 0.
PENDIENTE(conocido_y;conocido_x)
Devuelve la pendiente de una línea de regresión lineal creada con los datos de los argumentos
conocido_x y conocido_y. La pendiente es la distancia vertical dividida por la distancia horizontal
entre dos puntos cualquiera de la recta, lo que corresponde a la tasa de cambio a lo largo de la línea
de regresión.Conocido_y es una matriz o rango de observaciones numéricos dependientes.
• Conocido_y son los valores que toma la variable dependiente, representada sobre el eje
de ordenadas.
• Conocido_x son los valores que toma la variable independiente, representada sobre el
eje de abscisas.
• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías,
estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número diferente
de puntos de datos, PENDIENTE devuelve el valor de error #N/A.
CUESTIONES Y EJERCICIOS:
1.01 Calcular el tiempo medio de montaje si los tiempos obtenidos han sido:
3.4, 3.5, 2.7, 3.6, 2.8, 2.9, 3.2, 3.5, 2.6, 2.8 horas. (sol: 3.1 horas)
1.02 En el ejercicio anterior calcular la mediana de los tiempos de montaje. (sol: 3.05 horas)
1.03 El salario medio del encargado y de cinco operarios a sus órdenes es de 175.000 pesetas
mensuales. Si el salario medio de los cinco operarios es de 150.000, cuál será el salario del
encargado. (sol 300.000 pts)
1.04 Lanzar cuatro monedas y anotar el nº de caras que salen. Repetir el experimento 50 veces.
Construir el histograma de frecuencias relativas. Comparar el gráfico obtenido con el de u
compañero.
1.05 Lanzar 2 dados. Registrar el valor obtenido al sumar las puntuaciones de los dos dados. Repetir
el experimento 50 veces y construir el histograma de frecuencias relativas y el de frecuencias
relativas acumuladas en orden creciente.
1.07 En una bolsa colocar 3 bolas blancas, dos rojas y una negra. Sin reposición ir extrayendo bolas
hasta que salga una roja. Anotar cuantas bolas ha sido necesario extraer hasta obtener la primera
bola roja. Volver a colocar las bolas en la bolsa. Repetir el experimento 30 veces. Construir la tabla de
frecuencias absoluta y relativa. Representar el polígono de frecuencias acumuladas en orden
creciente.
1.08 Los salarios, en dólares, de cuatro empleados son : 15.000, 16.000, 16.500, 40.000.
a) Indicar su media aritmética.
b) ¿El promedio calculado es significativo?
1.09 De los 70 empleados de una empresa 50 cobran a 2.500 pts/hora y el resto a 3.250 pts/hora.
cual es el coste medio por hora. (sol: 2714 pts/hora)
1.10 Cuatro grupos de estudiantes de 15, 20, 10 y 18 personas, dieron pesos medios de 75, 68, 72 y
70 Kg respectivamente. Indicar el peso medio de todos los estudiantes. ¿Cuál sería su media
geométrica?
1.11 Los honorarios de cinco profesionales son 3.200, 3.500, 2.750, 3.000 y 5.000pts/hora.
a) Indicar la media y la mediana de dichos honorarios.
b) Indicar el recorrido y la desviación típica.
c) Calcular el recorrido relativo y el coeficiente de variación.
1.13 La población de microorganismos en cultivo creció de 100 a 400 en tres días. ¿Cuál fue el
crecimiento medio diario? (sol: 58%)
1.14 De un trayecto de 80Km se recorren 50Km entre 60 y 70 Km/h, 20Km entre 50 y 60 Km/h, y el
resto entre 40 y 50 Km/h. Indicar el tiempo empleado en recorrer todo el trayecto. ¿El valor sería
exacto?. (sol: 1.36 horas)
1.15 Los honorarios de cinco profesionales son 3.200, 3.500, 2.750, 3.000 y 2.500 pts/hora.
a) Indicar la media y la mediana de dichos honorarios.
b) Indicar el recorrido y la desviación típica.
1.18 El número de respuestas incorrectas en una prueba realizada sobre 15 estudiantes, fueron las
siguientes: 2,1,3,0,1,3,6,0,3,3,5,2,1,4 y 2.Indicar:
a) la media aritmética, la mediana y la moda
b) el recorrido y la desviación típica
c) el coeficiente de variación.
1.19 En la tabla adjunta se muestra la distribución de frecuencias (tabla de contingencia) para una
variable aleatoria bidimensional.
x\y 1 2 3 4
1 5 7 8 10
2 6 8 9 12
3 9 10 12 11
4 10 11 13 15
Determinar:
a) Media, Moda y Mediana de la variable x
b) Media, Moda y Mediana de la variable y
c) Recorrido de x. Recorrido relativo de x.
d) Recorrido relativo de n.
e) Media, Moda y Mediana de x, condicionada a que y = 3
f) Desviación típica de x condicionada a que y = 3
g) Media, Moda y Mediana de x, condicionada a que y = 1
i) Desviación típica de x condicionada a que y = 1
j) Media, Moda y Mediana de y, condicionada a que x = 2
k) Desviación típica de y condicionada a que x = 2