Академический Документы
Профессиональный Документы
Культура Документы
ESTADÍSTICA APLICADA
Página 1 de 40
INDICE
PRESENTACIÓN
UNIDAD: ESTADÍSTICA DESCRIPTIVA
Introducción
Definiciones
Distribuciones de Frecuencias
Variable de tipo discreta
Variable de tipo continua
Manejo de datos en tablas de frecuencia
Frecuencia absoluta
Frecuencia relativa
Frecuencia relativa porcentual
Frecuencia absoluta acumulada
Frecuencia relativa acumulada
Intervalo
Intervalos de clases y límites de clases
Frontera de clases
Amplitud o tamaño de un intervalo de clase
Marca de clase
Representaciones gráficas de la distribución de frecuencias
Histograma
Polígono de frecuencias
Ojiva
Problemas resueltos
Estadísticas o Estadígrafos
Tipos de Estadígrafos
Notación
Medidas de Tendencia Central
Media Aritmética o Promedio
Caso I: Datos no agrupados
Caso II : Datos agrupados
Propiedades de la Media Aritmética
Media Aritmética Ponderada
Media Aritmética Estratificada
Mediana
Moda
Percentiles
Medidas de Dispersión
Rango
Desviación Típica o Standard
Varianza
Coeficiente de Variación
Propiedades de la Varianza
Problemas propuestos
Distribuciones Bidimensionales
Página 2 de 40
Definición de Regresión Lineal Simple
Definición del Coeficiente de Correlación
Propiedades
Problemas Resueltos
Problemas Propuestos
Página 3 de 40
Introducción
Definiciones
A. Estadística
Es un conjunto de conceptos y métodos, empleados para recolectar e interpretar datos referentes a
un área de investigación particular y para extraer conclusiones en situaciones en que la variabilidad
está presente.
C. Población
Población Estadística, es el conjunto completo de posibles mediciones o registros de algún rasgo
cualitativo, corresponde a la colección completa de unidades de las que se harán inferencias. La
Población representa el objetivo de una investigación, y por ende, es el punto desde donde se
recolectan datos para obtener, o extraer, conclusiones referente a ella.
D. Muestra
La Muestra de una población, es el conjunto de mediciones que se obtienen en el curso de la
recolección, por lo tanto corresponde a un subconjunto de la Población.
E. Variable
Es cualquier característica, que diferencia a un miembro de otro, dentro de una misma Población
Estadística. Puede tomar un valor cualquiera, obtenido de un conjunto que constituye el dominio
de la variable. Se representa por x, y, etc.
Tipos de Variables
Existen dos tipos; Variable Continua y Variable Discreta:
Variable Continua
es aquella que puede tomar cualquier valor comprendido entre los valores dados.
Por ejemplo la estatura de una persona.
Variable Discreta
es aquella que puede tomar sólo valores enteros.
Por ejemplo el número de personas que son atendidas en una Isapre en un mes determinado
Página 4 de 40
F. Datos
Conjunto de valores asociados o asignados a una variable.
Por ejemplo:
Población: Trabajadores de una empresa
Muestra: Trabajadores que laboran en la sección de recursos humanos dentro de la empresa
Variable: Ingresos los trabajadores de la sección de recursos humanos
Datos: $350.000; $425.000; $385.200; $421.400 etc.
Distribuciones de Frecuencias
Es usual presentar la ordenación de datos muy numerosos, en forma agrupada y ordenada, en
clases o categorías, determinar el número de individuos que pertenecen a cada clase, se denomina,
Frecuencia de Clase.
Una disposición tabular o Tabla de Datos, junto con las correspondientes frecuencias de clase, se
llama Distribución de Frecuencias, o Tabla de Frecuencias.
Para confeccionar estas Tablas de Frecuencias, debemos considerar las siguientes situaciones:
Si la variable que estamos midiendo, es de tipo Discreto, asumen valores de un conjunto finito,
entonces podemos realizar la distribución en columnas, en las cuales se registran los valores de la
variable y las frecuencias asociadas a ellas.
Si la variable que estamos midiendo, es de tipo Continuo, pueden tomar cualquier intervalo
determinado por los números reales, no tiene sentido tabularla para cada una de las observaciones,
dado que es muy improbable que la variable bajo estudio tome el mismo valor durante el
experimento. Dicho de otro modo, cuando en una distribución de frecuencias haya muchos valores
distintos de la variable, conviene agruparlos en Intervalos o Clases.
Agrupación de Intervalos
Se debe considerar:
• Recorrido o Campo de Variación de la Variable:
Es la diferencia entre el mayor y el menor valor que ella toma. Se designa por R.
• Número de Intervalos:
Debe cumplir con dos condiciones:
a.- Resumir la información.
b.- Conservar el detalle de la muestra.
Página 5 de 40
Tabla se Frecuencias que corresponde es:
Peso N° de personas
36 2
38 2
43 3
45 2
48 4
54 3
60 3
62 2
64 4
70 3
72 5
Página 6 de 40
b) Frecuencia Relativa
Si se denota por a la variable bajo estudio y al número de veces que se repite dicha
variable, la Frecuencia Relativa corresponderá a la expresión:
n
hi = i
n
Intervalos
Para Tablas, en que la variable esté representada por Intervalos, es necesario definir algunos otros
conceptos que nos serán de utilidad más adelante.
b) Fronteras de Clase
Si se dan alturas con precisión de 1 cm., el intervalo de clase 150-154 incluye teóricamente todas
las medidas desde 149,5 a 154,5. Estos números se llaman Fronteras de Clase o Límites Reales de
Clase. En la práctica, las Fronteras de Clase se obtienen promediando el límite superior de una
clase con el inferior de la siguiente.
d) Marca de Clase
Es el punto medio del Intervalo de Clase y se obtiene promediando los límites inferior y superior
de clase.
Página 7 de 40
Ejemplo
La tabla que resume las puntuaciones obtenidas en el examen de selección es:
a) Histograma
Consiste en un conjunto de rectángulos con:
Bases en el eje X horizontal, centros en las marcas de clases y longitudes iguales a los tamaños de
los Intervalos de Clases.
Áreas proporcionales a las Frecuencias de Clases.
Si los Intervalos de Clases, tienen todos la misma amplitud, las alturas de los rectángulos son
proporcionales a las Frecuencias de Clase, y entonces es costumbre tomar las alturas iguales a las
Frecuencias de Clase.
b) Polígono de Frecuencia
Es un gráfico de trozos de la Frecuencia de Clase con relación a la marca de clase. Puede obtenerse
conectando los puntos medios de las partes superiores de los rectángulos del Histograma.
Por ejemplo
Polígono e Histograma de la Tabla de Frecuencias de la altura.
Página 8 de 40
c) Ojiva
Otra representación gráfica de las Tablas de Frecuencias es la Ojiva, la diferencia entre ésta y el
Histograma, o el Polígono de Frecuencias, es que la Ojiva representa la distribución de
frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores respecto de
dicha frontera.
Por ejemplo
Página 9 de 40
PROBLEMAS RESUELTOS
Solución:
Variable continua
Variable continua
Variable discreta
Variable discreta
Variable continua
Variable discreta
Los siguientes datos corresponden al número de empleados que tienen demanda por pensión
alimenticia, en veinte empresas del rubro metalúrgico:
5 0 2 3 1
2 4 3 2 0
3 2 1 2 5
1 3 2 0 4
Solución:
Página 10 de 40
Los datos anteriores corresponden a una variable discreta, ya que no admite valores intermedios.
Los valores de la variable están comprendidos entre 0 y 5, los cuales se ubican en la primera
columna, marca de clase.
La cuarta columna corresponde a la frecuencia relativa ( hi ) ⋅100 , que indica el porcentaje de cada
n
frecuencia absoluta, respecto del total hi = i
n
La quinta columna corresponde a la frecuencia relativa acumulada ( H i ) , el primer valor
acumulado es igual al primer valor de la frecuencia relativa, los siguientes valores , se obtienen a
partir de sumas acumuladas.
0 3 3 15% 15 %
1 3 6 15 % 30 %
2 6 12 30 % 60 %
3 4 16 20% 80 %
4 2 18 10 % 90 %
5 2 20 10 % 100 %
Totales: 20 100%
Número de empresas, que presentan menos de tres trabajadores con demanda alimenticia
¿ Que tanto por ciento de la empresas no presentan empleados con demanda alimenticia?
¿ Que tanto por ciento de las empresa presentan entre dos y tres demandas por pensión
alimenticia?
Número de empresa que presentan a lo menos cuatro trabajadores con problemas judiciales.
Solución :
Doce empresas, presentan menos de tres trabajadores con demanda alimenticia, esto se obtiene,
considerando la suma de ninguno, uno y dos trabajadores que cumplen esta condición.
Página 11 de 40
Quince empresa, no tienen problemas judiciales, esto lo obtenemos directamente a partir de la
tabla.
El cincuenta por ciento de las empresas presentan entre dos y tres demandas judiciales, esto
corresponde a la suma de la frecuencia relativa de dos y tres trabajadores.
Cuatro empresas presentan a lo menos cuatro trabajadores con problemas judiciales, que
corresponde a la suma de las frecuencias absolutas de cuatro y cinco trabajadores.
La siguiente información nos proporciona el número de causas que ingresan en un día determinado
a la corte de apelaciones , presentadas por 50 abogados de diferentes empresas:
5 12 8 25 4 10 15 23 2 0
8 3 15 18 14 9 6 7 6 21
4 11 7 9 12 14 10 11 14 4
10 15 4 8 5 12 11 14 8 9
20 17 14 11 3 4 1 18 12 10
Solución :
Página 12 de 40
Totales: 50 100%
Solución:
Observando los valores de la tabla de distribución, podemos responder las interrogantes anteriores,
en forma similar al problema anterior
30 abogados ingresan entre 5 y 15 menos de 15 causas.
92% de los abogados ingresan menos de 20 causas.
23 abogados ingresan menos de 10 causas
Diecisiete abogados presentan entre 10 y menos de 15 causas
HISTOGRAMA
sueldos de un procurador de núm eros
30%
28%
26%
24%
22%
% de procurador
20%
18%
16%
14%
12%
10%
8%
6%
4%
2%
0%
620 - 665 665 - 710 710 - 755 755 - 800 800 - 845 845 - 890
Ingresos
Solución:
Página 13 de 40
Observando el histograma, obtenemos los intervalos y la frecuencia relativa asociada. Como el
n
número de procuradores es 40, entonces como hi = i , ni = hi ⋅ n , reemplazando cada valor de
n
hi obtenemos, la frecuencia absoluta correspondiente. Las restantes columnas, se obtienen de la
misma manera, definidas anteriormente.
[x '
i−1 x'i ] xi ni Ni hi Hi
[620 −665 [ 6 6 6 1 1
4 5 5
2 % %
,
5
[665 −710 [ 6 3 9 7 2
8 , 2
7 5 ,
, % 5
5 %
[710 −755 [ 7 1 2 2 5
3 1 0 7 0
2 , %
, 5
5 %
[755 −800 [ 7 6 2 1 6
7 6 5 5
7 % %
,
5
[800 −845 [ 8 8 3 2 8
2 4 0 5
2 % %
,
Página 14 de 40
5
[845 −890 [ 8 6 4 1 1
6 0 5 0
7 % 0
, %
5
∑ n = 40 100%
Estadísticos o Estadígrafos
Los Estadígrafos se definen como una regla para calcular alguna medida a partir de un grupo de
observaciones, éste corresponde a un número real fijo.
a) Tipos de Estadígrafos
Fractiles:
Cuartiles, Deciles, Percentiles.
Estadígrafos de Dispersión:
Desviación Estándar, Varianza, Coeficiente de Variación.
b) Notación
Notación de Índices:
Denotemos por cualesquiera de los N valores
que toma una variable x. La letra i en , puede valer 1,2,3,...n. Se llama subíndice.
Notación de Suma:
denotará
la suma
El de todos
símbolo
los
desde
i =1, a i = n por definición
Página 15 de 40
n
∑x
i =1
i = x1 + x2 + x3 +......... + xn
: variable de estudio
x1 + x2 + .......... .. + xn ∑
xi
x= = i =1
n n
Ejemplo
1) La Media Aritmética de los números 8, 3, 5, 12 y 10 es:
8 + 3 + 5 +12 +10
x = = 7, 6
5
∑x ⋅n i i
x= i =1
Ejemplo: Monto de dinero cancelado por un grupo de empresarios, por evasión de impuestos( en
miles de pesos)
Página 16 de 40
Intervalo
100-150 125 8 1.000
150-200 175 6 1.050
200-250 225 5 1.125
250-300 275 3 825
300-350 325 2 650
350-400 375 1 375
∑x ⋅n i i
5.025 El impuesto promedio pagado es de $201.000
x= i =1
= = 201
n 25
Una desventaja de la Media, es que es altamente influenciable por valores extremos, por lo que la
Media es recomendable cuando la variable tiene una distribución simétrica.
La media, de una variable más o menos una constante es igual a la media de la Variable, mas o
menos la constante de otro M [ x ±k ] = M [ x ] ±k
La media de una constante que multiplica o divide a una variable es igual a la constante que
multiplica y / o divide a la media de la variable. En otra forma:
x M [ x]
M [ ax ] = a ⋅ M [ x ] ó M =
a a
Ejemplo
Página 17 de 40
Las puntuaciones de un profesional en las pruebas de admisión para un post grado son
respectivamente 82, 86, 90 y 70. Si se ponderan estos puntajes en un 25%, 40%, 15% y 20%
respectivamente. Determina el promedio de puntuación logrado.
Solución :
∑w ⋅ x
i =1
i i
82 ⋅ 25 + 86 ⋅ 40 + 90 ⋅15 + 70 ⋅ 20 8.240
x= = = = 82 .4
4
25 + 40 + 15 + 20 100
∑w i =1
i
∑x ⋅n i i
x= i =1
Ejemplo:
Se sabe que en un grupo de 20 trabajadores, 8 pertenecen a la sección A, percibiendo un sueldo
promedio de $654.000, 6 pertenecen a la sección B recibiendo un ingreso promedio de $700.000 y
el grupo restante, labora en la sección C y su ingreso promedio corresponde a $565.000. Determine
el ingreso promedio para el total de trabajadores de la empresa.
Solución :
3
∑x
i =1
i ⋅ ni
654 .000 ⋅ 8 + 700 .000 ⋅ 6 + 565 .000 ⋅ 6 12 .822 .000
x= = = = 641 .100
n 20 20
Mediana
Mediana de un conjunto de números ordenados en magnitud es aquel valor que supera al 50% de
las observaciones y es superado a lo menos por el 50% restante.
Página 18 de 40
a) El conjunto de números 3,4,4,5,6,8,8,8, y 10 tiene Mediana 6
b) El conjunto de números 5,5,7,9,11,12,15 y 18 tiene Mediana
donde:
Frontera inferior de la Clase de la Mediana
Ejemplo: Monto de dinero cancelado por un grupo de empresarios, por evasión de impuestos( en
miles de pesos)
Intervalo Ni
100-150 125 8 8
150-200 175 6 14
200-250 225 5 19
250-300 275 3 22
300-350 325 2 24
350-400 375 1 25
Solución:
25
Condición: M í n iNmi 〉 o = 1 ,25 luego el valor mínimo que cumple esta condición es 14, por lo
2
tanto, la mediana se encuentra en el segundo intervalo.
50 (12 ,5 − 8)
Me =150 + = 187 ,5
6
La mediana es $187.500, lo cual indica que, el 50% de los empresarios evade a lo más $187.500 en
impuesto y el 50% restante evade a lo menos $187.
Moda
Página 19 de 40
La Moda de un conjunto de datos, es el valor de la variable que mas se repite o cuya frecuencia es
máxima. La Moda puede no existir, incluso no ser única en caso de existir.
En el caso de datos agrupados donde se haya construido una curva de frecuencias para ajustar los
datos, la Moda será el valor (o valores) de X correspondiente al máximo (o máximos) de la curva.
ni +1
La Moda puede determinarse partir de la siguiente expresión: Mo = L1 + C
n +n donde:
i +1 i −1
Solución:
6
Mo = 100 + 50 = 150
6 +0
La moda es de $150.000, esto significa que la mayor parte de los empresarios pagan un monto
de $150.000 , por evasión de impuestos.
. Percentiles ( Pp)
Dividen la muestra en 100 partes iguales, cada una de ellas representa el 1% de los datos.
Pp: Valor del percentil con p = 1,2,.................99
Por ejemplo, percentil 70, significa que este valor supera a lo más al 70% de las observaciones y es
superado a lo menos por el 30% restante
Página 20 de 40
p ⋅n
C( − N i −1 )
100 p ⋅n
Pp = L1 + consideran do mínimo Ni 〉 N i −1
ni 100
Ejemplo: Monto de dinero cancelado por un grupo de empresarios, por evasión de impuestos( en
miles de pesos)
Intervalo Ni
100-150 125 8 8
150-200 175 6 14
200-250 225 5 19
250-300 275 3 22
300-350 325 2 24
350-400 375 1 25
Determine el percentil 75
Solución;
7 5⋅ 2 5
C o n s idd ome rí an ni Nmi 〉 o = 1 ,87 5 luego el valor mínimo que cumple esta condición es
100
19, por lo tanto, el percentil 75 se encuentra en el tercer intervalo
El percentil 75 es $247.500, lo cual significa que el 75% de los empresarios deben cancelar a lo
más $247.500 por evasión de impuestos y el 25% restante debe cancelar a lo menos un monto de
$247.500 por el mismo concepto.
Medidas de Dispersión
La dispersión se relaciona con la mayor o menor concentración de datos en torno a un valor
central, generalmente el Promedio o la Media. Existen varias Medidas de Dispersión.
A. Rango
El Rango de un conjunto de números es la diferencia entre el mayor y el menor de ellos.
R =x max . − xmin .
Página 21 de 40
k
∑( x
i =1
i − x) 2
S=
n
∑( x
i =1
i − x ) 2 ⋅ ni
S=
n
Ejemplo: Monto de dinero cancelado por un grupo de empresarios, por evasión de impuestos (en
miles de pesos)
Intervalo ni ( x i − x )
2
Solución:
130 .600
S= = 72 ,277
25
La desviación estándar es de $72.277 esto significa que la mayoría o gran parte de los empresarios
debe pagar por evasión de impuesto un monto comprendido entre $128.723 (201.000 – 72.277) y
$273.277 (201 .000+72.277).
D. Varianza
La Varianza de un conjunto de datos se define como el cuadrado de la desviación estándar.
V ( x) = S 2
Ejemplo:
Página 22 de 40
V ( x ) =72 ,277 2
= 5.224 .
La varianza es 5.224 (en miles de oesos2), este valor indica la variabilidad promedio pagada por
evasión de impuestos.
E. Coeficiente de Variación
El Coeficiente de Variación sirve para comparar la dispersión de los datos respecto al promedio
entre grupos de distintas medidas, es adimensional y se define como:
Ejemplo:
Considerando la desviación típica anterior $72.277 y la media aritmética $201.000, el coeficiente
de variación queda definido del siguiente modo:
72 .277
CV = ⋅100 = 35 ,95 %
201 .000
El coeficiente de variación es 35,95%, esto indica que existe una dispersión de un 35,95% con
respecto a la media aritmética
Propiedades de la Varianza
Sean a, b, k, constantes x e y variables, entonces:
La varianza de una variable más o menos una constante, es igual a la Varianza de la variable. O
V [ x ±k ] =V [ x ]
La varianza de una constante que multiplica o divide a una variable, es igual a la constante al
cuadrado multiplicando o dividendo a la varianza de la variable.
x V ( x)
En otra forma V [ x ] = k V [ x ] V = 2
2
ó
k k
PROBLEMAS PROPUESTOS
¿En qué porcentaje varia el número de causas que se presentan en la corte en un día determinado
respecto de la media aritmética?
Solución:
El número de causas promedio está determinado por la siguiente expresión:
x=
∑x i
=
530
=10 ,6
ni 50
n
C( − N i −1 )
2 n
Me = L1 + consideran do mínimo Ni 〉
ni 2
50
Considerando mínimo Ni 〉 = 2 5 Luego, la mediana se encuentra en el tercer intervalo
2
Me =10 +5
( 25 −23 ) =10 ,58
17
ni +1
Mo = L1 + C n +n La moda se ubica en el tercer intervalo, pues la frecuencia es
i +1 i −1
máxima ( 17)
6
Mo = 10 + 5 = 11,57
6 +13
El número mas frecuente de causas, que se presentan en un día son aproximadamente 12.
Se pide, calcular el coeficiente de variación, por lo tanto, es necesario, calcular la desviación típica
y considerar la media aritmética, calculada anteriormente.
Página 24 de 40
k
∑( x
i =1
i − x ) 2 ⋅ ni
S=
n
1.694 ,5
S = = 5,82
50
Por lo tanto:
S 5,82
CV ( x ) = ⋅100 = ⋅100 = 54 ,9 %
x 10 ,6
Solución :
Calculamos el percentil 15
p ⋅n
C( − N i −1 )
100 p ⋅n
Pp = L1 + consideran do mínimo Ni 〉
ni 100
1 5⋅ 1 0 0
mínimo Ni 〉 =15 El percentil 15 pertenece al primer intervalo
100
15 −0
P15 = 0 +10 =10 ,5 El 15% cancela impuestos inferiores a $10.500
30
Página 25 de 40
b. Calculamos el percentil 80
8 0⋅ 1 0 0
m í n i Nmi 〉 o = 8 0
100
El percentil 80 pertenece al cuarto intervalo
80 −70
P80 = 30 +10 = 37 ,692
13
3. Los sueldos promedios mensuales en tres secciones A, B y C de una empresa son $350.000;
$285.500 y $320.000 respectivamente, El número de trabajadores en cada sección son : 10, 8, 5
respectivamente.
Calcule el sueldo promedio mensual para los trabajadores de las tres secciones.
Si la empresa decide otorgar un aumento del 20% para los trabajadores de la sección A; 15% para
los trabajadores de la sección B y un 12% para los trabajadores de la sección C. Calcule el nuevo
sueldo promedio por sección y para el total de trabajadores de las tres secciones.
Solución:
El sueldo promedio mensual para los trabajadores de las tres secciones es de $321.043
El nuevo sueldo promedio para los trabajadores de cada una de las secciones:
El nuevo sueldo promedio para el total de trabajadores de las tres secciones es de $374.222
4. Un postulante a un cargo judicial, debe rendir una prueba de conocimientos relevantes, cuya
ponderación es de un 50%, un test psicológico cuya ponderación es de un 20% y una entrevista
Página 26 de 40
personal que equivale al 30%. Las puntuaciones obtenidas en cada una de estas instancias son 80,
65 y 90 puntos respectivamente.
¿ Qué puntaje ponderado obtiene para optar a dicho cargo?
Solución:
80 ⋅ 50 + 65 ⋅ 20 + 90 ⋅ 30
x= = 80
50 + 20 + 30
5. Se tiene la información respecto de sueldos promedios y desviación típica, de dos oficinas del
poder judicial.
Sala de partes: sueldo promedio $250.000 con una desviación típica de $10.000
Sala de Plenarios: sueldo promedio $720.000 con una desviación típica de $25.000
Solución:
Como nos preguntan por la dispersión relativa debemos calcular el coeficiente de variación en
relación a los ingresos para ambas oficinas.
Sala de partes
x = 250 .000 S x =10 .000 . Luego el coeficiente de variación queda definido
Sx 10.000
CV ( x ) = ⋅100 = ⋅100 = 4%
x 250.000
Sala de Plenarios
x = 720 .000 S x = 25 .000 . Luego el coeficiente de variación queda definido
Sx 25 .000
CV ( x ) = ⋅100 = ⋅100 = 3.47 %%
x 720 .000
Podemos concluir que existe una mayor dispersión relativa de los ingresos para el grupo humano
que trabaja en la sala de partes.
En términos de la conveniencia sindical. ¿ Cual de las alternativas propuestas será aceptada por los
trabajadores, si lo que desea es disminuir las diferencias entre los ingresos?
Solución :
Para cada uno de los casos anteriores, calcularemos, el coeficiente de variación, aplicando
previamente las propiedades de la media aritmética y de la varianza.
Sean :
xi cada uno de los ingresos originales
a. yi =1,16 xi
M [ y ] =1,16 ⋅M [ x ]
M [ y ] =1,16 ⋅198 .000 = 229 .680
V [ y ] = 1,16 2 ⋅V [ x ]
V [ y ] =1,16 2 ⋅32 .000 2
S ( y) 37 .120
CV ( y ) = ⋅100 = ⋅100 = 16 ,16 %
M ( y) 229 .680
M [ y ] = M [ x ] +36 .000
M [ y ] =198 .000 +36 .000 = 234 .000
V [ y ] = ⋅V [ x ]
V [ y ] = ⋅32 .000 2
V [ y ] =1.024 .000 .000
S [Y ] = 1.024 .000 .000 = 32 .000
S ( y) 32 .000
CV ( y ) = ⋅100 = ⋅100 = 13 ,68 %
M ( y) 234 .000
M [ y ] =1,09 ⋅M [ x ] + 25 .000
M [ y ] =1,09 ⋅198 .000 + 25 .000 = 240 .820
Página 28 de 40
V [ y ] = 1,09 2
⋅V [ x ]
V [ y ] =1,09 2
⋅32 .000 2
=1.216 .614 .400
V [ y ] =1.216 .614 .400
S [Y ] = 1.216 .614 .400 = 34 .880
S ( y) 34 .880
CV ( x ) = = ⋅100 =14 ,48 %
M ( y) 240 .820
Los trabajadores deberían aceptar la alternativa b. Si lo que se desea es disminuir las diferencias
entre los ingresos, ya que se existe un menor porcentaje de dispersión con respecto a la media
aritmética
Distribuciones Bidimensionales
Definición de Covarianza: Mide el grado de asociación entre dos variables. Se define como:
Cov ( x, y ) = x ⋅ y −x ⋅ y
Si Cov ( x, y ) > 0 existe una relación directa entre las var iables
Si Cov ( x, y ) < 0 existe una relación inversa entre las var iables
Si Cov ( x, y ) ≈ 0 no existe relación entre las var iables
Ejemplo:
x Y xy
1 200 200
2 400 800
3 600 1.800
4 800 3.200
5 1.000 5.000
Total: 15 3.00 11.000
0
Solución:
La covarianza es 400, esto indica que la relación entre las variables es directa, es decir a mayor
años de servicio, mayor ingreso.
Página 29 de 40
Definición de Regresión Lineal Simple
Si la Regresión de y en x es una Función Lineal, Y = a + bx, a, b constantes. Se llama Regresión
Lineal Simple de y en x.
El valor a se llama ordenada en el origen. La pendiente de la recta se mide por b.
Para determinar las constantes a y b de la recta L, se resuelven las Ecuaciones Normales para la
recta de Mínimos Cuadrados:
∑ y = a ⋅ n + b∑ x
∑ x y = a ∑ x + b∑ x 2
Análogamente, en este caso rectilíneo, se tendrá X = a’ + b’y, a’, b’ . Se llama Regresión Lineal
Simple de x en y
∑ x = a ′ ⋅ n + b′ ∑ y
∑ x y = a ′ ∑ y + b′ ∑ y 2
Ejemplo:
X Y xy x2 y2
1 200 200 1 40.000
2 400 800 4 160.000
3 600 1.800 9 360.000
4 800 3.200 16 640.000
5 1.000 5.000 25 1.000.000
Página 30 de 40
Total: 15 3.000 11.000 55 2.200.000
Solución:
3 0 0 =0 5a + 1 5b
1 1.0 0 0= 1 5a + 5 5b
a =0 y b = 200
y = 0 + 200 x
15 = 5a ′
+ 3.000 b′
11 .000 = 3.000 a ′ +2.200 .000 b′
a′ = 0 y b′ = 0,005
x = 0 + 0,005 y
( −1 ≤ r ≤1)
Página 31 de 40
Propiedades
a) Si existe una relación lineal exacta entre ambas variables y todos los puntos están en la línea
Y = a + bx, el Coeficiente de Correlación es igual a 1 (si b >0) o –1 (si b <0), decimos que la
Correlación Lineal Perfecta, es de un 100%.
Ejemplo:
X: Años de Servicio de un grupo de trabajadores
Y: Ingresos mensuales ( miles de pesos)
X Y (x i −x )
2
(y i −y ) 2
1 200 4 160.000
2 400 1 40.000
3 600 0 0
4 800 1 40.000
5 1.000 4 160.000
Total: 15 3.000 10 400.000
Página 32 de 40
Determine el coeficiente de correlación
Solución:
Para realizar este calculo debemos tener en consideración los siguientes valores:
1.- Covarianza
Cov ( x, y ) = 400
10
Sx = =1,4142
5
400 .000
Sy = = 282 ,843
5
Cov ( x, y )
Reemplazando estos valores en la fórmula: r = S ⋅ S tenemos:
x y
400
r= =1,0000
(1,4142 ) ⋅ (282 ,843 )
El coeficiente de correlación es 1,0000, esto significa que existe una Correlación Lineal Perfecta y
directamente proporcional entre las variables.
PROBLEMAS RESUELTOS
x 2 3 5 7
y 6,5 7 8,5 9,2
z 35 52 28 32,5
Página 33 de 40
Para cada par de variables calculamos la media aritmética y las medias aritméticas conjuntas, para
determinar la covarianza, que permite dar respuesta a la interrogante.
x y z x⋅ y x⋅ z y⋅z
2 6,5 35 13 70 227,5
3 7 52 21 156 364
5 8,5 28 42,5 140 238
7 9,2 32,5 64,4 227,5 299
Total : 17 31,2 147,5 140,9 593,5 1.128,5
cov ( x, y ) = x ⋅ y − x ⋅ y
140 ,9 17 31,2
cov ( x, y ) = − ⋅ = 2,075
4 4 4
cov ( x, z ) = x ⋅ z − x ⋅ z
593 ,5 17 147 ,5
cov ( x, z ) = − ⋅ = −8,34375
4 4 4
cov ( y, z ) = y ⋅ z − y ⋅ z
1128 ,5 31,2 147 ,5
cov ( y, z ) = − ⋅ = −5,5
4 4 4
Por tanto podemos concluir que existe mayor grado de asociación estadística entre el número de
trabajadores de la corte y el impuesto pagado por cada uno de ellos, pues la covarianza es mayor.
La siguiente información guarda relación con el número de causa que ingresan mensualmente en
un tribunal de Santiago ( x ) y el número de causas resueltas en el mismo período ( y ) , desde
Marzo a Diciembre del año 2003
Mes Marzo Abril Mayo Junio Julio Agosto Sept. Oct. Nov. Dic.
x 240 270 320 310 380 470 490 510 580 620
y 63 62 59 52 48 50 49 50 52 51
x y x2 x⋅y y2
240 63 57.600 15.120 3.969
270 62 72.900 16.740 3.844
320 59 102.400 18.880 3.481
310 52 96.100 16.120 2.704
380 48 144.400 18.240 2.304
470 50 220.900 23.500 2.500
490 49 240.100 24.010 2.401
510 50 260.100 25.500 2.500
Página 34 de 40
580 52 336.400 30.160 2.704
620 51 384.400 31.620 2.601
Total : 6.190 536 1.915.300 219.890 29.008
∑ y = a ⋅ n + b∑ x
∑ x y = a ∑ x + b∑ x 2
536 = 1 0a + 4 1 9 b0
2 1 9.8 9 0 = 4.1 9 0a + 1.9 1 5.3 0 0b
a =65 ,916 b = −0,029
∑ x = a ′ ⋅ n + b′ ∑ y
∑ x y = a ′ ∑ y + b′ ∑ y 2
Página 35 de 40
3. Estime el número de causas, que serán resueltas, en el mes de Marzo del 2004, si en este mes
ingresan a la corte, 620 de estos documentos.
Solución:
4. Estime el número de causas que ingresarían en septiembre del 2004 si serán resueltas 40 causas
en este periodo.
Solución:
Solución:
Página 36 de 40
PROBLEMAS PROPUESTOS
1 Las utilidades de 1.160 Pymes durante un año se encuentran representadas en la siguiente tabla
de frecuencias (en dólares):
[x /
i −1 − x/i [ xi ni
Determine:
El porcentaje de las Pymes que tienen utilidades sobre la media.
Sobre que utilidades queda el 45% de las utilidades más altas
La utilidad más frecuente
Respuestas: a. 50%; b.260.967,74 dólares; c. 233.695,65
5. Para ser aceptada en un cargo administrativo en un juzgado de policía local, debe alcanzar un
puntaje ponderado superior a 86 puntos. Si en la prueba de conocimientos relevantes obtiene
80 puntos y en la entrevista personal alcanza 100 puntos, que se ponderan en un 70% y 30%
respectivamente. ¿ Podrá esta dama ser aceptada en dicho cargo?
Respuesta: No será aceptada en el cargo
6. El ingreso promedio mensual de 100 trabajadores chilenos, es de $136.400 con una desviación
típica de $12.043. El ingreso promedio mensual de 100 trabajadores norteamericanos es de
750 dólares con una desviación típica de 75 dólares .Determine en cual de los dos países,
existe una mayor variabilidad .relativa. Justifique su respuesta.
Respuesta: El segundo grupo presenta variabilidad relativa
C 98 93 115 102 82 103 101 100 96 105 104 101 102 105 90 105
¿En cuál empresa decide quedarse?. Justifica tú decisión y respalda con las medidas adecuadas?
Respuesta: El trabajador decide quedarse en la empresa A.
Comente con su profesor la respuesta dada.
Para los cinco primeros estudiantes. Determina el coeficiente de correlación rectilínea y determina
el nivel de dependencia estadística entre ambas variables
¿Qué calificación puede asignarse al estudiante F para el segundo examen, en base a la recta de
regresión antes mencionada?.
Respuestas: a. r = 0,948683 ; b. y =32 ,5 +0,75 x ; c. Calificación estimada 55 puntos
11. En un servicio de atención de salud mental que presta servicio a un juzgado de menores, se
desea lograr un mayor número de atenciones especializadas, para tal efecto se estudio la
relación: Número de pacientes solicitando atención ( x ) ; Números de miembros del grupo
familiar de los consultantes ( y ) . Se tomó una muestra de 15 días, se consideró los valores
promedio para este estudio, la información se ordenó en la tabla siguiente:
Días 1 2 3 4 5 6 7 8 9 1 1 12 13 14 15
0 1
Promedio 2 3 2 2 1 2 2 3 2 2 3 21 18 25 29
x 3 2 8 3 4 5 3 0 6 8 0
Promedio 3 4 6 8 6 5 3 8 5 4 9 6 5 4 3
Página 39 de 40
y
Página 40 de 40