Вы находитесь на странице: 1из 40

I.

ESTIMACIÓN DE INTERVALOS DE CONFIANZA

a. PARA LA MEDIA POBLACIONAL


Supongamos que la estatura de los niños de 2 años está distribuida normalmente con
una media de 90 cm y una desviación estándar de 36 cm. ¿Cuál sería la distribución
muestral de la media para una muestra de tamaño 9? Recordemos que la media de
una distribución muestral de medias es igual a μ :

Y el error estandar es:

Para nuestro ejemplo, la distribución muestral de la media tendría una media de 90


y una desviación estándar de 36/3 = 12. Recordemos que la desviación estánda r de
una distribución muestral es igual al error estándar.
La siguiente figura muestra esta distribución en donde el área sombreada representa
el 95% del total, encontrándose entre los valores de 66.48 y 113.52. Estos límites
fueron calculados añadiendo y restando 1.96 desviaciones estándar del valor de la
media de 90, lo que equivale al 95% del área bajo una curva normal estándar, es
decir:

Lo que nos muestra la figura es que 95% de las medias se encontrarían a no más de
23.52 de la media de 90 (o sea a 1.96 desviaciones estándar). Ahora si consideramos
la probabilidad de que la media de una muestra aleatoria se encuentre a cierta
distancia de la media de la población, entonces podemos decir que como 95% de la
distribución está a 23.5 de 90, la probabilidad de que la media de cualquier muestra
esté a 23.52 de 90 es de 0.95.
Lo anterior significa que si calculamos repetidamente la media de una muestra, y
consideramos un intervalo que vaya de - 23.52 a + 23.52, este intervalo contendrá a
la media de la población 95% de las veces. En general, podemos calcular el intervalo
de confianza con la siguiente fórmula:
Donde z es el valor de la curva estándar normal para la confianza que se requiere.
En el caso de 95% de confianza:

De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor
de σ se deben conocer. Z se puede obtener de la tabla de la distribución normal a
partir del nivel de confianza establecido. Como en muchas ocasiones se desconoce
σ en esos casos lo correcto es utilizar otra distribución para muestras (la llamada “t”
de student que veremos en la siguiente sesión) si la población de donde provienen
los datos es normal. En este caso se puede utilizar una estimación puntual de la
desviación estándar de la población por medio de la desviación estándar de la
muestra, es decir (σ ~ s).

EJEMPLOS:
1. Se encuentra que la concentración promedio de zinc de una muestra de 36 cereales
es de 2.6 gramos por miligramo. Encuentre los intervalos de confianza de 95% y
99% para la concentración media de zinc en el cereal. Suponga que la desviación
estándar de la población es 0.3. Solución: La estimación puntual de μ es x = 2.6 (el
valor de la media de la muestra). El valor de z para un nivel de confianza del 95% es
1.96, por lo tanto:

Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo


será más amplio:
2. Los vuelos de una empresa de aviación tienen una duración bimestral
aproximadamente distribuida de forma normal con una desviación estándar de 40
horas. Si una muestra de 30 vuelos tiene una duración promedio de 780 horas,
encuentre los intervalos de confianza de 96% para la media de la población de
todos los vuelos de esta empresa.

Con un nivel de confianza del 96% se sabe que la duración media de los vuelos está
entre 765 y 795 horas.

b. PARA PROPORCIÓN POBLACIONAL


Un estimador puntual de la proporción P en un experimento binomial está dado por
la estadística P=X/N, donde X representa el número de éxitos en N pruebas. Por
tanto, la proporción de la muestra p=x/n se utilizará como estimador puntual del
parámetro P. Si no se espera que la proporción P desconocida esté demasiado cerca
de 0 o de 1, se puede establecer un intervalo de confianza para P al considerar la
distribución muestral de proporciones.
Considerando el valor z para la distribución de proporciones

Si intentamos despejar el valor de P nos encontramos con que:

Pero ¿cómo podemos encontrar P si también está del lado derecho de la ecuación?
Lo que haremos es aproximar la proporción de la población por la de la muestra, es
decir sustituir P por la proporción de la muestra p siempre y cuando el tamaño de
muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1,


el procedimiento del intervalo de confianza que se establece aquí no es confiable ya
que realmente se debería emplear la distribución binomial, por tanto, no se debe
utilizar. Para estar seguros, se debe requerir que np y n(1-p) sea mayor o igual a 5.
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el
nivel de confianza de que esta diferencia no excederá el valor de:
EJEMPLOS:
1. Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la función eléctrica de su producto. Todos los
reproductores de discos compactos deben pasar todas las pruebas antes de venderse.
Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en
una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción
de los reproductores de discos compactos de la población que no pasarían todas las
pruebas.

2. En un estudio de 300 accidentes de automóvil en una ciudad específica, 60


tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del
95% de confianza para aproximar la proporción de todos los accidentes
automovilísticos que en esa ciudad tienen consecuencias fatales.

c. PARA VARIANZA POBLACIONAL

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la

siguiente propiedad de la distribución :


Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad (1-
infinito) en la ``zona central'' de la distribución:

Figura 1: Cuantiles de la distribución .

Entonces un intervalo de confianza al nivel para la varianza de una


distribución gaussiana (cuyos parámetros desconocemos) lo obtenemos teniendo en

cuenta que existe una probabilidad de que:

Por tanto el intervalo que buscamos es

EJEMPLO

La altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño


25 los siguientes valores
Calcular un intervalo de confianza con para la varianza de la altura
de los individuos de la ciudad.

Solución:

Para estimar un intervalo de confianza para (varianza poblacional) el estadístico


que nos resulta útil es:

Entonces el intervalo de confianza que buscamos lo obtenemos mediante

Figura 2 : Percentiles del 2,5% y del 97,5% para la

distribución .

Por tanto, para el valor poblacional de la desviación típica tenemos que

Con una confianza del 95%, que por supuesto contiene a las estimaciones
puntuales y calculado sobre la muestra.
d. PARA DIFERENCIA DE PROPORCIONES POBLACIONALES
Se muestrean dos poblaciones independientes para estimar la diferencia de
proporciones
p1 − p2 : diferencia de proporciones de éxitos en la población
X : “número de éxitos en n realizaciones independientes”
Y : “número de éxitos en m realizaciones independientes”
e. PARA RAZÓN DE VARIANZA
La necesidad de disponer de métodos estadísti cos para comparar las varianzas de
dos poblaciones es evidente a partir del análisis de una sola población.
Frecuentemente se desea comparar la precisión de un instrumento de medición con
la de otro, la estabilidad de un proceso de manufactura con la de otro o hasta la forma
en que varía el procedimiento para calificar de un profesor universitario con la de
otro.
Intuitivamente, podríamos comparar las varianzas de dos poblaciones, σ 2 1 y σ 2 2,
utilizando la razón de las varianzas muestrales y si es casi igual a 1, se tendrá poca
evidencia paraindicar que σ 2 1 y σ 2 2 no son i guales. Por otra parte, un valor muy
grande o muy pequeño para, proporcionará evidencia de una diferencia en las
varianzas de las poblaciones.
Para encontrar un intervalo de confianza para el cociente de do s varianzas,
empleamos la distribución F que es similar a como hicimos en el caso de una sola
varianza empleando la distribución chicuadrada, sólo que ahora usamos el
estadístico definido por:

Supóngase que se tienen dos poblaciones normales e independientes con varianzas


desconocidas σ 2 1 y σ 2 2, respectivamente. De este par de poblaciones, se tienen
disponibles dos muestras aleatorias de tamaños n 1 y n 2, respectivamente, sean s 2
1 y s 2 2 las dos varianzas muestrales. Si se desea, por ejemplo, conocer un intervalo
de confianza del 95% por ciento para el cociente de las dos varianzas:

El caso de la distribución la F, para un nivel de confianza (por ejemplo de


95%) requiere calcular los grados de libertad del numerador y del denominador,
este ejemplo son 30 y 24 respectivamente:
Para construir el intervalo de confianza para el cociente de dos varianzas
poblacionales, se coloca la varianza muestral mayor en el numerador del estadístico
F.

Esto nos da permite calcular la probabilidad de que el cociente se encuentre entre


dos valores de F.
Para construir el intervalo de confianza empleamos entonces

En este caso se requiere calcular los grados de libertad del numerador que son n1-1
(recordando que se toma a n1 como el tamaño de la muestra de la varianza más
grande) y los del denominador que son n2 -1.
EJEMPLO.
1. Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de
motores respecto al tiempo en minutos. Los resultados se muestran en la tabla
siguiente:

Tomamos a s21 como numerador porque es el valor más grande. Los valores de F
requieren los grados de libertad del numerador (n1 -1 = 30) y del denominador (n2
-1 = 24).
f. PARA DIFERENCIA DE DOS MEDIAS POBLACIONALES
Sean 11 x , 12 x , ... 1 n 1 x , una muestra aleatoria de n 1 observaciones tomadas de
una primera población con valor esperado μ1 , y varianza 2 σ 1 ; y 21 x , 22 x , ... 2
n 2 x , una muestra aleatoria de n 2 observaciones tomada de la segunda población
con valor esperado μ 2 y varianza 2 σ 2 . Si x 1 y x 2 son las medias muestrales, la
estadística x 1 − x 2 es un estimador puntual de μ1 − μ 2, y tiene una distribución
normal si las dos poblaciones son normales, o aproximadamente normal si cumple
con las condici ones del teorema del límite central (tamaños de muest ras
relativamente grandes). Por lo tanto:

Para calcular el intervalo de confianza para la diferencia de dos medias se debe saber
si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean
desconocidas, se debe probar si son igual es o diferentes. Cada uno de estos tres
casos se analizará por separado.
VARIANZAS CONOCIDAS PERO DIFERENTES, Σ 1 2 ≠ Σ
Si las varianzas poblacionales son conocidas y diferentes, los pasos a seguir para
encontrar el intervalo de confianza son los siguientes:
a) El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ 2
, será T = x 1 − x 2 , que es un estimador suficiente
b) La variable aleatoria asociada con el estimador será la variable normal estándar
dada por:

c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de confianza


que se quiere considerar.
Teorema. Si x1 − x2 son las medias de dos muestras aleatorias independientes de
tamaño n1 y n2 tomadas de poblaciones que tienen varianzas conocidas 2 σ 1 y 2 σ
2 , respectivamente, entonces el intervalo de confianza para μ1 − μ 2 es:

EJEMPLO.
Construya un intervalo de confianza del 94% para la diferencia real entre las
duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de la
primera marca dio una duración media de 418 horas, y una muestra de 50 focos de
otra marca dieron una duración media de 402 horas. Las desviaciones estándares de
las dos poblaciones son 26 horas y 22 horas, respectivamente.

VARIANZAS DESCONOCIDAS E IGUALES


Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferente s. Para hacerlo debemos
hacer uso de la distribución F, bien sea mediante el cálculo de la probabilidad de que
la muestra tomada provenga de dos poblaciones con varianzas iguales, o mediante
el uso de un intervalo de confianza para la relación de dos varianzas, según se
estudiará más adelante. Como se desconocen las varianzas de la población, se usa n
las varianzas de las muestras como estimadores. El procedimiento a seguir para el
cálculo del intervalo de confianza para la diferencia de dos medias será el siguiente:
a) El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ 2 será
x 1 − x 2, que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador será la variable definida como (se
usa t en caso de muestras pequeñas):

c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de confianza


que se quiere considerar y los grados de libertad que se calculan

De nuevo, manipulando la expresión anterior en forma similar al caso previo se llega


al siguiente teorema que nos define el intervalo de confianza para la diferencia entre
dos medias μ1 − μ 2 con varianzas desconocidas pero iguales:
Teorema: son las medias y las varianzas de dos muestras aleatorias de t amaños n1,
n2, respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas pero i guales, entonces un intervalo de confianza para la
diferencia entre medias μ1 − μ 2 es:
II. PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS
a. LA PRUEBA DE JI-CUADRADO

Supongamos que un investigador está interesado en evaluar la asociación entre uso de cinturón
de seguridad en vehículos particulares y el nivel socioeconómico del conductor del vehículo.
Con este objeto se toma una muestra de conductores a quienes se clasifica en una tabla de
asociación, encontrando los siguientes resultados:

Uso de Nivel Nivel Nivel TOTAL


cinturón socioeconómico socioeconómico socioeconómico
bajo medio alto
SI 8 15 28 51
NO 13 16 14 43
TOTAL 21 31 42 94

Tabla I. Tabla de asociación, valores observados.

¿Permiten estos datos afirmar que el uso del cinturón de seguridad depende del nivel
socioeconómico? Usaremos un nivel de significación alfa=0,05.

Los pasos del análisis estadístico en este caso son los siguientes:

1. EN PRIMER LUGAR SE DEBE PLANTEAR LAS HIPÓTESIS QUE


SOMETEREMOS A PRUEBA

H0: “El uso de cinturón de seguridad es independiente del nivel socioeconómico”.


H1: “El uso de cinturón de seguridad depende del nivel socioeconómico”.

En esta prueba estadística siempre la hipótesis nula plantea que las variables analizadas son
independientes.

2. EN SEGUNDO LUGAR, OBTENER (CALCULAR) LAS FRECUENCIAS


ESPERADAS

Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si
fuera cierta la hipótesis nula.

Las frecuencias esperadas se obtendrán de la distribución de frecuencias del total de los casos,
51 personas de un total de 94 usan el cinturón y 43 de 94 no lo usan. Esa misma proporción se
debería dar al interior de los tres grupos de nivel socioeconómico, de manera que el cálculo
responde al siguiente razonamiento: si de 94 personas 51 usan cinturón; de 21 personas,
¿cuántas debieran usarlo?

La respuesta a esta pregunta se obtiene aplicando la “regla de tres” y es 11,4. Este


procedimiento debe repetirse con todas las frecuencias del interior de la tabla.

El detalle de los cálculos es el siguiente:

Nivel bajo: (21x51/94)=11,4-(21x43/94)=9,6


Nivel medio: (31x51/94)=16,8-(31x43/94)=14,2
Nivel alto: (42x51/94)=22,8-(42x43/94)=19,2
Estas son las frecuencias que debieran presentarse si la hipótesis nula fuera verdadera y, por
consiguiente, las variables fueran independientes.

Estos valores los anotamos en una tabla con las mismas celdas que la anterior; así tendremos
una tabla con los valores observados y una tabla con los valores esperados, que anotaremos en
cursiva, para identificarlos bien.

Uso de cinturón Nivel bajo Nivel medio Nivel alto TOTAL


SI 11,4 16,8 22,8 51
NO 9,6 14,2 19,2 43
TOTAL 21 31 42 94

Tabla II. Tabla de asociación, valores esperados.

3. EN TERCER LUGAR SE DEBE CALCULAR EL ESTADÍSTICO DE PRUEBA

En este caso, el estadístico de prueba es Ji-cuadrado que, como dijimos al comienzo, compara
las frecuencias que entregan los datos de la muestra (frecuencias observadas) con las
frecuencias esperadas, y tiene la siguiente fórmula cálculo:

donde oi representa a cada frecuencia observada y ei representa a cada frecuencia esperada.

De este modo el valor del estadístico de prueba para este problema será:

Entonces Este es el valor de nuestro estadístico de prueba que ahora, siguiendo el


procedimiento de problemas anteriores (paso 4), debemos comparar con un valor de la tabla de
probabilidades para ji-cuadrado (x2). Esta tabla es muy parecida a la tabla t de student, pero
tiene sólo valores positivos porque ji-cuadrado sólo da resultados positivos. Véase gráfico 1,
que muestra la forma de la curva, con valores desde 0 hasta infinito.

Gráfico 1.

Dado que el estadístico ji cuadrado sólo toma valores positivos, la zona de rechazo de la
hipótesis nula siempre estará del lado derecho de la curva.
USO DE TABLA JI-CUADRADO

La tabla de ji-cuadrado tiene en la primera columna los grados de libertad y en la primera fila la
probabilidad asociada a valores mayores a un determinado valor del estadístico (véase gráfico
de la tabla III).
Los grados de libertad dependen del número de celdas que tiene la tabla de asociación donde
están los datos del problema y su fórmula de cálculo es muy sencilla:

Grados de libertad (gl)=(nº de filas–1)x(nº de columnas–1)

Así, en nuestro ejemplo, en que hay 2 filas y 3 columnas, los grados de libertad serán:

gl=(2-1)x(3-1)=2

Nótese que no se consideran la fila ni la columna de los totales.

Tabla III. Tabla de ji-cuadrado.

Al comienzo elegimos un nivel de significación alfa=0,05. Entonces un valor de tabla


para x2 asociado a 2 grados de libertad y alfa 0,05 es 5,99.
Por lo tanto, como en el gráfico 2 vemos que 5,23 se encuentra a la izquierda de 5,99, la
probabilidad asociada a valores superiores a 5,23 es mayor que alfa (0,05).

Gráfico 2.

Según esto, debemos aceptar la hipótesis nula que plantea que las variables “uso de cinturón de
seguridad” y “nivel socioeconómico” son independientes. Limitación: como norma general, se
exige que el 80% de las celdas en una tabla de asociación tengan valores esperados mayores de
5.

JI-CUADRADO COMO PRUEBA DE BONDAD DE AJUSTE

También se puede usar el estadístico ji-cuadrado para evaluar cuán buena puede resultar una
distribución teórica, cuando pretende representar la distribución real de los datos de una muestra
determinada. A esto se le llama evaluar la bondad de un ajuste. Probar la bondad de un ajuste
es ver en qué medida se ajustan los datos observados a una distribución teórica o esperada.

Tomemos como ejemplo la distribución esperada para los individuos de una población que son
clasificados según grupo sanguíneo. Según estudios realizados en población, se espera que
dicha distribución, en porcentajes, sea la siguiente:

Grupo Frecuencia esperada


AB 2,0%
A 30,5%
B 9,3%
0 58,2%

Tabla IV. Ejemplo de distribución esperada.

En una muestra de 150 dadores de sangre se encontró la siguiente distribución:

Grupo Frecuencia observada


AB 4
A 48
B 15
0 83

Tabla V. Ejemplo de distribución observada.

1.LAS HIPÓTESIS DEL PROBLEMA SON:


H0: los datos se ajustan a la distribución teórica.
H1: los datos no se ajustan a la distribución teórica.

2. SIGUIENDO EL ESQUEMA GENERAL DE SOLUCIÓN PROPUESTO PARA LAS


PRUEBAS DE HIPÓTESIS, AHORA CORRESPONDE ELEGIR UN NIVEL DE
SIGNIFICACIÓN

Elegimos entonces alfa=0,01. El estadístico de prueba será ji-cuadrado, cuya fórmula es:

Debemos calcular las frecuencias esperadas en nuestro grupo. Si aplicamos los porcentajes
esperados a la muestra de 150 casos podemos obtener las siguientes frecuencias esperadas (ei):

Grupo Frec. oi Frec. ei


AB 4 3,00
A 48 45,75
B 15 13,95
0 83 87,30
Total 150 150,00

Tabla VI. Ejemplo de frecuencias esperadas.

Los grados de libertad de esta tabla se obtienen restando 1 al número de filas, en este caso:
gl=4-1=3
Recordemos que la fila del total no se considera para los grados de libertad.

Si ya tenemos las frecuencias observadas y esperadas, podemos proceder a evaluar la diferencia


entre ellas utilizando el estadístico ji-cuadrado. Si la diferencia entre frecuencias observadas y
esperadas es grande, significará que la hipótesis nula es falsa, o sea, esta distribución no se
ajusta a la distribución teórica y si, en cambio, resulta que la diferencia entre frecuencias
observadas y esperadas no es muy grande, significará que la hipótesis nula es verdadera; por lo
tanto, la distribución en la muestra se ajusta a la distribución teórica y diremos que no hay
significación estadística.

El valor del estadístico de prueba (x2) es una medida de la diferencia entre frecuencias
observadas y esperadas; por lo tanto, mientras mayor resulte, más fácil será rechazar la hipótesis
nula.

3. SE CALCULA EL ESTADÍSTICO DE PRUEBA CON LOS DATOS DEL EJEMPLO

4. SE COMPARA ESTE VALOR CON EL VALOR DE JI-CUADRADO DE LA TABLA

El valor de ji-cuadrado lo buscaremos con alfa=0,01 y 3 grados de libertad. Según tabla, ese
valor es 11,34.
Al comparar el valor del estadístico de prueba (0,73) con el valor de tabla (11,34), vemos que
0,73 se encuentra a la izquierda de 11,34 desplazado hacia el centro de la curva y que, por lo
tanto, la probabilidad de valores mayores a él es muy superior al nivel de significación
alfa=0,01.

5. CONCLUSIÓN

Dado que la probabilidad de es mayor que alfa, se acepta la hipótesis nula. Esto
significa que los datos observados se ajustan a la distribución teórica, por lo tanto las diferencias
observadas no son estadísticamente significativas.

6. GRÁFICO

Gráfico 3. Prueba de bondad de ajuste.

b. PRUEBA DE WILCOXON

Se puede notar que la prueba de signo utiliza sólo los signos más y menos de las diferencias entre
las observaciones y 0 en el caso de una muestra, o los signos más y menos de las diferencias
entro los pares de observaciones en el caso de la muestra pareada, pero no toma en consideración
la magnitud de estas diferencias. Una prueba que utiliza dirección y magnitud, propuesta en 1945
por Frank Wilcoxon, se llama ahora comúnmente prueba de rango con signo de Wilcoxon. Esta
prueba se aplica en el caso de una distribución continua simétrica. Bajo esta condición se puede
probar la hipótesis nula = 0. Primero se resta 0 de cada valor muestral y se descarta todas
las diferencias iguales a cero. Se asigna un rango de 1 a la diferencia absoluta más pequeña, un
rango de 2 a la siguiente más pequeña, y así sucesivamente. Cuando el valor absoluto de dos o
más diferencias es el mismo, se asigna a cada uno el promedio de los rangos que se asignarían si
las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor
absoluto, a cada una se le asignaría un rango de 5.5. Si la hipótesis = 0 es verdadera, el total
de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de los rangos
que corresponden a las diferencias negativas. Se representan esos totales como w+ y w-,
respectivamente. Se designa el menor de w+ y w- con w.

Al seleccionar muestras repetidas esperaríamos que variarían w+ y w-, y por tanto w. De esta
manera se puede considerar a w+ y w-, y w como valores de las correspondientes variables
aleatorias W+, W-, y W. La hipótesis nula = 0 se puede rechazar a favor de la alternativa
< 0 sólo si w+ es pequeña y w- es grande. Del mismo modo, la alternativa > 0 se puede
aceptar sólo si w+ es grande y w- es pequeña. Para una alternativa bilateral se puede rechazar H0 a
favor de H1 si w+ o w- y por tanto w son suficientemente pequeñas. No importa cuál hipótesis
alternativa puede ser, rechazar la hipótesis nula cuando el valor de la estadística apropiada W +,
W-, o W es suficientemente pequeño.
Dos Muestras con Observaciones Pareadas

Para probar la hipótesis nula de que se muestrean dos poblaciones simétricas continuas con 1=
2 para el caso de una muestra pareada, se clasifican las diferencias de las observaciones paradas
sin importar el signo y se procede como en el caso de una muestra. Los diversos procedimientos
de prueba para los casos de una sola muestra y de una muestra pareada se resumen en la siguiente
tabla:

No es difícil mostrar que siempre que n<5 y el nivel de significancia no exceda 0.05 para una
prueba de una cola ó 0.10 para una prueba de dos colas, todos los valores posibles de w+, w-
, o w conducirán a la aceptación de la hipótesis nula. Sin embargo, cuando 5 n 30, la tabla
A.16 muestra valores críticos aproximados de W+ y W- para niveles de significancia iguales a
0.01, 0.025 y 0.05 para una prueba de una cola, y valores críticos de W para niveles de
significancia iguales a 0.02, 0.05 y 0.10 para una prueba de dos colas. La hipótesis nula se rechaza
si el valor calculado w+, w-, o w es menor o igual que el valor de tabla apropiado. Por ejemplo,
cuando n=12 la tabla A.16 muestra que se requiere un valor de w+ 17 para que la alternativa
unilateral < 0 sea significativa en el nivel 0.05.

Ejemplo:

1. Los siguientes datos representan el número de horas que un compensador opera antes de
requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba
de rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este
compensador particular opera con una media de 1.8 horas antes de requerir una recarga.

Solución:

H0; = 1.8

H1; 1.8

Se procederá a efectuar las diferencias y a poner rango con signo a los datos.

Dato di = dato - 1.8 Rangos


1.5 -0.3 5.5
2.2 0.4 7
0.9 -0.9 10
1.3 -0.5 8
2.0 0.2 3
1.6 -0.2 3
1.8 0 Se anula
1.5 -0.3 5.5
2.0 0.2 3
1.2 -0.6 9
1.7 -0.1 1

Regla de decisión:

Para una n = 10, después de descartar la medición que es igual a 1.8, la tabla A.16 muestra
que la región crítica es w 8.

Cálculos:

w+ = 7 + 3 + 3 = 13

w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42

por lo que w = 13 (menor entre w+ y w-).

Decisión y Conclusión:

Como 13 no es menor que 8, no se rechaza H0 y se concluye con un = 0.05 que el


tiempo promedio de operación no es significativamente diferente de 1.8 horas.

III. ANÁLISIS DE REGRESIÓN LINEAL


MÍNIMOS CUADRADOS
Cuando varias personas miden la misma cantidad, generalmente no obtienen los mismos

resultados. De hecho, si la misma persona mide la misma cantidad varias veces, los resultados

variarán. ¿Cuál es la mejor estimación para la verdadera medición? El método de mínimos

cuadrados proporciona una forma de encontrar la mejor estimación, suponiendo que los errores

(es decir, las diferencias con respecto al valor verdadero) sean aleatorias e imparciales.

¿QUÉ SON LOS MÍNIMOS CUADRADOS?

Es un procedimiento de análisis numérico en la que, dados un conjunto de datos (pares ordenados

y familia de funciones), se intenta determinar la función continua que mejor se aproxime a los

datos (línea de regresión o la línea de mejor ajuste), proporcionando una demostración visual de

la relación entre los puntos de los mismos. En su forma más simple, busca minimizar la suma de

cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la

función y los correspondientes datos.

Este método se utiliza comúnmente para analizar una serie de datos que se obtengan de algún

estudio, con el fin de expresar su comportamiento de manera lineal y así minimizar los errores de

la data tomada.

La creación del método de mínimos cuadrados generalmente se le acredita al matemático alemán

Carl Friedrich Gauss, quien lo planteó en 1794 pero no lo publicó sino hasta 1809. El matemático

francés Andrien-Marie Legendre fue el primero en publicarlo en 1805, este lo desarrolló de forma

independiente.

DEFINICIÓN: MÉTODO DE MÍNIMOS CUADRADOS

Su expresión general se basa en la ecuación de una recta y = mx + b. Donde m es la pendiente

y b el punto de corte, y vienen expresadas de la siguiente manera:


Σ Es el símbolo sumatoria de todos los términos, mientas (x, y) son los datos en estudio y n la

cantidad de datos que existen.

El método de mínimos cuadrados calcula a partir de los N pares de datos experimentales (x, y),

los valores m y b que mejor ajustan los datos a una recta. Se entiende por el mejor ajuste aquella

recta que hace mínimas las distancias d de los puntos medidos a la recta.

Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al conectar punto a punto

no se describe una recta, debemos aplicar el método de mínimos cuadrados, basándonos en su

expresión general:

Cuando se haga uso del método de mínimos cuadrados se debe buscar una línea de mejor ajuste

que explique la posible relación entre una variable independiente y una variable dependiente. En

el análisis de regresión, las variables dependientes se designan en el eje y vertical y las variables

independientes se designan en el eje x horizontal. Estas designaciones formarán la ecuación para

la línea de mejor ajuste, que se determina a partir del método de mínimos cuadrados.

EJEMPLO DEL MÉTODO DE MÍNIMOS CUADRADOS

Para entender con claridad la aplicación del método veamos un ejemplo:

Encontrar la recta que mejor se ajusta a los siguientes datos:


Veamos el gráfico:

Necesitamos encontrar una recta y = mx + b. Debemos aplicar el método de mínimos cuadrados.

Como ya sabemos entonces, primero centraremos el valor (x ∙ y):


Segundo por las expresiones de m y b debemos encontrar el valor x²:

Ahora podemos obtener los valores de las sumatorias de cada columna:

Σx = 55 ; Σy = 57 ; Σ(x·y) = 233 ; Σx² = 473 ; n=9

Sustituimos en cada una de las expresiones:

m = (9·233 – 55·57) / (9·473 – |55|²) = -1038 / 1232 = – 0,84

b = (57·473 – 55·233) / (9·473 – |55|²) = 14146 / 1232 = 11,48

La recta obtenida con el método de los mínimos cuadrados es la siguiente:

y = (- 0,84)·x + 11,48

Observemos el gráfico:
Vemos que la recta corta al eje y en 11,48 y en el eje x en 13,57. Si queremos saber dónde corta

en el eje x igualamos la ecuación y = 0:

0 = (- 0,84)·x + 11,48

Despejamos x:

x = – 11,48 / (-0,84) = 13,57

COEFICIENTE DE DETERMINACIÓN
I. CONCEPTO

El Coeficiente de Determinación es una medida estadística de la bondad del ajuste o fiabilidad


del modelo estimado a los datos. Se representa por R2 e indica cuál es la proporción de la variación
total en la variable dependiente (Y), que es explicada por el modelo de regresión estimado, es
decir, mide la capacidad explicativa del modelo estimado.

1. Cálculo del coeficiente de determinación


En un modelo de regresión lineal el coeficiente de determinación es adimensional y se calcula de
siguiente modo:

Donde la suma total es la varianza muestral de la variable endógena multiplicada por el tamaño
de la muestra; por lo tanto, mide las fluctuaciones de esta variable alrededor de su media; y, la
suma residual indica cuál es el nivel de error que se comete con el modelo estimado al explicar la
variable endógena.

El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a 1 si el modelo
estimado puede explicar completamente la variable dependiente sin ningún error, lo cual es muy
improbable en la práctica) y si, además, el modelo tiene término independiente, entonces el R2 es
mayor o igual que cero.

Si el modelo tiene término independiente, existen diferentes expresiones que permiten el cálculo
del R2, tales como:

donde, la suma explicada es el grado de fluctuación de la variable dependiente que el modelo de

regresión estimado es capaz de explicar; es el vector de parámetros estimados del


modelo, X es la matriz de observaciones de las variables explicativas del modelo, y es el vector
de observaciones de la variable dependiente, T es el número de observaciones de las variables del

modelo, e es el cuadrado de la media de la variable dependiente.

El R2 también se puede calcular como el cuadrado del coeficiente de correlación entre y (variable

dependiente) e (variable dependiente estimada a través del modelo de regresión).

2. Utilidad del coeficiente de determinación

El coeficiente de determinación no sólo mide la capacidad explicativa de un modelo sino que,


además, permite elegir entre varios modelos cuál es el más adecuado. Así si los modelos tienen
la misma variable dependiente y el mismo número de variables explicativas, será más adecuado
el que tenga un coeficiente de determinación mayor.

Sin embargo, si se trabaja con modelos anidados (uno tiene el mismo número de variables
explicativas que otro y alguna más), entonces el coeficiente de determinación ya no es adecuado
para establecer cuál de los modelos es el mejor para explicar la variable dependiente. Esto es
debido a que al aumentar el número de variables explicativas entonces la suma residual disminuye
y, por lo tanto, será necesario trabajar con una medida que tenga en cuenta el número de variables
explicativas del modelo, este coeficiente se conoce como el coeficiente de determinación

corregido y se calcula de la siguiente forma:

donde, el coeficiente de determinación no sólo está corregido por el tamaño de la muestra (ya que
si el número de datos aumenta, el coeficiente disminuye) sino, también por el número de variables
explicativas. De esta forma se mantendría neutral frente a la introducción de nuevas variables
explicativas ya que si aumentan las variables explicativas aumentaría el R2 y por lo tanto (1 -

R2) disminuye, compensando el efecto del aumento de la fracción cuando aumenta


el número de variables explicativas.

Es importante resaltar que tanto el R2 como el dependen de la muestra seleccionada y,


por lo tanto, a la hora de decidir si el modelo es adecuado o no para explicar la variable
dependiente, no debería tenerse en cuenta sólo la información proporcionada por estos
coeficientes.
COEFICIENTE DE CORRELACIÓN LINEAL

El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de


las desviaciones típicas de ambas variables.

El coeficiente de correlación lineal se expresa mediante la letra r.

Propiedades

1. El coeficiente de correlación no varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación


no varía.

2. El signo del coeficiente de correlación es el mismo que el de la covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1.

−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación


es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación


es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación
es débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre
ambas variables hay dependencia funcional.

EJEMPLOS
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas Física

2 1

3 3

4 2

4 4

5 4

6 4

6 6

7 4

7 6

8 7

10 9
10 10

Hallar el coeficiente de correlación de la distribución e interpretarlo.

xi yi xi ·yi xi2 yi2

2 1 2 4 1

3 3 9 9 9

4 2 8 16 4

4 4 16 16 16

5 4 20 25 16

6 4 24 36 16

6 6 36 36 36

7 4 28 49 16

7 6 42 49 36

8 7 56 64 49

10 9 90 100 81

10 10 100 100 100


72 60 431 504 380

1º Hallamos las medias aritméticas.

2º Calculamos la covarianza.

3º Calculamos las desviaciones típicas.

4º Aplicamos la fórmula del coeficiente de correlación lineal.

Al ser el coeficiente de correlación positivo, la correlación es directa.

Como coeficiente de correlación está muy próximo a 1 la correlación es muy fuerte.

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 0 2 4

1 2 1 3
2 1 4 2

3 2 5 0

Determinar el coeficiente de correlación.

Convertimos la tabla de doble entrada en tabla simple.

xi yi fi xi · fi xi2 · fi yi · fi yi2 · fi xi · yi · fi

0 1 2 0 0 2 2 0

0 2 1 0 0 2 4 0

0 3 2 0 0 6 18 0

2 1 1 2 4 1 1 2

2 2 4 8 16 8 16 16

2 3 5 10 20 15 45 30

4 1 3 12 48 3 3 12

4 2 2 8 32 4 8 16

20 40 120 41 97 76
Al ser el coeficiente de correlación negativo, la correlación es inversa.

Como coeficiente de correlación está muy próximo a 0 la correlación es muy débil.

Вам также может понравиться