Вы находитесь на странице: 1из 26

COMPARACIN DE DOS MUESTRAS

OBJETIVO

Realizar una comparacin estadstica con base en dos muestras, las cuales son comparadas a fin de obtener una inferencia sobre la poblacin. Nota: Las muestras a comparar no posee la restriccin de que sean del mismo tamao, de forma que puede tratarse de una muestra de 20 elementos contra otra de 25. La nica limitante es que las muestras hayan sido originadas de informacin aleatoria.

CUANDO EMPLEARLO.

Esta metodologa es empleada cuando se posee dos muestras de valores cuantitativos. Asimismo, se emplea nicamente cuando ambas

muestras se comparan con base en una sola variable, por ejemplo pesos de dos muestras de vasijas (una sola variable: peso), extensin de sitios de dos estilos arquitectnicos; no es vlido cuando se comparan ms de una variable: comparacin de estilos de unas vasijas por periodo, en la cual hay dos variables, periodo y estilo.

PORQUE COMPARAR

De manera inicial, el proceso de comparar dos muestras generalmente es para determinar que dichas muestras poseen caractersticas distintas, por ejemplo un par de muestras de huesos de pavos, los cuales se comparan para

comprobar que ambas muestras provienen de distintas especies: pavo tipo 1 y pavo tipo 2. De manera general, se emplea dicha comparacin para verificar que las muestras son iguales, o el caso contrario que proceden de poblaciones distintas.

DIFERENCIAS ENTRE POBLACIONES Cuando se toman dos muestras de una poblacin, existe siempre cierta variacin aleatoria que hace que sus medias varen. Cuando hay dos muestras de dos poblaciones diferentes, parte de la variacin entre las muestras es debida a esa variacin aleatoria y parte de la variacin viene del hecho de que las poblaciones pueden tener medias y dispersiones diferentes. Al comparar dos muestras, entonces, queremos saber si el contraste que vemos puede o no haber sido producido simplemente por variaciones aleatorias, para saber as si existen probabilidades de que las dos poblaciones son tan diferentes como las muestras reflejan. Para el ejemplo de los sitios mayas visto en clase, quisiramos, adems de comparar las medias, estimar la probabilidad de que la altura de los tableros de Oxkintok en realidad tenga la misma media que la altura de los tableros de Chichen Itz. Es decir, queremos estimar la confianza en los estimativos de las medias. Otra forma de tratar el mismo problema es estimar la probabilidad opuesta, o sea, Qu probabilidad existe que las diferencias entre medias sean slo

causadas

por

errores

del

muestreo?

Es

decir,

podemos

estimar

la significancia de la diferencia observada. Nota: Recuerde que significancia y confianza son conceptos inversos: La confianza es la probabilidad de estar en lo correcto, la significancia es la probabilidad de estar equivocado. Para estos estimativos, se considera cada muestra por separado y las poblaciones probables de donde cada una de ellas viene (estimando rangos de error) y se comparan las medias y los rangos de error de esas medias para estimar probabilidades. Una forma grfica de mostrar las probabilidades asociadas a las medias de cada muestra es en forma de Grficos de bala.

Grficos de bala (Bullet graphs)

Los grficos de bala permiten comparar muestras con diferentes rangos de error a varios niveles de confianza al mismo tiempo (usualmente 80%, 95% y 99%). Para obtener grficos de bala, primero que todo se dibujan lneas horizontales que representan las medias de cada muestra. A cada media se le asocia entonces un determinado rango de error por encima y debajo de la media, para cada nivel de confianza, calculando los rangos en la forma usual. Los rangos de error se representan como barras. Como para distintos niveles de confianza, si la precisin es menor, el rango de error es ms grande, entonces

representamos la precisin con el ancho de la barra y el rango de error con su altura. Muestras diferentes tienen diferentes niveles con diferentes rangos de error a determinado nivel de confianza. Al compararlas, la grfica nos permite estimar la probabilidad de que las dos muestras vienen de poblaciones con exactamente la misma media. Para resumir, para el ejemplo concluimos que tenemos un 95% de confianza que hay semejanza en la altura de los tableros de Oxkintok y Chichen Itz por influencias producidas por conquista (y en un caso de cada 100-5%, estaremos equivocados en esta afirmacin).

Confianza, significancia y fuerza

Decir que tenemos un 99% de confianza en la diferencia implica que la diferencia es significativa. La significancia es (100%)-(confianza) y entre menor sea la significancia, la diferencia es ms significativa.

Una significancia de 1% indica que la diferencia es muy significativa. La significancia se refiere a la probabilidad de que no existe diferencia alguna. Sin embargo, una diferencia puede existir pero ser muy pequea. La significancia no necesariamente se refiere a la importancia de la diferencia. La importancia tiene que ver con la fuerza de la diferencia, es decir de la magnitud de la diferencia entre promedios. Qu tan importante es este cambio? Depende de nuestras preguntas. Puede ser que para una hiptesis de

que los sitios muestreados proseen influencia entre si, esto no sea muy fuerte, pero puede ser suficientemente fuerte para la hiptesis de que las hubo conquista entre Teotihuacan y los sitios investigados.

Comparacin con la prueba t

En cambio de comparar las grficas visualmente, se pueden estimar las significancias directamente. Esto evita el problema que surge cuando la comparacin de la media de A con los rangos de B arroja resultados diferentes que cuando se compara la media de B con los rangos de A (que pasa, por ejemplo, cuando una de las muestras es muy pequea y sus rangos son muy grandes). Nota: Recuerde que el rango es la diferencia entre el mximo y el mnimo. Es decir: Rango = mximo - mnimo La prueba t incorpora toda la informacin de ambas muestras y produce un estimativo de la probabilidad que las dos muestras provienen de unas poblaciones con la misma media igual. La prueba t para dos muestras Esta prueba usa sp (desviacin estndar agrupada), que incorpora la desviacin de ambas muestras con la frmula :

Donde Sp = la desviacin estndar agrupada de las dos muestras N1 = numero de elementos de la primera muestra N2 = numero de elementos de la segunda muestra S1 = desviacin estndar de la primera muestra S2 = desviacin estndar de la segunda muestra

A partir de esta desviacin estndar agrupada, se halla SEp (el error estndar agrupado), con la frmula:

Usando el SEp, se encuentra t (el nmero de errores estndar agrupados que hay entre las medias de las muestras) con la frmula:

Donde: X1 = la media de la primera muestra X2 = la media de la segunda muestra

Mirando en la Tabla t, se pueden buscar los grados de libertad, que para las dos muestras usando la frmula: G.L. = n1 + n2 - 2 Si no existiera un valor directo, se usa el ms cercano y se puede leer la significancia (o confianza) asociadas. Una vez obtenido dicho valor se compara versus el valor obtenido y se determina si se rechaza o aprueba la hiptesis, si p-valor excede el nivel de confianza determinado o si es menor que dicho nivel, respectivamente. Es decir si se quiere un 95% de confianza, el p-valor no debe exceder 0.05 para aprobar la hiptesis alternativa, si se tratara de un 99% de confianza, no se debe exceder el .01. Nota: Para este tipo de anlisis, es recomendable el emplear algn paquete estadstico como StatGraphics o PSPP.

Aspectos que se asumen

La prueba t de dos muestras asume que las formas de las distribuciones son normales y sus dispersiones son similares. Si no son muy normales, las muestras deben al menos ser relativamente grandes (n > 30). Si sus dispersiones no son muy parecidas, la dispersin media de una no debe ser ms del doble de la de la otra. Finalmente, la prueba asume que no hay valores muy extremos. En caso de haberlos, es mejor usar las medias y desviaciones estndar recortadas.

Si la forma no es normal, se pueden transformar las muestras antes de la prueba, pero la transformacin aplicada a ambas muestras debe ser la misma.

EJERCICIOS

1. Suponga que en una regin se han medido las reas de pisos de vivienda de dos perodos: 32 pisos del Formativo y 52 pisos del Clsico. Despus de un anlisis cuidadoso del posible origen, se decide trabajar con estas dos muestras aleatorias, considerando cada una como una muestra representativa de cada periodo. Se ha estado investigando la variacin del

tamao de la vivienda como consecuencia del cambio en la estructura familiar.

Inicio Se ingresan los datos a Statgraphics y se configuran las columnas con los respectivos nombres (Click botn derecho Modificar columna).

Se selecciona el men Comparacin Dos Muestras Comparacin para dos muestras. Se seleccionan las columnas de Formativo y Clsico de forma indistinta, y se presiona Aceptar.

Statgraphics genera un resumen completo sobre la comparacin de las muestras.

1.- Calculo de estadsticas descriptivas

El resumen inicial incluye el apartado Resumen estadstico el cual incluye la informacin estadstica de las muestras. Nota: En caso de que no apareciera, se presiona el botn Opciones Tabulares y se selecciona la opcin Resumen estadstico y se

presiona Aceptar Dicha informacin contiene la frecuencia (nmero de elementos), la media (promedio del tamao de las viviendas de cada periodo), la

desviacin estndar ( variabilidad del tamao de las muestras), la varianza, entre otros.

Resumen Estadstico Formativo Clsico

-----------------------------------------------------------Frecuencia Media Varianza Desviacin tpica Mnimo Mximo Rango Asimetra tipi. 32 23.775 11.4361 3.38173 16.1 29.9 13.8 -0.791072 52 26.2365 20.4647 4.52379 14.7 34.2 19.5 -0.760319 -0.596964

Curtosis tpificada -0.0505828

------------------------------------------------------------

Nota: Recuerde la desviacin estndar nos indica que tanto varan los datos por cada muestra, es decir, la desviacin estndar del formativo contiene la variacin del tamao de las viviendas de dicho periodo, por lo que mientras ms pequeo sea dicho valor ms homogneas son las medidas, de forma de que si la desviacin estndar es 0, todos las viviendas tenan el mismo tamao. De igual

forma no podemos decir que si la desviacin estndar es muy

pequea las casas del clsico son iguales a las del formativo, solo podemos decir que todas las del clsico son semejantes ente si y todas las del formativo son semejantes entre s.
2.- Grficas de cajas y bigotes

Statgraphic proporciona de manera inicial la grfica de cajas y bigotes. En esta grfica se puede observar claramente que el centro de la muestra de las casas del Clsico es mayor que las del periodo Formativo. Es decir, las casas del periodo Clsico con una media de 26.3 m2son, de manera general, ligeramente mayores que las del Formativo, con una media de 24.3 m2. Tambin se puede observar que existe una considerable superposicin en el tamao de las viviendas de ambos periodos, inclusive la casa ms pequea del Clsico es menor que la ms pequea del periodo Formativo. La muestra periodo Clsico tiene una extensin un poco mayor que la muestra del perodo Formativo, e inclusive las dos muestras no son diferentes considerando este punto.

Nota: En caso de que no apareciera, se presiona el botn Opciones Graficas y se selecciona la opcin Graficos de cajas y Bigotes y se presiona Aceptar
3.- Grfica de Bala e Intervalos de confianza

Este grfico nos es de gran utilidad ya que nos permite realizar estimaciones sobre la media de la poblacin y as determinar si ambas muestras provienen de una misma poblacin resultado de variaciones en el muestreo o si son muestras totalmente distintas. Para realizar este grfico se emplea excel o cualquier otra hoja de clculo, asimismo se emplea la funcin: INTERVALO.CONFIANZA muestra) Donde (alfa, desviacin estndar, tamao de

Alfa: Es el complemento a uno del nivel de confianza. Si el nivel fuera 80%, alfa seria 0.2, si fuera 99%, alfa seria 0.01.

Desviacin estndar: Desviacin estndar de la muestra empleando la funcin DESVEST.

Tamao

de

muestra:

Nmero

de

elementos,

se

emplea

la

funcin CONTAR.

Asimismo, se genera una tabla en la cual se desglosan cada uno intervalos, considerando que el el valor inicial final ser media ser media +

INTERVALO.CONFIANZA y INTERVALO.CONFIANZA.

valor

Se obtiene una tabla como la siguiente:

Nivel de Confianza

Formativo

Clsico

80%

23.0089

24.5411

25.4326

27.0405

95%

22.6033

24.9467

25.0070

27.4661

99%

22.2351

25.3149

24.6206

27.8525

Para generar la grfica se seleccionan los datos considerando que cada par intervalo (valor mnimo y mximo) es una serie del grfico; asimismo se agrega la serie correspondiente a la media de los dos periodos. El grfico ser del tipo lineal.

La interpretacin se basa en que las media nos deben ingresar al rea del intervalo de la otra muestra. En este grfico, la media del Formativo (circulo amarillo), no debe ingresar a los intervalos de confianza del Clsico (rea roja); de igual forma la media del Clsico (circulo azul, no debe ingresar al rea de los intervalos de confianza del Formativo (rea verde). Si esto sucediese, se puede concluir que ambas muestras poseen errores de variacin en el muestreo y es probable que provengan de la misma poblacin o sean una submuestra de la otra; asimismo se procedera a ignorar los siguientes pasos y remuestrear. En caso de que esto no ocurra, se trata de muestras distintas, por lo que se puede continuar con la investigacin.

4.- Comparacin de medias

Para realizar este anlisis se selecciona el botn de Opciones Tabulares, como se describe en la Nota del punto 1, y se selecciona

Comparacin de Dos muestras. Dicho anlisis genera los siguientes resultados:

Comparacin de Medias --------------------95.0% intervalo de confianza para la media de Formativo: 23.775 +/1.21925 [22.5558,24.9942]

95.0% intervalo de confianza para la media de Clasico: 26.2365 +/1.25943 [24.9771,27.496]

95.0% intervalos de confianza para la diferencia de medias: suponiendo varianzas iguales: -2.46154 +/- 1.84565 0.61589] contrastes t de comparacin de medias Hiptesis nula: media1 = media2 Hiptesis alt.: media1 <> media2 suponiendo varianzas iguales: t = -2.65316 P-Valor = 0.00957354 [-4.30719,-

Se presenta los intervalos de confianza, para cada muestra, con un nivel de confianza de 95%; este valor nos indica, por ejemplo, que si tomamos el intervalo del Formativo, el cual abarca de 22.5558 a 24.9942, existe un 95% de probabilidad de que las viviendas de dicho periodo se encuentran en ese rango. De igual forma se

presenta, el intervalo para la diferencia de las medias, es decir, la diferencia entre las dos medidas, en el 95% de los casos, se encuentra entre -4.30719 y -0.61589. El punto ms importante a considerar es el anlisis de la comparacin presentado, toda comparacin maneja dos tipos de Hiptesis:

Hiptesis nula: La hiptesis general, usualmente la contraria a lo que estamos investigando

Hiptesis alternativa: La hiptesis del investigador, o la nueva hiptesis.

Nota: De manera general se recomienda replantear los problemas de forma que se obtengan estas dos hiptesis y tratando de dejar la hiptesis nula como aquello que es aceptado cabalmente, ya que es mas aceptable un falso negativo (rechazar una hiptesis alternativa correcta) que un falso positivo (aceptar una hiptesis alternativa errnea). En el caso del ejemplo, las hiptesis quedan de la siguiente forma:

Hiptesis Nula: Las casas de los distintos periodos poseen el mismo tamao, por lo cual no hubo variacin en el ncleo familiar

Hiptesis Alternativa: Las casas poseen variacin en sus tamaos por lo que hubo variacin en el ncleo familiar.

Para aprobar la hiptesis alternativa, el valor del p-valor no debe exceder 0.05, ya que trabajamos con el 95% de confianza. En caso de que se hubiera trabajado con el 99% de confianza, el p-valor no deber exceder el 0.01. En este caso, se obtuvo un p-valor de 0.0095 por lo que no excede 0.05 (limite para el 95% de confianza), y por ende se rechaza la hiptesis nula, a favor de la alternativa (si hubiera excedido el mencionado limite, se rechazara la alternativa a favor de la hiptesis nula). De ah se puede concluir que es altamente probable (95% de confianza) que haya habido variacin en el tamao de las viviendas del periodo Formativo y Clsico, lo cual puede asociarse con un incremento en el ncleo familiar durante dichos periodos.

Nota: En caso de trabajar con otros niveles de confianza el p-valor no debe exceder el 1- (nivel de confianza)/100. Por ejemplo: 80% de confianza, p-valor menor que 0.2 (1- (80/100))

85% de confianza, p-valor menor que .15 (1-(85/100)) 90% de confianza, p-valor menor que 0.10 (1-(90/100))

5.- Verificacin de los supuestos.

Este paso es indispensable para el correcto empleo de los resultados. Debido a que las matemticas se basan en teoras, estos a su vez se basan en supuestos, gracias a los cuales dichas teoras tienen sentido. El caso de la estadstica no es la excepcin, ya que la presente metodologa se basa en el cumplimiento de los

mismos, y sin importar que conclusiones se llegue con la prueba t, si no se demuestra que dichos supuestos son vlidos, las

conclusiones sern totalmente errneas.

5.1 Distribucin El primero de los supuestos a verificar lo constituye el supuesto de distribucin: la comparacin medias de dos muestras se basa en que las muestras provienen de poblaciones normalmente distribuidas; si las poblaciones de donde se extrajeron las muestras no cumplen con dicha condicin los resultados sern invlidos. Inclusive si una muestra cumple con el supuesto, si la otra no se distribuye normal, los resultados sern invlidos Para verificar este supuesto basta con obtener el histograma de las muestras. Para verificar como obtenerlo consulte la nota del paso 2.

En el caso del histograma del ejemplo, se observa claramente que ambas muestras se distribuyen uniformemente. En caso de que una no se distribuyera de dicha forma, habra que aplicar

transformaciones a la muestra a fin de obtener una muestra idnea.

5.2.- Dispersin media El supuesto de la dispersin media, se basa en que ambas muestras posee una dispersin media homognea, es decir, tienen el mismo grado de variabilidad. Este supuesto es de vital inters, ya que no tendra sentido el comparar dos muestras que tienen un alto grado de variabilidad, ya que las conclusiones inferidas no aplicaran

adecuadamente a la muestra, debido a que cada valor es muy diferente a otro.

Para

verificar

este

supuesto,

se

genera

la

comparacin

de

desviaciones tpicas, seleccionando el botn Opciones Tabulares y seleccionando dicha opcin.

Comparacin de Desviaciones Tpicas ----------------------------------Formativo Clasico

-----------------------------------------------------------Desviacin Tpica Varianza GL 3.38173 11.4361 31 4.52379 20.4647 51

Cociente de varianzas = 0.558822

95.0% Intervalos de Confianza Desviacin Tpica deFormativo: [2.71115;4.49595] Desviacin Tpica deClasico: [3.79116;5.61008] Cociente de varianzas: [0.30187;1.08809]

Contrastes F para comparar varianzas Hiptesis nula: sigma1 = sigma2

(1) Hiptesis alt.: sigma1 <> sigma2 F = 0.558822 P-Valor = 0.0859403

Dicho anlisis, se presenta de manera anloga a la prueba t, asimismo, se presentan los valores de la varianza, grados de libertad, cociente de varianzas y desviacin tpica o estndar. Tambin se presentan los intervalos de confianza, del 95%, para las desviaciones estndar; indicando de esta forma cual es el rango de variacin en el que se encuentran el 95% de las viviendas investigadas.

La prueba de hiptesis presentada por el anlisis tiene como hiptesis:

Hiptesis nula: las dos muestras tiene la misma variacin. Este es el punto que nos interesa probar para considerar valido este supuesto.

Hiptesis alternativa: las dos muestras tienen variaciones altamente significativas, es decir, es altamente probable que las dos muestras sean totalmente distintas una de la otra. El probar este punto como verdadero hara invalida nuestra investigacin.

Como se puede observar en el resultado, el p-valor es igual a 0.0859403 excediendo el lmite de 0.05 (lmite para le 95% de

confianza), porque se rechaza la hiptesis alternativa a favor de la hiptesis nula; la cual era la necesaria para probar que este supuesto es vlido.

De ah se concluye que la investigacin y los resultados obtenidos son correctos, ya que satisface los dos supuestos para este modelo.

Ejercicio La publicidad realizada por Sylph Fitness Center afirma que al terminar su curso las personas bajaran de peso. Una muestra aleatoria de ocho participantes recientes revelo pesos siguientes antes y despus del curso. En el nivel de significancia 0.01. Podemos llegar a la conclusin de que los estudiantes bajan de peso?

NOMBRE Hunter Cashman Mervine Massa Creola Peterson Redding Poust

ANTES 155 228 141 162 211 164 184 172

DESPUES 154 207 147 157 196 150 170 165

a) Formule las hiptesis nula y alternativa? b) Cul es el valor crtico de t? c) Cul es el valor calculado de t? d) Interprete el resultado. Cul es el valor e p? e) Qu suposiciones son necesarias acerca de la distribucin de las diferencias?

Solucin a.

b. Rechace

si t > 2.998

c. NOMBRE Hunter Cashman Mervine Massa Creola Peterson Redding Poust ANTES
155 228 141 162 211 164 184 172

DESPUES
154 207 147 157 196 150 170 165

d
1 21 -6 5 15 14 14 7 71

(d d)
-7.875 12.125 -14.875 -3.875 6.125 5.125 5.125 -1.875 62.0156 147.0156 221.2656 15.0156 37.5156 26.2656 26.2656 3.5156 538.8750

d = 71 = 8.875 8

= 8.774 = 2.861

t = 8.875 8.774 /

d. No rechace

. No podemos llegar a la conclusin de qie

los estudiantes bajaron de peso. El valor p es menor a 0.025, pero mayor que 0.01. e. La distribucin de las diferencias debe seguir una distribucin normal

Вам также может понравиться