You are on page 1of 122

ESTADÍSTICA INFERENCIAL

Facultad de Psicología

CICLO 14-15
Mtra. Joanna Koral Chávez López
ÍNDICE

INTRODUCCIÓN ................................................................................................................................... 7
TEORIA DE LA PROBABILIDAD .............................................................................................................. 8
PRUEBA DE HIPÓTESIS ......................................................................................................................... 9
PROCEDIMIENTO PARA LLEVAR A CABO UNA PRUEBA DE HIPÓTESIS: ..................................................10
1.- Enunciar la hipótesis nula, la hipótesis de investigación y definir la dirección de la prueba ( si es de una
cola o de dos colas). ................................................................................................................................. 10
2.- Determinar el nivel de significancia α ................................................................................................. 11
3.- Seleccionar el estadístico de prueba y calcular el valor p................................................................... 12
4.- Tomar la decisión de aceptación o rechazo lo cual implica comparar el valor de p con (α) .............. 14
5.- Interpretar los resultados obtenidos .................................................................................................. 14
PRUEBAS DE ASOCIACIÓN...................................................................................................................19
Coeficiente de Correlación Producto-Momento de Pearson (r)............................................................23
Procedimiento para calcular la r .............................................................................................................. 23
Regla de decisión ..................................................................................................................................... 24
Tabla de varios niveles de significancia del coeficiente de correlación de Pearson (tabla 1).................. 24
EJEMPLO: s ............................................................................................................................................... 25
SPSS .......................................................................................................................................................... 26
Reporte de resultados de la correlación Pearson .................................................................................... 27
Coeficiente de Correlación de Spearman de Rangos Ordenados (rho)...................................................29
Procedimiento: ......................................................................................................................................... 30
Regla de decisión ..................................................................................................................................... 30
Tabla de varios niveles de significancia del coeficiente de correlación de Spearman (tabla 2) .............. 31
EJEMPLO: .................................................................................................................................................. 32
SPSS .......................................................................................................................................................... 33
Reporte de resultados de la correlación Spearman ................................................................................. 34
CHI-CUADRADA (X2)............................................................................................................................35
Características .......................................................................................................................................... 35
Procedimiento para calcular Chi- cuadrada ............................................................................................ 35
Regla de decisión...................................................................................................................................... 36
Grados de libertad.................................................................................................................................... 36
EJEMPLO ................................................................................................................................................... 36
CONCLUSIÓN ............................................................................................................................................ 37
SPSS .......................................................................................................................................................... 38
REGRESIÓN LINEAL .............................................................................................................................39
Introducción ............................................................................................................................................. 39
La recta de regresión ................................................................................................................................ 39
La mejor recta de regresión ..................................................................................................................... 41
Bondad de ajuste...................................................................................................................................... 42
Resumen................................................................................................................................................... 43
EJERCICIOS DE TAREA DE CORRELACIONES ..........................................................................................44
PRUEBAS PARAMÉTRICAS O DE COMPARACIÓN .................................................................................47
La prueba t .........................................................................................................................................47
La prueba t de Student relacionada (mismos grupos, muestras dependientes) ....................................50
Cuándo utilizarla....................................................................................................................................... 50
Lógica de la prueba .................................................................................................................................. 50
Procedimiento .......................................................................................................................................... 51
Regla de decisión...................................................................................................................................... 51
Como se escriben los resultados de la prueba t para muestras relacionadas ......................................... 51
Tabla de varios niveles de significancia para la prueba t de Student Relacionada (tabla 3) .................. 52
EJEMPLO ................................................................................................................................................... 53
SPSS .......................................................................................................................................................... 53
La prueba t de Student no relacionada (para muestras independientes) ..............................................57
Cuándo utilizarla....................................................................................................................................... 57
Lógica de la prueba .................................................................................................................................. 57
Procedimiento .......................................................................................................................................... 58
Regla de decisión...................................................................................................................................... 59
Tabla de varios niveles de significancia para la prueba t de Student No Relacionada (tabla 4) ............. 60
EJEMPLO ................................................................................................................................................... 61
SPSS .......................................................................................................................................................... 62
INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA ....................................................................................66
ANOVA UNIFACTORIAL MUESTRAS INDEPENDIENTES ..........................................................................71
Definición de varianza. ............................................................................................................................. 71
Uso de ANOVA unifactorial (para muestras independientes). ................................................................ 71
EJEMPLO: .................................................................................................................................................. 72
SPSS .......................................................................................................................................................... 75
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) ........................................... 79
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación… ................... 80
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación… ................... 81
PRUEBAS NO PARAMÉTRICAS ............................................................................................................89
U de Man-Whitney .............................................................................................................................89
Características: ......................................................................................................................................... 89
Lógica de la prueba .................................................................................................................................. 89
Procedimiento para calcular U de Man-Whitney ................................................................................... 89
Regla de decisión...................................................................................................................................... 90
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 5) ....................................... 91
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 5) continuación. ................ 92
.................................................................................................................................................................. 92
EJEMPLO ................................................................................................................................................... 93
SPSS .......................................................................................................................................................... 94
Prueba de Rangos de Wilcoxon (W)....................................................................................................98
Características: ......................................................................................................................................... 98
Lógica de prueba ...................................................................................................................................... 98
Procedimiento para calcular el valor de W .............................................................................................. 98
Regla de decisión...................................................................................................................................... 99
Tabla de varios Niveles de Significancia para Wilcoxon (W) (tabla 6).................................................. 100
EJEMPLO ................................................................................................................................................. 102
Kruskal-Wallis (H) ............................................................................................................................. 107
Características: ....................................................................................................................................... 107
Lógica de prueba .................................................................................................................................... 107
Procedimiento para calcular el valor H ................................................................................................. 107
Regla de decisión ................................................................................................................................... 108
Tabla de varios Niveles de Significancia para H (tabla 7) ...................................................................... 108
Tabla de vario Niveles de Significancia para H (tabla 7) continuación .................................................. 108
EJEMPLO ................................................................................................................................................. 109
CONCLUSIÓN: ......................................................................................................................................... 110
SPSS ........................................................................................................................................................ 111
EJERCICIOS DE TAREA ............................................................................................................................. 113
Prueba de Friedman (𝑿𝒓𝟐) ............................................................................................................... 116
Características: ....................................................................................................................................... 116
Lógica de la prueba ................................................................................................................................ 116
Procedimiento para calcular el valor de 𝑿𝒓𝟐 ....................................................................................... 116
Regla de decisión.................................................................................................................................... 117
Tabla de varios Niveles de Significancia para Friedman (𝑿𝒓𝟐) (tabla 8) .............................................. 117
Tabla de varios Niveles de Significancia para Friedman (𝑿𝒓𝟐) (tabla 8) continuación… ...................... 117
EJEMPLO ................................................................................................................................................. 118
SPSS ........................................................................................................................................................ 120
EJERCICIOS DE TAREA ............................................................................................................................. 122
REFERENCIAS ................................................................................................................................... 122
ÍNDICE DE TABLAS
Tabla de varios niveles de significancia del coeficiente de correlación de Pearson (tabla 1)
Tabla de varios niveles de significancia del coeficiente de correlación de Spearman (tabla 2)
Tabla de varios niveles de significancia para la prueba t de Student Relacionada (tabla 3)
Tabla de varios niveles de significancia para la prueba t de Student No Relacionada (tabla 4)
Tabla de varios niveles de significancia para valores críticos de F (tabla 5)
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 6
Tabla de varios Niveles de Significancia para Wilcoxon (W) (tabla 7)
Tabla de varios Niveles de Significancia para H (tabla 8)
Tabla de varios Niveles de Significancia para Friedman (𝑿𝒓𝟐)(tabla 9)
Tabla de varios Niveles de Significancia para CHI-CUADRADA (X2) (tabla 10)
INTRODUCCIÓN
El estudio de determinadas características de una población se efectúa a través de diversas muestras
que pueden extraerse de ella.

El muestreo puede hacerse con o sin reposición, y la población de partida puede ser infinita o finita.
Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita
teóricamente. También, a efectos prácticos, una población muy grande puede considerarse como
infinita. En todo nuestro estudio vamos a limitarnos a una población de partida infinita o a muestreo
con reposición.

Consideremos todas las posibles muestras de tamaño n en una población. Para cada muestra podemos
calcular un estadístico (media, desviación típica, proporción,...) que variará de una a otra. Así
obtenemos una distribución del estadístico que se llama distribución muestral.

Las dos medidas fundamentales de esta distribución son la media y la desviación típica (también
denominada error típico).
Hay que hacer notar que si el tamaño de la muestra es lo suficientemente grande las distribuciones
muestrales son normales y en esto se basarán todos los resultados que alcancemos.

El objetivo que se proponen las técnicas del análisis descriptivo es la presentación y la descripción de
los datos de nuestra investigación de la manera más significativa y eficaz. El análisis Inferencial va más
allá de la descripción de los datos; uno de sus objetivos básicos es hacer afirmaciones acerca de una, o
varias, características de la población a partir de los datos provenientes de una muestra. Para
generalizar en una población, de manera válida, los resultados obtenidos en una muestra es necesario
considerar la forma en la que se distribuyen los datos de la muestra e identificar un modelo estadístico
o probabilístico que corresponda al diseño de investigación utilizado y a las características de la variable
de interés (continua o discreta), a fin de establecer si las afirmaciones que hacemos de la población
tiene un sustento válido o son debidas al azar.

Un modelo estadístico es una distribución que describe la probabilidad de ocurrencia de las variables
aleatorias, es decir, la probabilidad de que la variable X tome cada uno de los valores posibles x, o
P(X=x); esto es: el grado en el cual los resultados que encontramos en una muestra ocurren en realidad
en la población. A esta correspondencia se le denomina función de probabilidad. Las distribuciones de
probabilidad pueden representarse mediante una tabla, una gráfica o una fórmula.

La mayoría de los casos prácticos a los que nos enfrentamos en Ciencias Sociales se refiere a variables
aleatorias cuyas funciones de probabilidad se ajustan a los modelos estadísticos o distribución de
probabilidades. Existen diferentes tipos de distribuciones de probabilidad. Una forma de clasificarlas es
mediante el tipo de variables: discretas (se cuentan) y continuas (se miden). Para las variables
continuas, la distribución de probabilidades se denomina función de densidad, ya que las
probabilidades corresponden a áreas bajo la curva.

Cuando se realiza una investigación, rara vez se extrae más de una muestra de una determinada
población. Esta muestra única se convierte en la base a partir de la cual realizamos inferencias acerca
de dicha población. Si extraemos numerosas muestras del mismo tamaño utilizando el mismo
7
Página

procedimiento de muestreo al azar, y calculamos un estadístico, por ejemplo la media o una proporción
para esa muestra, tendríamos múltiples ejemplos de dicho estadístico (Newton y Rudestam ,1999). Las
Estadística Inferencial Mtra. Joanna Koral Chávez López
diferencias entre las medias de las muestras extraídas nos darían una idea acerca de qué tan bien está
funcionando el procedimiento de muestreo empleado. Si este proceso se repite una gran cantidad de
veces obtendríamos una distribución de estas muestras, es decir, una distribución muestral. En
resumen, las distribuciones muéstrales se obtienen a partir de extraer muestras del mismo tamaño (n)
elegidas al azar en una población determinada. Cada muestra del mismo tamaño nos proporciona una
observación (dato), es decir, el estadístico muestral (x,α, P) que sería incluido en dicha distribución. La
probabilidad de obtener un estadístico determinado como resultado del azar está contemplado en la
distribución muestral del estadístico considerado, por lo que con dicha distribución se puede
determinar la probabilidad que corresponde a cada estadístico calculado y con ello evaluar si implica
que el estadístico observado es un resultado esperado por azar o no. Como puede advertirse, a cada
estadístico le corresponde una distribución muestral: media, diferencia entre medias, proporciones,
diferencias entre proporciones, varianzas, etc.

Una de las distribuciones muéstrales más importantes en Estadística es la distribución normal (z), con
mucho, la más importante de todas las distribuciones de probabilidad. Su gráfica produce la ya conocida
curva en forma de campana. Dicha distribución posee las siguientes características:
1. Tiene forma de campana.
2. Es asintótica con respecto al eje X.
3. Es simétrica.
4. El área total bajo la curva es igual a 1.
5. La mayor parte de los valores se concentran al centro de la distribución, mientras que en los
extremos se localizan el menor número de los casos.

La distribución normal de probabilidad es, de acuerdo con Smith (1970);


… una gráfica idealizada de ciertas distribuciones de frecuencias comunes para las cuales n es
muy grande. No necesariamente tiene estas proporciones justas, ella puede ser
considerablemente más alta y delgada, pero siempre será simétrica y en forma de campana…
se llama curva normal de probabilidad porque describe, entre otras cosas, la distribución más
probable de ciertos eventos al azar (p.13)

Esto quiere decir que cuando la muestra es grande y ha sido elegida al azar, es decir: no seleccionada
propositivamente de acuerdo con ciertos parámetros muy particulares de la investigación, la
distribución de los datos tenderá a ser normal, por tanto, esta aproximación a la curva normal no
siempre se puede esperar, especialmente cuando la muestra de sujetos es muy pequeña.

TEORIA DE LA PROBABILIDAD
La teoría de la probabilidad es la parte de las matemáticas que estudia los fenómenos aleatorios Estos
deben contraponerse a los fenómenos determinísticos, los cuales son resultados únicos y/o previsibles
de experimentos realizados bajo las mismas condiciones determinadas, por ejemplo, si se calienta agua
a 100 grados Celsius a nivel del mar se obtendrá vapor. Los fenómenos aleatorios, por el contrario, son
aquellos que se obtienen como resultado de experimentos realizados, otra vez, bajo las mismas
condiciones determinadas pero como resultado posible poseen un conjunto de alternativas, por
ejemplo, el lanzamiento de un dado o de una moneda. La teoría de probabilidades se ocupa de asignar
un cierto número a cada posible resultado que pueda ocurrir en un experimento aleatorio, con el fin de
8

cuantificar dichos resultados y saber si un suceso es más probable que otro.


Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Muchos fenómenos naturales son aleatorios, pero existen algunos como el lanzamiento de un dado,
donde el fenómeno no se repite en las mismas condiciones, debido a que la características del material
hace que no exista una simetría del mismo, así las repeticiones no garantizan una probabilidad definida.
En los procesos reales que se modelizan mediante distribuciones de probabilidad corresponden a
modelos complejos donde no se conocen a priori todos los parámetros que intervienen; ésta es una de
las razones por las cuales la estadística, que busca determinar estos parámetros, no se reduce
inmediatamente a la teoría de la probabilidad en sí.

El trabajo estadístico se orienta, en gran medida, a la verificación de nuestra hipótesis de investigación.


El proceso de comprobación de una hipótesis tiene como propósito determinar si los efectos
estadísticos observados, calculados para una muestra, son reales en la población o son simplemente
un resultado del error de muestreo. El procedimiento que subyace al proceso de comprobación de una
hipótesis es la estadística inferencial. Por medio de ella extraemos conclusiones acerca de una
población con base en los estadísticos obtenidos a partir de una muestra.

Utilizamos la estadística inferencial con el propósito de validar los datos que hemos obtenido a lo largo
de la investigación. Nuestro objetivo es llegar a una conclusión con respecto a nuestra hipótesis de
investigación, lo que nos conducirá a llevar a cabo una prueba de hipótesis; así, la hipótesis de
investigación derivará en una serie de hipótesis estadísticas.

PRUEBA DE HIPÓTESIS
El propósito de la prueba de hipótesis es ayudar al investigador a tomar una decisión acerca de una
población mediante el examen de una muestra de ella.

A continuación se presentan conceptos indispensables para comprender la prueba de hipótesis:

Hipótesis: Es una proposición acerca de una o más poblaciones. Dicha proposición se creerá cierta si
los datos de la muestra llevan al rechazo de la hipótesis nula.

Hipótesis de investigación (H1): es la conjetura o suposición que motiva la investigación.

Hipótesis nula (H0): se establece de tal forma que pueden ser evaluadas por medio de técnicas
estadísticas adecuadas. Esta hipótesis se establece con el propósito expreso de ser RECHAZADA. En
consecuencia, el complemento de la conclusión que el investigador desea alcanzar se convierte en el
enunciado de hipótesis nula. En el proceso de prueba, la hipótesis nula se rechaza o no se rechaza. Si la
hipótesis nula no se rechaza, se dirá que los datos sobre los cuales se basa la prueba no proporcionan
evidencia suficiente que cause el rechazo. Si el procedimiento de prueba conduce al rechazo, se
concluye que los datos disponibles no son compatibles con la hipótesis nula, pero sirven como apoyo a
alguna otra hipótesis.

En resumen, es posible establecer las siguientes reglas empíricas para decidir qué proposición se utiliza
como hipótesis nula y cuál como hipótesis de investigación.

a) La conclusión a la que se desea o espera llegar como resultado de la prueba generalmente se


usa como hipótesis de investigación.
9

b) La hipótesis nula debe contener una proposición de igualdad, ya sea =, ≤ o ≥.


Página

c) La hipótesis nula es la que debe ser COMPROBADA.

Estadística Inferencial Mtra. Joanna Koral Chávez López


d) Las hipótesis nula y de investigación son complementarias. Es decir, las dos contemplan de
manera exhaustiva todos los valores posibles que los parámetros de suposición pueden asumir.

PROCEDIMIENTO PARA LLEVAR A CABO UNA PRUEBA DE HIPÓTESIS:


1.- Enunciar la hipótesis nula, la hipótesis de investigación y definir la dirección de la prueba ( si es
de una cola o de dos colas).

La confirmación o rechazo de nuestra hipótesis de investigación parte de enunciar una o varias


hipótesis estadísticas: nula (H0) (aseveración de que no hay alguna diferencia entre el valor esperado
de la muestra y el valor real de la población) y de investigación (H1) (aseveración de que existe
diferencia entre el valor esperado y el real).

Un aspecto que influye de manera especial en la probabilidad de rechazar o no la hipótesis nula (H0) es
si podemos predecir en qué dirección se ubicará nuestro estadístico muestral en relación con el
parámetro poblacional. La dirección de la prueba se establece mediante la hipótesis de investigación
y está determinada por el número de colas (una o dos colas) en la curva de distribución muestral. Para
definir si se trata de una prueba de una o dos colas, es necesario examinar cuidadosamente el objetivo
de investigación y la hipótesis de investigación para que a partir de ellos podamos enunciar nuestra
hipótesis de investigación (H1).

10
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


La tabla siguiente presenta las formas más usuales de enunciar la hipótesis de investigación:

FORMAS USUALES DE ENUNCIAR LA HIPÓTESIS DE INVESTIGACIÓN


De una cola con dirección Plantear una prueba de
positiva: El contenido de la una cola, positiva en la H1
pregunta de investigación y un signo >
incluye términos como
mayor que, más,
incremento, más rápido, etc.
De una cola con dirección Plantear una prueba de
negativa: El contenido de la una cola, negativa en la H1
pregunta de investigación y un signo <
incluye términos como
menor que, menos,
disminución, más lento, etc.
De dos colas no direccional: Plantear una prueba de
El contenido de la pregunta dos colas, neutral en la H1.
de investigación no incluye
ninguna declaración sobre la
dirección del efecto de la
variable o la diferencia entre
grupos, o simplemente
afirma desigualdad.

En el contraste o prueba se utilizan las puntuaciones tipificadas Z.

2.- Determinar el nivel de significancia α


Al tomar una decisión sobre rechazar o no la H0 puedes incurrir en los siguientes errores:

Error de tipo I (α): Rechazar una hipótesis nula cuando es verdadera.


Error de tipo II (β): Aceptar una hipótesis nula cuando es falsa.

Para controlar el error tipo I se utiliza un nivel de significancia α, el cual es el nivel de riesgo que estás
dispuesto a tomar al concluir que la hipótesis nula (H0) es falsa cuando es cierta. La siguiente tabla
muestra los niveles convencionales de significancia que se utilizan típicamente en la investigación.

11
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Usos típicos del nivel de significancia
Probabilidad de rechazar Nivel de Usos típicos
la H0 cuando es cierta significancia
Nivel de riesgo Alto .10 En investigaciones exploratorias, donde
se conoce poco sobre un tema
Nivel de riesgo Moderado .05 y .01 Niveles convencionales en investigación
mediante encuestas e instrumentos de
evaluación psicométrica y educativa.
Nivel de riesgo Bajo .01 y .001 Niveles convencionales en investigación
biológica, de laboratorio y médica,
donde un error constituye una
amenaza.

Por su parte el error tipo II se controla aumentando el tamaño de la muestra.

3.- Seleccionar el estadístico de prueba y calcular el valor p


Una Prueba estadística tiene asociado un modelo estadístico (probabilístico), de lo que se infiere que
la prueba elegida para aplicar a nuestros datos debe seguir un conjunto de suposiciones que habremos
de considerar para interpretar de manera correcta sus resultados. Estas suposiciones parten
principalmente de la forma en que se constituyó la muestra y del tipo de escalas que se empleó en la
definición operacional de nuestras variables.

Adicionalmente, para seleccionar la prueba más apropiada para nuestra investigación, debemos
considerar otros criterios, los cuales se mencionan a continuación.

 Número de variables observadas y tipo (dependientes o independientes)


 Escala de medición de las variables: si son variables nominales/ordinales, lo más apropiado son
pruebas de proporciones, si son de intervalo/razón, lo más indicado es el cálculo de pruebas de
medias, diferencias de medias o análisis de varianza.
 Número demuestras con las que estamos trabajando y tipo de muestras (independientes o
relacionadas)
 Tamaño de la muestra (s)

El valor p es la probabilidad de ocurrencia por azar del estadístico de prueba, de acuerdo a la


distribución muestral de dicho estadístico.

En vista de que la elección de la prueba estadística es una de las tareas más complejas del proceso de
investigación, checa el Árbol de decisión estadísticas para elegir la prueba adecuada para tu
investigación.
12
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


13
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


4.- Tomar la decisión de aceptación o rechazo lo cual implica comparar el valor de p con (α)
Si p<(α), se rechaza la H0 y se acepta la H1
al nivel confianza 1- (α)
p > (α), se rechaza la H1 y se acepta H0

La decisión sobre la aceptación de una hipótesis estadística está basada en si hay o no suficiente
evidencia para concluir que la hipótesis nula (H0) es falsa. Si la probabilidad del valor obtenido es
mayor que un nivel de significancia especificado, se acepta la hipótesis nula H0; si la probabilidad es
igual o menor al nivel especificado, se rechaza la hipótesis nula (H0) y se acepta la hipótesis de
investigación (H1).Cuando se acepta la hipótesis nula se concluye que es cierta, pero cuando los datos
la contradicen fuertemente se concluye que es falsa.

5.- Interpretar los resultados obtenidos


Esto implica analizar si los datos obtenidos son congruentes con los antecedentes señalados en el
marco teórico o si los contradicen. Adicionalmente deberá revisarse la posibilidad de aumentar el
tamaño de la muestra si se considera que la inexistencia de una relación significativa pueda deberse a
un error de muestreo.

Entonces por todo lo anterior la prueba de hipótesis constituye la columna vertebral de nuestro
proyecto de investigación: ahí es donde reside nuestra tesis central, aquello que queremos comprobar.
El inicio del procedimiento de la prueba de hipótesis es establecer una o más hipótesis (Downie y Heath,
1973).

La primera que se establece es la hipótesis de la “no diferencia” o hipótesis nula, por ejemplo entre las
medias de dos poblaciones. Esto también puede hacerse planteando que las medias de ambas
poblaciones son iguales, o dicho de otra manera, las muestras estudiadas provienen de la misma
población.

Un siguiente aspecto a considerar es el nivel de significación (α) que tiene que ver con la seguridad que
queremos tener de no cometer errores al aceptar o rechazar la hipótesis nula. Así en un alfa de 5 (0.05),
tenemos 5 posibilidades por cada 100 veces que se extraiga una muestra de una población, de que la
diferencia o no diferencia encontrada sea incorrecta. Si establecemos un alfa de 1 (0.01), el riesgo de
equivocarnos es de uno en cien, si el alfa es menor: 0.001, el riesgo es de uno en mil y así
sucesivamente.

Con mucha frecuencia, nuestros estudios intentan medir el grado de relación que existe entre dos
variables determinadas. Nos preguntamos, por ejemplo: ¿en qué medida influye el grado de
escolaridad de los padres en el grado de escolaridad alcanzado por los hijos?, o bien, ¿en qué medida
las calificaciones grupales en matemáticas están vinculadas a las calificaciones en ciencias naturales o
al modelo de enseñanza del profesor de la asignatura?

El propósito del contraste de hipótesis es determinar si nuestras suposiciones acerca de la relación


14

entre dos o más variables son correctas. Para ello, requerimos elegir una prueba estadística que nos
permita realizar dicho contraste, sin embargo es importante considerar el objetivo de nuestra
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


investigación (comparar, encontrar asociaciones, establecer diferencias) para poder determinar qué
prueba estadística es la adecuada.

En el proceso de selección de la prueba estadística tenemos dos posibilidades: elegir una prueba
paramétrica o una no paramétrica. Cuando se cumplen determinados criterios (criterios
paramétricos); por ejemplo que los datos se encuentren mínimo en un nivel de medición intervalar,
que los datos de la muestra hayan sido obtenidos de una población normalmente distribuida, es posible
utilizar una prueba paramétrica. Si los datos no se ajustan a una distribución normal o si el nivel de
medición empleado no es por lo menos intervalar, entonces se utilizan pruebas no paramétricas.

15
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Las pruebas de asociación más comúnmente utilizadas en Ciencias Sociales se describen a
continuación:

El Coeficiente de correlación es el indicador que nos permite examinar, de manera objetiva, la fuerza
y dirección de la relación entre variables que presentan un fundamento lógico y coherente para su
asociación, por lo que sus valores se calculan con una dirección de relación positiva o negativa,
alejándose o acercándose a la unidad.

Entre las pruebas no paramétricas que permiten identificar la fuerza y dirección de la asociación entre
variables, se encuentra:
 Coeficiente de correlación de rangos ordenados de Spearman (rho): permite explicar la
dirección (positiva o negativa) de una relación, así como la proporción de la variación en los
rangos de Y, explicada por el conocimiento de los valores del rango de X. Aplica sólo para
variable de carácter ORDINAL.
 Coeficiente de correlación de Pearson (r): Permite el dimensionar de la magnitud y dirección
de una relación entre variables medidas a partir de intervalos. La r de Pearson es un coeficiente
de correlación que mide la estrechez del ajuste de las coordenadas X, Y, alrededor de la línea de
regresión. Es apropiada para medir la relación entre variables de INTERVALO/RAZÓN U
ORDINAL, A mayor valor absoluto de la r de Pearson, las coordenadas estarán más cercanas a la
línea, lo que nos indica una mayor asociación entre las variable.
 Prueba de Chi-cuadrada (X2): permite explicar la dirección (positiva o negativa) de una relación,
así como la proporción de la variación en los rangos de Y, explicada por el conocimiento de los
valores del rango de X. Aplica sólo para variable de carácter NOMINAL.

La comparación entre grupos es usualmente empleada en la investigación social, pues con ello se
comprueba la significancia al evaluar muestras que se incluyen y se excluyen de una situación
determinada. En el caso de la comparación de dos grupos se parte de considerar la presencia de un
determinado factor en uno de ellos, mientras que en el otro, ocurre el caso contrario.

Entre las pruebas de comparación paramétricas se encuentran:


 Prueba t de Student para muestras independientes (t): es una prueba de la diferencia entre
medias muestrales para dos grupos o muestras independientes. La variable a partir de la cual se
calcula la media debe ser de INTERVALO/RAZÓN, que en este tipo de prueba representa a la
variable dependiente. La variable independiente debe ser de tipo NOMINAL/ORDINAL
dicotómica.
 Prueba t de Student para muestras relacionadas (t): se utiliza para comprobar la hipótesis de
que las puntuaciones de una variable de INTERVALO/RAZÓN difieren en el tiempo para los
mismos sujetos. Este tipo de diseño es antes-después y en él una variable se mide dos veces
para los mismos individuos con algún tipo de intervención entre la aplicación de las pruebas.
 Análisis de Varianza para muestras independientes (ANOVA): es una prueba de diferencia de
16

medias muestrales para tres o más grupos o muestras independientes. La variable a partir de la
cual se calcula la media (variable dependiente) debe ser de INTERVALO/RAZON, siendo en este
Página

tipo de prueba la variable dependiente. La variable independiente debe ser de tipo


NOMINAL/ORDINAL.
Estadística Inferencial Mtra. Joanna Koral Chávez López
 Análisis de Varianza para muestras relacionadas (ANOVA): se utiliza para comprobar la
hipótesis de que las puntuaciones de una variable de INTERVALO/RAZON difieren en el tiempo
para los mismos sujetos. Este tipo de diseño es antes-después, en el cual una variable se mide
tres o más veces para los mismos individuos con algún tipo de intervención (variable
independiente) entre las pruebas.

En ocasiones, los datos o las condiciones de nuestra investigación no cumplen o no tenemos elementos
para suponer que cubren estas condiciones (el más común es el nivel de medida de los datos).
En esos casos tenemos que recurrir a las pruebas no paramétricas que, aun cuando son menos
potentes, no establecen condiciones para los parámetros de la población de la cual se obtuvieron las
muestras.
El principio básico de las pruebas no paramétricas es el mismo que el de las pruebas paramétricas:
comparar los resultados obtenidos contra lo esperado por azar. Las pruebas no paramétricas ofrecen
algunas ventajas:

 Se obtiene probabilidades exactas independientes de la forma de la población de la cual se sacó


la muestra.
 Si se tienen menos de seis sujetos, no existe otra opción para procesar los datos.
 Existen pruebas no paramétricas apropiadas para observaciones hechas en poblaciones
diferentes.
 Son apropiadas para datos medidos a nivel nominal u ordinal.

La prueba a utilizar en cada específico depende del objetivo de la investigación, en concordancia con
el objetivo de la prueba estadística, del nivel de medida de los datos, del número de muestras y de si
éstas son independientes o relacionadas

Resumen de procedimiento estadísticos en relación con el tipo de


muestra
Tipo de muestra Procedimiento Estadístico
Dos muestras independientes U de Mann Whitney
Dos muestras relacionadas Wilcoxon
K muestras independientes Kruskall Wallis
K muestras relacionadas Friedman

Cuando se realizan prueba de hipótesis, se calcula la probabilidad de que los resultados obtenidos en
una investigación puedan ser debidos al azar, en el supuesto de que la hipótesis nula sea cierta. Esta
probabilidad es el grado de significación estadística (valores menores a 0.05, como 0.04, 0.01 o 0.002)
o valor de p. Basándose en esta probabilidad, se decidirá rechazar o no la hipótesis nula. Así, cuanto
menor sea el valor de p, menor será la probabilidad de que los resultados obtenidos se deban al azar y
mayor evidencia habrá en contra de la hipótesis nula. Si dicha probabilidad es menor que un valor de p
fijado previamente (habitualmente se toma p<0.05), la hipótesis nula se rechazará. Así, cuando el valor
de p está por debajo de 0.05, se afirmará que el resultado es estadísticamente significativo y será no
17

significativo en caso contrario.


Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Sin embargo, es importante no olvidar que estamos tomando la decisión de rechazar una hipótesis con
base en los resultados obtenidos en una muestra. Cuando se extrae una muestra existe la probabilidad
de cometer errores. La probabilidad de cometer un error tipo I, es lo que mide precisamente el grado
de significación p.

18
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


PRUEBAS DE ASOCIACIÓN
La correlación es la forma numérica en la que la estadística ha podido evaluar la relación de dos
variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente.

Para poder entender esta relación tendremos que analizarlo en forma gráfica:

edad peso Si tenemos los datos que se presentan en la tabla y consideramos que
la edad determina
demanda
el peso de las personas entonces podremos observar
15 60 la siguiente gráfica:
150
1698 47
30 75 100 2045 15
50 1348 100
18 67 1268 120
0

42 80 1000 1500 2000

28 60

19 65

31 92
Donde los puntos representan cada uno de los pares ordenados y la
línea podría ser una recta que represente la tendencia de los datos, que
en otras palabras podría decirse, que se observa que a mayor edad mayor peso.

La correlación se puede explicar con la pendiente de esa recta estimada y de esta forma nos podemos
dar cuenta que también existe el caso en el que al crecer la variable independiente decrezca la variable
dependiente. En aquellas rectas estimadas cuya pendiente sea cero entonces podremos decir que no
existe correlación. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra.
En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre
ellas.

Así en estadística podremos calcular la correlación para datos no agrupados y agrupados.

La correlación refleja si existe relación o asociación entre dos variables, no se habla de causalidad
(causa-efecto) por lo que no hay una variable dependiente y una independiente, aunque puede suceder
que una variable sea antecedente de otra. Un uso muy importante de la correlación es la determinación
de la “confiabilidad test- retest” de los instrumentos de prueba. La confiabilidad test-retest significa
que existe consistencia en los puntajes obtenidos en aplicaciones repetidas de la prueba.

Las técnicas correlacionales nos permiten cuantificar la relación entre los puntajes obtenidos en las dos
aplicaciones y, de esta manera, medir la confiabilidad test- retest del instrumento. La correlación sirve
principalmente para averiguar si existe una relación y para determinar su magnitud (fuerza) y dirección
(si esta es positiva o negativa) de esta.
19

El coeficiente de correlación expresa de manera cuantitativa la magnitud y dirección de una relación y


puede adquirir valores de –1 a 1, incluyendo el cero, −1 ≤ r ≤ 1.
Página

Sus características son:

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
 El signo indica el sentido de la relación, una correlación negativa representa una asociación
inversamente proporcional, es decir, a medida que una variable se incrementa, la otra
disminuye; por otro lado, en una correlación positiva o directamente proporcional, a medida
que aumenta una, la otra también se incrementa.
 La magnitud de la relación está dada por el valor del coeficiente y se interpreta como sigue:
0 hasta 0.299 No hay relación entre las variables (nula)
0.3 hasta antes de 0.499 La relación es baja (débil)
0.5 hasta antes de 0.799 La relación es moderada
0.8 a 1 hay una correlación alta (fuerte) entre las variables

 La ausencia de asociación lineal no significa necesariamente que las variables no tengan relación
entre sí. Existen muchas variables con una correlación de tipo curvilíneo y debe ser evaluada de
otra manera.
Una forma gráfica de ver la relación entre variables son las gráficas de dispersión o dispersigrama
(gráfica de pares de valores X y Y), donde cada punto representa el lugar en que se cruzan las
calificaciones de la primera variable (X) y la segunda variable (Y) para cada participante. Si se traza una
línea que cruce la mayoría de los puntos se puede apreciar el tipo de relación. Existen varios tipos de
correlación:

1.- Correlación directa


La correlación directa se da cuando al aumentar una de las variables la otra aumenta. La recta
correspondiente a la nube de puntos de la distribución es una recta creciente.

2.- Correlación inversa


La correlación inversa se da cuando al aumentar una de las variables la otra disminuye. La recta
correspondiente a la nube de puntos de la distribución es una recta decreciente.

20
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
3.- Correlación nula
La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables. En este caso
se dice que las variables no correlacionan y la nube de puntos tiene una forma redondeada.

Grado de Correlación

El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se
pueden dar tres tipos:

1. Correlación fuerte: la correlación será fuerte cuanto más cerca estén los puntos de la recta.

2. Correlación débil: la correlación será débil cuanto más separados estén los puntos de la recta.

3. Correlación nula
21
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Regresión Lineal
La regresión consiste en estimar valores de una variable, conociendo ya antes los valores de otra
variable. Es decir, con la regresión se puede conocer una variable a partir de otra. Ejemplo a partir de
la estatura de una persona se conoce su peso; de la capacidad lingüística su comprensión en el estudio,
de su inteligencia su posibilidad de aprobar un examen, etc.

Las variables son: la PREDICTOR y la PREDICTANDO; la INDEPENDIENTE y la DEPENDIENTE.


Los datos se marcan en una gráfica de dispersión uniendo los puntos consecuencia de unir en las
coordenadas los valores de las variables X y Y.

Las coordenadas se usan también para ver qué tipo de regresión es, pues puede ser rectilínea, circular,
elíptica, etc. Por medio de la representación en el eje de coordenadas se obtiene la LINEA DE AJUSTE,
lo cual se logra por medio de la ecuación de la recta.

22
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Coeficiente de Correlación Producto-Momento de Pearson (r)
La función de la correlación de Pearson es determinar si existe una relación lineal entre dos variables
de intervalo y que esta relación no sea debida al azar (que la relación sea estadísticamente significativa).

La correlación producto-momento de Pearson es una prueba de Asociación, de la cual se obtiene un


valor, mismo que mide el grado de correlación o relación entre los puntajes obtenidos en dos variables.

Esta prueba permite estudiar hasta dónde los puntajes altos en una variable tienden a asociarse con
puntajes altos en la otra, y si los puntajes bajos en una tienden a asociarse con puntajes bajos en la
otra. La prueba de Pearson tiene en cuenta los valores reales de los puntajes al calcular el grado de
correlación entre dos variables. Por eso, en esta prueba si es importante que las dos variables se midan
con la misma escala.

El r refleja el grado de correlación y lo expresa con un número que va desde –1 (correlación negativa
perfecta) pasa por 0 (no existe correlación) hasta +1 (correlación positiva perfecta). Mientras más
cercano sea el valor observado de r a 1, más probablemente será significativo. Para que sea significativo,
el valor observado de Pearson (r) debe ser igual o mayor que los valores críticos indicados en la tabla.

La correlación de Pearson se calcula mediante la siguiente fórmula:


𝑟𝑝= 𝑁 ∑ 𝑋𝑌−(∑ 𝑋)(∑ 𝑌)
2
√[𝑁 ∑ 𝑋2−(∑ 𝑋) ][𝑁 ∑ 𝑌2−(∑ 𝑌)2 ]

Dónde:
N = número de participantes.
X, Y = calificaciones de las variables a relacionar.
∑XY = Multiplicar X por Y y sumar.
∑X y ∑Y= Sumar valores de cada variable.
(∑X)² y (∑Y)² = El total de la suma de cada condición elevado al cuadrado.
∑X² y ∑b² = Elevar cada valor al cuadrado y sumarlos.

Procedimiento para calcular la r


1. Calcular la correlación de Pearson r, sustituyendo en la fórmula:

𝑟𝑝= 𝑁 ∑ 𝑋𝑌−(∑ 𝑋)(∑ 𝑌)


2
√[𝑁 ∑ 𝑋2−(∑ 𝑋) ][𝑁 ∑ 𝑌2−(∑ 𝑌)2 ]

2. Se debe buscar el valor de tabla para la correlación Pearson, para ello se calculan los grados de
libertad (gl = N – 1) y se establece el nivel de significancia para probar la H0.
23
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Regla de decisión
Si el coeficiente obtenido es mayor o igual al coeficiente de tabla se acepta la hipótesis de
investigación.

Si 𝑟 obtenido ≥ 𝑟 crítico se rechaza la H0 y se aceptaH1


Si 𝑟 obtenido<𝑟 crítico se rechaza la H1 y se aceptaH0
Tabla de varios niveles de significancia del coeficiente de correlación de Pearson (tabla 1)

24
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
EJEMPLO: se desea saber si existe relación entre la autoestima y la depresión en estudiantes de
preparatoria. Para ello, un investigador aplica una escala de depresión (X) en la que los estudiantes con
calificaciones más altas tienen mayor depresión; también utiliza una escala de autoestima (Y) en la que
los puntajes mayores indican mayor autoestima. Los resultados se muestran a continuación:
Redactar la conclusión con un nivel de significancia α= 0.05

H0: no existe relación entre la depresión y la autoestima en estudiantes de preparatoria.


H1: existe relación entre la depresión y la autoestima en estudiantes de preparatoria.

Depresión Autoestima XY X2 Y2
X Y
26 8 208 676 64
24 12 288 576 144
18 26 468 324 676
17 29 493 289 841
18 30 540 324 900
7 31 217 49 961
15 19 285 225 361
20 18 360 400 324
18 28 504 324 784
∑X= 163 ∑Y= 201 ∑XY= 3363 ∑ X2=3187 2=
∑ Y 5055
(∑X)2= 26569 (∑Y)2= 40401 N=9

Sustituyendo valores en la formula.


𝟗(𝟑𝟑𝟔𝟑)−(𝟏𝟔𝟑)(𝟐𝟎𝟏)
𝑟 obtenido = = -0.761
√[𝟗(𝟑𝟏𝟖𝟕)− (𝟐𝟔𝟓𝟔𝟗)][𝟗(𝟓𝟎𝟓𝟓)−(𝟒𝟎𝟒𝟗)]
Obtener r de tabla (tabla 1)
En este caso con 9 participantes: gl = 9 – 1 = 8, por lo que r de tabla al nivel de significancia de 0.05 es
r crítico =0.6319. Observando el coeficiente obtenido de robtenido=-0.761, éste es mayor al compararlo con
el de tabla (no se debe considerar el signo) por lo que la hipótesis nula se rechaza, entonces: existe una
relación entre el puntaje de depresión y el de autoestima en estudiantes de preparatoria. Además esta
relación es moderada (está en el rango de 0.5 a 0.799) e inversamente proporcional (ya que tiene signo
negativo).

CONCLUSIÓN:
Se encontró una relación estadísticamente significativa, moderada e inversamente proporcional,
entre el puntaje de depresión y el de autoestima en estudiantes de preparatoria (rP = -0.761, p < 0.05) 25
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
SPSS
Vamos a declarar primero las variables en SPSS

La prueba de Pearson en el paquete estadístico SPSS se encuentra en Analizar /


Correlaciones/Bivariadas.

Ahora necesitamos enviar las variables quese deseen correlacionar a la ventana de Variables.

Después, seleccionar los Coeficientes de correlación los cuales pueden ser Pearson dependiendo del
nivel de medición de las variables.

26
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Dar click en el botón Opciones y
seleccionar Medias y desviaciones
típicas, dar click en Continuar y después
en Aceptar.

Los resultados para el ejemplo anterior


serían los siguientes:
En el paquete estadístico siempre se
presenta una matriz de correlación, en
ésta se tienen todas las variables
incluidas en el análisis en los renglones y
se repiten en las columnas, en el lugar en
que se cruza cada par de variables se
tiene el coeficiente de Pearson y el nivel
de significancia obtenido, además del
número de casos (ver datos en el círculo), como puede verse en la tabla de resultados, esta organización
nos presenta información redundante (la correlación entre la pareja de variables siempre se repite dos
veces, se pueden tomar los resultados de cualquiera de las dos).

Regla de decisión para la tabla de resultados en SPSS:


Si el nivel de significancia (Sig. Asintót (bilateral)) es menor o igual a 0.05, se rechaza la hipótesis nula.
Sig. Asintót (bilateral) es ≤ a 0.05 se rechaza la hipótesis nula

En el presente ejemplo se tiene una significancia de 0.017, menor a 0.05, por lo que se rechaza la
hipótesis nula, entonces: existe una relación entre el puntaje de depresión y el de autoestima en
estudiantes de preparatoria. Además esta relación es moderada e inversamente proporcional (tiene
signo negativo).
Correlaciones

Reporte de resultados de la correlación Pearson


Para esta prueba se puede utilizar una gráfica de dispersión poniendo los valores de la primer variable
en X y los de la segunda variable en Y (forma 1), aunque se puede hacer también un diagrama ligando
ambas variables con una flecha doble (forma 2). En cualquiera de las dos formas se deben mencionar
el valor de la prueba estadística y el nivel de significancia con que se está rechazando, o aceptando, la
hipótesis nula. Se puede poner el valor de probabilidad obtenido o simplemente decir que es menor, o
27

mayor, al valor que hayamos elegido para la prueba de hipótesis. Además se debe escribir la conclusión
a la que se llega.
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
CONCLUSIÓN:
Se encontró relación estadísticamente significativa, moderada e inversamente proporcional, entre el
puntaje de depresión y el de autoestima en estudiantes de preparatoria (rP = -0.761, p < 0.05).

28
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Coeficiente de Correlación de Spearman de Rangos Ordenados (rho)

La función de la correlación de Spearman es determinar si existe una relación lineal entre dos variables
ordinales, y que esta relación no sea debida al azar (que la relación sea estadísticamente significativa).
Aunque una de las variables pueda ser de intervalo, de cualquier manera se utiliza esta prueba si una
de las dos está medida a nivel ordinal.

Esta es una prueba de asociación que mide el grado de correlación entre los puntajes obtenidos en dos
variables y que indica el nivel de significación de la correlación observada. Debe usarse cuando los datos
experimentales se miden en una escala ordinal o cuando los datos no cumplen los otros supuestos
necesarios para las pruebas paramétricas.

Lógica de la prueba
Si se predice que dos variables se correlacionan positivamente, los participantes que obtienen puntajes
bajos en una de ellas también deben obtener puntajes bajos en la otra, y los que obtienen puntajes
altos en una de ellas también deben obtener puntajes altos en la otra. Sin embargo, si no existe
correlación, es decir, si los puntajes están distribuidos al azar, como lo predice la hipótesis nula, los
rangos estarán mezclados puesto que un participante puede haber obtenido un rango alto en una de
las variables y un rango bajo en la otra.

La prueba de Spearman calcula las diferencias entre los rangos para los dos conjuntos de puntajes. Para
calcular el estadístico llamado rho se restan estas diferencias de 1. Es evidente que mientras más
pequeñas sean las diferencias entre los rangos de las dos condiciones, mayor será el valor de rho, es
decir, más se acercará a +1.

Para que el valor observado de rho pueda considerarse significativo, debe ser igual o mayor que los
valores críticos que se encuentran en la tabla.

La correlación de Spearman se calcula mediante la siguiente fórmula:

6 ∑ 𝑑2
𝑟ℎ𝑜 = 1 −
𝑁(𝑁 2 − 1)

Dónde:
N = número de participantes
d2 = diferencias entre los rangos asignados a las variables elevadas al cuadrado
29
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Procedimiento:
1. Ordene por rango los puntajes de la variable X, asignando 1 al puntaje más bajo y así
sucesivamente.

2. Calcule la diferencia (d) entre cada


par de rangos de X y de Y.
3. Eleve al cuadrado cada diferencia entre los rangos de X y Y.
4. Sume las diferencias elevadas al cuadrado para obtener ∑d²
5. Cuente el número de participantes (N)
6. Encuentre el valor de rho con la siguiente fórmula:
6 ∑ 𝑑2
𝑟ℎ𝑜 = 1 −
𝑁(𝑁 2 − 1)

7. Se debe buscar el valor de tabla del coeficiente Spearman en la tabla 2, para ello se utiliza el número
de casos (N) y el nivel de significancia elegido para probar la hipótesis nula.

Regla de decisión
Si el coeficiente Spearman obtenido es mayor o igual al de la tabla se rechaza la hipótesis nula.
Si 𝑟ℎ𝑜 obtenido ≥𝑟ℎ𝑜 crítico se rechaza la H0 y se aceptaH1
Si 𝑟ℎ𝑜 obtenido<𝑟ℎ𝑜 crítico se rechaza la H1 y se aceptaH0 30
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia del coeficiente de correlación de Spearman (tabla 2)

31
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
EJEMPLO: Se desea saber si existe relación entre la actitud hacia el psicólogo (X) y la actitud hacia la
psicoterapia (Y), en un grupo de padres de familia. La actitud es evaluada como sigue: 1 = muy
desfavorable hasta 7 = muy favorable. Los resultados se muestran a continuación:

Redactar la conclusión con un nivel de significancia α= 0.05

H0: no existe relación entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en
padres de familia.

H1: existe relación entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en padres
de familia.

Actitud hacia el Actitud hacia Rango Rango


Psicólogo Psicoterapia X Y d d2
X Y
6 7 8 9 -1 1
7 5 9 7 2 4
5 4 7 6 1 1
3 2 5 2.5 2.5 6.25
4 6 6 8 -2 4
2 3 3 4.5 -1.5 2.25
2 3 3 4.5 -1.5 2.25
1 2 1 2.5 -1.5 2.25
2 1 3 1 2 4
N=9 ∑ d2= 27

Sustituyendo valores en la formula.


6 (27)
𝑟 obtenido = 1 – 9(81−1) = 0.769
Obtener rho de tabla (tabla 2)
El coeficiente en la tabla de valores críticos de correlación Spearman, con 9 casos al 0.05 de
significancia, es igual a 0.700, el coeficiente Spearman obtenido (0.769) es mayor al de tabla por lo que
se rechaza la hipótesis nula, entonces: existe relación lineal entre la actitud hacia el psicólogo y la
actitud hacia la psicoterapia, en padres de familia. Esta relación es moderada (está en el rango entre
0.5 y 0.8) y directamente proporcional (tiene signo positivo).

CONCLUSIÓN:
Se encontró una relación estadísticamente significativa, moderada y directamente proporcional,
entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en padres de familia (rho = 0.769,
p = 0.05).
32
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
SPSS
Vamos a declarar primero las variables en spss

La prueba de Spearman en el paquete estadístico SPSS se encuentra en Analizar / Correlaciones /


Bivariadas.
Ahora necesitamos enviar las variables que se deseen
correlacionar a la ventana de Variables.

Después, seleccionar los Coeficientes de correlación


de Spearman dependiendo del nivel de medición de
las variables.

Dar click en Aceptar.


Los resultados para el ejemplo anterior serían los siguientes:

En el paquete estadístico SPSS, siempre se presenta una matriz de correlación, en ésta se tienen todas
las variables incluidas en el análisis en los renglones y se repiten en las columnas, en el lugar en que se
cruza cada par de variables se tiene el coeficiente de Spearman y el nivel de significancia obtenido,
además del número de casos, esta organización presenta información redundante ya que las
correlaciones por cada pareja de variables se repiten siempre 2 veces.

Regla de decisión para la tabla de resultados en SPSS:


Si el nivel de significancia (Sig. Asintót (bilateral)) es menor o igual a 0.05, se rechaza la hipótesis nula.
Sig. Asintót (bilateral) es ≤ a 0.05 se rechaza la hipótesis nula

En el presente ejemplo, el nivel de significancia 𝑟ℎ𝑜 obtenido =0.015 es menor a 0.05, por lo que se rechaza
33

la hipótesis nula, entonces: existe relación entre la actitud hacia el psicólogo y la actitud hacia la
Página

psicoterapia, en padres de familia. Además la correlación es moderada (está en el rango entre 0.5 y 0.8)
y directamente proporcional (tiene signo positivo).
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
Correlaciones

Reporte de resultados de la correlación Spearman


Para esta prueba se puede utilizar una gráfica de dispersión poniendo los valores de la primer variable
en X y los de la segunda variable en Y, aunque se puede hacer también un diagrama ligando ambas
variables con una flecha doble, esta forma es la que se va a usar para ejemplificar los resultados de la
correlación Spearman. En cualquiera de las dos opciones se deben mencionar el valor de la prueba
estadística y el nivel de significancia con que se está rechazando, o aceptando, la hipótesis nula. Se
puede poner el valor de probabilidad obtenido o simplemente decir que es menor, o mayor, al valor
que hayamos elegido para la prueba de hipótesis. Además se debe escribir la conclusión a la que se
llega.

CONCLUSIÓN:
Se encontró una relación estadísticamente significativa, moderada y directamente proporcional,
entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en padres de familia (rho = 0.769,
p = 0.015) (ver diagrama). Estos datos se utilizarán para hacer la discusión posterior de los resultados
encontrados en el estudio

34
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
CHI-CUADRADA (X2)
Es una distribución de probabilidad. La prueba de chi cuadrada compara las frecuencias observadas en
cada una de las celdas de una tabla de contingencia con las frecuencias esperadas (E) para cada una,
para determinar si las diferencias se deben al azar, como lo afirma la hipótesis nula (Ho).

El estadístico X² (que se pronuncia chi cuadrada o ji cuadrada) refleja el tamaño de las diferencias entre
las frecuencias observadas y esperadas. Hay mayor probabilidad de que el resultado sea significativo a
medida que la diferencia entre las frecuencias observadas y esperadas es mayor, por eso el valor
observado de X² debe ser igual o mayor que los valores críticos de la tabla.

Características
 No analiza resultados solo categorías
 Las categorías asignadas es la única medida del comportamiento de los participantes
 La predicción se formula indicando el número de participantes que habrá en cada categoría

Procedimiento para calcular Chi- cuadrada


1. Construir tabla de contingencia
2. Listar las frecuencias observadas (0) de acuerdo a su categoría
3. Calcular las frecuencias esperadas (E) para cada categoría. Esto consiste en multiplicar los
totales marginales para cada variable entre el número total de participantes.
4. Calcular el valor de x2

𝟐
(𝑶 − 𝑬)𝟐
𝒙 =∑
𝑬
5. Calcular los grados de libertad

C=# de columnas gl= (c-1)(r-1)

R=# de filas

35
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
CONCEPTO Y DEFINICIONES
Tabla de contingencia. Se compone de dos vías o entradas y muestra la relación contingente entre dos
variables, cuando estas han sido clasificadas en categorías mutuamente excluyentes y cuando los datos
de cada celda son frecuencias.

Regla de decisión
Si el valor obtenido es mayor o igual al valor crítico de tabla se acepta la hipótesis de investigación.

Si X2 obtenido ≥ X2 crítico se rechaza la H0 y se acepta H1


Si X2obtenido < X2 crítico se rechaza la H1 y se acepta H0

Grados de libertad
Es el número de datos que pueden variar libremente al calcular dicho estadístico.
EJEMPLO
CUANDO USARLA. Cuando se asignan categorías a los participantes y los datos son nominales. Solo
analiza categorías no resultados.

Hipótesis de investigación

El investigador predijo que habría un mayor porcentaje de estudiantes de tecnología. Que adoptarían
hábitos de estudio regular en comparación con estudiantes de ciencias sociales.

Datos de la muestra

100 participantes. Un grupo de 50 estudiantes de ciencias sociales y otro grupo de 50 estudiantes de


tecnología. Se envió un cuestionario a todos los estudiantes en el que se les pedía que indicaran sus
hábitos de estudio de acuerdo a 3 categorías.

1. Estudio regular
2. Estudio irregular concentrado en días puntuales
3. Combinación de los 2 hábitos de estudio anterior

H0: No existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios regulares
en comparación con los estudiantes de ciencias sociales.

H1: Existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios regulares
en comparación con los estudiantes de ciencias sociales.

Se observaron 44 respuestas de estudiantes de ciencias sociales y 42 de estudiantes de tecnología.


36
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Hábitos de estudio

REGULAR IRREGULAR COMBINADA


GPO 1 1 6 2 15 3 23 44
C.S.
GPO 2 4 10 5 8 6 24 42
TECNOLOGIA
16 23 47 86

Frecuencia esperada
𝟏𝟔𝒙𝟒𝟒 𝟏𝟔𝑿𝟒𝟐
C1=E = 8.19 C4=E= =7.81 gl= (3-1)(2-1)=(2)(1) gl=2
𝟖𝟔 𝟖𝟔

𝟐𝟑𝑿𝟒𝟒 𝟐𝟑𝑿𝟒𝟐
C2=E= = 11.77 C5=E= =11.23
𝟖𝟔 𝟖𝟔

𝟒𝟕𝑿𝟒𝟒 𝟒𝟕𝑿𝟒𝟐
C3=E= =24.05 C6=E= =22.95
𝟖𝟔 𝟖𝟔

(𝟔−𝟖.𝟏𝟗)𝟐 (𝟏𝟓−𝟏𝟏.𝟕𝟕)𝟐 (𝟐𝟑−𝟐𝟒.𝟎𝟓)𝟐 (𝟏𝟎−𝟕.𝟖𝟏)𝟐 (𝟖−𝟏𝟏.𝟐𝟑)𝟐 (𝟐𝟒−𝟐𝟐.𝟗𝟓)𝟐


X2= + + + + + =3.11
𝟖.𝟏𝟗 𝟏𝟏.𝟕𝟕 𝟐𝟒.𝟎𝟓 𝟕.𝟖𝟏 𝟏𝟏.𝟐𝟑 𝟐𝟐.𝟗𝟓

(𝑶 − 𝑬)𝟐
𝒙𝟐 = ∑
𝑬

CONSULTAR PROBABILIDADES EN TABLA

Chi cuadrada calculada debe ser mayor que los valores críticos de la tabla.

gl =2 p<0.05

x2crit=5.99

3.11<5.99 aceptamos Ho

No se puede rechazar la hipótesis nula, lo que equivale a decir que la diferencia entre las frecuencias
observables y las frecuencias esperadas no es significativa.

CONCLUSIÓN
No existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios regulares
en comparación con los estudiantes de ciencias sociales. (X2=5.99, gl=2, p>0.05)

Los datos observados no confirman la hipótesis de investigación según la cual habría un número mayor
37

de estudiantes de tecnología que tendría hábitos de estudio regular en comparación con los estudiantes
de ciencias sociales.
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
El hecho de no haber encontrado resultados significantes se debe probablemente al elevado número
de estudiantes que indicaron hábitos de estudios elevados.

La prueba JI cuadrada solo puede comparar relaciones generales entre variables. Lo que equivale a
hipótesis bilateral. El motivo de ello es que las relaciones entre las variables se pueden interpretar de
distintas manera.

SPSS
Vamos a declarar primero las variables en spss

Los valores para la variable GRUPOS sería 1= ciencias


sociales y 2= tecnología y los valores para la variable HAB sería 1=regular, 2=Irregular y 3= combinado.

La prueba de chi-cuadrada en el paquete estadístico SPSS se encuentra en Analizar / estadístico


descriptivos / tabla de contingencia.

En la siguiente ventana pondremos la Variable Dependiente en filas


y la Variable Independiente en columnas.

Posteriormente en la opción estadísticos seleccionamos la opción


CHI-Cuadrada continuar y en la opción casillas habilitamos la opción
columna y continuar. Y damos clic en aceptar.

Los resultados para el ejemplo anterior


serían los siguientes:

38
Página

La primera tabla nos muestra la frecuencia esperada y observada para cada categoría así como su
porcentaje y el total de participantes. La segunda tabla muestra el valor obtenido de Chi-cuadrada que
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
es igual a 3.107 con un nivel de significancia p= 0.212 lo que significa que se acepta la hipótesis nula H0
ya que el valor de p es mayor a 0.05

Por lo tanto, no existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios
regulares en comparación con los estudiantes de ciencias sociales. (X2=3.11, gl=2, p>0.05)

Recursos de apoyo para el tema CHI-CUADRADA


http://es.slideshare.net/sevilla_carlos2004/distribucion-de-chi-cuadrado
https://www.youtube.com/watch?v=j3qFzFyey2Y

REGRESIÓN LINEAL

Introducción
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre
variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de
regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta
diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados
puede utilizarse para determinar en cuál de diferentes medios de comunicación puede resultar más
eficaz invertir; o para predecir el número de ventas de un determinado producto.
En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc.
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables (regresión
múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una
variable llamada dependiente o criterio (Y) y una o más variables llamadas independientes o predictoras
(X1,X2, ...,Xk), así como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de
regresión lleva asociados una serie de procedimientos de diagnóstico (análisis de los residuos, puntos
de influencia) que informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre
cómo perfeccionarlo.

Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión. Al igual que en los
capítulos precedentes, no haremos hincapié en los aspectos más técnicos del análisis, sino que
intentaremos fomentar la compresión de cuándo y cómo utilizar el análisis de regresión lineal, y cómo
interpretar los resultados. También prestaremos atención a otras cuestiones como el chequeo de los
supuestos del análisis de regresión y la forma de proceder cuando se incumplen

La recta de regresión
En el tema anterior (sobre correlación lineal) hemos visto que un diagrama de dispersión ofrece una
idea bastante aproximada sobre el tipo de relación existente entre dos variables. Pero, además, un
diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relación
lineal existente entre dos variables: basta con observar el grado en el que la nube de puntos se ajusta
39

a una línea recta.


Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy rápida
Página

sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de cuantificar esa

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
relación tiene un serio inconveniente: la relación entre dos variables no siempre es perfecta o nula; de
hecho, habitualmente no es ni lo uno ni lo otro.
Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35 marcas de
cerveza y que estamos interesados en estudiar la relación entre el grado de alcohol de las cervezas y su
contenido calórico. Un buen punto de partida para formarnos una primera impresión de esa relación
podría ser la representación de la nube de puntos, tal como muestra el diagrama de dispersión de la
figura 1

Figura 1 Diagrama de dispersión de porcentaje de alcohol por nº de calorías

El eje vertical muestra el número de calorías (por cada tercio de litro) y el horizontal el contenido de
alcohol (expresado en porcentaje). A simple vista, parece existir una relación positiva entre ambas
variables: conforme aumenta el porcentaje de alcohol, también aumenta el número de calorías. En esta
muestra no hay cervezas que teniendo alto contenido de alcohol tengan pocas calorías y tampoco hay
cervezas que teniendo muchas calorías tengan poco alcohol. La mayor parte de las cervezas de la
muestra se agrupan entre el 4,5 % y el 5 % de alcohol, siendo relativamente pocas las cervezas que
tienen un contenido de alcohol inferior a ése. Podríamos haber extendido el rango de la muestra
incluyendo cervezas sin alcohol, pero el rango de calorías y alcohol considerados parece bastante
apropiado: no hay, por ejemplo, cervezas con un contenido de alcohol del 50 %, o cervezas sin calorías.
¿Cómo podríamos describir los datos que acabamos de proponer? Podríamos decir simplemente que
el aumento del porcentaje de alcohol va acompañado de un aumento en el número de calorías; pero
esto, aunque correcto, es poco específico. ¿Cómo podríamos obtener una descripción más concreta de
los resultados? Podríamos, por ejemplo, listar los datos concretos de que disponemos; pero esto,
aunque preciso, no resulta demasiado informativo.
Podríamos hacer algo más interesante. Por ejemplo, describir la pauta observada en la nube de puntos
mediante una función matemática simple, tal como una línea recta. A primera vista, una línea recta
podría ser un buen punto de partida para describir resumidamente la nube de puntos de la figura 1.
Puesto que una línea recta posee una fórmula muy simple
𝑌 =𝑎 +𝑏 𝑋

Podemos comenzar obteniendo los coeficientes B0 y B1 que definen la recta. El coeficiente b es la


pendiente de la recta: el cambio medio que se produce en el número de calorías (Y) por cada unidad de
cambio que se produce en el porcentaje de alcohol (X). El coeficiente a es el punto en el que la recta
corta el eje vertical: el número medio de calorías que corresponde a una cerveza con porcentaje de
40

alcohol cero. Conociendo los valores de estos dos coeficientes, se podría reproducir la recta y describir
con ella la relación existente entre el contenido de alcohol y el número de calorías. Aunque no entremos
Página

todavía en detalles de cómo obtener los valores de a y b, sí podemos ver cómo es esa recta (figura 2).

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Figura 2 Diagrama de dispersión y recta de regresión (% de alcohol por nº de calorías).

Vemos que, en general, la recta hace un seguimiento bastante bueno de los datos. La fórmula de la
recta aparece a la derecha del diagrama. La pendiente de la recta (b) indica que, en promedio, a cada
incremento de una unidad en el porcentaje de alcohol (Xi) le corresponde un incremento de 37,65
calorías (Y). El origen de la recta (a) sugiere que una cerveza sin alcohol (grado de alcohol cero) podría
contener –33,77 calorías. Y esto, obviamente, no parece posible.
Al examinar la nube de puntos vemos que la muestra no contiene cervezas con menos de un 2% de
alcohol. Así, aunque el origen de la recta aporta información sobre lo que podría ocurrir si extrapolamos
(Aplicar un criterio conocido a otros casos similares para extraer conclusiones o hipótesis) hacia abajo la pauta
observada en los datos hasta llegar a una cerveza con grado de alcohol cero, al hacer esto estaríamos
efectuando pronósticos en un rango de valores que va más allá de lo que abarcan los datos disponibles,
y eso es algo extremadamente arriesgado en el contexto del análisis de regresión.

La mejor recta de regresión


En una situación ideal (e irreal) en la que todos los puntos de un diagrama de dispersión se encontraran
en una línea recta, no tendríamos que preocuparnos de encontrar la recta que mejor resume los puntos
del diagrama. Simplemente uniendo los puntos entre sí obtendríamos la recta con mejor ajuste a la
nube de puntos. Pero en una nube de puntos más realista (como la de las figuras 1 y 2) es posible trazar
muchas rectas diferentes. Obviamente, no todas ellas se ajustarán igualmente bien a la nube de puntos.
Se trata de encontrar la recta capaz de convertirse en el mejor representante del conjunto total de
puntos.
Existen diferentes procedimientos para ajustar una función simple, cada uno de los cuales intenta
minimizar una medida diferente del grado de ajuste. La elección preferida ha sido, tradicionalmente, la
recta que hace mínima la suma de los cuadrados de las distancias verticales entre cada punto y la recta.
Esto significa que, de todas las rectas posibles, existe una y sólo una que consigue que las distancias
verticales entre cada punto y la recta sean mínimas (las distancias se elevan al cuadrado porque, de lo
41

contrario, al ser unas positivas y otras negativas, se anularían unas con otras al sumarlas).
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Bondad de ajuste
Además de acompañar la recta con su fórmula, podría resultar útil disponer de alguna indicación precisa
del grado en el que la recta se ajusta a la nube de puntos. De hecho, la mejor recta posible no tiene por
qué ser buena.
Imaginemos una situación como la presentada en el diagrama de la figura 3, en el que la recta consigue
un ajuste bastante más pobre que en el caso de la figura 2. Ahora hemos representado el porcentaje
de alcohol de las cervezas (eje horizontal) y el precio de las mismas (eje vertical). Y no parece existir la
misma pauta de relación detectada entre las variables de la situación anterior.
Así pues, aunque siempre resulta posible, cualquiera que sea la nube de puntos, para obtener la recta
mínimo-cuadrática, necesitamos información adicional para determinar el grado de fidelidad con que
esa recta describe la pauta de relación existente en los datos.

Figura 3. Diagrama de dispersión, recta de regresión y ajuste (% de alcohol por precio).

¿Cómo podemos cuantificar ese mejor o peor ajuste de la recta? Hay muchas formas de resumir el
grado en el que una recta se ajusta a una nube de puntos. Podríamos utilizar la media de los
residuos, o la media de los residuos en valor absoluto, o las medianas de alguna de esas medidas,
etc.
Una medida de ajuste que ha recibido gran aceptación en el contexto del análisis de regresión es el
coeficiente de determinación R2: el cuadrado del coeficiente de correlación múltiple. Se trata de
una medida estandarizada que toma valores entre 0 y 1 (0 cuando las variables son independientes
y 1 cuando entre ellas existe relación perfecta).
Este coeficiente posee una interpretación muy intuitiva: representa el grado de ganancia que
podemos obtener al predecir una variable basándonos en el conocimiento que tenemos de otra u
otras variables. Si queremos, por ejemplo, pronosticar el número de calorías de una cerveza sin el
conocimiento de otras variables, utilizaríamos la media del número de calorías. Pero si tenemos
información sobre otra variable y del grado de relación entre ambas, es posible mejorar nuestro
pronóstico. El valor R2 del diagrama de la figura 2 vale 0,83, lo que indica que si conocemos el
porcentaje de alcohol de una cerveza, podemos mejorar en un 83 % nuestros pronósticos sobre su
número de calorías si, en lugar de utilizar como pronóstico el número medio de calorías, basamos
nuestro pronóstico en el porcentaje de alcohol. Comparando este resultado con el correspondiente
al diagrama de la figura 3 (donde R2 vale 0,06) comprenderemos el valor informativo de R2: en este
42

segundo caso, el conocimiento del contenido de alcohol de una cerveza sólo nos permite mejorar
Página

nuestros pronósticos del precio en un 6 %, lo cual nos está indicando, además de que nuestros
pronósticos no mejoran de forma importante, existe un mal ajuste de la recta a la nube de puntos.
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
Parece evidente, sin tener todavía otro tipo de información, que el porcentaje de alcohol de las
cervezas está más relacionado con el número de calorías que con su precio.

Resumen
En este primer apartado introductorio hemos aprendido que el análisis de regresión lineal es una
técnica estadística que permite estudiar la relación entre una variable dependiente (VD) y una o más
variables independientes (VI) con el doble propósito de:
1) Averiguar en qué medida la VD puede estar explicada por la(s) VI.
2) Obtener predicciones en la VD a partir de la(s) VI.

El procedimiento implica, básicamente, obtener la ecuación mínimo-cuadrática que mejor expresa la


relación entre la VD y la(s) VI y estimar mediante el coeficiente de determinación la calidad de la
ecuación de regresión obtenida. Estos dos pasos deben ir acompañados de un chequeo del
cumplimiento de las condiciones o supuestos que garantizan la validez del procedimiento.

43
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
EJERCICIOS DE TAREA DE CORRELACIONES
De los siguientes ejercicios lee y determina qué tipo de variables son y cuál es su nivel de medición, obtén el
Coeficiente de Correlación de Pearson o Spearman (según los niveles de medición de las variables), el Diagrama
de dispersión, redacta las Hipótesis Nula y de Investigación y las conclusiones en base a los resultados
obtenidos.
1.- Para investigar la relación entre la ortografía y la habilidad para la lectura, un investigador aplicó exámenes
de ortografía y de lectura a un grupo de 20 estudiantes seleccionados aleatoriamente de una gran población de
estudiantes no graduados. Se obtuvieron los siguientes resultados. Utiliza un α=0.05.
Estudiante Puntaje de Puntaje de
ortografía lectura
A 52 56
B 90 81
C 63 75
D 81 72
E 93 50
F 51 45
G 48 39
H 99 87
I 85 59
J 57 56
K 60 69
L 77 78
M 96 69
N 62 57
O 28 35
P 43 47
Q 88 73
R 72 76
S 75 63
T 69 79

2.- Para averiguar la validez de un determinado examen de lectura, los investigadores lo aplicaron a una muestra
de 20 estudiantes cuya habilidad para leer había sido previamente colocada por rangos por su profesor. El
puntaje del examen y el puntaje que el profesor dio para cada estudiante se enumeran a continuación: Utiliza
un α=0.05.
Estudiante Puntaje lectura Puntaje del
profesor
A 28 18
B 50 17
C 92 1
D 85 6
E 76 5
F 69 10
G 42 11
H 53 12
I 80 3
J 91 2
K 73 4
L 74 9
M 14 20
N 29 19
O 86 7
44

P 73 8
Q 39 16
R 80 13
Página

S 91 15
T 72 14

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
3.- Se analiza la relación entre el desempeño del equipo y la nómina de los equipos de beisbol de la liga
Americana. La nómina de los equipos de la Liga Americana se mide en millones de dólares por equipo, mientras
que el desempeño se mide por el número de juegos ganados en la temporada, lo que quiere evaluarse es si existe
relación entre el gasto y el desempeño de los equipos profesionales de beisbol. Los datos se muestran en la
siguiente tabla. Utiliza un α=0.05.
Participante X y
1 8 12
2 9 11
3 8.5 6
4 16 11
5 12 10
6 10 8
7 12 6.3
4.- Como parte de un estudio sobre el efecto de la presión del grupo sobre el conformismo individual en una situación que
implica riesgo monetario, dos investigadores administraron la escala F, una medida de autoritarismo (a mayor valor mayor
autoritarismo) y una escala diseñada para medir estatus de lucha social a 12 estudiantes. Se deseaba tener información
acerca de la correlación entre las puntuaciones de autoritarismo y aquellas de estatus de lucha social. Las puntuaciones
fueron las siguientes: Utiliza un α=0.05.

PARTICIPANTE X Y
A 82 42
B 98 46
C 87 39
D 40 37
E 116 65
F 113 88
G 111 86
H 83 56
I 85 62
J 126 92
K 106 54
L 117 81
5.- Un investigador suponía que el desempeño de los alumnos de la carrera de medicina en materias
afines y sinérgicas podría ser semejante. Para comprobar lo anterior, aplicó dos exámenes a un grupo
de diez alumnos (mientras más grande sea el valor mejor estudiante es). Al aplicarles un examen de
anatomía y otro de embriología, el investigador tenía la pretensión de averiguar si los estudiantes con
puntuaciones bajas en una materia obtenían puntuaciones bajas en la otra y si quienes obtenían
puntuaciones altas en una materia también lograban puntuaciones altas en la otra.

A continuación se muestran los resultados que consisten en aciertos obtenidos en una y otra materia
y expresados en números enteros. Utiliza un α=0.01.

Alumno Aciertos Aciertos


anatomía embriología
1 65 74
2 72 61
3 75 69
4 82 90
5 50 51
6 95 79
45

7 87 95
8 53 52
9 83 77
Página

10 64 63

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
6.- Kellog´s quiere saber si existe una relación entre salario y estrés. La siguiente tabla lista el salario para cada
empleado y el estrés (medido en una escala de 1=no hay estrés y 10= muy estresado) de empleos
seleccionados al azar. ¿Parece que el salario se incrementa a medida que se incrementa el estrés? Utiliza un
α=0.01.

Empleo salario estrés


Corredor de bolsa 2 2
Zoólogo 6 7
Ingeniero eléctrico 3 6
Director de escuela 5 4
Gerente de hotel 7 5
Funcionario bancario 10 8
Inspector de seguridad laboral 9 9
Economista doméstico 8 10
Psicólogo 4 3
Piloto de aerolínea 1 1

6.- ¿Cuáles de las siguientes variables tiene más probabilidad de mostrar una correlación claramente
positiva? ¿Cuáles no tiene ninguna probabilidad de mostrar correlación?
a) Estatura y número de pie
b) Número de entradas de cine vendidas y número de espectadores.
c) Cantidad de espinacas consumidas y número de aciertos en las quinielas de fútbol.

7.- ¿Cuáles de las siguientes correlaciones tiene probabilidad de ser correlaciones positivas o negativas?
a) Las temperaturas en invierno y el consumo de electricidad.
b) Índices de pluviosidad y cifras de ventas de paraguas.

8.- ¿Cuál de los tres coeficientes de correlación siguientes expresa las correlaciones más alta y más
baja?
+0.5 0 -0.9

46
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
PRUEBAS PARAMÉTRICAS O DE COMPARACIÓN
En estas pruebas se comparan grupos o mediciones e intervienen dos tipos de variables.
Variable dependiente (V.D), es el fenómeno o proceso que se va a medir, sus variaciones dependen de
la variable independiente.
Variable Independiente (V.I), es la variable que identifica los tratamientos empleados para influir sobre
la V.D., esta define los grupos que van a ser comparados.

Las pruebas estadísticas paramétricas, como la de la “t” de Student o el análisis de la varianza (ANOVA),
es más potentes que las no paramétricas y se basan en que se supone una forma determinada de la
distribución de valores, generalmente la distribución normal, en la población de la que se obtiene la
muestra experimental.

La estadística paramétrica necesita cumplir con 4 requisitos para poderse aplicar:


1.- La Variable Dependiente (V. D.) debe distribuirse normalmente o muy similar.
2.- Homocedasticidad u Homogeneidad de varianzas o varianzas iguales: que cuando se
comparan grupos estos tengan la misma disp.
ersión con respecto de la media de la V.D.
3.- Asignación y selección aleatoria de los grupos.
4.- Que la Variable Dependiente (V. D) esté medida a nivel Intervalar.

Las pruebas paramétricas t están diseñadas para comprobar diferencias entre dos condiciones, utilizan
datos de Intervalo (se llaman así porque los intervalos entre resultados se consideran iguales,
permitiendo realizar cálculos numéricos en lugar de limitarse a clasificar los resultados).

Un principio general de las pruebas paramétricas es que la Varianza se calcula elevando los resultados
al cuadrado y sumándolos según diversas combinaciones. Cuando se usan pruebas paramétricas t el
término usual para describir la variabilidad es varianza. La varianza representa un cálculo aproximado
de la variabilidad en los resultados. La varianza esperada representa las diferencias entre las dos
condiciones que se espera encontrar en los resultados esto debido al efecto de la Variable
Independiente (V.I) seleccionada por el investigador. La varianza total representa el total de
variabilidad en los resultados que incluye la varianza debida a las diferencias pronosticadas y la varianza
debida a diferencias irrelevantes entre los distintos participantes (todas las variables que afectan a la
actuación de los participantes).

Las pruebas paramétricas t verifican si la varianza esperada es lo bastante elevada como para producir
un ratio de varianza elevado en el cual la varianza esperada entre dos condiciones es relativamente alta
en comparación con la varianza total.

La prueba t
Cuando se investiga en un nivel explicativo, la forma más simple de un diseño de investigación es
cuando se manipula una única Variable Independiente (VI) aplicando dos tratamientos y se observan
47

sus efectos en una única Variable Dependiente (VD). Muchas veces en vez de tener dos tratamientos
se compara un grupo control con una condición experimental (un tratamiento).
Página

Algunos ejemplos de este tipo de diseños son:


Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
1. ¿Existen diferencias en el rendimiento académico entre un grupo de estudiantes que escucha
música respecto de los que no la escuchan?
2. ¿En los tratamientos para la depresión, en el grupo en el que se utilizan fármacos + terapia es
más efectivo que en el que únicamente utiliza la terapia?
3. ¿En un tratamiento contra la fobia a las arañas (aracnofobia) la ansiedad es diferente si se realiza
una desensibilización sistemática utilizando fotografías de arañas o una terapia de implosión
con arañas reales?

La prueba t permite responder a estas preguntas.

Existen dos tipos de pruebas t dependiendo de si se utilizaron los mismos o diferentes participantes en
las pruebas.

DISEÑOS:

Distribución t de Student

La prueba t (para muestras relacionadas o dependientes) compara diferencias entre pares de


resultados para los mismos participantes que han sido expuestos a las dos condiciones. La prueba t
(para muestras NO relacionadas o independientes) parte de la base de que no existe fundamento para
comparar los resultados sin más. El objetivo es investigar si la media de los resultados para el grupo de
participantes al que se aplica una de las condiciones es mayor que la media de los resultados para el
grupo de participantes distintos al que se aplica la otra condición.
48
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Consideraciones para usarla
 Después del tratamiento se calculan las medias de los grupos.
 Si no hay efecto de la VI se considera que las muestras provienen de la misma población y por
lo tanto se espera que las medias sean iguales o que las diferencias entre ellas se deban al error
de muestreo. En la H0: μ1= μ2. Por el contrario si existe efecto de la VI, se considera que las
muestras han dejado de formar parte de la misma población por el efecto de la VI y por lo tanto
se rechazaría la Ho.
 En la prueba t se comparan las diferencias entre las medias muestrales obtenidas en los datos.
Y se utiliza el error típico como un cálculo de la variabilidad entre las medias.
 Si existe una gran diferencia en las medias de los grupos es más probable que la hipotesis de
investigación sea cierta (y que se rechace la H0).

Supuestos de la prueba t
Tanto la prueba t para muestras independientes como la prueba t para muestras relacionadas son
pruebas paramétricas basadas en la distribución normal. Por lo tanto, se asume:
 Los datos deben estar medidos al menos en una escala de intervalo.
 Si la distribución de las muestras se distribuye normalmente. En la pruebat para muestras
relacionadas la distribución muestral de las diferencias debe ser normal.
En la prueba t para muestras independientes, en la que tenemos dos grupos distintos de personas, se
asume:
 Que las varianzas de esas poblaciones son iguales (o muy parecidas), para revisar este supuesto
se lleva a cabo el test de Levene.
 Que las puntuaciones son independientes (porque provienen de diferentes personas).

Notas sobre la prueba t de Student:


 Cuando se está investigando la diferencia entre dos promedios (media) de la población, se utiliza
una prueba t. Es decir, que se utiliza cuando deseamos comparar dos medias (las cuales se
deben medir en una escala de intervalo).
 Con una prueba t, tenemos una variable independiente y una dependiente.
 La variable independiente puede solamente tener dos niveles, si la independiente tuviera más
49

de dos niveles, después utilizaríamos un análisis de la variación unidireccional (ANOVA).


 La prueba estadística para t de Student es el valor t. Conceptualmente, la t representa el número
Página

de unidades estándares que están separando las medias de los dos grupos.
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
La prueba t de Student relacionada (mismos grupos, muestras dependientes)
Con la prueba t se comparan las medias y las desviaciones estándar de grupo de datos y se determina
si entre esos parámetros las diferencias son estadísticamente significativas o si sólo son diferencias
aleatorias.
Consideraciones para su uso
 El nivel de medición, debe ser de intervalo.
 El diseño debe ser relacionado.

Cuándo utilizarla
La prueba t relacionada se usa para diseños experimentales con dos condiciones cuando se estudia una
variable independiente y cuando los mismos sujetos (o sujetos igualados) se desempeñan en ambas
condiciones (un diseño relacionado), es decir, cuando las dos condiciones se aplican a los mismos
participantes.

La prueba t relacionada es el equivalente paramétrico de la prueba no paramétrica de Wilcoxon para


diseños relacionados con dos condiciones experimentales.

Lógica de la prueba
El objetivo es comparar las diferencias predichas entre las dos condiciones experimentales con la
variabilidad total de los puntajes. Cuando se tienen los mismos sujetos en ambas condiciones, es
posible comparar los pares de puntajes obtenidos por cada sujeto en cada una de las dos condiciones.
Lo mismo se aplica si hay pares de sujetos igualados respecto a todas las características relevantes. El
estadístico t representa el tamaño de las diferencias entre los puntajes de los sujetos para las dos
condiciones. Para que sea significativo, el valor observado de t tiene que ser igual o mayor que los
valores críticos de t.

Por lo anterior las Hipótesis estadísticas para esta prueba serían:

H1: 1   2
H0: 1   2
H1 = La media de la medicion1 es diferente a la media de la medición 2
H0 = La media de la medicion1 es igual a la media de la medición 2

La prueba t para muestras relacionadas es fácil de calcular, con la siguiente ecuación:

D
t
sD / N

Dónde:
t = valor estadístico de T student.
𝐷̅ = Valor promedio o media aritmética de las diferencias entre los momentos antes y después.
sD = desviación estándar de las diferencias entre los momentos antes y después.
50

N = Tamaño de la muestra.
En esta ecuación se compara la diferencia promedio entre las muestras ( D ) con la diferencia que se
Página

espera encontrar entre las medias de la población (  D ), tomando en cuenta el error estándar de las

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
diferencias ( s D / N ). Si la hipótesis nula es cierta se espera que no hayan diferencias entre la media
de la población es decir  D =0.
La media aritmética de las diferencias se obtiene de la manera siguiente:
∑𝑑
̅=
𝐷
𝑁
Dónde:
𝑑 = es la diferencia de A-B
𝑁 = Número de participantes

La desviación estándar de las diferencias se logra como sigue:

̅ |2
∑|𝑑 − 𝐷
𝑆𝐷 = √
𝑁−1
Dónde:
̅ | = la diferencia de los puntajes y la media de la población.
|𝑑 − 𝐷
̅ |2 = elevar al cuadrado los puntajes de diferencia de la muestra.
|𝑑 − 𝐷
∑|𝑑 − 𝐷̅ |2 = suma de los cuadrados de los puntajes

Procedimiento
1. Ordenar los datos en función de los momentos antes y después, y obtener las diferencias entre
ambos.
̅ ).
2. Calcular la media aritmética de las diferencias (𝐷
3. Calcular la desviación estándar de las diferencias (𝑆𝐷 ).
4. Calcular el valor de t por medio de la ecuación.
5. Calcular los grados de libertad (gl) gl = N - 1.
6. Comparar el valor de t obtenido con respecto al valor de t crítico considerando los grados de
libertad en la tabla D para dos colas o una cola, a fin de obtener la probabilidad.
7. Toma de decisión: Si el valor de t obtenido es mayor o igual que el crítico de las tablas se rechaza
Ho y se acepta H1.

Regla de decisión
Si la tobtenido ≥ t crítico se rechaza Ho y se acepta H1
Si la tobtenido< t crítico se rechaza H1 y se acepta Ho.

Como se escriben los resultados de la prueba t para muestras relacionadas


Existe una forma estándar para informar de las pruebas estadísticas. Usualmente vas a encontrar que
en los artículos de investigación, se informa de la siguiente manera:

CONCLUSIÓN:
 En promedio, a los participantes a los que se les aplico la vacuna, con la segunda aplicación
51

experimentaron de manera significativa una mejoría (M =3.7, SE=0.5587) que en la primera


aplicación (M = 6.4, SE = 0.6699), t (10)=2.8, p < 0.01.
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia para la prueba t de Student Relacionada (tabla 3)

52
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
EJEMPLO
A un grupo de 10 participantes se les aplicó una nueva vacuna contra la gripa y se quería saber cómo
se sentían después de su aplicación. Se cree que después de una segunda aplicación, al tercer día habría
una mejora en su bienestar subjetivo. α = 0.01

Hipótesis estadísticas

Ho:
aplicacion1  aplicacion2
H1: aplicacion1  aplicacion2
H0 = El bienestar subjetivo de los 10 participantes en la segunda aplicación es igual a la primera
aplicación.
H1 = El bienestar subjetivo de los 10 participantes en la segunda aplicación es mejor a la primera
aplicación.

A continuación se presentan los puntajes de cada uno de los sujetos.

D
SS A1 A2 d ̅
d- 𝐷 (d − 𝐷̅) D d
1 10 2 8 8-2.7=5.3 (5.3)2=28.09 t
sD / N N
2 5 1 4 4-2.7=1.3 1.09
3 6 7 -1 -1-2.7=-3.7 13.69
4 3 4 -1 -1-2.7=-3.7 13.69 SD   d  D2 =78.1/9 = √8.67 =
5 9 4 5 5-2.7=2.3 5.29 N 1
6 8 5 3 3-2.7=.3 0.09 2.94
7 7 2 5 5-2.7=2.3 5.29
8 5 5 0 0-2.7=-2.7 7.29 sD / N = 2.9458/3.1622=0.9315
9 6 3 3 3-2.7=.3 0.09
10 5 4 1 1-2.7=-1.7 2.89 Comparar las medias
Suma 64 37 27 78.1
2.7 − 0 2.7
Media 6.4 3.7 2.7 𝑡= = = 𝟐. 𝟖𝟗𝟖
0.9315 0.9315
gl= 10-1 =9 N=10

tobt= 2.898 tcrit= 2.821

2.898 ≥ 2.821 ∴ Aceptamos la hipótesis de investigación en la cual nos dice que existen diferencias entre
la primer aplicación de la vacuna y la segunda.

SPSS
53

Declare las variables en la vista de variables y en la vista de datos capture la información.


Posteriormente vaya al menú, analizar, comparar medias, T de student para muestras relacionadas.
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
En la siguiente ventana envié las variables a analizar, en el botón opciones indique el nivel de
significancia (intervalo de confianza) click en continuar y aceptar

54
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Output de la prueba t para medidas relacionadas

La salida produce 3 tablas. SPSS

Output 1 muestra una tabla resumen de los estadísticos para cada uno de las condiciones
experimentales. En cada condición nos dice cuál es la media, el número de participantes y la
desviación típica de la muestra. En la columna final señala el error estándar, que se calcula con la
desviación estándar dividida por la raíz cuadrada del tamaño de la muestra ( SE  s / N ) por lo
tanto para la primera aplicación de la vacuna 2.1187 / 10  2.1187 / 3.1622  0.6699 .

Output 1:

Estadísticos de muestras relacionadas


Error típ. de la
Media N Desviación típ. media
Par 1 aplicacion1 6,4000 10 2,11870 ,66999
aplicacion2 3,7000 10 1,76698 ,55877

En el output 2 se muestra la correlación de Pearson entre las dos condiciones. Cuando se utilizan
muestras relacionadas es posible que las condiciones experimentales estén correlacionadas, porque los
datos provienen de los mismos participantes. En este caso no existe una correlación (r =- 0.142) y no
es significativa porque p > 0.05.

Output 2:

Correlaciones de muestras relacionadas

N Correlación Sig.
Par 1 aplicacion1 y aplicacion2 10 -,142 ,695

El output 3 muestra la tabla más importante: en esta tabla se señala si las diferencias entre las medias
son suficientemente grandes para no ser consideradas un resultado debido al azar. Primero, la tabla
se obtiene la diferencia promedio entre las medias de las de los tratamientos (i.e. D , la puntuación
promedio es 6.4-3.7 = 2.7). En la tabla se informa de la desviación típica de la diferencia entre las
medias (2.9458) y lo más importante, el error estándar de las diferencias entre la aplicación de la
s 2.9458
vacunas para cada condición ( D   0.93155 ). El estadístico t se calcula dividiendo la media
N 10
de las diferencias por el error estándar de las diferencias t = 2.7/0.93155 = 2.898). Este valor de t se
compara con el valor de la distribución basándose en los grados de libertad y un valor de α). SPSS utiliza
los grados de libertad para calcular la probabilidad exacta del valor de t. Este valor de probabilidad está
55

en la columna etiquetada con Sig. (bilateral).SPSS señala únicamente la probabilidad bilateral (dos
Página

colas). Si en la investigación se hiciera una predicción específica (por ejemplo, que la ansiedad es mayor
cuando se utiliza una araña real) entonces se debe informar de la probabilidad unilateral (de una sola
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
cola) para ello se debe dividir la probabilidad proporcionada por el SPSS entre dos. La probabilidad
bilateral en este caso es muy baja (p < 0.018) lo que significa que existe únicamente un 1.8% de
probabilidad de que un valor de t como el obtenido pueda pasar si la hipótesis nula fuera cierta. En
general se utiliza una p < 0.05 como estadísticamente significativa; por lo tanto, en nuestro caso la p
encontrada es significativa porque es menor que 0.05. El hecho de que el valor de t fuese negativo
quiere decir que en la primera aplicación de la vacuna el promedio fue menor a la de la segunda
aplicación.

Por lo tanto se puede concluir que si existen diferencias entre la primera aplicación de la vacuna y la
segunda, t (10) = 2.898, p < 0.05.

Finalmente, en el output se obtiene el intervalo de confianza del 95% para la diferencia entre las
medias. Imagina que tomamos 100 muestras de una población, entre los dos tratamientos y se calcula
la media ( D ) y un intervalo de confianza para la media. El intervalo de confianza nos dice los límites
entre los cuales estaría la diferencia real entre las medias, lo importante de este resultado es que no
contenga el cero, porque esto quiere decir que es improbable que la diferencia entre las medias sea
cero. Esto es muy importante, si recordamos al iniciar la explicación señalamos que se considera que
si se obtienen dos pares de muestras de una población se espera que el resultado de la diferencia entre
las muestras sea cero. Este intervalo nos dice que, basados en dos muestras reales, es improbable que
el valor verdadero de las diferencias entre las medias sea cero. Por lo tanto, podemos estar confiados
de que las dos muestras no representan muestras aleatorias de la misma población. Sino que
representan muestras de diferentes poblaciones que han cambiado por la manipulación experimental.

¿Cómo se escriben los resultados de la prueba t para muestras relacionadas?

CONCLUSIÓN:

 En promedio, a los participantes a los que se les aplico la vacuna, con la segunda aplicación
experimentaron de manera significativa una mejoría (M =3.7, SD=1.76) que en la primera
aplicación (M = 6.4, SD=2.11), t (10)=2.8984, p < 0.05.

56
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
La prueba t de Student no relacionada (para muestras independientes)
Esta prueba es similar a la T de Student para datos relaciones, la principal diferencia es que ahora se
manejan datos no relacionados o muestras independientes.

Con la prueba t para muestras relacionadas podemos buscar diferencias entre pares de puntuaciones,
porque las puntuaciones provienen de los mismos participantes y por lo tanto las diferencias
individuales entre las condiciones se elimina. Por lo tanto, las diferencias en las puntuaciones deberían
reflejar únicamente el efecto de la manipulación experimental. Sin embargo, cuando diferentes
participantes se encuentran en las diferentes condiciones los pares de puntuaciones pueden diferir no
solamente debido a la manipulación de la variable, sino también porque hay otras fuentes de
varianza (por ejemplo, las diferencias individuales en la motivación entre los participantes, el nivel de
inteligencia, atención, etc. ), como no es posible hacer una comparación para cada participante (como
se hizo en muestras relacionadas) entonces ahora haremos comparaciones basadas en las medias
totales de cada grupo o condición.

En la prueba t para muestras independientes se busca las diferencias entre grupos. En este caso, si
tomamos varios pares de muestras (de diferentes poblaciones) las diferencias entre las medias de las
muestras se va a desviar de la media de la diferencia ( D  1   2 ) algunas veces una pequeña cantidad
y ocasionalmente la diferencia será grande. Si graficamos la distribución muestral de las diferencias
entre cada par de medias se obtiene una distribución normal que nos dice que tanto podemos esperar
que dos muestras difieran y la desviación estándar señala que tanta variabilidad se puede esperar
únicamente por efecto del azar. Si la desviación estándar es grande se puede esperar que diferencias
grandes entre las medias de las muestras ocurran por azar; si la desviación estándar es pequeña
entonces únicamente se pueden esperar que ocurran diferencias pequeñas entre las muestras por
azar.

Cuándo utilizarla
Se usa para diseños en los que se estudia una variable independiente bajos dos condiciones, cuando
hay diferentes participantes en las dos condiciones. La prueba t es la prueba paramétrica equivalente
a la prueba no paramétrica de U de Mann-Whitney.

Lógica de la prueba
El objetivo primordial de la prueba t es comparar la cantidad de variabilidad debida a las diferencias
predichas en puntaje entre los dos grupos con la variabilidad total de los puntajes de los sujetos. Las
diferencias predichas se calculan en términos de las diferencias entre las medias de los puntajes de los
dos grupos. El valor real de esta diferencia entre las medias se tiene que comparar con la variabilidad
total de los puntajes. Si la variabilidad de los puntajes es pequeña, entonces una diferencia más bien
pequeña entre las medias de los grupos puede reflejar una diferencia consistente entre ellos. Sin
embargo, si la variabilidad entre los puntajes es muy grande, esto podría indicar que una proporción
mayor de esta variabilidad se debe a fluctuaciones en el desempeño de los sujetos, debidas a variables
desconocidas, más que a la diferencia predicha entre las condiciones experimentales.
57
Página

La prueba t para muestras independientes es fácil de calcular, con la siguiente ecuación:


Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
̅̅̅1 − 𝑋
𝑋 ̅̅̅2
𝑡=
1 1
𝑆𝐷√𝑁 + 𝑁
1 2

Dónde:
t = valor estadístico de la prueba de T de Student.
̅̅̅̅
𝑿𝟏 = valor promedio del grupo 1.
̅̅̅̅
𝑿𝟐 = valor promedio del grupo 2.
SD = desviación estándar.
N1 = tamaño de la muestra del grupo 1.
N2 = tamaño de la muestra del grupo 2.

Ecuación para obtener la desviación estándar ponderada:

𝑆𝐶1 + 𝑆𝐶2
𝑆𝐷 = √
(𝑁1 − 1) + (𝑁2 − 1)

Dónde:
𝑺𝑫 = desviación estándar.
SC = suma de cuadrados de cada grupo.
N = tamaño de la muestra 1 y 2.

Ecuación para obtener la Suma de Cuadrados:

(∑𝑥)2
𝑆𝐶 = ∑𝑥 2 −
𝑁

Ecuación para calcular los grados de libertad:

𝑔𝑙 = (𝑁1 + 𝑁2 ) − 2

Procedimiento
1. Determinar el promedio o media aritmética de cada grupo de población.
2. Calcular la suma de cuadrados de cada grupo.
3. Calcular la desviación estándar (SD) de ambos grupos.
4. Calcular los grados de libertad (gl) gl = (N1 + N2)– 2.
5. Obtener la probabilidad del valor t en la tabla D para dos colas o una cola, a fin de obtener la
probabilidad.
6. Toma de decisión: Si el valor de t calculado es mayor o igual que el registrado en las tablas se
rechaza Ho y se acepta H1.
58

Como hicimos con la prueba t para muestras relacionadas vamos a comparar el valor de t obtenido
Página

respecto del valor crítico de t de la distribución con grados de libertad igual a n1  n2  2 , si el valor
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
obtenido excede el valor crítico rechazamos la Ho, es decir podemos estar seguros (con una
probabilidad de error del 5%) de que hay un efecto de la variable dependiente. Si se dan cuenta el
estadístico t lo podemos obtener únicamente conociendo la media, la desviación estándar y el
número de participantes de cada grupo.

Regla de decisión
Si la tobt ≥ tcrit se rechaza Ho y se acepta H1
Si la tobt< tcrit se rechaza H1 y se acepta Ho.

59
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia para la prueba t de Student No Relacionada (tabla 4)

60
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
EJEMPLO
Para el análisis vamos a utilizar los datos de la ansiedad que provoca la presentación de arañas, ya sea
en foto o real, a personas que padecen aracnofobia. En este caso tenemos 12 participantes a los cuales
se les presentó una foto de una araña y a otros 12 participantes se les presentó una araña real. Se midió
la ansiedad en cada grupo. α = 0.05

H0=Las diferencias observadas en la ansiedad que provoca una araña ya sea en foto o en real son
iguales. (La ansiedad que provoca una araña ya sea en foto es igual a que fuese real)

H1=La ansiedad que provoca una araña ya sea en foto o en real, son distintas. (La ansiedad que provoca
una araña ya sea en foto es diferente a que fuese real)

Participantes Ansiedad 𝑿𝟐𝟏 Ansiedad 𝑿𝟐𝟐


Gpo1 Foto Gpo2 Real
1 30 900 40 1600
2 35 1225 35 1225
3 45 2025 50 2500
4 40 1600 55 3025
5 50 2500 65 4225
6 35 1225 55 3025
7 55 3025 50 2500
8 25 625 35 1225
9 30 900 30 900
10 45 2025 50 2500
11 40 1600 60 3600
12 50 2500 39 1521
Suma 480 20150 564 27846
Media 40 47
cuadrado 230400 318096

(∑𝑥)2
𝑆𝐶 = ∑𝑥 2 −
𝑁

SC1= 20150 – (230400/12)= 950 SC2= 27846 – (318096/12)=1338

𝑆𝐶1 + 𝑆𝐶2
𝑆𝐷 = √
(𝑁1 − 1) + (𝑁2 − 1)

950 + 1338 2288


61

𝑆𝐷 = √ =√ = 10.20
(11 + 11) 22
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
̅̅̅1 − 𝑋
𝑋 ̅̅̅2
𝑡=
1 1
𝜎𝑝 √𝑁 + 𝑁
1 2
40 − 47 −7
𝑡= = = −𝟏. 𝟔𝟖
1 1 4.16
10.20√12 + 12

𝑔𝑙 = (𝑁1 + 𝑁2 ) − 2

gl= (12+12)-2 =22

Para estos datos con 22 grados de libertad, al nivel de significancia establecido en el valor de 0.05, se
tiene un valor t en tabla de 2.074, el valor de t obtenido es menor al de la tabla (el signo no debe ser
tomado en cuenta) por lo tanto se acepta la H0, entonces: las diferencias observadas en la ansiedad que
provoca una araña ya sea en foto o real son iguales, es decir, no existen diferencias significativas entre
las medias de las dos muestras. En términos del experimento, se puede inferir que los aracnofóbicos
están igualmente ansiosos si se les presentan fotos y cuando se les presentan arañas reales.

SPSS

Los participantes nos permiten identificar a cada una de las personas que participaron en el estudio y
62

se define como nominal, en la variable grupo se señala a que condición pertenece cada uno de los
Página

participantes que se define como nominal, en nuestro caso los participantes que están en el grupo 0 se
expusieron a una foto de araña y los que tienen un código de 1 fueron expuestos a una araña real, para
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
definirlo se debe ir a la columna donde dice valores y presionar del lado derecho y aparecerá el cuadro
que se muestra siguiendo la flecha; finalmente, tenemos a la variable dependiente que es ansiedad y
la medida debe ser “escala” (intervalo).

Una vez que hemos definido las variables vamos a la vista de datos, recuerda que en SPSS cada línea
representa un participante, por lo tanto, los datos ya no estarán como en la prueba t para muestras
relacionadas. En este caso los datos se colocan de la siguiente forma:

La variable grupo señala que participantes tuvieron la foto de una araña (grupo 0) y cuales una araña
real (grupo 1). Para el análisis debemos ir a:

Cuando se activa el cuadro de dialogo, selecciona la variable dependiente de la lista (dale un click a
Ansiedad) y colócala en donde dice Contrastar variables. Después es necesario seleccionar grupo y
transferirlo a la parte que dice Variable de agrupación. Una vez que has seleccionado la variable de
63

agrupación debes seleccionar donde dice Definir grupos. SPSS necesita saber cuáles son los códigos
numéricos que asignaste a tus dos grupos, una vez que hayas seleccionado los grupos (0 y 1) da click en
Página

continuar. Si le das a Opcionesva a aparecer un cuadro de dialogo en el que puedes seleccionar el


intervalo de confianza (por defecto es 95%).
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
2.1 Output de la prueba t para muestras independientes

El output de la prueba t para muestras independientes contiene únicamente dos tablas. La primera
tabla (output 1) presenta los estadísticos descriptivos para las dos condiciones. De esta tabla podemos
saber que ambos grupos tenían 12 participantes. El grupo que tenía una foto de araña tiene una
ansiedad promedio de 40, con una desviación estándar de 9.29. El error estándar de ese grupo (o
desviación estándar de la distribución muestral) es de 2.68 ( SE  9.293 / 12  9.293 / 3.464  2.68 ). La
tabla también señala que el nivel de ansiedad en los participantes a los que se les presentó una araña
real fue de 47, con una desviación estándar de 11.03 y un error estándar de 3.18 (
SE  11.029 / 12  11.029 / 3.464  3.18 ).
Output 1:

Estadísticos de grupo

Desviación Error típ. de


Grupo N Media típ. la media
Ansiedad foto 12 40.0000 9.29320 2.68272
real 12 47.0000 11.02889 3.18377

En la segunda tabla (output 2) se presenta los resultados principales de la prueba. La primera columna
contiene los valores del estadístico, es importante notar que a diferencia de la prueba t para muestras
64

relacionadas, en esta prueba tenemos dos valores de t. En la 1) se han asumido varianzas iguales y en
Página

la 2) No se han asumido varianzas iguales. En el contraste tradicional en la prueba t ambos deben tener
varianzas más o menos iguales, pero si esto no ocurriera existe un ajuste que se hace a la prueba. Por
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
lo tanto, antes de presentar los resultados es necesario comprobar si las varianzas son o no iguales.
Para ello se utiliza la prueba de Levene para la igualdad de varianzas que se encuentra en las primeras
dos columnas. La prueba de Levene es similar a la prueba t, sólo que en vez de probar la Ho: μ1= μ2,
2 2
sirve para probar si Ho: 1   2 , es decir si las varianzas son iguales. Por lo tanto, si el test de Levene
es significativo p ≤ 0.05 se rechaza la Ho y por lo tanto las varianzas no son iguales. Si por el contrario
p > 0.05 entonces se acepta la Ho y se asume que las varianzas son iguales. Para estos datos, el test
de Levene es no-significativo (porque la p = .386 que es mayor que 0.05). Una vez que hemos
comprobado que las varianzas son iguales debemos ir a la parte donde dice 1) se han asumido varianzas
iguales

Habiendo establecido la homogeneidad de las varianzas, vamos a mirar la prueba t. Primero señala que
la diferencia promedio entre las medias es ( X1  X 2  40  47  7 ) y el error estándar de la
distribución de las diferencias de las muestras, se calcula utilizando el divisor de la Ecuación 5:

 s12 s22   9.29 2 11.032 


      
 N1 N 2   12 12   7.19  10.14  17.33  4.16

El estadístico t se calcula dividiendo la diferencia de la media por el error estándar de la distribución


muestral de las diferencias ( t  7 / 4.16  1.68 ). El valor de t obtenido se valora respecto del valor t
crítico. Para muestras independientes los grados de libertad se calculan sumando el tamaño de las
muestras menos el número de muestras ( df  N1  N2  2  12  12  2  22 ). SPSS señala el valor
exacto de p que es de .107, que es mayor que 0.05, por lo tanto se acepta Ho.
CONCLUSIÓN:
Que no existen diferencias significativas entre las medias de las dos muestras. En términos del
experimento, se puede inferir que los aracnofóbicos están igualmente ansiosos si se les presentan fotos
y cuando se les presentan arañas reales.
En nuestro caso utilizamos una probabilidad bilateral (o de dos colas) es decir no hacemos ninguna
predicción sobre la dirección del efecto. Sin embargo, a menudo en la investigación podemos hacer
predicciones específicas, en este caso podemos decir que la ansiedad con la araña real esperaríamos
que fuera mayor. En este caso, nosotros usamos una prueba unilateral (o de una cola), de ser así la
probabilidad unilateral se divide entre 2. (i.e. 107/2=.054) La probabilidad unilateral es aún mayor que
.05 (pero ahora por un margen muy pequeño y por lo tanto tendremos que seguir con la misma
conclusión, de que no hay diferencias significativas.
65
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA
Las siglas ANOVA son una abreviatura de “análisis de la varianza” en inglés (ANalisys Of VAriance). El
análisis de la varianza es un elemento básico de todas las pruebas paramétricas. Una de las Ventajas
especiales del ANOVA es que la varianza total se puede descomponer en varios tipos de varianza. La
varianza total incluye la varianza esperada y la varianza debida a variables irrelevantes. Con ANOVA,
más que comparar la varianza esperada con la varianza total, es posible descomponer la varianza total
en varios tipos de varianza.

Dos subdivisiones de la varianza total son: la varianza esperada y la varianza de error debida a los
efectos de variables irrelevantes no previstas.

La varianza esperada es la varianza entre condiciones, dado que el investigador ha pronosticado


diferencias entre las condiciones debidas al efecto de una variable independiente seleccionada.

La varianza debida a variables no previstas es la varianza de error, ya que, desde el punto de vista del
investigador, todo aquello que no ha sido pronosticado representa un error.

Lógicamente los investigadores minimizan los errores no pronosticados. Un ejemplo de error no


pronosticado podría ser cuando todas las condiciones experimentales se aplican a los mismos
participantes en el mismo orden, lo que podría sesgar las respuestas de aquéllos. El investigador adapta
de manera automática el orden de aplicación de las condiciones para eliminar los posibles efectos del
orden en la varianza de error.

Existen tres distintos tipos de varianza en ANOVA. Estos son:


1. Varianza esperada
2. Varianza de error
3. Varianza total
Observe que la varianza esperada y la varianza de error juntas forman la varianza total.

El análisis de varianza sirve para analizar los datos provenientes de diseños con una o más variables
independientes o factores (variables categóricas nominales u ordinales) y UNA variable dependiente
(variable medida con una escala de intervalo o razón). Los modelos de ANOVA permiten básicamente
comparar medias.

Aunque existen muchos y muy diferentes modelos de ANOVA vamos a atender a una
clasificación muy simple que tiene que ver con el número de factores que existen en el diseño de
investigación. El término factor en el contexto del ANOVA es sinónimo de variable independiente. Así,
al modelo de ANOVA diseñado para analizar los datos obtenidos utilizando un diseño con una variable
independiente se le llama ANOVA de un factor (en inglés one-way ANOVA), si el diseño tiene dos
variables independientes se le llama ANOVA de dos factores (two-way ANOVA). Etc. Cuando hay más de
un factor se les llama modelos factoriales.

El modelo de un factor sirve para comparar el tratamiento de varios grupos sobre una variable
dependiente. Se trata, por tanto, de una generalización de la prueba t para dos muestras
66

independientes al caso de diseños con más de dos muestras.


Página

Recuerda:

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
A la variable categórica (nominal u ordinal) que define a los grupos que se desea comparar se le llama
independiente o factor y se representa por la VI. A la variable cuantitativa (de intervalo o razón) en la
que se desea comparar el efecto se le llama dependiente y se representa por la VD.

Las hipótesis se plantean de manera similar a la prueba t únicamente que aquí hay más de dos
tratamientos y la hipótesis nula se rechaza (i.e. se cumple la H1) si se encuentran diferencias en al menos
dos grupos (o tratamientos).

a) Hipótesis estadísticas
Ho: tratamiento _ 1  tratamiento _ 2  tratamiento _ 3  ...

H1: tratamiento _ 1  tratamiento _ 2  tratamiento _ 3  ..


Existen diferencias en al menos un par de tratamientos

Antes de explicar cómo se realiza un ANOVA, es importante que nos quede claro porque no
simplemente llevamos a cabo varias pruebas t para comparar todas las combinaciones de los grupos en
los que estamos interesados. Vamos a imaginar una situación en la que queremos comparar tres
condiciones experimentales (o tratamientos), entonces llevamos a cabo tres pruebas por separado: 1)
comparamos tratamiento 1 y 2, 2) tratamiento 2 y 3 y 3) tratamiento 1 y 3. Si para cada uno de esas
pruebas se utiliza un nivel de significación del 0.05, entonces para cada prueba se comete un 5% de
error de rechazar de manera falsa la Ho (error Tipo I) Por lo tanto la probabilidad de no cometer el error
Tipo I es de 95%. Si se asume que cada test es independiente (por lo tanto, podemos multiplicar las
probabilidades) entonces la probabilidad de no cometer un error Tipo I cuando se realizan las 3 pruebas
3
es de (0.95 )  .95  .95  .95  .857 , entonces la probabilidad de cometer al menos un error Tipo I es
de 1  0.857  .143 o lo que es lo mismo del 14.3%, es decir, hemos incrementado la probabilidad de
0.5% a 14.3% este error que se comete cuando se realizan muchos análisis con los mismos datos se
n
llama tasa de errores simultáneos (o familywise error = 1  (9.95) , donde n es el número de test
realizados).
 Interpretación de la F

Cuando realizamos una prueba t, se analiza la hipótesis que considera que las dos muestras tienen la
misma media. De forma similar, en la ANOVA se analiza si tres o más medias son iguales. Un ANOVA
produce un estadístico F o razón F, que es similar a una prueba t en el que se compara la razón entre la
cantidad de varianza explicada por el modelo respecto del error.

Fuentes de Varianza
Los distintos tipos de varianza se suelen llamar también fuentes de varianza. Este término se usa para
indicar que cada tipo de varianza procede de un tipo distinto de variable. Dichas variables son las
fuentes de la varianza. Las fuentes de varianza en ANOVA se muestran a continuación:
Fuentes de varianza en ANOVA
Fuentes de varianza Tipos de varianza
Variables independientes (pronosticadas) Varianza esperada
67

Variables irrelevantes ( no pronosticadas) Varianza de error


Página

Combinación de variables independientes y variables Varianza total


irrelevantes.
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
En ANOVA la varianza esperada entre condiciones se calcula a partir de las diferencias esperadas entre
los resultados de las distintas condiciones.
La varianza total se calcula a partir de las diferencias en los resultados de todos los sujetos que han
participado en el experimento.
La varianza de error se calcula restando a la varianza total la varianza esperada. El fundamento de este
cálculo es que la varianza de error es lo que queda después de haber tenido en cuenta la varianza
esperada.

En ANOVA, las pruebas de significación se basan en la proporción entre la varianza entre las condiciones
esperada y la varianza de error.

Grados de libertad
Hay otro factor importante que debemos tener en cuenta a la hora de calcular varianzas y consultar las
tablas estadísticas. Para ello necesitamos conocer el número de grados de libertad (gl). El concepto de
grados de libertad surge de la idea de que las pruebas paramétricas calculan varianzas basadas en la
variabilidad de los resultados, por lo que es fundamental que todos los resultados tengas ¨libertad¨
para variar. La cuestión es si todos los resultados de un experimento son variables en la misma medida.
El concepto de grados de libertad es bastante difícil de entender. Un ejemplo experimental podría
ayudarnos a comprenderlo.
Suponga que hace un experimento y calcula el total de los resultados. Al copiar los resultados más
tarde, olvida incluir uno de los resultados de uno de los seis participantes y se queda con los resultados
que se muestran a continuación:
Resultados usados para calcular
los grados de libertad
Participante Resultados
1 12
2 13
3 10
4 11
5 14
6 -
Total 75
No tiene por qué alarmarse, pues sabe que con los cinco resultados y el total de los seis resultados
puede calcular el resultado olvidado para el participantes 6.Lo único que tiene que hacer es restar los
cinco resultados del total igual a 75; el resultado para el participante 6 sólo podría haber sido 15. La
consecuencia de esto es que el resultado para ese participante se puede predecir si conocemos los
otros resultados y el total. Es decir, dicho resultado no tiene ¨libertad¨ para variar.
Los grados de libertad tienen en cuenta el hecho de que uno de los resultados no varía porque se puede
predecir a partir de los otros cinco. El término ¨grados de libertad¨ se usa para indicar que todos los
demás resultados pueden variar.
68
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Los grados de libertad se calculan restando uno al número total de resultados N, (N-1). gl =6-1 = 5

Condiciones para las pruebas paramétricas


Hay tres condiciones fundamentales para las pruebas paramétricas. Estas se aplican a ANOVA y también
a las pruebas paramétricas t. Dichas condiciones son:
a) La medición de los datos (INTERVALAR).
b) La manera en que se distribuyen los totales de los resultados, y
c) Si los resultados están distribuidos de manera equitativa entre las condiciones experimentales.

La medición de los datos es bastante fácil de realizar. Dado que ANOVA y las pruebas t son pruebas
paramétricas, que conllevan cálculos numéricos basados en sumas de cuadrados, la primera condición
es que los datos deben ser datos de intervalo, con intervalos iguales entre resultados en una escala
numérica continua.
El asunto de la distribución de los resultados es más complejo y por ello lo trataremos en detalle en el
apartado siguiente.

Distribución normal.
Una segunda condición para la pruebas paramétricas es que los resultados deberían estar distribuidos
según una distribución normal. El rasgo fundamental de una distribución de resultados normal es que
tiende a haber más resultados intermedios que resultados extremos. Esta es una característica bastante
generalizada de las distribuciones de resultados.

La tercera condición formal para los datos paramétricos se denomina Homogeneidad de la varianza
palabras que indican uniformidad, esto implica que la variabilidad de los resultados para cada condición
debería ser aproximadamente la misma.

Se ha demostrado que, siempre que los números de participantes para cada condición sean iguales, los
resultados de las pruebas paramétricas son bastante fiables, implicando esto que, si los datos tienen
aproximadamente una distribución normal y no hay grandes discrepancias entre las varianzas de las
condiciones, las pruebas paramétricas nos darán un análisis razonablemente exacto de los datos de un
experimento. Esta es una buena razón para asignar siempre el mismo número de participantes a cada
condición experimental.

69
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
ANOVA
(ANalysis Of VAriance)

ANOVA UNIFACTORIAL (un factor) ANOVA BIFACTORAL (dos factores)


Sirve para experimentos con tres (o más) Se puede comprobar la posibilidad de que se
condiciones. Indica que sólo hay una produzca un efecto diferencial (interacciones) de
variableIndependiente para analizar. una variable independiente sobre otra variable
independiente. Indica que hay dos
variablesIndependientes para analizar.

ANOVA UNIFACTORIAL ANOVA UNIFACTORIAL ANOVA BIFACTORIAL ANOVA BIFACTORIAL


MUESTRAS INDEPENDIENTES MUESTRAS RELACIONADAS MUESTRAS INDEPENDIENTES MUESTRAS RELACIONADAS
Los resultados para cada Los resultados proceden de los Los resultados de 4 condiciones Los resultados para las 4
condición proceden de mismos participantes. para las dos variables condiciones de las dos variables
participantes distintos. Analiza 4 fuentes de varianza: independientes proceden de proceden de los mismos
Estudia 3 fuentes de varianzas: 1. Varianza esperada participantes distintos. participantes.
1. Varianza entre condiciones 2. Varianza individual Estudia 5 fuentes de varianza: Analiza 8 fuentes de varianza:
2. Varianza de error y 3. Varianza de error y 1. Varianza entre las condiciones 1. Varianza entre las condiciones
3. Varianza total. 4. Varianza total. de la Variable A. de la Variable A.
2. Varianza entre las condiciones 2. Varianza entre las condiciones
de la Variable B. de la Variable B.
3. Varianza derivada de la 3. Varianza debida a la
interacción entre A y B. interacción entre A x B.
4. Varianza de error y 4. Varianza entre los resultados
5. Varianza total. relacionados de cada
participante(S)

70
5. Varianza total.
6. Interacción A x S

Página
7. Interacción B x S
8. Interacción A x B x S

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
ANOVA UNIFACTORIAL MUESTRAS INDEPENDIENTES

Definición de varianza.
En ANOVA (para muestras independientes) se pueden calcular tres fuentes de varianza. Éstas son:
Varianza esperada (debida a las diferencias pronosticadas entre las condiciones)
Varianza de error (debida a variables irrelevantes, incluidas las diferencias entre participantes).
Varianza total (que combina la varianza esperada y la varianza de error).

Uso de ANOVA unifactorial (para muestras independientes).


Cuándo usarla
ANOVA unifactorial (para muestras independientes) debe usarse para diseños independientes cuando
se aplican tres (o más) condiciones a participantes distintos, con una variable independiente y datos de
intervalo.

El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable
cuantitativa. Se trata, por tanto, de una generalización de la Prueba T para dos muestras independientes
al caso de diseños con más de dos muestras.

A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar la llamamos
independiente o factor y la representamos por VI. A la variable cuantitativa (de intervalo o razón) en la
que deseamos comparar los grupos la llamamos dependiente y la representamos por VD.
Si queremos, por ejemplo, averiguar cuál de tres programas distintos de incentivos aumenta de forma
más eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleatorias
de ese colectivo y aplicar a cada una de ellas uno de los tres programas.

Después, podemos medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre
ellos. Tendremos una VI categórica (el tipo de programa de incentivos) cuyos niveles deseamos
comparar entre sí, y una VD cuantitativa (la medida del rendimiento), en la cual queremos comparar
los tres programas. El ANOVA de un factor permite obtener información sobre el resultado de esa
comparación. Es decir, permite concluir si los sujetos sometidos a distintos programas difieren la
medida de rendimiento utilizada.

La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias
de la VD en cada nivel de la VI) son iguales. Si las medias poblacionales son iguales, eso significa que los
grupos no difieren en la VD y que, en consecuencia, la VI o factor es independiente de la VD.
La estrategia para poner a prueba la hipótesis de igualdad de medias consiste en obtener un estadístico,
llamado F, que refleja el grado de parecido existente entre las medias que se están comparando. El
numerador del estadístico F es una estimación de la varianza poblacional basada en la variabilidad
existente entre las medias de cada grupo. El denominador del estadístico F es también una estimación
de la varianza poblacional, pero basada en la variabilidad existente dentro de cada grupo.
71

Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo entre ellas
Página

tan sólo diferencias atribuibles al azar. En ese caso, la estimación (basada en las diferencias entre las
medias) reflejará el mismo grado de variación que la estimación (basada en las diferencias entre las
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
puntuaciones individuales) y el cociente F tomará un valor próximo a 1. Si las medias muestrales son
distintas, la estimación reflejará mayor grado de variación que la estimación y el cociente F tomará un
valor mayor que 1. Cuanto más diferentes sean las medias, mayor será el valor de F.

Si las poblaciones muestreadas son normales y sus varianzas son iguales, el estadístico F se distribuye
según el modelo de probabilidad F de Fisher-Snedecor (los grados de libertad del numerador son el
número de grupos menos 1; los del denominador, el número total de observaciones menos el número
de grupos). Si suponemos cierta la hipótesis de igualdad de medias, podemos conocer en todo
momento la probabilidad de obtener un valor como el obtenido o mayor (ver Pardo y San Martín, 1998,
págs. 248-250).

EJEMPLO:
Se presentaron listas de diez palabras a tres grupos distintos de seis individuos cada uno, para que las
memorizaran. El investigador predijo que la velocidad de presentación de listas de palabras influiría en
los resultados de memorización. La velocidad de presentación de palabras para el Grupo 1 fue menor,
una palabra cada 5 segundos (condición 1) para el Grupo 2 la velocidad fue intermedia, una palabra
cada 2 segundos (condición 2) y para el Grupo 3 la velocidad fue mayor, una palabra por segundo
(condición 3). Los resultados de memorización se muestran en la tabla siguiente. α=0.01.
Número de palabras memorizadas con tres velocidades de presentación.

Condición 1 Condición 2 Condición 3


(velocidad (velocidad (velocidad
menor) intermedia) mayor)
8 7 4
7 8 5
9 5 3
5 4 6
6 6 2
8 7 4
Totales (T) 43 37 24 104 Total
general
Medias 7.17 6.17 4

Hipótesis estadísticas
Ho: condición_1  condición_ 2  condición_ 3
H1: Existen diferencias en al menos un par de condición.
Instrucciones paso a paso para calcular F ratio unifactorial para muestras independientes.
1.- La varianza entre condiciones SCesperada se calcula sumando los cuadrados de los totales para cada
condición, dividiendo la suma por n y restándole la constante.
∑ 𝑻𝟐 (∑ 𝒙)𝟐
72

𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 = −
𝒏 𝑵
Página

𝟐
∑ 𝑻 = suma de los cuadrados de los totales para cada condición

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
𝒏 = número de participantes en cada condición
(∑ 𝒙)𝟐 = Cuadrado del total general
𝑵 = número total de resultados

∑ 𝑇 2 = 432 + 372 + 242 = 3794


𝑛=6
(∑ 𝑥)2 = 1042 =10816
𝑁 = 18
𝟑𝟕𝟗𝟒 𝟏𝟎𝟖𝟏𝟔
𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 = − = 𝟑𝟏. 𝟒𝟒
𝟔 𝟏𝟖
2.- La varianza total SCtotal se calcula sumando los cuadrados de todos los resultados y restándole la
constante.

(∑ 𝒙)𝟐
𝟐
𝐒𝐂𝐭𝐨𝐭𝐚𝐥 = ∑𝒙 −
𝑵

∑ 𝒙𝟐 = suma de cada uno de los resultados elevados al cuadrado


∑ 𝒙𝟐 =664

𝟏𝟎𝟖𝟏𝟔
𝐒𝐂𝐭𝐨𝐭𝐚𝐥 = 𝟔𝟔𝟒 − = 𝟔𝟑. 𝟏𝟏
𝟏𝟖

3. La varianza de error SCerror se calcula restando la varianza esperada SCesperada y la varianza total SCtotal.
𝐒𝐂𝐞𝐫𝐫𝐨𝐫 = 𝐒𝐂𝐭𝐨𝐭𝐚𝐥 − 𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚

𝐒𝐂𝐞𝐫𝐫𝐨𝐫 = 𝟔𝟑. 𝟏𝟏– 𝟑𝟏. 𝟒𝟒 = 31.67

4.- Se calcula los grados de libertad (gl) para cada tipo de varianza.
𝐠𝐥𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 = 𝐧ú𝐦𝐞𝐫𝐨𝐝𝐞𝐜𝐨𝐧𝐝𝐢𝐜𝐢𝐨𝐧𝐞𝐬 − 𝟏
𝐠𝐥𝐭𝐨𝐭𝐚𝐥 = 𝐍 − 𝟏
𝐠𝐥𝐞𝐫𝐫𝐨𝐫 = 𝐠𝐥𝐭𝐨𝐭𝐚𝐥 − 𝐠𝐥𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
glesperada = 3 − 1 = 2
gltotal = 18 − 1 = 17
glerror = 17 − 2 = 15

5.- MCesperada yMCerror se calculan dividiendo las sumas de cuadrados (SC) por los gl.
𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
𝐌𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 =
𝐠𝐥𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚

𝐒𝐂𝐞𝐫𝐫𝐨𝐫
73

𝐌𝐂𝐞𝐫𝐫𝐨𝐫 =
𝐠𝐥𝐞𝐫𝐫𝐨𝐫
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
31.44
MCesperada = = 15.72
2

31.67
MCerror = = 2.11
15

6.- F ratios se calcula dividiendo MCesperada entre MCerror.


Observe que se indican los gl para F (glesperada= 2, gl error = 15)

𝐌𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
𝑭ratio para =
𝐌𝐂𝐞𝐫𝐫𝐨𝐫
Tabla ANOVA unifactorial para muestras independientes
Fuentes de varianza Sumas de Grados de Cuadrados F ratio
cuadrados libertad medios
Velocidad de 31.44 2 15.72 F2,15
presentación inter =7.45
grupo
Error intragrupo 31.67 15 2.11
Total 63.11 17

Buscar la significación de F en la tabla


Se debe encontrar le valor crítico de F en la tabla, para ello se tiene que identificar, entre el cuadrado
medio entre condiciones y el cuadrado medio de error, el cuál es el mayor; en las columnas se debe
buscar con los grados de libertad correspondientes al cuadrado medio mayor y en los renglones los
grados de libertad del cuadrado medio menor. Se debe elegir un valor de acuerdo con el nivel de
significancia elegido para la prueba de la Ho. La regla de decisión para análisis de varianza es:
Si Fobt ≥ Fcritica se rechaza la H0 y se aceptaH1
Si Fobt< Fcritica se rechaza la H1 y se aceptaH0

CONCLUSIÓN:
Se encontró un efecto estadísticamente significativo en la velocidad de presentación de listas de
palabras sobre los resultados de memorización, [F (2,15)=7.45, p < 0.01].

Es fundamental consultar la tabla F para verificar las diferencias entre las medias en las tres condiciones.
Existen diferencias entre las medias para las tres condiciones (textos presentados a velocidades
distintas). Este hecho confirma la hipótesis de investigación según la cual las velocidades de
presentación de listas de palabras influirán en el número de palabras memorizadas, y que a mayor
velocidad (condición 3) se memorizarían menos palabras.
Observe que ANOVA sólo nos dice si hay diferencias generales significativas entre las condiciones
experimentales, lo que es equivalente a una hipótesis bilateral.

Comparaciones posteriores a F
74

Cuando se ha determinado que existen diferencias significativas entre los grupos, se debe especificar
dónde se encuentran las diferencias, para ello se analizan los grupos por pares, para hacerlo existen
Página

varios métodos, más o menos estrictos, diseñados para evitar el error tipo I debido al efecto Bonferroni.

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
El efecto Bonferroni se refiere al hecho de que al hacer las diferentes comparaciones entre los grupos
organizados por parejas, por ejemplo con la prueba t, el efecto acumulativo sobre el nivel de
significancia, del empleo de cada grupo más de una vez para hacer todas las comparaciones nos hace
rechazar la hipótesis nula cuando esta no debería ser rechazada.

SPSS
Declara la variable de agrupación y la variable dependiente (con las tres condiciones) y en la vista de
datos capture la información correspondiente a cada variable. Posteriormente vaya al menú analizar
comparar N, ANOVA de un factor.

En la siguiente ventana envié las variables a analizar, en la lista de dependientes coloque la variable
dependiente y en la opción factor coloque la variable de agrupación.

En el botón Post hoc seleccionar BONFERRONI e indicar el nivel de significación y dar click en
continuar

En el botón de opciones seleccionar descriptivos, y


prueba de homogeneidad de las varianzas dar click en
continuar y por último en aceptar.
75
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
La salida produce 4 tablas.
Output 1 se presentan las estadísticas descriptivas para los grupos.

Output 2 es la prueba de homogeneidad de varianzas entre los grupos, H0: 𝒔𝟐𝟏 = 𝒔𝟐𝟐 = 𝒔𝟐𝟑 , la regla de
decisión es: si el nivel de significancia es menor o igual al 0.05 se rechaza la H0, en este caso el valor
de significancia ( .915) es mayor a 0.05, por lo que no se rechaza H0, entonces: las varianzas de los
grupos son iguales.

Sig.Bilateral <= 0.05 Varianzas no son iguales

Sig.Bilateral > 0.05 Varianzas son iguales

A continuación se muestran los resultados de la prueba F (suma de cuadrados, grados de libertad,


cuadrados medios), el valor de F y la significancia que son los datos que se utilizan para la regla de
decisión (ver datos en el círculo), la regla es: si el nivel de significancia es menor o igual al 0.05 se
rechaza la H0. 76
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
La significancia de la prueba F (α=0.006) es menor a 0.05 por lo que se rechaza H 0, entonces: el
número de palabras recordadas es diferente entre el grupo de la condición 1, el grupo de la condición
2 y el grupo de la condición 3.

Al finalizar se representan los resultados de las comparaciones posteriores, primero la comparación


del grupo 1 con el grupo 2 y 3, despues el 2 con el 1 y el 3, y al último el 3 con el 1 y 2.
Pruebas post hoc

Las hipotesis nulas que se prueban son : 𝑋̅̅̅1 = 𝑋


̅̅̅2 , 𝑋
̅̅̅1 = 𝑋
̅̅̅3 , 𝑋
̅̅̅2 = 𝑋
̅̅̅3. La regla de decisión para cada
comparación es : si el nivel de significancia es menor o igual al 0.05 se rechaza la H 0.

Como se puede observar la significancia de la comparación del grupo 1 (velocidad menor)y el grupo 2
(velocidad intermedia) es de 0.755, del 1 con el 3 (velocidad mayor) es de 0.006 y del grupo 2 y el grupo
3 es de 0.062, siguiendo la regla de decisión, la única comparación con diferencias estadísticamente
significativas es la correspondiente al grupo 1 con el grupo 3 entonces: el numero de palabras
recordadas es diferente entre el grupo 1 y 3 y podemos decir que las diferencias en el análisis de
varianza son debidas a este resultado.

Reporte de los resultados de la prueba F


Para esta prueba se puede utilizar gráfica de barras con las medias de cada grupo, es importante
mencionar los valores de la prueba estadística, grados de libertad y el nivel de significancia con que se
está rechazando, o aceptando, la hipótesis nula. Se puede poner el valor de probabilidad obtenido o
simplemente decir que es menor , o mayor, al valor que hayamos elegido para la prueba de hipotesis.
Además se debe escribir la conclusión a la que se llega, por ejemplo:
En lo que respecta a la velocidad de presentación de listas de palabras, se encontraron diferencias en
el numero de palabras recordadas entre el grupo 1, grupo 2 y el grupo 3 (F= 7.45, gl=2,18; p< 0.01).
Este resultado se debe a que se encontraron diferencias en el numero de palabras recordadas entre
el grupo 1 y 3 (p<0.05), no observándose diferencias en las otras comparaciones.
77
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Cómo puede observarse en la gráfica, el grupo 1 tuvo el promedio más alto (7.17), seguido del grupo2
(6.17) , obteniendo la media más baja el grupo 3 (4.00).

78
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia para valores críticos de F (tabla 4)

79
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación…

80
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación…

81
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación…

82
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
EJERCICIOS DE TAREA

Ejercicio 1.- Supongamos que usted quiere determinar si ciertas situaciones producen distintos niveles
de tensión. Usted sabe que la cantidad de la hormona corticosterona que circula en la sangre es una
buena medida de tensión que presenta una persona. Usted dividió de manera aleatoria a 15 estudiantes
en 3 grupos de 5 individuos cada uno. Se midió el nivel de corticosterona de los alumnos del grupo 1,
inmediatamente después de que estos regresaron de vacaciones (tensión baja). Se midió el nivel de
corticosterona de los estudiantes del grupo 2, después que estos asistieron a sus clases durante una
semana (tensión moderada). Por último, se midió el nivel de corticosterona de los alumnos del grupo 3
inmediatamente antes de la semana de los exámenes finales (tensión alta). Todas las mediciones se
llevaron a cabo a la misma hora del día. Usted registro los datos tal como se presentan en la tabla. Los
datos están expresados en miligramos de corticosterona por cada 100 mililitros de sangre.

Grupo 1, Grupo 2, Grupo 3,


Vacaciones Clases Examen
final
X1 X2 X3
2 10 10
3 8 13
7 7 14
2 5 13
6 10 15

a) ¿Cuál es la hipótesis de investigación?


b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.05

83
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Ejercicio 2.- Un psicólogo desea determinar si la capacidad de la memoria inmediata resulta afectada
por falta de sueño. La memoria inmediata se define como la cantidad de material que la persona puede
recordar poco después de que este se le presenta. Doce estudiantes del curso de introducción a la
psicología son elegidos al azar y se les asigna, de manera aleatoria, a dos grupos formados por seis
individuos cada uno. A uno de los grupos se le priva de sueño durante 24 horas anteriores a la
presentación del material para recordar. Todos los sujetos del grupo anterior duermen el tiempo
normal (de 7a 8 horas). El material consiste en una serie de diapositivas, cada una las cuales contienen
nueve números. Cada diapositiva se les presenta durante un periodo muy breve (50 milisegundos),
después de lo cual el sujeto debe recordar la mayor cantidad posible de números que acaban de ser
presentados. Los resultados se muestran a continuación. Los datos representan el porcentaje de
números correctamente recordados.

Sueño normal Privado del sueño


Grupo 1 Grupo 2
X1 X2
68 70
73 62
72 68
65 63
70 69
73 60

a) ¿Cuál es la hipótesis de investigación?


b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.01

84
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Ejercicio 3.- A fin de motivar a los ciudadanos para que ahorren gasolina, el gobierno estudia la idea de
emprender una campaña nacional a favor del ahorro de ese energético. Sin embargo, antes de
emprenderla a nivel nacional, el gobierno decide realizar un experimento que le permita evaluar la
eficacia de la campaña. Para el experimento, realiza la campaña de ahorro de gasolina en área
geográfica pequeña, pero representativa. Entonces, 12 familias de esa área son elegidas al azar y se
mide la cantidad de gasolina que consumieron durante el mes anterior al lanzamiento de la campaña
de publicidad y durante el mes siguiente a la campaña. Así se obtienen los siguientes datos:

Antes de la Después de la
Campaña campaña
(Galones/mes) (Galones/mes)

55 48
43 38
51 53
62 58
35 36
48 42
58 55
45 40
48 49
54 50
56 58
32 25

a) ¿Cuál es la hipótesis de investigación?


b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.05

85
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Ejercicio 4.- En fecha fue descubierto un neurotransmisor cerebral endógeno llamado galanina. Según
parece, éste afecta de manera directa el deseo de ingerir alimentos con un alto contenido de grasa.
Mientras más alta sea la cantidad de este neurotransmisor de origen natural en un individuo, mayor
será el apetito que este sienta por la comida con alto contenido de grasa. Recientemente, una compañía
farmacéutica desarrolló una sustancia experimental, que bloquea la galanina sin alterar el apetito por
otros alimentos más saludables (es decir, con menos grasa). Un neurocientífico de la compañía piensa
que esa sustancia experimental será muy útil para controlar la obesidad. En forma específica, él cree
que la administración diaria de este medicamento hará que la persona ingiera alimentos con menos
grasa y, por ende, promoverá la pérdida de peso. En estas condiciones, se realiza un experimento, para
el cual se elige de manera aleatoria a 15 mujeres obesas, todas ellas voluntarias, y se les administra el
medicamento experimental durante 6 meses. Se registró el peso inicial y el peso final (después de 6
meses) de cada persona. Los pesos registrados se presentan en la siguiente tabla.

Peso inicial (libras) Peso final (libras)

165 145
143 137
175 170
135 136
148 141
155 138
158 137
140 125
172 161
164 156
178 165
182 170
190 176
169 154
157 143

a) ¿Cuál es la hipótesis de investigación?


b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.05

86
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Ejercicio 5.- Un neurocirujano tiene la idea de que las lesiones producidas en cierta área del cerebro,
conocida como tálamo, hacen que disminuya la percepción del dolor. Si está en lo cierto, eso podría ser
importante para el tratamiento de enfermedades terminales acompañadas de dolor intenso. Como
primer intento de poner a prueba esta hipótesis, el investigador realiza un experimento en el cual 16
ratas son divididas, al azar, en dos grupos de 8 especímenes cada uno. A los animales del grupo
experimental se les provoca una pequeña lesión en la parte del tálamo que según el investigador, está
implicada en la percepción del dolor. A los animales del grupo control se les provoca una lesión
comparable en un área del cerebro que, según se cree, no ésta relacionada con el dolor. Dos semanas
después de las operaciones quirúrgicas, a cada roedor se le aplica una serie de breves descargas
eléctricas en las patas. Esas descargas van creciendo en intensidad: Tienen un nivel de intensidad muy
bajo y éste aumenta hasta que el animal retrocede. De esta manera se determina el umbral del dolor
provocado por las descargas eléctricas en cada rata. Al final se obtienen los siguientes datos. Cada dato
representa el nivel más bajo (en miliamperes) en que se produce el retroceso. Mientras más alto sea el
nivel de la corriente, tanto más alto será el umbral de dolor. Observe que un animal murió durante la
operación quirúrgica y no fue remplazado. Suponga que existen suficientes fundamentos teóricos y
experimentales para utilizar una hipótesis con cierta dirección.

Lesiones en el Lesiones en el
Área neutral Tálamo grupo
Grupo control Experimental
Grupo 1 Grupo 2

X1 X2
0.8 1.9
0.7 1.8
1.2 1.6
0.5 1.2
0.4 1.0
0.9 0.9
1.4 1.7
a) ¿Cuál es la 1.1 hipótesis de
investigación?
b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.05

87
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
Ejercicio 6.- Un profesor quiere encontrar la mejor forma de presentar un importante tema frente al
grupo que tiene a su cargo. Para eso puede escoger una de las 3 opciones siguientes: 1) dar clase, 2)
dar clase y asignar una lectura complementaria o 3) proyectar una película y asignar una lectura
complementaria. El decide hacer un experimento para evaluar las tres opciones. Entonces solicita 27
voluntarios de su grupo y asigna aleatoriamente 9 a cada una de las tres condiciones. Bajo la condición
1, el de clase a los estudiantes. Bajo la condición 2, el da la clase y el asigna la lectura complementaria.
Bajo la condición 3, los alumnos presentan una película acerca del tema y realizan la misma lectura
complementaria que los estudiantes de la condición 2. Después se aplica a los alumnos un examen
sobre la materia. Se obtuvieron los siguientes datos (porcentaje de respuestas correctas):

Condición 1, Condición 2 Condición 3


Clase Clase + Película
Lectura +Lectura,

X1 X2 X3
92 86 81
86 93 80
87 97 72
76 81 82
80 94 83
87 89 89
92 98 76
83 90 88
84 91 83

a) ¿Cuál es la hipótesis de investigación?


b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.05

88
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Dra. Fabiola González Betanzos
PRUEBAS NO PARAMÉTRICAS
U de Man-Whitney
(Para muestras independientes o grupos no relacionados)

U de Mann-Whitney para muestras independientes se debe usar en diseños


independientes cuando las condiciones se aplican a participantes distintos. Como cada
participante realiza sólo una condición, no es posible comparar los resultados de ambas
condiciones para cada participante, sino verificar diferencias entre las condiciones.
Es una prueba NO paramétrica que analiza el grado de separación entre las muestras.
Para cualquier análisis, contamos con dos valores que indican el grado de separación.

Características:
 Niveles de medición ordinal.
 Para muestras no relacionadas o independientes (grupos diferentes).
 Diferencias entre condiciones.
 Participantes distintos en cada grupo.
 Es para dos grupos solamente, por lo tanto, son dos condiciones.
Lógica de la prueba
Esta prueba compara el orden de los rangos que se obtienen al ordenar las puntuaciones de
ambas muestras asignando el rango 1 a la puntuación menor y así sucesivamente. Con base en
estos rangos, se obtienen dos valores de U, uno para cada muestra y para la prueba de hipótesis
se toma el más pequeño.

Se utiliza para comparar dos grupos de rangos (medianas) y determinar que la diferencia no se
deba al azar (que la diferencia sea estadísticamente significativa)

Procedimiento para calcular U de Man-Whitney


1.- Ordene por rangos todos los puntajes de ambos grupos como si se tratará, de un solo
conjunto de datos (se juntan los grupos).
Nota: en el caso de que existan valores repetidos, el rango que les corresponde es igual
al promedio de los rangos, es decir: la suma de los lugares asignados de manera
secuencial entre el número de veces que se repite cada número.
VALOR RANGO
0 1
1 2
1 3 3.5 2+3+4+5
= 3.5
1 4 4
1 5
2 6
2 7 6 + 7 + 8 + 9 + 10
8 =8
2 8 5
2 9
2 10
11 + 12
89

3 11 = 11.5
11.5 2
3 12
Página

4 13

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
2.- Cada uno de los rangos se debe colocar en la columna correspondiente, 𝑅1 para el
grupo 1 y 𝑅2 para el segundo grupo. Una vez asignados los rangos se suma por separado
los totales de los rangos.
3.- Obtenga el total y el promedio de los puntajes de las 2 condiciones.

4.- Calcular en el valor de U y U’ para cada grupo, sustituyendo en la fórmula:


𝑛𝑥 (𝑛𝑥 + 1)
𝑈 = 𝑛1 𝑛2 + − 𝑇𝑥
2
Dónde:
𝑛1 = Número de participantes para la condición 1.
𝑛2 = Número de participantes para la condición 2.
𝑇𝑥 = Suma del total de los rangos para la condición.
𝒏𝟏 (𝒏𝟏 + 𝟏)
𝑼 = 𝒏𝟏 𝒏𝟐 + − 𝑻𝟏
𝟐
𝒏𝟐 (𝒏𝟐 + 𝟏)
𝑼′ = 𝒏𝟏 𝒏𝟐 + − 𝑻𝟐
𝟐
El valor de Uobtenido será el valor de U más bajo que se obtenga.

5.- Se busca el valor de tabla de U en la tabla 5 considerando el tipo de prueba (una cola
o dos colas), el nivel de significancia (α=0.05 o α=0.025) y utilizando el número de casos
de cada grupo (𝑛1 𝑦 𝑛2 ).
Para obtener el valor de U crítica, se utiliza el menor de los dos que aparecen (Ej. 13 y 51),
estos valores son los mismos para el tipo de prueba (una cola o dos colas) para cada
nivel de significancia que indica la tabla. Una vez hecho esto, se debe elegir el valor de
U más bajo y compararlo con el valor de U en la tabla también más bajo.

Regla de decisión
Si el valor obtenido es menor o igual al valor crítico o de tabla se acepta la hipótesis de
investigación H1 .

Si 𝑈 obtenido ≤ 𝑼 crítica se rechaza la H0 y se acepta H1


Si 𝑼 obtenido > 𝑼 crítica se rechaza la H1 y se acepta H0
90
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 5)

91
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 5) continuación.

92
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJEMPLO
1. Queremos saber cuál es el efecto de diferentes tipos de material escrito sobre la
memoria. Tenemos 2 grupos de 6 participantes cada uno. Al grupo A se le pide
que se aprenda de memoria un material sin sentido y al grupo B un material con
sentido. La memoria se medirá por el número de ideas recordadas predecimos
que los puntajes de recuerdo serán más altos para la condición B.
Redactar la conclusión con un nivel de significancia α= 0.05

H1: El grupo B con el material con sentido recordará más que el grupo A.
2 1.5
H0: El grupo B con el material con sentido recordarán igual que el grupo A.
2 1.5
3 3
Condición A Condición B
4 4
(material Rango A (material Rango B
s/sentido) c/sentido) 5 5.5
3 3 9 11 5 5.5
4 4 7 9 6 7.5
2 1.5 5 5.5 6 7.5
6 7.5 10 12 7 9
2 1.5 6 7.5 8 10
5 5.5 8 10 9 11
∑x = 22 , X= 3.6 T1=23 ∑x = 45 , X= 7.5 T2=55 10 12

𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1 𝑛2 + − 𝑇1
2
6(6+1)
U = (6)(6) + − 23 = 34
2
6(6+1)
U ′ = (6)(6) + − 55 = 2
2

El valor de Uobtenida = 2
Se obtiene el valor de Utabla = 7
Se checa la regla de decisión
Si 2 ≤ 7 se rechaza la H0 y se acepta H1
CONCLUSIÓN:
Se encontraron diferencias estadísticamente significativas entre el grupo que recordó
el material con sentido y el grupo que recordó el material sin sentido encontrándose
puntajes más altos en el grupo que aprendió material con sentido. U = 2(6,6, p <
0.05).
93
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
SPSS
Para realizar el análisis de datos para la prueba U de Mann-Whitney en
SPSS ocupamos definir dos variables, la variable dependiente (Ej.
Memoria) y otra la variable categórica (Ej. material) una vez declaradas
las variables y capturados los valores para cada una de ellas, nos vamos
al menú Analizar/Pruebas no paramétricas /2 muestras
independientes.

En la ventana pruebas para dos muestras independientes en el apartado de Lista


contrastar variables
agregamos la
variable dependiente
(Ej. memoria) y en la
variable de
agrupación se agrega
la variable categórica
(Ej. Material) en el
botón de definir
grupos ponemos los
números que le
declaramos en los
valores de la variable
(Ej. 1 y 2).

94
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Después se selecciona el tipo de prueba U de Mann-Whitney. En el botón de
Opciones seleccionar descriptivos, dar clic en continuar y por ultimo aceptar.

En el visor de resultados obtendrás


un cuadro como el siguiente en el cual
deberás identificar el valor de U y el nivel de
error o significancia.

Regla de decisión para la tabla de


resultados en SPSS:
Si el nivel de significancia (Sig. Asintót
(bilateral)) es menor o igual a 0.05, se
rechaza la hipótesis nula.
Sig. Asintót (bilateral) es ≤ a 0.05 se rechaza
la hipótesis nula

CONCLUSIÓN:
Se encontraron diferencias estadísticamente significativas entre el grupo que recordó
el material con sentido y el grupo que recordó el material sin sentido encontrándose
puntajes más altos en el grupo que aprendió material con sentido. U = 2(6,6, p <
0.05)

95
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJERCICIOS DE TAREA

1.- Un investigador predijo que una serie de palabras presentadas en la parte izquierda
de una pantalla se reconocerían más rápidamente que si se presentaban en la parte
derecha, debido a la dirección de lectura de izquierda a derecha en español. La medida
fue el tiempo necesario para reconocer las palabras. Los resultados son los siguientes:
Redactar la conclusión con un nivel de significancia α= 0.05.
H0: La serie de palabras presentadas en la parte izquierda de una pantalla se
reconocerían de igual manera que si se presentaban en la parte derecha.
H1: La serie de palabras presentadas en la parte izquierda de una pantalla se
reconocerían más rápidamente que si se presentaban en la parte derecha.

Condición A Condición B
Rango Rango
(presentación parte (presentación parte
A B
izquierda) derecha)
9 8
3 5
2 7
6 20
1 11
5 6
∑x = , X= T1= ∑x = , X= T2=
Nota: un Tx (total de categorías) menor representa un reconocimiento de palabras más
rápido.

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝑋𝑟2 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑜 y 𝑋𝑟2 𝑐𝑟í𝑡𝑖𝑐𝑎
3. Redacte una conclusión, con un nivel de significancia α=0.05

96
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
2.- Alguien le ha dicho a usted que los hombres son más hábiles para el razonamiento
abstracto que las mujeres. Usted reacciona con escepticismo y decide poner a prueba
esa idea por medio de una hipótesis no direccional. Para eso selecciona al azar a ocho
mujeres de una clase de primer año de universidad, y lo somete a una prueba de
razonamiento abstracto. Una calificación más alta refleja mayor destreza para el
razonamiento abstracto. De esta manera ha obtenido los siguientes datos:

H0: Los hombres y las mujeres tienen diferente nivel de destreza para el razonamiento
abstracto.
H1: Los hombres son más hábiles para el razonamiento abstracto que las mujeres.
Condición A Rango Condición B
Rango B
Hombres A Mujeres
70 82
86 80
60 50
92 95
84 98
65 85
74 90
94 75
∑x = , X= T1= ∑x = , X= T2=

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝑋𝑟2 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑜 y 𝑋𝑟2 𝑐𝑟í𝑡𝑖𝑐𝑜
3. Redacte una conclusión, con un nivel de significancia α=0.05

97
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Prueba de Rangos de Wilcoxon (W)
(Para muestras relacionadas)

Esta prueba pertenece a las pruebas no paramétricas de comparación de dos muestras


relacionadas, toma en cuenta la magnitud de los puntajes de diferencia. En los diseños
relacionados los mismos participantes son expuestos a las dos condiciones. Cada
participante genera un par de resultados, uno para cada condición. Esto permite hacer
una comparación directa entre los resultados de cada participante bajo las dos
condiciones. Como cada participante tiene un par de resultados, uno para cada
condición, se le puede calcular las diferencias entre estos pares de resultados.
La finalidad de la prueba Wilcoxon (para muestras relacionadas) es comparar el número
de categorías con signo positivo y negativo bajo las dos condiciones. Es posible calcular
las diferencias en los resultados para cada participante. Si sólo hubiera diferencias
aleatorias entre las condiciones, como establece la hipótesis nula, las diferencias
positivas y negativas serán aproximadamente iguales

Características:
 Niveles de medición ordinal.
 Para muestras relacionadas.
 Mismos participantes o participantes igualados (características similares)
 Dos mediciones (momentos).
 Verifica diferencias pronosticadas entre dos condiciones experimentales.

Lógica de prueba
Tiene como objetivo comparar las diferencias entre cada par de puntajes, dando mayor peso a
las diferencias más grandes, de tal manera que se puede obtener el signo de las diferencias y
ordenarlas en términos de su tamaño absoluto.

Procedimiento para calcular el valor de W


1.- Calcular la diferencia (d) entre cada par de resultados, asignando signos positivos o
negativos. Esto es, reste los resultados de la Condición 1 (A), a los resultados de la
Condición 2 (B).
d= (A-B)
2.- Clasifique las diferencias (d) de menor a mayor. A estas diferencias se les debe asignar
un rango ordenado en el cual no se debe considerar el signo de la diferencia, deberá
empezarse con el valor más pequeño asignándole el valor 1. No deben considerarse las
diferencias iguales a 0 (empates), cuando esto sucede se debe ajustar el número de
participantes a: N-1, por cada empate.
98
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Condición 1 Condición 2 Rango Rangos Rangos
d
A B ordenado Positivos Negativos
3 4 -1 1 2.5
3 2 1 2 2.5
2 1 1 3 2.5
2 1 1 4 2.5
2 0 2 5 5.5
2 2 0 Empate 0
1 3 -2 6 5.5
∑13 ∑8

Nota: en el caso de que existan valores repetidos, el rango que les corresponde es igual
al promedio de los rangos, es decir: la suma de los lugares asignados de manera
secuencial entre el número de veces que se repite cada número.
3.- Aplique el signo de la columna (d) a las columnas rangos positivos y negativos.
Fíjese en los signos positivos y negativos en las columnas de rango positivo y negativo.
4.- Calcule la suma de las categorías con signo positivo y signo negativo, por separado.
5.- El total de los rangos positivo o negativo, el menor es Wobtenido.
6.- Calcule el número de participantes N (sin contar los que tuvieron empate). N= 7-1
=6
7.- Obtenga W tabla, en tabla 6. Se busca el valor crítico de W en la tabla considerando el
tipo de prueba (una cola o dos colas), el nivel de significancia (α=0.05 o α=0.025 etc.) y
utilizando N (número de participantes).

Regla de decisión
Si el valor obtenido es menor o igual al valor crítico o de tabla se acepta la hipótesis de
investigación H1.

Si 𝑊 obtenido ≤ 𝑾 crítico se rechaza la H0 y se acepta H1


Si 𝑾 obtenido > W crítico se rechaza la H1 y se acepta H0

99
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Tabla de varios Niveles de Significancia para Wilcoxon (W) (tabla 6)

100
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
101
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJEMPLO

1. Se desea probar si hay diferencias en el nivel de estrés laboral de los trabajadores


de una empresa antes y después de la implementación de un programa de
mejoramiento del ambiente laboral; el nivel de estrés se midió en una escala de
0= nada, 1= bajo, 2=medio, 3= alto y 4=muy alto, las calificaciones se muestran a
continuación:

Condición 1 Condición 2 Rango Rangos Rangos


Participa
Antes después D ordenad Positivos Negativo
ntes
o s
1 3 4 -1 1 2.5
2 3 2 1 2 2.5
3 2 1 1 3 2.5
4 2 1 1 4 2.5
5 2 0 2 5 5.5
6 2 2 0
7 1 3 -2 6 5.5
∑ 13 ∑8

Redactar la conclusión con un nivel de significancia α= 0.05.

H1= Existen diferencias en el nivel de estrés laboral de los trabajadores de una empresa
antes y después de la implementación de un programa de mejoramiento del ambiente
laboral.

H0= No Existen diferencias en el nivel de estrés laboral de los trabajadores de una


empresa antes y después de la implementación de un programa de mejoramiento del
ambiente laboral.

El valor de Wobtenido = 8
Se obtiene el valor de Wcrítico= 1
N= 7-1 =6

Se checa la regla de decisión


Si 8 > 1

Se rechaza la H1 y se acepta H0
CONCLUSIÓN:
No Existen diferencias en el nivel de estrés laboral de los trabajadores de una empresa
antes y después de la implementación de un programa de mejoramiento del ambiente
laboral. W= 1(6, 𝑝 > 0.05)
102
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
SPSS

Para realizar el análisis de datos con la prueba de Rangos de


Wilcoxon en SPSS ocupamos definir dos variables, una para
cada condición, una vez declaradas las variables y capturados
los valores para cada una de ellas, nos vamos al menú
Analizar/Pruebas no paramétricas /2 muestras relacionadas.
En la ventana Pruebas para dos muestras relacionadas
coloque las variables al cuadro contrastar pares: en el menú
Opciones seleccionar descriptivos, dar clic en continuar y por
último en aceptar.

En el visor de
resultados
obtendrás un
103

cuadro como el siguiente


en el cual deberás
Página

identificar el valor de W y el nivel de error o significancia.

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Regla de decisión para la tabla de resultados en SPSS:
Si el nivel de significancia (Sig. Asintót (bilateral)) es menor o igual a 0.05, se rechaza la
hipótesis nula.

Sig. Asintót (bilateral) es ≤ a 0.05 se rechaza la H0 aceptamos la H1


Sig. Asintót (bilateral) es > a 0.05 se rechaza la H1 aceptamos la H0
(ejercicio. 0.589 > 0.05).

CONCLUSIÓN:
No Existen diferencias en el nivel de estrés laboral de los trabajadores de una empresa
antes y después de la implementación de un programa de mejoramiento del ambiente
laboral. W= 1(6, 𝑝 > 0.05)

104
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJERCICIOS DE TAREA

1.- Un destacado grupo ecológico planea realizar una campaña activa para fomentar la
conservación de la flora y fauna silvestre en su país. Como parte de la campaña, piensan
exhibir una película producida con el fin de promover actitudes más favorables hacia la
conservación de la vida silvestre. Antes de exhibirla a todo el público, los promotores de
la campaña desean evaluar los efectos de la película. Para eso se elige al azar a un grupo
de 10 participantes y se les proporciona un cuestionario que mide la actitud individual
hacia la conservación de la vida silvestre. A continuación, se les proyecta la película y
después de la exhibición contestan de nuevo el cuestionario de actitudes. Éste tiene 50
puntos posibles y cuanto más alta sea la puntuación, tanto más favorable será la actitud
hacia la conservación de la vida silvestre. Los resultados se presentan en la siguiente
tabla:
H0=
Participa Actitud Rango Rangos Rangos
D
ntes Antes Después ordenado Positivos Negativos
1 40 44
2 33 40
3 36 49
4 34 36
5 40 39
6 31 35
7 30 27
8 36 42
9 24 35
10 20 28
∑ ∑

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝑊𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑜 y 𝑊 𝑐𝑟í𝑡𝑖𝑐𝑜
3. Redacte una conclusión. Utilice un nivel de significancia α=0.05
105
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
2.- Un investigador quiere determinar si la dificultad del material que han de aprender afecta el
nivel de ansiedad de los estudiantes universitarios. A cada uno de los miembros de una muestra
aleatoria de 12 alumnos se le asigna ciertas tareas de aprendizaje que se clasifican como fáciles
y difíciles. Antes que los estudiantes inicien cada tarea, se les presentan algunos ejemplos como
muestra del material que van a aprender. A continuación, se mide el nivel de ansiedad que
mostraron los alumnos, mediante un cuestionario adecuado. De esta manera, se mide el nivel
de ansiedad antes de cada tarea de aprendizaje. Mientras más alta sea la clasificación, mayor
será el nivel de ansiedad. Los datos se presentan en la siguiente tabla.

H0=
Ansiedad Rango Rangos Rangos
Participa
Tareas Tareas D ordenado Positivos Negativos
ntes
difíciles fáciles
1 48 40
2 33 27
3 46 34
4 42 28
5 40 32
6 27 24
7 31 33
8 42 39
9 38 31
10 34 39
11 38 29
12 44 34
∑ ∑

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝑊𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑜 y 𝑊 𝑐𝑟í𝑡𝑖𝑐𝑜
3. Redacte una conclusión. Utilice un nivel de significancia α=0.05, 2 colas.

106
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Kruskal-Wallis (H)
(Para muestras independientes)

Esta prueba debe usarse para diseños independientes cuando se aplican tres o más
condiciones a participantes distintos. Como estos participantes son expuestos sólo a una
de las condiciones para cada participante, todos los resultados de las tres condiciones
se deben clasificar de manera conjunta.

El objetivo de esta prueba es comprobar diferencias pronosticadas entre 3 o más


condiciones experimentales a participantes distintos y las variables son ordinales.

Características:
 Niveles de medición ordinal.
 Para 3 o más grupos diferentes o no relacionado (participantes distintos).
 Cuando son diferentes tratamientos o condiciones.
 Muestras pequeñas.

Lógica de prueba
La prueba compara los rangos obtenidos por cada uno de los grupos analizados, ordenando los
puntajes de la muestra total de menor a mayor. Suma Los rangos obtenidos por cada
submuestra y mediante la comparación de ellos, haciendo uso de una fórmula, obtiene el
estadístico H.

Procedimiento para calcular el valor H


1.- Ordene todos los puntajes de todos los grupos en una sola serie de rangos,
asignándole al puntaje más bajo el número 1 y así sucesivamente.

2.- Obtenga la suma de los puntajes y de los rangos para cada condición.

3.- Calcular el valor de Hobtenida sustituyendo en la fórmula:

12 𝑇𝑐2
𝐻= [ ∑ ] − 3 (𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝐶

𝑁= Número total de participantes.


𝑛𝐶 = Número de participantes en cada grupo.
𝑇𝑐 = Suma de los rangos para cada condición.
𝑇𝑐2 = Cuadrado de la suma de los rangos para cada condición.

4.- Calcule los grados de libertad con la siguiente fórmula


gl= C – 1
𝐶 = Número de condiciones
5.- Se busca el valor 𝐻 crítico en la tabla de chi- cuadrada.
107
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Regla de decisión
Si el coeficiente obtenido es mayor o igual al coeficiente de tabla se acepta la hipótesis
de investigación.

Si 𝑯obtenido ≥ 𝑯crítico se rechaza la H0 y se acepta H1


Si 𝑯obtenido < 𝑯crítico se rechaza la H1 y se acepta H0

Tabla de varios Niveles de Significancia para H (tabla 7)

108
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Tabla de vario Niveles de Significancia para H (tabla 7) continuación

109
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJEMPLO
Un investigador quería averiguar el efecto que tienen distintos tipos de instrumentos en
la solución de problemas. Al primer grupo se les dieron instrucciones escritas, a un
segundo grupo se les hizo una demostración de cómo solucionar el problema pero no
se les dieron instrucciones escritas y al tercer grupo se les hizo la demostración y además
se les dieron instrucciones escritas.

Posteriormente se les pidió a los tres grupos que solucionaran el problema. Los puntajes
se obtuvieron contando el número de equivocaciones en los movimientos. Los puntajes
fueron los siguientes: α=0.05
19 1
Grupo Rango Grupo Rango 2 Grupo Rango 3 19 2
1 1 2 3 20 3
20 3.5 25 7.5 19 1.5 20 4
27 9 33 10 20 3.5 22 5
19 1.5 35 11 25 7.5 23 6
23 6 36 12 22 5 25 7
89 20 129 40.5 86 17.5 25 8
27 9
400 1640.25 306.25
33 10
35 11
36 12
H1= Hay diferencias entre los instrumento que ayudan a la solución de problemas.
H0= No existen diferencias entre los instrumento que ayudan a la solución de
problemas.

12 𝑇 2𝐶
𝐻= [ ∑ ] − 3 (𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝐶

12 𝑇 2𝑐
𝐻= [ ∑ ] − 3 (12 + 1)
12(12 + 1) 𝑛𝐶

𝑁= 12
𝑛𝑐 = 𝑛1= 4 𝑛2 =4 𝑛3 = 4
𝑇𝑐 = 𝑇1 = 20 𝑇2 = 40.5 𝑇3 =17.5
𝑇𝑐2 = 𝑇12 = 400 𝑇22 = 1640.25 𝑇32 = 306.25
12 400 1640.25 306.25
( + +
𝐻= [12(13) 4 4 4 )] − 3 (13) = (0.077)(586.63)-3(13) = 45.17 –

39=6.17

𝐻𝑜𝑏𝑡 = 6.17 > 𝐻𝑐𝑟í𝑡𝑖𝑐𝑜 = 5.65 ∴ rechazamos Ho


110

gl= C-1 = 3-1 =2

CONCLUSIÓN:
Página

Existen diferencias entre los instrumentos que ayudan a la solución de problemas (H=
6.12, gl=2, p<0.05).
Estadística Inferencial Mtra. Joanna Koral Chávez López
Mtra. Mónica Fulgencio Juárez
SPSS
Para realizar el análisis de datos para la prueba Kruskal Wallis en SPSS ocupamos definir
dos variables, la variable dependiente (Ej. solución) y la variable categórica (Ej. Tipo
Instrumento) a la cual se le declara 3 valores, una vez declaradas las variables y
capturados los valores para cada una de ellas. Posteriormente se analizan los datos en
el menú /Pruebas no paramétricas /k muestras independientes.

En la ventana
pruebas para
varias muestras
independientes
en el cuadro lista contrastar variables enviar la variable dependiente (Ej. Solución) y
la variable categórica (Ej. Tipo Instrumento) a la variable de agrupación, y en el botón
definir grupos se indican el valor mínimo y máximo de las condiciones (Ej.1 y 3).

En el tipo de prueba seleccionar H de Kruskal-Wallis. En boton de opciones


seleccionar descriptivos, dar click en continuar y por último en aceptar.

En el visor de resultados obtendrás un cuadro como el siguiente en el cual deberás


111

identificar el valor de H y el nivel de error o significancia.


Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Regla de decisión para la tabla de resultados en SPSS:
Si el nivel de significancia (Sig. Asintót (bilateral)) es menor o igual a 0.05, se rechaza la
hipótesis nula.
Sig. Asintót (bilateral) es ≤ a 0.05 se rechaza la H0 aceptamos la H1
Sig. Asintót (bilateral) es > a 0.05 se rechaza la H1 aceptamos la H0
(ejercicio. 0.045 < 0.05).

CONCLUSIÓN:
Existen diferencias entre los instrumento que ayudan a la solución de problemas (H=
112

6.19, gl=2, p<0.05).


Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
113
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJERCICIOS DE TAREA
En un hospital se desea probar si existen diferencias en el nivel de estrés entre
enfermeras de terapia intensiva Gpo1, enfermeras de cirugías Gpo2, y enfermeras de
urgencias Gpo3; el nivel de estrés se midió en una escala de 0=nada, 1 = bajo, 2=medio,
3=alto y 4=muy alto, las calificaciones se muestran a continuación:

H0=

Grupo Rango Grupo Rango Grupo Rango 3 N=


1 1 2 2 3
3 3 4 n1=
2 3 3 n2=
1 4 2
1 4 4 n3=
0 2 3
2 2 4
1 1
∑ 𝑇1 ∑ 𝑇2 ∑ 𝑇3
̅̅̅̅
𝑻𝟏 ̅̅̅̅
𝑻𝟐 ̅̅̅̅
𝑻𝟑

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝐻 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑜 y 𝐻 𝑐𝑟í𝑡𝑖𝑐𝑜
3. Redacte una conclusión. Utilice un nivel de significancia α=0.05

114
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
2.- Un asesor empresarial está realizando una investigación en el área de capacitación
gerencial. Existen dos estilos gerenciales eficaces: uno está orientado a las personas y el
otro se orienta a las tareas. Los trabajos bien definidos y estáticos son más adecuados
para los gerentes orientados a las personas mientras que los trabajos cambiantes y de
reciente creación son idóneos para los gerentes que tienen una orientación dirigida a
las tareas. El experimento en cuestión tiene como objetivo investigar qué es mejor:
tratar de capacitar a los gerentes en ambos estilos o acoplar a los gerentes con los
trabajos para los que son apropiados sin capacitarlos en ningún otro estilo. El
experimento implica tres condiciones: Condición 1, los participantes reciben
capacitación en los dos estilos gerenciales. Condición 2, los participante no reciben
capacitación adicional. Condición 3, es de control y en ella los participantes no reciben
capacitación adicional alguna y son asignados a nuevos trabajos. Después que se han
desempeñado durante 6 meses en sus nuevos trabajos cada uno de los oficiales es
calificado de acuerdo a su rendimiento. Los datos se presentan a continuación:

H0=

Capacitación Rango Sin Rango Control Rango 3 N=


1 capacitación 2
65 90 55 n1=
84 85 82 n2=
87 76 71
53 87 60 n3=
70 92 52
85 86 81
56 93 73
63 57
∑ 𝑇1 ∑ 𝑇2 ∑ 𝑇3
̅̅̅̅
𝑻𝟏 ̅̅̅̅
𝑻𝟐 ̅̅̅̅
𝑻𝟑

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝐻 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑜 y 𝐻 𝑐𝑟í𝑡𝑖𝑐𝑜
3. Redacte una conclusión. Utilice un nivel de significancia de α=0.05
115
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Prueba de Friedman (𝑿𝟐𝒓 )
(Para muestras relacionados)

Se utiliza con diseños relacionados donde todas las condiciones experimentales se


aplican a los mismos participantes. Se utiliza cuando las tres condiciones se aplican a los
mismos participantes. Cada participante genera tres resultados, uno para cada una de
las tres condiciones. Esto permite hacer una comparación directa entre los tres
resultados de cada participante con cada una de las tres condiciones. Los resultados
correspondientes a las distintas condiciones están relacionados. Pero, como hay tres
condiciones, no es posible calcular las diferencias entre dos condiciones, como hacíamos
en el caso de la prueba Wilcoxon.

El objetivo es comprobar si el total de categorías es distinto para cada una de las


condiciones. Si existen diferencias aleatorias entre los totales de categorías para las tres
condiciones, como establece la hipótesis nula.

Características:
 Niveles de medición ordinal.
 Para 3 o más grupos relacionados.
 3 o más condiciones a los mismos participantes.
Lógica de la prueba
Se utiliza para comparar dos grupos de rangos (medianas) y determinar que la diferencia no se
deba al azar (que la diferencia sea estadísticamente significativa)

Procedimiento para calcular el valor de 𝑿𝟐𝒓


1.- Ordene por rangos los puntajes para cada persona a lo largo de cada fila (de
manera horizontal, asigne 1 al puntaje más bajo y así sucesivamente si hay valores
iguales se promedian sus lugares)
2.- Sume los totales de los puntajes y los rangos para cada condición y obtenga el
promedio de cada uno.
3.- Encuentre el valor de 𝑿𝟐𝒓 con la siguiente fórmula:
12
𝑋𝑟2 = [𝑁𝐶(𝐶+1) ∑𝑇 2 𝐶] − 3𝑁(𝐶 + 1)

𝐶 = Número de condiciones
𝑁= Número de personas
𝑇𝐶 = Suma de los rangos para cada condición
𝑇 2 𝐶 = Cuadrados de la suma de los rangos
∑𝑇 2 𝐶 = Suma de los cuadrados de TC
4.- Calcule los grados de libertad con la siguiente fórmula
gl= C – 1
𝐶 = Numero de condiciones
116

5.- Se busca el valor de tabla 𝑋𝑟2 en la tabla 7 de Chi- cuadrada.


Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Regla de decisión
Si el coeficiente obtenido es mayor o igual al coeficiente de tabla se acepta la hipótesis
de investigación.

Si 𝑋𝑟2 obtenido ≥ 𝑋𝑟2 crítico se rechaza la H0 y se acepta H1


Si 𝑋𝑟2 obtenido < 𝑋𝑟2 crítico se rechaza la H1 y se acepta H0
Tabla de varios Niveles de Significancia para Friedman (𝑿𝟐𝒓 ) (tabla 8)

117
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
Tabla de varios Niveles de Significancia para Friedman (𝑿𝟐𝒓 ) (tabla 8) continuación…

118
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJEMPLO
1. Un editor que desea producir una serie de libros para niños, quiere seleccionar
entre tres tipos de ilustraciones la más atractiva. Se le pide a 8 niños que ordenen
las tres ilustraciones en una escala de cinco puntos que va desde 1= nada buena
hasta 5= sumamente buena. Y se obtuvieron los siguientes puntajes:

H0=

Participantes C1 Rango C2 Rango C3 Rango


Ilustracion1 1 Ilustracion2 2 Ilustracion3 3
1 2 1 5 3 4 2
2 1 1 5 3 3 2
3 3 1 5 2.5 5 2.5
4 3 2 5 3 2 1
5 2 1 3 2 5 3
6 1 1 4 2.5 4 2.5
7 5 3 3 2 2 1
8 1 1 4 3 3 2
∑ 18 11 34 21 28 16
121 441 256
Nota: Se asignan rangos a cada participante de manera horizontal

H0 = Los niños no ven diferencias entre las ilustraciones más atractivas que otras.
H1 = Los niños considerarían unas ilustraciones más atractivas que otras.

Sustituyendo valores en la formula.


12 12 12
𝑋𝑟2 = [8(3)(3+1) ∑818]- 3(8)(3+1) = 24(4) (818) – 24(4) = 96 (818) – 96 = 0.125(818) -96
= 102.25 – 96 = 6.25
𝐶 = Número de condiciones C=3
𝑁= Número de personas N=8
𝑇𝐶 = Numero de rangos para cada condición T1= 11 T2= 21 T3= 16
𝑇 2 𝐶 = Cuadrados de TC T21= 121 T22= 441 T23= 256
∑𝑇 2 𝐶 = Suma de los cuadrados de TC ∑𝑇 2 = 818

𝑋𝑟2 obtenido= 6.25

Obtener valor de Friedman en tabla (tabla 7)


gl= 3-1 = 2

𝑋𝑟2 tabla =6.75

CONCLUSIÓN:
119

El investigador predijo que los niños considerarían unas ilustraciones más atractivas que
otras.
Página

( 𝑋𝑟2 = 6.25, gl=2, p< 0.05)

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
SPSS
Para realizar el análisis de datos con la prueba de Friedman en SPSS ocupamos definir
tres variables una para cada condición, una vez declaradas las variables y capturados
los valores para cada una de ellas nos vamos al menú Analizar/Pruebas no paramétricas
/k muestras relacionadas.

En la ventana
pruebas para varias
muestras
relacionadas se
envían todas las
variables a analizar
al cuadro variables
de contraste en el
botón estadísticos seleccionar descriptivos, dar clic en continuar, en tipo de prueba
seleccionar Friedman y por último en aceptar.

120
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
En el visor de resultados obtendrás un
cuadro como el siguiente en el cual
deberás identificar el valor de 𝑋𝑟2 y el
nivel de error o significancia.

Regla de decisión para SPSS

Si el nivel de significancia (Sig. Asintót (bilateral)) es menor o igual a 0.05, se rechaza la


hipótesis nula.

Sig. Asintót (bilateral) es ≤ a 0.05 se rechaza la H0 aceptamos la H1


Sig. Asintót (bilateral) es > a 0.05 se rechaza la H1 aceptamos la H0
(ejercicio. 0.036 < 0.05).

121
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez
EJERCICIOS DE TAREA
1. Se desea probar que hay diferencias en el nivel de estrés laboral en trabajadores
de una empresa antes y después de un taller sobre el manejo del estrés. Se midió
en una escala de 0= nada, 1=bajo, 2=medio,3=alto,4=muy alto, las calificaciones
se muestran a continuación:

H0=

C1 Rango C2 Rango C3 Rango 3


Participantes antes 1 Después 2 1mes
después
1 3 2 3
2 3 1 2
3 2 1 1
4 4 2 2
5 3 1 2
6 3 0 1
7 1 2 4

̅
𝑿

1. Redacte la hipótesis de investigación


2. Obtenga el valor de 𝑋𝑟2 obtenido
3. Redacte una conclusión. Utilice un nivel de significancia de α=0.05

REFERENCIAS
Wayne,D. (2011) Bioestadística: Base para el análisis de las ciencias de la salud. Cuarta edición
Ed. Limusa.

http://platea.pntic.mec.es/~anunezca/ayudas/probabilidad/probabilidad.htm

122
Página

Estadística Inferencial Mtra. Joanna Koral Chávez López


Mtra. Mónica Fulgencio Juárez