Академический Документы
Профессиональный Документы
Культура Документы
MANUAL AUTOFORMATIVO
ASIGNATURA
Estadística Aplicada a la Psicología
Autor
Joel Jesús Bastidas Valdivia
ÍNDICE
ÍNDICE
INTRODUCCIÓN
ORGANIZACIÓN DE LA ASIGNATURA
Resultado de aprendizaje de la asignatura
Unidades didácticas
Tiempo mínimo de estudio
UNIDAD I: MUESTREO - PRUEBA DE HIPÓTESIS DE MEDIAS DE MUESTRAS
Diagrama de organización de la unidad
Organización de los aprendizajes
Tema n.° 1: DISEÑO DE TÉCNICAS DE MUESTREO PROBABILÍSTICO
1. Conceptos básicos
2. Muestras probabilísticas y estimadores
Tema n.° 2: PRUEBA DE HIPÓTESIS PARA LA MEDIA
1. Definiciones básicas
2. Prueba de aseveración para la media de una muestra
3. Errores de muestreo
Lectura seleccionada n.° 1
Actividad n.° 1
Tema n.° 3: ESTIMACIONES Y TAMAÑOS DE MUESTRA
1. Definiciones básicas
2. Estimación de la media poblacional
3. Determinación del tamaño de muestra para la media poblacional
Glosario de la Unidad I
Bibliografía de la Unidad I
Autoevaluación de la Unidad I
UNIDAD II: INTRODUCCIÓN A LA PRUEBA “T” - PRUEBA “T” PARA MEDIAS INDE-
PENDIENTES - INTRODUCCIÓN AL ANÁLISIS DE VARIANZA.
Diagrama de organización de la unidad
Organización de los aprendizajes
Tema n.° 1: Introducción a la prueba T de Student
1. Prueba “t” para una muestra.
Tema n.° 2: prueba “t” para dos muestras
1. Prueba “t” para dos muestras dependientes.
2. Prueba “t” para dos muestras independientes.
Lectura seleccionada n.° 2
2
Actividad n.° 2
Tema n.° 3: Análisis de varianza
1. Definiciones básicas.
2. Análisis de la varianza de un factor.
Glosario de la Unidad II
Bibliografía de la Unidad II
Autoevaluación de la Unidad II
3
Organización de los aprendizajes
Tema n.° 1: Introducción
Tema n.° 2: Prueba Chi cuadrado
2.1. Las pruebas de bondad de ajuste y de normalidad.
2.2. Prueba de hipótesis de que la distribución es normal.
2.3. Prueba de Independencia de 2 variables.
Lectura seleccionada n.° 4
4
INTRODUCCIÓN
Cada vez que se inicia un curso de estadísticas aplicadas en psicología, es común que
los estudiantes cuestionen el estudio de la estadística debido al fundamento mate-
mático que ello contiene; es más se preguntan ¿Qué relación podría tener lo anterior
con la psicología? Ya que como sabemos es una especialidad teórico-práctica, cuyo
objetivo principal es la atención de los problemas del comportamiento de los sujetos,
ya sean de carácter individual o grupal o ambos, ajena de aspectos cuantitativos que
impliquen cuantificación y manipulación matemática.
Por otro lado, cabe destacar que existen en el mercado una variedad de libros exce-
lentes sobre estadística; sin embargo, desde mi punto de vista, muchos de ellos traen
un gran cargamento matemático, siendo poco atractivos para los estudiantes de Psi-
cología y por otro, aquellos que traen exagerada simplicidad convirtiéndolos en textos
con muy poco nivel cuantitativo.
Por todo lo anterior, intentaremos concebir un texto que, sin caer en exigencias ma-
temáticas innecesarias, pero respetando su pertinencia, tanto teórica como práctica,
favorezca el estudio sistemático de las estadísticas y permita al estudiante su aplica-
ción, con validez, sistematización y sustento científico en las ciencias del comporta-
miento.
El uso del manual es importante para una mejor orientación, ya que con ello podrá
usted identificar rápidamente que modelo estadístico seguir para el análisis correcto
de sus datos, según la investigación que se encuentre realizando.
Finalmente deseamos éxito a todos aquellos que dediquen tiempo al estudio de esta
ciencia y a la vez pedimos disculpas por los errores que se puedan presentar a lo
largo de la lectura, recordando que se agradece las observaciones y correcciones que
se realicen para la mejora del mismo.
El autor
5
ORGANIZACIÓN DE LA ASIGNATURA
UNIDADES DIDÁCTICAS
6
UNIDAD I: MUESTREO – PRUEBA DE HIPÓTESIS DE MEDIAS DE MUES-
TRAS
Autoevaluación de la Unidad I
7
Tema n.° 1: Diseño de técnicas de muestreo probabilístico
En este tema Comienza el estudio del muestreo, basado en la selección de elemen-
tos de una población para hacer juicios o inferencias respecto a ésta.
¿Cuáles son las justificaciones para muestrear?
• Considerar para una investigación a toda la población de estudio requiere
mucho tiempo.
• El costo para un estudio con todos los elementos de una población resulta
muy oneroso.
• Es inalcanzable para verificar de manera física todos los elementos de la
población.
• Los resultados de una buena muestra se aproximan suficientemente a los
reales.
Iniciamos con el análisis de las técnicas para seleccionar una muestra de una pobla-
ción.
1. Conceptos básicos
Daremos a conocer éstas a través de un ejemplo:
Suponga que una entidad oficial del gobierno de su país está interesada en la
realización de una encuesta de desempleo con el fin de determinar:
a) Cuántas personas actualmente pertenecen a la fuerza laboral, tanto en el
país en cuestión como en sus regiones o subdivisiones geográficas y
b) Qué proporción de estas están desempleadas. Con base en lo anterior se
tienen los siguientes aspectos para la realización de dicho estudio:
1.1. Población objetivo: Todas las personas de Perú.
1.2. Dominios o subgrupos de interés: Grupos de edad, género, grupos ocu-
pacionales y regiones del país.
1.3. Características de interés: Pertenencia a la fuerza laboral y estado de em-
pleo. Estas toman valor uno o cero.
1.4. Parámetros de interés: Número total de persona pertenecientes a la fuerza
laboral, número total de desempleados, proporción de desempleo.
8
1.5. Muestra: Se selecciona un subconjunto de la población como muestra, con
la ayuda de mecanismos de identificación y ubicación de las personas en el país.
1.6. Observaciones: Cada persona incluida en la muestra es visitada por un en-
cuestador entrenado, quien hará preguntas siguiendo un cuestionario estandari-
zado y recolectará las respuestas en un instrumento apropiado.
1.7. Procesamiento: Los datos se editan y se preparan para la etapa de estima-
ción.
1.8. Estimación: Se calculan las estimaciones sobre los parámetros de interés y
también indicadores acerca de la incertidumbre de estas estimaciones.
2.1.1. Muestreo aleatorio simple: “Una muestra aleatoria simple del tamaño
de n sujetos, se selecciona de manera que cada posible muestra del mismo tamaño
n tenga la misma posibilidad de ser elegida”. (Triola, 2004, p. 23). Esto quiere
decir, que, si tenemos una población de “N” objetos, n es muestra aleatoria simple,
porque los n objetos tienen la misma probabilidad de ser seleccionados, y son
seleccionados independientemente, es decir, la elección de un objeto cualesquiera
no altera la probabilidad de que sean seleccionados otros objetos de la población
N.
Ejemplo:
Se requiere una muestra de 10 estudiantes del nivel inicial para medir el grado de
agresividad en su comportamiento. Si en la ciudad de Huancayo se tienen 750
estudiantes de dicho nivel entonces un método conveniente para obtener una
muestra aleatoria consiste en utilizar una tabla de números aleatorios como la
tabla n.° 1 de anexos.
En este caso el encargado de la investigación prepararía una lista de los 750 es-
tudiantes y le asignaría un número del 1 al 750 en un programa de computadora.
Utilizando una tabla de números aleatorios se elegiría al azar un punto de partida
en esta y se seleccionarían 10 números de 3 dígitos entre el 001 y el 750.
Primero elegimos de la tabla n.º 1.1., adjunta, de forma fortuita una columna y
una fila. Por ejemplo, si el reloj marca 3:04 p. m. entonces nos desplazamos hasta
la columna 3 y fila 4. Donde se encuentra el número 03759. Pero como solo hay
750 niños (y el número seleccionado es mayor), se utilizan los 3 primeros dígitos
de un número aleatorio de la tabla que es de cinco dígitos. Por tanto, 037 será el
número del primer niño que se convertirá en miembro de nuestra muestra. Para
9
continuar seleccionando otros niños para la muestra, se puede seleccionar ubicán-
dose en cualquier dirección, supongamos que se ha decidido que se mueva a la
derecha. Los primeros tres dígitos del número de la derecha de 03759 son 447, el
número del segundo niño seleccionado para integrar la muestra. El siguiente nú-
mero a la derecha es 961 el cual omitimos ya que solo se tienen 750 niños y así
sucesivamente continuamos hasta completar la muestra.
Tabla 1.1:
Fragmento de una lista de Números aleatorios
2.1.2. Muestreo aleatorio sistemático: Para utilizar la técnica del muestreo siste-
mático es necesario que la población sea finita, formada por N elementos de los
cuales se obtendrán n, los mismos que integrarán la muestra. A cada elemento se
le identifica con un código; luego se ordenan todos en forma ascendente o des-
cendente; después se calcula el k-ésimo elemento de la población.
Ejemplo:
Tabla 1.2
Individuos registrados
10
12 Hombre 25 181 32 Mujer 20 176
13 Mujer 29 164 33 Mujer 26 174
14 Hombre 25 159 34 Mujer 25 190
15 Mujer 19 178 35 Mujer 23 164
16 Mujer 29 163 36 Hombre 20 164
17 Hombre 25 180 37 Mujer 34 176
18 Mujer 25 174 38 Hombre 35 188
19 Hombre 29 137 39 Mujer 30 155
20 Hombre 25 153 40 Mujer 29 141
40
𝑘𝑘 = =5
8
Luego de manera aleatoria simple elegimos el un número de 1 a 5 como punto de
inicio o arranque: 𝐴𝐴 = 3
Tabla
Edades y estatura por género
11
A la población se le divide en grupos llamados estratos. Cada estrato es más ho-
mogéneo en su interior con respecto a las características que se estudian, pero
heterogéneos entre sí. Su tamaño puede ser igual o diferente al de los otros y son
mutuamente excluyentes.
Tabla 1.3
Población de Profesores
12
Figura 1.2: Nivel de pobreza por departamentos del Perú. Tomada de
https://www.inei.gob.pe/
13
Tema n.° 2: Prueba de hipótesis para la media
Como se recuerda una prueba de hipótesis o prueba de significancia, es un pro-
cedimiento estándar para probar estadísticamente una afirmación respecto de
una propiedad que pertenece a una población.
1. Definiciones básicas:
1.1. Hipótesis estadística: Se trata de una afirmación sobre los parámetros de una
o más poblaciones.
14
Nivel de significación (α) Potencia de una prueba
Es la probabilidad de cometer un Es la probabilidad de cometer un
error de tipo I error de tipo II
α = P (error tipo I) β = P (error tipo II)
α = P(rechazar H0 cuando es ver- β = P(aceptar H0 cuando es falsa)
dadera)
1.7 Regla de decisión: Una regla de decisión, especifica las condiciones en las
que se rechaza o no se rechaza la hipótesis nula. Por esta razón, debe determi-
narse la región o área de rechazo, que sirve para definir la ubicación de todos
los valores que son tan grandes o tan pequeños, cuya probabilidad de ocurren-
cia es muy lejana en una hipótesis nula verdadera.
Figura 1.4: Pasos para una prueba de hipótesis. Adaptado de Cruz, A.P. Prueba de
hipótesis para una muestra
15
Paso 2: Se selecciona un nivel de significancia: 𝛼𝛼 = 0,05 (Indica la probabilidad
de sentenciar erróneamente que el tiempo promedio de espera es mayor a 20
min es 0,05)
X − µo
Paso 3: Identificamos el estadístico de prueba: Z= (Cruz, s/f)
σ/ n
(Nota importante: Se utiliza el presente estadístico de prueba cuando la desvia-
ción poblacional es desconocida o el tamaño de la muestra es de 30 a más)
Figura 1.5: Distribución muestral del estadístico Z; prueba de una cola a la de-
recha; nivel de significancia de 0,05.
Supuestos:
a. Población aproximadamente normal.
b. Muestra tomada al azar.
23−20
Cálculo de la Z de prueba: 𝑍𝑍𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 10 =3
√100
Paso 5: Conclusión.
Existe suficiente evidencia estadística para afirmar con un nivel de confianza del
95% que el tiempo de permanencia en la sala de espera es mayor a 20 min.
3. Errores de muestreo
Para Triola (2004) “Un error de muestreo es la diferencia entre el resultado de
una muestra y el verdadero resultado de la población; tal error es consecuencia
de las posibles fluctuaciones de las muestras”. (p. 26)
16
Lectura seleccionada n.°1
Actividad n.° 1
Aplique los métodos de muestreo estudiados según la pregunta y
someta a prueba cada una de las hipótesis indicadas.
1. Con base en su técnica de reciente desarrollo, una psicóloga clínica cree que
puede reducir la cantidad de tiempo (en semanas) que los esquizofrénicos pasan en
una institución. Como director de una institución médica, usted accede a permitirle
probar su método con un grupo de esquizofrénicos seleccionados al azar de su ins-
titución. Los puntajes tienen una distribución normal (tal como muestra el histo-
grama).
17
2. En una encuesta de salud psicológica de cierta comunidad, se entrevistó a 150
individuos. Uno de los detalles de la información obtenida fue el número de recetas
de tranquilizantes contra el estrés que cada persona había tenido que pedir durante
el año anterior. El número de recetas promedio para los 150 individuos fue de 5,8
con una desviación estándar de 3,1. El investigador desea saber con un nivel de
significancia de 0,05, si estos datos proporcionan evidencia suficiente como para
afirmar que la media de la población es mayor que 5.
18
Tema n.° 3: Estimaciones y tamaños de muestra
1. Definiciones básicas
Los términos que siguen son muy importantes en la estimación del intervalo:
19
Coeficiente de confianza: Para un intervalo de confianza, la proporción de tales
intervalos que incluirán el parámetro de la población si el proceso de construcción
del intervalo se repitiera muchas veces.
𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 1.96 × ≤ 𝜇𝜇 ≤ 𝑥𝑥̅ + 1.96 ×
√𝑛𝑛 √𝑛𝑛
20
La cual se considera una buena aproximación para el intervalo de confianza al
95% para la μ con una desviación desconocida. Esta aproximación es mejor
en la medida que el tamaño muestral sea grande (n≥30).
Cuando el tamaño muestral es pequeño (n<30), el intervalo de confianza re-
quiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo
n el tamaño de la muestra), en vez de la distribución normal (por ejemplo,
para un intervalo de 95% de confianza, los límites del intervalo ya no serán
construidos usando el valor 1,96, sino otro valor que se obtiene de la tabla t
de Student).
𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 𝑡𝑡 × ≤ 𝜇𝜇 ≤ 𝑥𝑥̅ + 𝑡𝑡 ×
√𝑛𝑛 √𝑛𝑛
Tabla 1.4
Fragmento de una tabla de distribución
Margen de error
• Si la desviación estándar o la varianza poblacional es conocida, el margen de
𝜎𝜎
error es: 𝐸𝐸 = 𝑍𝑍 × donde el valor de Z se calcula en 2 colas.
√𝑛𝑛
𝑁𝑁−𝑛𝑛
• Si la población es finita, se usa el factor de correción por población finita �
𝑁𝑁−1
Ejemplo:
21
una muestra aleatoria de 9 alumnos y se les preguntó por su gasto en alimen-
tación durante el día anterior a la encuesta, encontrándose los siguientes re-
sultados. Calcule e interprete el intervalo de confianza del gasto promedio
diario.
Tabla 1.5
Fragmento de una tabla de distribución t, su forma de usar
22
Paso 3: Por lo tanto, con un nivel de confianza del 95% se puede afirmar que el
gasto promedio diario en alimentación de los estudiantes de Psicología se encuen-
tra de 10,56 soles hasta 16,78 soles.
Ajuste de Tamaño de
muestra para población fi-
nita
n0
n=
n
1+ 0
N
Donde:
E: Es el margen de error permitido;
z: Es el valor estándar normal asociado con el grado de confianza elegido,
σ: La desviación estándar de la población, obtenida de estudios anteriores,
experiencias previas o se puede estimar la desviación estándar muestral me-
diante un estudio piloto
no: Tamaño de muestra calculada de una población infinita
N: Tamaño de población.
Se dice que una población es finita si la relación n/N > 5%
Ejemplo:
En una empresa se desea conocer el tiempo promedio que sus empleados tardan
en usar los servicios higiénicos al día. Se estima que la desviación estándar de
dicho tiempo es de 10 minutos. Calcule el tamaño de muestra si se desea tener
un nivel de confianza del 90% y un margen de error de 2 minutos.
Resolución:
Paso 1: Podemos notar que el tamaño de la población es desconocido, pero si es
conocido la desviación estándar poblacional, por lo tanto, el tamaño de la mues-
tra se obtendrá mediante:
23
z 2σ 2
n=
E2
Paso 2: Reemplazamos los datos en la fórmula del paso 1, donde el margen de
error es de 2 min y el valor de Z es 1,645 para un nivel de significancia de 0,10
en dos colas.
1,6452 × 102
𝑛𝑛 = = 67,65 ≈ 68 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
22
24
Glosario de la Unidad I
Contraste de hipótesis
“Conocido también como prueba de hipótesis, es el proceso estadístico que se sigue
para la toma de decisiones a partir de la información de la muestra. Comparando el
valor del estadístico experimental con el valor teórico, se rechaza o acepta la hipóte-
sis nula. Lo contrario a la hipótesis nula se llama hipótesis alterna” (Asurza, 2006, p.
14).
Error de muestreo
“Conocido también como error muestral, es la diferencia que existe entre el valor real
(parámetro) obtenido con los valores de la población y el valor estimado en base a
los valores de una muestra (estimación)” (Asurza, 2006, p. 29).
Estadístico de prueba
“Conocido también como estadígrafo, es el valor calculado en base a los datos que
se obtienen sobre una muestra y por lo tanto es una estimación de los parámetros.
Entre los más usados se tiene la media muestral y la desviación estándar muestral
(Asurza, 2006, p. 31).
Intervalo de confianza
“Conocido también como límites de confianza. Es un rango de valores en el cual se
encontraría el valor del parámetro, con una probabilidad determinada. Generalmente
se construye intervalos de confianza con 95% de probabilidad. (Asurza, 2006, p. 41).
Valor crítico
Punto de división entre la región en que se rechaza la hipótesis nula y aquella en la
que se acepta (Asurza, 2006).
Valor 𝝆𝝆
Probabilidad de observar un valor muestral tan extremo o más que el valor obser-
vado, si la hipótesis nula es verdadera (Asurza, 2006).
25
Bibliografía de la Unidad I
Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.
Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.
Triola, M. (2004). Estadística. (9ª edición). México: Addison Wesley, Pearson Educa-
ción de México.
26
Autoevaluación de la Unidad I
1. Correlacione:
DEFINICIONES CONCEPTO
1 Es una técnica en el que el sujeto no sabe si está Muestreo estratifi-
recibiendo el tratamiento cado
2 Los miembros de una población se seleccionan de Muestreo sistemá-
forma que cada miembro individual tenga la tico
misma posibilidad de ser elegido
3 Selecciona directamente los individuos de la po- Muestra aleatoria
blación para la muestra
4 Se selecciona un punto de partida, después se Muestreo de conve-
elige cada k-ésimo elemento de la población niencia
5 Subdividimos a la población en al menos dos Estudio a ciegas
subgrupos diferentes, cada subgrupo posee gran
homogeneidad respecto alguna característica.
A) 3,4,5,2,1
B) 5,4,3,2,1
C) 3,5,4,2,1
D) 5,4,2,3,1
E) 5,3,4,2,1
2. Una población está compuesta por grupos que tienen una amplia variación dentro
de cada uno de ellos pero poca variación de grupo a grupo. El tipo apropiado de
muestreo de esta población es el…
A) Estratificado
B) Sistemático
C) Aleatorio simple
D) Por Conglomerados
E) Falta mayor información
A) II, III y IV
B) I, II, y V
C) I, IV y V
D) II y IV
E) III, IV y V
27
4. El ancho de un intervalo de confianza para una proporción sería:
A) Más angosto para un nivel confianza de 99% que para un nivel confianza de 95%.
B) Más amplio para una muestra de tamaño 100 que para una muestra de tamaño
50.
C) Más amplio para una desviación estándar de 3.56 que para un nivel de confianza
de 90%
D) Más amplio cuando la proporción de la muestra sea 0.50 que cuando la proporción
de la muestra sea 0.20.
E) Más amplio a nivel de confianza 99% que al de 95%
A) II y IV
B) III y V
C) I
D) IV
E) III
6. Para cada uno de los siguientes pares de hipótesis nula y alternativa, determine
si el par está bien redactado y si sería adecuado para una prueba de hipótesis.
A) 𝐻𝐻0 : 𝜇𝜇 = 17; 𝐻𝐻1 : 𝜇𝜇 ≠ 20
B) 𝐻𝐻0 : 𝜇𝜇 ≤ 32; 𝐻𝐻1 : 𝜇𝜇 ≥ 32
C) 𝐻𝐻0 : 𝜇𝜇 ≤ 20; 𝐻𝐻1 : 𝜇𝜇 > 20
D) 𝐻𝐻0 : 𝜇𝜇 < 15; 𝐻𝐻1 : 𝜇𝜇 ≥ 45
E) 𝐻𝐻0 : 𝜇𝜇 ≥ 45; 𝐻𝐻1 : 𝜇𝜇 = 45
28
UNIDAD II: INTRODUCCIÓN A LA PRUEBA “T” - PRUEBA “T” PARA MEDIAS
INDEPENDIENTES - INTRODUCCIÓN AL ANÁLISIS DE VARIANZA.
29
Tema n.° 1: Introducción a la prueba t de Student
Por lo general, no se conoce la verdadera desviación estándar de una pobla-
ción. La prueba “t” es adecuada para las pruebas de hipótesis en las cuales
se utiliza la desviación estándar de la muestra (s) para estimar el valor de la
desviación estándar de la población (𝜎𝜎).
1. Prueba “t” para una muestra:
La prueba t se basa en la distribución t (con un número de grados de libertad,
𝑑𝑑𝑑𝑑 = 𝑛𝑛 − 1) y en la suposición de que la población tiene una distribución apro-
ximadamente normal. Conforme crece el tamaño de la muestra, la suposición
de normalidad de la población se vuelve menos importante.
PRUEBA DE HIPÓTESIS
PARA UNA POBLACIÓN
RESPECTO A LA MEDIA
µ
𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑍𝑍𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝜎𝜎 𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑠𝑠
√𝑛𝑛 √𝑛𝑛
Figura 2.1: Intervalo de confianza para la media.
Fuente: Elaboración propia.
Ejemplo: Los siguientes valores son las presiones sistólicas sanguíneas (en mm de
Hg) de 12 pacientes que experimentan una terapia con drogas debido a que pade-
cen de hipertensión.
194 163 144 114 178 152 118 158
¿Puede concluirse en base a estos datos que la media de la población es menor que
165 mm/Hg?
30
Conforme a la figura 1.4: Pasos para una prueba de hipótesis (p. 14), procedemos
paso a paso, a resolver la interrogante planteada:
RHo AHo
0.05 0.95
𝒕𝒕𝒑𝒑 =-1,895
Tabla 2.1
Distribución muestral del estadístico t; prueba de una cola a
la izquierda; nivel de significancia de 0,05.
31
Supuestos:
a. Población aproximadamente normal.
b. Muestra tomada al azar.
152,625−165
Cálculo de la t de prueba: 𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 27,407 = −1,277
√8
Paso 5: Conclusión.
32
Tema n.° 2: Prueba “t” para dos muestras
Nuevamente, recurrimos a la figura 1.4: Pasos para una prueba de hipótesis (p. 14),
para contestar la pregunta planteada.
33
Paso 2: El nivel de significancia considerado en el enunciado es 𝛼𝛼 = 0,05.
RHo AHo
0.05 0.95
𝒕𝒕𝒑𝒑 =-1,833
Tabla 2.2
Distribución muestral del estadístico t; prueba de una cola a la iz-
quierda; nivel de significancia de 0,05.
Supuestos:
a. Población aproximadamente normal.
b. Muestra tomada al azar.
34
Latidos por minuto
Animal Antes Después Diferencia
1 70 115 -45
2 84 148 -64
3 88 176 -88
4 110 191 -81
5 105 158 -53
6 100 178 -78
7 110 179 -69
8 67 140 -73
9 79 161 -82
10 86 157 -71
Promedio= -70.4
Desv Est= 13.3849003
−70,4
Cálculo de la t de prueba: 𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 13,3849 = −16,6325
√10
A 72 83 57 71 72 68 70 68 77 67
B 36 52 41 44 39 51 47 41 55 46
Con alfa de 0.05, determine si hay diferencias en las medias del autoconcepto fami-
liar entre ambos grupos.
35
Paso 1: Se desarrolla la prueba de homogeneidad de las poblaciones.
AHo RHo
0.025 0.025
𝐹𝐹𝑐𝑐𝑐𝑐í𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 4,03
𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔
𝑭𝑭𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 = = 𝟏𝟏. 𝟐𝟐𝟐𝟐
𝟑𝟑𝟑𝟑, 𝟕𝟕𝟕𝟕
36
Tabla 2.3
Distribución muestral del estadístico F; prueba de una cola a la derecha;
para un nivel de significancia de 0,05.
Paso 1.5: Como la F de prueba cae en la zona de aceptación, se puede afirmar con
una confianza del 95% que las muestras provienen de poblaciones homogéneas.
37
Paso 3: Proponemos las hipótesis.
38
AHo RHo
RHo
0.95 0.025
0.025
t crítica=-2,102 t crítica=2,102
𝑥𝑥̅1 = 70,5
𝑠𝑠12 = 45,61
𝑥𝑥̅2 = 45,2
𝑠𝑠22 = 37,73
𝒔𝒔𝟐𝟐𝒑𝒑 = 𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔
Paso 7: Conclusión
Con un nivel de confianza del 95% la diferencia encontrada en las muestras si es
significativa, luego Si hay diferencias en las medias del autoconcepto familiar entre
ambos grupos.
39
Lectura seleccionada n.°2
Actividad n.°2
Antes 80 75 78 82 71 79 73 86 79 84
Después 70 71 70 71 71 73 74 78 74 79
Con alfa de 0.05, determine si el tratamiento logró disminuir los puntajes obtenidos
en la prueba.
¿Proporcionan estos datos evidencia suficiente que indique que la privación sensorial
tiene algún efecto sobre la frecuencia de la onda alfa de las personas?
40
x1 = 21,57 x2 = 20,38
s1 = 3,87 s2 = 3,91
n1 = 43 n2 = 33
Ponga a prueba la hipótesis de que las dos poblaciones tienen diferentes medias. Elija
una significancia del 5%
41
Tema n.° 3: Análisis de varianza
En el punto anterior hemos visto cómo a través de un test t se puede
poner a prueba la hipótesis acerca de la diferencia entre dos medias.
Pero en investigación experimental muy frecuentemente se ponen a
prueba hipótesis relativas a si existen diferencias en la eficacia de k
distintos tratamientos (k>2 más de 2 muestras), es decir, hipótesis del
tipo 𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 = ⋯ = 𝜇𝜇𝑘𝑘 . Una posible solución para el caso de k mues-
tras podría ser comparar por pares tales medias, hasta completar todas
𝑘𝑘(𝑘𝑘−1)
las posibles combinaciones. Sin embargo, no es ésta una solución
2
recomendable dado que alfa crece exponencialmente a medida que k
aumenta.
Por ello se hace necesario desarrollar una nueva técnica de análisis
estadístico que permita verificar las hipótesis de ese tipo manteniendo
a niveles constantes alfa. Esta técnica se conoce con el nombre de
“análisis de la varianza” (o también ANOVA, acrónimo de 'Analysis of
variance'), y fue desarrollada por Fisher a partir de 1930. Podemos
afirmar que el ANOVA es la técnica de análisis estadístico más utilizada
en la investigación experimental y cuasi-experimental en Psicología (de
hecho, más del 75% de los artículos revisados son analizados a través
de ANOVA), de tal modo que hoy no se puede hablar de hacer experi-
mentación en cualquier rama de la Ciencia sin conocer la técnica básica
de análisis paramétrico que es el ANOVA. (Pitarqué, 2011, p.25).
1. Definiciones básicas
Experimento
Un estudio o investigación diseñada para examinar el efecto que tiene una varia-
ble sobre el valor de otra variable.
Variable dependiente
La variable cuyo valor se mide u observa. En el ANOVA la variable dependiente
es cuantitativa; por ejemplo, el consumo de una bebida, la calificación en un
examen o el tiempo requerido para escribir un documento.
Variable independiente
Una variable observada o controlada para determinar su efecto sobre el valor de
la variable dependiente. En el ANOVA la variable independiente puede ser cuali-
tativa (el estado civil) o cuantitativa (la edad).
V. Independiente = factor
El experimento puede comprender niveles de factores (categorías) diferentes.
Cada nivel específico de un factor se llama tratamiento.
Ejemplo.
Tres psicólogos de la Escuela de Psicología han desarrollado, de manera indepen-
diente, tres tratamientos dirigidos a disminuir la ansiedad en los estudiantes que
desarrollan las pruebas de admisión a dicha escuela. Como se puede observar,
se trata de una sola variable independiente, la cual se aplica en tres niveles,
considerándose como nivel, cada tratamiento desarrollado por cada uno de los
psicólogos. Se supone que los tres tratamientos van dirigidos a modificar una sola
variable dependiente: la ansiedad. El experimento trata de verificar el efecto de
42
los tratamientos sobre la ansiedad y si se observan diferencias entre dichos tra-
tamientos con relación al efecto producido en la ansiedad. Como son tres grupos,
se ha decidido aplicar una ANOVA para determinar la efectividad de los trata-
mientos.
Tratamiento 1 12 15 9 14 14 6 15 17 7
Tratamiento 2 14 18 8 13 15 7 12 19 8
Tratamiento 3 13 20 6 10 17 7 12 16 8
𝐇𝐇𝟏𝟏 : 𝐀𝐀𝐀𝐀 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦 𝐮𝐮𝐮𝐮𝐮𝐮 𝐝𝐝𝐝𝐝 𝐥𝐥𝐥𝐥𝐥𝐥 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦 𝐞𝐞𝐞𝐞 𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝 𝐚𝐚 𝐥𝐥𝐥𝐥𝐥𝐥 𝐝𝐝𝐝𝐝𝐝𝐝á𝐬𝐬.
Los tratamientos si afectan el nivel de ansiedad.
Tabla 2.4
Tabla ANOVA
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F prueba
Entre grupos SCE k-1 CME=SCE/(k-1) CME/CMD
Dentro de los grupos SCD n-k CMD=SCD/(n-k)
Total SCT n-1
K= número de grupos.
n= número de datos.
43
Desarrollo para hallar los valores de la tabla ANOVA:
T1 T2 T3
12 14 13
15 18 20
9 8 6
14 13 10
14 15 17
6 7 7
15 12 12
17 19 16
7 8 8
Media dentro 12.1111 12.6667 12.1111 12.2963
de cada grupo media entre
los grupos
ANÁLISIS DE
VARIANZA
Origen de las Promedio de los
Suma de cuadrados Grados de libertad F prueba
variaciones cuadrados
0.9259
Entre grupos 1.851851852 Numerador=2 0.925925926 19,1574
=0.0483325
Dentro de los
459.7777778 Denominador=24 19.15740741
grupos
Total 461.6296296 26
Calculando F crítico:
AHo RHo
0.95 0.05
Fc=3,40
44
Fp=0,048
Tabla 2.5
Distribución muestral del estadístico F; prueba de una cola a la derecha; ni-
vel de significancia de 0,05.
Paso 3: Conclusión.
Con un nivel de confianza del 95% se puede afirmar que los tratamientos no
ejercen diferentes efectos en el nivel de ansiedad de los grupos.
45
Glosario de la Unidad II
Análisis de varianza
“Es un método para comparar dos o más medias de “n” grupos analizando la varianza
de los datos, tanto entre “n” grupos como dentro de ellos” (Asurza, 2006, p. 5).
Error experimental
Es la variabilidad existente entre los resultados de unidades experimentales tratadas
en forma similar. Cualquier factor no controlable contribuye al error experimental.
El error experimental proviene de dos fuentes principales: variabilidad
inherente al material experimental y variabilidad resultante de cualquier falta de uni-
formidad en la realización física del experimento (Asurza, 2006).
Factor
“Es una variable independiente o de entrada que puede afectar los resultados del
experimento. Los factores se pueden clasificar en controlables y no controlables”
(Asurza, 2006, p. 32).
Factor en estudio
Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto será eva-
luado en los resultados del experimento. El interés principal del experimentador es
evaluar el efecto de estos factores. En el ejemplo anterior, la promoción es el factor
en estudio. A los distintos valores de los factores en estudio que son evaluados se
les llama niveles del factor. Un experimento diseñado puede tener dos o más factores
en estudio (Asurza, 2006).
Grados de libertad
En estadística grados de libertad de un estadístico calculado en base a “n” datos, se
refiere al número de cantidades independientes que se necesitan en su cálculo, me-
nos el número de restricciones que ligan a las observaciones y el estadístico. Simbó-
licamente se representa por gl.
Ejemplo: Sea 2; 5; 7; 9 y 12 su media es 7 y se ha calculado a partir de n=5
observaciones independientes, que están ligadas por la media aritmética.
Luego el número de grados de libertad de la media es n-1=4. (Asurza, 2006,
p. 34)
Tratamiento
Un tratamiento corresponde a los niveles de un factor o a una combinación de los
niveles de dos o más factores en estudio y cuyo efecto se mide y compara con los de
otros tratamientos (Asurza, 2006).
Unidad experimental
Es la unidad a la cual se le aplica un tratamiento y en la cual se mide el efecto de un
tratamiento. En el ejemplo, la unidad experimental podría ser un empaque de ali-
mento (Asurza, 2006).
Variable respuesta
Es la variable en la cual se evaluarán los efectos de los tratamientos. En el ejemplo,
la variable respuesta puede ser el tiempo de duración observado de cada empaque
(Asurza, 2006).
46
Bibliografía de la Unidad II
Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.
Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.
Triola, M. (2004). Estadística. (9ª edición). México: Addison Wesley, Pearson Educa-
ción de México.
47
Autoevaluación de la Unidad II
Muestra 1 178 161 194 204 185 179 173 172 108 181 185
Muestra 2 128 89 150 191 188 209 53 131 184 97 112
Asuma poblaciones normales. Con un nivel de significancia del 5%, indique lo co-
rrecto.
A) F calculado = 0.9622
B) F crítico = 6.82
C) t calculado= 1.8695
D) t critico = 1.98229
E) No utilice esta opción.
4. La directora del departamento de personal de una importante corporación está
reclutando un gran número de empleados para un puesto en el extranjero. Durante
el proceso de selección, la administradora le pregunta cómo van las cosas, y ella
responde: “Bien, creo que la puntuación promedio de la prueba de aptitud sobrepa-
sará el valor de 90”. Cuando la administradora revisa al azar 20 resultados de las
pruebas, encuentra que la puntuación promedio es de 92 con una desviación estándar
de esta puntuación es 7. ¿Estos datos le confirman la información alcanzada por la
48
directora del departamento de personal? Asuma que las puntuaciones se distribuyen
normalmente y use un nivel de significancia del 5%. Indique la t de prueba correcta.
A) 𝑡𝑡𝑝𝑝 = 1,28
B) 𝑡𝑡𝑝𝑝 = −1,02
C) 𝑡𝑡𝑝𝑝 = 1,35
D) 𝑡𝑡𝑝𝑝 = 1,15
E) Falta mayor información.
49
A) α = 0.005
B) t calculado=2.3152
C) t critico = 2.798
D) Sd= 2.8277
E) 𝑑𝑑̅ = 2.5
50
UNIDAD III: ANÁLISIS FACTORIAL DE VARIANZA-CORRELACIÓN Y PRE-
DICCIÓN.
51
3. Intervalo de Confianza.
4. Intervalo de Predicción.
Tema n.° 4: Regresión múlti-
ple
1. Análisis de regresión múl-
tiple.
2. Inferencias en la regresión
lineal múltiple.
2.1. Error Estándar Múlti-
ple.
2.2. Intervalo de confianza
aproximado para la media
condicional de y.
2.3. Intervalo de Predic-
ción para una observación
individual de y.
2.4. El coeficiente de de-
terminación múltiple.
Autoevaluación de la Unidad
III
52
Tema n.° 1: Análisis factorial de varianza
En muchas ocasiones, la investigación del comportamiento se enfrenta a situaciones
en las cuales, una variable dependiente se encuentra afectada o intervenida por dos
o más variables independientes. A estos casos se les denomina Diseño factorial, y el
procedimiento de análisis es a través del desarrollo de un ANOVA especializado para
el caso. No hay muchas diferencias con relación al modelo simple, salvo que la fuente
de variación entre (tratamiento) se divide y toma en consideración cada una de las
variables independientes participantes del modelo.
Para aplicar el ANOVA Factorial, es necesario satisfacer los siguientes supuestos:
A. La población original de la cual se extraen las muestras tiene una distribución
normal
B. Hay homogeneidad de varianzas en cada una de las condiciones experimenta-
les analizadas (celdillas)
C. Los tamaños muestrales deben ser iguales, de tal manera que se minimicen
los abusos a algunos supuestos.
1. Análisis de la varianza de dos factores
Veamos un ejemplo basado en la variable dependiente ansiedad de la unidad
anterior.
Un psicólogo investigador está interesado en evaluar los efectos que tienen dos
tratamientos experimentales en la reducción de la ansiedad en aspirantes a in-
gresar a la Escuela de Psicología. Además, considera que la ansiedad también
estará afectada al momento del experimento por la situación laboral de los suje-
tos, la cual ha dividido en dos categorías: trabaja y no trabaja.
Como se puede observar, la variable dependiente (ansiedad) estará afectada por
dos variables independientes: en primer lugar, está la variable tratamiento a la
que denominaremos (A), que se presenta a dos niveles: el tratamiento 1 (A1) y
el tratamiento 2 (A2); en segundo lugar, está la variable situación laboral a la
que denominaremos B y que se presenta también a dos niveles trabaja (B1), no
trabaja (B2).
El modelo se puede describir de la siguiente manera:
Tabla 3.1
Diseño factorial 2x2
53
y otra a dos, el modelo se denominaría 2x3 o 3x2, y así sucesivamente. La colo-
cación de las variables (columnas o filas) es una decisión que no afecta el resul-
tado del ANOVA.
En las celdillas A1B1…..hasta A2B2, se deben presentar, los puntajes de ansiedad
de cada sujeto, dependiendo del tratamiento recibido más su condición laboral.
Es evidente que para cada celdilla habrá una muestra de sujetos, preferiblemente
asignados aleatoriamente y con igual número de sujetos
El modelo de ANOVA Factorial determina que la variable dependiente, en este
caso la ansiedad, está afectada por cuatro fuentes principales de variabilidad.
Damos a conocer las 2 primeras en esta sección y las otras dos en la siguiente
sección.
1.1. Las diferencias en la ansiedad por recibir el tratamiento A1 en comparación
con haber recibido el tratamiento A2; En este caso, los efectos observados
en A son independientes de los efectos de la variable B.
1.2. Las diferencias en la ansiedad por pertenecer a una de las dos condiciones
laborales: trabaja (B1) o no trabaja (B2), son independientes de los efectos
de la variable A.
Al igual que en el ANOVA Simple, se estima la variación total proveniente de todas
las fuentes, y luego se hace una partición de la misma para evaluar cuánto aporta
cada uno de los factores participantes, tal y como se presenta a continuación:
Paso 1: Hipótesis
H0: Las medias poblacionales de los niveles de ansiedad por efectos de la con-
dición laboral es el mismo.
H1: Al menos una de las medias poblacionales de los niveles de ansiedad por
efectos de la condición laboral no es el mismo.
H0: Las medias poblacionales de los niveles de ansiedad por efectos de los tra-
tamientos psicológicos es el mismo.
H1: Al menos una de las medias poblacionales de los niveles de ansiedad por
efectos de los tratamientos psicológicos no es el mismo.
Paso 2: Nivel de significancia (𝛼𝛼 = 0,05)
Paso 3: Completamos la tabla ANOVA con apoyo de Excel.
Diseño Factorial 2x2
Tratamientos
Situación
A B
laboral
12 16
10 15
Trabaja 9 12
11 13
9 14
17 20
15 21
No trabaja 14 18
15 16
16 15
54
ANÁLISIS DE VARIANZA
Promedio
Origen de las Suma de Grados de Valor crítico
de los cua- F Probabilidad
variaciones cuadrados libertad para F
drados
Situación
105.8 1 105.8 35.2666667 2.08075E-05 4.493998478
laboral
Tratamientos
51.2 1 51.2 17.0666667 0.000783622 4.493998478
psicológicos
Dentro del
48 16 3
grupo
Total 206.8 19
Paso 1: Hipótesis
H0: No hay interacción entre la situación laboral y los tratamientos psicológicos.
H1: Si hay interacción entre la situación laboral y los tratamientos psicológicos.
Paso 2: Nivel de significancia (𝛼𝛼 = 0,05).
Paso 3: Completamos la tabla ANOVA con apoyo de Excel.
55
ANÁLISIS DE VARIANZA
Grados
Origen de las Suma de Promedio de Valor crítico
de F Probabilidad
variaciones cuadrados los cuadrados para F
libertad
Situación laboral 105.8 1 105.8 35.2666667 2.08075E-05 4.493998478
Tratamientos psi-
51.2 1 51.2 17.0666667 0.000783622 4.493998478
cológicos
Interacción 1.8 1 1.8 0.6 0.449874063 4.493998478
Dentro del grupo 48 16 3
Total 206.8 19
Paso 4: Conclusión.
Como la F de prueba cae en la zona de aceptación de la hipótesis nula, con un nivel
de confianza del 95% se puede afirmar que la combinación situación laboral y trata-
miento psicológico no tiene un efecto significativo en la ansiedad de los estudiantes.
Finalmente, después del presente análisis, los resultados quieren decir:
a. Las medias de ansiedad son diferentes atendiendo a la condición laboral. Los
que laboran presentaron un promedio de ansiedad inferior a los que no laboran.
b. Las medias de ansiedad son diferentes atendiendo al tipo de tratamiento reci-
bido. Los que recibieron el tratamiento A1 presentaron un promedio de ansie-
dad inferior a los que recibieron el tratamiento A2.
c. No hay diferencias significativas entre los promedios por la interacción de ambas
variables observados en cada una de las celdillas
Como se puede observar, la interacción (AxB) no resultó significativa, o sea, que los
niveles de ansiedad no son diferentes por la combinación de las dos variables inde-
pendientes.
56
Tema n.° 2: correlación
Es un modo de examinar si dos variables dadas en escala de intervalo o de razón
están relacionadas. Si bien este método sugiere que existe una relación, no revela
exactamente de qué forma se relacionan las variables.
Nivel de Grado de
ruido ansiedad
4 39
3 38
2 16
1 18
6 41
7 45
2 25
3 38
50
Grado de ansiedad (y)
40
30
20
10
0
0 1 2 3 4 5 6 7 8
Nivel de ruido (x)
Figura 3.1: Dispersión entre las variables nivel de ruido y grado de ansiedad.
57
Determine el grado de relación entre las variables.
Correlación Correlación
negativa per- positiva per-
fecta fecta
Ninguna correla-
ción
n∑ xy − ∑ x ∑ y
r=
[n∑ x 2
][
− (∑ x ) n∑ y 2 − (∑ y )
2 2
]
Tabla …
…
58
2. Prueba de hipótesis del coeficiente de correlación.
Solución:
Para n=8 personas en el ejemplo del nivel de sonido, con 𝑟𝑟 = 0,8356 el estadístico
0,8356
de la prueba es: 𝑡𝑡 = = 3,7259
2
�1−0,8356
8−2
Para una prueba de dos colas, con un nivel de 0,05 y gl=6, los valores críticos
son: t=-2,447 y t=2,447. El valor de prueba es 3.7259 cae fuera de estos valores
críticos y se rechaza la hipótesis nula. Por lo tanto, existe una relación lineal entre
los niveles de ruido y el grado de ansiedad en los trabajadores.
59
Lectura seleccionada n.° 3
Leer: Del juicio clínico al modelo de regresión lineal (Palacios-Cuz, Pérez, Rivas-Ruiz
y Talavera, 2013)
Palacios-Cruz, L., Pérez, M., Rivas-Ruiz, R. Talavera, J.O. (2013). Investigación clí-
nica XVIII, Del juicio clínico al modelo de regresión lineal. Revista Médica del
Instituto Mexicano del Seguro Social, LI (6). 656-661. Disponible en
http://www.medigraphic.com/pdfs/imss/im-2013/im136l.pdf
60
Tema n.° 3: Regresión lineal
40
30
20
10
0
0 1 2 3 4 5 6 7 8
Nivel de ruido (x)
Según Triola (2004, p. 550) la pendiente b de la línea de regresión se calcula con la fórmula:
b = ∑ 2 ∑ ∑2 ∑ y −b ∑ x
n x y− x y
n ∑ x −(∑ x ) Sin embargo, el intercepto a con a=
n n
61
2. Error estándar de estimación
Ésta es una desviación estándar que describe la dispersión de los puntos de los
datos arriba y debajo de la línea de regresión.
Solución:
Para n=8 personas en el ejemplo del nivel de sonido, reemplazamos los datos:
4,5 − 0
𝑡𝑡 = = 3,7263
6,6144
�128 − 8(3,52 )
Para una prueba de dos colas, con un nivel de 0,05 y gl=6, los valores críticos
son: t=-2,447 y t=2,447. El valor de prueba es 3.7263 cae fuera de estos valores
críticos y se rechaza la hipótesis nula. Por lo tanto, la pendiente de la línea de
regresión de la población es diferente de cero.
62
Tenemos una confianza del 95% de que la pendiente poblacional (𝛽𝛽) de la línea
de regresión de la población está en el intervalo delimitado por 1,54 y 7,96.
3. Intervalo de Confianza
A continuación, dado un valor específico 𝑥𝑥 se puede estimar un intervalo de con-
fianza para la verdadera media de y (que es desconocida), según Triola (2004).
1 ( x − x) 2
yest ± tα / 2;n−2 s yx +
n (∑ x) 2
∑x − n
2
1 (5 − 3,5)2
𝐼𝐼𝐼𝐼 = 39,25 ± 2,447 × 6,6144 × � + =
8 282
128 −
8
1 ( x − x) 2
y est ± tα / 2;n − 2 s yx 1+ +
n (∑ x ) 2
∑x − n
2
1 (5 − 3,5)2
𝐼𝐼𝐼𝐼 = 39,25 ± 2,447 × 6,6144 × �1 + + =
8 282
128 −
8
63
Tema n.° 4: Regresión múltiple
64
Ejemplo: Al considerar si se debe implementar un programa en el que se pida a
los estudiantes seleccionados de primer ciclo que tomen un curso de introducción
a la matemática antes de inscribirse en la materia en sí de matemática, la facultad
de Administración de la Universidad Continental aplicó una prueba de aptitud ma-
temática a una muestra de estudiantes. La Universidad espera utilizar esta califi-
cación junto con la de la UGEL (Unidad de Gestión Educativa Local) para predecir
que calificación obtendrá un estudiante en el examen final estandarizado de ma-
temática más adelante en sus estudios. A continuación, se da a conocer los datos
de una muestra de 9 estudiantes.
Tabla 3.2
Data de la observación de las variables Aptitud Matemática, calificación
UGEL y examen final de matemática
1 72 462 71
2 96 545 92
3 68 585 72
4 86 580 82
5 70 592 74
6 73 516 71
7 91 638 100
8 75 615 87
9 76 596 81
65
Obtenga con estos datos la ecuación de regresión múltiple que estima la calificación
del examen final de matemática con base en las otras dos variables.
Resolución:
1° Copiamos los datos en una hoja de Excel.
66
5° Obtenemos la ecuación de regresión.
3. Error estándar
∑(𝒚𝒚 − 𝒚𝒚 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆)𝟐𝟐
𝑺𝑺𝒆𝒆 = �
𝒏𝒏 − 𝒌𝒌 − 𝟏𝟏
Dónde:
y estimado= el valor de y calculado mediante la ecuación de regresión.
K=el número de variables independientes.
67
Examen final Examen final y real (y real
Aptitud Calificación
matemática matemática Error Error^2 comparada comparada
Matemática UGEL
(Real) (Estimada) con la media de y con la media de y)^2
x1 x2 y y estimada (y-y est) (y-y est)^2 (y-y prom) (y-y prom)^2
72 462 71 66.5 4.5 20.25 -10.1111 102.2346
96 545 92 91.86 0.14 0.0196 10.8889 118.5679
68 585 72 73.22 -1.22 1.4884 -9.1111 83.0123
86 580 82 86.86 -4.86 23.6196 0.8889 0.7901
70 592 74 75.34 -1.34 1.7956 -7.1111 50.5679
73 516 71 71.6 -0.6 0.36 -10.1111 102.2346
91 638 100 95.4 4.6 21.16 18.8889 356.7901
75 615 87 81.08 5.92 35.0464 5.8889 34.6790
76 596 81 80.34 0.66 0.4356 -0.1111 0.0123
104.1752 848.8889
𝑺𝑺𝒆𝒆
𝑰𝑰𝑰𝑰 = 𝒚𝒚 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 ± 𝒕𝒕
√𝒏𝒏
Donde:
t=el valor t de la tabla de la distribución t para el nivel de confianza deseado y con
gl=n-k-1
𝟒𝟒, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒 ×
= 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟑𝟑. 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
√𝟗𝟗
Lim inferior=64,58 y Lim superior=71,38
𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒 × 𝟒𝟒, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 = 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
Lim inferior=57,78 y Lim superior=78,18
68
Tenemos una confianza de 95% de que la calificación en el examen final de ma-
temática para un estudiante que tiene 70 en la calificación de aptitud y 500 en la
calificación de la UGEL estará dentro del intervalo [57,78 ; 78,18]
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉ó𝑛𝑛 𝑑𝑑𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒, 𝑞𝑞𝑞𝑞𝑞𝑞 𝑛𝑛𝑛𝑛 𝑒𝑒𝑒𝑒 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑝𝑝𝑝𝑝𝑝𝑝 𝑙𝑙𝑙𝑙 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟ó𝑛𝑛
𝑅𝑅2 = 1 −
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉ó𝑛𝑛 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑 𝑦𝑦
104,1752
𝑅𝑅2 = 1 − = 0,8773
848,8889
Para los 9 estudiantes, el 87,73% de la variación en las calificaciones finales de
matemática es explicada por la ecuación de regresión múltiple. Este valor de 𝑅𝑅2
se halla también cuando se trabaja en Excel, sin embargo, aquí hallaremos 𝑅𝑅2
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽ó𝒏𝒏 𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆,𝒒𝒒𝒒𝒒𝒒𝒒 𝒏𝒏𝒏𝒏 𝒆𝒆𝒆𝒆 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒑𝒑𝒑𝒑𝒑𝒑 𝒍𝒍𝒍𝒍 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆ó𝒏𝒏 𝒅𝒅𝒅𝒅 𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓ó𝒏𝒏
2
𝑅𝑅 = 1 − 𝒏𝒏−𝒌𝒌−𝟏𝟏
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽ó𝒏𝒏 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒅𝒅𝒅𝒅 𝒚𝒚
𝒏𝒏−𝟏𝟏
104,1752
𝑅𝑅 = 1 − 9 − 2 − 1 = 0,8364
2
848,8889
8
69
Glosario de la Unidad III
Coeficiente de correlación
“Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y
1” (Proyecto de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 1).
Coeficiente de determinación
“Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el
grado de información compartida entre dos variables continuas” (Proyecto de
Cooperación UE-CAN en Materia Estadísticas, 2007, p. 1).
Coeficientes de regresión
“En un modelo de regresión lineal son los valores de a y b que determinan la expre-
sión de la recta de regresión 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 “ (Proyecto de Cooperación UE-CAN en Materia
Estadísticas, 2007, p. 1).
Prueba de F
“Prueba estadística que sirve para comparar varianzas. El estadístico de F experi-
mental es el estadístico de contraste en el ANOVA y otras pruebas de comparación
de varianzas” (Proyecto de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 7).
Regresión
Técnica estadística que relaciona una variable dependiente (y) con la informa-
ción suministrada por otra variable independiente (x), ambas variables deben
ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal sim-
ple. Entre las restricciones de la RLS se incluyen: Los residuos deben ser nor-
males; las observaciones independientes; la dispersión de los residuos debe
mantenerse a lo largo de la recta de regresión. (Proyecto de Cooperación UE-
CAN en Materia Estadísticas, 2007, p. 8).
Recta de regresión
“Es el modelo que sirve para explicar una variable respuesta continua en términos
de un único factor o variable explicativa” (Proyecto de Cooperación UE-CAN en
Materia Estadísticas, 2007, p. 8).
Tabla de ANOVA
“Es una forma de presentar la variabilidad observada en una variable respuesta en
términos aditivos según las distintas fuentes de variación: modelo residual” (Proyecto
de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 9).
70
Bibliografía de la Unidad III
Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.
Palacios-Cruz, L., Pérez, M., Rivas-Ruiz, R. Talavera, J.O. (2013). Investigación clí-
nica XVIII, Del juicio clínico al modelo de regresión lineal. Revista Médica del
Instituto Mexicano del Seguro Social, LI (6). 656-661. Disponible en
http://www.medigraphic.com/pdfs/imss/im-2013/im136l.pdf
Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.
Triola, M. (2004). Estadística. (9ª edición). México: Addison Wesley, Pearson Educa-
ción de México.
71
Autoevaluación de la Unidad III
1. Los valores de 𝑥𝑥 e 𝑦𝑦 tienen una relación inversa y 64% de la variación en 𝑦𝑦 es
explicada por la ecuación de regresión. ¿Cuál es el coeficiente de correlación?
A) 16% B) 8% C) 80% D) 64% E) 32%
A) 𝑦𝑦 = −1,3445𝑥𝑥 + 21,63
B) 𝑦𝑦 = 1,3445𝑥𝑥 − 21,63
C) 𝑦𝑦 = −1,66𝑥𝑥 + 21,98
D) 𝑦𝑦 = 1,66𝑥𝑥 − 21,98
E) 𝑦𝑦 = −1,3445𝑥𝑥
6. Del gráfico:
x vs y
R² = 0.9112
80
70
60
50
40
y
30
20
10
0
0 5 10 15 20
x
Interprete r.
A) La correlación de y respecto a x es positiva y fuerte.
72
B) La correlación de y respecto a x es positiva y moderada.
C) La correlación de y respecto a x es negativa y fuerte.
D) La correlación de y respecto a x es negativa y débil.
E) No se puede determinar la correlación.
7. Para n=15 puntos de datos y 𝑟𝑟 2 = 0,81. Con un nivel de significancia de 0,05. Po-
demos concluir que el coeficiente de correlación puede ser:
A) Cero B) mayor que cero C) menor que cero
D) Diferente de cero E) No se puede determinar
8. Para la ecuación de regresión múltiple: 𝑦𝑦 = 100 + 20𝑥𝑥1 − 3𝑥𝑥2 + 120𝑥𝑥3 ¿Cuál es el valor
estimado de y si 𝑥𝑥1 = 12, 𝑥𝑥2 = 5 y 𝑥𝑥3 = 10 ?
A) 1525 B) 1725 C) 2425 D) 3245 E) 3505
73
UNIDAD IV: PRUEBA CHI-CUADRADO - ESTRATEGIAS PARA POBLACIONES
CON DISTRIBUCIONES NO NORMAL (PRUEBAS NO PARAMÉTRICAS).
74
Tema n.° 1: Introducción
Una prueba no paramétrica no hace suposiciones sobre la forma de la población
de la cual se extrae una muestra. Ésta es diferente de casi todas las pruebas
tratadas en los capítulos anteriores, donde se asume en el caso de no especificar,
que una población tenía una distribución normal o casi normal. Además, con las
pruebas paramétricas se requiere que los datos se encuentren en una escala de
intervalo o de razón, a diferencia de las pruebas no paramétricas que no tienen
ese requisito.
Por lo tanto, se debe usar una prueba no paramétrica cuando:
a. Los datos tengan una escala de medición nominal u ordinal.
b. Si los datos tienen una escala de medición de intervalo o de razón; pero que no
cumpla con la normalidad de la distribución poblacional.
75
frecuencia frecuencia
ATRIBUTOS hi=Probabilidad
observada: fo esperada: fe
Aprobó todo 287 0.8 320
Aprobó la mitad 49 0.1 40
Reprobó todo 30 0.06 24
Se retiró 34 0.04 16
TOTAL 400 1 400
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
𝝌𝝌𝟐𝟐𝒑𝒑 = ∑� �
𝒇𝒇𝒇𝒇
Con K-1 grados de libertad donde:
K= n° de categorías.
fo= frecuencia observada en una categoría en particular.
fe= frecuencia esperada en una categoría en particular.
76
Intervalos fo
menos de 800 36
800-menos de 900 96
900-menos de 1000 78
1000-menos de 1100 48
1100-menos de 1200 25
1200-menos de 1300 10
1300-menos de 1400 3
1400 o más 4
TOTAL 300
Con base en los datos de la muestra, utilice un nivel de significancia de 0,01 para
determinar si la muestra se extrajo de una población en la cual las calificaciones
tienen una distribución normal.
𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑−𝜇𝜇
Para a transformar a Z se utiliza 𝑍𝑍 =
𝜎𝜎
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
Estadístico de prueba: 𝝌𝝌𝟐𝟐𝒑𝒑 = ∑ � �
𝒇𝒇𝒇𝒇
Con k-1-m grados de libertad, donde k es el número final de categorías y m es
el número de parámetros que fueron estimados con el fin de construir la tabla de
frecuencias esperadas.
77
2.3. Prueba de Independencia de 2 variables.
El punto inicial para la prueba chi cuadrada de independencia entre las variables
es la tabla de contingencia. Ésta tabla tiene filas que contienen las categorías de
una variable y las columnas contienen las categorías de la otra variable y cada
entrada son las frecuencias combinadas de la fila y la columna.
Las hipótesis son:
𝐻𝐻0 : 𝐿𝐿𝐿𝐿𝐿𝐿 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑠𝑠𝑠𝑠𝑠𝑠 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑠𝑠𝑠𝑠.
𝐻𝐻1 : 𝐿𝐿𝐿𝐿𝐿𝐿 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑛𝑛𝑛𝑛 𝑠𝑠𝑠𝑠𝑠𝑠 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑠𝑠𝑠𝑠.
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
El estadístico de prueba es la chi cuadrada: 𝝌𝝌𝟐𝟐𝒑𝒑 = ∑ � �
𝒇𝒇𝒇𝒇
Con grados de libertad= (n° filas-1) x (n° columnas -1).
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 ×𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
El cálculo de la frecuencia esperada es: 𝑓𝑓𝑒𝑒 =
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
Resolución:
78
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
Determinamos el valor de prueba del estadístico: 𝝌𝝌𝟐𝟐𝒑𝒑 = ∑ � �
𝒇𝒇𝒇𝒇
(𝟐𝟐𝟐𝟐 − 𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟑𝟑𝟑𝟑 − 𝟑𝟑𝟑𝟑)𝟐𝟐 (𝟐𝟐𝟐𝟐 − 𝟐𝟐𝟐𝟐)𝟐𝟐
𝝌𝝌𝟐𝟐𝒑𝒑 = + + + ⋯+ = 𝟓𝟓, 𝟕𝟕𝟕𝟕𝟕𝟕
𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏 𝟑𝟑𝟑𝟑 𝟐𝟐𝟐𝟐
Ahora ubicamos el valor crítico, en la tabla chi cuadrada con (2-1) x (4-1) =3
grados de libertad.
Tabla N° 4.1
Fragmento de la distribución Chi cuadrada
Como 5,729 es menor que 11,345 no se rechaza la hipótesis nula. Por lo tanto,
para el programa de recomendaciones del INPE la adaptación a la vida civil no se
relaciona con el lugar donde viva el ex prisionero.
79
Lectura seleccionada n.° 4:
Leer: Lección de la prueba estadística apropiada, en Técnicas estadísticas no paramétricas
(Ardila, s.f., pp. 91-102)
Ardila, R. (s/f). Técnicas estadísticas no paramétricas. Recuperado de http://www.bdigi-
tal.unal.edu.co/33524/1/33388-123824-1-PB.pdf
80
Tema n.° 3: Estrategias para poblaciones con distribución no
normal (pruebas no paramétricas)
En una prueba no paramétrica no se hace suposiciones sobre la forma de la po-
blación de donde se extrae la muestra.
Además, los datos tienen una escala de medición nominal u ordinal o si los datos
tienen una escala de medición de intervalo o de razón, siempre en cuando las
poblaciones extraídas no son normales.
3.1. Prueba de rango con signo de Wilcoxon para comparar muestras pa-
readas.
Como afirma Triola (2004): la técnica supone que los datos son de escala ordinal,
de intervalo o de razón.
- “Si n≤30, el estadístico de prueba es T”. (Triola, 2004, p.652). El valor crítico T se
encuentra en la tabla de valores críticos para la Prueba de rangos con signo de
Wilcoxon. (Ver anexo 8: Prueba de rangos con signo de Wilcoxon de éste manual).
Cuando plantee la conclusión, rechace la hipótesis nula si los datos muestrales le
llevan a un estadístico de prueba que se ubica en la región crítica, esto es, cuando
el estadístico de prueba sea menor o igual que el valor (o los valores) crítico(s).
𝑛𝑛(𝑛𝑛+1)
𝑇𝑇−
- Si n>30, el estadístico de prueba es (Triola, 2004): 𝑍𝑍𝑝𝑝 = 4
𝑛𝑛(𝑛𝑛+1)(2𝑛𝑛+1)
�
24
Ejemplo:
Muchos profesionales nuevos se resisten a dar presentaciones ante un
determinado público. Al detectar esta falta de autoestima, una clinica psicológica
organizó un seminario de motivación para una muestra de profesionales durante
3 semanas. Antes de la primer sesión los psicológos midieron el nivel de
autoestima de cada participante y midieron de nuevo después de 3 semanas. Los
niveles de autoestima antes y después para los 14 participantes en el curso
aparecen en la siguiente tabla. La autoestima se clasificó como negativa=1,
baja=2, alta=3 o muy alta=4.
81
Profesional Antes del seminario Después del seminario
1 Negativa Baja
2 Negativa Negativa
3 Baja Alta
4 Muy alta Baja
5 Baja Alta
6 Baja Alta
7 Negativa Alta
8 Baja Muy alta
9 Baja Alta
10 Negativa Baja
11 Baja Alta
12 Negativa Baja
13 Baja Alta
14 Baja Muy alta
82
Como se puede observar el estadístico de prueba es T=11,5 para n=13 diferen-
cias distintas de cero y 𝛼𝛼 = 0,05.
Ahora consultamos la tabla y obtenemos un valor crítico de 21.
Tabla 4.2
Fragmento de los valores críticos de T para la prueba de rangos
con signo de Wilcoxon
Luego rechazamos la hipótesis nula ya que T es menor o igual que el valor crí-
tico.
Por lo tanto, la clínica psicológica fue eficaz para aumentar el nivel de autoes-
tima de los profesionales.
83
𝑛𝑛1 𝑛𝑛2 (𝑛𝑛1 +𝑛𝑛2 +1)
Y la desviación estándar: 𝜎𝜎𝑇𝑇 = � (Triola, 2004, p. 657)
12
Por lo que cuando 𝑛𝑛1 ≥ 10 y 𝑛𝑛2 ≥ 10 la distribución normal es una excelente apro-
𝑇𝑇−𝜇𝜇𝑇𝑇
ximación a la distribución de la variable aleatoria: 𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =
𝜎𝜎𝑇𝑇
Ejemplo:
La Universidad Continental ofrece 2 programas de Maestría en psicología; en el
primero, los estudiantes se reúnen dos noches por semana en el campus principal.
En el segundo programa, los estudiantes solo se comunican por internet con su
docente. El director de la maestría desea comparar el número de horas que estu-
diaron la semana pasada los dos grupos de estudiantes. Una muestra compuesta
por 10 estudiantes en el campus y otra de 12 estudiantes por internet proporcionó
la siguiente información.
Campus 28 16 42 29 31 22 50 42 23 25
Internet 26 42 65 38 29 32 59 42 27 41 46 18
Con un nivel de significancia de 0,05. ¿Es posible concluir que los estudiantes
por internet estudian más?
84
42 16 16.5
42 17 16.5
42 18 16.5
46 19 19
50 20 20
59 21 21
65 22 22
28 8 26 6
16 1 42 16.5
42 16.5 65 22
29 9.5 38 13
31 11 29 9.5
22 3 32 12
50 20 59 21
42 16.5 42 16.5
23 4 27 7
25 5 41 14
46 19
18 2
Suma de rangos 94.5 158.5
𝑇𝑇−𝜇𝜇𝑇𝑇
Ahora calculamos el estadístico de prueba: 𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =
𝜎𝜎𝑇𝑇
10(10 + 12 + 1)
94,5 −
𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = 2 = −1,352
� (10)(12)(10 + 12 + 1)
12
También calculamos el valor crítico 𝑍𝑍𝑐𝑐 = −1,645.
Como se puede observar el estadístico de prueba está a la derecha del valor crí-
tico entonces no rechazamos la hipótesis nula. Por lo tanto, el número de horas
que estudian los estudiantes del campus es la misma que los de Internet.
3.3. Prueba de Kruskal Wallis para comparar más de dos muestras inde-
pendientes.
Es una técnica para comparar más de dos muestras independientes. Es la con-
traparte no paramétrica del ANOVA de un sentido.
Llamada también prueba H, donde se utiliza rangos de los datos muestrales de
tres o más poblaciones independientes.
Ejemplo:
85
Un criadero quiere experimentar con tres mezclas diferentes de alimentos para
pavos muy jóvenes. Como no existen registros respecto de las tres mezclas, no
es posible hacer suposiciones acerca de la distribución de los pesos. Se debe uti-
lizar la prueba de Kruskal para probar si los pavos tienen el mismo peso después
de alimentarse durante cierto tiempo. A cinco pavos se les da el alimento A, a seis
el B y a otros cinco el C. Con un nivel de significancia de 0,05 pruebe si son iguales
los pesos de los pavos que comieron el alimento A, el B y el C.
86
Rango ALIMENTO A Rango ALIMENTO B Rango ALIMENTO C
6 16 8
14 3 10
4 8 15
8 5 1
12 12 12
SUMA 44 46 46
87
2𝑛𝑛1 𝑛𝑛2
𝐺𝐺 − ( + 1)
𝑛𝑛1 + 𝑛𝑛2
𝑍𝑍𝑝𝑝 =
(2𝑛𝑛1 𝑛𝑛2 )(2𝑛𝑛1 𝑛𝑛2 − 𝑛𝑛1 − 𝑛𝑛2 )
�
(𝑛𝑛1 + 𝑛𝑛2 )2 (𝑛𝑛1 + 𝑛𝑛2 − 1)
Puesto que:
2𝑛𝑛1 𝑛𝑛2 (2𝑛𝑛1 𝑛𝑛2 )(2𝑛𝑛1 𝑛𝑛2 −𝑛𝑛1 −𝑛𝑛2 )
𝜇𝜇𝐺𝐺 = +1 y 𝜎𝜎𝐺𝐺 = � (𝑛𝑛1 +𝑛𝑛2 )2 (𝑛𝑛1 +𝑛𝑛2 −1)
𝑛𝑛1 +𝑛𝑛2
Resolución:
Las hipótesis son:
𝑯𝑯𝟎𝟎 : La secuencia es aleatoria.
𝑯𝑯𝟏𝟏 : La secuencia no es aleatoria.
Las edades tienen una mediana de 44. Cada edad se transforma en un signo de
+ si es 44 o más y se transforma en un signo – si es menor que la mediana.
- - - + - - + + - -
- - - - + + + + + -
- - + + + + + - + +
Este proceso genera una secuencia de símbolos (+) y (-). Como se puede obser-
var se ha generado G=10 rachas. Luego se tiene 𝑛𝑛1 = 15 (+) y 𝑛𝑛2 = 15 (−)
Calculando el estadístico de prueba:
2(15)(15)
10 − ( + 1)
𝑍𝑍𝑝𝑝 = 30 = −2,23
(2(15)(15))(2(15)(15) − 15 − 15)
�
(30)2 (29)
Luego calculamos la Z crítica con un nivel de significancia de 0,05 en 2 colas.
88
Zp=-2,23
Como el valor calculado o de prueba está fuera de estos límites entonces se re-
chaza la hipótesis nula. Por lo tanto, las edades no aparecen en orden aleatorio.
89
Glosario de la Unidad IV
Bondad de ajuste
Es un indicador que permite discernir acerca de qué tan buena es la ecuación
obtenida. Para determinar la bondad de un ajuste se utilizan diferentes crite-
rios en la regresión lineal. Unos se refieren a los residuales como son el valor
de la sumatoria de residuales al cuadrado, la varianza, la desviación estándar
del ajuste y el coeficiente de correlación al cuadrado. Otro indicador de la
bondad de ajuste es el realizado mediante el test de bondad de ajuste utili-
zando la prueba Chi-Cuadrada, Kolmogorov-Smirnov (K-S) entre otras.
(Cerrón, 2014, p. 135).
Escala
“La distribución de datos puede recogerse en distintas escalas. Nominal, dicotómica,
discreta o continua” (Proyecto de Cooperación UE-CAN en Materia Estadísticas, 2007,
p. 4).
Independencia
“Son datos que no están ligados entre sí” (Proyecto de Cooperación UE-CAN en
Materia Estadísticas, 2007, p. 5).
Prueba no paramétrica
“Técnica estadística que presupone ninguna distribución de probabilidad teórica de la
distribución de nuestros datos” (Proyecto de Cooperación UE-CAN en Materia
Estadísticas, 2007, p. 7).
Tablas de contingencia
“Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que
pertenecen a cada combinación de los posibles niveles de estas variables” (Proyecto
de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 9).
Técnicas no paramétricas
“Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico.
Son menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se
pueden aplicar más fácilmente” (Proyecto de Cooperación UE-CAN en Materia
Estadísticas, 2007, p. 9).
Wilcoxon
“Prueba estadística no paramétrica para la comparación de dos muestras (dos trata-
mientos). Las distribuciones de datos no necesitan seguir la distribución normal. Es
por tanto una prueba menos restrictiva que la prueba t-Student” (Proyecto de
Cooperación UE-CAN en Materia Estadísticas, 2007, p. 10).
90
Bibliografía de la Unidad IV
Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.
Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.
91
Autoevaluación de la Unidad IV
1. Dadas las siguientes proposiciones:
I. El estadístico de prueba 𝜒𝜒 2 se basa en las diferencias entre valores observados y
esperados.
II. La prueba t para 2 muestras dependientes es no paramétrica.
III. Las técnicas no paramétricas no se pueden aplicar cuando el tamaño de las
muestras es muy pequeño.
Son correctas:
A) Sólo I y II B) Sólo I C) Sólo I y III D) Ninguna. E) I; II y III
3. Para una tabla de contingencia con 3 filas y 7 columnas, determine los grados de
libertad para la prueba.
A) 21 B) 12 C) 10 D) 16 E) 8
4. Se han recopilado datos para una muestra y la hipótesis nula que se pone a
prueba es “la muestra se obtuvo de una población normal”. Si el análisis se basa en
una clasificación que incluye 5 celdas. ¿Cuántos grados de libertad se asociará en la
prueba?
A) 3 B) 4 C) 5 D) 7 E) 8
A) 13 B) 14 C) 15 D) 17 E) 18
92
A) 2,45 B) 11,58 C) 13,35 D) 12,83 E) 14,25
93
Anexo 1
Respuestas de las autoevaluaciones:
94
Anexo 2
Tabla A1
Tabla de números aleatorios
95
Anexo 3
Tabla A2
Puntuaciones Z
96
Anexo 4
Tabla A3
Puntuaciones z positivas
98
Anexo 6
Tabla A5
Distribución chi cuadrada
99
Anexo 7:
Tabla A6
Distribución F
100
101
102
103
Anexo 8:
Tabla A1
Prueba de rangos con signo de Wilcoxon
104
Anexo 9:
Tabla A1
Valores críticos para el número de rachas
105