Вы находитесь на странице: 1из 105

UNIVERSIDAD CONTINENTAL

MANUAL AUTOFORMATIVO

ASIGNATURA
Estadística Aplicada a la Psicología

Autor
Joel Jesús Bastidas Valdivia
ÍNDICE

ÍNDICE
INTRODUCCIÓN
ORGANIZACIÓN DE LA ASIGNATURA
Resultado de aprendizaje de la asignatura
Unidades didácticas
Tiempo mínimo de estudio
UNIDAD I: MUESTREO - PRUEBA DE HIPÓTESIS DE MEDIAS DE MUESTRAS
Diagrama de organización de la unidad
Organización de los aprendizajes
Tema n.° 1: DISEÑO DE TÉCNICAS DE MUESTREO PROBABILÍSTICO
1. Conceptos básicos
2. Muestras probabilísticas y estimadores
Tema n.° 2: PRUEBA DE HIPÓTESIS PARA LA MEDIA
1. Definiciones básicas
2. Prueba de aseveración para la media de una muestra
3. Errores de muestreo
Lectura seleccionada n.° 1
Actividad n.° 1
Tema n.° 3: ESTIMACIONES Y TAMAÑOS DE MUESTRA
1. Definiciones básicas
2. Estimación de la media poblacional
3. Determinación del tamaño de muestra para la media poblacional
Glosario de la Unidad I
Bibliografía de la Unidad I
Autoevaluación de la Unidad I

UNIDAD II: INTRODUCCIÓN A LA PRUEBA “T” - PRUEBA “T” PARA MEDIAS INDE-
PENDIENTES - INTRODUCCIÓN AL ANÁLISIS DE VARIANZA.
Diagrama de organización de la unidad
Organización de los aprendizajes
Tema n.° 1: Introducción a la prueba T de Student
1. Prueba “t” para una muestra.
Tema n.° 2: prueba “t” para dos muestras
1. Prueba “t” para dos muestras dependientes.
2. Prueba “t” para dos muestras independientes.
Lectura seleccionada n.° 2

2
Actividad n.° 2
Tema n.° 3: Análisis de varianza
1. Definiciones básicas.
2. Análisis de la varianza de un factor.
Glosario de la Unidad II
Bibliografía de la Unidad II
Autoevaluación de la Unidad II

UNIDAD III: ANÁLISIS FACTORIAL DE VARIANZA-CORRELACIÓN Y PREDICCIÓN.


Diagrama de organización de la unidad
Organización de los aprendizajes
Tema n.° 1: Análisis factorial de varianza
1. Análisis de la varianza de dos factores.
2. Análisis de la varianza de dos factores con interacción.
Tema n.° 2: Correlación
1. Coeficiente de correlación (r).
2. Prueba de hipótesis del coeficiente de correlación.
3. Coeficiente de determinación (𝑟𝑟 2 ).
Lectura seleccionada n.° 3

Tema n.° 3: Regresión lineal


1. Análisis de regresión.
2. Error estándar de estimación.
3. Intervalo de confianza.
4. Intervalo de predicción.
Tema n.° 4: Regresión múltiple
1. Análisis de regresión múltiple.
2. Inferencias en la regresión lineal múltiple.
3. Error estándar múltiple.
3.1. El error estándar múltiple de la estimación
3.2. Intervalo de confianza aproximado para la media condicional de y.
3.3. Intervalo de predicción para una observación individual de y.
3.4. El coeficiente de determinación múltiple.
Glosario de la Unidad III
Bibliografía de la Unidad III
Autoevaluación de la Unidad III
UNIDAD IV: Prueba “chi-cuadrado”- estrategias para poblaciones con distribuciones
no normales (pruebas no paramétricas).
Diagrama de organización de la unidad

3
Organización de los aprendizajes
Tema n.° 1: Introducción
Tema n.° 2: Prueba Chi cuadrado
2.1. Las pruebas de bondad de ajuste y de normalidad.
2.2. Prueba de hipótesis de que la distribución es normal.
2.3. Prueba de Independencia de 2 variables.
Lectura seleccionada n.° 4

Tema n.° 3: Estrategias para poblaciones con distribución no normal.


3.1. Prueba de rango con signo de Wilcoxon para comparar muestras pareadas.
3.2. Prueba de la suma de rangos de Wilcoxon para comparar dos muestras inde-
pendientes.
3.3. Prueba de Kruskal Wallis para comparar más de dos muestras independientes.
3.4. Prueba de rachas o corridas aleatorias.
Glosario de la Unidad IV
Bibliografía de la Unidad IV
Autoevaluación de la Unidad IV
Anexos

4
INTRODUCCIÓN

Cada vez que se inicia un curso de estadísticas aplicadas en psicología, es común que
los estudiantes cuestionen el estudio de la estadística debido al fundamento mate-
mático que ello contiene; es más se preguntan ¿Qué relación podría tener lo anterior
con la psicología? Ya que como sabemos es una especialidad teórico-práctica, cuyo
objetivo principal es la atención de los problemas del comportamiento de los sujetos,
ya sean de carácter individual o grupal o ambos, ajena de aspectos cuantitativos que
impliquen cuantificación y manipulación matemática.

Por otro lado, cabe destacar que existen en el mercado una variedad de libros exce-
lentes sobre estadística; sin embargo, desde mi punto de vista, muchos de ellos traen
un gran cargamento matemático, siendo poco atractivos para los estudiantes de Psi-
cología y por otro, aquellos que traen exagerada simplicidad convirtiéndolos en textos
con muy poco nivel cuantitativo.

Por todo lo anterior, intentaremos concebir un texto que, sin caer en exigencias ma-
temáticas innecesarias, pero respetando su pertinencia, tanto teórica como práctica,
favorezca el estudio sistemático de las estadísticas y permita al estudiante su aplica-
ción, con validez, sistematización y sustento científico en las ciencias del comporta-
miento.

Recuerde: “Mientras más conocimientos tenga en el área de las Estadísticas, y mejor


actitud manifieste hacia la utilización de las mismas en su profesión, indudablemente
que será un mejor psicólogo”

A continuación, presento la organización del presente texto; el cual está dividido en


cuatro unidades cuyos contenidos son: Diseño y técnicas de muestreo probabilístico,
prueba de hipótesis para el promedio de una población, el análisis factorial de va-
rianza, la correlación y regresión lineal o múltiple y la estadística no paramétrica.

El uso del manual es importante para una mejor orientación, ya que con ello podrá
usted identificar rápidamente que modelo estadístico seguir para el análisis correcto
de sus datos, según la investigación que se encuentre realizando.

Finalmente deseamos éxito a todos aquellos que dediquen tiempo al estudio de esta
ciencia y a la vez pedimos disculpas por los errores que se puedan presentar a lo
largo de la lectura, recordando que se agradece las observaciones y correcciones que
se realicen para la mejora del mismo.
El autor

5
ORGANIZACIÓN DE LA ASIGNATURA

RESULTADO DE APRENDIZAJE DE LA ASIGNATURA

Al término de la asignatura el estudiante será capaz de aplicar las técnicas esta-


dísticas inferenciales de estimación y prueba de hipótesis al estudio de casos.

UNIDADES DIDÁCTICAS

UNIDAD I UNIDAD II UNIDAD III UNIDAD IV


Muestreo y Introducción a Análisis factorial Prueba “chi-cua-
prueba de hipó- la prueba “t” de varianza. drado”.
tesis de medias para medias in-
Correlación y Estrategias para
de muestras. dependientes.
predicción. poblaciones con
Introducción al
distribuciones no
análisis de va-
normales (prue-
rianza.
bas no paramétri-
cas).
Resultado de Resultado de Resultado de Resultado de
aprendizaje aprendizaje aprendizaje aprendizaje
Al finalizar la uni- Al finalizar la uni- Al finalizar la uni- Al finalizar la unidad,
dad, el estudiante dad, el estudiante dad, el estudiante el estudiante será
será capaz de será capaz de apli- será capaz de apli- capaz de aplicar
aplicar pruebas de car pruebas de hi- car el análisis de pruebas de hipótesis
hipótesis de una pótesis para la varianza de dos de relación entre va-
media y pruebas media y la diferen- factores, conside- riables; utilizando la
de hipótesis para cia de medias rando diseños ex- distribución Chi-cua-
la media de las di- usando la distribu- perimentales y la drado, así como las
ferencias, utili- ción de probabili- distribución de pruebas para distri-
zando la distribu- dad “t Student”, probabilidad “F”; buciones no norma-
ción de probabili- así como para el así como la prue- les (pruebas no pa-
dad “Z” y “t Stu- análisis de va- bas de hipótesis ramétricas)
dent”. rianza; conside- para correlacionar
rando diseños ex- variables y el mo-
perimentales y delo de predicción
utilizando la distri- bivariado y multi-
bución de probabi- variado.
lidad “F”.

TIEMPO MÍNIMO DE ESTUDIO

UNIDAD I: UNIDAD II: UNIDAD III: UNIDAD IV:


Semana 1 y 2 Semana 3 y 4 Semana 5 y 6 Semana 7 y 8
24 horas 24 horas 24 horas 24 horas

6
UNIDAD I: MUESTREO – PRUEBA DE HIPÓTESIS DE MEDIAS DE MUES-
TRAS

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD I

ORGANIZACIÓN DE LOS APRENDIZAJES


Resultado de aprendizaje de la Unidad I:
Al finalizar la unidad, el estudiante será capaz de aplicar pruebas de hipótesis de una
media y pruebas de hipótesis para la media de las diferencias, utilizando la distribu-
ción de probabilidad “Z” y “t Student”.
CONOCIMIENTOS HABILIDADES ACTITUDES
Tema n.° 1: Diseño de técni- Adopta una actitud
Identifica los diversos mé-
cas de muestreo probabilís- favorable hacia el
todos de muestreo.
tico aprendizaje per-
manente de méto-
1. Definiciones básicas. Aplica pruebas de hipótesis
dos de muestreo y
de medias.
2. Tipos de muestreo proba- pruebas de hipóte-
bilístico Construye intervalos de sis.
confianza.
Tema n.° 2: Prueba de hipóte-
sis para la media
1. Definiciones básicas
2. Prueba de aseveración Actividad n.°1
para la media de una
Aplica los métodos de
muestra (n≥30)
muestreo estudiados.
Lectura seleccionada n.º 1:
Utiliza datos muestrales
Muestreo No probabilístico.
para realizar la prueba de
Tema n.° 3: Estimaciones y ta- hipótesis de la media po-
maños de muestra blacional.
1. Definiciones básicas
2. Estimación de la media po-
blacional
3. Determinación del tamaño
de muestra para la media
poblacional

Autoevaluación de la Unidad I

7
Tema n.° 1: Diseño de técnicas de muestreo probabilístico
En este tema Comienza el estudio del muestreo, basado en la selección de elemen-
tos de una población para hacer juicios o inferencias respecto a ésta.
¿Cuáles son las justificaciones para muestrear?
• Considerar para una investigación a toda la población de estudio requiere
mucho tiempo.
• El costo para un estudio con todos los elementos de una población resulta
muy oneroso.
• Es inalcanzable para verificar de manera física todos los elementos de la
población.
• Los resultados de una buena muestra se aproximan suficientemente a los
reales.
Iniciamos con el análisis de las técnicas para seleccionar una muestra de una pobla-
ción.

Figura 1.1. Población y Muestra. Elaboración propia

1. Conceptos básicos
Daremos a conocer éstas a través de un ejemplo:
Suponga que una entidad oficial del gobierno de su país está interesada en la
realización de una encuesta de desempleo con el fin de determinar:
a) Cuántas personas actualmente pertenecen a la fuerza laboral, tanto en el
país en cuestión como en sus regiones o subdivisiones geográficas y
b) Qué proporción de estas están desempleadas. Con base en lo anterior se
tienen los siguientes aspectos para la realización de dicho estudio:
1.1. Población objetivo: Todas las personas de Perú.
1.2. Dominios o subgrupos de interés: Grupos de edad, género, grupos ocu-
pacionales y regiones del país.
1.3. Características de interés: Pertenencia a la fuerza laboral y estado de em-
pleo. Estas toman valor uno o cero.
1.4. Parámetros de interés: Número total de persona pertenecientes a la fuerza
laboral, número total de desempleados, proporción de desempleo.

8
1.5. Muestra: Se selecciona un subconjunto de la población como muestra, con
la ayuda de mecanismos de identificación y ubicación de las personas en el país.
1.6. Observaciones: Cada persona incluida en la muestra es visitada por un en-
cuestador entrenado, quien hará preguntas siguiendo un cuestionario estandari-
zado y recolectará las respuestas en un instrumento apropiado.
1.7. Procesamiento: Los datos se editan y se preparan para la etapa de estima-
ción.
1.8. Estimación: Se calculan las estimaciones sobre los parámetros de interés y
también indicadores acerca de la incertidumbre de estas estimaciones.

2. Muestras probabilísticas y estimadores


La principal razón de que el Método Estadístico se haya desarrollado
ampliamente en los últimos años dentro de las Ciencias Experimentales
es que éstas están sujetas a razonamientos de tipo inductivo que van
de lo particular a lo general. Sacaremos conclusiones sobre un grupo
de individuos a partir de la información que nos proporciona un sub-
conjunto más o menos amplio de los mismos. (Villardón, s/f, p. 1).
Este procedimiento se denomina inferencia estadística, y se basa en la teoría de
probabilidades. El muestreo, consiste en saber seleccionar adecuadamente la
muestra para que su generalización o inferencia estadística sea reconocida como
válida sólo si se parte de la certeza de contar con una muestra que satisfaga las
condiciones exigidas por la inferencia estadística.

2.1. Tipos de muestreo probabilístico: La recolección está basada principalmente


en la teoría de probabilidades.

2.1.1. Muestreo aleatorio simple: “Una muestra aleatoria simple del tamaño
de n sujetos, se selecciona de manera que cada posible muestra del mismo tamaño
n tenga la misma posibilidad de ser elegida”. (Triola, 2004, p. 23). Esto quiere
decir, que, si tenemos una población de “N” objetos, n es muestra aleatoria simple,
porque los n objetos tienen la misma probabilidad de ser seleccionados, y son
seleccionados independientemente, es decir, la elección de un objeto cualesquiera
no altera la probabilidad de que sean seleccionados otros objetos de la población
N.
Ejemplo:
Se requiere una muestra de 10 estudiantes del nivel inicial para medir el grado de
agresividad en su comportamiento. Si en la ciudad de Huancayo se tienen 750
estudiantes de dicho nivel entonces un método conveniente para obtener una
muestra aleatoria consiste en utilizar una tabla de números aleatorios como la
tabla n.° 1 de anexos.
En este caso el encargado de la investigación prepararía una lista de los 750 es-
tudiantes y le asignaría un número del 1 al 750 en un programa de computadora.
Utilizando una tabla de números aleatorios se elegiría al azar un punto de partida
en esta y se seleccionarían 10 números de 3 dígitos entre el 001 y el 750.
Primero elegimos de la tabla n.º 1.1., adjunta, de forma fortuita una columna y
una fila. Por ejemplo, si el reloj marca 3:04 p. m. entonces nos desplazamos hasta
la columna 3 y fila 4. Donde se encuentra el número 03759. Pero como solo hay
750 niños (y el número seleccionado es mayor), se utilizan los 3 primeros dígitos
de un número aleatorio de la tabla que es de cinco dígitos. Por tanto, 037 será el
número del primer niño que se convertirá en miembro de nuestra muestra. Para

9
continuar seleccionando otros niños para la muestra, se puede seleccionar ubicán-
dose en cualquier dirección, supongamos que se ha decidido que se mueva a la
derecha. Los primeros tres dígitos del número de la derecha de 03759 son 447, el
número del segundo niño seleccionado para integrar la muestra. El siguiente nú-
mero a la derecha es 961 el cual omitimos ya que solo se tienen 750 niños y así
sucesivamente continuamos hasta completar la muestra.

Tabla 1.1:
Fragmento de una lista de Números aleatorios

2.1.2. Muestreo aleatorio sistemático: Para utilizar la técnica del muestreo siste-
mático es necesario que la población sea finita, formada por N elementos de los
cuales se obtendrán n, los mismos que integrarán la muestra. A cada elemento se
le identifica con un código; luego se ordenan todos en forma ascendente o des-
cendente; después se calcula el k-ésimo elemento de la población.

Ejemplo:

Se tiene información de 40 estudiantes de la asignatura de Estadística aplicada a


la psicología de una conocida Universidad. Se desea seleccionar una muestra alea-
toria de ocho personas usando el muestreo sistemático y elabore una tabla con
los elementos seleccionados.

Tabla 1.2
Individuos registrados

N° Sexo Edad Estatura N° Sexo Edad Estatura


1 Mujer 15 154 21 Mujer 16 168
2 Hombre 16 154 22 Hombre 31 161
3 Hombre 21 156 23 Hombre 18 170
4 Mujer 31 184 24 Hombre 21 173
5 Hombre 21 173 25 Hombre 31 187
6 Mujer 24 170 26 Mujer 28 161
7 Hombre 32 176 27 Mujer 19 172
8 Hombre 26 188 28 Hombre 31 162
9 Mujer 21 169 29 Hombre 33 147
10 Mujer 22 173 30 Hombre 17 167
11 Hombre 18 177 31 Mujer 34 169

10
12 Hombre 25 181 32 Mujer 20 176
13 Mujer 29 164 33 Mujer 26 174
14 Hombre 25 159 34 Mujer 25 190
15 Mujer 19 178 35 Mujer 23 164
16 Mujer 29 163 36 Hombre 20 164
17 Hombre 25 180 37 Mujer 34 176
18 Mujer 25 174 38 Hombre 35 188
19 Hombre 29 137 39 Mujer 30 155
20 Hombre 25 153 40 Mujer 29 141

Fuente: Elaboración propia.

Para calcular el punto de inicio, hallamos primero el intervalo de muestreo:

𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻ñ𝒐𝒐 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑ó𝒏𝒏 (𝑵𝑵)


𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰 𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 (𝒌𝒌) =
𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻ñ𝒐𝒐 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 (𝒏𝒏)

40
𝑘𝑘 = =5
8
Luego de manera aleatoria simple elegimos el un número de 1 a 5 como punto de
inicio o arranque: 𝐴𝐴 = 3

Finalmente avanzamos de 5 en 5 desde el arranque 3 y la muestra obtenida es la


siguiente:

Tabla
Edades y estatura por género

N° Sexo Edad Estatura


3 Hombre 21 156
8 Hombre 26 188
13 Mujer 29 164
18 Mujer 25 174
23 Hombre 18 170
28 Hombre 31 162
33 Mujer 26 174
38 Hombre 35 188

Fuente: Elaboración propia.

2.1.3. Muestreo aleatorio estratificado: Este tipo de muestreo se efectúa a partir


de una población finita, en la cual la mayoría de los elementos son heterogéneos.

11
A la población se le divide en grupos llamados estratos. Cada estrato es más ho-
mogéneo en su interior con respecto a las características que se estudian, pero
heterogéneos entre sí. Su tamaño puede ser igual o diferente al de los otros y son
mutuamente excluyentes.

Ejemplo: A usted, como especialista en Psicología, se le ha asignado averiguar el


grado de estrés de los profesores de la UGEL de la ciudad de Huancayo. Como los
profesores son numerosos, usted recibió instrucciones de tomar una muestra de
500 de ellos. Indique el número de maestros que elegirá de cada uno de los
siguientes niveles para tomar una muestra aleatoria estratificada con afijación
proporcional.

Tabla 1.3
Población de Profesores

Nivel (ESTRATO) N° de profesores


Inicial 1500
Primaria 3500
Secundaria 2000

A continuación, calculamos la proporción de cada estrato para obtener el tamaño de


muestra deseado:

Nivel N° de profesores hi (proporción) n° muestreado: hi*tamaño de la muestra


Inicial 1500 0.2143 107
Primaria 3500 0.5 250
Secundaria 2000 0.2857 143
TOTAL 7000 1 500

2.1.4. Muestreo por conglomerados: En la selección de la muestra por conglome-


rados, la población es finita y hay que dividirla de manera natural en grupos o
conglomerados (los estratos ya se han identificado). De manera aleatoria, se se-
lecciona entre la población uno o más conglomerados (ello depende del estudio).

Ejemplo: Se requiere conocer el nivel de pobreza en el Perú; entonces se podría


hacer un conglomerado por departamentos.

12
Figura 1.2: Nivel de pobreza por departamentos del Perú. Tomada de
https://www.inei.gob.pe/

13
Tema n.° 2: Prueba de hipótesis para la media
Como se recuerda una prueba de hipótesis o prueba de significancia, es un pro-
cedimiento estándar para probar estadísticamente una afirmación respecto de
una propiedad que pertenece a una población.

1. Definiciones básicas:

1.1. Hipótesis estadística: Se trata de una afirmación sobre los parámetros de una
o más poblaciones.

Ejemplo: La media de los estudiantes de psicología en el semestre 2016-2 es supe-


rior a 15.

1.2. Hipótesis nula y alternativa: De conformidad con Triola (2004).

1.2.1. Hipótesis nula (H0): Es la aseveración de que el valor de un parámetro de


población (por ejemplo, una proporción, media o desviación estándar) es igual a
un valor determinado. (p. 372)

1.2.2. Hipótesis alternativa (H1): Es la aseveración de que el parámetro tiene un


valor que difiere de la hipótesis nula, de alguna manera (p. 372).

1.3 Planteamiento de hipótesis

1) H0: 𝜇𝜇 = 𝜇𝜇 0 2) H0: 𝜇𝜇 ≤ 𝜇𝜇 0 3) H0: 𝜇𝜇 ≥ 𝜇𝜇 0


H1: 𝜇𝜇 ≠ 𝜇𝜇 0 H1: 𝜇𝜇 > 𝜇𝜇 0 H1: 𝜇𝜇 < 𝜇𝜇 0

Donde 𝜇𝜇 0 es el valor de la media poblacional desconocida 𝜇𝜇

1.4 Prueba de hipótesis estadística: Es el proceso que se utiliza para decidir la


aceptación o rechazo de la hipótesis nula H0.

1.5 Tipos de pruebas de hipótesis: Depende de la hipótesis alternativa

Prueba de Hipótesis unilateral o Prueba de Hipótesis Bilateral o


Prueba de una cola Prueba de dos colas
H0: 𝜇𝜇 = 𝜇𝜇 0 y H1 : 𝜇𝜇 > 𝜇𝜇 0 H0: 𝜇𝜇 = 𝜇𝜇 0 y H1 : 𝜇𝜇 ≠ 𝜇𝜇 0
H0: 𝜇𝜇 = 𝜇𝜇 0 y H1 : 𝜇𝜇 < 𝜇𝜇 0

1.6 Error tipo I y II


Cuando se hace una prueba de hipótesis nula se realiza con la intención de re-
chazarla o no rechazarla. Sin embargo, las conclusiones pueden ser correctas o
incorrectas, lo que produce dos tipos de errores. (Triola, 2004, p. 381). Se tiene
así:

DECISIÓN H0 VERDADERA H0 FALSA


CORRECTO ERROR TIPO II
ACEPTAR H0
1-α β
ERROR TIPO I CORRECTO
RECHAZAR H0
α (1-β)

14
Nivel de significación (α) Potencia de una prueba
Es la probabilidad de cometer un Es la probabilidad de cometer un
error de tipo I error de tipo II
α = P (error tipo I) β = P (error tipo II)
α = P(rechazar H0 cuando es ver- β = P(aceptar H0 cuando es falsa)
dadera)

1.7 Regla de decisión: Una regla de decisión, especifica las condiciones en las
que se rechaza o no se rechaza la hipótesis nula. Por esta razón, debe determi-
narse la región o área de rechazo, que sirve para definir la ubicación de todos
los valores que son tan grandes o tan pequeños, cuya probabilidad de ocurren-
cia es muy lejana en una hipótesis nula verdadera.

Prueba de Hipótesis Bilateral Prueba de Hipótesis unila- Prueba de Hipótesis uni-


o Prueba de dos colas teral o Prueba de una cola lateral o Prueba de una
H0: 𝜇𝜇 = 𝜃𝜃 y H1 : 𝜇𝜇 ≠ 𝜃𝜃 H0: 𝜇𝜇 = 𝜃𝜃 y H1 : 𝜇𝜇 < 𝜃𝜃 cola
H0: 𝜇𝜇 = 𝜃𝜃 y H1 : 𝜇𝜇 > 𝜃𝜃

Figura 1.3: Regiones de la prueba de hipótesis.


Fuente: Elaboración propia

1.8 Procedimiento de la prueba de hipótesis


Todo lo anteriormente expresado puede resumirse en un procedimiento que con-
tiene cinco pasos para la prueba de hipótesis estadística:

Figura 1.4: Pasos para una prueba de hipótesis. Adaptado de Cruz, A.P. Prueba de
hipótesis para una muestra

2. Prueba de aseveración para la media de una muestra:


Caso: Varianza poblacional conocida o n≥30
Ejemplo:
Como parte de un estudio de tiempos y movimientos conducido en un centro de
Salud psicológica, una muestra de 100 pacientes pasó en promedio 23 min en la
sala de espera entre su registro y su atención por un miembro del grupo psicoló-
gico. La desviación estándar muestral fue de 10 min. ¿Proporcionan estos datos
evidencia suficiente como para indicar que el tiempo de permanencia en la sala de
espera es mayor a 20 min? Sea 𝛼𝛼 = 0,05

Paso1: Se establecen las hipótesis nula y alterna:

𝐇𝐇𝟎𝟎 : 𝛍𝛍 = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 (El tiempo promedio de espera es de 20 min)


𝐇𝐇𝟏𝟏 : 𝛍𝛍 > 𝟐𝟐𝟐𝟐 𝐦𝐦𝐦𝐦𝐦𝐦 (El tiempo promedio de espera es mayor a 20 min)

15
Paso 2: Se selecciona un nivel de significancia: 𝛼𝛼 = 0,05 (Indica la probabilidad
de sentenciar erróneamente que el tiempo promedio de espera es mayor a 20
min es 0,05)

X − µo
Paso 3: Identificamos el estadístico de prueba: Z= (Cruz, s/f)
σ/ n
(Nota importante: Se utiliza el presente estadístico de prueba cuando la desvia-
ción poblacional es desconocida o el tamaño de la muestra es de 30 a más)

Paso 4: Se formula una regla para tomar decisiones.

Figura 1.5: Distribución muestral del estadístico Z; prueba de una cola a la de-
recha; nivel de significancia de 0,05.

Supuestos:
a. Población aproximadamente normal.
b. Muestra tomada al azar.

23−20
Cálculo de la Z de prueba: 𝑍𝑍𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 10 =3
√100
Paso 5: Conclusión.

Existe suficiente evidencia estadística para afirmar con un nivel de confianza del
95% que el tiempo de permanencia en la sala de espera es mayor a 20 min.

3. Errores de muestreo
Para Triola (2004) “Un error de muestreo es la diferencia entre el resultado de
una muestra y el verdadero resultado de la población; tal error es consecuencia
de las posibles fluctuaciones de las muestras”. (p. 26)

16
Lectura seleccionada n.°1

Leer de la página 269 a 274 de la siguiente bibliografía:


Bologna, E. (2011). Muestreos no probabilísticos en Estadística para Psicología y Edu-
cación. Recuperado de https://issuu.com/elpapaupa/docs/bo-
logna_eduardo_-_estadistica_para_

Actividad n.° 1
Aplique los métodos de muestreo estudiados según la pregunta y
someta a prueba cada una de las hipótesis indicadas.
1. Con base en su técnica de reciente desarrollo, una psicóloga clínica cree que
puede reducir la cantidad de tiempo (en semanas) que los esquizofrénicos pasan en
una institución. Como director de una institución médica, usted accede a permitirle
probar su método con un grupo de esquizofrénicos seleccionados al azar de su ins-
titución. Los puntajes tienen una distribución normal (tal como muestra el histo-
grama).

Nº Sema- Nº Sema- Nº Sema- Nº Sema- Nº Sema-


1 86 25 85 49 87 73 86 97 85
2 83 26 83 50 87 74 86 98 87
3 85 27 84 51 83 75 84 99 87
4 87 28 86 52 84 76 87 100 84
5 84 29 90 53 84 77 83 101 86
6 82 30 86 54 85 78 85 102 88
7 80 31 86 55 85 79 82 103 89
8 85 32 85 56 85 80 89 104 88
9 80 33 89 57 83 81 81 105 82
10 80 34 86 58 84 82 86 106 81
11 80 35 77 59 79 83 93 107 91
12 79 36 79 60 75 84 91 108 85
13 85 37 86 61 84 85 86 109 86
14 84 38 86 62 87 86 86 110 83
15 86 39 84 63 86 87 85 111 85
16 87 40 85 64 83 88 83 112 83
17 83 41 88 65 89 89 82 113 88
18 86 42 85 66 81 90 88 114 88
19 81 43 82 67 89 91 82 115 88
20 87 44 81 68 85 92 80 116 87
21 89 45 81 69 87 93 84 117 85
22 85 46 88 70 81 94 88 118 81
23 77 47 76 71 93 95 91 119 96
24 79 48 77 72 90 96 93 120 90

a. Extraiga una muestra de 30 elementos mediante un muestreo aleatorio sistemá-


tico con arranque A = 4.
b. El Director de la clínica psicológica afirma: La duración media del tiempo que los
esquizofrénicos permanecen en su institución es de 84,9 semanas. Con un nivel
de significancia de α=0,05 realice la prueba de hipótesis para la media y determine
si la aplicación de la nueva técnica es efectiva para disminuir el tiempo de perma-
nencia de los pacientes esquizofrénicos.

17
2. En una encuesta de salud psicológica de cierta comunidad, se entrevistó a 150
individuos. Uno de los detalles de la información obtenida fue el número de recetas
de tranquilizantes contra el estrés que cada persona había tenido que pedir durante
el año anterior. El número de recetas promedio para los 150 individuos fue de 5,8
con una desviación estándar de 3,1. El investigador desea saber con un nivel de
significancia de 0,05, si estos datos proporcionan evidencia suficiente como para
afirmar que la media de la población es mayor que 5.

3. La media de las aptitudes generales de los aspirantes a ingresar a la Universidad


Continental, en los últimos diez años, es de 43, con una σ = 8,56. Una muestra de
275 aspirantes del año 2016 obtuvo una media de 46,65. Con alfa de 0,05 determine
si la media de las aptitudes generales de los aspirantes ha aumentado en compara-
ción con los últimos diez años.

18
Tema n.° 3: Estimaciones y tamaños de muestra

Manzano Arredondo (2012), afirma que “…estimar es establecer conclusiones sobre


características poblacionales a partir de resultados muestrales.”. Para estimar el valor
de un parámetro poblacional, conforme a la definición, es necesario utilizar la infor-
mación de la muestra en la forma de un estimador. Por tanto, éstos se calculan
usando información de las observaciones muestrales.

1. Definiciones básicas

- Estimación puntual: “Un estimado puntual es un valor individual (o punto)


que se usa para aproximar un parámetro de población”. (Triola, 2004, p. 300).
La regla o fórmula para su cálculo se denomina estimador puntual y el número
resultante es la estimación puntual.
- Estimación por intervalos: “Un intervalo de confianza (o estimado del inter-
valo) es una gama (o un intervalo) de valores que se usan para estimar el valor
real de un parámetro de población. El intervalo de confianza suele abreviarse
como IC”. (Triola, 2004, p. 301). Sin embargo, en el presente Manual, no utiliza-
remos la denominación de intervalo de confianza, sino, únicamente, el de esti-
mador del intervalo.

2. Estimación de la media poblacional

El intervalo de estimación para la media simplemente describe un rango de valores


que es probable que incluya a la media real de la población.

Figura 1.6: Interpretación del nivel de confianza

Los términos que siguen son muy importantes en la estimación del intervalo:

Límites de intervalo: Los valores inferior y superior del intervalo de estimación.

Intervalo de confianza: Un intervalo de estimación para el cual existe un grado


específico de certeza de que el valor real del parámetro poblacional caerá dentro
de ese intervalo.

19
Coeficiente de confianza: Para un intervalo de confianza, la proporción de tales
intervalos que incluirán el parámetro de la población si el proceso de construcción
del intervalo se repitiera muchas veces.

Nivel de confianza: Igual que el coeficiente de confianza, esto expresa el grado


de certidumbre de que un intervalo incluirá el valor real del parámetro poblacio-
nal, pero declarado como porcentaje.

Precisión: Es la diferencia que existe entre el estadístico muestral observado y


el valor real del parámetro poblacional que se estima. También recibe el nombre
de error de estimación o error muestral. (Ver 3. Errores muestrales, p. 15)

Intervalo de confianza para la media cuando se conoce y no se conoce


la varianza poblacional

Figura 1.7: Intervalo de confianza para la media.


Fuente: elaboración propia.

Generalmente, cuando se desea construir un intervalo de confianza para la media


poblacional μ, cuando la varianza poblacional no se conoce. Por lo tanto, para el
cálculo del intervalo se reemplaza la desviación estándar poblacional por la desviación
estándar muestral S y entonces el intervalo de confianza toma la forma:

𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 1.96 × ≤ 𝜇𝜇 ≤ 𝑥𝑥̅ + 1.96 ×
√𝑛𝑛 √𝑛𝑛

20
La cual se considera una buena aproximación para el intervalo de confianza al
95% para la μ con una desviación desconocida. Esta aproximación es mejor
en la medida que el tamaño muestral sea grande (n≥30).
Cuando el tamaño muestral es pequeño (n<30), el intervalo de confianza re-
quiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo
n el tamaño de la muestra), en vez de la distribución normal (por ejemplo,
para un intervalo de 95% de confianza, los límites del intervalo ya no serán
construidos usando el valor 1,96, sino otro valor que se obtiene de la tabla t
de Student).

𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 𝑡𝑡 × ≤ 𝜇𝜇 ≤ 𝑥𝑥̅ + 𝑡𝑡 ×
√𝑛𝑛 √𝑛𝑛

Tabla 1.4
Fragmento de una tabla de distribución

Margen de error
• Si la desviación estándar o la varianza poblacional es conocida, el margen de
𝜎𝜎
error es: 𝐸𝐸 = 𝑍𝑍 × donde el valor de Z se calcula en 2 colas.
√𝑛𝑛

• Si la desviación estándar o la varianza poblacional es desconocida, el margen


𝑠𝑠
de error es: 𝐸𝐸 = 𝑡𝑡 × donde el valor de t se calcula en 2 colas.
√𝑛𝑛
Donde t sigue una distribución t de Student con (n-1) grados de libertad.

𝑁𝑁−𝑛𝑛
• Si la población es finita, se usa el factor de correción por población finita �
𝑁𝑁−1

Ejemplo:

Se desea estimar mediante un intervalo de confianza al 95%, el gasto prome-


dio diario en alimentación de los estudiantes de Psicología. Para ello, se tomó

21
una muestra aleatoria de 9 alumnos y se les preguntó por su gasto en alimen-
tación durante el día anterior a la encuesta, encontrándose los siguientes re-
sultados. Calcule e interprete el intervalo de confianza del gasto promedio
diario.

11,5 10 16,5 18 7,5 7,5 9,5 14,5 13

Paso 1: Observamos que la desviación poblacional es desconocida y el tamaño de la


muestra es menor a 30 por lo tanto usamos la t de Student para calcular el margen
de error:
𝑠𝑠
𝐸𝐸 = 𝑡𝑡 ×
√𝑛𝑛
Paso 2: Luego los límites de entre los cuales se encuentra la media poblacional es:
𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 𝑡𝑡 × ≤ 𝜇𝜇 ≤ 𝑥𝑥̅ + 𝑡𝑡 ×
√𝑛𝑛 √𝑛𝑛
Para ello calculamos la media y la desviación estándar muestral: 𝑥𝑥̅ = 13.67 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 y 𝑠𝑠 =
4,04 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
4,04 4,04
13,67 − 2,306 × ≤ 𝜇𝜇 ≤ 13,67 + 2,306 ×
√9 √9

10,56 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 ≤ 𝜇𝜇 ≤ 16,78 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠

Tabla 1.5
Fragmento de una tabla de distribución t, su forma de usar

22
Paso 3: Por lo tanto, con un nivel de confianza del 95% se puede afirmar que el
gasto promedio diario en alimentación de los estudiantes de Psicología se encuen-
tra de 10,56 soles hasta 16,78 soles.

3. Determinación del tamaño de muestra para la media poblacional

Se tienen tres condiciones que determinan el tamaño de una muestra. Estos


son:
• El grado de confianza elegido.
• El máximo margen de error permitido.
• La desviación estándar de la población.

Para estimar la media poblacional, debe tenerse en cuenta n y utilizar la fór-


mula conveniente, según sea el caso:

Población infinita Población finita


zσ 2 2
z 2σ 2 N
n= n= 2
E2 E ( N − 1) + z 2σ 2

Ajuste de Tamaño de
muestra para población fi-
nita
n0
n=
n
1+ 0
N
Donde:
E: Es el margen de error permitido;
z: Es el valor estándar normal asociado con el grado de confianza elegido,
σ: La desviación estándar de la población, obtenida de estudios anteriores,
experiencias previas o se puede estimar la desviación estándar muestral me-
diante un estudio piloto
no: Tamaño de muestra calculada de una población infinita
N: Tamaño de población.
Se dice que una población es finita si la relación n/N > 5%

Ejemplo:
En una empresa se desea conocer el tiempo promedio que sus empleados tardan
en usar los servicios higiénicos al día. Se estima que la desviación estándar de
dicho tiempo es de 10 minutos. Calcule el tamaño de muestra si se desea tener
un nivel de confianza del 90% y un margen de error de 2 minutos.

Resolución:
Paso 1: Podemos notar que el tamaño de la población es desconocido, pero si es
conocido la desviación estándar poblacional, por lo tanto, el tamaño de la mues-
tra se obtendrá mediante:

23
z 2σ 2
n=
E2
Paso 2: Reemplazamos los datos en la fórmula del paso 1, donde el margen de
error es de 2 min y el valor de Z es 1,645 para un nivel de significancia de 0,10
en dos colas.
1,6452 × 102
𝑛𝑛 = = 67,65 ≈ 68 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
22

24
Glosario de la Unidad I

Contraste de hipótesis
“Conocido también como prueba de hipótesis, es el proceso estadístico que se sigue
para la toma de decisiones a partir de la información de la muestra. Comparando el
valor del estadístico experimental con el valor teórico, se rechaza o acepta la hipóte-
sis nula. Lo contrario a la hipótesis nula se llama hipótesis alterna” (Asurza, 2006, p.
14).

Error de muestreo
“Conocido también como error muestral, es la diferencia que existe entre el valor real
(parámetro) obtenido con los valores de la población y el valor estimado en base a
los valores de una muestra (estimación)” (Asurza, 2006, p. 29).

Error tipo II (𝜷𝜷)


“Es la teoría de decisiones, es el error que se comete al aceptar la hipótesis nula
cuando es falsa (Asurza, 2006, p. 30).

Estadístico de prueba
“Conocido también como estadígrafo, es el valor calculado en base a los datos que
se obtienen sobre una muestra y por lo tanto es una estimación de los parámetros.
Entre los más usados se tiene la media muestral y la desviación estándar muestral
(Asurza, 2006, p. 31).

Intervalo de confianza
“Conocido también como límites de confianza. Es un rango de valores en el cual se
encontraría el valor del parámetro, con una probabilidad determinada. Generalmente
se construye intervalos de confianza con 95% de probabilidad. (Asurza, 2006, p. 41).

Nivel de significancia (𝜶𝜶)


“Se define como la probabilidad de rechazar la hipótesis nula cuando ésta es verda-
dera. Se le conoce también con el nombre de error tipo I, simbólicamente se denota
por 𝛼𝛼” (Asurza, 2006, p. 48).

Valor crítico
Punto de división entre la región en que se rechaza la hipótesis nula y aquella en la
que se acepta (Asurza, 2006).

Valor 𝝆𝝆
Probabilidad de observar un valor muestral tan extremo o más que el valor obser-
vado, si la hipótesis nula es verdadera (Asurza, 2006).

25
Bibliografía de la Unidad I

Aron, A. (2003). Estadística para Psicología. Brasil: Editorial Prentice Hall.

Asurza, H. (2006). Glosario básico de términos estadísticos. Lima, Perú: Talleres de


la Oficina Técnica de administración del INEI. Recuperado de
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digita-
les/Est/Lib0900/Libro.pdf

Bologna, E. (2011). Estadística para Psicología y educación. Argentina: Editorial


Brujas.

Cerrón, C. (2014). Estadística II, Manual Autoformativo. Huancayo, Perú: Universi-


dad Continental. Recuperado de http://es.ca-
laameo.com/read/003354746a5fc8b2222ce

Cruz, A.P. (s/f). Prueba de hipótesis par una muestra. Recuperado de


http://www.monografias.com/trabajos30/prueba-de-hipotesis/prueba-de-hi-
potesis.shtml

Manzano Arredondo, V. (2012). Estimación estadística. Recuperado de e http://asigna-


tura.us.es/dadpsico/apuntes/EstimacionEstadistica.pdf

Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.

Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.

Triola, M. (2004). Estadística. (9ª edición). México: Addison Wesley, Pearson Educa-
ción de México.

Valderrama, G. (2011). Estadísticas aplicadas en psicología Ciencias Sociales y Edu-


cación.

Vicente Villardón, J.L. (s/f). Introducción a la inferencia estadística: Muestreo y esti-


mación puntual y por intervalos. España: Departamento de estadística de la
Universidad de Salamanca. Recuperado de http://biplot.usal.es/proble-
mas/confianza/estimacion.htm

26
Autoevaluación de la Unidad I

Los siguientes ejercicios fueron extraídos de Cerrón (2014, p.40)

Cerrón, C. (2014). Estadística II, Manual Autoformativo. Huancayo, Perú: Universi-


dad Continental. Recuperado de http://es.cala-
meo.com/read/003354746a5fc8b2222ce

1. Correlacione:

DEFINICIONES CONCEPTO
1 Es una técnica en el que el sujeto no sabe si está Muestreo estratifi-
recibiendo el tratamiento cado
2 Los miembros de una población se seleccionan de Muestreo sistemá-
forma que cada miembro individual tenga la tico
misma posibilidad de ser elegido
3 Selecciona directamente los individuos de la po- Muestra aleatoria
blación para la muestra
4 Se selecciona un punto de partida, después se Muestreo de conve-
elige cada k-ésimo elemento de la población niencia
5 Subdividimos a la población en al menos dos Estudio a ciegas
subgrupos diferentes, cada subgrupo posee gran
homogeneidad respecto alguna característica.

A) 3,4,5,2,1
B) 5,4,3,2,1
C) 3,5,4,2,1
D) 5,4,2,3,1
E) 5,3,4,2,1

2. Una población está compuesta por grupos que tienen una amplia variación dentro
de cada uno de ellos pero poca variación de grupo a grupo. El tipo apropiado de
muestreo de esta población es el…
A) Estratificado
B) Sistemático
C) Aleatorio simple
D) Por Conglomerados
E) Falta mayor información

3. Condiciones para hacer un intervalo de confianza usando la distribución normal


estándar:

I. La distribución de la población puede ser normal si n>30.


II. Se conoce el valor de la desviación estándar poblacional.
III. Se emplea para n<30 si la población tiene una distribución normal.
IV. Se conoce el valor de la media poblacional.
V. La muestra es una muestra aleatoria simple.

A) II, III y IV
B) I, II, y V
C) I, IV y V
D) II y IV
E) III, IV y V

27
4. El ancho de un intervalo de confianza para una proporción sería:

A) Más angosto para un nivel confianza de 99% que para un nivel confianza de 95%.
B) Más amplio para una muestra de tamaño 100 que para una muestra de tamaño
50.
C) Más amplio para una desviación estándar de 3.56 que para un nivel de confianza
de 90%
D) Más amplio cuando la proporción de la muestra sea 0.50 que cuando la proporción
de la muestra sea 0.20.
E) Más amplio a nivel de confianza 99% que al de 95%

5. Las Razones por las que no se debe usar la distribución “t”.

I. La desviación estándar de la población es conocida.


II. La distribución de la población es normal.
III. El tamaño de la muestra es mayor a 30.
IV. La muestra es aleatoria simple.
V. El tamaño de muestra es menor a 30.

A) II y IV
B) III y V
C) I
D) IV
E) III

6. Para cada uno de los siguientes pares de hipótesis nula y alternativa, determine
si el par está bien redactado y si sería adecuado para una prueba de hipótesis.
A) 𝐻𝐻0 : 𝜇𝜇 = 17; 𝐻𝐻1 : 𝜇𝜇 ≠ 20
B) 𝐻𝐻0 : 𝜇𝜇 ≤ 32; 𝐻𝐻1 : 𝜇𝜇 ≥ 32
C) 𝐻𝐻0 : 𝜇𝜇 ≤ 20; 𝐻𝐻1 : 𝜇𝜇 > 20
D) 𝐻𝐻0 : 𝜇𝜇 < 15; 𝐻𝐻1 : 𝜇𝜇 ≥ 45
E) 𝐻𝐻0 : 𝜇𝜇 ≥ 45; 𝐻𝐻1 : 𝜇𝜇 = 45

7. De los siguientes enunciados, mencionar el verdadero.


A) Cuando se comete un error de tipo II, la hipótesis nula H0 se acepta cuando en
realidad es falsa.
B) Cuando se comete un error de tipo I, la hipótesis nula H0 se acepta cuando en
realidad es falsa.
C) Si Ho: µ1 < µ2, se trata de una prueba de dos colas.
D) α es la probabilidad de cometer el error de tipo II.
E) β es la probabilidad de cometer el error de tipo I.

8. En un esfuerzo por mejorar su horario de citas, un psicólogo estima el tiempo


promedio que dedica a cada paciente. Una muestra aleatoria de 49 pacientes, selec-
cionada en un periodo de tres semanas, proporciono una media de 30 minutos y una
desviación estándar de 7. Determinar un intervalo de confianza al 95% para el tiempo
promedio verdadero que el Psicólogo dedica a cada paciente
A) (27.09, 30.96)
B) (27.09, 33.96)
C) (28.04, 31.96)
D) (27.02, 30.98)
E) (27.03, 30.96)

28
UNIDAD II: INTRODUCCIÓN A LA PRUEBA “T” - PRUEBA “T” PARA MEDIAS
INDEPENDIENTES - INTRODUCCIÓN AL ANÁLISIS DE VARIANZA.

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD II

ORGANIZACIÓN DE LOS APRENDIZAJES


Resultado de aprendizaje de la Unidad II:
Al finalizar la unidad, el estudiante será capaz de aplicar pruebas de hipótesis para la
media y la diferencia de medias usando la distribución de probabilidad “t Student”,
así como para el análisis de varianza; considerando diseños experimentales y utili-
zando la distribución de probabilidad “F”.
CONOCIMIENTOS HABILIDADES ACTITUDES
Aplica pruebas de hipótesis Valora los métodos
Tema n.° 1: Introducción a la
para la media y para la di- estadísticos de
prueba t de Student
ferencia de medias. prueba de hipóte-
1. Prueba “t” para una mues- sis y análisis de va-
Aplica pruebas de hipótesis
tra. rianza, como he-
para comparar las varian-
rramientas para la
Tema n.° 2: Prueba “t” para zas.
toma de decisio-
dos muestras
Actividad n.° 2 nes.
1. Prueba “t” para dos mues-
tras dependientes.
2. Prueba “t” para dos mues-
tras independientes.
Lectura seleccionada n.° 2
Estadística electoral
Tema n.° 3: Análisis de va-
rianza
1. Definiciones básicas.
2. Análisis de la varianza de
un factor.
Autoevaluación de la Unidad II

29
Tema n.° 1: Introducción a la prueba t de Student
Por lo general, no se conoce la verdadera desviación estándar de una pobla-
ción. La prueba “t” es adecuada para las pruebas de hipótesis en las cuales
se utiliza la desviación estándar de la muestra (s) para estimar el valor de la
desviación estándar de la población (𝜎𝜎).
1. Prueba “t” para una muestra:
La prueba t se basa en la distribución t (con un número de grados de libertad,
𝑑𝑑𝑑𝑑 = 𝑛𝑛 − 1) y en la suposición de que la población tiene una distribución apro-
ximadamente normal. Conforme crece el tamaño de la muestra, la suposición
de normalidad de la población se vuelve menos importante.

PRUEBA DE HIPÓTESIS
PARA UNA POBLACIÓN
RESPECTO A LA MEDIA
µ

Tiene la Población una


distribución normal o
aproximadamente nor-
mal

Si la desviación estándar Si la desviación estándar


poblacional es conocida poblacional es desconocida
o n≥30 y n<30

𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑍𝑍𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝜎𝜎 𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑠𝑠
√𝑛𝑛 √𝑛𝑛
Figura 2.1: Intervalo de confianza para la media.
Fuente: Elaboración propia.

Ejemplo: Los siguientes valores son las presiones sistólicas sanguíneas (en mm de
Hg) de 12 pacientes que experimentan una terapia con drogas debido a que pade-
cen de hipertensión.
194 163 144 114 178 152 118 158

¿Puede concluirse en base a estos datos que la media de la población es menor que
165 mm/Hg?

30
Conforme a la figura 1.4: Pasos para una prueba de hipótesis (p. 14), procedemos
paso a paso, a resolver la interrogante planteada:

Paso 1: Se establecen las hipótesis nula y alterna:

𝐇𝐇𝟎𝟎 : 𝛍𝛍 = 𝟏𝟏𝟏𝟏𝟏𝟏 𝐦𝐦𝐦𝐦/𝐇𝐇𝐇𝐇


𝐇𝐇𝟏𝟏 : 𝛍𝛍 < 𝟏𝟏𝟏𝟏𝟏𝟏 𝐦𝐦𝐦𝐦/𝐇𝐇𝐇𝐇

Paso 2: Cuando no se menciona el nivel de significancia es conveniente asumir


𝛼𝛼 = 0,05.
𝑥𝑥̅ − 𝜇𝜇
𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑠𝑠
Paso 3: Se identifica el estadístico de prueba:
√𝑛𝑛

(Se utiliza el presente estadístico de prueba cuando la desviación poblacional es


desconocida y el tamaño de la muestra es menos de 30)

Paso 4: Se formula una regla para tomar decisiones.

RHo AHo
0.05 0.95

𝒕𝒕𝒑𝒑 =-1,895

Tabla 2.1
Distribución muestral del estadístico t; prueba de una cola a
la izquierda; nivel de significancia de 0,05.

Fuente. Elaboración propia.

31
Supuestos:
a. Población aproximadamente normal.
b. Muestra tomada al azar.

152,625−165
Cálculo de la t de prueba: 𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 27,407 = −1,277
√8
Paso 5: Conclusión.

Como la t de prueba es mayor que la t crítica (Región de aceptación de la hipótesis


nula) entonces existe suficiente evidencia estadística para afirmar con un nivel de
confianza del 95% que la presión sistólica sanguínea de los pacientes es 165
mm/Hg.

32
Tema n.° 2: Prueba “t” para dos muestras

Una de las aplicaciones más útiles de la estadística para la psicología consiste en la


comparación de dos muestras para examinar si la diferencia entre ellas es signifi-
cativa o es probable que se deba a la casualidad.
1. Prueba “t” para dos muestras dependientes
Las muestras dependientes son mediciones pareadas de un conjunto de elementos.
Una manera práctica de reconocerlos es verificar si ambos datos pertenecen a un
mismo sujeto u objeto.
Si los valores de una muestra afectan a los valores de la otra muestra, entonces las
muestras son dependientes.

Ejemplo: En el laboratorio de neurociencia se sometieron a 10 roedores a condicio-


nes que simulaban una enfermedad. Se registró el número de latidos del corazón por
minuto antes y después del experimento de la manera siguiente:

Latidos por minuto


Animal Antes Después
1 70 115
2 84 148
3 88 176
4 110 191
5 105 158
6 100 178
7 110 179
8 67 140
9 79 161
10 86 157

¿Proporcionan estos datos con un nivel de significancia de 0,05 evidencia suficiente


que indique que la condición experimental aumenta el número de latidos del cora-
zón por minuto?

Nuevamente, recurrimos a la figura 1.4: Pasos para una prueba de hipótesis (p. 14),
para contestar la pregunta planteada.

Paso 1: Se establecen las hipótesis nula y alterna:

𝐇𝐇𝟎𝟎 : 𝝁𝝁𝑨𝑨𝑨𝑨𝑨𝑨𝑨𝑨𝑨𝑨 = 𝝁𝝁𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫é𝒔𝒔


El promedio de latidos del corazón por minuto antes y después del sometimiento
a condiciones que simulaban una enfermedad es el mismo.

𝐇𝐇𝟏𝟏 : 𝝁𝝁𝑨𝑨𝑨𝑨𝑨𝑨𝑨𝑨𝑨𝑨 < 𝝁𝝁𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫é𝒔𝒔


El promedio de latidos del corazón después del sometimiento a condiciones que
simulaban una enfermedad es mayor al promedio de latidos del corazón antes del
experimento.

33
Paso 2: El nivel de significancia considerado en el enunciado es 𝛼𝛼 = 0,05.

Paso 3: Se identifica el estadístico de prueba: 𝑑𝑑̅


𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑠𝑠
𝑑𝑑
√𝑛𝑛
(Donde 𝑑𝑑̅ es el promedio de las diferencias del antes y después del experimento
y 𝑠𝑠𝑑𝑑 es la desviación estándar de las diferencias mencionadas anteriormente)

Paso 4: Toca ahora, formular una regla para la toma de decisiones.

RHo AHo
0.05 0.95

𝒕𝒕𝒑𝒑 =-1,833

Tabla 2.2
Distribución muestral del estadístico t; prueba de una cola a la iz-
quierda; nivel de significancia de 0,05.

Supuestos:
a. Población aproximadamente normal.
b. Muestra tomada al azar.

34
Latidos por minuto
Animal Antes Después Diferencia
1 70 115 -45
2 84 148 -64
3 88 176 -88
4 110 191 -81
5 105 158 -53
6 100 178 -78
7 110 179 -69
8 67 140 -73
9 79 161 -82
10 86 157 -71
Promedio= -70.4
Desv Est= 13.3849003

−70,4
Cálculo de la t de prueba: 𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 13,3849 = −16,6325
√10

Paso 5: Conclusión, basada en los cálculos de los pasos anteriores.

Como la t de prueba es menor que la t crítica (Región de rechazo de la hipótesis


nula) entonces existe suficiente evidencia estadística para afirmar con un nivel de
confianza del 95% que el promedio de latidos del corazón después del sometimiento
a condiciones que simulaban una enfermedad es mayor al promedio de latidos del
corazón antes del experimento.

2. Prueba “t” para dos muestras independientes


Las muestras independientes son mediciones realizadas en dos conjuntos diferentes
de elementos. Una manera práctica de reconocerlos es verificar si ambos datos per-
tenecen a dos sujetos u objetos diferentes.
Si los valores de una muestra no revelan información sobre los valores de la otra
muestra, entonces las muestras son independientes.

Ejemplo: Un psicólogo clínico desarrolla un estudio del autoconcepto familiar en dos


grupos de sujetos adultos con problemas de adicción: un grupo masculino (A) y otro
femenino (B). Los resultados obtenidos con la escala de autoconcepto Tennessee
fueron los siguientes:

A 72 83 57 71 72 68 70 68 77 67
B 36 52 41 44 39 51 47 41 55 46

Con alfa de 0.05, determine si hay diferencias en las medias del autoconcepto fami-
liar entre ambos grupos.

35
Paso 1: Se desarrolla la prueba de homogeneidad de las poblaciones.

𝐇𝐇𝟎𝟎 : 𝝈𝝈𝟐𝟐𝑨𝑨 = 𝝈𝝈𝟐𝟐𝑩𝑩


Las varianzas son homogéneas.

𝐇𝐇𝟏𝟏 : 𝝈𝝈𝟐𝟐𝑨𝑨 ≠ 𝝈𝝈𝟐𝟐𝑩𝑩


Las varianzas son heterogéneas.

Paso 1.2: El nivel de significancia es 𝛼𝛼 = 0,05. Varianza mayor


Paso 1.3: Se identifica el estadístico de prueba: Fprueba =
Varianza menor

Paso 1.4: Identificar el valor crítico del estadístico de la prueba y plantear la


regla de decisión.
Aunque la prueba es no direccional (es decir H1 : 𝜎𝜎𝐴𝐴2 ≠ 𝜎𝜎𝐵𝐵2 ), sólo habrá un valor
crítico de F. Esto se debe a que hemos seleccionado la F más grande en el paso
3.
El valor crítico de F será 𝐹𝐹(𝛼𝛼;𝑉𝑉 ;𝑉𝑉 ) donde 𝛼𝛼 es el nivel de significancia especificado,
2 1 2
𝑉𝑉1 es el tamaño de la muestra que tuvo la varianza más grande disminuido en
uno y 𝑉𝑉2 es el tamaño de la muestra que tuvo la varianza más pequeña disminuido
en uno.

AHo RHo
0.025 0.025

𝐹𝐹𝑐𝑐𝑐𝑐í𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 4,03

𝝈𝝈𝟐𝟐𝑨𝑨 = 𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔 𝒚𝒚 𝝈𝝈𝟐𝟐𝑩𝑩 = 𝟑𝟑𝟑𝟑, 𝟕𝟕𝟕𝟕

𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔
𝑭𝑭𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 = = 𝟏𝟏. 𝟐𝟐𝟐𝟐
𝟑𝟑𝟑𝟑, 𝟕𝟕𝟕𝟕

36
Tabla 2.3
Distribución muestral del estadístico F; prueba de una cola a la derecha;
para un nivel de significancia de 0,05.

Paso 1.5: Como la F de prueba cae en la zona de aceptación, se puede afirmar con
una confianza del 95% que las muestras provienen de poblaciones homogéneas.

Paso 2: Una vez determinada la homogeneidad de las poblaciones verificamos el


estadístico de prueba.

37
Paso 3: Proponemos las hipótesis.

𝐇𝐇𝟎𝟎 : 𝝁𝝁𝑨𝑨 = 𝝁𝝁𝑩𝑩


No hay diferencias en las medias del autoconcepto familiar entre ambos grupos.

𝐇𝐇𝟏𝟏 : 𝝁𝝁𝑨𝑨 ≠ 𝝁𝝁𝑩𝑩


Si hay diferencias en las medias del autoconcepto familiar entre ambos grupos.

Paso 4: El nivel de significancia es 𝛼𝛼 = 0,05.

Paso 5: Se identifica el estadístico de prueba: 𝑥𝑥̅1 − 𝑥𝑥̅2


𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 =
𝑠𝑠 2 𝑠𝑠 2
� 1+ 2
𝑛𝑛1 𝑛𝑛2

Paso 6: Regla de decisión.


𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 = 10 + 10 − 2 = 18

38
AHo RHo
RHo
0.95 0.025
0.025

t crítica=-2,102 t crítica=2,102

𝑥𝑥̅1 − 𝑥𝑥̅2 70,5 − 45,2


𝑡𝑡𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = = = 8,76
𝑠𝑠𝑝𝑝2 𝑠𝑠𝑝𝑝2 �41,67 + 41,67
� + 10 10
𝑛𝑛1 𝑛𝑛2

𝑥𝑥̅1 = 70,5
𝑠𝑠12 = 45,61
𝑥𝑥̅2 = 45,2
𝑠𝑠22 = 37,73
𝒔𝒔𝟐𝟐𝒑𝒑 = 𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔

Paso 7: Conclusión
Con un nivel de confianza del 95% la diferencia encontrada en las muestras si es
significativa, luego Si hay diferencias en las medias del autoconcepto familiar entre
ambos grupos.

39
Lectura seleccionada n.°2

Leer todo el documento: Estadística electoral, el método d'Hondt

Estadística para todos. (s.f.). El método d'Hondt. Recuperado de http://www.esta-


disticaparatodos.es/taller/electoral/electoral.html

Actividad n.°2

A continuación, ponga a prueba cada una de las hipótesis propuestas en


los siguientes ejercicios.

1. Un psicólogo lanzará una campaña de “mente sana en cuerpo sano” si el número


promedio de pacientes que atiende diariamente es menor que 22. Usando una mues-
tra de nueve días seleccionados aleatoriamente de los últimos meses, se ha tenido
las siguientes cantidades de pacientes: 22; 25; 20; 18; 15; 22; 24; 19 y 26. Si la
cantidad de pacientes atendidos por día tiene una distribución normal. ¿Decidirá el
psicólogo lanzar su campaña? Use un nivel de significación del 5%.

2. Una muestra de 10 niños fueron diagnosticados inicialmente con el trastorno de


déficit de atención tipo hiperactivo-impulsivo. Un psicólogo aplicó un tratamiento con
el fin de disminuir los síntomas de este trastorno. A continuación, se presentan los
puntajes obtenidos en la escala de Conners antes y después del tratamiento.

Antes 80 75 78 82 71 79 73 86 79 84
Después 70 71 70 71 71 73 74 78 74 79

Con alfa de 0.05, determine si el tratamiento logró disminuir los puntajes obtenidos
en la prueba.

3. En el laboratorio de neurociencia de la Universidad Continental, veinte personas


voluntarias se dividieron al azar en dos grupos. Las personas del grupo A se some-
tieron a un período de privación sensorial de 10 días, mientras que las del grupo B
sirvieron de control. Al término del período experimental se registró la frecuencia de
la onda alfa componente de los electroencefalogramas de las personas. Los resulta-
dos fueron los siguientes.
Grupo A: 10,2 9,5 10,1 10 9,8 10,9 11,4 10,8 9,7 10,4
Grupo B: 11 11,2 10,1 11,4 11,7 11,2 10,8 11,6 10,9 10,9

¿Proporcionan estos datos evidencia suficiente que indique que la privación sensorial
tiene algún efecto sobre la frecuencia de la onda alfa de las personas?

4. En experimentos clínicos que implican diferentes grupos de muestras independien-


tes, es importante que los grupos sean similares en los aspectos importantes que
afectan el experimento. En un experimento diseñado para probar la eficacia de la
paroxetina en el tratamiento de la depresión bipolar, se midió la depresión de los
sujetos utilizando la escala de Hamilton, con los resultados siguientes:

Grupo placebo Grupo tratado


con paroxetina

40
x1 = 21,57 x2 = 20,38
s1 = 3,87 s2 = 3,91
n1 = 43 n2 = 33

Ponga a prueba la hipótesis de que las dos poblaciones tienen diferentes medias. Elija
una significancia del 5%

41
Tema n.° 3: Análisis de varianza
En el punto anterior hemos visto cómo a través de un test t se puede
poner a prueba la hipótesis acerca de la diferencia entre dos medias.
Pero en investigación experimental muy frecuentemente se ponen a
prueba hipótesis relativas a si existen diferencias en la eficacia de k
distintos tratamientos (k>2 más de 2 muestras), es decir, hipótesis del
tipo 𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 = ⋯ = 𝜇𝜇𝑘𝑘 . Una posible solución para el caso de k mues-
tras podría ser comparar por pares tales medias, hasta completar todas
𝑘𝑘(𝑘𝑘−1)
las posibles combinaciones. Sin embargo, no es ésta una solución
2
recomendable dado que alfa crece exponencialmente a medida que k
aumenta.
Por ello se hace necesario desarrollar una nueva técnica de análisis
estadístico que permita verificar las hipótesis de ese tipo manteniendo
a niveles constantes alfa. Esta técnica se conoce con el nombre de
“análisis de la varianza” (o también ANOVA, acrónimo de 'Analysis of
variance'), y fue desarrollada por Fisher a partir de 1930. Podemos
afirmar que el ANOVA es la técnica de análisis estadístico más utilizada
en la investigación experimental y cuasi-experimental en Psicología (de
hecho, más del 75% de los artículos revisados son analizados a través
de ANOVA), de tal modo que hoy no se puede hablar de hacer experi-
mentación en cualquier rama de la Ciencia sin conocer la técnica básica
de análisis paramétrico que es el ANOVA. (Pitarqué, 2011, p.25).

1. Definiciones básicas

Experimento
Un estudio o investigación diseñada para examinar el efecto que tiene una varia-
ble sobre el valor de otra variable.

Variable dependiente
La variable cuyo valor se mide u observa. En el ANOVA la variable dependiente
es cuantitativa; por ejemplo, el consumo de una bebida, la calificación en un
examen o el tiempo requerido para escribir un documento.

Variable independiente
Una variable observada o controlada para determinar su efecto sobre el valor de
la variable dependiente. En el ANOVA la variable independiente puede ser cuali-
tativa (el estado civil) o cuantitativa (la edad).

V. Independiente = factor
El experimento puede comprender niveles de factores (categorías) diferentes.
Cada nivel específico de un factor se llama tratamiento.

Ejemplo.
Tres psicólogos de la Escuela de Psicología han desarrollado, de manera indepen-
diente, tres tratamientos dirigidos a disminuir la ansiedad en los estudiantes que
desarrollan las pruebas de admisión a dicha escuela. Como se puede observar,
se trata de una sola variable independiente, la cual se aplica en tres niveles,
considerándose como nivel, cada tratamiento desarrollado por cada uno de los
psicólogos. Se supone que los tres tratamientos van dirigidos a modificar una sola
variable dependiente: la ansiedad. El experimento trata de verificar el efecto de

42
los tratamientos sobre la ansiedad y si se observan diferencias entre dichos tra-
tamientos con relación al efecto producido en la ansiedad. Como son tres grupos,
se ha decidido aplicar una ANOVA para determinar la efectividad de los trata-
mientos.

2. Análisis de la varianza de un factor


Si manipulamos una sola Variable Independiente se habla de ANOVA unifactorial.
Ejemplo: Tres psicólogos clínicos han desarrollado, de manera independiente,
tres tratamientos para reducir la ansiedad en estudiantes que aspiran a ingresar
a la Escuela de Psicología. Los tratamientos se aplican a tres muestras aleatorias
de aspirantes, y posteriormente se les evalúa su nivel de ansiedad, con el fin de
evaluar si los tratamientos ejercen distintos efectos sobre los grupos. A continua-
ción, se presentan los resultados obtenidos. (Nivel de significancia es 0,05)

Tratamiento 1 12 15 9 14 14 6 15 17 7
Tratamiento 2 14 18 8 13 15 7 12 19 8
Tratamiento 3 13 20 6 10 17 7 12 16 8

Paso 1: Proponemos las hipótesis.

𝐇𝐇𝟎𝟎 : 𝝁𝝁𝟏𝟏 = 𝝁𝝁𝟐𝟐 = 𝝁𝝁𝟑𝟑


Los tratamientos no afectan el nivel de ansiedad.

𝐇𝐇𝟏𝟏 : 𝐀𝐀𝐀𝐀 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦 𝐮𝐮𝐮𝐮𝐮𝐮 𝐝𝐝𝐝𝐝 𝐥𝐥𝐥𝐥𝐥𝐥 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦 𝐞𝐞𝐞𝐞 𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝 𝐚𝐚 𝐥𝐥𝐥𝐥𝐥𝐥 𝐝𝐝𝐝𝐝𝐝𝐝á𝐬𝐬.
Los tratamientos si afectan el nivel de ansiedad.

Paso 2: Completamos la tabla ANOVA.

Tabla 2.4
Tabla ANOVA

ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F prueba
Entre grupos SCE k-1 CME=SCE/(k-1) CME/CMD
Dentro de los grupos SCD n-k CMD=SCD/(n-k)
Total SCT n-1
K= número de grupos.
n= número de datos.

43
Desarrollo para hallar los valores de la tabla ANOVA:

T1 T2 T3
12 14 13
15 18 20
9 8 6
14 13 10
14 15 17
6 7 7
15 12 12
17 19 16
7 8 8
Media dentro 12.1111 12.6667 12.1111 12.2963
de cada grupo media entre
los grupos

𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒅𝒅𝒅𝒅 𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈


= �(𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅𝒅𝒅 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈 − 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍𝒍𝒍 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈)𝟐𝟐 × 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎

𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒅𝒅𝒅𝒅 𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈


= �(�(𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 − 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅𝒅𝒅 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈)𝟐𝟐 )

ANÁLISIS DE
VARIANZA
Origen de las Promedio de los
Suma de cuadrados Grados de libertad F prueba
variaciones cuadrados
0.9259
Entre grupos 1.851851852 Numerador=2 0.925925926 19,1574
=0.0483325
Dentro de los
459.7777778 Denominador=24 19.15740741
grupos

Total 461.6296296 26

Calculando F crítico:

AHo RHo
0.95 0.05

Fc=3,40

44
Fp=0,048
Tabla 2.5
Distribución muestral del estadístico F; prueba de una cola a la derecha; ni-
vel de significancia de 0,05.

Paso 3: Conclusión.

Con un nivel de confianza del 95% se puede afirmar que los tratamientos no
ejercen diferentes efectos en el nivel de ansiedad de los grupos.

45
Glosario de la Unidad II

Análisis de varianza
“Es un método para comparar dos o más medias de “n” grupos analizando la varianza
de los datos, tanto entre “n” grupos como dentro de ellos” (Asurza, 2006, p. 5).

Error experimental
Es la variabilidad existente entre los resultados de unidades experimentales tratadas
en forma similar. Cualquier factor no controlable contribuye al error experimental.
El error experimental proviene de dos fuentes principales: variabilidad
inherente al material experimental y variabilidad resultante de cualquier falta de uni-
formidad en la realización física del experimento (Asurza, 2006).

Factor
“Es una variable independiente o de entrada que puede afectar los resultados del
experimento. Los factores se pueden clasificar en controlables y no controlables”
(Asurza, 2006, p. 32).

Factor en estudio
Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto será eva-
luado en los resultados del experimento. El interés principal del experimentador es
evaluar el efecto de estos factores. En el ejemplo anterior, la promoción es el factor
en estudio. A los distintos valores de los factores en estudio que son evaluados se
les llama niveles del factor. Un experimento diseñado puede tener dos o más factores
en estudio (Asurza, 2006).

Grados de libertad
En estadística grados de libertad de un estadístico calculado en base a “n” datos, se
refiere al número de cantidades independientes que se necesitan en su cálculo, me-
nos el número de restricciones que ligan a las observaciones y el estadístico. Simbó-
licamente se representa por gl.
Ejemplo: Sea 2; 5; 7; 9 y 12 su media es 7 y se ha calculado a partir de n=5
observaciones independientes, que están ligadas por la media aritmética.
Luego el número de grados de libertad de la media es n-1=4. (Asurza, 2006,
p. 34)

Tratamiento
Un tratamiento corresponde a los niveles de un factor o a una combinación de los
niveles de dos o más factores en estudio y cuyo efecto se mide y compara con los de
otros tratamientos (Asurza, 2006).

Unidad experimental
Es la unidad a la cual se le aplica un tratamiento y en la cual se mide el efecto de un
tratamiento. En el ejemplo, la unidad experimental podría ser un empaque de ali-
mento (Asurza, 2006).

Variable respuesta
Es la variable en la cual se evaluarán los efectos de los tratamientos. En el ejemplo,
la variable respuesta puede ser el tiempo de duración observado de cada empaque
(Asurza, 2006).

46
Bibliografía de la Unidad II

Aron, A. (2003). Estadística para Psicología, Brasil: Editorial Prentice Hall.

Asurza, H. (2006). Glosario básico de términos estadísticos. Perú: Talleres de la Ofi-


cina Técnica de administración del INEI. Recuperado de
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digita-
les/Est/Lib0900/Libro.pdf

Bologna, E. (2011). Estadística para Psicología y educación, Argentina: Editorial Bru-


jas.

Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.

Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.

Pitarque, A. (2011). Estadística II. Valencia: España: Universidad de Valencia. Dis-


ponible en https://goo.gl/X9neak

Triola, M. (2004). Estadística. (9ª edición). México: Addison Wesley, Pearson Educa-
ción de México.

Valderrama, G. (2011). Estadísticas aplicadas en psicología Ciencias Sociales y Edu-


cación.

Weiers, R. (2006). Introducción a la estadística para negocios. México: Cengage Lear-


ning.

47
Autoevaluación de la Unidad II

Los siguientes ejercicios fueron extraídos de Cerrón (2014, p.73).

Cerrón, C. (2014). Estadística II. Huancayo, Perú: Universidad Continental. Recupe-


rado de http://es.calameo.com/read/003354746a5fc8b2222ce

1. Dadas las siguientes muestras independientes:

Muestra 1 178 161 194 204 185 179 173 172 108 181 185
Muestra 2 128 89 150 191 188 209 53 131 184 97 112

A un nivel de significación del 5%. Las muestras son:


A) Homogéneas.
B) Heterogéneas.
C) Apareadas.
D) Falta mayor información.
E) No utilice esta opción.

2. Del problema anterior. ¿El promedio de los valores de la población 1 es significa-


tivamente superior al promedio de valores de la población 2? Utilice un nivel de sig-
nificación del 5%.
Respecto a la resolución del problema marque lo incorrecto.
A) Ho: 𝜇𝜇1 ≤ 𝜇𝜇2 H1: 𝜇𝜇1 > 𝜇𝜇2
B) t prueba=2.10512
C) Grados de libertad=16
D) t crítico= 1,75305
E) No utilice esta opción.

3. Dadas las siguientes muestras independientes que provienen de poblaciones con


medias diferentes:

Muestra A 0,140 0,138 0,143 0,142 0,144 0,141 0,137


Muestra B 0,135 0,140 0,136 0,142 0,138 0,2135 0,140

Asuma poblaciones normales. Con un nivel de significancia del 5%, indique lo co-
rrecto.

A) F calculado = 0.9622
B) F crítico = 6.82
C) t calculado= 1.8695
D) t critico = 1.98229
E) No utilice esta opción.
4. La directora del departamento de personal de una importante corporación está
reclutando un gran número de empleados para un puesto en el extranjero. Durante
el proceso de selección, la administradora le pregunta cómo van las cosas, y ella
responde: “Bien, creo que la puntuación promedio de la prueba de aptitud sobrepa-
sará el valor de 90”. Cuando la administradora revisa al azar 20 resultados de las
pruebas, encuentra que la puntuación promedio es de 92 con una desviación estándar
de esta puntuación es 7. ¿Estos datos le confirman la información alcanzada por la

48
directora del departamento de personal? Asuma que las puntuaciones se distribuyen
normalmente y use un nivel de significancia del 5%. Indique la t de prueba correcta.
A) 𝑡𝑡𝑝𝑝 = 1,28
B) 𝑡𝑡𝑝𝑝 = −1,02
C) 𝑡𝑡𝑝𝑝 = 1,35
D) 𝑡𝑡𝑝𝑝 = 1,15
E) Falta mayor información.

5. Un proveedor de impresoras desea estimar la vida media de sus cartuchos de


impresión. La estimación ha de estar dentro de 2 horas en torno a la media y tener
un nivel de confianza del 90%. Si una muestra piloto revela una desviación típica
de 25 horas, ¿cuál debe ser el tamaño de la muestra?
A) 164
B) 423
C) 24
D) 115
E) 625
6. Se realiza un estudio en la North Central University para medir el efecto del cambio
ambiental en la personalidad de los estudiantes extranjeros. Uno de los aspectos del
estudio es una comparación del peso de los alumnos al ingresar a esa universidad,
con su peso un año más tarde. Se sospecha que el tipo de alimento provoca un
aumento de peso. Se tomó una muestra de estudiantes y los datos se dan a conti-
nuación.

Con 5% de significación, ¿el tipo de alimentación provoca en los estudiantes extran-


jeros un aumento de peso? Da a conocer la decisión.
A) Rechazar la Hipótesis nula.
B) Aceptar la Hipótesis nula.
C) No es posible decidir.
D) Falta mayor información.
E) No utilice esta opción.

7. Varios accidentes de automovilísticos menores ocurrieron en varios cruces de alto


riesgo en un distrito urbano a pesar de los señalamientos de tránsito (semáforos). El
departamento de tránsito afirma que una modificación en el tipo de semáforo redu-
cirá los accidentes. Los integrantes de la junta municipal han acordado realizar un
experimento que se ha propuesto. Se eligieron aleatoriamente ocho cruces y se mo-
dificaron los semáforos correspondientes. Utilice un nivel de significación del 1% para
analizar si la junta logró su objetivo, si el número de accidentes de tránsito durante
un período de seis meses antes y después de las modificaciones fue:

Luego marque lo correcto:

49
A) α = 0.005
B) t calculado=2.3152
C) t critico = 2.798
D) Sd= 2.8277
E) 𝑑𝑑̅ = 2.5

8. En el curso de internado, un profesor tiene una clase de 23 estudiantes. Al comienzo


de cada semestre asigna a cada estudiante aleatoriamente a uno de los cuatro pro-
fesores ayudantes que tiene: Ríos, Toledo, Rodríguez o Pérez. Anima a sus estudiantes a
reunirse con su profesor ayudante para que les explique la materia difícil del curso. Al
final del semestre se evalúa. La tabla adjunta muestra las calificaciones obtenidas por
los estudiantes que trabajan con estos profesores ayudantes.

Ríos Toledo Rodríguez Pérez


72 78 80 79
69 93 68 70
84 79 59 61
76 97 75 74
64 88 82 85
81 68 63

Contraste la hipótesis de que las medias poblacionales de las calificaciones de estos


profesores ayudantes son iguales. Da a conocer la decisión.

A) Rechazar la hipótesis nula.


B) Aceptar la hipótesis nula.
C) No es posible decidir.
D) Falta mayor información.
E) No utilice esta opción.

50
UNIDAD III: ANÁLISIS FACTORIAL DE VARIANZA-CORRELACIÓN Y PRE-
DICCIÓN.

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD III

ORGANIZACIÓN DE LOS APRENDIZAJES

Resultado de aprendizaje de la Unidad III:


Al finalizar la unidad, el estudiante será capaz de aplicar el análisis de varianza de
dos factores, considerando diseños experimentales y la distribución de probabilidad
“F”; así como las pruebas de hipótesis para correlacionar variables y el modelo de
predicción bivariado y multivariado.
CONOCIMIENTOS HABILIDADES ACTITUDES
Aplica el análisis de va- Valora los métodos
Tema n.° 1: Análisis factorial
rianza de dos factores con estadísticos de co-
de varianza
interacción. rrelación y predic-
1. Análisis de la varianza de 2 Aplica el análisis de regre- ción, como herra-
factores. sión para estimar la rela- mientas para ex-
ción entre dos variables. plicar y anticipar
2. Análisis de la varianza de 2
resultados de la
factores con interacción. Analiza medidas de asocia-
relación entre va-
ción de la regresión múlti-
Tema n.° 2: Correlación riables.
ple.
1. Coeficiente de correlación.
Actividad n.° 3
2. Prueba de hipótesis del
coeficiente de correlación.
3. Coeficiente de determina-
ción.
Lectura seleccionada n.° 3
“Del juicio clínico al modelo de re-
gresión lineal”
Tema n.° 3: Regresión lineal
1. Análisis de regresión.
2. Error estándar de estima-
ción.

51
3. Intervalo de Confianza.
4. Intervalo de Predicción.
Tema n.° 4: Regresión múlti-
ple
1. Análisis de regresión múl-
tiple.
2. Inferencias en la regresión
lineal múltiple.
2.1. Error Estándar Múlti-
ple.
2.2. Intervalo de confianza
aproximado para la media
condicional de y.
2.3. Intervalo de Predic-
ción para una observación
individual de y.
2.4. El coeficiente de de-
terminación múltiple.
Autoevaluación de la Unidad
III

52
Tema n.° 1: Análisis factorial de varianza
En muchas ocasiones, la investigación del comportamiento se enfrenta a situaciones
en las cuales, una variable dependiente se encuentra afectada o intervenida por dos
o más variables independientes. A estos casos se les denomina Diseño factorial, y el
procedimiento de análisis es a través del desarrollo de un ANOVA especializado para
el caso. No hay muchas diferencias con relación al modelo simple, salvo que la fuente
de variación entre (tratamiento) se divide y toma en consideración cada una de las
variables independientes participantes del modelo.
Para aplicar el ANOVA Factorial, es necesario satisfacer los siguientes supuestos:
A. La población original de la cual se extraen las muestras tiene una distribución
normal
B. Hay homogeneidad de varianzas en cada una de las condiciones experimenta-
les analizadas (celdillas)
C. Los tamaños muestrales deben ser iguales, de tal manera que se minimicen
los abusos a algunos supuestos.
1. Análisis de la varianza de dos factores
Veamos un ejemplo basado en la variable dependiente ansiedad de la unidad
anterior.
Un psicólogo investigador está interesado en evaluar los efectos que tienen dos
tratamientos experimentales en la reducción de la ansiedad en aspirantes a in-
gresar a la Escuela de Psicología. Además, considera que la ansiedad también
estará afectada al momento del experimento por la situación laboral de los suje-
tos, la cual ha dividido en dos categorías: trabaja y no trabaja.
Como se puede observar, la variable dependiente (ansiedad) estará afectada por
dos variables independientes: en primer lugar, está la variable tratamiento a la
que denominaremos (A), que se presenta a dos niveles: el tratamiento 1 (A1) y
el tratamiento 2 (A2); en segundo lugar, está la variable situación laboral a la
que denominaremos B y que se presenta también a dos niveles trabaja (B1), no
trabaja (B2).
El modelo se puede describir de la siguiente manera:

Tabla 3.1
Diseño factorial 2x2

La variable A está colocada en columnas y sub dividida en dos categorías, las


cuales corresponden a los dos tratamientos. La variable B, está colocada en filas
y corresponde a la situación laboral en los niveles trabaja y no trabaja. El modelo
se denomina de acuerdo al número de variables participantes. En este caso, son
2 variables a 2 niveles, que generan un 2x2. Si hubiese una variable a 3 niveles

53
y otra a dos, el modelo se denominaría 2x3 o 3x2, y así sucesivamente. La colo-
cación de las variables (columnas o filas) es una decisión que no afecta el resul-
tado del ANOVA.
En las celdillas A1B1…..hasta A2B2, se deben presentar, los puntajes de ansiedad
de cada sujeto, dependiendo del tratamiento recibido más su condición laboral.
Es evidente que para cada celdilla habrá una muestra de sujetos, preferiblemente
asignados aleatoriamente y con igual número de sujetos
El modelo de ANOVA Factorial determina que la variable dependiente, en este
caso la ansiedad, está afectada por cuatro fuentes principales de variabilidad.
Damos a conocer las 2 primeras en esta sección y las otras dos en la siguiente
sección.
1.1. Las diferencias en la ansiedad por recibir el tratamiento A1 en comparación
con haber recibido el tratamiento A2; En este caso, los efectos observados
en A son independientes de los efectos de la variable B.
1.2. Las diferencias en la ansiedad por pertenecer a una de las dos condiciones
laborales: trabaja (B1) o no trabaja (B2), son independientes de los efectos
de la variable A.
Al igual que en el ANOVA Simple, se estima la variación total proveniente de todas
las fuentes, y luego se hace una partición de la misma para evaluar cuánto aporta
cada uno de los factores participantes, tal y como se presenta a continuación:
Paso 1: Hipótesis
H0: Las medias poblacionales de los niveles de ansiedad por efectos de la con-
dición laboral es el mismo.
H1: Al menos una de las medias poblacionales de los niveles de ansiedad por
efectos de la condición laboral no es el mismo.
H0: Las medias poblacionales de los niveles de ansiedad por efectos de los tra-
tamientos psicológicos es el mismo.
H1: Al menos una de las medias poblacionales de los niveles de ansiedad por
efectos de los tratamientos psicológicos no es el mismo.
Paso 2: Nivel de significancia (𝛼𝛼 = 0,05)
Paso 3: Completamos la tabla ANOVA con apoyo de Excel.
Diseño Factorial 2x2
Tratamientos
Situación
A B
laboral
12 16
10 15
Trabaja 9 12
11 13
9 14
17 20
15 21
No trabaja 14 18
15 16
16 15

54
ANÁLISIS DE VARIANZA
Promedio
Origen de las Suma de Grados de Valor crítico
de los cua- F Probabilidad
variaciones cuadrados libertad para F
drados
Situación
105.8 1 105.8 35.2666667 2.08075E-05 4.493998478
laboral
Tratamientos
51.2 1 51.2 17.0666667 0.000783622 4.493998478
psicológicos
Dentro del
48 16 3
grupo

Total 206.8 19

ANOVA de dos factores en Excel.


1. Haga clic en Herramientas y después en análisis de datos. Haga clic en Análisis
de la varianza de dos factores con varias muestras por grupo y luego en acep-
tar.
2. En el Rango de entrada seleccione el tablero de datos. Escriba 5 en el cuadro
fila por muestra. Especifique el nivel de significancia para la prueba escribiendo
0,05 en el cuadro alfa. Seleccione Rango de salida y elija una celda. Haga clic
en aceptar.
Paso 4: Conclusión.
Como en ambos casos la F de prueba cae en la zona de rechazo de la hipótesis nula,
con un nivel de confianza del 95% se puede afirmar que:
Al menos una de las medias poblacionales de los niveles de ansiedad por efectos de
la condición laboral no es el mismo.
Al menos una de las medias poblacionales de los niveles de ansiedad por efectos de
los tratamientos psicológicos no es el mismo.

2. Análisis de la varianza de dos factores con interacción


A continuación, damos a conocer dos fuentes más de variabilidad que afectan a la
variable dependiente ansiedad:
2.1. Las diferencias en la ansiedad por haber recibido la combinación de las dos
variables A y B, en sus diferentes niveles, a lo cual se le denomina, interac-
ción.
2.2. Las diferencias en la ansiedad que provienen de la variabilidad aleatoria den-
tro de cada grupo, la cual se considera que no es aditiva con ninguna de las
fuentes anteriormente señaladas.

Paso 1: Hipótesis
H0: No hay interacción entre la situación laboral y los tratamientos psicológicos.
H1: Si hay interacción entre la situación laboral y los tratamientos psicológicos.
Paso 2: Nivel de significancia (𝛼𝛼 = 0,05).
Paso 3: Completamos la tabla ANOVA con apoyo de Excel.

55
ANÁLISIS DE VARIANZA
Grados
Origen de las Suma de Promedio de Valor crítico
de F Probabilidad
variaciones cuadrados los cuadrados para F
libertad
Situación laboral 105.8 1 105.8 35.2666667 2.08075E-05 4.493998478
Tratamientos psi-
51.2 1 51.2 17.0666667 0.000783622 4.493998478
cológicos
Interacción 1.8 1 1.8 0.6 0.449874063 4.493998478
Dentro del grupo 48 16 3

Total 206.8 19

Paso 4: Conclusión.
Como la F de prueba cae en la zona de aceptación de la hipótesis nula, con un nivel
de confianza del 95% se puede afirmar que la combinación situación laboral y trata-
miento psicológico no tiene un efecto significativo en la ansiedad de los estudiantes.
Finalmente, después del presente análisis, los resultados quieren decir:
a. Las medias de ansiedad son diferentes atendiendo a la condición laboral. Los
que laboran presentaron un promedio de ansiedad inferior a los que no laboran.
b. Las medias de ansiedad son diferentes atendiendo al tipo de tratamiento reci-
bido. Los que recibieron el tratamiento A1 presentaron un promedio de ansie-
dad inferior a los que recibieron el tratamiento A2.
c. No hay diferencias significativas entre los promedios por la interacción de ambas
variables observados en cada una de las celdillas
Como se puede observar, la interacción (AxB) no resultó significativa, o sea, que los
niveles de ansiedad no son diferentes por la combinación de las dos variables inde-
pendientes.

56
Tema n.° 2: correlación
Es un modo de examinar si dos variables dadas en escala de intervalo o de razón
están relacionadas. Si bien este método sugiere que existe una relación, no revela
exactamente de qué forma se relacionan las variables.

Ejemplo: El editor en jefe de un importante periódico de circulación nacional ha


intentado convencer al dueño para que mejore las condiciones de trabajo en la
imprenta. Está convencido de que, cuando trabajan las prensas, el grado de ruido
crea niveles no saludables de tensión y ansiedad. Recientemente hizo que un psi-
cólogo realizara una prueba durante la cual situaron a los prensistas en cuartos
con niveles variables de ruido y luego les hicieron otra prueba para medir niveles
de humor y ansiedad. La siguiente tabla muestra el índice de su grado de ansiedad
o nerviosismo y el nivel de ruido al que se vieron expuestos (1 es bajo y 10 es
alto).

Nivel de Grado de
ruido ansiedad
4 39
3 38
2 16
1 18
6 41
7 45
2 25
3 38

Represente gráficamente la relación entre las dos variables.

Estudio del nivel de ruido y el grado de ansiedad


en los trabajadores
60

50
Grado de ansiedad (y)

40

30

20

10

0
0 1 2 3 4 5 6 7 8
Nivel de ruido (x)

Figura 3.1: Dispersión entre las variables nivel de ruido y grado de ansiedad.

57
Determine el grado de relación entre las variables.

1. Coeficiente de correlación (r)


El coeficiente de correlación (r) es un número que indica tanto la dirección como
la fuerza de la relación lineal entre la variable dependiente (Grado de ansiedad=y)
y la variable independiente (Nivel de ruido=x).

Correlación Correlación
negativa per- positiva per-
fecta fecta
Ninguna correla-
ción

Moderada corre- Moderada correla-


lación negativa ción positiva

Fuerte corre- Débil correla- Débil correla- Fuerte corre-


lación nega- ción negativa ción positiva lación positiva
tiva
-1 - 0.5 0 0.5 1

Según Triola (2004, p. 500), se calcula r mediante la siguiente fórmula:

n∑ xy − ∑ x ∑ y
r=
[n∑ x 2
][
− (∑ x ) n∑ y 2 − (∑ y )
2 2
]
Tabla …

Nivel de ruido Grado de


(x) ansiedad (y) x^2 y^2 xy
4 39 16 1521 156
3 38 9 1444 114
2 16 4 256 32
1 18 1 324 18
6 41 36 1681 246
7 45 49 2025 315
2 25 4 625 50
3 38 9 1444 114
Suma 28 260 128 9320 1045

Luego de reemplazar se obtiene el coeficiente de correlación 𝑟𝑟 = 0,8356, el cual es


positivo, lo que refleja que el grado de ansiedad (y) se relaciona directamente con
el nivel del ruido (x). En otras palabras, cuanto más alto es el nivel del ruido,
tienden a registrar grados de ansiedad más altos.

Realice la Prueba de hipótesis respecto al coeficiente de correlación.

58
2. Prueba de hipótesis del coeficiente de correlación.

En esta prueba de la significancia de la relación lineal, la hipótesis nula y alterna


se relacionan con el coeficiente de correlación poblacional, 𝑟𝑟.

Prueba "𝒕𝒕" para el coeficiente de correlación poblacional 𝝆𝝆:


• Hipótesis Nula: Ho: 𝜌𝜌 = 0 No hay una relación lineal.
• Hipótesis Alterna: H1: 𝜌𝜌 ≠ 0 No hay una relación lineal.
• Estadístico de Prueba:
𝑟𝑟
𝑡𝑡 = 2
con grados de libertad 𝑛𝑛 − 2
�1−𝑟𝑟
𝑛𝑛−2

Ahora con un nivel de significancia de 0,05 se pone a prueba la hipótesis nula de


que el coeficiente de correlación poblacional (𝜌𝜌) en realidad es cero.

Solución:
Para n=8 personas en el ejemplo del nivel de sonido, con 𝑟𝑟 = 0,8356 el estadístico
0,8356
de la prueba es: 𝑡𝑡 = = 3,7259
2
�1−0,8356
8−2
Para una prueba de dos colas, con un nivel de 0,05 y gl=6, los valores críticos
son: t=-2,447 y t=2,447. El valor de prueba es 3.7259 cae fuera de estos valores
críticos y se rechaza la hipótesis nula. Por lo tanto, existe una relación lineal entre
los niveles de ruido y el grado de ansiedad en los trabajadores.

Calcule la variación en el grado de ansiedad que se debe a la variación del nivel


de ruido.

3. Coeficiente de determinación (𝒓𝒓𝟐𝟐 )


Otra medida de la fuerza de la relación es el coeficiente de determinación. Su valor
es la proporción de la variación de “y” explicada mediante la línea de regresión
𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏.
Para nuestro ejemplo 𝑟𝑟 = 0,8356, 𝑟𝑟 2 = 0,6982 y los niveles de ruido explican 69,82%
de la variación de los grados de ansiedad.

59
Lectura seleccionada n.° 3

Leer: Del juicio clínico al modelo de regresión lineal (Palacios-Cuz, Pérez, Rivas-Ruiz
y Talavera, 2013)

Palacios-Cruz, L., Pérez, M., Rivas-Ruiz, R. Talavera, J.O. (2013). Investigación clí-
nica XVIII, Del juicio clínico al modelo de regresión lineal. Revista Médica del
Instituto Mexicano del Seguro Social, LI (6). 656-661. Disponible en
http://www.medigraphic.com/pdfs/imss/im-2013/im136l.pdf

60
Tema n.° 3: Regresión lineal

Es el modelo lineal que mejor se ajusta a una distribución bidimensional conforma-


das por dos variables de intervalo o de razón.
1. Análisis de regresión
Con base en los datos de una muestra, se puede estimar una función matemática de
“mejor ajuste” para los valores de las dos variables de manera lineal.
Línea de regresión muestral: 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 donde:
𝑦𝑦: El valor estimado de la variable dependiente para un valor específico de 𝑥𝑥.
𝑎𝑎: El intercepto de 𝑦𝑦; éste es el valor de 𝑦𝑦 donde la línea interseca al eje 𝑦𝑦, cuando
𝑥𝑥 = 0.
𝑏𝑏: La pendiente de la línea de regresión.
𝑥𝑥: Un valor para la variable independiente.

Estudio del nivel de ruido y el grado de ansiedad en los


trabajadores
60 y = 4.5x + 16.75
50
Grado de ansiedad (y)

40

30

20

10

0
0 1 2 3 4 5 6 7 8
Nivel de ruido (x)

Según Triola (2004, p. 550) la pendiente b de la línea de regresión se calcula con la fórmula:

b = ∑ 2 ∑ ∑2 ∑ y −b ∑ x
n x y− x y
n ∑ x −(∑ x ) Sin embargo, el intercepto a con a=
n n

Luego reemplazamos los valores:


8 × 1045 − 28 × 260
𝑏𝑏 = = 4.5
8 × 128 − 282
𝑎𝑎 = 16.75
Grado de Ansiedad= 4,5 (nivel de ruido) + 16,75
Por lo tanto:

Determine el error estándar de estimación.

61
2. Error estándar de estimación
Ésta es una desviación estándar que describe la dispersión de los puntos de los
datos arriba y debajo de la línea de regresión.

∑ 𝑦𝑦 2 − 𝑎𝑎(∑ 𝑦𝑦) − 𝑏𝑏(∑ 𝑥𝑥𝑥𝑥)


𝑆𝑆𝑦𝑦,𝑥𝑥 = �
𝑛𝑛 − 2

Luego de reemplazar los datos obtenidos anteriormente se obtiene:


𝑆𝑆𝑦𝑦,𝑥𝑥 = 6.6144
Igual que con cualquier desviación estándar de la estimación reflejan una mayor
magnitud de dispersión en los datos. Si cada punto de los datos en el diagrama
de dispersión cayera exactamente en la línea de regresión, el error estándar de la
estimación sería cero. Es decir, no existiría ninguna variabilidad arriba y bajo de
la línea de regresión.

Por otro lado, un método equivalente para probar la significancia de la relación


lineal es examinar si la pendiente (𝛽𝛽) de la línea de regresión de la población puede
ser cero.

Prueba y estimación de la pendiente:


• Hipótesis Nula: Ho: 𝛽𝛽 = 0 La pendiente de la población es cero.
• Hipótesis Alterna: H1: 𝛽𝛽 ≠ 0 La pendiente de la población no es cero.
• Estadístico de Prueba:
𝑏𝑏−𝛽𝛽
𝑡𝑡 = 𝑆𝑆𝑥𝑥,𝑦𝑦 con grados de libertad 𝑛𝑛 − 2

�(∑ 𝑥𝑥2 )−𝑛𝑛𝑥𝑥


�2

Ahora con un nivel de significancia de 0,05 se pone a prueba la hipótesis nula de


que la pendiente poblacional (𝛽𝛽) en realidad es cero.

Solución:
Para n=8 personas en el ejemplo del nivel de sonido, reemplazamos los datos:
4,5 − 0
𝑡𝑡 = = 3,7263
6,6144
�128 − 8(3,52 )

Para una prueba de dos colas, con un nivel de 0,05 y gl=6, los valores críticos
son: t=-2,447 y t=2,447. El valor de prueba es 3.7263 cae fuera de estos valores
críticos y se rechaza la hipótesis nula. Por lo tanto, la pendiente de la línea de
regresión de la población es diferente de cero.

Intervalo de confianza de 95% para la pendiente de la línea de regresión


de la población.
𝑆𝑆𝑥𝑥,𝑦𝑦
𝑰𝑰𝑰𝑰 = 𝒃𝒃 ± 𝒕𝒕 ×
�(∑ 𝑥𝑥 2 ) − 𝑛𝑛𝑥𝑥̅ 2
Reemplazando:

𝐿𝐿𝐿𝐿𝐿𝐿 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 = 1,54


𝐿𝐿𝐿𝐿𝐿𝐿 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 = 7,46

62
Tenemos una confianza del 95% de que la pendiente poblacional (𝛽𝛽) de la línea
de regresión de la población está en el intervalo delimitado por 1,54 y 7,96.

Determine el intervalo de confianza para el grado de ansiedad medio para todos


aquellos que tuvieron un nivel de ruido 5, al 95% de confianza.

3. Intervalo de Confianza
A continuación, dado un valor específico 𝑥𝑥 se puede estimar un intervalo de con-
fianza para la verdadera media de y (que es desconocida), según Triola (2004).

1 ( x − x) 2
yest ± tα / 2;n−2 s yx +
n (∑ x) 2
∑x − n
2

𝑦𝑦 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4,5 × 5 + 16,75 = 39.25


𝑡𝑡 𝑎𝑎𝑎𝑎 0,05 𝑒𝑒𝑒𝑒 𝑑𝑑𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = 2,447

1 (5 − 3,5)2
𝐼𝐼𝐼𝐼 = 39,25 ± 2,447 × 6,6144 × � + =
8 282
128 −
8

𝐿𝐿𝐿𝐿𝐿𝐿 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 = 32,01


𝐿𝐿𝐿𝐿𝐿𝐿 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 = 46,49
Con base en la muestra, tenemos una confianza del 95% de que el grado de an-
siedad media para los trabajadores que obtuvieron un nivel de ruido 5 estará entre
32,01 y 46,49 en unidades de ansiedad.

Determine el intervalo de predicción al 95% para el grado de ansiedad para un


trabajador sometido a un nivel de ruido 5.

4. Intervalo de Predicción. Según Triola (2004), estima el rango de valores de y


para una x dada.

1 ( x − x) 2
y est ± tα / 2;n − 2 s yx 1+ +
n (∑ x ) 2
∑x − n
2

1 (5 − 3,5)2
𝐼𝐼𝐼𝐼 = 39,25 ± 2,447 × 6,6144 × �1 + + =
8 282
128 −
8

𝐿𝐿𝐿𝐿𝐿𝐿 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 = 21,52


𝐿𝐿𝐿𝐿𝐿𝐿 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 = 56,98
Para un trabajador que estuvo sometido a un nivel de ruido 5, tenemos una confianza de 95%
de que su grado de ansiedad estará entre 21.52 y 56,98 unidades de ansiedad.

63
Tema n.° 4: Regresión múltiple

En la vida real, el valor de 𝑦𝑦 se relaciona con dos o más variables independientes.


Ejemplo:
V. Dependiente V. Independiente
Metas de aprendizaje
Autoconcepto
Metas de logro
académico
Metas de refuerzo
social

1. Análisis de regresión múltiple


El modelo de regresión múltiple es una extensión del modelo de regresión lineal
simple. Sin embargo, existen dos o más variables independientes en lugar de una
sola. Las estimaciones de los parámetros poblacionales del modelo se obtienen
con base en los datos de la muestra.
Modelo de regresión múltiple muestral:
𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏1 𝑥𝑥1 + 𝑏𝑏2 𝑥𝑥2 + 𝑏𝑏3 𝑥𝑥3 + ⋯ 𝑏𝑏𝑘𝑘 𝑥𝑥𝑘𝑘
Donde: 𝑏𝑏1 , 𝑏𝑏2 , 𝑏𝑏3 , … 𝑦𝑦 𝑏𝑏𝑘𝑘 son las constantes de la ecuación.
Ejemplo:
Un psicólogo estudió una muestra de personas mayores viudas para determinar el
grado de satisfacción en su vida actual. Se utilizó un índice especial denominado
índice de satisfacción para medir esta cualidad. Se estudiaron seis factores que
son: edad en el momento del primer matrimonio (x1), ingreso anual (x2), número
de hijos vivos (x3), valor de los bienes poseídos (x4), estado de salud expresado
como índice (x5) y cantidad promedio de actividades sociales (x6) por semana
como hacer deporte o bailar. La ecuación de regresión múltiple es:
y= 16,24 + 0,017x1 + 0,0028x2 + 42x3 + 0,0012x4 + 0,19x5 + 26,8x6

1.1. Estimaciones puntuales usando la ecuación de regresión

Del ejemplo anterior. ¿Cuál es el índice estimado de satisfacción de una persona


que se casó por primera vez a los 18 años, tiene un ingreso anual de 26500 dó-
lares, tres hijos vivos, bienes por 156000 dólares, un índice de estado de salud
de 141, y en promedio 2,5 actividades sociales por semana?

y= 16,24 + 0,017(18) + 0,0028(26500) + 42(3) + 0,0012(15600) + 0,19(141)


+ 26,8(2,5)

y=329.256 grados de satisfacción en su vida actual.

2. Inferencias en la regresión lineal múltiple

Dada una combinación de valores específicos de 𝑥𝑥, la ecuación de regresión múl-


tiple proporciona nuestra mejor estimación para la media de 𝑦𝑦 y un valor individual
de 𝑦𝑦 para ese conjunto de valores de 𝑥𝑥.
Pero igual que la regresión lineal simple, la estimación está sujeta a la incertidum-
bre. El primer paso para cuantificar esa incertidumbre es calcular el error estándar
múltiple de la estimación.

64
Ejemplo: Al considerar si se debe implementar un programa en el que se pida a
los estudiantes seleccionados de primer ciclo que tomen un curso de introducción
a la matemática antes de inscribirse en la materia en sí de matemática, la facultad
de Administración de la Universidad Continental aplicó una prueba de aptitud ma-
temática a una muestra de estudiantes. La Universidad espera utilizar esta califi-
cación junto con la de la UGEL (Unidad de Gestión Educativa Local) para predecir
que calificación obtendrá un estudiante en el examen final estandarizado de ma-
temática más adelante en sus estudios. A continuación, se da a conocer los datos
de una muestra de 9 estudiantes.

Tabla 3.2
Data de la observación de las variables Aptitud Matemática, calificación
UGEL y examen final de matemática

Aptitud Calificación Examen final


Estudiante
Matemática UGEL de matemática

1 72 462 71
2 96 545 92
3 68 585 72
4 86 580 82
5 70 592 74
6 73 516 71
7 91 638 100
8 75 615 87
9 76 596 81

Represente gráficamente la relación entre las tres variables.

Figura 3.2: Diagrama de dispersión de tres variables

65
Obtenga con estos datos la ecuación de regresión múltiple que estima la calificación
del examen final de matemática con base en las otras dos variables.

Resolución:
1° Copiamos los datos en una hoja de Excel.

2° Nos dirigimos a la pestaña “datos” y luego ubicamos ahí “Análisis de datos”.

3° Damos clic en “regresión”.

4° Activamos el comando regresión y completamos las celdas solicitadas.

66
5° Obtenemos la ecuación de regresión.

𝑦𝑦 = −26.62 + 0,78𝑥𝑥1 + 0,08𝑥𝑥2

Examen final = 0,78(aptitud matemática) + 0,08(calificación UGEL) – 26,62

3. Error estándar

3.1. El Error Estándar múltiple de la estimación


El valor numérico 𝑆𝑆𝑒𝑒 refleja la cantidad de dispersión de los puntos de los datos
respecto del plano o hiperplano representado por la ecuación de regresión múlti-
ple.

∑(𝒚𝒚 − 𝒚𝒚 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆)𝟐𝟐
𝑺𝑺𝒆𝒆 = �
𝒏𝒏 − 𝒌𝒌 − 𝟏𝟏
Dónde:
y estimado= el valor de y calculado mediante la ecuación de regresión.
K=el número de variables independientes.

67
Examen final Examen final y real (y real
Aptitud Calificación
matemática matemática Error Error^2 comparada comparada
Matemática UGEL
(Real) (Estimada) con la media de y con la media de y)^2
x1 x2 y y estimada (y-y est) (y-y est)^2 (y-y prom) (y-y prom)^2
72 462 71 66.5 4.5 20.25 -10.1111 102.2346
96 545 92 91.86 0.14 0.0196 10.8889 118.5679
68 585 72 73.22 -1.22 1.4884 -9.1111 83.0123
86 580 82 86.86 -4.86 23.6196 0.8889 0.7901
70 592 74 75.34 -1.34 1.7956 -7.1111 50.5679
73 516 71 71.6 -0.6 0.36 -10.1111 102.2346
91 638 100 95.4 4.6 21.16 18.8889 356.7901
75 615 87 81.08 5.92 35.0464 5.8889 34.6790
76 596 81 80.34 0.66 0.4356 -0.1111 0.0123
104.1752 848.8889

Es la cantidad de va- Es la cantidad total de va-


riación en y, no expli- riación en y, tanto explicada
cada por la ecuación como no explicada.
de regresión múltiple

Por lo tanto, el error estándar múltiple de la estimación:


104,1752
𝑆𝑆𝑒𝑒 = � = 4,1668 Puntos.
9−2−1

3.2. Intervalo de confianza aproximado para la media condicional de y

𝑺𝑺𝒆𝒆
𝑰𝑰𝑰𝑰 = 𝒚𝒚 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 ± 𝒕𝒕
√𝒏𝒏
Donde:
t=el valor t de la tabla de la distribución t para el nivel de confianza deseado y con
gl=n-k-1

Determine e interprete el intervalo de confianza al 95% para la calificación media


del examen final de matemática de los estudiantes del primer ciclo que obtienen
una calificación de 70 en la prueba de aptitud matemática y de 500 en la parte
cuantitativa de la UGEL.

𝟒𝟒, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒 ×
= 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟑𝟑. 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
√𝟗𝟗
Lim inferior=64,58 y Lim superior=71,38

Tenemos una confianza de 95% de que la calificación promedio en el examen fi-


nal de matemática para los estudiantes que tienen 70 en la calificación de apti-
tud y 500 en la calificación de la UGEL estará dentro del intervalo [64,58 ; 71,38]

3.3. Intervalo de predicción para una observación individual de y.

𝑰𝑰𝑰𝑰 = 𝒚𝒚 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 ± 𝒕𝒕𝑺𝑺𝒆𝒆

Determine el intervalo de predicción de 95% para la calificación del examen final


de matemática de un estudiante del primer ciclo que obtuvo 70 en la prueba de
aptitud y 500 en la parte cuantitativa de la UGEL.

𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒 × 𝟒𝟒, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 = 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗 ± 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
Lim inferior=57,78 y Lim superior=78,18

68
Tenemos una confianza de 95% de que la calificación en el examen final de ma-
temática para un estudiante que tiene 70 en la calificación de aptitud y 500 en la
calificación de la UGEL estará dentro del intervalo [57,78 ; 78,18]

3.4. El coeficiente de determinación múltiple.


Es la proporción de la variación de “𝑦𝑦” que se explica por la ecuación de regre-

sión múltiple. Su raíz cuadrada positiva es el coeficiente de correlación múltiple


(R).

𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉ó𝑛𝑛 𝑑𝑑𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒, 𝑞𝑞𝑞𝑞𝑞𝑞 𝑛𝑛𝑛𝑛 𝑒𝑒𝑒𝑒 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑝𝑝𝑝𝑝𝑝𝑝 𝑙𝑙𝑙𝑙 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟ó𝑛𝑛
𝑅𝑅2 = 1 −
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉ó𝑛𝑛 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑 𝑦𝑦

Determine el grado de relación entre las variables de la ecuación de regresión


múltiple:

Examen final = 0,78(aptitud matemática) + 0,08(calificación UGEL) –


26,62

104,1752
𝑅𝑅2 = 1 − = 0,8773
848,8889
Para los 9 estudiantes, el 87,73% de la variación en las calificaciones finales de
matemática es explicada por la ecuación de regresión múltiple. Este valor de 𝑅𝑅2
se halla también cuando se trabaja en Excel, sin embargo, aquí hallaremos 𝑅𝑅2

ajustado según los grados de libertad. Si el número de variables es relativamente

grande en comparación con el número de observaciones, el resultado será un coe-


ficiente de determinación múltiple que exagera la fuerza de la relación lineal.
El 𝑅𝑅2 ajustado se acerca al valor no ajustado a medida que el tamaño de muestra

se hace más grande con respecto al número de variables independientes, aunque


el aumento será pequeño si las variables nuevas no tienen una correlación signi-
ficativa con 𝑦𝑦.

𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽ó𝒏𝒏 𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆,𝒒𝒒𝒒𝒒𝒒𝒒 𝒏𝒏𝒏𝒏 𝒆𝒆𝒆𝒆 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒑𝒑𝒑𝒑𝒑𝒑 𝒍𝒍𝒍𝒍 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆ó𝒏𝒏 𝒅𝒅𝒅𝒅 𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓ó𝒏𝒏
2
𝑅𝑅 = 1 − 𝒏𝒏−𝒌𝒌−𝟏𝟏
𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽ó𝒏𝒏 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒅𝒅𝒅𝒅 𝒚𝒚
𝒏𝒏−𝟏𝟏

104,1752
𝑅𝑅 = 1 − 9 − 2 − 1 = 0,8364
2
848,8889
8

69
Glosario de la Unidad III

Coeficiente de correlación
“Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y
1” (Proyecto de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 1).

Coeficiente de determinación
“Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el
grado de información compartida entre dos variables continuas” (Proyecto de
Cooperación UE-CAN en Materia Estadísticas, 2007, p. 1).

Coeficientes de regresión
“En un modelo de regresión lineal son los valores de a y b que determinan la expre-
sión de la recta de regresión 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 “ (Proyecto de Cooperación UE-CAN en Materia
Estadísticas, 2007, p. 1).

Prueba de F
“Prueba estadística que sirve para comparar varianzas. El estadístico de F experi-
mental es el estadístico de contraste en el ANOVA y otras pruebas de comparación
de varianzas” (Proyecto de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 7).

Regresión
Técnica estadística que relaciona una variable dependiente (y) con la informa-
ción suministrada por otra variable independiente (x), ambas variables deben
ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal sim-
ple. Entre las restricciones de la RLS se incluyen: Los residuos deben ser nor-
males; las observaciones independientes; la dispersión de los residuos debe
mantenerse a lo largo de la recta de regresión. (Proyecto de Cooperación UE-
CAN en Materia Estadísticas, 2007, p. 8).

Recta de regresión
“Es el modelo que sirve para explicar una variable respuesta continua en términos
de un único factor o variable explicativa” (Proyecto de Cooperación UE-CAN en
Materia Estadísticas, 2007, p. 8).

Regresión lineal múltiple


“El modelo de regresión lineal múltiple sirve para explicar una variable respuesta
continua en términos de varios factores o variables explicativas continuas” (Proyecto
de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 8).

Tabla de ANOVA
“Es una forma de presentar la variabilidad observada en una variable respuesta en
términos aditivos según las distintas fuentes de variación: modelo residual” (Proyecto
de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 9).

70
Bibliografía de la Unidad III

Aron, A. (2003). Estadística para Psicología, Brasil: Editorial Prentice Hall.

Bologna, E. (2011). Estadística para Psicología y educación, Argentina: Editorial Bru-


jas.

Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.
Palacios-Cruz, L., Pérez, M., Rivas-Ruiz, R. Talavera, J.O. (2013). Investigación clí-
nica XVIII, Del juicio clínico al modelo de regresión lineal. Revista Médica del
Instituto Mexicano del Seguro Social, LI (6). 656-661. Disponible en
http://www.medigraphic.com/pdfs/imss/im-2013/im136l.pdf

Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.

Proyecto de Cooperación UE-CAN en Materia Estadísticas. (2007). Glosario de tér-


minos estadísticos. Cuarta Reunión de Expertos gubernamentales en Difu-
sión de la Información Estadística - IV Reunión de Grupo de Trabajo 2 AN-
DESTAD. Quito: Comunidad Andina de Naciones. Obtenido de
http://intranet.comunidadandina.org/Documentos/Reuniones/DTra-
bajo/SG_REG_DIES_IV_dt%202.pdf

Triola, M. (2004). Estadística. (9ª edición). México: Addison Wesley, Pearson Educa-
ción de México.

Valderrama, G. (2011). Estadísticas aplicadas en psicología Ciencias Sociales y Edu-


cación.

71
Autoevaluación de la Unidad III
1. Los valores de 𝑥𝑥 e 𝑦𝑦 tienen una relación inversa y 64% de la variación en 𝑦𝑦 es
explicada por la ecuación de regresión. ¿Cuál es el coeficiente de correlación?
A) 16% B) 8% C) 80% D) 64% E) 32%

2. El coeficiente de correlación entre las variables 𝑥𝑥 e 𝑦𝑦 es -0,90. Calcule el coeficiente


de determinación.
A) 0,18 B) 0,81 C) 0,72 D) 0,36 E) 0,27

3. Para n=6 puntos de datos se ha calculado las cantidades siguientes:


∑ 𝑥𝑥 = 40 ∑ 𝑦𝑦 = 76 ∑ 𝑥𝑥𝑥𝑥 = 400 ∑ 𝑥𝑥 2 = 346 ∑ 𝑦𝑦 2 = 1160
Determine la línea de regresión:

A) 𝑦𝑦 = −1,3445𝑥𝑥 + 21,63
B) 𝑦𝑦 = 1,3445𝑥𝑥 − 21,63
C) 𝑦𝑦 = −1,66𝑥𝑥 + 21,98
D) 𝑦𝑦 = 1,66𝑥𝑥 − 21,98
E) 𝑦𝑦 = −1,3445𝑥𝑥

4. Del ejercicio anterior determine el coeficiente de determinación.


A) 0,8118 B) 0,8178 C) 0,8972 D) 0,6372 E) 0,7268

5. Para un conjunto de 8 puntos de datos, la suma de las diferencias al cuadrado


entre los valores observados y estimados de 𝑦𝑦 es de 34,72. Con esta información
¿Cuál es el error estándar de la estimación?
A) 1,183 B) 1,782 C) 2,406 D) 3,245 E) 3,507

6. Del gráfico:

x vs y
R² = 0.9112
80
70
60
50
40
y

30
20
10
0
0 5 10 15 20
x

Interprete r.
A) La correlación de y respecto a x es positiva y fuerte.

72
B) La correlación de y respecto a x es positiva y moderada.
C) La correlación de y respecto a x es negativa y fuerte.
D) La correlación de y respecto a x es negativa y débil.
E) No se puede determinar la correlación.

7. Para n=15 puntos de datos y 𝑟𝑟 2 = 0,81. Con un nivel de significancia de 0,05. Po-
demos concluir que el coeficiente de correlación puede ser:
A) Cero B) mayor que cero C) menor que cero
D) Diferente de cero E) No se puede determinar

8. Para la ecuación de regresión múltiple: 𝑦𝑦 = 100 + 20𝑥𝑥1 − 3𝑥𝑥2 + 120𝑥𝑥3 ¿Cuál es el valor
estimado de y si 𝑥𝑥1 = 12, 𝑥𝑥2 = 5 y 𝑥𝑥3 = 10 ?
A) 1525 B) 1725 C) 2425 D) 3245 E) 3505

73
UNIDAD IV: PRUEBA CHI-CUADRADO - ESTRATEGIAS PARA POBLACIONES
CON DISTRIBUCIONES NO NORMAL (PRUEBAS NO PARAMÉTRICAS).

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD IV

ORGANIZACIÓN DE LOS APRENDIZAJES


Resultado de aprendizaje de la Unidad IV:
Al finalizar la unidad, el estudiante será capaz de aplicar pruebas de hipótesis de re-
lación entre variables; utilizando la distribución Chi-cuadrado, así como las pruebas
para distribuciones no normales (pruebas no paramétricas)
CONOCIMIENTOS HABILIDADES ACTITUDES
Aplica la prueba Chi-cua- Decide el método
Diagrama de organización de la
drado de independencia en estadístico inferen-
unidad
una tabla de contingencia. cial adecuado para
Organización de los aprendizajes efectuar una co-
Aplica pruebas de bondad rrecta toma de de-
Tema n.° 1: Introducción
de ajuste para frecuencias cisión.
Tema n.° 2: Las pruebas de bon- desiguales esperadas.
dad de ajuste y de normalidad.
Aplica pruebas de hipótesis
Tema n.° 3: Prueba de Indepen-
haciendo uso de métodos
dencia de dos variables.
no paramétricos.
Lectura seleccionada n.° 4
Lección de la prueba estadística
apropiada.
Tema n.° 4: Prueba de rango con
signo de Wilcoxon para comparar
muestras pareadas.
Tema n.° 5: Prueba de la suma
de rangos de Wilcoxon para com-
parar dos muestras independien-
tes.
Tema n.° 6: Prueba de rachas.
Autoevaluación de la Unidad IV

74
Tema n.° 1: Introducción
Una prueba no paramétrica no hace suposiciones sobre la forma de la población
de la cual se extrae una muestra. Ésta es diferente de casi todas las pruebas
tratadas en los capítulos anteriores, donde se asume en el caso de no especificar,
que una población tenía una distribución normal o casi normal. Además, con las
pruebas paramétricas se requiere que los datos se encuentren en una escala de
intervalo o de razón, a diferencia de las pruebas no paramétricas que no tienen
ese requisito.
Por lo tanto, se debe usar una prueba no paramétrica cuando:
a. Los datos tengan una escala de medición nominal u ordinal.
b. Si los datos tienen una escala de medición de intervalo o de razón; pero que no
cumpla con la normalidad de la distribución poblacional.

Tema n.° 2: Prueba chi cuadrado


A continuación, presentamos la distribución chi cuadrado; mediante ésta distribu-
ción, con los datos de una muestra y los cálculos de frecuencia, podremos exami-
nar:
Si una muestra proviene de un tipo de distribución poblacional específico. Si dos
variables nominales u ordinales pudieran ser independientes entre sí o sí dos o
más muestras independientes pudieran tener las mismas proporciones poblacio-
nales.
2.1. Las pruebas de bondad de ajuste y de normalidad.
En las pruebas de bondad de ajuste el análisis de chi cuadrado se aplica para
examinar si los datos de la muestra se extrajeron de una población con una dis-
tribución de probabilidad específica.
En esta sección ofreceremos una prueba de bondad de ajuste usando chi cuadrado,
diseñada para examinar si los datos de una muestra provienen de una población
con distribución normal.
Ejemplo: El Departamento de Psicología, basándose en informaciones anteriores,
al final del semestre antepasado, el 80% de los alumnos aprobaron todas las ma-
terias inscritas, un 10% aprobó la mitad, un 6% reprobó todas las materias y un
4% se retiró. Al final del semestre pasado el departamento selecciono a 400 alum-
nos, resultado 287 aprobaron todas las asignaturas, 49 aprobaron la mitad, 30
reprobaron todas las asignaturas y 34 se retiraron. ¿Podemos concluir, a raíz de
los resultados, que la información del semestre antepasado se ha vuelto a repetir
el semestre pasado?
Hipótesis nula:
Los porcentajes del semestre pasado son los mismos que en el semestre antepa-
sado.
Hipótesis alterna:
Los porcentajes del semestre pasado son diferentes al semestre antepasado.

75
frecuencia frecuencia
ATRIBUTOS hi=Probabilidad
observada: fo esperada: fe
Aprobó todo 287 0.8 320
Aprobó la mitad 49 0.1 40
Reprobó todo 30 0.06 24
Se retiró 34 0.04 16
TOTAL 400 1 400

Estadístico de prueba según Guilford y Fruchter (1984):

(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
𝝌𝝌𝟐𝟐𝒑𝒑 = ∑� �
𝒇𝒇𝒇𝒇
Con K-1 grados de libertad donde:
K= n° de categorías.
fo= frecuencia observada en una categoría en particular.
fe= frecuencia esperada en una categoría en particular.

(𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟑𝟑𝟑𝟑𝟑𝟑)𝟐𝟐 (𝟒𝟒𝟒𝟒 − 𝟒𝟒𝟒𝟒)𝟐𝟐 (𝟑𝟑𝟑𝟑 − 𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟑𝟑𝟑𝟑 − 𝟏𝟏𝟏𝟏)𝟐𝟐


𝝌𝝌𝟐𝟐𝒑𝒑 = + + + = 𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏
𝟑𝟑𝟑𝟑𝟑𝟑 𝟒𝟒𝟒𝟒 𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏

𝝌𝝌𝟐𝟐𝑪𝑪 = 𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖

Con grados de libertad=4-1=3.

Como 27,178 es mayor que 12,84 se rechaza la hipótesis nula.

Conclusión: Los porcentajes no se repitieron el semestre pasado.

2.2. Prueba de hipótesis de que la distribución es normal

Un investigador de la Oficina de Gestión del Docente recopiló datos que consisten


en una muestra aleatoria simple de 300 calificaciones de estudiantes del último
año de enseñanza media que se presentaron al examen de admisión del año pa-
sado de la Universidad Continental. Para esta muestra la media es 945,04 y la
desviación estándar 142,61. Una distribución de frecuencia para las calificaciones
muestra la distribución siguiente:

76
Intervalos fo
menos de 800 36
800-menos de 900 96
900-menos de 1000 78
1000-menos de 1100 48
1100-menos de 1200 25
1200-menos de 1300 10
1300-menos de 1400 3
1400 o más 4
TOTAL 300

Con base en los datos de la muestra, utilice un nivel de significancia de 0,01 para
determinar si la muestra se extrajo de una población en la cual las calificaciones
tienen una distribución normal.

H0: La muestra proviene de una población de calificaciones con una distribución


normal.

H1: La muestra no se extrajo de una población con distribución normal.

A continuación, hallamos las frecuencias esperadas (fe) y el estadístico de prueba:

Intervalos fo Valores Z Área fe (fo-fe)^2/fe


menos de 800 36 menor a -1.02 0.15457 46.3702 2.3192
800-menos de 900 96 -1.02 hasta - 0.32 0.22150 66.4499 13.1408
900-menos de 1000 78 -0.32 hasta 0.39 0.27396 82.1872 0.2133
1000-menos de 1100 48 0.39 hasta 1.09 0.21137 63.4106 3.7452
1100-menos de 1200 25 1.09 hasta 1.79 0.10170 30.5111 0.9955
1200 a más 17 1.79 a más 0.03690 11.0700 3.1766
TOTAL 300 1 300 23.5906

𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑−𝜇𝜇
Para a transformar a Z se utiliza 𝑍𝑍 =
𝜎𝜎
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
Estadístico de prueba: 𝝌𝝌𝟐𝟐𝒑𝒑 = ∑ � �
𝒇𝒇𝒇𝒇
Con k-1-m grados de libertad, donde k es el número final de categorías y m es
el número de parámetros que fueron estimados con el fin de construir la tabla de
frecuencias esperadas.

Se tiene ahora solo 6 intervalos ya que tanto la categoría 7 y 8 no tenían una


frecuencia esperada de al menos 5, de modo que debe combinarse con una cate-
goría adyacente.

Ahora calculamos el valor crítico: 𝝌𝝌𝟐𝟐


𝑪𝑪 = 𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑𝟑𝟑 con gl=3.

Como 23,5906 es mayor que 11,345 se rechaza la hipótesis nula.

Conclusión: Las calificaciones de la muestra no se extrajeron de una población


que tiene una distribución normal.

77
2.3. Prueba de Independencia de 2 variables.
El punto inicial para la prueba chi cuadrada de independencia entre las variables
es la tabla de contingencia. Ésta tabla tiene filas que contienen las categorías de
una variable y las columnas contienen las categorías de la otra variable y cada
entrada son las frecuencias combinadas de la fila y la columna.
Las hipótesis son:
𝐻𝐻0 : 𝐿𝐿𝐿𝐿𝐿𝐿 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑠𝑠𝑠𝑠𝑠𝑠 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑠𝑠𝑠𝑠.
𝐻𝐻1 : 𝐿𝐿𝐿𝐿𝐿𝐿 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑛𝑛𝑛𝑛 𝑠𝑠𝑠𝑠𝑠𝑠 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑠𝑠𝑠𝑠.
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
El estadístico de prueba es la chi cuadrada: 𝝌𝝌𝟐𝟐𝒑𝒑 = ∑ � �
𝒇𝒇𝒇𝒇
Con grados de libertad= (n° filas-1) x (n° columnas -1).
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 ×𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
El cálculo de la frecuencia esperada es: 𝑓𝑓𝑒𝑒 =
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡

Ejemplo: El Instituto Nacional de Penitenciaría del Perú contrata a un psicólogo


para que investigue: ¿Un hombre liberado de una prisión se adapta de manera
diferente a la vida civil si regresa a su ciudad natal o si va a vivir a otra parte? En
otras palabras, ¿hay una relación entre la adaptación a la vida civil y el lugar de
residencia después de salir de prisión? Utilice el nivel de significancia de 0,01.

Adaptación a la vida civil


Lugar de
residencia Sobresaliente Buena Regular Insatisfactoria
Ciudad
27 35 33 25
natal
Otra
13 15 27 25
ciudad

Resolución:

Formulamos las hipótesis:


𝑯𝑯𝟎𝟎 : No hay una relación entre la adaptación a la vida civil y el lugar donde vive.
𝑯𝑯𝟏𝟏 : Hay una relación entre la adaptación a la vida civil y el lugar donde vive el
individuo después de salir de prisión.
A continuación, construimos el tablero de frecuencias observadas y esperadas:
sobresaliente buena regular Insatisfactoria TOTAL FILA
fo fe fo fe fo fe fo fe
ciudad natal 27 24 35 30 33 36 25 30 120
Otra ciudad 13 16 15 20 27 24 25 20 80
TOTAL COLUMNA 40 40 50 50 60 60 50 50 200

Recordemos que para el cálculo de las frecuencias esperadas se hace de la si-


guiente manera:
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 ×𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 120×40
𝑓𝑓𝑒𝑒 = = = 24
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 200

78
(𝒇𝒇𝒇𝒇−𝒇𝒇𝒇𝒇)𝟐𝟐
Determinamos el valor de prueba del estadístico: 𝝌𝝌𝟐𝟐𝒑𝒑 = ∑ � �
𝒇𝒇𝒇𝒇
(𝟐𝟐𝟐𝟐 − 𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟑𝟑𝟑𝟑 − 𝟑𝟑𝟑𝟑)𝟐𝟐 (𝟐𝟐𝟐𝟐 − 𝟐𝟐𝟐𝟐)𝟐𝟐
𝝌𝝌𝟐𝟐𝒑𝒑 = + + + ⋯+ = 𝟓𝟓, 𝟕𝟕𝟕𝟕𝟕𝟕
𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏 𝟑𝟑𝟑𝟑 𝟐𝟐𝟐𝟐
Ahora ubicamos el valor crítico, en la tabla chi cuadrada con (2-1) x (4-1) =3
grados de libertad.
Tabla N° 4.1
Fragmento de la distribución Chi cuadrada

Como 5,729 es menor que 11,345 no se rechaza la hipótesis nula. Por lo tanto,
para el programa de recomendaciones del INPE la adaptación a la vida civil no se
relaciona con el lugar donde viva el ex prisionero.

79
Lectura seleccionada n.° 4:
Leer: Lección de la prueba estadística apropiada, en Técnicas estadísticas no paramétricas
(Ardila, s.f., pp. 91-102)
Ardila, R. (s/f). Técnicas estadísticas no paramétricas. Recuperado de http://www.bdigi-
tal.unal.edu.co/33524/1/33388-123824-1-PB.pdf

80
Tema n.° 3: Estrategias para poblaciones con distribución no
normal (pruebas no paramétricas)
En una prueba no paramétrica no se hace suposiciones sobre la forma de la po-
blación de donde se extrae la muestra.
Además, los datos tienen una escala de medición nominal u ordinal o si los datos
tienen una escala de medición de intervalo o de razón, siempre en cuando las
poblaciones extraídas no son normales.
3.1. Prueba de rango con signo de Wilcoxon para comparar muestras pa-
readas.

La prueba de rango con signo de Wilcoxon se utiliza para muestras pareadas. En


ese contexto es la contraparte no paramétrica a la prueba t para muestras parea-
das.

Como afirma Triola (2004): la técnica supone que los datos son de escala ordinal,
de intervalo o de razón.

Además, no existe el requisito de que los datos provengan de una distribución


normal. El procedimiento lo podemos resumir de la siguiente manera:
- Se ordenan las observaciones relacionadas en dos columnas y se resta el
segundo del primero.
- Se descartan los pares donde la diferencia es cero.
- A las n diferencias absolutas restantes se les asigna los rangos analizando los
valores de menor a mayor, es decir, el menor valor absoluto tendrá rango 1,
el siguiente rango 2, hasta llegar al mayor valor.
- En caso de empates el rango asignado es la media de los rangos que ocupan
en la ordenación de menor a mayor.
- Se calculan las sumas de los rangos correspondientes a las diferencias positi-
vas y negativas, siendo T (Estadístico de prueba) la más pequeña de las dos
sumas. (Triola, 2004)

- “Si n≤30, el estadístico de prueba es T”. (Triola, 2004, p.652). El valor crítico T se
encuentra en la tabla de valores críticos para la Prueba de rangos con signo de
Wilcoxon. (Ver anexo 8: Prueba de rangos con signo de Wilcoxon de éste manual).
Cuando plantee la conclusión, rechace la hipótesis nula si los datos muestrales le
llevan a un estadístico de prueba que se ubica en la región crítica, esto es, cuando
el estadístico de prueba sea menor o igual que el valor (o los valores) crítico(s).

𝑛𝑛(𝑛𝑛+1)
𝑇𝑇−
- Si n>30, el estadístico de prueba es (Triola, 2004): 𝑍𝑍𝑝𝑝 = 4
𝑛𝑛(𝑛𝑛+1)(2𝑛𝑛+1)

24

Ejemplo:
Muchos profesionales nuevos se resisten a dar presentaciones ante un
determinado público. Al detectar esta falta de autoestima, una clinica psicológica
organizó un seminario de motivación para una muestra de profesionales durante
3 semanas. Antes de la primer sesión los psicológos midieron el nivel de
autoestima de cada participante y midieron de nuevo después de 3 semanas. Los
niveles de autoestima antes y después para los 14 participantes en el curso
aparecen en la siguiente tabla. La autoestima se clasificó como negativa=1,
baja=2, alta=3 o muy alta=4.

81
Profesional Antes del seminario Después del seminario
1 Negativa Baja
2 Negativa Negativa
3 Baja Alta
4 Muy alta Baja
5 Baja Alta
6 Baja Alta
7 Negativa Alta
8 Baja Muy alta
9 Baja Alta
10 Negativa Baja
11 Baja Alta
12 Negativa Baja
13 Baja Alta
14 Baja Muy alta

El propósito del estudio es determinar si la clínica psicológica fue eficaz para


aumentar la autoestima de los profesionales nuevos. Con un nivel de
significancia de 0,05.

Proponemos las hipótesis:


𝑯𝑯𝟎𝟎 : No hay diferencias en el nivel de autoestima antes y después del trata-
miento.
𝑯𝑯𝟎𝟎 : 𝑳𝑳𝑳𝑳 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑯𝑯𝟏𝟏 : El nivel de autoestima es mayor después del tratamiento.
𝑯𝑯𝟏𝟏 : 𝑳𝑳𝑳𝑳 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒂𝒂 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄.
Calculamos la menor suma de rangos:
Rango
Rango
final= promedio R+=Rangos R-=Rangos
inicial=lugar de las
de los rangos finales de finales de
Profesional Antes Después diferencia dif absoluta diferencias
iniciales de las las diferencias las diferencias
absolutas después
diferencias abs positivas negativas
de ordenarlas
iguales
1 1 2 -1 1 1 5 5
2 * * * * * *
3 2 3 -1 1 2 5 5
4 4 2 2 2 10 11.5 11.5
5 2 3 -1 1 3 5 5
6 2 3 -1 1 4 5 5
7 1 3 -2 2 11 11.5 11.5
8 2 4 -2 2 12 11.5 11.5
9 2 3 -1 1 5 5 5
10 1 2 -1 1 6 5 5
11 2 3 -1 1 7 5 5
12 1 2 -1 1 8 5 5
13 2 3 -1 1 9 5 5
14 2 4 -2 2 13 11.5 11.5
11.5
Menor suma

82
Como se puede observar el estadístico de prueba es T=11,5 para n=13 diferen-
cias distintas de cero y 𝛼𝛼 = 0,05.
Ahora consultamos la tabla y obtenemos un valor crítico de 21.

Tabla 4.2
Fragmento de los valores críticos de T para la prueba de rangos
con signo de Wilcoxon

Luego rechazamos la hipótesis nula ya que T es menor o igual que el valor crí-
tico.
Por lo tanto, la clínica psicológica fue eficaz para aumentar el nivel de autoes-
tima de los profesionales.

3.2. Prueba de la suma de rangos de Wilcoxon para comparar dos muestras


independientes.
La prueba de suma de rangos de Wilcoxon compara dos muestras independientes
y la contraparte de la prueba no paramétrica de la prueba t con varianzas combi-
nadas para 2 muestras independientes.
La prueba supone que los datos tienen una escala de medición ordinal, de intervalo
o de razón, que las muestras son independientes y se seleccionaron de manera
aleatoria y que las poblaciones tienen aproximadamente la misma forma.
Sean los tamaños de la muestra n1 y n2 de la primera población y de la segunda,
respectivamente. Estas se juntan y se ordenan en sentido ascendente, ahora, en
caso de empate, consideremos a la media de los puestos correspondientes. Tam-
bién, denominemos T a la suma de los puestos de las observaciones de la primera
población. Asumiendo que la hipótesis nula es verdadera, el estadístico de la suma
de puestos de Wilcoxon, T, tiene la media, según Triola (2004):
𝑛𝑛1 (𝑛𝑛1 + 𝑛𝑛2 + 1)
𝜇𝜇 𝑇𝑇 =
2

83
𝑛𝑛1 𝑛𝑛2 (𝑛𝑛1 +𝑛𝑛2 +1)
Y la desviación estándar: 𝜎𝜎𝑇𝑇 = � (Triola, 2004, p. 657)
12
Por lo que cuando 𝑛𝑛1 ≥ 10 y 𝑛𝑛2 ≥ 10 la distribución normal es una excelente apro-
𝑇𝑇−𝜇𝜇𝑇𝑇
ximación a la distribución de la variable aleatoria: 𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =
𝜎𝜎𝑇𝑇
Ejemplo:
La Universidad Continental ofrece 2 programas de Maestría en psicología; en el
primero, los estudiantes se reúnen dos noches por semana en el campus principal.
En el segundo programa, los estudiantes solo se comunican por internet con su
docente. El director de la maestría desea comparar el número de horas que estu-
diaron la semana pasada los dos grupos de estudiantes. Una muestra compuesta
por 10 estudiantes en el campus y otra de 12 estudiantes por internet proporcionó
la siguiente información.

Campus 28 16 42 29 31 22 50 42 23 25
Internet 26 42 65 38 29 32 59 42 27 41 46 18

Con un nivel de significancia de 0,05. ¿Es posible concluir que los estudiantes
por internet estudian más?

Proponemos las hipótesis:


𝑯𝑯𝟎𝟎 : El número de horas que estudian los alumnos del campus es la misma que
los de Internet.
𝑯𝑯𝟎𝟎 : 𝒎𝒎𝑪𝑪 = 𝒎𝒎𝑰𝑰
𝑯𝑯𝟏𝟏 : El número de horas que estudian los alumnos del campus es menor que los
de Internet.
𝑯𝑯𝟏𝟏 : 𝒎𝒎𝑪𝑪 < 𝒎𝒎𝑰𝑰
Donde m es la mediana de la población.
Hallamos los rangos:
Todos los datos Rangos Rangos
ordenados iniciales finales
16 1 1
18 2 2
22 3 3
23 4 4
25 5 5
26 6 6
27 7 7
28 8 8
29 9 9.5
29 10 9.5
31 11 11
32 12 12
38 13 13
41 14 14
42 15 16.5

84
42 16 16.5
42 17 16.5
42 18 16.5
46 19 19
50 20 20
59 21 21
65 22 22

Campus Rango Internet rango

28 8 26 6
16 1 42 16.5
42 16.5 65 22
29 9.5 38 13
31 11 29 9.5
22 3 32 12
50 20 59 21
42 16.5 42 16.5
23 4 27 7
25 5 41 14
46 19
18 2
Suma de rangos 94.5 158.5

𝑇𝑇−𝜇𝜇𝑇𝑇
Ahora calculamos el estadístico de prueba: 𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =
𝜎𝜎𝑇𝑇

10(10 + 12 + 1)
94,5 −
𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = 2 = −1,352
� (10)(12)(10 + 12 + 1)
12
También calculamos el valor crítico 𝑍𝑍𝑐𝑐 = −1,645.
Como se puede observar el estadístico de prueba está a la derecha del valor crí-
tico entonces no rechazamos la hipótesis nula. Por lo tanto, el número de horas
que estudian los estudiantes del campus es la misma que los de Internet.

3.3. Prueba de Kruskal Wallis para comparar más de dos muestras inde-
pendientes.
Es una técnica para comparar más de dos muestras independientes. Es la con-
traparte no paramétrica del ANOVA de un sentido.
Llamada también prueba H, donde se utiliza rangos de los datos muestrales de
tres o más poblaciones independientes.
Ejemplo:

85
Un criadero quiere experimentar con tres mezclas diferentes de alimentos para
pavos muy jóvenes. Como no existen registros respecto de las tres mezclas, no
es posible hacer suposiciones acerca de la distribución de los pesos. Se debe uti-
lizar la prueba de Kruskal para probar si los pavos tienen el mismo peso después
de alimentarse durante cierto tiempo. A cinco pavos se les da el alimento A, a seis
el B y a otros cinco el C. Con un nivel de significancia de 0,05 pruebe si son iguales
los pesos de los pavos que comieron el alimento A, el B y el C.

Peso (en libras)


Mezcla de Mezcla de Mezcla de
alimento A alimento B alimento C
11.2 12.6 11.3
12.1 10.8 11.9
10.9 11.3 12.4
11.3 11 10.6
12 12 12
10.7
Ho: Los pesos de los pavos después del tratamiento con los alimentos A, B y C
son los mismos.
H1: Los pesos de los pavos después del tratamiento con los alimentos A, B y C
son distintos.
A continuación, juntamos las muestras y después de ordenarlas establecemos el
rango de cada una de ellas:

mezcla Rango Rango correcto


10.6 1 1
10.7 2 2
10.8 3 3
10.9 4 4
11 5 5
11.2 6 6
11.3 7 8
11.3 8 8
11.3 9 8
11.9 10 10
12 11 12
12 12 12
12 13 12
12.1 14 14
12.4 15 15
12.6 16 16

Luego hallamos la suma de rangos por muestra:

86
Rango ALIMENTO A Rango ALIMENTO B Rango ALIMENTO C
6 16 8
14 3 10
4 8 15
8 5 1
12 12 12

SUMA 44 46 46

Después de indicar el estadístico de prueba, calculamos su valor:


12 ∑ 𝑅𝑅1 2 ∑ 𝑅𝑅2 2 ∑ 𝑅𝑅3 2
𝐻𝐻𝑝𝑝 = ×� + + � − 3(𝑁𝑁 + 1)
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛1 𝑛𝑛2 𝑛𝑛3
12 442 462 462
𝐻𝐻𝑝𝑝 = ×� + + � − 3(16 + 1) = 0.3118
16(16 + 1) 5 6 5
Luego comparamos con el H crítico, el cual hallamos en la distribución Chi cua-
drada donde los 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍 = 𝒏𝒏° 𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 − 𝟏𝟏
𝐻𝐻𝑐𝑐 = 5,991
Por lo tanto: No existe suficiente evidencia que justifique el rechazo de la aseve-
ración de que Los pesos de los pavos después del tratamiento con los alimentos
A, B y C son los mismos.

3.4. Prueba de rachas o corridas aleatorias.


La prueba de corridas evalúa la aleatoriedad de una serie de observaciones anali-
zando el número de rachas que contiene. Una racha o corrida es la aparición con-
secutiva de una o más observaciones similares. Si los datos también son nomina-
les las rachas también se pueden contar.
A continuación, damos a conocer los procedimientos de prueba:
𝑯𝑯𝟎𝟎 : La secuencia es aleatoria.
𝑯𝑯𝟏𝟏 : La secuencia no es aleatoria.
• Para datos nominales con dos categorías.
1. Determine 𝑛𝑛1 y 𝑛𝑛2 , el número de observaciones de cada tipo.
2. Cuente el número de rachas G.
• Para datos ordinales, de intervalo o de razón.
1. Determine la mediana de los datos.
2. Identifique cada valor de los datos con un signo + si el dato es mayor o igual
que la mediana y con un signo – si el dato es menor que la mediana.
3. Determine el número de signos + y –
4. Cuente el número de rachas G.
𝐺𝐺−𝜇𝜇𝐺𝐺
5. Para 𝑛𝑛1 > 20 o 𝑛𝑛2 > 20 o 𝛼𝛼 ≠ 0,05 utilice el estadístico de prueba: 𝑍𝑍𝑝𝑝 =
𝜎𝜎𝐺𝐺
(Triola, 2004, p.681) o en su forma desarrollada:

87
2𝑛𝑛1 𝑛𝑛2
𝐺𝐺 − ( + 1)
𝑛𝑛1 + 𝑛𝑛2
𝑍𝑍𝑝𝑝 =
(2𝑛𝑛1 𝑛𝑛2 )(2𝑛𝑛1 𝑛𝑛2 − 𝑛𝑛1 − 𝑛𝑛2 )

(𝑛𝑛1 + 𝑛𝑛2 )2 (𝑛𝑛1 + 𝑛𝑛2 − 1)
Puesto que:
2𝑛𝑛1 𝑛𝑛2 (2𝑛𝑛1 𝑛𝑛2 )(2𝑛𝑛1 𝑛𝑛2 −𝑛𝑛1 −𝑛𝑛2 )
𝜇𝜇𝐺𝐺 = +1 y 𝜎𝜎𝐺𝐺 = � (𝑛𝑛1 +𝑛𝑛2 )2 (𝑛𝑛1 +𝑛𝑛2 −1)
𝑛𝑛1 +𝑛𝑛2

6. Para 𝑛𝑛1 ≤ 20 o 𝑛𝑛2 ≤ 20 o 𝛼𝛼 = 0,05 utilice el estadístico de prueba G.

Ejemplo: Un psicólogo afirma haber encuestado a personas de manera aleatoria


en una calle y entre muchas preguntas les pidió sus edades. Durante la primera
hora en la calle, 30 personas dijeron su edad en el orden que se muestra:
30 33 15 59 35 29 68 69 38 43
15 36 35 30 61 74 56 47 68 18
22 12 58 45 65 64 49 38 58 45
Con un nivel de significancia de 0,05 evalúe la aleatoriedad de las edades para
esta secuencia.

Resolución:
Las hipótesis son:
𝑯𝑯𝟎𝟎 : La secuencia es aleatoria.
𝑯𝑯𝟏𝟏 : La secuencia no es aleatoria.
Las edades tienen una mediana de 44. Cada edad se transforma en un signo de
+ si es 44 o más y se transforma en un signo – si es menor que la mediana.
- - - + - - + + - -
- - - - + + + + + -
- - + + + + + - + +
Este proceso genera una secuencia de símbolos (+) y (-). Como se puede obser-
var se ha generado G=10 rachas. Luego se tiene 𝑛𝑛1 = 15 (+) y 𝑛𝑛2 = 15 (−)
Calculando el estadístico de prueba:

2(15)(15)
10 − ( + 1)
𝑍𝑍𝑝𝑝 = 30 = −2,23
(2(15)(15))(2(15)(15) − 15 − 15)

(30)2 (29)
Luego calculamos la Z crítica con un nivel de significancia de 0,05 en 2 colas.

88
Zp=-2,23

Como el valor calculado o de prueba está fuera de estos límites entonces se re-
chaza la hipótesis nula. Por lo tanto, las edades no aparecen en orden aleatorio.

89
Glosario de la Unidad IV

Bondad de ajuste
Es un indicador que permite discernir acerca de qué tan buena es la ecuación
obtenida. Para determinar la bondad de un ajuste se utilizan diferentes crite-
rios en la regresión lineal. Unos se refieren a los residuales como son el valor
de la sumatoria de residuales al cuadrado, la varianza, la desviación estándar
del ajuste y el coeficiente de correlación al cuadrado. Otro indicador de la
bondad de ajuste es el realizado mediante el test de bondad de ajuste utili-
zando la prueba Chi-Cuadrada, Kolmogorov-Smirnov (K-S) entre otras.
(Cerrón, 2014, p. 135).

Escala
“La distribución de datos puede recogerse en distintas escalas. Nominal, dicotómica,
discreta o continua” (Proyecto de Cooperación UE-CAN en Materia Estadísticas, 2007,
p. 4).

Independencia
“Son datos que no están ligados entre sí” (Proyecto de Cooperación UE-CAN en
Materia Estadísticas, 2007, p. 5).

Prueba chi Cuadrado


“Se utiliza para analizar tablas de contingencia y comparación de proporciones en
datos independientes” (Proyecto de Cooperación UE-CAN en Materia Estadísticas,
2007, p. 7).

Prueba no paramétrica
“Técnica estadística que presupone ninguna distribución de probabilidad teórica de la
distribución de nuestros datos” (Proyecto de Cooperación UE-CAN en Materia
Estadísticas, 2007, p. 7).

Tablas de contingencia
“Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que
pertenecen a cada combinación de los posibles niveles de estas variables” (Proyecto
de Cooperación UE-CAN en Materia Estadísticas, 2007, p. 9).

Técnicas no paramétricas
“Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico.
Son menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se
pueden aplicar más fácilmente” (Proyecto de Cooperación UE-CAN en Materia
Estadísticas, 2007, p. 9).

Wilcoxon
“Prueba estadística no paramétrica para la comparación de dos muestras (dos trata-
mientos). Las distribuciones de datos no necesitan seguir la distribución normal. Es
por tanto una prueba menos restrictiva que la prueba t-Student” (Proyecto de
Cooperación UE-CAN en Materia Estadísticas, 2007, p. 10).

90
Bibliografía de la Unidad IV

Ardila, R. (s/f). Técnicas estadísticas no paramétricas. Recuperado de http://www.bdigi-


tal.unal.edu.co/33524/1/33388-123824-1-PB.pdf

Aron, A. (2003). Estadística para Psicología. Brasil: Prentice Hall.

Bologna, E. (2011). Estadística para Psicología y educación. Argentina: Brujas.

Cerrón, C. (2014). Estadística II, Manual Autoformativo. Huancayo, Perú: Universi-


dad Continental. Recuperado de http://es.cala-
meo.com/read/003354746a5fc8b2222ce

Guilford, J.P. & Fruchter, B. (1984). Estadística aplicada a la Psicología y la Educa-


ción. México: McGraw Hill.

Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cen-
gage Learning.

Pérez Tejada, H. (2008). Estadística para las ciencias sociales y del comportamiento.
México: Oxford.

Proyecto de Cooperación UE-CAN en Materia Estadísticas. (2007). Glosario de tér-


minos estadísticos. Cuarta Reunión de Expertos gubernamentales en Difu-
sión de la Información Estadística - IV Reunión de Grupo de Trabajo 2 AN-
DESTAD. Quito: Comunidad Andina de Naciones. Obtenido de
http://intranet.comunidadandina.org/Documentos/Reuniones/DTra-
bajo/SG_REG_DIES_IV_dt%202.pdf

Triola, M. (2004). Estadística. México: Pearson Educación.

Valderrama, G. (2011). Estadísticas aplicadas en psicología Ciencias Sociales y Edu-


cación.

91
Autoevaluación de la Unidad IV
1. Dadas las siguientes proposiciones:
I. El estadístico de prueba 𝜒𝜒 2 se basa en las diferencias entre valores observados y
esperados.
II. La prueba t para 2 muestras dependientes es no paramétrica.
III. Las técnicas no paramétricas no se pueden aplicar cuando el tamaño de las
muestras es muy pequeño.
Son correctas:
A) Sólo I y II B) Sólo I C) Sólo I y III D) Ninguna. E) I; II y III

2. Sean las afirmaciones:


I. En la secuencia de Varones (V) y Mujeres (M): VVVMMMM, el número de rachas
es 4.
II. La prueba de rachas para detectar aleatoriedad se basa en el orden en que se
presenta los datos.
III. Una racha es una secuencia de datos que tienen la misma característica.
Son correctas:
A) I; II y III B) Sólo I y II C) Sólo I D) Sólo II E) Sólo III

3. Para una tabla de contingencia con 3 filas y 7 columnas, determine los grados de
libertad para la prueba.

A) 21 B) 12 C) 10 D) 16 E) 8

4. Se han recopilado datos para una muestra y la hipótesis nula que se pone a
prueba es “la muestra se obtuvo de una población normal”. Si el análisis se basa en
una clasificación que incluye 5 celdas. ¿Cuántos grados de libertad se asociará en la
prueba?
A) 3 B) 4 C) 5 D) 7 E) 8

5. La prueba de suma de rangos de Wilcoxon se utiliza para comparar las medianas


de 2 muestras:
A) Dependientes B) Independientes C) Apareadas
D) No utilice esta opción E) Faltan datos.

6. ¿Cuántas corridas hay en la siguiente serie


110001001011000011011010111001?

A) 13 B) 14 C) 15 D) 17 E) 18

7. Para las muestras aleatorias siguientes de dos poblaciones independientes, que


rango le corresponde al dato 29.
Muestra 1 40 34 53 28 41
Muestra 2 29 31 52 29 20 31 26

A) 2 B) 1,5 C) 3,5 D) 2,5 E) 4,5

8. Al poner a prueba la independencia de dos variables descritas es una tabla de


contingencias, determine el valor crítico de chi cuadrada, si la prueba se va a efec-
tuar a la derecha, con un nivel de significancia de 0,025 y 5 grados de libertad.

92
A) 2,45 B) 11,58 C) 13,35 D) 12,83 E) 14,25

93
Anexo 1
Respuestas de las autoevaluaciones:

Respuestas de la autoevaluación n.° 1


Número Respuesta
1 E
2 D
3 B
4 E
5 C
6 C
7 A
8 C

Respuestas de la autoevaluación n.° 2


Número Respuesta
1 B
2 C
3 C
4 A
5 B
6 B
7 E
8 A

Respuestas de la autoevaluación n.° 3


Número Respuesta
1 C
2 B
3 A
4 E
5 C
6 A
7 D
8 A

Respuestas de la autoevaluación n.° 4


Número Respuesta
1 B
2 E
3 B
4 B
5 B
6 D
7 E
8 D

94
Anexo 2
Tabla A1
Tabla de números aleatorios

Fuente: Triola, M. (2004)

95
Anexo 3

Tabla A2
Puntuaciones Z

Fuente: Triola, M. (2004, p. 734)

96
Anexo 4
Tabla A3
Puntuaciones z positivas

Fuente: Triola (2004, p. 735)


97
Anexo 5
Tabla A4
Valores Críticos t

Fuente: Triola (2004, p. 736)

98
Anexo 6
Tabla A5
Distribución chi cuadrada

Fuente: Triola (2004, p. 737)

99
Anexo 7:
Tabla A6
Distribución F

Fuente: Triola (2004, p. 738)

100
101
102
103
Anexo 8:

Tabla A1
Prueba de rangos con signo de Wilcoxon

Fuente: Triola (2004, p. 744)

104
Anexo 9:
Tabla A1
Valores críticos para el número de rachas

Fuente: Triola (2004, p. 746)

105

Вам также может понравиться