Академический Документы
Профессиональный Документы
Культура Документы
Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes
a las anteriores.
Ejercicios
Calcular la desviacin estndar de la distribucin:
9, 3, 8, 8, 9, 8, 9, 18
xi
fi
xi fi
xi2 fi
[10, 20)
15
15
225
[20, 30)
25
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
405
18 225
[50, 60)
55
440
24 200
[60,70)
65
260
16 900
[70, 80)
75
150
11 250
42
1 820
88 050
Desviacin estndar
La desviacin estndar () mide cunto se separan los datos.
La frmula es fcil: es la raz cuadrada de la varianza. As que, "qu es la varianza?"
Varianza
la varianza (que es el cuadrado de la desviacin estndar: 2) se define as:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los nmeros)
2. Ahora, por cada nmero resta la media y eleva el resultado al cuadrado (la diferencia
elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (Por qu al cuadrado?)
*Nota: por qu al cuadrado?
Elevar cada diferencia al cuadrado hace que todos los nmeros sean positivos (para evitar
que los nmeros negativos reduzcan la varianza)
Y tambin hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es
mucho ms grande que 502=2,500.
Pero elevarlas al cuadrado hace que la respuesta sea muy grande, as que lo deshacemos
(con la raz cuadrada) y as la desviacin estndar es mucho ms til.
Ejemplo
T y tus amigos habis medido las alturas de vuestros perros (en milmetros):
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviacin estndar.
Respuesta:
600 + 470 + 170 + 430 + 300
Media =
1970
=
= 394
Para calcular la varianza, toma cada diferencia, elvala al cuadrado, y haz la media:
2062 + 762 + (-224)2 + 362 + (-94)2
Varianza:
=
108,520
=
=
21,704
5
odemos explicar estas dos palabras en una sencilla frase: usamos la informacin que nos
facilita un grupo reducido de personas (muestra) para estimar lo que piensa, hace, opina un
grupo mucho ms amplio (poblacin).
Un concepto importante para entender todo lo relativo al muestreo es, para empezar, el de
tipificacin de variables. Puesto que las variables vienen expresadas en unidades distintas,
para poder compararlas tendremos que pasarlas a una unidad comn. A esta operacin se le
llama tipificacin.
Despus de esto, podremos pasar a ver las distintas formas que puede adoptar una
distribucin de frecuencias, centrndonos en una distribucin normal, por se la distribucin
terica que va a sustentar toda la teora del muestreo.
La finalidad es, conocido lo que piensa una muestra, inferir - estimar lo que piensa una
poblacin.
* Tipificacin - estandarizacin de las variables
Las variables que construimos en la investigacin social vienen expresadas en unidades
distintas, y con medias y desviaciones tpicas tambin diferentes, lo que hace imposible su
comparacin. Para solucionar esto lo que hacemos es la tipificacin.
Mediante la tipificacin o estandarizacin de las variables, creamos nuevas variables
expresadas en unidades de desviacin tpica (identificadas por la letra Z), y se realiza
dividiendo la diferencia de cada valor con respecto a la media, por su desviacin tpica.
mientras que unos pocos se decantan por el extremo superior de la distribucin, tendremos
asimetra positiva. En caso contrario, ser negativa. En la positiva, la media ser superior a
la mediana. En la negativa, a la inversa. Para saber si una distribucin es simtrica o
asimtrica (y de que tipo de asimetra se trata) hay que calcular el coeficiente de simetra.
* Poblaciones y muestras
Nociones bsicas.
La deduccin y el clculo de probabilidades son los fundamentos del muestreo que hacen
posible estimar valores (parmetros) poblacionales y contrastar hiptesis a partir de valores
(estadsticos) de las muestras.
Conocido lo que piensa una poblacin (conocidos sus parmetros), el clculo de
probabilidades permite deducir qu es lo ms probables que piense una muestra sacada de
esa poblacin. A la inversa, conocidos los estadsticos de la muestra se puede inferirestimar cules sern los parmetros de la poblacin.
Al sacar no una sino muchas muestras de una poblacin, de la que conocemos su media y
desviacin tpica, no conoceremos con exactitud la media que va a tener cada una de las
muestras, pero s que podremos calcular la media y desviacin tpica de todas ellas.
A condicin de que las muestras sean grandes, o la poblacin de la que se sacan sea normal,
la distribucin de las infinitas muestras sacadas de una poblacin es normal, con media y
desviacin tpica conocidas.
. Poblacin y muestra
. Distribucin muestral: es fundamental en toda la estadstica terica o inferencial, y hay
que distinguirla claramente de las otras dos distribuciones que se han visto hasta ahora: la
distribucin poblacional y la distribucin de una muestra. La distribucin muestral es una
distribucin terica, se trata de la distribucin del estadstico estudiado que obtendramos si
sacramos infinitas muestras de una poblacin.
. Estadsticos de la distribucin muestral
+ El valor esperado (la media) de un estadstico obtenido a partir de muestras aleatorias
sacadas de una poblacin, es igual al parmetro de esa poblacin
+ La desviacin tpica de las medias: ser igual a la desviacin tpica de la poblacin
partida por la raz cuadrada del nmero de casos de la muestra. Es vlida siempre que las
muestras sean grandes o se hayan obtenido con reemplazamiento de las unidades
seleccionadas.
Fluctuacin de las medias: la media de una muestra sacada de la poblacin fluctuar en
torno a la media de la poblacin con una dispersin (desviacin tpica) conocida. Esto
ocurre cuando son circunstancias especiales como S=0 y n=N
La red: puesto que conocemos el grado de fluctuacin de las medias, medido a travs de la
desviacin tpica. En lugar de decir que la media de la muestra es igual a la media de la
poblacin, diramos que se encuentra en un determinado intervalo, que tiene como valor
central la media de la poblacin.
Normalidad de la distribucin
El teorema central del lmite: cuando se sacan infinitas muestras de una poblacin
aproximadamente normal, o cuando las muestras son suficientemente grandes, la
distribucin de cualquiera de sus estadsticos (media, mediana, coeficiente de
correlacin, coeficiente de regresin,...) tendr forma normal
Error muestral: compuesto por nivel de confianza y error tpico (compuesto por S y
V n). Segn la teora de las muestras, el problema del error de muestreo est
controlado: para deducir un estadstico, cuanto ms grande sea la muestra, mejor.
Que las muestras sean ms o menos grandes es cuestin de dinero.
Si una poblacin tiene una variabilidad nula, siempre se acertar a la hora de deducir la
media de cualquier muestra que se extraiga, sin importar el tamao que tenga: su media
ser igual a la de la poblacin. Si la variabilidad es grande, ser difcil acertar cuando se
trate de deducir la media de una muestra extrada de esa poblacin.
La variabilidad influye en el error muestral, cada poblacin tienen su variabilidad, sin que
sea algo que dependa del investigador.
DE LA MUESTRA A LA POBLACIN
Seleccin de los estimadores
Al hablar de la estimacin estamos justo ante el problema inverso a la deduccin, conocida
la muestra, qu podemos decir de la poblacin?.
Criterios del buen estimador:
Insesgado
El sesgo de un estimador es la diferencia que hay entre el valor esperado del estadstico
muestral y el parmetro de la poblacin.
Para estimar la desviacin tpica de la poblacin podemos utilizar la desviacin tpica de la
muestra, al a que se le resta una unidad en el denominador para hacer que este estimador
resulte insesgado.
Est plagado de mltiples situaciones que pueden dar lugar a distintas hiptesis, con
supuestos de dudosa verificacin, y adems tienen una solucin poco satisfactoria.
Tres vas de actuacin:
Modelo: con relacin a la muestra, vamos a dar por supuesto que las personas se
han seleccionado mediante un procedimiento aleatorio simple.
A este tipo de contraste que rechaza la hiptesis nula cuando el estadstico obtenido en la
muestra es muy distinto del parmetro postulado en el modelo, se le denomina contraste,
prueba o test de dos colas.
Factor de correccin
El muestreo puede ser con reemplazamiento y sin reemplazamiento. Desde el punto de vista
de la eficiencia, los estimadores que se obtienen con el muestreo sin son ms eficientes que
los obtenidos con el muestreo con.
La importancia de la reduccin que se opera en el error tpico no depende tanto del tamao
absoluto de la poblacin como de su tamao relativo: la reduccin es ms importante
cuanto menor sea la diferencia entre poblacin y muestra. Se dan dos situaciones lmite:
. Cuando poblacin y muestra son iguales, el factor de correccin tienen un efecto de
reduccin total, puesto que el error tpico se hace igual a cero.
. Cuando la poblacin e smuy grande y la muestra es muy pequea la reduccin del error
tpico apenas si se nota, pues el valor del factor de correccin es aproximadamente igual a
1.
Fraccin de muestreo
error. Para ello sustituimos los valores Z de la distribucin normal por los valores t de una
nueva distribucin, llamada de Student.
La distribucin de la t de Student no es nica; existen tantas distribuciones como tamaos
de muestra. Los diferentes tamaos de muestra reciben el nombre de grados de libertas y su
valor es igual a n-1.
+ Muestras pequeas de poblaciones no normales
para que el teorema central del lmite sea operativo se necesita que las muestras sean
2suficientemente" grandes o que la poblacin de la que se extraen sea aproximadamente
normal. Si las muestras son pequeas, por debajo de los 30 casos, la distribucin muestral
deja de tener forma normal para pasar a adoptar la forma de la t de Student.
Muestras con distintas probabilidades de seleccin de los individuos
Para que la muestra sea representativa de la poblacin la seleccin de sus elementos ha de
hacerse aleatoriamente y dndole a cada uno de ellos la misma probabilidad de ser elegido.
Cuando no ocurre as, los estadsticos que se obtengan en la muestra sern estimadores
sesgados de sus respectivos parmetros poblacionales.
Ej: Muestreo estratificado no proporcional
La involuntaria desigual representacin de ciertos colectivos en la muestra puede ser
producto de :
la no respuesta.
el tamao de la muestra
nivel de significacin.
La medicin: es el proceso que vincula las operaciones fsicas de medicin con las
operaciones matemticas de asignar nmeros a objetos
Hay distintas modalidades de variables segn los criterios de clasificacin de las mismas:
* Segn el nivel de medicin (forman una escala acumulativa, cada nivel comparte las
propiedades de los niveles que le preceden)
Variables cualitativas
Variables cuantitativas
variables continuas: aquellas en las que pueden hallarse valores intermedios entre
dos valores dados. Ejemplo: edad entre un ao y otro hay meses
variables dependientes o criterio (Y): sus atributos dependen de los que adopten las
variables independientes: ejemplo: accidente de trfico
variables generales: son tan genricas y abstractas que no pueden ser directamente
observadas. Ejemplo: estatus social
representacin terica
sintetizar los indicadores estableciendo ndices (medida comn que agrupa a varios
indicadores de una misma dimensin)
Para el clculo de un ndice se precisa que las distintas medidas se transformen en una
escala de medicin comn. Este proceso de consecucin del ndice se llama ponderacin.
A la hora de elaborar un coeficiente de ponderacin hay que tener en cuenta:
deben utilizarse los signos (+) y (-) para marcar dos significaciones bien distintas
del ndice
los atributos iguales han de ponderarse de igual forma, esto permite la comparacin
posterior de los ndices
mtodo test-retest: administrar una misma medida a una misma poblacin en dos
perodos de tiempo diferentes
cundo el universo este compuesto por 100.000 unidades o menos, se tratar de una
poblacin finita: n=Z2S2N/E2(N-1)+Z2S2.
Universo infinito
E= "S2/n
E= "(S2/n)(N-n/N-1)
E= "PQ/n
E= "(PQ/n) (N-n/N-1)
garantizar que cada unidad de la poblacin tenga una unidad igual de participar en la
muestra, y que la seleccin muestral sea totalmente aleatoria hasta alcanzar el tamao
muestral fijado.
La eleccin de las unidades muestrales puede hacerse mediante ordenador (que es el que
ejecuta todas las tareas correspondientes). Pero cuando el uso del ordenador no se considere
viable, se recurre al procedimiento tradicional: utilizar una tabla de nmeros aleatorios.
Estas tablas comprenden mltiples combinaciones de nmeros extrados al azar. La
actuacin entonces seria: elegir un punto de partida, ya sea una columna o una fila
cualquiera de la tabla (esto ya supone un sesgo); hacer que coincida el nmero de dgitos de
la tabla con el nmero de dgitos de la poblacin del marco; y que el individuo al que
pertenece el nmero extrado pasar a formar parte de la muestra, salvo que en el marco no
se adjunte un medio para su localizacin.
4.2. Muestreo aleatorio sistemtico.
Es imprescindible un listado de la poblacin, pero difiere del muestreo aleatorio simple en
que: slo la primera unidad se elige al azar y los restantes elementos de la muestra se
obtienen sumando el coeficiente de elevacin, hasta completar el tamao muestral.
Si no se ha extrado un excedente de unidades muestrales a considerar para las sustituciones
en el momento de la seleccin muestral ha de calcularse un nuevo coeficiente de elevacin
que permita una nueva seleccin sistemtica de las unidades muestrales no cubiertas en el
trabajo de campo.
4.3. Muestreo aleatorio estratificado.
Supone la clasificacin de las unidades de poblacin en un nmero reducido de grupos, en
razn de su similaridad. Con esto se persigue que cada estrato tenga representacin en la
muestra final.
En el estratificado, la muestra se distribuye en diferentes grupos de poblacin, en funcin
de los valores que presente en las variables elegidas para la estratificacin. Se hace
siguiendo exclusivamente procedimientos aleatorios de seleccin muestral.
Lynn Lievesley (1991) destac cuatro puntos bsicos para el diseo de un esquema de
estratificacin:
1. Eleccin de las variables de estratificacin, condicionada a aquellas comprendidas en el
marco muestral de referencia.
2. Orden de las variables de estratificacin, eligiendo la variable de mayor relevancia para
la investigacin en el primer estadio y as sucesivamente.
Afijacin simple, el mismo tamao de la muestra a cada estrato. Con ello se busca la
igual representacin de los estratos en la muestra global. Esta equidistribucin del
tamao muestral conlleva un inconveniente importante y es que favorece a los
estratos de menor volumen de poblacin.
Por otra parte en la eleccin de las variables intervienen otros factores: la precisin que el
investigador desee y la accesibilidad de las variables elegidas. Las cuotas ms habituales
son las determinadas por la conjuncin de las variables sexo y edad. Una vez confeccionada
la matriz, se calculan las proporciones relativas para cada celdilla de la matriz, a partir de la
proporcin que representa cada categora de las variables seleccionadas en la poblacin
total.
Aunque el azar intervenga en las fases iniciales del diseo, la seleccin de los elementos
concretos de la poblacin es totalmente arbitraria. La nica condicin que se le impone es
que la persona se ajuste a las cuotas fijadas por el equipo investigador. Este margen de
libertad que se concede al entrevistador representa la principal debilidad porque introduce
sesgos ya que el entrevistador es libre de entrevistar a quien quiera o pueda. Adems dentro
de una cuota se puede escoger a unos individuos con preferencia a otros. Por otra parte el
entrevistador puede ubicar a los sujetos en cuotas diferentes a las que realmente pertenecen,
en aquellas donde se precisen casos.
El principal inconveniente de este tipo de muestreo es que la muestra finalmente obtenida
puede no ser representativa de la poblacin que se analiza, aunque la muestra diseada
coincida con la distribucin de la poblacin en los controles de cuotas fijados. Para
solventar los sesgos inherentes en el muestreo por cuotas, ste suele complementarse con el
muestreo de rutas aleatorias: para cada entrevistador se fija un itinerario aleatorio
indicndole en qu puntos concretos ha de realizar cada entrevista, limitado con ello la
arbitrariedad del entrevistador.
4.6. Muestreo de rutas aleatorias.
Lo solemos encontrar al final de un diseo muestral complementado tanto a muestreos no
probabilsticos como a probabilsticos. Se denomina muestreo de rutas porque establece el
camino a seguir en la seleccin de las unidades muestrales. Las rutas se eligen de forma
aleatoria, sobre un mapa del municipio en concreto donde se han de realizar las entrevistas.
Una vez que se a elegido de forma aleatoria el comienzo de la ruta, el entrevistador deber
tomar una direccin u otra, siguiendo las normas fijadas por el equipo investigador.
Este procedimiento de seleccin muestral por rutas aleatorias presenta la gran desventaja de
no garantizar que todas las unidades de la poblacin tengan la misma probabilidad de ser
elegidas, aunque la designacin de rutas sea aleatoria. Para obviar dicha ventaja se aconseja
complementar con el muestreo por cuotas.
4.7. Muestreo estratgico.
Es una modalidad de muestreo no probabilstico en el que la seleccin de las unidades
muestrales responde a criterios subjetivos, acordes con los objetivos de la investigacin.
Esta variedad de muestreo no probabilstico es habitual en estudios cualitativos y tambin
es frecuente en los experimentos realizados con personas que se ofrecen voluntarias en
estudios piloto.
La ji-cuadrado tambin se puede utilizar para estudiar si las frecuencias de una sola variable
son diferentes entre s, o para ver si las frecuencias observadas en la distribucin de una de
nuestras variables se ajusta a una distribucin hipottica previamente fijada. En definitiva,
se trata de ver si la distribucin es uniforme. El contraste ji-cuadrado con una sola variable
tiene inters en problemas en los que aparece el tiempo y su influencia.
Con variables a las que se les supone una distribucin normal o aproximadamente normal,
no tienen sentido el contraste de la ji-cuadrado para ver la uniformidad de la distribucin.
Lo mismo que tampoco lo tiene en todas las situaciones en las que no quepa pensar que las
frecuencias de las diferentes categoras de la variable vayan a ser las mismas.
Anlisis de los residuos:
La prueba ji-cuadrado sirve para ver si la relacin entre un par de variables es
estadsticamente significativa. El anlisis de los residuos va a utilizar las ideas de la jicuadrado para estudiar de una manera ms pormenorizada la tabla: en lugar de ver si las dos
variables estn relacionadas estudiamos la relacin entre cada pareja de categoras.
El anlisis de residuos (diferencia entre valor observado y valor esperado) es una aplicacin
de la ji-cuadrado al estudio de las parejas de categoras: observamos las frecuencias
obtenidas y las comparamos con las esperadas.
Los residuos ajustados (ltimo nmero de cada casilla) se interpretan como cualquier valor
de una variable estandarizada en una distribucin normal: valores superiores a +/- 1,96
difieren 0,0 con una probabilidad superior a 0.95. cuanto mayor sea el valor absoluto del
residuo ajustado, mayor ser la relacin entre la pareja de categoras.
Clculo del estadstico de Pearson: con los datos ordenados por rangos y
resolviendo el problema de los empates mediante el procedimiento de la media,
ambos coeficientes dan el mismo resultado (Pearson y Spearman).
Conocer la secuencia causal entre dos variables, una independiente y otra dependiente,
cuando no se duda de su relacin.
Descubrir relaciones ocultas entre otras dos variables.
Especificar las condiciones en las que se produce la relacin entre dos variables.
Ver el efecto conjunto de dos variables independientes sobre una dependiente.
Calculamos la relacin entre dos variables y a continuacin repetimos el cruce para cada
una de las categoras de la tercera variable. Que la relacin entre dos variables sea
independiente de la influencia de terceras variables significa que cualquiera que sea la
tercera variable que introduzcamos como control la relacin se mantendr firme.
- La estandarizacin: como forma de controlar la influencia de terceras, cuartas, etc
variables sobre la relacin entre otras dos. En demografa , estandarizar dos poblaciones
significa hacerlas iguales, al menos respecto de una caracterstica (variable).
Tema 7: COMPARACIN DE MEDIAS (proporciones)
Si estamos trabajando con variables intervales y nominales - ordinales y no queremos
perder informacin, podemos utilizar las siguientes tcnicas: las diferencias de medias y el
anlisis de la varianza, y una extensin de las ideas subyacentes a estas tcnicas llamada
anlisis de la segmentacin. Estas tcnicas se basan en el clculo de las medias de la
variable dependiente para los grupos que forman las variables independientes y se estudian
las diferencias que se observan.
las dos subpoblaciones, y, cuando las muestras son independientes, tenemos que decidir
entre asumir que son iguales o distintas, pues, si bien su media siempre es igual, la
desviacin tpica de esta distribucin variar segn sea el caso.
El contraste de las diferencias de medias exige que el nivel de medida de la variables
dependiente sea interval, puesto que de o contrario no tendra sentido calcular medias.
Hiptesis: en los contrastes de diferencias tambin vamos a tener hiptesis nula, y, adems,
varias hiptesis alternativas. La hiptesis nula siempre ser que la diferencia de medias en
la poblacin es igual a cero. Hiptesis alternativas:
+ las medias son diferentes.
+ la media del grupo uno es mayor que la del grupo dos.
+ la media del grupo uno es menor que la del grupo 2.
Distribucin muestral:
El mismo teorema que serva para una sola muestra sigue siendo vlido para la situacin en
la que tenemos infinitas parejas de muestras, en cada una de las cuales se calcula un
estadstico diferente.
+ Muestras independientes: podramos demostrar que la distribucin de las r diferencias es
normal o se aproxima mediante la t de Student, cuando las submuestras son pequeas, con
media o valor esperado de las diferencias igual a la diferencia en las subpoblaciones.
La desviacin tpica de las diferencias de las medias variar segn se asuma que las
varianzas de las subpoblaciones sean: distintas (la desviacin tpica es igual a la suma de
las desviaciones tpicas de cada uno de los trminos de la diferencia) o iguales (se calcula
una desviacin tpica media).
+ Muestras dependientes: la distribucin de las diferencias es normal, siendo la media de
todas las diferencias o valor esperado de las diferencias igual a la diferencia en las
subpoblaciones. El estimador de la desviacin tpica de esta distribucin muestral tambin
tiene un valor conocido y nico.
Valor - P, nivel de significacin y regin crtica.
Cuando tengamos una nica hipotesis alternativa, despus de calcular el estadstico de
nuestra pareja de submuestras podemos ver la probabilidad de hablerlo obtenido
suponiendo que el modelo del contraste fuera cierto.
La decisin de rechazar o no la hiptesis nula depende de nuestro nivel de exigencia,
caso de que trabajemos calculando un valor - P, o del nivel de significacin que hayamos
fijado en el contraste, en un enfoque clsico.
Muestras independientes:
Muestras dependientes:
Tambin llamadas pareadas, puesto que estn constitudas por parejas de observaciones,
normalmente correspondientes al mismo individuo. Dependiendo de que tratemos las
muestras como independientes o dependientes, haremos anlisis diferentes:
Independientes: calcularemos las medias de las opiniones sobre las situaciones actual y
futura y haremos un contraste para ver si su diferencia es significativa.
Dependientes: veremos las diferencias de cada pareja de opiniones, calculando
posteriormente una diferencia media. En este caso el contraste tienen como fin ver si la
diferencia media es distinta de cero. Supone calcular primero las diferencias entre los
valores de cada individuo, para estudiar despus si la diferencia media es
significativamente diferente de cero.
Supuestos del contraste: este contraste plantea la necesidad de que la distribucin de las
diferencias sea aproximadamente normal.
Contraste no paramtrico para muestras pareadas. El contraste de la t que utilizamos para
estudiar la diferencia de las medias de dos muestras pareadas exige que la distribucin de
las diferencias entre ambas variables est normalmente distribuida, o que el tamao de las
muestras de las diferencias sea grande, con el fin de aplicar el teorema central del lmite.
El test del signo es una prueba no paramtrica que se utiliza con muestras pareadas para
contrastar la hiptesis de que las distribuciones de dos variables son iguales. No exige
ningn supuesto sobre la forma de la distribucin. La idea del test es que si ambas variables
Comparacin de proporciones:
(Casi) todo lo que se dice sobre las medias se puede aplicar a las proporciones.
Diferencia de porcentajes con una sola variable.
Diferencia de porcentajes con dos variables: podemos:
Ver el cruce de ambas variables, mediante una tabla de contingencia, y realizar un
contraste de la ji-cuadrado. Esto es til en tablas de 2x2.
Hacer igualmente el cruce para ver la diferencia de proporciones y luego realizar un
contraste de la diferencia de proporciones.
Segmentacin de la muestra
Es una tcnica muy til que no exige mayores conocimientos estadsticos. Es segmentar
una variable en subgrupos, para cada uno de los cuales se calcula la media.
+ Relaciones condicionales (interaccin): cuando se observa que las medias de las
categoras de una variable difieren con el nivel de primera a tercera se dice que existe
interaccin entre las tres variables. Tambin se dice que la influencia es de tipo condicional,
pues las medias de las categoras de una variable cambian segn sean sus condiciones.
Cuando tratamos los datos como una muestra de la poblacin, hay que realizar contrastes o
pruebas que nos permitan ver si las diferencias de medias que se observan entre las
categoras son estadsticamente significativas. Tenemos que introducir una nueva prueba, el
anlisis de la varianza.
El anlisis de la varianza:
Es una extensin de las diferencias de medias a situaciones en las que existen ms de dos
grupos.
+ Anlisis de variazna con un factor (oneway). Cuando utilizamos el anlisis de la varianza
queremos ver el efecto que tienen una o varias variables independientes en otra
dependiente. A las variables independientes (nominal u ordinal) se les llama factores, y a
sus categoras niveles. Etapas:
Vemos las medias de valoracin para cada grupo.
Comprobamos si se cumplen los supuestos que justifican la utilizacin del anlisis de la
varianza con un solo factor.
Calculamos un estadstico que resuma la relacin entre ambas variables: la F de
Snedecor. Si los datos provienen de una muestra aleatoria, contrastamos este estadstico
para ver si es estadsticamente significativo.
Suponiendo que las diferencias sean significativas hemos de comprobar entre qu
parejas.
Estadsticos descriptivos univariables.
Comprobacin de los supuestos y prueba no paramtrica de Kruskal - Wallis.
Tendremos que realizar un contraste de hiptesis que nos permita ver la significatividad
estadstica de las diferencias observadas en las tres muestras. El contraste que elegimos es
la F. Se supone (modelo del contraste):
que las submuestras de cada uno de los r niveles de los factores son aleatorias e
independientes.
que sus distribuciones son normales y de igual varianza - supuestos de normalidad y
homocedasticidad-.
Como hiptesis nula diremos que las medias poblacionales de las r submuestras son
iguales. La hiptesis alternativa postular su diferencia. El problema se plantea cuando no
se cumplen los supuesto de normalidad y homocedasticidad, o la variable criterio no es
interval.
Soluciones:
Una vez que hemos comprobado que existe diferencia entre las medias, tratamos de ver
entre qu medias en particular. Es decir, la F del apartado anterior nos dice que las
valoraciones medias de los grupos son diferentes. La prueba de Scheffe sirve para hacer
comparaciones binarias. Tiene la ventaja de ser aplicable en muestras de tamao desigual y
es bastante robusto frente a desviaciones del supuesto de homocedasticidad.
+ Anlisis de la varianza con dos factores (ANOVA): interesa estudiar el efecto de ambos
factores, aisladamente y en interaccin. Nuevos conceptos:
Diseos ortogonales: aquel en el que las variables independientes estn correlacionadas.
El nmero de casos en cada una de las combinaciones de las categoras de los factores ha
de ser el mismo (diseo equilibrado). Se obtienen fcilmente en la investigacin
experimental. En la no experimental es difcil que se consiga la ortogonalidad de los
factores, puesto que las variables independientes suelen estar correlacionadas, adems de
resultar casi imposible que aparezca el mismo nmero de casos en cada combinacin de sus
categoras. La condicin de equilibrio se puede obviar siempre y cuando se mantenga la
proporcionalidad en las categoras. En estos casos de proporcionalidad es posible utilizar
los procedimientos tradicionales del anlisis de la varianza, con tal de que se cumplan los
supuestos de normalidad y homocedasticidad. Pasos:
Variabilidad factor 2: no todos los individuos son iguales en el factor 2 (factor B).
Variabilidad total: suma de todas las variabilidades anteriores. Mide las diferencias,
al cuadrado, de cada individuo con relacin a la media, y recibe el nombre de suma
de cuadrados total.