Вы находитесь на странице: 1из 38

INFERENCIA DE VARIABLES

CUANTITATIVAS
EDUARDO VERGARA WEKSELMAN
MEDICO EPIDEMIOLOGO
RNE 20215

CAMPANA DE GAUSS
1. Al describir una variable, no es suficiente
con dar una medida de tendencia central.
2. Informar de la dispersin de estos datos, de
si estn todos muy agrupados o no alrededor
de la media.
stas son las medidas de dispersin, entre las
que destacan la desviacin estndar y la
amplitud o
rango.
El rango es la diferencia entre el valor mximo
y
mnimo en la muestra.
La desviacin estndar informa de la
variabilidad de la variable.
3. Una variable que sigue una distribucin
simtrica (distribucin normal, la famosa
campana de Gauss), el 95% de los valores se
encuentra entre la media ms y menos 1,96
desviaciones estndar (figura
1). En lugar de 1,96 se suele redondear a 2.

ANALISIS DE LOS DATOS


Actividad de transformar un conjunto de datos con el objetivo de poder
verificarlos muy bien dndole al mismo tiempo una razn de ser o un anlisis
racional.
Consiste en analizar los datos de un problema e identificarlos

ANLISIS CUANTITATIVO: PASOS


1. Depurar datos: el propsito de la depuracin de datos es buscar y arreglar estas y otras
inconsistencias que pudieran ocasionar que aparezcan registros duplicados o incorrectos en la base
de datos
2. Eliminar los datos atpicos: Valor atpico es una observacin que es numricamente distante del
resto de los datos.
Las estadsticas derivadas de los conjuntos de datos que incluyen valores atpicos sern
frecuentemente engaosas.
Los valores atpicos pueden ser indicativos de datos que pertenecen a una poblacin diferente del
resto de la muestra establecida.
3. Proceder a la seleccin de la prueba estadstica: la estadstica descriptiva es una gran parte de la
estadstica que se dedica a analizar y representar los datos. Este anlisis es muy bsico. Algunos
ejemplos son: media, moda, desviacin estndar, etc.
La inferencia estadstica o estadstica inferencial es una parte de la estadstica que comprende los
mtodos y procedimientos para deducir propiedades (hacer inferencias) de una poblacin, a partir
de una pequea parte de la misma muestra.
La bondad de estas deducciones se mide en trminos probabilsticos, es decir, toda inferencia se
acompaa de su probabilidad de acierto.
4. Aplicar el programa estadstico para el anlisis. Analizar es descomponer el todo en sus partes,
recomponer y observar de nuevo el fenmeno a travs de la medidas aplicadas.

En un proyecto de investigacin todo tiene que estar planificado.


El apartado de resultados del artculo puede estar completamente escrito,
habiendo dejado slo los huecos para rellenar con los datos.
Esto ayuda al equipo investigador a realizar el anlisis en una secuencia
lgica, ordenada, utilizando nicamente las pruebas estadsticas necesarias y
pertinentes.
Por ello debera ser la parte ms sencilla de escribir, ya que se trata de dar
respuesta a las preguntas de investigacin planteadas.
Ninguno de los objetivos planteados se debe quedar sin su correspondiente
respuesta en resultados, pero tampoco hay que dar resultados no
especificados en los objetivos.
No es preciso proporcionar absolutamente todos los resultados obtenidos y
cargar al lector de nmeros.
La obsesin por incluirlo todo, sin olvidar nada, no es una prueba de que se

Los paquetes estadsticos, especialmente en determinados anlisis multivariados,


difieren en la forma de presentar los resultados o incluso en pruebas concretas
utilizadas: es importante especificar cul se ha utilizado.
La descripcin de las variables debe ser coherente con la escala de las variables y
con las pruebas de contraste de hiptesis usadas posteriormente.
Por ejemplo, no se puede describir una variable con la media y la desviacin
estndar (entendiendo con ello que sigue una distribucin normal) y despus
emplear pruebas de contraste de hiptesis no paramtricas.
En cuanto al nivel de significacin estadstica aceptado, tambin debe
especificarse, aunque prcticamente todo el mundo trabaja con un nivel del 5% (p
<0,05).
De todos modos, es preferible presentar los resultados con el intervalo de
confianza, que en este caso sera del 95%.

CONTRASTE DE HIPTESIS
La estadstica inferencial, adems de la estimacin de parmetros, se encarga del
contraste de hiptesis.
Si se plantean preguntas del tipo: Es ms alto el porcentaje de cesreas en los
hospitales pblicos que en los privados? La vigilancia electrnica del feto durante el
trabajo de parto, tiene efectos positivos en el resultado del embarazo? La lactancia
materna disminuye el nmero de infecciones en los lactantes?
El contraste de hiptesis consiste en comprobar si una hiptesis puede ser aceptada o
rechazada con cierta probabilidad de acertar. La hiptesis que va a ser contrastada es la
hiptesis nula, la hiptesis de la igualdad, de la ausencia de diferencia.
Se formula con la intencin expresa de ser rechazada. Si se rechaza, puede entonces
aceptarse la hiptesis alternativa, que es la hiptesis de investigacin del
experimentador.
Por ejemplo, el objetivo de nuestro estudio es ver si el peso de los recin nacidos es
menor entre las madres fumadoras respecto a las no fumadoras.

La hiptesis nula es que no hay diferencias entre el peso de los recin nacidos segn la
madre sea fumadora o no.
La hiptesis alternativa es que el peso de los recin nacidos de madres fumadoras es
menor que el peso de los recin nacidos de madres no fumadoras.
Siempre existe una posibilidad de error.
Si se rechaza la hiptesis nula siendo cierta, el error se denomina alfa, o error tipo I, y si
no se rechaza la hiptesis nula siendo falsa, el error se denomina beta o error tipo II.

PRUEBAS ESTADISTICAS MS
UTILIZADAS SEGN TIPO DE VARIABLES

Pita Fernndez, S., Prtegas Daz, S.

Pita Fernndez, S., Prtegas Daz, S.

PROCESO PARA EFECTUAR ANALISIS


ESTADISTICO

RESULTADOS DEL CONTRASTE DE HIPTESIS


El resultado del contraste de hiptesis se expresa mediante la p (nivel de
significacin estadstica o probabilidad asociada al error tipo I), de modo que si
la p es <0,05, decimos que las diferencias son estadsticamente significativas,
mientras que si es mayor, las diferencias encontradas no son
estadsticamente significativas.
No existe una lgica detrs del hecho de que prcticamente todo el mundo
utilice un nivel de significacin estadstica del 5%.
Por otro lado, el tamao de la muestra, en estadstica, es como una lupa:
cuando el tamao de las muestras es grande, cualquier pequea diferencia se
detecta como estadsticamente significativa y, en cambio, cuando el tamao
de las muestras es pequeo, grandes diferencias pueden no resultar
estadsticamente significativas.
La p no proporciona en absoluto informacin de la magnitud del efecto. Una
p= 0,001 no quiere decir que el efecto es mayor que si ha resultado p= 0,78.

NIVEL CRITICO DE UNA PRUEBA ESTADISTICA


NIVEL CRITICO

INTERPRETACION

CONCLUSION

p > 0.05

Indica que la diferencia encontrada


es NO SIGNIFICATIVA y puede
deberse al azar del muestreo

No rechazar Ho
No hay evidencia suficiente para
rechazar

0.01 < p 0.05

Indica que la diferencia encontrada


ES SIGNIFICATIVA y que
probablemente no se deba al azar

Rechazar Ho a favor de Ha
hay evidencia suficiente para
rechazar

0.001 < p 0.01

Indica que la diferencia encontrada


es MUY SIGNIFICATIVA y
probablemente se deba a que hay
diferencias en la poblacin

Rechazar Ho a favor de Ha
hay evidencia suficiente para
rechazar

p 0.001

Indica que la diferencia encontrada


es ALTAMENTE SIGNIFICATIVA y
probablemente se deba a que hay
diferencias en la poblacin

Rechazar Ho a favor de Ha
hay evidencia suficiente para
rechazar

S p > , entonces No se puede rechazar la Hiptesis al nivel establecido


S p entonces se rechaza la Hiptesis al nivel establecido

De aqu se deriva tambin que, en las pruebas de contraste de hiptesis, no


es suficiente con presentar la p, porque no ofrece una idea de las diferencias
observadas.
Lo ms conveniente es presentar los intervalos de confianza, el rango de
valores probable, para que el lector, con un espritu crtico, pueda interpretar
directamente esos resultados.
Adems, si el intervalo de confianza de las diferencias observadas incluye el
valor nulo, quiere decir que las diferencias no son estadsticamente
significativas, y si el intervalo de confianza no incluye el valor nulo, las
diferencias observadas son estadsticamente significativas.
Si se comparan proporciones, se presenta el intervalo de confianza de la
diferencia de proporciones; si se comparan medias, el intervalo de confianza
de la diferencia de las medias.
Otras medidas especficas como el riesgo relativo (RR) en los estudios de

ANALISIS PARAMETRICO Y NO
PARAMTRICO
Un parmetro es un dato que es tomado como necesario para analizar o valorar una
situacin.
A partir del parmetro, una determinada circunstancia puede entenderse o situarse en
perspectiva.
Para las matemticas, un parmetro es una variable que permite identificar, en una
familia de elementos, a cada uno de ellos mediante su valor numrico.
Un parmetro estadstico es una funcin definida sobre los valores numricos de una
poblacin. Se trata, por lo tanto de un valor representativo que permite modelizar la
realidad.
La utilidad de los parmetros estadsticos se encuentra ante la dificultad para manejar
una gran cantidad de datos individuales de una misma poblacin. Este tipo de parmetros
permite obtener un panorama general de la poblacin y realizar comparaciones y
predicciones.
En las ciencias de la computacin, un parmetro es una variable que puede ser recibida
por una rutina o una subrutina (que utilizan los valores asignados a un parmetro para
modificar su comportamiento en el tiempo de ejecucin).
La parametrizacin de una base de datos, por otra parte, es la organizacin y

PRUEBAS PARAMTRICAS
Su clculo implica una estimacin de los parmetros de la poblacin con base
en muestras estadsticas.
Mientras ms grande sea la muestra ms exacta ser la estimacin, mientras
ms pequea, ms distorsionada ser la media de las muestras por los valores
raros extremos.
Son valores numricos dados.
Los anlisis paramtricos parten de los siguientes supuestos:
1.La distribucin poblacional de la variable dependiente es normal: el universo
tiene distribucin normal.
2.El nivel de medicin de las variables es por intervalos de razn.
3.Cuando dos o ms poblaciones son estudiadas, tienen una varianza
homognea: las poblaciones en cuestin poseen una dispersin similar en sus
distribuciones.
Como estos criterios son muy rigurosos, algunos investigadores slo basan sus

LAS PRUEBAS PARAMTRICAS


MS UTILIZADAS SON
Coeficiente de correlacin de Pearson y regresin lineal.
Prueba t.
Prueba de contraste de las diferencias de proporciones.
Anlisis de varianza unidireccional (ANOVA en un solo sentido o oneway)
Anlisis de Varianza factorial (ANOVA)
Anlisis de covarianza (ANCOVA)

Descripcin. (Otra lista de pruebas paramtricas):


Prueba del valor Z de la distribucin normal
Prueba T de Student para datos relacionados (muestras dependientes)
Prueba T de Student para datos no relacionados (muestras independientes)
Prueba T de Student-Welch para dos muestras independientes con varianzas
no homogneas
Prueba de ji cuadrada de Bartlett para demostrar la homogeneidad de
varianzas
Prueba F (anlisis de varianza o ANOVA)

EL COEFICIENTE DE
CORRELACIN DE PEARSON (R)
Es una prueba estadstica para analizar la relacin entre dos variables medidas en un
nivel por intervalos o de razn.
Prueba Hi del tipo de A mayor X, mayor Y; A mayor X, menor Y; etc.
La prueba en si no considera a una como independiente y la otra como dependiente,
porque no evala la causalidad, solo la relacin mutua (correlacin).
El coeficiente se calcula a partir de las puntuaciones obtenidas en una muestra de dos
variables. Se relacionan las puntuaciones obtenidas de una variable con las puntuaciones
obtenidas de otra variable, en los mismos sujetos.
Mide niveles de variables de intervalo o de razn.
Puede variar de -1,00 a +1,00

REGRESIN LINEAL
Es modelo matemtico para estimar el efecto de una variable sobre otra. Est
asociado con el coeficiente r de Perason.
Sirve para resolver Hi correlacionales y causales.
Mide variables de Intervalos y de razn.
La regresin lineal se determina con base al diagrama de dispersin.
Este consiste en una grfica donde se relacionan las puntuaciones de una muestra
en dos variables, como la de estatura y peso del ejemplo anterior.

PRUEBA T (PARAMTRICA)
Una prueba t de Student o Test-T es cualquier prueba en la que el estadstico utilizado tiene una
distribucin t de Student si la hiptesis nula es cierta.
Se aplica cuando la poblacin se asume ser normal pero el tamao muestral es demasiado pequeo como
para que el estadstico en el que est basada la inferencia est normalmente distribuido, utilizndose una
estimacin de la desviacin tpica en lugar del valor real.
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge
del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la
muestra es pequeo.
Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre
dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias
de dos poblaciones cuando se desconoce la desviacin tpica de una poblacin y sta debe ser estimada a
partir de los datos de una muestra.
Es una prueba estadstica para evaluar si dos grupos difieren estadsticamente entre s, de manera
significativa respecto a sus medias
Es una prueba apropiada para comparar los promedios de dos grupos, y especialmente apropiado como
anlisis para el diseo experimental de solo postest de dos grupos al azar.
Mide variables de intervalo o de razn.

COEFICIENTE RHO DE
SPEARMAN
Es un coeficiente para medir el grado de asociacin entre dos variables ordinales
cuyos valores indican rangos en cada una de ellas.
Rho toma el valor +1 cuando existe igualdad de rangos de los casos en las dos
variables y -1 cuando tienen rangos exactamente opuestos.
Los valores intermedios pueden ser interpretados segn sus magnitudes relativas. Su
frmula de clculo es:

En la cual:
D = diferencia de rangos en las dos variables, o, diferencia entre los correspondientes estadsticos de orden dex-y.
N = nmero de parejas.

Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a ladistribucin t de Student.

ANLISIS NO PARAMETRICOS
Aquellas que no presuponen una distribucin de probabilidad para los datos, por ello se conocen tambin como
de distribucin libre (distribution free).
En la mayor parte de ellas los resultados estadsticos se derivan nicamente a partir de procedimientos de
ordenacin y recuento, por lo que su base lgica es de fcil comprensin.
Cuando trabajamos con muestras pequeas (n < 10) en las que se desconoce si es vlido suponer la normalidad
de los datos, conviene utilizar pruebas no paramtricas, al menos para corroborar los resultados obtenidos a
partir de la utilizacin de la teora basada en la normal.
Es una rama de la estadstica que estudia las pruebas y modelos estadsticos cuya distribucin subyacente no se
ajusta a los llamados criterios paramtricos. Su distribucin no puede ser definida a priori, pues son los datos
observados los que la determinan. La utilizacin de estos mtodos se hace recomendable cuando no se puede
asumir que los datos se ajusten a una distribucin conocida, cuando el nivel de medida empleado no sea, como
mnimo, de intervalo.
Aunque el trmino no paramtrico sugiere que la prueba no est basada en un parmetro, hay algunas pruebas
no paramtricas que dependen de un parmetro tal como la media.
Las pruebas no paramtricas, sin embargo, no requieren una distribucin particular, de manera que algunas
veces son referidas como pruebas de libre distribucin.
Aunque libre distribucin es una descripcin ms exacta, el trmino no paramtrico es ms comnmente usado.
Las siguientes son las mayores ventajas y desventajas de los mtodos no paramtricos

VENTAJAS DE LOS MTODOS NO


PARAMTRICOS
1. Los mtodos no paramtricos pueden ser aplicados a una amplia variedad de
situaciones porque ellos no tienen los requisitos rgidos de los mtodos paramtricos
correspondientes.

En

particular,

los

mtodos

no

paramtricos

no

requieren

poblaciones normalmente distribuidas.


2. Diferente a los mtodos paramtricos, los mtodos no paramtricos pueden
frecuentemente ser aplicados a datos no numricos, tal como el gnero de los que
contestan una encuesta.
3. Los mtodos no paramtricos usualmente involucran simples computaciones que los
correspondientes en los mtodos paramtricos y son por lo tanto, ms fciles para
entender y aplicar.

DESVENTAJAS DE LOS MTODOS


NO PARAMTRICOS
1. Los mtodos no paramtricos tienden a perder informacin porque datos
numricos exactos son frecuentemente reducidos a una forma cualitativa.
2. Las pruebas no paramtricas no son tan eficientes como las pruebas
paramtricas, de manera que con una prueba no paramtrica generalmente
se necesita evidencia ms fuerte (as como una muestra ms grande o
mayores diferencias) antes de rechazar una hiptesis nula.
. Cuando los requisitos de la distribucin de una poblacin son satisfechos, las
pruebas no paramtricas son generalmente menos eficientes que sus
contrapartes paramtricas, pero la reduccin de eficiencia puede ser
compensada por un aumento en el tamao de la muestra.

LA JI CUADRADA O X
2

Es una prueba estadstica para evaluar hiptesis acerca de la relacin entre dos
variables categricas.
Sirve para probar Hi correlacionales.
Mide variables nominales u ordinales (o intervalos o razn reducidas a
ordinales)

Ej: Presentacin o en su defecto, no presentacin, de un aviso publicitario y
compra o no compra de un producto.
Ej: Un corredor de propiedades quiere saber qu tipo de vivienda prefieren los
profesionales. Se le pregunta a un grupo de profesionales sobre sus
preferencias de vivienda (casa o departamento) y si prefiere vivir en Chiclayo
en Villarrica - JLO.

CHI CUADRADO
Variables cualitativas
Dos o ms categoras
excluyentes

Para hallar los valores esperados

E = (a+b) x (a+c) = 250 x 148 = 18.5 (a)


n

2000

Tablas de contingencia
Peso del nio al nacer. Estudio de seguimiento de 2000
gestantes.

Recin nacido de bajo peso

Gestante

No

Total

Fumadora

43(a)

207(b)

250 (a+b)

No fumadora

105(c)

1645(d)

1750 (c+d)

Total

148 (a+c)

1852 (b+d)

2000

CHI CUADRADO
E = (a+b) x (b+d)

= 250 x 1852 = 231.5 (b)

2000

E = (c+d) x (a+c) = 1750 x 148 = 129.5 (c)


n

2000

E = (c+d) x (b+d) = 1750 x 1852 = 1620.5 (d)


2000 de seguimiento de 2000
Peso delnnio al nacer. Estudio
gestantes. (valores esperados)

Recin nacido de bajo peso

Gestante

No

Total

Fumadora

18.5(a)

231.5(b)

250

No fumadora

129.5(c)

1620.5(d)

1750

Total

148

1852

2000

X2 = (43 - 18.5)2 + (207 - 231.5)2 + (105 - 129.5)2 + (1645 - 1620.5)2


18.5

231.5

129.5

1620.5

X2 = (24.5)2 + (-24.5)2 + (-24.5)2 + (24.5)2


18.5

231.5

129.5

1620.5

X2 = 600.25 + 600.25 + 600.25 + 600.25 = 32.44 + 2.59 + 4.6 + 0.37


18.5
X2 = 40.04

231.5

129.5

1620.5

Para una seguridad del 95% ( =0.05) el valor terico de una distribucin jicuadrado con un grado de libertad es 3,84.
Para =0.01 es de 6,63 y para =0.005 es de 7,88. Como quiera que en el
clculo del 2 en el ejemplo obtuvimos un valor de 40,04, que supera al valor
para =0.005.
Concluimos que las dos variables no son independientes, sino que estn
asociadas (p<0.005).
Por lo tanto, a la vista de los resultados, rechazamos la hiptesis nula (H 0) y
aceptamos la hiptesis alternativa (Ha) como probablemente cierta.

ESQUEMA DE SELECCIN DE PRUEBAS


ESTADSTICAS
Si

Prueba Z para la media

1 grupo
Si

n > = 30
No

Prueba T para la media

Distribucin
normal

Prueba del signo


para la mediana

No
Si

Si

Prueba Z para la media

n > = 30

Si
Si Varianzas
iguales

No Distribucin

g de libertad

2 grupos

No

Independientes
Si

No

Si
Distribucin
normal

Si
Si

Independientes
No

Distribucin
Normal c/varianzas
semejantes
Distribucin
Normal c/varianzas
semejantes

Prueba de Mann Whitney


para comparacin de poblac
Prueba Z para la media
de la en datos apareados

n > = 30
No

3 grupos

Prueba T

No Con ajustes de

normal
Nmero
de grupos

Prueba T
para de medias

Prueba T para la media de


La en datos apareados

Prueba del signo de

No Wilcoxon para datos apareados


ANVA Comparacin de Ttos0

No Prueba de krustal-Wallis-Comp Ttos


Si
ANVA en bloque Comparacin de Ttos
No

Prueba de Friedman -Comp Ttos

ESQUEMA DE SELECCIN DE PRUEBAS ESTADSTICAS CUANDO LA VARIABLE


DEPENDIENTE ES NOMINAL
1 grupo

Si

Prueba Z para la proporcin poblacional

Muestra grande
nP y n (1-P) > 5

Prueba binomial p/ proporcin poblacional

No

Si
Si

Nmero
de grupos

Frecuencias
Esperadas
pequeas

Prueba exacta de Fisher


Comparacin de proporciones

No

Prueba Z o Prueba JI Cuadrado para


Comparacin de proporciones

2 grupos
Independientes

Prueba de McNemar
Comparacin de proporciones

No

3 grupos

Si

Independientes
No

Frecuencias
Esperadas
pequeas

Si

Prueba JI Cuadrado (reunir categoras)


para comparacin de proporciones

No

Prueba JI Cuadrado para


Comparacin de proporciones
Prueba Q de Cochran
comparacin de tratamientos

ESQUEMAS DE SELECCIN DE PRUEBAS ESTADSTICAS PARA MEDIR


RELACIN ENTRE VARIABLES
Continua
Coeficiente de correlacin lineal de Pearson

Escala de
Medicin
para
ambas
variables

Ordinal y/ nmerica
Coeficiente de correlacin por rangos de Spearman

Nominal
Cada variable
Tiene dos
Categoras
(tabla de 2x2)

Prueba JI Cuadrado (Coeficiente )


Riesgo relativo (Estudios de cohorte)
Odds ratio (Estudios de casos-control)
Coeficiente de concordancia Kappa
(Comparacin de mtodos)

Prueba de JI Cuadrado para independencia


de variables (Coeficiente de contingencia)

Вам также может понравиться