Вы находитесь на странице: 1из 23

Diplomado en Salud Pública

2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

2.2.2. Inferencia estadística: estimación y contrastes

Índice
Página

i) Introducción a la inferencia ..................................................................... 2


ii) Estimación puntual ................................................................................. 3
iii) Estimación por intervalos de confianza ................................................. 5
iv) Nociones básicas de contrastes de hipótesis..................................... 10
v) Población y muestra: ideas fundamentales......................................... 18

Ejercicios
Página
Ejercicio 2.1:........................................................................................................................ 4
Ejercicio 2.2:........................................................................................................................ 9
Ejercicio 2.3:...................................................................................................................... 17
Ejercicio 2.4:...................................................................................................................... 23

Ana Dorado Díaz 1


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

i) Introducción a la inferencia

El fin último de la investigación clínica, suele ser conocer cómo se


distribuyen determinadas enfermedades, o fenómenos sanitarios en la
población e incluso profundizar más en el tema averiguando qué factores han
podido condicionar esa distribución.

Cuando alguien realiza un experimento, por ejemplo comprobar la eficacia


de un nuevo medicamento, o realiza una observación, como ver cuántos
fumadores desarrollan una determinada enfermedad, siempre pretende
demostrar algo. No hacemos experimentos por el mero hecho de hacerlos, sino
que los hacemos porque buscamos “algo”.

Supongamos que queremos conocer cuál es la proporción de hipertensos


en Castilla y León y estudiar sus características (sexo, edad, etc.), posibles
factores de riesgo (fumador, sobrepeso, etc.). Tener acceso a toda la
población, habitualmente no está a nuestro alcance: ya sea por motivos
económicos (sería tremendamente caro recorrer todo el territorio de Castilla y
León recogiendo datos), de tiempo (llevaría demasiado tiempo hacerlo), o
incluso por imposibilidad material (habría castellanos y leoneses
temporalmente fuera de la Comunidad, por ejemplo).

La única opción que tenemos para saber algo de la población, es


estudiar una parte representativa de ella, lo que se conoce como una muestra
representativa de la población. De aquí se desprende que cuanto mayor sea la
muestra, más se asemejará a la población de la que procede y por lo tanto,
menor error cometeremos al concluir qué hallazgos realizados en la muestra se
encontrarían también en la población. Del mismo modo, cuanto menor sea la
muestra, mayor será, el error que cometemos al realizar inferencia.

Todo proceso en que se hacen referencias, generalizaciones y


predicciones sobre una población basándose en la información contenida en
una muestra, recibe el nombre de inferencia estadística.

Dentro de la inferencia estadística, podemos distinguir dos grandes


apartados:

 Estimación: Trata de determinar los parámetros1 poblacionales


(generalmente desconocidos) sin hacer hipótesis previas sobre los posibles
valores de los mismos.

Dentro de esta parte, podemos a su vez distinguir entre estimación


puntual y estimación por intervalos:

1
Parámetro: es un número (usualmente desconocido) que caracteriza a una población o a una variable aleatoria. Ej:
estatura media de los españoles, efectividad de un medicamento, etc.

Ana Dorado Díaz 2


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
 Estimación puntual: Trata de calcular, a partir de los valores de la muestra
un valor que sustituya a un parámetro desconocido de la población, de forma
que ambos sean lo más parecidos en algún sentido. Al valor obtenido de la
muestra se le denomina estimador.
 Estimación por intervalos: A través de los valores observados en la
muestra, trata de proponer un conjunto de valores que contienen al
verdadero valor del parámetro poblacional (desconocido) con una cierta
“confianza”.

 Contrastes de hipótesis: Se plantean hipótesis previas sobre los


parámetros desconocidos y se desarrolla un procedimiento para comprobar la
veracidad de las hipótesis planteadas.

ii) Estimación puntual

Como ya hemos comentado en la introducción, denominaremos


estimación puntual a suponer como cierto un valor “aproximado” para el
parámetro2 de una población (desconocido), a partir de los datos obtenidos de
una muestra (en teoría representativa de la población y extraída de la misma
con las suficientes garantías).

Supongamos que queremos conocer la altura media de los españoles, (a


este valor lo denominaremos parámetro). Para ello medimos a unos cuantos
españoles (una muestra representativa) y el valor medio de sus alturas será
una estimación del parámetro “altura media de los españoles”.

Ahora imaginemos que nos interesa saber cuál es la probabilidad de que


alguien desarrolle enfermedad en un tiempo determinado. Para ello,
seguiremos a un grupo de personas de su mismo perfil durante el tiempo de
interés y pensaremos que la probabilidad teórica (la verdadera, la de la
población) está próxima al porcentaje observado (en el grupo, en la muestra).

Las propiedades deseables para un estimador son:

 Que sea insesgado, es decir, que sean lo más parecido en algún sentido al
parámetro a estimar.
 Que tenga varianza mínima, es decir, que sea estable en el muestreo.

Cuando un estimador cumple las dos propiedades descritas, decimos que


el estimador es eficiente.

2
Cuidado con las distintas acepciones que se dan a los mismos términos. En el lenguaje médico podemos ver, por
ejemplo, que a las distintas variables bioquímicas medidas en un análisis de sangre u orina se les denomina
parámetros. En Estadística se reserva esa palabra para los valores en la población.

Ana Dorado Díaz 3


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Los estimadores eficientes más utilizados para hacer estimaciones
puntuales de parámetros poblacionales son los siguientes:

- La media muestral X  es un estimador eficiente de la media

poblacional  .

 
- La cuasi-varianza muestral 3 Sˆ2 , es un estimador eficiente de la
varianza poblacional  2 .  
- La proporción de éxitos en la muestra p , es un estimador eficiente
de la proporción en la población p.

Ejercicio 2.1:
Supongamos que los datos proporcionados en la base de datos
Pacientes_infartados.xls han sido extraídos al azar (por un procedimiento de
muestreo adecuado) y son una muestra representativa de los pacientes que
acuden a urgencias a lo largo del año en un hospital. Queremos realizar unas
estimaciones puntuales a cerca de los posibles valores de determinados
parámetros de la población:

Respuesta
1. Realice una estimación puntual de la edad de los pacientes
infartados.

2. Realice una estimación puntual de la variabilidad del peso de


los pacientes infartados.

3. Realice una estimación puntual para conocer la proporción de


hombres infartados.

4. Realice una estimación puntual para conocer la proporción de


pacientes infartados, con tipo 3 de infarto.

3
Se define igual que la varianza muestral, pero en el denominador tiene un “n-1” en lugar de “n”.

Ana Dorado Díaz 4


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

iii) Estimación por intervalos de confianza

En el ejemplo anterior sobre la estatura media de los españoles, si


repetimos otra vez el experimento, es decir, hacemos las mismas mediciones,
de la misma forma, a otros sujetos seleccionados del mismo modo,
¿obtendríamos idénticos resultados? Pues casi seguro que no…

Cuando hacemos una estimación puntual de un determinado parámetro


poblacional, nos encontramos con un doble problema: por un lado, el valor
obtenido solamente da una idea aproximada del verdadero valor del parámetro
a estimar, y por otro, no sabemos el grado de bondad de la aproximación, es
decir, ignoramos en qué medida el valor obtenido se aproxima al verdadero
valor del parámetro estimado.

Es prácticamente imposible conocer con exactitud la estatura media de los


españoles, lo que hacemos habitualmente es determinar su valor aproximado
indicando entre qué valores reales a y b se encuentra comprendida la estatura.
Esta afirmación la haremos con cierta seguridad o “confianza”.

Los valores a y b, extremos de un intervalo de la recta real, son los


valores tomados por dos funciones L1 y L2 que dependen de la muestra x1,…,xn
elegida al azar, es decir, L1(x1, …, xn) y L2(x1, …, xn), que tienen un valor u otro
dependiendo de cuáles sean los valores que las variables tomen sobre los n
elementos de una muestra aleatoria de la población en estudio.

Así pues, el problema consiste en determinar cuáles son las funciones L1


y L2, que nos permiten afirmar que el parámetro , estatura media de los
españoles (por ejemplo, podría ser cualquier otro parámetro) verifica, con cierta
seguridad que a ≤ ≤ b.

 L 1x 1,, x n ; L 2 x 1,, x n 



I1

Podemos definir por lo tanto, la estimación por intervalos, como la parte


de la Estadística que trata de proponer un conjunto de valores que contienen al
verdadero valor del parámetro poblacional (desconocido) con una cierta
“confianza”.

Cada muestra concreta dará lugar a un intervalo de confianza, por lo que


tendrá sentido hablar de P(a ≤  , es decir, probabilidad de que el
estimador “cubra” el verdadero valor del parámetro . Esta probabilidad recibe
el nombre de nivel de confianza y la denotamos por 1-.

Por tanto, lo que afirmamos es que si se repitiera muchas veces el


experimento con muestras extraídas al azar, se verificaría que en el 100(1-)%
de las ocasiones, obtendríamos extremos a y b que contendrían al verdadero
valor del parámetro , mientras que en el 100% restante, no lo contendrían.

Ana Dorado Díaz 5


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Los niveles de confianza más habituales son el 95% y el 99%.

En el ejemplo de la estatura,
supongamos que al tomar la
muestra de españoles hemos
obtenido que 171 ≤ ≤ 178, es decir
el parámetro “estatura media de los
españoles” está comprendido entre
171 cm y 178 cm con una confianza
del 95% (si es el nivel de confianza
utilizado al realizar los cálculos).
¿Cómo se interpreta este 95%?
Pues si repetimos el experimento
100 veces, en 95 de ellas seguro
que el verdadero valor del parámetro
(estatura media de los españoles)
estaría incluido dentro del intervalo
calculado y en 5% de ellas no.
Este aspecto es el que se trata de
esquematizar con el gráfico de la
izquierda. La mayoría de los
intervalos contendrán al verdadero
valor del parámetro (línea azul), pero
habrá alguno que no lo contendrá,
nos estaremos equivocando y no lo
sabremos…

Para una muestra en particular, obtendríamos valores concretos a y b


para los que se verifica, o no, que a ≤  ≤ b; es totalmente incorrecto afirmar
que “el parámetro  pertenece al intervalo de confianza de extremos a y b
concretos, con probabilidad 1-”, ya que la probabilidad de que tal cosa suceda
es 1 si se verifica efectivamente que a ≤ ≤ b, ó 0 en caso contrario, es decir,
si  no está contenido en ese intervalo de valores.

Para una muestra concreta es imposible saber si el intervalo de confianza


calculado contiene, o no, al verdadero valor del parámetro  Nosotros
“confiamos” en que así sea, pero si nos estamos o no equivocando no lo
sabremos a no ser que conozcamos el verdadero valor del parámetro, en cuyo
caso carecería de interés hacer estimaciones acerca del mismo…

Dependiendo de que el parámetro que queramos estimar sea uno u otro


(no tiene por qué ser la media poblacional, puede ser cualquier parámetro
como una proporción, una varianza, un riesgo relativo, un coeficiente de
correlación, etc.) y de las características de la población, tendremos un tipo de
intervalo de confianza u otro. Exponemos sólo uno de ellos, el más básico, para
ver qué aspecto tiene y cómo podemos disminuir o aumentar la amplitud del
mismo.

Ana Dorado Díaz 6


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Intervalo de confianza para la media de una distribución Normal de
varianza conocida:

Tenemos una variable aleatoria X, que sigue una distribución Normal4 de


media  y desviación típica  N. Conocemos el valor de  pero
desconocemos cuánto vale  y queremos estimarlo.

Por una serie de cuestiones estadísticas que no son objeto del presente
curso, el intervalo de confianza para la media de una distribución Normal de
varianza conocida con un nivel de confianza 1 tendría el siguiente aspecto:

I
1  X  Z 2 

  
 n 

Nota: Los valores de Z 2 para los niveles de confianza más habituales son: Para 95%: Z 2  1,96
Para 99%: Z 2  2,58

Es decir, éste intervalo de confianza para un parámetro cualquiera se


calcularía como el estimador puntual del parámetro, más menos una cantidad
que depende de la desviación típica poblacional y del tamaño de muestra (así
como del nivel de confianza seleccionado, esto lo decide el investigador).

Ejemplo:
Queremos calcular un intervalo con una confianza del 95% para estimar la
estatura media de los españoles, sabemos que la desviación típica poblacional
es 20cm. Tomamos una muestra representativa de la población de 1.000
individuos. Calculamos la estatura media de la muestra tomada y resulta ser
173cm.

¿Cómo calcularíamos el Intervalo de Confianza?:

  X  Z   95% I  173  1,96 20 


1
I  
1.000 

 2 n 

 171,8  174,2
95%
I

4
Que una variable siga una distribución Normal quiere decir que la forma que tiene la distribución de valores de la
variable, es en forma de campana, como la que aparece en la figura.

Ana Dorado Díaz 7


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
¿Cómo se interpreta el resultado?
Tenemos una confianza del 95% de que el verdadero valor de la media
poblacional () esté comprendido entre 171,8cm y 174,2cm. Es decir, de 100
veces que tomemos muestras en las mismas condiciones y construyamos los
intervalos correspondientes, en 95 de ellos estará el verdadero valor y en los 5
restantes no.

¿El intervalo calculado es de los 95 que “aciertan”?


Nunca lo sabremos… a no ser que conociéramos el verdadero valor de 
(en cuyo caso no habríamos construido un intervalo para estimarlo), no lo
sabremos.

Nos parece poco preciso el intervalo, ¿podemos reducir su amplitud?


Sí, por ejemplo podemos tomar un tamaño de muestra mayor. Vamos a
ver qué sucede si tomamos una muestra de tamaño 5.000 (suponemos que la
media muestral sigue siendo la misma, no tendría por qué, claro).
173  1,96 20   172,4 173,6
95%
I
 5.000 

No s pa re ce que equ ivocarnos 5 de cada 100 vece s e s mu cho


equivocarse, ¿qué sucede si nos queremos equivocar menos?
Trabajamos entonces con una confianza superior, por ejemplo del 99% y
esto se traduce en obtener un Intervalo de Confianza más amplio.
173  2,58 20   171,4 174,6
99%
I
 1.000 

Sabemos que cuanto más pequeño sea el intervalo de confianza


calculado, más precisa será la estimación del parámetro poblacional, ¿cómo
podemos hacer que el intervalo sea más pequeño, es decir, más preciso? Para
reducir la amplitud del intervalo, podremos:

 Reducir el nivel de confianza


 Aumentar el tamaño de muestra
 Disminuir la variabilidad de los datos

Ana Dorado Díaz 8


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Ejercicio 2.2:
Seguimos trabajando en las mismas condiciones que en el Ejercicio 2.1
con la base de datos Pacientes_infartados.xls. Responda a las siguientes
preguntas.

Respuesta
1. Suponga que la desviación típica de la edad de la población es
de 12,75 años. Haga una estimación de la edad media de la
población, con una confianza del 95%.
2. Si queremos que el intervalo calculado en el punto 1 sea más
preciso, trabajaremos con una confianza del 99%. Responda
Verdadero o Falso.

3. ¿Cómo afectaría a la amplitud del intervalo que la desviación


típica de la población fuera menor?

4. Si en lugar de tomar una muestra de 125 pacientes, tomáramos


una muestra de 100, el intervalo de confianza calculado sería
menos preciso. Responda Verdadero o Falso.

Ana Dorado Díaz 9


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

iv) Nociones básicas de contrastes de hipótesis

Dentro de la inferencia estadística, el segundo gran apartado hace


referencia a los contrastes de hipótesis. Como su propio nombre indica, esta
técnica consiste en plantear unas hipótesis previas que queremos contrastar
sobre los parámetros desconocidos de la población, y a través de la
información que nos proporciona la muestra, se desarrolla un procedimiento
para comprobar la veracidad de las hipótesis planteadas.

Volviendo al ejemplo de la estatura media de los españoles, queremos


saber si podríamos considerarla 170 cm, esta sería la hipótesis previa. Como
medir a todos los españoles, ya sabemos que es imposible, tomamos una
muestra representativa (supongamos n=1.000), con una técnica de muestreo
adecuada, y observamos que en la muestra la media es 173 cm. ¿Esta
diferencia de 3 cm es suficiente como para concluir que la estatura media de
los españoles no puede considerarse 170 cm?, ¿tenemos evidencias que nos
hagan pensar que los españoles en media son más altos de 170 cm? Este es
el tipo de preguntas se pueden responder llevando a cabo un contraste de
hipótesis.

Los pasos a seguir en la realización de un contraste de hipótesis son los


siguientes:

1. Plantear la hipótesis nula (H0): Es la hipótesis que se desea


contrastar. Es la que se acepta o rechaza como conclusión final del contraste.

2. Plantear la hipótesis alternativa (H1): Será la que se acepta si se


rechaza H0 y viceversa.

Vamos a tratar de imaginar que estamos en un juicio, somos los fiscales y


tratamos de demostrar la culpabilidad del acusado. Hasta que no se demuestre
lo contrario, el acusado se considera inocente. En los contrastes de hipótesis
ocurre algo parecido. Partimos de la hipótesis nula (H0: inocente), que será
siempre la igualdad, no hay diferencias, etc. dependiendo del estudio que
llevemos a cabo y vamos a tratar de demostrar que la hipótesis cierta es la
alternativa (H1: culpable), que será la contraria a la planteada anteriormente, es
decir, no hay igualdad, es mayor, es menor, hay diferencias… dependiendo de
cada caso.

En el ejemplo de la estatura, podríamos pensar en plantear las hipótesis:


H0:  = 170  La estatura media de los españoles es 170 cm.
H1:   170  La estatura media de los españoles no es 170 cm.

Al terminar de realizar un contraste, al igual que al terminar el juicio,


podemos encontrarnos con 4 posibles situaciones:

Ana Dorado Díaz 10


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Situación 1- Aceptamos la H0 y no nos equivocamos.
Acusado declarado inocente y lo era.

Situación 2- Aceptamos la H0 y nos equivocamos, era falsa.


Acusado declarado inocente y en realidad era culpable…

Situación 3- Rechazamos la H0 y no nos equivocamos.


Acusado declarado culpable y lo era.

Situación 4- Rechazamos la H0 y nos equivocamos.


Acusado declarado culpable y en realidad era inocente…

En principio la situación ideal sería la 3. Tratamos de rechazar la hipótesis


nula y lo hacemos sin cometer error (recuerda, somos fiscales…). La situación 1
también sería aceptable, al menos no nos equivocamos. Las situaciones 2 y 4
tendríamos que tratar de evitarlas, pero ¿cómo? Controlando los errores en
función de la investigación que estemos llevando a cabo.

3. El siguiente paso en un contraste de hipótesis es elegir el nivel de


significación () con el que queremos trabajar: El nivel de significación es la
probabilidad de cometer error tipo I, es decir, de rechazar la hipótesis nula
siendo cierta.

También cometeríamos un error si decidiéramos aceptar la hipótesis nula


siendo ésta falsa. A este error se le conoce como error tipo II. A la probabilidad
de cometer error tipo II se le llama . A su complementario (1-) se le conoce
como potencia del contraste: probabilidad de rechazar la hipótesis nula
siendo falsa (no hay error).

Hay que tener cuidado a la hora de elegir estos errores, ya que ambos
están relacionados en sentido inverso, al descender uno, aumenta el otro. En el
ejemplo del juicio, si no queremos que ningún inocente vaya a la cárcel, seguro
que algún culpable se queda en libertad…

Lo que se suele hacer es fijar en un nivel bajo la probabilidad de cometer


error tipo I. Los niveles de significación más habituales en estudios estadísticos
son el 5% y el 1%.
Hipótesis cierta

H0 H1
Inocente Culpable

Rechazo Ho Error tipo I Correcto


Resultado de A la cárcel… () Potencia (1-)

la prueba
estadística Error tipo II
Acepto Ho
Correcto
En libertad… ()

Ana Dorado Díaz 11


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Si elegimos el nivel de significación del 5%, esto implica que estamos
dispuestos a asumir un error en 5 de cada 100 veces que al realizar este
contraste concluyamos que rechazamos la H0.

Si 5 de cada 100 nos parece asumir demasiado error, lo podemos bajar a


1 de cada 100 (o incluso menos). En este caso, lo que tendremos que tener en
cuenta es que se habrá aumentado el número de veces que aceptemos la H0
indebidamente (error tipo II).

4. Elegir el estadístico de contraste (Z, t, etc.). Es una función de los


valores de la muestra. Nos proporciona un valor numérico (valor experimental),
que tendremos que comparar con un valor teórico que se cumple cuando la
hipótesis nula es cierta.

La elección del estadístico de contraste se hará en función del tipo de


datos que estemos utilizando, si podemos considerar que los datos se
distribuyen normalmente se realizarán contrastes paramétricos, si no, se
utilizarán contrastes no paramétricos. También dependerá de si el tamaño de
muestra es grande o pequeño, de si se conoce la varianza poblacional o no, de
si vamos a realizar el contraste sobre una única población, sobre dos o más, de
si las poblaciones de estudio pueden considerarse homocedásticas, es decir,
de igual varianza, etc.

Como vemos, la elección del contraste a realizar (del estadístico a utilizar)


no es tarea sencilla y requiere más horas de estudio de las que se van a
dedicar en el presente curso, por lo tanto no vamos a entrar a especificar cada
uno de ellos, vamos a dejar claras algunas nociones básicas de contrastes y
nos limitaremos a ver un par de situaciones sencillas, a modo de ejemplo.

Ejemplo:
Queremos saber, con un nivel de significación del 5%, si la estatura media
de los españoles podemos considerarla 170 cm. Sabemos que la desviación
típica poblacional es 20 cm. Tomamos una muestra representativa de la
población de 1.000 individuos. Calculamos la estatura media de la muestra
tomada y resulta ser 173 cm.

Planteamos las hipótesis:


H0:  = 170
H1:   170

Decidimos trabajar con un nivel del significación del 5%, por ejemplo:
 = 0,05

El estadístico de contraste que utilizaríamos en este caso, sería una Z que


sigue una distribución Normal estándar, N(0,1):
Z  X    N 0,1

n

Ana Dorado Díaz 12


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
173  170
Hacemos los cálculos y obtenemos: Z   4,74
20
1.000

El valor experimental es por lo tanto 4,74.

5. A continuación determinamos l a r e g i ó n c r í t i c a y l a r e g i ó n d e
aceptación (RC y RA): Denominamos región crítica al conjunto de valores
teóricos que de caer ahí el valor del estadístico de contraste, nos lleva a
rechazar la hipótesis nula. Llamaremos región de aceptación a los valores que
nos llevan a aceptar la hipótesis nula cuando el valor del estadístico de
contraste está entre ellos.

En nuestro ejemplo, si estamos trabajando con un nivel de significación


del 5%, tendríamos:



RA
0,95
0,95
RC  RC
 
0,025
0,025

-Z Z
-1,96 1,96 Zexp=4,74

En este caso, vemos que el valor experimental está en la región crítica.


Por lo tanto rechazamos la H0.

Cuando la región crítica está formada por dos conjuntos de valores, es


decir, la hipótesis alternativa es “” (como ocurría en la figura anterior), el
contraste se denomina bilateral. Cuando la hipótesis alternativa es > ó <, la
región crítica estará formada por un único conjunto de valores, en cuyo caso el
contraste se denomina unilateral superior o inferior respectivamente.

  

RC RC
 

C on trastes
UNILATERALES

Ana Dorado Díaz 13


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
6. Conclusiones: Tan importante es sacar una conclusión estadística,
como por ejemplo rechazo la hipótesis nula, como interpretar esos resultados
estadísticos y sacar conclusiones no estadísticas: médicas, biológicas,
económicas, etc.

En el ejemplo de la estatura, concluiríamos que hay evidencias


estadísticas que nos hacen pensar que la estatura media de los españoles no
es 170 cm.

Una forma habitual de medir la significación en los contrastes de hipótesis


es el denominado p-valor del contraste. Su utilización en la investigación
aplicada se debe a que es la forma simplificada en que los programas de
ordenador presentan los resultados de un contraste.

Podemos definir el p-valor como la probabilidad de obtener un valor


muestral más extremo que el obtenido en nuestro caso particular (cuando H0 es
cierta). Para entenderlo mejor podríamos decir que es la probabilidad de que el
resultado observado en el estudio se deba al azar.

Si el p-valor es muy pequeño rechazaremos la hipótesis nula ya que el


valor experimental es muy extremo, encontrar otro más extremo, es poco
probable. Otra forma de verlo, cuanto menor sea esa probabilidad, mayor será
nuestra confianza en que el resultado no ha sido debido al azar.

Si el p-valor es grande aceptaremos la hipótesis nula ya que el valor es


compatible con la misma, encontrar otro más extremo, es muy probable. Otra
forma de verlo, cuanto mayor sea esa probabilidad, más seguros estaremos de
que nuestro resultado ha sido debido al azar.



Acepto H0

RA P-valor

 P-valor

 RC

Z

Zexp

Resumiendo:

 Si el p-valor <   Rechazo la hipótesis nula.


 Si el p-valor >   Acepto la hipótesis nula.

Ana Dorado Díaz 14


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
En los artículos de divulgación científica es muy común encontrar la
siguiente terminología para resumir el resultado del contraste llevado a cabo:

 Resultados altamente significativos (**)  Se rechaza la H0 al 1%,


(obtenemos por lo tanto una p< 0,01).
 Resultados probablemente significativos (*)  Se rechaza la H0 al
5%, pero se acepta al 1%, (obtenemos por lo tanto una 0,01< p< 0,05).
 Resultados no significativos (NS)  Se acepta la H0, (obtenemos
por lo tanto una p> 0,05).

Ejemplo 5:
Supongamos que queremos saber si la tensión sistólica media puede
considerarse igual en hombres (H) y en mujeres (M). Para ello tomamos
una muestra aleatoria (con las suficientes garantías) y obtenemos los
siguientes resultados:
Estadísticos de grupo

Desviación Error típ. de


Sexo N Media típ. la media
Tensión Sistólica H 33 156,33 16,134 2,808
M 36 141,75 17,905 2,984

¿Esas diferencias en las medias muestrales pueden extrapolarse a la


población de la que proceden los datos, es decir, pueden considerarse
significativas o son debidas simplemente al azar?

Planteamos las hipótesis de partida:


H0:h= m  La tensión sistólica media de hombres es igual a la de mujeres.
H1:h m  La tensión sistólica media de hombres es distinta a la de mujeres.

El resultado del contraste sería el siguiente:

Prueba de muestras independientes


Prueba de Levene
para la igualdad de
v arianzas Prueba T para la igualdad de medias
95% Interv alo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Tensión Sistólica Se han asumido
,524 ,471 3,542 67 ,001 14,583 4,117 6,366 22,800
v arianzas iguales
No se han asumido
v arianzas iguales 3,559 66,983 ,001 14,583 4,098 6,404 22,763

Suponiendo que se han asumido varianzas iguales en las dos poblaciones


de estudio (hombres y mujeres), el valor experimental del estadístico de contraste
es 3,542, que podríamos comparar con el valor teórico correspondiente o bien
fijarnos en el p-valor=0,001. En este caso concluimos que como p<0,01,
rechazamos la hipótesis nula con resultados altamente significativos (**).

5
Los distintos paquetes estadísticos exponen sus resultados de forma aparentemente distinta, pero sólo en el aspecto,
en el fondo, son todas similares.

Ana Dorado Díaz 15


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

Por lo tanto, hemos encontrado evidencias que nos ponen de manifiesto


que la tensión sistólica de los hombres no puede considerarse igual a la de las
mujeres.

También podríamos haber calculado intervalos de confianza. Los


intervalos al nivel de confianza del 95% son:
 Hombres: [150,6- 162,1]
 Mujeres: [135,7- 147,8]

Vemos que los intervalos de confianza no tienen puntos en común por lo


tanto, no hay motivos que nos hagan pensar que las tensiones sistólicas
medias son iguales en hombres y en mujeres. Vemos que llegamos a la misma
conclusión que con el contraste anterior.

No obstante, ambos procedimientos son conceptualmente distintos. El


objetivo fundamental del cálculo de intervalos de confianza, es averiguar entre
qué valores hay una determinada confianza de que se encuentre el parámetro
poblacional a estimar, mientras que el objetivo fundamental de los contrastes
de hipótesis es calcular la probabilidad de que un determinado parámetro
poblacional sea mayor o menor que un determinado valor.

A la hora de interpretar contrastes de hipótesis, los errores más frecuentes


con los que nos podemos encontrar son:

- Realizar contrastes en muestras no aleatorias. Uno de los principios


fundamentales de la inferencia es que los datos sobre los que se
realizan los cálculos proceden de muestras obtenidas de forma aleatoria,
es decir, al azar.
- Considerar como cierta la hipótesis nula cuando no hemos podido
rechazarla. Cuando esto ocurre, no hay evidencias estadísticas que nos
lleven a pensar lo contrario, podemos “suponerla” cierta, pero eso no
quiere decir que lo sea.
- Cuando se realizan varios contrastes en un mismo estudio, cada uno se
lleva a cabo con una probabilidad de cometer error tipo I determinada
(). Si se realizan conclusiones globales del estudio, estas tienen un
incremento del error tipo I importante.
- No distinguir entre resultados estadísticamente significativos y
clínicamente importantes. No debe darse por supuesto que una
significación estadística implica automáticamente una significación
clínica.
- Extrapolar conclusiones a poblaciones distintas de la muestreada.

Ana Dorado Díaz 16


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Ejercicio 2.3:
Responda a las siguientes preguntas con verdadero o falso:

Respuesta
1. El error tipo I y el error tipo II tienen que ser siempre del 5% o
del 1%.

2. Se entiende por “resultado probablemente significativo” cuando


rechazamos la H0 al 5% y aceptamos al 1%.

3. Con un p-valor de 0,428 concluimos que aceptamos la H0.

4. El p-valor sólo puede tomar valores comprendidos entre 0 y 1


(ambos incluidos).

Ana Dorado Díaz 17


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

v) Población y muestra: ideas fundamentales

El fin último de la investigación clínica, suele ser conocer cómo se


distribuyen determinadas enfermedades o fenómenos sanitarios en la
población e incluso profundizar más en el tema averiguando qué factores han
podido condicionar esa distribución.

Supongamos que queremos conocer cuál es la proporción de hipertensos


en Castilla y León y estudiar sus características (sexo, edad, etc.), posibles
factores de riesgo (fumador, sobrepeso, etc.). Como ya hemos comentado,
tener acceso a toda la población, habitualmente no está a nuestro alcance: ya
sea por motivos económicos (sería tremendamente caro recorrer todo el
territorio de Castilla y León recogiendo datos), de tiempo (llevaría demasiado
tiempo hacerlo), o incluso por imposibilidad material (habría castellanos y
leoneses temporalmente fuera de la Comunidad, por ejemplo).

La única opción que tenemos para saber algo de la población, es estudiar


una parte representativa de ella, lo que se conoce como una muestra
representativa de la población. De aquí se desprende que cuanto mayor sea
la muestra, más se asemejará a la población de la que procede y por lo tanto,
menor error cometeremos al concluir qué hallazgos realizados en la muestra se
encontrarían también en la población. Del mismo modo, cuanto menor sea la
muestra, mayor será, el error que cometemos al realizar inferencia.

¿Qué tamaño de muestra sería el adecuado para llevar a cabo nuestro


estudio?

La respuesta a esta pregunta depende, entre otros aspectos, del tipo de


estudio que estemos llevando a cabo, del tipo de variable que queramos
estudiar, del error que estemos dispuestos a asumir, etc.

Una muestra estadística es por lo tanto, un subconjunto de la población


seleccionado según un método determinado. Para que podamos considerar
una muestra válida para realizar inferencia estadística, debe cumplir dos
condiciones:
1. la selección de los elementos que van a formar parte de la muestra, ha de ser
aleatoria.
2. todos los elementos de la población tienen que ser posibles candidatos de la
muestra, es decir, tienen que tener una probabilidad mayor que cero de estar
en la muestra.

Los muestreos así realizados, se denominan muestreos probabilísticos.

Dentro de los métodos de muestreo, podemos distinguir dos grandes


grupos:
 Muestreos probabilísticos
 Muestreos no probabilísticos

Ana Dorado Díaz 18


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Debe quedar claro, que solamente los muestreos probabilísticos permiten
hacer estimaciones puntuales o por intervalo conociendo el error aleatorio. Es
muy frecuente en la práctica encontrar estudios que incluyen intervalos de
confianza y contrastes de hipótesis probabilísticos realizados a partir de
muestras no probabilísticas, lo cual no tienen ningún fundamento estadístico.

A continuación vamos a ver, de forma muy resumida, algunos de los tipos


de muestreo más utilizados en la investigación clínica. Profundizar en cada tipo
de muestreo excede de las pretensiones de este curso. El alumno interesado
en el estudio de las técnicas de muestreo podrá profundizar consultando
bibliografía especializada.

Muestreos probabilísticos

Como hemos comentado antes, las técnicas de muestreo que utilizan el


azar en la selección de los elementos de la muestra, son probabilísticas. Entre
ellas, las más utilizadas son:

 Muestreo aleatorio simple (m.a.s.):

Procedimiento sin reemplazamiento, en el que se seleccionan n unidades


de las N de la población, de forma que en cada selección los individuos que
aún no han sido elegidos, tengan la misma probabilidad de serlo.

A partir de un marco (listado de elementos integrantes de la población) lo


más completo y depurado posible, se puede utilizar una tabla de números
aleatorios para seleccionar la muestra. Es el método de muestreo más
utilizado.

Ventaja: es un procedimiento sencillo.


Inconveniente: necesita un marco adecuado que no siempre es fácil de
conseguir.

Ejemplo:
Supongamos que queremos conocer la salud bucodental de los escolares
entre 6 y 12 años de Castilla y León. Podemos conseguir un listado de todos
los alumnos de esa edad matriculados en los centros de educación de la
Comunidad (lo que se denomina marco). Mediante una tabla de números
aleatorios (o generando los números de forma aleatoria con el ordenador),
realizaremos un muestreo aleatorio simple y seleccionaremos a los alumnos
que formarán parte de la muestra.

Ana Dorado Díaz 19


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
 Muestreo sistemático:

Se ordenan los individuos de la población y se numeran, a continuación se


selecciona un número al azar (k) y se elige el elemento que ocupa ese lugar y
de forma sistemática cada k elementos, hasta completar el tamaño de la
muestra.

Ventaja: es más sencillo y más barato que el muestreo aleatorio simple.


Inconveniente: en ocasiones puede cometerse un error sistemático si no
se guardan las debidas precauciones lo que puede llevar a importantes errores
en la estimación de los parámetros.

Ejemplo:
Si elegimos un día cada 7 (k=7) para estudiar el tiempo medio de espera
en la consulta del médico, estaremos seleccionando siempre a los pacientes
que acuden el mismo día de la semana, lo que puede estar sesgando el
estudio (parece que las consultas están más saturadas los lunes que los
viernes, por ejemplo).

 Muestreo estratificado:

Se divide la población en grupos homogéneos de acuerdo con las


características a estudiar (estratos). A continuación, se selecciona una muestra
aleatoria en cada estrato tratando de que todos los estratos de la población
queden representados. El muestreo será constante o proporcional según los
estratos tengan o no el mismo tamaño.

Ventaja: se obtienen representantes de todos los estratos de la población.


Inconveniente: es costoso.

Ejemplo:
Volviendo al ejemplo de la salud bucodental de los escolares nos damos
cuenta de que al realizar un m.a.s. en la muestra podría no salirnos ningún niño
de entre 10 y 12, lo que podría sesgar los resultados. Podríamos hacer estratos
por edades: de 6, 7, 8, 9, 10, 11 y 12 años, 7 estratos. Extraemos una muestra
aleatoria en cada uno de los estratos, para asegurarnos de que todos los
estratos que nos interesan están representados.

 Muestreo por conglomerados:

Se divide la población en grupos de acuerdo con su proximidad geográfica


o de otro tipo (conglomerados). Cada grupo ha de ser heterogéneo y tener
todas las características de la población. A continuación, se selecciona una
muestra de conglomerados al azar, y se toma o bien el conglomerado completo
(seleccionando a todos los elementos contenidos en él) o bien se extrae una
muestra aleatoria dentro de cada conglomerado seleccionado.

Ventaja: es muy económico, se suele utilizar para reducir costes en la


toma de muestras.

Ana Dorado Díaz 20


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Inconveniente: si el número de bloques no es muy grande se puede
incurrir en errores de estimación, sobre todo si se han incluido conglomerados
atípicos, por ejemplo.

Ejemplo:
Para reducir costes, podríamos pensar en los colegios como
conglomerados, ya que son un grupo heterogéneo con todas las características
de la población: hay alumnos de todas las edades, la proporción por sexo será
parecida a la de la población, etc. Seleccionamos al azar una muestra de
conglomerados (de colegios) y así nos ahorramos tener que ir a tantos centros
educativos distintos. Dentro de cada colegio seleccionado, podemos tomar
datos de todos los alumnos de entre 6 y 12 años, o extraer muestras
aleatorioas.

En ocasiones no se cuenta con un marco detallado de los elementos de la


población y su obtención puede resultar muy costosa o incluso imposible. En
este caso, se puede acceder a los elementos de la muestra en una o más
etapas. Cuando accedemos a la muestra mediante una sola etapa, el muestreo
se denomina monoetápico, si es en dos, bietápico, y si tiene más de dos,
polietápico. El tipo de muestreo utilizado en cada una de las etapas, puede ir
variando.

Muestreos no probabilísticos

Otro tipo de muestreo menos aconsejable, ya que no goza de las


propiedades que gozan los muestreos probabilísticos, son los no
probabilísticos. A partir de este tipo de muestras, no pueden calcularse errores,
carece de sentido por lo tanto, calcular intervalos de confianza o realizar
contrastes de hipótesis probabilísticos, únicamente sería correcto realizar
estudios estadísticos descriptivos. Los más frecuentes son:

 Estudio de los datos disponibles


Es muy habitual en ciencias de la salud estudiar los datos disponibles
respecto a pacientes con una determinada enfermedad, de hecho es una de las
maneras de obtener datos más utilizadas.

 Selección por cuotas


Es muy frecuente en las encuestas. Consiste en seleccionar una muestra
que tenga la misma proporción de integrantes con determinada característica,
que la población: misma distribución de individuos según sexo, grupo de edad,
o cualquier otra variable que se considere de interés.

 Voluntarios
Los grupos de voluntarios son frecuentes y, en general, los resultados no
son representativos de la población ya que muchos voluntarios tienen alguna
causa que les impulsa a serlo y esto puede sesgar el estudio.

 Según criterios basados en la experiencia


Los expertos deciden si un elemento es adecuado para formar o no parte
de la muestra.

Ana Dorado Díaz 21


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes

No existe una fórmula mágica para calcular el tamaño de muestra


adecuado para realizar un estudio. El tamaño de muestra como hemos visto,
depende del tipo de estudio que queramos llevar a cabo, de si la variable sobre
la que queremos realizar inferencia (extrapolar los resultados obtenidos en la
muestra a la población) es una proporción, una media, un total, etc., del error
que estemos dispuestos a asumir, en definitiva, calcular un tamaño de muestra
no es una cuestión trivial, requiere de conocimientos, no precisamente tan
básicos como los aquí expuestos, sobre muestreo.

Sería recomendable, que antes de que el investigador se enfrentara a la


recogida de una muestra representativa, se pusiera en contacto con un
estadístico para exponerle el tema y que éste le pueda guiar de la mejor
manera posible a la hora de elegir el tipo de muestreo más adecuado.

A modo de ejemplo, vamos a ver cómo se calcularía el tamaño de muestra


necesario para estimar una proporción en una población de la que no
conocemos su tamaño.

Partimos de la expresión del intervalo de confianza:


 ˆˆ
I p    pˆ  Z 2 pq
1 
 donde definimos E como el error de estimación con
 n 
el que estamos dispuestos a trabajar, I   p  E, es decir, la máxima
1

diferencia entre el verdadero valor del parámetroˆ y el valor estimado. Como


2 
p
pq
ˆˆ Z 2 pq
E  Z 2 , despejamos n y obtenemos: n
n E2

Si conocemos el tamaño de la población, para poblaciones finitas, por el


mismo razonamiento obtendríamos:

2 ˆˆ
Z 2 Npq
1  ˆ ˆ N n
pq n
I p   pˆ  Z 2 n N 1  2 2 ˆˆ
E N 1 Z 2 pq

Recordemos que si trabajamos con un nivel de significación  del 5%,


Z 2  1,96 , para un =1%, Z  2  2,58 .

Si por estudios previos, o de la bibliografía se desprende cuál es la


proporción esperada en la población, sustituimos pˆ por ese valor y qˆ  1  pˆ .
Cuando se desconoce el valor esperado de pˆ , consideramos que pˆ  qˆ  0,50
(el 50%) que es la situación con la que se obtiene mayor tamaño de muestra y
así aseguramos que obtenemos un tamaño suficiente.
N es el tamaño de la población y E, el error de estimación que estamos
dispuestos a asumir.

Ana Dorado Díaz 22


Diplomado en Salud Pública
2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
De las muchas expresiones matemáticas que existen para calcular el
tamaño de muestra adecuado, estas son dos de las más utilizadas, lo cual no
quiere decir, que sean las correctas para cualquier tipo de estudio que
queramos llevar a cabo. Como se ha apuntado antes, lo más coherente sería
contar con un especialista en el tema que nos pudiera asesorar.

Ejercicio 2.4:
Responda a las siguientes preguntas con verdadero o falso:

Respuesta
1. Lo importante a la hora de realizar inferencia, es obtener un
tamaño de muestra muy grande, da igual cómo se haya
obtenido.

2. El muestreo aleatorio simple, es siempre el más adecuado.

3. A medida que bajo el error de estimación que estoy dispuesto a


cometer, el tamaño de la muestra será mayor.

4. Un muestreo según criterios basados en la experiencia, es un


muestreo probabilístico que se basa en la opinión de los
expertos.
5. Hemos obtenido un tamaño de muestra n=500 para un nivel de
significación del 5%. Si trabajo ahora con un nivel de
significación del 1%, obtendré un tamaño de muestra mayor.

Ana Dorado Díaz 23