Вы находитесь на странице: 1из 6

conexión causal entre el seguro y la salud

Y como abreviatura de salud, la variable de resultado de interés.

el camino tomado sin seguro médico conduce a Y0i (léase esto como "y-cero-i") para la persona i,
mientras que el camino con seguro médico conduce a Y1i (lea esto como "y-uno-i") para la
persona i.

Ahora podemos escribir Avgn [Yi | Di = 1] para el promedio entre los asegurados y Avgn [Yi | Di =
0] para el promedio entre los no asegurados

el seguro de salud hace a todos más saludables en una cantidad constante, κ.

κ es el efecto causal individual y promedio del seguro en la salud

La asignación aleatoria experimental elimina el sesgo de selección.

Para estudiar los efectos del seguro de salud en un ensayo aleatorio, comenzaremos con una
muestra de personas que actualmente no tienen seguro, cuando se trata de una asignación
aleatoria. Debemos asignar aleatoriamente el tratamiento en una muestra que sea lo
suficientemente grande como para garantizar que las diferencias en las características individuales
como el sexo desaparezcan este hecho se debe a una poderosa propiedad estadística conocida
como la Ley de Grandes Números

Este valor promedio de 3.5 se llama expectativa matemática; en este caso, es el valor promedio
que obtendríamos en infinitas tiradas de un dado justo

Esperanza matemática

La expectativa matemática de una variable, Yi, escrita E [Yi], es el promedio poblacional de esta
variable

Esperanza condicional

El poder de la asignación aleatoria, La expectativa condicional de una variable, Yi, dada una
variable ficticia, Di = 1, se escribe E [Yi | Di = 1]. Este es el promedio de Yi en la población que tiene
Di igual a 1
[Y0i | Di = 1] y E [Y0i | Di = 0], son las mismas. Esto a su vez significa que: LA ASIGNACIÓN
ALEATORIA ELIMINA BIAS DE SELECCIÓN

El error estándar de una diferencia en los promedios es una medida de su precisión estadística:
cuando una diferencia en los promedios de la muestra es menor que aproximadamente dos
errores estándar, la diferencia generalmente se considera un hallazgo casual compatible con la
hipótesis de que las poblaciones de las cuales estos Las muestras extraídas son, de hecho, las
mismas.

Nuestro objetivo es el índice de salud promedio de la población correspondiente, es decir, la


media sobre todos los habitantes de la población de interés. Como señalamos en la p. 14, la media
poblacional de una variable se llama expectativa matemática

Para la expectativa de una variable, Yi, escribimos E [Yi]. La expectativa está íntimamente
relacionada con las nociones formales de probabilidad

as expectativas se pueden escribir como un promedio ponderado de todos los valores posibles que
puede tomar la variable Yi, con pesos dados por la probabilidad de que estos valores aparezcan en
la población

Para una población dada, solo hay una E [Yi], mientras que hay muchas Avgn [Yi], dependiendo de
cómo elijamos ny quién termina en nuestra muestra. Debido a que E [Yi] es una característica fija
de una población particular, lo llamamos parámetro

es útil cambiar de Avgn [Yi] a una notación más compacta para promedios, Ȳ. Tenga en cuenta que
estamos prescindiendo del subíndice n para evitar el desorden; en adelante, debe recordar que los
promedios de muestra se calculan en una muestra de un tamaño particular. El promedio de la
muestra, Ȳ, es un buen estimador de E [Yi]

Medir la variabilidad

Además de los promedios, estamos interesados en la variabilidad. Para medir la variabilidad, es


habitual observar las desviaciones cuadradas promedio de la media, en las que las brechas
positivas y negativas tienen el mismo peso. El resumen resultante de variabilidad se llama
varianza. La varianza muestral de Yi en una muestra de tamaño n se define como
La variación poblacional correspondiente reemplaza los promedios con las expectativas, dando:

la cantidad V (Yi) es una característica fija de una población, un parámetro. Por lo tanto, se
acostumbra bautizarlo en griego: que se lee como "sigma-cuadrado-y". 16 Debido a que las
variaciones cuadran los datos, pueden ser muy grandes. Multiplique una variable por 10 y su
varianza aumenta por 100. Por lo tanto, a menudo describimos la variabilidad usando la raíz
cuadrada de la varianza: esto se llama la desviación estándar, escrita σY

Estamos interesados en cuantificar la varianza de la media muestral en muestras repetidas. Como


la expectativa de la media muestral es E [Yi] (de la propiedad de imparcialidad), la varianza
poblacional de la media muestral puede escribirse como

La desviación estándar de una estadística como el promedio de la muestra se denomina error


estándar. El error estándar de la media muestral se puede escribir como

El error estándar resume la variabilidad en una estimación


trabajamos con un error estándar estimado. Esto se obtiene reemplazando σY con S (Yi) en la
fórmula para SE (Ȳ). Específicamente, el error estándar estimado de la media muestral puede
escribirse como

Habiendo presentado un esquema simple para medir la variabilidad usando errores estándar,
queda por interpretar esta medida. La interpretación más simple usa una estadística t. Suponga
que los datos disponibles provienen de una distribución para la cual creemos que la media de la
población, E [Yi], adquiere un valor particular, μ (lea esta letra griega como "mu"). Este valor
constituye una hipótesis de trabajo. Una estadística t para la media muestral bajo la hipótesis de
trabajo de que E [Yi] = μ se construye como

La hipótesis de trabajo es un punto de referencia que a menudo se llama hipótesis nula. Cuando la
hipótesis nula es μ = 0, el estadístico t es la relación entre la media de la muestra y su error
estándar estimado. Mucha gente piensa que la ciencia de la inferencia estadística es aburrida,
pero de hecho es milagrosa. Un hecho estadístico milagroso es que si E [Yi] es de hecho igual a μ,
entonces, siempre que la muestra sea lo suficientemente grande, la cantidad t (μ) tiene una
distribución de muestreo muy cercana a una distribución normal estándar en forma de campana ,
bosquejado en la Figura 1.1. Esta propiedad, que se aplica independientemente de si Yi se
distribuye normalmente, se denomina Teorema del límite central (CLT). El CLT nos permite tomar
una decisión empíricamente informada sobre si los datos disponibles apoyan o ponen en duda la
hipótesis de que E [Yi] es igual a μ

l CLT es un resultado sorprendente y poderoso. Entre otras cosas, implica que la distribución
(muestra grande) de un estadístico t es independiente de la distribución de los datos subyacentes
utilizados para calcularlo. Por ejemplo, supongamos que medimos el estado de salud con una
variable ficticia que distingue a las personas sanas de las enfermas y que el 20% de la población
está enferma. La distribución de esta variable ficticia tiene dos picos, uno de altura .8 en el valor 1
y otro de altura .2 en el valor 0. El CLT nos dice que con suficientes datos, la distribución del
estadístico t es suave y campana en forma aunque la distribución de los datos subyacentes tiene
solo dos valores. Podemos ver el CLT en acción a través de un experimento de muestreo

Cuando la hipótesis nula es μ = 0 y el estadístico t excede de 2 en valor absoluto, decimos que la


media de la muestra es significativamente diferente de cero. De lo contrario, no lo es. Se usa un
lenguaje similar para otros valores de μ también
También podríamos poner de lado la cuestión de la significación estadística: en lugar de verificar si
la muestra es consistente con un valor específico de μ, podemos construir el conjunto de todos los
valores de μ que sean consistentes con los datos. El conjunto de tales valores se denomina
intervalo de confianza para E [Yi]. Cuando se calcula en muestras repetidas, el intervalo

debe contener E [Yi] aproximadamente el 95% del tiempo. Por lo tanto, se dice que este intervalo
es un intervalo de confianza del 95% para la media de la población. Al describir el conjunto de
valores de parámetros consistentes con nuestros datos, los intervalos de confianza proporcionan
un resumen compacto de la información que estos datos contienen sobre la población de la que se
tomaron muestras.

La hipótesis nula más importante en este contexto es que el tratamiento no tiene ningún efecto,
en cuyo caso las dos muestras utilizadas para construir los promedios de tratamiento y control
provienen de la misma población. Por otro lado, si el tratamiento cambia los resultados, las
poblaciones de las que se extraen las observaciones de tratamiento y control son necesariamente
diferentes. En particular, tienen diferentes medios, que denotamos μ 1 y μ 0. Decidimos si la
evidencia favorece la hipótesis de que μ 1 = μ 0 al buscar diferencias estadísticamente
significativas en los promedios de muestra correspondientes. Los resultados estadísticamente
significativos proporcionan una fuerte evidencia de un efecto del tratamiento, mientras que los
resultados que no alcanzan la significación estadística son consistentes con la noción de que la
diferencia observada en los medios de tratamiento y control es un hallazgo casual. La expresión
"hallazgo fortuito" en este contexto significa que en un experimento hipotético que involucra
muestras muy grandes, tan grandes que cualquier variación de muestreo se elimina
efectivamente, encontraríamos que el tratamiento y los medios de control son los mismos. La
significación estadística está determinada por la estadística t adecuada. Un ingrediente clave en
cualquier receta t es el error estándar que vive abajo en la relación t. El error estándar para una
comparación de medias es la raíz cuadrada de la varianza muestral de Ȳ 1 - Ȳ 0. Usando el hecho
de que la varianza de una diferencia entre dos variables estadísticamente independientes es la

suma de sus varianzas, tenemos


donde S (Yi) es la desviación estándar de la muestra agrupada. Esta es la desviación estándar de la
muestra calculada utilizando datos de los grupos de tratamiento y control combinados. Bajo la
hipótesis nula de que μ 1 - μ 0 es igual al valor μ, la estadística para una diferencia en las medias es

Una gran estadística surge cuando el efecto estimado de interés es grande, pero también cuando
el error estándar asociado es pequeño (como sucede cuando eres bendecido con una muestra
grande). Del mismo modo, el ancho de un intervalo de confianza está determinado por la precisión
estadística que se refleja en los errores estándar y no por la magnitud de las relaciones que está
tratando de descubrir

Вам также может понравиться