Академический Документы
Профессиональный Документы
Культура Документы
elaboración de modelos de
ecuaciones estructurales variables
binarias y su aplicación a la
investigación de confusión
incumplido
BioMed Central
Emil Kupek (kupek@ccs.ufsc.br) [1]
[1] Unidad Nacional de Epidemiología Perinatal, Instituto de Ciencias de la Salud de la
Universidad de Oxford, Reino Unido
Copyright © 2006 Kupek; licenciatario BioMed Central Ltd
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative
Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso
irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original
sea debidamente citada.
Resumen
Antecedentes
Métodos
Un gran conjunto de datos con una estructura conocida entre los resultados de dos y tres
variables independientes, se ha generado para investigar el uso de la transformación de
Yule odds-ratio (OR) en métricas por Q-(O-1) / (OR 1) a la aproximación de Pearson
Coeficientes de correlación entre variables binarias covarianza cuya estructura puede ser
más analizado por SEM. Correctamente clasificados por ciento de los eventos y no
eventos se comparó con la clasificación obtenida por regresión logística. El desempeño
de SEM basada en métricas Q-también fue objeto de un control pequeño (N = 100)
muestra aleatoria de los datos generados y en un conjunto de datos reales.
Resultados
SEM recuperado con éxito el modelo de estructura generada. SEM real de los datos
sugiere una influencia latente de una variable de confusión que no se han detectables por
estándar de regresión logística. SEM clasificación de rendimiento fue en general similar a
la de la regresión logística.
Conclusión
El análisis de los datos binarios pueden ser muy reforzada por la transformación de Yule
odds ratios estimados en la matriz de correlación que pueden ser analizadas más a fondo
por la SEM. La interpretación de los resultados es la ayuda de expresar como odds ratios
que son la medida más utilizada de efecto en las estadísticas médicas.
Antecedentes
Estadística problemas que se deben superar estándar de la regresión
logística
Sin embargo, un gran obstáculo para un uso más amplio de la SEM ha sido su dificultad
en el manejo de variables categóricas. El objetivo de este trabajo es revisar brevemente
los aspectos principales de esta dificultad y para demostrar un nuevo enfoque a este
problema sobre la base de una simple transformación. Dos ejemplos con datos reales y
simulados se proporcionan para ilustrar este enfoque.
SEM incluye tanto y observó incumplido (latente) variables como los factores comunes y
los errores de medición. El Lineal Relaciones estructurales (LISREL) modelo [7] fue el
primero en difundir en psicométricas aplicaciones debido a la disponibilidad de software.
Otras formulaciones de la SEM y el software correspondiente surgido (ver [8] para obtener
una visión general). Los detalles de estos modelos, así como de cuestiones importantes
en relación con su identificabilidad, la estimación y robustez, están más allá del alcance
de este trabajo, sino un ejemplo de las situaciones en que se necesita SEM se presenta
en lugar (Figura 1]. Como regla general, SEM está indicado cuando más de una ecuación
de regresión es necesario para la elaboración de modelos estadísticos de los fenómenos
objeto de la investigación.
La parte izquierda de la Figura 1 muestra una situación en que los dos resultados, y
denota Y 1 Y 2, están mutuamente relacionados (un feed-back loop) y influenciado por dos
factores predictivos, denota X 1 y X 2. Por ejemplo, los resultados pueden ser la oferta y la
demanda de un determinado servicio de salud o de la percepción del riesgo y la incidencia
de un problema de salud. El predictor variables' error términos, y denota e 1 e 2, puede ser
correlacionado (r) si una variable importante que influyen en la predictores se omite, es
decir, en el caso de medidas de sesgo en la exposición. Los términos d 1 y d 2indicar
disturbios de los dos resultados. La parte derecha de la figura 1 ilustra una combinación
de factores comunes y el modelo de regresión. En este caso, es de interés para
comprobar si el resultado está decidido Y no sólo por influencias directas de la predictor
variables, denota X 1, X 2, X 3 y X 4, pero también por su latente determinante como indica
la regresión B coeficiente.
SEM ha recibido muchas críticas, la mayoría de los cuales han sido relacionados con la
vulnerabilidad de los modelos complejos basados en muchas suposiciones, así como con
el uso y la interpretación acrítica de la SEM. Estas preocupaciones están en buenas
condiciones, pero no son intrínsecos a la SEM; aún bien conocidas y ampliamente
aplicado técnicas como la regresión compartimos las mismas preocupaciones.
Fenómenos complejos requieren modelos complejos inferencial cuyos aspectos son más
propensos a error ya que el número de parámetros aumenta. SEM es a menudo el único
marco estadístico por el que muchos de estos problemas pueden ser abordados por las
pruebas y de comparación de los modelos obtenidos [9].
Una revisión de los modelos estadísticos para datos categóricos revela la falta de un
método capaz de manejar más de una ecuación de regresión [16]. Aunque los modelos
log-lineales para tablas de contingencia puede analizar relacionados con resultados
categóricos y su relación con las variables independientes, posiblemente complejas
interacciones entre las variables en el modelo no indican la dirección de influencias como
en modelos de regresión. Esto pone de relieve la necesidad de un marco SEM para el
análisis de datos categóricos a fin de manejar tanto la reducción de la dimensionalidad y
técnicas de regresión dentro de un mismo modelo (véase la parte derecha de la figura 1].
Métodos
Los datos de generación y transformación
Este trabajo pone de manifiesto la aplicación de SEM para variables binarias utilizando
Yule a la aproximación de la transformación de la matriz de coeficientes de correlación de
Pearson de odds ratio (OR) por una conocida fórmula (O-1) / (OR 1). El primer ejemplo se
basa en conocer los procesos de generación de datos para evitar la incertidumbre acerca
de cierto modelo, prácticamente inevitable de los datos empíricos. Un conjunto de datos
de 5000 con las observaciones que se generó a la teoría de aproximación normal. En
primer lugar, tres variables aleatorias continuas, denominadas x 1 a 3 x, se creó a partir de
la distribución uniforme. Las variables fueron no en la población. Sus versiones binarias,
denominada BIN 1 al BIN 3, se obtuvieron mediante la codificación de los valores por
encima de la media frente a cero como uno de otro. Dos continua variables dependientes
fueron creados por las siguientes ecuaciones: m = 1,5 x 1 + 2 x 2 y 1 + e y = 0,5 x 2 -
2,5 x 3 + 1,3 m + e 2, y con e 1 e 2 que se distribuyen normalmente al azar Errores (N ~
0,1), generados a partir de diferentes semillas. Las versiones binarias de las variables
dependientes, denominados MBIN y YBIN, fueron creados por la aplicación de la
regresión logística de clasificación de la regla, es decir, la puntuación de 1 si exp (m) / (1
+ exp (m)) y exp (y) / (1 + exp (Y)) superior a 0,5 frente a 0 en caso contrario, donde 'exp'
significa 'exponenciación ».
Observado odds ratios entre las variables de interés en los conjuntos de datos generados
se presentan en el cuadro 1. Las relaciones estructurales entre las variables en el
segundo conjunto de datos se representan en la figura 2.
Residuos de los datos en bruto se calcula como la diferencia entre observar y SEM-
predice valores de las dos series de datos. La predicción se calcula multiplicando el crudo
parámetros de regresión obtenida en la SEM con sus correspondientes valores
observados de las variables predictor. La copia de los parámetros de transformación de la
SEM, denota S, a la Casa métricas está dado por (1 + S) / (1-S) y provee las
probabilidades de ser el caso, para cada variable independiente; resumiendo estas
probabilidades más de las variables independientes da Las probabilidades de ser el caso,
para cada perfil de las variables independientes. Las probabilidades más de una se
clasificaron como predijo SEM casos versus otra cosa.
Análisis de poder
Resultados
Cuadro 1 contiene observó odds ratios para el conjunto de datos simulados y su
descomposición en efectos de regresión sobre la base de SEM utilizando Yule
transformación de la razón de momios.
La parcela de probabilidad normal de los datos brutos residuos entre los resultados
observados y la estimación de la probabilidad de resultados sobre la base de SEM para
simular datos mostraron cierta desviación de la distribución normal (Figura 3]. Por otro
lado, los residuos caen dentro del rango normal. Ambos SEM y modelos de regresión
logística para datos reales obstétrica (Figura 4] mostró ajuste satisfactorio con respecto a
los datos individuales residuos.
De regresión logística mostró una mejor tasa global de la clasificación debido a una mejor
predicción de los acontecimientos no (Tabla 5]. Por otra parte, los acontecimientos fueron
mejores predicha por SEM.
SEM permite una investigación más a fondo de la incumplido determinante de los factores
de riesgo obstétrico observado en la predicción de la necesidad de la atención neonatal
especializada a través de una variable latente. Un modelo se puso a prueba el supuesto
de que una causa común de algunos de los factores de riesgo es una variable latente de
confusión que influyen en los factores de riesgo observados y los resultados de interés (la
unidad de cuidados especiales para bebés) y la adición de capacidad de predicción más
allá de las variables de riesgo observado (Figura 5 ). La estimación fue posible a la
solución de las variables observadas de los parámetros de primera (los llamados análisis
de la trayectoria), y se fija el factor de carga para el parto prematuro con el valor de uno -
una convención que permite la comparación de la contribución de las otras dos variables
de riesgo observado para la Incumplido latente el riesgo de nacimiento prematuro
utilizando como unidad de riesgo. El factor de cargas (errores estándar) de la sección
cesárea y el bajo peso al nacer fueron -0.3948 (0.003) y 0.8630 (0.001), respectivamente.
El modelo sugiere que la propensión de los nacimientos prematuros de bajo peso al nacer
resultante en el momento de la entrega, que no utilizó la sección cesárea aumento de las
posibilidades de utilización de servicios de atención neonatal especiales. El crudo SEM
coeficiente que representa este efecto, denominada b 4 en la Figura 5, se estimó en
0,0956 con la correspondiente error estándar de 0,016, dando lugar a que una parte muy
significativa de t-valor 61,54. La transformación de las probabilidades de nuevo a través
de métricas (1 + b 4) / (1-b 4) dio lugar a odds-ratio de 1,21 y los correspondientes
intervalos de confianza del 95% de 1,14 a 1,29. Aunque un modelo de regresión logística
multivariante para la unidad de cuidados especiales para bebés utilización no encontró
por encima de la combinación de factores de riesgo estadísticamente significativos
cuando se añade como plazo para la interacción de los factores de riesgo propios (odds
ratio 1,16 con intervalos de confianza del 95% de 0,72 a 1,86) , Cabe destacar que este
es un modelo diferente de la anterior SEM.
Discusión
El análisis demostró la viabilidad de SEM utilizando Yule del Q-transformación de la odds
ratio como entrada para los modelos de variables binarias. En el nivel de cada uno de los
puntos de datos, los datos brutos residuos estuvieron dentro de límites normales y la regla
discriminante para la clasificación de los resultados en los eventos y no sobre la base de
hechos SEM-Q realizó puntuaciones ligeramente peor, pero aún de manera similar a los
resultados enfoque basado en la norma Utilizando regresión logística. La conclusión es
válida para los pequeños de la muestra con el ejemplo y los datos generados por el
conjunto de datos reales a prueba aquí. Todos estos elementos señalan a la viabilidad y
la utilidad de SEM utilizando Yule para la transformación de datos binarios, principalmente
cuando complejas relaciones entre las variables están presentes. Por ejemplo, la
investigación de la causa común de indicadores de riesgo obstétrico en el resultado del
interés latente identificado una variable de confusión que el aumento de las posibilidades
de utilización de especial atención neonatal más allá de las repercusiones de los mismos
indicadores de riesgo como predictores independientes (Figura 5] . La interpretación de la
variable latente hypothesising puede dar lugar a un servicio de salud de rutina de
tratamiento de nacimientos prematuros de una manera particular (es decir, de restricción
de la sección cesárea) o una propensión biológica de nacimiento complicaciones, con
estas dos alternativas que conduzcan a la mayor necesidad de neonatal intensiva
Atención. Esto ilustra cómo SEM ayuda a la generación de hipótesis y la investigación de
complejos no disponibles por otros métodos. Yule la transformación puede ser de ayuda
en la preparación de datos binarios para SEM. Mediante el uso de odds-ratio tanto como
punto de partida y para la presentación de resultados, la propuesta de transformación
facilita la interpretación de los efectos en el modelo.
A nivel alfa <0,05, tanto el univariado t-test y la prueba de razón verosimilitud para el
parámetro b 3 siendo igual a cero indica su importancia estadística en la SEM (datos no
presentados), a pesar de la importancia de no observar odds-ratio (cuadro 3] . Sin
embargo, el poder de esta prueba es inferior al criterio preestablecido de 90% y la
incidencia de este parámetro es claramente inferior a la de los otros predictores en el
modelo. La tendencia a incluir parámetros adicionales también se informó de que las
estimaciones ML SEM ordenó variables categóricas fueron tratados como continua [24], y
cabe esperar para ADF estimaciones en la SEM con binario de datos de entrada. Cabe
señalar que las variables binarias y de la cantidad de ruido introducido en el modelo
analizado son graves obstáculos a la concreción de la correcta relación entre las variables
de los métodos de estimación ADF, típicamente aplicadas a los datos con menor
desviación de la distribución normal multivariante. Sin embargo, ha habido algunos
progresos en el desarrollo de ambas muestra grande y finito de SEM muestra solidez en
el manejo de los parámetros no-normales y atípicos de datos [25, 26].
La ventaja de más de SEM separado modelos de regresión logística para cada resultado
es doble. En primer lugar, puede SEM modelo de regresión de todas las ecuaciones
simultáneamente, proporcionando así un marco flexible para probar una gama de posibles
relaciones entre las variables en el modelo, incluido el de mediación efectos latentes y las
posibles variables de confusión. En segundo lugar, en un plano más general, SEM
parámetros puede cuantificar la contribución de cada factor predictivo de la estructura de
covarianza como el modelo de factores comunes (Figura 5 es un ejemplo), mientras que
ni la interacción de las variables continuas, que se define como su crossproduct, ni la
interacción Categóricos términos de variables independientes en un modelo de regresión,
pueden hacerlo. La elaboración de modelos de una causa común de observar los factores
de riesgo y su influencia en el resultado de interés es imposible fuera del marco SEM.
Propensión genética para diversas enfermedades es probablemente el ejemplo más claro
de la necesidad de que el modelo anterior, lo que permite una investigación de las
variables de confusión latente frecuentemente citada en el diseño del estudio literatura.
Esto incluye latente modelos de crecimiento con una relativamente larga secuencia de los
indicadores de un proceso en evolución, como la enfermedad cuyos síntomas son
típicamente binario indicadores utilizados para la elaboración de modelos estadísticos de
los resultados de interés. No es casualidad que algunos acontecimientos recientes en la
elaboración de modelos de regresión se han caracterizado por los esfuerzos encaminados
a integrar la regresión con una variedad de modelos de estructura de covarianza [1 - 3].
Otra de las ventajas de utilizar SEM Yule del Q-transformación de los odds ratios para los
más de las variables binarias enfoque de dos niveles, sobre la base de probit o modelo
logit estimado o correlaciones para variables no normales como de primer nivel y segundo
nivel SEM como el modelado, podrá determinar en el hecho Que el primero se basa en la
transformación de datos en lugar de la estimación, evitando así las fuentes de error
debido a que este último. Sin embargo, esta opinión no es universalmente aceptada y de
la discusión se remonta al inicio del siglo 20, cuando Karl Pearson y George Yule Udney
discute si una medida de asociación de dos variables binarias para asumir las
necesidades de continuidad y de la distribución normal bivariante [16] . Mientras que el
primero basa su cálculo de tetrachoric correlación de estas premisas, este último de
acuerdo, diciendo que algunas variables categóricas son inherentemente discreta, de
manera que el supuesto de continuidad es tenue y, de hecho, una medida innecesaria
porque de asociación para estos casos se puede obtener directamente de los De células
en un 2 por 2 en el cuadro como odds ratio y su transformación, hoy conocida como Yule
del P. ¿A pesar de que la popularidad de odds ratio más de la correlación de Pearson en
estadística médica apunta a una tendencia predominante de abrazar Yule opinión en este
campo, un intento de Conciliar los dos puntos de vista se ha logrado [16].
El hecho de que la transformación de Yule es bien conocida y permite una sencilla copia
de transformación de los parámetros del modelo de probabilidades métricas hace que sea
más fácil de interpretar como efecto de las medidas. Aunque SEM estimaciones basadas
en los métodos ya existentes para el manejo de las variables categóricas se podría
convertir a una odds ratio métricas a los fines de interpretación, se ha utilizado muy
raramente en las publicaciones en el campo y casi exclusivamente con GLLAMM.
Aunque otras medidas de ajuste comparativo modelo, abundantes en la literatura SEM [9],
también puede ser útil para evaluar diversos aspectos de esta importante cuestión, la
clasificación de rendimiento es una medida preferida de poder predictivo en la práctica,
sobre todo si transversal validado. Por ejemplo, tanto los conjuntos de datos analizados
aquí utilizarse perfectamente saturado de modelos que predicen la entrada de las
matrices de correlación, por lo que los índices de ajuste basado en la discrepancia
observada entre la SEM y de las matrices de correlación obtenido predice valores
máximos posibles, pero esto no fue particularmente informativa. Por otra parte, los índices
de ajuste SEM puede ser útil para seleccionar el mejor modelo en muchas otras
situaciones.
A pesar de las ventajas de la SEM se ha mencionado anteriormente, existen varias
limitaciones de este trabajo. En primer lugar, Q de Yule no es exactamente coeficiente de
correlación de Pearson, sino más bien una aproximación a lo que parece razonable en
grandes muestras y de los tipos de modelos a prueba. Aunque el ejemplo de un pequeño
tamaño de la muestra, parece satisfactorio el desempeño en comparación con modelos
de regresión logística, que aún no se ha probado completamente para una gama mucho
más amplia de las estructuras de dependencia que se presenta aquí con el fin de evaluar
la solidez de los parámetros obtenidos. Sin embargo, este requisito es una consecuencia
de la elaboración de modelos complejos problemas que a menudo surgen en la SEM
como Yule Q no es nuevo estimador. Por lo tanto, las conclusiones sobre las propiedades
de ML, ADF y estimadores de mínimos cuadrados en la SEM, el acumulado de casi tres
décadas de investigación, se aplican aquí. Esta es la principal razón por la cual ningún
intento de un estudio de simulación de SEM parámetro estimaciones se han hecho en
este trabajo. En segundo lugar, la falta de una regla simple de la variable de selección en
la SEM y la necesidad de probar una variedad de modelos antes de seleccionar la más
aceptable puede hacer que sea difícil de utilizar este sistema para la rápida toma de
decisiones a menudo a favor de rutina en aplicaciones de las estadísticas médicas.
Modelo de selección sobre la base de factores de Bayes [27] puede ser de ayuda en esta
situación. Por último, aunque logit es la más popular en la transformación de modelos en
los resultados binarios médica estadísticas, hay muchas otras funciones de enlace, que
puede ser más adecuado para un determinado modelo. GLLAMM [18] y la teoría del
software parece ser el marco más completo de esa investigación hasta la fecha.
Se necesitan más investigaciones para dilucidar los diversos aspectos de la SEM sobre la
base de Q-métricas de entrada, sobre todo pequeña muestra de rendimiento para una
amplia gama de modelos estadísticos y su clasificación rendimiento. Además, la
diferencia de las odds ratio puede ser utilizada para la estimación de peso matriz de
correlación, de manera que Q-métricas de entrada de la SEM tiene en cuenta la precisión
de la escala original y no sólo la magnitud de la asociación entre dos variables binarias.
Relativo apropiado medidas como las recientemente propuestas por Agresti y Caffo [28]
puede ayudar a seleccionar entre diferentes modelos de la competencia de la especie.
Conclusión
SEM-Q basa en la transformación de las odds ratio puede ser usado para investigar las
estructuras de dependencia complejas, como latente factores de confusión y de sus
influencias en ambos observaron factores de riesgo y resultados variables categóricas