Más Allá de La Regresión Logística Binaria

Más allá de la regresión logística: la
elaboración de modelos de
ecuaciones estructurales variables
binarias y su aplicación a la
investigación de confusión
incumplido
BioMed Central
Emil Kupek (kupek@ccs.ufsc.br) [1]
[1] Unidad Nacional de Epidemiología Perinatal, Instituto de Ciencias de la Salud de la
Universidad de Oxford, Reino Unido
Copyright © 2006 Kupek; licenciatario BioMed Central Ltd
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative
Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso
irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original
sea debidamente citada.
Resumen
Antecedentes
La elaboración de modelos de ecuaciones estructurales (SEM) ha sido cada vez más

utilizada en las estadísticas médicas para resolver un sistema de ecuaciones de regresión
relacionados. Sin embargo, un gran obstáculo para su utilización más amplia ha sido su
dificultad en el manejo de variables categóricas en el marco de los modelos lineales
generalizados.
Métodos
Un gran conjunto de datos con una estructura conocida entre los resultados de dos y tres
variables independientes, se ha generado para investigar el uso de la transformación de
Yule odds-ratio (OR) en métricas por Q-(O-1) / (OR 1) a la aproximación de Pearson
Coeficientes de correlación entre variables binarias covarianza cuya estructura puede ser
más analizado por SEM. Correctamente clasificados por ciento de los eventos y no
eventos se comparó con la clasificación obtenida por regresión logística. El desempeño
de SEM basada en métricas Q-también fue objeto de un control pequeño (N = 100)
muestra aleatoria de los datos generados y en un conjunto de datos reales.
Resultados
SEM recuperado con éxito el modelo de estructura generada. SEM real de los datos
sugiere una influencia latente de una variable de confusión que no se han detectables por
estándar de regresión logística. SEM clasificación de rendimiento fue en general similar a
la de la regresión logística.
Conclusión
El análisis de los datos binarios pueden ser muy reforzada por la transformación de Yule
odds ratios estimados en la matriz de correlación que pueden ser analizadas más a fondo
por la SEM. La interpretación de los resultados es la ayuda de expresar como odds ratios
que son la medida más utilizada de efecto en las estadísticas médicas.
Antecedentes
Estadística problemas que se deben superar estándar de la regresión
logística
Aunque la regresión logística se ha convertido en la piedra angular de la modelización

resultados categóricos en las estadísticas médicas, análisis de regresión por separado
para cada medida de resultado de interés es difícilmente desafiado como un enfoque
pragmático, incluso en las situaciones en que los resultados son naturalmente
relacionados. Esto es común en el proceso de evaluación en que la misma puede ser una
variable de resultado en un momento y un predictor de otro resultado en el futuro. Por
ejemplo, el parto prematuro es a la vez un importante resultado obstétrico y un factor de
riesgo para el bajo peso al nacer, que a su vez puede afectar negativamente a la salud
futura. Secuencial de la naturaleza de estos resultados no está abarcado por las
reiteradas medidas de los modelos que se ocupan de los mismos resultados en diferentes
puntos temporales. Otro ejemplo de un problema de investigación difíciles de manejar por
el modelo de regresión logística es cuando un resultado está determinado no sólo por las
influencias directas de la predictor variables, sino también por sus incumplido causa
común. Por ejemplo, el tiempo de supervivencia desde el inicio de una enfermedad del
sistema inmune puede ser afectado negativamente por la aparición concomitante de
diversos marcadores de la progresión de la enfermedad que indica inmunosupresión
como un factor común, este último siendo una variable latente incumplido cuya estimación
requiere la solución de un sistema de regresión relacionados Ecuaciones.
La elaboración de modelos de ecuaciones estructurales (SEM) es un marco muy general

de estadística para hacer frente a cuestiones anteriores. En los últimos años, se ha usado
cada vez más en las estadísticas médicas. Además de áreas tradicionales como la salud
propiedades psicométricas de los cuestionarios y pruebas, la genética del comportamiento
[1], los errores de medición [2] y la estructura de covarianza en modelos de regresión
mixtos [3] han recibido particular atención. Además de las aplicaciones concretas,
importantes cuestiones de metodología de la investigación en la SEM se ha dado más
espacio en las estadísticas médicas, entre las que una comparación con regresión
múltiple [4], la pertinencia de los medios variable latente en los ensayos clínicos [5] y el
poder de las pruebas estadísticas [ 6], merecen una atención especial.
Sin embargo, un gran obstáculo para un uso más amplio de la SEM ha sido su dificultad
en el manejo de variables categóricas. El objetivo de este trabajo es revisar brevemente
los aspectos principales de esta dificultad y para demostrar un nuevo enfoque a este
problema sobre la base de una simple transformación. Dos ejemplos con datos reales y
simulados se proporcionan para ilustrar este enfoque.
SEM incluye tanto y observó incumplido (latente) variables como los factores comunes y
los errores de medición. El Lineal Relaciones estructurales (LISREL) modelo [7] fue el
primero en difundir en psicométricas aplicaciones debido a la disponibilidad de software.
Otras formulaciones de la SEM y el software correspondiente surgido (ver [8] para obtener
una visión general). Los detalles de estos modelos, así como de cuestiones importantes
en relación con su identificabilidad, la estimación y robustez, están más allá del alcance
de este trabajo, sino un ejemplo de las situaciones en que se necesita SEM se presenta
en lugar (Figura 1]. Como regla general, SEM está indicado cuando más de una ecuación
de regresión es necesario para la elaboración de modelos estadísticos de los fenómenos
objeto de la investigación.
La parte izquierda de la Figura 1 muestra una situación en que los dos resultados, y
denota Y 1 Y 2, están mutuamente relacionados (un feed-back loop) y influenciado por dos
factores predictivos, denota X 1 y X 2. Por ejemplo, los resultados pueden ser la oferta y la
demanda de un determinado servicio de salud o de la percepción del riesgo y la incidencia
de un problema de salud. El predictor variables' error términos, y denota e 1 e 2, puede ser
correlacionado (r) si una variable importante que influyen en la predictores se omite, es
decir, en el caso de medidas de sesgo en la exposición. Los términos d 1 y d 2indicar
disturbios de los dos resultados. La parte derecha de la figura 1 ilustra una combinación
de factores comunes y el modelo de regresión. En este caso, es de interés para
comprobar si el resultado está decidido Y no sólo por influencias directas de la predictor
variables, denota X 1, X 2, X 3 y X 4, pero también por su latente determinante como indica
la regresión B coeficiente.
SEM ha recibido muchas críticas, la mayoría de los cuales han sido relacionados con la
vulnerabilidad de los modelos complejos basados en muchas suposiciones, así como con
el uso y la interpretación acrítica de la SEM. Estas preocupaciones están en buenas
condiciones, pero no son intrínsecos a la SEM; aún bien conocidas y ampliamente
aplicado técnicas como la regresión compartimos las mismas preocupaciones.
Fenómenos complejos requieren modelos complejos inferencial cuyos aspectos son más
propensos a error ya que el número de parámetros aumenta. SEM es a menudo el único
marco estadístico por el que muchos de estos problemas pueden ser abordados por las
pruebas y de comparación de los modelos obtenidos [9].
Manejo de variables categóricas en SEM
Crítica específica sobre el tratamiento de variables categóricas y ordinales en la SEM ha

sido un factor de disuasión fuerte para su mayor utilización. Ingenuo de tratamiento
binario y ordenó variables categóricas como si fueran normalmente distribuido en algunos
SEM solicitudes se debió en parte a la falta de alternativas viables en sus primeros días.
Uso inadecuado de normalización de los coeficientes de regresión como las medidas de
efecto en algunas aplicaciones SEM también fue criticado [10]. Incluso cuando las
propiedades de distribución de las variables categóricas se tuvieron en cuenta, la
interpretación de la SEM estimaciones de los parámetros en términos de impacto de
medidas tales como el riesgo atribuible no se aplicó. Estándar de los errores y límites de
confianza - raramente utilizados en la SEM - son generalmente subestimar modelo
estructural incertidumbres tales como la selección de las variables y la especificación
correcta de sus influencias.
Un reciente examen de manejo categórica y otros no normal de las variables en la SEM

[11] se enumeran cuatro estrategias principales: a) la distribución libre asintótica (FDA)
para el ajuste de los estimadores no de la normalidad teniendo en cuenta la curtosis en la
distribución conjunta multivariado [12], b ) El uso de robustas de estimación de máxima
verosimilitud o remuestreo como jacknife o de arranque para obtener los errores estándar
de los parámetros de SEM como estos son los más afectados por la salida de la
normalidad multivariante [13], c) el cálculo de polyserial, tetrachoric o policóricas
correlaciones de pares de No variables con distribución normal de las articulaciones por el
supuesto de que éstos tengan un subyacente (latente), cuya gran escala continua
muestra la distribución conjunta es normal bivariado, a continuación, el uso de estas
correlaciones como insumo para la SEM [14], y, d) la estimación probit o modelo logit
resultados Para observar las variables categóricas como el primer nivel, y luego proceder
con la SEM sobre la base de estos resultados como los de segundo nivel [15]. El ADF de
estimación general requiere grandes muestras de mantener el error de tipo II a un nivel
razonable y no muy normal como variables binarias puede ser difícil de manejar con la
suficiente precisión. Las dos últimas estrategias crítica dependerá de lo bien que el
modelo de primer nivel se ajusta a los datos.
Una revisión de los modelos estadísticos para datos categóricos revela la falta de un
método capaz de manejar más de una ecuación de regresión [16]. Aunque los modelos
log-lineales para tablas de contingencia puede analizar relacionados con resultados
categóricos y su relación con las variables independientes, posiblemente complejas
interacciones entre las variables en el modelo no indican la dirección de influencias como
en modelos de regresión. Esto pone de relieve la necesidad de un marco SEM para el
análisis de datos categóricos a fin de manejar tanto la reducción de la dimensionalidad y
técnicas de regresión dentro de un mismo modelo (véase la parte derecha de la figura 1].
Dos importantes acontecimientos recientes en el manejo de los datos categóricos Muthen

incluir la extensión de la SEM a la 'variable latente de modelado »[17] y una extensión de
los modelos lineales generalizados mixtos para latente y en virtud de las variables
GLLAMM (Linear Generalizado Y Latente modelos mixtos) marco [18] . A pesar de
estadísticas procedentes de diferentes orígenes, tanto Muthén del Mplus software [19] y
GLLAMM son capaces de modelizar una mezcla de continuo, ordinales y nominales
escala variables, múltiples grupos (incluidos los grupos) y jerárquica (de varios niveles) de
datos, de efectos aleatorios, los desaparecidos Datos, variables latentes (incluyendo
clases latente latentes y modelos de crecimiento) y de tiempo discreto modelos de
supervivencia. Ambas decisiones se basan en la visión de los modelos lineales
generalizados como un marco unificador para las variables categóricas y continuas,
cuando ésta se ve transformado en continuo funciones lineales y, posteriormente, por el
modelo SEM. Este documento sigue la misma línea pero propone una transformación
diferente para las variables categóricas, hasta ahora no utilizada en la SEM. Una simulada
y un verdadero ejemplo de datos con una variable latente de confusión se presentan.
Métodos
Los datos de generación y transformación
Este trabajo pone de manifiesto la aplicación de SEM para variables binarias utilizando
Yule a la aproximación de la transformación de la matriz de coeficientes de correlación de
Pearson de odds ratio (OR) por una conocida fórmula (O-1) / (OR 1). El primer ejemplo se
basa en conocer los procesos de generación de datos para evitar la incertidumbre acerca
de cierto modelo, prácticamente inevitable de los datos empíricos. Un conjunto de datos
de 5000 con las observaciones que se generó a la teoría de aproximación normal. En
primer lugar, tres variables aleatorias continuas, denominadas x 1 a 3 x, se creó a partir de
la distribución uniforme. Las variables fueron no en la población. Sus versiones binarias,
denominada BIN 1 al BIN 3, se obtuvieron mediante la codificación de los valores por
encima de la media frente a cero como uno de otro. Dos continua variables dependientes
fueron creados por las siguientes ecuaciones: m = 1,5 x 1 + 2 x 2 y 1 + e y = 0,5 x 2 -
2,5 x 3 + 1,3 m + e 2, y con e 1 e 2 que se distribuyen normalmente al azar Errores (N ~
0,1), generados a partir de diferentes semillas. Las versiones binarias de las variables
dependientes, denominados MBIN y YBIN, fueron creados por la aplicación de la
regresión logística de clasificación de la regla, es decir, la puntuación de 1 si exp (m) / (1
+ exp (m)) y exp (y) / (1 + exp (Y)) superior a 0,5 frente a 0 en caso contrario, donde 'exp'
significa 'exponenciación ».
Observado odds ratios entre las variables de interés en los conjuntos de datos generados
se presentan en el cuadro 1. Las relaciones estructurales entre las variables en el
segundo conjunto de datos se representan en la figura 2.
Además, una muestra aleatoria de 100 observaciones se tomó de la base de datos

generada con 5000 observaciones con el fin de ilustrar pequeña muestra de rendimiento
de la SEM basa en la transformación de Yule frente a la regresión logística. Por último, un
ejemplo con datos reales relacionados con el binario obstétrica de los resultados,
incluyendo el nacimiento prematuro, el segmento más bajo la sección cesárea, el bajo
peso al nacer (2500) y la utilización de la unidad de cuidados especiales para bebés, se
utilizó para comparar la SEM con la regresión logística como una técnica estándar
Aplicada a este tipo de datos. Los datos fueron extraídos de los registros obstétricos de
10.574 mujeres multíparas, con embarazos únicos que tuvieron un bebé entre el 1 º
de
agosto de 1994 y el 31 de julio de 1995, en nueve unidades de maternidad en Inglaterra
y Gales [20].
Yule la transformación se utilizó para estimar la matriz de coeficientes de correlación de

Pearson para ambos simulados y reales obstétrica de datos. Las correlaciones se
utilizaron como insumo para la SEM. Para la simulación de los datos, tanto de logística y
SEM análisis se repitieron al azar para un subconjunto de 100 observaciones tomadas de
la base de datos original. Máxima verosimilitud (ML), la estimación se utilizó.
SEM crudo coeficientes de regresión fueron transformados de back-Q-métricas en odds

métricas por (1 + Q) / (1-Q) para obtener un impacto de la medida predictor variables
binarias. SAS de software y procedimientos CALIS LOGÍSTICO se utilizaron para el
análisis de SEM y de logística, respectivamente [21].
Evaluación de la clasificación de rendimiento
Residuos de los datos en bruto se calcula como la diferencia entre observar y SEM-
predice valores de las dos series de datos. La predicción se calcula multiplicando el crudo
parámetros de regresión obtenida en la SEM con sus correspondientes valores
observados de las variables predictor. La copia de los parámetros de transformación de la
SEM, denota S, a la Casa métricas está dado por (1 + S) / (1-S) y provee las
probabilidades de ser el caso, para cada variable independiente; resumiendo estas
probabilidades más de las variables independientes da Las probabilidades de ser el caso,
para cada perfil de las variables independientes. Las probabilidades más de una se
clasificaron como predijo SEM casos versus otra cosa.
Por regresión logística, el porcentaje de resultados correctamente clasificados se calculó

utilizando el punto de corte de 0,5 para el cálculo de probabilidad de variables de
resultado.
La clasificación de rendimiento de la SEM y de regresión logística se comparó en un

verdadero conjunto de datos con varias obstétrica de resultados de interés [20] y en una
pequeña muestra aleatoria de 100 observaciones tomadas de la serie de datos simulados
de 5000 observaciones.
Análisis de poder
Análisis de poder estadístico utilizado un cálculo basado en la no-chi-cuadrado central de

distribución, proporcionando el número de observaciones necesarias para alcanzar el
90% de energía (beta o error tipo II de 0.10), denota como N [22, 23]. Si n denota el
número de observaciones utilizadas en la SEM, k denota el factor de multiplicación
elegido para un nivel de potencia, grados de libertad y alfa (error de tipo I), y d denota la
diferencia de chi-cuadrado entre la SEM con y sin el parámetro ( S) de interés, entonces N
= k * n / d da el tamaño de la muestra necesaria. El lanzamiento de un parámetro a la vez
(un grado de libertad), fijado con el error tipo I de 5% y el error de tipo II de 10%, punto a
la tabulados k-valor de 10,51 [23]. Este enfoque supone que el modelo está
correctamente especificado.
Resultados
Cuadro 1 contiene observó odds ratios para el conjunto de datos simulados y su
descomposición en efectos de regresión sobre la base de SEM utilizando Yule
transformación de la razón de momios.
Un método estándar para el análisis de variables binarias mediante regresión logística

multifactorial para la simulación de los datos se presentan en la Tabla 2.
La parcela de probabilidad normal de los datos brutos residuos entre los resultados
observados y la estimación de la probabilidad de resultados sobre la base de SEM para
simular datos mostraron cierta desviación de la distribución normal (Figura 3]. Por otro
lado, los residuos caen dentro del rango normal. Ambos SEM y modelos de regresión
logística para datos reales obstétrica (Figura 4] mostró ajuste satisfactorio con respecto a
los datos individuales residuos.
La comparación de la clasificación de rendimiento para SEM versus regresión logística

mostró ligeramente mejores resultados con este último en uno de los resultados de una
pequeña muestra de análisis y resultados muy similares para todas las demás
comparaciones (Tabla 4]. Verdadero positivo fracción de los eventos fue siempre
considerablemente mayor en comparación con el SEM de regresión logística, aunque sea
a costa de menor fracción de verdaderos negativos no eventos.
De regresión logística mostró una mejor tasa global de la clasificación debido a una mejor
predicción de los acontecimientos no (Tabla 5]. Por otra parte, los acontecimientos fueron
mejores predicha por SEM.
SEM permite una investigación más a fondo de la incumplido determinante de los factores
de riesgo obstétrico observado en la predicción de la necesidad de la atención neonatal
especializada a través de una variable latente. Un modelo se puso a prueba el supuesto
de que una causa común de algunos de los factores de riesgo es una variable latente de
confusión que influyen en los factores de riesgo observados y los resultados de interés (la
unidad de cuidados especiales para bebés) y la adición de capacidad de predicción más
allá de las variables de riesgo observado (Figura 5 ). La estimación fue posible a la
solución de las variables observadas de los parámetros de primera (los llamados análisis
de la trayectoria), y se fija el factor de carga para el parto prematuro con el valor de uno -
una convención que permite la comparación de la contribución de las otras dos variables
de riesgo observado para la Incumplido latente el riesgo de nacimiento prematuro
utilizando como unidad de riesgo. El factor de cargas (errores estándar) de la sección
cesárea y el bajo peso al nacer fueron -0.3948 (0.003) y 0.8630 (0.001), respectivamente.
La relevancia de la variable latente para predecir el uso de la unidad de cuidados

especiales para bebés también fue probado por regresión lineal con los datos brutos SEM
residuos (SEM predijo observó menos probabilidad de utilizar la unidad de cuidados
especiales para bebés) como la variable dependiente y la variable latente como los
resultados Predictor variable. El predictor se estimó en 0.0874 (0.0053 error estándar) y
fue altamente significativa (p <0,001).
El modelo sugiere que la propensión de los nacimientos prematuros de bajo peso al nacer
resultante en el momento de la entrega, que no utilizó la sección cesárea aumento de las
posibilidades de utilización de servicios de atención neonatal especiales. El crudo SEM
coeficiente que representa este efecto, denominada b 4 en la Figura 5, se estimó en
0,0956 con la correspondiente error estándar de 0,016, dando lugar a que una parte muy
significativa de t-valor 61,54. La transformación de las probabilidades de nuevo a través
de métricas (1 + b 4) / (1-b 4) dio lugar a odds-ratio de 1,21 y los correspondientes
intervalos de confianza del 95% de 1,14 a 1,29. Aunque un modelo de regresión logística
multivariante para la unidad de cuidados especiales para bebés utilización no encontró
por encima de la combinación de factores de riesgo estadísticamente significativos
cuando se añade como plazo para la interacción de los factores de riesgo propios (odds
ratio 1,16 con intervalos de confianza del 95% de 0,72 a 1,86) , Cabe destacar que este
es un modelo diferente de la anterior SEM.
Análisis de poder estadístico encontró que sólo el 3 b parámetro en el cuadro 3 que

requieren un mayor tamaño de la muestra (N = 5.918) que el que se dispone para lograr el
90% de energía.
Discusión
El análisis demostró la viabilidad de SEM utilizando Yule del Q-transformación de la odds
ratio como entrada para los modelos de variables binarias. En el nivel de cada uno de los
puntos de datos, los datos brutos residuos estuvieron dentro de límites normales y la regla
discriminante para la clasificación de los resultados en los eventos y no sobre la base de
hechos SEM-Q realizó puntuaciones ligeramente peor, pero aún de manera similar a los
resultados enfoque basado en la norma Utilizando regresión logística. La conclusión es
válida para los pequeños de la muestra con el ejemplo y los datos generados por el
conjunto de datos reales a prueba aquí. Todos estos elementos señalan a la viabilidad y
la utilidad de SEM utilizando Yule para la transformación de datos binarios, principalmente
cuando complejas relaciones entre las variables están presentes. Por ejemplo, la
investigación de la causa común de indicadores de riesgo obstétrico en el resultado del
interés latente identificado una variable de confusión que el aumento de las posibilidades
de utilización de especial atención neonatal más allá de las repercusiones de los mismos
indicadores de riesgo como predictores independientes (Figura 5] . La interpretación de la
variable latente hypothesising puede dar lugar a un servicio de salud de rutina de
tratamiento de nacimientos prematuros de una manera particular (es decir, de restricción
de la sección cesárea) o una propensión biológica de nacimiento complicaciones, con
estas dos alternativas que conduzcan a la mayor necesidad de neonatal intensiva
Atención. Esto ilustra cómo SEM ayuda a la generación de hipótesis y la investigación de
complejos no disponibles por otros métodos. Yule la transformación puede ser de ayuda
en la preparación de datos binarios para SEM. Mediante el uso de odds-ratio tanto como
punto de partida y para la presentación de resultados, la propuesta de transformación
facilita la interpretación de los efectos en el modelo.
A nivel alfa <0,05, tanto el univariado t-test y la prueba de razón verosimilitud para el
parámetro b 3 siendo igual a cero indica su importancia estadística en la SEM (datos no
presentados), a pesar de la importancia de no observar odds-ratio (cuadro 3] . Sin
embargo, el poder de esta prueba es inferior al criterio preestablecido de 90% y la
incidencia de este parámetro es claramente inferior a la de los otros predictores en el
modelo. La tendencia a incluir parámetros adicionales también se informó de que las
estimaciones ML SEM ordenó variables categóricas fueron tratados como continua [24], y
cabe esperar para ADF estimaciones en la SEM con binario de datos de entrada. Cabe
señalar que las variables binarias y de la cantidad de ruido introducido en el modelo
analizado son graves obstáculos a la concreción de la correcta relación entre las variables
de los métodos de estimación ADF, típicamente aplicadas a los datos con menor
desviación de la distribución normal multivariante. Sin embargo, ha habido algunos
progresos en el desarrollo de ambas muestra grande y finito de SEM muestra solidez en
el manejo de los parámetros no-normales y atípicos de datos [25, 26].
La ventaja de más de SEM separado modelos de regresión logística para cada resultado
es doble. En primer lugar, puede SEM modelo de regresión de todas las ecuaciones
simultáneamente, proporcionando así un marco flexible para probar una gama de posibles
relaciones entre las variables en el modelo, incluido el de mediación efectos latentes y las
posibles variables de confusión. En segundo lugar, en un plano más general, SEM
parámetros puede cuantificar la contribución de cada factor predictivo de la estructura de
covarianza como el modelo de factores comunes (Figura 5 es un ejemplo), mientras que
ni la interacción de las variables continuas, que se define como su crossproduct, ni la
interacción Categóricos términos de variables independientes en un modelo de regresión,
pueden hacerlo. La elaboración de modelos de una causa común de observar los factores
de riesgo y su influencia en el resultado de interés es imposible fuera del marco SEM.
Propensión genética para diversas enfermedades es probablemente el ejemplo más claro
de la necesidad de que el modelo anterior, lo que permite una investigación de las
variables de confusión latente frecuentemente citada en el diseño del estudio literatura.
Esto incluye latente modelos de crecimiento con una relativamente larga secuencia de los
indicadores de un proceso en evolución, como la enfermedad cuyos síntomas son
típicamente binario indicadores utilizados para la elaboración de modelos estadísticos de
los resultados de interés. No es casualidad que algunos acontecimientos recientes en la
elaboración de modelos de regresión se han caracterizado por los esfuerzos encaminados
a integrar la regresión con una variedad de modelos de estructura de covarianza [1 - 3].
Otra de las ventajas de utilizar SEM Yule del Q-transformación de los odds ratios para los
más de las variables binarias enfoque de dos niveles, sobre la base de probit o modelo
logit estimado o correlaciones para variables no normales como de primer nivel y segundo
nivel SEM como el modelado, podrá determinar en el hecho Que el primero se basa en la
transformación de datos en lugar de la estimación, evitando así las fuentes de error
debido a que este último. Sin embargo, esta opinión no es universalmente aceptada y de
la discusión se remonta al inicio del siglo 20, cuando Karl Pearson y George Yule Udney
discute si una medida de asociación de dos variables binarias para asumir las
necesidades de continuidad y de la distribución normal bivariante [16] . Mientras que el
primero basa su cálculo de tetrachoric correlación de estas premisas, este último de
acuerdo, diciendo que algunas variables categóricas son inherentemente discreta, de
manera que el supuesto de continuidad es tenue y, de hecho, una medida innecesaria
porque de asociación para estos casos se puede obtener directamente de los De células
en un 2 por 2 en el cuadro como odds ratio y su transformación, hoy conocida como Yule
del P. ¿A pesar de que la popularidad de odds ratio más de la correlación de Pearson en
estadística médica apunta a una tendencia predominante de abrazar Yule opinión en este
campo, un intento de Conciliar los dos puntos de vista se ha logrado [16].
El hecho de que la transformación de Yule es bien conocida y permite una sencilla copia
de transformación de los parámetros del modelo de probabilidades métricas hace que sea
más fácil de interpretar como efecto de las medidas. Aunque SEM estimaciones basadas
en los métodos ya existentes para el manejo de las variables categóricas se podría
convertir a una odds ratio métricas a los fines de interpretación, se ha utilizado muy
raramente en las publicaciones en el campo y casi exclusivamente con GLLAMM.
Herramientas habituales de evaluación de la SEM apropiado como el análisis de los

residuos no sólo están disponibles para la entrada de covarianzas, sino también para los
puntos de datos individuales. Cuando la clasificación de los resultados en eventos y
acontecimientos no es de interés, la sensibilidad y la especificidad de los parámetros
pueden ser fácilmente obtenidos, de modo que este enfoque se aplica a una amplia gama
de problemas de investigación.
Aunque otras medidas de ajuste comparativo modelo, abundantes en la literatura SEM [9],
también puede ser útil para evaluar diversos aspectos de esta importante cuestión, la
clasificación de rendimiento es una medida preferida de poder predictivo en la práctica,
sobre todo si transversal validado. Por ejemplo, tanto los conjuntos de datos analizados
aquí utilizarse perfectamente saturado de modelos que predicen la entrada de las
matrices de correlación, por lo que los índices de ajuste basado en la discrepancia
observada entre la SEM y de las matrices de correlación obtenido predice valores
máximos posibles, pero esto no fue particularmente informativa. Por otra parte, los índices
de ajuste SEM puede ser útil para seleccionar el mejor modelo en muchas otras
situaciones.
A pesar de las ventajas de la SEM se ha mencionado anteriormente, existen varias
limitaciones de este trabajo. En primer lugar, Q de Yule no es exactamente coeficiente de
correlación de Pearson, sino más bien una aproximación a lo que parece razonable en
grandes muestras y de los tipos de modelos a prueba. Aunque el ejemplo de un pequeño
tamaño de la muestra, parece satisfactorio el desempeño en comparación con modelos
de regresión logística, que aún no se ha probado completamente para una gama mucho
más amplia de las estructuras de dependencia que se presenta aquí con el fin de evaluar
la solidez de los parámetros obtenidos. Sin embargo, este requisito es una consecuencia
de la elaboración de modelos complejos problemas que a menudo surgen en la SEM
como Yule Q no es nuevo estimador. Por lo tanto, las conclusiones sobre las propiedades
de ML, ADF y estimadores de mínimos cuadrados en la SEM, el acumulado de casi tres
décadas de investigación, se aplican aquí. Esta es la principal razón por la cual ningún
intento de un estudio de simulación de SEM parámetro estimaciones se han hecho en
este trabajo. En segundo lugar, la falta de una regla simple de la variable de selección en
la SEM y la necesidad de probar una variedad de modelos antes de seleccionar la más
aceptable puede hacer que sea difícil de utilizar este sistema para la rápida toma de
decisiones a menudo a favor de rutina en aplicaciones de las estadísticas médicas.
Modelo de selección sobre la base de factores de Bayes [27] puede ser de ayuda en esta
situación. Por último, aunque logit es la más popular en la transformación de modelos en
los resultados binarios médica estadísticas, hay muchas otras funciones de enlace, que
puede ser más adecuado para un determinado modelo. GLLAMM [18] y la teoría del
software parece ser el marco más completo de esa investigación hasta la fecha.
Cuando la escala de las variables SEM no es igual o de sus variaciones difiere

significativamente, la matriz de covarianza de entrada se debe preferir en lugar de la
matriz de correlación de entrada. Aunque SEM errores estándar son menos precisas con
esta última incluso con el tamaño de la muestra de algunos cientos, los datos utilizados
aquí había mucho más grande el tamaño de las muestras y, por lo tanto, están menos
influidos por el tipo de entrada de la matriz. Además, la introducción de todos los SEM
variables fue en la misma escala, es decir, en la Casa métricas. Por otra parte, muchos
SEM aplicaciones se realizan sobre muestras pequeñas y moderadas, de manera que la
matriz de covarianza de entrada sería preferible. Con la distribución normal multivariante,
la matriz de covarianza muestra contiene toda la información necesaria para la SEM. Sin
embargo, con datos no normales, curtosis mostró ser el parámetro más relevante a tener
en cuenta para corregir los errores estándar de los parámetros de la SEM, como en ADF
estimadores [12]. Si los medios son de interés de la SEM, de entrada covarianzas pueden
ser aumentadas con esta información también. Otra forma de hacer frente a la SEM
errores estándar de los datos no es normal "bootstrapping", ya incluido en varios paquetes
estadísticos con SEM módulo.
Si el crudo parámetros de regresión de la SEM superior a la de dominio de Yule la inversa

de la transformación de la función, es decir, el intervalo de -1 a 1, entonces SEM
normalización de los parámetros se pueden utilizar para obtener las probabilidades
métricas a través de (1 + Q) / (1-Q ). Por otra parte, una transformación de la cartografía
en bruto SEM coeficientes a este intervalo se pueden utilizar, como Yule o logit, con la
correspondiente copia de la transformación de los resultados a las probabilidades
métricas.
Aunque este trabajo no aborda la cuestión de la asociación entre las variables

dicotómicas y continuas, las extensiones a incluir este caso se puede contemplar. Una de
las estrategias sería la de transformar las variables continuas ordenados en categorías
con uno de ellos que actúa como una línea de base y, a continuación, calcular las odds
ratios mediante regresión logística. Posteriormente, la transformación de Yule se puede
utilizar para convertir las probabilidades en correlación métricas a ser analizado por SEM.
Otra estrategia sería utilizar policóricas poliserial correlación o de la situación anterior y
sólo sustituto tetrachoric correlación por Q de Yule, en particular cuando las relaciones
estructurales de interés son entre variables binarias en el modelo y algunas variables
exógenas están ordenados o continua.
Se necesitan más investigaciones para dilucidar los diversos aspectos de la SEM sobre la
base de Q-métricas de entrada, sobre todo pequeña muestra de rendimiento para una
amplia gama de modelos estadísticos y su clasificación rendimiento. Además, la
diferencia de las odds ratio puede ser utilizada para la estimación de peso matriz de
correlación, de manera que Q-métricas de entrada de la SEM tiene en cuenta la precisión
de la escala original y no sólo la magnitud de la asociación entre dos variables binarias.
Relativo apropiado medidas como las recientemente propuestas por Agresti y Caffo [28]
puede ayudar a seleccionar entre diferentes modelos de la competencia de la especie.
Conclusión
SEM-Q basa en la transformación de las odds ratio puede ser usado para investigar las
estructuras de dependencia complejas, como latente factores de confusión y de sus
influencias en ambos observaron factores de riesgo y resultados variables categóricas

Más Allá de La Regresión Logística Binaria

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Más Allá de La Regresión Logística Binaria

Загружено:

Авторское право:

Доступные форматы

Más allá de la regresión logística: la

La elaboración de modelos de ecuaciones estructurales (SEM) ha sido cada vez más

Aunque la regresión logística se ha convertido en la piedra angular de la modelización

La elaboración de modelos de ecuaciones estructurales (SEM) es un marco muy general

Manejo de variables categóricas en SEM

Crítica específica sobre el tratamiento de variables categóricas y ordinales en la SEM ha

Un reciente examen de manejo categórica y otros no normal de las variables en la SEM

Dos importantes acontecimientos recientes en el manejo de los datos categóricos Muthen

Además, una muestra aleatoria de 100 observaciones se tomó de la base de datos

Yule la transformación se utilizó para estimar la matriz de coeficientes de correlación de

SEM crudo coeficientes de regresión fueron transformados de back-Q-métricas en odds

Evaluación de la clasificación de rendimiento

Por regresión logística, el porcentaje de resultados correctamente clasificados se calculó

La clasificación de rendimiento de la SEM y de regresión logística se comparó en un

Análisis de poder estadístico utilizado un cálculo basado en la no-chi-cuadrado central de

Un método estándar para el análisis de variables binarias mediante regresión logística

La comparación de la clasificación de rendimiento para SEM versus regresión logística

La relevancia de la variable latente para predecir el uso de la unidad de cuidados

Análisis de poder estadístico encontró que sólo el 3 b parámetro en el cuadro 3 que

Herramientas habituales de evaluación de la SEM apropiado como el análisis de los

Cuando la escala de las variables SEM no es igual o de sus variaciones difiere

Si el crudo parámetros de regresión de la SEM superior a la de dominio de Yule la inversa

Aunque este trabajo no aborda la cuestión de la asociación entre las variables

Вам также может понравиться