Вы находитесь на странице: 1из 299

i

SPSS Complex Samples 17.0

Si desea obtener ms informacin sobre los productos de software de SPSS Inc., visite nuestro sitio Web en http://www.spss.com o pngase en contacto con SPSS Inc. 233 South Wacker Drive, 11th Floor Chicago, IL 60606-6412, EE.UU. Tel: (312) 651-3000 Fax: (312) 651-3668 SPSS es una marca comercial registrada; los dems nombres de productos son marcas comerciales de SPSS Inc. para los programas de software de su propiedad. El material descrito en este software no puede ser reproducido ni distribuido sin la autorizacin expresa por escrito por parte de los propietarios de la marca registrada y de los derechos de la licencia en el software y en los copyrights de los materiales publicados. El SOFTWARE y la documentacin se proporcionan con DERECHOS LIMITADOS. Su uso, duplicacin o revelacin por parte del Gobierno estn sujetos a las restricciones establecidas en la subdivisin (c)(1)(ii) de la clusula Rights in Technical Data and Computer Software en 52.227-7013. El fabricante es SPSS Inc., 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, EE.UU. N de patente 7,023,453 Aviso general: El resto de los nombres de productos mencionados en este documento se utilizan slo con nes identicativos y pueden ser marcas comerciales de sus respectivas empresas. Windows es una marca comercial registrada de Microsoft Corporation. Apple, Mac y el logotipo de Mac son marcas comerciales de Apple Computer, Inc., registradas en Estados Unidos y en otros pases. Este producto utiliza WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com. Impreso en EE.UU. Queda prohibida la reproduccin, el almacenamiento en sistemas de recuperacin o la transmisin de cualquier parte de esta publicacin en cualquier forma y por cualquier medio (electrnico o mecnico, fotocopia, grabacin o cualquier otro) sin previa autorizacin expresa y por escrito de parte del editor.

Prefacio

SPSS Statistics 17.0 es un sistema global para el anlisis de datos. El mdulo adicional opcional Muestras complejas proporciona las tcnicas de anlisis adicionales que se describen en este manual. El mdulo adicional Muestras complejas se debe utilizar con el sistema Base de SPSS Statistics 17.0 y est completamente integrado en dicho sistema.
Instalacin

Para instalar Muestras complejas mdulo adicional, ejecute el Asistente para autorizacin de licencia utilizando el cdigo de autorizacin que le envi SPSS Inc.. Para obtener ms informacin, consulte las instrucciones de instalacin proporcionadas con Muestras complejas mdulo adicional.
Compatibilidad

SPSS Statistics est diseado para ejecutarse en gran cantidad de sistemas de ordenadores. Consulte las instrucciones de instalacin entregadas con su sistema para obtener informacin especca acerca de los requisitos mnimos y los recomendados.
Nmeros de serie

El nmero de serie es su nmero de identicacin con SPSS Inc.. Necesitar este nmero cuando se ponga en contacto con SPSS Inc. para recibir informacin sobre asistencia, formas de pago o actualizacin del sistema. El nmero de serie se incluye en el sistema Base de SPSS.
Servicio al cliente

Si tiene cualquier duda referente a la forma de envo o pago, pngase en contacto con su ocina local, que encontrar en el sitio Web en http://www.spss.com/worldwide. Tenga preparado su nmero de serie para identicarse.
Cursos de preparacin

SPSS Inc. ofrece cursos de preparacin, tanto pblicos como in situ. En todos los cursos habr talleres prcticos. Estos cursos tendrn lugar peridicamente en las principales capitales. Si desea obtener ms informacin sobre estos cursos, pngase en contacto con su ocina local que encontrar en el sitio Web en http://www.spss.com/worldwide.
iii

Asistencia tcnica

El servicio de asistencia tcnica est a disposicin de todos los clientes de mantenimiento. Los clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda sobre el uso de SPSS Statistics o sobre la instalacin en alguno de los entornos de hardware admitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte el sitio Web en http://www.spss.com, o pngase en contacto con la ocina ms cercana, que encontrar en el sitio Web en http://www.spss.com/worldwide. Tenga preparada la informacin necesaria para identicarse personalmente, a su organizacin y el nmero de serie de su sistema.
Publicaciones adicionales

SPSS Statistical Procedures Companion, por Marija Noru, ha sido publicado por Prentice Hall. Se prev una nueva versin de este libro, actualizado para SPSS Statistics 17.0. El libro SPSS Advanced Statistical Procedures Companion, que tambin se basa en SPSS Statistics 17.0, se publicar muy pronto. El libro SPSS Guide to Data Analysis para SPSS Statistics 17.0 tambin est en proceso de desarrollo. Las publicaciones anunciadas de forma exclusiva por Prentice Hall estarn disponibles en el sitio Web en http://www.spss.com/estore (seleccione su pas de origen y pulse en Books).

iv

Contenido
Parte I: Manual del usuario 1 Introduccin a los procedimientos de muestras complejas 1

Propiedades de las muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Uso de los procedimientos de Muestras complejas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Archivos de plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Muestreo a partir de un diseo complejo

Creacin de un nuevo plan de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Asistente de muestreo: Variables del diseo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Controles de rbol para navegar por el Asistente de muestreo. . . . . . . . . . . . . . . . . . . . . . . . 7 Asistente de muestreo: Mtodo de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Asistente de muestreo: Tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Definir tamaos desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Asistente de muestreo: Variables de resultado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Asistente de muestreo: Resumen del plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Asistente de muestreo: Extraer muestra: Opciones de seleccin . . . . . . . . . . . . . . . . . . . . . . . . . 14 Asistente de muestreo: Extraer muestra: Archivos de resultado . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Asistente de muestreo: Finalizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Modificar un plan de muestreo existente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Asistente de muestreo: Resumen del plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Ejecutar un plan de muestreo existente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Funciones adicionales de los comandos CSPLAN y CSSELECT . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Preparacin de una muestra compleja para su anlisis

19

Creacin de un nuevo plan de anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Asistente de preparacin del anlisis: Variables del diseo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Controles de rbol para desplazarse por el Asistente para el anlisis. . . . . . . . . . . . . . . . . . . 22

Asistente de preparacin del anlisis: Mtodo de estimacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Asistente de preparacin del anlisis: Tamao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Definir tamaos desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Asistente de preparacin del anlisis: Resumen del plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Asistente de preparacin del anlisis: Finalizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Modificar un plan de anlisis existente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Asistente de preparacin del anlisis: Resumen del plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 5

Plan de muestras complejas Frecuencias de Muestras complejas

28 29

Frecuencias de Muestras complejas: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Muestras complejas: Valores perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Opciones de Muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Descriptivos de Muestras complejas

33

Descriptivos de Muestras complejas: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Valores perdidos en los descriptivos de Muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Opciones de Muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Tablas de contingencia de Muestras complejas

37

Tablas de contingencia de Muestras complejas: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Muestras complejas: Valores perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Opciones de Muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Razones de Muestras complejas

41

Razones de Muestras complejas: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Razones de Muestras complejas: Valores perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Opciones de Muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

vi

Modelo lineal general de muestras complejas

45

Estadsticos de Modelo lineal general de muestras complejas . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Muestras complejas: Contrastes de hiptesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Medias estimadas del Modelo lineal general de muestras complejas . . . . . . . . . . . . . . . . . . . . . . 50 Modelo lineal general de muestras complejas: Guardar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Modelo lineal general de muestras complejas: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Funciones adicionales del comando CSGLM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

10 Regresin logstica de muestras complejas

54

Regresin logstica de muestras complejas: Categora de referencia . . . . . . . . . . . . . . . . . . . . . . 55 Regresin logstica de muestras complejas: Modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Regresin logstica de muestras complejas: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Muestras complejas: Contrastes de hiptesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Regresin logstica de muestras complejas: Razones de las ventajas . . . . . . . . . . . . . . . . . . . . . . 60 Regresin logstica de muestras complejas: Guardar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Regresin logstica de muestras complejas: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Funciones adicionales del comando CSLOGISTIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

11 Regresin ordinal de muestras complejas

64

Regresin ordinal de muestras complejas: Probabilidades de respuesta. . . . . . . . . . . . . . . . . . . . 66 Regresin ordinal de muestras complejas: Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Regresin ordinal de muestras complejas: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Muestras complejas: Contrastes de hiptesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Regresin ordinal de muestras complejas: Razones de las ventajas . . . . . . . . . . . . . . . . . . . . . . . 71 Regresin ordinal de muestras complejas: Guardar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Regresin ordinal de muestras complejas: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Funciones adicionales del comando CSORDINAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

12 Regresin de Cox de muestras complejas

76

Definir evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

vii

Predictores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Definir predictor dependiente del tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Subgrupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Contrastes de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Guardar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Exportar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Funciones adicionales del comando CSCOXREG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

Parte II: Ejemplos 13 Asistente de muestreo de la opcin Muestras complejas


Uso del asistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen del plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obtencin de una muestra a partir de un marco de muestreo parcial . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

97
. . . 97 . . 107 . . 107 . . 108 . . 109 .. .. .. .. .. .. .. .. .. .. 109 122 122 127 127 128 139 139 141 144

Obtencin de una muestra a partir de un marco de muestreo completo . . . . . . . . . . . . . . . . . . . . 97

Uso del asistente para extraer la muestra del primer marco parcial . . Resultados de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Uso del asistente para extraer la muestra del segundo marco parcial Resultados de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestreo con probabilidad proporcional al tamao (PPS). . . . . . . . . . . . . Uso del asistente . . . . . . Resumen del plan . . . . . . Resumen de muestreo . . . Resultados de la muestra. Procedimientos relacionados . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

viii

14 Asistente de preparacin del anlisis de la opcin Muestras complejas 145


Uso del Asistente de preparacin del anlisis de la opcin Muestras complejas para preparar los datos de uso pblico de la NHIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Uso del asistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Preparacin del anlisis cuando las ponderaciones muestrales no se encuentran en el archivo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Clculo de las probabilidades de inclusin y las ponderaciones muestrales. . Uso del asistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. 148 151 159 159

15 Frecuencias de Muestras complejas


Ejecucin del anlisis . . . . . . Tabla de frecuencia . . . . . . . . Frecuencia por subpoblacin. Resumen . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

160
.. .. .. .. .. 160 163 164 164 165

Uso de Frecuencias de muestras complejas para analizar el consumo de suplementos nutritivos. 160

16 Descriptivos de Muestras complejas


Ejecucin del anlisis . . . . . . . . . . . . . . . . . . Estadsticos univariantes . . . . . . . . . . . . . . . . Estadsticos univariantes por subpoblacin . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

166
.. .. .. .. .. 166 168 169 170 170

Uso de los descriptivos de Muestras complejas para analizar los niveles de actividad . . . . . . . . 166

17 Tablas de contingencia de Muestras complejas

171

Uso de muestras complejas de tablas de contingencia para medir el riesgo relativo de un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

ix

Estimacin de riesgo . . . . . . . . . . . . . . . . Estimacin del riesgo por subpoblacin . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . . . . . . . . . .

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

... ... ... ...

.. .. .. ..

174 175 176 176

18 Razones de Muestras complejas

177

Uso de razones de Muestras complejas como ayuda en la evaluacin de los valores de las propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Ejecucin del anlisis . . . . . . Razones. . . . . . . . . . . . . . . . . Tabla de razones pivotada . . . Resumen . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. 177 180 181 181 182

19 Modelo lineal general de muestras complejas


Ejecucin del anlisis . . . . . . . . . Resumen del modelo . . . . . . . . . . Pruebas de efectos del modelo . . Estimaciones de los parmetros . Medias marginales estimadas . . . Resumen . . . . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

183
.. .. .. .. .. .. .. 183 188 188 189 190 192 192

Uso del Modelo lineal general de muestras complejas para ajustar ANOVA de dos factores . . . . 183

20 Regresin logstica de muestras complejas

194

Uso del procedimiento Regresin logstica de muestras complejas para evaluar riesgos de crdito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Ejecucin del anlisis . . . . . . . . . Pseudo R cuadrado . . . . . . . . . . . Clasificacin . . . . . . . . . . . . . . . . Pruebas de efectos del modelo . . Estimaciones de los parmetros . Razones de las ventajas. . . . . . . . Resumen . . . . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. .. .. 194 198 199 200 200 201 202 203

21 Regresin ordinal de muestras complejas


Ejecucin del anlisis . . . . . . . . . . . . . . . . . . Pseudo R cuadrado . . . . . . . . . . . . . . . . . . . . Pruebas de efectos del modelo . . . . . . . . . . . Estimaciones de los parmetros . . . . . . . . . . Clasificacin . . . . . . . . . . . . . . . . . . . . . . . . . Razones de las ventajas. . . . . . . . . . . . . . . . . Modelo acumulado generalizado . . . . . . . . . . Exclusin de los predictores no significativos Advertencias . . . . . . . . . . . . . . . . . . . . . . . . . Comparacin de los modelos . . . . . . . . . . . . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Procedimientos relacionados . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

204
.. .. .. .. .. .. .. .. .. .. .. .. 204 209 210 210 212 213 214 215 217 218 219 219

Uso de la regresin ordinal de muestras complejas para analizar los resultados de encuestas . . 204

22 Regresin de Cox de muestras complejas


Preparacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informacin de diseo de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . Pruebas de efectos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prueba de impactos proporcionales. . . . . . . . . . . . . . . . . . . . . . . . . . Adicin de un predictor dependiente del tiempo . . . . . . . . . . . . . . . . Varios casos por sujeto en la regresin de Cox de muestras complejas . . Preparacin de los datos para su anlisis . . . . . . . . . . . . . . . Creacin de un plan de anlisis de muestreo aleatorio simple Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informacin de diseo de la muestra . . . . . . . . . . . . . . . . . . . Pruebas de efectos del modelo . . . . . . . . . . . . . . . . . . . . . . . Estimaciones de los parmetros . . . . . . . . . . . . . . . . . . . . . . Valores de patrn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grfico de log menos log . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

221
.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 221 226 231 232 232 232 236 237 252 256 264 265 265 266 267 267

Uso de un predictor dependiente del tiempo en la regresin de Cox de muestras complejas . . . . 221

xi

Apndice A Archivos muestrales Bibliografa ndice 269 280 282

xii

Parte I: Manual del usuario

Captulo

Introduccin a los procedimientos de muestras complejas

Un supuesto inherente a los procedimientos de anlisis en los paquetes de software tradicionales es que las observaciones de un archivo de datos representan una muestra aleatoria simple de la poblacin de inters. Este supuesto es insostenible para un nmero cada vez mayor de empresas e investigadores que consideran ms econmico y cmodo obtener las muestras de una forma ms estructurada. La opcin Muestras complejas permite seleccionar una muestra de acuerdo con un diseo complejo e incorporar las especicaciones del diseo al anlisis de los datos, asegurando as que los resultados sern vlidos.

Propiedades de las muestras complejas


Una muestra compleja puede ser distinta de una muestra aleatoria simple en muchos aspectos. En una muestra aleatoria simple, las unidades de muestreo individuales se seleccionan aleatoriamente con la misma probabilidad y sin reposicin (SR) directamente a partir de la totalidad de la poblacin. Por lo contrario, una muestra compleja determinada puede tener alguna o todas las caractersticas siguientes:
Estratificacin. El muestreo estraticado implica seleccionar muestras independientemente dentro de los subgrupos de la poblacin que no se solapen o estratos. Por ejemplo, los estratos pueden ser grupos socioeconmicos, categoras laborales, grupos de edad o grupos tnicos. Con la estraticacin, puede asegurar que los tamaos muestrales de los subgrupos de inters son adecuados, mejorar la precisin de las estimaciones globales y utilizar distintos mtodos de muestreo entre los diferentes estratos. Conglomerados. El muestreo por conglomerados implica la seleccin de grupos de unidades

muestrales o conglomerados. Por ejemplo, los conglomerados pueden ser escuelas, hospitales o zonas geogrcas y las unidades muestrales pueden ser alumnos, pacientes o ciudadanos. El conglomerado es comn en los diseos polietpicos y en las muestras de zona (geogrca).
Mltiples etapas. En el muestreo polietpico, se selecciona una muestra de primera etapa basada en conglomerados. A continuacin, se crea una muestra de segunda etapa extrayendo submuestras a partir de los conglomerados seleccionados. Si la muestra de segunda etapa est basada en subconglomerados, entonces puede aadir una tercera etapa a la muestra. Por ejemplo, en la primera etapa de una encuesta, se podra extraer una muestra de ciudades. A continuacin, y a partir de las ciudades seleccionadas, se podran muestrear unidades familiares. Finalmente, a partir de las unidades familiares seleccionadas, se podra encuestar a individuos. Los Asistentes de muestreo y preparacin del anlisis permiten especicar tres etapas en un diseo.
1

2 Captulo 1

Muestreo no aleatorio. Cuando es difcil obtener la muestra aleatoriamente, las unidades se pueden

muestrear sistemticamente (con un intervalo jo) o secuencialmente.


Probabilidades de seleccin desiguales. Cuando se muestrean conglomerados que contienen

nmeros de unidades desiguales, puede utilizar el muestreo probabilstico proporcional al tamao (PPS) para que la probabilidad de seleccin del conglomerado sea igual a la proporcin de unidades que contiene. El muestreo PPS tambin puede utilizar esquemas de ponderacin ms generales para seleccionar unidades.
Muestreo no restringido. El muestreo no restringido selecciona las unidades con reposicin (CR).

Por lo tanto, se puede seleccionar ms de una vez una unidad individual para la muestra.
Ponderaciones muestrales. Las ponderaciones muestrales se calculan automticamente al extraer

una muestra compleja y de forma ideal se corresponden con la frecuencia que cada unidad muestral representa en la poblacin objetivo. Por lo tanto, la suma de las ponderaciones muestrales debe estimar el tamao de la poblacin. Los procedimientos de anlisis de muestras complejas requieren las ponderaciones muestrales para poder analizar correctamente una muestra compleja. Tenga en cuenta que estas ponderaciones se deben utilizar exclusivamente dentro de la opcin Muestras complejas y no con otros procesos analticos a travs del procedimiento Ponderar casos, el cual trata las ponderaciones como rplicas de casos.

Uso de los procedimientos de Muestras complejas


El uso de los procedimientos de Muestras complejas depende de las necesidades especcas. Los tipos fundamentales de usuarios son aqullos que: Planican y llevan a cabo encuestas de acuerdo con diseos complejos, analizando posiblemente la muestra ms tarde. La herramienta principal de los encuestadores es el Asistente de muestreo. Analiza archivos de datos muestrales obtenidos previamente segn diseos complejos. Antes de utilizar los procedimientos de anlisis de muestras complejas puede que deba utilizar el Asistente de preparacin del anlisis. Independientemente del tipo de usuario que sea, debe proporcionar informacin del diseo a los procedimientos de Muestras complejas. Esta informacin est almacenada en un archivo de plan para volver a utilizarla con mayor facilidad.

Archivos de plan
Los archivos de plan contienen especicaciones de la muestra compleja. Existen dos tipos de archivos de plan:
Plan de muestreo. Las especicaciones dadas en el Asistente de muestreo denen un diseo muestral que se utiliza para extraer una muestra compleja. El archivo del plan de muestreo contiene esas especicaciones. El archivo del plan de muestreo tambin contiene un plan de anlisis por defecto que utiliza mtodos de estimacin adecuados para el diseo muestral especicado. Plan de anlisis. Este archivo de plan contiene la informacin necesaria en los procedimientos de

anlisis de Muestras complejas para calcular correctamente las estimaciones de la varianza de una muestra compleja. El plan incluye la estructura de la muestra, los mtodos de estimacin de cada

3 Introduccin a los procedimientos de muestras complejas

etapa y las referencias para variables necesarias como por ejemplo, las ponderaciones muestrales. El Asistente de preparacin del anlisis permite crear y editar los planes de anlisis. Existen distintas ventajas al guardar las especicaciones en un archivo de plan, por ejemplo: Un encuestador puede especicar la primera etapa de un plan de muestreo de varias etapas y extraer en el momento las unidades de la primera etapa, reunir informacin sobre las unidades muestrales para la segunda etapa y a continuacin, modicar el plan de muestreo para incluir la segunda etapa. Un analista que no tenga acceso al archivo del plan de muestreo puede especicar un plan de anlisis y hacer referencia a ese plan en cada procedimiento de anlisis de Muestras complejas. Un diseador de muestras a gran escala de uso pblico puede publicar el archivo del plan de muestreo, lo que simplica las instrucciones para el analista y evita que cada analista deba especicar sus propios planes de anlisis.

Lecturas adicionales
Si desea obtener ms informacin sobre las tcnicas de muestreo, consulte los siguientes textos: Cochran, W. G. 1977. Sampling Techniques, 3rd ed. Nueva York: John Wiley and Sons. Kish, L. 1965. Survey Sampling. Nueva York: John Wiley and Sons. Kish, L. 1987. Statistical Design for Research. Nueva York: John Wiley and Sons. Murthy, M. N. 1967. Sampling Theory and Methods. Calcuta (India): Statistical Publishing Society. Srndal, C., B. Swensson, y J. Wretman. 1992. Model Assisted Survey Sampling. Nueva York: Springer-Verlag.

Captulo

Muestreo a partir de un diseo complejo

Figura 2-1 Asistente de muestreo: paso Bienvenida

El Asistente de muestreo le gua a travs de los pasos necesarios para crear, modicar o ejecutar un archivo de plan de muestreo. Antes de utilizar el Asistente, debe tener en mente una poblacin objetivo bien denida, una lista de las unidades muestrales y un diseo muestral adecuado.

Creacin de un nuevo plan de muestreo


E En los mens, seleccione: Analizar Muestras complejas Seleccionar una muestra... 4

5 Muestreo a partir de un diseo complejo E Seleccione Disear una muestra y elija un nombre de archivo de plan para guardar el plan de

muestreo.
E Pulse Siguiente para continuar usando el Asistente. E Si lo desea, en el paso Variables del diseo puede denir estratos, conglomerados e introducir ponderaciones muestrales. Despus de denirlos, pulse Siguiente. E Si lo desea, en el paso Mtodo de muestreo, puede elegir un mtodo para seleccionar los elementos.

Si selecciona Muestreo de Brewer proporcional al tamao o Muestreo de Murthy proporcional al tamao, puede pulsar Finalizar para extraer la muestra. En caso contrario, pulse Siguiente y a continuacin:
E En el paso Tamao muestral, especique el nmero o proporcin de unidades que muestrear. E Ahora puede pulsar Finalizar para extraer la muestra.

Si lo desea, en los siguientes pasos puede: Elegir las variables de resultado para guardar. Aadir una segunda o tercera etapa al diseo. Establecer varias opciones de seleccin, incluyendo las etapas a partir de las cuales se van a extraer las muestras, la semilla de aleatorizacin y si los valores perdidos denidos por el usuario se van a tratar como valores vlidos de las variables del diseo. Elegir dnde guardar los datos de resultado. Pegar las selecciones como sintaxis de comandos.

6 Captulo 2

Asistente de muestreo: Variables del diseo


Figura 2-2 Asistente de muestreo: paso Variables del diseo

Este paso permite seleccionar las variables de estraticacin y conglomeracin y denir unas ponderaciones muestrales de entrada. Tambin puede especicar una etiqueta para la etapa.
Estratificar por. La clasicacin conjunta por las variables de estraticacin dene distintas

subpoblaciones o estratos. Se obtienen muestras individuales para cada estrato. Para mejorar la precisin de las estimaciones, las unidades de los estratos deben ser tan homogneas como sea posible respecto a las caractersticas de inters.
Conglomerados. Las variables de conglomeracin denen grupos de unidades de observacin o

conglomerados. Los conglomerados son tiles cuando es difcil o imposible realizar el muestreo de las unidades de observacin directamente desde la poblacin; en su lugar, se puede realizar el muestreo de los conglomerados a partir de la poblacin y a continuacin, realizar el muestreo de las unidades de observacin a partir de los conglomerados seleccionados. Sin embargo, el uso de conglomerados puede introducir correlaciones entre las unidades muestrales, con la consiguiente prdida de precisin. Para minimizar este efecto, las unidades de los conglomerados deben ser tan heterogneas como sea posible respecto a las caractersticas de inters. Deber denir una variable de conglomeracin como mnimo para planicar un diseo de varias etapas. Los conglomerados tambin son necesarios al utilizar distintos mtodos de muestreo. Si desea obtener ms informacin, consulte Asistente de muestreo: Mtodo de muestreo el p. 8.

7 Muestreo a partir de un diseo complejo

Introducir ponderacin muestral. Si el diseo muestral actual forma parte de un diseo muestral mayor, puede disponer de ponderaciones muestrales de una etapa anterior del diseo mayor. Puede especicar una variable numrica que contenga estas ponderaciones en la primera etapa del diseo actual. Las ponderaciones muestrales se calculan automticamente para las etapas posteriores del diseo actual. Etiqueta de etapa. Puede especicar una etiqueta de cadena opcional para cada etapa. Esto se utiliza en los resultados para facilitar la identicacin de la informacin por etapas.

Nota: La lista de variables origen tiene el mismo contenido a lo largo de los pasos del Asistente. En otras palabras, las variables de la lista de origen eliminadas en un paso determinado se borran de la lista en todos los pasos. Las variables devueltas a la lista de origen aparecen en la lista en todos los pasos.

Controles de rbol para navegar por el Asistente de muestreo


En la parte izquierda de cada paso del Asistente de muestreo se muestra un esquema de los titulares de todos los pasos. Puede navegar por el Asistente al pulsar el nombre de uno de los pasos activados en el esquema. Los pasos estn activados cuando todos los pasos anteriores sean vlidos, es decir, si cada uno de los pasos anteriores dispone de las especicaciones mnimas necesarias para ese paso. Consulte la ayuda de los pasos individuales para obtener ms informacin sobre los motivos por los que un paso determinado puede no ser vlido.

8 Captulo 2

Asistente de muestreo: Mtodo de muestreo


Figura 2-3 Asistente de muestreo: paso Mtodo de muestreo

Este paso permite especicar cmo seleccionar los casos del conjunto de datos activo.
Mtodo. Los controles de este grupo se utilizan para elegir un mtodo de seleccin. Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposicin (CR) o sin reposicin (SR). Si desea obtener ms informacin, consulte las descripciones de los tipos. Tenga en cuenta que algunos tipos de probabilidad proporcional al tamao (PPS) estn disponibles slo cuando se han denido conglomerados y todos los tipos de PPS estn disponibles slo en la primera etapa de un diseo. Adems, los mtodos SR estn disponibles slo en la ltima etapa de un diseo. Muestreo aleatorio simple. Las unidades se seleccionan con probabilidad igual. Se pueden

seleccionar con o sin reposicin.


Sistemtico simple. Las unidades se seleccionan con un intervalo jo en todo el marco

muestral (o en los estratos, si se han especicado) y se extraen sin reposicin. Se selecciona una unidad aleatoriamente dentro del primer intervalo como el punto inicial.
Secuencial simple. Las unidades se seleccionan de forma secuencial con probabilidad igual y

sin reposicin.
Probabilidad proporcional al tamao. Mtodo de primera etapa que selecciona unidades de

forma aleatoria con probabilidad proporcional al tamao. Se puede seleccionar cualquier unidad con reposicin; slo se puede realizar muestreo sin reposicin de los conglomerados.
Muestreo sistemtico proporcional al tamao. Mtodo de primera etapa que selecciona unidades

de forma sistemtica con probabilidad proporcional al tamao. Se seleccionan sin reposicin.

9 Muestreo a partir de un diseo complejo

Muestreo secuencial proporcional al tamao. Mtodo de primera etapa que selecciona

unidades de forma secuencial con probabilidad proporcional al tamao del conglomerado y sin reposicin.
Muestreo de Brewer proporcional al tamao. Mtodo de primera etapa que selecciona dos

conglomerados de cada estrato con probabilidad proporcional al tamao del conglomerado y sin reposicin. Se debe especicar una variable de conglomeracin para utilizar este mtodo.
Muestreo de Murthy proporcional al tamao. Mtodo de primera etapa que selecciona dos

conglomerados de cada estrato con probabilidad proporcional al tamao del conglomerado y sin reposicin. Se debe especicar una variable de conglomeracin para utilizar este mtodo.
Muestreo de Sampford proporcional al tamao. Mtodo de primera etapa que selecciona

ms de dos conglomerados de cada estrato con probabilidad proporcional al tamao del conglomerado y sin reposicin. Es una extensin del mtodo de Brewer. Se debe especicar una variable de conglomeracin para utilizar este mtodo.
Usar estimacin CR para el anlisis. Por defecto, el mtodo de estimacin se especica en el

archivo de plan de manera coherente con el mtodo de muestreo seleccionado. Esta opcin permite utilizar la estimacin con reposicin incluso si el mtodo de muestreo implica la estimacin SR. Esta opcin solamente est disponible en la etapa 1.
Medida del tamao (MDT). Si se selecciona un mtodo PPS, deber especicar una medida del

tamao que dena el tamao de cada unidad. Estos tamaos pueden denirse explcitamente en una variable o se pueden calcular a partir de los datos. Opcionalmente, se pueden establecer los lmites inferior y superior de la MDT, anulando cualquier valor encontrado en la variable MDT o calculado a partir de los datos. Estas opciones solamente estn disponibles en la etapa 1.

10 Captulo 2

Asistente de muestreo: Tamao muestral


Figura 2-4 Asistente de muestreo: paso Tamao muestral

Este paso permite especicar el nmero o la proporcin de unidades que se van a muestrear dentro de la etapa actual. El tamao muestral puede ser jo o variar entre estratos. Para el propsito de especicar el tamao muestral, se pueden utilizar los conglomerados elegidos en etapas anteriores para denir estratos.
Unidades. Puede especicar un tamao muestral exacto o una proporcin de unidades a muestrear. Valor. Se aplica un valor particular a todos los estratos. Si se selecciona Recuentos como la

unidad mtrica, deber introducir un entero positivo. Si se selecciona Proporciones, deber introducir un valor no negativo. A no ser que se realice una muestra con reposicin, los valores de proporcin no debern ser mayores que 1.
Valores desiguales para estratos. Permite introducir distintos valores de tamao para cada

estrato a travs del cuadro de dilogo Denir tamaos desiguales.


Leer valores de la variable. Permite seleccionar una variable numrica que contenga los valores

de tamao para los estratos. Si se selecciona Proporciones, tiene la opcin de establecer los lmites inferior y superior para el nmero de unidades muestreadas.

11 Muestreo a partir de un diseo complejo

Definir tamaos desiguales


Figura 2-5 Cuadro de dilogo Definir tamaos desiguales

El cuadro de dilogo Denir tamaos desiguales permite introducir los tamaos para cada estrato.
Rejilla de especificaciones de tamao. La rejilla muestra la clasicacin conjunta de hasta cinco variables de conglomeracin o estrato, con una combinacin de estrato/conglomerado por la. Las variables elegibles en la rejilla sern todas las variables de estraticacin de las etapas anteriores y actuales adems de todas las variables de conglomeracin de las etapas anteriores. Las variables se pueden reordenar dentro de la rejilla o ser desplazadas a la lista Excluir. Introduzca los tamaos en la ltima columna de la derecha. Pulse en Etiquetas o Valores para conmutar entre la visualizacin de las etiquetas de valor y los valores de los datos para las variables de estraticacin y de conglomeracin de las casillas de la rejilla. Las casillas que contienen valores sin etiquetas siempre muestran valores. Pulse Actualizar estratos para volver a rellenar la rejilla con cada combinacin de los valores de los datos etiquetados para las variables de la rejilla. Excluir. Para especicar los tamaos de un subconjunto de combinaciones de estrato/conglomerado,

desplace una o ms variables a la lista Excluir. Estas variables no se utilizan para denir tamaos muestrales.

12 Captulo 2

Asistente de muestreo: Variables de resultado


Figura 2-6 Asistente de muestreo: paso Variables de resultado

Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamao poblacional. El nmero estimado de unidades en la poblacin de una etapa dada. El

nombre raz de la variable guardada es TamaoPoblacin_.


Proporcin muestral. Tasa de la muestra en una etapa dada. El nombre raz de la variable guardada

es TasaMuestreo_.
Tamao muestral. Nmero de unidades extradas en una etapa dada. El nombre raz de la variable guardada es TamaoMuestral_. Ponderacin muestral. La inversa de las probabilidades de inclusin. El nombre raz de la variable

guardada es PonderacinMuestral_. Algunas variables por etapa se generan automticamente. Entre stos se incluyen:
Probabilidades de inclusin. Proporcin de unidades extradas en una etapa dada. El nombre raz de la variable guardada es ProbabilidadInclusin_. Ponderacin acumulada. Ponderacin de la muestra acumulada a lo largo de las etapas

anteriores a la actual e incluyendo esta ltima. El nombre raz de la variable guardada es PonderacinMuestralAcumulada_.
ndice. Identica las unidades seleccionadas varias veces dentro de una etapa dada. El nombre raz de la variable guardada es ndice_.

13 Muestreo a partir de un diseo complejo

Nota: Los nombres raz de la variable guardada incluyen un sujo entero que reeja el nmero de la etapa, por ejemplo, TamaoPoblacin_1_ para el tamao de la poblacin guardada de la etapa 1.

Asistente de muestreo: Resumen del plan


Figura 2-7 Asistente de muestreo: paso Resumen del plan

ltimo paso de cada etapa que proporciona un resumen de las especicaciones del diseo muestral hasta la etapa actual. A partir de aqu, puede pasar a la siguiente etapa (crendola si es necesario) o denir las opciones para extraer la muestra.

14 Captulo 2

Asistente de muestreo: Extraer muestra: Opciones de seleccin


Figura 2-8 Asistente de muestreo: Extraer muestra: paso Opciones de seleccin

Este paso permite elegir si desea extraer una muestra. Tambin puede controlar otras opciones del muestreo, como la semilla aleatoria y el tratamiento de los valores perdidos.
Extraer muestra. Adems de elegir si desea extraer una muestra, tambin puede elegir ejecutar

parte del diseo muestral. Las etapas se deben extraer en orden (es decir, la etapa 2 no se puede extraer a menos que ya se haya extrado la etapa 1). Al editar o ejecutar un plan, no puede volver a muestrear etapas bloqueadas.
Semilla. Permite elegir un valor de semilla para la generacin de nmeros aleatorios. Incluye los valores perdidos definidos por el usuario. Determina si los valores perdidos denidos por el usuario son tratados como vlidos Si es as, los valores perdidos denidos por el usuario se tratan como una categora diferente. Los datos ya estn ordenados. Si el marco muestral est clasicado previamente por los valores de

las variables de estraticacin, esta opcin permite acelerar el proceso de seleccin.

15 Muestreo a partir de un diseo complejo

Asistente de muestreo: Extraer muestra: Archivos de resultado


Figura 2-9 Asistente de muestreo: Extraer muestra: paso Archivos de resultado

Este paso permite elegir dnde dirigir los casos muestreados, las variables de ponderacin, las probabilidades conjuntas y las reglas de seleccin de casos.
Datos muestrales. Estas opciones permiten determinar dnde se escribe el resultado de la muestra.

Se puede aadir a un conjunto de datos activo, escribir en un nuevo conjunto de datos o guardar en un archivo de datos con formato SPSS Statistics externo. Los conjuntos de datos estn disponibles durante la sesin actual, pero no as en las sesiones posteriores, a menos que los haya guardado explcitamente como archivos de datos. El nombre de un conjunto de datos debe cumplir las normas de denominacin de variables. Si se especica un archivo externo o un nuevo conjunto de datos, se escribirn las variables de los resultados del muestreo y las variables del conjunto de datos activo para los casos seleccionados.
Probabilidades conjuntas. Estas opciones permiten determinar dnde se escriben las probabilidades conjuntas. stas se guardan en un archivo de datos con formato SPSS Statistics externo. Las probabilidades conjuntas se producen si se seleccionan la probabilidad proporcional al tamao sin reposicin, el muestreo de Brewer proporcional al tamao, el muestreo de Sampford proporcional al tamao, o el muestreo de Murthy proporcional al tamao y la estimacin con reposicin no se especica. Reglas de seleccin de casos. Si est construyendo la muestra por etapas, es posible que quiera

guardar las reglas de seleccin de casos en un archivo de texto. Son tiles para construir el submarco de las etapas posteriores.

16 Captulo 2

Asistente de muestreo: Finalizar


Figura 2-10 Asistente de muestreo: paso Finalizar

Este paso es el ltimo. Puede guardar el archivo de plan y extraer la muestra ahora o pegar las selecciones en una ventana de sintaxis. Al realizar cambios a las etapas del archivo de plan existente, puede guardar el plan editado en un archivo nuevo o sobrescribir el archivo existente. Al aadir etapas sin realizar cambios en las etapas existentes, el asistente sobrescribe de manera automtica el archivo de planicacin existente. Si desea guardar la planicacin en un nuevo archivo, seleccione Pegar la sintaxis generada por el asistente en una ventana de sintaxis y cambie el nombre del archivo en los comandos de sintaxis.

Modificar un plan de muestreo existente


E En los mens, seleccione: Analizar Muestras complejas Seleccionar una muestra... E Seleccione Editar un diseo muestral y elegir un archivo de plan para editar. E Pulse Siguiente para continuar usando el Asistente.

17 Muestreo a partir de un diseo complejo E Revise el plan de muestreo del paso Resumen del plan, y a continuacin pulse Siguiente.

Los pasos posteriores son prcticamente iguales que los de un diseo nuevo. Si desea obtener ms informacin sobre los pasos individuales, consulte la ayuda.
E Vaya al paso nal y especique un nombre nuevo para el archivo de plan editado o sobrescriba el

archivo de plan existente. Si lo desea, puede: Especicar las etapas que ya se han muestreado. Eliminar etapas del plan.

Asistente de muestreo: Resumen del plan


Figura 2-11 Asistente de muestreo: paso Resumen del plan

Este paso permite revisar el plan de muestreo e indicar las etapas que ya se han muestreado. Al editar un plan, tambin puede eliminar etapas del plan.
Etapas muestreadas previamente. Si un marco de muestreo ampliado no est disponible, deber ejecutar un diseo muestral polietpico etapa por etapa. Seleccione las etapas que ya se han muestreado en la lista desplegable. Las etapas que ya se hayan ejecutado estarn bloqueadas, por lo que no estarn disponibles en el paso Extraer muestra: Opciones de seleccin y no se podrn modicar al editar un plan. Eliminar etapas. Puede eliminar las etapas 2 y 3 de un diseo polietpico.

18 Captulo 2

Ejecutar un plan de muestreo existente


E En los mens, seleccione: Analizar Muestras complejas Seleccionar una muestra... E Seleccione Extraer una muestra y elija un archivo de plan para ejecutar. E Pulse Siguiente para continuar usando el Asistente. E Revise el plan de muestreo del paso Resumen del plan, y a continuacin pulse Siguiente. E Cuando se ejecuta un plan de muestreo se omiten los pasos individuales que contienen informacin

de la etapa. Ya puede pasar al paso de nalizacin. Si lo desea, puede especicar las etapas que ya se han muestreado.

Funciones adicionales de los comandos CSPLAN y CSSELECT


Con el lenguaje de sintaxis de comandos tambin podr: Especicar nombres personalizados para las variables de resultado. Controlar los resultados en el Visor. Por ejemplo, puede suprimir el resumen por etapas del plan que se muestra si se disea o modica una muestra, suprimir el resumen de la distribucin de los casos muestreados por etapas que se muestra si el diseo muestral se ejecuta y solicitar un resumen del procesamiento de los casos. Elegir un subconjunto de las variables existentes en el conjunto de datos activo para escribirlo en un archivo muestral externo o en otro conjunto de datos. Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Preparacin de una muestra compleja para su anlisis

Figura 3-1 Asistente de preparacin del anlisis: paso Bienvenida

El Asistente de preparacin del anlisis le gua a travs de los pasos para crear o modicar un plan de anlisis y utilizarlo con los distintos procedimientos de anlisis de Muestras complejas. Antes de utilizar el Asistente, debe haber extrado la muestra de acuerdo con un diseo complejo. Es ms til crear un plan nuevo cuando no se tiene acceso al archivo del plan de muestreo utilizado para extraer la muestra (recuerde que el plan de muestreo contiene un plan de anlisis por defecto). Si no tiene acceso al archivo del plan de muestreo utilizado para extraer la muestra, puede utilizar el plan de anlisis contenido por defecto en el archivo del plan de muestreo u omitir las especicaciones del anlisis por defecto y guardar los cambios en un archivo nuevo.

19

20 Captulo 3

Creacin de un nuevo plan de anlisis


E En los mens, seleccione: Analizar Muestras complejas Preparar para el anlisis... E Seleccione Crear un archivo de plan, y elija un nombre de archivo de plan para guardar el plan

del anlisis.
E Pulse Siguiente para continuar usando el Asistente. E Especique la variable que contiene las ponderaciones muestrales en el paso Variables del diseo,

si lo desea puede denir estratos y conglomerados.


E Ahora puede pulsar Finalizar para guardar el plan.

Si lo desea, en los siguientes pasos puede: Seleccionar el mtodo de estimacin de los errores tpicos en el paso Mtodo de estimacin. Especicar el nmero de unidades muestrales o la probabilidad de inclusin por unidad en el paso Tamao. Aadir una segunda o tercera etapa al diseo. Pegar las selecciones como sintaxis de comandos.

21 Preparacin de una muestra compleja para su anlisis

Asistente de preparacin del anlisis: Variables del diseo


Figura 3-2 Asistente de preparacin del anlisis: paso Variables del diseo

Este paso permite identicar las variables de estraticacin y conglomeracin y denir las ponderaciones muestrales. Tambin puede proporcionar una etiqueta para la etapa.
Estratos. La clasicacin conjunta por las variables de estraticacin dene distintas

subpoblaciones o estratos. El total muestral representa la combinacin de las muestras independientes pertenecientes a cada estrato.
Conglomerados. Las variables de conglomeracin denen grupos de unidades de observacin o

conglomerados. Las muestras extradas en varias etapas seleccionan conglomerados en las etapas anteriores y, a continuacin, unidades de submuestreo dentro de los conglomerados seleccionados. Al analizar un archivo de datos obtenido mediante el muestreo de conglomerados con reposicin, debe incluir el ndice de duplicacin como una variable de conglomeracin.
Ponderacin muestral. Debe proporcionar ponderaciones muestrales en la primera etapa. Las

ponderaciones muestrales se calculan automticamente para las etapas posteriores del diseo actual.
Etiqueta de etapa. Puede especicar una etiqueta de cadena opcional para cada etapa. Esto se utiliza en los resultados para facilitar la identicacin de la informacin por etapas.

22 Captulo 3

Nota: la lista de variables de origen tiene el mismo contenido a lo largo de los pasos del Asistente. En otras palabras, las variables de la lista de origen eliminadas en un paso determinado se borran de la lista en todos los pasos. Las variables devueltas a la lista de origen aparecen en todos los pasos.

Controles de rbol para desplazarse por el Asistente para el anlisis


En la parte izquierda de cada paso del Asistente para el anlisis se muestra un esquema con los titulares de todos los pasos. Puede navegar por el Asistente al pulsar el nombre de uno de los pasos activados en el esquema. Los pasos estn activados mientras todos los pasos anteriores sean vlidos, es decir, mientras cada uno de los pasos anteriores tenga las especicaciones mnimas necesarias para ese paso. Consulte la ayuda de los pasos individuales para obtener ms informacin sobre los motivos por los que un paso dado puede no ser vlido.

Asistente de preparacin del anlisis: Mtodo de estimacin


Figura 3-3 Asistente de preparacin del anlisis: paso Mtodo de estimacin

Este paso permite especicar un mtodo de estimacin para la etapa.


CR (muestreo con reposicin). La estimacin CR no incluye una correccin de muestreo para

poblaciones nitas (FPC) al estimar la varianza bajo el diseo de muestreo complejo. Puede incluir o excluir la FPC al estima la varianza bajo muestreo aleatorio simple (SRS).

23 Preparacin de una muestra compleja para su anlisis

Se recomienda no incluir la FPC para la estimacin de varianza SRS cuando las ponderaciones de anlisis se hayan escalado de forma que no se agreguen al tamao de la poblacin. La estimacin de varianza SRS se utiliza para calcular estadsticos como el efecto del diseo. La estimacin CR slo se puede especicar en la etapa nal de un diseo; el Asistente no permitir aadir otra etapa si se selecciona la estimacin CR.
Igual SR (muestreo de igual probabilidad sin reposicin). La estimacin Igual SR incluye la

correccin para poblaciones nitas y supone que las unidades se muestrearon con la misma probabilidad. El mtodo Igual SR se puede especicar en cualquiera de las etapas de un diseo.
Desigual SR (muestreo de probabilidad desigual sin reposicin). Adems de utilizar la correccin para poblaciones nitas, el mtodo Desigual SR tiene en cuenta las unidades muestrales (normalmente conglomerados) que han sido seleccionadas con probabilidades desiguales. Este mtodo de estimacin slo est disponible en la primera etapa.

Asistente de preparacin del anlisis: Tamao


Figura 3-4 Asistente de preparacin del anlisis: paso Tamao

Este paso se utiliza para especicar las probabilidades de inclusin o los tamaos poblacionales para la etapa actual. Los tamaos pueden ser jos o variar entre estratos. Para especicar los tamaos, los conglomerados especicados en las etapas anteriores se pueden utilizar para denir estratos. Tenga en cuenta que este paso slo es necesario cuando se elige el mtodo Igual SR como mtodo de estimacin.

24 Captulo 3

Unidades. Puede especicar los tamaos poblacionales exactos o las probabilidades con las que se ha realizado el muestreo de las unidades. Valor. Se aplica un valor particular a todos los estratos. Si se selecciona Tamaos poblacionales

como la unidad mtrica, se deber introducir un entero no negativo. Si se selecciona Probabilidades de inclusin, se deber introducir un valor entre 0 y 1, ambos incluidos.
Valores desiguales para estratos. Permite introducir distintos valores de tamao para cada

estrato a travs del cuadro de dilogo Denir tamaos desiguales.


Leer valores de la variable. Permite seleccionar una variable numrica que contenga los valores

de tamao para los estratos.

Definir tamaos desiguales


Figura 3-5 Cuadro de dilogo Definir tamaos desiguales

El cuadro de dilogo Denir tamaos desiguales permite introducir los tamaos para cada estrato.
Rejilla de especificaciones de tamao. La rejilla muestra la clasicacin conjunta de hasta cinco variables de conglomeracin o estrato, con una combinacin de estrato/conglomerado por la. Las variables elegibles en la rejilla sern todas las variables de estraticacin de las etapas anteriores y actuales adems de todas las variables de conglomeracin de las etapas anteriores. Las variables se pueden reordenar dentro de la rejilla o ser desplazadas a la lista Excluir. Introduzca los tamaos en la ltima columna de la derecha. Pulse en Etiquetas o Valores para conmutar entre la visualizacin de las etiquetas de valor y los valores de los datos para las variables de estraticacin y de conglomeracin de las casillas de la rejilla. Las casillas que contienen valores sin etiquetas siempre muestran valores. Pulse Actualizar estratos para volver a rellenar la rejilla con cada combinacin de los valores de los datos etiquetados para las variables de la rejilla. Excluir. Para especicar los tamaos de un subconjunto de combinaciones de estrato/conglomerado,

desplace una o ms variables a la lista Excluir. Estas variables no se utilizan para denir tamaos muestrales.

25 Preparacin de una muestra compleja para su anlisis

Asistente de preparacin del anlisis: Resumen del plan


Figura 3-6 Asistente de preparacin del anlisis, paso Resumen del plan

Este paso es el ltimo de cada etapa y proporciona un resumen de las especicaciones del diseo del anlisis hasta la etapa actual, sta incluida. A partir de aqu, puede pasar a la siguiente etapa (crendola si fuera necesario) o guardar las especicaciones del anlisis. Si no puede aadir otra etapa, esto puede deberse a: No se especic ninguna variable de conglomeracin en el paso Variables del diseo. Seleccion la estimacin CR en el paso Mtodo de estimacin. Este paso es el tercero del anlisis; el Asistente admite un mximo de tres etapas.

26 Captulo 3

Asistente de preparacin del anlisis: Finalizar


Figura 3-7 Asistente de preparacin del anlisis: Finalizacin

Este paso es el ltimo. Puede guardar el archivo del plan ahora o pegar las selecciones en una ventana de sintaxis. Al realizar cambios a las etapas del archivo de plan existente, puede guardar el plan editado en un archivo nuevo o sobrescribir el archivo existente. Al aadir etapas sin realizar cambios en las etapas existentes, el asistente sobrescribe de manera automtica el archivo de planicacin existente. Si desea guardar la planicacin en un nuevo archivo, elija Pegar la sintaxis generada por el asistente en una ventana de sintaxis y cambie el nombre del archivo en los comandos de sintaxis.

Modificar un plan de anlisis existente


E En los mens, seleccione: Analizar Muestras complejas Preparar para el anlisis... E Seleccione Editar un archivo de plan y elija un nombre de archivo de plan en el que se guardar

el plan del anlisis.


E Pulse Siguiente para continuar usando el Asistente.

27 Preparacin de una muestra compleja para su anlisis E Revise el plan de anlisis en el paso Resumen del plan y, a continuacin, pulse Siguiente.

Los pasos posteriores son prcticamente iguales que los de un diseo nuevo. Si desea obtener ms informacin, consulte la ayuda sobre los pasos individuales.
E Vaya al paso nal y especique un nombre nuevo para el archivo de plan editado o sobrescriba el

archivo de plan existente. Si lo desea, puede eliminar algunas etapas del plan.

Asistente de preparacin del anlisis: Resumen del plan


Figura 3-8 Asistente de preparacin del anlisis, paso Resumen del plan

Este paso permite revisar el plan de anlisis y eliminar etapas del plan.
Eliminar etapas. Puede eliminar las etapas 2 y 3 de un diseo polietpico. Debido a que los planes

deben tener al menos una etapa, puede editar la etapa 1 pero no eliminarla del diseo.

Captulo

Plan de muestras complejas

Los procedimientos de anlisis de Muestras complejas requieren las especicaciones de anlisis de un archivo de plan de muestreo o un plan de anlisis para poder proporcionar resultados vlidos.
Figura 4-1 Cuadro de dilogo Plan de muestras complejas

Plan. Especique la ruta de un archivo de plan de muestreo o anlisis. Probabilidades conjuntas. Para utilizar una estimacin Desigual SR para los conglomerados

extrados utilizando un mtodo PPS SR, debe especicar un archivo independiente o un conjunto de datos abierto que contenga las probabilidades conjuntas. El archivo o conjunto de datos se crea mediante el Asistente de muestreo durante el muestreo.

28

Captulo

Frecuencias de Muestras complejas

El procedimiento Frecuencias de Muestras complejas genera tablas de frecuencias para las variables seleccionadas y muestra estadsticos univariantes. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.
Ejemplo. Mediante el procedimiento Frecuencias de Muestras complejas, puede obtener

estadsticos tabulares univariantes para el consumo de vitaminas entre los ciudadanos de EE.UU., basados en los resultados del National Health Interview Survey (NHIS, Centro Nacional de Estadsticas de Salud) y con un plan de anlisis adecuado para estos datos de uso pblico.
Estadsticos. El procedimiento genera estimaciones de los tamaos poblacionales de las casillas, adems de errores tpicos, intervalos de conanza, coecientes de variacin, efectos del diseo, raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitud para el contraste de proporciones de casilla iguales. Datos. Variables para las que se generan las tablas de frecuencias deben ser categricas. Las

variables que denen las subpoblaciones pueden ser numricas o de cadena, pero siempre deben ser categricas.
Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas.
Obtencin de Frecuencias de Muestras complejas
E En los mens, seleccione: Analizar Muestras complejas Frecuencias... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar.

29

30 Captulo 5 Figura 5-1 Cuadro de dilogo Frecuencias

E Seleccione al menos una variable de frecuencia.

Si lo desea, puede especicar variables para denir subpoblaciones. Los estadsticos se calculan por separado para cada subpoblacin.

Frecuencias de Muestras complejas: Estadsticos


Figura 5-2 Cuadro de dilogo Frecuencias: Estadsticos

Casillas. Este grupo permite solicitar estimaciones de los tamaos poblacionales de las casillas as como porcentajes de tabla.

31 Frecuencias de Muestras complejas

Estadsticos. Este grupo genera estadsticos asociados con el tamao poblacional o los porcentajes

de tabla.
Error tpico. El error tpico de la estimacin. Intervalo de confianza. Intervalo de conanza para la estimacin, utilizando el nivel

especicado.
Coeficiente de variacin. Cociente del error tpico de la estimacin dividida por la estimacin. Recuento no ponderado. Nmero de unidades utilizadas para calcular la estimacin. Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.


Valores acumulados. La estimacin acumulada a travs de los valores de la variable. Contraste sobre proporciones de casilla iguales. Esto genera los contrastes de chi-cuadrado y la

razn de verosimilitud sobre la hiptesis de que las categoras de una variable tienen la misma frecuencia. Se realizan contrastes por separado para cada variable.

Muestras complejas: Valores perdidos


Figura 5-3 Cuadro de dilogo Valores perdidos

Tablas. Este grupo determina los casos que se utilizan en el anlisis. Utilizar todos los datos disponibles. Los valores perdidos se determinan en base a tabla por

tabla. As, los casos utilizados para calcular los estadsticos pueden variar a travs de la frecuencia o tablas de contingencia.
Utilizar una base coherente para los casos. Los valores perdidos se determinan a travs de

todas las variables. Por lo tanto, los casos utilizados para calcular los estadsticos son coherentes con las tablas.
Variables categricas del diseo. Este grupo determina si los valores perdidos denidos por el usuario son considerados vlidos o invlidos.

32 Captulo 5

Opciones de Muestras complejas


Figura 5-4 Cuadro de dilogo Opciones

Mostrar subpoblacin. Puede elegir entre mostrar las subpoblaciones en la misma tabla o en

tablas separadas.

Captulo

Descriptivos de Muestras complejas

El procedimiento Descriptivos de Muestras complejas muestra estadsticos de resumen univariantes para distintas variables. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.
Ejemplo. Mediante el procedimiento Descriptivos de Muestras complejas, puede obtener estadsticos descriptivos univariantes de los niveles de actividad de los ciudadanos de EE.UU., basados en los resultados de la National Health Interview Survey (NHIS, Centro Nacional de Estadsticas de Salud) y con un plan de anlisis adecuado para estos datos de uso pblico. Estadsticos. El procedimiento genera medias y sumas, adems de pruebas t, errores tpicos, intervalos de conanza, coecientes de variacin, recuentos no ponderados, efectos del diseo y la raz cuadrada del efecto del diseo de cada estimacin. Datos. Las medidas deben ser variables de escala. Las variables que denen las subpoblaciones

pueden ser numricas o de cadena, pero siempre deben ser categricas.


Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas.
Obtencin de Descriptivos de Muestras complejas
E En los mens, seleccione: Analizar Muestras complejas Descriptivos... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar.

33

34 Captulo 6 Figura 6-1 Cuadro de dilogo Descriptivos

E Seleccione al menos una variable de medida.

Si lo desea, puede especicar variables para denir subpoblaciones. Los estadsticos se calculan por separado para cada subpoblacin.

Descriptivos de Muestras complejas: Estadsticos


Figura 6-2 Cuadro de dilogo Descriptivos: Estadsticos

Resmenes. Este grupo permite solicitar estimaciones de las medias y sumas de las variables

de medida. Adems, puede solicitar pruebas t de las estimaciones con respecto a un valor especicado.

35 Descriptivos de Muestras complejas

Estadsticos. Este grupo genera estadsticos asociados con la media o la suma. Error tpico. El error tpico de la estimacin. Intervalo de confianza. Intervalo de conanza para la estimacin, utilizando el nivel

especicado.
Coeficiente de variacin. Cociente del error tpico de la estimacin dividida por la estimacin. Recuento no ponderado. Nmero de unidades utilizadas para calcular la estimacin. Tamao poblacional. Nmero estimado de unidades en la poblacin. Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.

Valores perdidos en los descriptivos de Muestras complejas


Figura 6-3 Cuadro de dilogo Valores perdidos de descriptivos

Estadsticos para variables de medida. Este grupo determina los casos que se utilizan en el anlisis. Utilizar todos los datos disponibles. Los valores perdidos se determinan variable por variable;

por ello los casos utilizados para calcular los estadsticos pueden variar entre las variables de medida.
Asegurar una base coherente para los casos. Los valores perdidos se determinan a partir de

todas las variables, as, los casos utilizados para calcular los estadsticos son coherentes.
Variables categricas del diseo. Este grupo determina si los valores perdidos denidos por el usuario son considerados vlidos o invlidos.

36 Captulo 6

Opciones de Muestras complejas


Figura 6-4 Cuadro de dilogo Opciones

Mostrar subpoblacin. Puede elegir entre mostrar las subpoblaciones en la misma tabla o en

tablas separadas.

Captulo

Tablas de contingencia de Muestras complejas

El procedimiento Tablas de contingencia de Muestras complejas genera tablas de contingencia para los pares de variables seleccionadas y muestra estadsticos sobre la clasicacin bivariante. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.
Ejemplo. Mediante el procedimiento Tablas de contingencia de Muestras complejas, se pueden obtener estadsticos de clasicaciones cruzadas de la frecuencia de consumo de tabaco por el consumo de vitaminas en los ciudadanos de EE.UU, basado en los resultados del National Health Interview Survey (NHIS, Centro Nacional de Estadsticas de Salud) y con un plan de anlisis adecuado para estos datos de uso pblico. Estadsticos. El procedimiento genera estimaciones de los tamaos poblacionales de las casillas,

as como porcentajes de tabla, columna y la, adems de errores tpicos, intervalos de conanza, coecientes de variacin, valores esperados, efectos del diseo, raz cuadrada de los efectos del diseo, residuos, residuos corregidos y frecuencias no ponderadas para cada estimacin. Para las tablas 2 por 2, se calculan la razn de ventajas, el riesgo relativo y la diferencia de riesgos. Adems, para el contraste de independencia de las variables de las las y las variables de las columnas, se calculan los estadsticos de Pearson y de la razn de verosimilitud.
Datos. Las variables de la y columna deben ser categricas. Las variables que denen las

subpoblaciones pueden ser numricas o de cadena, pero siempre deben ser categricas.
Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas.

Obtencin de Tablas de contingencia de Muestras complejas


E En los mens, seleccione: Analizar Muestras complejas Tablas de contingencia... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar. 37

38 Captulo 7 Figura 7-1 Cuadro de dilogo Tablas de contingencia

E Seleccione al menos una variable de la y una variable de columna.

Si lo desea, puede especicar variables para denir subpoblaciones. Los estadsticos se calculan por separado para cada subpoblacin.

Tablas de contingencia de Muestras complejas: Estadsticos


Figura 7-2 Cuadro de dilogo Tablas de contingencia: Estadsticos

39 Tablas de contingencia de Muestras complejas

Casillas. Este grupo permite solicitar estimaciones del tamao poblacional de las casillas as

como porcentajes de columna, la y de tabla.


Estadsticos. Este grupo genera estadsticos asociados con el tamao de la poblacin y los porcentajes de tabla, columna y la. Error tpico. El error tpico de la estimacin. Intervalo de confianza. Intervalo de conanza para la estimacin, utilizando el nivel

especicado.
Coeficiente de variacin. Cociente del error tpico de la estimacin dividida por la estimacin. Valores esperados. Valor esperado de la estimacin, bajo la hiptesis de independencia de las

variables de la y columna.
Recuento no ponderado. Nmero de unidades utilizadas para calcular la estimacin. Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.


Residuos. El valor pronosticado es el nmero de casos que se esperara encontrar en la casilla

si no hubiera relacin entre las dos variables. Un residuo positivo indica que hay ms casos en la casilla de los que habra en ella si las variables de la y columna fueran independientes.
Residuos corregidos. El residuo de una casilla (el valor observado menos el valor pronosticado)

dividido por una estimacin de su error tpico. El residuo tipicado resultante viene expresado en unidades de desviacin tpica, por encima o por debajo de la media.
Resmenes para las tablas 2 por 2. Este grupo genera estadsticos para las tablas en las que la

variable de la y la de columna tienen dos categoras. Cada una es una medida de la fuerza de la asociacin entre la presencia de un factor y la aparicin de un evento.
Razn de las ventajas. Cuando la ocurrencia del factor es poco comn, se puede utilizar la

razn de las ventajas como estimacin del riesgo relativo.


Riesgo relativo. La razn del riesgo de un evento en presencia del factor respecto al riesgo

del evento en ausencia del factor.


Diferencia de riesgos. La diferencia entre el riesgo de un evento en presencia del factor y

el riesgo del evento en ausencia del factor.


Contraste sobre la independencia de filas y columnas. Esta opcin genera los contrastes de

chi-cuadrado y la razn de verosimilitud sobre la hiptesis de que las variables de la y columna son independientes. Se realizan contrastes por separado para cada pareja de variables.

40 Captulo 7

Muestras complejas: Valores perdidos


Figura 7-3 Cuadro de dilogo Valores perdidos

Tablas. Este grupo determina los casos que se utilizan en el anlisis. Utilizar todos los datos disponibles. Los valores perdidos se determinan en base a tabla por

tabla. As, los casos utilizados para calcular los estadsticos pueden variar a travs de la frecuencia o tablas de contingencia.
Utilizar una base coherente para los casos. Los valores perdidos se determinan a travs de

todas las variables. Por lo tanto, los casos utilizados para calcular los estadsticos son coherentes con las tablas.
Variables categricas del diseo. Este grupo determina si los valores perdidos denidos por el

usuario son considerados vlidos o invlidos.

Opciones de Muestras complejas


Figura 7-4 Cuadro de dilogo Opciones

Mostrar subpoblacin. Puede elegir entre mostrar las subpoblaciones en la misma tabla o en

tablas separadas.

Captulo

Razones de Muestras complejas

El procedimiento Razones de Muestras complejas muestra estadsticos de resumen univariantes para razones de variables. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.
Ejemplo. Mediante el procedimiento Razones de Muestras complejas, puede obtener estadsticos

descriptivos para el cociente del valor de la propiedad actual sobre el ltimo valor certicado, basado en los resultados de una encuesta a nivel estatal llevada a cabo segn un diseo complejo y con un plan de anlisis adecuado para los datos.
Estadsticos. El procedimiento genera estimaciones de razn, pruebas t, errores tpicos, intervalos

de conanza, coecientes de variacin, recuentos no ponderados, tamaos poblacionales, efectos del diseo y raz cuadrada del efecto del diseo.
Datos. Los numeradores y los denominadores deben ser variables de escala con valores positivos.

Las variables que denen las subpoblaciones pueden ser numricas o de cadena, pero siempre deben ser categricas.
Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas.
Obtencin de razones de Muestras complejas
E En los mens, seleccione: Analizar Muestras complejas Razones... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar.

41

42 Captulo 8 Figura 8-1 Cuadro de dilogo Razones de Muestras complejas

E Seleccione al menos una variable de numerador y una variable de denominador.

Si lo desea, puede especicar variables para denir subgrupos para los que se desea generar estadsticos.

Razones de Muestras complejas: Estadsticos


Figura 8-2 Cuadro de dilogo Estadsticos de la razn

Estadsticos. Este grupo genera estadsticos asociados con la estimacin de la razn. Error tpico. El error tpico de la estimacin. Intervalo de confianza. Intervalo de conanza para la estimacin, utilizando el nivel

especicado.
Coeficiente de variacin. Cociente del error tpico de la estimacin dividida por la estimacin.

43 Razones de Muestras complejas

Recuento no ponderado. Nmero de unidades utilizadas para calcular la estimacin. Tamao poblacional. Nmero estimado de unidades en la poblacin. Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.


Prueba t. Puede solicitar pruebas t de las estimaciones con respecto a un valor especicado.

Razones de Muestras complejas: Valores perdidos


Figura 8-3 El cuadro de dilogo Razones de Muestras complejas: Valores perdidos

Razones. Este grupo determina los casos que se utilizan en el anlisis. Utilizar todos los datos disponibles. Los valores perdidos se determinan en base a razn por

razn. As, los casos utilizados para calcular los estadsticos pueden variar a travs de pares numerador-denominador.
Asegurar una base coherente para los casos. Los valores perdidos se determinan a travs

de todas las variables. Por lo tanto, los casos utilizados para calcular los estadsticos son coherentes con las tablas.
Variables categricas del diseo. Este grupo determina si los valores perdidos denidos por el usuario son considerados vlidos o invlidos.

44 Captulo 8

Opciones de Muestras complejas


Figura 8-4 Cuadro de dilogo Opciones

Mostrar subpoblacin. Puede elegir entre mostrar las subpoblaciones en la misma tabla o en

tablas separadas.

Captulo

Modelo lineal general de muestras complejas

El procedimiento Modelo lineal general de muestras complejas (CSGLM) realiza anlisis de regresin lineal y anlisis de varianza y covarianza de muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.
Ejemplo. Una cadena de tiendas de alimentos realiza una encuesta sobre los hbitos de compra de una serie de clientes basndose en un diseo complejo. Una vez obtenidos los resultados de la encuesta y la cantidad que cada cliente gast el mes anterior, la cadena desea averiguar si la frecuencia con que los clientes hacen la compra est relacionada con la cantidad mensual que gastan, controlando el sexo del cliente e incorporando el diseo del muestreo. Estadsticos. El procedimiento genera estimaciones, errores tpicos, pruebas t, efectos del

diseo, raz cuadrada de los efectos del diseo para parmetros de modelo y las correlaciones y covarianzas entre las estimaciones de los parmetros. Las medidas de ajuste del modelo y los estadsticos descriptivos de las variables dependientes e independientes tambin estn disponibles. Adems, se pueden solicitar medias marginales estimadas para los niveles de factores de modelado u las interacciones de los factores.
Datos. La variable dependiente es cuantitativa. Los factores son categricos; pueden tener valores numricos o valores de cadena de hasta ocho caracteres. Las covariables son variables cuantitativas que estn relacionadas con la variable dependiente. Las variables que denen las subpoblaciones pueden ser numricas o de cadena, pero siempre deben ser categricas. Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas. Para obtener un Modelo lineal general de muestras complejas

En los mens, seleccione:


Analizar Muestras complejas Modelo lineal general... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar. 45

46 Captulo 9 Figura 9-1 Cuadro de dilogo Modelo lineal general de muestras complejas

E Seleccione una variable dependiente.

Si lo desea, puede: Seleccione variables para factores y covariables, segn corresponda a los datos. Especique una variable para denir una subpoblacin. El anlisis se lleva a cabo nicamente en la categora seleccionada de la variable de subpoblacin.

47 Modelo lineal general de muestras complejas Figura 9-2 Cuadro de dilogo Modelo

Especificar efectos del modelo. Por defecto, el procedimiento crea un modelo de efectos principales utilizando los factores y las covariables especicadas en el cuadro de dilogo principal. Si lo desea, tambin puede crear un modelo personalizado que contenga los efectos de la interaccin y los trminos anidados. Trminos no anidados

Para las covariables y los factores seleccionados:


Interaccin. Crea el trmino de interaccin de mayor nivel para todas las variables seleccionadas. Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada. Todas de 2. Crea todas las interacciones dobles posibles de las variables seleccionadas. Todas de 3. Crea todas las interacciones triples posibles de las variables seleccionadas. Todas de 4. Crea todas las interacciones cudruples posibles de las variables seleccionadas. Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas.

48 Captulo 9

Trminos anidados

En este procedimiento, puede construir trminos anidados para el modelo. Los trminos anidados resultan tiles para modelar el efecto de un factor o covariable cuyos valores no interactan con los niveles de otro factor. Por ejemplo, una cadena de tiendas de comestibles desea realizar un seguimiento de los hbitos de gasto de los clientes en las diversas ubicaciones de sus tiendas. Dado que cada cliente frecuenta tan slo una de estas ubicaciones, se puede decir que el efecto de Cliente est anidado dentro del efecto de Ubicacin de la tienda. Adems, puede incluir efectos de interaccin, como trminos polinmicos que implican a la misma covariable, o aadir varios niveles de anidacin al trmino anidado.
Limitaciones. Existen las siguientes restricciones para los trminos anidados:

Todos los factores incluidos en una interaccin deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A*A. Todos los factores incluidos en un efecto anidado deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A(A). No se puede anidar ningn efecto dentro de una covariable. Por consiguiente, si A es un factor y X es una covariable, no es vlido especicar A(X).
Interseccin. La interseccin se incluye normalmente en el modelo. Si asume que los datos pasan

por el origen, puede excluir la interseccin. Incluso aunque incluya la interseccin en el modelo, puede suprimir los estadsticos relacionados con ella.

Estadsticos de Modelo lineal general de muestras complejas


Figura 9-3 Cuadro de dilogo Modelo lineal general de muestras complejas: Estadsticos

Parmetros del modelo. Este grupo permite controlar la presentacin de estadsticos relacionados

con los parmetros del modelo.


Estimacin. Muestra estimaciones de los coecientes. Error tpico. Muestra el error tpico de cada estimacin de los coecientes.

49 Modelo lineal general de muestras complejas

Intervalo de confianza. Muestra un intervalo de conanza para cada estimacin de los

coecientes. El nivel de conanza de los intervalos se congura en el cuadro de dilogo Opciones.


Prueba t. Muestra una prueba t de cada estimacin de coecientes. La hiptesis nula de cada

prueba es que el valor del coeciente sea 0.


Covarianzas de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

covarianzas de los coecientes del modelo.


Correlaciones de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

correlaciones de los coecientes del modelo.


Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.


Ajuste del modelo. Muestra R2 y estadsticos de error cuadrtico medio. Medias de poblacin de covariables y variables dependientes. Muestra informacin resumida

acerca de los factores, las covariables y las variables dependientes.


Informacin del diseo muestral. Muestra informacin resumida acerca de la muestra, incluidos un

recuento no ponderado y el tamao de la poblacin.

Muestras complejas: Contrastes de hiptesis


Figura 9-4 Cuadro de dilogo Contrastes de hiptesis

Estadstico de contraste. Este grupo le permite seleccionar el tipo de estadstico utilizado para

contrastar las hiptesis. Es posible elegir entre F, F corregida, chi-cuadrado y chi-cuadrado corregido.

50 Captulo 9

Muestreo de grados de libertad. Este grupo permite controlar los grados de libertad en el diseo de muestra usados para calcular los valores p de todos los estadsticos de contraste. Si se basa en el diseo muestral, el valor es la diferencia entre el nmero de unidades de muestra primarias y el nmero de estratos de la primera etapa del muestreo. Si lo desea, puede especicar los grados de libertad que desee introduciendo un nmero entero positivo. Correccin para comparaciones mltiples. Al realizar contrastes de hiptesis con varios contrastes, el nivel de signicacin global se puede ajustar utilizando los niveles de signicacin de los contrastes incluidos. Este grupo permite elegir el mtodo de ajuste. Diferencia menos significativa. Este mtodo no controla la probabilidad general de rechazar las

hiptesis de que algunos contrastes lineales son diferentes a los valores de hiptesis nula.
Sidak secuencial. Este es un procedimiento de Sidak de rechazo secuencial decreciente que

es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Bonferroni secuencial. Este es un procedimiento de Bonferroni de rechazo secuencial

decreciente que es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Sidak. Este mtodo ofrece lmites ms estrechos que los de la aproximacin de Bonferroni. Bonferroni. Este mtodo corrige el nivel de signicacin observado por el hecho de que se

estn poniendo a prueba mltiples contrastes.

Medias estimadas del Modelo lineal general de muestras complejas


Figura 9-5 Cuadro de dilogo Modelo lineal general de muestras complejas: Medias estimadas

En el cuadro de dilogo Medias estimadas se pueden ver las medias marginales estimadas por el modelo para los niveles de factores y las interacciones de factores especicadas en el subcuadro de dilogo Modelo. Tambin se puede solicitar que se muestre la media de poblacin global.
Trmino. Se calculan las medias estimadas de los factores seleccionados y las interacciones de

los factores.

51 Modelo lineal general de muestras complejas

Contraste. El contraste determina como se conguran los contrastes de hiptesis para comparar las medias estimadas. Simple. Compara la media de cada nivel con la media de un nivel especicado. Este tipo de

contraste resulta til cuando existe un grupo de control.


Desviacin. Compara la media de cada nivel (excepto una categora de referencia) con la

media de todos los niveles (media global). Los niveles del factor pueden colocarse en cualquier orden.
Diferencia. Compara la media de cada nivel (excepto el primero) con la media de los niveles

anteriores. En ocasiones se les denomina contrastes de Helmert invertidos.


Helmert. Compara la media de cada nivel del factor (excepto el ltimo) con la media de

los niveles siguientes.


Repetido. Compara la media de cada nivel (excepto el ltimo) con la media del nivel siguiente. Polinmico. Compara el efecto lineal, cuadrtico, cbico, etc. El primer grado de libertad

contiene el efecto lineal a travs de todas las categoras; el segundo grado de libertad, el efecto cuadrtico, y as sucesivamente. Estos contrastes se utilizan a menudo para estimar las tendencias polinmicas.
Categora de referencia. Los contrastes simple y de desviacin requieren una categora de

referencia o un factor de nivel con que comparar los dems.

Modelo lineal general de muestras complejas: Guardar


Figura 9-6 Cuadro de dilogo Modelo lineal general de muestras complejas: Guardar

52 Captulo 9

Guardar variables. Este grupo permite guardar los valores pronosticados para el modelo y los residuos como nuevas variables en el archivo de trabajo. Exportar modelo como datos de SPSS Statistics. Escribe un conjunto de datos de SPSS Statistics que contiene la matriz de covarianzas o correlaciones de los parmetros con las estimaciones de los parmetros, errores tpicos, valores de signicacin y grados de libertad. El orden de las variables en el archivo matricial es el siguiente. rowtype_. Toma los valores (y las etiquetas de valor), COV (covarianzas), CORR

(correlaciones), EST (estimaciones de los parmetros), SE (errores tpicos), SIG (niveles de signicacin) y DF (grados de libertad del diseo muestral). Hay un caso diferente con el tipo de la COV (o CORR) para cada parmetro del modelo, adems de un caso diferente para cada uno de los otros tipos de las.
varname_. Toma los valores P1, P2, ..., correspondientes a una lista ordenada de todos los

parmetros del modelo para los tipos de la COV o CORR, con las etiquetas de valor correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros. Las casillas estn vacas para los dems tipos de las.
P1, P2, ... Estas variables corresponden a una lista ordenada de todos los parmetros del

modelo con las etiquetas de variable correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros y toman valores segn el tipo de la. Para los parmetros redundantes, todas las covarianzas se establecen en cero, las correlaciones se establecen en el valor perdido del sistema; todas las estimaciones de los parmetros se establecen en cero; y todos los errores tpicos, niveles de signicacin y los grados de libertad residuales se establecen en el valor perdido del sistema. Nota: Este archivo no se puede utilizar directamente para realizar otros anlisis en otros procedimientos que lean un archivo matricial a menos que dichos procedimientos acepten todos los tipos de las que aqu se exportan.
Exportar modelo como XML. Guarda las estimaciones de los parmetros y la matriz de covarianzas

de los parmetros (si se selecciona) en formato XML (PMML). SmartScore y servidor de SPSS Statistics (un producto independiente) pueden utilizar este archivo del modelo para aplicar la informacin del modelo en otros archivos de datos con nes de puntuacin.

53 Modelo lineal general de muestras complejas

Modelo lineal general de muestras complejas: Opciones


Figura 9-7 Cuadro de dilogo Modelo lineal general de muestras complejas: Opciones

Valores definidos como perdidos por el usuario. Todas las variables de diseo, as como la variable

dependiente y cualquier covariable, deben contener datos vlidos. Los casos con datos no vlidos de cualquiera de estas variables se excluyen del anlisis. Estos controles permiten decidir si los valores denidos como perdidos por el usuario se deben tratar como vlidos entre las variables de estraticacin, conglomeracin, subpoblacin y de factor.
Intervalo de confianza. Se trata del nivel de intervalo de conanza para las estimaciones de

coeciente y las medias marginales estimadas. Especique un valor mayor o igual a 50 e inferior a 100.

Funciones adicionales del comando CSGLM


Con el lenguaje de sintaxis de comandos tambin podr: Especicar contrastes personalizados de los efectos respecto a una combinacin lineal de efectos o un valor (utilizando el subcomando CUSTOM). Fijar covariables en valores distintos los de sus medias al calcular las medias marginales estimadas (utilizando el subcomando EMMEANS). Especicar una mtrica para los contrastes polinmicos (utilizando el subcomando EMMEANS). Especicar un valor de tolerancia para la comprobacin de la singularidad (utilizando el subcomando CRITERIA). Crear nombres especicados por el usuario para las variables almacenadas (utilizando el subcomando SAVE). Generar una tabla de funcin estimable general (utilizando el subcomando PRINT). Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Regresin logstica de muestras complejas

10

Captulo

El procedimiento Regresin logstica de muestras complejas lleva a cabo anlisis de regresin logstica sobre una variable binaria o una variable dependiente multinomial para muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.
Ejemplo. Un encargado de prstamos ha recopilado registros antiguos de prstamos concedidos a clientes en diversas ramas, de acuerdo con un diseo complejo. Al incorporar el diseo muestral, el encargado desea comprobar si la probabilidad con que las moras de un cliente se asocian a su edad, historial de empleo y cantidad de crdito adeudado; posteriormente. Estadsticos. El procedimiento genera estimaciones, estimaciones exponenciadas, errores tpicos, intervalos de conanza, pruebas t, efectos del diseo, raz cuadrada de los efectos del diseo para parmetros de modelo y las correlaciones y covarianzas entre las estimaciones de los parmetros. Tambin hay disponibles estadsticos pseudo R2, tablas de clasicacin y estadsticos descriptivos para las variables dependientes e independientes. Datos. La variable dependiente es categrica. Los factores son categricos; pueden tener

valores numricos o valores de cadena de hasta ocho caracteres. Las covariables son variables cuantitativas que estn relacionadas con la variable dependiente. Las variables que denen las subpoblaciones pueden ser numricas o de cadena, pero siempre deben ser categricas.
Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas.
Obtencin de Regresin logstica de muestras complejas

En los mens, seleccione:


Analizar Muestras complejas Regresin logstica... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar.

54

55 Regresin logstica de muestras complejas Figura 10-1 Cuadro de dilogo Regresin logstica

E Seleccione una variable dependiente.

Si lo desea, puede: Seleccione variables para factores y covariables, segn corresponda a los datos. Especique una variable para denir una subpoblacin. El anlisis se lleva a cabo nicamente en la categora seleccionada de la variable de subpoblacin.

Regresin logstica de muestras complejas: Categora de referencia


Figura 10-2 Cuadro de dilogo Regresin logstica de muestras complejas: Categora de referencia

56 Captulo 10

Por defecto, el procedimiento Regresin logstica de muestras complejas hace de la categora con el valor ms alto la categora de referencia. Este cuadro de dilogo permite especicar el valor ms alto, el valor ms bajo o una categora personalizada como la categora de referencia.

Regresin logstica de muestras complejas: Modelo


Figura 10-3 Cuadro de dilogo Regresin logstica de muestras complejas

Especificar efectos del modelo. Por defecto, el procedimiento crea un modelo de efectos principales utilizando los factores y las covariables especicadas en el cuadro de dilogo principal. Si lo desea, tambin puede crear un modelo personalizado que contenga los efectos de la interaccin y los trminos anidados. Trminos no anidados

Para las covariables y los factores seleccionados:


Interaccin. Crea el trmino de interaccin de mayor nivel para todas las variables seleccionadas. Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada. Todas de 2. Crea todas las interacciones dobles posibles de las variables seleccionadas. Todas de 3. Crea todas las interacciones triples posibles de las variables seleccionadas. Todas de 4. Crea todas las interacciones cudruples posibles de las variables seleccionadas.

57 Regresin logstica de muestras complejas

Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas. Trminos anidados

En este procedimiento, puede construir trminos anidados para el modelo. Los trminos anidados resultan tiles para modelar el efecto de un factor o covariable cuyos valores no interactan con los niveles de otro factor. Por ejemplo, una cadena de tiendas de comestibles desea realizar un seguimiento de los hbitos de gasto de los clientes en las diversas ubicaciones de sus tiendas. Dado que cada cliente frecuenta tan slo una de estas ubicaciones, se puede decir que el efecto de Cliente est anidado dentro del efecto de Ubicacin de la tienda. Adems, puede incluir efectos de interaccin, como trminos polinmicos que implican a la misma covariable, o aadir varios niveles de anidacin al trmino anidado.
Limitaciones. Existen las siguientes restricciones para los trminos anidados:

Todos los factores incluidos en una interaccin deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A*A. Todos los factores incluidos en un efecto anidado deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A(A). No se puede anidar ningn efecto dentro de una covariable. Por consiguiente, si A es un factor y X es una covariable, no es vlido especicar A(X).
Interseccin. La interseccin se incluye normalmente en el modelo. Si asume que los datos pasan

por el origen, puede excluir la interseccin. Incluso aunque incluya la interseccin en el modelo, puede suprimir los estadsticos relacionados con ella.

Regresin logstica de muestras complejas: Estadsticos


Figura 10-4 Cuadro de dilogo Regresin logstica: Estadsticos

58 Captulo 10

Ajuste del modelo. Controla la presentacin de estadsticos que miden el rendimiento global

del proceso.
Pseudo R cuadrado. El estadstico R2 de regresin lineal no cuenta con un anlogo exacto entre

los modelos de regresin logstica. En su lugar existen varias medidas que tratan de imitar las propiedades del estadstico R2.
Tabla de clasificacin. Muestra las clasicaciones conjuntas tabuladas de la categora

observada por la categora pronosticada por el modelo en la variable dependiente.


Parmetros. Este grupo permite controlar la presentacin de estadsticos relacionados con los

parmetros del modelo.


Estimacin. Muestra estimaciones de los coecientes. Estimacin exponenciada. Muestra la base del logaritmo natural elevada a la potencia de las

estimaciones de los coecientes. Mientras que las estimaciones tienen propiedades agradables para la comprobacin estadstica, la estimacin exponenciada (o exp[B]) es ms sencilla de interpretar.
Error tpico. Muestra el error tpico de cada estimacin de los coecientes. Intervalo de confianza. Muestra un intervalo de conanza para cada estimacin de los

coecientes. El nivel de conanza de los intervalos se congura en el cuadro de dilogo Opciones.


Prueba t. Muestra una prueba t de cada estimacin de coecientes. La hiptesis nula de cada

prueba es que el valor del coeciente sea 0.


Covarianzas de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

covarianzas de los coecientes del modelo.


Correlaciones de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

correlaciones de los coecientes del modelo.


Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.


Estadsticos de resumen para las variables del modelo. Muestra informacin resumida acerca de los

factores, las covariables y las variables dependientes.


Informacin del diseo muestral. Muestra informacin resumida acerca de la muestra, incluidos un

recuento no ponderado y el tamao de la poblacin.

59 Regresin logstica de muestras complejas

Muestras complejas: Contrastes de hiptesis


Figura 10-5 Cuadro de dilogo Contrastes de hiptesis

Estadstico de contraste. Este grupo le permite seleccionar el tipo de estadstico utilizado para

contrastar las hiptesis. Es posible elegir entre F, F corregida, chi-cuadrado y chi-cuadrado corregido.
Muestreo de grados de libertad. Este grupo permite controlar los grados de libertad en el diseo de

muestra usados para calcular los valores p de todos los estadsticos de contraste. Si se basa en el diseo muestral, el valor es la diferencia entre el nmero de unidades de muestra primarias y el nmero de estratos de la primera etapa del muestreo. Si lo desea, puede especicar los grados de libertad que desee introduciendo un nmero entero positivo.
Correccin para comparaciones mltiples. Al realizar contrastes de hiptesis con varios contrastes, el nivel de signicacin global se puede ajustar utilizando los niveles de signicacin de los contrastes incluidos. Este grupo permite elegir el mtodo de ajuste. Diferencia menos significativa. Este mtodo no controla la probabilidad general de rechazar las

hiptesis de que algunos contrastes lineales son diferentes a los valores de hiptesis nula.
Sidak secuencial. Este es un procedimiento de Sidak de rechazo secuencial decreciente que

es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Bonferroni secuencial. Este es un procedimiento de Bonferroni de rechazo secuencial

decreciente que es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Sidak. Este mtodo ofrece lmites ms estrechos que los de la aproximacin de Bonferroni. Bonferroni. Este mtodo corrige el nivel de signicacin observado por el hecho de que se

estn poniendo a prueba mltiples contrastes.

60 Captulo 10

Regresin logstica de muestras complejas: Razones de las ventajas


Figura 10-6 Cuadro de dilogo Regresin logstica de muestras complejas: Razones de las ventajas

El cuadro de dilogo Razones de las ventajas permite mostrar las razones de las ventajas estimadas por el modelo para los factores y las covariables que se especican. Se calcula un conjunto independiente de razones de las ventajas para cada categora de la variable dependiente excepto para el caso de la categora de referencia.
Factores. En cada factor seleccionado, muestra la razn de las ventajas de cada categora del factor

hasta las ventajas en la categora de referencia especicada.


Covariables. En cada covariable seleccionada, muestra la razn de las ventajas en el valor medio

de la covariable ms las unidades de cambio especicadas para las ventajas de la media. Al calcular las razones de las ventajas de un factor o una covariable, el procedimiento ja todos los dems factores en sus niveles ms altos y el resto de covariables, en sus niveles medios. Si un factor o una covariable interactan con otros predictores en el modelo, las razones de las ventajas dependern no slo de la modicacin en la variable especicada, sino tambin de los valores de las variables con las que interacte. Si una covariable especicada interacta consigo misma en el modelo (por ejemplo, edad*edad), las razones de las ventajas dependern entonces tanto del cambio en la covariable como del valor de sta.

61 Regresin logstica de muestras complejas

Regresin logstica de muestras complejas: Guardar


Figura 10-7 Cuadro de dilogo Regresin logstica de muestras complejas: Guardar

Guardar variables. Este grupo permite guardar la categora pronosticada para el modelo y las probabilidades pronosticadas como nuevas variables en el conjunto de datos activo. Exportar modelo como datos de SPSS Statistics. Escribe un conjunto de datos de SPSS Statistics

que contiene la matriz de covarianzas o correlaciones de los parmetros con las estimaciones de los parmetros, errores tpicos, valores de signicacin y grados de libertad. El orden de las variables en el archivo matricial es el siguiente.
rowtype_. Toma los valores (y las etiquetas de valor), COV (covarianzas), CORR

(correlaciones), EST (estimaciones de los parmetros), SE (errores tpicos), SIG (niveles de signicacin) y DF (grados de libertad del diseo muestral). Hay un caso diferente con el tipo de la COV (o CORR) para cada parmetro del modelo, adems de un caso diferente para cada uno de los otros tipos de las.
varname_. Toma los valores P1, P2, ..., correspondientes a una lista ordenada de todos los

parmetros del modelo para los tipos de la COV o CORR, con las etiquetas de valor correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros. Las casillas estn vacas para los dems tipos de las.
P1, P2, ... Estas variables corresponden a una lista ordenada de todos los parmetros del

modelo con las etiquetas de variable correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros y toman valores segn el tipo de la. Para los parmetros redundantes, todas las covarianzas se establecen en cero, las correlaciones se establecen en el valor perdido del sistema; todas las estimaciones de los parmetros se

62 Captulo 10

establecen en cero; y todos los errores tpicos, niveles de signicacin y los grados de libertad residuales se establecen en el valor perdido del sistema. Nota: Este archivo no se puede utilizar directamente para realizar otros anlisis en otros procedimientos que lean un archivo matricial a menos que dichos procedimientos acepten todos los tipos de las que aqu se exportan.
Exportar modelo como XML. Guarda las estimaciones de los parmetros y la matriz de covarianzas

de los parmetros (si se selecciona) en formato XML (PMML). SmartScore y servidor de SPSS Statistics (un producto independiente) pueden utilizar este archivo del modelo para aplicar la informacin del modelo en otros archivos de datos con nes de puntuacin.

Regresin logstica de muestras complejas: Opciones


Figura 10-8 Cuadro de dilogo Regresin logstica: Opciones

Estimacin. Este grupo otorga el control sobre varios criterios utilizados en la estimacin del

modelo.
N mximo de iteraciones. Nmero mximo de iteraciones que se ejecutar el algoritmo.

Especique un nmero entero no negativo.


Mxima subdivisin por pasos. En cada iteracin, se reduce el tamao del paso mediante un

factor de 0,5 hasta que aumenta el logaritmo de la verosimilitud o se alcanza la mxima subdivisin por pasos. Especique un nmero entero positivo.
Limitar las iteraciones en funcin del cambio en las estimaciones de los parmetros. Si se activa,

el algoritmo se detiene tras una iteracin en la que las modicaciones absolutas o relativas en las estimaciones de los parmetros sean inferiores que el valor especicado, que debe ser no negativo.

63 Regresin logstica de muestras complejas

Limitar las iteraciones en funcin del cambio en la log-verosimilitud. Si se activa, el algoritmo se

detiene tras una iteracin en la que las modicaciones absolutas o relativas en la funcin de log-verosimilitud sean inferiores que el valor especicado, que debe ser no negativo.
Comprobar si hay separacin completa de los puntos de los datos. Si se activa, el algoritmo

realiza una prueba para garantizar que las estimaciones de los parmetros tienen valores exclusivos. Se produce una separacin cuando el procedimiento pueda generar un modelo que clasique cada caso de forma correcta.
Mostrar historial de iteraciones. Muestra los estadsticos y las estimaciones de los parmetros

cada n iteraciones, comenzando por la iteracin 0 (estimaciones iniciales). Si decide imprimir el historial de iteraciones, la ltima iteracin se imprimir siempre independientemente del valor de n.
Valores definidos como perdidos por el usuario. Todas las variables de diseo, as como la variable dependiente y cualquier covariable, deben contener datos vlidos. Los casos con datos no vlidos de cualquiera de estas variables se excluyen del anlisis. Estos controles permiten decidir si los valores denidos como perdidos por el usuario se deben tratar como vlidos entre las variables de estraticacin, conglomeracin, subpoblacin y de factor. Intervalo de confianza. Se trata del nivel de intervalo de conanza para las estimaciones de

coeciente, las estimaciones de coeciente exponenciadas y las razones de las ventajas. Especique un valor mayor o igual a 50 e inferior a 100.

Funciones adicionales del comando CSLOGISTIC


Con el lenguaje de sintaxis de comandos tambin podr: Especicar contrastes personalizados de los efectos respecto a una combinacin lineal de efectos o un valor (utilizando el subcomando CUSTOM). Fijar valores de otras variables de modelo al calcular las razones de las ventajas para factores y covariables (utilizando el subcomando ODDSRATIOS). Especicar un valor de tolerancia para la comprobacin de la singularidad (utilizando el subcomando CRITERIA). Crear nombres especicados por el usuario para las variables almacenadas (utilizando el subcomando SAVE). Generar una tabla de funcin estimable general (utilizando el subcomando PRINT). Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Regresin ordinal de muestras complejas

11

Captulo

El procedimiento Regresin ordinal de muestras complejas realiza anlisis de regresin sobre una variable binaria o una variable dependiente ordinal para muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.
Ejemplo. Los diputados que estudian un proyecto de ley antes de una asamblea legislativa se

interesan por conocer si la opinin pblica apoya dicho proyecto de ley y qu relacin guarda dicho apoyo con los datos demogrcos de los votantes. Los encuestadores disean entrevistas y las realizan siguiendo un diseo muestral complejo. Utilice la regresin ordinal de muestras complejas para ajustar un modelo acerca del nivel de apoyo a la ley de acuerdo en los datos demogrcos de los votantes.
Datos. La variable dependiente es ordinal. Los factores son categricos; pueden tener valores numricos o valores de cadena de hasta ocho caracteres. Las covariables son variables cuantitativas que estn relacionadas con la variable dependiente. Las variables que denen las subpoblaciones pueden ser numricas o de cadena, pero siempre deben ser categricas. Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas.
Obtencin de regresin ordinal de muestras complejas

En los mens, seleccione:


Analizar Muestras complejas Regresin ordinal... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar.

64

65 Regresin ordinal de muestras complejas Figura 11-1 Cuadro de dilogo Regresin ordinal

E Seleccione una variable dependiente.

Si lo desea, puede: Seleccione variables para factores y covariables, segn corresponda a los datos. Especique una variable para denir una subpoblacin. El anlisis se realiza nicamente para la categora seleccionada de la variable de subpoblacin, aunque para la estimacin correcta de las varianzas sigue siendo necesario basarse en el conjunto de datos completo. Seleccione una funcin de enlace.
Funcin de enlace. La funcin de enlace es una transformacin de las probabilidades acumuladas

que permiten la estimacin del modelo. Existen cinco funciones de enlace que se resumen en la siguiente tabla.
Funcin Logit Log-log complementario Log-log negativo Frmula log( / (1) ) log(log(1)) log(log()) Aplicacin tpica Categoras distribuidas de forma uniforme Categoras ms altas ms probables Categoras ms bajas ms probables

66 Captulo 11

Funcin Probit Cauchit (Cauchy inversa)

Frmula
1()

Aplicacin tpica La variable latente sigue una distribucin normal La variable latente tiene muchos valores extremos

tan((0,5))

Regresin ordinal de muestras complejas: Probabilidades de respuesta


Figura 11-2 Cuadro de dilogo Regresin ordinal de muestras complejas: Probabilidades de respuesta

El cuadro de dilogo Probabilidades de respuesta permite especicar si la probabilidad acumulada de una respuesta (es decir, la probabilidad de pertenecer hasta una determinada categora, incluida la propia categora, de la variable dependiente) aumenta con valores de que aumentan o disminuyen de la variable dependiente.

67 Regresin ordinal de muestras complejas

Regresin ordinal de muestras complejas: Modelo


Figura 11-3 Cuadro de dilogo Regresin ordinal de muestras complejas: Modelo

Especificar efectos del modelo. Por defecto, el procedimiento crea un modelo de efectos principales utilizando los factores y las covariables especicadas en el cuadro de dilogo principal. Si lo desea, tambin puede crear un modelo personalizado que contenga los efectos de la interaccin y los trminos anidados. Trminos no anidados

Para las covariables y los factores seleccionados:


Interaccin. Crea el trmino de interaccin de mayor nivel para todas las variables seleccionadas. Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada. Todas de 2. Crea todas las interacciones dobles posibles de las variables seleccionadas. Todas de 3. Crea todas las interacciones triples posibles de las variables seleccionadas. Todas de 4. Crea todas las interacciones cudruples posibles de las variables seleccionadas. Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas. Trminos anidados

En este procedimiento, puede construir trminos anidados para el modelo. Los trminos anidados resultan tiles para modelar el efecto de un factor o covariable cuyos valores no interactan con los niveles de otro factor. Por ejemplo, una cadena de tiendas de comestibles desea realizar un

68 Captulo 11

seguimiento de los hbitos de gasto de los clientes en las diversas ubicaciones de sus tiendas. Dado que cada cliente frecuenta tan slo una de estas ubicaciones, se puede decir que el efecto de Cliente est anidado dentro del efecto de Ubicacin de la tienda. Adems, puede incluir efectos de interaccin, como trminos polinmicos que implican a la misma covariable, o aadir varios niveles de anidacin al trmino anidado.
Limitaciones. Existen las siguientes restricciones para los trminos anidados:

Todos los factores incluidos en una interaccin deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A*A. Todos los factores incluidos en un efecto anidado deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A(A). No se puede anidar ningn efecto dentro de una covariable. Por consiguiente, si A es un factor y X es una covariable, no es vlido especicar A(X).

Regresin ordinal de muestras complejas: Estadsticos


Figura 11-4 Cuadro de dilogo Regresin ordinal de muestras complejas: Estadsticos

Ajuste del modelo. Controla la presentacin de estadsticos que miden el rendimiento global

del proceso.

69 Regresin ordinal de muestras complejas

Pseudo R cuadrado. El estadstico R2 de regresin lineal no cuenta con un anlogo exacto entre

los modelos de regresin ordinal. En su lugar existen varias medidas que tratan de imitar las propiedades del estadstico R2.
Tabla de clasificacin. Muestra las clasicaciones conjuntas tabuladas de la categora

observada por la categora pronosticada por el modelo en la variable dependiente.


Parmetros. Este grupo permite controlar la presentacin de estadsticos relacionados con los

parmetros del modelo.


Estimacin. Muestra estimaciones de los coecientes. Estimacin exponenciada. Muestra la base del logaritmo natural elevada a la potencia de las

estimaciones de los coecientes. Mientras que las estimaciones tienen propiedades agradables para la comprobacin estadstica, la estimacin exponenciada (o exp[B]) es ms sencilla de interpretar.
Error tpico. Muestra el error tpico de cada estimacin de los coecientes. Intervalo de confianza. Muestra un intervalo de conanza para cada estimacin de los

coecientes. El nivel de conanza de los intervalos se congura en el cuadro de dilogo Opciones.


Prueba t. Muestra una prueba t de cada estimacin de coecientes. La hiptesis nula de cada

prueba es que el valor del coeciente sea 0.


Covarianzas de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

covarianzas de los coecientes del modelo.


Correlaciones de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

correlaciones de los coecientes del modelo.


Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida, expresada en unidades y comparable a

las de los errores tpicos, resultado de especicar un diseo complejo, donde los valores ms distantes de 1 indican mayores efectos.
Lneas paralelas. Este grupo permite solicitar estadsticos asociados a un modelo con lneas no paralelas, donde se ajusta una lnea de regresin distinta para cada categora de respuesta (excepto la ltima). Prueba de Wald. Produce una prueba de la hiptesis nula de que los parmetros de regresin

son iguales para todas las respuestas acumuladas. Se estima el modelo con lneas no paralelas y se aplica la prueba de Wald de parmetros iguales.
Estimaciones de los parmetros. Muestra las estimaciones de los coecientes y errores tpicos

para el modelo con lneas no paralelas.


Covarianzas de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

covarianza para los coecientes del modelo con lneas no paralelas.


Estadsticos de resumen para las variables del modelo. Muestra informacin resumida acerca de los

factores, las covariables y las variables dependientes.


Informacin del diseo muestral. Muestra informacin resumida acerca de la muestra, incluidos un

recuento no ponderado y el tamao de la poblacin.

70 Captulo 11

Muestras complejas: Contrastes de hiptesis


Figura 11-5 Cuadro de dilogo Contrastes de hiptesis

Estadstico de contraste. Este grupo le permite seleccionar el tipo de estadstico utilizado para

contrastar las hiptesis. Es posible elegir entre F, F corregida, chi-cuadrado y chi-cuadrado corregido.
Muestreo de grados de libertad. Este grupo permite controlar los grados de libertad en el diseo de

muestra usados para calcular los valores p de todos los estadsticos de contraste. Si se basa en el diseo muestral, el valor es la diferencia entre el nmero de unidades de muestra primarias y el nmero de estratos de la primera etapa del muestreo. Si lo desea, puede especicar los grados de libertad que desee introduciendo un nmero entero positivo.
Correccin para comparaciones mltiples. Al realizar contrastes de hiptesis con varios contrastes, el nivel de signicacin global se puede ajustar utilizando los niveles de signicacin de los contrastes incluidos. Este grupo permite elegir el mtodo de ajuste. Diferencia menos significativa. Este mtodo no controla la probabilidad general de rechazar las

hiptesis de que algunos contrastes lineales son diferentes a los valores de hiptesis nula.
Sidak secuencial. Este es un procedimiento de Sidak de rechazo secuencial decreciente que

es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Bonferroni secuencial. Este es un procedimiento de Bonferroni de rechazo secuencial

decreciente que es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Sidak. Este mtodo ofrece lmites ms estrechos que los de la aproximacin de Bonferroni. Bonferroni. Este mtodo corrige el nivel de signicacin observado por el hecho de que se

estn poniendo a prueba mltiples contrastes.

71 Regresin ordinal de muestras complejas

Regresin ordinal de muestras complejas: Razones de las ventajas


Figura 11-6 Cuadro de dilogo Regresin ordinal de muestras complejas: Razones de las ventajas

El cuadro de dilogo Razones de las ventajas permite mostrar las razones de las ventajas acumuladas estimadas por el modelo para los factores y las covariables que se especican. Esta caracterstica est disponible nicamente para modelos que utilizan la funcin de enlace Logit. Se calcula una sola razn de ventajas acumuladas para todas las categoras de la variante dependiente, excepto la ltima; el modelo de razones proporcionales postula que son todas iguales.
Factores. En cada factor seleccionado, muestra la razn de las ventajas acumuladas de cada

categora del factor hasta las ventajas en la categora de referencia especicada.


Covariables. En cada covariable seleccionada, muestra la razn de las ventajas acumuladas en el valor medio de la covariable ms las unidades de cambio especicadas para las ventajas de la media.

Al calcular las razones de las ventajas de un factor o una covariable, el procedimiento ja todos los dems factores en sus niveles ms altos y el resto de covariables, en sus niveles medios. Si un factor o una covariable interactan con otros predictores en el modelo, las razones de las ventajas dependern no slo de la modicacin en la variable especicada, sino tambin de los valores de las variables con las que interacte. Si una covariable especicada interacta consigo misma en el modelo (por ejemplo, edad*edad), las razones de las ventajas dependern entonces tanto del cambio en la covariable como del valor de sta.

72 Captulo 11

Regresin ordinal de muestras complejas: Guardar


Figura 11-7 Cuadro de dilogo Regresin ordinal de muestras complejas: Guardar

Guardar variables. Este grupo permite guardar la categora pronosticada para el modelo, la probabilidad de la categora pronosticada, la probabilidad de la categora observada, las probabilidades acumuladas y las probabilidades pronosticadas como nuevas variables en el conjunto de datos activo. Exportar modelo como datos de SPSS Statistics. Escribe un conjunto de datos de SPSS Statistics que contiene la matriz de covarianzas o correlaciones de los parmetros con las estimaciones de los parmetros, errores tpicos, valores de signicacin y grados de libertad. El orden de las variables en el archivo matricial es el siguiente. rowtype_. Toma los valores (y las etiquetas de valor), COV (covarianzas), CORR

(correlaciones), EST (estimaciones de los parmetros), SE (errores tpicos), SIG (niveles de signicacin) y DF (grados de libertad del diseo muestral). Hay un caso diferente con el tipo de la COV (o CORR) para cada parmetro del modelo, adems de un caso diferente para cada uno de los otros tipos de las.

73 Regresin ordinal de muestras complejas

varname_. Toma los valores P1, P2, ..., correspondientes a una lista ordenada de todos los

parmetros del modelo para los tipos de la COV o CORR, con las etiquetas de valor correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros. Las casillas estn vacas para los dems tipos de las.
P1, P2, ... Estas variables corresponden a una lista ordenada de todos los parmetros del

modelo con las etiquetas de variable correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros y toman valores segn el tipo de la. Para los parmetros redundantes, todas las covarianzas se establecen en cero, las correlaciones se establecen en el valor perdido del sistema; todas las estimaciones de los parmetros se establecen en cero; y todos los errores tpicos, niveles de signicacin y los grados de libertad residuales se establecen en el valor perdido del sistema. Nota: Este archivo no se puede utilizar directamente para realizar otros anlisis en otros procedimientos que lean un archivo matricial a menos que dichos procedimientos acepten todos los tipos de las que aqu se exportan.
Exportar modelo como XML. Guarda las estimaciones de los parmetros y la matriz de covarianzas

de los parmetros (si se selecciona) en formato XML (PMML). SmartScore y servidor de SPSS Statistics (un producto independiente) pueden utilizar este archivo del modelo para aplicar la informacin del modelo en otros archivos de datos con nes de puntuacin.

Regresin ordinal de muestras complejas: Opciones


Figura 11-8 Cuadro de dilogo Regresin ordinal: Opciones

74 Captulo 11

Mtodo de estimacin. Puede seleccionar un mtodo de estimacin de parmetros. Los mtodos

disponibles son Newton-Raphson, Scoring de Fisher o un mtodo hbrido en el que las iteraciones de Scoring de Fisher se realizan antes de cambiar al mtodo de Newton-Raphson. Si se logra la convergencia durante la fase de Scoring de Fisher del mtodo hbrido antes de que se lleven a cabo el nmero mximo de iteraciones de Fisher, el algoritmo contina con el mtodo de Newton-Raphson.
Estimacin. Este grupo otorga el control sobre varios criterios utilizados en la estimacin del

modelo.
N mximo de iteraciones. Nmero mximo de iteraciones que se ejecutar el algoritmo.

Especique un nmero entero no negativo.


Mxima subdivisin por pasos. En cada iteracin, se reduce el tamao del paso mediante un

factor de 0,5 hasta que aumenta el logaritmo de la verosimilitud o se alcanza la mxima subdivisin por pasos. Especique un nmero entero positivo.
Limitar las iteraciones en funcin del cambio en las estimaciones de los parmetros. Si se activa,

el algoritmo se detiene tras una iteracin en la que las modicaciones absolutas o relativas en las estimaciones de los parmetros sean inferiores que el valor especicado, que debe ser no negativo.
Limitar las iteraciones en funcin del cambio en la log-verosimilitud. Si se activa, el algoritmo se

detiene tras una iteracin en la que las modicaciones absolutas o relativas en la funcin de log-verosimilitud sean inferiores que el valor especicado, que debe ser no negativo.
Comprobar si hay separacin completa de los puntos de los datos. Si se activa, el algoritmo

realiza una prueba para garantizar que las estimaciones de los parmetros tienen valores exclusivos. Se produce una separacin cuando el procedimiento pueda generar un modelo que clasique cada caso de forma correcta.
Mostrar historial de iteraciones. Muestra los estadsticos y las estimaciones de los parmetros

cada n iteraciones, comenzando por la iteracin 0 (estimaciones iniciales). Si decide imprimir el historial de iteraciones, la ltima iteracin se imprimir siempre independientemente del valor de n.
Valores definidos como perdidos por el usuario. Las variables de diseo de escala, as como la variable dependiente y cualquier covariable, deben contener datos vlidos. Los casos con datos no vlidos de cualquiera de estas variables se excluyen del anlisis. Estos controles permiten decidir si los valores denidos como perdidos por el usuario se deben tratar como vlidos entre las variables de estraticacin, conglomeracin, subpoblacin y de factor. Intervalo de confianza. Se trata del nivel de intervalo de conanza para las estimaciones de

coeciente, las estimaciones de coeciente exponenciadas y las razones de las ventajas. Especique un valor mayor o igual a 50 e inferior a 100.

Funciones adicionales del comando CSORDINAL


Con el lenguaje de sintaxis de comandos tambin podr: Especicar contrastes personalizados de los efectos respecto a una combinacin lineal de efectos o un valor (utilizando el subcomando CUSTOM).

75 Regresin ordinal de muestras complejas

Fijar valores de otras variables de modelo en valores distintos de sus medias al calcular las razones de las ventajas para factores y covariables (utilizando el subcomando ODDSRATIOS). Utilice valores sin etiquetar como categoras de referencia personalizadas para los factores cuando se soliciten razones de las ventajas (usando el subcomando ODDSRATIOS). Especicar un valor de tolerancia para la comprobacin de la singularidad (utilizando el subcomando CRITERIA). Generar una tabla de funcin estimable general (utilizando el subcomando PRINT). Guarde ms de 25 variables de probabilidad (usando el subcomando SAVE). Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Regresin de Cox de muestras complejas

12

Captulo

El procedimiento Regresin de Cox de muestras complejas realiza anlisis de supervivencias para muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.
Ejemplos. Un organismo de orden pblico est preocupado por los ndices de reincidencia en su rea de jurisdiccin. Una de las medidas de la reincidencia es el tiempo que transcurre antes del segundo arresto de los delincuentes. El organismo desea crear un modelo que reeje el tiempo que transcurre antes de un nuevo arresto utilizando la regresin de Cox, pero les preocupa que el supuesto de proporcionalidad de los impactos no sea vlido en todas las diferentes categoras de edad.

Un grupo de investigadores estudia los tiempos de supervivencia de los pacientes que nalizan un programa de rehabilitacin tras un ataque isqumico. Pueden existir varios casos por sujeto, ya que los historiales de los pacientes cambian cuando se registra la ocurrencia de eventos diferentes de la muerte y el momento en que ocurren dichos eventos. La muestra tambin est truncada a la izquierda en el sentido de que los tiempos de supervivencia observados se han inado con la duracin de la rehabilitacin, ya que el comienzo del riesgo comienza en el momento del ataque isqumico, dado que la muestra incluye nicamente a los pacientes que han sobrevivido al programa de rehabilitacin.
Tiempo de supervivencia. El procedimiento aplica la regresin de Cox al anlisis de los tiempos

de supervivencia, es decir, el tiempo que transcurre hasta que se produzca un evento. Hay dos maneras de especicar el tiempo de supervivencia, dependiendo del momento de inicio del intervalo:
Tiempo=0. Normalmente, dispondr de informacin completa acerca del inicio del intervalo

para cada sujeto y sencillamente tendr una variable que contenga los momentos de nalizacin (o crear una nica variable con los momentos de nalizacin a partir de variables de fecha y hora, como ver a continuacin).
Vara segn el sujeto. Esta opcin es adecuada cuando tiene truncacin a la izquierda,

tambin denominada entrada retardada; por ejemplo, si desea analizar los tiempos de supervivencia de los pacientes que nalizan un programa de rehabilitacin tras un ataque, tal vez preera considerar que el comienzo del riesgo comienza en el momento en que se produjo el ataque. No obstante, si la muestra incluye nicamente a aquellos pacientes que han sobrevivido al programa de rehabilitacin, la muestra est truncada a la izquierda en el sentido de que los tiempos de supervivencia observados se han inado con la duracin de la rehabilitacin. Puede tener este hecho en cuenta si especica el momento en el que abandonaron la rehabilitacin como el momento de entrada en el estudio.
76

77 Regresin de Cox de muestras complejas

Variables de fecha y hora. No se pueden utilizar directamente variables de fecha y hora para denir el inicio y la nalizacin del intervalo. Si tiene variables de fecha y hora, deber utilizarlas para crear variables que contengan tiempos de supervivencia. Si no hay ninguna truncacin a la izquierda, basta con crear una variable que contenga las horas de nalizacin basadas en la diferencia entre la fecha de entrada en el estudio y la fecha de la observacin. Si existe truncacin a la izquierda, puede crear una variable que contenga las horas de inicio, basadas en la diferencia entre la fecha de inicio del estudio y la fecha de entrada, y otra variable que contenga las horas de nalizacin, basadas en la diferencia entre la fecha de inicio del estudio y la fecha de la observacin. Estado del evento. Necesita una variable que registre si el sujeto ha experimentado el evento de

inters dentro del intervalo. Los sujetos para los que no se ha producido el evento se censuran a la derecha.
Identificador de sujetos. Puede incorporar fcilmente predictores dependientes del tiempo y constantes por tramos dividiendo las observaciones de un nico sujeto en varios casos. Por ejemplo, si desea analizar los tiempos de supervivencia de los pacientes tras un ataque, las variables que representan su historial mdico probablemente sean tiles como predictores. Con el tiempo, pueden sufrir eventos mdicos importantes que alteren su historial mdico. La siguiente tabla muestra cmo estructurar un conjunto de datos de este tipo: ID de paciente es el identicador de los sujetos, Hora de nalizacin dene los intervalos observados, Estado registra los eventos mdicos importantes; Historial anterior de ataques al corazn e Historial previo de hemorragias son predictores dependientes del tiempo y constantes por tramos.
ID de paciente 1 1 1 2 3 3 Hora de nalizacin 5 7 8 24 8 15 Estado Ataque al corazn Hemorragia Fallecimiento Fallecimiento Ataque al corazn Fallecimiento Historial anterior de Historial previo de ataques al corazn hemorragias No S S No No S No No S No No No

Supuestos. Los casos del archivo de datos representan una muestra de un diseo complejo que

se debe analizar segn las especicaciones del archivo seleccionado en el Cuadro de dilogo Plan de muestras complejas. Normalmente, los modelos de regresin de Cox suponen que los impactos son proporcionales, es decir, que la proporcin de impactos de un caso a otro no cambia con el tiempo. Si no se cumple este supuesto, tal vez sea necesario aadir predictores dependientes del tiempo al modelo.
Anlisis Kaplan-Meier. Si no selecciona ningn predictor (o no introduce ninguno de los predictores seleccionados en el modelo) y elige el mtodo de lmite de producto para calcular la curva de supervivencia basal en la pestaa Opciones, el procedimiento realizar un anlisis de supervivencia de tipo Kaplan-Meier.

78 Captulo 12

Para obtener la regresin de Cox de muestras complejas


E En los mens, seleccione: Analizar Muestras complejas Regresin de Cox... E Seleccione un archivo de plan. Si lo desea, elija un archivo de probabilidades conjuntas

personalizado.
E Pulse en Continuar. Figura 12-1 Cuadro de dilogo Regresin de Cox, pestaa Momento y evento

E Especique el tiempo de supervivencia seleccionando los momentos de entrada y salida del

estudio.
E Seleccione una variable de estado del evento. E Pulse en Denir evento y dena al menos un valor de evento.

Si lo desea, puede seleccionar un identicador de sujetos.

79 Regresin de Cox de muestras complejas

Definir evento
Figura 12-2 Cuadro de dilogo Definir evento

Especique los valores que indican que se ha producido un evento terminal.


Valores individuales. Especique uno o ms valores introducindolos en la cuadrcula o

seleccionndolos en una lista de valores con etiquetas de valor denidas.


Rango de valores. Especique un rango de valores introduciendo los valores mnimo y mximo

o seleccionando los valores en una lista con etiquetas de valor denidas.

80 Captulo 12

Predictores
Figura 12-3 Cuadro de dilogo Regresin de Cox, pestaa Predictores

La pestaa Predictores permite especicar los factores y las covariables que se utilizarn para crear los efectos del modelo.
Factores. Los factores son predictores categricos y pueden ser numricos o de cadena. Covariables. Las covariables son predictores de escala y deben ser numricas. Predictores dependientes del tiempo. Hay ciertas situaciones en las que no se cumple el supuesto de proporcionalidad de los impactos. Es decir, las tasas de impacto cambian con el tiempo y los valores de uno (o ms) de los predictores son diferentes en los distintos puntos temporales. En tales casos, es necesario especicar predictores dependientes del tiempo. Si desea obtener ms informacin, consulte Denir predictor dependiente del tiempo el p. 81. Los predictores dependientes del tiempo se pueden seleccionar como factores o como covariables.

81 Regresin de Cox de muestras complejas

Definir predictor dependiente del tiempo


Figura 12-4 Cuadro de dilogo Regresin de Cox: Definir predictor dependiente del tiempo

El cuadro de dilogo Denir predictor dependiente del tiempo le permite crear un predictor que dependa de la variable de tiempo preincorporada, T_. Puede utilizar esta variable para denir covariables dependientes del tiempo empleando dos mtodos generales: Si desea estimar un modelo de regresin de Cox extendido que permita impactos no proporcionales, dena el predictor dependiente del tiempo como una funcin de la variable de tiempo T_ y la covariable en cuestin. Un ejemplo habitual sera el simple producto de la variable de tiempo y el predictor, pero tambin se pueden especicar funciones ms complejas. Algunas variables pueden tener valores distintos en perodos diferentes del tiempo, pero no estn sistemticamente relacionadas con el tiempo. En tales casos es necesario denir un predictor dependiente del tiempo segmentado, lo cual puede llevarse a cabo usando expresiones lgicas. Las expresiones lgicas toman el valor 1 cuando son verdaderas y el valor 0 cuando son falsas. Es posible crear un predictor dependiente del tiempo a partir de un conjunto de medidas, usando una serie de expresiones lgicas. Por ejemplo, si se toma la tensin una vez a la semana durante cuatro semanas (identicadas como BP1 a BP4),

82 Captulo 12

puede denir el predictor dependiente del tiempo como (T_ < 1) * BP1 + (T_ >= 1 & T_ < 2) * BP2 + (T_ >= 2 & T_ < 3) * BP3 + (T_ >= 3 & T_ < 4) * BP4. Tenga en cuenta que exactamente uno de los trminos entre parntesis ser igual a uno para cualquier caso dado y el resto sern todos 0. En otras palabras, esta funcin se puede interpretar diciendo que Si el tiempo es inferior a una semana, use BP1; si es ms de una semana pero menos de dos, utilice BP2; y as sucesivamente. Nota: si el predictor dependiente del tiempo segmentado es constante en los segmentos, como ocurre en el ejemplo de la tensin arterial explicado anteriormente, es posible que sea ms sencillo especicar el predictor dependiente del tiempo y constante por tramos dividiendo los sujetos en varios casos. Consulte la explicacin acerca de los identicadores de los sujetos en Regresin de Cox de muestras complejas el p. 76 para obtener ms informacin. En el cuadro de dilogo Denir predictor dependiente del tiempo, puede utilizar los controles de generacin de funciones para crear la expresin para la covariable dependiente del tiempo o bien introducirla directamente en el rea de texto Expresin numrica. Tenga en cuenta que las constantes de cadena deben ir entre comillas o apstrofes y que las constantes numricas se deben escribir en formato americano, con el punto como separador de la parte decimal. A la variable resultante se le asignar el nombre especicado y deber incluirse como factor o covariable en la pestaa Predictores.

Subgrupos
Figura 12-5 Cuadro de dilogo Regresin de Cox, pestaa Subgrupos

83 Regresin de Cox de muestras complejas

Estratos de lnea base. Se calcula una funcin de supervivencia y de impacto basal diferente para

cada valor de esta variable, a la vez que se estima un nico conjunto de coecientes del modelo en todos los estratos.
Variable de subpoblacin. Especique una variable para denir una subpoblacin. El anlisis se

lleva a cabo nicamente en la categora seleccionada de la variable de subpoblacin.

Modelo
Figura 12-6 Cuadro de dilogo Regresin de Cox, pestaa Modelo

Especificar efectos del modelo. Por defecto, el procedimiento crea un modelo de efectos principales

utilizando los factores y las covariables especicadas en el cuadro de dilogo principal. Si lo desea, tambin puede crear un modelo personalizado que contenga los efectos de la interaccin y los trminos anidados.
Trminos no anidados

Para las covariables y los factores seleccionados:


Interaccin. Crea el trmino de interaccin de mayor nivel para todas las variables seleccionadas. Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada.

84 Captulo 12

Todas de 2. Crea todas las interacciones dobles posibles de las variables seleccionadas. Todas de 3. Crea todas las interacciones triples posibles de las variables seleccionadas. Todas de 4. Crea todas las interacciones cudruples posibles de las variables seleccionadas. Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas. Trminos anidados

En este procedimiento, puede construir trminos anidados para el modelo. Los trminos anidados resultan tiles para modelar el efecto de un factor o covariable cuyos valores no interactan con los niveles de otro factor. Por ejemplo, una cadena de tiendas de comestibles desea realizar un seguimiento de los hbitos de gasto de los clientes en las diversas ubicaciones de sus tiendas. Dado que cada cliente frecuenta tan slo una de estas ubicaciones, se puede decir que el efecto de Cliente est anidado dentro del efecto de Ubicacin de la tienda. Adems, puede incluir efectos de interaccin, como trminos polinmicos que implican a la misma covariable, o aadir varios niveles de anidacin al trmino anidado.
Limitaciones. Existen las siguientes restricciones para los trminos anidados:

Todos los factores incluidos en una interaccin deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A*A. Todos los factores incluidos en un efecto anidado deben ser exclusivos entre s. Por consiguiente, si A es un factor, no es vlido especicar A(A). No se puede anidar ningn efecto dentro de una covariable. Por consiguiente, si A es un factor y X es una covariable, no es vlido especicar A(X).

85 Regresin de Cox de muestras complejas

Estadsticas
Figura 12-7 Cuadro de dilogo Regresin de Cox, pestaa Estadsticos

Informacin del diseo muestral. Muestra informacin resumida acerca de la muestra, incluidos un

recuento no ponderado y el tamao de la poblacin.


Resumen de censura y eventos. Muestra informacin resumida acerca del nmero y el porcentaje

de los casos censurados.


Riesgo establecido en las horas de los eventos. Muestra el nmero de eventos y el nmero bajo

riesgo para cada momento de evento en cada estrato de lnea base.


Parmetros. Este grupo permite controlar la presentacin de estadsticos relacionados con los

parmetros del modelo.


Estimacin. Muestra estimaciones de los coecientes. Estimacin exponenciada. Muestra la base del logaritmo natural elevada a la potencia de las

estimaciones de los coecientes. Mientras que las estimaciones tienen propiedades agradables para la comprobacin estadstica, la estimacin exponenciada (o exp[B]) es ms sencilla de interpretar.
Error tpico. Muestra el error tpico de cada estimacin de los coecientes. Intervalo de confianza. Muestra un intervalo de conanza para cada estimacin de los

coecientes. El nivel de conanza de los intervalos se congura en el cuadro de dilogo Opciones.

86 Captulo 12

Prueba t. Muestra una prueba t de cada estimacin de coecientes. La hiptesis nula de cada

prueba es que el valor del coeciente sea 0.


Covarianzas de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

covarianzas de los coecientes del modelo.


Correlaciones de las estimaciones de los parmetros. Muestra una estimacin de la matriz de

correlaciones de los coecientes del modelo.


Efecto del diseo. Cociente de la variacin de la estimacin entre la variacin obtenida

al suponer que la muestra es una muestra aleatoria simple. Es una medida del efecto de especicar un diseo complejo donde los valores ms distantes de 1 indican efectos mayores.
Raz cuadrada del efecto del diseo. Es una medida del efecto de especicar un diseo

complejo donde los valores ms distantes de 1 indican efectos mayores.


Supuestos del modelo. Este grupo le permite generar un contraste del supuesto de proporcionalidad

de los impactos. El contraste compara el modelo ajustado con un modelo alternativo que incluye los predictores dependientes del tiempo x*_TF para cada predictor x, donde _TF es la funcin de tiempo especicada.
Funcin de tiempo. Especica la forma de _TF para el modelo alternativo. Para la funcin

identidad, _TF=T_. Para la funcin log, _TF=log(T_). Para la funcin Kaplan-Meier, _TF=1SKM(T_), donde SKM(.) es la estimacin de Kaplan-Meier de la funcin de supervivencia. Para rango, _TF es el orden de rango de T_ entre los momentos de nalizacin observados.
Estimaciones de los parmetros para el modelo alternativo. Muestra la estimacin, el error

tpico y el intervalo de conanza de cada parmetro del modelo alternativo.


Matriz de covarianzas del modelo alternativo. Muestra la matriz de las covarianzas estimadas

entre los parmetros del modelo alternativo.


Funciones de supervivencia de lnea base e impacto acumulado. Muestra la funcin de supervivencia de lnea base y la funcin de impactos acumulados de lnea base junto con sus errores tpicos.

Nota: si se han incluido en el modelo los predictores dependientes del tiempo denidos en la pestaa Predictores, esta opcin no est disponible.

87 Regresin de Cox de muestras complejas

Grficos
Figura 12-8 Cuadro de dilogo Regresin de Cox, pestaa Grficos

La pestaa Grcos le permite solicitar grcos de la funcin de impacto, la funcin de supervivencia, la funcin log menos log de la supervivencia y la funcin uno menos la supervivencia. Tambin puede solicitar que se representen los intervalos de conanza junto con las funciones especicadas; el nivel de conanza se establece en la pestaa Opciones.
Patrones de predictores. Puede especicar que se utilice un patrn de valores de predictores para

los grcos solicitados y el archivo de supervivencia exportado en la pestaa Exportar. Tenga en cuenta que estas opciones no estn disponibles si se han incluido en el modelo los predictores dependientes del tiempo denidos en la pestaa Predictores.
Representar factores respecto a. Por defecto, cada factor se evala respecto a su nivel superior.

Si lo desea, introduzca o seleccione otro nivel. Tambin puede solicitar que se representen lneas distintas para cada nivel de un factor individual activando la casilla de vericacin correspondiente a dicho factor.
Representar covariables respecto a. Cada covariable se evala respecto a su media. Si lo

desea, introduzca o seleccione otro valor.

88 Captulo 12

Contrastes de hiptesis
Figura 12-9 Cuadro de dilogo Regresin de Cox, pestaa Contrastes de hiptesis

Estadstico de contraste. Este grupo le permite seleccionar el tipo de estadstico utilizado para

contrastar las hiptesis. Es posible elegir entre F, F corregida, chi-cuadrado y chi-cuadrado corregido.
Muestreo de grados de libertad. Este grupo permite controlar los grados de libertad en el diseo de muestra usados para calcular los valores p de todos los estadsticos de contraste. Si se basa en el diseo muestral, el valor es la diferencia entre el nmero de unidades de muestra primarias y el nmero de estratos de la primera etapa del muestreo. Si lo desea, puede especicar los grados de libertad que desee introduciendo un nmero entero positivo. Correccin para comparaciones mltiples. Al realizar contrastes de hiptesis con varios contrastes, el nivel de signicacin global se puede ajustar utilizando los niveles de signicacin de los contrastes incluidos. Este grupo permite elegir el mtodo de ajuste. Diferencia menos significativa. Este mtodo no controla la probabilidad general de rechazar las

hiptesis de que algunos contrastes lineales son diferentes a los valores de hiptesis nula.
Sidak secuencial. Este es un procedimiento de Sidak de rechazo secuencial decreciente que

es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.

89 Regresin de Cox de muestras complejas

Bonferroni secuencial. Este es un procedimiento de Bonferroni de rechazo secuencial

decreciente que es mucho menos conservador en trminos de rechazar las hiptesis individuales pero que mantiene el mismo nivel de signicacin global.
Sidak. Este mtodo ofrece lmites ms estrechos que los de la aproximacin de Bonferroni. Bonferroni. Este mtodo corrige el nivel de signicacin observado por el hecho de que se

estn poniendo a prueba mltiples contrastes.

Guardar
Figura 12-10 Cuadro de dilogo Regresin de Cox, pestaa Guardar

Guardar variables. Este grupo permite guardar las variables relacionadas con el modelo en el conjunto de datos activo para utilizarlas posteriormente en otros diagnsticos y los informes sobre los resultados. Ninguna de estas opciones estar disponible si se incluyen en el modelo predictores dependientes del tiempo. Funcin de supervivencia. Guarda la probabilidad de supervivencia (el valor de la funcin de

supervivencia) en el momento observado y los valores de los predictores para cada caso.
Lmite inferior del intervalo de confianza para la funcin de supervivencia. Guarda el lmite

inferior del intervalo de conanza de la funcin de supervivencia en el momento observado y los valores de los predictores para cada caso.

90 Captulo 12

Lmite superior del intervalo de confianza para la funcin de supervivencia. Guarda el lmite

superior del intervalo de conanza de la funcin de supervivencia en el momento observado y los valores de los predictores para cada caso.
Funcin de impacto acumulado. Guarda el impacto acumulado, o ln(supervivencia), en el

momento observado y los valores de los predictores para cada caso.


Lmite inferior del intervalo de confianza para la funcin de impacto acumulado. Guarda el

lmite superior del intervalo de conanza de la funcin de impacto acumulado en el momento observado y los valores de los predictores para cada caso.
Lmite superior del intervalo de confianza para la funcin de impacto acumulado. Guarda el

lmite inferior del intervalo de conanza de la funcin de impacto acumulado en el momento observado y los valores de los predictores para cada caso.
Valor pronosticado del predictor lineal. Guarda la combinacin lineal de los predictores

corregidos de los valores de referencia por los coecientes de regresin. El predictor lineal es la proporcin de la funcin de impacto respecto al impacto de lnea base. En el modelo de impactos proporcionales, este valor es constante respecto al tiempo.
Residuo de Schoenfeld. Para cada caso no censurado y cada parmetro no redundante del

modelo, el residuo de Schoenfeld es la diferencia entre el valor observado del predictor asociado al parmetro del modelo y el valor esperado del predictor para los casos con el riesgo establecido en el momento del evento observado. Los residuos de Schoenfeld se pueden utilizar para evaluar el supuesto de proporcionalidad de los impactos; por ejemplo, para un predictor x, los grcos de los residuos de Schoenfeld de un predictor dependiente del tiempo x*ln(T_) respecto al tiempo mostraran una lnea horizontal en 0 si se cumple el supuesto de proporcionalidad de los impactos. Se guarda una variable diferente para cada parmetro no redundante del modelo. Slo se calculan los residuos de Schoenfeld para los casos no censurados.
Residuo de Martingale. Para cada caso, el residuo de Martingale es la diferencia entre la

censura observada (0 si est censurado, 1 si no lo est) y la esperanza de un evento durante el tiempo de observacin.
Residuo de desvianza. Los residuos de desvianza son residuos de Martingale corregidos para

aparecer ms simtricos alrededor de 0. Los grcos de los residuos de desvianza respecto a los predictores no deben mostrar ningn patrn.
Residuo de Cox-Snell. Para cada caso, el residuo de Cox-Snell es la esperanza de que se

produzca un evento durante el tiempo de observacin o la censura observada menos el residuo de Martingale.
Residuo de puntuacin. Para cada caso y cada parmetro no redundante del modelo, el residuo

de puntuacin es la contribucin del caso a la primera derivada de la pseudo-verosimilitud. Se guarda una variable diferente para cada parmetro no redundante del modelo.
Residuo de DFBeta. Para cada caso y cada parmetro no redundante del modelo, el residuo de

DFBeta es una aproximacin del cambio en el valor de la estimacin del parmetro cuando se elimina el caso del modelo. Los casos con residuos de DFBeta relativamente grandes pueden estar ejerciendo una inuencia indebida sobre el anlisis. Se guarda una variable diferente para cada parmetro no redundante del modelo.
Residuos agregados. Cuando varios casos representan a un nico sujeto, el residuo agregado

de un sujeto es sencillamente la suma de los residuos de todos los casos que corresponden al mismo sujeto. Para el residuo de Schoenfeld, la versin agregada es la misma que la versin

91 Regresin de Cox de muestras complejas

no agregada, ya que el residuo de Schoenfeld slo se dene para los casos no censurados. Estos residuos slo estn disponibles cuando se ha especicado un identicador de sujetos en la pestaa Momento y evento.
Nombres de las variables guardadas. La generacin automtica de nombres garantiza que conserva todo su trabajo. Los nombres personalizados le permiten descartar/reemplazar los resultados de las ejecuciones anteriores sin eliminar antes las variables guardadas en el Editor de datos.

Exportar
Figura 12-11 Cuadro de dilogo Regresin de Cox, pestaa Exportar

Exportar modelo como datos de SPSS Statistics. Escribe un conjunto de datos de SPSS Statistics que contiene la matriz de covarianzas o correlaciones de los parmetros con las estimaciones de los parmetros, errores tpicos, valores de signicacin y grados de libertad. El orden de las variables en el archivo matricial es el siguiente. rowtype_. Toma los valores (y las etiquetas de valor), COV (covarianzas), CORR

(correlaciones), EST (estimaciones de los parmetros), SE (errores tpicos), SIG (niveles de signicacin) y DF (grados de libertad del diseo muestral). Hay un caso diferente con el tipo de la COV (o CORR) para cada parmetro del modelo, adems de un caso diferente para cada uno de los otros tipos de las.

92 Captulo 12

varname_. Toma los valores P1, P2, ..., correspondientes a una lista ordenada de todos los

parmetros del modelo para los tipos de la COV o CORR, con las etiquetas de valor correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros. Las casillas estn vacas para los dems tipos de las.
P1, P2, ... Estas variables corresponden a una lista ordenada de todos los parmetros del

modelo con las etiquetas de variable correspondientes a las cadenas de parmetros mostradas en la tabla de estimaciones de los parmetros y toman valores segn el tipo de la. Para los parmetros redundantes, todas las covarianzas se establecen en cero, las correlaciones se establecen en el valor perdido del sistema; todas las estimaciones de los parmetros se establecen en cero; y todos los errores tpicos, niveles de signicacin y los grados de libertad residuales se establecen en el valor perdido del sistema. Nota: Este archivo no se puede utilizar directamente para realizar otros anlisis en otros procedimientos que lean un archivo matricial a menos que dichos procedimientos acepten todos los tipos de las que aqu se exportan.
Exportar funcin de supervivencia como datos de SPSS Statistics. Escribe un conjunto de datos

de SPSS Statistics que contiene la funcin de supervivencia; el error tpico de la funcin de supervivencia; los lmites superior e inferior del intervalo de conanza de la funcin de supervivencia; y la funcin de impactos acumulados de cada momento de evento o fallo, evaluada en la lnea base y en los patrones de predictores especicados en la pestaa Grco. El orden de las variables en el archivo matricial es el siguiente.
Variable de estratos de lnea base. Se generan una tabla de supervivencia diferente para cada

valor de la variable de los estratos.


Variable de tiempo de supervivencia. Hora del evento; se crea un caso distinto para cada hora

de evento nica.
Sur_0, LCL_Sur_0, UCL_Sur_0. Funcin de supervivencia de lnea base y lmites inferior y

superior de su intervalo de conanza.


Sur_R, LCL_Sur_R, UCL_Sur_R. Funcin de supervivencia evaluada en el patrn de referencia

(consulte la tabla de valores de patrones que aparece en los resultados) y los lmites superior e inferior de su intervalo de conanza.
Sur_#.#, LCL_Sur_#.#, UCL_Sur_#.#, Funcin de supervivencia evaluada en cada uno de los

patrones de predictores especicados en la pestaa Grcos y los lmites superior e inferior de sus intervalos de conanza. Consulte la tabla de valores de los patrones que aparece en los resultados para ver la correspondencia entre los patrones y el nmero #.#.
Haz_0, LCL_Haz_0, UCL_Haz_0. Funcin de impacto acumulado de lnea base y lmites inferior

y superior de su intervalo de conanza.


Haz_R, LCL_Haz_R, UCL_Haz_R. Funcin de impacto acumulado evaluada en el patrn de

referencia (consulte la tabla de valores de patrones que aparece en los resultados) y los lmites superior e inferior de su intervalo de conanza.
Haz_#.#, LCL_Haz_#.#, UCL_Haz_#.#, Funcin de impacto acumulado evaluada en cada uno

de los patrones de predictores especicados en la pestaa Grcos y los lmites superior e inferior de sus intervalos de conanza. Consulte la tabla de valores de los patrones que aparece en los resultados para ver la correspondencia entre los patrones y el nmero #.#.

93 Regresin de Cox de muestras complejas

Exportar modelo como XML. Guarda toda la informacin necesaria para pronosticar la funcin de supervivencia, incluidas las estimaciones de los parmetros y la funcin de supervivencia de lnea base, en formato XML (PMML). SmartScore y servidor de SPSS Statistics (un producto independiente) pueden utilizar este archivo del modelo para aplicar la informacin del modelo en otros archivos de datos con nes de puntuacin.

Opciones
Figura 12-12 Cuadro de dilogo Regresin de Cox, pestaa Opciones

Estimacin. Estos controles especican los criterios que se utilizan para estimar los coecientes de

regresin.
N mximo de iteraciones. Nmero mximo de iteraciones que se ejecutar el algoritmo.

Especique un nmero entero no negativo.


Mxima subdivisin por pasos. En cada iteracin, se reduce el tamao del paso mediante un

factor de 0,5 hasta que aumenta el logaritmo de la verosimilitud o se alcanza la mxima subdivisin por pasos. Especique un nmero entero positivo.
Limitar las iteraciones en funcin del cambio en las estimaciones de los parmetros. Si se activa,

el algoritmo se detiene tras una iteracin en la que las modicaciones absolutas o relativas en las estimaciones de los parmetros son inferiores al valor especicado, que debe ser positivo.

94 Captulo 12

Limitar las iteraciones en funcin del cambio en la log-verosimilitud. Si se activa, el algoritmo se

detiene tras una iteracin en la que las modicaciones absolutas o relativas en la funcin de log-verosimilitud sean inferiores que el valor especicado, que debe ser positivo.
Mostrar historial de iteraciones. Muestra el historial de iteraciones de las estimaciones de los

parmetros y el pseudo log-verosimilitud. Adems, imprime la ltima evaluacin del cambio en las estimaciones de los parmetros y el pseudo log-verosimilitud. La tabla del historial de iteraciones se imprime cada n iteraciones a partir de la iteracin 0 (las estimaciones iniciales), donde n es el valor del incremento. Si se solicita el historial de iteraciones, la ltima iteracin siempre se muestra independientemente de n.
Mtodo de ruptura de empates para la estimacin de los parmetros. Cuando hay momentos de

fallo observados empatados, se utiliza uno de los siguientes mtodos para romper los empates. El mtodo de Efron requiere un proceso de clculo ms extenso.
Funciones de supervivencia. Estos controles especican los criterios de los clculos que implican a

la funcin de supervivencia.
Mtodo de estimacin de las funciones de supervivencia de lnea base. El mtodo de Breslow (o

de Nelson-Aalan o emprico) estima el impacto acumulado de lnea base mediante una funcin de paso no decreciente con pasos en los momentos de fallo observados. A continuacin, calcula la supervivencia de lnea base mediante la relacin supervivencia=exp(impacto acumulado). El mtodo de Efron requiere un proceso de clculo ms extenso y se reduce al mtodo de Breslow cuando no hay ningn empate. El mtodo de lmite del producto estima la supervivencia de lnea base mediante una funcin continua a la derecha no creciente; cuando no hay ningn predictor en el modelo, este mtodo se reduce a la estimacin de Kaplan-Meier.
Intervalos de confianza de las funciones de supervivencia. El intervalo de conanza se puede

calcular de tres maneras: en unidades originales, mediante una transformacin logartmica o mediante una transformacin log menos log. Slo la transformacin log menos log garantiza que los lmites del intervalo de conanza estarn comprendidos entre 0 y 1, pero la transformacin logartmica suele funcionar mejor.
Valores definidos como perdidos por el usuario. Para que un caso se incluya en el anlisis, todas las variables deben tener valores vlidos para dicho caso. Estos controles permiten decidir si los valores denidos como perdidos por el usuario se tratan como vlidos en los modelos categricos (incluidas las variables de subpoblacin, estratos, evento y factores) y las variables del diseo muestral. Intervalo de confianza (%). Nivel del intervalo de conanza utilizado para las estimaciones de los coecientes, estimaciones de los coecientes exponenciadas, estimaciones de la funcin de supervivencia y estimaciones de la funcin de impacto acumulado. Especique un valor mayor o igual a 0 y menor que 100.

Funciones adicionales del comando CSCOXREG


Con el lenguaje de comandos tambin podr: Realizar contrastes de hiptesis personalizados (utilizando el subcomando CUSTOM y /PRINT LMATRIX). Especicar la tolerancia (utilizando /CRITERIA SINGULAR). Tabla de funcin estimable general (utilizando /PRINT GEF).

95 Regresin de Cox de muestras complejas

Varios patrones de predictores (utilizando varios subcomandos PATTERN). Nmero mximo de variables guardadas cuando se especica un nombre de raz (utilizando el subcomando SAVE). El cuadro de dilogo respeta el valor por defecto de CSCOXREG de 25 variables. Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Parte II: Ejemplos

Asistente de muestreo de la opcin Muestras complejas

13

Captulo

El Asistente de muestreo le gua a travs de los pasos necesarios para crear, modicar o ejecutar un archivo de plan de muestreo. Antes de utilizar el asistente, debe tener en mente una poblacin objetivo bien denida, una lista de las unidades muestrales y un diseo muestral adecuado.

Obtencin de una muestra a partir de un marco de muestreo completo


A una agencia inmobiliaria se le asigna la tarea de asegurarse de que los impuestos sobre las propiedades se aplican de manera justa en todos los condados. Los impuestos se basan en el valor tasado de la propiedad, por lo que la agencia quiere realizar una encuesta a una muestra de propiedades de los condados para asegurarse de que los registros de todos los condados estn igualmente actualizados. Sin embargo, los recursos para obtener las tasaciones actuales son limitados, por lo que es importante que se utilicen prudentemente los recursos disponibles. La agencia decide utilizar una metodologa de muestreo complejo para seleccionar una muestra de propiedades. Se incluye una lista de propiedades en property_assess_cs.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice el Asistente de muestreo de la opcin Muestras complejas para seleccionar una muestra.

Uso del asistente


E Para ejecutar el Asistente de muestreo de la opcin de Muestras complejas, seleccione en los

mens:
Analizar Muestras complejas Seleccionar una muestra...

97

98 Captulo 13 Figura 13-1 Asistente de muestreo: paso Bienvenida

E Seleccione Disear una muestra y escriba /property_assess.csplan como nombre del archivo del

plan.
E Pulse en Siguiente.

99 Asistente de muestreo de la opcin Muestras complejas Figura 13-2 Asistente de muestreo: paso Variables del diseo (etapa 1)

E Seleccione Condado como variable de estraticacin. E Seleccione Poblacin como variable de conglomeracin. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Mtodo de muestreo.

Esta estructura de diseo indica que se extraen muestras independientes para cada condado. En esta etapa, se extraen las poblaciones como unidad muestral primaria mediante el mtodo por defecto: Muestreo aleatorio simple.

100 Captulo 13 Figura 13-3 Asistente de muestreo: paso Tamao muestral (etapa 1)

E Seleccione Recuentos en la lista desplegable Unidades. E Escriba 4 como el valor del nmero de unidades que se van a seleccionar en esta etapa. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

101 Asistente de muestreo de la opcin Muestras complejas Figura 13-4 Asistente de muestreo: paso Resumen del plan (etapa 1)

E Seleccione S, aadir la etapa 2 ahora. E Pulse en Siguiente.

102 Captulo 13 Figura 13-5 Asistente de muestreo: paso Variables del diseo (etapa 2)

E Seleccione Vecindario como variable de estraticacin. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Mtodo de muestreo.

Esta estructura de diseo indica que se extraen muestras independientes para cada vecindario de las poblaciones extradas en la etapa 1. En esta etapa, se extraen las propiedades como unidad muestral primaria utilizando el muestreo aleatorio simple.

103 Asistente de muestreo de la opcin Muestras complejas Figura 13-6 Asistente de muestreo: paso Tamao muestral (etapa 2)

E Seleccione Proporciones en la lista desplegable Unidades. E Escriba 0,2 como valor de la proporcin de unidades que se van a extraer como muestra de cada

estrato.
E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

104 Captulo 13 Figura 13-7 Asistente de muestreo: paso Resumen del plan (etapa 2)

E Revise el diseo muestral y, a continuacin, pulse en Siguiente.

105 Asistente de muestreo de la opcin Muestras complejas Figura 13-8 Asistente de muestreo: Extraer muestra: paso Opciones de seleccin

E Seleccione Valor personalizado como tipo de semilla aleatoria que se va a utilizar y escriba

241972 como valor.

Al utilizar un valor personalizado, es posible replicar los resultados de este ejemplo de manera exacta.
E Pulse en Siguiente y, a continuacin, pulse en Siguiente en Extraer muestra: paso Archivos de

resultados.

106 Captulo 13 Figura 13-9 Asistente de muestreo: paso Finalizar

E Pulse en Finalizar.

Estas selecciones generan el archivo de plan de muestreo property_assess.csplan y extraen una muestra de acuerdo con dicho plan.

107 Asistente de muestreo de la opcin Muestras complejas

Resumen del plan


Figura 13-10 Resumen del plan

La tabla de resumen muestra el plan de muestreo y resulta til para asegurarse de que el plan corresponde a sus intenciones.

Resumen de muestreo
Figura 13-11 Resumen de las etapas

Esta tabla de resumen muestra la primera etapa del muestreo y resulta til para comprobar que el muestreo se ha realizado de acuerdo con el plan. Tal como se solicit, se tomaron muestras de cuatro poblaciones de cada condado.

108 Captulo 13 Figura 13-12 Resumen de las etapas

Esta tabla de resumen (de la cual se muestra aqu la parte superior) muestra la segunda etapa del muestreo. Tambin resulta til para comprobar que el muestreo se ha realizado de acuerdo con el plan. Como se solicit, se muestre aproximadamente el 20% de las propiedades de cada vecindario de cada una de las poblaciones muestreadas en la primera etapa.

Resultados de la muestra
Figura 13-13 Editor de datos con los resultados de la muestra

109 Asistente de muestreo de la opcin Muestras complejas

Puede ver los resultados del muestreo en el Editor de datos. Se han guardado cinco nuevas variables en el archivo de trabajo, que representan las probabilidades de inclusin y las ponderaciones muestrales acumuladas para cada etapa, adems de las ponderaciones muestrales nales. Los casos con valores para estas variables se seleccionaron para la muestra. Los casos con valores perdidos del sistema para las variables no se seleccionaron. La agencia ahora utilizar sus recursos para reunir las tasaciones actuales de las propiedades seleccionadas en la muestra. Una vez que estas tasaciones estn disponibles, puede procesar la muestra con los procedimientos de anlisis de Muestras complejas, utilizando el plan de muestreo property_assess.csplan para proporcionar las especicaciones de muestreo.

Obtencin de una muestra a partir de un marco de muestreo parcial


Una compaa est interesada en recopilar y vender una base de datos con informacin de encuestas de alta calidad. La muestra de la encuesta debe ser representativa, pero ha de llevarse a cabo de manera eciente, por lo que se utilizan mtodos de muestreo complejo. El diseo de muestreo completo requiere la siguiente estructura:
Etapa 1 2 3 Estratos Regin Distrito Subdivisin Conglomerados Provincia Ciudad

En la tercera etapa, las unidades familiares son la unidad muestral primaria y se realizarn encuestas a las unidades familiares seleccionadas. Sin embargo, dado que slo se puede disponer con facilidad de la informacin de ciudad, la compaa tiene pensado llevar a cabo las dos primeras etapas del diseo ahora y, a continuacin, recopilar la informacin sobre el nmero de subdivisiones y unidades familiares de las ciudades muestreadas. La informacin disponible acerca de las ciudades se incluye en demo_cs_1.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Tenga en cuenta que este archivo contiene una variable Subdivisin que slo contiene el valor 1. Es un marcador de posicin para la variable verdadera, cuyos valores se recopilan despus de ejecutar las dos primeras etapas del diseo, que permite especicar ahora el diseo de muestreo de tres etapas completo. Utilice el Asistente de muestreo de la opcin Muestras complejas para especicar el diseo de muestreo complejo completo y, a continuacin, extraiga las dos primeras etapas.

Uso del asistente para extraer la muestra del primer marco parcial
E Para ejecutar el Asistente de muestreo de la opcin de Muestras complejas, seleccione en los

mens:
Analizar Muestras complejas Seleccionar una muestra...

110 Captulo 13 Figura 13-14 Asistente de muestreo: paso Bienvenida

E Seleccione Disear una muestra y escriba /demo.csplan como nombre del archivo del plan. E Pulse en Siguiente.

111 Asistente de muestreo de la opcin Muestras complejas Figura 13-15 Asistente de muestreo: paso Variables del diseo (etapa 1)

E Seleccione Regin como variable de estraticacin. E Seleccione Provincia como variable de conglomeracin. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Mtodo de muestreo.

Esta estructura de diseo indica que se extraen muestras independientes para cada regin. En esta etapa, se extraen las provincias como unidad muestral primaria mediante el mtodo por defecto: Muestreo aleatorio simple.

112 Captulo 13 Figura 13-16 Asistente de muestreo: paso Tamao muestral (etapa 1)

E Seleccione Recuentos en la lista desplegable Unidades. E Escriba 3 como el valor del nmero de unidades que se van a seleccionar en esta etapa. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

113 Asistente de muestreo de la opcin Muestras complejas Figura 13-17 Asistente de muestreo: paso Resumen del plan (etapa 1)

E Seleccione S, aadir la etapa 2 ahora. E Pulse en Siguiente.

114 Captulo 13 Figura 13-18 Asistente de muestreo: paso Variables del diseo (etapa 2)

E Seleccione Distrito como variable de estraticacin. E Seleccione Ciudad como variable de conglomeracin. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Mtodo de muestreo.

Esta estructura de diseo indica que se extraen muestras independientes para cada distrito. En esta etapa, se extraen las ciudades como unidad muestral primaria mediante el mtodo por defecto: Muestreo aleatorio simple.

115 Asistente de muestreo de la opcin Muestras complejas Figura 13-19 Asistente de muestreo: paso Tamao muestral (etapa 2)

E Seleccione Proporciones en la lista desplegable Unidades. E Escriba 0,1 como valor de la proporcin de unidades que se van a extraer como muestra de cada

estrato.
E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

116 Captulo 13 Figura 13-20 Asistente de muestreo: paso Resumen del plan (etapa 2)

E Seleccione S, aadir la etapa 3 ahora. E Pulse en Siguiente.

117 Asistente de muestreo de la opcin Muestras complejas Figura 13-21 Asistente de muestreo: paso Variables del diseo (etapa 3)

E Seleccione Subdivisin como variable de estraticacin. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Mtodo de muestreo.

Esta estructura de diseo indica que se extraen muestras independientes para cada subdivisin. En esta etapa, se extraen las unidades familiares como unidad muestral primaria mediante el mtodo por defecto: Muestreo aleatorio simple.

118 Captulo 13 Figura 13-22 Asistente de muestreo: paso Tamao muestral (etapa 3)

E Seleccione Proporciones en la lista desplegable Unidades. E Escriba 0,2 como el valor de la proporcin de unidades que se van a seleccionar en esta etapa. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

119 Asistente de muestreo de la opcin Muestras complejas Figura 13-23 Asistente de muestreo: paso Resumen del plan (etapa 3)

E Revise el diseo muestral y, a continuacin, pulse en Siguiente.

120 Captulo 13 Figura 13-24 Asistente de muestreo: Extraer muestra: paso Opciones de seleccin

E Seleccione 1, 2 como las etapas que se van a extraer como muestra ahora. E Seleccione Valor personalizado como tipo de semilla aleatoria que se va a utilizar y escriba

241972 como valor.

Al utilizar un valor personalizado, es posible replicar los resultados de este ejemplo de manera exacta.
E Pulse en Siguiente y, a continuacin, pulse en Siguiente en Extraer muestra: paso Archivos de

resultados.

121 Asistente de muestreo de la opcin Muestras complejas Figura 13-25 Asistente de muestreo: paso Finalizar

E Pulse en Finalizar.

Estas selecciones generan el archivo de plan de muestreo demo.csplan y extraen una muestra de acuerdo con las primeras dos etapas del plan.

122 Captulo 13

Resultados de la muestra
Figura 13-26 Editor de datos con los resultados de la muestra

Puede ver los resultados del muestreo en el Editor de datos. Se han guardado cinco nuevas variables en el archivo de trabajo, que representan las probabilidades de inclusin y las ponderaciones muestrales acumuladas para cada etapa, adems de las ponderaciones muestrales nales de las dos primeras etapas. Las ciudades con valores para estas variables se seleccionaron para la muestra. Las ciudades con valores perdidos del sistema para las variables no se seleccionaron. Para cada ciudad seleccionada, la compaa adquiri informacin sobre subdivisiones y unidades familiares y la coloc en demo_cs_2.sav. Utilice este archivo y el Asistente de muestreo para extraer la muestra de la tercera etapa de este diseo.

Uso del asistente para extraer la muestra del segundo marco parcial
E Para ejecutar el Asistente de muestreo de la opcin de Muestras complejas, seleccione en los

mens:
Analizar Muestras complejas Seleccionar una muestra...

123 Asistente de muestreo de la opcin Muestras complejas Figura 13-27 Asistente de muestreo: paso Bienvenida

E Seleccione Extraer una muestra y el archivo de plan /demo.csplan que ha creado. E Pulse en Siguiente.

124 Captulo 13 Figura 13-28 Asistente de muestreo: paso Resumen del plan (etapa 3)

E Seleccione 1, 2 como las etapas que ya se han muestreado. E Pulse en Siguiente.

125 Asistente de muestreo de la opcin Muestras complejas Figura 13-29 Asistente de muestreo: Extraer muestra: paso Opciones de seleccin

E Seleccione Valor personalizado como tipo de semilla aleatoria que se va a utilizar y escriba

4231946 como valor.


E Pulse en Siguiente y, a continuacin, pulse en Siguiente en Extraer muestra: paso Archivos de

resultados.

126 Captulo 13 Figura 13-30 Asistente de muestreo: paso Finalizar

E Seleccione Pegar la sintaxis generada por el Asistente en una ventana de sintaxis. E Pulse en Finalizar.

Se genera la siguiente sintaxis:


* Asistente de muestreo. CSSELECT /PLAN FILE='/demo.csplan' /CRITERIA STAGES = 3 SEED = 4231946 /CLASSMISSING EXCLUDE /DATA RENAMEVARS /PRINT SELECTION.

La impresin del resumen de muestreo en este caso produce una tabla confusa que provoca problemas en el Visor de resultados. Para desactivar la presentacin del resumen de muestreo, reemplace SELECTION por CPS en el subcomando PRINT. A continuacin, ejecute la sintaxis en la ventana de sintaxis. Estas selecciones extraen una muestra de acuerdo con la tercera etapa del plan de muestreo demo.csplan.

127 Asistente de muestreo de la opcin Muestras complejas

Resultados de la muestra
Figura 13-31 Editor de datos con los resultados de la muestra

Puede ver los resultados del muestreo en el Editor de datos. Se han guardado tres nuevas variables en el archivo de trabajo, que representan las probabilidades de inclusin y las ponderaciones muestrales acumuladas de la tercera etapa, adems de las ponderaciones muestrales nales. Estas nuevas ponderaciones tienen en cuenta los pesos calculados durante el muestreo de las dos primeras etapas. Las unidades con valores para estas variables se seleccionaron para la muestra. Las unidades con valores perdidos del sistema para estas variables no se seleccionaron. La compaa utilizar ahora sus recursos para obtener informacin mediante encuestas acerca de las unidades familiares seleccionadas en la muestra. Una vez que se recopilen estas encuestas, puede procesar la muestra con los procedimientos de anlisis de Muestras complejas, utilizando el plan de muestreo demo.csplan para proporcionar las especicaciones de muestreo.

Muestreo con probabilidad proporcional al tamao (PPS)


Los diputados que estudian un proyecto de ley antes de una asamblea legislativa se interesan por conocer si la opinin pblica apoya dicho proyecto de ley y qu relacin guarda dicho apoyo con los datos demogrcos de los votantes. Los encuestadores disean entrevistas y las realizan siguiendo un diseo muestral complejo. Se incluye una lista de votantes registrados en poll_cs.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice el Asistente de muestreo de la opcin Muestras complejas para seleccionar una muestra y llevar a cabo su posterior anlisis.

128 Captulo 13

Uso del asistente


E Para ejecutar el Asistente de muestreo de la opcin de Muestras complejas, seleccione en los

mens:
Analizar Muestras complejas Seleccionar una muestra... Figura 13-32 Asistente de muestreo: paso Bienvenida

E Seleccione Disear una muestra y escriba /poll.csplan como nombre del archivo del plan. E Pulse en Siguiente.

129 Asistente de muestreo de la opcin Muestras complejas Figura 13-33 Asistente de muestreo: paso Variables del diseo (etapa 1)

E Seleccione Condado como variable de estraticacin. E Seleccione Poblacin como variable de conglomeracin. E Pulse en Siguiente.

Esta estructura de diseo indica que se extraen muestras independientes para cada condado. En esta etapa, las poblaciones se extraen como la unidad muestral primaria.

130 Captulo 13 Figura 13-34 Asistente de muestreo: paso Mtodo de muestreo (etapa 1)

E Seleccione PPS como mtodo de muestreo. E Seleccione Contar registros de datos como medida de tamao. E Pulse en Siguiente.

En cada condado, las poblaciones se extraen sin reposicin con una probabilidad proporcional al nmero de registros para cada poblacin. El mtodo PPS genera probabilidades de muestreo conjuntas para las poblaciones; el paso Archivos de resultado permite especicar dnde se van a guardar estos valores.

131 Asistente de muestreo de la opcin Muestras complejas Figura 13-35 Asistente de muestreo: paso Tamao muestral (etapa 1)

E Seleccione Proporciones en la lista desplegable Unidades. E Escriba 0,3 como el valor de la proporcin de poblaciones que se van a seleccionar por condado

en esta etapa. Los legisladores del condado del oeste sealan que hay menos poblaciones en su condado que en otros. Para asegurar una representacin adecuada, desean establecer un mnimo de 3 poblaciones muestreadas de cada condado.
E Escriba 3 como el nmero de poblaciones mnimo para seleccionar y 5 como el nmero mximo. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

132 Captulo 13 Figura 13-36 Asistente de muestreo: paso Resumen del plan (etapa 1)

E Seleccione S, aadir la etapa 2 ahora. E Pulse en Siguiente.

133 Asistente de muestreo de la opcin Muestras complejas Figura 13-37 Asistente de muestreo: paso Variables del diseo (etapa 2)

E Seleccione Vecindario como variable de estraticacin. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Mtodo de muestreo.

Esta estructura de diseo indica que se extraen muestras independientes para cada vecindario de las poblaciones extradas en la etapa 1. En esta etapa, se extraen los votantes como unidad muestral primaria utilizando el muestreo aleatorio simple sin reposicin.

134 Captulo 13 Figura 13-38 Asistente de muestreo: paso Tamao muestral (etapa 2)

E Seleccione Proporciones en la lista desplegable Unidades. E Escriba 0,2 como valor de la proporcin de unidades que se van a extraer como muestra de cada

estrato.
E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables de resultado.

135 Asistente de muestreo de la opcin Muestras complejas Figura 13-39 Asistente de muestreo: paso Resumen del plan (etapa 2)

E Revise el diseo muestral y, a continuacin, pulse en Siguiente.

136 Captulo 13 Figura 13-40 Asistente de muestreo: Extraer muestra: paso Opciones de seleccin

E Seleccione Valor personalizado como tipo de semilla aleatoria que se va a utilizar y escriba

592004 como valor.

Al utilizar un valor personalizado, es posible replicar los resultados de este ejemplo de manera exacta.
E Pulse en Siguiente.

137 Asistente de muestreo de la opcin Muestras complejas Figura 13-41 Asistente de muestreo: Extraer muestra: paso Opciones de seleccin

E Seleccione guardar la muestra en un nuevo conjunto de datos y escriba /poll_cs_sample como

nombre del conjunto de datos.


E Escriba /poll_jointprob.sav como el nombre del archivo de probabilidades conjuntas. E Pulse en Siguiente.

138 Captulo 13 Figura 13-42 Asistente de muestreo: paso Finalizar

E Pulse en Finalizar.

Estas selecciones producen el archivo de plan de muestreo poll.csplan y extraen una muestra de acuerdo con dicho plan, guardan los resultados de la muestra en un nuevo conjunto de datos poll_cs_sample, y guardan el archivo de probabilidades conjuntas en el archivo de datos externo poll_jointprob.sav.

139 Asistente de muestreo de la opcin Muestras complejas

Resumen del plan


Figura 13-43 Resumen del plan

La tabla de resumen muestra el plan de muestreo y resulta til para asegurarse de que el plan corresponde a sus intenciones.

Resumen de muestreo
Figura 13-44 Resumen de las etapas

Esta tabla de resumen muestra la primera etapa del muestreo y resulta til para comprobar que el muestreo se ha realizado de acuerdo con el plan. Recuerde que solicit una muestra del 30% de las poblaciones por condado; las proporciones reales muestreadas son cercanas al 30%, excepto en los condados del oeste y del sur. Esto se debe a que cada uno de estos condados slo tiene seis poblaciones y se ha especicado que se debe seleccionar un mnimo de tres poblaciones por condado.

140 Captulo 13 Figura 13-45 Resumen de las etapas

Esta tabla de resumen (de la cual se muestra aqu la parte superior) muestra la segunda etapa del muestreo. Tambin resulta til para comprobar que el muestreo se ha realizado de acuerdo con el plan. Como se solicit, se muestre aproximadamente el 20% de los votantes de cada vecindario de cada una de las poblaciones muestreadas en la primera etapa.

141 Asistente de muestreo de la opcin Muestras complejas

Resultados de la muestra
Figura 13-46 Editor de datos con los resultados de la muestra

Puede ver los resultados del muestreo en el conjunto de datos recin creado. Se han guardado cinco nuevas variables en el archivo de trabajo, que representan las probabilidades de inclusin y las ponderaciones muestrales acumuladas para cada etapa, adems de las ponderaciones muestrales nales. Los votantes que no se han seleccionado para la muestra se excluyen de este conjunto de datos. Las ponderaciones muestrales nales son idnticas para los votantes de algunos vecindarios ya que estn seleccionados de acuerdo con un mtodo de muestreo aleatorio simple de los vecindarios. Sin embargo, son distintos entre vecindarios de la misma poblacin ya que las proporciones muestreadas no son exactamente el 20% en todos los vecindarios.

142 Captulo 13 Figura 13-47 Editor de datos con los resultados de la muestra

A diferencia de los votantes de la segunda etapa, las ponderaciones muestrales de la primera etapa no son idnticas para las poblaciones del mismo condado porque se han seleccionado con probabilidad proporcional al tamao.

143 Asistente de muestreo de la opcin Muestras complejas Figura 13-48 Archivo de probabilidades conjuntas

El archivo poll_jointprob.sav contiene las probabilidades conjuntas en la primera etapa para las poblaciones seleccionadas dentro de condados. Condado es una variable de estraticacin de primera etapa y Poblacin es una variable de aglomeracin. Las combinaciones de estas variables identican de forma nica todas las PSU de primera etapa. No_Unidad_ etiqueta las PSU dentro de cada estrato y se utiliza para que coincida con Prob_conj_1_, Prob_conj_2_, Prob_conj_3_, Prob_conj_4_ y Prob_conj_5_. Los dos primeros estratos tienen 4 PSU, por lo que las matrices de probabilidad de inclusin conjunta son 44 para estos estratos y la columna Prob_conj_5_ est vaca a la izquierda para estas las. Del mismo modo, los estratos 3 y 5 tienen matrices de probabilidad de inclusin conjunta 33 y el estrato 4 tiene una matriz de probabilidad de inclusin conjunta 55. Si se examinan los valores de las matrices de probabilidad de inclusin conjunta se puede determinar la necesidad de un archivo de probabilidades conjuntas. Cuando el mtodo de muestreo no es un mtodo PPS SR, la seleccin de una PSU es independiente de la seleccin de otra PSU y la probabilidad de inclusin conjunta es simplemente el producto de sus probabilidades de inclusin. Por el contrario, la probabilidad de inclusin conjunta de las poblaciones 9 y 10 del condado 1 es aproximadamente 0,11 (consulte el primer caso de Prob_conj_3_ o el tercer caso de Prob_conj_1_) o menor que el producto de sus probabilidades de inclusin individuales (el producto del primer caso de Prob_conj_1_ y el tercer caso de Prob_conj_3_ es 0,310,44=0,1364). Los encuestadores ahora llevarn a cabo entrevistas para la muestra seleccionada. Una vez que los resultados estn disponibles, puede procesar la muestra con procedimientos de anlisis de Muestras complejas mediante el plan de muestreo poll.csplan para proporcionar

144 Captulo 13

las especicaciones de muestreo y poll_jointprob.sav para proporcionar las probabilidades de inclusin conjunta necesarias.

Procedimientos relacionados
El procedimiento Asistente de muestreo de la opcin Muestras complejas es una herramienta til para crear un archivo de plan de muestreo y extraer una muestra. Para preparar una muestra para su anlisis cuando no puede acceder al archivo de plan de muestreo, utilice el Asistente de preparacin del anlisis.

Asistente de preparacin del anlisis de la opcin Muestras complejas

14

Captulo

El Asistente de preparacin del anlisis le gua a travs de los pasos para crear o modicar un plan de anlisis y utilizarlo con los distintos procedimientos de anlisis de Muestras complejas. Resulta especialmente til cuando no se puede acceder al archivo del plan de muestreo que se utiliz para extraer la muestra.

Uso del Asistente de preparacin del anlisis de la opcin Muestras complejas para preparar los datos de uso pblico de la NHIS
La National Health Interview Survey (NHIS, encuesta del Centro Nacional de Estadsticas de Salud de EE.UU.) es una encuesta muy detallada realizada entre la poblacin civil de Estados Unidos. Las encuestas se realizaron en persona a una muestra representativa de las unidades familiares del pas. Se recogi tanto la informacin demogrca como las observaciones acerca del estado y los hbitos de salud de los integrantes de cada unidad familiar. Un subconjunto de la encuesta de 2000 se incluye en nhis2000_subset.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice el Asistente de preparacin del anlisis de la opcin Muestras complejas para crear un plan de anlisis para este archivo de datos de manera que se pueda procesar mediante los procedimientos de anlisis de Muestras complejas.

Uso del asistente


E Para preparar una muestra mediante el Asistente de preparacin del anlisis de la opcin Muestras

complejas, seleccione en los mens:


Analizar Muestras complejas Preparar para el anlisis...

145

146 Captulo 14 Figura 14-1 Asistente de preparacin del anlisis: paso Bienvenida

E Escriba /nhis2000_subset.csaplan como nombre del archivo del plan del anlisis. E Pulse en Siguiente.

147 Asistente de preparacin del anlisis de la opcin Muestras complejas Figura 14-2 Asistente de preparacin del anlisis: paso Variables del diseo (etapa 1)

Los datos se obtuvieron utilizando una muestra compleja polietpica. No obstante, para los usuarios nales, las variables de diseo originales de la NHIS se transformaron en un conjunto simplicado de variables de diseo y de ponderacin cuyos resultados se aproximan a los de las estructuras de diseo originales.
E Seleccione Estrato para la estimacin de la varianza como variable de estrato. E Seleccione PSU para la estimacin de la varianza como variable de conglomerado. E Seleccione Peso - Final anual como variable de ponderacin muestral. E Pulse en Finalizar.

148 Captulo 14

Resumen
Figura 14-3 Resumen

La tabla de resumen permite revisar el plan de anlisis. El plan se compone de una etapa cuyo diseo se compone de una variable de estraticacin y una variable de conglomerado. Se utiliza estimacin con reposicin (CR) y el plan se almacena en el archivo c:\nhis2000_subset.csaplan. Ahora puede utilizar este archivo de plan para procesar nhis2000_subset.sav con los procedimientos de anlisis de Muestras complejas.

Preparacin del anlisis cuando las ponderaciones muestrales no se encuentran en el archivo de datos
Un encargado de prstamos tiene un conjunto de registros de clientes que se han realizado siguiendo un diseo complejo. Sin embargo, las ponderaciones muestrales no se incluyen en el archivo. Esta informacin se recoge en bankloan_cs_noweights.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Basndose en sus conocimientos sobre el diseo muestral, el encargado desea utilizar el Asistente de preparacin del anlisis de la opcin Muestras complejas para crear un plan de anlisis para este archivo de datos con el n de procesarlo mediante los procedimientos de anlisis de Muestras complejas. El encargado de prstamos sabe que los registros se seleccionaron en dos etapas, con 15 sucursales bancarias seleccionadas de un total de 100, con probabilidad igual y sin reposicin en la primera etapa. Se seleccionaron cien clientes de cada una de esas sucursales con probabilidad igual y sin reposicin en la segunda etapa, incluyndose en el archivo de datos la informacin del nmero de clientes de cada sucursal. El primer paso para crear un plan de anlisis consiste en calcular las probabilidades de inclusin segn etapa y las ponderaciones muestrales nales.

Clculo de las probabilidades de inclusin y las ponderaciones muestrales


E Para calcular las probabilidades de inclusin de la primera etapa, seleccione en el men las

siguientes opciones:
Transformar Calcular variable...

149 Asistente de preparacin del anlisis de la opcin Muestras complejas Figura 14-4 Cuadro de dilogo Calcular variable

En la primera etapa se han seleccionado quince de las cien sucursales sin sustitucin. Por consiguiente, la probabilidad de que un banco determinado se seleccionara es de 15/100 = 0,15.
E Escriba inclprob_s1 como variable de destino. E Escriba 0,15 como expresin numrica. E Pulse en Aceptar.

150 Captulo 14 Figura 14-5 Cuadro de dilogo Calcular variable

En la segunda etapa se han seleccionado cien clientes de cada sucursal. Por consiguiente, la probabilidad de inclusin de la segunda etapa para un cliente determinado de una sucursal determinada es de 100/nmero de clientes de esa sucursal.
E Vuelva a abrir el cuadro de dilogo Calcular variable. E Escriba inclprob_s2 como variable de destino. E Escriba 100/ncust como expresin numrica. E Pulse en Aceptar.

151 Asistente de preparacin del anlisis de la opcin Muestras complejas Figura 14-6 Cuadro de dilogo Calcular variable

Ahora que ha obtenido las probabilidades de inclusin de cada etapa, es muy sencillo calcular las ponderaciones muestrales nales.
E Vuelva a abrir el cuadro de dilogo Calcular variable. E Escriba finalweight como variable de destino. E Escriba 1/(inclprob_s1 * inclprob_s2) como expresin numrica. E Pulse en Aceptar.

Ya puede crear el plan de anlisis.

Uso del asistente


E Para preparar una muestra mediante el Asistente de preparacin del anlisis de la opcin Muestras

complejas, seleccione en los mens:


Analizar Muestras complejas Preparar para el anlisis...

152 Captulo 14 Figura 14-7 Asistente de preparacin del anlisis: paso Bienvenida

E Escriba /bankloan.csaplan como nombre del archivo del plan del anlisis. E Pulse en Siguiente.

153 Asistente de preparacin del anlisis de la opcin Muestras complejas Figura 14-8 Asistente de preparacin del anlisis: paso Variables del diseo (etapa 1)

E Seleccione Rama como variable de aglomeracin. E Seleccione nalweight como variable de ponderacin muestral. E Pulse en Siguiente.

154 Captulo 14 Figura 14-9 Asistente de preparacin del anlisis: paso Mtodo de estimacin (etapa 1)

E Seleccione Igual SR como el mtodo de estimacin de la primera etapa. E Pulse en Siguiente.

155 Asistente de preparacin del anlisis de la opcin Muestras complejas Figura 14-10 Asistente de preparacin del anlisis: paso Tamao (etapa 1)

E Seleccione Leer valores de la variable y elija inclprob_s1 como la variable que contiene las

probabilidades de inclusin de la primera etapa.


E Pulse en Siguiente.

156 Captulo 14 Figura 14-11 Asistente de preparacin del anlisis: paso Resumen del plan (etapa 1)

E Seleccione S, aadir la etapa 2 ahora. E Pulse en Siguiente y, a continuacin, pulse en Siguiente en el paso Variables del diseo.

157 Asistente de preparacin del anlisis de la opcin Muestras complejas Figura 14-12 Asistente de preparacin del anlisis: paso Mtodo de estimacin (etapa 2)

E Seleccione Igual SR como el mtodo de estimacin de la segunda etapa. E Pulse en Siguiente.

158 Captulo 14 Figura 14-13 Asistente de preparacin del anlisis: paso Tamao (etapa 2)

E Seleccione Leer valores de la variable y elija inclprob_s2 como la variable que contiene las

probabilidades de inclusin de la segunda etapa.


E Pulse en Finalizar.

159 Asistente de preparacin del anlisis de la opcin Muestras complejas

Resumen
Figura 14-14 Tabla de resumen

La tabla de resumen permite revisar el plan de anlisis. El plan est formado por dos etapas con un diseo de una variable de agrupacin. Se utiliza la estimacin de probabilidad igual sin reposicin (CR) y el plan se almacena en el archivo c:\bankloan.csaplan. Ya puede utilizar este archivo del plan para procesar bankloan_noweights.sav (con las probabilidades de inclusin y las ponderaciones muestrales que ha calculado) con los procedimientos de anlisis de Muestras complejas.

Procedimientos relacionados
El procedimiento del Asistente de preparacin del anlisis de la opcin Muestras complejas es una herramienta til para preparar una muestra para su anlisis cuando no puede acceder al archivo del plan de muestreo. Para crear un archivo del plan de muestreo y extraer una muestra, utilice el Asistente de muestreo.

Frecuencias de Muestras complejas

15

Captulo

El procedimiento Frecuencias de Muestras complejas genera tablas de frecuencias para las variables seleccionadas y muestra estadsticos univariantes. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.

Uso de Frecuencias de muestras complejas para analizar el consumo de suplementos nutritivos


Un investigador desea estudiar el uso de suplementos nutritivos de los ciudadanos de EE.UU., utilizando los resultados de la National Health Interview Survey (NHIS, Centro Nacional de Estadsticas de Salud) y un plan de anlisis anteriormente creado. Si desea obtener ms informacin, consulte Uso del Asistente de preparacin del anlisis de la opcin Muestras complejas para preparar los datos de uso pblico de la NHIS en Captulo 14 el p. 145. Un subconjunto de la encuesta de 2000 se incluye en nhis2000_subset.sav. El plan del anlisis se guarda en nhis2000_subset.csaplan. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Uso de Frecuencias de muestras complejas para generar estadsticos acerca del consumo de suplementos nutritivos.

Ejecucin del anlisis


E Para ejecutar un anlisis de Frecuencias de muestras complejas, seleccione en los mens: Analizar Muestras complejas Frecuencias...

160

161 Frecuencias de Muestras complejas Figura 15-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo nhis2000_subset.csaplan y seleccinelo. Si desea obtener ms informacin,

consulte Archivos muestrales en Apndice A el p. 269.


E Pulse en Continuar.

162 Captulo 15 Figura 15-2 Cuadro de dilogo Frecuencias

E Seleccione Suplementos vitamnicos/minerales ltimos 12 m como variable de frecuencia. E Seleccione Categoras de edad como una variable de subpoblacin. E Pulse en Estadsticos. Figura 15-3 Cuadro de dilogo Frecuencias: Estadsticos

E Seleccione Porcentaje de tabla en el grupo Casillas. E Seleccione Intervalo de confianza en el grupo Estadsticos. E Pulse en Continuar.

163 Frecuencias de Muestras complejas E Pulse en Aceptar en el cuadro de dilogo Frecuencias.

Tabla de frecuencia
Figura 15-4 Tabla de frecuencia para variable/situacin

Se calcula cada estadstico seleccionado para cada medida de casilla seleccionada. La primera columna contiene estimaciones del nmero y el porcentaje de la poblacin que toma o no toma suplementos vitamnicos/minerales. Los intervalos de conanza no se solapan; por tanto, se puede concluir que, en general, hay ms americanos que toman suplementos vitamnicos/minerales que los que no los toman.

164 Captulo 15

Frecuencia por subpoblacin


Figura 15-5 Tabla de frecuencia por subpoblacin

Al calcular los estadsticos por subpoblacin, se calcula cada estadstico seleccionado para cada una de las medidas de las casillas seleccionadas por el valor de Categoras de edad. La primera columna contiene estimaciones del nmero y el porcentaje de la poblacin de cada categora que toma o no toma suplementos vitamnicos/minerales. Los intervalos de conanza para los porcentajes de la tabla no se solapan; por lo tanto, se puede concluir que el uso de los suplementos vitamnicos/minerales aumenta con la edad.

Resumen
Mediante el procedimiento Frecuencias de muestras complejas, ha obtenido los estadsticos acerca del consumo de suplementos nutritivos de los ciudadanos de EE.UU. En general, hay ms americanos que toman suplementos vitamnicos/minerales que los que no los toman. Una vez desglosados por categora de edad, una mayor proporcin de americanos toman suplementos vitamnicos/minerales al aumentar la edad.

165 Frecuencias de Muestras complejas

Procedimientos relacionados
El procedimiento Frecuencias de muestras complejas es una herramienta til para obtener estadsticos descriptivos univariantes de variables categricas de las observaciones obtenidas mediante un diseo muestral complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan. El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Tablas de contingencia de muestras complejas proporciona estadsticos descriptivos de las tablas de contingencia de variables categricas. El procedimiento Descriptivos de muestras complejas proporciona estadsticos descriptivos univariantes para variables de escala.

Descriptivos de Muestras complejas

16

Captulo

El procedimiento Descriptivos de Muestras complejas muestra estadsticos de resumen univariantes para distintas variables. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.

Uso de los descriptivos de Muestras complejas para analizar los niveles de actividad
Un investigador desea estudiar los niveles de actividad de los ciudadanos de EE.UU., utilizando los resultados de la National Health Interview Survey (NHIS, Centro Nacional de Estadsticas de Salud) y un plan de anlisis anteriormente creado. Si desea obtener ms informacin, consulte Uso del Asistente de preparacin del anlisis de la opcin Muestras complejas para preparar los datos de uso pblico de la NHIS en Captulo 14 el p. 145. Un subconjunto de la encuesta de 2000 se incluye en nhis2000_subset.sav. El plan del anlisis se guarda en nhis2000_subset.csaplan. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Puede utilizar los descriptivos de Muestras complejas para generar estadsticos descriptivos univariantes para niveles de actividad.

Ejecucin del anlisis


E Para ejecutar un anlisis de Descriptivos de Muestras complejas, seleccione en los mens: Analizar Muestras complejas Descriptivos...

166

167 Descriptivos de Muestras complejas Figura 16-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo nhis2000_subset.csaplan y seleccinelo. Si desea obtener ms informacin,

consulte Archivos muestrales en Apndice A el p. 269.


E Pulse en Continuar. Figura 16-2 Cuadro de dilogo Descriptivos

E Seleccione desde Frecuencia de actividad vigorosa (veces por semana) hasta Frecuencia de

actividad de fuerza (veces por semana) como variables de medida.

168 Captulo 16 E Seleccione Categoras de edad como una variable de subpoblacin. E Pulse en Estadsticos. Figura 16-3 Cuadro de dilogo Descriptivos: Estadsticos

E Seleccione Intervalo de confianza en el grupo Estadsticos. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Descriptivos de Muestras complejas.

Estadsticos univariantes
Figura 16-4 Estadsticos univariantes

Cada estadstico seleccionado se calcula para cada variable de medida. La primera columna contiene estimaciones del nmero medio de veces a la semana que una persona realiza determinado tipo de actividad. Los intervalos de conanza para las medias no se solapan. Por lo tanto, se puede concluir que, globalmente, los americanos realizan actividades de fuerza con menos frecuencia que actividades vigorosas y que realizan actividades vigorosas con menos frecuencia que actividades moderadas.

169 Descriptivos de Muestras complejas

Estadsticos univariantes por subpoblacin


Figura 16-5 Estadsticos univariantes por subpoblacin

Cada estadstico seleccionado se calcula para cada variable de medida segn los valores de Categoras de edad. La primera columna contiene estimaciones del nmero medio de veces a la semana que las personas de cada categora realizan un determinado tipo de actividad. Los intervalos de conanza de las medias permiten extraer ciertas interesantes conclusiones. En lo que se reere a las actividades vigorosas y moderadas, las personas de 2544 aos son menos activos que las de 1824 y las de 4564, mientras que las personas de 4564 aos son menos activas que las de 65 o mayores. En lo que se reere a las actividades de fuerza, las personas de 2544 aos son menos activas que las de 4564, mientras que las personas de 1824 y 4564 aos son menos activas que las de 65 o mayores.

170 Captulo 16

Resumen
Mediante el procedimiento Descriptivos de Muestras complejas, ha obtenido los estadsticos de los niveles de actividad de los ciudadanos de EE.UU. En general, los americanos pasan diferentes intervalos de tiempo realizando diferentes tipos de actividades. Una vez desglosados por edades, los datos parecen indicar que los americanos que han nalizado sus estudios universitarios son en principio menos activos que cuando estaban estudiando, pero conforme envejecen vez ms pasan a ser ms conscientes de la necesidad de hacer ejercicio.

Procedimientos relacionados
El procedimiento Descriptivos de Muestras complejas es una herramienta til para obtener estadsticos descriptivos univariantes de las medidas de escala de las observaciones obtenidas mediante un diseo muestral complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan. El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Razones de muestras complejas proporciona estadsticos descriptivos para razones de medidas de escala. El procedimiento Frecuencias de muestras complejas proporciona estadsticos descriptivos univariantes para variables categricas.

Tablas de contingencia de Muestras complejas

17

Captulo

El procedimiento Tablas de contingencia de Muestras complejas genera tablas de contingencia para los pares de variables seleccionadas y muestra estadsticos sobre la clasicacin bivariante. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.

Uso de muestras complejas de tablas de contingencia para medir el riesgo relativo de un evento
Una compaa que vende suscripciones a revistas suele enviar todos los meses mailings a los nombres que aparecen en una base de datos que ha adquirido. La tasa de respuesta normalmente es muy baja, por lo que necesita encontrar una manera de dirigirse mejor a los posibles clientes. Una sugerencia consiste en concentrar el envo de mailings a aquellas personas que ya estn suscritas a peridicos, basndose en el supuesto de que las personas que leen peridicos tienen mayor propensin a suscribirse a revistas. Se puede utilizar el procedimiento Tablas de contingencia de Muestras complejas para probar esta teora construyendo una tabla de dos las por dos columnas de Suscrito a un peridico por Responde y calcular el riesgo relativo de que una persona que est suscrita a un peridico responda al mailing. Esta informacin se recoge en el archivo demo_cs.sav y debern analizarse utilizando el archivo del plan de muestreo demo.csplan. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269.

Ejecucin del anlisis


E Para ejecutar un anlisis de tablas de contingencia de Muestras complejas, seleccione en los mens: Analizar Muestras complejas Tablas de contingencia...

171

172 Captulo 17 Figura 17-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo demo.csplan y seleccinelo. Si desea obtener ms informacin, consulte

Archivos muestrales en Apndice A el p. 269.


E Pulse en Continuar. Figura 17-2 Cuadro de dilogo Tablas de contingencia

E Seleccione Suscrito a un peridico como variable de la.

173 Tablas de contingencia de Muestras complejas E Seleccione Responde como una variable de columna. E Tambin resulta interesante ver los resultados desglosados por categoras de ingresos, as que

seleccione Categora de ingresos en miles como variable de subpoblacin.


E Pulse en Estadsticos. Figura 17-3 Cuadro de dilogo Tablas de contingencia: Estadsticos

E Anule la seleccin de Tamao de la poblacin y seleccione Porcentaje de fila en el grupo Casillas. E Seleccione Razn de las ventajas y Riesgo relativo en el grupo Resmenes para las tablas 2 por 2. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Tablas de contingencia de Muestras complejas.

Estas selecciones generarn una tabla de contingencia y una estimacin del riesgo de Suscrito a un peridico por Responde. Tambin se crean tablas diferentes con los resultados divididos por Categora de ingresos en miles.

174 Captulo 17

Tabla de contingencia
Figura 17-4 Tabla de contingencia de suscripcin a un peridico por respuesta

La tabla de contingencia muestra que, en general, pocas personas respondieron al mailing. No obstante, respondi una mayor proporcin de personas suscritas a peridicos.

Estimacin de riesgo
Figura 17-5 Estimacin del riesgo para la suscripcin a un peridico por respuesta

El riesgo relativo es una razn de probabilidades de eventos. El riesgo relativo de una respuesta al mailing es la razn de la probabilidad de que una persona suscrita a un peridico responda, respecto a la probabilidad de que una persona que no est suscrita lo haga. Por tanto, la estimacin el riesgo relativo es sencillamente 17,2%/10,3% = 1.673. Igualmente, el riesgo relativo de que no haya respuesta es la razn de la probabilidad de que una persona suscrita no responda, respecto a la probabilidad de que una persona no suscrita no responda. La estimacin de este riesgo relativo es 0.923. Con estos resultados, puede estimar que es 1.673 veces ms probable que una persona suscrita a un peridico responda al mailing que una persona que no lo est, o 0.923 veces tan probable que no responda como una persona que no est suscrita. La razn de las ventajas es la razn de las ventajas de los eventos. Las ventajas de un evento es la razn de la probabilidad de que ocurra el evento, respecto a la probabilidad de que no ocurra el evento. Por tanto, la estimacin de las ventajas de que una persona suscrita a un peridico responda al mailing es de 17.2%/82.8% = 0.208. Igualmente, la estimacin de las ventajas de que una persona no suscrita responda es de 10.3%/89.7% = 0.115. La estimacin de la ocurrencia del factor es por tanto 0.208/0.115 = 1.812 (tenga en cuenta que existe un error de redondeo en los paso intercalados). La razn de las ventajas es la razn del riesgo relativo de responder, respecto al riesgo relativo de no responder, o sea 1.673/0.923 = 1.812.

175 Tablas de contingencia de Muestras complejas

Razn de las ventajas respecto al riesgo relativo


Ya que se trata de una razn de razones, la razn de las ventajas es muy difcil de interpretar. El riesgo relativo es ms fcil de interpretar, por lo que la razn de las ventajas por s sola no resulta muy til. Sin embargo, hay determinadas situaciones muy habituales en las que la estimacin del riesgo relativo no es muy buena y la razn de las ventajas se puede utilizar para calcular una aproximacin del riesgo relativo del evento de inters. La razn de las ventajas se puede utilizar como aproximacin del riesgo relativo del evento de inters cuando se cumplen las dos siguientes condiciones: La probabilidad del evento de inters es pequea (<0,1). Esta condicin garantiza que la razn de las ventajas ser una buena aproximacin del riesgo relativo. En este ejemplo, el evento de inters es una respuesta al mailing. El diseo del estudio es un control de casos. Esta condicin indica que la estimacin habitual del riesgo relativo probablemente no sea buena. Un estudio de control de casos es retrospectivo, se utiliza sobre todo cuando el evento de inters es poco probable o cuando el diseo de un futuro experimento es poco prctico o poco tico. Ninguna de estas condiciones se cumple en este ejemplo, ya que la proporcin global de personas que respondieron fue del 12.8% y el diseo del estudio no fue un control de casos, por lo que resulta ms seguro tomar 1.673 como el riesgo relativo, en vez del valor de la razn de las ventajas.

Estimacin del riesgo por subpoblacin


Figura 17-6 Estimacin del riesgo para la suscripcin a un peridico por respuesta, con control de la categora de ingresos

176 Captulo 17

Las estimaciones del riesgo relativo se calculan por separado para cada categora de ingresos. Observe que el riesgo relativo de una respuesta positiva de las personas suscritas a un peridico parece disminuir gradualmente al aumentar los ingresos, lo que indica que es posible limitar an ms los destinatarios del mailing.

Resumen
Mediante las estimaciones del riesgo de las tablas de contingencia de Muestras complejas, ha descubierto que puede aumentar la tasa de respuesta a los mailings directos dirigindose a personas suscritas a peridicos. Adems, encuentra cierta evidencia de que las estimaciones de riesgo puede que no sean constantes dependiendo de la Categora de ingresos, por lo que puede aumentar an ms la tasa de respuesta si se dirige a las personas suscritas a peridicos que tienen menores ingresos.

Procedimientos relacionados
El procedimiento Tablas de contingencia de Muestras complejas es una herramienta til para obtener estadsticos descriptivos de las tablas de contingencia de variables categricas de observaciones obtenidas mediante un diseo muestral complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan. El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Frecuencias de muestras complejas proporciona estadsticos descriptivos univariantes para variables categricas.

Razones de Muestras complejas

18

Captulo

El procedimiento Razones de Muestras complejas muestra estadsticos de resumen univariantes para razones de variables. Si lo desea, puede solicitar estadsticos por subgrupos, denidos por una o ms variables categricas.

Uso de razones de Muestras complejas como ayuda en la evaluacin de los valores de las propiedades
Una agencia inmobiliaria se encarga que asegurar que los impuestos sobre las propiedades se evalan de la misma manera en los diferentes condados. Los impuestos se basan en el valor tasado de la propiedad, por lo que la agencia desea realizar un seguimiento de los valores de las propiedades en diferentes condados para asegurarse de que los registros de todos los condados estn igualmente actualizados. Ya que los recursos necesarios para obtener las tasaciones actuales son limitados, la agencia decide utilizar una metodologa de muestreo complejo para seleccionar las propiedades. La muestra de propiedades seleccionadas y su informacin de tasacin actual se recoge en property_assess_cs_sample.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Uso de razones de Muestras complejas para evaluar el cambio de los valores de las propiedades desde la ltima tasacin en cinco condados.

Ejecucin del anlisis


E Para ejecutar un anlisis de razones de Muestras complejas, seleccione en los mens: Analizar Muestras complejas Razones...

177

178 Captulo 18 Figura 18-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo property_assess.csplan y seleccinelo. Si desea obtener ms informacin,

consulte Archivos muestrales en Apndice A el p. 269.


E Pulse en Continuar.

179 Razones de Muestras complejas Figura 18-2 Cuadro de dilogo Razones de Muestras complejas

E Seleccione Valor actual como variable de numerador. E Seleccione Valor de la ltima tasacin como la variable de denominador. E Seleccione Condado como variable de subpoblacin. E Pulse en Estadsticos. Figura 18-3 Cuadro de dilogo Estadsticos de la razn

E Seleccione Intervalo de confianza, Recuento no ponderado y Tamao de la poblacin en el grupo

Estadsticos.
E Seleccione Prueba t y escriba 1,3 como valor de prueba. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Razones de Muestras complejas.

180 Captulo 18

Razones
Figura 18-4 Tabla de razones

La presentacin por defecto de la tabla es muy ancha, por lo que deber pivotarla para poder verla con mayor claridad.

Pivotado de la tabla de razones


E Pulse dos veces en la tabla para activarla. E Seleccione en los mens del Visor: Pivotar Paneles de pivotado E Arrastre Numerador y, a continuacin, Denominador desde la la a la capa. E Arrastre Condado desde la la a la columna. E Arrastre Estadsticos desde la columna a la la. E Cierre la ventana Paneles de pivotado.

181 Razones de Muestras complejas

Tabla de razones pivotada


Figura 18-5 Tabla de razones pivotada

La tabla de razones ahora est pivotada de manera que resulta ms fcil comparar los estadsticos correspondientes a los diferentes condados. Las estimaciones de las razones varan desde un mnimo de 1,195 en el condado del sur hasta un mximo de 1,524 en el condado del oeste. Tambin hay bastante variacin en los errores tpicos, que oscilan desde un mnimo de 0,029 en el condado del sur hasta un mximo de 0,068 en el condado del este. Algunos de los intervalos de conanza no se solapan; por tanto, se puede concluir que las razones del condado del oeste son mayores que las razones de los condados del norte y del sur. Por ltimo, como medida ms objetiva, observe que los valores de signicacin de las pruebas t de los condados del oeste y del sur son menores de 0,05. Por tanto, se puede concluir que la razn del condado del oeste es mayor que 1,3 y la razn del condado del sur es menor que 1,3.

Resumen
Mediante el procedimiento Razones de Muestras complejas, hemos obtenido varios estadsticos para las razones del Valor actual respecto al Valor de la ltima tasacin. Los resultados sugieren que tal vez existan cierta falta de armonizacin en la evaluacin de los impuestos sobre las propiedades en los diferentes condados, concretamente: Las razones del condado del oeste son altas, lo que indica que sus registros no estn tan actualizados como los de otros condados en lo que se reere a la apreciacin de los valores de las propiedades. Los impuestos sobre las propiedades son probablemente demasiado bajos en este condado.

182 Captulo 18

Las razones del condado del sur son bajas, lo que indica que sus registros son ms actualizados que los de los otros condados en lo que se reere a la apreciacin de los valores de las propiedades. Los impuestos sobre las propiedades son probablemente demasiado altos en este condado. Las razones del condado del sur son inferiores que las del condado del oeste, pero se mantienen dentro del objetivo de 1,3. Los recursos utilizados para realizar el seguimiento de los valores en el condado del sur se asignarn al condado del sur para armonizar las razones de estos condados con los dems y con el objetivo de 1,3.

Procedimientos relacionados
El procedimiento Razones de Muestras complejas es una herramienta til para obtener estadsticos descriptivos univariantes de la razn de las medidas de escala de las observaciones obtenidas mediante un diseo muestral complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan. El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Descriptivos de muestras complejas proporciona estadsticos descriptivos univariantes para variables de escala.

Modelo lineal general de muestras complejas

19

Captulo

El procedimiento Modelo lineal general de muestras complejas (CSGLM) realiza anlisis de regresin lineal y anlisis de varianza y covarianza de muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.

Uso del Modelo lineal general de muestras complejas para ajustar ANOVA de dos factores
Una cadena de tiendas de alimentacin realiza una encuesta sobre los hbitos de compra de una serie de clientes basndose en un diseo complejo. Una vez obtenidos los resultados de la encuesta y la cantidad que cada cliente gast el mes anterior, la cadena desea averiguar si la frecuencia con que los clientes hacen la compra est relacionada con la cantidad mensual que gastan, controlando el sexo del cliente e incorporando el diseo del muestreo. Esta informacin se recoge en el archivo grocery_1month_sample.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice el procedimiento Modelo lineal general de muestras complejas para realizar un anlisis ANOVA de dos factores de las cantidades gastadas.

Ejecucin del anlisis


E Para ejecutar un anlisis de Modelo lineal general de muestras complejas, seleccione en los mens: Analizar Muestras complejas Modelo lineal general...

183

184 Captulo 19 Figura 19-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo grocery.csplan y seleccinelo. Si desea obtener ms informacin, consulte

Archivos muestrales en Apndice A el p. 269.


E Pulse en Continuar.

185 Modelo lineal general de muestras complejas Figura 19-2 Cuadro de dilogo Modelo lineal general de muestras complejas

E Seleccione Cantidad gastada como la variable dependiente. E Seleccione Para quin compra y Utiliza los cupones como factores. E Pulse en Modelo.

186 Captulo 19 Figura 19-3 Cuadro de dilogo Modelo

E Elija crear un modelo Personalizado. E Seleccione Efectos principales como tipo de trmino que se va a crear y seleccione compra y

usacup como trminos del modelo.


E Seleccione Interaccin como tipo de trmino que se va a crear y aada la interaccin

compra*usacup como un trmino del modelo.


E Pulse en Continuar. E En el Cuadro de dilogo Modelo lineal general de muestras complejas, pulse en Estadsticos.

187 Modelo lineal general de muestras complejas Figura 19-4 Cuadro de dilogo Modelo lineal general de muestras complejas: Estadsticos

E Seleccione Estimacin, Error tpico, Intervalo de confianza y Efecto del diseo en el grupo Parmetros

del modelo.
E Pulse en Continuar. E En el Cuadro de dilogo Modelo lineal general de muestras complejas, pulse en Medias estimadas. Figura 19-5 Cuadro de dilogo Modelo lineal general de muestras complejas: Medias estimadas

E Elija mostrar las medias para compra, usacup y la interaccin compra*usacup. E Seleccione un contraste Simple y 3 Self and family como la categora de referencia para compra.

Observe que, una vez seleccionada, la categora aparece como 3 en el cuadro de dilogo.
E Seleccione un contraste Simple y 1 No como la categora de referencia para usacup. E Pulse en Continuar.

188 Captulo 19 E En el Cuadro de dilogo Modelo lineal general de muestras complejas, pulse en Aceptar.

Resumen del modelo


Figura 19-6 Estadstico R cuadrado

R cuadrado, el coeciente de determinacin, es una medida de la fuerza del ajuste del modelo. Muestra que el modelo explica cerca del 60% de la variacin en Cantidad gastada, lo que ofrece una buena capacidad explicativa. Es posible que desee aadir otros predictores al modelo para mejorar an ms el ajuste.

Pruebas de efectos del modelo


Figura 19-7 Pruebas de los efectos inter-sujetos

Cada trmino del modelo, adems del propio modelo, se prueba para comprobar si el valor de su efecto es igual a 0. Los trminos con valores de signicacin inferiores a 0,05 tienen algn efecto perceptible. Por lo tanto, todos los trminos del modelo contribuyen a l.

189 Modelo lineal general de muestras complejas

Estimaciones de los parmetros


Figura 19-8 Estimaciones de los parmetros

Las estimaciones de los parmetros muestran los efectos de cada predictor en Cantidad gastada. El valor 518,249 del trmino de interseccin indica que la cadena de productos alimenticios puede esperar que un comprador con familia que utiliza cupones de los peridicos y mailings dirigidos se gaste 518,25 dlares de media. Se puede decir que la interseccin est asociada con dichos niveles de factor porque esos son los niveles de factor cuyos parmetros son redundantes. Los coecientes de compra sugieren que, entre los clientes que utilizan tanto los cupones de los peridicos como los recibidos por mailing, aquellos que no tienen familia tienden a gastar menos que los clientes con cnyuge, quienes a su vez gastan menos que los clientes que vivan con personas a su cargo. Como las pruebas de los efectos del modelo demostraron que este trmino contribua al modelo, estas diferencias no se deben a la casualidad. Los coecientes usacup sugieren que el gasto entre los clientes con personas a su cargo desciende con el menor uso de cupones. Existe una moderada cantidad de incertidumbre en las estimaciones, pero los intervalos de conanza no incluyen el 0. Los coecientes de interaccin sugieren que los clientes que no usan cupones o slo recortes del peridico y no tienen personas a su cargo tienden a gastar ms de lo que se podra esperar. Si alguna parte de un parmetro de interaccin es redundante, el parmetro de interaccin ser redundante. La desviacin del 1 en los valores de los efectos del diseo indica que algunos de los errores tpicos calculados para estas estimaciones de parmetros son mayores que los que se obtendran si se supone que dichas observaciones proceden de una muestra aleatoria simple, mientras que los dems son ms pequeos. Es de vital importancia incorporar la informacin

190 Captulo 19

sobre el diseo muestral al anlisis porque, en caso contrario, se podra inferir, por ejemplo, que el coeciente usacup=3 no es distinto de 0. Las estimaciones de los parmetros son tiles para cuanticar el efecto de cada uno de los trminos del modelo, pero las tablas de medias marginales estimadas pueden simplicar la interpretacin de los resultados del modelo.

Medias marginales estimadas


Figura 19-9 Medias marginales estimadas por niveles de Para quin compra

Esta tabla muestra las medias marginales estimadas por el modelo y los errores tpicos de Cantidad gastada en los niveles de factor de Para quin compra. Esta tabla es til para explorar las diferencias entre los niveles de este factor. En este ejemplo, un cliente que compra para s mismo se espera que gaste cerca de 308,53 dlares, mientras que un cliente casado se espera que gaste unos 370,34 dlares y un cliente con personas a su cargo gastar unos 459,44 dlares. Para comprobar si esto representa una diferencia real o puede deberse a una variacin debida al azar, examine los resultados de la prueba.
Figura 19-10 Resultados de las pruebas individuales para medias marginales estimadas de sexo

La tabla de las pruebas individuales muestra dos contrastes simples en el gasto. La estimacin del contraste es la diferencia en el gasto para los niveles de Para quin compra. El valor hipotetizado de 0,00 representa la creencia de que no hay diferencia en el gasto. El estadstico F de Wald, con los grados de libertad que se muestran, se utiliza para probar si la diferencia entre una estimacin de contraste y el valor hipotetizado es por una variacin debida al azar. Como los valores de signicacin son inferiores a 0,05, se puede concluir que existen diferencias en el gasto. Los valores de las estimaciones de los contrastes son distintos a los de las estimaciones de los parmetros. Esto se debe a que hay un trmino de interaccin que contiene el efecto de Para quin compra. Como resultado, la estimacin de los parmetros para compra=1 es un contraste simple

191 Modelo lineal general de muestras complejas

entre los niveles El mismo y El mismo y familia en el nivel De ambos de la variable Utiliza cupones. La estimacin del contraste en esta tabla se promedia sobre los niveles de Utiliza cupones.
Figura 19-11 Resultados de las pruebas globales para medias marginales estimadas de sexo

La tabla de pruebas globales informa de los resultados de una prueba de todos los contrastes de la tabla de pruebas individuales. Su valor de signicacin menor que 0,05 conrma que existe una diferencia en el gasto entre los niveles de Para quin compra.
Figura 19-12 Medias marginales estimadas por niveles de estilo de compra

Esta tabla muestra las medias marginales estimadas por el modelo y los errores tpicos de Cantidad gastada en los niveles de factor de Utiliza cupones. Esta tabla es til para explorar las diferencias entre los niveles de este factor. En este ejemplo, un cliente que no utiliza cupones se espera que se gaste unos 319,65 dlares, mientras que aquellos que s usan cupones se espera que gasten considerablemente ms.
Figura 19-13 Resultados de las pruebas individuales para medias marginales estimadas de estilo de compra

La tabla de pruebas individuales muestra tres contrastes simples, en los que se comparan los gastos de los clientes que no usan cupones frente a los que s los usan. Como los valores de signicacin de las pruebas son menores que 0,05, se puede concluir que los clientes que usan cupones tienden a gastar ms que los que no usan cupones.
Figura 19-14 Resultados de las pruebas globales para medias marginales estimadas de estilo de compra

192 Captulo 19

La tabla de pruebas globales informa de los resultados de una prueba de todos los contrastes de la tabla de pruebas individuales. Su valor de signicacin menor que 0,05 conrma que existe una diferencia en el gasto entre los niveles de Utiliza cupones. Observe que las pruebas globales para Utiliza cupones y Para quin compra son equivalentes a las pruebas de los efectos del modelo ya que los valores de contraste hipotetizados son iguales a 0.
Figura 19-15 Medias marginales estimadas por niveles de sexo por estilo de compra

Esta tabla muestra las medias marginales estimadas por el modelo, los errores tpicos y los intervalos de conanza de Cantidad gastada en las combinaciones de factores de Para quin compra y Utiliza cupones. Esta tabla es til para explorar el efecto de la interaccin entre estos dos factores detectada en las pruebas de los efectos del modelo.

Resumen
En este ejemplo, las medias marginales estimadas han revelado diferencias en el gasto entre clientes a distintos niveles de Para quin compra y Utiliza cupones. Las pruebas de los efectos del modelo conrmaron la existencia de dicha diferencia, as como el hecho de que parece ser producto de un efecto de la interaccin Para quin compra*Utiliza cupones. La tabla de resumen del modelo revel que el modelo actual explica algo ms de la mitad de la variacin hallada en los datos, y se podra mejorar aadiendo ms predictores.

Procedimientos relacionados
El procedimiento Modelo lineal general de muestras complejas es una herramienta til para crear modelos de una variable de escala cuando los casos se han extrado siguiendo un esquema de muestreo complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por

193 Modelo lineal general de muestras complejas

defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan. El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Regresin logstica de muestras complejas permite crear un modelo de una respuesta categrica. El procedimiento Regresin ordinal de muestras complejas permite crear un modelo de una respuesta ordinal.

Regresin logstica de muestras complejas

20

Captulo

El procedimiento Regresin logstica de muestras complejas lleva a cabo anlisis de regresin logstica sobre una variable binaria o una variable dependiente multinomial para muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.

Uso del procedimiento Regresin logstica de muestras complejas para evaluar riesgos de crdito
Si es el encargado de prstamos en un banco, desear poder identicar caractersticas que sean indicativas de personas que puedan causar mora en los crditos y utilizar dichas caractersticas para identicar riesgos de crdito positivos y negativos. Suponga que un encargado de prstamos ha recopilado registros antiguos de prstamos concedidos a clientes en diversas ramas, de acuerdo con un diseo complejo. Esta informacin se recoge en bankloan_cs.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. El encargado desea comprobar si la probabilidad con que las moras de un cliente se asocian a su edad, historial de empleo y cantidad de crdito adeudado; posteriormente, incorporar el diseo muestral.

Ejecucin del anlisis


E

Para crear un modelo de regresin logstica, elija en los mens:


Analizar Muestras complejas Regresin logstica...

194

195 Regresin logstica de muestras complejas Figura 20-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo bankloan.csaplan y seleccinelo. Si desea obtener ms informacin, consulte

Archivos muestrales en Apndice A el p. 269.


E Pulse en Continuar.

196 Captulo 20 Figura 20-2 Cuadro de dilogo Regresin logstica

E Seleccione Impagos anteriores como la variable dependiente. E Seleccione Nivel de educacin como un factor. E Seleccione Edad en aos y Otras deudas en miles como covariables. E Seleccione Impagos anteriores y pulse en Reference Category.

197 Regresin logstica de muestras complejas Figura 20-3 Cuadro de dilogo Regresin logstica de muestras complejas: Categora de referencia

E Seleccione Lowest value como la categora de referencia.

Esto denir la categora did not default como la categora de referencia; por lo tanto, las razones de las ventajas que aparecen en el resultado tendrn la propiedad de que cuanto mayores sean las razones de las ventajas mayor ser la probabilidad de mora.
E Pulse en Continuar. E En el cuadro de dilogo Regresin logstica, pulse en Estadsticos. Figura 20-4 Cuadro de dilogo Regresin logstica: Estadsticos

E Seleccione Tabla de clasificacin en el grupo Ajuste del modelo. E Seleccione Estimacin, Estimacin exponenciada, Error tpico, Intervalo de confianza y Efecto del diseo en el grupo Parmetros. E Pulse en Continuar.

198 Captulo 20 E En el cuadro de dilogo Regresin logstica, pulse en Razones de las ventajas. Figura 20-5 Cuadro de dilogo Regresin logstica de muestras complejas: Razones de las ventajas

E Seleccione para crear las razones de las ventajas para el factor ed y las covariables employ

y debtinc.
E Pulse en Continuar. E En el cuadro de dilogo Regresin logstica, pulse en Aceptar.

Pseudo R cuadrado
Figura 20-6 Estadsticos pseudo R cuadrado

En el modelo de regresin lineal, el coeciente de determinacin, R2 resume la proporcin de la varianza de la variable dependiente asociada con las variables predictoras (independientes), con valores R2 mayores, indicando que el aumento de la variacin se explica por el modelo hasta un mximo de 1. Para los modelos de regresin con una variable dependiente categrica, no es posible calcular un nico estadstico R2 que tenga todas las caractersticas de R2 en el modelo de

199 Regresin logstica de muestras complejas

regresin lineal, por lo que en su lugar, se calculan estas aproximaciones. Los siguientes mtodos se utilizan para realizar una estimacin del coeciente de determinacin. R2(Cox y Snell, 1989) de Cox y Snell est basado en el logaritmo de verosimilitud del modelo comparado con el logaritmo de verosimilitud de un modelo de lnea base. Sin embargo tiene un valor mximo terico menor que 1 con resultados categricos, incluso para un modelo perfecto. R2(Nagelkerke, 1991) de Nagelkerke es una versin ajustada de R-cuadrado de Cox y Snell que ajusta la escala del estadstico para cubrir todo el rango de 0 a 1. R2(McFadden, 1974) de McFadden es otra versin basada en los kernel del logaritmo de verosimilitud para el modelo de slo interseccin y el modelo estimado completo. Los factores que constituyen un buen valor de R2 varan entre las distintas reas de aplicacin. Mientras que estos estadsticos pueden ser indicativos por s solos, son ms tiles para comparar modelos que compiten con los mismos datos. El modelo con el mayor R2 es el mejor segn esta medida.

Clasificacin
Figura 20-7 Tabla de clasificacin

La tabla de clasicacin muestra los resultados prcticos de la utilizacin del modelo de regresin logstica. Para cada caso, la respuesta pronosticada es S si el valor del logit pronosticado por el modelo de dicho caso es mayor que 0. Los casos se ponderan mediante nalweight, de manera que la tabla de clasicacin informa del rendimiento esperado del modelo en la poblacin. Las casillas de la diagonal son los pronsticos correctos. Las casillas fuera de la diagonal son los pronsticos incorrectos. Segn los casos utilizados para crear el modelo, se puede esperar, mediante la utilizacin de este modelo, clasicar correctamente el 85,5% de las personas que no causan mora en la poblacin. De igual manera, se puede esperar clasicar correctamente el 60,9% de las personas que puedan causar mora. En general, se puede esperar que la clasicacin del 76,5% de los casos se realice correctamente; sin embargo, debido a que esta tabla se cre con los casos utilizados para crear el modelo, es bastante probable que estas estimaciones sean excesivamente optimistas.

200 Captulo 20

Pruebas de efectos del modelo


Figura 20-8 Pruebas de los efectos inter-sujetos

Cada trmino del modelo, adems del propio modelo, se prueba para comprobar si su efecto es igual a 0. Los trminos con valores de signicacin inferiores a 0,05 tienen algn efecto perceptible. Por consiguiente, age, employ, debtinc y creddebt contribuyen al modelo, mientras que los dems efectos principales no. En un anlisis ms detallado de los datos, es probable que se pudiera quitar ed, address, income y othdebt de la consideracin del modelo.

Estimaciones de los parmetros


Figura 20-9 Estimaciones de los parmetros

La tabla de estimaciones de los parmetros resume el efecto de cada predictor. Observe que los valores de los parmetros afectan a la verosimilitud de la categora did default relacionada con la categora did not default. Por consiguiente, los parmetros con coecientes positivos

201 Regresin logstica de muestras complejas

aumentan la verosimilitud de la mora, mientras que los parmetros con coecientes negativos disminuyen la verosimilitud de la mora. El signicado de un coeciente de una regresin logstica es ms complejo que el de un coeciente de una regresin lineal. Mientras que B es adecuado para probar los efectos del modelo, Exp(B) es ms fcil de interpretar. Exp(B) representa el cambio en las razones de las ventajas del evento de inters atribuible a un aumento de una unidad en el predictor, para predictores que no formen parte de trminos de interaccin. Por ejemplo, Exp(B) para employ es igual a 0,798, lo que signica que las ventajas de la mora para personas cuya antigedad en la empresa actual sea de dos aos son 0,798 veces las ventajas de la mora de aquellas personas cuya antigedad en la empresa actual sea de un ao, siendo todo lo dems exactamente igual. Los efectos del diseo indican que algunos de los errores tpicos calculados para estas estimaciones de parmetros son mayores que los que se obtendran si se supone que dichas observaciones proceden de una muestra aleatoria simple, mientras que los dems son ms pequeos. Es de vital importancia incorporar la informacin sobre el diseo muestral al anlisis porque, en caso contrario, se podra inferir, por ejemplo, que el coeciente edad no es distinto de 0.

Razones de las ventajas


Figura 20-10 Razones de las ventajas para el nivel educativo

Esta tabla muestra las razones de las ventajas de Previously defaulted en los niveles de factor de Level of education. Los valores indicados son las razones de las ventajas de mora para Did not complete high school hasta College degree, comparadas a las razones de las ventajas para Post-undergraduate degree. Por consiguiente, la razn de las ventajas de 2,054 en la primera la de la tabla signica que las ventajas de mora de una persona que no tiene estudios secundarios son 2,054 veces las ventajas de mora de una persona con una titulacin de postgraduado.

202 Captulo 20 Figura 20-11 Razones de las ventajas para aos con la empresa actual

Esta tabla muestra la razn de las ventajas de Impagos anteriores para un cambio de unidad en la covariable Aos con la empresa actual. El valor indicado es la razn de las ventajas de mora de una persona con 7,99 aos en la empresa actual comparada con las ventajas de mora de una persona con 6,99 aos (la media).
Figura 20-12 Razones de las ventajas para la razn entre el endeudamiento y los ingresos

Esta tabla muestra la razn de las ventajas de Impagos anteriores para un cambio de unidad en la covariable Deuda de la tarjeta de crdito en miles. El valor indicado es la razn de las ventajas de mora de una persona con una razn de endeudamiento/ingresos de 10,9341 comparada con las ventajas de mora de una persona con una razn de endeudamiento/ingresos de 9,9341 (la media). Observe que debido a que ninguno de estos predictores forman parte de los trminos de interaccin, los valores de las razones de las ventajas indicados en estas tablas son iguales a los valores de las estimaciones exponenciadas de los parmetros. Cuando un predictor forma parte de un trmino de interaccin, su razn de las ventajas en estas tablas tambin depender de los valores de los dems predictores que componen la interaccin.

Resumen
Mediante el procedimiento de Regresin logstica de muestras complejas, se ha construido un modelo para pronosticar la probabilidad de que un cliente dado cause mora en un crdito. Un problema crtico para los encargados de los crditos es el coste de los errores de Tipo I y Tipo II. Es decir, cul es el coste de clasicar una persona susceptible de causar mora como una persona que no va a causar mora (Tipo I)? Cul es el coste de clasicar una persona que no va a causar mora como una persona susceptible de causar mora (Tipo II)? Si la principal preocupacin es la concesin de mal crdito, entonces ser deseable reducir el error de Tipo I y maximizar la

203 Regresin logstica de muestras complejas

sensitivity. Si la prioridad es aumentar la base de clientes, entonces ser deseable reducir el error de Tipo II y maximizar la specicity. Normalmente, ambas son cuestiones importantes, as que se deber elegir una regla de decisin para clasicar los clientes que ofrezcan la mejor combinacin de susceptibilidad y especicidad.

Procedimientos relacionados
El procedimiento Regresin logstica de muestras complejas es una herramienta til para crear modelos de una variable categrica cuando los casos se han extrado siguiendo un esquema de muestreo complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan. El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Modelo lineal general de muestras complejas permite crear un modelo de una respuesta de escala. El procedimiento Regresin ordinal de muestras complejas permite crear un modelo de una respuesta ordinal.

Regresin ordinal de muestras complejas

21

Captulo

El procedimiento Regresin ordinal de muestras complejas crea un modelo predictivo de una variable dependiente ordinal para muestras extradas mediante mtodos de muestreo complejo. Si lo desea, puede solicitar anlisis de una subpoblacin.

Uso de la regresin ordinal de muestras complejas para analizar los resultados de encuestas
Los diputados que estudian un proyecto de ley antes de una asamblea legislativa se interesan por conocer si la opinin pblica apoya dicho proyecto de ley y qu relacin guarda dicho apoyo con los datos demogrcos de los votantes. Los encuestadores disean entrevistas y las realizan siguiendo un diseo muestral complejo. Los resultados de las encuestas se recopilan en poll_cs_sample.sav. El plan de muestreo utilizado por los encuestadores se incluye en poll.csplan. Como utiliza un mtodo de probabilidad proporcional al tamao (PPS), tambin hay un archivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice la regresin ordinal de muestras complejas para ajustar un modelo acerca del nivel de apoyo a la ley de acuerdo con los datos demogrcos de los votantes.

Ejecucin del anlisis


E Para ejecutar un anlisis de Regresin ordinal de muestras complejas, seleccione en los mens: Analizar Muestras complejas Regresin ordinal...

204

205 Regresin ordinal de muestras complejas Figura 21-1 Cuadro de dilogo Plan de muestras complejas

E Acceda al archivo poll.csplan y seleccinelo como el archivo del plan. Si desea obtener ms

informacin, consulte Archivos muestrales en Apndice A el p. 269.


E Seleccione poll_jointprob.sav como archivo de las probabilidades conjuntas. E Pulse en Continuar.

206 Captulo 21 Figura 21-2 Cuadro de dilogo Regresin ordinal

E Seleccione La legsilatura debera decretar un impuesto sobre la gasolina como la variable

dependiente.
E Seleccione desde Categora de edad hasta Frecuencia con la que conduce como factores. E Pulse en Estadsticos.

207 Regresin ordinal de muestras complejas Figura 21-3 Cuadro de dilogo Regresin ordinal de muestras complejas: Estadsticos

E Seleccione Tabla de clasificacin en el grupo Ajuste del modelo. E Seleccione Estimacin, Estimacin exponenciada, Error tpico, Intervalo de confianza y Efecto del diseo en el grupo Parmetros. E Seleccione Prueba de Wald de pendientes iguales y Estimaciones de los parmetros para modelo generalizado (pendientes desiguales). E Pulse en Continuar. E Pulse en Contrastes de hiptesis en el cuadro de dilogo Regresin ordinal de muestras complejas.

208 Captulo 21 Figura 21-4 Cuadro de dilogo Contrastes de hiptesis

Incluso para un nmero moderado de predictores y categoras de respuesta, el estadstico de contraste de la F de Wald es posible que no se pueda estimar para la prueba de lneas paralelas.
E Seleccione F corregida en el grupo Estadstico de contraste. E Seleccione Sidak secuencial como mtodo de ajuste para comparaciones mltiples. E Pulse en Continuar. E Pulse en Razones de las ventajas en el cuadro de dilogo Regresin ordinal de muestras complejas.

209 Regresin ordinal de muestras complejas Figura 21-5 Cuadro de dilogo Regresin ordinal de muestras complejas: Razones de las ventajas

E Seleccione generar razones de las ventajas acumulativas para Categora de edad y Frecuencia

con la que conduce.


E Seleccione 10-14.999 millas/ao, un kilometraje anual ms habitual que el mximo, como

categora de referencia de Frecuencia con la que conduce.


E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Regresin ordinal de muestras complejas.

Pseudo R cuadrado
Figura 21-6 Pseudo R cuadrado

En el modelo de regresin lineal, el coeciente de determinacin, R2 resume la proporcin de la varianza de la variable dependiente asociada con las variables predictoras (independientes), con valores R2 mayores, indicando que el aumento de la variacin se explica por el modelo hasta un mximo de 1. Para los modelos de regresin con una variable dependiente categrica, no es

210 Captulo 21

posible calcular un nico estadstico R2 que tenga todas las caractersticas de R2 en el modelo de regresin lineal, por lo que en su lugar, se calculan estas aproximaciones. Los siguientes mtodos se utilizan para realizar una estimacin del coeciente de determinacin. R2(Cox y Snell, 1989) de Cox y Snell est basado en el logaritmo de verosimilitud del modelo comparado con el logaritmo de verosimilitud de un modelo de lnea base. Sin embargo tiene un valor mximo terico menor que 1 con resultados categricos, incluso para un modelo perfecto. R2(Nagelkerke, 1991) de Nagelkerke es una versin ajustada de R-cuadrado de Cox y Snell que ajusta la escala del estadstico para cubrir todo el rango de 0 a 1. R2(McFadden, 1974) de McFadden es otra versin basada en los kernel del logaritmo de verosimilitud para el modelo de slo interseccin y el modelo estimado completo. Los factores que constituyen un buen valor de R2 varan entre las distintas reas de aplicacin. Mientras que estos estadsticos pueden ser indicativos por s solos, son ms tiles para comparar modelos que compiten con los mismos datos. El modelo con el mayor R2 es el mejor segn esta medida.

Pruebas de efectos del modelo


Figura 21-7 Contrastes de los efectos del modelo

Cada trmino del modelo se prueba para comprobar si su efecto es igual a 0. Los trminos con valores de signicacin inferiores a 0,05 tienen algn efecto perceptible. Por consiguiente, edadcat y freccond contribuyen al modelo, mientras que los dems efectos principales no. En los anlisis posteriores de los datos, puede considerar quitar genero y votoult del modelo.

Estimaciones de los parmetros


La tabla de estimaciones de los parmetros resume el efecto de cada predictor. Mientras que es difcil interpretar los coecientes de este modelo debido a la naturaleza de la funcin de enlace, los signos de los coecientes para las covariables y los valores relativos de los coecientes para los niveles de factores pueden proporcionar informacin relevante de los predictores del modelo. Para las covariables, los coecientes positivos (negativos) indican relaciones positivas (negativas) entre predictores y resultados. Un valor mayor de una covariable con un coeciente positivo corresponde a una mayor probabilidad de estar en una de las categoras de resultados acumulados superiores.

211 Regresin ordinal de muestras complejas

Para los factores, un nivel de factor con un mayor coeciente indica una mayor probabilidad de ser una de las categoras de resultados acumulados superiores. El signo de un coeciente para un nivel de factor depende del efecto del nivel de factor relativo a la categora de referencia.
Figura 21-8 Estimaciones de los parmetros

Puede realizar las siguientes interpretaciones a partir de las estimaciones de los parmetros: Las personas incluidas en las categoras de edad inferiores muestran un mayor apoyo al proyecto de ley que las que se encuentran en la categora de edad superior. Las personas que conducen con menor frecuencia muestran un mayor apoyo al proyecto de ley que las que conducen con mayor frecuencia. Los coecientes de las variables genero y votoult, adems de no ser estadsticamente signicativos, parecen ser pequeos en comparacin con los otros coecientes. Los efectos del diseo indican que algunos de los errores tpicos calculados para estas estimaciones de los parmetros son mayores que los que se obtendran si se utilizara una muestra aleatoria simple, mientras que otros son ms pequeos. Es de vital importancia incorporar la informacin sobre el diseo muestral al anlisis porque, en caso contrario, se podra inferir, por ejemplo, que el coeciente del tercer nivel de Categora de edad, [edadcat=3], es signicativamente distinto de 0.

212 Captulo 21

Clasificacin
Figura 21-9 Informacin sobre la variable categrica

Segn los datos observados, el modelo nulo (es decir, el que no incluye ningn predictor) clasicara a todos los clientes en el grupo modal, De acuerdo. Por tanto, el modelo nulo sera correcto 27,3% de las veces.
Figura 21-10 Tabla de clasificacin

La tabla de clasicacin muestra los resultados prcticos de la utilizacin del modelo. Para cada caso, la respuesta pronosticada es la categora de respuesta con la mayor probabilidad pronosticada por el modelo. Los casos se ponderan mediante Ponderaciones muestrales nales, de manera que la tabla de clasicacin informa del rendimiento del modelo esperado en la poblacin. Las casillas de la diagonal son los pronsticos correctos. Las casillas fuera de la diagonal son los pronsticos incorrectos.

213 Regresin ordinal de muestras complejas

El modelo clasica correctamente un 9,9% ms, es decir, el 37,2% de los casos. En concreto, el modelo funciona considerablemente mejor al clasicar a las personas con De acuerdo o Muy en desacuerdo y ligeramente peor a las personas con En desacuerdo.

Razones de las ventajas


Las ventajas acumuladas se denen como la razn de la probabilidad de que la variable dependiente tome un valor menor o igual que una determinada categora de respuesta respecto a la probabilidad de que tome un valor mayor que la categora de respuesta. La razn de las ventajas acumuladas es la razn de las ventajas acumuladas para diferentes valores de los predictores y est estrechamente relacionada con las estimaciones exponenciadas de los parmetros. Curiosamente, la razn de las ventajas acumuladas propiamente no depende de la categora de respuesta.
Figura 21-11 Razones de las ventajas acumuladas para Categora de edad

Esta tabla muestra las razones de las ventajas acumuladas para los niveles de factor de Categora de edad. Los valores mostrados son las razones de las ventajas acumuladas para 1830 hasta 4660, comparadas con las ventajas acumuladas para >60. Por tanto, la razn de las ventajas de 1,383 de la primera la de la tabla indica que las ventajas acumuladas para una persona con una edad entre 18 y 30 aos son 1,383 veces las ventajas acumuladas para una persona con ms de 60 aos. Tenga en cuenta que como Categora de edad no gura en ningn trmino de interaccin, las razones de las ventajas son meramente las razones de las estimaciones exponenciadas de los parmetros. Por ejemplo, la razn de las ventajas acumuladas para 1830 respecto a >60 es 1,00 / 0,723 = 1,383.

214 Captulo 21 Figura 21-12 Razones de las ventajas para Frecuencia con la que conduce

Esta tabla muestra las razones de las ventajas acumuladas para los niveles de factor de Frecuencia con la que conduce, utilizando 1014.999 millas/ao como categora de referencia. Como Frecuencia con la que conduce no gura en ningn trmino de interaccin, las razones de las ventajas son meramente las razones de las estimaciones exponenciadas de los parmetros. Por ejemplo, la razn de las ventajas acumuladas para 2029.999 millas/ao respecto a 1014.999 millas/ao es 0,101 / 0,444 = 0,227.

Modelo acumulado generalizado


Figura 21-13 Prueba de lneas paralelas

La prueba de lneas paralelas puede ayudarle a evaluar si el supuesto de que los parmetros son los mismos para todas las categoras de respuesta es razonable. Esta prueba compara el modelo estimado con el mismo conjunto de coecientes para todas las categoras con un modelo generalizado con un conjunto diferente de coecientes para cada categora. El contraste de la F de Wald es un contraste mnibus de la matriz de contrastes para el supuesto de lneas paralelas que proporciona valores p asintticamente correctos. Para muestras de tamao pequeo a medio, el estadstico de la F de Wald corregida funciona bien. El valor de signicacin es cercano a 0,05, lo que sugiere que el modelo generalizado puede mejorar el ajuste del modelo. No obstante, el contraste corregido de Sidak secuencial indica un valor de signicacin sucientemente alto (0,392) por lo que, en general, no hay ninguna evidencia clara para rechazar el supuesto de lneas paralelas. El contraste de Sidak secuencial comienza con pruebas de Wald

215 Regresin ordinal de muestras complejas

de contrastes individuales que proporcionan un valor p global. Estos resultados deben ser comparables con el resultado del contraste mnibus de Wald. El hecho de que sean tan diferentes en este ejemplo resulta un tanto sorprendente, pero puede deberse a la existencia de muchos contrastes en la prueba y un nmero relativamente pequeo de grados de libertad del diseo.
Figura 21-14 Estimaciones de los parmetros para el modelo acumulado generalizado (slo se muestra una parte)

Adems, los valores estimados de los coecientes del modelo generalizado no parecen ser muy diferentes de las estimaciones obtenidas con el supuesto de lneas paralelas.

Exclusin de los predictores no significativos


Las pruebas de los efectos del modelo han mostrado que los coecientes del modelo para Genero y Vot en las ltimas elecciones no son estadsticamente distintos de 0.
E Para generar un modelo reducido, recupere el cuadro de dilogo Regresin ordinal de muestras

complejas.

216 Captulo 21 E Pulse en Continuar en el cuadro de dilogo Plan. Figura 21-15 Cuadro de dilogo Regresin ordinal

E Anule la seleccin de Genero y Vot en las ltimas elecciones como factores. E Pulse en Opciones.

217 Regresin ordinal de muestras complejas Figura 21-16 Cuadro de dilogo Regresin ordinal: Opciones

E Seleccione Mostrar historial de iteraciones.

El historial de iteraciones es til para diagnosticar los problemas que encuentra el algoritmo de estimacin.
E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Regresin ordinal de muestras complejas.

Advertencias
Figura 21-17 Advertencias para el modelo reducido

Las advertencias indican que la estimacin del modelo reducido naliz antes de que las estimaciones de los parmetros alcanzaran la convergencia, ya que la log-verosimilitud no pudo aumentarse con cada cambio (o paso) en los valores actuales de las estimaciones de los parmetros.

218 Captulo 21 Figura 21-18 Advertencias para el modelo reducido

Mirando el historial de iteraciones, los cambios de las estimaciones de los parmetros en las ltimas iteraciones son sucientemente pequeos como para no tener que preocuparse seriamente acerca del mensaje de advertencia.

Comparacin de los modelos


Figura 21-19 Pseudo R cuadrado para el modelo reducido

Los valores de R2 del modelo reducido son idnticos a los del modelo original. Esto constituye una evidencia a favor del modelo reducido.

219 Regresin ordinal de muestras complejas Figura 21-20 Tabla de clasificacin para el modelo reducido

La tabla de clasicacin complica un tanto las cosas. La tasa de clasicacin global de 37,0% para el modelo reducido es comparable a la del modelo original, lo que constituye una evidencia a favor del modelo reducido. No obstante, el modelo reducido cambia la respuesta pronosticada del 3,8% de los votantes de En desacuerdo a De acuerdo, ms de la mitad de los cuales se observ que respondan En desacuerdo o Muy en desacuerdo. Esta diferencia es muy importante y es necesario realizar un estudio cuidadoso antes de optar por el modelo reducido.

Resumen
Mediante el procedimiento Regresin ordinal de muestras complejas, ha generado varios posibles modelos del nivel de apoyo al proyecto de ley basados en los datos demogrcos de los votantes. La prueba de las lneas paralelas ha mostrado que no es necesario recurrir a un modelo acumulado generalizado. Las pruebas de los efectos del modelo sugieren que Genero y Vot en las ltimas elecciones pueden eliminarse del modelo y este modelo reducido funciona bien en lo que se reere al valor de pseudo R2 y la tasa de clasicacin global en comparacin con el modelo original. No obstante, el modelo reducido clasica incorrectamente ms votantes entre la divisin De acuerdo/En desacuerdo, por lo que los legisladores preeren seguir utilizando por ahora el modelo original.

Procedimientos relacionados
El procedimiento Regresin ordinal de muestras complejas es una herramienta til para crear modelos de una variable ordinal cuando los casos se han extrado siguiendo un esquema de muestreo complejo. El Asistente de muestreo de la opcin Muestras complejas se utiliza para denir las especicaciones de diseo de las muestras complejas y obtener una muestra. El archivo del plan de muestreo creado por el Asistente de muestreo contiene un plan de anlisis por defecto que se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra obtenida de acuerdo con dicho plan.

220 Captulo 21

El Asistente de preparacin del anlisis de la opcin Muestras complejas se utiliza para congurar las especicaciones de anlisis para una muestra compleja existente. El archivo del plan de muestreo creado por el Asistente de muestreo se puede especicar en el cuadro de dilogo Plan cuando se analiza la muestra correspondiente a dicho plan. El procedimiento Modelo lineal general de muestras complejas permite crear un modelo de una respuesta de escala. El procedimiento Regresin logstica de muestras complejas permite crear un modelo de una respuesta categrica.

Regresin de Cox de muestras complejas

22

Captulo

El procedimiento Regresin de Cox de muestras complejas realiza anlisis de supervivencias para muestras extradas mediante mtodos de muestreo complejo.

Uso de un predictor dependiente del tiempo en la regresin de Cox de muestras complejas


Un organismo de orden pblico est preocupado por los ndices de reincidencia en su rea de jurisdiccin. Una de las medidas de la reincidencia es el tiempo que transcurre antes del segundo arresto de los delincuentes. El organismo desea crear un modelo que reeje el tiempo que transcurre antes de un nuevo arresto utilizando la regresin de Cox en una muestra extrada mediante mtodos de muestreo complejo, pero les preocupa que el supuesto de proporcionalidad de los impactos no sea vlido en todas las diferentes categoras de edad. Se seleccionaron las personas puestas en libertad tras su primer arresto durante el mes de junio de 2003 de una muestra de departamentos y se examin su historial de casos hasta el nal de junio de 2006. Esta muestra se incluye en recidivism_cs_sample.sav. El plan de muestreo utilizado se incluye en recidivism_cs.csplan. Como utiliza un mtodo de probabilidad proporcional al tamao (PPS), tambin hay un archivo que contiene las probabilidades de seleccin conjunta (recidivism_cs_jointprob.sav). Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice la regresin de Cox de muestras complejas para evaluar la validez del supuesto de proporcionalidad de los impactos y ajuste un modelo con predictores dependientes del tiempo, si es adecuado.

Preparacin de los datos


El conjunto de datos que contiene las fechas de puesta en libertad del primer arresto y del segundo arresto. Como la regresin de Cox analiza los tiempos de supervivencia, ser necesario calcular el intervalo de tiempo transcurrido entre estas fechas. No obstante, Fecha del segundo arresto [date2] contiene casos con el valor 10/03/1582, un valor perdido para las variables de fecha. Estos casos corresponden a personas que no han cometido un segundo delito y, sin duda alguna, deseamos incluirlos como casos correctamente censurados a la derecha en el modelo. El nal del perodo de seguimiento fue el 30 de junio de 2006, por lo que vamos a recodicar 10/03/1582 como 06/30/2006.
221

222 Captulo 22 E Para recodicar estos valores, elija en los mens: Transformar Calcular variable... Figura 22-1 Cuadro de dilogo Calcular variable

E Escriba date2 como la variable de destino. E Escriba DATE.DMY(30,6,2006) como la expresin. E Pulse en Si.

223 Regresin de Cox de muestras complejas Figura 22-2 Cuadro de dilogo Calcular variable: Si los casos

E Seleccione Incluir si el caso satisface la condicin. E Escriba MISSING(date2) como la expresin. E Pulse en Continuar. E Pulse Aceptar en el cuadro de dilogo Calcular variable. E A continuacin, para calcular el tiempo transcurrido entre el primer arresto y el segundo, elija en

los mens:
Transformar Asistente para fecha y hora...

224 Captulo 22 Figura 22-3 Asistente para fecha y hora, paso Bienvenida

E Seleccione Realizar clculos con fechas y horas. E Pulse en Siguiente. Figura 22-4 Asistente para fecha y hora, paso Realizar clculos con las fechas

E Seleccione Calcular el nmero de unidades de tiempo entre dos fechas.

225 Regresin de Cox de muestras complejas E Pulse en Siguiente. Figura 22-5 Asistente para fecha y hora, paso Calcular el nmero de unidades de tiempo entre dos fechas

E Seleccione Fecha del segundo arresto [date2] como primera fecha. E Seleccione Tiempo hasta el segundo arresto [date1] como la fecha que se restar a la primera

fecha.
E Seleccione Das como unidad. E Pulse en Siguiente.

226 Captulo 22 Figura 22-6 Asistente para fecha y hora, paso Clculo

E Escriba tiempo_hasta_evento como nombre de la variable que representa el tiempo transcurrido

entre las dos fechas.


E Escriba Tiempo hasta el segundo arresto como etiqueta de variable. E Pulse en Finalizar.

Ejecucin del anlisis


E Para ejecutar un anlisis de regresin de Cox de muestras complejas, seleccione en los mens: Analizar Muestras complejas Regresin de Cox...

227 Regresin de Cox de muestras complejas Figura 22-7 Cuadro de dilogo Plan de muestras complejas para Regresin de Cox

E Busque el directorio de archivos de ejemplo y seleccione recidivism_cs.csplan como archivo de

plan.
E Seleccione Archivo personalizado en el grupo Probabilidades conjuntas, busque el directorio de

archivos de ejemplo y seleccione recidivism_cs_jointprob.sav.


E Pulse en Continuar.

228 Captulo 22 Figura 22-8 Cuadro de dilogo Regresin de Cox, pestaa Momento y evento

E Seleccione Time to second arrest [time_to_event] como la variable que dene el nal del intervalo. E Seleccione Second arrest [arrest2] como la variable que dene cundo se ha producido el evento. E Pulse en Definir evento.

229 Regresin de Cox de muestras complejas Figura 22-9 Cuadro de dilogo Definir evento

E Seleccione 1 Yes como el valor que indica que se ha producido el evento de inters (el nuevo

arresto).
E Pulse en Continuar. E Pulse en la pestaa Predictores.

230 Captulo 22 Figura 22-10 Cuadro de dilogo Regresin de Cox, pestaa Predictores

E Seleccione Age in years [age] como covariable. E Pulse en la pestaa Estadsticos.

231 Regresin de Cox de muestras complejas Figura 22-11 Cuadro de dilogo Regresin de Cox, pestaa Estadsticos

E Seleccione Prueba de impactos proporcionales y, a continuacin, seleccione Log como funcin

de tiempo en el grupo Supuestos del modelo.


E Seleccione Estimaciones de los parmetros para el modelo alternativo. E Pulse en Aceptar.

Informacin de diseo de la muestra


Figura 22-12 Informacin del diseo muestral

Esta tabla contiene informacin sobre el diseo muestral relevante para la estimacin del modelo.

232 Captulo 22

Hay un caso por sujeto y todos los 5.687 casos se han utilizado en el anlisis. La muestra representa menos del 2% de la totalidad de la poblacin estimada. El diseo requiere 4 estratos y 5 unidades por estrato para un total de 20 unidades en la primera etapa del diseo. Los grados de libertad del diseo muestral se estiman mediante 204=16.

Pruebas de efectos del modelo


Figura 22-13 Contrastes de los efectos del modelo

En el modelo de impactos proporcionales, el valor de signicacin del predictor age es inferior a 0,05 y, por tanto, parece contribuir al modelo.

Prueba de impactos proporcionales


Figura 22-14 Prueba global de impactos proporcionales

Figura 22-15 Estimaciones de los parmetros para el modelo alternativo

El valor de signicacin de la prueba global de impactos proporcionales es inferior a 0,05, lo que indica que se viola el supuesto de proporcionalidad de los impactos. En el modelo alternativo se utiliza la funcin de logaritmo del tiempo, por lo que ser fcil replicar este predictor dependiente del tiempo.

Adicin de un predictor dependiente del tiempo


E Recupere el cuadro de dilogo Regresin de Cox de muestras complejas y pulse en la pestaa Predictores.

233 Regresin de Cox de muestras complejas E Pulse en Nuevo. Figura 22-16 Cuadro de dilogo Regresin de Cox: Definir predictor dependiente del tiempo

E Escriba t_age como nombre del predictor dependiente del tiempo que desea denir. E Escriba ln(T_)*age como expresin numrica. E Pulse en Continuar.

234 Captulo 22 Figura 22-17 Cuadro de dilogo Regresin de Cox, pestaa Predictores

E Seleccione t_age como covariable. E Pulse en la pestaa Estadsticos.

235 Regresin de Cox de muestras complejas Figura 22-18 Cuadro de dilogo Regresin de Cox, pestaa Predictores

E Seleccione Estimacin, Error tpico, Intervalo de confianza y Efecto del diseo en el grupo Parmetros. E Anule la seleccin de Prueba de impactos proporcionales y Estimaciones de los parmetros para el modelo alternativo en el grupo Supuestos del modelo. E Pulse en Aceptar.

Pruebas de efectos del modelo


Figura 22-19 Contrastes de los efectos del modelo

Tras aadir el predictor dependiente del tiempo, el valor de signicacin de age es 0,91, lo que indica que su contribucin al modelo queda superada por la de t_age.

236 Captulo 22

Estimaciones de los parmetros


Figura 22-20 Estimaciones de los parmetros

Si examina las estimaciones de los parmetros y los errores tpicos, pude ver que ha replicado el modelo alternativo de la prueba de los impactos proporcionales. Al haber especicado explcitamente el modelo, puede solicitar grcos y estadsticos de los parmetros adicionales. Aqu hemos solicitado el efecto del diseo; el valor de t_age inferior a 1 indica que el error tpico de t_age es menor que el que se obtendra si se supusiese que el conjunto de datos era una muestra aleatoria simple. En este caso, el efecto de t_age seguira siendo estadsticamente signicativo, pero los intervalos de conanza seran ms anchos.

Varios casos por sujeto en la regresin de Cox de muestras complejas


Los investigadores que estudian los tiempos de supervivencia de los pacientes que nalizan un programa de rehabilitacin tras un ataque isqumico se enfrentan a varios retos.
Varios casos por sujeto. Las variables que representan el historial mdico del paciente deben ser

tiles como predictores. Con el tiempo, los pacientes pueden sufrir eventos mdicos importantes que alteren su historial mdico. En este conjunto de datos, la ocurrencia de infarto de miocardio, ataque isqumico o ataque hemorrgico se anotan junto con el momento en el que se produce el evento registrado. Puede crear covariables dependientes del tiempo calculables dentro del procedimiento para incluir esta informacin en el modelo, pero probablemente sea ms cmodo utilizar varios casos por sujeto. Observe que las variables se haban codicado en un principio de manera que el historial del paciente quedaba registrado en varias variables, por lo que ser necesario reestructurar el conjunto de datos.
Truncacin a la izquierda. El comienzo del riesgo comienza en el momento del ataque isqumico.

No obstante, la muestra incluye nicamente a aquellos pacientes que han sobrevivido al programa de rehabilitacin, por lo que la muestra est truncada a la izquierda en el sentido de que los tiempos de supervivencia observados se han inado con la duracin de la rehabilitacin. Puede tener este hecho en cuenta si especica el momento en el que abandonaron la rehabilitacin como el momento de entrada en el estudio.
No hay plan de muestreo. El conjunto de datos no se ha recopilado mediante un plan de muestreo

complejo y se considera una muestra aleatoria simple. Ser necesario crear un plan de anlisis para utilizar la regresin de Cox de muestras complejas. El conjunto de datos se recoge en el archivo stroke_survival.sav. Si desea obtener ms informacin, consulte Archivos muestrales en Apndice A el p. 269. Utilice el Asistente de reestructuracin de datos para preparar los datos para el anlisis. A continuacin, utilice el Asistente de preparacin del anlisis para crear un plan de muestreo aleatorio simple y, por

237 Regresin de Cox de muestras complejas

ltimo, la regresin de Cox de muestras complejas para generar un modelo de los tiempos de supervivencia.

Preparacin de los datos para su anlisis


Antes de reestructurar los datos, deber crear dos variables auxiliares que le ayuden en la reestructuracin.
E Para calcular una nueva variable, elija en los mens: Transformar Calcular variable... Figura 22-21 Cuadro de dilogo Calcular variable

E Escriba hora_de_inicio2 as como la variable de destino. E Escriba tiempo1 como expresin numrica. E Pulse en Aceptar.

238 Captulo 22 E Vuelva a abrir el cuadro de dilogo Calcular variable. Figura 22-22 Cuadro de dilogo Calcular variable

E Escriba hora_de_inicio3 como la variable de destino. E Escriba tiempo2 como expresin numrica. E Pulse en Aceptar. E Para reestructurar los datos de variables a casos, elija en los mens: Datos Reestructurar...

239 Regresin de Cox de muestras complejas Figura 22-23 Asistente de reestructuracin de datos, paso Bienvenida

E Asegrese de que est seleccionado Reestructurar variables seleccionadas en casos. E Pulse en Siguiente.

240 Captulo 22 Figura 22-24 Asistente de reestructuracin de datos (variables a casos), paso Nmero de grupos de variables

E Seleccione Ms de una como grupos de variables que se van a reestructurar. E Escriba 6 como nmero de grupos. E Pulse en Siguiente.

241 Regresin de Cox de muestras complejas Figura 22-25 Asistente de reestructuracin de datos (variables a casos), paso Seleccionar variables

E En el grupo de Identicacin de grupos de casos, seleccione Utilizar variable seleccionada y elija

Patient ID [patid] como identicador del sujeto.


E Escriba event como la primera variable de destino. E Seleccione First event post-attack [event1], Second event post-attack [event2] y Third event

post-attack [event3] como las variables que se van a transponer.


E Seleccione trans2 en la lista de variables de destino.

242 Captulo 22 Figura 22-26 Asistente de reestructuracin de datos (variables a casos), paso Seleccionar variables

E Escriba hora_de_inicio como la variable de destino. E Seleccione Duracin de la estancia de rehabilitacin [los_rehab], hora_de_inicio2 y

hora_de_inicio3 como las variables que se van a transponer. Se utilizarn Tiempo hasta primer evento post infarto [tiempo1] y Tiempo hasta segundo evento post infarto [tiempo2] para crear las horas nales y cada variable slo puede aparecer en una lista de variables que se van transponer, por lo que hora_de_inicio2 y hora_de_inicio3 eran necesarias.
E Seleccione trans3 en la lista de variables de destino.

243 Regresin de Cox de muestras complejas Figura 22-27 Asistente de reestructuracin de datos (variables a casos), paso Seleccionar variables

E Escriba time_to_event como la variable de destino. E Seleccione Time to rst event post-attack [time1], Time to second event post-attack [time2] y Time

to third event post-attack [time3] como las variables que se van a transponer.
E Seleccione trans4 en la lista de variables de destino.

244 Captulo 22 Figura 22-28 Asistente de reestructuracin de datos (variables a casos), paso Seleccionar variables

E Escriba mi como la variable de destino. E Seleccione Historial de infarto de miocardio [im], Historial de infarto de miocardio [im1] y

Historial de infarto de miocardio [im2] como las variables que se van a transponer.
E Seleccione trans5 en la lista de variables de destino.

245 Regresin de Cox de muestras complejas Figura 22-29 Asistente de reestructuracin de datos (variables a casos), paso Seleccionar variables

E Escriba is como la variable de destino. E Seleccione History of ischemic stroke [is], History of ischemic stroke [is1] y History of ischemic

stroke [is2] como las variables que se van a transponer.


E Seleccione trans6 en la lista de variables de destino.

246 Captulo 22 Figura 22-30 Asistente de reestructuracin de datos (variables a casos), paso Seleccionar variables

E Escriba hs como variable de destino. E Seleccione History of hemorrhagic stroke [hs], History of hemorrhagic stroke [hs1] y History of

hemorrhagic stroke [hs2] como las variables que se van a transponer.


E Pulse en Siguiente y, a continuacin, en Siguiente en el paso Crear variables de ndice.

247 Regresin de Cox de muestras complejas Figura 22-31 Asistente de reestructuracin de datos (variables a casos), paso Crear una variable de ndice

E Escriba event_index como nombre de la variable de ndice y escriba Event index como etiqueta

de variable.
E Pulse en Siguiente.

248 Captulo 22 Figura 22-32 Asistente de reestructuracin de datos (variables a casos), paso Crear una variable de ndice

E Asegrese de que se ha seleccionado la opcin Conservar y tratar como variables fijas. E Pulse en Finalizar.

249 Regresin de Cox de muestras complejas Figura 22-33 Datos reestructurados

Los datos reestructurados contienen tres casos para cada paciente. No obstante, como muchos pacientes han sufrido menos de tres eventos, hay muchos casos con valores negativos (perdidos) para event. Puede ltrar el conjunto de datos para eliminar estos casos.
E Para ello, elija en los mens: Datos Seleccionar casos...

250 Captulo 22 Figura 22-34 Cuadro de dilogo Seleccionar casos

E Seleccione Si se satisface la condicin. E Pulse en Si.

251 Regresin de Cox de muestras complejas Figura 22-35 Cuadro de dilogo Seleccionar casos: Si la opcin

E Escriba event >= 0 como expresin condicional. E Pulse en Continuar.

252 Captulo 22 Figura 22-36 Cuadro de dilogo Seleccionar casos

E Seleccione Eliminar casos no seleccionados. E Pulse en Aceptar.

Creacin de un plan de anlisis de muestreo aleatorio simple


Ahora, ya est preparado para crear el plan de anlisis de muestreo aleatorio simple.
E En primer lugar, necesita crear una variable de ponderacin muestral. En los mens, seleccione: Transformar Calcular variable...

253 Regresin de Cox de muestras complejas Figura 22-37 Cuadro de dilogo principal Regresin de Cox

E Escriba sampleweight como variable de destino. E Escriba 1 como expresin numrica. E Pulse en Aceptar.

Ya puede crear el plan de anlisis. Nota: Hay un archivo de plan existente, srs.csaplan, en el directorio de archivos de ejemplo que puede utilizar si preere omitir las siguientes instrucciones y continuar directamente con el anlisis de los datos.
E Para crear el plan de anlisis, elija en los mens: Analizar Muestras complejas Preparar para el anlisis...

254 Captulo 22 Figura 22-38 Asistente de preparacin del anlisis: paso Bienvenida

E Seleccione Crear un archivo de plan y escriba srs.csaplan como nombre del archivo. Si lo preere,

tambin puede desplazarse hasta la ubicacin en la que desea guardarlo.


E Pulse en Siguiente.

255 Regresin de Cox de muestras complejas Figura 22-39 Asistente de preparacin del anlisis, Variables del diseo

E Seleccione sampleweight como variable de ponderacin muestral. E Pulse en Siguiente.

256 Captulo 22 Figura 22-40 Asistente de preparacin del anlisis, Mtodo de estimacin

E Anule la seleccin de Usar correccin para poblaciones finitas. E Pulse en Finalizar.

Ahora, ya est preparado para ejecutar el anlisis.

Ejecucin del anlisis


E Para ejecutar un anlisis de regresin de Cox de muestras complejas, seleccione en los mens: Analizar Muestras complejas Regresin de Cox...

257 Regresin de Cox de muestras complejas Figura 22-41 Cuadro de dilogo Plan para Regresin de Cox

E Busque la ubicacin en la que ha guardado el plan de anlisis de muestreo simple (o vaya al

directorio de archivos de ejemplo) y seleccione srs.csaplan.


E Pulse en Continuar.

258 Captulo 22 Figura 22-42 Cuadro de dilogo Regresin de Cox, pestaa Momento y evento

E Seleccione Vara segn el sujeto y elija Length of stay for rehabilitation [los_rehab] como variable

de inicio. Observe que la variable reestructurada ha tomado la etiqueta de variable de la primera variable utilizada para crearla, a pesar de que dicha etiqueta no es necesariamente adecuada para la variable creada.
E Seleccione Time to rst event post-attack [time_to_event] como variable de nalizacin. E Seleccione First event post-attack [event] como variable de estado. E Pulse en Definir evento.

259 Regresin de Cox de muestras complejas Figura 22-43 Cuadro de dilogo Definir evento

E Seleccione 4 Death como valor que indica que se ha producido el evento terminal. E Pulse en Continuar.

260 Captulo 22 Figura 22-44 Cuadro de dilogo Regresin de Cox, pestaa Momento y evento

E Seleccione Patient ID [patid] como identicador del sujeto. E Pulse en la pestaa Predictores.

261 Regresin de Cox de muestras complejas Figura 22-45 Cuadro de dilogo Regresin de Cox, pestaa Predictores

E Seleccione desde Historial de infarto miocardio [im] hasta Historial de ataque isqumico

transitorio [ait] como factores.


E Pulse en la pestaa Estadsticos.

262 Captulo 22 Figura 22-46 Cuadro de dilogo Regresin de Cox, pestaa Estadsticos

E Seleccione Estimacin, Estimacin exponenciada, Error tpico e Intervalo de confianza en el grupo

Parmetros.
E Pulse en la pestaa Grficos.

263 Regresin de Cox de muestras complejas Figura 22-47 Cuadro de dilogo Regresin de Cox, pestaa Estadsticos

E Seleccione Funcin de log menos log de la supervivencia. E Active Lneas distintas para History of myocardial infarction. E Seleccione 1,0 como nivel de History of ischemic stroke. E Seleccione 0,0 como nivel de History of hemorrhagic stroke. E Pulse en la pestaa Opciones.

264 Captulo 22 Figura 22-48 Cuadro de dilogo Regresin de Cox, pestaa Opciones

E Seleccione Breslow como mtodo de ruptura de empates en el grupo Estimacin. E Pulse en Aceptar.

Informacin de diseo de la muestra


Figura 22-49 Informacin del diseo muestral

Esta tabla contiene informacin sobre el diseo muestral relevante para la estimacin del modelo.

265 Regresin de Cox de muestras complejas

Hay varios casos para algunos sujetos y se utilizan todos los 3.310 casos en el anlisis. El diseo tiene un nico estrato y 2.421 unidades (una para cada sujeto). Los grados de libertad del diseo muestral se estiman mediante 24211=2420.

Pruebas de efectos del modelo


Figura 22-50 Contrastes de los efectos del modelo

El valor de signicacin de todos los efectos es cercano a 0, lo que sugiere que todos ellos contribuyen al modelo.

Estimaciones de los parmetros


Figura 22-51 Estimaciones de los parmetros

El procedimiento utiliza la ltima categora de cada factor como la categora de referencia y el efecto de las dems categoras es relativo a la categora de referencia. Observe que mientras que la estimacin es til como contraste estadstico, la estimacin exponenciada, Exp(B), puede interpretarse con mayor facilidad como el cambio pronosticado en el riesgo respecto a la categora de referencia.

266 Captulo 22

El valor de Exp(B) de [mi=0] indica que el riesgo de muerte de un paciente que no ha sufrido ningn infarto de miocardio previo (mi) es 0,002 veces el de un paciente con tres infartos de miocardio previos. Los intervalos de conanza de [mi=1] y [mi=0] se solapan, lo que indica que el riesgo de un paciente con un nico infarto de miocardio previo no puede distinguirse estadsticamente del de un paciente que no ha sufrido anteriormente ningn infarto de miocardio. Los intervalos de conanza de [mi=0] y [mi=1] no se solapan con el intervalo de [mi=2] y ninguno de ellos incluye 0. Por tanto, parece que el riesgo de los pacientes que no han sufrido ningn infarto de miocardio o slo han sufrido uno puede distinguirse del riesgo de los pacientes que han sufrido previamente dos infartos de miocardio, lo que a su vez puede distinguirse del riesgo de los pacientes que han sufrido previamente tres infartos de miocardio. Tambin existen relaciones similares para los niveles de is y hs, en los que al aumentar el nmero de incidentes previos aumenta el riesgo de muerte.

Valores de patrn
Figura 22-52 Valores de los patrones

La tabla de valores de los patrones muestra los valores que denen cada patrn de predictores. Adems de los predictores del modelo, tambin se muestran los momentos de inicio y nalizacin del intervalo de supervivencia. Para los anlisis ejecutados mediante los cuadros de dilogo, los momentos de inicio y nalizacin siempre sern 0 y sin lmites, respectivamente; aunque mediante la sintaxis de comandos puede especicar rutas de predictores constantes por tramos. El patrn de referencia se establece en la categora de referencia para cada factor y el valor medio de cada covariable (en este modelo no hay ninguna covariable). Para este conjunto de datos, la combinacin de factores que se muestra para el modelo de referencia no se puede producir, por lo que ignoraremos el grco de log menos log del patrn de referencia. Los patrones del 1.1 al 1.4 se diferencian nicamente en el valor de History of myocardial infarction. Se crea un patrn distinto (y una lnea distinta en el grco solicitado) para cada valor de History of myocardial infarction mientras que las dems variables permanecen constantes.

267 Regresin de Cox de muestras complejas

Grfico de log menos log


Figura 22-53 Grfico de log menos log

Este grco muestra el log menos log de la funcin de supervivencia, ln(ln(supervivencia)), respecto al tiempo de supervivencia. Este grco concreto muestra una curva distinta para cada categora de History of myocardial infarction, con History of ischemic stroke jo en el valor One y History of hemorrhagic stroke jo en el valor None. Este grco resulta til como visualizacin del efecto de History of myocardial infarction de la funcin de supervivencia. Tal como hemos visto en la tabla de estimaciones de los parmetros, parece que la supervivencia de los pacientes que no han sufrido ningn infarto de miocardio o slo han sufrido uno se puede distinguir de la supervivencia de los pacientes que han sufrido previamente dos infartos de miocardio, que a su vez puede distinguirse de la supervivencia de los pacientes que han sufrido previamente tres infartos de miocardio.

Resumen
Ha ajustado un modelo de regresin de Cox a la supervivencia tras un ataque que estima los efectos de los cambios registrados en el historial del paciente tras el ataque. Este anlisis es nicamente un punto de partida, ya que sin duda los investigadores desearn incluir otros predictores potenciales en el modelo. Adems, en posteriores anlisis de este conjunto de datos tal vez quiera realizar cambios de mayor importancia a la estructura del modelo. Por ejemplo, el modelo actual supone que el efecto de un evento que afecta al historial del paciente puede ser cuanticado mediante un multiplicador del impacto basal. En su lugar, puede ser razonable

268 Captulo 22

suponer que la forma del impacto basal resulta alterada por la ocurrencia de un evento diferente de la muerte. Para ello, podra estraticar el anlisis basndose en Event index.

Apndice

Archivos muestrales

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples del directorio de instalacin. Hay una carpeta independiente dentro del subdirectorio Samples para cada uno de los siguientes idiomas: Ingls, francs, alemn, italiano, japons, coreano, polaco, ruso, chino simplicado, espaol y chino tradicional. No todos los archivos muestrales estn disponibles en todos los idiomas. Si un archivo muestral no est disponible en un idioma, esa carpeta de idioma contendr una versin en ingls del archivo muestral.
Descripciones

A continuacin, se describen brevemente los archivos muestrales usados en varios ejemplos que aparecen a lo largo de la documentacin.
accidents.sav. Archivo de datos hipotticos sobre una compaa de seguros que estudia los

factores de riesgo de edad y gnero que inuyen en los accidentes de automviles de una regin determinada. Cada caso corresponde a una clasicacin cruzada de categora de edad y gnero.
adl.sav. Archivo de datos hipotticos relativo a los esfuerzos para determinar las ventajas de un

tipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los mdicos dividieron de manera aleatoria a pacientes (mujeres) que haban sufrido un derrame cerebral en dos grupos. El primer grupo recibi el tratamiento fsico estndar y el segundo recibi un tratamiento emocional adicional. Tres meses despus de los tratamientos, se puntuaron las capacidades de cada paciente para realizar actividades cotidianas como variables ordinales.
advert.sav. Archivo de datos hipotticos sobre las iniciativas de un minorista para examinar

la relacin entre el dinero invertido en publicidad y las ventas resultantes. Para ello, se recopilaron las cifras de ventas anteriores y los costes de publicidad asociados.
aflatoxin.sav. Archivo de datos hipotticos sobre las pruebas realizadas en las cosechas de

maz con relacin a la aatoxina, un veneno cuya concentracin vara ampliamente en los rendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestras de cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aatoxinas en partes por milln (PPM).
aflatoxin20.sav. Este archivo de datos contiene las medidas de aatoxina de cada una de las 16

muestras de los rendimientos 4 y 8 procedentes del archivo de datos aatoxin.sav.


anorectic.sav. Mientras trabajaban en una sintomatologa estandarizada del comportamiento

anorxico/bulmico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland, 1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentacin conocidos. Cada paciente fue examinado cuatro veces durante cuatro aos, lo que representa un total
269

270 Apndice A

de 220 observaciones. En cada observacin, se puntu a los pacientes por cada uno de los 16 sntomas. Faltan las puntuaciones de los sntomas para el paciente 71 en el tiempo 2, el paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones vlidas.
autoaccidents.sav. Archivo de datos hipotticos sobre las iniciativas de un analista de seguros

para elaborar un modelo del nmero de accidentes de automvil por conductor teniendo en cuenta la edad y el gnero del conductor. Cada caso representa un conductor diferente y registra el sexo, la edad en aos y el nmero de accidentes de automvil del conductor en los ltimos cinco aos.
band.sav. Este archivo de datos contiene las cifras de ventas semanales hipotticas de CD de

msica de una banda. Tambin se incluyen datos para tres variables predictoras posibles.
bankloan.sav. Archivo de datos hipotticos sobre las iniciativas de un banco para reducir la

tasa de moras de crditos. El archivo contiene informacin nanciera y demogrca de 850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los que anteriormente se les ha concedido un prstamo. Al menos 150 casos son posibles clientes cuyos riesgos de crdito el banco necesita clasicar como positivos o negativos.
bankloan_binning.sav. Archivo de datos hipotticos que contiene informacin nanciera y

demogrca sobre 5.000 clientes anteriores.


behavior.sav. En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantes

que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala de 10 puntos que oscilaba entre 0 =extremadamente apropiado y 9=extremadamente inapropiado. Los valores promediados respecto a los individuos se toman como disimilaridades.
behavior_ini.sav. Este archivo de datos contiene una conguracin inicial para una solucin

bidimensional de behavior.sav.
brakes.sav. Archivo de datos hipotticos sobre el control de calidad de una fbrica que

produce frenos de disco para automviles de alto rendimiento. El archivo de datos contiene las medidas del dimetro de 16 discos de cada una de las 8 mquinas de produccin. El dimetro objetivo para los frenos es de 322 milmetros.
breakfast.sav. En un estudio clsico(Green y Rao, 1972), se pidi a 21 estudiantes de

administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos de desayuno por orden de preferencia, de 1=ms preferido a 15=menos preferido. Sus preferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo, con bebida slo.
breakfast-overall.sav. Este archivo de datos slo contiene las preferencias de elementos de

desayuno para el primer escenario, Preferencia global.


broadband_1.sav. Archivo de datos hipotticos que contiene el nmero de suscriptores, por

regin, a un servicio de banda ancha nacional. El archivo de datos contiene nmeros de suscriptores mensuales para 85 regiones durante un perodo de cuatro aos.
broadband_2.sav. Este archivo de datos es idntico a broadband_1.sav pero contiene datos

para tres meses adicionales.


car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar

(McCullagh y Nelder, 1989) estudia las reclamaciones por daos en vehculos. La cantidad de reclamaciones media se puede modelar como si tuviera una distribucin Gamma, mediante

271 Archivos muestrales

una funcin de enlace inversa para relacionar la media de la variable dependiente con una combinacin lineal de la edad del asegurado, el tipo de vehculo y la antigedad del vehculo. El nmero de reclamaciones presentadas se puede utilizar como una ponderacin de escalamiento.
car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista y

especicaciones fsicas hipotticas de varias marcas y modelos de vehculos. Los precios de lista y las especicaciones fsicas se han obtenido de edmunds.com y de sitios de fabricantes.
carpet.sav. En un ejemplo muy conocido(Green y Wind, 1973), una compaa interesada en

sacar al mercado un nuevo limpiador de alfombras desea examinar la inuencia de cinco factores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio, sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres niveles de factores para el diseo del producto, cada uno con una diferente colocacin del cepillo del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos niveles (no o s) para los dos ltimos factores. Diez consumidores clasicaron 22 perles denidos por estos factores. La variable Preferencia contiene el rango de las clasicaciones medias de cada perl. Las clasicaciones inferiores corresponden a preferencias elevadas. Esta variable reeja una medida global de la preferencia de cada perl.
carpet_prefs.sav. Este archivo de datos se basa en el mismo ejemplo que el descrito

para carpet.sav, pero contiene las clasicaciones reales recogidas de cada uno de los 10 consumidores. Se pidi a los consumidores que clasicaran los 22 perles de los productos empezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen los ID de los perles asociados, como se denen en carpet_plan.sav.
catalog.sav. Este archivo de datos contiene cifras de ventas mensuales hipotticas de tres

productos vendidos por una compaa de venta por catlogo. Tambin se incluyen datos para cinco variables predictoras posibles.
catalog_seasfac.sav. Este archivo de datos es igual que catalog.sav, con la excepcin de

que incluye un conjunto de factores estacionales calculados a partir del procedimiento Descomposicin estacional junto con las variables de fecha que lo acompaan.
cellular.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de telefona

mvil para reducir el abandono de clientes. Las puntuaciones de propensin al abandono de clientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuacin de 50 o superior pueden estar buscando otros proveedores.
ceramics.sav. Archivo de datos hipotticos sobre las iniciativas de un fabricante para

determinar si una nueva aleacin de calidad tiene una mayor resistencia al calor que una aleacin estndar. Cada caso representa una prueba independiente de una de las aleaciones; la temperatura a la que registr el fallo del rodamiento.
cereal.sav. Archivo de datos hipotticos sobre una encuesta realizada a 880 personas sobre

sus preferencias en el desayuno, teniendo tambin en cuenta su edad, sexo, estado civil y si tienen un estilo de vida activo o no (en funcin de si practican ejercicio al menos dos veces a la semana). Cada caso representa un encuestado diferente.
clothing_defects.sav. Archivo de datos hipotticos sobre el proceso de control de calidad en

una fbrica de prendas. Los inspectores toman una muestra de prendas de cada lote producido en la fbrica, y cuentan el nmero de prendas que no son aceptables.

272 Apndice A

coffee.sav. Este archivo de datos pertenece a las imgenes percibidas de seis marcas de caf

helado(Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caf helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo. Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la condencialidad.
contacts.sav. Archivo de datos hipotticos sobre las listas de contactos de un grupo de

representantes de ventas de ordenadores de empresa. Cada uno de los contactos est categorizado por el departamento de la compaa en el que trabaja y su categora en la compaa. Adems, tambin se registran los importes de la ltima venta realizada, el tiempo transcurrido desde la ltima venta y el tamao de la compaa del contacto.
creditpromo.sav. Archivo de datos hipotticos sobre las iniciativas de unos almacenes

para evaluar la ecacia de una promocin de tarjetas de crdito reciente. Para este n, se seleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionando una tasa de inters reducida sobre las ventas realizadas en los siguientes tres meses. La otra mitad recibi un anuncio estacional estndar.
customer_dbase.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa para

usar la informacin de su almacn de datos para realizar ofertas especiales a los clientes con ms probabilidades de responder. Se seleccion un subconjunto de la base de clientes aleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.
customer_information.sav. Archivo de datos hipotticos que contiene la informacin de correo

del cliente, como el nombre y la direccin.


customers_model.sav. Este archivo contiene datos hipotticos sobre los individuos a los que

va dirigida una campaa de marketing. Estos datos incluyen informacin demogrca, un resumen del historial de compras y si cada individuo respondi a la campaa. Cada caso representa un individuo diferente.
customers_new.sav. Este archivo contiene datos hipotticos sobre los individuos que son

candidatos potenciales para una campaa de marketing. Estos datos incluyen informacin demogrca y un resumen del historial de compras de cada individuo. Cada caso representa un individuo diferente.
debate.sav. Archivos de datos hipotticos sobre las respuestas emparejadas de una encuesta

realizada a los asistentes a un debate poltico antes y despus del debate. Cada caso corresponde a un encuestado diferente.
debate_aggregate.sav. Archivo de datos hipotticos que agrega las respuestas de debate.sav.

Cada caso corresponde a una clasicacin cruzada de preferencias antes y despus del debate.
demo.sav. Archivos de datos hipotticos sobre una base de datos de clientes adquirida con

el n de enviar por correo ofertas mensuales. Se registra si el cliente respondi a la oferta, junto con informacin demogrca diversa.
demo_cs_1.sav. Archivo de datos hipotticos sobre el primer paso de las iniciativas de

una compaa para recopilar una base de datos de informacin de encuestas. Cada caso corresponde a una ciudad diferente, y se registra la identicacin de la ciudad, la regin, la provincia y el distrito.
demo_cs_2.sav. Archivo de datos hipotticos sobre el segundo paso de las iniciativas de

una compaa para recopilar una base de datos de informacin de encuestas. Cada caso corresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y se registra la identicacin de la unidad, la subdivisin, la ciudad, el distrito, la provincia y la regin. Tambin se incluye la informacin de muestreo de las primeras dos etapas del diseo.

273 Archivos muestrales

demo_cs.sav. Archivo de datos hipotticos que contiene informacin de encuestas recopilada

mediante un diseo de muestreo complejo. Cada caso corresponde a una unidad familiar distinta, y se recopila informacin demogrca y de muestreo diversa.
dietstudy.sav. Este archivo de datos hipotticos contiene los resultados de un estudio sobre

la dieta Stillman(Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso corresponde a un sujeto distinto y registra sus pesos antes y despus de la dieta en libras y niveles de triglicridos en mg/100 ml.
dischargedata.sav. Archivo de datos sobre Uso de los patrones estacionales del Winnipeg

Hospital, (Menec, Roos, Nowicki, MacWilliam, Finlayson, y Black, 1999) de Manitoba Centre for Health Policy.
dvdplayer.sav. Archivo de datos hipotticos sobre el desarrollo de un nuevo reproductor de

DVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo. Cada caso corresponde a un usuario encuestado diferente y registra informacin demogrca sobre los encuestados y sus respuestas a preguntas acerca del prototipo.
flying.sav. Este archivo de datos contiene las millas de pilotaje entre 10 ciudades americanas. german_credit.sav. Este archivo de datos se toma del conjunto de datos German credit de

las Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidad de California, Irvine.
grocery_1month.sav. Este archivo de datos hipotticos es el archivo de datos

grocery_coupons.sav con las compras semanales acumuladas para que cada caso corresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmente desaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la suma de las cantidades gastadas durante las cuatro semanas del estudio.
grocery_coupons.sav. Archivo de datos hipotticos que contiene datos de encuestas

recopilados por una cadena de tiendas de alimentacin interesada en los hbitos de compra de sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde a un cliente-semana distinto y registra informacin sobre dnde y cmo compran los clientes, incluida la cantidad que invierten en comestibles durante esa semana.
guttman.sav. Bell (Bell, 1961) present una tabla para ilustrar posibles grupos sociales.

Guttman (Guttman, 1968) utiliz parte de esta tabla, en la que se cruzaron cinco variables que describan elementos como la interaccin social, sentimientos de pertenencia a un grupo, proximidad fsica de los miembros y grado de formalizacin de la relacin con siete grupos sociales tericos, incluidos multitudes (por ejemplo, las personas que acuden a un partido de ftbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia), pblicos (por ejemplo, los lectores de peridicos o los espectadores de televisin), muchedumbres (como una multitud pero con una interaccin mucho ms intensa), grupos primarios (ntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacin dbil que resulta de la proximidad cercana fsica y de la necesidad de servicios especializados).
healthplans.sav. Archivo de datos hipotticos sobre las iniciativas de un grupo de seguros

para evaluar cuatro planes sanitarios diferentes para pequeas empresas. Se toman doce empresarios para clasicar los planes por la medida en la que preferiran ofrecerlos a sus empleados. Cada caso corresponde a un empresario distinto y registra las reacciones ante cada plan.

274 Apndice A

health_funding.sav. Archivo de datos hipotticos que contiene datos sobre inversin en sanidad

(cantidad por 100 personas), tasas de enfermedad (ndice por 10.000 personas) y visitas a centros de salud (ndice por 10.000 personas). Cada caso representa una ciudad diferente.
hivassay.sav. Archivo de datos hipotticos sobre las iniciativas de un laboratorio farmacutico

para desarrollar un ensayo rpido para detectar la infeccin por VIH. Los resultados del ensayo son ocho tonos de rojo con diferentes intensidades, donde los tonos ms oscuros indican una mayor probabilidad de infeccin. Se llev a cabo una prueba de laboratorio de 2.000 muestras de sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.
hourlywagedata.sav. Archivo de datos hipotticos sobre los salarios por horas de enfermeras

de puestos de ocina y hospitales y con niveles distintos de experiencia.


insure.sav. Archivo de datos hipotticos sobre una compaa de seguros que estudia los

factores de riesgo que indican si un cliente tendr que hacer una reclamacin a lo largo de un contrato de seguro de vida de 10 aos. Cada caso del archivo de datos representa un par de contratos (de los que uno registr una reclamacin y el otro no), agrupados por edad y sexo.
judges.sav. Archivo de datos hipotticos sobre las puntuaciones concedidas por jueces

cualicados (y un acionado) a 300 actuaciones gimnsticas. Cada la representa una actuacin diferente; los jueces vieron las mismas actuaciones.
kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15

trminos de parentesco [ta, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre, sobrino, sobrina, hermana, hijo, to]. Le pidieron a cuatro grupos de estudiantes universitarios (dos masculinos y dos femeninos) que ordenaran estos grupos segn las similitudes. A dos grupos (uno masculino y otro femenino) se les pidi que realizaran la ordenacin dos veces, pero que la segunda ordenacin la hicieran segn criterios distintos a los de la primera. As, se obtuvo un total de seis fuentes. Cada fuente se corresponde con una matriz de proximidades cuyas casillas son iguales al nmero de personas de una fuente menos el nmero de de veces que se particionaron los objetos en esa fuente.
kinship_ini.sav. Este archivo de datos contiene una conguracin inicial para una solucin

tridimensional de kinship_dat.sav.
kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(acin), y

grado (de separacin) que se pueden usar para interpretar las dimensiones de una solucin para kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucin a una combinacin lineal de estas variables.
mailresponse.sav. Archivo de datos hipotticos sobre las iniciativas de un fabricante de ropa

para determinar si el uso de correo de primera clase para los envos directos genera respuestas ms rpidas que el correo masivo. Los encargados de los pedidos registran el nmero de semanas que tarda cada pedido tras el mailing.
marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanizacin de

Algonquin, Ill., durante los aos 1999 y 2000. Los datos de estas ventas son pblicos.
mutualfund.sav. Archivo de datos sobre informacin del mercado de valores para varios

valores tecnolgicos recogidos en el ndice S&P 500. Cada caso corresponde a una compaa diferente.
nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del Centro

Nacional de Estadsticas de Salud de EE.UU.) es una encuesta detallada realizada entre la poblacin civil de Estados Unidos. Las encuestas se realizaron en persona a una muestra representativa de las unidades familiares del pas. Se recogi tanto la informacin

275 Archivos muestrales

demogrca como las observaciones acerca del estado y los hbitos de salud de los integrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto de informacin de la encuesta de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Archivo de datos y documentacin de uso pblico. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.
ozone.sav. Los datos incluyen 330 observaciones de seis variables meteorolgicas para

pronosticar la concentracin de ozono a partir del resto de variables. Los investigadores anteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no hay linealidad entre estas variables, lo que diculta los mtodos de regresin tpica.
pain_medication.sav. Este archivo de datos hipotticos contiene los resultados de una prueba

clnica sobre medicacin antiinamatoria para tratar el dolor artrtico crnico. Resulta de particular inters el tiempo que tarda el frmaco en hacer efecto y cmo se compara con una medicacin existente.
patient_los.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de

pacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto de miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.
patlos_sample.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de

una muestra de pacientes que recibieron trombolticos durante el tratamiento del infarto de miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.
polishing.sav. Archivo de datos Nambeware Polishing Times (Tiempo de pulido de metal)

de la biblioteca de datos e historiales. Contiene datos sobre las iniciativas de un fabricante de cuberteras de metal (Nambe Mills, Santa Fe, N. M.) para planicar su programa de produccin. Cada caso representa un artculo distinto de la lnea de productos. Se registra el dimetro, el tiempo de pulido, el precio y el tipo de producto de cada artculo.
poll_cs.sav. Archivo de datos hipotticos sobre las iniciativas de los encuestadores para

determinar el nivel de apoyo pblico a una ley antes de una asamblea legislativa. Los casos corresponden a votantes registrados. Cada caso registra el condado, la poblacin y el vecindario en el que vive el votante.
poll_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de los votantes

enumerados en poll_cs.sav. La muestra se tom segn el diseo especicado en el archivo de plan poll.csplan y este archivo de datos registra las probabilidades de inclusin y las ponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestral hace uso de un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Las variables adicionales que corresponden a los datos demogrcos de los votantes y sus opiniones sobre la propuesta de ley se recopilaron y aadieron al archivo de datos despus de tomar la muestra.
property_assess.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor del

condado para mantener actualizada la evaluacin de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a las propiedades vendidas en el condado el ao anterior. Cada caso del archivo de datos registra la poblacin en que se encuentra la propiedad, el ltimo asesor que visit la propiedad, el tiempo transcurrido desde la ltima evaluacin, la valoracin realizada en ese momento y el valor de venta de la propiedad.

276 Apndice A

property_assess_cs.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor de un

estado para mantener actualizada la evaluacin de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivo de datos registra el condado, la poblacin y el vecindario en el que se encuentra la propiedad, el tiempo transcurrido desde la ltima evaluacin y la valoracin realizada en ese momento.
property_assess_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de las

propiedades recogidas en property_assess_cs.sav. La muestra se tom en funcin del diseo especicado en el archivo de plan property_assess.csplan, y este archivo de datos registra las probabilidades de inclusin y las ponderaciones muestrales. La variable adicional Valor actual se recopil y aadi al archivo de datos despus de tomar la muestra.
recidivism.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de orden

pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso corresponde a un infractor anterior y registra su informacin demogrca, algunos detalles de su primer delito y, a continuacin, el tiempo transcurrido desde su segundo arresto, si ocurri en los dos aos posteriores al primer arresto.
recidivism_cs_sample.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de

orden pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante el mes de junio de 2003 y registra su informacin demogrca, algunos detalles de su primer delito y los datos de su segundo arresto, si se produjo antes de nales de junio de 2006. Los delincuentes se seleccionaron de una muestra de departamentos segn el plan de muestreo especicado en recidivism_cs.csplan. Como este plan utiliza un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de seleccin conjunta (recidivism_cs_jointprob.sav).
rfm_transactions.sav. Archivo de datos hipotticos que contiene datos de transacciones de

compra, incluida la fecha de compra, los artculos adquiridos y el importe de cada transaccin.
salesperformance.sav. Archivo de datos hipotticos sobre la evaluacin de dos nuevos cursos

de formacin de ventas. Sesenta empleados, divididos en tres grupos, reciben formacin estndar. Adems, el grupo 2 recibe formacin tcnica; el grupo 3, un tutorial prctico. Cada empleado se someti a un examen al nal del curso de formacin y se registr su puntuacin. Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fue asignado y la puntuacin que obtuvo en el examen.
satisf.sav. Archivo de datos hipotticos sobre una encuesta de satisfaccin llevada a cabo por

una empresa minorista en cuatro tiendas. Se encuest a 582 clientes en total y cada caso representa las respuestas de un nico cliente.
screws.sav. Este archivo de datos contiene informacin acerca de las caractersticas de

tornillos, pernos, clavos y tacos(Hartigan, 1975).


shampoo_ph.sav. Archivo de datos hipotticos sobre el control de calidad en una fbrica de

productos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regulares y se registr su pH. El intervalo objetivo es de 4,5 a 5,5.
ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,

1989) sobre los daos en los cargueros producidos por las olas. Los recuentos de incidentes se pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, el perodo de construccin y el perodo de servicio. Los meses de servicio agregados para cada

277 Archivos muestrales

casilla de la tabla formados por la clasicacin cruzada de factores proporcionan valores para la exposicin al riesgo.
site.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa para seleccionar

sitios nuevos para sus negocios en expansin. Se ha contratado a dos consultores para evaluar los sitios de forma independiente, quienes, adems de un informe completo, han resumido cada sitio como una posibilidad buena, media o baja.
siteratings.sav. Archivo de datos hipotticos sobre la evaluacin de versiones beta del nuevo

sitio Web de una rma de comercio electrnico. Cada caso representa un evaluador de versiones beta, el cual puntu el uso del sitio en una escala de 0 a 20.
smokers.sav. Este archivo de datos es un resumen de la encuesta sobre toxicomana 1998

National Household Survey of Drug Abuse y es una muestra de probabilidad de unidades familiares americanas. As, el primer paso de un anlisis de este archivo de datos debe ser ponderar los datos para reejar las tendencias de poblacin.
smoking.sav. Tabla hipottica presentada por Greenacre(Greenacre, 1984). La tabla de inters

est formada por la tabla de contingencia del comportamiento de fumar por categora de trabajo. La variable Grupo de personal contiene las categoras de trabajo Directores Sr, Directores Jr, Empleados Sr, Empleados Jr y Secretarias, adems de la categora Promedio nacional, que se puede utilizar como suplemento del anlisis. La variable Tabaquismo contiene los comportamientos Nada, Poco, Medio y Mucho, adems de las categoras Sin alcohol y Alcohol, que se pueden utilizar como suplemento del anlisis.
storebrand.sav. Archivo de datos hipotticos sobre las iniciativas de la directora de una tienda

de alimentacin para aumentar las ventas del detergente de la marca de la tienda en relacin a otras marcas. Se lanza una promocin en la tienda y se consulta a los clientes a la salida. Cada caso representa un cliente diferente.
stores.sav. Este archivo de datos contiene datos de cuotas de mercado mensuales hipotticos

de dos tiendas de alimentacin que compiten. Cada caso representa los datos de cuota de mercado de un mes determinado.
stroke_clean.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

mdica despus de haberla limpiado mediante los procedimientos de la opcin Preparacin de datos.
stroke_invalid.sav. Este archivo de datos hipotticos contiene el estado inicial de una base de

datos mdica que incluye contiene varios errores de entrada de datos.


stroke_survival. Este archivo de datos hipotticos registra los tiempos de supervivencia de

los pacientes que nalizan un programa de rehabilitacin tras un ataque isqumico. Tras el ataque, la ocurrencia de infarto de miocardio, ataque isqumico o ataque hemorrgico se anotan junto con el momento en el que se produce el evento registrado. La muestra est truncada a la izquierda ya que nicamente incluye a los pacientes que han sobrevivido al nal del programa de rehabilitacin administrado tras el ataque.
stroke_valid.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

mdica despus de haber comprobado los valores mediante el procedimiento Validar datos. Sigue conteniendo casos potencialmente anmalos.
survey_sample.sav. Este archivo de datos hipotticos contiene datos de encuestas, incluyendo

datos demogrcos y diferentes medidas de actitud.

278 Apndice A

tastetest.sav. Archivo de datos hipotticos sobre el efecto del color del mantillo en el sabor de

las cosechas. Las fresas que han crecido en mantillo rojo, azul y negro fueron valoradas por catadores en una escala ordinal del 1 al 5 (de muy por encima de la media a muy por debajo de la media). Cada caso representa un catador diferente.
telco.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de

telecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada caso corresponde a un cliente distinto y registra diversa informacin demogrca y de uso del servicio.
telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variables

de meses con servicio y gasto de clientes transformadas logartmicamente se han eliminado y sustituido por variables de gasto del cliente transformadas logartmicamente tipicadas.
telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, pero

algunos valores de datos demogrcos se han sustituido con valores perdidos.


testmarket.sav. Archivo de datos hipotticos sobre los planes de una cadena de comida rpida

para aadir un nuevo artculo a su men. Hay tres campaas posibles para promocionar el nuevo producto, por lo que el artculo se presenta en ubicaciones de varios mercados seleccionados aleatoriamente. Se utiliza una promocin diferente en cada ubicacin y se registran las ventas semanales del nuevo artculo durante las primeras cuatro semanas. Cada caso corresponde a una ubicacin semanal diferente.
testmarket_1month.sav. Este archivo de datos hipotticos es el archivo de datos testmarket.sav

con las ventas semanales acumuladas para que cada caso corresponda a una ubicacin diferente. Como resultado, algunas de las variables que cambiaban semanalmente desaparecen y las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatro semanas del estudio.
tree_car.sav. Archivo de datos hipotticos que contiene datos demogrcos y de precios

de compra de vehculos.
tree_credit.sav. Archivo de datos hipotticos que contiene datos demogrcos y de historial de

crditos bancarios.
tree_missing_data.sav. Archivo de datos hipotticos que contiene datos demogrcos y de

historial de crditos bancarios con un elevado nmero de valores perdidos.


tree_score_car.sav. Archivo de datos hipotticos que contiene datos demogrcos y de precios

de compra de vehculos.
tree_textdata.sav. Archivo de datos sencillos con dos variables diseadas principalmente para

mostrar el estado por defecto de las variables antes de realizar la asignacin de nivel de medida y etiquetas de valor.
tv-survey.sav. Archivo de datos hipotticos sobre una encuesta dirigida por un estudio de

TV que est considerando la posibilidad de ampliar la emisin de un programa de xito. Se pregunt a 906 encuestados si veran el programa en distintas condiciones. Cada la representa un encuestado diferente; cada columna es una condicin diferente.
ulcer_recurrence.sav. Este archivo contiene informacin parcial de un estudio diseado para

comparar la ecacia de dos tratamientos para prevenir la reaparicin de lceras. Constituye un buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otro lugar(Collett, 2003).

279 Archivos muestrales

ulcer_recurrence_recoded.sav. Este archivo reorganiza la informacin de ulcer_recurrence.sav

para permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar de slo la probabilidad de eventos al nal del estudio. Se ha presentado y analizado en otro lugar(Collett et al., 2003).
verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado las

respuestas de 15 sujetos a 8 variables. Se han dividido las variables de inters en tres grupos. El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que el conjunto 3 incluye msica y vivir. Se escala mascota como nominal mltiple y edad como ordinal; el resto de variables se escalan como nominal simple.
virus.sav. Archivo de datos hipotticos sobre las iniciativas de un proveedor de servicios

de Internet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado un seguimiento (aproximado) del porcentaje de trco de correos electrnicos infectados en sus redes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza se contiene.
waittimes.sav. Archivo de datos hipotticos sobre los tiempos de espera de los clientes para el

servicio de tres sucursales diferentes de un banco local. Cada caso corresponde a un cliente diferente y registra el tiempo de espera invertido y la sucursal en la que se realiz el negocio.
webusability.sav. Archivo de datos hipotticos sobre las pruebas de uso de una nueva tienda

electrnica. Cada caso corresponde a uno de los cinco evaluadores de uso y registra si el evaluador realiz correctamente cada una de las seis tareas distintas.
wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la salud

de la polucin del aire en los nios (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984). Los datos contienen medidas binarias repetidas del estado de las sibilancias en nios de Steubenville, Ohio, con edades de 7, 8, 9 y 10 aos, junto con un registro jo de si la madre era fumadora durante el primer ao del estudio.
workprog.sav. Archivo de datos hipotticos sobre un programa de obras del gobierno que

intenta colocar a personas desfavorecidas en mejores trabajos. Se sigui una muestra de participantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamente para entrar en el programa, mientras que otros no siguieron esta seleccin aleatoria. Cada caso representa un participante del programa diferente.

Bibliografa
Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. Nueva York: Harper & Row. Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html. Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, 580598. Cochran, W. G. 1977. Sampling Techniques, 3rd ed. Nueva York: John Wiley and Sons. Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC. Cox, D. R., y E. J. Snell. 1989. The Analysis of Binary Data, 2nd ed. Londres: Chapman and Hall. Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press. Greenacre, M. J. 1984. Theory and applications of correspondence analysis. Londres: Academic Press. Guttman, L. 1968. A general nonmetric technique for nding the smallest coordinate space for congurations of points. Psychometrika, 33, 469506. Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons. Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall. Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, 5670. Kish, L. 1965. Survey Sampling. Nueva York: John Wiley and Sons. Kish, L. 1987. Statistical Design for Research. Nueva York: John Wiley and Sons. McCullagh, P., y J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. Londres: Chapman & Hall. McFadden, D. 1974. Conditional logit analysis of qualitative choice behavior. En: Frontiers in Economics, P. Zarembka, ed. Nueva York: Academic Press. Menec, V., N. Roos, D. Nowicki, L. MacWilliam, G. Finlayson, y C. Black. 1999. Seasonal Patterns of Winnipeg Hospital Use. : Manitoba Centre for Health Policy. Murthy, M. N. 1967. Sampling Theory and Methods. Calcuta (India): Statistical Publishing Society. Nagelkerke, N. J. D. 1991. A note on the general denition of the coefcient of determination. Biometrika, 78:3, 691692. Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, 579586.

280

281 Bibliografa

Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228, 5458. Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, 489502. Srndal, C., B. Swensson, y J. Wretman. 1992. Model Assisted Survey Sampling. Nueva York: Springer-Verlag. Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, 363368. Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlands). Leiden: Department of Data Theory, University of Leiden. Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, 366374.

ndice
advertencias en la regresin ordinal de muestras complejas, 217 archivo de plan, 2 archivos de ejemplo posicin, 269 Asistente de muestreo de la opcin Muestras complejas, 97 marco de muestreo, completo, 97 marco de muestreo, parcial, 109 muestreo de PPS, 127 procedimientos relacionados, 144 resumen, 107, 139 Asistente de preparacin del anlisis de la opcin Muestras complejas, 145 datos de uso pblico, 145 ponderaciones muestrales no disponibles, 148 procedimientos relacionados, 159 resumen, 148, 159 Bonferroni en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 categora de referencia en Modelo lineal general de muestras complejas, 50 en Regresin logstica de muestras complejas, 55 categoras pronosticadas en la regresin ordinal de muestras complejas, 72 en Regresin logstica de muestras complejas, 61 chi-cuadrado en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 chi-cuadrado corregido en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 coeciente de variacin (CDV) en Descriptivos de Muestras complejas, 34 en Frecuencias de Muestras complejas, 30 en Razones de Muestras complejas, 42 en tablas de contingencia de Muestras complejas, 38 conglomerados en asistente de muestreo, 6 en asistente de preparacin del anlisis, 21 contrastes en Modelo lineal general de muestras complejas, 50 contrastes de desviacin en Modelo lineal general de muestras complejas, 50 contrastes de diferencia en Modelo lineal general de muestras complejas, 50 Contrastes de Helmert en Modelo lineal general de muestras complejas, 50 contrastes polinmicos en Modelo lineal general de muestras complejas, 50 contrastes repetidos en Modelo lineal general de muestras complejas, 50 contrastes simples en Modelo lineal general de muestras complejas, 50 Convergencia de la verosimilitud en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62 convergencia de los parmetros en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62 correccin de Bonferroni secuencial en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 correccin de Sidak en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 correccin de Sidak secuencial en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 correlaciones de estimaciones de parmetros en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48 en Regresin logstica de muestras complejas, 57 covarianzas de estimaciones de parmetros en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48 en Regresin logstica de muestras complejas, 57 datos de uso pblico en asistente de preparacin del anlisis, 145 en Descriptivos de Muestras complejas, 166 Descriptivos de Muestras complejas, 33, 166 datos de uso pblico, 166 estadsticos, 34, 168 estadsticos por subpoblacin, 169 procedimientos relacionados, 170 valores perdidos, 35 diferencia de riesgos en tablas de contingencia de Muestras complejas, 38 diferencia menos signicativa en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 efecto del diseo en Descriptivos de Muestras complejas, 34 en Frecuencias de Muestras complejas, 30 en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48
282

283 ndice

en Razones de Muestras complejas, 42 en regresin de Cox de muestras complejas, 85 en Regresin logstica de muestras complejas, 57 en tablas de contingencia de Muestras complejas, 38 error tpico en Descriptivos de Muestras complejas, 34, 168169 en Frecuencias de Muestras complejas, 30, 163164 en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48 en Razones de Muestras complejas, 42 en Regresin logstica de muestras complejas, 57 en tablas de contingencia de Muestras complejas, 38 estadstico F en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 estadstico F corregido en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 estadstico R2 en Modelo lineal general de muestras complejas, 48, 188 estadsticos pseudo R2 en la regresin ordinal de muestras complejas, 68, 209, 218 en Regresin logstica de muestras complejas, 57, 198 estimacin de la muestra en asistente de preparacin del anlisis, 22 estimaciones de los parmetros en la regresin ordinal de muestras complejas, 68, 210 en Modelo lineal general de muestras complejas, 48, 189 en regresin de Cox de muestras complejas, 85 en Regresin logstica de muestras complejas, 57, 200 estraticacin en asistente de muestreo, 6 en asistente de preparacin del anlisis, 21 estratos de lnea base en regresin de Cox de muestras complejas, 82 Frecuencias de Muestras complejas, 29, 160 estadsticos, 30 procedimientos relacionados, 165 tabla de frecuencia, 163 tabla de frecuencia por subpoblacin, 164 grados de libertad en muestras complejas, 49, 59, 70 en regresin de Cox de muestras complejas, 88 grco de log menos log en regresin de Cox de muestras complejas, 267 historial de iteraciones en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62 informacin del diseo de la muestra en regresin de Cox de muestras complejas, 85, 231, 264

intervalos de conanza en Descriptivos de Muestras complejas, 34, 168169 en Frecuencias de Muestras complejas, 30, 163164 en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48, 53 en Razones de Muestras complejas, 42 en Regresin logstica de muestras complejas, 57 en tablas de contingencia de Muestras complejas, 38 introducir ponderaciones muestrales en asistente de muestreo, 6 iteraciones en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62 marco de muestreo, completo en asistente de muestreo, 97 marco de muestreo, parcial en asistente de muestreo, 109 media en Descriptivos de Muestras complejas, 34, 168169 medias marginales en MLG Univariante, 190 medias marginales estimadas en Modelo lineal general de muestras complejas, 50 medida del tamao en asistente de muestreo, 8 mtodo de estimacin de Breslow en regresin de Cox de muestras complejas, 93 mtodo de estimacin de Efron en regresin de Cox de muestras complejas, 93 mtodo de muestreo en asistente de muestreo, 8 mtodo de muestreo de Brewer en asistente de muestreo, 8 mtodo de muestreo de Murthy en asistente de muestreo, 8 mtodo de muestreo de Sampford en asistente de muestreo, 8 mtodo de Newton-Raphson en la regresin ordinal de muestras complejas, 73 modelo acumulado generalizado en la regresin ordinal de muestras complejas, 214 Modelo lineal general de muestras complejas, 45, 183 almacenamiento de variables, 51 estadsticos, 48 estimaciones de los parmetros, 189 funciones adicionales del comando, 53 medias estimadas, 50 medias marginales, 190 modelo, 47 opciones, 53 procedimientos relacionados, 192 pruebas de efectos del modelo, 188 resumen del modelo, 188 Muestras complejas contrastes de hiptesis, 49, 59, 70 opciones, 32, 36, 40, 44

284 ndice

valores perdidos, 31, 40 muestreo diseo complejo, 4 muestreo aleatorio simple en asistente de muestreo, 8 muestreo complejo plan de anlisis, 19 plan de muestreo, 4 muestreo de PPS en asistente de muestreo, 8 muestreo secuencial en asistente de muestreo, 8 muestreo sistemtico en asistente de muestreo, 8 nivel de conanza en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62 patrones de predictores en regresin de Cox de muestras complejas, 266 plan de anlisis, 19 plan de muestreo, 4 ponderaciones muestrales en asistente de muestreo, 12 en asistente de preparacin del anlisis, 21 porcentajes de la en tablas de contingencia de Muestras complejas, 38 porcentajes de la columna en tablas de contingencia de Muestras complejas, 38 porcentajes de tabla en Frecuencias de Muestras complejas, 30, 163164 en tablas de contingencia de Muestras complejas, 38 predictor dependiente del tiempo en regresin de Cox de muestras complejas, 81, 221 predictores dependientes del tiempo constantes por tramos en regresin de Cox de muestras complejas, 236 probabilidad pronosticada en la regresin ordinal de muestras complejas, 72 en Regresin logstica de muestras complejas, 61 probabilidades acumuladas en la regresin ordinal de muestras complejas, 72 probabilidades de inclusin en asistente de muestreo, 12 probabilidades de respuesta en la regresin ordinal de muestras complejas, 66 proporcin muestral en asistente de muestreo, 12 prueba de impactos proporcionales en regresin de Cox de muestras complejas, 85, 232 prueba de lneas paralelas en la regresin ordinal de muestras complejas, 68, 214 prueba t en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48 en Regresin logstica de muestras complejas, 57

pruebas de efectos del modelo en la regresin ordinal de muestras complejas, 210 en Modelo lineal general de muestras complejas, 188 en regresin de Cox de muestras complejas, 265 en Regresin logstica de muestras complejas, 200 puntuacin de Fisher en la regresin ordinal de muestras complejas, 73 raz cuadrada del efecto del diseo en Descriptivos de Muestras complejas, 34 en Frecuencias de Muestras complejas, 30 en la regresin ordinal de muestras complejas, 68 en Modelo lineal general de muestras complejas, 48 en Razones de Muestras complejas, 42 en regresin de Cox de muestras complejas, 85 en Regresin logstica de muestras complejas, 57 en tablas de contingencia de Muestras complejas, 38 razones en Razones de Muestras complejas, 180 razones de las ventajas en la regresin ordinal de muestras complejas, 71, 213 en Regresin logstica de muestras complejas, 60, 201 en tablas de contingencia de Muestras complejas, 38, 171 Razones de Muestras complejas, 41, 177 estadsticos, 42 procedimientos relacionados, 182 razones, 180 valores perdidos, 43 recuento no ponderado en Descriptivos de Muestras complejas, 34 en Frecuencias de Muestras complejas, 30 en Razones de Muestras complejas, 42 en tablas de contingencia de Muestras complejas, 38 Regresin de Cox de muestras complejas, 221 almacenamiento de variables, 89 anlisis Kaplan-Meier, 76 contrastes de hiptesis, 88 denicin de eventos, 79 estadsticos, 85 estimaciones de los parmetros, 236, 265 exportacin del modelo, 91 grco de log menos log, 267 grcos, 87 informacin del diseo de la muestra, 231, 264 modelo, 83 opciones, 93 predictor dependiente del tiempo, 81, 221 predictores, 80 predictores dependientes del tiempo constantes por tramos, 236 prueba de impactos proporcionales, 232 pruebas de efectos del modelo, 232, 235, 265 subgrupos, 82 valores de los patrones, 266 variables de fecha y hora, 76

285 ndice

Regresin logstica de muestras complejas, 54, 194 almacenamiento de variables, 61 categora de referencia, 55 estadsticos, 57 estadsticos pseudo R2, 198 estimaciones de los parmetros, 200 funciones adicionales del comando, 63 modelo, 56 opciones, 62 procedimientos relacionados, 203 pruebas de efectos del modelo, 200 razones de las ventajas, 60, 201 tablas de clasicacin, 199 Regresin ordinal de muestras complejas, 64, 204 advertencias, 217 almacenamiento de variables, 72 estadsticos, 68 estadsticos pseudo R2, 209, 218 estimaciones de los parmetros, 210 modelo, 67 modelo acumulado generalizado, 214 opciones, 73 probabilidades de respuesta, 66 procedimientos relacionados, 219 pruebas de efectos del modelo, 210 razones de las ventajas, 71, 213 tablas de clasicacin, 212 residuos en Modelo lineal general de muestras complejas, 51 en tablas de contingencia de Muestras complejas, 38 residuos agregados en regresin de Cox de muestras complejas, 89 residuos corregidos en tablas de contingencia de Muestras complejas, 38 residuos de Cox-Snell en regresin de Cox de muestras complejas, 89 residuos de desvianza en regresin de Cox de muestras complejas, 89 residuos de Martingale en regresin de Cox de muestras complejas, 89 residuos de puntuacin en regresin de Cox de muestras complejas, 89 residuos parciales de Schoenfeld en regresin de Cox de muestras complejas, 89 resumen en asistente de muestreo, 107, 139 en asistente de preparacin del anlisis, 148, 159 riesgo relativo en tablas de contingencia de Muestras complejas, 38, 171, 174175 separacin en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62 subdivisin por pasos en la regresin ordinal de muestras complejas, 73 en Regresin logstica de muestras complejas, 62

subpoblacin en regresin de Cox de muestras complejas, 82 suma en Descriptivos de Muestras complejas, 34 tabla de contingencia en tablas de contingencia de Muestras complejas, 174 tablas de clasicacin en la regresin ordinal de muestras complejas, 68, 212 en Regresin logstica de muestras complejas, 57, 199 Tablas de contingencia de Muestras complejas, 37, 171 estadsticos, 38 procedimientos relacionados, 176 riesgo relativo, 171, 174175 tabla de contingencia, 174 tamao de la poblacin en asistente de muestreo, 12 en Descriptivos de Muestras complejas, 34 en Frecuencias de Muestras complejas, 30, 163164 en Razones de Muestras complejas, 42 en tablas de contingencia de Muestras complejas, 38 tamao muestral en asistente de muestreo, 10, 12 valores acumulados en Frecuencias de Muestras complejas, 30 valores esperados en tablas de contingencia de Muestras complejas, 38 valores perdidos en Descriptivos de Muestras complejas, 35 en la regresin ordinal de muestras complejas, 73 en Modelo lineal general de muestras complejas, 53 en muestras complejas, 31, 40 en Razones de Muestras complejas, 43 en Regresin logstica de muestras complejas, 62 valores pronosticados en Modelo lineal general de muestras complejas, 51

Вам также может понравиться