Pedroza, Sistema de Análisis Estadístico en SPSS - Agronomía

Sistema de Anlisis Estadstico con SPSS
Instituto Interamericano de Cooperacin para la Agricultura (IICA)
Instituto Interamericano de Cooperacin ooperacin para la Agricultura (IICA). Instituto Nicaragense de Tecnologa Agropecuaria (INTA), 2007. El Instituto promueve el uso justo de este documento. Se solicita que sea citado apropiadamente cuando corresponda
Esta publicacin tambin est disponible en formato electrnico (PDF) en el sitio Web institucional en www.iica.int.
Coordinacin editorial Correccin de estilo Diagramado Diseo de portada
: Esperanza Rodrguez : Nestor Allan Alvarado Daz : Hauny Mendieta : Ivana Alvarado
Sistema de anlisis estadstico con SPSS Henry Pedroza, Luis Dicovskyi Managua: IICA, INTA, 2007. 167 p. ; 21.59 X 27.44 cm ISBN13: 978-92-9039-790-8 1. Estadstica. 2. SPSS I. IICA II. INTA III. Ttulo AGRIS E10 DEWEY 310
PROLOGO
El contenido de este libro, es muy original, ya que los autores Dr. Henry Pedroza Pacheco y MSc. Lus Elas Dicovskiy, realizan un minucioso estudio, sealando los mltiples aspectos que deben tomarse en cuenta en relacin al anlisis de variables cuantitativas o cualitativas, organizadas en un sistema de bases de datos, (DBMS). Los autores profundizan sobre las tcnicas de anlisis estadstico paramtricas y no paramtricas, apoyados tanto en informacin bibliogrica como en su propia experiencia. Todos los anlisis presentados en este libro, son realizados con datos originales que corresponden a tesis de grado o maestra, o son datos de fuentes primarias, obtenidos a travs de experimentos propios o consultaras a las cuales los autores estuvieron vinculados como asesores o como autores de las mismas. Considero que este libro ser de gran utilidad para diversas instituciones acadmicas, ONGs, centros de investigacin, tecnolgicos o socio-econmicos, las cuales realizan diversos estudios de investigacin experimental y/o no experimental, tales como Lneas de Base, Diagnsticos, Evaluacin de Impacto, Estudios Prospectivos, y toda la gama de estudios experimentales univariados o multivariados. Tambin ser de utilidad para los estudiantes de diversas universidades donde imparten carreras como Ingeniera Agronmica y Desarrollo Rural; Economa Aplicada, Administracin de Empresas, Ingeniera de Sistemas de Produccin, en Ingeniera Industrial, y otras. Por otra parte, las tcnicas de anlisis estadsticos expuestas en este libro, sern de gran utilidad para los tcnicos de los centros experimentales y extensionista del INTA, quienes encontrarn en este libro una gua tutorial para realizar con mayor efectividad el anlisis estadstico de sus datos y mejorar as su desempeo profesional en el rea de investigacin, tan importante para el desarrollo y sostenibilidad econmica de Nicaragua. Felicito de manera muy especial a los autores de este nuevo libro, que en tres ocasiones, una en el ao 2005, el 2006 y el 2007, han impartido exitosamente en el IICA sede Nicaragua, un curso con este mismo texto, demostrando su calidad profesional y la pertinencia de esta obra, por lo cual no dudo que ser de mucha importancia tanto para la docencia universitaria como para los procesos de investigacin e innovacin tecnolgica del pas.
Dr. Gerardo Escudero Director General IICA, Nicaragua
PROLOGO
En una realidad tan dinmica como la que actualmente se vive, los profesionales, tcnicos y estudiantes que realizan investigacin en Nicaragua han de sentirse altamente estimulados con la aparicin de esta nueva obra del Dr. Henry Pedroza Pacheco y el MSc. Luis Elas Dicovskiy Riobo, que versa sobre: Sistema de Anlisis Estadstico con SPSS. Este libro ser de gran utilidad para los estudiantes de la Universidad Nacional Agraria que cursan las asignaturas Experimentacin Agrcola, en las carreras de Ingeniera Agronmica, Ingeniera Agrcola para el Desarrollo Sostenible e Ingeniera Forestal; Investigacin Agrcola y Forestal, en la carrera de Ingeniera en Sistemas de Proteccin Agrcola y Forestal; Experimentacin Pecuaria, en las carreras de Ingeniera en Zootecnia y Medicina Veterinaria. En el libro Sistema de Anlisis Estadstico con SPSS, se realizan los anlisis estadsticos de datos provenientes de investigacin experimental y no experimental, con el software SPSS. En los primeros cuatro captulos del libro, se ensea a manejar una amplia gama de comandos para realizar el procesamiento estadsticos de datos, tales como: estadstica descriptiva, generacin de gricos univariados y multivariados, tablas de contingencia y medidas de asociacin. En los captulos del quinto al dcimo, se realiza el anlisis de varianza para datos provenientes de experimentos unifactoriales o multifactoriales; tambin se ejempliica el uso de los modelos de regresin lineal simple y curvilnea. En los ltimos cuatro captulos del libro se profundiza sobre Tcnicas de Anlisis Multivariadas, tales como: el anlisis de regresin mltiple, el anlisis multivariante de la varianza, tcnicas de anlisis cluster, y el anlisis discriminante. Quiero expresar mis felicitaciones al Dr. Pedroza y al MSc. Luis Dicovskiy, profesionales de mucha experiencia tanto en docencia universitaria como en investigacin, por lo que estoy seguro del gran xito que tendr esta nueva obra.
Master en Sistemas Integrales de Produccin en el Trpico Jefe del Departamento de Ingeniera Agrcola, Facultad de Agronoma, UNA.
Ing. Agr. Nstor Allan Alvarado Daz
INDICE GENERAL
Contenido Captulo 1. 1.1 1.2 1.3 1.4. 1.5 1.6. Sistema de Anlisis Estadstico con el SPSS Pgina 14 14 16 17 18 18 19 20 20 21 23 33 33 33 33 35 38 40 43 44 44 47 48 50 50 52 54 54 55 57 57 57 57
Introduccin. Operacin de Variables en SPSS. Deinicin de Variables en SPSS. Introduccin de Datos al Sistema SPSS. Procedimiento Bsico para realizar el Anlisis Estadstico con el SPSS. Control de Calidad de Datos. Estadsticas Descriptivas.
Capitulo 2. 2.1 2.2 2.3
Anlisis Descriptivo de una Variable Cualitativa en Escala Nominal. Anlisis Descriptivo de una Variable Cualitativa en Escala Ordinal. Anlisis Descriptivo de una Variable Cuantitativa en Escala de Intervalo. El Mdulo Operativo Graphs del SPSS.
Captulo 3. 3.1 3.2 3.3 3.4 3.5 3.6 3.7
El Sistema de Anlisis Estadstico del SPSS. El Anlisis Grico con el Mdulo Operativo Graphs. El Comando Bar dentro del Mdulo Operativo Graphs. El Comando Bar para Generar Gricos Multivariados. El Comando Line para Generar Gricos. El Comando Pie para Generar Gricos. Breves Sugerencia para Usar Mejor el Potencial del Sistema SPSS. Tablas de Contingencia y Medidas de Asociacin.
Captulo 4. 4.1 4.2
La prueba de Ji Cuadrado de Pearson en Tablas de Contingencia. Medidas de Asociacin para dos Variables Dicotmicas en Tablas de Contingencia. 4.3 Medidas de Asociacin para dos Variables en Escala Nominal. 4.4 Medidas de Asociacin para Variables en Escala Ordinal. 4.4.1 La Prueba de Gamma. 4.4.2 Las pruebas de Tau-b de Kendall, y Tau-c de Kendall. 4.5 Medidas de Asociacin en Escala de Intervalo o Razn. 4.5.1 El coeiciente Eta. 4.5.2 Los Coeicientes de Correlacin de Pearson y Spearman. Captulo 5. 5.1 5.2 5.3 Anlisis de Varianza Univariado: Diseo Completo al Azar
El Anlisis de Varianza para un Diseo Completamente Aleatorizado. El Modelo Aditivo Lineal para un DCA. Procedimiento Estadstico para un Experimento establecido en D.C.A.
Captulo 6. 6.1 6.2 6.3
Anlisis de Varianza Univariado: Diseo de Bloques Completos al Azar 62 62 62 62
El Anlisis de Varianza para un Diseo de Bloques Completos al Azar. El Modelo Aditivo Lineal para un BCA. Procedimiento estadstico para un experimento establecido en B.C.A. Anlisis de Varianza Univariado: Factoriales: Experimentos Bifactoriales establecidos en DCA.
Captulo 7.
67 67 67 69 69 70
7.1 7.2 7.3 7.4 7.5
El Anlisis de Varianza para un Bifactorial en DCA. Los Efectos Simples, Principales y de Interaccin. Proceso de Azarizacin de los Tratamientos. El Modelo Aditivo Lineal para un bifactorial distribuido en D.C.A. Procedimiento estadstico para un experimento Bifactorial establecido en D.C.A. Anlisis de Varianza Univariado: Factoriales: Experimentos Bifactoriales establecidos en BCA.
Captulo 8.
76 76 76 76 82
8.1 8.2 8.3 8.4
El Anlisis de Varianza para un Bifactorial en BCA. El Modelo Aditivo Lineal para un Bifactorial distribuido en B.C.A. Procedimiento estadstico para un experimento Bifactorial establecido en B.C.A. El Anlisis de Varianza para un Trifactorial en BCA. Anlisis de Varianza Univariado: Factoriales: Diseo de Parcelas Divididas establecido en BCA.
Captulo 9.
83 83 83 84 84 90 90 91 92 93 97 98 98 102 103 103 105 105
9.1 9.2 9.3 9.4
El Anlisis de Varianza para un Diseo de Parcelas Divididas en BCA. El Proceso de Azarizacin de Tratamientos en un Diseo de Parcelas Divididas. El Modelo Aditivo Lineal para un Diseo de Parcelas Divididas. Procedimiento estadstico para un Diseo de Parcelas Divididas en B.C.A.
Captulo 10. Anlisis de Regresin Lineal Simple. 10.1 10.2 10.3 10.4 10.5 El Anlisis de Regresin Lineal Simple. Rutina para el Anlisis de Regresin Simple con el SPSS. Construyendo el Modelo de Regresin Lineal Simple. Determinando el Modelo de Mejor Ajuste. El Anlisis de Correlacin.
Captulo 11. Anlisis de Regresin Lineal Mltiple. 11.1 11.2 11.3 11.3.1 11.3.2 11.4. Regresin Lineal Mltiple. Rutina para el Anlisis de Regresin Mltiple con SPSS. Anlisis de los residuos. La Normalidad de los Datos. Independencia de los Residuos. Construyendo el Modelo de Regresin Mltiple.
7 Captulo 12. Anlisis Multivariante de la Varianza 12.1 12.2 12.3 12.4 12.5 Los Estudios Multivariados Normalidad Multivariable Homocedasticidad Multivariable Independencia Multivariable Resolucin del MANOVA 108 108 112 113 115 116 119 119 120 120 120 121 124 125 125 125 125 126 126 130 132 138 140 145 145 145 147 148 148 149 150 151
Captulo 13. Tcnicas de Anlisis Clusters 13.1 Qu es el Anlisis Cluster? 13.2 Objetivo del Anlisis Cluster 13.3 Cmo Funciona el Anlisis Cluster? 13.3.1 Medicin de la Similitud 13.3.2 Formacin de Conglomerados 13.3.3 Determinacin del Nmero de Conglomerados en la Solucin Final 13.4 El Anlisis de Conglomerados para Casos 13.4.1 Medidas de Similitud 13.4.1.1 Medidas de Correlacin 13.4.1.2 Medidas de Distancia 13.4.1.3 Medidas de Asociacin 13.4.2 Cmo Elegir las Variables que Participarn en la Formacin de Conglomerados para Casos 13.4.3 El Proceso de Tipiicacin de las Variables 13.4.4 El Proceso de Formacin de Conglomerados para Casos, por el Mtodo Jerrquico Aglomerativo Promedio entre Grupos 13.4.5. Validacin de la Solucin Cluster 13.5 El Mtodo Jerrquico de Conglomerados para Variables Captulo 14. El Anlisis Discriminante 14.1 Qu es el Anlisis Discriminante ? 14.2 Un Estudio de Caso realizado mediante el Anlisis Discriminante 14.2.1. Coeicientes no estandarizados de las Funciones Discriminantes 14.2.2 Coeicientes Estandarizados de las Funciones Discriminantes 14.2.3 Correlacin Cannica y Variacin porcentual 14.2.4 Correlacin Mapa Territorial 14.3 Resultados de la Clasiicacin Final Bibliografa Citada
INDICE DE CUADROS
Cuadro Cuadro 2.1. Anlisis de frecuencia de la variable cualitativa en escala nominal, escolaridad. Cuadro 2.2. Anlisis de frecuencia de la variable cualitativa en escala ordinal, Como valora la accion para evitar la contaminacion del medio ambiente Cuadro 2.3. Anlisis de frecuencia de la variable, edad. Cuadro 2.4. Anlisis de normalidad de la variable, edad, mediante el uso de Frequencies. Cuadro 2.5. Prueba de Kolmogorov-Smirnov para la variable edad. Cuadro 2.6. Anlisis descriptivo para la variable edad, mediante el comando Descriptives. Cuadro 2.7. Anlisis descriptivo para la variable edad, mediante el comando Explore. Cuadro 2.8. Valores extremos (Outliers) para la variable edad. Cuadro 2.9. Percentiles para la variable edad, mediante el comando Explore. Cuadro 3.1. Actividad agropecuaria-forestal a la cual se dedican los productores es? Cuadro 3.2. Estadsticas de las variables cuantitativas continuas incluidas en el grico multivariado. Cuadro 4.1. Salida del SPSS para la prueba de Ji Cuadrado en Tablas de Contingencia. Cuadro 4.2. Salida del SPSS para la prueba de Phi en Tablas de Contingencia. Cuadro 4.3. Salida del SPSS para la prueba del coeiciente de Contingencia y la V de Cramer. Cuadro 4.4. Salida del SPSS para la prueba de Gamma. Cuadro 4.5. Salida del SPSS para la prueba Tau-c de Kendall. Cuadro 4.6. Salida del SPSS para la prueba Eta, en Tablas de Contingencia. Cuadro 5.1. Peso del jugo (en gramos) obtenido para diferentes variedades de tomate industrial. Cuadro 5.2. Tabla de estadsticas descriptivas del DCA, One way ANOVA Cuadro 5.3. Prueba de homogeneidad de varianzas, o prueba de Levene. Cuadro 5.4. Prueba de normalidad de los datos o Prueba de Kolmogorov-Smirnov. Cuadro 5.5. Tabla de Anlisis de Variancia, ANOVA. Cuadro 5.6. Salida del SPSS para la separacin de medias por la prueba de Duncan. Cuadro 5.7. Presentacin de medias y su signiicacin estadstica dada por la prueba de Duncan. Cuadro 6.1. Datos del dimetro ecuatorial del fruto (en cm), obtenido para diferentes variedades de tomate industrial. Cuadro 6.2. Salida del ANOVA para un Diseo de Bloques Completos al Azar. Cuadro 6.3. Salida del SPSS para la separacin de medias dada por la prueba de Duncan. Cuadro 6.4. Presentacin de medias y su signiicacin estadstica dada por la prueba de Duncan.
Instituto Nicaragense de Tecnologa Agropecuaria (INTA)
Pgina
20 22 24 25 26 27 28 29 29 36 37 45 47 49 51 53 54
58 58 59 59 59 60 60
63 63 64 64
9 Cuadro 7.1. Cuadro de doble entrada para construir los tratamientos factoriales. Cuadro 7.2. Efectos Simples, Principales y de Interaccin entre factores. Cuadro 7.3. Datos del Nitrgeno total (en mg) de la parte area de la planta. Cuadro 7.4. Salida del ANOVA para un Bifactorial en DCA. Cuadro 7.5. Salida del SPSS para la separacin de medias de SNK para el factor A. Cuadro 7.6. Presentacin de medias del factor A y su signiicacin estadstica dada por la prueba de SNK. Cuadro 7.7. Salida del SPSS para la separacin de medias de SNK para el factor B. Cuadro 7.8. Presentacin de medias del factor B y su signiicacin estadstica dada por la prueba de SNK. Cuadro 7.9. Presentacin de medias e intervalos de conianza para la interaccin. Cuadro 8.1. Datos del rendimiento total obtenido de Chilote (kg/P.U.). Cuadro 8.2. Salida del ANOVA para un Bifactorial en BCA. Cuadro 8.3. Salida del SPSS para la separacin de medias de SNK para el factor A. Cuadro 8.4. Presentacin de medias del factor A y su signiicacin estadstica dada por la prueba de SNK. Cuadro 8.5. Salida del SPSS para la separacin de medias de SNK para el factor B. Cuadro 8.6. Presentacin de medias del factor B y su signiicacin estadstica dada por la prueba de SNK. Cuadro 8.7. Presentacin de medias e intervalos de conianza para la interaccin. Cuadro 9.1. Datos del rendimiento de campo en kg/ha. Cuadro 9.2. Salida del ANOVA dada por el SPSS, para un Diseo de Parcelas Dividida en BCA. Cuadro 9.3. Tabla del ANOVA para un Diseo de Parcelas Dividida en BCA, con el valor de F para Bloque y el Factor A, calculados con el E(a). Cuadro 9.4. Cuadro de medias para el factor labranza. Cuadro 9.5. Cuadro de de medias del factor malezas. Cuadro 9.6. Presentacin de medias e intervalos de conianza para la interaccin. Cuadro 10.1. Anlisis descriptivo de las variables en estudio. Cuadro 10.2. Resumen de los coeicientes de Correlacin de Pearson (R) y Determinacin (R2). Cuadro 10.3. Anlisis de Regresin de las variables en estudio. Cuadro 10.4. Coeicientes Beta para construir el modelo de regresin. Cuadro 10.5. Matriz de correlacin de Pearson y sus niveles de Signiicacin. 67 67 70 71 72 72 73 73 74 77 78 79 79 79 80 80 84 85 86 87 87 88 91 91 92 92 97 99 102 103 104 104 105 106 106
Cuadro 11.1. Datos del experimento bifactorial sustrato por fertiriego, en viveros de Tomate. Cuadro 11.2. Resultado de la prueba de Kolmogorov-Smirnov, para la variable dependiente Peso Fresco de Planta. Cuadro 11.3. Matriz de Correlacin entre las cuatro variables independientes y su signiicacin. Cuadro 11.4. Incorporacin de variable(s) al modelo de Regresin Lineal Mltiple. Cuadro 11.5. Correlacin Mltiple (R), y Coeiciente de determinacin, (R2). Cuadro 11.6. ANOVA de los coeicientes Beta ( ) de la Regresin Mltiple. Cuadro 11.7. Coeicientes Beta ( ) de la ecuacin de Regresin y su signiicacin. Cuadro 11.8. Variables de exclusin del modelo.
10 Cuadro 12.1. Datos del experimento sobre tipos de bandejas y tipos de sustratos, en vivero de tomate, establecido en estructura protegida de micro tnel. Cuadro 12.2. Descripcin de los tratamientos del experimento sobre tipos de bandejas y tipos de sustratos, en vivero de tomate, establecido en estructura protegida de micro tnel. Cuadro 12.3. Prueba de Kolmogorov-Smirnov para las variables dependientes en estudio. Cuadro 12.4. Valores de la prueba M de Box. Cuadro 12.5. Prueba M de Box, para comprobar la homocedasticidad multivariable. Cuadro 12.6. Prueba de independencia multivariable por el Test de esfericidad de Bartlett. Cuadro 12.7. Test Multivariado. Cuadro 12.8. Salida para el anlisis univariado de las variables en estudio. Cuadro 13.1. Matriz de proximidad de distancias eucldeas entre observaciones. Cuadro 13.2. Proceso de cluster aglomerativo jerrquico. Cuadro 13.3. Matriz de correlaciones entre las 12 variables del subconjunto seleccionado. Cuadro 13.4. Tipiicacin de las 7 variables consideradas para realizar el anlisis cluster. Cuadro 13.5. Anlisis cluster, usando el Mtodo Jerrquico Aglomerativo Promedio entre Grupos. Cuadro 13.6. Membresa de cada uno de clusters. Solucin con cuatro conglomerados. Cuadro 13.7. Anlisis cluster para la validacin de la solucin cluster preliminar. Cuadro 13.8. Membresa de cada uno de clusters. Solucin con cuatro conglomerados. Cuadro 13.9. Matriz de correlacin de Pearson en valor absoluto. Cuadro 13.10. Calendario de aglomeracin, usando el Mtodo Jerrquico Aglomerativo Promedio entre Grupos. Anlisis cluster para Variables Cuadro 14.1. Variables elegidas para realizar el anlisis discriminante. Cuadro 14.2. Valores que tomaron las funciones discriminantes del grupo inal. Cuadro 14.3. Coeicientes estandarizados. Cuadro 14.4. Porcentaje de Variacin y Correlacin Cannica Cuadro 14.5. Tabla de clasiicacin: Nmero y Porcentaje de Miembros predecidos por grupo, segn el anlisis discriminante. 109
110 112 114 114 115 117 117 121 122 129 131 133 137 138 139 141 142 146 147 148 149 150
11
INDICE DE FIGURAS
Figura Figura 1.1. Los sistemas de informacin como instrumentos de apoyo institucional. Figura 2.1. Porcentaje de escolaridad de las personas encuestadas. Figura 2.2. Porcentajes sobre valoracin de accion para evitar contaminacion ambiental. Figura 2.3. Ilustracin de distribucin Normal de la variable edad. Figura 2.4. Ilustracin del grico de Caja y Bigotes, (Box-Plot) para la variable edad. Figura 2.5. Ilustracin del grico de Tallo y Hoja, (Stem-and-Leaf Plot) para la variable edad. Pgina 14 21 22 25 30 31
Figura 3.1. Grico Simple - Bivariado de las variables edad y sexo. 34 Figura 3.2. Grico Clustered - Bivariado de las variables edad, sexo y tipologa de productor. 34 Figura 3.3. Grico Stacked - Bivariado de las variables edad, sexo y tipologa de productor. 35 Figura 3.4. Grico Multivariado de las variables dicotmicas desde sp1 hasta sp6. 36 Figura 3.5. Grico Multivariado de las variables cuantitativas sp7 hasta sp12, (rea en Mz). 37 Figura 3.6. Grico Multivariado con un criterio de clasiicacin ex antes por municipio, para las variables cuantitativas sp7 hasta sp12, (rea en Mz). 38 Figura 3.7. Grico de Lnea con la opcin Simple, para la variable edad. 39 Figura 3.8. Grico de Lnea, con opcin Multiple para la variable edad y sexo. 39 Figura 3.9. Grico de Gotas, con opcin Drop-Line para la variable edad y sexo. 40 Figura 3.10. Grico de Pastel, para la variable tipologa de productor (a). 41 Figura 3.11. Grico de Pastel, para la variable Escolaridad del Productor (a). 41 Figura 3.12. Grico de Pastel, para las variables nmero total de mujeres y nmero total de hombres. 42 Figura 4.1. Relacin bivariada de municipios por procedencia. Figura 4.2. Relacin bivariada de las variables sexo por Visita Ud. la Alcaldia? Figura 4.3. Relacin bivariada de las variables sexo por escolaridad. Figura 4.4. Relacin bivariada de sexo por Cmo valora el servicio de recoleccin de Basura?. Figura 4.5. Relacin bivariada de las variables municipio por Cmo valora el servicio de limpieza de mercado. Figura 4.6. Relacin bivariada de las variables tipologa del productor(a) por estrato. Figura 5.1. Grico de error bar para los tratamientos. 46 48 50 52 53 55 61 65 66
Figura 6.1. Promedios del dimetro ecuatorial para los tratamientos. Figura 6.2. Grico de error bar para los tratamientos.
12
Figura 7.1. Ilustracin de los efectos aditivos de dos factores, o los factores son independientes. Figura 7.2. Ilustracin de efectos interactivos de dos factores, o los factores no son independientes. Figura 7.3. Ilustracin de los efectos interactivos sugeridos por los datos. Figura 7.4. Efecto de interaccin entre Variedad*Cepas. Figura 7.5. Grico de error bar para los tratamientos factoriales. Figura 8.1. Efecto Aditivo entre Densidad*Niveles de Nitrgeno Figura 8.2. Grico de error bar, de los tratamientos factoriales. Figura 9.1. Efecto de interaccin Labranza*Malezas. Figura 9.2. Efecto del factor Labranza y Malezas por separado. Figura 9.3. Grico de error bar, de los tratamientos factoriales.
68 68 69 74 75 81 81 88 89 89
Figura 10.1. Grico de dispersin para la regresin lineal. 93 Figura 10.2. Grico de simulacin de modelos para determinar la curva de mejor ajuste. 94 Figura 11.1. Tratamientos utilizados en el experimento bifactorial con plntulas de Tomate. Figura 12.1. Tratamientos del experimento con plntulas en invernadero de tomate, (micro tnel). Figura 12.2. Histograma de frecuencia para la variable Dimetro de Tallo Figura 13.1 a. Representacin grica del proceso de aglomeracin en agrupaciones anidadas. Figura 13.1 b. Representacin grica del proceso de aglomeracin en grico con forma de rbol, denominado como Dendrograma. Figura 13. 2. Un ejemplo de distancia euclidea entre dos objetos medidos sobre dos variables X e Y. Figura 13.3. Formacin Jerrquica de Conglomerados Aglomerativos de casos. Figura 13.4. Formacin Jerrquica de Conglomerados Aglomerativos, de casos, para la validacin de la solucin cluster preliminar. Figura 13.5. Formacin Jerrquica de Conglomerados Aglomerativos, de variables. 103
111 113
123 123 126 134 139 143
13
Captulo 1.
1.1 Introduccin.
Un sistema de informacin ya sea documental, estadstico o geogrico, en general es una herramienta de apoyo al desarrollo institucional y los datos que contiene requieren que sean analizados para lograr respuestas concretas sobre el o los problemas que se desean resolver. Por lo tanto, los sistemas de informacin son instrumentos de trabajo para los analistas, tcnicos, asesores de polticas y tomadores de decisiones, para apoyar los procesos de innovacin y desarrollo a nivel regional, nacional y/o local. En la igura 1.1, se ilustran las interrelaciones necesarias a partir de los problemas identiicados, hasta la seleccin de una alternativa de solucin en el proceso de toma de decisiones, (Pedroza, H.P. 1995).
Figura 1.1. Los sistemas de informacin como instrumentos de apoyo institucional.
En trminos estrictamente tcnicos, los sistemas de informacin deben entenderse como medios importantes para capturar, almacenar, procesar y recuperar la informacin pertinente, por medio de reportes de salida, para sustentar las decisiones institucionales que tengan que implementarse. Hoy en da, las organizaciones confan en la tcnica de investigacin cuantitativa, la encuesta, para conocer mejor y aprender lecciones en tiempo real sobre los problemas que deben resolver.
14 El problema principal a atender para muchas instituciones u organizaciones del sector agropecuario nacional, es que no cuentan con un sistema de informacin gerencial integrado en diversos aspectos, (produccin, educacin, poblacin, salud, etc.), que facilite el proceso de identiicacin, standardizacin, captura y devolucin de la informacin a usuarios, para mejorar el acceso/ disponibilidad de nuevos conocimientos y tecnologas, no solo de Nicaragua, sino de Amrica Central, Latino Amrica y el mundo, generadas por los diferentes actores del Sistema de Innovacin Tecnolgica de cada pas, (Universidades, ONG`s, Centros de Investigacin Pblicos y Privados, Programas Internacionales de cooperacin, etc). Actualmente, en la era de la informacin y el conocimiento, hay mucha informacin tecnolgica dentro del pas como tal, pero an hace falta un serio impulso en cuanto a la gestin del conocimiento para evidenciar, sistematizar esa informacin, y ponerla en lnea al servicio del usuario interesado: traducirla en conocimientos y tecnologas disponibles, accesibles y tiles para sus usuarios, productores, tcnicos, docentes, estudiantes, empresas de asistencia tcnica privada y coinanciada, etc. Por lo tanto, la informacin existente dispersa y no automatizada, diiculta los procesos de toma de decisin gerencial, soportados en un manejo efectivo de la informacin existente a nivel regional, nacional y local. Toda esta informacin, ejemplo datos de produccin, educacin, salud, tecnologa, poblacin, etc., podra estandarizarse y hacerse disponible a los usuarios, mediante estadsticas tiles, si se constituyen en un Sistema de Anlisis Estadstico con el software Statistical Packet for Social Science, (SPSS). Implementando mtodos de investigacin cuantitativa, realizados de manera correcta, el SPSS proporcionar a las organizaciones mucha informacin valiosa, basado en datos coniables, para fundamentar las decisiones institucionales. El anlisis de un sistema de anlisis estadstico, con la lexibilidad del SPSS, le ayudan al usuario a responder las preguntas que se desean sobre diversos problemas a resolver. Como todo sistema, el SPSS, funciona mediante un conjunto de elementos relacionados entre s con un propsito determinado. Esto es lo que caracteriza al SPSS, ya que es un sistema diseado para cumplir el propsito de aportar soluciones, mediante el anlisis estadstico para el cual existe. El SPSS funciona como un verdadero sistema, ya que maneja de forma integrada un sistema de base de datos (DBMS), con el que interactan un conjunto ordenado de mdulos y comandos, los cuales estn estructurados y relacionados para efectuar los procedimientos estadsticos, sobre las entradas o variables y producir las salidas deseadas o reportes. Lo que el SPSS analiza como sistema son los elementos deinidos por las variables de estudio y las relaciones entre ellas. Esta es la estructura imaginaria en la cual se basa el SPSS, para realizar los anlisis estadsticos que transforman los insumos (input/datos) en productos (output/hojas de salidas).
15 La idea bsica con que funciona el SPSS como sistema de anlisis estadstico es, que el conjunto de elementos organizados, dado por las variables cualitativas y cuantitativas, se encuentran en una interaccin o lujo continuo, buscando como cumplir una meta comn. Para lograr tal meta, el SPSS acta sobre los datos organizados en una estructura lgica, dentro de una base de datos, para producir la informacin de salida, como nuevos hallazgos o conocimientos, resultado del anlisis estadstico realizado. Como sistema, el SPSS establece diferentes relaciones entre sus elementos (variables), las que dentro del SPSS son relaciones sinrgicas fundamentalmente, ya que interacta con c/u de los mdulos (subsistemas) y entre los comandos (sub-subsistemas dentro de los mdulos), es decir, se refuerzan entre s para obtener los objetivos comunes; esto hace que el SPSS se comporte como un sistema ideal con relaciones optimizadas entre las variables. Es importante destacar que, en el sistema de anlisis estadstico con el SPSS, las interrelaciones entre las variables son orientadas al logro del resultado deseado, con mucha efectividad, de manera que sus procedimientos de anlisis estadstico conduzcan al objetivo deseado, todo ello realizado en un ambiente grico, en el cual todo el sistema del SPSS est inmerso. Tal como se expresa en el sitio web, http://www.spss.com/la/soluciones/analisis-encuestas.htm, el sistema de anlisis estadstico con el SPSS, facilita construir bases de datos desde internet, incluir datos de cuestionarios, desde hojas electrnicas, desde otras bases de datos, o encuestas telefnicas y/o entrevistas personales, etc. Estas herramientas reducen en gran medida el tiempo empleado en preparar los datos extrados de las encuestas para realizar el anlisis de la informacin. El SPSS, ofrece a los usuarios una amplia gama de estadsticas y tcnicas para el procesamiento de datos, siempre que se cuente con la preparacin apropiada para realizar el anlisis de los datos. Depender del inters del usuario elegir el procedimiento que considere ms adecuado segn los objetivos y el tipo de variables en estudio para obtener los reportes de salida que desee, (SPSS, 2004). 1.2 Operacin de Variables en SPSS.
Para iniciar el reconociendo del sistema de anlisis estadstico con el SPSS, se comienza por observar la barra de herramientas en la ventana de aplicacin -dentro del programa SPSS-, para lo cual se cita la experiencia expuesta por el Profesor Luis Dicovskyi, en Pedroza y Dicovskiy, 2003. Barra de Herramientas Debajo del men principal se encuentra la barra de herramientas, esta posee los siguientes comandos en forma de iconos. Open File Abre documentos Save File, Graba documentos Print, imprime. Dialog Recall, muestra un listado de operaciones recientes echas con SPSS. Con un clic se puede entrar en una de ellas. Goto Chart , activa un grico fuera del archivo, es una ventana.
16 Goto case, permite buscar un caso determinado. Variables, presenta informacin de las variables. Find, permite buscar un dato dentro de una variable. Insert case, permite insertar una ila. Insert variable, permite insertar una columna. Split File, permite partir la base de datos segn los valores de una variable. Wheight cases, permite analizar una variable segn los valores de otra variable. Select cases, permite seleccionar casos que cumplan unas condiciones dadas. Value labels, muestra las etiquetas de las variables. Use sets, selecciona un conjunto de variables predeinidas, para usarlas en un anlisis. 1.3 Deinicin de Variables en SPSS.
Al deinir una variable nueva se deben distinguir los siguientes aspectos que aparecen al hacer doble clic sobre ella. N ombre de la variable, deben cumplir los siguientes requisitos: Mximo de 8 caracteres. Deben comenzar con una letra y no pueden terminar con un punto. No pueden tener espacios en blanco ni caracteres especiales (,?,*...). No puede haber dos nombres de variables repetidas. El programa no distingue entre maysculas y minsculas No se pueden usar las letras: ALL, LT, AND, NE, AND, NE, BY, NOT, EQ, OR, GE, TO, GT, WIDT, LE.
Tipo, por defecto el SPSS asume que las variables son numricas, puede cambiarse el tipo pulsando el botn TYPE... Los tipos de variables son: Numrica, admite valores numricos, signos de + o -, decimales y notacin exponencial. El ancho mximo es de 40 caracteres y el nmero de decimales 16. Coma, aade a lo anterior la posibilidad de una coma para la separacin de miles. Dot, Funciona como el anterior, pero cambia comas por puntos. Fechas. Deine variables con formato predeinido de fecha. Dllar. Monedas. Atributos. String, para variables de texto. Label (Etiquetas), permite dar nombre completo a las variables y asignar un nombre a cada valor de la variable, esto se hace con variables discretas de pocos valores.
17 Missing values (valores perdidos), los que no sern tomados en cuenta al analizar, hay dos tipos de missing values: Los del sistema, cualquier casilla en blanco dentro de la matriz de datos. Los del usuario, en este caso se debe entrar en deine missing values y especiicar el valor que se asigna como missing. En las variables discretas de trabajo (un mximo de tres valores), en las variables continuas un intervalo o un intervalo y un valor fuera del mismo. Formato de columna, se puede cambiar el ancho de la columna y la alineacin del texto en el cuadro de dilogo de Dein Column Format. El ancho deinido no afecta los valores grabados en el archivo. Plantilla (Template), Si se abre Data/Template, se puede crear y guardar una plantilla para asignar formato a todo un grupo de variables. Se pueden hacer plantillas para variables como: das de la semana, meses del ao, SI - NO, Varn - Mujer, etc. Hay que usar el comando Deine para deinirla, y add para que quede guardada en la memoria. 1.4 Introduccin de Datos al Sistema SPSS.
La celda activa aparece con un borde ms grueso e identiicado en la parte superior izquierda de la pantalla del Editor. Una vez introducido un dato, dar Enter. A manera de ejercicio inicial, introduzca los datos de Rendimiento Acadmico22; de esta forma, ya se esta creando una base de datos dentro del SPSS, con los datos del grupo de clase.
Las variables a introducir son: 1) Nmero de boleta (variable numrica); 2) Nombre del estudiante (variable nominal); 3) Edad (variable numrica); 4) Sexo (variable dicotmica); 5) Procedencia (variable cuantitativa discreta: 1) Urbano, 2) Rural, 3) Periferia urbana); 6) Profesin (variable cuantitativa discreta); 7) Nombre del Municipio (variable cuantitativa discreta); 8) Estrato (variable cuantitativa continua); 9) Nota 1 (variable cuantitativa continua); 10) Nota 2 (variable cuantitativa continua); 11) Nota 3 (variable cuantitativa continua); 12) Dominio del tema (variable Likert); 13) Valoracin de la Metodologa (variable Likert); 14) Valoracin del curso con el SPSS (variable Likert); 15) Pertinencia del curso (variable dicotmica Si/No). 1.5 Procedimiento Bsico para realizar el Anlisis Estadstico con el SPSS.
Se deben cumplir tres operaciones bsicas: 1) Seleccionar una base de datos; 2) Seleccionar el procedimiento estadstico deseado; y 3) Seleccionar las variables a incluir en el anlisis y otros parmetros adicionales. En el presente texto, se toma como gua el procedimiento bsico para realizar el anlisis estadstico con el SAS, realizado por Pedroza P.H. (1995), pero superando el sistema de manejo de base de datos (DBMS) que le falta al SAS. Este salto cualitativo, se logra mediante el uso del SPSS, el cual tiene integrado un DBMS, a diferencia del SAS, que integra los procedimientos de anlisis estadstico con las variables a analizar dentro de un programa particular.
18 1.6 Control de Calidad de Datos.
Para iniciar a analizar los datos, la primera actividad sugerida es hacer un anlisis exploratorio de los datos con el comando Analyze/ Descriptive Statistics/ Explore. Este comando ofrece una serie de opciones para representar gricamente los datos, examinar visualmente las distribuciones de los valores, detectar valores anormales y realizar pruebas de normalidad con variables continuas. El anlisis exploratorio previo es til para: a) Detectar errores en los datos, observando los valores anormales; b) Observar la distribucin de los datos, permite conocer si hay valores extremos, variabilidad inesperada, rango de datos vacos o un patrn extrao en el comportamiento de los datos; c) Preparar los datos para pruebas de hiptesis posteriores, esto en funcin de la distribucin observada. Se puede incluso concluir que los datos deban sufrir transformaciones para prepararlos para un determinado anlisis.
19
Captulo 2.
2.1
Estadsticas Descriptivas.
Anlisis Descriptivo de una Variable Cualitativa en Escala N ominal.
Este anlisis es aplicable en situaciones en que los valores de una variable son no numricos, con ausencia de orden entre ellos. Se dice que la variable correspondiente es de tipo cualitativo y que la escala de medida de sus posibles valores es nominal. La presentacin de datos cualitativos suele hacerse indicando los atributos considerados y su frecuencia de aparicin. La tabla que recoge las frecuencias de las modalidades, se denomina Distribucin de Frecuencias de la variable, (Ferran, A. M., 1996). Para ilustrar el anlisis descriptivo de una variable cualitativa en escala nominal, se utilizar la variable escolaridad, en la Base de Datos SURVEY33. En lo sucesivo el trmino Base de Datos ser BDD. Para desarrollar el anlisis de Frecuencia, se utiliza la rutina de comandos siguiente: Analyze/Descriptives Statistics/Frequencies/ en la ventana de dilogo Variable(s), debe incluirse la variable a analizar, en este caso se incluye la variable Escolaridad; se debe seleccionar Display frequency tables; luego en la opcin Charts, se seleccionan Bar charts, Percentages o frequency y Continue. En la opcin statistics, se selecciona Mode. El anlisis de frecuencia facilita obtener tablas de Frecuencias, gricos de barras e histogramas, clculo de percentiles, ndice de tendencia central e ndices de dispersin. La salida solicitada al SPPS, es la siguiente.
Cuadro 2.1. Anlisis de frecuencia de la variable cualitativa en escala nominal, escolaridad.
Escolaridad de la persona Valid Percent 27.5 12.2 25.7 24.2 4.7 5.6 100.0 Cumulative Percent 27.5 39.7 65.5 89.6 94.4 100.0
Valid
Missing Total
Primaria Incompleta Primaria Completa Secundar Incompleta Secundaria Completa Tcnico medio Analfabeta Total 0
Frequency 122 54 114 107 21 25 443 71 514
Percent 23.7 10.5 22.2 20.8 4.1 4.9 86.2 13.8 100.0
La tabla de frecuencias presenta la informacin en columnas con las descripciones siguientes: Valid: Que muestra la etiqueta deinida para cada categora. Frequency. Que muestra la frecuencia absoluta para cada categora. Percent. Que muestra la frecuencia relativa, incluyendo valores perdidos. Valid Percent. Que muestra la frecuencia relativa, eliminando de la muestra los valores perdidos Cumulative Percent. Que muestra la frecuencia relativa acumulada, sin los valores perdidos.
20 El grico solicitado al SPSS, es el siguiente:
Figura 2.1.
Porcentaje de escolaridad de las personas encuestadas.
En este caso, el valor de la Moda solicitado es = 1. Esto indica que el valor que ms se repite es la escolaridad Primaria incompleta. El anlisis del grico de barras, es el correcto para variables cualitativas en escala nominal, dado que son variables deinidas en categoras con valores asignados de una variable discreta. Sin embargo, en el caso de variables continuas, el grico de histogramas -solicitando la frecuencia del mismo-, es el anlisis grico correcto que se recomienda realizar. 2.2 Anlisis Descriptivo de una Variable Cualitativa en Escala Ordinal.
Este anlisis es aplicable en situaciones en que los valores de una variable son no numricos, con presencia de orden entre ellos. Se dice que la variable correspondiente es de tipo cualitativo y que la escala de medida de sus posibles valores es ordinal. La tabla que recoge las frecuencias de las modalidades, se denomina Distribucin de Frecuencias de la variable. En el ejemplo anterior, por ser la variable medida en escala nominal, no tena sentido analizar la acumulacin de los porcentajes. No obstante, en el caso de una variable cualitativa en escala ordinal, si tiene sentido estudiar la suma de los porcentajes correspondientes a todos los valores inferiores o iguales a uno dado, (Ferran, A. M., 1996). Este anlisis es apropiado para variables de tipo Likert. Para ilustrar el anlisis descriptivo de una variable cualitativa en escala ordinal, se utilizar la Base de Datos SURVEY33, donde se encuentra la variable de tipo Likert, Como valora la accion para evitar la contaminacion del Medio Ambiente. Para el anlisis de Frecuencia, se utiliza la rutina de comandos: Analyze/Descriptives Statistics/Frequencies/ en la ventana de dilogo Variable(s), debe incluirse la variable a analizar, en este caso se incluye la variable Como valora la accion para evitar la contaminacion del Medio Ambiente; se debe seleccionar Display frequency tables; luego en la opcin Charts, se seleccionan Bar charts, Percentages y Continue. En la opcin statistics, se selecciona Mode, Median, y Percentile 25, 50 y 75. El anlisis de frecuencia solicitado al SPPS, es el siguiente.
21
Cuadro 2.2. Anlisis de frecuencia de la variable cualitativa en escala ordinal, Como valora la accion para evitar la contaminacion del medio ambiente
Como valora la accion para evitar la contaminacion del Medio Ambiente Frequency Valid Excelente Muy buena Buena Regular Mala Total 0 6 16 119 174 162 477 37 514 Percent 1.2 3.1 23.2 33.9 31.5 92.8 7.2 100.0 Valid Percent 1.3 3.4 24.9 36.5 34.0 100.0 Cumulative Percent 1.3 4.6 29.6 66.0 100.0
Missing Total
El anlisis del grico de barras, es el correcto para variables cualitativas en escala ordinal por cuanto son variables deinidas en categoras con valores asignados de una variable discreta.
40 36 34 30
Porcentaje
25
20
10
3 0 Excelente Muy buena B uena Regular Mala
Como valora la accion para evitar la contaminacion del Medio Ambiente
Figura 2.2.
Porcentajes sobre valoracin de accion para evitar contaminacion ambiental.
El comando statistics, da un valor de la Moda = 4. Esto signiica que el valor ms frecuente es la categora Regular; y la mediana es = 4, lo que indica que los datos ordenados segn su magnitud, la categora que esta en el centro es Regular, esto signiica que el 50 % de los datos es menor o igual que l y restante 50 % es mayor o igual que l. Otros estadsticos para medir la posicin de los datos son los n-tiles, los que representan los n-1 valores que dividen la distribucin de la variable en n partes, tales que todas ellas contiene el mismo porcentaje de observaciones.
22 Los percentiles, por ejemplo, dividen la distribucin de la variable en 100 partes, tales que cada una contiene el 1% de las observaciones. Los deciles, dividen la distribucin de la variable en 10 partes, tales que cada una contiene el 10% de las observaciones. Los quartiles, dividen la distribucin de la variable en 4 partes, tales que cada una contiene el 25% de las observaciones. En particular, los quartiles, coinciden con los percentiles 25, 50, y 75, (Ferran, A. M., 1996). En el caso de la variable Como valora la accion para evitar la contaminacion del Medio Ambiente, en al menos el 75% de las personas encuestadas sealan que la accin es mala; en al menos el 50 % de las personas encuestadas sealan que la accin es regular; y en al menos el 25 % de las personas encuestadas sealan que la accin es buena., vease en la tabla de statistics, los valores de 5, 4, y 3 de los percentiles 75%, 50% y 25%, respectivamente. 2.3 Anlisis Descriptivo de una Variable Cuantitativa en Escala de Intervalo o Razn.
Existen situaciones en que la tcnica estadstica que se utilizar, exige que las variables implicadas sigan una distribucin Normal. En situaciones en que los valores de una variable son numricos, pudiendo tomar cualquier valor en un intervalo determinado, se dice que la variable correspondiente es cuantitativa continua. Si la variable unicamente pudiera tomar una cantidad inita de valores, se dira que es cuantitativa discreta. Si adems, tiene sentido hablar de la razn entre sus valores, se dir que la variable est medida en escala de razn. Si unicamente tuviera sentido hablar de la diferencia entre sus valores, careciendo de sentido numrico la razn entre ellos, se dira que la variable est medida en escala de intervalo, (Ferran, A. M., 1996). Para ilustrar el anlisis de frecuencia de una variable cuantitativa continua o discreta, se utilizar la Base de Datos FARMERS22, donde se encuentra la variable edad. El anlisis de la normalidad de los datos, tiene un sentido de control de calidad de los datos, se utiliza la rutina de comandos: Analyze/Descriptives Statistics/Frequencies/ en la ventana de dilogo Variable(s), se incluye la variable a analizar, en este caso se incluye la variable Edad; se debe seleccionar Display frequency tables; luego en la opcin Charts, se seleccionan Histograms, With N ormal curve, y dar Continue. En la opcin statistics, se selecciona Mean, Median, Mode, Skewness, Kurtosis y Quartiles, y dar Continue. El anlisis solicitado al SPPS, se presenta en el cuadro siguiente.
23
Cuadro 2.3. Anlisis de frecuencia de la variable edad.
24
Cuadro 2.4. Anlisis de normalidad de la variable, edad, mediante el uso de Frequencies.
En el cuadro 2.3., se muestra el anlisis de frecuencia de la variable edad. En el cuadro 2.4., la salida statistics proporciona los valores de la media, mediana y moda, as como los valores de Kurtosis = 0.431, y Skewness (Asimetra) = 0.585.
Figura 2.3.
Ilustracin de distribucin N ormal de la variable edad.
Un histograma es un grico de la distribucin de los valores de variables cuantitativas en la que los datos son agrupados en intervalos de la misma longitud, y cada uno de los posibles intervalos se representan mediante un rectngulo de rea proporcional a la frecuencia de datos en el intervalo correspondiente. El punto medio de cada intervalo, denominado marca de clase, permitir identiicar el grupo valores en el intervalo dado, (Ferran, A. M., 1996). El histograma con la curva normal, muestra la tendencia de normalidad de los datos. Una parte muy importante para el anlisis de la normalidad de los datos es considerar los coeicientes de Kurtosis y Skewness (Asimetra), proporcionados por el comando statistics y presentados en el cuadro 2.4.
25 El coeiciente de Kurtosis, es una medida de la concentracin de la distribucin en torno a la media. Si la variable sigue una distribucin Normal, su valor de Kurtosis ser cero. Valores mayores a cero, indican que la distribucin tiende a concentrase en torno a la media ms que en una distribucin Normal; mientras que valores menores que cero, indican que tiende a dispersarse ms. El coeiciente de Skewness (Asimetra), como su propio nombre lo indica, es una medida de la asimetra de la distribucin de los valores respecto a la media. Si la distribucin de la variable es simtrica, su valor ser igual a cero. Valores mayores que cero, indicarn que las desviaciones a la media son mayores para los valores superiores a la media que para los valores inferiores; mientras que valores menores que cero indicarn que las desviaciones a la media son mayores para los valores inferiores a la media que para los valores superiores, (Ferran, A. M., 1996). En el anlisis de la variable edad, el valor de Kurtosis = 0.431, y de Skewness = 0.585, estn en correspondencia con el histograma de frecuencias, que muestra la tendencia Normal de los datos. Esto se conirma con el analisis de Normalidad de los datos, por medio de la prueba Kolmogorov-Smirnov. Para realizar la prueba de Kolmogorov-Smirnov (K-S), dentro del SPSS, se utiliza el mdulo Analyse/ Nonparametric test/ Sample KS. Luego, en la ventana de dilogo que aparece, se declara la variable dependiente que se desea veriicar la normalidad de los datos, (se marca en Test de Distribucin la opcin N ormal). El resultado es el siguiente.
Cuadro 2.5. Prueba de Kolmogorov-Smirnov para la variable edad.
Edad (en aos)
El valor de Signiicancia obtenido de 0.399 > 0.05, implica que se acepta la hiptesis de normalidad para la variable edad. En resumen la prueba de K-S reconoce como variable Normal las mediciones para variable edad. Esto conirma la regla de que, en una distribucin Normal, tanto el coeiciente de Kurtosis como el coeiciente de Skewness (Asimetra), deberan ser prximos a cero. Otra rutina muy importante para analizar las caractersticas de una variable cuantitativa continua o discreta, es el uso del comando Descriptives, que facilita obtener directamente: ndices de Posicin, ndices de Tendencia Central, ndices de Dispersin y Distribucin. Realmente, la ruta del comando Descriptives del SPSS, representa una forma muy efectiva de obtener la misma informacin que proporciona el comando Frequencies, pero de otra manera.
26 Para ilustrar el uso del comando Descriptives, se carga la variable edad desde la BDD FARMERS22. La rutina de comandos es: Analyze/Descriptives Statistics/ Descriptives / en la ventana de dilogo Variable(s), se incluye la variable Edad; luego en Options, se seleccionan Mean, Sum, Minimum, Maximum, Std Deviation, Variance, Range, Skewness, Kurtosis, y dar Continue. Luego OK. El anlisis descriptivo de los datos, se presenta en el cuadro 2.6.
Cuadro 2.6. Anlisis descriptivo para la variable edad, mediante el comando Descriptives.
Otra forma de obtener las estadsticas descriptivas que caracterizan una variable cuantitativa, es hacer uso del Comando Explore. La ruta del comando Explore, permite al usuario obtener de forma muy efectiva los ndices siguientes: 1) Indices de posicin son: Cuartiles q1 25%, q2 50% (mediana) y q3 75% y centiles; 2) Indices de tendencia central: Media, Mediana, Moda, Suma de todos los valores; 3) Indices de dispersin: Desvo Estndar, Variancia, Rango, Error Estandar, Valor mayor y menor; 4) ndices de distribucin: Coeiciente de Asimetra, y Kurtosis. Para ilustrar el uso del comando Explore, se carga la variable edad en la Base de Datos FARMERS22. La rutina a seguir es: Analyze/Descriptives Statistics/Explore / en la ventana de dilogo Dependent List, se incluye la variable Edad; luego en Statistics, seleccionar Descriptives, Outliers, y Percentiles, y dar Continue. En la opcin Plots, seleccionar Stem and Leaf. Luego, dar OK. El anlisis de los datos, se presenta en el cuadro siguiente.
27
Cuadro 2.7. Anlisis descriptivo para la variable edad, mediante el comando Explore.
Descriptives
Statics Edad (en aos) Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 49.92 47.66 52.17 Std. Error 1.14
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
49.49 49.00 175.404 13.24 22 94 72 17.00 .585 .431 .209 .414
En el Cuadro 2.7., el anlisis descriptivo para la variable edad, dado por el comando Explore, el que permite obtener: 1) Media, mediana, desviacin estndar, variancia, etc. ; 2) El 5% de Trimmed mean (media recortada) es la media aritmtica eliminando el 5% de los datos con los valores ms bajos y el 5% con los ms altos; 3) El intervalo de conianza de la media al 95%; 4) Rango intercuartlico (puntuacin del centil 75). El anlisis descriptivo dado por el comando Explore, presentado en el Cuadro 2.7., tiene un sentido de control de calidad de los datos y facilita conocer tanto la tendencia central como la dispersin de los valores de la variable edad. En el ejemplo anterior, caso de una variable cualitativa en escala ordinal, se deini la mediana como una medida de tendencia central. Sin embargo, la medida de tendencia central ms comnmente utilizada para variables cuantitativas continuas, es la media aritmtica de los valores observados, en este caso igual a 49.92. Por otra parte, el rango como medida de la dispersin de los datos, presenta el inconveniente de que nicamente depende de los dos valores ms extremos (mnimo y mximo), en este caso igual a 72. Una alternativa para medir la dispersin de los datos, que considera todos los valores observados, es la varianza, deinida como el promedio de los cuadrados de las desviaciones de cada observacin respecto a la media. Si los valores de los datos estn muy concentrados, las desviaciones respecto a la media sern pequeas y viceversa. En consecuencia, sus cuadrados tambin lo sern. En este caso la varianza y desviacin estndar obtenidas son 175.40 y 13.24, respectivamente. Para saber que tan grande o pequea es la desviacin respecto a su media, lo que se hace es calcular el Coeiciente de Variacin, deinido como el cociente entre la desviacin tpica y la media, (Ferran, A. M., 1996). Los valores extremos (Outliers), dados en la salida del comando Explore, presentan los cinco valores ms altos (highest) y los cinco valores ms bajos (lowest), lo que facilita encontrar aquellos datos aberrantes o valores atpicos, en la distribucin de la variable edad.
28
Cuadro 2.8. Valores extremos (Outliers) para la variable edad.
Number
Value
Por otra parte, los percentiles de la variable edad presentados en el Cuadro 2.9., son parte de la salida del comando Explore. Los percentiles 25 y 75, (igual a 40 y 57) denominados q1 y q3, ayudan a conocer la distribucin de los datos, ya que contienen el 50 % de los datos ms centrados, en el sentido de que el lmite inferior q1 deja por debajo de l al 25 % de los casos; y el lmite superior q3, deja por encima de l al 25% de los casos, (Ferran, A. M., 1996).
Cuadro 2.9. Percentiles para la variable edad, mediante el comando Explore.
Percentiles Weighted Average(Definition 1) Edad (en aos) 30.80 34.00 40.00 49.00 57.00 68.80 75.00
Percentiles 5 10 25 50 75 90 95
Tukey's Hinges Edad (en aos)
40.00 49.00 57.00
29
79
65
Figura 2.4. Ilustracin del grico de Caja y Bigotes, (Box-Plot) para la variable edad.
La mediana es una medida de tendencia central basada en percentiles, funcionando como una medida alternativa a la media. La mediana se muestra en la grica como la lnea horizontal ms gruesa dentro de la caja, corresponde al segundo cuartil. Por su parte, el rango intercuartlico deinido como la diferencia entre el tercer y el primer cuartil, puede considerarse como una alternativa a la desviacin tpica para medir la dispersin de los datos. Los bigotes inferior y superior al mnimo y al mximo valor, tales que su distancia a los lmites inferior y superior, respectivamente, de la caja es inferior a una vez el rango intercuartlico. En el caso de que un valor diste de los lmites inferior o superior de la caja ms de una vez el rango intercuartlico ser considerado como un valor aislado o extremo, y se representar mediante los smbolos o, si dista menos de una vez y medio, y x si dista ms de una vez y media, (Ferran, A. M., 1996). En la igura 2.4, se muestra el grico de Caja y Bigotes, (Box-Plot), que representa los Cuartiles en forma grica, la cual es parte de la salida del comando Explore, proporcionada de manera automtica (by default). En esta grica, se observa la caja que representa el rango intercuartlico y contiene el 50 % de los datos. Los lmites inferior y superior de la caja corresponden a los cuartiles primero y tercero respectivamente (q1 y q3,); en consecuencia, la altura de la caja coincide con el rango intercuartlico; cada bigote representa un cuartil 25 y 75, que en el caso de la variable edad son igual a 40 y 57 aos. As mismo, la mediana segundo cuartil, en este caso coincide con la edad de 49 aos, vese el el grico de Caja y Bigotes.
30 En resumen, el grico de Caja y Bigotes, (Box-Plot), contiene el 25 % de los valores ms pequeos entre el mnimo valor y el lmite inferior de la caja; contiene el 25 % de los siguientes valores, entre el lmite inferior y la barra dentro de la caja; contiene el 25 % de los siguientes valores, entre la barra y el lmite superior de la caja; y contiene el 25 % de los valores restantes, por encima del lmite superior de la caja, (Ferran, A. M., 1996). Adems del grico de Caja y Bigotes, (Box-Plot), otra forma grica alternativa para describir la distribucin de una variable cuantitativa continua o discreta, es el grico de Tallo y Hoja (Stem and Leaf Plot). En la igura 2.5, se presenta la salida de este graico solicitado al SPSS, para el caso de la variable edad. Edad (en aos) Stem-and-Leaf Plot Frequency Stem & . . . . . . . . . . . . . Leaf
3.00 2 1.00 2 10.00 3 14.00 3 26.00 4 14.00 4 23.00 5 15.00 5 11.00 6 5.00 6 6.00 7 4.00 7 1.00 8 2.00 Extremes Stem width: Each leaf:
244 7 0012223444 56666788889999 00000000122222223333333444 55666778899999 00000012222222222233444 555556667778888 00001122233 77788 002334 5567 2 (>=86)
10 1 case(s)
Figura 2.5. Ilustracin del grico de Tallo y Hoja, (Stem-and-Leaf Plot) para la variable edad.
El grico de Tallo y Hoja, igual que en el grico del histograma, proporciona informacin sobre la distribucin de los datos presentndolos agrupados en intervalos de la misma longitud, cada uno de los cuales se presenta mediante una lnea de dgitos, con longitud proporcional a la frecuencia de datos en el mismo, lo cual permite identiicar los distintos valores en un mismo intervalo. En concreto, cada lnea de dgitos corresponde a la descomposicin de los valores de la variable en dos partes: el Tallo y la Hoja, (Ferran, A. M., 1996).
31 Por ejemplo, en la primera ila del grico de Tallo y Hoja, en el margen izquierdo, se indica que la frecuencia es igual a 3, coincidiendo con el nmero de hojas de la lnea, y en la parte inferior del grico se indica que cada hoja corresponde a un caso (Each leaf: 1 case(s)); la amplitud del tallo es igual a 10 (Stem width: 10). En consecuencia, en la primera ila del grico de Tallo y Hoja, estn representados tres casos y, teniendo en cuenta que cada valor se obtiene como un producto de AxT.H., donde A es la amplitud del tallo, T es el tallo y H la hoja, los tres valores correspondientes a la primera ila son: 22, 24, 24. Otro ejemplo, tal como sigue: En la tercera ila, hay una frecuencia de 10 valores, estos son: 30, 31, 32, 33, y 34, con frecuencias de 2, 1, 3, 1, y 3 respectivamente. Finalmente, se observa en la ltima lnea del grico de Tallo y Hoja, el valor de 2 casos extremos mayores o igual que 86 aos de edad. El criterio para considerar que un caso es extremo, es el mismo que en el grico de Caja y Bigotes. Una de las ventajas del sistema de anlisis estadstico con SPSS, es la gran lexibilidad que tiene para realizar una gama de anlisis estadsticos. Una vez que ya se tiene la descripcin de las variables que se desean analizar, se procede a aplicar el mtodo de anlisis pertinente segn el caso. Esta va desde el ms simple como una prueba de t, interactuando siempre con el conjunto variables disponibles en la base de datos, -cualitativas y/o cuantitativas- hasta realizar complejos anlisis de varianza unifactoriales o multifactoriales, univariados o multivariados. Para ilustrar el uso de la prueba de t para muestras independientes, se carga la variable edad en la base de datos FARMERS22. La rutina a seguir es: Analyze/Compare Means/Independent Samples T Test / en la ventana de dilogo Test Variables (s), se incluye la variable Edad; luego en Grouping Variable(s), se debe incluir la variable que clasiica ambos grupos, en este caso incluir la variable Sexo, luego en Deine Groups, escribir en Group 1: 1; y en Group 2: 2; y dar Continue. Luego, dar OK. El anlisis de los datos, se presenta en el cuadro siguiente.
Group Statistics Sexo Edad (en aos) Varn Mujer N 119 16 Mean 50.19 47.88 Std. Deviation 13.07 14.75 Std. Error Mean 1.20 3.69
Independent Samples Test

Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -4.67 -5.82 9.31 10.45
F Edad (en aos) Equal variances assumed Equal variances not assumed .521
Sig. .472
t .656 .598
df 133 18.309
Sig. (2-tailed) .513 .557
Mean Difference 2.32 2.32
Std. Error Difference 3.53 3.88
32
Captulo 3.
3.1
El Mdulo Operativo Graphs del SPSS.
El Sistema de Anlisis Estadstico del SPSS.
El Sistema de Anlisis Estadstico SPSS, es un sistema amplio y lexible de anlisis estadstico y de gestin de base de datos en un entorno grico. En pocas palabras, SPSS en un software estadstico con grandes propiedades gricas integradas dentro de un mismo sistema, que facilita tanto el anlisis estadstico de los datos, como su ilustracin grica. El SPSS, aunque se maneja mediante mens descriptivos y cuadros de dilogo, la comunicacin con el sistema se realiza mediante instrucciones que se agrupan en mdulos. El mdulo principal, llamado Base, es indispensable para manejar cualquier otro mdulo. El mdulo Base, permite manejar la programacin en general, la deinicin y manejo de datos, manejo de archivos, etc., procedimientos estadsticos que van desde el anlisis descriptivo, anlisis grico, hasta realizar los Modelos Paramtricos de ANOVA, MANOVA, Regresin Lineal Simple, Regresin Mltiple, Pruebas N o Paramtricas, etc., pasando por diversos mtodos inferenciales y generacin de gricos de alta resolucin, Ferran A., M. (1996). 3.2 El Anlisis Grico con el Mdulo Operativo Graphs.
Una de las propiedades ms destacadas del SPSS, es su enorme capacidad y facilidad para generar gricos de alta resolucin. Dentro del SPSS, a su vez hay otros mdulos operativos, tales como: File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Windows y Help. Dentro del mdulo operativo Graphs, existen diversas opciones, que por su facilidad de aplicacin, tambin conducen fcilmente a un mal uso o abuso de las propiedades gricas del SPSS. Debe tenerse el extremo cuidado de solicitar al SPSS, el grico adecuado haciendo uso de las variables apropiadas. Hay que tener presente que cualquier variable que se desea analizar, stas corresponden con uno de estos tres tipos: 1) Variable Cualitativa en Escala Nominal; 2) Variable Cualitativa en Escala Ordinal; 3) Variable Cuantitativa en Escala de Intervalo o Razn. Cada una de estas variables, tienen sus caractersticas que las deinen y diferencian de las dems; por tanto, segn el tipo de variable y sus caractersticas, as ser deinido el anlisis grico que se le solicite realizar al SPSS. 3.3 El Comando Bar dentro del Mdulo Operativo Graphs.
El comando Bar, tiene tres opciones de gricos en forma de barras, entre las que se pueden seleccionar: 1) Simple, 2) Clustered (Agrupadas) y 3) Stacked (Apiladas). Cada una de estas tres opciones de barras, a su vez, se pueden combinar con tres alternativas ms, tales son: a) Summaries for groups of cases, que es la opcin para generar gricos bivariados; b) Summaries of separate variables, que es la opcin para generar gricos multivariados y c) Values of individual cases, que es la opcin para generar gricos univariados. Para ilustrar el anlisis grico Simple, se utilizar las variables edad y sexo, que se encuentran en la Base de Datos FARMERS22. Para desarrollar el grico Simple, se utiliza la rutina de comandos siguiente: Graphs/ Bar/ Simple/ Summaries for groups of cases / Deine/ en la ventana de dilogo,
33 primero se debe seleccionar Other Summary functions; luego, en la ventana Variable, debe incluirse la variable a analizar, en este caso se incluye la variable Edad; despus en la ventana Category Axis, se debe incluir la variable que corresponder al eje X, en este caso Sexo. Dar Ok. El grico solicitado al SPPS, es el siguiente.
55,0
52,5
50,0
50,2
47,5
47,9
45,0
42,5
40,0 V arn Mujer
Sexo
Figura 3.1.
Grico Simple de las variables edad y sexo.
Para ilustrar el anlisis grico Clustered, se utilizar las variables edad por sexo, que se encuentran dentro de la Base de Datos FARMERS22. Para desarrollar el grico Clustered, se utiliza la rutina de comandos siguiente: Graphs/ Bar/ Clustered/ Summaries for groups of cases / Deine / en la ventana de dilogo, primero se debe seleccionar Other Summary functions; luego, en la ventana Variable, debe incluirse la variable a analizar, en este caso se incluye la variable Edad; despus en la ventana Category Axis, se debe incluir la variable que corresponder al eje X, en este caso Sexo; despus en la ventana Deine Clusters by, se debe incluir la variable que constituye el cluster, en este caso se incluye la variable Tipologa de Productor(a). Dar Ok. El grico solicitado al SPPS, es el siguiente.
80
73
70
60
54
Tipologa
Pequea: 1 a 10 Mz
47 45
50
49
51
Mediana: >10 a 40 Mz Grande: > 40 Mz
40 Varn Mujer
Sexo
Figura 3.2.
Grico Clustered - Bivariado de las variables edad, sexo y tipologa de productor. Instituto Interamericano de Cooperacin para la Agricultura (IICA)
34 Para ilustrar el anlisis grico Stacked, se utilizar las variables edad por sexo, que se encuentran dentro de la Base de Datos FARMERS22. Para desarrollar el grico Stacked, se utiliza la rutina de comandos siguiente: Graphs/ Bar/ Stacked/ Summaries for groups of cases / Deine /en la ventana de dilogo, primero se debe seleccionar Other Summary functions; luego, en la ventana Variable, debe incluirse la variable a analizar, en este caso se incluye la variable Edad; despus en la ventana, Category Axis, se debe incluir la variable que corresponder al eje X, en este caso Sexo; despus en la ventana Deine Stacks by, se debe incluir la variable-criterio para apilar las barras, en este caso se incluye la variable Tipologa de Productor(a). Dar Ok. El grico solicitado al SPPS, es el siguiente.
200
73
Mean Edad (en aos)
54
100
51 45
Tipologa
Grande Mediana Pequea 0 Varn Mujer
49
47
Sexo
Figura 3.3.
Grico Stacked - Bivariado de las variables edad, sexo y tipologa de productor.
3.4
El Comando Bar para Generar Gricos Multivariados.
Una segunda ruta para generar gricos en SPSS, es hacer uso de la opcin Summaries of separate variables, que es la opcin para generar gricos multivariados. Esta opcin es muy til para graicar variables dicotmicas, del tipo Si / No. Es una opcin valiosa, sobre todo en aquellos casos que se tienen variables de seleccin mltiple, Si / No, tantas como sean necesarias. De este modo, el SPSS genera un grico multivariado, en el cual se muestra la informacin de muchas variables simultneamente, en un mismo plano cartesiano. De hecho, el SPSS computa todas las respuestas Si, generando el grico multivariado en base al porcentaje de respuestas airmativas de cada una de las variables, donde cada barra generada en el grico corresponde a una variable. Para ilustrar el uso de la opcin Summaries of separate variables, se utilizarn las variables codiicadas sp1 hasta sp6, las que se describen en el cuadro 3.1, las mismas que se encuentran dentro de la BDD FARMERS22.
35
Cuadro 3.1. Actividad agropecuaria-forestal a la cual se dedican los productores es?:
Marque con una X su opcin u opciones seleccionada (s) (sp1). Caicultura (sp2). Agricultura en general (sp3). 3). Ganadera en general (sp4). Agricultura de Patio (sp5). Explotacin del Bosque (sp6). Tacotales
Si
No
Escriba el rea en Mz (sp7). (sp8). (sp9). 9). (sp10). (sp11). (sp12).
Para desarrollar el grico multivariado, se utiliza la rutina de comandos siguiente: Graphs/ Bar/ Simple/ Summaries of separate variables/ Deine /en la ventana de dilogo Bars Represent, deben incluirse las variables a analizar, en este caso se incluyen las variables sp1 hasta sp6; luego las variables incluidas dentro de la ventana, se marcan para usar la opcin Change Summary, despus se selecciona la opcin percentage inside y marcar 1 en Low y 1 en High. Dar Continue y Ok. El grico solicitado al SPPS, es el siguiente.
120
% de respuestas afirmativas
100
100
80
80
60
60 46
40 25 20 19
0
Ag tu ul ric ra en Bo an G Ta tu ul fi c Ca ra Pa tio er a en ge ne er ra l n ge t co u sq ad
es al
Figura 3.4.
Grico Multivariado de las variables dicotmicas desde sp1 hasta sp6.
Por otra parte, haciendo uso de la opcin Summaries of separate variables, tambin pueden generarse gricos multivariados a partir de variables cuantitativas continuas o discretas. En este caso, las variables de seleccin mltiple (continuas o discretas), se marcan en funcin del estadstico que se desea, por ejemplo la media, la moda, la mediana, la varianza, la desviacin estndar, etc. De este modo, el SPSS genera un grico multivariado, que muestra la informacin de muchas variables simultneamente, pero en base al estadstico seleccionado.
36 Para ilustrar el uso de la opcin Summaries of separate variables, pero a partir de variables cuantitativas continuas o discretas, se utilizarn las variables sp7 hasta sp12, que se describen en el cuadro 3.1, las mismas que se encuentran dentro de la BDD FARMERS22. Para desarrollar el grico multivariado, se utiliza los comandos siguientes: Graphs/ Bar/ Simple/ Summaries of separate variables/ Deine/en la ventana de dilogo Bars Represent, deben incluirse las variables a analizar, en este caso se incluyen las variables desde sp7 hasta sp12; luego las variables incluidas dentro de la ventana, se marcan para usar la opcin Change Summary, despus se selecciona la opcin Mean of values. Dar Continue. Luego, ir a Options y seleccionar exclude cases variable by variable. Dar Continue. Luego darle Ok. El grico solicitado es el siguiente.
30
25
20
Mean
10 7 6 3 0 5 2
e Ar
e Ar
Ar
tio Pa ea a Ar er ad an G ea ra Ar tu ul ric Ag ea ra Ar tu ul ic af C
ea
a Bo ue sq
a s le ta co Ta
Figura 3.5.
Grico Multivariado de las variables cuantitativas sp7 hasta sp12, (rea en Mz).
Una forma sencilla de veriicar la informacin ofrecida en el grico multivariado para variables cuantitativas continuas o discretas, es solicitarle (por separado) al SPSS que presente las estadsticas de las variables incluidas en el grico multivariado; tal como se presenta en el cuadro siguiente.
Cuadro 3.2. Estadsticas de las variables cuantitativas continuas incluidas en el grico multivariado.
Statistics
Area Caficultura N Mean Valid Missing 135 0 6.2019 Area Agricultura 107 28 3.0958 Area Ganadera 80 55 24.7250 Area Patio 26 109 1.6154 Area Bosque 62 73 7.3065 Area Tacotales 34 101 5.0735
37 Otra ruta muy valiosa para extraer la mayor riqueza posible de los datos disponibles, es solicitar al SPSS el grico multivariado, pero con un criterio de clasiicacin ex antes la informacin. Tal clasiicacin ex antes, se logra reorganizando la base de datos, dentro del modulo operativo Data, usando el comando Split ile. Por ejemplo, para obtener el grico multivariado de las variables sp7 hasta sp12, pero por cada municipio involucrado en el estudio, se le puede solicitar al SPSS, que organice la salida por municipio. La rutina de comandos a usar es: Data/ Split ile/ Organize output by groups/ en la ventana de dilogo se debe incluir la variable de clasiicacin, en este caso se incluye la variable N ombre del Municipio/ Dar OK. Siguiendo esta ruta, la base de datos se reorganiza por municipio. Posteriormente, al realizar la rutina para solicitar el grico multivariado de las variables sp7 hasta sp12, la salida ser ejecutada por municipio. La salida solicitada del grico multivariado por municipios, (por lo extensa que es), se presenta aqu solo para dos del total de municipios involucrados, tal como sigue.
MUNICIPI:
16 14 12 10 8 6 5 4 2 0 Area Cafic ultura
Nandaime
12 14 10
MUNICIPI:
Diriomo
10 9
Mean
Mean
7 6 6 6
4 2 1 3
4 3 2 Area Cafic ultura Area Ganadera Area Bosque Area Tacotales
Area Ganadera
Area Bosque Area Tacotales
Area Agric ultura
Area Patio
Area Agric ultura
Area Patio
Figura 3.6.
Grico Multivariado con un criterio de clasiicacin ex antes, por municipio, para las variables cuantitativas sp7 hasta sp12, (rea en Mz).
Despus de usar el comando Split ile., se debe tener el sumo cuidado de regresar la base de datos a su estado original, es decir, dejar la base de datos sin la clasiicacin ex antes. 3.5 El Comando Line para Generar Gricos.
Al igual que el comando Bar, el comando Line tiene tres opciones de gricos en forma de lneas, entre las que se pueden seleccionar: 1) Simple, 2) Multiple y 3) Drop-Line (Lnea de Gota). Cada una de estas tres opciones de lneas, a su vez, se pueden combinar con tres alternativas ms, tales son: a) Summaries for groups of cases, b) Summaries of separate variables, y c) Values of individual cases. En general, el grico de Lneas, se recomienda utilizar con variables cuantitativas continuas, las que se usan como variables independientes, siendo stas unidas por medio de lneas. Para ilustrar el anlisis grico Line, se utilizar la variable edad, que se encuentran dentro de la Base de Datos FARMERS22. Se utiliza la rutina de comandos siguiente: Graphs/ Line/ Simple/ Summaries for groups of cases/ Deine/ en la ventana de dilogo, se debe seleccionar N of Cases; luego, en la ventana Category Axis, se debe incluir la variable que corresponder al eje X, en este caso Edad; despus dar Ok.
38 El grico solicitado al SPPS, es el siguiente.

12
10
Cantidad
0 22
30
33
36
39
42
45
48
51
54
57
61
67
72
75
82
Edad (en aos)
Figura 3.7.
Grico de Lnea con la opcin Simple, para la variable edad.
Otra alternativa, es la opcin Multiple. Para ilustrar el anlisis grico con la opcin Multiple, se utilizarn las variables edad y sexo, que se encuentran dentro de la Base de Datos FARMERS22. La rutina de comandos es: Graphs/ Line/ Multiple/ Summaries for groups of cases/ Deine/ en la ventana de dilogo, se debe seleccionar N of Cases; luego, en la ventana Category Axis, se debe incluir la variable que corresponder al eje X, en este caso la variable Edad; luego en la ventana de dilogo Deine Lines by, se debe incluir la variable que deinir las lneas en el grico, en este caso la variable Sexo; despus dar Ok. El grico solicitado, es el siguiente.
12
10
Cantidad
Sexo
Varn
2 Mujer 0 22 30 33 36 39 42 45 48 51 54 57 61 67 72 75 82
Edad (en aos)

Figura 3.8. Grico de Lnea, con opcin Multiple para la variable edad y sexo.
39 La siguiente alternativa, es la opcin Drop-Line (Lnea de Gota). Para ilustrar el anlisis grico con DropLine, se utilizarn las variables edad y sexo, que se encuentran en la Base de Datos FARMERS22. La rutina de comandos es la siguiente: Graphs/ Line/ Drop-Line/ Summaries for groups of cases/ Deine/ en la ventana de dilogo, se debe seleccionar N of Cases; luego, en la ventana Category Axis, se debe incluir la variable que corresponder al eje X, en este caso la variable Edad; luego en la ventana de dilogo Deine Points by, se debe incluir la variable que deinir los puntos del grico, en este caso la variable Sexo; despus dar Ok. El grico solicitado, es el siguiente.
12
10
Cantidad
Sexo
2 Varn Mujer 0 22 30 33 36 39 42 45 48 51 54 57 61 67 72 75 82
Edad (en aos)

Figura 3.9. Grico de Gotas, con opcin Drop-Line para la variable edad y sexo.
3.6
El Comando Pie para Generar Gricos.
Uno de los gricos ms atractivos generados por el SPSS, es el grico Pie (de Pastel). Se recomienda utilizar este tipo de grico en situaciones que los valores representan porcentajes, siendo que el pastel en su conjunto engloba el 100 % de las observaciones, igual a 1 en total. Al igual que el comando Bar, el comando Pie tiene tres opciones de gricos en forma de pastel, tales son: a) Summaries for groups of cases, b) Summaries of separate variables, y c) Values of individual cases. En general, para hacer el grico de Pastel, se recomienda utilizar la opcin: Summaries for groups of cases, con variables cuantitativas discretas. Para ilustrar el grico Pie (de Pastel), se utilizar la variable Tipologa del Productor (a), que se encuentra en la Base de Datos FARMERS22. La rutina de comandos es la siguiente: Graphs/ Pie/ Summaries for groups of cases/ Deine/ en la ventana de dilogo, seleccionar N of Cases; luego, en la ventana Deine Slices by, se debe incluir la variable que deinir los pedazos del pastel, en este caso la variable Tipologa del Productor (a); despus dar Ok.
40 El grico solicitado, es el siguiente.
Grande
11.9%
Mediana
31.9%
Pequea
56.3%
Figura 3.10.
Grico de Pastel, para la variable tipologa de productor (a).
Dentro del grico de pastel, ste puede editarse, por ejemplo: abrir los slices, editar el texto, editar el formato, etc. Otro ejemplo que parece muy aleccionador, es el grico de pastel del nivel de escolaridad de los productores. Se utilizar la variable Escolaridad del Productor (a), que se encuentra en la Base de Datos FARMERS22. Se destaca el hecho de que, el comando Pie permite realizar diversa opciones, tales como: editar el grico, variar el formato, abrir los slices, colocar las etiquetas en diferentes posiciones, etc. La rutina de comandos es la siguiente: Graphs/ Pie/ Summaries for groups of cases/ Deine/ en la ventana de dilogo, seleccionar N of Cases; luego, en la ventana Deine Slices by, se debe incluir la variable que deinir los pedazos del pastel, en este caso la variable Escolaridad del Productor (a); despus dar Ok. El grico solicitado, es el siguiente.
Analfabeta
Other 14.8%
Tcnico Superior Tcnico medio Universitario Titula Universitario No tit Sec undaria Completa Sec undaria Incomplet
Primaria Incompleta
Primaria Incom pleta Analfabeta 23.0% 46.7%
P rimaria Completa
P rimaria Com pleta 15.6%
Sin Collapse (sum) slices del Pastel

Figura 3.11.
Con Collapse (sum) slices del Pastel
Grico de Pastel, para la variable Escolaridad del Productor (a).
41 Dentro del archivo de salida del SPSS, al dar doble clic sobre una de las etiquetas del pastel, se puede editar el pastel, permitiendo ocultar algunos pedazos del pastel, usando la opcin Collapse (sum) slices less than: (5%), de modo que se puedan agrupar pedazos pequeos del pastel para dar una mejor presentacin de la informacin, editar etiquetas, etc. Tambin otro ejemplo interesante, es el grico de pastel pero usando varias variables a la vez. Para este ejemplo, se utilizarn las variables: Nmero total de mujeres, y Nmero total de hombres, que se encuentra en la Base de Datos FARMERS22. La rutina de comandos es la siguiente: Graphs/ Pie/ Summaries of separate variables/ Deine/ en la ventana de dilogo, Slices Represent, se deben incluir las variables que deinirn los pedazos del pastel, en este caso son las dos variables Nmero total de mujeres, Nmero total de hombres; despus se marcan esas dos variables, y entrar en la tabla de dilogo Change Summary, ah se debe seleccionar Sum of Values; luego dar Continue. Finalmente darle Ok. El grico solicitado, es el siguiente.
Nmero total mujeres 47.2%
Nmero total hombres 52.8%
Figura 3.12. Grico de Pastel, para las variables nmero total de mujeres y nmero total de hombres.
Otras tipos de gricos, que el SPSS tambin facilita al usuario, pueden explorarse dentro del mdulo operativo de Graph, tales como:
42 Area: Es un grico parecido al grico de lnea, pero dentro de l, el rea deinida por la lnea se torna sombreada. Boxplot: Esta opcin genera el grico de Cajas y Bigotes al igual que el comando Explorer. Error Bar: Es un grico especialmente til cuando el grico deseado cuenta con una variable discreta que genera categoras o grupos, la cual se cruza con una variable continua. El grico de Error Bar, genera los promedios de cada categora junto con sus intervalos de conianza al 95 %, los cuales se muestran en forma de dos bigotes, superior e inferior, con el promedio en el centro. En los captulos siguientes cuatro y cinco, se ilustran los ejemplos del grico Error Bar. Scatter: Es un grico que representa la dispersin de los valores observados de la variable analizada, presentando tales valores como una nube de puntos. Es importante para el ANARE. Histogram: Esta opcin genera el grico de histograma al igual que el comando frequencies.
3.7
Breves Sugerencia para Usar Mejor el Potencial del Sistema SPSS.
Existen muchas otras opciones y/o atributos que el sistema de anlisis estadstico del SPSS le ofrece al usuario interesado en profundizar sus propiedades, esto es en los Mdulos File, Edit, Data, Transform, Analyze, etc.; opciones sobre: recodiicacin de variables, sorteo de variables, clculos de nuevos variables a partir de las variables ya existentes, fusin de bases de datos, divisin de bases de datos, modiicaciones parciales o totales de variables dentro de una base de datos, etc, etc.
Todas estas capacidades del SPSS, pueden explorarse navegando dentro de los mdulos antes citados. Tambin existen muchas propiedades en la edicin de gricos y tablas, que el usuario debe practicar por su cuenta hasta adquirir las habilidades necesarias. De ah que, se sugiere a los interesados explorar con paciencia todo el potencial que puede brindar el SPSS.
43
Captulo 4.
4.1
Tablas de Contingencia y Medidas de Asociacin.
La prueba de Ji Cuadrado de Pearson en Tablas de Contingencia.
Una parte importante del anlisis de datos provenientes de variables dicotmicas, variables en escala nominal, ordinal, o en escala de intervalo o de razn, se realizan con el SPSS por medio de tablas de contingencia, que facilitan la obtencin de diversos estadsticos apropiados para realizar el anlisis descriptivo e inferencial de la informacin social. La prueba de Ji cuadrado de Pearson, se aplica en aquellos casos en que se disponga de una tabla de contingencia con r ilas y c columnas correspondientes a la observacin de muestras dos variables de X e Y, con r y c categoras respectivamente. Se utiliza para contrastar la hiptesis nula: Ho: Las variables X e Y son independientes. Si el p-valor asociado al estadstico de contraste es menor que , se rechaza la Ho al nivel de signiicancia establecido, usualmente = 0.05, (Ferran, A. M., 1996).
Para ilustrar el uso de las tablas de contingencias y la prueba de Ji cuadrado de Pearson, se carga la BDD SURVEY11. Para desarrollar las tablas de contingencia, la rutina de comandos a seguir es: Analyze/ Descriptives Statistics/Croostabs/ en la ventana de dilogo Row(s), debe incluirse la variable que se desea aparezca en la hilera o ila de la tabla, -es la variable independiente (X)-, en este caso se incluye la variable N ombre del municipio; y en la ventana de dilogo Column(s), debe incluirse la variable que se desea aparezca en la columna de la tabla, -la variable de la columna es la variable dependiente (Y)-, en este caso se incluye la variable Procedencia. Luego, se selecciona la opcin Display clustered Bar charts, para generar el grico bivariado correspondiente a estas variables. En la ventana statistics, seleccionar Chi Square; despus en la ventana Cells, se selecciona Observed, Expected, a in de obtener los valores observados y esperados; se selecciona Row, Column y Total, para obtener los porcentajes de la tabla por hilera, columna y total. Finalmente dar OK. La prueba de Ji Cuadrado de Pearson en Tablas de Contingencia, se presenta a continuacin.
44
Cuadro 4.1. Salida del SPSS para la prueba de Ji Cuadrado en Tablas de Contingencia.
Nombre del Municipio * Procedencia Crosstabulation Procedencia Casco Urbano 60 84.2 35.5% 11.0% 5.5% 40 82.7 24.1% 7.3% 3.6% 84 76.2 54.9% 15.4% 7.7% 83 82.2 50.3% 15.2% 7.6% 140 77.2 90.3% 25.6% 12.8% 49 66.8 36.6% 9.0% 4.5% 91 77.7 58.3% 16.6% 8.3% 547 547.0 49.8% 100.0% 49.8% Periferia Urbana 46 28.6 27.2% 24.7% 4.2% 33 28.1 19.9% 17.7% 3.0% 37 25.9 24.2% 19.9% 3.4% 39 28.0 23.6% 21.0% 3.6% 2 26.3 1.3% 1.1% .2% 4 22.7 3.0% 2.2% .4% 25 26.4 16.0% 13.4% 2.3% 186 186.0 16.9% 100.0% 16.9% Area Rural 63 56.2 37.3% 17.3% 5.7% 93 55.2 56.0% 25.5% 8.5% 32 50.9 20.9% 8.8% 2.9% 43 54.8 26.1% 11.8% 3.9% 1 3 51.5 8.4% 3.6% 1.2% 81 44.5 60.4% 22.2% 7.4% 40 51.9 25.6% 11.0% 3.6% 365 365.0 33.2% 100.0% 33.2% Total 169 169.0 100.0% 15.4% 15.4% 166 166.0 100.0% 15.1% 15.1% 153 153.0 100.0% 13.9% 13.9% 165 165.0 100.0% 15.0% 15.0% 155 155.0 100.0% 14.1% 14.1% 134 134.0 100.0% 12.2% 12.2% 156 156.0 100.0% 14.2% 14.2% 1098 1098.0 100.0% 100.0% 100.0%
Nombre del Municipio
Pueblo Nuevo
Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total Count Expected Count % within Nombre del Municipio % within Procedencia % of Total
Condega
Municipio Jinotega
El Sauce
Municipio Matagalpa
Altagracia
Moyogalpa
Total
45 La hiptesis que se desea contrastar es que las variables Municipios por Procedencia son independientes. En el ejemplo dado en el cuadro 1, en el municipio Condega, para el casco urbano, el nmero observado de resultados favorables es igual a 40. Bajo la hiptesis de independencia, el nmero esperado (Expected count) es igual al producto de los valores marginales en la ila y en la columna correspondientes (Row total=166; y Column total= 547), todo ello partido por el total de observaciones, en este caso 1098 -> (166*547)/ 1098 = 82.7. Siguiendo ese procedimiento, se puede calcular c/u de los valores esperados, para realizar la prueba de Chi cuadrado. El estadstico Chi cuadrado, se construye a partir de las diferencias entre las frecuencias observadas y esperadas bajo la hiptesis de independencia. Dado que se obtuvo un valor de signiicancia menor de 0.05, se rechaza la Ho de independencia entre las variables Municipio y Procedencia. Es decir, la procedencia depende del municipio en cuestin, por ejemplo: En Pueblo Nuevo y Condega, predomina la procedencia Rural; en cambio, en Jinotega, Matagalpa, El Sauce, Altagracia y Moyogalpa, predomina la procedencia Urbana.
Chi-Square Tests Asymp. Sig. (2-sided) .000 .000 .000
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
Value 243.874 264.983 20.143 1098
df
a
12 12 1
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.70.
El grico bivariado solicitado, se presenta a continuacin
160 140 120
Cantidad
100 80
Procedencia
60 Casco Urbano 40 Periferia Urbana 20 Area Rural 0
pa al og oy M ia pa ac al gr ag lt a at A M io ip ic un M ce ga au te lS no E Ji o pi
C g de on a o v ue
i ic un M
bl ue P o N
Nombre del Munic ipio
Figura 4.1.
Relacin bivariada de municipios por procedencia. Instituto Interamericano de Cooperacin para la Agricultura (IICA)
46 4.2 Medidas de Asociacin para dos Variables Dicotmicas en Tablas de Contingencia.
El coeiciente Phi, es una medida del grado de asociacin entre dos variables dicotmicas, basada en el estadstico Ji- Cuadrado de Pearson, que toma valores entre 0 y 1. Valores prximos a 0, indicarn no asociacin entre las variables y valores prximos a 1, indicarn una fuerte asociacin, (Ferran, A. M., 1996). Para ilustrar el uso de la prueba de Phi, se carga la BDD SURVEY11. La rutina de comandos a seguir es: Analyze/Descriptives Statistics/Croostabs/ en la ventana de dilogo Row(s), debe incluirse la variable que se desea aparezca en la hilera o ila de la tabla, en este caso se incluye la variable Sexo; y en la ventana de dilogo Column(s), debe incluirse la variable que se desea aparezca en la columna de la tabla, en este caso se incluye la variable Visita ud. la Alcaldia. Luego, se selecciona la opcin Display clustered Bar charts, para generar el grico bivariado correspondiente a estas variables. En la ventana statistics, seleccionar Phi and Cramers V; en la ventana Cells, seleccionar Observed, Expected, para obtener los valores observados y esperados; seleccionar Row, Column, Total, para obtener los porcentajes de la tabla por hilera, columna y total. Finalmente dar OK. La prueba de Phi, se presenta a continuacin.
Sexo * Visita Ud. la alcaldia para exponer sus inquietudes o necesidades? Crosstabulation Visita Ud. la alcaldia para exponer sus inquietudes o necesidades? Sexo Varn Count Expected Count % within Sexo % within Visita Ud.la alcaldia % of Total Count Expected Count % within Sexo % within Visita Ud.la alcaldia % of Total Count Expected Count % within Sexo % within Visita Ud.la alcaldia % of Total No N o 368 387.3 58.9% 51.1% 31.7% 352 332.7 65.5% 48.9% 30.3% 720 720.0 62.0% 100.0% 62.0% S 257 237.7 41.1% 58.1% 22.1% 185 204.3 34.5% 41.9% 15.9% 442 442.0 38.0% 100.0% 38.0% Total 625 625.0 100.0% 53.8% 53.8% 537 537.0 100.0% 46.2% 46.2% 1162 1162.0 100.0% 100.0% 100.0%
Mujer
Total
Cuadro 4.2.
Salida del SPSS para la prueba de Phi en Tablas de Contingencia.
El estadstico Phi, al igual que la prueba de Chi cuadrada se construye a partir de las diferencias entre las frecuencias observadas y esperadas, solo que Phi toma valores entre 0 y 1. Valores de Phi prximos a 0, indicarn no asociacin entre las variables y valores prximos a 1, indicarn una fuerte asociacin. En la tabla de salida dada por el SPSS, se obtuvo un valor de Phi con una signiicancia 0.020 que es menor de 0.05, por tanto se rechaza la Ho de independencia entre las variables Sexo y Visita a la Alcalda, es decir hay dependencia entre las variables estudiadas; luego, la relacin entre variables no es demasiado fuerte, al obtener un valor pequeo de Phi=0.068.
47
Symmetric Measures Value Nominal by Nominal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. Phi Cramer's V -.068 .068 1162 Approx. Sig. .020 .020
El grico bivariado solicitado, se presenta a continuacin.

400
300
Cantidad
200
Visita Ud. Alcaldia

No S 100 Varn Mujer
Sexo
Figura 4.2.
Relacin bivariada de las variables sexo por Visita Ud. la Alcaldia?
4.3
Medidas de Asociacin para dos Variables en Escala N ominal. - El Coeiciente de Contingencia y la V de Cramer -
El coeiciente de Phi, nicamente toma valores entre 0 y 1, en el caso de tablas 2x2. En el caso de tablas mayores -no simtricas-, el estadstico Phi puede alcanzar valores superiores a 1. El coeiciente de Contingencia, es una extensin del coeiciente de Phi, ajustado al caso de que al menos una de las dos variables presente ms de dos categoras. El coeiciente de Contingencia, toma valores entre 0 y Cmax, donde, si r y c son el nmero de categoras de cada una de las dos variables, entonces Cmax, sera igual a: Cmax = min (r - 1, c 1) / 1 + min (r - 1, c 1) Valores del coeiciente de Contingencia prximos a 0, indicarn no asociacin entre las variables y valores prximos a la cota Cmax, indicarn una fuerte asociacin; observese que la cota Cmax, ser siempre inferior a 1, (Ferran, A. M., 1996).
48 Otra extensin del coeiciente de Phi, ajustado a casos en que la tabla tiene al menos una de las dos variables con ms de dos categoras, es la V de Cramer, la cual a diferencia del coeiciente de contingencia, toma valores entre 0 y 1, no dependiendo de una cota superior; sin embargo, la V de Cramer, tiende a subestimar el grado el grado de asociacin entre las variables. Valores la V de Cramer, prximos a 0, indicarn no asociacin entre las variables y valores prximos a 1, indicarn una fuerte asociacin, (Ferran, A. M., 1996). Para ilustrar la prueba del coeiciente de Contingencia, y la V de Cramer, se carga la BDD SURVEY33, diseada para estudiar la asociacin de escolaridad y sexo. La rutina de comandos a seguir es: Analyze/ Descriptives Statistics/Croostabs/ en la ventana de dilogo Row(s), debe incluirse la variable que se desea aparezca en la hilera o ila de la tabla, en este caso se incluye la variable Sexo; y en la ventana de dilogo Column(s), debe incluirse la variable que se desea aparezca en la columna de la tabla, en este caso se incluye la variable Escolaridad de la persona. Luego, se selecciona la opcin Display clustered Bar charts, para generar el grico bivariado correspondiente. En la ventana statistics, seleccionar Contingency coeficient y Phi and Cramers V; en la ventana Cells, seleccionar Observed, Expected; seleccionar Row, Column, Total, para obtener los porcentajes de la tabla por hilera, columna y total. Finalmente dar OK. El coeiciente de Contingencia que se presenta a continuacin del cuadro 4.3, es igual a 0.137, con una signiicancia de 0.131 que es mayor de 0.05, por tanto se acepta la Ho de asociacin entre las variables Sexo y Escolaridad. El estadstico de la V de Cramer, es igual a 0.139, con una signiicancia de 0.131 que es mayor de 0.05, por tanto se acepta la Ho de asociacin entre variables.
Cuadro 4.3. Salida del SPSS para la prueba del coeiciente de Contingencia y la V de Cramer.
Sexo * Escolaridad de la persona Crosstabulation Escolaridad de la persona Primaria Incompleta 67 31.2% 55.4% 15.2% 54 23.8% 44.6% 12.2% 121 27.4% 100.0% 27.4% Primaria Completa 23 10.7% 42.6% 5.2% 31 13.7% 57.4% 7.0% 54 12.2% 100.0% 12.2% Secundar Incompleta 62 28.8% 54.4% 14.0% 52 22.9% 45.6% 11.8% 114 25.8% 100.0% 25.8% Secundaria Completa 43 20.0% 40.2% 9.7% 64 28.2% 59.8% 14.5% 107 24.2% 100.0% 24.2% Tcnico medio 8 3.7% 38.1% 1.8% 13 5.7% 61.9% 2.9% 21 4.8% 100.0% 4.8%
Sexo
Varn
Count % within Sexo % within Escolaridad % of Total Count % within Sexo % within Escolaridad % of Total Count % within Sexo % within Escolaridad % of Total
Analfabeta 12 5.6% 48.0% 2.7% 13 5.7% 52.0% 2.9% 25 5.7% 100.0% 5.7%
Total 215 100.0% 48.6% 48.6% 227 100.0% 51.4% 51.4% 442 100.0% 100.0% 100.0%
Mujer
Total
Symmetric Measures Value .139 .139 .137 442 Approx. Sig. .131 .131 .131
Nominal by Nominal N of Valid Cases
Phi Cramer's V Contingency Coefficient
a. Not assuming the null hypothesis assuming the nullstandard hypothesis. b. Not Using the asymptotic error assuming the null hypothesis.
49 El grico bivariado solicitado, se presenta a continuacin.

80 70 60
Cantidad
50 40
Escolaridad
Primaria Incom pleta P rimaria Com pleta
30
Sec undar Incom pleta Sec undaria Com pleta Tcnico m edio
20 10
Analfabeta 0 Varn Mujer
Sexo
Figura 4.3.
Relacin bivariada de las variables sexo por escolaridad.
4.4
Medidas de Asociacin para Variables en Escala Ordinal.
Para analizar hasta el efecto de al menos una variable en escala ordinal, se consideran las pruebas de Gamma, Tau-b de Kendall, y Tau-c de Kendall. 4.4.1 La Prueba de Gamma.
El estadstico de Gamma, es una medida del grado y tipo de asociacin, entre dos variables cualitativas en escala ordinal y toma valores entre -1 y +1. Valores prximos a 1, indican fuerte asociacin positiva; a medida que aumentan los valores de una variable, aumentan los de la otra; por el contrario, valores prximos a -1, indican fuerte asociacin negativa, es decir, a medida que aumenta una variable, disminuyen los de la otra. Valores prximos a 0, indican no asociacin, lo que no signiica que no pueda existir otro tipo de asociacin, (Ferran, A. M., 1996). Para ilustrar el uso de la prueba de Gamma, se carga la BDD SURVEY11. La rutina de comandos a seguir es: Analyze/Descriptives Statistics/Croostabs/ en la ventana de dilogo Row(s), debe incluirse la variable que se desea aparezca en la hilera o ila de la tabla, en este caso se incluye la variable Sexo; y en la ventana de dilogo Column(s), debe incluirse la variable que se desea aparezca en la columna de la tabla, en este caso se incluye la variable Como valora el servicio de recoleccin de Basura. Esta prueba es importante para analizar variables de tipo Likert. Luego, se selecciona la opcin Display clustered Bar charts, para generar el grico bivariado correspondiente a estas variables. En la ventana statistics, seleccionar Gamma; en la ventana Cells, seleccionar Observed, Expected, para obtener los valores observados y esperados; seleccionar Row, Column, Total. Finalmente dar OK. La salida del SPSS, se presenta en el cuadro 4.4.
50 El estadstico Gamma, toma valores entre -1 y 1. En la tabla de salida dada por el SPSS, debajo del cuadro 4.4, se obtuvo un valor de Gamma con una signiicancia de 0.581, que es mayor de 0.05, indica que se acepta la Ho de ausencia de asociacin entre las variables Sexo y Cmo valora el servicio de recoleccin de Basura, es decir no hay asociacin signiicativa entre las variables estudiadas.
Cuadro 4.4. Salida del SPSS para la prueba de Gamma.
Sexo * Como valora el servicio de recoleccion de basura? Crosstabulation Como valora el servicio de recoleccion de basura? Excelente Muy buena Buena Regular Mala 18 36 202 190 60 3.6% 7.1% 39.9% 37.5% 11.9% 75.0% 1.9% 6 1.4% 25.0% .6% 24 2.5% 100.0% 2.5% 51.4% 3.8% 34 7.7% 48.6% 3.6% 70 7.4% 100.0% 7.4% 51.9% 21.3% 187 42.4% 48.1% 19.7% 389 41.1% 100.0% 41.1% 56.4% 20.1% 147 33.3% 43.6% 15.5% 337 35.6% 100.0% 35.6% 47.2% 6.3% 67 15.2% 52.8% 7.1% 127 13.4% 100.0% 13.4%
Sexo
Varn
Count % within Sexo % within Como valora el servicio recoleccion de basura? % of Total Count % within Sexo % within Como valora el servicio recoleccion de basura? % of Total Count % within Sexo % within Como valora el servicio recoleccion de basura? % of Total
Total 506 100.0% 53.4% 53.4% 441 100.0% 46.6% 46.6% 947 100.0% 100.0% 100.0%
Mujer
Total
Symmetric Measures Asymp. Std. Error .052

a b
Ordinal by Ordinal N of Valid Cases
Gamma
Value .029 947
Approx. T .552
Approx. Sig. .581
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
El grico bivariado solicitado, se presenta a continuacin
51
300
200
Cantidad
Como valora servicio

Excelente 100 Muy buena B uena Regular Mala 0 Varn Mujer
Sexo
Figura 4.4.
Relacin bivariada de sexo por Cmo valora el servicio de recoleccin de Basura?.
4.4.2 Las pruebas de Tau-b de Kendall, y Tau-c de Kendall. La medida de Tau-b de Kendall, es una extensin de la Gamma, en el sentido de que tanto la situacin bajo la que puede ser aplicada como su interpretacin, es la misma. Sin embargo, presenta el inconveniente de que dichos valores solo pueden ser alcanzados cuando la tabla de contingencia sea cuadrada, (2x2, 3x3, 4x4, etc.), (Ferran, A. M., 1996). Por otra parte, la medida de Tau-c de Kendall, es una correccin de la Tau-b de Kendall, para el caso de tablas de contingencia que contienen variables con distinto nmero de categorias. Frente a Tau-b, la prueba de Tau-c presenta la ventaja de poder alcanzar los valores de -1 y 1, cuando el nmero de categoras de las dos variables es distinto. Sin embargo, tiene la desventaja de subestimar el verdadero grado de asociacin entre las variables, (Ferran, A. M., 1996). Esta prueba es importante para analizar variables de tipo Likert. Para ilustrar la prueba Tau-c de Kendall, se carga la BDD SURVEY22. La rutina de comandos a seguir es: Analyze/Descriptives Statistics/ Croostabs/ en la ventana de dilogo Row(s), debe incluirse la variable que se desea aparezca en la hilera o ila de la tabla, se incluye la variable Municipio; y en la ventana de dilogo Column(s), debe incluirse la variable que se desea aparezca en la columna de la tabla, se incluye la variable Como valora el servicio limpieza del mercado. Luego, se selecciona la opcin Display clustered Bar charts. En statistics, seleccionar Tau-c de Kendall; en la ventana Cells, seleccionar Observed; seleccionar Row, Total. Finalmente dar OK. La tabla de salida se presenta en el cuadro 4.5. En la tabla de salida, debajo del cuadro 4.5, se presenta el estadstico Tau-c de Kendall para el que se obtuvo un valor de signiicancia igual a 0.000, que es menor de 0.05, esto indica que se rechaza la Ho de ausencia de asociacin, entre las variables Municipio y Cmo valora el servicio de limpieza de mercado, es decir hay una asociacin signiicativa entre las variables estudiadas, el valor de asociacin es negativo y bajo (-0.331).
52
Cuadro 4.5. Salida del SPSS para la prueba Tau-c de Kendall.
Nombre del Municipio * Como valora el servicio limpieza de mercado? Crosstabulation Como valora el servicio limpieza de mercado? Excelente Muy buena Buena Regular Mala 32 63 34 24.8% 7.4% 7 5.0% 1.6% 93 56.4% 21.4% 132 30.3% 30.3% 48.8% 14.5% 39 27.7% 9.0% 47 28.5% 10.8% 149 34.3% 34.3% 26.4% 7.8% 95 67.4% 21.8% 8 4.8% 1.8% 137 31.5% 31.5%
Condega
Municipio Jinotega
El Sauce
Total
Count % within Nombre del Municipio % of Total Count % within Nombre del Municipio % of Total Count % within Nombre del Municipio % of Total Count % within Nombre del Municipio % of Total
Total 129 100.0% 29.7% 141 100.0% 32.4% 165 100.0% 37.9% 435 100.0% 100.0%
2 1.2% .5% 2 .5% .5%
15 9.1% 3.4% 15 3.4% 3.4%
Symmetric Measures Asymp. Std. Error .038

a b
Ordinal by Ordinal N of Valid Cases
Kendall's tau-c
Value -.331 435
Approx. T -8.612
Approx. Sig. .000
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
100
80
Cantidad
60
Como valora servicio

Excelente 40 Muy buena B uena 20 Regular Mala 0 Condega Municipio Jinotega El S auce
Figura 4.5.
Relacin bivariada de las variables municipio por Cmo valora el servicio de limpieza de mercado.
53 4.5 Medidas de Asociacin para Variables en Escala de Intervalo o Razn. 4.5.1 El coeiciente Eta. El coeiciente Eta, es una medida similar al R, la cual es apropiada para analizar los valores de una variable Y, en escala de intervalo o de razn, en los distintos grupos o subpoblaciones establecidas por los valores de otra variable X, cualitativa. El coeiciente Eta, toma valores entre 0 y 1; por tanto, valores de Eta prximos a 0 indicarn que el comportamiento de Y es independiente de los grupos (X): la media de Y es la misma en todos ellos. En cambio, valores de Eta prximos a 1, indicarn mucha dependencia: la media de Y es mayor o menor que la media global dependiendo del grupo. El cuadrado de Eta, puede interpretarse como la proporcin de la variabilidad de la variable dependiente Y, explicada por los valores de la independiente, X, (Ferran, A. M., 1996). Para ilustrar el uso del coeiciente Eta, se carga la BDD FARMERS22. La rutina de comandos a seguir es: Analyze/Descriptives Statistics/ Croostabs/ en la ventana de dilogo Row(s), debe incluirse la variable que se desea aparezca en ila de la tabla, en este caso se incluye la variable Tipologia del productor(a); y en la ventana de dilogo Column(s), debe incluirse la variable que aparecer en la columna de la tabla, en este caso se incluye la variable Estratos. Seleccionar la opcin Display clustered Bar charts. En statistics, seleccionar Eta; en la ventana Cells, seleccionar Observed, Expected; seleccionar Row, Column, Total. Finalmente dar OK.
Cuadro 4.6. Salida del SPSS para la prueba Eta, en Tablas de Contingencia.
Tipologa del productor(a) * Estratos de la Microcuenca Crosstabulation Estratos de la Microcuenca Estrato Bajo Estrato Medio Estrato Alto 20 13 43 19.1 15.2 41.7 26.3% 17.1% 56.6% 58.8% 48.1% 58.1% 14.8% 9.6% 31.9% 11 9 23 10.8 8.6 23.6 25.6% 20.9% 53.5% 32.4% 33.3% 31.1% 8.1% 6.7% 17.0% 3 5 8 4.0 3.2 8.8 18.8% 31.3% 50.0% 8.8% 18.5% 10.8% 2.2% 3.7% 5.9% 34 27 74 34.0 27.0 74.0 25.2% 20.0% 54.8% 100.0% 100.0% 100.0% 25.2% 20.0% 54.8%
Tipologa del productor(a)
Pequea
Mediana
Grande
Total
Count Expected Count % within Tipologa % within Estratos % of Total Count Expected Count % within Tipologa % within Estratos % of Total Count Expected Count % within Tipologa % within Estratos % of Total Count Expected Count % within Tipologa % within Estratos % of Total
Total 76 76.0 100.0% 56.3% 56.3% 43 43.0 100.0% 31.9% 31.9% 16 16.0 100.0% 11.9% 11.9% 135 135.0 100.0% 100.0% 100.0%
54 El coeiciente Eta, que se obtiene en el cuadro de salida es en dos sentidos: Un primer caso, considerando a Tipologa del productor(a), como la variable dependiente, para este caso se obtiene un Eta igual a 0.108. Un segundo caso, considerando a Estratos de la microcuenca, como la variable dependiente, para el cual se obtuvo un Eta igual a 0.014. Es notorio que en ambos casos, se obtienen valores de Eta prximos a 0, lo que indica que el comportamiento de tipologa del productor, es independiente de los estratos de la microcuenca. En este caso, que el principal propsito del anlisis est orientado a saber en que medida el estrato de la microcuenca determina una tipologa de productor(a), el valor dependiente que ms interesara sera Eta igual a 0.108.
Directional Measures Value Nominal by Interval Eta Tipologa del productor(a) Dependent Estratos de la Microcuenca Dependent .108 .014

50
40
Cantidad
30
20
Estratos Microcuenca
Estrato Bajo
10
Estrato Medio Estrat o Alto
q Pe ue a
an Gr
Tipologa del productor(a)

Figura 4.6. Relacin bivariada de las variables tipologa del productor(a) por estrato.
4.5.2 Los Coeicientes de Correlacin de Pearson y Spearman. Vinculado a las medidas de asociacin en escala de intervalo o razn, se encuentran los Coeicientes de Correlacin de Pearson y Spearman. El uso de ambos coeicientes, se ilustra como una opcin del mismo ejemplo de la BDD FARMERS22. La rutina de comandos a seguir, es igual al ejemplo inmediato anterior, pero en la ventana de dilogo statistics, se debe seleccionar Correlations. La hoja de salida que para ambos coeicientes solicitados se presenta a continuacin.
M ed n ia a
de
55
Symmetric Measures Asymp. Std. Error .083 .085
a b
Interval by Interval Ordinal by Ordinal N of Valid Cases
Pearson's R Spearman Correlation
Value -.003 -.016 135
Approx. T -.032 -.189
Approx. Sig. .974 .850
c c
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation.
El coeiciente de Correlacin de Pearson (R), mide el grado de asociacin lineal entre dos variables medidas en escala de intervalo o de razn, tomando valores entre -1 y 1. Valores de (R) prximos a 1, indicarn una fuerte asociacin lineal positiva; en cambio valores de (R) prximos a -1, indicarn una fuerte asociacin lineal negativa; y valores de (R) prximos a 0 indicarn no asociacin. Su cuadrado (R2), puede interpretarse como la proporcin de la variabilidad de la variable Y, explicada en funcin de la variable X, (Ferran, A. M., 1996). En el ejemplo aqu realizado, el coeiciente de Correlacin de Pearson (R) que se obtuvo es cercano a 0, es decir igual a -0.003, y tiene una signiicancia de 0.97 > 0.05, por lo tanto se acepta la Ho de ausencia de asociacin entre las variables. Es decir, es no signiicativa la asociacin entre Tipologa del productor(a) y estratos de la microcuenca. El coeiciente de correlacin de Spearman, es una variante del coeiciente de Correlacin de Pearson (R), esta variante consiste en que, en lugar de medir el grado de asociacin lineal a partir de los propios valores de las variables, se mide a partir de la asignacin de rango de valores ordenados. En este sentido, el coeiciente de correlacin de Spearman, es una medida tambin adecuada en el caso de variables en escala ordinal (variables Likert). Por lo dems, sus valores se interpretan exactamente igual al coeiciente de Correlacin de Pearson (R), (Ferran, A. M., 1996). En el ejemplo aqu expuesto, para el coeiciente de correlacin de Spearman se obtuvo una signiicancia de 0.85 > 0.05, (con un valor bajo de -0.016), por lo que se acepta la Ho de ausencia de asociacin. El coeiciente de correlacin de Spearman, en este caso, tiene una interpretacin igual a la del coeiciente de Correlacin de Pearson (R).
56
Captulo 5.
Anlisis de Varianza Univariado: Diseo Completo al Azar DCA (One Way AN OVA).
5.1
El Anlisis de Varianza para un Diseo Completamente Aleatorizado.
El diseo completamente aleatorizado, D.C.A, es tambin conocido como One Way ANOVA. Es un diseo muy til para condiciones en que las unidades experimentales presentan homogeneidad relativa, lo que permite colocar completamente al azar a los tratamientos en cada una de las unidades experimentales; es decir, este diseo no impone restricciones a las unidades experimentales. Este diseo es tambin til para ensayos de campo en que las unidades experimentales no requieren de agrupamiento o bloqueo en particular, esto es cuando el efecto de los tratamientos en estudio no estar determinado por la heterogeneidad del suelo; tales como ensayos MIP, estudios de dietas alimenticias para aves en galerones, etc. El Modelo Aditivo Lineal (MAL) para un DCA, es el siguiente: 5.2 El Modelo Aditivo Lineal para un DCA.
Yij= +
i = 1, 2, 3, .t... tratamientos. j = 1, 2, 3, .nobservaciones.
ij
.. donde:
Yij = La j-sima observacin del i-simo tratamiento. = Es la media poblacional a estimar a partir de los datos del experimento.
i
= Efecto del i-simo tratamiento a estimar a partir de los datos del experimento. = Efecto aleatorio de variacin.
ij
5.3
Procedimiento Estadstico para un Experimento establecido en D.C.A.
A continuacin se presentan los datos de un experimento establecido en la Estacin Experimental Ral Gonzlez del Valle de Sbaco, a partir del cual se realiz un muestreo completamente al azar para determinar el potencial agroindustrial de cinco variedades de tomate industrial. En el cuadro 5.1, se presentan los datos del peso de jugo obtenido. Como un estudio de caso, ver Pedroza, P.H., (1993), las pginas 73-81. Se debe tener presente que para la correcta aplicacin del anlisis de varianza univariado (AN OVA), los datos obtenidos de las variables dependientes deben ser: a) muestras tomadas al azar de poblaciones normales, para lo que se realiza la prueba de N ormalidad de los datos Prueba de KolmogorovSmirnov; y b) deben tener varianzas semejantes los diversos grupos en comparacin, lo que se veriica mediante la prueba de Homogeneidad de Varianzas Prueba de Levene.
57
Cuadro 5.1. Peso del jugo (en gramos) obtenido para diferentes variedades de tomate industrial.
OBSERVACION ES Variedades Mart Topacio Estela VF-134 UC-82 1 656.30 784.40 924.50 534.40 640.70 2 718.40 713.40 822.80 685.10 658.80 3 586.60 915.80 824.20 567.20 532.70 4 746.20 629.60 978.50 655.50 614.40 Y i. 2707.50 3043.20 3550.00 2442.20 2446.60
_
Y i. 676.87 760.80 887.50 610.55 611.65
Con estos datos, se construye en SPSS la BDD llamada DCA en UNIFACTORIAL que contiene tres variables: 1ra) Variedades, con valores de 1 a 5; 2da) Observaciones o repeticiones, con valores de 1 a 4; y 3ra) Peso del Jugo en gr., con los datos del peso de jugo obtenido para cada tratamiento. Con el SPSS, para hacer el anlisis estadsticos de un Diseo Completo al Azar, (DCA), se requiere de una variable dependiente continua; y de una variable independiente discreta que genere grupos o Tratamientos. El Diseo Completo al Azar se resuelve en SPSS, utilizando la siguiente rutina de comandos: Analyze/ Compare Means/ One Way AN OVA/ en Dependent List, se debe introducir la variable dependiente peso de jugo en gr-; y en Factor se debe introducir la variable variedades. Luego, dentro del comando Options, se le solicita al programa que realice la prueba de Levene o de homogeneidad de varianza. Usando la opcin Post Hoc, se le solicita realizar la prueba de separacin de medias, para este ejemplo se solicito la prueba de Duncan. La hoja de salida para las pruebas solicitadas, se presentan a continuacin.
Cuadro 5.2. Tabla de estadsticas descriptivas del DCA, One way ANOVA
Descriptives Peso del Jugo en gr. 95% Confidence Interval for Mean Std. Error 35.4767 60.5820 38.5605 35.6561 27.8503 29.0433 Upper Lower Bound Bound 563.9722 789.7778 568.0010 953.5990 764.7832 1010.2168 497.0765 724.0235 523.0178 700.2822 648.6866 770.2634 Minimum 586.60 629.60 822.80 534.40 532.70 532.70 Maximum 746.20 915.80 978.50 685.10 658.80 978.50
N 1 2 3 4 5 Total 4 4 4 4 4 20
Mean 676.8750 760.8000 887.5000 610.5500 611.6500 709.4750
Std. Deviation 70.9535 121.1640 77.1211 71.3121 55.7007 129.8857
58
Cuadro 5.3. Prueba de homogeneidad de varianzas, o prueba de Levene.
Test of Homogeneity of Variances Peso del Jugo en gr. Levene Statistic .956 df1 4 df2 1 5 Sig. .460
La prueba de homogeneidad de varianzas, basada en el estadstico de Levene, obtuvo una Signiicancia de 0.46 > 0.05, por lo tanto se acepta la hiptesis nula de homogeneidad de varianzas. Esto indica que se puede proceder correctamente a realizar el ANOVA. La prueba de normalidad de los datos o prueba de Kolmogorov-Smirnov, se solicita por separado, utilizando el comando Analyze/ Nomparametric Tests / Simple K-S/ Test distribution-Normal.
Cuadro 5.4. Prueba de normalidad de los datos o Prueba de Kolmogorov-Smirnov.
One-Sample Kolmogorov-Smirnov Test Peso del Jugo en gr. 20 709.4750 129.8857 .152 .152 -.094 .679 .746
N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Mean Std. Deviation Absolute Positive Negative
a. Test distribution is Normal. b. Calculated from data.
La prueba de K-S obtuvo una Signiicancia de 0.746 > 0.05, por lo tanto se acepta la hiptesis nula de normalidad de los datos. Esto indica que se puede proceder correctamente a realizar el ANOVA. Cuadro 5.5. Tabla de Anlisis de Variancia, ANOVA.
ANOVA Peso del Jugo en gr. Sum of Squares 218983.2 101552.3 320535.5 df 4 15 19 Mean Square 54745.803 6770.151 F 8.086 Sig. .001
Between Groups Within Groups Total
Para analizar este cuadro, se debe observar el valor Sig. (la signiicacin del valor F) para la fuente de variacin Entre Grupos o Between Groups que es el efecto para Tratamientos. En este ejemplo:
59
La Sig. de los Tratamientos es 0.001 < 0.05, por tanto se rechaza la Ho de igualdad entre tratamientos, o bien se dice que existen diferencias signiicativas entre tratamientos, lo que indica que al menos uno de lo tratamientos tiene un promedio diferente. El siguiente paso es determinar cuales son los tratamientos que diieren entre si, para esto se utiliza la Tcnica de Separacin de Medias. Como ejemplo en este caso, se utiliz la prueba de Rangos Mltiples de Duncan; la salida del SPSS se observa en el cuadro siguiente.
Cuadro 5.6. Salida del SPSS para la separacin de medias por la prueba de Duncan.
Peso del Jugo en gr. Duncan
a
Subset for alpha = .05 Variedades 4 5 1 2 3 Sig. N 4 4 4 4 4 1 610.5500 611.6500 676.8750 2 3
676.8750 760.8000 .170 887.5000 1.000
.297
Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 4.000.
El cuadro de salida dado por la prueba de Duncan, se puede presentar de la siguiente manera:
Cuadro 5.7. Presentacin de medias y su signiicacin estadstica dada por la prueba de Duncan.
Tratamientos Estela Topacio Marti UC-82 VF-134
Peso del Jugo en gr. 887.50 760.80 676.87 611.65 610.55
Signiicancia Estadstica a b bc c c
Nota: Letras iguales, indica promedios iguales, segn prueba de Duncan al 5%.
Basados en la salida dada por la prueba de Duncan, se puede airmar que los tratamientos se clasiican en cuatro categoras estadsticas: Categora a, determinada por la variedad Estela. La segunda categora b, est formada por la variedad Topacio. La tercera categora bc, est formada por la variedad Marti. La cuarta categora c, est formada por las variedades UC-82 y VF-134.
60 Estas mismas categoras pueden observarse en el grico de error bar, solicitada por aparte, dentro del Mdulo de Graphs. En el cuadro 5.2, se observan los promedios e intervalos de conianza para cada tratamiento, los cuales son ilustrados en la igura 5.1 de error bar, demostrndose que la respuesta de tratamientos es signiicativa. La excepcin a esta regla es el caso de la variedad Marti, que aparece en el grico como un subconjunto de la variedad Topacio, indicando claramente que ese caso es N S, y por tanto es la categora bc. As mismo, ocurre el caso de la variedad UC-82, que se observa en el grico 5.1., como un subconjunto de la variedad VF-134 lo cual indica un efecto N S de tratamientos, por lo tanto comparten la misma categora c.
1100
95% CI Peso del Jugo en gr.
1000
900
800
700
600
500 400
N= 4 4 4 4 4
Marti
Topacio
E stela
V F-134
UC-82
Variedades
Figura 5.1. Grico de error bar para los tratamientos.
61
Captulo 6. Anlisis de Varianza Univariado: Diseo de Bloques Completos al Azar BCA - (Two Way ANOVA).
6.1 El Anlisis de Varianza para un Diseo de Bloques Completos al Azar.
El diseo de bloques completos al azar, B.C.A, conocido tambin como Two Way ANOVA, es el diseo ms usado en el campo agrcola cuando se hacen experimentos como por ejemplo: evaluacin de variedades de un cultivo, pocas de siembra, distancias de siembra, prueba de niveles de nutrientes, etc. Un diseo de bloques completos al azar (B.C.A) es aquel en que las U.E. se distribuyen en grupos, de manera tal que las U.E. dentro de un bloque o grupo son relativamente homogneas, pero entre bloques son heterogneas con relacin al gradiente que se est bloqueando. En general este diseo se recomienda para experimentos con un nmero de tratamientos comprendido entre 3 y 15, y cuando es posible agrupar las unidades experimentales en bloques de igual tamao. Algunos criterios acerca de la disposicin de los bloques en el campo, son los siguientes: 1) Cuando la gradiente de fertilidad del suelo es conocida, los bloques se colocan perpendicular a la gradiente; 2) Cuando la gradiente de fertilidad del suelo ocurra en dos direcciones aproximadamente perpendiculares entre si, un DCL debe ser usado. Sin embargo, si se utiliza un BCA, los bloques deben de ser cuadrados; 3) Cuando el gradiente de fertilidad del suelo no es conocido, o es errtica, entonces los bloques deben se ser cuadrados, (Reyes, C., 1982). El Modelo Aditivo Lineal (MAL) para un BCA, es el siguiente: 6.2 El Modelo Aditivo Lineal para un BCA.
Yij= +
i = 1, 2, 3, .t = tratamientos j = 1, 2, 3, .r = repeticiones
ij
.., donde:
Yij = La j-sima observacin del i-simo tratamiento. = Es la media poblacional a estimar a partir de los datos del experimento. = Efecto del i-simo tratamiento a estimar a partir de los datos del experimento. i = Estimador del efecto debido al j-simo bloque. j = Efecto aleatorio de variacin. ij 6.3 Procedimiento estadstico para un experimento establecido en B.C.A.
Para ejempliicar el anlisis de un BCA, se presentan los resultados de un experimento de campo realizado en la Estacin Experimental Ral Gonzlez del Valle de Sbaco, para determinar el potencial agronmico de cinco variedades de tomate industrial. En el cuadro 6.1, se presentan los tratamientos en estudio y los datos obtenidos del ensayo. Como un estudio de caso, ver Pedroza, P.H., (1993), en pginas 82-98.
62
Cuadro 6.1. Datos del dimetro ecuatorial del fruto (en cm), obtenido para diferentes variedades de tomate industrial.
Variedades Mart Topacio Estela VF-134 UC-82 Y.j
I 6.64 7.37 6.87 5.79 5.19 31.86
Bloques II III 6.59 6.21 7.03 5.49 5.48 30.80 6.33 6.19 6.53 5.54 5.42 30.01
_
IV 5.80 6.39 6.66 5.91 5.46 30.22 Yi. 25.36 26.16 27.09 22.73 21.55 122.89 Yi. 6.34 6.54 6.77 5.68 5.38 6.14
Con estos datos, se genera en SPSS la BDD llamada BCA en UNIFACTORIAL que contiene tres variables: 1ra) Variedades Tratamientos, con valores de 1 a 5; 2da) Bloques, con valores de 1 a 4; y 3ra) Dimetro, con los datos del dimetro obtenido para cada tratamiento en cada bloque. Para resolver en el SPSS el anlisis estadsticos de un Diseo de Bloques Completo al Azar, se deben usar los comandos Analyze/General Linear Model/ Univariate/ en Dependent variable, se debe cargar la variable dependiente dimetro-; y en Fixed Factor se deben cargar las variables tratamientos y bloques. Luego, dentro del comando Model, se deben deinir los efectos principales del modelo, usando la opcin Custom (personalizado) / y se construyen los trminos del modelo, incorporando una a la vez, c/u de las variables o factores ijos; recuerde NO debe pedirse interaccin, ya que el diseo de B.C.A., asume que N O existe interaccin entre tratamientos y bloques. Con Post Hoc se selecciona la prueba de separacin de medias, en el ejemplo usaremos la prueba de Duncan.
Cuadro 6.2. Salida del AN OVA para un Diseo de Bloques Completos al Azar.
Tests of Between-Subjects Effects Dependent Variable: Diametro Type III. Sum of Squares 5.914 755.098 .412 5.502 1.297 762.308 7.211
Source Corrected Model Intercept BLOQUE TRAT Error Total Corrected Total
df
a
7 1 3 4 12 20 19
Mean Square .845 755.098 .137 1.376 .108
F 7.818 6987.277 1.271 12.728
Sig. .001 .000 .328 .000
a. R Squared = .820 (Adjusted R Squared = .715)
63 Para analizar este cuadro, se debe observar el valor Sig. (la signiicacin del valor F) para Bloque y para Tratamiento. En este ejemplo: La Signiicancia de Bloque es 0.328 > 0.05, por tanto se acepta la Ho de igualdad entre los bloques, o bien se dice que no hay diferencias signiicativas entre los bloques. La Signiicancia de los Tratamientos es 0.000 < 0.05, por tanto se rechaza la Ho de igualdad entre tratamientos, o bien se dice que existen diferencias signiicativas entre tratamientos, lo que indica que al menos uno de lo tratamientos tiene un promedio diferente. El siguiente paso es determinar cuales son los tratamientos que diieren entre si, para esto se utiliza la Tcnica de Separacin de Medias. La prueba de Rangos Mltiples de Duncan, segn la salida del SPSS se observa en el siguiente cuadro.
Salida del SPSS para la separacin de medias dada por la prueba de Duncan.
Diametro del fruto Duncan
a,b
Cuadro 6.3.
TRATAMIENTOS UC-82 VF-134 Marti Topacio Estela Sig.
N 4 4 4 4 4
Subset 1 1 5.3875 5.6825 6.3400 6.5400 6.7725 .228 .101 2 2
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = .108. a. Uses Harmonic Mean Sample Size = 4.000. b. Alpha = .05.
El cuadro de salida dado por la prueba de Duncan, se puede presentar de la siguiente manera:
Cuadro 6.4. Presentacin de medias y su signiicacin estadstica dada por la prueba de Duncan.
Tratamientos Estela Topacio Marti VF-134 UC-82
Dimetro del Fruto en cm 6.77 6.54 6.34 5.68 5.38
Signiicancia estadstica a a a b b
Nota: Letras iguales, indica promedios iguales, segn prueba de Duncan al 5%.
64 Basados en la salida dada por la prueba de Duncan, se puede airmar que los tratamientos se clasiican en dos categoras estadsticas: La primera categora a, determinada por las variedades Estela, Topacio y Marti. La segunda categora b, est formada por las variedades VF-134 y UC-82. Un detalle importante que del SPSS, es que se le puede pedir los intervalos de conianza y el graico de los tratamientos, an dentro de la misma rutina del GLM Univariado, con lo cual se ilustra mucho mejor el efecto de los tratamientos. El grico de error bar se solicita por aparte en SPSS, dentro del Mdulo de Graphs.
TRATAMIENTO Dependent Variable: Diametro 95% Confidence Interval Lower Upper Bound Bound 5.982 6.698 6.182 6.898 6.414 7.131 5.324 6.041 5.029 5.746
TRATAMIENTO Marti Topacio Estela VF-134 UC-82
Mean 6.340 6.540 6.773 5.683 5.388
Std. Error .164 .164 .164 .164 .164
Means of Diametro
7.0 6.8 6.5 6.3 6.5
Estimated Marginal Means (cm)
6.0
5.7 5.5 5.4
5.0 Marti Topacio E stela V F-134 UC-82
TRATAMIENTOS
Figura 6.1. Promedios del dimetro ecuatorial para los tratamientos.
65
8.0
7.5
95% CI Diametro
7.0
6.5
6.0
5.5
5.0
N= 4 4 4 4 4
Marti
Topacio
E stela
V F-134
UC-82
TRATAMIENTOS
Figura 6.2. Grico de error bar para los tratamientos.
Con el grico del error bar, en el que se graica los intervalos de conianza para cada tratamiento, se evidencia la signiicancia de lo tratamientos deinida por la separacin de medias; por un lado hay tres intervalos de conianza que tiene grupos de medias similares con valores de 6.34 a 6.77, estos hacen la categora estadstica a (Marti, Topacio y Estela). Por otra parte, un grupo de dos intervalos de conianza con valores de media de 5.38 a 5.68, los que constituyen la categora estadstica b (VF-134 y UC-82).
66
Captulo 7.
Anlisis de Varianza Univariado: Factoriales: Experimentos Bifactoriales establecidos en DCA.
7.1
El Anlisis de Varianza para un Bifactorial en DCA.
El experimento factorial, es aquel en el cual los tratamientos son constituidos por la combinacin de c/u de los niveles de un factor con todos y c/u de los niveles de los otros factores en el ensayo. Los experimentos factoriales, (dos o ms factores en estudio), no son un diseo en s, ms bien son un arreglo de tratamientos que se distribuyen en los diseos comunes: D.C.A., B.C.A y D.C.L. En los experimentos factoriales, dos o ms factores son estudiados simultneamente y cualquier factor puede proporcionar varios tratamientos. En los ensayos factoriales, se estudia por un lado los efectos principales, o accin independiente de los factores; por otro lado se estudia el efecto de interaccin entre ellos. En la nomenclatura bsica de los factoriales, cada factor en estudio se designa con letras maysculas (A, B, C, etc.); y los niveles o modalidades de cada factor, se designan con letras minsculas y nmeros subndices (a1, a2; b1, b2, etc.). Normalmente, se construye una tabla de doble entrada para indicar los efectos principales y posibles efectos de interaccin.
Cuadro 7.1. Cuadro de doble entrada para construir los tratamientos factoriales.
Densidades b1 b2 7.2
a1 a1 b1 a1 b2
Variedades a2 a2 b1 a2 b2
a3 A3 b1 a3 b2
Los Efectos Simples, Principales y de Interaccin.
Para deinir los efectos individuales -simple y principal-, as como la interaccin, supongamos un experimento bifactorial (A y B), con dos niveles cada factor (a1, a2 y b1, b2).
Cuadro 7.2. Efectos Simples, Principales y de Interaccin entre factores.
Factor A Factor B b1 b2
Efecto simple de B (b2 - b1) Efecto principal de B
Efecto simple de A
Efecto principal de A
a1 Y11. Y12. (Y12. - Y11.)
a2 Y21. Y22. (Y22. - Y21.)
(a2 - a1) Y21. - Y11. Y22. - Y12.
[(Y (Y21. - Y11.) + ]/2 (Y22. - Y12.)]
[(Y (Y12. - Y11.) + (Y22. - Y21.)] ]/2
67 Los efectos simples de un factor, son aquellos representados por las diferencias de los niveles de un factor, a un mismo nivel del otro factor. El efecto principal de un factor, es el promedio de los efectos simples para un mismo factor. El efecto de Interaccin: Caso A: Efecto de los factores es aditivo: No hay interaccin entre los factores.
40 35 30
kg/P.U.
25 20 15 10 5 0 100 kg/ha Densidad 120 kg/ha
Figura 7.1. Ilustracin de los efectos aditivos de dos factores, o los factores son independientes.
Cuando la diferencia de los efectos simple es cero (o puede estimar a cero), se dice que los efectos de los dos factores son aditivos o los factores son independientes; las lneas de tendencias son paralelas o tienden al paralelismo. Caso B: Efecto de los factores es interactivo.
40 35 30 25
kg/P.U.
20 15 10 5 0 100 kg/ha Densidad 120 kg/ha
Figura 7.2. Ilustracin de efectos interactivos de dos factores, o los factores no son independientes.
Cuando la diferencia de los efectos simples no es cero, se dice que el efecto de los factores es interactivo (o multiplicativo) y las respuestas de tendencias se cruzan o tienden a cruzarse.
68 Caso C: Los datos sugieren efectos Interactivos.

45 40 35 30 25 20 15 10 5 0 100 kg/ha Densidad
Figura 7.3. Ilustracin de los efectos interactivos sugeridos por los datos.
kg/P.U.
120 kg/ha
Cuando la diferencia de los efectos simple no es cero, se dice que los efectos de los dos factores son interactivos (o multiplicativos). En este caso, las lneas de tendencias no son paralelas, sino que tienden a cruzarse. (Reyes, C., 1982). 7.3 Proceso de Azarizacin de los Tratamientos.
Debido a que los experimentos factoriales propiamente dicho no son un diseo en s, los tratamientos se asignan de acuerdo al proceso de azarizacin del diseo a establecer (D.C.A., B.C.A., D.C.L.) 7.4 El Modelo Aditivo Lineal para un bifactorial distribuido en D.C.A.
Yijk = +
i = 1, 2, 3, .a = niveles del factor A. j = 1, 2, 3, . b = niveles del factor B. k= 1, 2, 3, .n = observaciones.
+(
)ij+
i jk
Yij k = La k-sima observacin del i-simo tratamiento. = Estima a la media poblacional. i = Efecto del i-simo nivel del factor A. j = Efecto debido al j-simo nivel del factor B. ( ) i j= Efecto de interaccin entre los factores A y B. i jk = Efecto aleatorio de variacin.
69 7.5 Procedimiento estadstico para un experimento Bifactorial establecido en D.C.A. Para ejempliicar el anlisis correspondiente a un bifactorial establecido en DCA, se presentan los datos de un ensayo establecido con el objetivo de evaluar la ijacin biolgica del nitrgeno, inoculando tres variedades de frijol comn, con tres diferentes cepas de Rhizobium, usando N-15. El Experimento fue establecido en condiciones de invernadero y diseado con el propsito de evaluar ambos factores con el mismo grado de precisin. En el cuadro 7.3., se presentan los tratamientos en estudio y los datos obtenidos del ensayo. Como un estudio de caso, ver Pedroza, P.H., (1993), en pginas 132-152.
Cuadro 7.3. Datos del Nitrgeno total (en mg) de la parte area de la planta.
Observaciones Tratamientos a1b1 a1b2 a1b3 a1b4 a2b1 a2b2 a2b3 a2b4 a3b1 a3b2 a3b3 a3b4 1 85.25 114.40 73.90 104.31 85.06 88.24 97.87 65.88 152.20 169.65 124.34 200.30 2 98.49 104.86 70.91 84.32 82.08 96.16 71.25 88.15 197.06 169.49 178.43 181.74 3 90.37 69.07 65.12 102.83 101.96 107.89 92.19 76.77 175.82 133.96 150.14 213.79
Totales Yij. 274.11 288.33 209.93 291.46 269.10 292.29 261.31 230.80 525.08 473.10 452.91 595.83
La descripcin de los factores en estudio es la siguiente: Factor A: Variedad a1: Rev-79 a2: Rev-84 a3: IMBAYO (de origen ecuatoriana)
Factor B: Cepas de Rhizobium b1: Cepa 1 (Ecuatoriana) b2: Cepa UMR - 1073 b3: Cepa UMR - 1077 b4: Cepa UMR - 1899 Con los datos presentados en el cuadro 7.3, se genera en SPSS la BDD llamada BIFACT en DCA que contiene cuatro variables: 1ra) Variedad (Factor A), con valores de 1 a 3; 2da) Cepas (Factor B), con valores de 1 a 4; 3ra) Observaciones o repeticiones estadsticas, con valores de 1 a 3; y 4ta) Nittotal, con los datos del Nitrgeno Total (en mg) de la parte area de la planta, obtenido para cada tratamiento factorial en cada observacin.
70 Para resolver en el SPSS el anlisis estadsticos de un Bifactorial en DCA, se deben usar los comandos Analyze/General Linear Model/ Univariate/ en Dependent variable, se debe cargar la variable dependiente N itrgeno Total (en mg) de la parte area de la planta -; y en Fixed Factor(s) se deben cargar las variables Factor A-Variedad y Factor B-Cepas. Luego, dentro del comando Model, se deben deinir los efectos principales y la interaccin del modelo; usando la ventana de dilogo Custom (personalizado), se construyen los trminos del modelo, incorporando una variable a la vez, se incluyen los factores A y B; luego para deinir la interaccin se toman simultneamente el factor A y B, y se jalan con el botn de Build Term(s) hacia el cuadro derecho de la ventana de dilogo; la opcin Type III e include intercept in model se dejan por defecto. Usando la ventana de dilogo Options, se le solicita al programa las tablas de medias para cada factor y la interaccin; tambin puede solicitarse en esta ventana la prueba de Levene. En la ventana de dilogo Plots se le solicita el grico para la interaccin. En la ventana de dilogo Post Hoc se selecciona la prueba de separacin de medias para cada factor, en este ejemplo se utiliz la prueba de S N K.
Cuadro 7.4. Salida del AN OVA para un Bifactorial en DCA.
Tests of Between-Subjects Effects Dependent Variable: Nitrgeno Total (en mg) de la parte area de la planta Type III Mean Sum of Source df F Sig. Square Squares Corrected Model 60427.265 a 11 5493.388 20.535 .000 Intercept 481693.8 1 481693.8 1800.658 .000 VARIEDAD 54262.665 2 27131.333 101.422 .000 CEPAS 2278.146 3 759.382 2.839 .059 VARIEDAD * CEPAS 3886.454 6 647.742 2.421 .057 Error 6420.238 24 267.510 Total 548541.3 36 Corrected Total 66847.503 35 a. R Squared = .904 (Adjusted R Squared = .860)
Para analizar el cuadro de salida del bifactorial en DCA, se debe observar la signiicacin del valor F, para Variedad, Cepas y la Interaccin. En este caso, la interpretacin es la siguiente: La Signiicancia de Variedad es 0.000 < 0.05, por tanto se rechaza la Ho de igualdad entre variedades, esto indica que el efecto de las variedades tiene diferencias signiicativas entre ellas. La Signiicancia de Cepas es 0.05 < = 0.05, por tanto se rechaza la Ho de igualdad entre Cepas, esto indica que para el efecto de las cepas existen diferencias signiicativas entre si, lo que indica que al menos una de las cepas tiene un efecto promedio diferente. La Signiicancia de interaccin Variedad*Cepas es 0.05 < = 0.05, por tanto se rechaza la Ho de igualdad para la interaccin, esto indica que existen diferencias signiicativas del efecto de interaccin, por tanto al menos una de las combinaciones Variedad*Cepas tiene un efecto diferente.
71 El siguiente paso es determinar cuales son los tratamientos que diieren entre si, para esto se utiliza la Tcnica de Separacin de Medias. La prueba solicitada de Rangos Mltiples de SN K, para el factor A y B, se presentan segn la salida del SPSS en el siguiente cuadro.
Cuadro 7.5. Salida del SPSS para la separacin de medias de SN K para el factor A.
Nitrgeno Total (en mg) de la parte area de la planta Student-Newman-Keuls FACTOR A 2 1 3 Sig. N 12 12 12
a,b
Subset 1 87.7917 88.6525 .898 2
170.5767 1.000
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 267.510. a. Uses Harmonic Mean Sample Size = 12.000. b. Alpha = .05.
El cuadro de salida dado para la prueba de SNK del factor A, se presenta de la siguiente manera:
Cuadro 7.6. Presentacin de medias del factor A y su signiicacin estadstica dada por la prueba de SNK.
Factor A a3: IMBAYO a1: Rev-79 a2: Rev-84
Promedios 170.57 88.65 87.79
Signiicancia estadstica a b b
Nota: Letras iguales, indica promedios iguales, segn prueba de SNK al 5%.
En el cuadro 7.6, se observan dos categoras estadsticas, a saber: la variedad Imbayo en primer lugar; seguida por las variedades Rev-79 y Rev-84 en segundo lugar.
72
Cuadro 7.7. Salida del SPSS para la separacin de medias de SN K para el factor B.
Nitrgeno Total (en mg) de la parte area de la planta Student-Newman-Keuls FACTOR B 3 2 1 4 Sig. N 9 9 9 9
a,b
Subset 1 102.6833 117.0800 118.6989 .116 2 117.0800 118.6989 124.2322 .628
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares. The error term is Mean Square(Error) = 267.510. a. Uses Harmonic Mean Sample Size = 9.000. b. Alpha = .05.
El cuadro de salida dado para la prueba de SNK del factor B, se presenta de la siguiente manera:
Cuadro 7.8. Presentacin de medias del factor B y su signiicacin estadstica dada por la prueba de SNK.
Factor B b4: Cepa UMR-1899 b1: Cepa 1 (Ecuatoriana) b2: Cepa UMR 1073 b3: Cepa UMR 1077
Promedios 124.23 118.69 117.08 102.68
Signiicancia estadstica a ab ab b
En base a la salida dada por la prueba de SNK, se puede airmar que las cepas se clasiican en tres categoras estadsticas: Categora a, determinada por la cepa b4: Cepa UMR-1899. La segunda categora ab, est formada por las cepas b1: Cepa 1 (Ecuatoriana) y b2: Cepa UMR 1073. La tercera categora b, la constituye la cepa b3: Cepa UMR 1077. Por otra parte, se pueden observar las medias y los intervalos de conianza; as como el graico de interaccin solicitados al SPSS, con lo cual se ilustra mucho mejor el efecto de los tratamientos.
73
Cuadro 7.9. Presentacin de medias e intervalos de conianza para la interaccin.
3. FACTOR B * FACTOR A Dependent Variable: Nitrgeno Total (en mg) de la parte area de la planta 95% Confidence FACTOR B 1 FACTOR A 1 2 3 1 2 3 1 2 3 1 2 3 Mean 91.370 89.700 175.027 96.110 97.430 157.700 69.977 87.103 150.970 97.153 76.933 198.610 Std. Error 9.443 9.443 9.443 9.443 9.443 9.443 9.443 9.443 9.443 9.443 9.443 9.443 Interval Lower Upper Bound Bound 71.881 110.859 70.211 109.189 155.537 194.516 76.621 115.599 77.941 116.919 138.211 177.189 50.487 89.466 67.614 106.593 131.481 170.459 77.664 116.643 57.444 96.423 179.121 218.099
En la igura 7.4., se evidencia de manera grica el efecto de interaccin entre los factores.
Means of Nitrgeno total (mg) de la parte area de la planta
220 200 180 160 140 120 2 100 3 80 4 60 1 2 3
Estimated Marginal Means
FACTOR B
1
FACTOR A
Figura 7.4.
Efecto de interaccin entre Variedad*Cepas.
El grico de error bar, se solicita aparte en SPSS, dentro del Mdulo de Graphs.
74
300
95% CI Nitrgeno total (mg), parte area de planta
FACTOR B
200 Cepa 1 (Ecuatoriana)
Cepa UMR - 1073 100 Cepa UMR - 1077
Cepa UMR - 1899 0

N= 3 3 3 3 3 3 3 3 3 3 3 3
Rev-79
Rev-84
IMB AYO
FACTOR A
Figura 7.5. Grico de error bar para los tratamientos factoriales.
75
Captulo 8.
Anlisis de Varianza Univariado: Factoriales: Experimentos Bifactoriales establecidos en BCA.
8.1
El Anlisis de Varianza para un Bifactorial en BCA.
Tal como se explic en el captulo anterior, los experimentos factoriales, no son un diseo en s, sino un arreglo de tratamientos que se distribuyen en los diseos comunes: D.C.A., B.C.A y D.C.L. En este captulo, abordaremos el caso de un experimento factorial establecido en BCA. De hecho, el bifactorial en BCA, es una extensin del MAL de un bifactorial en DCA, solamente que el modelo tiene un componente ms que analizar, tal es el efecto de Bloques. Las implicaciones de campo de un bifactorial en BCA son muy marcadas en comparacin con las del DCA, ya que en efecto, para el BCA debe garantizarse el agrupamiento de las unidades experimentales de forma tal, que el efecto del bloqueo, sea efectivo en mejorar la precisin experimental de los datos. El bifactorial en BCA, igual que el DCA, permite estudiar por un lado los efectos principales, o accin independiente de los factores y por otro lado se estudia el efecto de interaccin entre ellos. 8.2 El Modelo Aditivo Lineal para un Bifactorial distribuido en B.C.A.
Yijk = +
i = 1, 2, 3, .a = niveles del factor A. j = 1, 2, 3, . b = niveles del factor B. k = 1, 2, 3, .n = repeticiones bloques.
+(
)ij+
i jk
Yij k = La k-sima observacin del i-simo tratamiento. = Estima a la media poblacional. i = Efecto del i-simo nivel del factor A. j = Efecto debido al j-simo nivel del factor B. ( ) i j= Efecto de interaccin entre los factores A y B. k = Efecto del k-simo bloque. i jk = Efecto aleatorio de variacin. 8.3 Procedimiento estadstico para un experimento Bifactorial establecido en B.C.A. Para ejempliicar el anlisis de un bifactorial propiamente dicho establecido en BCA, se presentan los datos de un experimento de campo conducido para determinar el efecto de tres densidades de siembra y tres niveles de nitrgeno, sobre el rendimiento (en chilote), en el cultivo del maz (Zea mays L). El experimento fue diseado con el propsito de evaluar ambos factores con el mismo grado de precisin. En el cuadro 8.1, se presentan los tratamientos en estudio y los datos obtenidos del ensayo. Como un estudio de caso, ver Pedroza, P.H., (1993), en pginas 153-159.
76
Cuadro 8.1. Datos del rendimiento total obtenido de Chilote (kg/P.U.).
BLOQUES Tratamientos a1b1 a1b2 a1b3 a2b1 a2b2 a2b3 a3b1 a3b2 a3b3 Y ..k I 4.15 6.00 8.25 7.00 7.35 8.50 5.70 8.60 9.85 65.40 II 7.90 8.65 8.95 7.30 7.70 8.10 8.90 8.50 9.30 75.30 III 5.50 5.00 8.60 3.00 4.70 8.45 11.10 8.25 8.80 63.40 IV 3.50 5.50 8.40 3.70 5.10 8.10 5.50 8.70 8.40 56.90
Totales Y ij. 21.05 25.15 34.20 21.00 24.85 33.15 31.20 34.05 36.35 261.00
La descripcin de los factores en estudio es la siguiente: Factor A: Densidad de Siembra a1: 136 000 plantas/ha a2: 90 750 plantas/ha a3: 68 600 plantas/ha Factor B: Niveles de Nitrgeno b1: 50 kg/ha b2: 75 kg/ha b3: 100 kg/ha
Con los datos presentados en el cuadro 8.1., se genera en SPSS la BDD llamada BIFACT en BCA, que contiene cuatro variables: 1ra) Densidad (Factor A), con valores de 1 a 3; 2da) Nivelden (Factor B), con valores de 1 a 3; 3ra) Bloques, con valores de 1 a 4; y 4ta) Rendkg, con los datos de rendimiento total de Chilote, obtenido para cada tratamiento factorial en cada bloque. Para resolver en el SPSS el anlisis estadsticos de un Bifactorial en BCA, se deben usar los comandos Analyze/ General Linear Model/ Univariate/ en Dependent variable, se debe cargar la variable dependiente Rendimiento total de Chilote-; y en Fixed Factor(s) se deben cargar las variables Densidad-Factor A, N ivelden-Factor B y Bloques. Luego, dentro del comando Model, se deben deinir los efectos principales y la interaccin del modelo; usando la ventana de dilogo Custom (personalizado), se construyen los trminos del modelo, incorporando una variable a la vez, se incluyen los factores A, B y Bloque; luego para deinir la interaccin se toman simultneamente el factor A y B, y se jalan con el botn de Build Term(s) hacia el cuadro derecho de la ventana de dilogo; la opcin Type III e include intercept in model, se dejan por defecto. Usando la ventana de dilogo Options, se le solicita al programa las tablas de medias para cada factor y la interaccin; tambin puede solicitarse en esta ventana la prueba de Levene. En la ventana de dilogo Plots se le solicita el grico para la interaccin. En la ventana de dilogo Post Hoc se selecciona la prueba de separacin de medias para cada factor, en el ejemplo se utiliz la prueba S N K.
77
Cuadro 8.2. Salida del AN OVA para un Bifactorial en BCA.
Tests of Between-Subjects Effects Dependent Variable: Rendimiento Total de Chilote (kg/P.U.) Type III Sum of Source Squares Corrected Model 91.321 a Intercept 1892.250 BLOQUES 19.352 DENSIDAD 26.727 NIVELDEN 39.721 DENSIDAD * NIVELDEN 5.521 Error 45.219 Total 2028.790 Corrected Total 136.540 Mean Square 8.302 1892.250 6.451 13.363 19.861 1.380 1.884
df 11 1 3 2 2 4 24 36 35
F 4.406 1004.312 3.424 7.093 10.541 .733
Sig. .001 .000 .033 .004 .001 .579
El anlisis del cuadro de salida del bifactorial en BCA, debe referirse a la signiicacin del valor F, para Bloques, Densidad, Nivel de Nitrgeno, y la Interaccin. La interpretacin es la siguiente: La Signiicancia de Bloques es 0.033 < 0.05, por tanto se rechaza la Ho de igualdad entre bloques, esto indica que el efecto de bloques ayud a mejorar signiicativamente la precisin del experimento. La Signiicancia de Densidad es 0.004 < 0.05, por tanto se rechaza la Ho de igualdad entre densidades, esto indica que existen diferencias signiicativas entre las densidades. La Signiicancia de Niveles de Nitrgeno es 0.001 < 0.05, por tanto se rechaza la Ho de igualdad entre niveles de Nitrgeno, lo cual indica que existen diferencias signiicativas entre los diferentes niveles de Nitrgeno. La Signiicancia de interaccin Densidad*Niveles de Nitrgeno es 0.579 > 0.05, por tanto se acepta la Ho de igualdad para la interaccin, esto indica que no existen diferencias signiicativas del efecto de interaccin.
El siguiente paso es determinar cuales son los tratamientos que diieren entre si, para esto se utiliza la Tcnica de Separacin de Medias. La prueba de Rangos Mltiples fue solicitada por medio de SN K, para el factor A y B. A continuacin, se presentan las salidas del SPSS.
78
Cuadro 8.3. Salida del SPSS para la separacin de medias de SN K para el factor A.
Rendimiento Total de Chilote (kg/P.U.) Student-Newman-Keuls Densidad de Siembra a2: 90 750 plantas/ha a1: 136 000 plantas/ha a3: 68 600 plantas/ha Sig.
a,b
Subset N 12 12 12 1 6.5833 6.7000 .837 2
8.4667 1.000
El cuadro de salida dado para la prueba de SNK del factor A, se presenta de la siguiente manera:
Cuadro 8.4. Presentacin de medias del factor A y su signiicacin estadstica dada por la prueba de SNK.
Factor A a3: 68600 plantas / ha a1: 136000 plantas / ha a2: 90750 plantas / ha
Promedio 8.46 6.70 6.58
Signiicancia Estadstica a b b
En el cuadro 8.4., se observan dos categoras estadsticas, a saber: la densidad de 68000 plantas/ha, en primer lugar; seguida por las densidades de siembra 136000 y 90750 plantas/ha, en segundo lugar.
Cuadro 8.5. Salida del SPSS para la separacin de medias de SN K para el factor B.
Rendimiento Total de Chilote (kg/P.U.) Student-Newman-Keuls
a,b
Niveles de Nitrogeno en Kg/Ha b1: 50 kg/ha b2: 75 kg/ha b3: 100 kg/ha Sig.
N 12 12 12
Subset 1 6.1042 7.0042 .121 2
8.6417 1.000
79 El cuadro de salida dado para la prueba de SNK del factor B, se presenta de la siguiente manera:
Cuadro 8.6. Presentacin de medias del factor B y su signiicacin estadstica dada por la prueba de SNK.
N iveles de N itrgeno b3: 100 Kg/ha b2: 75 Kg/ha b1: 50 Kg/ha
Promedio 8.64 7.00 6.10
Signiicancia estadstica a b b
En base a la salida dada por la prueba de SNK, se puede airmar que los niveles de Nitrgeno se clasiican en dos categoras estadsticas: Categora a, determinada por el nivel b3: 100 Kg/ha. La segunda categora b, est formada por los niveles b2: 75 Kg/ha y b1: 50 Kg/ha. Por otra parte, se puede observar las medias y los intervalos de conianza; as como el graico de interaccin solicitados al SPSS, con lo cual se ilustra mucho mejor el efecto de los tratamientos.
Densidad de Siembra * Niveles de Nitrogeno en Kg/Ha Dependent Variable: Rendimiento Total de Chilote (kg/P.U.) Niveles de Nitrogeno en Kg/Ha b1: 50 kg/ha b2: 75 kg/ha b3: 100 kg/ha b1: 50 kg/ha b2: 75 kg/ha b3: 100 kg/ha b1: 50 kg/ha b2: 75 kg/ha b3: 100 kg/ha 95% Confidence Interval Lower Upper Bound Bound 3.846 6.679 4.871 7.704 7.134 9.966 3.834 6.666 4.796 7.629 6.871 9.704 6.384 9.216 7.096 9.929 7.671 10.504
Densidad de Siembra a1: 136 000 plantas/ha
Mean 5.263 6.288 8.550 5.250 6.213 8.288 7.800 8.513 9.087
Std. Error .686 .686 .686 .686 .686 .686 .686 .686 .686
a2:
90 750 plantas/ha
a3:
68 600 plantas/ha
80
Figura 8.1. Efecto Aditivo entre Densidad*N iveles de N itrgeno
Means of Rendimiento Total de Chilote (kg/P.U.)

10
Niveles de Nitrogeno
b1: 50 kg/ha 75 kg/ha
b2:
b3: 100 kg/ha 5 a1: 136 000 plantas a2: 90 750 planta a3: 68 600 planta
Densidad de Siembra
En la igura 8.1., se evidencia el efecto no signiicativo de interaccin o efecto aditivo entre los factores. Con el grico de error bar se evidencia tambin el efecto aditivo entre factores. El grico de error bar es solicitado por aparte en SPSS, dentro del Mdulo de Graphs.
95% CI Rendimiento Total de Chilote (kg/P.U.)
14
12
10
8 6
Niveles de Nitrogeno
b1: 50 kg/ha
4 b2: 2 b3: 100 kg/ha 0

N= 4 4 4 4 4 4 4 4 4
75 kg/ha
a1: 136 000 plantas a2:
a3: 90 750 planta
68 600 planta
Densidad de Siembra
Figura 8.2.
Grico de error bar, de los tratamientos factoriales.
81 8.4 El Anlisis de Varianza para un Trifactorial en BCA.
Al agregar un factor ms en estudio, se crea una extensin del modelo Bifactorial conocida como Trifactorial en Bloques, de hecho, el anlisis estadstico vara muy poco. En el modelo de un trifactorial, se crean adems de las interacciones de primer orden, (AB, AC, BC), tambin se crea la interaccin de segundo orden en el modelo, (ABC). La rutina dentro del SPSS, para el anlisis estadstico de los datos de un experimento trifactorial, es prcticamente la misma que para un Bifactorial.
82
Captulo 9.
Anlisis de Varianza Univariado: Factoriales: Diseo de Parcelas Divididas establecido en BCA.
9.1
El Anlisis de Varianza para un Diseo de Parcelas Divididas en BCA.
El Diseo de Parcelas Divididas, es un diseo propiamente dicho basado en el principio bsico de que las unidades experimentales, por razones de manejo de campo, tienen diferentes tamaos, de modo que a las parcelas grandes o parcelas principales, se les aplican mediante un primer proceso de azarizacin los niveles del primer factor (A). Luego, las parcelas grandes se sub-dividen en sub-parcelas o parcelas pequeas, a las cuales se les aplican por medio de un segundo proceso de azarizacin, los niveles del segundo factor (B). De este modo, el Diseo de Parcelas Divididas estudia dos o ms factores simultneamente, pero uno de ellos (el factor B) se estudia con mayor precisin que el otro. El Parcelas Dividida es un diseo en si, porque los tratamientos tienen su propia azarizacin de manera muy diferente a los otros diseos; en l se estudia al igual que en otros factoriales, la accin independiente de los factores y el efecto de interaccin entre ello. Un anlisis comparativo entre el Diseo de Parcelas Divididas y los bifactoriales propiamente dicho, indica que el Parcelas Divididas evala a los factores con diferente grado de precisin, es un diseo en si, utiliza dos diferentes tamaos de parcelas en el campo y en los procesos de azarizacin que utiliza se generan dos tipos de errores: E(a) y E(b). Por el contrario, los ensayos bifactoriales propiamente dicho, establecidos en DCA, BCA o DCL, evalan los factores con el mismo grado de precisin, no constituye un diseo en si, utiliza en el campo un solo tamao de parcela y su azarizacin genera un tipo de error. Por otra parte, las situaciones prcticas en que normalmente se recomienda implementar un Parcelas Divididas, es por ejemplo cuando los niveles de un factor (A), requieran una mayor extensin o rea para la unidad experimental que los niveles del otro factor (B). Tambin es muy til cuando se desea estudiar un factor con mayor precisin que el otro factor, siendo la norma que el factor establecido en la subparcela (factor B), es el que se estudia con mayor precisin, debido a que este factor se estudia con mayor nmero de repeticiones. 9.2 El Proceso de Azarizacin de Tratamientos en un Diseo de Parcelas Divididas.
Bsicamente, se realiza en dos etapas: 1) Por cada bloque, se azarizan los niveles del factor A, lo que viene a constituir las parcelas grandes y este proceso genera el error del factor A, (como una interaccin entre el factor A y el bloque), con el cual se calcula el efecto del factor A y del bloque. 2) Dentro de cada parcela grande, se azarizan los niveles del factor B, lo que viene a constituir las sub-parcelas y este proceso genera el error de B o residuo del modelo, con el cual se calcula el efecto del factor B y la interaccin entre factores AB.
83 9.3 El Modelo Aditivo Lineal para un Diseo de Parcelas Divididas.
Yijk = + k+
i = 1, 2, 3, .a = niveles del factor A. j = 1, 2, 3, . b = niveles del factor B. k = 1, 2, 3, .n = repeticiones o bloques.
ik
+(
) ij+
ijk
Yij k = La k-sima observacin del i-simo tratamiento. = Estima a la media poblacional. k = Efecto del k-simo bloque. i = Efecto del i-simo nivel del factor A. i k = Error del Factor A, E(a). j = Efecto debido al j-simo nivel del factor B. ( ) i j = Efecto de interaccin entre los factores A y B. i jk = Efecto aleatorio de variacin o error del modelo E(b). 9.4 Procedimiento estadstico para un Diseo de Parcelas Divididas en B.C.A.
Para ejempliicar el anlisis de un Diseo de Parcelas Divididas en BCA, se presentan los datos de un experimento de campo establecido con el objetivo de estudiar el efecto de sistemas de labranza (Factor A) y presencia o ausencia de malezas (Factor B), sobre la incidencia de la Chicharrita del Maz (Dalbulus maidis). El experimento de campo fue establecido en el CNIA Centro Nacional de Investigacin Agropecuario, utilizando la variedad de maz NB-100. Se estableci un diseo de Parcelas Divididas con arreglos de parcelas grandes en B.C.A. En el cuadro 9.1., se presentan los tratamientos en estudio y los datos obtenidos del ensayo. Como un estudio de caso, ver Pedroza, P.H., (1993), pginas 160-178.
Cuadro 9.1. Datos del rendimiento de campo en kg/ha.
Factor A
Factor B b1
BLOQUES I 1478.99 1304.30 2783.29 II 1268.23 1027.76 2295.99 1277.31 1529.41 2806.72 5102.71 III 1150.70 912.04 2062.74 1534.20 1545.54 3079.74 5142.48 IV 905.14 1013.78 1918.92 1103.52 1264.54 2368.06 4286.98
Y ij.
4803.06 4257.88 9060.94 5792.36 6231.03 12023.39 21084.33
a1 (Sub-Total) Y i.k
b2
b1 a2 (Sub-Total) Y i.k (Total) Y . . k b2
1877.33 1891.54 3768.87 6552.16
84 La descripcin de los factores en estudio es la siguiente: Factor A: Sistemas de labranzas a1: Labranza convencional a2: Labranza Cero Factor B: Malezas
b1: Sin malezas b2: Con malezas
Con los datos presentados en el cuadro 9.1, se genera en SPSS la BDD llamada PARCELA DIVIDIDA EN BCA, que contiene cuatro variables: 1ra) Labranza (Factor A), con valores de 1 a 2; 2da) Maleza (Factor B), con valores de 1 a 2; 3ra) Bloques, con valores de 1 a 4; y 4ta) Rendkg, con los datos de rendimiento de campo en Kg/ha, obtenido para cada tratamiento factorial. Para resolver en el SPSS el anlisis estadsticos de un Diseo de Parcelas Dividida en BCA, se deben usar los comandos Analyze/General Linear Model/ Univariate/ en Dependent variable, se debe cargar la variable dependiente Rendimiento de campo en Kg/ha-; y en Fixed Factor(s) se deben cargar las variables Labranza-Factor A, Maleza-Factor B y Bloques. Luego, dentro del comando Model, se deben deinir los efectos principales y la interaccin del modelo; usando la ventana de dilogo Custom (personalizado), se construyen los trminos del modelo, incorporando una variable a la vez en el orden que corresponde a las fuentes de variacin de un Parcela Dividida: se incluyen 1ro) Bloque; 2do) Factor A; 3ro) Bloque*Factor A, esto deine el E(a) en el modelo. En 4to) orden se incluye el Factor B. Luego, para deinir la interaccin AB, en 5to) orden se toman simultneamente el factor A y B, y se jalan con el botn de Build Term(s) hacia el cuadro derecho de la ventana de dilogo; la opcin Type III e include intercept in model, se dejan por defecto. El programa calcula por defecto el error del modelo E(b). Usando la ventana de dilogo Options, se le solicita al programa las tablas de medias para cada factor y la interaccin; tambin puede solicitarse en esta ventana la prueba de Levene; En la ventana de dilogo Plots se le solicita el grico para la interaccin. En la ventana de dilogo Post Hoc se selecciona la prueba de separacin de medias para cada factor, en este ejemplo se utiliz la prueba de S N K.
Cuadro 9.2. Salida del AN OVA dada por el SPSS, para un Diseo de Parcelas Dividida en BCA.
Tests of Between-Subjects Effects Dependent Variable: Rendimiento de campo en Kg/ha Type III Sum of Squares Corrected Model 1341890 Intercept 2.8E+07 BLOQUES 663626.3 LABRANZA 548506.9 LABRANZA * BLOQUES 68550.327 MALEZAS 709.024 LABRANZA * MALEZAS 60497.551 Error 62251.441 Total 2.9E+07 Corrected Total 1404142 Source df
a
Mean Square 9 1 3 1 3 1 1 6 16 15 149098.9 2.8E+07 221208.8 548506.9 22850.109 709.024 60497.551 10375.240
F 14.371 2677.944 21.321 52.867 2.202 .068 5.831
Sig. .002 .000 .001 .000 .189 .803 .052
85 La salida del SPSS para un Parcela Divididas proporciona los cuadrados medios (Mean Square) para cada uno de los trminos del Modelo; sin embargo, el calculo de F para el Bloque y el Factor A, lo realiza contra el E(b). Por esta razn en particular, debe calcularse por aparte el valor de F para el Bloque y el Factor A, haciendo la relacin de varianzas entre el cuadrado medio de bloque y Factor A, contra el E(a), deinido en el cuadro 9.2 como LABRANZA*BLOQUE=22850.109. Luego se puede proceder a la correcta interpretacin del efecto de Bloque y Factor A, tal como se presentan en el cuadro siguiente.
Cuadro 9.3. Tabla del ANOVA para un Diseo de Parcelas Dividida en BCA, con el valor de F
para Bloque y el Factor A, calculados con el E(a).

Tests of Between-Subjects Effects
Dependent Variable: Rendimiento de campo en Kg/ha Type III Sum of Source Corrected Model Intercept BLOQUES LABRANZA LABRANZA * BLOQUES MALEZAS LABRANZA * MALEZAS Error Total Corrected Total Squares 1341890.076(a) 27784310.722 663626.298 548506.875 68550.327 709.024 60497.551 62251.441 29188452.239 1404141.517 df 9 1 3 1 3 1 1 6 16 15 Mean Square 149098.897 27784310.722 221208.766 548506.875 22850.109 709.024 60497.551 10375.240 0.068 NS 5.83 * F 14.371 2677.944 9.68 * 24.00 * Sig. .002 .000 .001 .000 .189 .803 .052
a R Squared = .956 (Adjusted R Squared = .889)
El anlisis del cuadro 9.3 para el Parcelas Divididas en BCA, debe referirse a la signiicacin del valor F, para Bloques, Labranza, Maleza, y la Interaccin. La interpretacin es la siguiente: La signiicancia para Bloques es 0.001<0.05, esto indica que el efecto de bloques es signiicativo y por tanto, si ayud a mejorar la precisin del experimento. La signiicancia para Labranza 0.000<0.05, esto indica que existen diferencias signiicativas entre los niveles de labranza. La signiicancia de Malezas es 0.803 > 0.05, por tanto se acepta la Ho de igualdad entre niveles de Malezas. La signiicancia de interaccin Labranza*Malezas es 0.05 < = 0.05, por tanto se rechaza la Ho de igualdad para la interaccin, esto indica que si existen diferencias signiicativas del efecto de interaccin.
86 El siguiente paso es determinar cuales son los tratamientos que diieren entre si, para esto se utiliza la Tcnica de Separacin de Medias. La prueba de Rangos Mltiples fue solicitada por medio de SN K, para el factor A y B. No obstante, el SPSS enva un aviso sealando que hay menos de tres niveles para cada factor y que por tanto, no se puede realizar la prueba. Esto indica que se necesitan al menos tres niveles para cada factor para realizar la separacin de medias. A continuacin, se presentan las medias de factores e interaccin, tambin solicitadas al SPSS.
Cuadro 9.4. Cuadro de medias para el factor labranza.
1. Labranza (Factor A) Dependent Variable: Rendimiento de campo en Kg/ha 95% Confidence Interval Lower Upper Bound Bound 1044.498 1220.737 1414.804 1591.043
Labranza (Factor A)
a1: Labranza convencional a2: Labranza cero
Mean 1132.617 1502.924
Std. Error 36.013 36.013
En el cuadro 9.4., se observa el incremento de medias para el nivel a2, mayor que a1.
Cuadro 9.5. Cuadro de de medias del factor malezas.
2. Malezas (Factor B) Dependent Variable: Rendimiento de campo en Kg/ha 95% Confidence Interval Lower Upper Bound Bound 1236.308 1412.547 1222.994 1399.233
Malezas (Factor B) b1: Sin maleza b2: Con maleza
Mean 1324.428 1311.114
Std. Error 36.013 36.013
Hasta aqu dos detalles hay que destacar: El R ajustado = 0.889, presentado en el cuadro 9.2., indica que el ajuste del modelo de Parcelas Dividida en BCA ha sido muy adecuado para el anlisis de los datos. Pero, el hecho de tener solo dos niveles para cada factor en estudio, induce a obtener una respuesta imperfecta no apropiada para cada uno de los factores, limitando la interpretacin del efecto de los factores presentado en la igura 9.2. Por otra parte, se puede observar las medias y los intervalos de conianza; as como el graico para cada factor y la interaccin, solicitados al SPSS, con lo cual se ilustra mucho mejor el efecto de interaccin entre los factores.
87
3. Labranza (Factor A) * Malezas (Factor B) Dependent Variable: Rendimiento de campo en Kg/ha Labranza (Factor A) Malezas (Factor B) a1: Labranza convencional a2: Labranza cero b1: Sin maleza b2: Con maleza b1: Sin maleza b2: Con maleza Mean 1200.765 1064.470 1448.090 1557.758 Std. Error 50.929 50.929 50.929 50.929
95% Confidence Interval Lower Upper Bound Bound 1076.145 1325.385 939.850 1189.090 1323.470 1572.710 1433.138 1682.377
Means of Rendimiento de campo en Kg/ha

1600
1500
1400
1300
1200
Malezas (Factor B)
b1: Sin maleza b2: Con maleza
1100
1000 a1: Labranza convenc
a2: Labranza cero
Labranza (Factor A)
Figura 9.1. Efecto de interaccin Labranza*Malezas.
88
Estimated Marginal Means of Rendimiento de campo en Kg/ha
1600
Estimated Marginal Means of Rendimiento de campo en Kg/ha

1326 1324 1322 1320 1318 1316 1314 1312
1500
1400
1300
1200
1100 a1: Labranza convenc

a2: Labranza cero
1310 b1: Sin maleza
b2: Con maleza
Labranza (Factor A)
Malezas (Factor B)
Figura 9.2.
Efecto del factor Labranza y Malezas por separado.
En la igura 9.1., se evidencia el efecto signiicativo de interaccin Labranza*Malezas. Por otra parte, con el grico de error bar se evidencia tambin el efecto de interaccin. El grico de error bar es solicitado aparte en SPSS, dentro del Mdulo de Graphs.
2200 2000
95% CI Rendimiento de campo en Kg/ha
1800 1600 1400 1200 1000 800 b2: Con maleza 600
N= 4 4 4 4
Malezas (Factor B)
b1: Sin maleza
a1: Labranza convenc
a2: Labranza cero
Labranza (Factor A)
Figura 9.3.
Grico de error bar, de los tratamientos factoriales.
89
Captulo 10.
10.1
Anlisis de Regresin Lineal Simple.
El Anlisis de Regresin Lineal Simple.
El concepto de regresin se reiere al cuantum o cantidad de cambio que experimenta una variable dependiente (Y), en relacin al cambio de una unidad de una variable independiente (X). La regresin es un concepto estadstico estrechamente vinculado al concepto de correlacin; mientras la regresin estudia la naturaleza de la relacin entre dos variables dependientes, la correlacin estudia la estrechez de la relacin entre esas dos variables una dependiente de la otra, (Little y Hills, 1978). Al igual que con otros procedimientos estadsticos, (Dicovskyi L., 2002), destaca que en la regresin lineal se desea realizar una inferencia estadstica partiendo de los valores muestrales obtenidos; por tanto, se deben cumplir ciertos requisitos, que en el caso de la regresin lineal son los siguientes: 1) N ormalidad y Homogeneidad de varianzas en la variable dependiente (Y) del modelo para los valores ijos de la variable independiente (X). 2) Independencia de las observaciones de Y 3) Linealidad en la relacin entre las variables. El modelo de regresin simple es el siguiente Yi = B0 + B1 Xi + ei .. donde: Y1: es la variable dependiente. B0: es la ordenada en el origen, o bien es el intercepto. B1: es la pendiente de la recta de regresin. ei: es el trmino del error, es decir la diferencia entre los valores predichos por la regresin y los valores reales. Para desarrollar el tema del Anlisis de Regresin Lineal, se toma como ejemplo parte de los datos del experimento de tomate, referido en el captulo once. La variable dependiente es Peso fresco de planta (en gramos) y la variable independiente es Desarrollo de la Planta, una variable cualitativa, codiicada en escala cuantitativa discreta con cinco valores (1, 2, 3, 4 y 5), donde 1 es el peor estado, y 5 es muy bueno. La pregunta lgica es: Si el peso fresco de planta est determinado o no por el estado de desarrollo de la planta, y si el efecto de regresin es signiicativo, entonces, en que medida el desarrollo de la planta induce a obtener un mayor peso fresco de la planta?. Este tipo de pregunta la puede responder un estudio de Regresin y Correlacin. Para realizar el ANARE, es recomendable iniciar con el uso del comando Descriptives, a in de conocer las caractersticas bsicas de las variables en estudio.
90
Cuadro 10.1. Anlisis descriptivo de las variables en estudio.
Descriptive Statistics Std. Deviation 1.7544 1.12
PESOFRES DESARROL Valid N (listwise)
N 100 100 100
Minimum .50 1
Maximum 7.30 5
Mean 3.1220 3.63
10.2
Rutina para el Anlisis de Regresin Simple con el SPSS.
Primero, se carga la base de datos llamada EXPERIMEN TO-SUSTRATOXFERTIRIEGO, luego la rutina para el ANARE se realiza en el SPSS, ejecutndo el comando Analyze / Regression / Linear. Siguiendo las indicaciones dadas en n la ventana de dilogo, se introduce la variable peso fresco de plntula como dependiente, y luego se introduce la variable desarrollo de la planta como la variable independiente. Para desarrollar el anlisis de regresin lineal simple, puede seleccionarse el mtodo Enter, luego en la ventana de dilogo statistics. se selecciona la prueba de Durbin-Watson, y el ajuste del modelo (model it). Tambin se puede seleccionar en la venta de dilogo plots, el histograma y el grico de probabilidad normal. En la ventana de options, se recomienda dejar por defecto la probabilidad de entrada de alfa 5%. Finalmente se ejecuta el procedimiento de la regresin lineal simple, dando OK. En el siguiente cuadro, se presenta la primera salida del ANARE.
Cuadro 10.2. Resumen de los coeicientes de Correlacin de Pearson (R) y Determinacin (R2).
Model Summary
Model 1
R .749
a
R Square Adjusted R Square .561 .557
Std. Error of the Estimate 1.1680
Durbin-Watson 1.601
a. Predictors: (Constant), DESARROL b. Dependent Variable: PESOFRES
En el cuadro 10.2., puede observarse el coeiciente de correlacin de Pearson, (R), que mide el grado de asociacin entre las variables X e Y. En ciencias biolgicas, es aceptable un R cercano a un 80 %. El valor obtenido para R = 0.749, es un valor de correlacin alto y positivo, lo que indica una alta dependencia de la variable dependiente en funcin de la variable independiente desarrollo de la planta. El coeiciente de determinacin (R2) llamado en el cuadro 10.2 como R Square, es una medida -en porcentaje-, de la inluencia en que la variable independiente (en este caso desarrollo de la planta), determina a la variable dependiente (en este caso peso fresco de planta). El valor obtenido de R2 = 0.561, indica que el 56 % de la variabilidad del peso fresco de planta, se debe o se explica por la inluencia de la variable desarrollo de la planta. El valor de R2 ajustado, tiene mayor relevancia y debe ser considerado en los casos de regresin lineal mltiple, ya que existe la tendencia a sobreestimar el valor de R, a medida que aumenta el nmero de variables independientes incorporadas en el modelo. No obstante, para el caso de la regresin lineal simple
91 puede ser que el ajuste sea insigniicante, por cuanto solo existe una variable independiente incorporada en el modelo de regresin; de hecho, el valor obtenido de R2 y R2 ajustado, en este ejemplo es igual a 0.56, por lo que se puede utilizar cualquiera de ellos. En el cuadro 10.2., se presenta la prueba de Independencia de los Residuos, por el estadstico de DurbinWatson = 1.601. El valor de Durbin-Watson aproximado a 2, indica que se cumple el principio de que los trminos de los residuos no estn correlacionados entre si. Por el contrario, si el estadstico DurbinWatson se aproxima a 4, signiica que los residuos estarn negativamente autocorrelacionados entre si. Finalmente, si el estadstico Durbin-Watson se aproxima 0, signiica que los trminos del error estarn positivamente autocorrelacionados, (Ferran A. M., 1996). 10.3 Construyendo el Modelo de Regresin Lineal Simple.
Para la regresin lineal simple, es fundamental determinar la signiicancia estadstica del efecto de regresin en estudio, esto se determina en el cuadro del ANARE o ANOVA.
Cuadro 10.3. Anlisis de Regresin de las variables en estudio.
ANOVA Sum of Squares 171.009 133.703 304.712
b
Model 1
df 1 98 99
Regression Residual Total
Mean Square 171.009 1.364
F 125.344
Sig. .000
a. Predictors: (Constant), DESARROL b. Dependent Variable: PESOFRES
En el cuadro 10.3., se observa la prueba de F para evaluar el efecto de regresin lineal. La Signiicancia observada = 0.000, es menor del 0.05, por tanto se rechaza la hiptesis nula de que el valor de Beta es igual a 0; es decir, se acepta que el efecto de regresin de la variable independiente desarrollo de la planta es signiicativo sobre la variable dependiente peso fresco de planta. Queda establecido, el modelo de regresin lineal en funcin de una constante, ms la inluencia de la variable desarrollo de la planta. Otra salida importante para el ANARE lineal simple, se presenta en el cuadro 10.4.
Cuadro 10.4. Coeicientes Beta para construir el modelo de regresin.
Coefficients Unstandardized BCoefficients Std. Error (Constant) DESARROL -1.153 1.178 .399 .105
a
Model 1
Standardized Coefficients Beta .749
t -2.887 11.196
Sig. .005 .000
a. Dependent Variable: PESOFRES
92 En este ejemplo, el modelo queda deinido por un intercepto de la funcin lineal, que es B0 = -1.153; y el coeiciente de regresin es B1 = 1.178. Se conirma la signiicancia de la regresin lineal por medio de la prueba de t, ya que el coeiciente estandarizado de Beta = 0.749, tiene un valor de Signiicancia 0.000 menor a 0.05. El modelo de regresin lineal simple queda dado por la ecuacin.... Yi = B0 + B1 X1i + ei Queda deinido para este estudio, por los siguientes trminos: Yi = - 1.153 + 1.178 X1 + ei El modelo de regresin lineal simple explica parcialmente comportamiento de los datos. Esto se observar mejor con un grico de dispersin, con el cual se pueden observar los puntos X-Y en forma de nube y la recta de regresin en ella. Para lograr este grico, se utiliza el comando Analize/Regression/Curve Estimation/Linear:
Figura 10.1.
Grico de dispersin para la regresin lineal.
10.4
Determinando el Modelo de Mejor Ajuste.
Este mismo comando Analyze/Regression/Curve Estimation, es importante utilizar en la simulacin de modelos para determinar la curva de mejor ajuste, ya que existen casos para los cuales el modelo lineal podra no ser el de mejor ajuste. Para lograr la simulacin, en la ventana de dilogo de este mismo comando, se solicitan diferentes modelos: Lineal, logartmico, cuadrtico, cbico, exponencial, etc. Finalmente, basados en la prueba de F que proporciona el ANOVA y tomando muy en cuenta el R2 , se proceder a seleccionar el modelo de mejor ajuste, que corresponder al modelo que tenga mayor valor del R2. A continuacin se presenta el grico y la hoja de salida solicitada:
93
Figura 10.2. MODEL:
Grico de simulacin de modelos para determinar la curva de mejor ajuste.
MOD_1. Method.. LINEAR .74914 .56122 .55674 1.16804
Dependent variable.. PESOFRES Multiple R R Square Adjusted R Square Standard Error
Analysis of Variance: DF Regression Residuals F = 1 98 Sum of Squares 171.00889 133.70271 Signif F = B 1.177634 -1.152810 .0000 SE B .105186 .399291 Beta .749143 -2.887 T 11.196 Sig T .0000 .0048 Mean Square 171.00889 1.36431
125.34428
-------------------- Variables in the Equation -------------------Variable DESARROL (Constant)
____________________________________________________________________ Dependent variable.. PESOFRES Multiple R R Square Adjusted R Square Standard Error .68862 .47420 .46884 1.27862 Method.. LOGARITH
94
Analysis of Variance: DF Regression Residuals F = 1 98 Sum of Squares 144.49467 160.21693 Signif F = .0000 Mean Square 144.49467 1.63487
88.38315
-------------------- Variables in the Equation -------------------Variable DESARROL Constant) B 3.088193 -.665079 SE B .328488 .422633 Beta .688623 T 9.401 -1.574 Sig T .0000 .118
____________________________________________________________________ Dependent variable.. PESOFRES Multiple R R Square Adjusted R Square Standard Error .76349 .58292 .57432 1.14463 Method.. QUADRATI
67.78562
-------------------- Variables in the Equation -------------------Variable DESARROL DESARROL**2 (Constant) B -.014591 .177946 .610771 SE B .540524 .079195 .877017 Beta -.009282 .772604 T -.027 2.247 .696 Sig T .9785 .0269 .4878
____________________________________________________________________
95
Dependent variable.. PESOFRES Multiple R R Square Adjusted R Square Standard Error .76350 .58293 .56990 1.15057 Method.. CUBIC
44.72602
-------------------- Variables in the Equation -------------------Variable DESARROL DESARROL**2 DESARROL**3 (Constant) B .074359 .146390 .003340 .540320 SE B 2.133134 .736096 .077445 1.856453 Beta .047303 .635597 .082222 T .035 .199 .043 .291 Sig T .9723 .8428 .9657 .7716
____________________________________________________________________ Dependent variable.. PESOFRES Multiple R R Square Adjusted R Square Standard Error .79718 .63550 .63178 .39065 Method.. EXPONENT
Analysis of Variance: DF Regression Residuals F = 1 98 Sum of Squares 26.073999 14.955366 Signif F = .0000 Mean Square 26.073999 .152606
170.85853
-------------------- Variables in the Equation -------------------Variable DESARROL (Constant) B .459838 .490165 SE B .035179 .065458 Beta .797180 T 13.071 7.488 Sig T .0000 .0000
____________________________________________________________________
96 10.5 El Anlisis de Correlacin.
Tal como se indic al inicio de este captulo, el anlisis de correlacin se realiza para medir el grado de asociacin entre dos variables dependientes una de otra. La correlacin es un indicador estadstico deinido por el coeiciente de correlacin R- y es medido en una escala que vara entre 1 y +1. El valor de + 1, indica una correlacin perfecta y directa; en cambio, el valor de -1, signiica que existe una correlacin perfecta e inversa. El valor de R = 0, signiica ausencia de correlacin entre las variables, lo cual es un indicador de que las variables son independientes entre si. El anlisis de correlacin puede aplicarse cuando se disponen de variables continuas o discretas de muchos valores donde se quiere saber si estas estn asociadas o no.
Para ilustrar el anlisis de correlacin, se usarn las variables Peso fresco de planta, Desarrollo de la Planta, Altura de planta y Dimetro del tallo. Primero, en SPSS se carga la BDD llamada EXPERIMEN TO-SUSTRATOXFERTIRIEGO, luego, , se ejecutan los comandos Analyze/ Correlate/ Bivariate/, luego en la ventana de dilogo, variables, se incluyen las variables que se desean analizar. Se marcan la opcin Correlation Coeficients y se solicita la prueba de signiicancia de dos colas en Test of Signiicance two tailed, y OK. En el cuadro 10.5, se presenta la matriz de correlacin de Pearson, en la que se muestran los valores de R, de cada variable en relacin a las otras.
Cuadro 10.5. Matriz de correlacin de Pearson y sus niveles de Signiicacin.
Correlations Peso Fresco Desarrollo de Altura de Diametro de Planta la Planta Planta del Tallo 1.000 .749 ** .746 ** .529 . .000 .000 .000 100 100 100 100 .749 ** 1.000 .784 ** .686 .000 . .000 .000 100 100 100 100 .746 ** .784 ** 1.000 .600 .000 .000 . .000 100 100 100 100 .529 ** .686 ** .600 ** 1.000 .000 .000 .000 . 100 100 100 100
Peso Fresco de Planta
Desarrollo de la Planta
Altura de Planta
Diametro del Tallo
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
**
**
**
**. Correlation is significant at the 0.01 level (2-tailed).
Para interpretar esta hoja de salida, basta con observar el nivel de signiicancia de cada variable en relacin a las dems, por ejemplo: El Peso Fresco de Planta tiene una correlacin alta y positiva con las variables Desarrollo de la Planta y Altura de Planta; as mismo, tiene una correlacin positiva y media con respecto al Dimetro del Tallo.
97
Captulo 11.
11.1
Anlisis de Regresin Lineal Mltiple.
Regresin Lineal Mltiple.
El hecho que el modelo de Regresin Lineal Simple sea adecuado, no signiica que no pueda ser mejorado a travs de la informacin proporcionada por otras variables. Puede ser que al incorporar ms variables al modelo, la proporcin de la variabilidad explicada aumente signiicativamente, (Dicovskyi L., 2002). La regresin lineal mltiple es una extensin del modelo simple al que se incorporan dos o ms variables independientes. Este modelo puede ser expresado como:
Yi = B0 + B1 X1i + B2 X2i + B3 X3i + ....+ Bp Xpi + ei

Donde Xpi : es la puntuacin de un sujeto i en la variable dependiente p. B: son los parmetros estandarizados desconocidos. ei: son los trminos de residuos o errores, de media = 0 y variancia constante.
A continuacin se presenta un ejemplo con datos de un experimento bifactorial con plntulas en semillero de tomate, cuyo objetivo era evaluar el efecto de 5 diferentes dsis de Raizal, (0, 1, 2, 3 y 4 gr/Lt de agua), en dos diferentes tipos de sustrato (Lombrihumus y Promix). Durante el crecimiento de las plntulas se evaluaron cuatro variables independientes, a saber: una variable cualitativa llamada desarrollo de la planta, usando una escala de 1 a 5, donde el valor 1 representa la peor situacin, el valor 2 es mal estado, el valor 3 es regular, el valor 4 representa un buen estado y el valor 5 es un estado muy bueno. Adems, se evaluaron tres variables cuantitativas: nmero de hojas verdaderas bien desarrolladas; altura de planta (en cm) y dimetro del tallo (en mm). Estas variables independientes se relacionaron con la variable dependiente y inal peso fresco de plntula (en gr). Los datos del experimento se presentan en el cuadro 11.1, y en la igura 11.1, se muestran los tratamientos utilizados en el experimento. Si la regresin es real, signiica que la evaluacin visual a travs de la variable cualitativa desarrollo de la planta, es una buena forma de predecir una planta de mayor peso fresco y por lo tanto de mejor calidad para el transplante, 21 das despus de germinadas.
98
Cuadro 11.1. Datos del experimento bifactorial sustrato por fertiriego, en viveros de Tomate. Altura Tratamientos Fertirriego Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo Testigo 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua Sustrato Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Promix Promix Promix Promix Promix Promix Promix Promix Promix Promix Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Promix Promix Promix Promix Repeticiones No. de Hojas de Planta (cm) 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 3 4 4 3 3 3 3 3 3 3 2 2 2 2 3 3 3 2 2 2 4 4 4 4 4 3 3 4 4 4 2 3 3 3 18 16 15 17 15.5 16 13 21 12 14 15 12 10 8 10 13 9.5 8 8.5 9 21 20.5 23 19.5 21 22 21 18 19.5 18 8 8.5 8 7 Peso Fresco de Planta (gr) 3 2.2 3.6 3.4 2.5 3.7 2.7 3 1.9 2.5 1.3 1.7 2.2 1.5 1.8 2.5 1.7 1 1.4 1.2 4.5 6.4 3.7 4.4 5.2 5.7 5 4.5 3.1 5.6 1.2 1.9 1.9 1.7
Dimetro del Tallo (mm) 5 5 6.6 5.5 5 5.25 5 5.3 5.25 3 3 3 4 5 5 5 5 5.5 5.7 5.25 7.1 7.9 7.2 6.6 6 6.5 7.2 6.8 6.9 7.4 3 3 3.2 3.7
Desarrollo de la Planta 4 3 4 4 4 4 4 4 4 4 3 3 4 3 3 3 3 3 3 3 5 5 5 5 5 5 5 5 5 5 3 3 4 3
99
Altura Tratamientos Fertirriego 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 1 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 2 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua Sustrato Promix Promix Promix Promix Promix Promix Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Promix Promix Promix Promix Promix Promix Promix Promix Promix Promix Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Repeticiones No. de Hojas de Planta (cm) 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 2 2 2 3 2 3 3 4 4 4 3 4 4 3 3 4 3 3 3 3 3 3 3 3 3 3 4 4 3 4 4 3 3 3 4 7 10.5 5 7.5 7 7.5 19.5 19.5 23 24.5 23 19.5 21 23 25.5 21 6 12 13 14 16.5 14.5 15 14 13.5 16 24 22 23 22.5 20.5 22 21.5 19 21.5 Dimetro del Tallo (mm) 3.8 3.7 3.2 3.7 3.8 4.8 5.1 5.15 5.9 5.7 5 4.8 4.7 4.4 4.6 4.45 3 3.1 2.5 2.7 2.3 3.6 3.6 3.2 3.2 3.7 5 4.6 4.65 4.4 4.55 5.2 4.75 4.4 4 Desarrollo de la Planta 3 3 3 3 3 4 5 5 5 4 4 5 5 5 5 5 3 3 4 4 4 4 3 3 3 4 5 4 5 4 4 5 4 4 5 Peso Fresco de Planta (gr) 3.8 1.3 2.8 1.4 1.8 0.8 5.6 4.7 3.4 6.1 5.4 5.4 6.8 7.3 3.1 6.5 2.4 3.7 3.5 2.7 1.6 1.7 1.9 4.2 4.2 2.4 6.2 4.5 6.1 5.1 4.4 7.2 3.1 3.9 4.9
100
Altura Tratamientos Fertirriego 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 3 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua 4 gr por Lt de Agua Sustrato Lombrihumus Promix Promix Promix Promix Promix Promix Promix Promix Promix Promix Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Lombrihumus Promix Promix Promix Promix Promix Promix Promix Promix Promix Promix Repeticiones No. de Hojas de Planta (cm) 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 4 3 3 3 3 3 3 3 2 2 2 4 3 3 4 4 3 4 4 4 4 3 3 3 3 3 3 3 3 2 2 20 5 7 7 13.5 13.5 12.5 15 16.5 5.5 5 18 15.5 15 20 18.5 20 11 18 15 11 5.5 5.5 4.5 4.5 6 5 6 5 6.5 8.5 Dimetro del Tallo (mm) 4 3 2 2 2.7 2.75 3.55 2.7 2.4 3.2 3 4 4.7 4.4 4 4.65 4 4 3.8 3.9 4.5 2 1.8 2.2 2.4 2.8 2.9 3 2.3 2 2.3 Desarrollo de la Planta 4 3 3 3 3 3 3 2 2 2 2 5 5 3 5 4 4 4 4 4 5 2 2 2 2 2 1 1 1 1 1 Peso Fresco de Planta (gr) 5.7 2 2.4 2.9 1.1 1.4 2.4 0.6 1.6 2.8 1.7 1.9 4.3 1.8 3.7 3.3 5.5 4.6 4.2 4.6 4.1 1.5 1.3 0.8 1.9 1.2 0.8 0.7 0.7 0.7 0.5
101 11.2 Rutina para el Anlisis de Regresin Mltiple con SPSS.
Primero, se carga la base de datos llamada EXPERIMENTO-SUSTRATOXFERTIRIEGO, luego la rutina se realiza en el SPSS, ejecutndo en el mdulo Analyze/Regression/Linear. En la ventana de dilogo, se introduce como dependiente la variable peso fresco de plntula, y las restantes variables se introducen como variables independientes. Para desarrollar el anlisis de regresin mltiple, se selecciona el mtodo Forward, luego se dejan por defecto todo el resto de opciones. Finalmente se ejecuta el procedimiento de la regresin mltiple, dando el OK.
El programa selecciona como primera variable para entrar en el modelo aquella variable que en la matriz de correlaciones de Pearson, de entre todas las variables independientes del modelo, tiene un coeiciente de correlacin ms signiicativo con la dependiente. El proceso se detiene cuando el grado de signiicacin de t para las variables que quedan es menor que 0.05.
11.3
Anlisis de los residuos. 11.3.1 La N ormalidad de los Datos.
En la regresin lineal se supone que los verdaderos errores i, son independientes con distribucin N (0, 2 ). Respecto a la normalidad, la distribucin de la variable dependiente formada por los residuos debe ser normal: los residuos observados y los esperados bajo hiptesis de distribucin Normal deben ser parecidos, (Ferran A. M., 1996). Para veriicar la normalidad de los datos de la variable dependiente Peso Fresco de Planta, se realiza la prueba de Kolmogorov-Smirnov, cuyo resultado se presenta en el cuadro 11.2.
Cuadro 11.2. Resultado de la prueba de Kolmogorov-Smirnov, para variable dependiente Peso Fresco de Planta.
One-Sample Kolmogorov-Simirnov Test

Peso Fresco de Planta N Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal b. Calculated from data
a,b
Histograma
16 14 12 10 8 6 4 Std. Dev = 1.75 2 0 .50 1.50 1.00 2.50 3.50 4.50 5.50 6.50 7.50 2.00 3.00 4.00 5.00 6.00 7.00 Mean = 3.12 N = 100.00
100 Mean Std Deviation Absolute Positive Negative 3.1220 1.7544 .127 .127 -.068 1.270 0.080
Peso Fresco de Planta
102
Figura 11.1.
Tratamientos utilizados en el experimento bifactorial con plntulas de Tomate.
En el cuadro 11.2., se veriica la normalidad de los datos para la variable Peso Fresco de Planta, mediante la prueba de Kolmogorov-Smirnov, con una signiicancia de 0.08 > 0.05. Una alternativa para comprobar la normalidad de los datos, es el grico de probabilidad normal, o el grico del histograma que permite comparar, gricamente, la funcin de distribucin observada en la muestra con la funcin de distribucin Normal (0,1), (Ferran A. M., 1996).
Cuadro 11.3. Matriz de Correlacin entre las cuatro variables independientes y su signiicacin.
103 La matriz de correlacin de Pearson dada en el cuadro 11.3., indica una correlacin signiicativa de la variable dependiente peso fresco de la planta (con signiicancia 0.00 < 0.05), con respecto a las variables nmero de hojas, altura de planta, dimetro de planta y desarrollo de la planta; esto es un primer indicador que estas variables si van a funcionar en la ecuacin de regresin. Las variables desarrollo de la planta y altura de planta, (con R=0.749 y R=0.746), sern las primeras variables independientes que entrarn en el modelo de regresin con el mtodo Forward.
Cuadro 11.4. Incorporacin de variable(s) al modelo de Regresin Lineal Mltiple.
En el cuadro 11.4., se observa que las variables desarrollo de la planta y altura de planta, son incorporadas al modelo de regresin mltiple, utilizando el criterio de incorporar aquellas variables que cumple la probabilidad de entrada F <= 0.05.
Cuadro 11.5. Correlacin Mltiple (R), y Coeiciente de determinacin, (R2).
En el cuadro 11.5., puede observarse el modelo 1, deinido por la constante ms el efecto de la variable desarrollo de la planta, con el valor del coeiciente de correlacin R = 0.749, y coeiciente de determinacin ajustado R2 = 0.55, indica una alta y positiva asociacin, en relacin a la variable dependiente peso fresco de plntula. No obstante, para el modelo 2, se observa que la signiicancia de la regresin es mejorada al incorporar la informacin proporcionada por la variable altura de la planta. En el modelo 2, es notoria la mejora del coeiciente de correlacin R = 0.791, y el coeiciente de determinacin ajustado R2 = 0.619, indicando tambin una alta y positiva asociacin, en relacin a la variable dependiente peso fresco de plntula. En este caso, el modelo 2 de regresin mltiple, aumenta la proporcin de la variabilidad explicada por la variable independiente desarrollo de la planta, al adicionarle la variable altura de la planta; es decir, que se explica mucho mejor la inluencian de las variables independientes sobre la variable dependiente peso fresco de la planta.
104 11.3.2 Independencia de los Residuos.
En el modelo 2, presentado en el cuadro 11.5, est declarada la prueba de Independencia de los Residuos, mediante el estadstico Durbin-Watson=1.856. Esta prueba mide el grado de autocorrelacin entre los residuos. El valor de Durbin-Watson aproximado a 2, indica que se cumple correctamente el principio de que los trminos de los residuos NO estn correlacionados entre si. Por el contrario, si el valor del estadstico Durbin-Watson se aproxima a 4, signiica que los trminos del error estarn negativamente autocorrelacionados entre si. Finalmente, si el estadstico Durbin-Watson se aproxima 0, signiica que los trminos del error estarn positivamente autocorrelacionados, (Ferran A. M., 1996). 11.4. Construyendo el Modelo de Regresin Mltiple.
En el cuadro 11.6., se presenta el anlisis de variancia (ANOVA), se observa que tanto para el modelo 1, como para el modelo 2, les corresponde un efecto signiicativo de la regresin; lo cual indica que hay un buen ajuste al modelo 1, lase efecto de regresin lineal simple entre la variable independiente Desarrollo de la Planta y la variable dependiente Peso fresco de la planta.
Cuadro 11.6. ANOVA de los coeicientes Beta ( ) de la Regresin Mltiple.
Este efecto esta dado por el valor de F = 125.344 con Signiicancia = 0.000, que es mayor a 0.05, por tanto se rechaza la hiptesis nula de que el coeiciente de regresin Beta es igual a 0, esto implica una regresin lineal signiicativa. Igual interpretacin corresponde al modelo 2, del cuadro 11.6, para el cual se obtuvo un valor de F = 81.277 con Signiicancia = 0.000, esto implica que la regresin mltiple tambin es signiicativa. Sin embargo, se destaca en este segundo caso, que la regresin est referida al efecto de regresin mltiple de las variables independientes Desarrollo de la Planta y Altura de planta, sobre la variable dependiente Peso fresco de la planta. En los comentarios para el cuadro 11.5, ya se analiz que con el modelo de regresin mltiple, la proporcin de la variabilidad explicada por las variables independientes aumenta signiicativamente su efecto sobre la variable dependiente Peso fresco de la planta.
105
Cuadro 11.7. Coeicientes Beta ( ) de la ecuacin de Regresin y su signiicacin.
En el cuadro 11.7., se presentan los valores de los coeicientes estandarizados Beta ( ) para el modelo 2, la prueba de signiicancia de la regresin mltiple: el coeiciente ( ) es de 0.427, para la variable Desarrollo de la Planta, y para la variable, Altura de planta, ( ) es de 0.411, en ambos casos su valor de Signiicancia = 0.000 es < 0.05, por tanto la regresin mltiple es signiicativa. Para construir la ecuacin de regresin mltiple, se toma en el modelo 2, los coeicientes no estandarizados, B1 que es 0.671, para la variable Desarrollo de la Planta, y para Altura de planta, B2 que es 0.119. El modelo de regresin mltiple dado por la ecuacin: Yi = B0 + B1 X1i + B2 X2i + B3 X3i + ....+ Bp Xpi + ei ; La cual quedara deinida en este estudio, por los trminos siguientes:
Yi = -1.009 + 0.671 X1 + 0.119 X2 + ei

Cuadro 11.8. Variables de exclusin del modelo.
106 En el cuadro 11.8., se destaca para el modelo 2, que las variables Nmero de hojas, y Dimetro de planta, son no signiicativas, ya que tienen una Signiicancia = 0.108 y 0.817 respectivamente, en ambos casos son > 0.05. Por otra parte, se observa tambin para ambas variables que el valor de Tolerancia es alto, (0.600 y 0.519 respectivamente), lo que indica que esas variables deben ser excluidas del modelo, por lo tanto no entran en la ecuacin de regresin mltiple. En este ejemplo, el anlisis de regresin mltiple solo incorpor dos variables independiente, tales son: Desarrollo de la planta y Altura de planta a la ecuacin lineal, por lo tanto la regresin mltiple ha quedado deinida para este estudio, en los trminos:
Yi = -1.009 + 0.671 X1 + 0.119 X2 + ei

Estas variables independientes son las que mejor pueden predecir la variable respuesta o dependiente, deinida en este estudio como el Peso fresco de planta. Desde el punto de vista prctico las variables Desarrollo de la planta y Altura de planta, son las que se deberan usar para predecir una planta de tomate de buena calidad, lo cual indicar un mejor desarrollo vegetativo que la hace apta para el transplante a los 21 das despus de germinadas en el vivero.
107
Captulo 12.
12.1
Anlisis Multivariante de la Varianza.
Los Estudios Multivariados
Dentro de los mtodos multivariados, una primera distincin est en los mtodos descriptivos o exploratorios y en los mtodos conirmatorios. Los mtodos conirmatorios, se basan en un marco terico que justiica y fundamenta una hiptesis que se intenta validar empricamente, entre estos mtodos se encuentra el Anlisis Multivariado de la Varianza, (Bizquerra, R. 1989, citado por Dicovskyi L., 2002). Por otra parte, entre los mtodos multivariados descriptivos, el Anlisis Cluster, es uno de los ms relevantes, tema del cual nos ocuparemos en el captulo 13 de este texto. Para el caso de una variable dependiente simple, son necesarias dos asunciones para la apropiada aplicacin del anlisis de varianza univariado (AN OVA). Los grupos deben ser: a) muestras tomadas al azar de poblaciones normales, (N ormalidad de los datos); y b) tener varianzas semejantes, (Homogeneidad de Varianzas). Similares asunciones son necesarias para el anlisis de varianza multivariado, (MAN OVA). La extensin de las asunciones del ANOVA al MANOVA, requiere que: 1) las variables dependientes tengan una distribucin normal multivariada, 2) tengan matrices semejantes de varianza-covarianza entre cada grupo, llamada Homocedasticidad multivariable, y 3) tengan Independencia Multivariable. Es recomendable que las muestras sean grandes, n > 30, (Bizquerra, R. 1989, citado por Dicovskyi L., 2002). Para realizar el MANOVA, se analizar solo una parte de los datos del experimento realizado con plntulas en invernadero de tomate, (micro tnel), los que se presentan en el cuadro 12.1. Los tratamientos se describen en el cuadro 12.2, y se muestran en la igura 12.1. El objetivo general de este experimento, fue evaluar el efecto de tratamientos factoriales deinidos por 7 tipos de sustratos en tres tipos de bandejas (de 128, 98 y 72 nidos). Se registraron las variables: 1) nmero de hojas verdaderas bien desarrolladas; 2) altura de planta (en cm); 3) dimetro del tallo (en mm); 4) peso fresco de plntula (en gr); 5) desarrollo de la planta, usando una escala de 1 a 5, donde el valor 1 representa la peor situacin, el valor 2 es mal estado, el valor 3 es regular, el valor 4 representa un buen estado y el valor 5 es un estado muy bueno.
108
Cuadro 12.1. Datos del experimento sobre tipos de bandejas y tipos de sustratos, en vivero de tomate, establecido en estructura protegida de micro tnel. Tratamientos Tipo de Bandejas De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos Tipo de Sustratos T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T3 T3 T3 T3 T3 T3 T3 T3 T3 T3 T4 T4 T4 T4 T4 T4 T4 T4 T4 T4 T5 Dimetro del Tallo (mm) 4.00 4.00 4.00 3.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 5.00 5.00 5.00 5.00 5.00 4.00 4.00 5.00 5.00 5.00 4.00 4.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 4.00 4.00 4.00 4.00 4.00 5.00 5.00 4.00 4.00 4.00
Repeticiones 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1
No. de Hojas 4 4 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 4 4 5 5 4 5 5 5 5 4 4
Altura de Planta (cm) 13.0 14.0 13.0 13.0 14.0 14.0 19.0 17.0 14.5 15.0 19.0 25.0 24.0 24.0 22.0 28.0 27.0 27.0 24.0 25.0 24.0 27.0 26.0 20.0 24.0 25.0 25.0 22.0 24.0 25.0 20.0 23.0 22.0 22.0 23.0 22.0 22.0 23.0 22.0 22.0 19.0
Peso Fresco de Planta (gr) 6.00 4.40 4.40 4.60 4.30 5.90 5.20 4.50 4.00 4.50 7.30 8.30 8.30 7.60 6.90 4.50 8.50 7.60 8.60 7.80 8.60 5.60 8.70 9.10 10.30 10.90 9.70 6.80 9.40 9.50 5.60 8.70 9.10 6.20 7.30 6.90 8.00 7.10 5.40 8.00 7.80
Desarrollo de la Planta 4 4 4 3 4 4 4 4 4 4 4 5 5 5 5 5 4 4 5 5 5 4 4 5 5 5 5 5 5 5 5 4 4 4 4 4 5 5 4 4 4
109
Tratamientos Tipo de Bandejas De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos Tipo de Sustratos T5 T5 T5 T5 T5 T5 T5 T5 T5 T6 T6 T6 T6 T6 T6 T6 T6 T6 T6 T7 T7 T7 T7 T7 T7 T7 T7 T7 T7 Repeticiones 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 No. de Hojas 4 4 5 5 5 5 5 5 4 5 5 5 5 5 5 5 5 5 5 5 5 4 5 5 5 4 5 4 5 Altura de Planta (cm) 14.0 18.0 19.0 21.0 24.0 22.0 21.0 23.0 18.0 21.0 21.0 25.0 20.0 20.0 25.0 23.0 24.0 21.0 20.5 21.0 21.0 18.0 23.0 23.0 22.0 17.0 23.0 20.0 23.0 Dimetro del Tallo (mm) 6.00 4.00 5.00 6.00 5.00 5.00 5.00 5.00 4.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 6.00 4.00 5.00 5.00 5.00 4.00 5.00 4.00 5.00 Peso Fresco de Planta (gr) 9.60 10.60 6.70 8.00 8.50 8.40 6.20 5.30 9.50 13.70 13.20 16.00 12.90 13.60 15.00 15.40 14.90 13.00 13.50 14.00 13.80 12.60 15.30 15.40 14.10 12.50 16.40 13.00 15.00 Desarrollo de la Planta 5 4 5 5 5 5 5 5 4 5 5 5 5 5 5 5 5 5 5 5 5 4 5 5 5 4 5 4 5
Cuadro 12.2. Descripcin de los tratamientos del experimento sobre tipos de bandejas y tipos de sustratos, en vivero de tomate, establecido en estructura protegida de micro tnel.
Tratamientos Tipo de Bandejas De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos De 72 Nidos Tipo de Sustratos T1 T2 T3 T4 T5 T6 T7 Descripcin del Tipo de Sustrato Promix 100% Lombrihumus 100% Mitad inferior Promix y Mitad superior Lombrihumus Mezcla uniforme de 50 % Promix y 50 % Lombrihumus Mezcla uniforme de 50 % Promix y 50 % Abono Orgnico Abono Orgnico MASINFA 100% Mitad inferior Promix y Mitad superior Abono Orgnico
110 En el ejemplo particular que se desarrollar de aqu en adelante, por razones didcticas, se utilizarn solamente los datos correspondientes a los 7 sustratos en las bandejas de 72 nidos. Para realizar el MANOVA con estos datos, se carga la BDD EXPERIMEN TO-TIPO DE SUSTRATO, dentro del SPSS versin 9, y se realizan todas las pruebas estadsticas que a continuacin se describen.
T1
T2
T3
T4
T5
T6
T7
T4
Figura 12.1
T3
T2
T1
T5
T6
T7
Tratamientos del experimento con plntulas en invernadero de tomate, (micro tnel).
111 12.2 N ormalidad Multivariable
Un requisito para que exista normalidad multivariable es que todas las variables dependientes sean normales. Este requisito no implica necesariamente que todas las variables normales juntas sigan una distribucin multivariable. Una estrategia para veriicar la normalidad multivariable es realizar la prueba de normalidad (K-S) para cada una de las variables por separado. Una de las pruebas ms utilizadas para comprobar la normalidad de cada una de las variables por separado, es la prueba de Kolmogorov-Smirnov (K-S), que compara la funcin de distribucin terica con la emprica. La potencia de esta prueba est en funcin de que la muestra sea grande. (Bizquerra, R. 1989; Pea, D. 1987, citados por Dicovskyi L., 2002). Para la prueba de Kolmogorov-Smirnov (K-S), dentro del SPSS, se utiliza la rutina Analyse/N onparametric test/ Sample KS. Luego, en la ventana de dilogo, se declaran el conjunto de variables dependientes para las cuales se desea veriicar la normalidad de los datos, y se marca en Test de Distribucin, la opcin N ormal). El resultado, se observa el cuadro 12.3.
Cuadro 12.3. Prueba de Kolmogorov-Smirnov para las variables dependientes en estudio.
One-Sample Kolmogorov-Smirnov Test Altura de Planta (cm) 70 21.2143 3.7208 .141 .083 -.141 1.178 .125 Diametro del Tallo (mm) 70 4.6286 .5940 .334 .255 -.334 2.795 .000 Peso Fresco de Planta (gr) 70 9.2571 3.5571 .134 .134 -.105 1.118 .164 Desarrollo de la Planta 70 4.59 .52 .385 .268 -.385 3.223 .000
N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Mean Std. Deviation Absolute Positive Negative
Numero de Hojas 70 4.67 .53 .432 .268 -.432 3.615 .000
a. Test distribution is Normal. b. Calculated from data.
El valor de Signiicancia > 0.05, implica que se acepta la hiptesis de normalidad para las variables Altura de planta y Peso Fresco de Planta, con una signiicancia de 0.215 y 0.164 respectivamente. En resumen, la prueba de K-S no reconoce como variables normales las otras tres variables Nmero de Hojas, Dimetro de planta, y Desarrollo de la Planta. De estas tres variables, por su propia naturaleza de ser variables cuantitativa continua, es de esperar una respuesta de normalidad para la variable Dimetro de planta, por lo que esta variable en particular ser considerada para incluirla en el estudio multivariado aqu expuesto, fundamentados en el principio de normalidad dado por Little y Hills (1981), deinido tal como sigue: La normalidad signiica que si se graican todos los valores del error se obtendra una distribucin aproximadamente normal. Es decir, se asume que los errores siguen una distribucin normal. Las consecuencias de la no normalidad de los datos no son graves, si la desviacin es moderada; solo distribuciones muy asimtricas afectan considerablemente los niveles de signiicancia (in de cita).
112 De hecho, en la igura 12.2., se observa la curva de normalidad sobre el histograma de frecuencias para la variable Dimetro de Tallo (mm). La curva de normalidad, muestra la tendencia de normalidad deseada para esta variable y no muestra una distribucin muy asimtrica, por lo que no afectar los niveles de signiicancia al realizar el anlisis multivariante de la varianza.
Histograma
50
40
Frequency
30
20
10 Std. Dev = .59 Mean = 4.6 0 3.0 4.0 5.0 6.0 N = 70.00
Diametro del Tallo (mm)
Figura 12.2. Histograma de frecuencia para la variable Dimetro de Tallo.
De tal manera que, las variables continuas a ser incluidas para el estudio multivariado sern las variables: 1) Altura de planta, 2) Peso fresco de planta, y 3) Dimetro de planta. 12.3 Homocedasticidad Multivariable.
Una prueba para comprobar la homocedasticidad multivariable es la M de Box. Esta prueba sirve para comprobar la hiptesis de que las matrices de varianzas-covarianzas son iguales en todos los niveles del factor en estudio. Se basa en los determinantes de las matrices de varianzas-covarianzas. La M de Box se puede transformar en una F de Fisher o en una Chi-cuadrada, de esta forma se facilita su interpretacin (Bizquerra, R. 1989, citado por Dicovskyi L., 2002). Con las tres variables incluidas para el estudio multivariado, se realiza la prueba de M de Box. Esta prueba se ejecuta con los comandos Analyze/General Linear Model/ Multivariate/ se declaran las variables dependientes/ en la ventana Fixed Factors se declaran los tratamientos / Option/ Homogeneity Test/ Continue/ OK. Agrupadas por los tratamientos, se obtuvieron los valores presentados en el cuadro 12.4.
113
Cuadro 12.4. Valores de la prueba M de Box.
Box's Test of Equality of Covariance Matrices a Box's M F df1 df2 Sig. 64.552 1.794 3 0 19632 .005
Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. a. Design: Intrecept + SUSTRATO
El valor Signiicancia de 0.005 < 0.05, implica rechazar la hiptesis nula de igualdad de matrices de varianzas-covarianzas. Signiica que estas matrices son diferentes para las tres variables incorporadas, segn la agrupacin de tratamientos. Debe recordarse que, para comprobar la homocedasticidad multivariable, es necesario alcanzar una respuesta NS en la prueba M de Box. Una primera alternativa en la bsqueda de homocedasticidad multivariable, podra ser descartar alguna de las tres variables, mediante un proceso lgico de tanteo hasta llegar a deinir al menos dos variables para el anlisis multivariado, con las cuales si se lograra la homocedasticidad multivariable. Se realizaron estas corridas de prueba, y el resultado fue que usando las variables Peso Fresco de Planta y Dimetro del Tallo, si se logr la homocedasticidad multivariable. Como un comentario aparte, este mismo procedimiento puede aplicarse para lograr la homocedasticidad multivariable, en el caso de considerar las tres variables dependientes, para tratamientos factoriales, an estudiando el efecto de interaccin. De hecho, la relacin entre las variables es diferente, segn si el modelo que se analiza es factorial e incluye el efecto de interaccin o no. Al no contemplar el efecto de interaccin, el modelo multivariado solamente analiza el efecto principal de los factores pero para cada una de las tres variables incluidas. La prueba M de Box obtenida para nuestro ejemplo se presenta en el cuadro 12.5.
Cuadro 12.5. Prueba M de Box, para comprobar la homocedasticidad multivariable.
Box's Test of Equality of Covariance Matrices a
Box's M F df1 df2 Sig. 22.107 1.311 1 5 30866 .185
Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. a. Design: Intrecept + SUSTRATO
114 Con el valor de Signiicancia de 0.185 > 0.05, si se acepta la hiptesis nula de igualdad de matrices de covarianzas. Es incluyendo las variable peso y dimetro, que se procede a realizar el MANOVA por ser normales y poseer homocedasticidad multivariable. Pero antes debe evaluarse la independencia multivariable. 12.4 Independencia Multivariable.
Ya que no hay razn para usar el MANOVA, si las variables dependientes no estn correlacionadas, una prueba para veriicar la hiptesis de independencia multivariable es el Test de esfericidad de Bartlett. Esta prueba somete a comprobacin la hiptesis nula de que la matriz de correlaciones es una matriz identidad. Esto signiica que, las correlaciones entre las variables dependientes son cero. Si esto se conirma con la prueba de Bartlett, signiica que las variables en estudio no estn correlacionadas entre si, (Bizquerra, 1989, citado por Dicovskyi L., 2002). En trminos prcticos la hiptesis nula es: Ho: La matriz de correlaciones es una matriz identidad -> las correlaciones entre las variables dependientes son cero, -> las variables dependientes NO estn correlacionadas entre si Las variables dependientes SI estn correlacionadas entre si.
Ha:
Se realiz el test de esfericidad de Bartlett, con las variables Peso fresco de planta y Dimetro de planta. La rutina es Analyze/General Linear Model/ Multivariate/ se declaran las variables dependientes/ en la ventana Fixed Factors se declaran los tratamientos (sustratos)/ Option/ Residual SSCP matrix/ Continue/ OK. En el cuadro 12.6, se presenta la prueba de independencia realizada.
Cuadro 12.6. Prueba de independencia multivariable por el Test de esfericidad de Bartlett.
Bartlett's Test of Sphericity a Likelihood Ratio Approx. Chi-Square d f Sig. .000 50.885 2 .000
Tests the null hypothesis that the residual covariance matrix is proportional to an identity matrix. a. Design: Intercept+SUSTRATO
La prueba de Bartlett, rechaza la hiptesis nula ya que el nivel de Signiicacin es de 0.000 < 0.05, por lo tanto, esto indica que las variables dependientes SI estn correlacionadas entre si. Esto nos faculta a que si se puede hacer uso del MANOVA con las dos variables, Peso y Dimetro.
115 12.5 Resolucin del MAN OVA.
El estadstico que ms se usa para el anlisis multivariante de la varianza, cuando el factor independiente en estudio tiene ms de 2 tratamientos, es la distribucin Lambda de Wilks que se puede aproximar a una distribucin F, (Mardia et al, 1979, citado por Dicovskyi L., 2002). El anlisis multivariante de la varianza con q factores, se basa en que la variabilidad total de la muestra puede descomponerse en la variabilidad debida a las diferencias entre grupos y a la debida a las diferencias dentro de los grupos: SCtotal = SCentre + SC dentro. A partir de esta descomposicin, para determinar qu parte de la variabilidad total es debida a cada uno de los dos trminos, bastara con calcular el cociente entre cada uno de ellos y la variabilidad total. En este sentido, el estadstico Lambda de Wilks, compara las desviaciones dentro de cada grupo con las desviaciones totales sin distinguir grupos. Bsicamente hay dos posibles respuestas o interpretaciones del estadstico de Lambda de Wilks: Primera: Si el conjunto de variables dependientes Y1, , Yp, presentan un comportamiento, por un lado, muy distinto en los grupos y, por otro, muy homogneo dentro de cada grupo, la variabilidad total ser debida fundamentalmente a la variabilidad entre grupos. En consecuencia, la variabilidad dentro de los grupos ser pequea respecto a la total y el valor del estadstico Lambda de Wilks ser pequeo; esto es lo que se interpreta como efecto signiicativo multivariado. Segunda: Si el conjunto de variables dependientes presenta un comportamiento similar en los distintos grupos, la variabilidad entre grupos ser pequea. En consecuencia, la variabilidad total ser debida fundamentalmente a la variabilidad dentro de los grupos y el valor del estadstico Lambda de Wilks ser grande; esto es lo que se interpreta como efecto no signiicativo multivariado. Cuanto menor se el valor del estadstico Lambda de Wilks, ms diferenciados estarn los grupos y menos probable ser la hiptesis nula multivareada. Tres estadsticos equivalentes a la Lambda de Wilks, para contrastar la hiptesis de igualdad de vectores de medias son La Traza de Pillais, La Traza de Hotelling, y la Raz mxima de Roy, (Ferran, A., M. 1996). El MANOVA veriica bsicamente la hiptesis nula: . Es decir, que entre los vectores de medias de los grupos, no hay diferencias estadsticas. En el programa SPSS, para realizar el MANOVA, es decir hacer la prueba Lambda de Wilks, primero, se carga la base de datos llamada EXPERIMEN TO-TIPO DE SUSTRATO, luego la rutina se realiza con los comandos Analyze/General Linear Model/ Multivariate/ se declaran las variables dependientes/ en la ventana Fixed Factors se declara un factor ijo (sustrato)/ Option/ Homogeneity test/ Residual SSCP matrix/ Continue/ OK.
116 En general, las variables dependientes deben ser cuantitativas. Los factores son categricos y pueden tener valores numricos o de cadenas de hasta ocho caracteres. Las covariables son variables cuantitativas que estn relacionadas con la variable dependiente, (Estadsticas Avanzadas de SPSS 7.5, 1997). El cuadro 12.7, muestra la salida obtenida, para el anlisis multivariado.
Cuadro 12.7. Test Multivariado.
Multivariate Tests c Hypothesis df 2.000 2.000 2.000 2.000 12.000 12.000 12.000 6.000
Effect Intercept
SUSTRATO
Pillai's Trace Wilks' Lambda Hotelling's Trace Roy's Largest Root Pillai's Trace Wilks' Lambda Hotelling's Trace Roy's Largest Root
Value .993 .007 143.367 143.367 1.104 .092 7.753 7.468
F 4444.385 4444.385 4444.385 4444.385 12.931 23.753 39.410 78.411
a a a a
Error df 62.000 62.000 62.000 62.000 126.000 124.000 122.000 63.000
Sig. .000 .000 .000 .000 .000 .000 .000 .000
a. Exact statistic b. The statistic is an upper bound on F that yields a lower bound on the significance level. c. Design: Intercept+SUSTRATO
La prueba Lambda de Wilks, rechaza la hiptesis nula para el factor sustrato, dado por el valor de signiicancia obtenido 0.000 < 0.05: por tanto, puede airmarse que: Los vectores de medias de los diferentes tratamientos, no son iguales entre si, es decir las respuestas para las variables son diferentes por efecto de los tratamientos en estudio (los sustratos). Por separado, el SPSS facilita la tabla del anlisis univariado para cada uno de las variables dependientes en estudio, tal como se presenta en el cuadro 12.8.
Cuadro 12.8. Salida para el anlisis univariado de las variables en estudio.
Tests of Between-Subjects Effects Type III Sum of Squares 768.717 a 9.143 b 5998.629 1499.657 768.717 9.143 104.334 15.200 6871.680 1524.000 873.051 24.343 Mean Square 128.120 1.524 5998.629 1499.657 128.120 1.524 1.656 .241
df 6 6 1 1 6 6 63 63 70 70 69 69
Source Corrected Model Intercept SUSTRATO Error Total Corrected Total
Dependent Variable Peso Fresco de Planta (gr) Diametro del Tallo (mm) Peso Fresco de Planta (gr) Diametro del Tallo (mm) Peso Fresco de Planta (gr) Diametro del Tallo (mm) Peso Fresco de Planta (gr) Diametro del Tallo (mm) Peso Fresco de Planta (gr) Diametro del Tallo (mm) Peso Fresco de Planta (gr) Diametro del Tallo (mm)
F 77.362 6.316 3622.152 6215.684 77.362 6.316
Sig. .000 .000 .000 .000 .000 .000
a. R Squared = .880 (Adjusted R Squared = .869) b. R Squared = .376 (Adjusted R Squared = .316)
117 Pruebas de Separacin de Medias o Comparaciones Mltiples post hoc. Una vez que se ha determinado que existen diferencias entre las medias, las pruebas de rango post hoc y las comparaciones mltiples por parejas pueden determinar que medias especicamente diieren. Estas pruebas se utilizan solo para factores intersujetos; es decir, las pruebas de comparaciones mltiples post hoc se realizan de forma separada para cada variable dependiente. Por tanto, en el MANOVA para ver cuales tratamientos son diferentes entre s, se procede ha realizar las pruebas de separacin de medias para cada variable dependiente, ver opcin de General Lineal Model/GLM Multivariate/Post Hoc. As mismo, en Plots, se puede solicitar al SPSS, los gricos correspondientes, tanto para factores individuales como para tratamientos factoriales, etc.
118
Captulo 13.
13.1
Tcnicas de Anlisis Clusters
Qu es el Anlisis Cluster?
El anlisis cluster es la denominacin de un grupo de tcnicas multivariantes cuyo principal propsito es agrupar objetos basndose en las caractersticas que poseen. El anlisis cluster clasiica objetos, es decir, encuestados, productos u otras entidades, de tal forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algn criterio de seleccin predeterminado. Los conglomerados resultantes, deberan mostrar un alto grado de homogeneidad interna dentro del conglomerado y un alto grado de heterogeneidad extrema (entre conglomerado). Por tanto, si la clasiicacin es acertada, los objetos dentro de los conglomerados estarn muy prximos cuando se representen gricamente y los diferentes grupos estarn muy alejados, (Hair et al, citados por Bornemann G., 2004). Cuando se tiene una muestra de individuos, de cada uno de los cuales se dispone de una serie de observaciones, el anlisis cluster sirve para clasiicarlos en grupos lo ms homogneos posibles en base a las variables observadas. La palabra <<cluster>>, que deine estas tcnicas, se podra traducir como grupo, conglomerado, racimo, apiarse. En general, en todos los paquetes estadsticos se conserva su nombre en ingls, aunque tambin se conoce como anlisis de conglomerados, taxonoma numrica, anlisis tipolgico o clasiicacin automtica. El cluster se puede utilizar de dos formas distintas: clasiicacin o representacin de estructuras de datos. La clasiicacin, es la aplicacin ms comn del anlisis cluster, (Punj y Stewart, 1983, citados por Gmez S. M., 1998). La formulacin del problema en el anlisis clusters, parte de la premisa que si n es el nmero de individuos en la muestra y p es el nmero de variables observadas, la matriz de datos que contiene las n x p observaciones tendr n ilas y p columnas. Cada ila puede ser considerada como un punto en un espacio de p dimensiones. Las coordenadas de cada punto se obtendrn a partir de de los valores en las p variables del individuo correspondiente. A partir de la representacin de los n puntos-ilas, teniendo en cuenta las distancias entre ellos, se trata de agruparlos en clusters o conglomerados de tal forma que, por un lado, las distancias dentro de un mismo conglomerado sean pequeas y, por otro lado, que las distancias entre conglomerados sean grandes, (Ferran A. M., 1996). El anlisis cluster tiene como punto de partida una matriz de distancias o proximidades entre pares de sujetos (casos) o variables, la que permite cuantiicar su grado de similitud-semejanza en el caso de proximidades -para variables-, o su grado de disimilitud-desemejanza en el caso de las distancias -para casos-, (Visauta, V., B. 1998). Junto con los beneicios del anlisis cluster, existen algunos inconvenientes. El anlisis cluster puede caracterizarse como descriptivo y no inferencial. El anlisis cluster no tiene bases estadsticas sobre las cuales deducir inferencias estadsticas para una poblacin a partir de una nuestra, y se utiliza fundamentalmente como una tcnica exploratoria. Las soluciones no son nicas, en la medida en que la pertenencia al conglomerado para cualquier nmero de soluciones depende de muchos elementos del procedimiento y se pueden obtener muchas soluciones diferentes variando uno o ms de estos elementos.
119 El anlisis clusters, se ha denominado como anlisis Q, construccin de tipologa, anlisis de clasiicacin y taxonoma numrica. Esta variedad de nombres se debe en parte al uso de los mtodos de agrupacin en disciplinas tan diversas como psicologa, biologa, sociologa, economa, ingenieras y negocios. Aunque los nombres diieren entre disciplinas, todos los mtodos tienen una dimensin comn: clasiicacin de acuerdo a una relacin natural. Esta dimensin comn representa la esencia de todas las aproximaciones del anlisis cluster. Como tal, el valor fundamental del anlisis cluster descansa en la clasiicacin de los datos, tal y como lo sugiere la agrupacin natural de lo datos en s misma, (Hair et al, citados por Bornemann G., 2004). 13.2 Objetivo del Anlisis Cluster
El objetivo del anlisis cluster es deinir la estructura de los datos colocando las observaciones mas parecida en grupos. La solucin cluster es totalmente dependiente de las variables utilizadas como base para la medida de similitud, la adiccin o asimilacin de las variables relevantes pueden tener un impacto substancial sobre la solucin resultante, por tanto, el investigador debe tener particular cuidado en evaluar el impacto de cada decisin implicada en el desarrollo de un anlisis cluster En el anlisis cluster, el concepto de valor terico es central, pero en una forma muy diferente del resto de las tcnicas multivariantes. El valor terico del anlisis cluster es el conjunto de variables que representan las caractersticas utilizadas para comparar objetos en el anlisis cluster. Dado que el valor terico del anlisis cluster incluye slo las variables utilizadas para comparar objetos, determina el carcter de los objetos. El objetivo del anlisis cluster es la comparacin de objetos basndose en el valor terico, no en la estimacin del valor terico en si misma. Esto hace crucial la deinicin que d el investigador al valor terico para el anlisis cluster. 13.3 Cmo Funciona el Anlisis Cluster?
Para realizar correctamente el objetivo principal del anlisis cluster, se deben tratar tres cuestiones bsicas: En primer lugar, Cmo se mide la similitud?; en segundo lugar, Cmo se forman los conglomerados?; en tercer lugar Cuntos grupos se forman?. Puede utilizarse cualquier nmero de reglas, pero la tarea fundamental es evaluar la similitud media dentro de los conglomerados. Se presenta a continuacin una breve descripcin de estos tres elementos, en base a los planeamientos dados por Hair et al, citados por Bornemann G., 2004. 13.3.1 Medicin de la Similitud
Se ilustra un anlisis cluster para siete observaciones (A-G), utilizando procedimientos sencillos para cada uno de ellos. La similitud ser medida de acuerdo con la distancia euclidea (en lnea recta) entre cada par de observaciones. En el cuadro 13.1 se presentan las medidas de proximidad entre cada uno de los siete encuestados.
120
Cuadro 13.1. Matriz de proximidad de distancias eucldeas entre observaciones.
Observacin A B C D E F G
A 3.162 5.099 5.099 5.000 6.403 3.606
B 2.000 2.828 2.236 3.606 2.236
Observacin D
2.000 2.236 3.000 3.606
4.123 5.000 5.000
1.414 2.000
3.162
Al utilizar la distancia como medida de similitud, se debe recordar que distancias mas pequeas indican mayor similitud, de tal forma que las observaciones E-F son las mas parecidas con distancia 1,414; y A-F son las mas diferentes con distancia 6,403. 13.3.2 Formacin de Conglomerados Unas vez que se tiene la medida de similitud, se debe desarrollar el siguiente procedimiento para la formacin de conglomerados. Se han propuesto muchos mtodos, pero para propsito de este texto, se utilizar esta regla simple: identiicar las dos observaciones ms parecidas (cercanas) que no estn en el mismo conglomerado y combinar stas. Se aplica esta regla repetidas veces, comenzando con cada observacin en su propio conglomerado y combinando dos conglomerados a un tiempo hasta que todas las observaciones estn en un nico conglomerado. A esto se le denomina un procedimiento jerrquico dado que se opera paso a paso para formar un rango completo de soluciones cluster. Es tambin un mtodo aglomerativo, dado que los conglomerados se forman para la combinacin de los conglomerados existentes. En el cuadro 13.2, se detallan los pasos del procedimiento jerrquico. En primer lugar representando el estado inicial con las sietes observaciones en conglomerados simples. A continuacin, se unen los conglomerados en el proceso aglomerativo hasta que solo quede un conglomerado. El paso uno, identiica las dos observaciones mas cercanas (en este caso E y F) y las combina en un conglomerado, yendo de siete a seis conglomerados. A continuacin, el paso dos, busca los pares de observaciones ms cercanas. En este caso, tres pares tienen la misma distancia de 2.000 (E-G, C-D, y B-C). Se inicia con E-G. G es un miembro nico de un conglomerado, pero E se combin en el primer paso con F. As que, el conglomerado formado a este nivel tiene tres miembros: G, E, y F. El paso tres combina los conglomerados de miembro nico de C y D; y el paso cuatro combina B con el conglomerado de dos miembros C-D que se formo en el paso tres. Hasta este momento, se tienen 3 conglomerados: Conglomerado 1 (A); Conglomerado 2 (B, C y D); y Conglomerado 3 (E, F y G).
121 La siguiente distancia ms pequea es 2.236 para tres pares de observaciones (E-B; B-G y CE). En este caso, se utiliza solo una de estas tres distancias; sin embargo, en la medida en que cada par de observaciones contiene un miembro de cada uno de los dos conglomerados existen (B, C y D, frente a E, F y G). Por tanto, el paso quinto, combina los dos conglomerados de tres miembros en un nico conglomerado de seis miembros. El paso inal (paso seis), es combinar la observacin A con el conglomerado restante (seis observaciones), en un nico conglomerado a una distancia de 3.162. Es notorio que existen tres distancias iguales o menores a 3.162, pero que no se utilizan por que estn entre los miembros del mismo conglomerado.
Cuadro 13.2. Proceso de cluster aglomerativo jerrquico. Proceso de Aglomeracin
Distancia Mnima entre Observaciones conjunta (distancias medias no aglomeradas)* Par de Observaciones
Solucin Cluster
Nmero de Conglomerados Medida de Similitud nmero de conglomerados (dentro del conglomerado)
Paso
Pertenencia al Conglomerado
Solucin inicial 1 2 3 4 5 6 1.414 2.000 2.000 2.000 2.236 3.162 E-F E-G C-D B-C B-E A-B
(A) (B) (C) (D) (E) (F) (G) (A) (B) (C) (D) (E-F) (G) (A) (B) (C) (D) (E-F-G) (A) (B) (C-D) (E-F-G) (A) (B-C-D) (E-F-G) (A) (B-C-D-E-F-G) (A-B-C-D-E-F-G)
7 6 5 4 3 2 1
0 1.414 2.192 2.144 2.234 2.896 3.420
* Distancia euclidea entre observaciones.
El proceso jerrquico de aglomeracin puede representarse gricamente de varias formas. En la igura 13.1, se ilustra dos de tales formas. En primer lugar, dado que el proceso es jerrquico, el proceso de aglomeracin puede mostrarse como series de agrupaciones anidadas (ver igura 13.1 a). Este proceso, sin embargo, puede representar la proximidad de las observaciones para solo dos o tres variables de aglomeracin del graico o de dispersin. Una aproximacin ms aceptada convencionalmente, es el dendrograma, que representa el proceso de aglomeracin en un grico con forma de rbol, (igura 13.1 b). El eje horizontal representa el coeiciente de aglomeracin, en este caso la distancia utilizada en la unin de aglomerados. Esta aproximacin, es particularmente til en la identiicacin de atpicos, como la observacin A. Tambin representa el tamao relativo de los conglomerados que varan, aunque se hace difcil de manejar cuando aumenta el nmero de observaciones.
122
Figura 13.1 a. Representacin grica del proceso de aglomeracin en agrupaciones anidadas.
Figura 13.1 b. Representacin grica del proceso de aglomeracin en grico con forma de rbol, denominado como Dendrograma.
123 13.3.3 Determinacin del N mero de Conglomerados en la Solucin Final Un mtodo jerrquico produce un nmero de soluciones cluster en el caso del inciso 13.3.2, van de una solucin de un conglomerado a una solucin de seis conglomerados. Pero Cul se debera elegir?. Se sabe que a medida que nos alegamos de los conglomerados de un nico miembro, la homogeneidad disminuye. As que, por qu no quedarnos con los siete conglomerados, que son los ms homogneos posibles?. El problema es que no se deini ninguna estructura con siete conglomerados. De ah que, el investigador debe ver cada solucin cluster a partir de la descripcin de su estructura compensada con la homogeneidad de los conglomerados. En este ejemplo, se utiliza una medida muy simple de homogeneidad: las distancias medias de todas las observaciones dentro de los conglomerados. En la solucin inicial con siete conglomerados, la medida de similitud conjunta es 0, --ninguna observacin esta emparejada con otra. Para la solucin de seis conglomerados, la similitud conjunta es la distancia entre las dos observaciones (1.414) unidas en el paso 1. El paso dos, forma un conglomerado de tres miembros (E, F y G), de tal forma que la medida de similitud total es la media de las distancias entre E y F (1.414); E y G (2.000); y F y G (3.162), para una media de 2.192. En el paso tres, se forma un nuevo conglomerado de dos miembros con una distancia de 2.000, que provoca que la media conjunta caiga ligeramente hasta 2.144. Se procede a formar nuevos conglomerados de esta forma hasta formar una solucin de conglomerado nico (paso 6), en que la media de todas las distancia de la matriz de distancias es 3.420. Ahora bien, como se utiliza esta medida conjunta de similitud para seleccionar una solucin cluster?. Debe recordarse que se esta intentando coincidir la estructura ms simple posible que represente agrupaciones homogneas. Si se controla la medida de similitud conjunta a medida que disminuye el nmero de conglomerados, grandes aumentos en la medida conjunta indican que dos conglomerados no eran tan similares. En el ejemplo que aqu se aborda, la medida conjunta aumenta cuando en primer lugar juntamos dos observaciones (paso-1), y a continuacin se hace de nuevo cuando se construye el primer conglomerado de tres miembros (paso-2). Pero en los dos pasos siguientes (3 y 4), la medida conjunta no cambia sustancialmente. Esto indica que se estn formando otros conglomerados prcticamente con la misma homogeneidad de los conglomerados existentes. Pero cuando se alcanza el paso 5, que combinada los dos conglomerados de tres miembros, se observa un gran aumento. Esto indica que al unir estos dos conglomerados se obtiene un nico conglomerado marcadamente menos homogneo. Considrese la solucin cluster del paso cuatro, mucho mejor que la del paso 5. Se puede ver tambin que en el paso 6, la medida conjunta de nuevo aumenta ligeramente indicando que, incluso aunque la ltima observacin permanezca separada hasta el ltimo paso, cuando se une cambia la homogeneidad del conglomerado. Sin embrago, dado el peril bastante aislado de la observacin A, comparada con el resto, puede ser mejor designar como miembro del grupo de entropa, aquellas observaciones que son atpicos e independiente de los conglomerados existentes. Por tanto, cuando se revisa el rango de las soluciones cluster, la solucin de tres conglomerados del paso 4, parece ser la mas apropiada para una solucin cluster deinitiva, con dos conglomerados de igual tamao y una observacin atpica. De ah que, la seleccin de la solucin cluster deinitiva se deja al juicio del investigador y es considerado por muchos como un proceso muy subjetivo.
124 13.4 El Anlisis de Conglomerados para Casos
Dada una muestra de observaciones en un conjunto grande de variables cuantitativas, el anlisis cluster es una tcnica para agrupar a los elementos de la muestra en grupos, denominados conglomerados, de tal forma que, respecto a la distribucin de los valores de las variables, por un lado, cada conglomerado sea lo ms homogneo posible y, por otro lado, los conglomerados sean muy distintos entre si. En los mtodos jerrquicos conglomerativos para casos, el anlisis comienza con tantos conglomerados como individuos (cada individuo es un conglomerado inicial). A partir de estas unidades se van formando nuevos conglomerados de forma ascendente, agrupando en cada etapa a los individuos de los dos conglomerados ms prximos. Al inal del proceso, todos los individuos estarn agrupados en un nico conglomerado. La diferencia entre los diversos mtodos jerrquicos aglomerativos reside en la distancia considerada para medir la proximidad entre los conglomerados, (Ferran A. M., 1996). 13.4.1 Medidas de Similitud La similitud entre objetos es una medida de correspondencia, o parecido, entre objetos que van a ser agrupados. La similitud entre objetos pueden medirse de varias formas, pero tres mtodos dominan las aplicaciones del anlisis cluster, a saber: 1) medidas de correlacin, 2) medidas de distancia, y 3) medidas de asociacin. Tanto las medidas de distancia, como la correlacin, exigen datos paramtricos, mientras que las medidas de asociacin son para datos no paramtricos. Los conceptos sobre estas tres medidas de similitud, dados por Hair et al, citados por Bornemann G., 2004, se describen brevemente a continuacin. 13.4.1.1 Medidas de Correlacin
La medida de similitud entre objetos que probablemente se nos viene a la mente en primer lugar, es el coeiciente de correlacin entre un par de objetos medido sobre varias variables. En efecto, en lugar de hacer la correlacin entre dos conjuntos de variables, se invierte la matriz de las X variables de los objetos, de tal forma que las columnas representan los objetos; y las ilas representan las variables. Por tanto, el coeiciente de correlacin entre las dos columnas de nmeros es la correlacin (o similitud) entre los periles de los dos objetos. Elevadas correlaciones indican similitud, y bajas correlaciones indican falta de ella. Por tanto, las correlaciones representan patrones para todas las variables ms que las magnitudes. Las medidas de correlacin, sin embargo, se utilizan rara vez por que el inters de la mayora de las aplicaciones del anlisis cluster, est en las magnitudes de los objetos, no en los patrones de valores. 13.4.1.2 Medidas de Distancia
Las medidas de similitud de distancia, que representan la similitud como la proximidad de las observaciones respecto a las otras, para las variables del valor terico del anlisis cluster, son las medidas de similitud ms utilizadas. Las medidas de distancia, son en realidad medidas de diferencia, donde los valores elevados indican una menor similitud. La distancia se convierte en medida de similitud utilizando una relacin inversa.
125 Hay diferentes tipos de medidas de distancia, entre ellas: La distancia Euclidea entre dos puntos, que es la longitud de la hipotenusa de un triangulo rectngulo, calculada por la formula que se presenta en la igura 13. 2. Este concepto es fcilmente generalizable para ms de dos variables. La distancia euclidea se utiliza para calcular medidas especicas, tales como la simple distancia Euclidea, y la distancia Euclidea al cuadrado o absoluta, que es la suma de las diferencias al cuadrado sin tomar en cuenta la raz cuadrada. La distancia Euclidea al cuadrado tiene la ventaja de no tener que tomar la raz cuadrada, lo que acelera notablemente los clculos, y es la medida ms recomendada para los mtodos de anlisis cluster del Centroide y Ward.
Figura 13. 2. Un ejemplo de distancia euclidea entre dos objetos medidos sobre dos variables X e Y.
13.4.1.3
Medidas de Asociacin
Las medidas de asociacin de similitud se utilizan para comparar objetos cuyas caractersticas se miden solo en trminos no paramtricos (medida nominal y ordinal). Como ejemplo, vase el caso en que los encuestados responden si o no a cierto nmero de preguntas. Una medida de asociacin podra evaluar el grado de acuerdo o de acercamiento entre cada par de encuestados. Existen diversas medidas de asociacin para evaluar variables nominales de varias categoras o incluso medidas ordinales, lase el captulo cuarto, de este libro. 13.4.2 Cmo Elegir las Variables que Participarn en la Formacin de Conglomerados para Casos Para ilustrar el anlisis cluster para casos, se analizar solo una parte de los datos del estudio realizado en la micro cuenca Pata de Gallina por Meja, Guzmn, Obregn y Palma, (2005). Esta micro cuenca, posee una gran diversidad de unidades de produccin, y se desea clasiicar los tipos de sistemas de produccin agrcolas existente en la microcuenca, a partir de 14 variables relevantes que caracterizan estas unidades de produccin. En este caso se incluyen las variables: 1) Edad del productor(a), 2) Salario quincenal del productor(a), 3) rea de siembra de Maz en primera, 4) rea de siembra de Frjol en primera, 5) rea de siembra de Sorgo en primera, 6) rea de siembra de Arroz en primera, 7) rea de siembra de Tomate en primera, 8) rea de siembra de Chiltoma en primera, 9) rea de siembra de Cebolla en primera, 10) rea de siembra de Pipin en primera, 11) rea de siembra de Sandia en primera, 12) rea de siembra de Yuca en primera, 13) rea de siembra de Camote en primera, y 14) rea de siembra de Quequisque en primera.
126 En este ejemplo, sern analizados solo los 17 casos correspondientes a la comunidad de Ochomogo. En la lgica del anlisis cluster, cada caso puede ser considerado como un punto en un espacio de p=14 dimensiones (una dimensin es una variable). A partir de la representacin de los n = 17 puntos, se trata de agruparlos teniendo en cuenta las distancias entre ellos- en conglomerados de tal forma que respecto al resultado de clasiicar los tipos de sistemas de produccin agrcolas existente en la microcuenca, los casos pertenecientes a un mismo conglomerado sean semejantes entre si y diferentes a los pertenecientes a otro conglomerado. Antes de establecer el criterio para la formacin de los conglomerados, ser necesario establecer una medida de la distancia entre individuos. De entre las distintas distancias disponibles, la ms comn utilizada es la Distancia Euclidea entre dos individuos, la cual se deine como la raz cuadrada de la suma de los p cuadrados de las diferencias entre los valores observados en las p variables para los individuos correspondientes. En consecuencia, ser positiva cuando los dos individuos diieran en al menos un valor y nula cuando los dos individuos presenten exactamente los mismos valores en las p variables, (Ferran A. M., 1996). Siguiendo con el ejemplo que aqu nos ocupa, se deine la distancia euclidea entre dos casos cualquiera (i,j), los que pueden ser representados en el espacio de 14 dimensiones (uno por cada variable) como dos puntos de la forma: i = (Edad i, Salario i, Areamaiz i, Areafrijol i, .................................. Areaquequisque i) j = (Edad j, Salario j, Areamaiz j, Areafrijol j, .................................. Areaquequisque j) donde cada coordenada es el resultado observado en la medida correspondiente. Entonces, la distancia euclidea entre ellos se deine como: d ( i, j ) = ((Edad i - Edad j,)2 + ............. + (Areaquequisque i - Areaquequisque j) 2 )1/2 En este punto debe observarse que el nmero de variables implicadas en la distancia es grande y que, por su naturaleza, algunas de ellas podran estar correlacionadas entre si, por tanto, contienen una informacin parecida. Aqu cabe destacar que, al calcular la distancia entre dos casos cualquiera, el componente debido a una variable tendr el mismo peso que cada una de las restantes. Luego si, por ejemplo, tres variables contienen una misma informacin, dicha informacin tendr un peso tres veces superior al de otra aportada por una nica variable y, en consecuencia, en el proceso de formacin de los conglomerados, la primera informacin ser ms determinante que la segunda. Para evitar este tipo de situaciones sesgadas, es conveniente reducir el conjunto original de variables consideradas, a un subconjunto de variables que estn incorreladas entre si, es decir que sean variables no correlacionadas entre si, (Ferran A. M., 1996).
127 En el caso del ejemplo que nos ocupa, del conjunto de variables originalmente consideradas, pueden determinarse tres conjuntos, tales que, por un lado dentro de un mismo conjunto las variables estn correlacionadas entre si, y por otro, cualquier par de variables en dos conjuntos diferentes estn no correlacionadas entre si. Estos tres conjuntos son los siguientes: (a) {rea de Maz en primera, rea de Frjol en primera, rea de Sorgo en primera, rea de Arroz en primera}; (b) {rea de Tomate en primera, rea de Chiltoma en primera, rea de Cebolla en primera, rea de Pipin en primera, rea de Sandia en primera}; (c) {rea de Yuca en primera, rea de Camote en primera, y rea de Quequisque en primera, Edad del productor(a), Salario quincenal del productor(a)}. En nuestro caso, el subconjunto elegido estar formado por las variables: rea de Maz, rea de Frjol, rea de Sorgo, rea de Arroz, rea de Tomate, rea de Chiltoma, rea de Pipin, rea de Yuca, rea de Camote, rea de Quequisque, Edad del productor(a), Salario quincenal del productor(a). La matriz de correlaciones entre todas y c/u de las variables del subconjunto determinado, se presenta en el cuadro 13.3, dentro del cual puede observarse que la correlacin muestral entre cada par de variables es pequea y, para un tamao muestral igual a 17, el p-valor asociado al estadstico de prueba, (en este caso el coeiciente de correlacin de Pearson), es mayor que 0.05, es decir se demuestra la no signiicancia evaluada en la mayora de las variables. Luego entonces, al nivel de signiicancia del 0.05, se acepta la hiptesis nula de que tales variables, aquellas que no tiene asteriscos, no estn correlacionadas entre si. La excepcin a la airmacin del prrafo anterior, son los casos en que si hay signiicancia en la correlacin evaluada, aquellas que tiene asteriscos, para las variables siguientes: (1) rea Maz primera y rea Frjol primera; (2) rea Tomate primera y rea Frjol primera; (3) rea Arroz primera y rea Chiltoma primera, (4) Salario quincenal y rea Pipin primera; las cuales si estn correlacionadas entre si. Por tanto, de estos casos de variables correlacionadas entre si, se tomarn para realizar el anlisis cluster, solamente una de ellas, en este caso ese tomarn las variables: rea Maz primera, rea Tomate primera, rea Arroz primera, rea Pipin primera. Por otra parte, quedarn excluidas para realizar el anlisis cluster, las variables: rea Camote primera y rea Quequisque primera, debido a que estas dos variables se constituyeron con el valor constante de 0, por lo que no pueden ser computadas. En base al anlisis de correlacin anterior, entre las variables preseleccionadas, las 7 variables que inalmente son seleccionadas y que se toman para realizar el anlisis cluster son las siguientes: 1) Edad del productor(a), 2) rea de Maz, 3) rea de Sorgo, 4) rea de Arroz, 5) rea de Tomate, 6) rea Pipin primera, y 7) rea de Yuca.
128
Correlations Coefficients Area maz primera

a
Edad (aos)
Salario quincenal
Area Frjol primera
Area Blanco primera
Area Arroz primera
Area Tomate primera
Area Chiltoma primera
Area Pipin primera
Area Yuca primera
Area Camote primera
Area Quiquisque Primera

a
Edad (aos)
Salario quincenal
Area maz primera
Area Frjol primera
Area Sorgo primera
Area Arroz primera
Area Tomate primera
Area Chiltoma primera
Cuadro 13.3. Matriz de correlaciones entre las 12 variables del subconjunto seleccionado.

a a a a a a a a a
Area Pipin primera
Area Yuca primera
Area Camote primera
Area Quiquisque Primera
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 . 17 -.191 .463 17 .429 .085 17 .196 .450 1 7 .274 .287 1 7 -.164 .530 1 7 -.160 .539 1 7 -.225 .385 17 .057 .827 1 7 .459 .064 17 . . 17 . . 17
a a a
-.191 .463 17 1 . 17 -.161 .538 17 .007 .977 1 7 .298 .246 1 7 -.264 .305 1 7 -.150 .567 1 7 -.150 .567 17 .639 ** .006 1 7 -.014 .957 17 . a . 17 . a . 17
.429 .196 .274 .085 .450 .287 17 17 17 -.161 .007 .298 .538 .977 .246 17 17 17 1 .698 ** .458 . .002 .065 17 17 17 .698 ** 1 .121 .002 . .643 1 7 1 7 1 7 .458 .121 1 .065 .643 . 1 7 1 7 1 7 -.199 -.182 -.174 .444 .485 .505 1 7 1 7 1 7 .220 .772 ** -.339 .396 .000 .183 1 7 1 7 1 7 -.279 -.249 .031 .279 .336 .905 17 17 17 .093 .074 .373 .723 .778 .140 1 7 1 7 1 7 -.133 -.074 .145 .610 .778 .578 17 17 17 . a . a . . . . 17 17 17 . a . a . . . . 17 17 17
-.164 .530 17 -.264 .305 17 -.199 .444 17 -.182 .485 1 7 -.174 .505 1 7 1 . 1 7 -.110 .673 1 7 .641 ** .006 17 -.191 .464 1 7 -.249 .336 17 . a . 17 . a . 17
-.160 .539 17 -.150 .567 17 .220 .396 17 .772 ** .000 1 7 -.339 .183 1 7 -.110 .673 1 7 1 . 1 7 -.063 .812 17 -.108 .680 1 7 -.141 .590 17 . a . 17 . a . 17
-.225 .385 17 -.150 .567 17 -.279 .279 17 -.249 .336 1 7 .031 .905 1 7 .641 ** .006 1 7 -.063 .812 1 7 1 . 17 -.108 .680 1 7 -.141 .590 17 . a . 17 . a . 17
.057 .827 17 .639 ** .006 17 .093 .723 17 .074 .778 1 7 .373 .140 1 7 -.191 .464 1 7 -.108 .680 1 7 -.108 .680 17 1 . 1 7 .046 .861 17 . a . 17 . a . 17
.459 .064 17 -.014 .957 17 -.133 .610 17 -.074 .778 1 7 .145 .578 1 7 -.249 .336 1 7 -.141 .590 1 7 -.141 .590 17 .046 .861 1 7 1 . 17 . . 17 . . 17
. . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17
. . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17 . . 17
**. Correlation is significant at the 0.01 level (2-tailed).
a. Cannot be computed because at least one of the variables is constant.
129 Finalmente, la distancia euclidea entre dos casos cualquiera i y j, ser calculada considerando nicamente la informacin del subconjunto formado por estas 7 variables, no correlacionadas entre si. La distancia euclidea estar dada por: d (i, j) = ((Edad i - Edad j)2 + (Areamaiz i - Areamaiz j) 2 + ........... + (AreaYucai - AreaYuca j) 2 )1/2 13.4.3 El Proceso de Tipiicacin de las Variables El investigador debe resolver solo con una cuestin mas antes de proceder a realizar el anlisis cluster: Deberan tipiicarse los datos antes de calcular las similitudes?. Esto debe ser as, dado que la medida de la distancia euclidea que se calcular, presenta el inconveniente de que su valor depende de las unidades de las variables. Es decir, tomando en cuenta que, en condiciones normales, los lmites de los rangos de variacin de las 7 variables seleccionadas para realizar el anlisis cluster, son muy diferentes, tales como: aos, Mz de Maz, Mz de Sorgo, Mz de Arroz, hasta llegar a Mz de Tomate, Mz de Pipin, y Mz de Yuca. Al utilizar diferentes unidades de medida, en las distintas variables, aquellas que se midan con grandes nmeros solaparn a las variables que se miden con nmeros pequeos, (Gmez, S. 1998). El problema surge, si dos casos cualquiera presentaran el mismo valor en dos de las variables y en la tercera variable diieren en una unidad, en ese caso, la distancia euclidea ser igual a 1, independientemente de cul sea la variable en la que diieren. Sin embargo, es muy claro que una diferencia de una unidad en el caso de la variable Edad, es una cantidad relativamente muy pequea, en comparacin con una unidad de la variable rea de Tomate. Para evitar este tipo de situaciones, es conveniente realizar el anlisis sobre los valores tipiicados, proceso conocido como Estandarizacin de las variables. El proceso de tipiicacin de las variables consideradas, consiste en restar a cada uno de sus valores la media aritmtica de la variable y dividir la diferencia entre la desviacin tpica, (Ferran A. M., 1996). En nuestro caso, la tipiicacin de las 7 variables consideradas para realizar el anlisis cluster, se ejecuta mediante el comando <Descriptives statistics/ Descriptives / Save standardized values as variables>. Los resultados obtenidos del proceso de estandarizacin, se presentan en el cuadro 13.4, en el cual se observa la media (Mean) y la desviacin tpica (Std Dev) de cada una de las 7 variables. En la Base de datos correspondiente se generan las nuevas variables estandarizadas, tales como: 1) Zscore Edad del productor(a), 2) Zscore rea de Maz, 3) Zscore rea de Sorgo, 4) Zscore rea de Arroz, 5) Zscore rea de Tomate, 6) Zscore rea de Pipina, 7) Zscore rea de Yuca.
130
Cuadro 13.4. Tipiicacin de las 7 variables consideradas para realizar el anlisis cluster.
Las nuevas variables generadas Zscore, a partir de la tipiicacin de los valores de la variable correspondiente, se realizan de tal como sigue: 1) Zscore Edad del productor(a): Valor de la edad del productor - 50.94 / 15.971 2) Zscore rea de Maz: Valor del rea de Maz 1.3382 / 0.77531 3) Zscore rea de Sorgo: Valor del rea de Sorgo .9154 / 0.69630 4) Zscore rea de Arroz: Valor del rea de Arroz - .0735 / 0.17150 5) Zscore rea de Tomate: Valor del rea de Tomate - .0147059 / 0.06063391 6) Zscore rea de Pipin: Valor del rea de Pipin - .0147059 / 0.03514348 7) Zscore rea de Yuca: Valor del rea de Yuca - .0919 / 0.16846 En consecuencia, las 7 nuevas variables tipiicadas tendrn media = 0; y desviacin tpica = 1. En esta nueva situacin, la distancia euclidea entre los casos i y j, estar dada por:
d (i, j) = ((ZEdad i - ZEdad j)2 + (ZAreamaiz i - ZAreamaiz j) 2 + .............. . + (ZAreaYucai - ZAreaYuca j) 2 )1/2
Impactos de los valores de los datos no estandarizados: un problema al que se enfrentan todas las medidas de distancia es que el uso de datos no estandarizados implica inconsistencias entre las soluciones cluster cuando cambia la escala de las variables. El orden de las similitudes puede cambiar profundamente con un slo un cambio en la escala de una de las variables. El investigador notara el tremendo impacto que la escala de las variables puede tener sobre la solucin inal. Por tanto, debera emplearse la estandarizacin de las variables de aglomeracin, siempre que sea conceptualmente posible, para evitar casos como fuera de toda lgica.
131 Valores Atpicos: En la bsqueda de una estructura, el anlisis cluster es muy sensible a la inclusin de variables irrevelantes. El anlisis cluster es tambin sensible a los atpicos, es decir aquellos objetos que son muy diferentes del resto. Los atpicos representan tanto: (1) observaciones verdaderamente aberrantes, no representativas de la poblacin, o (2) una muestra reducida del grupo o grupos de la poblacin que provoca una mala representacin del grupo o grupos de la muestra. Siempre es necesaria una representacin preliminar de los atpicos. Probablemente la forma ms sencilla de llevar a cabo esta representacin es preparar un diagrama de peril graico. Los atpicos son aquellos objetos con periles muy diferentes, la mayora caracterizados por valores extremos sobre una o ms variables, (Hair et al, citados por Bornemann G., 2004). Una vez deinidas: a) las variables a considerar para realizar el anlisis cluster, b) la tipiicacin de tales variables, y c) la distancia entre las variables tipiicadas, el siguiente paso ser establecer el mtodo que se utilizar para la conformacin de los conglomerados. Para los propsitos del presente texto, se realizar el anlisis cluster -en el siguiente acpite-, mediante los mtodos Jerrquicos Aglomerativos, tanto para casos como para variables. Los mtodos Jerrquicos Aglomerativos, se caracterizan por ir agrupando o dividiendo los grupos sin tener que determinarse a priori, el nmero de grupos inal. En el procedimiento aglomerativo, se agrupan los casos en grupos hasta que se forma un nico grupo. Si se utilizan mtodos no Jerrquicos, se debe dar una solucin a priori en cuanto al nmero de grupos que se forman, (Gmez S. M., 1998). 13.4.4 El Proceso de Formacin de Conglomerados para Casos, por el Mtodo Jerrquico Aglomerativo Promedio entre Grupos En el mtodo del promedio entre grupos se deine la distancia entre dos conglomerados como el promedio de las distancias entre todos los pares de individuos, en los que cada componente del par pertenece a un conglomerado distinto. La ventaja de este mtodo, radica en que el proceso de formacin de conglomerados se puede seguir etapa por etapa. En consecuencia, el nmero de conglomerados, que se desea formar se puede elegir a posteriori, en funcin de la solucin obtenida en cada etapa. Sin embargo, cuando el nmero de casos y de variables es elevado, requiere de un nmero de clculos elevados. Para agilizar el proceso de clculo, en lugar de la propia distancia euclidea, se utiliza su cuadrado la distancia euclidea al cuadrado, (Ferran A. M., 1996). Para ilustrar el anlisis cluster para casos, tal como se deini en el inciso 13.4.2, se analizar una parte de los datos del estudio realizado en la micro cuenca Pata de Gallina por Meja, Guzmn, Obregn y Palma, (2005). Para simpliicar la clasiicacin de los sistemas de produccin agrcola existentes en esta microcuenca, sern analizados solo 17 casos de la comunidad de Ochomogo. La rutina para realizar el Anlisis Cluster de Casos en SPSS, es la siguiente: Primero, cargar la BDD OCHOMOGO, luego se procede a la estandarizaron de las variables que sern incluidas en el anlisis cluster, para obtener sus valores Zscores, esto se logra mediante el comando <Descriptives statistics/ Descriptives / Save standardized values as variables>. En este caso se incluyen las 7 variables anteriormente consideradas para realizar el anlisis cluster.
132 Segundo, se ejecuta el comando <Classify/ Hierarchical Cluster/ en la ventana de dilogo se incluyen las 7 variables antes estandarizadas. Tambin debe seleccionarse en la ventana Cluster la opcin Cases; y en la ventana Display seleccionar las opciones Statistics y Plots. Tercero, especiicar las opciones, tal como: en la opcin Method, se selecciona el mtodo de aglomeracin dado por Between group linkage, tambin se selecciona el intervalo de Distancia Eucldea y dar continue. En la opcin Statistics, se selecciona la pertenencia al conglomerado marcando un chek en Agglomeration schedule y despus seleccionar el Range of solutions desde 2 hasta 17. En la opcin Plots, se solicita el grico del Dendrograma correspondiente, y marcar All clusters y dar continue. Finalmente, dar OK para correr la rutina del anlisis cluster. El archivo de salida que proporciona el SPSS, brinda la informacin detallada de lo que sucede en cada una de las etapas, dada en el calendario de aglomeracin presentado en el cuadro 13.5, Aglomeration Schedule using Average Linkage (Between Groups).
Cuadro 13.5. Anlisis cluster, usando el Mtodo Jerrquico Aglomerativo Promedio entre Grupos.
Agglomeration Schedule Cluster Combined Stage Cluster 1 Cluster 2 1 3 5 2 7 17 3 6 10 4 4 9 5 1 12 6 3 7 7 3 14 8 2 11 9 1 8 10 3 15 11 2 3 12 2 6 13 1 2 14 1 4 15 1 13 16 1 16 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 1 2 6 0 0 0 5 0 7 0 8 10 11 3 9 12 13 4 14 0 15 0
Coefficients .328 .751 .965 1.118 1.521 1.602 1.970 2.094 2.208 2.254 2.924 3.307 3.693 4.018 4.170 5.140
Next Stage 6 6 12 14 9 7 10 11 13 11 12 13 14 15 16 0
La informacin detallada del cuadro 13.5, se representa de manera grica en el denominado dendograma, (ver igura 13.3). A la izquierda del dendograma, (columna seq) se observa que aparece un listado que identiica el nmero de casos, de cada uno de los casos observados. La representacin grica del proceso se realiza mediante lneas paralelas a la barra horizontal en la parte superior, correspondiente a la distancia entre los dos conglomerados que se combinan en cada etapa (transformada a enteros comprendidos entre 0 y 25). A la altura de la distancia cero saldr una lnea a la derecha cada caso (en este caso un total de diecisiete lneas). Las lneas consecutivas se irn cerrando mediante una lnea vertical a medida que se vayan combinando los conglomerados. Despus de un cierre vertical, cada lnea horizontal que permanezca corresponder a un conglomerado, el formado por todos aquellos casos que convergen en ella.
133
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine
Figura 13.3.
Formacin Jerrquica de Conglomerados Aglomerativos de casos.
La primera columna del cuadro 13.5, (Stage), contiene el nmero de etapas del proceso. Dado que por un lado, en cada etapa se combinar el contenido de dos conglomerados y que, por otro lado, el nmero total de casos analizados es igual a 17, entonces el nmero total de etapas en el proceso ser igual a 16. Despus de la etapa decimosexta, todos los casos se encontrarn en un nico conglomerado. Para interpretar el calendario de aglomeracin, junto con el dendograma, se inicia el proceso considerando que cada caso es un conglomerado, y cada uno de ellos adopta la denominacin del nmero del caso correspondiente en el registro de la base datos. Inicialmente, los conglomerados son: C1 = {1}, C2 = {2}, C3 = {3}, .. C16 = {16}, C17 = {17}, Observe en el cuadro 13.5, que en la primera etapa (Stage 1), se combinan los casos 3 y 5, tales que la distancia euclidea entre ellos es la mnima de entre todas las posibles. Se combinan los casos Cluster combined: Cluster 1 = 3; Cluster 2 = 5; o lo que es equivalente los conglomerados C3 y C5, y la distancia entre ellos es la menor entre todas, con un coeiciente igual a 0.328. En el dendograma se observan las lneas que corresponden a los casos 3 y 5, las cuales son las primeras que se cierran en una nica lnea.
134 En consecuencia, a partir de la altura del cierre, nicamente quedaran 16 lneas, correspondientes a los 16 conglomerados resultantes despus de combinar los conglomerados iniciales C3 y C5, en un nico conglomerado, el que adoptar el nombre del mnimo nmero de casos al que contenga, en este caso C3. Esto indicar que, despus de la primera etapa la solucin obtenida es: C1 = {1}, C2 = {2}, C3 = {3,5}, .. C7 = {7}, .. C17 = {17}, La prxima vez que el conglomerado C3 se combinar con algn otro conglomerado, (Next Stage), ser en la etapa 6, en la cual se combinar con el conglomerado C7 (Cluster combined: Cluster 1 = 3; Cluster 2 = 7). De manera similar a lo que sucede con el conglomerado C3, que contiene a los casos 3 y 5, podra suceder que el conglomerado C7 contenga, adems del caso 7, a cualquier otro caso o casos. Para resolver esta incgnita, bastara con mirar en la columna Stage Cluster 1st Appears: Cluster 1. Obsrvese que, si en la columna Stage Cluster 1st Appears: Cluster 1 el valor que aparece es un 1, indica que el conglomerado C7 procede de la etapa 1; en la columna Stage Cluster 1st Appears: Cluster 2 el valor que aparece es un 2. Luego, el conglomerado C7, se cierra en la etapa 2. Efectivamente, en el dendograma se observa que la lnea correspondiente al C7, se cierra a partir de la lnea que parte del caso 3. La distancia entre los conglomerados C3 y C7, ser igual al promedio de las distancias eucldeas entre el caso 7 y cada uno de los casos 3 y 5. El conglomerado as obtenido se denominar segn el nombre del mnimo nmero de casos al que contenga, en este caso se llamar C3. Esto indicar que, despus de la etapa 6, la solucin obtenida es: C1= {1}, C2= {2}, C3= {3, 5, 7}, .. C8 = {8}, .. C17= {17}, La prxima vez que el conglomerado C3 se combinar con otro conglomerado, (Next Stage), ser en la etapa 7, en donde se combinar con el caso 14. Obsrvese en la columna Cluster combined: Cluster 1 = 3; Cluster 2 = 14. El conglomerado as obtenido se denominar conglomerado C3 y la solucin obtenida, despus de la etapa 7, es la siguiente: C1= {1}, C2= {2}, C3= {3, 5, 7, 14} .. C8 = {8}, .. C17= {17}, La prxima vez que el conglomerado C3 se combinar con otro conglomerado, (Next Stage), ser en la etapa 10, en donde se combinar con el caso 15. Obsrvese en la columna Cluster combined: Cluster 1 = 3; Cluster 2 = 15. El conglomerado as obtenido se denominar conglomerado C3, y la solucin obtenida, despus de la etapa 10, es la siguiente: C1= {1}, C2= {2}, C3= {3, 5, 7, 14, 15}, .. C8 = {8}, .. C17= {17},
135 La prxima vez que el conglomerado C3 se combinar con otro conglomerado, (Next Stage), ser en la etapa 11, en donde se combinar con el caso 2. Obsrvese en la columna Cluster combined: Cluster 1 = 2; Cluster 2 = 3. El conglomerado as obtenido se denominar conglomerado C2 y la solucin obtenida, despus de la etapa 11, es la siguiente: C1= {1}, C2= {2, 3, 5, 7, 14, 15}, .. C8 = {8}, .. C17= {17}, La prxima vez que el conglomerado C2 se combinar con otro conglomerado, (Next Stage), ser en la etapa 12, en donde se combinar con el caso 6. Obsrvese en la columna Cluster combined: Cluster 1 = 2; Cluster 2 = 6. El conglomerado as obtenido se denominar conglomerado C2 y la solucin obtenida, despus de la etapa 12, es la siguiente: C1= {1}, C2= {2, 3, 5, 6, 7, 14, 15}, .. C8 = {8}, .. C17= {17}, La prxima vez que el conglomerado C2 se combinar con otro conglomerado, (Next Stage), ser en la etapa 13, en donde se combinar con el caso 1. Obsrvese en la columna Cluster combined: Cluster 1 = 1; Cluster 2 = 2. El conglomerado as obtenido se denominar conglomerado C1 y la solucin obtenida, despus de la etapa 13, es la siguiente: C1= {1, 2, 3, 5, 6, 7, 14, 15}, .. C8 = {8}, .. C17= {17}, La prxima vez que el conglomerado C1 se combinar con otro conglomerado, (Next Stage), ser en la etapa 14, en donde se combinar con el caso 4. Obsrvese en la columna Cluster combined: Cluster 1 = 1; Cluster 2 = 4. El conglomerado as obtenido se denominar conglomerado C1 y la solucin obtenida, despus de la etapa 14, es la siguiente: C1= {1, 2, 3, 4, 5, 6, 7, 14, 15}, .. C8 = {8}, .. C17= {17}, La prxima vez que el conglomerado C1 se combinar con otro conglomerado, (Next Stage), ser en la etapa 15, en donde se combinar con el caso 13. Obsrvese en la columna Cluster combined: Cluster 1 = 1; Cluster 2 = 13. El conglomerado as obtenido se denominar conglomerado C1 y la solucin obtenida, despus de la etapa 15, es la siguiente: C1= {1, 2, 3, 4, 5, 6, 7, 13, 14, 15}, .. C8 = {8}, .. C17= {17}, Para inalizar con la ilustracin del proceso de formacin de conglomerados, se analiza lo que sucede en la ltima etapa. En la etapa 16, se combinan los conglomerados 1 y 16. En el extremo derecho del dendograma, cuando nicamente quedan dos lneas, la segunda de ellas arrastra al resto, al encadenarse con la etapa 15, cerrndose en la etapa 16, (obsrvese en la columna Stage Cluster 1st Appears: Cluster 1 el valor que aparece es un 15, indica que el conglomerado C16 procede de la etapa 15, y en la columna Stage Cluster 1st Appears: Cluster 2 el valor que aparece es un 0. Por tanto, el conglomerado C16, se cierra en la etapa 16 indicando que despus de la etapa 16, al combinarse los dos anteriores, se conforman en un nico conglomerado, la solucin inal ser: C1= {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17},
136 Luego de los 17 conglomerados iniciales, combinando paso a paso el contenido de dos de ellos, se logra alcanzar un nico conglomerado formado por todos los casos. Mediante el numero de lneas horizontales en el dendograma se puede conocer que casos forman la solucin de cualquier nmero de conglomerados. Un aporte del anlisis cluster es poder considerar el tipo de solucin que se desea. Si lo que se desea es una solucin en la que los conglomerados sean distantes entre s y, por otro lado, dentro de cada uno de ellos los elementos que lo forman estn prximos, una solucin adecuada sera aquella tal que las lneas correspondientes tardaran en cerrarse. Si a priori, se desea un nmero especico de conglomerados, la solucin puede obtenerse directamente solicitando al comando <Classify/ Hierarchical Cluster/ en la ventana de dilogo / En la opcin Statistics, se selecciona Single solution y se escribe el nmero especico de clusters 4. En la opcin Save, se selecciona Cluster Membership: Single solution y se escribe el nmero especico de clusters 4; dar Continue. Finalmente, dar OK para correr el anlisis cluster, (Ferran A. M., 1996). En el ejemplo aqu realizado, la generacin de la variable para dicha solucin fue solicitada a posteriori, mediante el uso de la opcin Save, / Cluster Membership: Single solution/ As se genera la variable CLU4_1, cuyos valores coinciden con el nmero de conglomerado al que ha sido asignado cada caso en la solucin de cuatro conglomerados. En el cuadro 13.6, se presentan los miembros de los 4 clusters, lo que facilita conocer cuales casos forman la solucin de cada uno de los clusters, para establecer as la clasiicacin de los sistemas de produccin agrcola existentes en la comunidad de Ochomogo. Cuadro 13.6. Membresa de cada uno de clusters. Solucin con cuatro conglomerados.
137 13.4.5 Validacin de la Solucin Cluster Hasta aqu se ha desarrollado el ejemplo contemplando tres aspectos medulares del anlisis cluster, tales como: la seleccin de variables, el mtodo de agrupacin, y la determinacin del nmero de grupos. Sin embargo, todava falta abordar, aunque sea brevemente, la validacin de la solucin cluster obtenida. Hair et al, citados por Bornemann G., (2004), explican que dado la naturaleza de alguna forma subjetiva del anlisis cluster, sobre la seleccin de una solucin cluster ptima, el investigador debera tener mucho cuidado en la validacin de la solucin cluster preliminar alcanzada y asegurarse de la pertinencia y relevancia prctica de la solucin cluster deinitiva. La validacin incluye los intentos del investigador por asegurarse que la solucin cluster es representativa de la poblacin en estudio. La aproximacin ms directa en este sentido es realizar el anlisis cluster para muestras distintas. El investigador tambin puede intentar establecer alguna forma de criterio o validez predictiva., en este sentido dos tcnicas son las ms utilizadas, el Anlisis de Varianza y la tcnica del Anlisis Discriminante. En nuestro ejemplo, podemos considerar que los cluster preliminares obtenidos presentan muy poca diferenciacin, y esto nos lleva a realizar el anlisis cluster para una muestra distinta. En este ejemplo en particular, la validacin se realizar con una nueva muestra en la que se han removido (eliminado) los casos 13 y 16, por considerarlos como datos atpicos, crendose de esta manera, una nueva base de datos llamada VALIDAR EL CLUSTER, la que contiene las mismas variables tipiicadas. Se procedi de nuevo a correr el comando <Classify/ Hierarchical Cluster/ en la ventana de dilogo / En la opcin Statistics, seleccionar Single solution y se escribe el nmero especico de clusters 4. En la opcin Save, se selecciona Cluster Membership: Single solution y se escribe el nmero especico de clusters 4, para generar la variable CLU4_1, dar Continue. Finalmente, dar OK. Los resultados obtenidos de la validacin de la solucin cluster, se presentan en los cuadro 13.7, y 13.8, as como el dendrograma correspondiente se presenta en la igura 13.4.
Cuadro 13.7. Anlisis cluster para la validacin de la solucin cluster preliminar.
Agglomeration Schedule Cluster Stage Cluster 1 Combined Cluster 2 1 6 10 2 3 5 3 6 14 4 3 13 5 2 8 6 9 11 7 1 4 8 7 15 9 3 6 10 7 12 11 3 7 12 1 9 13 2 3 14 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 1 0 2 0 0 0 0 0 0 0 0 0 4 3 8 0 9 10 7 6 5 11 12 13
Coefficients .707 1.031 1.233 1.254 2.018 2.475 2.739 3.373 4.070 5.056 8.805 9.103 15.914 33.448
Next Stage 3 4 9 9 13 12 12 10 11 11 13 14 14 0
138
Figura 13.4.
Formacin Jerrquica de Conglomerados Aglomerativos, de casos, para la validacin de la solucin cluster preliminar.
Cuadro 13.8.
Membresa de cada uno de clusters. Solucin con cuatro conglomerados.
139 Se debera determinar tanto la iabilidad como la validez de las soluciones que se hayan alcanzado. En cuanto a la iabilidad, se debe probar que los resultados son consistentes, utilizando diferentes mtodos de agrupacin. Si se ha demostrado la iabilidad, an queda por probar la validez, tanto externa (la solucin sobre la muestra es representativa de la poblacin), como interna (si es til para predecir resultados). En cuanto a la validez externa, se debe acudir a una muestra parecida de la poblacin que determine los mismos resultados. Respecto a la interna, se deben utilizar contrastes estadsticos que permitan establecer la consistencia de la solucin, tales como el ANOVA y el anlisis discrimante. Finalmente, cabe destacar que la mayora de estos aspectos dependen del juicio del investigador, ya que ni los mismos expertos en la tcnica cluster se ponen de acuerdo en cuanto a su utilizacin, (Gmez S. M., 1998). 13.5 El Mtodo Jerrquico de Conglomerados para Variables
El mtodo jerrquico de conglomerados, se utiliza tambin para encontrar grupos homogneos de variables. El criterio seguido en el proceso de aglomeracin es exactamente el mismo que el utilizado para la agrupacin de casos. Sin embargo, la medida de similitud entre los elementos del anlisis cluster, es en general distinta. Cuando los elementos de anlisis son las variables, una medida muy utilizada es el valor absoluto del coeiciente de correlacin de Pearson (R), que tiene en cuenta el grado de asociacin lineal entre cada par de variables, independientemente de la direccin de dicha asociacin, es decir independientemente del signo que tenga R. En el anlisis de conglomerados para variables, dos elementos del anlisis estarn prximos cuando el valor de R sea prximo a 1, y estarn alejados entre si cuando este sea prximo a 0. Cuando se desea realizar el anlisis cluster de variables, se plantea el inconveniente de realizar ese anlisis con variables que estn correlacionadas entre si, y por tanto se recomienda determinar los subconjuntos del conjunto original de variables tales que, por un lado, dentro de un mismo subconjunto, las variables estuvieran correlacionadas entre si, y por otro lado, cualquier par de variables pertenecientes a dos o ms subconjuntos diferentes estn incorreladas -no correlacionadas entre si-, (Ferran A. M., 1996). Para ilustrar el proceso de formacin de conglomerados para variables, por el mtodo promedio entre grupos, se analizar una parte de los datos del estudio realizado por Meja, Guzmn, Obregn y Palma, (2005). Sern analizadas las variables correspondientes a la base de datos OCHOMOGO. Debe recordarse que, al inicio del anlisis de conglomerados para casos, las variables observadas sobre cada caso, eran 12, es decir, el subconjunto elegido estaba formado por las variables: rea de Maz, rea de Frjol, rea de Sorgo, rea de Arroz, rea de Tomate, rea de Chiltoma, rea de Pipin, rea de Yuca, rea de Camote, rea de Quequisque, Edad del productor(a), Salario quincenal del productor(a). Sin embargo, del subconjunto de 12 variables, se eliminaron las variables rea de Camote, rea de Quequisque, dado que presentan solo valores de 0. As mismo, se plante el inconveniente de realizar el anlisis con aquellas variables que estuvieran correlacionadas entre si, y se coment que era posible determinar tres subconjuntos del conjunto original de variables, tales que: por un lado, dentro de un mismo subconjunto, las variables estuvieran correlacionadas entre si, y por otro, cualquier par de variables pertenecientes a dos subconjuntos diferentes estuvieran no correlaciondas entre si.
140 La rutina para realizar el Anlisis Cluster para Variables en SPSS, es la siguiente: Primero, cargar la BDD OCHOMOGO. Segundo, se ejecuta el comando <Classify/ Hierarchical Cluster> en la ventana de dilogo se incluyen las 10 variables del subconjunto elegido para el anlisis cluster. En la ventana Cluster, debe seleccionarse la opcin Variables; y en la ventana Display seleccionar las opciones Statistics y Plots. Tercero, especiicar las opciones, tal como: en la opcin Method, se selecciona el mtodo de aglomeracin dado por Between group linkage, tambin se selecciona el intervalo de medida Pearson correlation y en Transform Measures, dar Absolute values; luego dar continue. En la opcin Statistics, se selecciona la pertenencia al conglomerado marcando con un check en Agglomeration schedule, tambin se debe marca con un check en Proximity Matrix, y dar continue. En la opcin Plots, se solicita el grico del Dendrograma correspondiente y marcar All clusters, y dar continue. Finalmente, dar OK para correr la rutina del anlisis cluster. La formacin de conglomerados de variables por el mtodo promedio entre grupos, considerando como medida de similitud la correlacin de Pearson, se observar en el archivo de salida que proporciona el SPSS, el cual brinda la Matriz de correlacin de Pearson en valor absoluto, presentada en el cuadro cuadro 13.9. Adems, la salida del SPSS brinda la informacin detallada de lo que sucede en cada etapa, deinido en el calendario de aglomeracin presentado en el cuadro 13.10, Aglomeration Schedule using Average Linkage (Between Groups), y el dendrograma.
Cuadro 13.9. Matriz de correlacin de Pearson en valor absoluto.
Proximity Matrix Matrix File Input Area Area Sorgo Arroz primera primera .274 .164 .298 .264 .458 .199 .121 .182 .000 .174 .174 .000 .339 .110 .031 .641 .373 .191 .145 .249
Edad (aos) Edad (aos) .000 Salario quincenal .191 Area maz primera .429 Area Frjol primera .196 Area Sorgo primera .274 Area Arroz primera .164 Area Tomate primera .160 Area Chiltoma primera .225 Area Pipin primera .057 Area Yuca primera .459
Case
Salario quincenal .191 .000 .161 .007 .298 .264 .150 .150 .639 .014
Area maz primera .429 .161 .000 .698 .458 .199 .220 .279 .093 .133
Area Frjol primera .196 .007 .698 .000 .121 .182 .772 .249 .074 .074
Area Tomate primera .160 .150 .220 .772 .339 .110 .000 .062 .108 .141
Area Chiltoma primera .225 .150 .279 .249 .031 .641 .062 .000 .108 .141
Area Pipin primera .057 .639 .093 .074 .373 .191 .108 .108 .000 .046
Area Yuca primera .459 .014 .133 .074 .145 .249 .141 .141 .046 .000
141 Observando los valores de coeicientes de Pearson, en valor absoluto, puede comprobarse que, por ejemplo, entre las variables rea Frjol de primera y rea Tomate de primera, la asociacin lineal es fuerte, observe que el valor de la correlacin absoluta entre ellas es igual a 0.772, mientras que la asociacin de una de ellas con respecto a una tercera cualquiera, tiende a ser menor, y an ms dbil hasta llegar a la ausencia de asociacin entre ellas, con R = 0.007, tal como se observa para la correlacin de la variable rea Frijol de primera versus Salario quincenal. As mismo se observa una baja correlacin de la variable rea Frijol de primera con relacin a rea Pipin primera y rea Yuca primera. En consecuencia, se evidencia que pueden ser consideradas como un subconjunto de informacin separado del resto. En otros casos las relaciones de dependencia entre las variables no son tan fuertes y, por tanto, no es fcil determinar subconjuntos de variables similares entre s. Para facilitar la interpretacin, se procede a analizar el calendario de aglomeracin y el dendograma.
Cuadro 13.10. Calendario de aglomeracin, usando el Mtodo Jerrquico Aglomerativo Promedio entre Grupos. Anlisis cluster para Variables
Agglomeration Schedule Cluster Combined Stage Cluster 1 Cluster 2 1 4 7 2 6 8 3 2 9 4 1 10 5 3 4 6 2 5 7 1 6 8 1 3 9 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 1 3 0 4 2 7 5 8 6
Coefficients .772 .641 .639 .459 .459 .335 .194 .185 .150
Next Stage 5 7 6 7 8 9 8 9 0
Al inicio del proceso de aglomeracin se considera que cada variable es un conglomerado, de ah que, habr tantos conglomerados como variables sean objeto de anlisis. De manera abreviada, se presentan tales conglomerados a continuacin: C1= {Var 1}, C2= {Var 2}, C3= {Var 3}, C4= {Var 4}, .. C10= {Var 10}, En el cuadro 13.10, se observa en la primera etapa del calendario de aglomeracin, (Stage) que se combina el par de variables que tiene la mxima correlacin en valor absoluto. Se combinan las variables Var 4 y Var 7, (Cluster combined: Cluster 1 = 4, Cluster 2 = 7), o lo que es equivalente los conglomerados C4 y C7, (las variables rea Frjol de primera y rea Tomate de primera), y la similitud entre ellos (Coeficients) es igual a 0.772.
142
Figura 13.5.
Formacin Jerrquica de Conglomerados Aglomerativos, de variables.
El dendograma, presentado en la igura 13.5, muestra las lneas correspondientes a las Var4 y Var7, siendo las dos primeras que se cierran en una nica lnea. En consecuencia, a partir de la altura del cierre, nicamente quedarn 9 lneas, correspondientes a los 9 conglomerados resultantes despus de combinar los conglomerados iniciales C4 y C7, en un nico conglomerado, el cual adoptar el nombre del mnimo nmero de variable a la que contenga, en este caso C4. Despus de la etapa 1, la solucin obtenida es: C1= {Var 1}, C2= {Var 2}, C3= {Var 3}, C4= {Var 4, Var 7}, C5= {Var 5}, ..C10= {Var 10}, Resumiendo el proceso, los conglomerados obtenidos despus de la segunda etapa y sucesivas etapas son los siguientes: Etapa 2: C1 = {Var 1}, C2 = {Var 2}, C3 = {Var 3}, C4 = {Var 4, Var 7}, C5 = {Var 5}, C6 = {Var 6, Var 8}, .. C10= {Var 10}, Etapa 3: C1 = {Var 1}, C2 = {Var 2, Var 9}, C3 = {Var 3}, C4 = {Var 4, Var 7}, C5 = {Var 5}, C6 = {Var 6, Var 8}, .. C10= {Var 10}, Etapa 4: C1 = {Var 1, Var 10}, C2 = {Var 2, Var 9}, C3 = {Var 3}, C4 = {Var 4, Var 7}, C5 = {Var 5}, C6 = {Var 6, Var 8},
143 Etapa 5: C1 = {Var 1, Var 10}, C2 = {Var 2, Var 9}, C3 = {Var 3, Var 4, Var 7}, C5 = {Var 5}, C6 = {Var 6, Var 8}, Etapa 6: C1 = {Var 1, Var 10}, C2 = {Var 2, Var 9, Var 5}, C3 = {Var 3, Var 4, Var 7}, C6 = {Var 6, Var 8}, Etapa 7: C1 = {Var 1, Var 10, Var 6, Var 8}, C2 = {Var 2, Var 9, Var 5}, C3={Var 3, Var 4, Var 7}, Etapa 8: C1 = {Var 1, Var 10, Var 6, Var 8, Var 3, Var 4, Var 7}, C2 = {Var 2, Var 9, Var 5}, Etapa 9: C1 = {Var 1, Var 10, Var 6, Var 8, Var 3, Var 4, Var 7, Var 2, Var 9, Var 5}, Para nuestro ejemplo, en el Cuadro 13.10, se observan las medidas de similitudes entre los conglomerados que se combinan en cada etapa, los que se presentan en la columna Coeficient. Debe observarse que para las variables rea Frjol de primera y rea Tomate de primera, mientras el primer valor de similitud es prximo a 1, (Coeficients = 0.772), a partir del segundo valor es inferior a 0.65. Luego, en nuestro ejemplo, a excepcin de las variables rea Frjol de primera y rea Tomate de primera, cualquier solucin, y en particular la de tres conglomerados, (ver etapas 6 y 7), se veriica que la similud de las variables incluidas en un conglomerado no es muy grande.
144
Captulo 14.
14.1
El Anlisis Discriminante.
Qu es el Anlisis Discriminante?
El anlisis discriminante, es un mtodo multivariado el cual comnmente se utiliza para discriminar un conjunto de datos. Por ejemplo, los compradores o no compradores de un producto determinado, se discriminan en base a una serie de caractersticas, tales como: sociodemogricas, forma de vida, etc., y en general este anlisis se utiliza para discriminar diferentes grupos de individuos (plantas, animales, personas, productos, etc.), a partir de una serie de variables independientes, (Visauta V., 1998) El anlisis discriminante como mtodo multivariante, permite: "Explicar" la pertenencia de un individuo a uno u otro grupo en funcin de variables independientes, cuantiicando la importancia relativa de cada una de ellas. "Predecir" a que grupo pertenece un individuo que no forma parte de los datos analizados, y del cual conocemos el valor de las variables en ese individuo, pero no sabemos a que grupo pertenece, (Gonzlez L., 1991). El anlisis discriminante asume ciertas asunciones, a saber: a) Cada grupo o tratamiento de estudio debe ser una muestra de una poblacin con una distribucin normal multivariada. b) La variable dependiente, la que hace grupos, debe ser discreta con ms de dos grupos. En caso que la variable dependiente sea dicotmica, se puede usar otro tipo de anlisis multivariado como la Regresin Logstica, (Visauta V., 1998) En situaciones con una mezcla de variables explicativas continuas y discretas, la funcin lineal discriminante no siempre es la ptima. En el caso de tener variables dicotmicas, la mayora de las evidencias sugiere que la funcin lineal discriminante a menudo funciona razonablemente bien (SPSS/PC, 1988). Cuando el nmero de variables explicativas es grande, las variables discretas que tienen n categoras se deben transformar en n-1 variables dicotmicas de valores 0 y 1 cada una. 14.2 Un Estudio de Caso realizado mediante el Anlisis Discriminante
Para ilustrar el anlisis discriminante, se analizar solo una parte de los datos del estudio realizado por Dicovskiy y Rizo, (1997). Se inicia con un proceso de seleccin de variables, agrupando aquellas variables que tengan altas correlaciones entre s. Luego con cada grupo se hace un anlisis discriminante, buscando agrupar aquellas variables que expliquen mejor la variable dependiente de la investigacin. En nuestro ejemplo se evaluaron en total 100 plantas de tempate, (Jatropha curcas L), especie arbustiva de zona seca y con potencial energtico. Lo que se trat de comprobar es si exista variabilidad gentica entre diferentes poblaciones de cuatro localidades de la regin norte de Nicaragua: 1) La Concordia- Yal a 900-1050 msnm.; 2) Estel, a 800-900 msnm.; 3) Condega a 600-700 msnm; y 4) Pueblo Nuevo a 650-750 msnm.
145 En este trabajo, el anlisis discriminante se utiliz para crear un modelo que permitiera predecir a que poblacin perteneca una planta que fuera tomada al azar en esta regin. Si el modelo funciona, se puede deducir que las poblaciones son diferentes y se puede estimar en funcin de sus medidas, con que probabilidad una planta pertenece a un grupo dado. Los datos fueron recolectados sobre plantas adultas y cultivadas en una coleccin, con condiciones de manejo y suelos uniformes. En el cuadro 14.1 se presentan las variables en estudio.
Cuadro 14.1. Variables elegidas para realizar el anlisis discriminante.
No 1 2 3 4 5 6 7 8 9 10 11 12 13
N ombre de la Variable Largo de la lmina de la hoja, en cm: (LARGO_H) Ancho de hoja, en cm: (ANCHO_H) Longitud del pecolo de la hojas, en cm: (LONG_P) Dos Lbulos en las hojas, LOB_2 Tres Lbulos en las hojas, LOB_3 Cuatro Lbulos en las hojas, LOB_4 Micropelos raros en las hojas MIC_RARO Micropelos comunes en las hojas MIC_com Hojas mltiples: (MUL_H) Porte de la planta : (PORTE) Distancia entre hojas, DIST_HO Grozor del tallo en mm, GROSOR_T Localidad, Local
Tipo de Variable Cuantitativa continua Cuantitativa continua Cuantitativa continua Dicotmica Dicotmica Dicotmica Dicotmica Dicotmica Dicotmica Dicotmica Cuantitativa continua Cuantitativa continua Discreta
Primero se carga la BDD DISCRIMINANTE-TEMPATE, y se realiza el anlisis de correlacin entre todas las variables. La rutina desarrollada para estudiar las correlaciones en SPSS fue la siguiente: <Analize / Correlate / Bivariate>; se declaran todas variables, excepto la variable localidad, que es la que hace los grupos de estudio. A partir del anlisis de correlacin, se incorporaron al anlisis discriminante las nueve variables que tenan algn grado de correlacin. Luego, el estudio discriminante se realiza con los comandos <Analize / Classify / Discriminant>, como variable de agrupacin se declara Localidad, y se deine el rango de la misma, en este caso de 1 a 4 localidades. Como variables independientes se toma el resto de las variables. En esta ventana de dialogo, se toma la opcin usar mtodo de inclusin por pasos, para que durante el anlisis se maniieste cuales variables no aportan a la mejora del modelo. Para que se realice el mapa territorial se debe buscar la ventana <Discriminant /Classify/ Plots / Territorial map>. De las 12 variables iniciales las funciones discriminantes inales, quedaron formadas por siete variables. El anlisis discriminante removi de la funcin inal a las variables 2 y 3 Lbulos por hoja, Hojas mltiples, Porte de la plantas y Distancia entre Hojas
146 14.2.1. Coeicientes no estandarizados de las Funciones Discriminantes A continuacin, en el cuadro 14.2, se presenta una parte de la hoja de salida del SPSS, en la cual se detallan los valores que tomaron las funciones discriminantes del grupo inal. Como hay 4 poblaciones grupos, el nmero de funciones discriminantes calculadas es de k-1 o sea 4 - 1 = 3. La primera funcin es el mayor cociente entre la variabilidad entre grupos y la variabilidad dentro de los grupos. La segunda funcin est incorrelada (no correlacionada) con la primera y es el siguiente coeiciente mayor (Gonzlez L., 1991y SPSS/PC, 1988). A continuacin se detallan los valores que tomaron las funciones generadas. Cuadro 14.2. Valores que tomaron las funciones discriminantes del grupo inal. Variable LOB_4 LARGO_H ANCH_H LONG_PE GROSOR_T MIC_RARO MIC_COM (constante) Funcin 1 .6149168 .2643860 .1847059 -.1122560 -.1993729 -1.239799 -.5010023 -5.539183 Funcin 2 1.536975 -.4079299 .4907421 -.1596141 .3550826 .2728176 -1.154598 -.5076821 Funcin 3 .2094860 .1317370 -.2377801 .1695111 1.048689 1.942288 .9254884 -5.242228
Los coeicientes no estandarizados son los multiplicadores de las variables, cuando estas estn expresadas en su unidad original. Si se considera como ejemplo la planta nmero 1 de la localidad de la ConcordiaYal, que tiene: sus hojas con cuatro lbulos, 16.75 cm de largo de hoja, 19.5 cm de ancho de hoja, 17 cm de longitud de pecolo, 2 cm de grosor de tallo, y tiene micropelos comunes en las hojas. Su valor Discriminante para la primera funcin es: D = 1* .614 9168 + 16.75 * .2643860 + 19.5 * .1847059 - 17 * .1122560 - 2 * .1993729 - 0* 1.239799 - 1 * .5010023 - 5.539183 Este valor discriminante, D, permite ubicar la planta dentro de una poblacin grupo dado y con una probabilidad de pertenencia asociada. Para esto, el modelo facilita una regla de clasiicacin basada en el teorema de Bayes (Visauta V., 1998) y la probabilidad de que una con una puntuacin discriminante pertenezca a uno u otra poblacin se estima a travs de:
147 Donde P(Gi) es la probabilidad previa, si no se tiene ninguna informacin previa sobre la misma, en este caso al tener 4 grupos es del 25 %. P(D/Gi) es la probabilidad condicional, que nos da una idea de cun probable es una puntuacin discriminante cualquiera para los miembros de uno u otro grupo. Y P((Gi/D) es la probabilidad posterior, que nos dice cun probable es que un sujeto cualquiera de la muestra, con una puntuacin discriminante determinada, pertenezca a uno u otro de los 4 grupos o poblaciones. Es as que el programa aporta una tabla de clasiicacin detallada por individuo con sus probabilidades de pertenecer a una u otra poblacin. 14.2.2 Coeicientes Estandarizados de las Funciones Discriminantes
Como los coeicientes no estandarizados, no son un buen indicador de la importancia relativa de cada variable en la funcin discriminante, cuando estas diieren en la unidad de medida, es que se construye los coeicientes estandarizados, con media 0 y desviacin estndar de 1. Estos coeicientes estandarizados permiten una aproximacin a la importancia relativa de cada variable en las funciones discriminantes y su interpretacin es semejante a los de la regresin mltiple. Variables con mayor coeiciente, sin importar el signo, contribuyen con mayor peso en la funcin discriminante (Bizquerra, 1989 y SPSS/PC, 1988). En el cuadro 14.3, se ilustra los coeicientes estandarizados obtenidos.
Cuadro 14.3. Coeicientes estandarizados.
Variable LOB_4 LARGO_H ANCH_H LONG_PE GROSOR_T MIC_RARO MIC_COM
Funcin 1 .28785 .72498 .56602 -.47435 -.10939 -.53145 -.23852
Funcin 2 .71948 -1.11860 1.50385 -.67446 .19482 .11695 -.54970
Funcin 3 ..09806 .36124 -.72866 .71628 .57538 .83258 .44062
14.2.3 Correlacin Cannica y Variacin porcentual La correlacin cannica de las funciones, es la raz cuadrada del cociente de la suma de cuadrados entre los grupos para una funcin dada y la suma de cuadrados total. Es una proporcin de la variacin explicada por las diferencias entre los grupos (localidades) y la variacin total. El Porcentaje de Variacin, es la relacin:
Suma de Cuadrados Funcin ni
k -1
Suma.de.cuadrados.Funcin ni
i= 1
Este porcentaje es una medida de los mritos de cada funcin en relacin a las otras funciones, (SPSS/PC, 1988). En el cuadro 14.4, se presentan los valores obtenidos.
148
Cuadro 14.4. Porcentaje de Variacin y Correlacin Cannica
Funcin 1* 2* 3*
Porcentaje de variacin 51.04 32.64 16.32
Correlacin cannica 0.6118 0.5260 0.4007
Para la primera funcin, la de mejor ajuste, la correlacin cannica tiene un valor de 0.6118 y contiene el 51.04 % de la variacin total entre localidades. 14.2.4 Correlacin Mapa Territorial El SPSS disea un mapa territorial donde se pueden ubicar las plantas segn el valor de la primera y segunda funcin en un cuadrante dado, es decir ubicar la planta en una localidad, con los valores de sus variables. En este ejemplo hay tantos cuadrantes como localidades. Mapa Territorial de las Cuatro Poblaciones en estudio
149 14.3 Resultados de la Clasiicacin Final
El cuadro 14.5, muestra el nmero de sujetos correcta e incorrectamente clasiicados sobre el total de la muestra utilizada en el anlisis discriminante. Se puede ver en la tabla como el anlisis discrimina correctamente 13 + 14 + 21 + 11 = 59 plantas, que sobre un total de 100 plantas, representa el 59 % de los casos. De manera general, el nmero de casos correctamente clasiicados lo encontramos en la diagonal del cuadro. Es as que el porcentaje de casos correctamente clasiicados por el anlisis discriminante qued en un 59 %. Hay que considerar que teniendo 4 grupos (localidades), la probabilidad de clasiicacin correcta aleatoriamente, de una planta dentro de un grupo, es del 25%, por lo tanto el anlisis discriminante, ms que duplic este valor, quedando as demostrado la utilidad del modelo en este ejemplo.
Cuadro 14.5. Tabla de clasiicacin: Nmero y Porcentaje de Miembros predecidos por grupo, segn el anlisis discriminante.
Grupo 1. Concordia-Yal Porcentaje de Clasiicacin 2. Estel Porcentaje de Clasiicacin 3. Condega Porcentaje de Clasiicacin 4. Pueblo Nuevo Porcentaje de Clasiicacin
Casos / Grupos 20 25 30 25
1 13 65.0 4 16.0 2 6.7 4 16.0
2 5 25.0 14 56.0 4 13.3 3 12.0
3 1 5.0 6 24.0 21 70.0 7 28.0
4 1 5.0 1 4.0 3 10.0 11 44.0
150
Bibliografa Citada
1. Bornemann G. 2005. La aplicacin de Modelos Multivariantes en Sistemas de Produccin Agropecuarios del Municipio de Cardenas, Rivas, Nicaragua. Cuadernos de Investigacin, coleccin Administracin de Empresas # 18. Universidad Centroamericana, UCA. Managua, Nicaragua. 64 p. 2. Bornemann G. 2004. Enfoque Sistmico. Curso de Posgrado, en la Maestra de Desarrollo Rural. Universidad Centroamericana, UCA. Managua, Nicaragua. s.p. 3. Bizquerra Alsina, R. 1989. Introduccin conceptual al Anlisis Multivariable. Edit PPU. Barcelona. p 5, 29-31, 178, 260 y 295-296. 4. Dicovskiy L. 2002. Folletos del CursoEstadstica Aplicada para Anlisis de Encuestas en SPSS para Windows. ADESO. Estel, Nicaragua. 5. Dicovskiy, L y Rizo R. 1997. Anlisis univariado y multivariado en plantas de tempate, (Jatropha curcas l.) de cuatro localidades de la zona norte central de nicaragua. Tesis de Maestra. Universidad de Valencia, Espaa. 77p. 6. Ferran A., M. (1996). SPSS para Windows, Programacin y Anlisis Estadstico. Editorial McGrawHill. Mexico, D.F. 580 p. 7. Gmez S. M. 1998. El Anlisis Cluster en Investigacin de Marketing: Metodologa y crtica. Universidad Autnoma de Madrid. Departamento Financiacin e Investigacin Comercial. Facultad de Ciencias Empresariales. UAM 28049. CANTOBLANCO. Madrid. pp 537543. 8. Gonzlez Lpez, B. 1991 La Estadstica Multivariante y la Investigacin Sanitaria. Espaa. p 175-177, 203-205. 9. Little, M.T & Hills, F. J. (1981). Mtodos estadsticos para la investigacin en la agricultura. Editorial Trillas, Mxico, D.F. 268 p. 10. Meja, I., Guzmn, M., Obregn S., y Palma, X. (2005). Estrategias de Desarrollo para la Micro Cuenca Pata de Gallina. Tesis de Maestra en Desarrollo Rural. Universidad Centroamericana, UCA. Managua, Nicaragua. 64 p. 152 p.
151 11. Munch Galindo, Lourdes. (1996). Mtodos y Tcnicas de Investigacin. Editorial Trillas. Tercera Reimpresin. 165 p. 12. Piura, L. J. (1994). Introduccin a la metodologa de la investigacin cientica. Editorial el Amanecer, S.A. Managua, Nicaragua. 114 p. 13. Pedroza, P.H. (1993). Fundamentos de Experimentacin Agrcola. Editora de Artes, S.A. Managua, Nicaragua. 226 p. 14. Pedroza P.H. (1995). Sistema de Anlisis Estadstico aplicado a la Experimentacin Agrcola. Curso de Post Grado, UNA- FAGRO. Managua, Nicaragua. 113 p. 15. Pedroza, H.P. 1995. Los Sistemas de Informacin: Instrumento vital para la sostenibilidad de los procesos de GTTA. Sociedad Agrcola. Ao 2, No. 3. Managua, Nicaragua. 16. Pedroza, H.P., y Dicovskiy L. 2003. Manual del curso Tcnicas de Investigacin Cuantitativa y Cualitativa. Maestra en Desarrollo Rural. UCA. Managua, Nicaragua. 17. Reyes, C. P. (1982). Diseo de experimentos aplicados. Segunda reimpresin, editorial Trillas. Mxico, D.F. 343 p. 18. SPSS 7.5. (1997). Estadsticas Avanzadas de SPSS 7.5. SPSS Inc. Impreso en Irlanda. 107 p. 19. SPSS/PC V.3.0. Manual. 1988 Advanced Statistics. Edit SPSS Inc. USA. pp B-1, B-23/26, B-33, B-64, B-69/70. 20. Visauta, V. B. 1998. Anlisis Estadstico con SPSS para windows, -Estadstica Multivariante-. Escuela Superior de Administracin y Direccin de Empresa. (ESADE). Mc Graw Hill/ Interamericana de Espaa, S.A.U. pp 167-212.
152
Henry Pedroza Pacheco, naci en Nandaime, Granada, el 4 de Octubre de 1958. En 1982, se gradu de Ingeniero Agrnomo Fitotecnista, en la Facultad de Ciencias Agropecuarias de la UNAN, hoy UNA. En 1991, obtuvo el grado cientico de Doctor en Ciencias Agrcolas, en la Universidad de Agraria de Plovdiv, Bulgaria.
Luis Mara Dicovskiy Riobo, naci el 24 de Junio de 1956, en la ciudad de Rosario, Argentina, es nacionalizado nicaragense y actualmente reside en Esteli. Se gradu de Ingeniero Agrnomo en la UNR, Universidad Nacional de Rosario, Argentina. Obtuvo una especialidad en Mejora Vegetal, en el
En los primeros once aos de su vida profesional, (19821992), se desarroll como docente investigador del ISCA, actual UNA, inicialmente en la ctedra de Economa Agrcola y luego en Diseos Experimentales, apoyando la formacin bsica de los investigadores agropecuarios del pas. En los ltimos quince aos, de 1992 a la fecha, se ha desempaado como consultor de sistemas de informacin tecnolgica, que requieren Sistema de Manejo de Base de Datos (DBMS), en formulacin de proyectos mediante el EML, en evaluacin de programas/proyectos y como Biometrista para el anlisis de datos tanto experimentales como no experimentales. De 1996 a 2001, se desempe como Director de Generacin de Tecnologa del INTA, cumpliendo con xito funciones de planeacin, diseo, monitoreo y evaluacin de programas y proyectos de investigacin. En el ao 2000, realiz estudios de postgrado en la Universidad de California, Davis (UC Davis), obteniendo el Diploma Post graduate Certiicate Program on Vegetable Crops. Se ha desempeado como docente universitario en la UNA, UNI, UNN, UCA, e IICA, en diversos cursos de investigacin. Ha asesorado varias tesis universitarias de pregrado y dos tesis de maestra.
Instituto de Altos Estudios del Mediterrneo, Zaragoza, Espaa. Alcanz el grado de Maestra en Estadstica e Investigacin de Operaciones, otorgado por la Universidad de Valencia, Espaa, y es egresado de la III Maestra en Mtodos de Investigacin Social Cualitativa, de la UPOLI, Nicaragua. Se ha destacado como Investigador y Docente Universitario por 24 aos, tiene amplia experiencia en medicin y anlisis de datos socioeconmicos, y productivos; como Biometrista y analista de informacin experimental y no experimental por mtodos estadsticos y cualitativos. Ha sido coordinador de varias investigaciones en el campo agropecuario y social en la zona norte de Nicaragua, y tutor de mltiples tesis universitarias. Se ha desempeado como: Jefe del departamento de Investigacin y Post-grado en la EAGE de la Escuela de Agricultura y Ganadera de Estel. Febrero de 19921999. Director Ejecutivo (EAGE,) de 1999-2001. Miembro de la Comisin de Directores Investigacin y de la Comisin de Directores de Postgrado del Consejo Nacional de Universidades, CNU. 1998 a 2002. En el ao 2005 se desempe como Coordinador de la Carrera de Agroindustria de la UNI, Sede Estel. Desde 2006 a la fecha, es el Subdirector sede UNI, Norte. Estel.

Pedroza, Sistema de Análisis Estadístico en SPSS - Agronomía

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Pedroza, Sistema de Análisis Estadístico en SPSS - Agronomía

Загружено:

Авторское право:

Доступные форматы

Sistema de Anlisis Estadstico con SPSS

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Coordinacin editorial Correccin de estilo Diagramado Diseo de portada

Dr. Gerardo Escudero Director General IICA, Nicaragua

Ing. Agr. Nstor Allan Alvarado Daz

Capitulo 2. 2.1 2.2 2.3

Captulo 3. 3.1 3.2 3.3 3.4 3.5 3.6 3.7

Captulo 4. 4.1 4.2

Captulo 6. 6.1 6.2 6.3

Anlisis de Varianza Univariado: Diseo de Bloques Completos al Azar 62 62 62 62

7.1 7.2 7.3 7.4 7.5

8.1 8.2 8.3 8.4

83 83 83 84 84 90 90 91 92 93 97 98 98 102 103 103 105 105

9.1 9.2 9.3 9.4

Sistema de Anlisis Estadstico con SPSS

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

Sistema de Anlisis Estadstico con SPSS

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

123 123 126 134 139 143

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS

Sistema de Anlisis Estadstico con SPSS

Figura 1.1. Los sistemas de informacin como instrumentos de apoyo institucional.

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS

Sistema de Anlisis Estadstico con SPSS

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS

Sistema de Anlisis Estadstico con SPSS

18 1.6 Control de Calidad de Datos.

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS

Anlisis Descriptivo de una Variable Cualitativa en Escala N ominal.

Frequency 122 54 114 107 21 25 443 71 514

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

20 El grico solicitado al SPSS, es el siguiente:

Porcentaje de escolaridad de las personas encuestadas.

Sistema de Anlisis Estadstico con SPSS

3 0 Excelente Muy buena B uena Regular Mala

Como valora la accion para evitar la contaminacion del Medio Ambiente

Porcentajes sobre valoracin de accion para evitar contaminacion ambiental.

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

Ilustracin de distribucin N ormal de la variable edad.

Sistema de Anlisis Estadstico con SPSS

Edad (en aos)

Instituto Interamericano de Cooperacin para la Agricultura (IICA)

Sistema de Anlisis Estadstico con SPSS

Instituto Nicaragense de Tecnologa Agropecuaria (INTA)

Sistema de Anlisis Estadstico con SPSS