Вы находитесь на странице: 1из 20

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-1

UNIVERSIDAD DE JAN

Material del curso Anlisis de datos procedentes de investigaciones mediante programas informticos
Manuel Miguel Ramos lvarez,

ndice 3.

MATERIAL III DESCRIPCIN DE LOS DATOS MATERIAL III DESCRIPCIN DE LOS DATOS ATERIAL ESCRIPCIN DE LOS ATOS

Acercamiento con objeto de resumir la informacin: anlisis descriptivo-exploratorio ....... 2 3.1. Estadsticos descriptivos de utilidad para el resumen descriptivo............................. 3 3.2. Descripcin de los datos a partir de la representacin grfica ................................. 4 3.2.1. Grficos bsicos ........................................................................................ 4 3.2.2. Grficos de asociacin entre variables .......................................................... 5 3.2.3. Nuevos formatos de representacin ............................................................. 6 3.3. Los supuestos estadsticos. Resumen de los supuestos implcitos en el anlisis estadstico de modelizacin ......................................................................................... 7 3.4. Anlisis de los residuales con fines diagnsticos ................................................... 8 3.5. Transformaciones de datos y recomendaciones para su seleccin.......................... 10 3.6. Clasificacin de las pruebas de anlisis no paramtrico........................................ 12 3.7. Identificacin de los valores extremos............................................................... 13 3.8. Realizacin de los supuestos de prcticas .......................................................... 16 3.8.1. Supuesto 1............................................................................................. 17

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-2

3. Acercamiento con objeto de resumir la informacin: anlisis descriptivo-exploratorio


La descripcin inicial de los datos tiene por objeto reducir la abundante cantidad de informacin obtenida en las variables medidas; a partir de la tendencia central, la variabilidad o dispersin y la forma en que los datos se agrupan (apuntamiento y curtosis). Cuando los datos exhiben puntos extremos, sera preferible optar por una alternativa robusta, como la mediana. La sntesis de los datos puede realizarse mediante Anlisis Exploratorio de Datos (Exploratory Data Anlisis, EDA). A veces es necesario llegar ms lejos sometiendo los datos a alguna tcnica estadstica Multivariada de Reduccin, como el Anlisis Factorial o el Anlisis de Cluster. Ver Convenciones acerca de las representaciones grficas en el manual En general, ser de utilidad: o Estadsticos descriptivos de utilidad para el resumen descriptivo: segn el tipo de acercamiento a los datos y segn las propiedades de inters o Anlisis de los supuestos del Modelo mediante tcnicas EDA y No Paramtricas o Transformacin de los datos para evitar el incumplimiento de los supuestos o Generalidades sobre las tcnicas de Anlisis de carcter no paramtrico o La aproximacin EDA (Exploratory Data Anlisis) para anlisis de residuales y valores extremos o Desarrollo de un supuesto de prcticas

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-3

3.1. Estadsticos descriptivo

descriptivos

de

utilidad

para

el

resumen

CUADRO 6.2. Adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Mtodos y Tcnicas de
Investigacin en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.

A1. Descripcin previa Extremos: Mn vs. Mx Puntos destacados: Percentiles. A2. Forma Simetra Apuntamiento

B1. Tendencia Central Media Robustos: Mediana B2. Variabilidad Desviacin tpica Error estndar Media Robustos: Desviacin Mediana

C1. Asociacin vs. Correlacin Cuantitativas. Pearson Ordinales Rangos Spearman Nominales Kappa de Cohen Cuantitativa-Dicotmica Biserial-puntual Cuantitativa-Dicotomizada Biserial Cuantitativa-Dicotomizada Tetracrica

Histogramas Distribucin Frecuencias

Diagramas: Clsico Lneas con medias y barras de error Robusto Caja y bigotes

Diagrama dispersin Tablas Contingencia/

Decisin fundamental: Estadsticos clsicos versus robustos?


Analizar Estadsticos descriptivos Explorar Dependientes: Todas Aceptar. Statistics Basic Statistics/Tables Descriptive statistics OK Summary:Variables: X1-Y OK Summary Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-4

3.2. Descripcin de los datos a partir de la representacin grfica


3.2.1. Grficos bsicos
POLGONO FRECUENCIAS Expectativa profesor Rendimiento cada nio del aula.
10 9 8
EXPTPROFE

HISTOGRAMAS Nivel sociocultural padres (1: sin estudios, 2: primarios, 3: secundarios, 4: superiores)

SIMBLICOS Diagrama circular o Grfico tarta. Nivel sociocultural padres (1: sin estudios, 2: primarios, 3: secundarios, 4: superiores)

7 6 5 4 3 2 0 10 NIO 20 30

Pictograma. Rendimiento en cada nio


10 9 8
EXPTPROFE

7 6 5 4 3 2 0 10 NIO 20 30

Para Distribuciones de Frecuencias Analizar Estadsticos descriptivos Frecuencias Variables: X1, X2, X3, X4, Y Grficos: Opcin Histogramas con curva normal Aceptar. Graphs Histograms Variables: X1, X2, X3, X4, Y; Fit Type:Normal Aceptar.

Para Variables en su escala original: Para el supuesto 3. Si las variables fueran cuantitativas se hace todo igual pero con el tipo Lneas. Grficos (Cuadros de Dilogos Antiguos) Barras Agrupado; Resmenes para distintas variables; Definir Las barras representan: Todas las medidas (i.e. Tiempo80, Tiempo90, Tiempo100); Eje de categoras: Variables de agrupacin (i.e. VARX1) Aceptar. Graphs (2D Grpahs) Means w/Error Plots Graph Type: Columns; Mutiple; Unique values; Variables Dependent: Todas las medidas (i.e. Tiempo80, Tiempo90, Tiempo100), Grouping: Variables de agrupacin (i.e. VARX1) OK Aceptar.

Interpretacin:

Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-5

3.2.2.

Grficos de asociacin entre variables

Los diagramas de dispersin o nube de puntos [scatterplot] son recomendables para estudiar la asociacin entre dos o ms variables. Por ejemplo, respecto a la relacin entre el rendimiento y las expectativas del profesor sera,

Diagramas de dispersin o nube de puntos. Variables: Rendimiento de los guios y expectativas profesor.

Para Regresin: Graphs Scatterplots Regular Eje Y: Y; Eje X: X1; Fit Type: Linear OK Aceptar. Repetir la operacin para todos los pares X-Y (es decir, X2-Y, X3-Y, etc.). Rastrear todas las interdependencias si es regresin mltiple: Graphs Matriz Plots Square Scatter Matrix Variables en la Matriz: Todas OK Pestaa Advanced Fit: Linear Aceptar. Interpretacin:

Grficos Dispersion Simple Eje Y: Y; Eje X: X1 Aceptar. Repetir la operacin para todos los pares X-Y (es decir, X2-Y, X3-Y, etc.). Rastrear todas las interdependencias si es regresin mltiple: Grficos Dispersion Matricial Variables en la Matriz: Todas Aceptar.

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-6

3.2.3.

Nuevos formatos de representacin

Dentro de EDA han surgido representaciones que condensan una mayor cantidad de informacin que los precedentes y son ms flexibles para alterar el nivel de detalle de la representacin. Los ms importantes son los diagramas de tallo y hojas y los diagramas de caja y barbas.

El diagrama de caja y barba (Box Plot) en el mismo caso de rendimiento en situacin cooperativa es,

Para Variables en su escala original: Para el supuesto 3. Grficos Diagramas de caja Agrupado; Resmenes para distintas variables; Definir Las barras representan: Todas las dependientes medidas; Eje de categoras: Variables de agrupacin Aceptar. Graphs 2D Grapas Box Plots Box-Whiskers Multiple Variables Dependent: Tiempo80, Tiempo90, Tiempo100; Grouping: VarX1 OK Aceptar

Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-7

3.3. Los supuestos estadsticos. Resumen de los supuestos implcitos en el anlisis estadstico de modelizacin
(Cuadro

7.2 adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Mtodos y Tcnicas de Investigacin
en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.).

B) SUPUESTOS GENERALES 1) Normalidad. Las observaciones se extraen de poblaciones distribuidas segn la Normal para cada grupo. Pruebas de Bondad de Ajuste. 2) Homocedasticidad. El numerador y denominador de la razn F son estimaciones de la misma varianza poblacional, 2. De ah que las varianzas en los diferentes tratamientos tienen que ser iguales. Prueba de Hartley, Levene, Brown-Forsythe. Supuesto de Esfericidad respecto a Homogeneidad Covarianzas segn la Prueba de Mauchley. de Varianzas-

3) Respecto a cada nivel j, el error Eij ha de cumplir algunas condiciones: Es independiente del resto de errores. Se distribuye segn una Normal dentro de cada poblacin de tratamiento N(0,2). Es decir con media cero y varianzas equivalentes. Prueba Rachas, Corr. Intraclases, Durbin-Watson. 4) La ecuacin estructural del modelo refleja una composicin aditiva de las fuentes de variacin. Para el supuesto 3. Analizar Pruebas No paramtricas ChiCuadrado, Rachas, K-S para una muestra (Normal, etc.) En mdulos especficos (i.e. Modelo Lineal General que es para ANOVA aparecen las de homocedasticidad, esfericidad y Normalidad). Sobre Normalidad: Statistics Basics Statistics/Tables Descriptive statistics Variables: FreqY Pestaa Normality y seleccionar Kolmogorov-Smirnov, Shapiro-Wilks' W (tambin efecta la prueba de Lilliefors aunque no se menciona explcitamente) Histograms Sobre homogeneidad Varianzas (Para el Supuesto 2): Statistics Basics Statistics/Tables Breakdown & Variables: Dependent: Frecuenc; Grouping: Mes, Tipo OK OK Levene Pestaa ANOVA & Tests Brown-Forsythe. Ver Ramos, Catena & Trujillo (2004) para otras pruebas ms especficas.

Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-8

3.4. Anlisis de los residuales con fines diagnsticos


El anlisis exploratorio de los grficos que representan a los residuales nos permitir una primera aproximacin a los supuestos, as como una mejor comprensin de los datos. Por ejemplo, esto facilita la deteccin de puntos extremos. La primera impresin nos la puede proporcionar el anlisis exploratorio convencional, es decir la representacin de la vd frente a la vi as como los histogramas de distribucin de frecuencias. Sin embargo, a veces estos grficos no son aparentes y de hecho pueden llegar a enmascarar algunos problemas, por lo que son preferibles los de EDA a partir de los residuales (errores) estandarizados, pues tienen ventajas interpretativas al ser libres de escalas. Realizaremos una terna de grficos residuales. o Representan los residuales estandarizados (eje Y) en funcin de las predicciones (Y) o pronsticos de un modelo. o Los residuales estandarizados (eje Y) en funcin de la variable predictora/independiente (X), o Mejor an un grfico basado en la probabilidad normal (normal probability plot) o tipo p-p, que ordena los residuales estandarizados desde el ms negativo hasta el ms positivo y los representa contra su valor esperado asumiendo una distribucin Normal estndar. Este ltimo puede, adems servir, para contrastar otros modelos de distribucin diferentes. Interpretacin: o Desde el punto de vista del diagnostico de los supuestos, los grficos de los residuales deberan exhibir una forma aleatoria, es decir no deberan seguir ningn patrn. o Igualmente tambin podramos detectar puntos extremos, datos para los cuales el error es desproporcionado en relacin al conjunto de datos. o En el grfico de los errores segn la probabilidad normal, deberamos esperar que stos se ajustasen a una lnea recta con pendiente unidad. En Statistica Statistics Advanced Linear/ General Linear Models OK Variables: Dependent Variables: FeqY; Continuous pred: X1, X2, X3, X4 OK OK Pestaa More results Pestaa Residuals 1 Resids for default polots: Standardized Botn Pred & resids; Botn Normal Pestaa Residuals 2 X(var/pred/res): X1; Y(var/pred/res): z Resid. Scatterplot of selected X (Hacer lo mismo para los otros predictores). Sera recomendable inspeccionarlos conjuntamente para facilitar su interpretacin (i.e. pulsando sobre el icono de la izquierda que los agrupa en el Workbook donde estn ubicados). En SPSS (es algo ms laborioso) Analizar Regresin lineal Dependiente: Y; Independientes: X1, X2, X3, X4; Guardar Valores pronosticados: No Tipificados; Residuos: No Tipificados, Tipificados; Continuar Aceptar En el fichero de datos se generan las columnas pre_1, res_1 y zre_1. Realizamos entonces los grficos de dispersin: o Valor pre_1 vs zre_1 o Valor X1 vs zre_1, Valor X2 vs zre_1, Valor X3 vs zre_1, Valor X4 vs zre_1 Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-9

Anlisis exploratorio de los residuales con fines diagnsticos FIGURA 7.1. Tomada de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Mtodos y Tcnicas de
Investigacin en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.

A
3,0 2,0 Err Estand 1,0 0,0 -1,0 -2,0 -3,0 0 20 40 60 Y Pred 80 100 120

B
3,0 2,0 Err Estand 1,0 0,0 -1,0 -2,0 -3,0 0 5 10 X 15 20 25

C
3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -3 -2 -1 0 1 2 3

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-10

3.5. Transformaciones seleccin


de

datos

recomendaciones

para

su

Realizamos dos representaciones grficas, cuya inspeccin nos proporciona una aproximacin al cumplimiento de los supuestos, especialmente aditividad, normalidad y homocedasticidad: De medias en funcin de varianzas o desviaciones Distribucin de frecuencias de los errores Yij Yij . Interpretacin: Lo ideal sera que no hubiera un patrn sistemtico de relacin entre medias y varianzas/desviaciones y que la distribucin de los Errores fuera aleatoria. Por el contrario, tendremos sospechas del incumplimiento de los supuestos si medias y varianzas/desviaciones exhiben una tendencia lineal y los Errores exhiben una distribucin clara, una normal o bien se agrupan de manera asimtrica. Una vez decidido, realizamos un diagnstico de Box-Cox para decidir el tipo de transformacin ms adecuada, segn la funcin:

log( S j ) = 0 + 1 log(Y j )
El resto del proceso aparece en el siguiente cuadro:

10

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-11

(Cuadro 7.8 adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Mtodos y Tcnicas de Investigacin en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.).

TRANSFORMACIN

EXPRESIN

INVERSA

CONDICIONES * Medias y varianzas iguales. * Distribucin de Poisson. *Medias y des.tpicas proporcionales. * Datos asimtricos. *Medias al cuadrado y des.tpicas proporcionales. * Medias y varianzas proporcionales. * Patrn de diamante de los errores. * Alternativa de la angular (arsen). * Para variables que se obtienen como correlaciones. * Errores en forma de diamante. TRANSFORMACIN

Raz

Yij = Yij = Yij 2


1

Yij = Yij

Logartmica

Yij = log a Yij


Yij = 1 = Yij1 Yij

Yij = a ij

Recproca

Yij = Yij1
Yij = ( senYij )
Y

Arco Seno

Yij = arcsen Yij


Yij = log Yij 1 Yij

Logit

Yij =

e ij 1 Y e + 1 1 + e ij
Yij

Z de Fisher

1 + Yij 1 Yij = log 1 Yij 2

Yij =

e 1 2Y e ij + 1
1
2 1,5 1 0,5 0

2Yij

PROPORCIN DESVIACIN Y MEDIA ESTIMAR 1 CON LA FUNCIN:

1 1
-1 -0,5 0 0,5 1

RECOMENDADA

3/ 2 log( S j ) = 0 + 1 log(Y j ) 1/ 2 2 cte.


2

Recproca Recproca Raz Logartmica Raz Ninguna

Estimar Medias y Varianzas en Hoja de Clculo (i.e. Excel), sus correspondientes logaritmos, aplicar la ecuacin de regresin de arriba (i.e. =PENDIENTE en Excel) y tantear en la tabla segn el valor estimado para la pendiente. Tantear las transformacin sugerida junto con las ms destacadas una por una y comprobar si se devuelve una relacin lineal donde no la haba. Realizamos las tres transformaciones mediante [Transformar Calcular en la caja Functions asociada a la variable en Statistica] y creamos tres nuevas variables, segn las expresiones: o 1/X1, SQRT(X1) y LN(X1) mejor que LG10(X1) Entonces comparamos los grficos de Diagnstico para determinar la ganancia ahocicada a las transformaciones respecto a la var. Sin transformar y decidir finalmente si interesa realmente alguna de ellas o no. En Statistica hay una prueba especfica: Statistics Industrial Statistics & Six Sigma --> Experimental Design (DOE) Central Composite, non-factorial, surface designs Analyze design Variables Dependent Independent OK Pestaa BoxCox Box-Cox Transformation.

Interpretacin:

11

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-12

3.6. Clasificacin de las pruebas de anlisis no paramtrico


(Cuadro

7.9 adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Mtodos y Tcnicas de Investigacin
en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.).

A) GENERAL A.1 Una muestra. A.1.1. Bondad de ajuste y anlisis de los supuestos. Kolmogorov-Smirnov, Prueba 2, Lilliefors. Para Normalidad. Rachas. Para aleatoriedad. A.1.2. En torno al parmetro de posicin. De los signos. De la mediana. De los cuantiles.

A.2. Dos muestras. A.2.1. De carcter independiente. Sobre la forma general distribucin: Prueba 2. Rachas de Wald-Wolfowitz En torno al parmetro de posicin. Prueba de la Mediana. U de Mann-Whitney. A.2.2. Relacionadas o dependientes. En torno al parmetro de posicin o tendencia central. De los signos. Wilcoxon.

A.3. k-muestras. A.3.1. De carcter independiente ANOVA de Kruskal-Wallis A.3.2. Relacionadas o dependientes. Prueba de Friedman.

Para el supuesto 3. Analizar Pruebas paramtricas Statistics Nonparametrics

Interpretacin: No

12

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-13

3.7.

Identificacin de los valores extremos

Este anlisis opera en dos pasos: Los valores que son identificados mediante anlisis descriptivo se conocen como puntos extremos. Esto se hace normalmente mediante las representaciones grficas oportunas (Diagrama de cajas en ANOVA y de dispersin en Correlacional), tal y como se refleja en la siguiente figura:

FIGURA 7.3. Tomada de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Mtodos y Tcnicas de Investigacin en
Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.

Para diferenciar entre outliers y valores extremos. Los segundos estn dos veces ms all del criterio de desviacin acotado. Para Variables en su escala original (Hacerlo para el Supuesto 3): Grficos Diagramas de caja Agrupado; Resmenes para distintas variables; Definir Las barras representan: Todas las dependientes medidas; Eje de categoras: Variables de agrupacin Aceptar. Graphs 2D Graphs Box Plots BoxWhiskers Multiple Variables Dependent: Tiempo80, Tiempo90, Tiempo100; Grouping: VarX1 OK Aceptar En el supuesto 1, diagramas de dispersin o mejor grficos de diagnstico de residuales.

Interpretacin:

13

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-14

Identificacin de los valores extremos-II Posteriormente se procede a un anlisis ms exhaustivo si en la etapa previa tenemos sospechas de puntos extremos. Los puntos identificados mediante anlisis residual se denominan puntos de influencia indebida y exigen tcnicas especficas. 1) Identificacin de valores inusuales en el predictor mediante el anlisis de la influencia relativa. Distancia entre una observacin en el predictor, digamos i, y su influencia en su propia prediccin: influencia relativa (levers) y si tiene un valor elevado, nos indicar que se est ignorando al resto de predictores durante la estimacin de la observacin. Cuando el valor es elevado entonces se entiende como un punto de apalancamiento. La frmula para regresin simple es simplemente una adaptacin de la anterior. Criterios interpretativos para considerar la posibilidad de un punto extremo:

hii > 2hii hii > 3hii


Si la muestra es grande: hii > 0, 2

Efecto: Sobre la tasa de Error Tipo I. 2) Identificacin de valores inusuales en el modelo mediante el anlisis de los residuales. El objetivo ahora es determinar en qu medida un par de datos concreto afecta a las estimaciones bsicas de modelizacin. Podramos calcular los errores o residuales que se obtienen al diferenciar un modelo Ampliado que omite el par evaluado ( Yi.i ) y otro Compacto que s lo incluye ( Yi ). Pero la lgica de contraste de Hiptesis no nos vale sin ms pues se altera la estimacin de los parmetros. Una frmula que evita este problema viene dada por lo que se conoce como la Distancia de Cook:

Criterios interpretativos para considerar la posibilidad de un punto extremo:

Di >

4 NPAMP N

Si la muestra es grande: Di > 1 Di > 2 Para Di muy distanciados de los inmediatamente precedentes en magnitud. Efecto: Sesgo en los parmetros estimados. Sobre la tasa de Error Tipo I o sobre el Tipo II.

14

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-15

Identificacin de los valores extremos-III. Decisiones en torno a los valores extremos detectados. Todas las pruebas estadsticas que hemos incluido no se deben de tomar como instrumentos para descartar automticamente observaciones sino meramente para detectar puntos extremos y en general puntuaciones indebidas o sospechosas, pero la interpretacin de las mismas slo puede corresponder a motivos tericos. Si el punto extremo es claramente un error de codificacin entonces obviamente habra que corregirlo. Pero salvo este caso, todos los dems merecen una consideracin especial. De hecho, podra suceder que los valores extremos identificados provoquen un cambio en el modelo de partida, lo que evidentemente sera enriquecedor. Por el contrario, si omitimos observaciones de este tipo evidentemente estamos contribuyendo al sostenimiento de un modelo terico incompleto. La conclusin metodolgica es clara, se debe de informar de los puntos extremos detectados y efectuar los anlisis estadsticos correspondientes con y sin dichos valores. La mera omisin de la informacin para la que uno no tiene explicaciones es un proceder contradictorio con la motivacin que nos llev a invertir recursos para realizar la investigacin. Este principio incrementa la probabilidad de que los resultados publicados no se confirmen y por ende que la propuesta terica no se persiga en el futuro. Analizar Regresin lineal Dependiente: Y; Independientes: X1, X2, X3, X4; Guardar Distancias: De Cook, Valores de Influencia; Continuar Aceptar Statistics Advanced Linear/ General Linear Models OK Variables: Dependent Variables: FeqY; Continuous pred: X1, X2, X3, X4 OK OK Pestaa More results Predicted and residuals. STATISTICA will compute the (default) 95% Prediction intervals and 95% Confidence limits, the Standardized predicted and Standardized residual score, the Leverage values, the Deleted residual and Studentized deleted residual scores, Mahalanobis and Cook distance scores, the DFFITS statistic, and the Standardized DFFITS statistic.

Interpretacin:

15

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-16

3.8. Realizacin de los supuestos de prcticas


Apartados recomendados en general 1.- Descripcin bsica basada en las frecuencias 2.- Descripcin bsica tanto grfica (Dispersin vs. Cajas) como estadstica. Decidir entre estadsticos clsicos vs. Robustos. 3.- Presencia de puntos extremos. 4.- Anlisis de los supuestos y posibles transformaciones. 5.- Con el modelo identificado se realiza un anlisis de los residuales. Los ejemplos se ilustran con SPSS

16

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-17

3.8.1.

Supuesto 1

A) Ejemplo para Ciencias: 1.- Descripcin bsica basada en las frecuencias [Analizar|Estadsticos descriptivos|Frecuencias] [Grficos: Opcin Histogramas con curva normal] Aparentemente no hay puntos extremos destacados y las desviaciones de la normalidad no parecen preocupantes puesto que no son asimtricas, si acaso uniformes. 2.- Descripcin bsica tanto grfica (Dispersin vs. Cajas) como estadstica. Decidir entre estadsticos clsicos vs. Robustos [Grficos|Dispersin] Rastreamos todas las relaciones: Y-X1, Y-X2, Y-X3 e Y-X4 Que el de X1-Y sugiere una transformacin pues se asemeja a una exponencial. Que en algunos de ellos, i.e. X2-Y podra haber puntos extremos. Que las dos ltimas variables parecen redundantes pues son muy similares los diagramas. [Analizar|Estadsticos descriptivos|Descriptivos ] [Opciones con ms estadsticos] Se puede apreciar que algunas variables exhiben cierta asimetra/curtosis tanto mayor cuanto ms alejado de la unidad el valor, ya en sentido positivo ya en sentido negativo. Pero la forma de la distribucin la veremos mejor al tratar el tema de los supuestos. [Analizar|Estadsticos descriptivos|Explorar] [Opciones con ms estadsticos] y todas juegan el papel de variables dependientes. Al comparar Media y Mediana se aprecia que en este caso hay algunas discrepancias y que por lo tanto el recurso a los estadsticos robustos, del tipo de la mediana, podra ser una buena opcin, aunque esto se descarta con una visin general. 3.- Presencia de puntos extremos Nos valemos de la opcin de regresin lineal para estimar las distancias de valores inusuales [Analizar|Regresin lineal] [Guardar: Distancia de Cook y valores de influencia] Case 11 podra ser sospechoso pues est por encima de 1 en Cook y tiene de los valores ms elevados en cuanto a la medida de influencia (por encima de 0,4); aunque no parecen puntos muy extremos y podran ser genuinos. 4.- Anlisis de los supuestos y posibles transformaciones Mejor dejarlo para el Mdulo siguiente con el modelo definitivo, no obstante: 1 estimamos el modelo SATURADO, que es el de referencia, en el ejemplo el que incluye todos los predictores, pero adems con InvAlt en lugar de la Altura, luego un modelo de regresin mltiple y aprovechamos para pedirle que guarde las predicciones, los residuales y los residuales tipificados y en el fichero de datos se generan las columnas pre_1, res_1 y zre_1 Realizamos entonces los grficos: Valor pre_1 vs zre_1 Valor X1 vs zre_1 Valor X2 vs zre_1 Valor X3 vs zre_1 Valor X4 vs zre_1 Un grfico p-p para zre_1

17

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-18

De Normalidad, miramos los resultados aportados en la opcin de Explorar vista ms arriba, lo que nos lleva a concluir que al menos X1 y X3 podran ser significativos e incumplir el supuesto. Los grficos de los residuales as lo sugieren tambin. De homocedasticiad y otros los veremos al analizar los grficos de residuales en el mdulo siguiente, una vez que tengamos el modelo. De las transformaciones Dado el contexto de regresin, es preferible tantear las transformaciones ms destacadas una por una y comprobar si se devuelve una relacin lineal donde no la haba. Realizamos las tres transformaciones mediante [Transformar|Calcular] y creamos tres nuevas variables, segn las expresiones: 1/Alt SQRT() LN() mejor que LG10() Entonces acudimos nuevamente a la opcin [Grficos|Dispersin] y comparamos los diagramas de dispersin de las transformaciones frente a la variable Altitud original, donde se aprecia que la mejor transformacin para devolver linealidad es la del tipo Inverso. 5.- Con el modelo identificado se realiza un anlisis de los residuales. Lo veremos en el mdulo siguiente, una vez estimado el modelo de regresin oportuno.

18

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-19

B) Ejemplo para Humanidades: 1.- Descripcin bsica basada en las frecuencias [Analizar|Estadsticos descriptivos|Frecuencias] [Grficos: Opcin Histogramas con curva normal] Aparentemente no hay puntos extremos destacados y las desviaciones de la normalidad no parecen preocupantes puesto que no son asimtricas, si acaso uniformes. 2.- Descripcin bsica tanto grfica (Dispersin vs. Cajas) como estadstica. Decidir entre estadsticos clsicos vs. Robustos [Grficos|Dispersin] Rastreamos todas las relaciones: Y-X1, Y-X2, Y-X3 e Y-X4 Que el de X1-Y sugiere una transformacin pues se asemeja a una exponencial. Que en algunos de ellos, i.e. X2-Y podra haber puntos extremos. Que las dos ltimas variables parecen redundantes pues son muy similares los diagramas. [Analizar|Estadsticos descriptivos|Descriptivos ] [Opciones con ms estadsticos] Se puede apreciar que algunas variables exhiben cierta asimetra/curtosis tanto mayor cuanto ms alejado de la unidad el valor, ya en sentido positivo ya en sentido negativo. Pero la forma de la distribucin la veremos mejor al tratar el tema de los supuestos. [Analizar|Estadsticos descriptivos|Explorar] [Opciones con ms estadsticos] y todas juegan el papel de variables dependientes. Al comparar Media y Mediana se aprecia que en este caso hay algunas discrepancias y que por lo tanto el recurso a los estadsticos robustos, del tipo de la mediana, podra ser una buena opcin, aunque esto se descarta con una visin general. 3.- Presencia de puntos extremos Nos valemos de la opcin de regresin lineal para estimar las distancias de valores inusuales [Analizar|Regresin lineal] [Guardar: Distancia de Cook y valores de influencia] Case 11 podra ser sospechoso pues est por encima de 1 en Cook y tiene de los valores ms elevados en cuanto a la medida de influencia (por encima de 0,4); aunque no parecen puntos muy extremos y podran ser genuinos. 4.- Anlisis de los supuestos y posibles transformaciones Mejor dejarlo para el Mdulo siguiente con el modelo definitivo, no obstante: 1 estimamos el modelo SATURADO, que es el de referencia, en el ejemplo el que incluye todos los predictores, pero adems con InvCulpab en lugar de la Altura, luego un modelo de regresin mltiple y aprovechamos para pedirle que guarde las predicciones, los residuales y los residuales tipificados y en el fichero de datos se general las columnas pre_1, res_1 y zre_1 Realizamos entonces los grficos: Valor pre_1 vs zre_1 Valor X1 vs zre_1 Valor X2 vs zre_1 Valor X3 vs zre_1 Valor X4 vs zre_1 Un grfico p-p para zre_1 De Normalidad, miramos los resultados aportados en la opcin de Explorar vista ms arriba, lo que nos lleva a concluir que al menos X1 y X3 podran ser significativos e incumplir el supuesto. Los grficos de los residuales as lo sugieren tambin. De homocedasticiad y otros los veremos al analizar los grficos de residuales en el mdulo siguiente, una vez que tengamos el modelo.

19

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

III-20

De las transformaciones Dado el contexto de regresin, es preferible tantear las transformaciones ms destacadas una por una y comprobar si se devuelve una relacin lineal donde no la haba. Realizamos las tres transformaciones mediante [Transformar|Calcular] y creamos tres nuevas variables, segn las expresiones: 1/Culpab SQRT() LN() mejor que LG10() Entonces acudimos nuevamente a la opcin [Grficos|Dispersin] y comparamos los diagramas de dispersin de las transformaciones frente a la variable Culpab original, donde se aprecia que la mejor transformacin para devolver linealidad es la del tipo Inverso.

5.- Con el modelo identificado se realiza un anlisis de los residuales. Lo veremos en el mdulo siguiente, una vez estimado el modelo de regresin oportuno.

Volver Principio

20

Вам также может понравиться