Вы находитесь на странице: 1из 122

Universidad de Oviedo Unidad de Consultor Estad a stica

CURSO AVANZADO DEL PAQUETE ESTAD ISTICO R Introduccin a la o modelizacin estad o stica
(http://uce.uniovi.es)

Profesores: Pelayo Izquierdo Susana Montes Emilio Torres

Abril 2011

Pelayo Izquierdo Garc a Unidad de Consultor Estad a stica Universidad de Oviedo E.U. Jovellanos - Campus de Viesques izquierdo@spi.uniovi.es

Susana Montes Rodr guez Departamento Estad stica e Investigacin Operativa y Didctica de la Matemtica o a a Universidad de Oviedo E.U.I.T. Industrial - Campus de Viesques montes@uniovi.es

Emilio Torres Manzanera Departamento de Estad stica e Investigacin Operativa y Didctica de la Matemtica o a a Universidad de Oviedo E.U. Jovellanos - Campus de Viesques torres@uniovi.es

2010 Unidad de Consultor Estad a stica, Universidad Oviedo. Se concede permiso para copiar, distribuir o modicar este documento bajo los trminos de e la Licencia de Documentacin Libre de GNU, versin 1.3 o cualquier otra versin posterior o o o publicada por la Free Software Foundation; sin Secciones Invariantes ni Textos de Portada ni Textos de Contraportada. Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

Indice general

Cap tulo 1 Iniciar R-Commander


Antes de profundizar en el conocimiento de la Estad stica, es util empezar motivndose a mediante una interfaz que nos facilite la realizacin de las tareas, al menos de las ms sencillas. o a Para ello, R-Commander presenta una interfaz que, adems de permitirnos interactuar con R a para realizar anlisis estad a sticos bsicos, presenta el cdigo en lenguaje R que corresponde a a o las acciones solicitadas. Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta suciente para todos los anlisis estad a sticos que necesiten abordar. Quienes encuentren R-Commander insuciente, una vez superado el respeto inicial hacia R, podrn manejarse dia rectamente con la consola de R, creando y editando las instrucciones, lo que puede resultar ms a engorroso, pero al mismo tiempo permite un control total sobre los procedimientos que en cada momento se van a aplicar. Segn la version de R y R-Commander que se eligi instalar, hay distintas formas de lanzar u o R-Commander. Si instal R-UCA o R-commander, abriendo Rterm automticamente se inicia o a tambin el R-Commander. Si instal directamente R, o bien R-Excel, siga las instrucciones que e o se indican a continuacin. o Desde la consola de R, seleccione Paquetes y despus Cargar paquete..., tal como se e muestra en la gura ??.

Figura 1.1: Cargar paquetes en R Se visualizar una lista de paquetes; baje hasta encontrar Rcmdr y seleccinelo. Se inicia la a o 2

CAP ITULO 1. INICIAR R-COMMANDER

ventana del R-Commander. Este interface consta de las siguientes partes: barra de mens, barra u de elementos activos (conjuntos de datos y modelos), area de instrucciones, rea de resultados a y rea de mensajes (Fig. ??). a

Figura 1.2: R-Commander Para abrir una base de datos, accedemos al men de Datos (Fig.??) y si deseamos trabajar u con un chero con el formato nativo de R (.rda), escogemos la opcin Cargar conjunto de o datos (Fig. ??).

Figura 1.3: Men de datos. u

Figura 1.4: Cargar datos El programa R y el paquete R-Commander no slo permiten crear y trabajar sobre datos o con formato nativo, sino que importan cheros provenientes de otros programas: texto puro (en chero, portapapeles o direccin URL), SPSS, Minitab, STATA, Excel y Access. o Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

Cap tulo 2 Conceptos bsicos a


2.1. Anlisis descriptivo a

La estad stica descriptiva es la parte de la Estad stica que se dedica a resumir los datos. Este anlisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obtenidas tras a el anlisis descriptivo proporcionan un poder de inferencia m a nimo, pero facilitan la utilizacin o de tcnicas ms avanzadas (inferencia, contrastes). Una vez depurados los posibles errores de e a los datos, sintetizamos la informacin mediante tablas, grcos y medidas descriptivas. o a Las variables estad sticas se clasican en tres categor nominales, ordinales y numricas. as: e Las variables nominales clasican segn modalidades, atributos o niveles, como por ejemplo el u estado civil, grupo sangu neo, etc. Las variables ordinales corresponden a otro caso particular de variables no numricas y ocurre cuando existe una relacin de orden entre los atributos, e o como por ejemplo, nivel de estudios (primarios, secundarios, superiores), capacitacin laboral o (baja, media, alta), etc. Las variables numricas cuantican alguna magnitud: velocidad, edad, e tiempo, etc. Las dos primeras se integrarn en las llamadas caracter a sticas cualitativas (factores), mientras que el tercer tipo corresponde a caracter sticas cuantitativas (numricas). Dentro e de las cuantitativas tambin se pueden hacer dos grupos: discretas y continuas. Una variable e discreta es aquella que entre dos valores posibles de la variable, siempre existe uno que no puede ser un valor posible de la variable. Por ejemplo, el nmero de hijos de una familia, puesto que u pueden ser 3 o 4, pero no pueden ser 3 5. Otros ejemplos de variables discretas son el nmero u de cilindros de un coche, el nmero de aver en una hora, etc. Por otro lado, se dice que una u as variable numrica es continua si entre cualesquiera dos valores posibles de la variable, siempre e existe un valor posible. Una variable continua ser la estatura de una persona, puesto que al a poder ser 1 70 o 1 75 metros, en potencia al menos podr tomar cualquier valor intermedio a como 1 73 metros, por ejemplo. Longitudes, pesos, temperaturas, etc. son otros ejemplos de variables continuas. Una vez identicadas, recopiladas y organizadas, las variables se tratarn combinando mea didas estad sticas con representaciones grcas. Conviene seleccionar y mostrar, en cada caso, a aquellas que aportan informacin relevante (cuadro ??). o

2.2.

Variable cualitativa-nominal

Dentro de la base de datos acero aparece la variable averias, que consta de dos modalidades (S No). Por lo tanto, es evidente que es de naturaleza cualitativa y nominal. , 4

CAP ITULO 2. CONCEPTOS BASICOS

Cuadro 2.1: Principales estad sticos de resumen. Tipo de Variable Cualitativa-nominal (sexo, raza,. . . ) Cualitativa-ordinal (nivel de estudios,. . . ) Cuantitativa-discreta (N dias, N errores) Cuantitativa-continua (peso, consumo,. . . )
+

Medidas posicin o Moda Porcentajes Mediana Percentiles Media Percentiles Media Percentiles

Medidas dispersin o

Grcos ms a a habituales Diagrama de barras Diagrama de sectores+ Diagrama de barras Diagrama de sectores+

Desviacin o Diagrama de barras t pica Diagrama de sectores+ Desviacin o t pica Histograma Diagrama de cajas

No se recomienda.

Ejemplo 2.1. Obtenga la moda y los porcentajes de la variable averias. Solucin: Estos estad o sticos se obtienen de la siguiente forma:

y y y

Estad sticos Resmenes u Distribucin de frecuencias... o

Seleccionar la variable averias Aceptar

Los procedimientos anteriores proporcionan el siguiente resultado: > Tabla <- table(acero$averias) > Tabla No S 89 28 > 100 * Tabla/sum(Tabla) No S 76.06838 23.93162 As se ha obtenido el nmero de casos de cada modalidad y el porcentaje que representan , u dentro de la muestra. La moda es el dato que ms se repite; en este caso, la modalidad No. a Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica # percentages for averias # counts for averias

CAP ITULO 2. CONCEPTOS BASICOS

Ejemplo 2.2. Obtenga el grco de barras de la variable averias. a Solucin: Los grcos de barras se obtienen con la opcin del men Grficas. En particular, o a o u a

y y

Grcas a Grca de barras... a

Seleccionar la variable averias Aceptar

Con esto se obtendr el grco de barras correspondiente. Para modicar las etiquetas de a a los ejes, se podr cambiar los nombres que aparecen en la ventana de instrucciones como an sigue: > barplot(table(acero$averias), xlab = "avera", ylab = "Frecuencia") Esta instruccin realiza el siguiente diagrama de barras: o

2.3.

Cuantitativa-discreta

Como ejemplo de una variable cuantitativa discreta disponemos en la base de datos de la variable naverias. Tal como se coment en el Cuadro ??, para esta variable interesa obtener o su media, su desviacin t o pica y algunos de sus percentiles. Ejemplo 2.3. Calcule la media, desviacin tpica y percentiles de la variable naverias. o Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 2. CONCEPTOS BASICOS

Solucin: Estos valores se obtienen de la siguiente forma: o

y y

Estad sticos Resmenes u Resmenes numricos u e

Seleccionar la variable naverias Aceptar

Las salidas del procedimiento anterior son: > numSummary(acero[,"naverias"], statistics=c("mean", "sd", "quantiles"), + quantiles=c(0,.25,.5,.75,1)) mean sd 0% 25% 50% 75% 100% n 0'6752137 1.292078 0 0 0 0 4 117 Los resultados nos indican que la media es de aproximadamente 0 675 aver por hora, con as una desviacin t o pica de 1 292. El nmero de aver var desde 0 hasta 4, y al menos el 75 % u as a de la observaciones no presentaron aver En total disponemos de 117 observaciones. as. Ejemplo 2.4. Obtenga el grco de barras de la variable naverias. a Solucin: Nos hemos de percatar que al ser una variable numrica, R la considera continua y, o e por tanto, no nos permitir hacer este grco. Debemos pues, crear en primer lugar una nueva a a variable de tipo factor con estos datos.

y y

Datos Modicar variables del conjunto. . . Convertir variable numrica en factor e

Seleccionar la variable naverias Utilizar nmeros u Escribir un nombre para la nueva variable Aceptar

y y

> acero$naver <- as.factor(acero$naverias) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

CAP ITULO 2. CONCEPTOS BASICOS

Realizamos con esta variable el grco como en el Ejemplo ??: a

Grcas a Grca de barras a

con lo que obtenemos un grco similar al siguiente: a

2.4.

Cuantitativa-continua

Dentro de la base de datos acero escogemos la variable consumo como ejemplo de variable cuantitativa continua. Para las variables continuas, tal como vimos en el Cuadro ??, los descriptivos que nos interesa obtener son la media, la desviacin t o pica y los percentiles (en particular los cuartiles). Ejemplo 2.5. Calcule los principales estadsticos descriptivos de la variable consumo. Solucin: Estos valores se consiguen mediante el siguiente procedimiento: o

y y

Estad sticos Resmenes u Resmenes numricos u e

con el que se obtiene: > numSummary(acero[,"consumo"], statistics = c("mean", "sd", "quantiles"), + quantiles=c(0,.25,.5,.75,1)) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 2. CONCEPTOS BASICOS

mean sd 0% 25% 50% 75% 100% n 139.4565 55.18525 17.5 99.09 140'07 182.48 290'72 117 Con esta informacin podemos concluir que el consumo medio se sita en torno a 139 46 Meo u gavatios/hora, con una desviacin t o pica de 55 19 Mg./hora. El consumo m nimo desciende hasta 17 5 y el mximo asciende hasta 290 72. El 25 % de los casos analizados consumen 99 09 a megavatios o menos, el 50 % menos de 140 07 y un 25 % consume ms de 182 48. a Ejemplo 2.6. Obtenga el histograma y el diagrama de cajas de la variable consumo. Solucin: Vamos a realizar este ejemplo en dos etapas: o 1. Para representar el histograma, seguimos los pasos que se detallan a continuacin: o

Grcas a Histograma. . .

Seleccionar la variable consumo Aceptar

se obtiene el siguiente histograma para la variable consumo: Hist(acero$consumo, scale = "frequency", + breaks="Sturges", col="darkgray")

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

10

CAP ITULO 2. CONCEPTOS BASICOS

2. Para representar el diagrama de cajas, los pasos a seguir son:

Grcas a Diagrama de caja. . .

Seleccionar la variable consumo Aceptar

que dan como resultado: > boxplot(acero$consumo, ylab = "consumo")

A partir de dicho diagrama se observa, por ejemplo, que no existen datos at picos para la variable (consumo) en esta muestra.

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

Cap tulo 3 Contrastes de hiptesis o


3.1. Introduccin o

Los mtodos descriptivos proporcionan una idea de cmo es la muestra. Para obtener cone o clusiones relativas a la poblacin necesitamos utilizar tcnicas de inferencia estad o e stica. Dentro de stas la ms habitual es el contraste de hiptesis. e a o Una hiptesis es una armacin sobre las caracter o o sticas estad sticas de un proceso, por lo que se puede considerar una hiptesis como una conjetura. Por ejemplo: si un tcnico observa o e el consumo de energ durante varias horas, sabr el consumo medio de las horas que observ. a a o Con la ayuda de la inferencia, puede avanzar un paso ms y conjeturar que el consumo medio a de todas las horas de trabajo en esa fbrica es de 120. El proceso cient a co consiste entonces en probar su hiptesis contra una hiptesis alternativa: o o Hiptesis nula H0 : consumo medio = 120 o Hiptesis alternativa H1 : consumo medio = 120 o Un test consiste en un procedimiento estad stico para determinar la validez de una hiptesis o (la hiptesis nula). Si los datos de la muestra resultan poco cre o bles de obtenerse en caso de ser cierta dicha hiptesis, nuestra razn nos obligar a rechazarla. En caso contrario, no hay o o a base suciente para rechazarla. La aceptacin de la hiptesis nula es muy dif si slo se usan o o cil o procedimientos estad sticos. Sin embargo, desde el punto de vista prctico, el no rechazo de una a hiptesis nos llevar a concluir que no hay evidencias signicativas en contra de dicha hiptesis o a o y, por tanto, que puede considerarse admisible. La forma habitual de presentar los resultados de un test de hiptesis es a travs del p-valor o e o nivel cr tico. Simplemente con este nmero se puede concluir si la hiptesis nula es o no u o rechazada a un nivel de signicacin (). El p-valor es el nivel de signicacin menor que o o llevar al rechazo de la hiptesis nula H0 . Una vez que se conoce el p-valor, el responsable de a o tomar las decisiones puede determinar por s mismo en qu medida son signicativos los datos e sin que se le imponga formalmente un nivel de signicacin predeterminado. Una vez conocido o el valor del p-valor y jado el nivel de signicacin del contraste, la decisin a tomar se obtiene o o comparando ambos valores, tal como puede verse en el cuadro ??. La decisin es el ultimo paso de un contraste de hiptesis. Un esquema de todo el proceso o o asociado a un contraste puede verse en la gura ??. En dicho esquema se pone de maniesto el hecho de que los niveles de signicacin habituales son siempre menores de 0 1, destacando los o valores 0 1, 0 05 y 0 01. De entre todos ellos, el nivel 0 05 predomina con claridad. 11

12

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Cuadro 3.1: Regla de decisin. o REGLA DE DECISION P-valor < = Rechazo H0 P-valor = No rechazo H0 Generalmente se considera = 0 05.

Figura 3.1: Pasos en un contraste de hiptesis. o Como ejemplos de test de hiptesis, vamos a considerar algunos de los ms habituales en la o a prctica. Estos aparecen descritos a continuacin, junto con un ejemplo de pregunta que ser a o a contestada mediante dicho test. Promedio de una poblacin: El consumo medio es menor de 140? o Comparacin de promedios: El consumo medio es mayor cuando hubo aver o as? Proporcin poblacional: El porcentaje de horas con aver es mayor del 10 %? o as Comparacin de proporciones: El porcentaje de horas con aver es mayor cuando o as estaba encendido el sistema que cuando no? Desviacin t o pica: La variabilidad del consumo es menor de 50? Comparacin de desviaciones t o picas: La variabilidad del consumo es la misma durante las horas que hubo aver y durante las que no? as Ejemplos de la mayor de los contrastes anteriores sern analizados en detalle en las Seca a ciones ?? a ??.

3.2.

Tests para el promedio

Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el contraste adecuado en el caso en estudio, establecer quines son H0 y H1 en ese contraste e e interpretar el p-valor. En un test sobre el valor promedio de la poblacin, debemos tener en o cuenta si los datos siguen aproximadamente una distribucin normal o no, as como el tamao o n de la muestra, y segn sea el resultado, decidir qu contraste realizamos (cuadro ??). u e Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

13

Cuadro 3.2: Contrastes para el promedio.


Contraste para la Media () Mediana (M e) Distribucin aproximadamente o normal o n grande? S No Tipo de test Test t para una muestra Test de Wilcoxon para una muestra

Si la muestra dispone de un suciente nmero de datos (habitualmente se exige que tenga u al menos 30), se puede utilizar el test t para una muestra para realizar contrastes acerca de la media de la poblacin. En caso contrario, es necesario que se pueda admitir la normalidad de o los datos para realizar dicho test. Si no fuera normal, se utilizar el test de Wilcoxon para una a muestra. En los contrastes de normalidad de los datos utilizaremos del test de Shapiro-Wilk. Para este test las hiptesis a contrastar son: o TEST DE BONDAD DE AJUSTE A LA NORMAL H0 : los datos provienen de una poblacin normal o H1 : los datos NO provienen de una poblacin normal o REGLA DE DECISION P-valor < = Rechazo H0 (la distribucin no es normal) o P-valor = No rechazo H0 (se puede admitir la normalidad) Generalmente se considera = 0 05 . En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener 117 datos ya podemos utilizar directamente el test t para una muestra. As pues, estamos en condiciones de realizar un contraste para la media, comparndola con el valor 120. El test a adecuado en este caso es el test t para una muestra, cuyas hiptesis a contrastar (H0 y H1 ) o pueden ser de tres tipos: H0 : = 120 H0 : 120 H0 : 120 H1 : = 120 H1 : < 120 H1 : > 120 Ejemplo 3.1. Es el consumo medio igual a 120? Solucin: En este caso se tiene: o H0 : el consumo medio es de 120 H1 : el consumo medio no es de 120

y y

Estad sticos Medias Test t para una muestra... Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

14

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Seleccionar la variable consumo Ponemos 120 en la hiptesis nula o Aceptar

y y

Las salidas de este test son: > t.test(acero$consumo, mu = 120, conf.level = 0.95) One Sample t-test data: acero$consumo t = 3.8136, df = 116, p-value = 0.0002210 alternative hypothesis: true mean is not equal to 120 95 percent confidence interval: 129.3516 149.5614 sample estimates: mean of x 139.4565 Puesto que la adaptacin de la regla de decisin a este test en particular ser o o a: P-valor < = Rechazo H0 (consumo medio = 120) P-valor = No rechazo H0 (consumo medio = 120) Generalmente se considera = 0 05.

simplemente debemos considerar el valor del p-valor asociado a este contraste para esta muestra y, en base a l, tomar la decisin correspondiente. Puesto que hemos obtenido que el p-valor es e o 0 0002210, ste es menor que = 0 05, por lo que la decisin es rechazar la hiptesis nula (H0 ). e o o Como conclusin podemos decir que la media poblacional es distinta de 120. o El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hiptesis alternativa o es que el valor del parmetro es distinto de un nmero. Cuando la alternativa lleve el s a u mbolo menor (<) o mayor (>), en lugar del s mbolo distinto (=, se denomina test unilateral. En ejemplo de dicho tipo de test unilateral puede verse a continuacin. o Ejemplo 3.2. El consumo medio es menor de 140? Solucin: En este caso, tal como comentamos en el ejemplo anterior, se verican las hiptesis o o para utilizar el test t para una muestra. As el test adecuado para contestar a esta pregunta , contrastar las siguientes hiptesis: a o H0 : el consumo medio es mayor o igual que 140 H1 : el consumo medio es menor de 140 Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

15

y ser realizado tal como sigue: a

y y

Estad sticos Medias Test t para una muestra

Seleccionar la variable consumo Ponemos 140 en la hiptesis nula o Marcar Media poblacional < mu0 Aceptar

y y

Los resultados obtenidos son: > t.test(acero$consumo, alternative = "less", mu = 140, conf.level = 0.95) One Sample t-test data: acero$consumo t = -0.1065, df = 116, p-value = 0.4577 alternative hypothesis: true mean is less than 140 95 percent confidence interval: -Inf 147.9159 sample estimates: mean of x 139.4565 Como el p-valor (0 4577) supera los valores habituales de , no se rechaza la hiptesis nula, o por lo que podemos concluir que estos datos no aportan evidencias sucientes de que la media sea menor de 140. Vamos por ultimo a analizar el caso de una variable en la que no se den las condiciones para aplicar el test t para una muestra. Ejemplo 3.3. Durante los das que hubo averas, la produccin promedio de galvanizado 1 se o sita en menos de 400 toneladas? u Solucin: Comenzaremos seleccionando los datos para quedarnos slo con aquellos que correso o ponden a d en los que hubo aver Para ello podemos seguir los siguientes pasos: as as.

y y

Datos Conjunto de datos activo Filtrar el conjunto de datos...

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

16

CAP ITULO 3. CONTRASTES DE HIPOTESIS

y y y y

Seleccionar averias Expresin de. . . averias==S o Nombre del nuevo. . . acero2 Aceptar

Datos Conjunto de datos activo Actualizar conjunto de datos activo As disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos , a las horas en las que hubo aver Como son 28 datos, tal como vimos en el ejemplo ??, no a. podemos aplicar sin ms el test t para la media y debemos comprobar si se cumple la hiptesis a o de normalidad. Realizaremos pues el test de normalidad a la variable pr.galv1.

y y y

Estad sticos Resmenes u Test de normalidad de Shapiro. . .

Seleccionar pr.galv1 Aceptar

Los resultados de dicho test son: > shapiro.test(acero2$pr.galv1) Shapiro-Wilk normality test data: acero2$pr.galv1 W = 0.8805, p-value = 0.004117 Como el p-valor (0 004118) es menor que = 0 05, se rechaza la hiptesis nula, por lo tanto o no hay normalidad. Cmo podemos hacer para contrastar la hiptesis sobre el valor promedio de la produccin o o o de galvanizado 1 en las horas con aver as? Al no haber normalidad y disponer de pocos datos, debemos realizar el test de Wilcoxon para una muestra. Para ste los distintos tipos de e contrastes de hiptesis para la mediana son: o Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

17

H0 : M e = 400 H0 : M e 400 H1 : M e = 400 H1 : M e < 400 two.sided less La hiptesis que nos interesa es: o

H0 : M e 400 H1 : M e > 400 greater

La produccin promedio es menor de 400? o H0 : M e 400 (la produccin promedio es alta) o H1 : M e < 400 (la produccin promedio es baja) o Para realizar este test escribimos en la ventana de instrucciones lo que sigue: wilcox.test(acero2$PR.GALV1,alternative="less",mu=400) y pinchamos en Ejecutar.

Figura 3.2: Test de Wilcox para una muestra Lo que da como resultado > wilcox.test(acero2$pr.galv1, alternative = "less", mu = 400) Wilcoxon signed rank test with continuity correction data: acero2$pr.galv1 V = 277, p-value = 0.9552 alternative hypothesis: true location is less than 400 Como el p-valor (0 9552) es mayor que el nivel de signicacin , no se rechaza la hiptesis o o nula, por lo tanto podemos suponer que la produccin es alta, es decir mayor o igual de 400. o

3.3.

Comparacin de dos promedios o

La comparacin de dos promedios consiste en comprobar si el promedio de una variable var o a segn determinadas caracter u sticas. Dependiendo de la situacin existen diversas posibilidades o de contrastes. El cuadro ?? recoge los principales tests aplicados habitualmente. Ejemplo 3.4. Se puede armar que cuando se producen averas el consumo de energ se a incrementa? Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

18

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Cuadro 3.3: Contrastes para igualdad de promedios.


Distribuciones aproximadamente normales o tamaos n muestrales grandes? S S No No

Contrastes para comparar dos Medias Medias Medianas Medianas

Independientes?

Tipo de test

S No S No

Test Test Test Test

t para muestras independientes t para datos relacionados de Wilcoxon para dos muestras de Wilcoxon para muestras pareadas

Solucin: Lo primero de todo ser volver a activar la base de datos acero. Para ello, pinchamos o a a la derecha de Conjunto de datos:, en el botn que pone acero2 y seleccionamos de nuevo o la base de datos acero. Una vez hecho esto, vamos a vericar la normalidad del consumo para cada uno de las dos situaciones (cuando haya aver y cuando no) mediante el test de Shapiro-Wilk. Para esto as ponemos en la l nea de comandos:

Figura 3.3: Normalidad del consumo segn las aver u as Los resultados de ejecutar ambas l neas de comando son: > shapiro.test(subset(acero, subset = averias == "No")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = averias == "No")$consumo W = 0.9869, p-value = 0.5137 > shapiro.test(subset(acero, subset = averias == "S")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = averias == "S")$consumo W = 0.9644, p-value = 0.4408 Los p-valores correspondientes superan el nivel , por lo que podemos considerar normalidad en ambos casos. Por la naturaleza del problema, es evidente que se puede trabajar con la hiptesis de que las o poblaciones son independientes, con lo cual estamos en condiciones de aplicar el test t para muestras independientes. Ahora bien, a la hora de realizar dicho test es necesario especicar Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

19

si se supone que las varianzas son iguales o no, puesto que el estad stico utilizado al obtener el p-valor y, por tanto, el valor de dicho p-valor, diere segn la opcin elegida. En la seccin u o o ?? se puede ver cmo contrastar la igualdad de varianzas. El contraste para este ejemplo en o particular est realizado en el Ejemplo ??, donde se obtiene que no hay evidencias en contra de a suponer que las varianzas de ambas poblaciones sean iguales. En estas circunstancias, aplicamos el test t para muestras independientes, suponiendo las varianzas iguales. Quines son H0 y H1 en ese contraste? e Dependiendo de la hiptesis alternativa considerada, los tres contrastes que podemos realizar o con el test t para muestras independientes para comparar las medias de dos poblaciones son: H0 : 1 = 2 H1 : 1 = 2 H0 : 1 2 H1 : 1 < 2 H0 : 1 2 H1 : 1 > 2

Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase 1 con media 1 ) y como segunda clase (clase 2 con media 2 ). Por defecto, el programa considera el orden alfabtico, es decir, si como en este caso las clases son No y S, la primera clase e corresponde al no (sin aver y la segunda al s (con aver Que consuma ms con aver se as a). a a traducir por lo tanto en 2 > 1 , por lo que para este ejemplo vamos a considerar el contraste: a H0 : 1 2 (consumo menor o igual con aver a) H1 : 1 < 2 (consumo mayor con aver a) y para calcularlo procedemos de la siguiente forma:

y y

Estad sticos Medias Test t para muestras independientes

Seleccionar las variables averias y consumo Marcar: Diferencias < 0 Marcar: Varianzas iguales Aceptar

y y

Los resultados de estos pasos son: > t.test(consumo ~ averias, alternative = "less", conf.level = 0.95, + var.equal = TRUE, data = acero) Two Sample t-test data: consumo by averias t = -0.9423, df = 115, p-value = 0.174 Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

20

CAP ITULO 3. CONTRASTES DE HIPOTESIS

alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf 8.564113 sample estimates: mean in group No mean in group S 136.7585 148.0321 Como el p-valor (0 174) es mayor que el nivel de signicacin , no se rechaza la hiptesis o o nula. As pues, los datos no aportan evidencias de que el consumo promedio sea mayor cuando haya aver a. Qu ocurrir si las poblaciones no fueran independientes? e a En tal caso, si suponemos normalidad, realizamos el test t para muestras relacionadas. Se elige la siguiente opcin del men: o u

y y

Estad sticos Medias Test t para muestras relacionadas Ser este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y despus de a e aplicarle un procedimiento en el horno, el nivel de glbulos rojos de una persona antes y despus o e de recibir un determinado tratamiento o la produccin de galvanizado tipo 1 y la produccin o o de galvanizado tipo 2. Cuando las poblaciones no son normales y no tienen suciente nmero de datos (habitualu mente se suele exigir al menos 30) se realiza el test de Wilcoxon para dos muestras si las poblaciones son independientes, o el test de Wilcoxon para muestras pareadas si tal independencia no es supuesta. Realicemos unos ejemplos para aclarar tales situaciones. Ejemplo 3.5. Estudie el comportamiento de la produccin de galvanizado 1 en funcin de las o o averas. Solucin: Aunque ya sabemos que no podemos asegurar que la produccin de galvanizado 1 o o siga una distribucin normal, vamos a actuar como si an no conocisemos dicha informacin. o u e o As determinamos el tipo de test ms apropiado. Para ello aplicamos el test de normalidad de , a Shapiro-Wilk a ambas poblaciones:

Figura 3.4: Test Shapiro de galvanizado por averias y los resultados de los mismos se detallan a continuacin: o Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

21

> shapiro.test(subset(acero, subset = averias == "No")$pr.galv1) Shapiro-Wilk normality test data: subset(acero, subset = averias == "No")$pr.galv1 W = 0.8563, p-value = 8.081e-08 > shapiro.test(subset(acero, subset = averias == "S")$pr.galv1) Shapiro-Wilk normality test data: subset(acero, subset = averias == "S")$pr.galv1 W = 0.8805, p-value = 0.004117 A la vista de los resultados (ambos p-valores son menores de 0 0042) podemos considerar la no normalidad de los datos y no disponemos de un nmero suciente de datos (para horas con u aver slo contamos con 28 observaciones, tal como vimos en el ejemplo ??). Por tanto vamos a o a abordar este problema realizando un test para muestras sin normalidad, el test de Wilcoxon. En este caso, dada la naturaleza de los datos, se realizar el test de Wilcoxon para muestras a independientes. Para este problema, puesto que el No representa la clase 1 y el S la clase 2, las hiptesis a o contrastar son: H0 : M e1 M e2 (produccin menor o igual con aver o a) H1 : M e1 < M e2 (produccin mayor con aver o a) aunque de nuevo se podr considerar de la misma forma la alternativa de mayor (>) o de a distinto (=), tal como ocurr con el test t de igualdad de medias. a Para realizar el test seguimos los siguientes pasos:

y y

Estad sticos Test no paramtricos e Test de Wilcoxon para dos muestras

y y

Seleccionar las variables averias y pr.galv1 Marcar: Diferencia < 0 Aceptar

Los resultados obtenidos en este caso son: > tapply(acero$consumo, acero$averias, median, na.rm = TRUE) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

22

CAP ITULO 3. CONTRASTES DE HIPOTESIS

No S 136.05 148.56 > wilcox.test(consumo ~ averias, alternative = "less", data = acero) Wilcoxon rank sum test with continuity correction data: consumo by averias W = 1088.5, p-value = 0.1579 alternative hypothesis: true location shift is less than 0 Como el p-valor (0 1579) es mayor que el nivel de signicacin considerado (), no se rechaza o la hiptesis nula y, por tanto, no podemos concluir que la produccin de galvanizado 1 sea mayor o o cuando haya aver as. En el caso de que las muestras no fueran independientes se tendr que haber elegido, si a no se supone normalidad, el test de Wilcoxon para muestras pareadas. Dicho test se realiza eligiendo la siguiente opcin del men: o u

y y
3.4.

Estad sticos Test no paramtricos e Test de Wilcoxon para muestras pareadas

Comparacin de dos varianzas o

Como ya comentamos, un paso previo al contraste t de igualdad de medias es determinar la igualdad de varianzas, lo cual supone la realizacin de un test previo de igualdad de varianzas. o Para este contraste de hiptesis vamos a considerar dos tipos de test, segn la naturaleza de o u los datos, tal como se detalla en el cuadro ?? Cuadro 3.4: Contrastes para igualdad de varianzas.
Contrastes para comparar dos Varianzas Varianzas Normalidad? S No Tipo de test Test F para dos varianzas Test de Levene

En nuestro ejemplo comparamos el consumo con o sin aver y ya hab as amos visto que se pod suponer ambas poblaciones normales. Por lo que realizaremos el test F para dos an varianzas. Quines son H0 y H1 en ese contraste? e Los distintos tipos de contrastes de hiptesis para dos varianzas, segn la hiptesis alternao u o tiva considerada, son: Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

23

2 2 H0 : 1 = 2 2 2 H1 : 1 = 2 two.sided

2 2 H0 : 1 2 2 2 H1 : 1 < 2 less

2 2 H0 : 1 2 2 2 H1 : 1 > 2 greater

En el contraste de igualdad de medias, la comprobacin previa consiste precisamente en el o primero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente ejemplo. Ejemplo 3.6. Son iguales las varianzas del consumo con o sin averas? Solucin: Las hiptesis para el test son las siguientes. o o
2 2 H0 : 1 = 2 (varianzas iguales) 2 2 H1 : 1 = 2 (varianzas distintas)

Los pasos a seguir para obtener el p-valor asociado a dicho contraste son:

y y

Estad sticos Varianzas Test F para dos varianzas...

y y

Seleccionar las variables averias y consumo Sealar Bilateral n Aceptar

Los resultados que presenta el R al nalizar estos pasos son: > tapply(acero$consumo, acero$averias, var, na.rm = TRUE) No S 3123.748 2802.630 > var.test(consumo ~ averias, alternative = "two.sided", conf.level = 0.95, + data = acero) F test to compare two variances data: consumo by averias F = 1.1146, num df = 88, denom df = 27, p-value = 0.7731 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.5696427 1.9686748 sample estimates: ratio of variances 1.114577 Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

24

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Como el p-valor (0 7731) es mayor que el nivel de signicacin , no se rechaza la hiptesis o o nula y, por tanto, podemos suponer que no existen diferencias signicativas entre las varianzas del consumo con o sin aver (tienen la misma varianza). a Como ya hemos comentado, si quisisemos comparar la varianza de dos poblaciones que e no suponemos normales, se deber realizar el test de Levene. Vamos a ver su funcionamiento a mediante un ejemplo. Ejemplo 3.7. Es homocedstica la produccin de galvanizado 1 (pr.galv1) segn las averas? a o u Solucin: Para la variable pr.galv1 sab o amos que los datos se comportan sin normalidad. En este caso se realiza el test de Levene. Las hiptesis del test son: o
2 2 H0 : 1 = 2 (varianzas iguales) 2 2 H1 : 1 = 2 (varianzas distintas)

La realizacin de este test se lleva acabo como sigue: o

Estad sticos Varianzas Test de Levene

Seleccionar las variables averias y pr.galv1 Aceptar

Los resultados del test de Levene para estos datos son: > levene.test(acero$pr.galv1, acero$averias) No 114634.30 S 91694.27

Levene's Test for Homogeneity of Variance Df F value Pr(>F) group 1 4.1293 0.04445 * 115 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Como el p-valor (0 04445) es menor que se rechaza la hiptesis nula, podemos por tanto o suponer que hay diferencias signicativas entre las varianzas. Ms an, podemos ver que la a u varianza sin aver es de 114634 30 mientras que cuando hay aver la varianza toma el valor a a de 91694 27.

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

25

3.5.

Test para la proporcin o

Es frecuente el inters por saber qu proporcin o porcentaje de individuos de una poblacin, e e o o presentan una caracter stica A, frente a los que no la presentan. Dicha proporcin no ser en o a general conocida, pero se pueden hacer contrastes de hiptesis sobre su valor, en funcin de los o o datos de una muestra. Para la realizacin de dichos tests es necesario un tamao suciente de o n muestra. Habitualmente se exige que dicho tamao (n) sea mayor o igual que 30. n Por ejemplo de aplicacin de dichos tests ser si queremos saber si porcentaje de horas con o a aver es excesivo, considerndose excesivo si el porcentaje es mayor del 10 %. a a Para responder a esta pregunta un contraste de hiptesis adecuado es el test de proporo ciones para una muestra. Vamos a ver un ejemplo de aplicacin de dicho test. o Ejemplo 3.8. Siguiendo con los datos de nuestro ejemplo, puede considerarse que el porcentaje de aver es mayor del 10 %? as Solucin: Tendr o amos en cuenta que p es la primera clase por orden alfabtico, en este caso No. e Plantearse si el porcentaje de horas con aver es mayor del 10 % es lo mismo que plantearse si as el porcentaje de horas sin aver es menor del 90 %. Puesto que los distintos tipos de contrastes as de hiptesis para la proporcin son de la forma: o o H0 : p = 90 % H1 : p = 90 % two.sided las hiptesis a contrastar ser o an: H0 : p 90 % (proporcin razonable de aver o as) H1 : p < 90 % (proporcin excesiva de aver o as) Ahora solo habr que hacer a H0 : p 90 % H0 : p 90 % H1 : p < 90 % H1 : p > 90 % less greater

y y

Estad sticos Proporciones Test de proporciones para una muestra

Seleccionar la variable averias Escribir 0.9 como hiptesis nula o Proporcin de la poblacin < p0 o o Aceptar

y y

Las soluciones de este procedimiento son: > prop.test(rbind(xtabs(~averias, data = acero)), alternative = "less", + p = 0.9, conf.level = 0.95, correct = FALSE) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

26

CAP ITULO 3. CONTRASTES DE HIPOTESIS

1-sample proportions test without continuity correction data: rbind(xtabs(~averias, data = acero)), null probability 0.9 X-squared = 25.2317, df = 1, p-value = 2.542e-07 alternative hypothesis: true p is less than 0.9 95 percent confidence interval: 0.0000000 0.8192062 sample estimates: p 0.7606838 Como el p-valor es tan pequeo (2 542 107 ), se rechaza la hiptesis nula, por lo que n o se concluye que ha habido un porcentaje excesivo de aver En la muestra se ve que dicho as. porcentaje ha sido de alrededor del 24 %. Otra manera de abordar el problema, sobre todo si hubiera ms de 2 clases ser reordenar a a los niveles de factor y poner como primer factor de la variable averias el factor S.

y y

Datos Modicar variables Recodicar niveles de factor

Seleccionar la variable averias Aceptar

Reordenar de la forma deseada Aceptar

Las salidas obtenidas son: > acero$averias <- factor(acero$averias, levels = c("S", "No")) De esta manera las nuevas hiptesis del test sern: o a H0 : p 10 % (proporcin razonable de aver o as) H1 : p > 10 % (proporcin excesiva de aver o as) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

27

En estas condiciones el test se realizar del siguiente modo: a

y y

Estad sticos Proporciones Test de proporciones para una muestra

Seleccionar la variable averias Escribimos 0.1 como hiptesis nula o Proporcin de la poblacin > p0 o o Aceptar

y y

Las salidas obtenidas son: > prop.test(rbind(xtabs(~averias, data = acero)), alternative = "greater", + p = 0.1, conf.level = 0.95, correct = FALSE) 1-sample proportions test without continuity correction data: rbind(xtabs(~averias, data = acero)), null probability 0.1 X-squared = 25.2317, df = 1, p-value = 2.542e-07 alternative hypothesis: true p is greater than 0.1 95 percent confidence interval: 0.1807938 1.0000000 sample estimates: p 0.2393162 Como el p-valor (2 542e 07) (que es el mismo para los dos contrastes) es menor que se rechaza la hiptesis nula y se concluye que la proporcin de aver es excesiva. o o as De nuevo vemos que para estos datos el porcentaje de horas con aver es de aproximadaas mente el 24 %.

3.6.

Comparacin de dos proporciones o

Adems de analizar el comportamiento de una proporcin, se puede querer comparar la a o proporcin de una determinada caracter o stica en dos poblaciones distintas. Al igual que ocurr a en la seccin anterior, el nmero de datos en cada muestra debe ser sucientemente grande o u (habitualmente se exigen al menos 30 datos por muestra). Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

28

CAP ITULO 3. CONTRASTES DE HIPOTESIS

As por ejemplo, para poder determinar si el porcentaje de horas con aver es mayor cuando , a estaba apagado el sistema que cuando no, deber amos plantear un test de proporciones para dos muestras. Los distintos tipos de contrastes de hiptesis en este caso son: o H0 : p1 = p2 H1 : p1 = p2 two.sided H0 : p1 p2 H1 : p1 < p2 less H0 : p1 p2 H1 : p1 > p2 greater

donde p1 representa la proporcin en el primer grupo (por orden alfabtico) y p2 en el segundo. o e Vamos a ver el funcionamiento de este test a travs de un ejemplo concreto. e Ejemplo 3.9. El porcentaje de horas con avera es mayor cuando estaba encendido el sistema que cuando no? Solucin: Hemos de tener en cuenta que p1 es siempre la primera clase por orden alfabtico. o e Como en este caso trabajamos con las modalidades No y S, las hiptesis a contrastar son: o H0 : pN O pSI (igual o mejor con el sistema encendido) H1 : pN O < pSI (peor con el sistema encendido) La obtencin del p-valor asociado a este test se realizar mediante los siguientes pasos en o a R:

y y

Estad sticos Proporciones Test de proporciones para dos muestras...

Seleccionar las variables sistema y averias Marcar: Diferencia < 0 Aceptar

y y

Las salidas de este procedimiento son: > prop.test(xtabs(~sistema + averias, data = acero), alternative = "less", + conf.level = 0.95, correct = FALSE) 2-sample test for equality of proportions without continuity correction data: xtabs(~sistema + averias, data = acero) X-squared = 0.6641, df = 1, p-value = 0.2076 Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

29

alternative hypothesis: less 95 percent confidence interval: -1.000000 0.065007 sample estimates: prop 1 prop 2 0.7288136 0.7931034 Como el p-valor (0 2076) es mayor que no se rechaza la hiptesis nula, no hay evidencias o de que vaya peor con el sistema encendido.

3.7.

Relaciones entre variables

Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma conjunta, si existe una relacin entre ellas y en caso de existir como de fuerte es esa relacin. o o Para contestar a estas preguntas se establece una serie de coecientes: Para estudiar la relacin general, se puede estudiar, entre otros, el coeciente Chio cuadrado de Pearson. Para estudiar la relacin lineal, el ms habitual es el coeciente de correlacin de o a o Pearson. Para seleccionar el contraste ms adecuado a la muestra, tendremos en cuenta la naturaleza a de nuestras variables. Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-Continuas Discretizadas, se utiliza el test Chi-cuadrado de Pearson de independencia. Para variables Cuantitativas-Continuas, se usar el test de correlacin de Pearson. a o Las hiptesis a contrastar en este tipo de problemas son siempre del tipo: o H0 : no existe relacin entre las variables o H1 : s existe relacin entre las variables o donde la relacin ser o no del tipo lineal dependiendo del coeciente utilizado en el contraste. o a As pues, un p-valor claramente menor de 0 05 indicar que existe relacin entre las variables. a o Si es mayor de 0 05, los datos no nos proporcionarn evidencias de dicha relacin. a o Ejemplo 3.10. Existe relacin entre que haya habido o no averas y la lnea utilizada? o Solucin: Como las variables son cualitativas vamos a utilizar el test chi-cuadrado. Para o hacer esto vamos a

y y

Estad sticos Tablas de contingencias Tabla de doble entrada. . .

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

30

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Seleccionar las variables averias y linea Aceptar

Las salidas de este procedimiento son: > xtabs(~averias + linea, data = acero) linea averias A B No 31 28 30 S 8 11 9

> chisq.test(xtabs(~averias + linea, data = acero), correct = FALSE) Pearson's Chi-squared test data: xtabs(~averias + linea, data = acero) X-squared = 0.6573, df = 2, p-value = 0.7199 Como el p-valor (0 7199) es mayor que no se rechaza la hiptesis nula, es decir, no hay o evidencias de que las l neas afecten en que haya o no aver as.

Ejemplo 3.11. Existe relacin entre la produccin de galv1 y de galv2? o o Solucin: Como las variables son cuantitativas continuas, podemos utilizar el test de correo lacin de Pearson, para lo cual haremos: o

y y

Estad sticos Resmenes. . . u Matriz de correlaciones

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

31

Seleccionar las variables pr.galv1 y pr.galv2 Aceptar

Los resultados obtenidos son: > cor.test(acero$pr.galv1, acero$pr.galv2, alternative = "two.sided", + method = "pearson") Pearson's product-moment correlation data: acero$pr.galv1 and acero$pr.galv2 t = 0.5331, df = 115, p-value = 0.595 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.1330859 0.2291146 sample estimates: cor 0.04964655 Como el p-valor (0 595) es mayor que no se rechaza la hiptesis nula. As pues, de nuevo o no hay evidencias de relacin lineal entre las dos producciones (al aumentar una no tiene por o qu aumentar o disminuir signicativamente la otra). e

3.8.

Comparacin de ms de dos promedios o a

El anlisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una a variable cuantitativa. Se trata, por tanto, de una generalizacin del test t para dos muestras o independientes en el caso de diseos con ms de dos factores de agrupacin. Veremos aqu su n a o utilizacin como simple generalizacin de dicho test, aunque volveremos sobre este tema en ms o o a profundidad en los cap tulos ?? y ??. A la variable categrica (nominal u ordinal) que dene los grupos que deseamos comparar, o la llamamos independiente o factor. A la variable cuantitativa (de intervalo o razn) en la que o deseamos comparar los grupos, la llamamos dependiente. Si queremos, por ejemplo, averiguar cul de tres programas distintos de incentivos aumenta de a forma ms ecaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras a aleatorias de ese colectivo y aplicar a cada una de ellas uno de los tres programas. Despus, e podemos medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre ellos. Tendremos una variable independiente categrica (el tipo de programa de incentivos) o Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

32

CAP ITULO 3. CONTRASTES DE HIPOTESIS

cuyos niveles deseamos comparar entre s y una variable dependiente cuantitativa (la medida , del rendimiento), en la cual queremos comparar los tres programas. El ANOVA de un factor permite obtener informacin sobre el resultado de esa comparacin. Es decir, permite concluir o o si los sujetos sometidos a distintos programas dieren de la medida de rendimiento utilizada. La hiptesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales o (las medias de la variable dependiente en cada nivel de la variable independiente) son iguales. Si las medias poblacionales son iguales, eso signica que los grupos no dieren en la variable dependiente y que, en consecuencia, la variable independiente o factor no inuye en la variable dependiente. Lo que habitualmente se conoce como Anlisis de la varianza es una versin paramtrica a o e del test de la F. Para poder aplicarse deben vericarse ciertas condiciones previas (normalidad, independencia y homocedasticidad (igualdad de varianzas)). En caso contrario existen alternativas paramtricas y no paramtricas. e e NORMALIDAD HOMOCEDASTICIDAD TEST RECOMENDADO S S Test de la F NO S Test de Welch o S NO Test de Kruskal Wallis NO S o NO Test de Kruskal Wallis
*No drstico, p-valores del test de normalidad entre 001 y 005. a

Recordar que la normalidad la estudibamos con el test de Shapiro-Wilk, mientras que la a homocedasticidad se puede comprobar utilizando el test de Barlett. En este tipo de tests de igualdad de ms de dos promedios, las hiptesis a contrastar son: a o H0 : promedios iguales H1 : no todos los promedios son iguales Si volvemos a mirar la regla de decisin, dicha decisin en este caso ser o o a: P-valor < P-valor = Rechazo H0 (no todos los promedios son iguales) = No rechazo H0 (los promedios son iguales)

Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar. Ejemplo 3.12. Comparar el consumo promedio para las tres temperaturas. Solucin: Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo o de temperatura, para ello utilizbamos es test de Shapiro-Wilk, que ten como hiptesis: a a o H0 : los datos provienen de una poblacin normal o H1 : los datos NO provienen de una poblacin normal o La forma ms rpida de realizar los tres tests (uno para cada modalidad de la temperatura) a a es escribir en la l nea de comandos: Cuyos resultados son: > shapiro.test(subset(acero, subset = temperatura == "Alta")$consumo) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

33

Figura 3.5: Test de Shapiro-Wilk para el consumo por temperatura Shapiro-Wilk normality test data: subset(acero, subset = temperatura == "Alta")$consumo W = 0.9748, p-value = 0.4112 > shapiro.test(subset(acero, subset = temperatura == "Media")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = temperatura == "Media")$consumo W = 0.9499, p-value = 0.1323 > shapiro.test(subset(acero, subset = temperatura == "Baja")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = temperatura == "Baja")$consumo W = 0.9662, p-value = 0.2993 Los p-valores obtenidos son, respectivamente, 0 4112, 0 1323 y 0 2993, con lo que en todos los casos es sucientemente grande como para no rechazar la hiptesis nula (se puede admitir o la normalidad). Para contrastar la igualdad de varianzas en ms de dos poblaciones, se utiliza el test de a Barlett, que tiene como hiptesis: o H0 : las varianzas son iguales H1 : las varianzas son distintas Para realizar dicho test vamos a:

y y y

Estad sticos Varianzas Test de Bartlett

Seleccionar temperatura y consumo Aceptar

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

34

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Cuyas salidas son: > bartlett.test(consumo ~ temperatura, data = acero) Bartlett test of homogeneity of variances data: consumo by temperatura Bartlett's K-squared = 1.4052, df = 2, p-value = 0.4953 Como el p-valor (0 4953) es mayor que no se rechaza la hiptesis nula, con lo que se o pueden suponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test que realizaremos es el test de la F para la igualdad de medias, es decir, el t pico anlisis de la a varianza de un factor. A este modelo le vamos a llamar Anova1. Los pasos a seguir para obtener el correspondiente p-valor son:

y y

Estad sticos Medias ANOVA de un factor

y y

Introducimos el nombre Anova1 Seleccionar temperatura y consumo Aceptamos

Cuyos resultados son: > Anova1 <- aov(consumo ~ temperatura, data = acero) > summary(Anova1) Df Sum Sq Mean Sq F value Pr(>F) temperatura 2 101567 50783 23.001 4.06e-09 *** Residuals 114 251701 2208 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 .

0.1

> numSummary(acero$consumo , groups=acero$temperatura, statistics=c("mean", + "sd")) mean sd n Alta 109.4409 51.13719 46 Media 138.7297 45.58685 38 Baja 182.1333 42.25437 33 Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

35

Como el p-valor (4 06 109 ) es menor que , se rechaza la hiptesis nula, con lo que se o puede suponer que no todas las medias son iguales. Grcamente podr a amos ver como se comporta cada grupo haciendo los correspondientes diagramas de cajas o grcos de medias. a Comenzaremos con los diagramas de cajas:

Grcas a Diagrama de cajas...

y y

Seleccionar consumo Grca segn:temperatura a u Aceptar

Con lo que se obtiene:

> boxplot(consumo ~ temperatura, ylab = "Consumo", xlab = "Temperatura", + data = acero)

Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un grco ms a a adecuado podr ser el de medias. Para obtenerlo los pasos a seguir son: a Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

36

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Grcas a Grcas de la media a

Seleccionar las variables temperatura y consumo Aceptar

Con el procedimiento anterior se obtendr los grcos de medias para los tres grupos an a de temperatura. Bien modicando las salidas en la ventana de instrucciones o bien tecleando directamente, podemos cambiar las opciones del grco, como por ejemplo las etiquetas de los a ejes o el t tulo del grco. Para ello deber a amos ejecutar la siguiente orden:

Cuyas salidas son:

> plotMeans(acero$consumo, acero$temperatura, error.bars = "conf.int", + level = 0.95, xlab = "Temperatura", ylab = "Consumo", n.label = FALSE, + main = "Distribucin del consumo por temperatura", col = "black", o + barcol = "blue", connect = TRUE) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

37

Si se rechaza la hiptesis nula, es decir, si se concluye que las medias no son todas iguales, o no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendr media a superior a la otra, sino que ahora habr que evaluar las relaciones entre las distintas poblaciones. a Existen una gran cantidad de test que realizan comparaciones mltiples. Cabe destacar, por su u uso ms extendido, Duncan, Newman-Keuls, Bonferroni, Sche y HSD de Tukey. a e Para realizar esta comparacin solo hay que marcar la casilla: Comparacin dos a dos de o o las medias, tal como puede verse a continuacin: o

y y y y

Estad sticos Medias ANOVA de un factor

Introducimos el nombre Anova1 Seleccionanos temperatura y consumo Comparacin dos a dos de las medias o Aceptamos

Cuyas salidas son: > comparacion <- glht(Anova1, linfct = mcp(temperatura = "Tukey")) > summary(comparacion) Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

38

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Fit: aov(formula = consumo ~ temperatura, data = acero) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) B - A == 0 72.69 10.72 6.781 <0.001 *** M - A == 0 29.29 10.30 2.843 0.0146 * M - B == 0 -43.40 11.18 -3.882 <0.001 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . (Adjusted p values reported -- single-step method)

0.1

Simultaneous Confidence Intervals Multiple Comparisons of Means: Tukey Contrasts

Fit: aov(formula = consumo ~ temperatura, data = acero) Quantile = 2.3738 95% family-wise confidence level

Linear Hypotheses: Estimate lwr upr Media - Alta == 0 72.6925 47.2471 98.1378 Baja - Alta == 0 29.2889 4.8377 53.7400 Baja - Media == 0 -43.4036 -69.9442 -16.8630

> plot(comparacion) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

39

Para aadir la l n nea vertical tenemos que poner en la l nea de comandos:

tal como puede verse a continuacin: o abline(v = 0, col = "red") y ejecutar la l nea de comando. A la vista del grco podemos concluir que el consumo a temperatura alta es mayor que a a temperatura media o baja y el consumo a temperatura media es signicativamente mayor que el consumo a temperatura baja.

Ejemplo 3.13. Comparar el consumo promedio para las tres lneas. Solucin: Al igual que antes veamos si los datos estn normalizados y hay homocedasticidad. o a Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo tenemos que implementar por comandos, para ello escribimos Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

40

CAP ITULO 3. CONTRASTES DE HIPOTESIS

y obtenemos: > shapiro.test(subset(acero, subset = linea == "A")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = linea == "A")$consumo W = 0.9597, p-value = 0.1738 > shapiro.test(subset(acero, subset = linea == "B")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = linea == "B")$consumo W = 0.9485, p-value = 0.07302 > shapiro.test(subset(acero, subset = linea == "C")$consumo) Shapiro-Wilk normality test data: subset(acero, subset = linea == "C")$consumo W = 0.9887, p-value = 0.9584 Para los datos de la l nea A el p-valor es 0 1738, para los de la l nea B es 0 07302 y para los de la C es 0 9584. En los tres casos sucientemente grande como para que no se rechace la hiptesis nula (se puede admitir la normalidad). o La homocedasticidad la estudiamos por medio del test de Bartlett:

y y

Estad sticos Varianzas Test de Bartlett

yAceptar

Seleccionar las variables linea y consumo

Los resultados obtenidos son: Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

41

> tapply(acero$consumo, acero$linea, var, na.rm = TRUE) A B C 1574.079 3559.603 2239.063 > bartlett.test(consumo ~ linea, data = acero) Bartlett test of homogeneity of variances data: consumo by linea Bartlett's K-squared = 6.3161, df = 2, p-value = 0.04251 Dado que el p-valor (0 04251) es menor que , se rechaza la hiptesis nula al nivel 0 05, con o lo que no pueden suponerse las varianzas iguales. En este caso, como no hay homocedasticidad, realizaremos el test de Kruskal-Wallis, donde las hiptesis a contrastar son: o H0 : promedios iguales para A, B y C H1 : no todas los promedios son iguales Para realizar el test hacemos:

y y y

Estad sticos Test no paramtricos e Test de Kruskal-Wallis

Seleccionar las variables linea y consumo Aceptar

Obteniendo los siguientes resultados: > kruskal.test(consumo ~ linea, data = acero) Kruskal-Wallis rank sum test data: consumo by linea Kruskal-Wallis chi-squared = 26.5836, df = 2, p-value = 1.688e-06 Como el p-valor (1 688 106 ) es menor que se rechaza la hiptesis nula, no todas las o medias son iguales. Grcamente lo podemos ver mediante diagramas de cajas: a

Grcas a Diagrama de cajas

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

42

CAP ITULO 3. CONTRASTES DE HIPOTESIS

y y

Seleccionar consumo Grca segn:linea a u Aceptar

Bien tecleando directamente el cdigo o bien modicando las salidas del proceso anterior se o pueden hacer modicaciones en el grco. As mediante la orden por comandos a ,

obtenemos el siguiente diagrama de cajas: > boxplot(consumo~linea, ylab="consumo", xlab="linea", data=acero)

Aunque en este caso ser menos aconsejable, tambin podr a e amos hacer un grco de medias. a Los pasos a seguir son: Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 3. CONTRASTES DE HIPOTESIS

43

Grcas a Grcas de la media a

Seleccionar las variables linea y consumo Aceptar

Con el procedimiento anterior se obtendr el correspondiente grco de medias. No obsa a tante, vamos a hacer modicaciones en la ventana de instrucciones a n de especicar ciertas opciones del grco. As ejecutaremos la siguiente orden de comandos: a ,

Dicha ejecucin da lugar a las siguientes salidas: o > plotmeans(acero$consumo ~ acero$linea, error.bars = "conf.int", + level = 0.95, xlab = "Linea", ylab = "Consumo", n.label = FALSE, + main = "Distribucin del consumo por linea", col = "black", o + barcol = "blue", connect = TRUE) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

44

CAP ITULO 3. CONTRASTES DE HIPOTESIS

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

Cap tulo 4 Regresin lineal o


4.1. Modelizacin estad o stica

Si se sospecha de la existencia de una relacin entre diversas variables o magnitudes (por o ejemplo, la inuencia de la experiencia profesional de los trabajadores en sus respectivos sueldos, la estatura en el peso de las personas, etc.) surge de forma natural plantearse cmo formalizar o esa relacin y si puede extrapolarse a situaciones ms generales. o a El modelado estad stico obtiene un conjunto de modelos que se ajustan a los datos disponibles de una forma razonable. En general, los modelos ms sencillos buscan explicar la variaa bilidad de una magnitud Y , denominada variable dependiente, en funcin de otras variables, o X1 , X2 , . . . , Xk , llamadas variables independientes. No siempre resulta fcil determinar cul es la variable dependiente y cules intervienen como a a a independientes. La inuencia o relacin causa-efecto depende del planteamiento del problema o y su concrecin y formalizacin corresponden al investigador que disea el experimento. o o n Las tcnicas estad e sticas disponibles abarcan una gran variedad de situaciones y de nuevo concierne al responsable del estudio seleccionar el procedimiento ms correcto para modelar los a datos. Sin ser exhaustivos, el Cuadro ?? detalla los modelos ms habituales. a La principal regla para realizar el modelado consiste en asumir que el resultado obtenido siempre ser mejorable. El modelo ha de adaptarse a los datos y evitar la tentacin de que a o los datos casen con un determinado modelo. De principio, un buen ajuste ha de explicar la mayor parte de la variabilidad y simplicar al mximo las relaciones entre las variables. No a encontraremos un unico modelo, sino un conjunto de soluciones que se amoldan razonablemente

Cuadro 4.1: Principales modelos estad sticos segn la naturaleza de las variables. u Variable respuesta Variables independientes Continua Todas son continuas: regresin normal o Todas son categricas: anlisis de la varianza o a Ambos tipos: anlisis de la covarianza a Regresin log o stica Modelos log-lineales Regresin log o stica binaria Anlisis de supervivencia a

Proporcin o Conteo Binarias Tiempo de muerte

45

46

CAP ITULO 4. REGRESION LINEAL

bien a los datos. El principio de parsimonia (la navaja de Ockham) induce a optar por un modelo sencillo en vez de uno complicado. Dado un conjunto de posibles explicaciones igualmente buenas, la ms a sencilla se convierte en la mejor; cuantos menos parmetros intervengan en el modelo, relaciones a lineales o con pocos factores sealan pistas que orientan nuestra bsqueda. Sin embargo, no n u exageremos en la sencillez del modelo. Tambin existe la navaja de Einstein: A model should be e as simple as possible. But not simpler.

4.2.

Modelo de regresin lineal simple o

El principio de parsimonia indica que el modelo de regresin lineal se convierte en el primer o candidato para explicar la relacin entre las variables. En este ejemplo, deseamos estudiar el o consumo de energ de la fbrica: la variable dependiente (Y ) es el consumo, mientras que el a a resto de variables disponibles comprenden el conjunto de variables independientes. Es decir, deseamos encontrar un modelo que cuantique el consumo energtico a partir de las diferentes e producciones. La forma ms facil de comenzar consiste en realizar representaciones grcas. a a Ejemplo 4.1. Realice un diagrama de dispersin de la variable consumo con las variables de o produccin. o Solucin: Dibujamos una matriz con los diagramas de dispersin: o o

Grcas a Matriz de diagrama de dispersin o

Seleccionamos consumo, pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc. Aceptar

> scatterplot.matrix(~consumo + pr.ca + pr.cc + pr.galv1 + pr.galv2 + + pr.pint + pr.tbc, reg.line = lm, smooth = TRUE, span = 0.5, + diagonal = "density", data = acero) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

47

De los diferentes grcos que aparecen, los ms ajustados a nuestra hiptesis de trabajo se a a o encuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al eje de ordenadas, mientras que las independientes, las diferentes producciones, se representan en el eje de abscisas. Qu nube de punto de la primera la muestra un patrn ms claro de relacin? Si bien e o a o no siempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia entre el consumo energ y la produccin del tren de bandas en caliente (pr.tbc). a o

Despus de realizar una representacin grca, procedemos a cuanticar la relacin lineal e o a o entre las variables.

Ejemplo 4.2. Calcule los coecientes de correlacin lineal del consumo con el resto de produco ciones.

Solucin: El coeciente de correlacin lineal var de 1 a 1. Cuanto mayor sea en valor absoo o a luto, ms intensidad existe en la relacin. a o

y y

Estad sticos Resmenes u Matriz de correlaciones

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

48

CAP ITULO 4. REGRESION LINEAL

Seleccionamos consumo, pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc. Coeciente de Pearson Aceptar

y y

> cor(acero[, c("consumo", "pr.ca", "pr.cc", "pr.galv1", "pr.galv2", + "pr.pint", "pr.tbc")], use = "complete.obs") consumo pr.ca pr.cc pr.galv1 pr.galv2 pr.pin 1.00000000 -0.04462924 0.3853352 0.40126392 0.24073916 0.193584920 -0.04462924 1.00000000 -0.1907847 0.08285971 -0.08530484 -0.027095106 0.38533520 -0.19078475 1.0000000 0.30011090 0.07108381 0.268146068 0.40126392 0.08285971 0.3001109 1.00000000 0.04964655 0.300788576 0.24073916 -0.08530484 0.0710838 0.04964655 1.00000000 0.072855628 0.19358492 -0.02709511 0.2681461 0.30078858 0.07285563 1.000000000 0.74329458 -0.03999992 0.1539631 0.06614846 0.10224749 0.003463181 pr.tbc 0.743294582 -0.039999921 0.153963066 0.066148462 0.102247494 0.003463181 1.000000000

consumo pr.ca pr.cc pr.galv1 pr.galv2 pr.pint pr.tbc consumo pr.ca pr.cc pr.galv1 pr.galv2 pr.pint pr.tbc

La primera columna muestra la correlacin de la variable consumo con el resto de las proo ducciones. La relacin ms intensa se produce entre el consumo y la pr.tbc. o a

Investigamos con ms detalle la relacin entre consumo y la pr.tbc. De nuevo, empezamos a o con un grco. a Ejemplo 4.3. Dibuje el diagrama de dispersin del consumo y la pr.tbc. o Solucin: El grco se consigue de la siguiente forma: o a

Grcas a Matriz de diagrama de dispersin o

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

49

Seleccionamos: consumo y pr.tbc Marcamos: Identicar Observaciones Aceptar

y y

El eje de abscisas muestra la produccin de TBC y el de ordenadas el consumo de energ Se o a. observa una relacin creciente entre ambas magnitudes. En el grco aparecen dos l o a neas. Una es la recta de regresin (el modelo ms simple) y la otra la l o a nea de regresin no paramtrica o e (el mejor ajuste posible). Si ambas l neas coinciden, el ajuste lineal resulta adecuado. En este caso la l nea recta no sigue muy bien el comportamiento de la l nea no paramtrica, por lo que e el modelo lineal no ajustar bien los datos. a Adems en el grco se muestran dos posibles observaciones at a a picas, la 107 y la 88.

Si bien el grco sugiere que el modelo lineal no casa bien con los datos, procedemos a a construir un modelo lineal que cuantica la relacin entre el consumo y la pr.tbc. o Consumo de energ = a + b Produccin de TBC a o La formulacin matemtica de este modelo determina que el consumo slo depende de la proo a o duccin de TBC y de ninguna otra produccin. Este modelo a priori parece demasiado sencillo, o o ya que ignora el resto de informacin disponible. o Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

50

CAP ITULO 4. REGRESION LINEAL

Ejemplo 4.4. Estime el consumo a partir de la produccin de TBC. Llame a este modelo o Modelo1. Solucin: Procedemos con el modelo lineal, ya que su sencillez favorece la interpretacin de los o o coecientes.

y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: Modelo1 Formula del. . . consumopr.tbc Aceptar

y y

> Modelo1 <- lm(consumo ~ pr.tbc, data = acero) > summary(Modelo1) Call: lm(formula = consumo ~ pr.tbc, data = acero) Residuals: Min 1Q -94.9517 -23.4839

Median -0.7312

3Q Max 21.4330 133.5283

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 36.075095 9.328889 3.867 0.000183 *** pr.tbc 0.013661 0.001146 11.915 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 37.08 on 115 degrees of freedom Multiple R-squared: 0.5525, Adjusted R-squared: 0.5486 F-statistic: 142 on 1 and 115 DF, p-value: < 2.2e-16 La columna de Estimate proporciona los valores de los coecientes. consumo = 36.075281 + 0.013661 pr.tbc (4.1)

Si deseamos incorporar la variabilidad de esos coecientes, incorporamos en la formulacin sus o desviaciones t picas consumo = 36,075( s.e. 9,328) + 0,014( s.e. 0,001) pr.tbc Unidad de Consultora Estadstica (4.2)

Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

51

Todos los coecientes del modelo son signicativos (distintos de 0) ya que sus p-valor (Pr(>|t|)) minoran a 0,05. El R cuadrado, R2 , representa la fraccin de la variacin de la variable dependiente explicada o o por la regresin. El 54.86 % del consumo de energ se debe a la produccin del tren de bandas o a o 2 en caliente. Hemos de mencionar que el R no es un buen criterio para comparar modelos (el AIC es preferible). Respecto a los grados de libertad (DF, degree of freedom), cuantos ms parmetros incorpore a a el modelo, menos grados de libertad dispone. El principio de parsimonia prioriza los modelos con ms grados de libertad. a Despus de estimar el modelo, hemos de vericar una serie de requisitos. Si cumple con e todos ellos, el modelo ajusta correctamente los datos. Si no los verica, hemos de plantear otra formulacin. Destacan los siguientes condiciones: homocedasticidad (varianza constante) de los o errores, normalidad de los errores, ausencia de observaciones at picas, relacin lineal y ausencia o de colinealidad. Ejemplo 4.5. Determine si los residuos del modelo Modelo1 son homocedsticos. a Solucin: Para estudiar la homocedasticidad de un modelo usamos el test de Breusch-Pagan. o

y y

Modelos Diagnsticos numricos o e Test de Breusch-Pagan. . .

Aceptar

> bptest(consumo ~ pr.tbc, varformula = ~fitted.values(Modelo1), + studentize = FALSE, data = acero) Breusch-Pagan test data: consumo ~ pr.tbc BP = 1.1495, df = 1, p-value = 0.2837

Esto esta bien??? no es al reves todo?

Como el p-valor (0,2837) es menor que , los residuos se comportan de forma homocedstica a (la varianza es igual en todo el grco). Si el p-valor hubiera superado el valor (normalmente a 0,05), se producir una variabilidad no constante en el ajuste (heterocedstico) y habr que a a a encontrar otra relacin. o

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

52

CAP ITULO 4. REGRESION LINEAL

Ejemplo 4.6. El modelo lineal Modelo1 (Y = a+bX) ajusta de forma correcta?, no conviene ms un modelo cuadrtico (Y = a + bX + cX 2 ) o cbico? a a u Solucin: Para estudiar la linealidad de los residuos se utiliza el test Reset de no linealidad: o

y y y

Modelos Diagnsticos numricos o e Test Reset de no linealidad. . .

Desmarcar 3 cubos Aceptar

> resettest(consumo ~ pr.tbc, power = 2, type = + "regressor", data = acero) RESET test data: consumo ~ pr.tbc RESET = 5.8411, df1 = 1, df2 = 114, p-value = 0.01724 Como el p-valor (0,01724) es inferior a , se concluye que el modelo lineal no ajusta adecuadamente. Nuestra labor de modelado empieza de nuevo plantendonos otras relaciones, como a por ejemplo consumo = a + b pr.tbc + c pr.tbc2

Si bien ya hemos concluido que este ajuste lineal no cumple con los requisitos necesarios, como prctica realizamos tambin el control de las observaciones at a e picas. Ejemplo 4.7. Existen observaciones atpicas que distorsionen el anlisis del Modelo1? a Solucin: El test de valores at o picos de Bonferroni indica la presencia de observaciones at picas. Modelos Diagnsticos numricos o e Test de valores at picos de Bonferroni. . .

y y

> outlier.test(Modelo1) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

53

max|rstudent| = 3.85354, degrees of freedom = 114, unadjusted p = 0.0001929329, Bonferroni p = 0.02257315 Observation: 107

El p-valor es menor que e implica que hay observaciones at picas: la nmero 107. u

4.3.

Transformaciones de variables

Hasta ahora slo se han considerado los datos originales y como resultado hemos concluido o que el modelo lineal no ajusta adecuadamente. Llega el momento de abandonar el modelo inicial y buscar alternativas. Existe algn modelo terico que corresponda a nuestros datos? Por ejemplo, estimar el u o volumen de un depsito de aguas, Volumen = Base Altura, determinar la distancia que recorre o un cuerpo en ca libre, Distancia = a g tiempo2 o calcular el crecimiento demogrco, da a N = a ebtiempo . En todos estos planteamientos, la relacin no es lineal; Pero con una sencilla o transformacin, obtenemos una. Por ejemplo, si Y = X 2 Z, entonces log(Y ) = 2 log(X) + o log(Z). La transformacin ms inmediata consiste en tomar logaritmos de la variable dependiente, o a de la independiente o de ambas.

Ejemplo 4.8. Represente consumo y log(pr.tbc).

Solucin: Este dibujo se consigue transformando la escala de los ejes: o

Grcas a Matriz de diagrama de dispersin o

y y

Seleccionamos pr.tbc y consumo Marcamos Log eje-x Aceptar

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

54

CAP ITULO 4. REGRESION LINEAL

Visualmente se comprueba que la relacin lineal no es adecuada. Por lo tanto desechamos o esta transformacin. o

Ejemplo 4.9. Dibuje un grco de log(consumo) y log(pr.tbc). a

Solucin: Procedemos de forma similar al ejemplo anterior. o

Grcas a Matriz de diagrama de dispersin o

yMarcamos Log eje-x y Log eje-y yAceptar


Seleccionamos pr.tbc y consumo Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

55

En ambos casos, la distribucin de los puntos no sigue una l o nea recta, por lo que no transformamos la variable x (pr.tbc). La transformacin de Box-Cox efecta un cambio de variable sobre la variable dependiente o u de la forma: y 1 si = 0 (4.3) log y si = 0 Los valores de ms usuales son: log y ( = 0), y ( = 1/2), y 1/3 ( = 1/3), y 2 ( = 2), . . . . a Esta transformacin debe ser realizada por l o nea de comandos. En la ventana de instrucciones, escribimos primero library(MASS), ejecutamos; luego boxcox(Modelo1) y ejecutamos (Fig. ??). Proporciona un intervalo de valores vlidos para (Fig. ??). De entre este intervalo, escoa geremos aquellos ms naturales: 0, 1/2, 1/3, 2/3, 1, 3/2, etc. En este caso determinamos que a = 0,5, que equivale transformar la variable consumo mediante su ra cuadrada. Calculamos z esta nueva variable raiz.consumo tal como como indica la Fig. ??. > acero$raiz.consumo <- with(acero, box.cox(consumo, 0.5)) Para que el R-commander reconozca esta nueva variable, actualizamos la base de datos:

y y

Datos Conjunto de datos activos Actualizar conjunto. . .

Ejemplo 4.10. Realice un grco de dispersin de la variable raiz.consumo y de la pr.tbc. a o Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

56

CAP ITULO 4. REGRESION LINEAL

Figura 4.1: Transformacin de Box-Cox aplicada al Modelo1. o

Solucin: El grco de dispersin se realiza mediante: o a o

Grcas a Matriz de diagrama de dispersin o

y y

Seleccionamos pr.tbc y raiz.consumo Identicar Observaciones Aceptar

> scatterplot(raiz.consumo ~ pr.tbc, reg.line = lm, smooth = TRUE, + labels = FALSE, boxplots = "xy", span = 0.5, data = acero) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

57

Figura 4.2: Estimacin del parmetro de Box-Cox. o a

Figura 4.3: Transformacin de Box-Cox de la variable consumo. o

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

58

CAP ITULO 4. REGRESION LINEAL

Ejemplo 4.11. Determine el modelo que relaciona raiz.consumo con la pr.tbc. Llame a este modelo Modelo2. Solucin: Los coecientes se calculan estimando un modelo lineal: o

y y

Estad sticos Ajuste de modelos Modelo lineal

y y

Nombre del modelo: Modelo2 Frmula del. . . raiz.consumopr.tbc o Aceptar

> Modelo2 <- lm(raiz.consumo ~ pr.tbc, data = acero) > summary(Modelo2) Call: lm(formula = raiz.consumo ~ pr.tbc, data = acero) Residuals: Min 1Q Median -9.1509 -1.8850 0.2068

3Q Max 2.2383 11.6080

Coefficients: Estimate Std. Error t (Intercept) 1.112e+01 7.946e-01 pr.tbc 1.316e-03 9.765e-05 --Signif. codes: 0 *** 0.001 **

value Pr(>|t|) 13.99 <2e-16 *** 13.47 <2e-16 *** 0.01 * 0.05 . 0.1 1

Residual standard error: 3.158 on 115 degrees of freedom Multiple R-squared: 0.6123, Adjusted R-squared: 0.6089 F-statistic: 181.6 on 1 and 115 DF, p-value: < 2.2e-16 Los coecientes son signicativos y el modelo resultante queda: raiz.consumo = 1,112 101 + 1,316 103 pr.tbc La fraccin de la variacin de la variable dependiente que explica este modelo asciende al o o 60,89 %.

Ejemplo 4.12. Es homocedstico el modelo Modelo2? a Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

59

Solucin: Esta duda se resuelve mediante el test de Breusch-Pagan. o

y y

Modelos Diagnsticos numricos o e Test de Breusch-Pagan

Aceptar

> bptest(raiz.consumo ~ pr.tbc, varformula = + ~fitted.values(Modelo2), + studentize = FALSE, data = acero) Breusch-Pagan test data: raiz.consumo ~ pr.tbc BP = 1.1211, df = 1, p-value = 0.2897 Como el p-valor (0,2897) supera a 0,05, el modelo es homocedstico. a Ejemplo 4.13. El ajuste lineal casa bien con los datos? Solucin: Para comprobar si tenemos que aumentar el grado en el modelo procedemos del o siguiente modo:

y y y

Modelos Diagnsticos numricos o e Test Reset de no linealidad. . .

Desmarcar 3 cubos Aceptar

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

60

CAP ITULO 4. REGRESION LINEAL

> resettest(raiz.consumo ~ pr.tbc, power = 2, type = "regressor", + data = acero) RESET test data: raiz.consumo ~ pr.tbc RESET = 1.0532, df1 = 1, df2 = 114, p-value = 0.3070 Como el p-valor (0,3070) es mayor que 0,05 no se rechaza la hiptesis nula y no se necesita o incrementar el grado del modelo. Ejemplo 4.14. Hay observaciones atpicas? Solucin: Realizamos el test de valores at o picos de Bonferroni.

y y

Modelos Diagnsticos numricos o e Test de valores at picos de Bonferroni. . .

> outlier.test(Modelo2) max|rstudent| = 3.943655, degrees of freedom = 114, unadjusted p = 0.0001389735, Bonferroni p = 0.0162599 Observation: 107 Podemos ver que la observacin 107 sigue siendo at o pica. Vericamos si distorsiona el modelo dibujando las bandas de conanza.

y y y

Modelos Grcas a Grcas de comparacin de. . . a o

Bandas de conanza simuladas Aceptamos

> qq.plot(Modelo2, simulate = TRUE, labels = FALSE) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

61

4.4.

Regresin lineal m ltiple o u

La regresin lineal mltiple generaliza el modelo anterior al incorporar dos o ms variables o u a dependientes. Ejemplo 4.15. Estime la raiz.consumo en funcin de las diferentes producciones. Llame a o este modelo Modelo3. Solucin: Intervienen como variable dependiente raiz.consumo y como variables independieno tes pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc.

y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: Modelo3 Formula del. . . raiz.consumopr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc Aceptar

> Modelo3 <- lm(raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + + pr.pint + pr.tbc, data = acero) > summary(Modelo3) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

62

CAP ITULO 4. REGRESION LINEAL

Call: lm(formula = raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc, data = acero) Residuals: Min 1Q Median -6.4825 -1.3144 0.1286

3Q Max 1.6126 7.3293

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.679e+00 7.886e-01 9.737 < 2e-16 *** pr.ca 1.845e-04 1.431e-03 0.129 0.897614 pr.cc 2.387e-03 6.922e-04 3.448 0.000801 *** pr.galv1 3.756e-03 7.316e-04 5.135 1.23e-06 *** pr.galv2 1.523e-03 3.927e-04 3.880 0.000178 *** pr.pint 1.055e-03 8.305e-04 1.271 0.206469 pr.tbc 1.214e-03 7.602e-05 15.975 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 2.415 on 110 degrees of freedom Multiple R-squared: 0.7831, Adjusted R-squared: 0.7713 F-statistic: 66.2 on 6 and 110 DF, p-value: < 2.2e-16 Al haber coecientes no signicativos (sin estrellas) este modelo incorpora demasiadas variables independientes y se ha de simplicar. Ejemplo 4.16. Simplique el modelo anterior. Solucin: La depuracin del modelo se realiza del siguiente modo: o o

Modelos Seleccin de modelos paso a paso o

Marcamos las pestaas atrs/adelante y n a BIC Aceptamos

Start: AIC=213.1 raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc Df Sum of Sq - pr.ca 1 RSS 0.10 AIC 641.65

211.12 Curso avanzado del paquete estadistico R

Unidad de Consultora Estadstica

CAP ITULO 4. REGRESION LINEAL

63

- pr.pint 1 9.42 650.98 <none> 641.56 213.10 - pr.cc 1 69.34 710.90 - pr.galv2 1 87.80 729.36 - pr.galv1 1 153.76 795.32 - pr.tbc 1 1488.44 2129.99

212.81 223.11 226.11 236.24 351.50

Step: AIC=211.12 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc Df Sum of Sq RSS AIC - pr.pint 1 9.41 651.06 <none> 641.65 211.12 - pr.cc 1 71.52 713.18 - pr.galv2 1 87.87 729.53 - pr.galv1 1 158.47 800.13 - pr.tbc 1 1488.34 2129.99

210.82 221.48 224.14 234.94 349.50

Step: AIC=210.82 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc Df Sum of Sq RSS AIC <none> 651.06 210.82 - pr.cc 1 85.49 736.55 - pr.galv2 1 91.33 742.39 - pr.galv1 1 188.34 839.40 - pr.tbc 1 1480.14 2131.20

223.26 224.18 238.55 347.57

Esta salida muestra el modelo simplicado (raiz.consumopr.cc + pr.galv1 + pr.galv2 + pr.tbc). Las variables eliminadas (pr.ca, pr.pint) no inuyen signicativamente en el consumo energtico cuando operan las otras producciones. e Ejemplo 4.17. Estime el modelo simpiicado anterior y llmelo Modelo4. a Solucin: Seguimos los siguientes pasos: o

y y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: Modelo4 Formula del. . . raiz.consumopr.cc + pr.galv1 + pr.galv2 + pr.tbc Aceptar

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

64

CAP ITULO 4. REGRESION LINEAL

Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc, data = acero) Residuals: Min 1Q Median -6.56830 -1.32935 -0.08463

3Q Max 1.73213 7.79563

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.773e+00 7.548e-01 10.299 < 2e-16 *** pr.cc 2.537e-03 6.617e-04 3.835 0.000208 *** pr.galv1 3.991e-03 7.011e-04 5.692 1.02e-07 *** pr.galv2 1.547e-03 3.903e-04 3.964 0.000130 *** pr.tbc 1.209e-03 7.579e-05 15.957 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 2.411 on 112 degrees of freedom Multiple R-squared: 0.7799, Adjusted R-squared: 0.772 F-statistic: 99.22 on 4 and 112 DF, p-value: < 2.2e-16 En este modelo slo intervienen variables con coecientes signicativos. El modelo ajustado o adquiere la siguiente expresin: o raiz.consumo = 7,773+2,537103 pr.cc+3,991103 pr.galv1+1,547103 pr.galv2+ 1,209 103 pr.tbc

Una vez estimamos el modelo vericamos si ajusta bien o no los datos. Ejemplo 4.18. Determine la bondad del modelo Modelo4. Solucin: Para tal menester seguimos los siguientes pasos: o 1. Estudio de la colinealidad.

y y

Modelos Diagnsticos numricos o e Factores de inaccin de. . . o

> vif(Modelo4) pr.cc pr.galv1 pr.galv2 pr.tbc 1.123584 1.100332 1.014570 1.033500 Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

65

Si alguno de los valores supera el valor 4 implica que hay colinealidad (sobra alguna variable). En este modelo todos los valores no minoran dicha cantidad y por lo tanto, no hay colinealidad. 2. Comprobemos ahora si el modelo es homocedstico mediante el test de Breusch-Pagan. a

y y

Modelos Diagnsticos numricos o e Test de Breusch-Pagan

Aceptar

> bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc, + varformula = ~fitted.values(Modelo4), + studentize = FALSE, data = acero)

Breusch-Pagan test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc BP = 0.904, df = 1, p-value = 0.3417

Como el p-valor (0,3417) supera 0,05 el modelo pasa este test. 3. Veriquemos si el ajuste lineal es suciente o hay que aumentar el grado del modelo.

y y

Modelos Diagnsticos numricos o e Test Reset de no linealidad. . .

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

66

CAP ITULO 4. REGRESION LINEAL

Desmarcar 3 cubos Aceptar

> resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc, + power = 2, type = "regressor", data = acero) RESET test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc RESET = 1.2025, df1 = 4, df2 = 108, p-value = 0.314 Como el p-valor (0,314) es mayor que no se rechaza la hiptesis nula. No se necesita o incrementar el grado del modelo. 4. Por ultimo veamos la presencia de observaciones at picas que distorsionen el modelo.

Modelos Diagnsticos numricos o e Test de valores at picos de Bonferroni. . .

> outlier.test(Modelo4) max|rstudent| = 3.494116, degrees of freedom = 111, unadjusted p = 0.0006843334, Bonferroni p = 0.08006701 Observation: 107 La observacin 107 sigue siendo at o pica. . . 5. Los test anteriores se pueden analizar grcamente: a

Modelos Grcas a Grcas bsicas de diagnstico. . . a a o

> oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2)) > plot(Modelo4) > par(oldpar) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 4. REGRESION LINEAL

67

6. Clculo de intervalo de conanza para las obseraciones at a picas. Nuestro inters se centra e en la observacin 107 (si bien la distancia de Cook indica que apenas inuye en el anlisis). o a

y y y

Modelos Grcas a Grcas de comparacin de. . . a o

Bandas de conanza simuladas Aceptamos

> qq.plot(Modelo4, simulate = TRUE, labels = FALSE) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

68

CAP ITULO 4. REGRESION LINEAL

Como la observacin 107 queda dentro de las bandas de conanza podemos concluir que o este modelo ajusta razonablemente bien los datos.

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

Cap tulo 5 Anlisis de la varianza a


5.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales

El anlisis de la varianza se convierte en la tcnica ms habitual cuando las variables exa e a plicativas son categricas y cuantitativa la variable explicada. Las variables independientes se o denominan factores, constan de dos o ms niveles y pueden interactuar entre ellas. Esta tcnica a e contrasta mediante el anlisis de la variabilidad si los valores medios de la variable dependiente a diere segn las diferentes combinaciones de factores e interacciones. u Los experimentos factoriales pueden complicarse tanto como se deseen e incorporar efectos aleatorios, multinivel, jerrquicos, anidados, jos, etc. Existe una amplia gama de situaciones a que se presentan de forma habitual al realizar un experimento o anlisis. a Si bien el acercamiento bsico al anlisis de la varianza proviene de los contrastes de medias a a para dos o ms niveles, el enfoque ms correcto nace desde el anlisis de regresin. El anlisis de a a a o a la varianza particulariza el modelo de regresin lineal cuando las variables independientes son o cualitativas y la independiente cuantitativa. Considerar esta situacin desde los modelos de reo gresin permite al investigador un estudio completo, detallado y sistematizado del experimento o factorial. Cuando en los modelos de regresin intervienen variables independientes cualitativas, el o abordaje se realiza mediante dos tipos de contrastes: los denominados a priori y los contrastes a posteriori. Si bien a nivel matemtico se establece un isomorsmo entre ambos enfoques por a lo que son equivalentes, a nivel prctico el investigador debe optar por uno de esos contrastes. a Los contrastes ortogonales, o a priori, se utilizan habitualmente en el ambito de las Ciencias Experimentales. Los factores intervienen en el modelo de forma controlada (por ejemplo, a un ratn le inyectamos 100 gramos del compuesto I y a otro roedor 200 gramos) y se suele denomio nar Diseo de Experimentos. Las principales ventajas de los contrastes ortogonales residen en n que el orden de los factores no inuye en el modelo, ste adopta una unica expresin (ortogonal) e o y resulta fcil detectar qu factores o niveles inuyen o no. El principal inconveniente consiste a e en que los coecientes del modelo han de interpretarse con precaucin. o En el otro extremo aparecen los contrastes no ortogonales, o a posteriori, muy usuales en las Ciencias Sociales. Estos estudios no disponen de condiciones controladas desde donde puedan observar las reacciones de los sujetos entrevistados. En estos modelos el orden de los factores o variables nominales que intervienen en el modelo s importan, lo que conlleva a diferentes modelos igualmente vlidos. La principal ventaja en estos modelos surge de que los coecientes a 69

70

CAP ITULO 5. ANALISIS DE LA VARIANZA

son muy fciles de interpretar. a Ejemplo 5.1. En la base de datos de acero aparecen las siguientes variables nominales: linea, hora y averia. Determine si estas variables se realizaron bajo condiciones controladas o no. Solucin: Las variables linea, hora y averia se han controlado de forma dispar: o L nea: Hemos seleccionado conscientemente un nmero determinado de mediciones en u cada l nea, por lo que este factor se encuentra bajo nuestro control. Hora: De nuevo, la obtencin de datos por hora fue diseada a priori. o n Aver Este factor con dos modalidades (no hubo aver s la hubo) no estaba controlada, a: a, pues las aver surgen sin control. as

En lo que sigue, trabajaremos exclusivamente con contrastes no ortogonales.

5.2.

Modelo lineal con un factor

Analizaremos el consumo de energ en funcin de la l a o nea de produccin, la presencia de o aver y la hora de captura de los datos. Disearemos un modelo para cada uno de los factores. as n Ejemplo 5.2. Genere un modelo lineal que relacione raiz.consumo y la linea. Llame al modelo fmodelo1. Solucin: Los coecientes del modelo, fmodelo1, se calculan del siguiente modo. o

y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: fmodelo1 Formula del. . . raiz.consumolinea Aceptar

y y

> fmodelo1 <- lm(raiz.consumo ~ linea, data = acero) > summary(fmodelo1) Call: lm(formula = raiz.consumo ~ linea, data = acero) Residuals: Min

1Q

Median

3Q

Max Curso avanzado del paquete estadistico R

Unidad de Consultora Estadstica

CAP ITULO 5. ANALISIS DE LA VARIANZA

71

-14.3467

-2.3134

0.5332

2.9904

9.4656

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.6263 0.7362 25.300 < 2e-16 *** linea[T.B] 2.0871 1.0412 2.005 0.0474 * linea[T.C] 5.2649 1.0412 5.057 1.65e-06 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.598 on 114 degrees of freedom Multiple R-squared: 0.1853, Adjusted R-squared: 0.171 F-statistic: 12.97 on 2 and 114 DF, p-value: 8.428e-06 El consumo medio de la l nea A se sita en 18,6262, el consumo medio de la l u nea B supera en 2,0871 unidades el de la l nea A, y el de la l nea C gasta 5,2648 ms que el de la l a nea A. Estas diferencias son signicativas (p-valor<0,05). El modelo resultante queda por tanto, raiz.consumo = 18,6263 + 2,0871 lineaB + 5,2649 lineaC con lineaB y lineaC variables indicadoras que valen 1 respectivamente. 18,62620 raiz.consumo= 18,62620 + 2,0871 18,62620 + 5,2648 (5.1)

o 0 si corresponden a la l nea B y C,

si es de la l nea A si es de la l nea B si es de la l nea C

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

72

CAP ITULO 5. ANALISIS DE LA VARIANZA

Ejemplo 5.3. Determine cmo inuye la presencia de averas en el consumo (raiz.consumo). o Nomine a este modelo como fmodelo2. Solucin: Se trata de estimar la relacin lineal entre raiz.consumo y averias. o o

y y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: fmodelo2 Formula del. . . raiz.consumoaverias Aceptar

> fmodelo2 <- lm(raiz.consumo ~ averias, data = acero) > summary(fmodelo2) Call: lm(formula = raiz.consumo ~ averias, data = acero) Residuals: Min 1Q -15.4624 -3.0473 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 20.8403 0.5357 38.902 <2e-16 *** averias[T.S] 0.9888 1.0951 0.903 0.368 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.054 on 115 degrees of freedom Multiple R-squared: 0.00704, Adjusted R-squared: -0.001595 F-statistic: 0.8153 on 1 and 115 DF, p-value: 0.3684 El coeciente de la modalidad S de la variable averias no diere signicativamente de 0 (p-valor>0,05). Por lo tanto, el consumo no var en funcin de la presencia de aver a o as. Ejemplo 5.4. Estime la inuencia de la hora (1,2,. . . ,8) del turno en el consumo de energ a raiz.consumo. Solucin: Denominaremos la relacin lineal entre raiz.consumo y hora como fmodelo3. o o Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

Median 0.4921

3Q 3.6218

Max 11.2608

CAP ITULO 5. ANALISIS DE LA VARIANZA

73

y y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: fmodelo3 Formula del. . . raiz.consumohora Aceptar

> fmodelo3 <- lm(raiz.consumo ~ hora, data = acero) > summary(fmodelo3)

Call: lm(formula = raiz.consumo ~ hora, data = acero) Residuals: Min 1Q -15.3729 -3.1487

Median 0.7521

3Q 3.4311

Max 9.7156

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 20.2218 1.3126 15.406 <2e-16 *** hora[T.2] 2.1636 1.8563 1.166 0.246 hora[T.3] 2.1781 1.8563 1.173 0.243 hora[T.4] 1.4267 1.8563 0.769 0.444 hora[T.5] 0.6504 1.8563 0.350 0.727 hora[T.6] 1.5176 1.8563 0.818 0.415 hora[T.7] -0.8294 1.8563 -0.447 0.656 hora[T.8] -0.5468 1.9689 -0.278 0.782 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.084 on 109 degrees of freedom Multiple R-squared: 0.04772, Adjusted R-squared: -0.01343 F-statistic: 0.7803 on 7 and 109 DF, p-value: 0.6051

No hay diferencias de consumo segn la hora del turno ya que ningn coeciente muestra u u un p-valor inferior a 0,05.

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

74

CAP ITULO 5. ANALISIS DE LA VARIANZA

5.3.

Interacciones entre factores

Los modelos mostrados hasta el momento no contienen interacciones entre los factores y stos han sido estudiados de forma independiente. Llega el momento de abordar relaciones ms e a complejas entre las variables explicativas. Ejemplo 5.5. Inuye la linea, las averias y sus posibles interacciones en raiz.consumo? Denomine este modelo como fmodelocomplicado. Solucin: La expresin que muestra todas las posibles interacciones entre las dos variables o o adopta la siguiente forma: averia*linea. El asterisco denota los efectos simples e interacciones de ambos factores.

y y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: fmodelocomplicado Formula del. . . raiz.consumoaverias * linea Aceptar

> fmodelocomplicado <- lm(raiz.consumo ~ averias * linea, data = acero) > summary(fmodelocomplicado) Call: lm(formula = raiz.consumo ~ averias * linea, data = acero) Residuals: Min 1Q -14.0988 -1.6263 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 17.8252 0.8195 21.752 < 2e-16 *** averias[T.S] 3.9050 1.8094 2.158 0.0331 * linea[T.B] 3.0075 1.1896 2.528 0.0129 * linea[T.C] 6.1377 1.1685 5.252 7.31e-07 *** averias[T.S]:linea[T.B] -4.3282 2.4310 -1.780 0.0777 . averias[T.S]:linea[T.C] -4.2160 2.5062 -1.682 0.0953 . --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.563 on 111 degrees of freedom Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

Median 0.1921

3Q 2.8710

Max 10.2666

CAP ITULO 5. ANALISIS DE LA VARIANZA

75

Multiple R-squared: 0.2188, Adjusted R-squared: 0.1836 F-statistic: 6.219 on 5 and 111 DF, p-value: 4.032e-05 Estos resultados nos conducen a un modelo de la forma: 17,8252 + 3,9050(averaSi ) raiz.consumo= 17,8252 + 3,0075 + (3,9050 4,3282)averaSi 17,8252 + 6,1377 + (3,9050 4,2160)averaSi

si es de la l nea A. si es de la l nea B. si es de la l nea C.

Al disponer de dos modelos posibles, fmodelo1 y fmodelocomplicado, para explicar el consumo, nos hemos de plantear cul ajusta mejor los datos mediante el anlisis del AIC. R a a dispone de un test (anova) que contrasta si ambos modelos se comportan de forma similar o bien dieren signicativamente: H0 : No hay diferencias entre los modelos H1 : Hay diferencias entre los modelos Ejemplo 5.6. De los modelos fmodelo1 y fmodelocomplicado cul ajusta mejor? a Solucin: La comparacin entre los modelos se realiza de la siguiente forma. o o

y y y y

Modelos Test de hiptesis o Comparar dos modelos

Seleccionar los modelos fmodelo1 y fmodelocomplicado Aceptar

> anova(fmodelo1, fmodelocomplicado) Analysis of Variance Table Model 1: Model 2: Res.Df 1 114 2 111 raiz.consumo ~ linea raiz.consumo ~ averias * linea RSS Df Sum of Sq F Pr(>F) 2409.86 2310.81 3 99.05 1.586 0.1968

Como el p-valor 0,1968 es mayor que 0,05 no se observan diferencias entre los dos modelos. Escogeremos el modelo ms sencillo (el que tenga ms grados de libertad, Res.Df): en este caso a a el fmodelo1. Ejemplo 5.7. Es posible simplicar el fmodelo1? Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

76

CAP ITULO 5. ANALISIS DE LA VARIANZA

Solucin: La realizacin de este ejercicio nos llevar una serie de pasos. o o a 1. Recordemos el modelo fmodelo1.

y y

Modelos Seleccionar modelo activo fmodelo1

Modelos Resumir el modelo

> summary(fmodelo1) Call: lm(formula = raiz.consumo ~ linea, data = acero) Residuals: Min 1Q -14.3467 -2.3134

Median 0.5332

3Q 2.9904

Max 9.4656

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.6263 0.7362 25.300 < 2e-16 *** linea[T.B] 2.0871 1.0412 2.005 0.0474 * linea[T.C] 5.2649 1.0412 5.057 1.65e-06 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.598 on 114 degrees of freedom Multiple R-squared: 0.1853, Adjusted R-squared: 0.171 F-statistic: 12.97 on 2 and 114 DF, p-value: 8.428e-06 Podemos observar que la l nea B y C dieren signicativamente de la l nea A. 2. Calculamos el intervalo de conanza para los coecientes de estas l neas.

Modelos Intervalos de conanza

Aceptar

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 5. ANALISIS DE LA VARIANZA

77

> confint(fmodelo1, level = 0.95)

2.5 % 97.5 % (Intercept) 17.16779459 20.084711 linea[T.B] 0.02449371 4.149636 linea[T.C] 3.20228554 7.327428

El consumo medio de la l nea B es superior a la l nea A, con valores entre 0,02449371 y 4,149636 unidades, mientras que el consumo adicional de la l nea C var entre 3,20228554 a y 7,327428 unidades, con una conanza del 95 %. Pero se puede asegurar que la l nea B diere de la l nea C?; y en caso negativo se puede simplicar el modelo? 3. Recodicaremos la variable linea, creando una nueva variable, que llamaremos reco.linea, que tome valores A si es de la l nea A y B y C si es de la l nea B o C, para lo que haremos:

y y

Datos Modicar variables Recodicar variables. . .

Seleccionar linea Nuevo nombre. . . reco.linea Asignar los valores A=A; else=ByC

y y

> acero$reco.linea <- recode(acero$linea, '"A"="A"; "else"="ByC"; ', + as.factor.result=TRUE)

4. Ahora construimos el modelo, que llamaremos fmodelo1.simpli

y y

Estad sticos Ajuste de modelos Modelo lineal. . .

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

78

CAP ITULO 5. ANALISIS DE LA VARIANZA

> fmodelo1.simpli <- lm(raiz.consumo ~ reco.linea, data = acero) > summary(fmodelo1.simpli) Call: lm(formula = raiz.consumo ~ reco.linea, data = acero) Residuals: Min 1Q -15.936 -2.287 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.6263 0.7624 24.432 < 2e-16 *** reco.linea[T.ByC] 3.6760 0.9337 3.937 0.000142 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.761 on 115 degrees of freedom Multiple R-squared: 0.1188, Adjusted R-squared: 0.1111 F-statistic: 15.5 on 1 and 115 DF, p-value: 0.0001418 El modelo obtenido queda de la siguiente forma: raiz.consumo= 18,6263 si es de la l nea A 18,6263 + 3,6760 si es de la l nea B o C

Median 1.065

3Q 3.169

Max 9.799

De los dos modelos observados, fmodelo1 o fmodelo1.simpli, cul es mejor? a Ejemplo 5.8. Comparar los modelos fmodelo1 y fmodelo1.simpli. Solucin: La comparacin de modelos se realiza del siguiente modo. o o

y y

Modelos Test de hiptesis o Comparar dos modelos

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 5. ANALISIS DE LA VARIANZA

79

y y

Seleccionar los modelos fmodelo1 y fmodelo1.simpli Aceptar

> anova(fmodelo1, fmodelo1.simpli) Analysis of Variance Table Model 1: raiz.consumo ~ linea Model 2: raiz.consumo ~ reco.linea Res.Df RSS Df Sum of Sq F Pr(>F) 1 114 2409.86 2 115 2606.78 -1 -196.92 9.3153 0.002828 ** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Como el p-valor 0,002828 es menor que 0,05 se rechaza que ambos modelos ajusten igual. Escogeremos por tanto el modelo con menos grados de libertad, en este caso el fmodelo1. si es de la l nea A 18,62620 nea B raiz.consumo= 18,62620 + 2,0871 si es de la l 18,62620 + 5,2648 si es de la l nea C .

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

Cap tulo 6 Anlisis de la covarianza a


6.1. Introduccin o

El anlisis de la covarianza se reere a los modelos en los que intervienen simultneamena a te variables numricas y factores como variables independientes. Por ejemplo, el consumo de e energ depende de la l a nea de produccin (factor) y de la produccin de TBC (numrica). o o e Veamos grcamente algunos ejemplos. a Ejemplo 6.1. Dibuje el diagrama de dispersin del consumo y la pr.tbc segn averias. o u Solucin: Procedemos del siguiente modo. o

Grcas a Matriz de diagrama de dispersin o

Seleccionamos: consumo y pr.tbc Desmarcar: L nea suavizada Grca segn: averias a u Aceptamos

y y y

> scatterplot(raiz.consumo ~ pr.tbc | averias, reg.line = lm, smooth = TRUE, + labels = FALSE, boxplots = "xy", span = 0.5, by.groups = TRUE, + data = acero) 80

CAP ITULO 6. ANALISIS DE LA COVARIANZA

81

Ambas rectas de regresin muestran una trayectoria muy similar. Este grco muestra que o a la presencia o no de aver apenas diferencia el consumo de energ segn la produccin de as a u o TBC. Ejemplo 6.2. Dibuje el diagrama de dispersin del consumo y pr.tbc segn linea. o u Solucin: Procedemos del siguiente modo. o

Grcas a Matriz de diagrama de dispersin o

Seleccionamos: consumo y pr.tbc Desmarcar: L nea suavizada Grca segn: linea a u Aceptamos

y y y

> scatterplot(raiz.consumo ~ pr.tbc | linea, reg.line = lm, smooth = TRUE, + labels = FALSE, boxplots = "xy", span = 0.5, by.groups = TRUE, + data = acero) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

82

CAP ITULO 6. ANALISIS DE LA COVARIANZA

Las rectas estimadas no son paralelas. El consumo de produccin var en funcin de la o a o produccin y de la l o nea de trabajo.

6.2.

El consumo de energ seg n la produccin de TBC a u o y la l nea.

Analizaremos el consumo de energ segn la produccin del tren de bandas calientes a u o (pr.tbc) y la l nea de produccin (linea). o Ejemplo 6.3. Estime el consumo a partir de la produccin de TBC y de la lnea. Llame a este o modelo CoModelo1. Solucin: Procedemos con un modelo lineal. o

y y

Estad sticos Ajuste de modelos Modelo lineal

y y

Nombre del modelo: CoModelo1 Formula del. . . raiz.consumopr.tbc + linea Aceptar

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

83

> CoModelo1 <- lm(raiz.consumo ~ pr.tbc + linea, data = acero) > summary(CoModelo1) Call: lm(formula = raiz.consumo ~ pr.tbc + linea, data = acero) Residuals: Min 1Q Median -7.2926 -1.5770 -0.3949

3Q 2.0585

Max 9.4530

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.005e+01 7.727e-01 13.006 < 2e-16 *** pr.tbc 1.223e-03 8.928e-05 13.703 < 2e-16 *** linea[T.B] 1.720e+00 6.416e-01 2.681 0.00843 ** linea[T.C] 3.584e+00 6.526e-01 5.491 2.49e-07 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.831 on 113 degrees of freedom Multiple R-squared: 0.6939, Adjusted R-squared: 0.6858 F-statistic: 85.4 on 3 and 113 DF, p-value: < 2.2e-16

Por cada unidad producida en pr.tbc, el raiz.consumo de energ aumenta en a 1,223103 unidades. Si se ha producido en la l nea A, hay que aadir al raiz.consumo n 10,05 unidades adicionales, mientras que si se fabrica en la l nea B, el raiz.consumo aumenta en 10,05 + 1,720 unidades y si se produce en la l nea C el raiz.consumo se incrementa en 10,05 + 3,584. As el mode lo se formaliza y representa de la siguiente forma:

1,005 101 + 1,223 103 pr.tbc raiz.consumo= 1,005 101 + 1,720 + 1,223 103 pr.tbc 1,005 101 + 3,584 + 1,223 103 pr.tbc

si es de la l nea A si es de la l nea B si es de la l nea C

En este modelo, la variacin de energ consumida es constante para las tres l o a neas de produccin o (las rectas de regresin son paralelas). o Ejemplo 6.4. Estime el consumo a partir de la produccin de TBC, la lnea de produccin y o o sus posibles interaciones. Nomine a este modelo CoModelo2. Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

84

CAP ITULO 6. ANALISIS DE LA COVARIANZA

Solucin: El modelo con interaccin se obtiene de la siguiente forma: o o

y y

Estad sticos Ajuste de modelos Modelo lineal

y y

Nombre del modelo: CoModelo2 Formula del. . . raiz.consumopr.tbc * linea Aceptar

> CoModelo2 <- lm(raiz.consumo ~ pr.tbc * linea, data = acero) Call: lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero) Residuals: Min 1Q Median -6.76425 -1.83728 -0.07738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.4645906 1.1652944 10.697 < 2e-16 *** pr.tbc 0.0008790 0.0001545 5.689 1.05e-07 *** linea[T.B] -3.2322181 1.5422928 -2.096 0.038380 * linea[T.C] 3.1148687 1.9084184 1.632 0.105477 pr.tbc:linea[T.B] 0.0006917 0.0001988 3.480 0.000719 *** pr.tbc:linea[T.C] 0.0001124 0.0002318 0.485 0.628793 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.686 on 111 degrees of freedom Multiple R-squared: 0.7293, Adjusted R-squared: 0.7171 F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16 Al haber coecientes no signicativos (sin estrellas) este modelo incorpora demasiadas variables independientes y se ha de simplicar.

3Q 1.82916

Max 8.41252

Antes de estudiar el modelo en profundidad, comprobemos si realmente mejora este modelo al anterior. Ejemplo 6.5. Compare los modelos CoModelo1 y CoModelo2. Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

85

Solucin: Al igual que en apartados anteriores la comparacin de modelos se realiza del siguiente o o modo.

y y

Modelos Test de hiptesis o Comparar dos modelos

y y

Seleccionar los modelos CoModelo1 y CoModelo2 Aceptar

> anova(CoModelo1, CoModelo2) Analysis of Variance Table Model 1: raiz.consumo ~ pr.tbc + linea Model 2: raiz.consumo ~ pr.tbc * linea Res.Df RSS Df Sum of Sq F Pr(>F) 1 113 905.37 2 111 800.89 2 104.49 7.2406 0.001107 ** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Se verica la diferencia entre ambos modelos. Escogemos el modelo raiz.consumo ~ pr.tbc * linea. Ejemplo 6.6. Interprete el CoModelo2. Solucin: Recordemos el CoModelo2. o

y y y

Modelos Seleccionar modelo activo CoModelo2

Modelos Resumir el modelo

> summary(CoModelo2) Call: lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero)

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

86

CAP ITULO 6. ANALISIS DE LA COVARIANZA

Residuals: Min 1Q Median -6.76425 -1.83728 -0.07738 Coefficients:

3Q 1.82916

Max 8.41252

Estimate Std. Error t value Pr(>|t|) (Intercept) 12.4645906 1.1652944 10.697 < 2e-16 *** pr.tbc 0.0008790 0.0001545 5.689 1.05e-07 *** linea[T.B] -3.2322181 1.5422928 -2.096 0.038380 * linea[T.C] 3.1148687 1.9084184 1.632 0.105477 pr.tbc:linea[T.B] 0.0006917 0.0001988 3.480 0.000719 *** pr.tbc:linea[T.C] 0.0001124 0.0002318 0.485 0.628793 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.686 on 111 degrees of freedom Multiple R-squared: 0.7293, Adjusted R-squared: 0.7171 F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16

Como los coecientes de la l nea C no resultan signicativamente diferente de la l nea A, podemos intentar agrupar los resultados de las l neas A y C. La interpretacin gro a ca de este modelo muestra que las rectas de regresin de A y de C son casi paralelas. o

6.3.

Variables indicadoras

Las variables indicadores, cticias o dummy, permiten desagregar fcilmente las variables a nominales. Por cada categor de la variable nominal se crea una variable indicadora, que vale a 1 si el registro pertenece a dicho atributo y cero en otro caso. Dado que la suma de todas las variables indicadoras generadas a partir de una misma variable nominal vale 1, y por lo tanto son linealmente dependientes, slo se utilizan k 1 variables indicadoras, siendo k el o nmero de modalidades presentes en la variable nominal. Por ejemplo, en el caso de la l u nea de produccin se disponen de tres modalidades (A, B, C). Crearemos tres variables indicadoras, o lineaA, lineaB y lineaC que valdrn 1 si son de la l a nea A, B y C, respectivamente, y cero en otro caso. Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

87

linea lineaA lineaB A B C 1 0 0 0 1 0

lineaC 0 0 1

Ejemplo 6.7. Genere las variables dummys lineaA, lineaB y lineaC que tomen valores 1 y 0 segn sean la produccin de la lnea A, B o C respectivamente u o Solucin: Crearemos tres nuevas variables en nuestra base de datos. o

> acero <- cbind(acero,model.matrix(~linea-1,acero)) Actualizamos la base de datos:

y y

Datos Conjunto de datos. . . Actualizar conjunto de datos. . .

Repetiremos el modelo anterior utilizando estas variables indicadoras: raiz.consumo (lineaB + lineaC) pr.tbc Ejemplo 6.8. Determine el modelo que relaciona raiz.consumo con las variables pr.tbc, lineaB y lineaC. Llame a este modelo CoModelo3. Solucin: Los coecientes se calculan de la siguiente forma: o

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: CoModelo3 Formula del. . . raiz.consumo(lineaB + lineaC) * pr.tbc Aceptar

y y

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

88

CAP ITULO 6. ANALISIS DE LA COVARIANZA

> CoModelo3 <- lm(raiz.consumo ~ (lineaB + lineaC) * pr.tbc, data = acero) > summary(CoModelo3) Call: lm(formula = raiz.consumo ~ (lineaB + lineaC) * pr.tbc, data = acero) Residuals: Min 1Q Median -6.76425 -1.83728 -0.07738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.4645906 1.1652944 10.697 < 2e-16 *** lineaB -3.2322181 1.5422928 -2.096 0.038380 * lineaC 3.1148687 1.9084184 1.632 0.105477 pr.tbc 0.0008790 0.0001545 5.689 1.05e-07 *** lineaB:pr.tbc 0.0006917 0.0001988 3.480 0.000719 *** lineaC:pr.tbc 0.0001124 0.0002318 0.485 0.628793 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.686 on 111 degrees of freedom Multiple R-squared: 0.7293, Adjusted R-squared: 0.7171 F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16 Al aparecer coecientes no signicativos (sin estrellas), este modelo incorpora demasiadas variables independientes y se ha de simplicar. Ejemplo 6.9. Simplique el modelo anterior. Solucin: La depuracin del modelo se realiza del siguiente modo: o o

3Q 1.82916

Max 8.41252

Modelos Seleccin de modelos paso a paso o

Marcamos las pestaas atrs/adelante y n a BIC Aceptamos

Start: AIC=253.63 raiz.consumo ~ (lineaB + lineaC) * pr.tbc Df Sum of Sq Unidad de Consultora Estadstica RSS AIC Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

89

- lineaC:pr.tbc <none> - lineaB:pr.tbc

1 1

1.696 802.59 249.11 800.89 253.63 87.359 888.25 260.98

Step: AIC=249.11 raiz.consumo ~ lineaB + lineaC + pr.tbc + lineaB:pr.tbc Df Sum of Sq <none> + lineaC:pr.tbc - lineaB:pr.tbc - lineaC 1 1 1 RSS 802.59 1.696 800.89 102.790 905.37 290.525 1093.11 AIC 249.11 253.63 258.45 280.50

Esta salida muestra el modelo simplicado (raiz.consumo lineaB + lineaC + pr.tbc + lineaB:pr.tbc). Ejemplo 6.10. Estime el modelo anterior y denomnelo CoModelo4. Solucin: Seguiremos los siguientes pasos: o

y y

Estad sticos Ajuste de modelos Modelo lineal

y y

Nombre del modelo: CoModelo4 Frmula del. . . raiz.consumolineaB o + lineaC + pr.tbc + lineaB:pr.tbc Aceptar

Call: lm(formula = raiz.consumo ~ lineaB + lineaC + pr.tbc + lineaB * pr.tbc, data = acero) Residuals: Min 1Q Median -6.84084 -1.82951 -0.07738 Coefficients: (Intercept) lineaB lineaC pr.tbc Estimate Std. Error t value Pr(>|t|) 12.1146686 0.9116805 13.288 < 2e-16 -2.8822961 1.3582876 -2.122 0.036041 3.9884021 0.6263885 6.367 4.37e-09 0.0009289 0.0001148 8.093 7.74e-13 *** * *** ***

3Q 1.82916

Max 8.13247

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

90

CAP ITULO 6. ANALISIS DE LA COVARIANZA

lineaB:pr.tbc 0.0006417 0.0001694 3.787 0.000247 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.677 on 112 degrees of freedom Multiple R-squared: 0.7287, Adjusted R-squared: 0.719 F-statistic: 75.2 on 4 and 112 DF, p-value: < 2.2e-16

Todos los coecientes son signicativos. Las l neas A y C consumen igual por cada unidad producida de TBC (son paralelas), mientras que la l nea B consume ms a (mayor pendiente de la recta).

12,1147 + 9,289 104 pr.tbc raiz.consumo= 12,1147 2,8823 + (9,289 104 +6,417 104 )pr.tbc 12,1147 + 3,9883 + 9,289 104 pr.tbc

si es de la l nea A si es de la l nea B si es de la l nea C

6.4.

Modelo completo

Para nalizar el estudio introducimos en el modelo todas las variables de produccin y o consideramos las interacciones con las variables linea y averias, generando un modelo de la forma: raiz.consumo(pr.ca+pr.cc+pr.galv1+pr.galv2+pr.pint+pr.tbc)*(lineaB+lineaC)*averias que llamaremos ModeloComple0 Ejemplo 6.11. Estime el modelo anterior. Solucin: Los coecientes se calculan ajustando un modelo lineal. o

y y

Estad sticos Ajuste de modelos Modelo lineal

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

91

Nombre del modelo: ModeloComple0 Formula del. . . raiz.consumo(pr.ca + pr.cc + pr.galv1 + + pr.galv2 + pr.pint + pr.tbc) * (lineaB + lineaC) * averias Aceptar

> ModeloComple0 <- lm(raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + + pr.galv2 + pr.pint + pr.tbc) * (lineaB + lineaC) * averias, data = acero) > summary(ModeloComple0) Call: lm(formula = raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc) * (lineaB + lineaC) * averias, data = acero) Residuals: Min 1Q Median -4.42944 -1.06618 -0.00667 Coefficients: (Intercept) pr.ca pr.cc pr.galv1 pr.galv2 pr.pint pr.tbc lineaB lineaC averias[T.S] pr.ca:lineaB pr.ca:lineaC pr.cc:lineaB pr.cc:lineaC pr.galv1:lineaB pr.galv1:lineaC pr.galv2:lineaB pr.galv2:lineaC pr.pint:lineaB pr.pint:lineaC pr.tbc:lineaB pr.tbc:lineaC pr.ca:averias[T.S] pr.cc:averias[T.S] Estimate Std. Error t value Pr(>|t|) 7.650e+00 1.569e+00 4.877 5.89e-06 *** 7.545e-03 3.697e-03 2.041 0.04480 * 2.661e-03 1.830e-03 1.454 0.15018 6.294e-04 2.395e-03 0.263 0.79344 2.215e-03 8.124e-04 2.726 0.00798 ** 1.254e-03 1.902e-03 0.659 0.51175 8.679e-04 1.485e-04 5.843 1.24e-07 *** 6.343e-02 2.052e+00 0.031 0.97542 2.949e+00 2.986e+00 0.988 0.32648 -8.536e+00 7.687e+01 -0.111 0.91188 -9.081e-03 4.279e-03 -2.122 0.03712 * -4.173e-03 5.175e-03 -0.806 0.42257 -6.495e-03 4.242e-03 -1.531 0.12996 1.219e-03 2.505e-03 0.486 0.62805 3.023e-03 3.098e-03 0.976 0.33237 4.059e-03 2.828e-03 1.435 0.15544 -5.895e-04 1.241e-03 -0.475 0.63622 -1.119e-03 1.197e-03 -0.934 0.35315 7.073e-04 2.859e-03 0.247 0.80524 -1.904e-03 2.676e-03 -0.712 0.47896 4.426e-04 2.388e-04 1.853 0.06778 . 6.164e-05 2.555e-04 0.241 0.81001 -1.529e-02 4.747e-02 -0.322 0.74829 -5.384e-03 6.309e-03 -0.853 0.39624 Unidad de Consultora Estad stica

3Q 1.14888

Max 5.26460

Curso avanzado del paquete estadistico R

92

CAP ITULO 6. ANALISIS DE LA COVARIANZA

pr.galv1:averias[T.S] pr.galv2:averias[T.S] pr.pint:averias[T.S] pr.tbc:averias[T.S] lineaB:averias[T.S] lineaC:averias[T.S] pr.ca:lineaB:averias[T.S] pr.ca:lineaC:averias[T.S] pr.cc:lineaB:averias[T.S] pr.cc:lineaC:averias[T.S] pr.galv1:lineaB:averias[T.S] pr.galv1:lineaC:averias[T.S] pr.galv2:lineaB:averias[T.S] pr.galv2:lineaC:averias[T.S] pr.pint:lineaB:averias[T.S] pr.pint:lineaC:averias[T.S] pr.tbc:lineaB:averias[T.S] pr.tbc:lineaC:averias[T.S] --Signif. codes: 0 '***' 0.001

8.798e-03 -1.637e-03 -7.034e-03 1.703e-03 8.275e+00 7.868e-01 1.707e-02 -1.232e-03 1.131e-02 8.028e-03 -1.113e-02 -8.243e-03 1.259e-03 3.783e-03 8.848e-03 9.872e-03 -1.580e-03 -1.317e-03

1.107e-02 1.945e-02 1.916e-02 6.583e-03 7.694e+01 7.759e+01 4.798e-02 4.977e-02 9.125e-03 1.019e-02 1.199e-02 1.423e-02 1.950e-02 1.955e-02 1.976e-02 2.006e-02 6.588e-03 6.596e-03

0.795 -0.084 -0.367 0.259 0.108 0.010 0.356 -0.025 1.240 0.788 -0.929 -0.579 0.065 0.193 0.448 0.492 -0.240 -0.200

0.42917 0.93312 0.71452 0.79652 0.91463 0.99194 0.72297 0.98032 0.21892 0.43308 0.35611 0.56402 0.94870 0.84713 0.65556 0.62403 0.81108 0.84225

'**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.251 on 75 degrees of freedom Multiple R-squared: 0.8715, Adjusted R-squared: 0.8012 F-statistic: 12.4 on 41 and 75 DF, p-value: < 2.2e-16 Como era de suponer, el modelo muestra coecientes no signicativos (sin estrellas). Dado que anteriormente ya se hab analizado qu variables intervienen de forma signicaa e tiva, consideramos el siguiente modelo. Ejemplo 6.12. Estime un modelo de la forma raiz.consumo (pr.cc + pr.galv1 + pr.galv2 + pr.tbc)*(lineaB + lineaC). Llame lo ModeloComple1 Solucin: Procedemos de la siguiente forma: o

y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: ModeloComple1 Formula del. . . raiz.consumo(pr.cc + pr.galv1 + pr.galv2 + + pr.tbc) * (lineaB + lineaC) Aceptar

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

93

> ModeloComple1 <- lm(raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + + pr.tbc) * (lineaB + lineaC), data = acero) Call: lm(formula = raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) * (lineaB + lineaC), data = acero) Residuals: Min 1Q -5.325113 -1.136508 Coefficients: (Intercept) pr.cc pr.galv1 pr.galv2 pr.tbc lineaB lineaC pr.cc:lineaB pr.cc:lineaC pr.galv1:lineaB pr.galv1:lineaC pr.galv2:lineaB pr.galv2:lineaC pr.tbc:lineaB pr.tbc:lineaC --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.208 on 102 degrees of freedom Multiple R-squared: 0.8319, Adjusted R-squared: 0.8088 F-statistic: 36.05 on 14 and 102 DF, p-value: < 2.2e-16 De nuevo aparecen coecientes no signicativos (sin estrellas). Ejemplo 6.13. Simplique el modelo anterior. Solucin: Utilizamos el procedimiento automtico de reduccin. o a o Estimate Std. Error t value Pr(>|t|) 8.6910333 1.3140579 6.614 1.75e-09 *** 0.0028780 0.0015176 1.896 0.06074 . 0.0006535 0.0020001 0.327 0.74453 0.0021517 0.0007426 2.898 0.00460 ** 0.0008998 0.0001282 7.021 2.51e-10 *** -1.3215576 1.6927983 -0.781 0.43679 0.5173535 2.3707022 0.218 0.82769 -0.0009772 0.0025148 -0.389 0.69840 0.0005477 0.0020655 0.265 0.79144 0.0023994 0.0025280 0.949 0.34478 0.0033782 0.0022674 1.490 0.13933 -0.0006493 0.0009893 -0.656 0.51309 -0.0005098 0.0009900 -0.515 0.60770 0.0004720 0.0001757 2.686 0.00844 ** 0.0001735 0.0001970 0.881 0.38034

Median 0.007969

3Q 1.526089

Max 5.933964

Modelos Seleccin de modelos paso a paso o

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

94

CAP ITULO 6. ANALISIS DE LA COVARIANZA

Marcamos las pestaas atrs/adelante y n a BIC Aceptamos

Start: AIC=240.75 raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) * (lineaB + lineaC) Df Sum of Sq RSS AIC 1 0.343 497.71 236.07 1 0.736 498.10 236.16 1 1.293 498.66 236.29 1 2.100 499.46 236.48 1 3.785 501.15 236.87 1 4.393 501.76 237.01 1 10.824 508.19 238.50 497.36 240.75 1 35.187 532.55 243.98

- pr.cc:lineaC - pr.cc:lineaB - pr.galv2:lineaC - pr.galv2:lineaB - pr.tbc:lineaC - pr.galv1:lineaB - pr.galv1:lineaC <none> - pr.tbc:lineaB

Step: AIC=236.07 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC + pr.galv2:lineaB + pr.galv2:lineaC + pr.tbc:lineaB + pr.tbc:lineaC Df Sum of Sq RSS AIC 1 1.543 499.25 231.67 1 1.555 499.26 231.67 1 2.255 499.96 231.83 1 4.023 501.73 232.25 1 7.313 505.02 233.01 1 16.376 514.08 235.09 497.71 236.07 1 35.574 533.28 239.38 1 0.343 497.36 240.75

- pr.galv2:lineaC - pr.cc:lineaB - pr.galv2:lineaB - pr.tbc:lineaC - pr.galv1:lineaB - pr.galv1:lineaC <none> - pr.tbc:lineaB + pr.cc:lineaC

Step: AIC=231.67 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC + pr.galv2:lineaB + pr.tbc:lineaB + pr.tbc:lineaC Df Sum of Sq RSS AIC 1 0.948 500.20 227.13 1 1.561 500.81 227.27 1 4.772 504.02 228.02 Curso avanzado del paquete estadistico R

- pr.galv2:lineaB - pr.cc:lineaB - pr.tbc:lineaC

Unidad de Consultora Estadstica

CAP ITULO 6. ANALISIS DE LA COVARIANZA

95

- pr.galv1:lineaB - pr.galv1:lineaC <none> - pr.tbc:lineaB + pr.galv2:lineaC + pr.cc:lineaC

1 1 1 1 1

6.631 505.88 228.45 15.430 514.68 230.47 499.25 231.67 35.282 534.53 234.89 1.543 497.71 236.07 0.593 498.66 236.29

Step: AIC=227.13 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB + pr.tbc:lineaC Df Sum of Sq RSS AIC 1 1.492 501.69 222.71 1 4.371 504.57 223.38 1 6.089 506.29 223.78 1 14.666 514.86 225.75 500.20 227.13 1 34.642 534.84 230.20 1 0.948 499.25 231.67 1 0.582 499.61 231.75 1 0.236 499.96 231.83 1 94.996 595.19 242.71

- pr.cc:lineaB - pr.tbc:lineaC - pr.galv1:lineaB - pr.galv1:lineaC <none> - pr.tbc:lineaB + pr.galv2:lineaB + pr.cc:lineaC + pr.galv2:lineaC - pr.galv2

Step: AIC=222.71 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB + pr.tbc:lineaC Df Sum of Sq RSS AIC - pr.tbc:lineaC 1 4.427 506.12 218.98 - pr.galv1:lineaB 1 4.802 506.49 219.07 - pr.galv1:lineaC 1 13.188 514.88 220.99 <none> 501.69 222.71 - pr.tbc:lineaB 1 33.409 535.10 225.49 + pr.cc:lineaC 1 1.494 500.19 227.13 + pr.cc:lineaB 1 1.492 500.20 227.13 + pr.galv2:lineaB 1 0.879 500.81 227.27 + pr.galv2:lineaC 1 0.257 501.43 227.41 - pr.cc 1 48.446 550.13 228.74 - pr.galv2 1 93.828 595.52 238.01 Step: AIC=218.98 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB Df Sum of Sq RSS AIC Unidad de Consultora Estad stica

Curso avanzado del paquete estadistico R

96

CAP ITULO 6. ANALISIS DE LA COVARIANZA

- pr.galv1:lineaB - pr.galv1:lineaC <none> - pr.tbc:lineaB + pr.tbc:lineaC + pr.cc:lineaC + pr.cc:lineaB + pr.galv2:lineaC + pr.galv2:lineaB - pr.cc - pr.galv2

1 1 1 1 1 1 1 1 1 1

4.497 510.61 215.25 12.337 518.45 217.03 506.12 218.98 29.516 535.63 220.85 4.427 501.69 222.71 2.055 504.06 223.26 1.547 504.57 223.38 0.728 505.39 223.57 0.493 505.62 223.63 49.201 555.32 225.07 89.873 595.99 233.34

Step: AIC=215.25 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.galv1:lineaC + pr.tbc:lineaB Df Sum of Sq - pr.galv1:lineaC 1 7.882 <none> - pr.tbc:lineaB 1 33.283 + pr.galv1:lineaB 1 4.497 + pr.cc:lineaC 1 4.200 + pr.tbc:lineaC 1 4.121 + pr.galv2:lineaC 1 0.597 + pr.cc:lineaB 1 0.246 + pr.galv2:lineaB 1 0.184 - pr.cc 1 45.549 - pr.galv2 1 86.487 RSS 518.49 510.61 543.89 506.12 506.41 506.49 510.02 510.37 510.43 556.16 597.10 AIC 212.28 215.25 217.88 218.98 219.05 219.07 219.88 219.96 219.97 220.49 228.80

Step: AIC=212.28 raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.tbc:lineaB Df Sum of Sq <none> - pr.tbc:lineaB + pr.galv1:lineaC + pr.cc:lineaC - pr.cc + pr.tbc:lineaC + pr.galv2:lineaC + pr.galv2:lineaB + pr.galv1:lineaB + pr.cc:lineaB - pr.galv1 - pr.galv2 - lineaC 1 1 1 1 1 1 1 1 1 1 1 1 31.792 7.882 6.288 37.857 3.574 0.521 0.050 0.042 0.016 76.987 81.223 113.472 RSS 518.49 550.29 510.61 512.21 556.35 514.92 517.97 518.44 518.45 518.48 595.48 599.72 631.97 AIC 212.28 214.48 215.25 215.62 215.76 216.23 216.93 217.03 217.03 217.04 223.72 224.55 230.68

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

97

Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.tbc:lineaB, data = acero)

Coefficients: (Intercept) 8.5303698 lineaB -1.1257278

pr.cc 0.0020305 lineaC 2.7411554

pr.galv1 0.0029066 pr.tbc:lineaB 0.0003746

pr.galv2 0.0015580

pr.tbc 0.0009934

Esta salida muestra el modelo simplicado (raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.tbc:lineaB). Las variables eliminadas no inuyen signicativamente en el consumo energtico. e Ejemplo 6.14. Estime el modelo simplicado anterior. Llmelo ModeloComple2. a Solucin: Procedemos de la siguiente forma: o

y y y

Estad sticos Ajuste de modelos Modelo lineal

Nombre del modelo: ModeloComple2 Formula del. . . raiz.consumopr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.tbc:lineaB Aceptar

Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.tbc:lineaB, data = acero) Residuals: Min 1Q Median -5.4317 -1.2986 -0.0415 Coefficients: (Intercept) pr.cc Estimate Std. Error t value Pr(>|t|) 8.530e+00 9.441e-01 9.035 6.77e-15 *** 2.030e-03 7.198e-04 2.821 0.005689 ** Unidad de Consultora Estad stica

3Q 1.5019

Max 6.3258

Curso avanzado del paquete estadistico R

98

CAP ITULO 6. ANALISIS DE LA COVARIANZA

pr.galv1 2.907e-03 7.225e-04 4.023 pr.galv2 1.558e-03 3.770e-04 4.132 pr.tbc 9.934e-04 9.446e-05 10.516 lineaB -1.126e+00 1.199e+00 -0.939 lineaC 2.741e+00 5.612e-01 4.884 pr.tbc:lineaB 3.746e-04 1.449e-04 2.585 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*'

0.000106 7.07e-05 < 2e-16 0.350045 3.59e-06 0.011051

*** *** *** *** *

0.05 '.' 0.1 ' ' 1

Residual standard error: 2.181 on 109 degrees of freedom Multiple R-squared: 0.8247, Adjusted R-squared: 0.8135 F-statistic: 73.27 on 7 and 109 DF, p-value: < 2.2e-16 Al haber coecientes no signicativos (sin estrellas) este modelo incorpora demasiadas variables independientes y se ha de simplicar. La coecientes relacionados con la variable lineaB muestran ciertas dudas respecto a su signicatividad. Generamos un modelo sin este factor aislado. raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB Ejemplo 6.15. Genere el modelo anterior y denomnelo ModeloComple3. Solucin: Procedemos de forma similar al ejemplo anterior: o

Nombre del modelo: ModeloComple3 Formula del. . . raiz.consumopr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB Aceptar

Call: lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB, data = acero) Residuals: Min 1Q Median -5.36027 -1.31064 -0.02664 Coefficients: (Intercept) pr.cc pr.galv1 pr.galv2 Estimate Std. Error t value Pr(>|t|) 7.922e+00 6.857e-01 11.553 < 2e-16 *** 2.141e-03 7.097e-04 3.016 0.003179 ** 2.801e-03 7.133e-04 3.927 0.000150 *** 1.680e-03 3.538e-04 4.749 6.22e-06 *** Curso avanzado del paquete estadistico R

3Q 1.56234

Max 6.47916

Unidad de Consultora Estadstica

CAP ITULO 6. ANALISIS DE LA COVARIANZA

99

pr.tbc 1.043e-03 7.788e-05 13.399 < 2e-16 *** lineaC 2.778e+00 5.595e-01 4.965 2.53e-06 *** pr.tbc:lineaB 2.558e-04 7.040e-05 3.633 0.000427 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.18 on 110 degrees of freedom Multiple R-squared: 0.8233, Adjusted R-squared: 0.8137 F-statistic: 85.42 on 6 and 110 DF, p-value: < 2.2e-16 Todos los coecientes son signicativos y no habr que simplicar nada. La duda surge de a si hemos simplicado demasiado el modelo. De entre los modelos obtenidos, (ModeloComple0, ModeloComple2, ModeloComple3), estimaremos si ajustan igual de bien o por el contrario muestran diferencias. Ejemplo 6.16. Compare los modelos ModeloComple2 y el ModeloComple3. Solucin: Al igual que en apartados anteriores la comparacin de modelos se realiza del siguiente o o modo:

y y y y

Modelos Test de hiptesis o Comparar dos modelos

Selecionar los modelos ModeloComple2 y ModeloComple3 Aceptar

> anova(ModeloComple2, ModeloComple3) Analysis of Variance Table Model 1: raiz.consumo ~ pr.tbc:lineaB Model 2: raiz.consumo ~ Res.Df RSS Df Sum 1 109 518.49 2 110 522.68 -1 pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC + pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB of Sq F Pr(>F) -4.19 0.8808 0.3500

El ajuste es igual de bueno en ambos casos ( p-valor 0,3500 >0,05). La bsqueda de la u sencillez nos indica escoger el modelo con ms grados de libertad ModeloComple3). a Ejemplo 6.17. Compare los modelos ModeloComple0 y el ModeloComple3. Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

100

CAP ITULO 6. ANALISIS DE LA COVARIANZA

Solucin: Efectuamos un anlisis del AIC: o a

y y y y

Modelos Test de hiptesis o Comparar dos modelos

Selecionar los modelos ModeloComple0 y ModeloComple3 Aceptar

> anova(ModeloComple0, ModeloComple3) Analysis of Variance Table Model 1: raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc) * (lineaB + lineaC) * averias Model 2: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB Res.Df RSS Df Sum of Sq F Pr(>F) 1 75 380.18 2 110 522.68 -35 -142.51 0.8032 0.7604 Como el p-valor 0,7347 supera a 0,05 ambos modelos ajustan igual de bien. Seleccionamos el modelo ms simple (ModeloComple3 , con 110 grados de libertad). a Para nalizar, chequeamos la bondad del modelo. Ejemplo 6.18. Determine la bondad del modelo ModeloComple3. Solucin: Para tal menester seguimos los siguientes pasos: o 1. Estudio de la colinealidad.

y y

Modelos Diagnsticos numricos o e Factores de inaccin de. . . o

> vif(ModeloComple3) pr.cc 1.581420 pr.galv1 1.393477 pr.galv2 1.019939 pr.tbc 1.335018 lineaC pr.tbc:lineaB 1.713150 1.929893

Si alguno de los valores supera el valor 4 implica colinealidad (y por lo tanto, sobra alguna variable en el modelo). En este modelo todos los valores no sobrepasan dicha cantidad y por lo tanto no presentan colinealidad. Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

101

2. Comprobemos ahora si el modelo es homocedstico mediante el test de Breusch-Pagan. a

y y

Modelos Diagnsticos numricos o e Test de Breusch-Pagan

Aceptar

> bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + + lineaC + pr.tbc:lineaB, varformula = ~fitted.values(ModeloComple3), + studentize = FALSE, data = acero) Breusch-Pagan test

data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:line BP = 0.4266, df = 1, p-value = 0.5137 Como el p-valor (0,5137) supera a 0,05 no se rechaza la hiptesis de homocedasticidad. o 3. Respecto a la linealidad o no del modelo:

y y

Modelos Diagnsticos numricos o e Test Reset de no linealidad. . .

Desmarcar 3 cubos Aceptar

> resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + + lineaC + pr.tbc:lineaB, power = 2, type = "regressor", data = acero) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

102

CAP ITULO 6. ANALISIS DE LA COVARIANZA

RESET test data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB RESET = 0.474, df1 = 6, df2 = 104, p-value = 0.8263

Como el p-valor 0,8263 es mayor que no se rechaza la hiptesis nula, por lo que no se o requiere aumentar el grado al modelo.

4. Por ultimo veamos si hay alguna observacin at o pica que distorsione el modelo.

y y

Modelos Diagnsticos numricos o e Test de valores at picos de Bonferroni. . .

> outlier.test(ModeloComple3)

max|rstudent| = 3.212874, degrees of freedom = 109, unadjusted p = 0.00172831, Bonferroni p = 0.2022123 Observation: 107

Tenemos que la observacin 107 sigue siendo at o pica. . .

5. Los test anteriores se pueden analizar grcamente: a

Modelos Grcas a Grcas bsicas de diagnstico. . . a a o

> oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2)) > plot(Modelo4) > par(oldpar) Unidad de Consultora Estadstica Curso avanzado del paquete estadistico R

CAP ITULO 6. ANALISIS DE LA COVARIANZA

103

6. Clculo de intervalo de conanza para las obseraciones at a picas. Nuestro inters se centra e en la observacin 107 (si bien la distancia de Cook indica que apenas inuye en el anlisis). o a

y y y

Modelos Grcas a Grcas de comparacin de. . . a o

Bandas de conanza simuladas Aceptamos

> qq.plot(ModeloComple3, simulate = TRUE, labels = FALSE) Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

104

CAP ITULO 6. ANALISIS DE LA COVARIANZA

Como se mantiene dentro del intervalo de conanza no nos preocupamos por la observacin o 107. La estimacin naliza con el siguiente modelo: o 2( consumo 1) =7,922(0,685) + 2,141 1003 (7,0971004 ) pr.cc + 2,801 1003 (7,1331004 ) pr.galv1 + 1,680 1003 (3,5381004 ) pr.galv2 + 1,043 1003 (7,7881005 ) pr.tbc + 2,558 1004 (7,0401005 ) lineaB pr.tbc + 2,778(5,5951001 ) lineaC + Adjusted R-squared: 0,8137 Residual standard error: 2,18 on 110 degrees of freedom con = 2,18.

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

Cap tulo 7 Redaccin de un art o culo


La difusin del trabajo se convierte habitualmente en nuestra ultima meta. Si bien no existen o reglas precisas para garantizar la publicacin de nuestra investigacin, y sin animo de hablar ex o o cathedra, en esta seccin sugerimos diversas observaciones que el investigador puede considerar. o Lo primero consiste en identicar un grupo de revistas interesadas por el trabajo. Seguidamente, comprobamos si en esas revistas han publicado modelos similares al nuestro. Si aparecen art culos similares, lo escribiremos dos o tres veces imitando dichos trabajos. La cuarta versin o la redactaremos por nuestra cuenta. En caso de que nuestro trabajo sea novedoso y no aparezca ninguna referencia previa, hemos de ser conscientes de que tal vez los revisores de la revista descozcan completamente nuestra metodolog Esto implica un especial cuidado con la redaccin y exposicin de nuestra a. o o investigacin, procurando un enfoque muy pedaggico. o o En general los art culos con metodolog estad a stica se dividen en las siguientes secciones: introduccin, metodolog resultados, conclusiones, referencias, tablas y grcos. A continuacin o a, a o presentamos un conjunto de ideas o sugerencias para publicar el modelo obtenido.

Metodolog a. Objetivo: analizar la relacin del consumo de energ con la produccin. o a o Datos: Se realizaron 39 observaciones en cada una de las tres l neas de produccin, recoo gindose 15 observaciones en cada turno (5 para cada l e nea) salvo en el ultimo, que slo o se pudo realizar 12 mediciones (4 en cada l nea). En total se disponen de 117 mediciones que recogen el consumo de energ la produccin colada continua (cc), convertidor de a, o acero (ca), galvanizado tipo 1, galvanizado tipo 2, tren de bandas caliente (tbc) y chapa pintada (pint). Adems, se anot si durante el turno correspondiente se detect alguna a o o anomal o no en la produccin. a o Mtodo de anlisis: Se realiz una anlisis de la covarianza y se emple la transformacin e a o a o o de Box-Cox con = 0,5 con el n de conseguir normalidad, linealidad y homocedasticidad en el modelo ( = 0,05). Se emple el software estad o stico R (Venables and Ripley, 2002; Crawley, 2009). 105

106

CAP ITULO 7. REDACCION DE UN ART ICULO

Resultados 2( consumo 1) =7,922(0,685) + 2,141 1003 (7,0971004 ) pr.cc + 2,801 1003 (7,1331004 ) pr.galv1 + 1,680 1003 (3,5381004 ) pr.galv2 + 1,043 1003 (7,7881005 ) pr.tbc + 2,558 1004 (7,0401005 ) lineaB pr.tbc + 2,778(5,5951001 ) lineaC + Adjusted R-squared: 0,8137 Residual standard error: 2,18 on 110 degrees of freedom con = 2,18. El resto de variables e interacciones no son signicativas al 5 %. Se presenta de forma sucinta una posible interpretacin del modelo: o Existe diferente consumo segn la l u nea de produccin empleada. o La l nea que menos consume es la A; la C consume ms que la A de una forma constante, a y la l nea B gasta ms de una forma proporcional a la produccin del tren de bandas en a o caliente. El producto que ms consume por unidad producida es el Galvanizado I, seguido del CC, a y del Galvanizado II, siendo el de menor gasto el tren de bandas en caliente. La produccin o de CA y de PINT no inuyen signicativamente en el consumo de la empresa. La presencia o no de aver tampoco afecta en el consumo. as El modelo explica el 81.37 % de la energ consumida por la empresa. El restante 18.63 % a de la energ se debe a otros factores no contemplados en el estudio. a Tablas y grcos. Presentamos a continuacin una serie de grcos que explican el modelo. a o a No todos los presentados son igualmente relevantes. Decida qu grco publicar y cul no. e a a a (Fig. ??, ??, ??, ?? y ??).

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 7. REDACCION DE UN ART ICULO

107

Figura 7.1: Grcas bsicas de diagnstico de una regresin. a a o o

Figura 7.2: Grcas de comparacin de cuantiles de los residuos de un modelo. a o

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

108

CAP ITULO 7. REDACCION DE UN ART ICULO

Figura 7.3: Matriz de diagramas de dispersin. o

Figura 7.4: Matriz de diagramas de dispersin (para variables signicativas). o

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 7. REDACCION DE UN ART ICULO

109

Figura 7.5: Relaciones entre produccin y consumo de energ por la l o a, nea de montaje (diferentes escalas).

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

Cap tulo 8 Ejercicios


Descargue la base de datos de la encuesta sobre el consumo de alcohol (http://uce.uniovi. es/). La descripcin del cuestionario se encuentra en el Apndice ??. o e Ejercicio 1. Describa los principales estadsticos de Ingresos mensuales personales (p4), In gresos mensuales familiares (p5), Dinero semanal que te dan (p7). Solucin: o mean sd 0% 25% 50% 75% 100% n NA p4 198.99766 367.93078 0 0 0 295 2520 1283 0 p5 1607.92666 1030.08156 86 1080 1440 1872 14400 859 424 p7 31.53521 22.26721 1 20 25 40 250 710 573 Ejercicio 2. Represente grcamente la distribucin por barrios (p1). a o Solucin: o

Ejercicio 3. Dibuje el histograma del consumo total semanal. Solucin: o 110

CAP ITULO 8. EJERCICIOS

111

Ejercicio 4. Existe relacin entre el consumo total de alcohol y el sexo? o Solucin: o Welch Two Sample t-test data: p12 by p2 t = 8.0686, df = 1178.718, p-value = 1.738e-15 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 3.013180 4.949356 sample estimates: mean in group Mascul. mean in group Femen. 11.155844 7.174576 Ejercicio 5. Realice un modelo de regresin en el que el consumo total de alcohol (p12) dependa o del barrio (p1), sexo (p2), edad (p3) y de los ingresos (p4, p5, p7). Deprelo. u Solucin: o Call: lm(formula = p12 ~ p4 + p5 + p7 + p1 + p2 + p3, data = alcohol) Residuals: Min 1Q -12.965 -5.349 Coefficients: (Intercept) Estimate Std. Error t value Pr(>|t|) 1.7314781 3.1418905 0.551 0.581851 Unidad de Consultora Estad stica

Median -2.224

3Q 2.741

Max 48.972

Curso avanzado del paquete estadistico R

112

CAP ITULO 8. EJERCICIOS

p1[T.Calzada-Nata.-Moreda] 0.2982704 p1[T.Centro-Cimadevilla] 1.5453320 p1[T.Contrueces-Ceares] 3.4139943 p1[T.El Coto] -0.8240901 p1[T.El Llano] 0.6082775 p1[T.Periferia] 2.6534485 p1[T.Pumar.-Roces] 1.1068011 p2[T.Mascul.] 3.2248798 p3 0.0673985 p4 -0.0016527 p5 0.0005950 p7 0.0781025 Signif. codes:

1.6833515 1.5566696 2.4495026 2.0950283 1.6791857 2.0806684 1.6444040 0.8420124 0.1292659 0.0053703 0.0004561 0.0208088

0.177 0.993 1.394 -0.393 0.362 1.275 0.673 3.830 0.521 -0.308 1.305 3.753

0.859442 0.321397 0.164101 0.694249 0.717344 0.202885 0.501258 0.000147 *** 0.602356 0.758416 0.192702 0.000198 ***

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.73 on 437 degrees of freedom (833 observations deleted due to missingness) Multiple R-squared: 0.1071, Adjusted R-squared: 0.08256 F-statistic: 4.367 on 12 and 437 DF, p-value: 1.367e-06 > modelofinal <- Rcmdr::stepwise(modelo1, + direction='backward/forward', + criterion='BIC') Direction: Criterion: backward/forward BIC

Start: AIC=2016.36 p12 ~ p4 + p5 + p7 + p1 + p2 + p3 Df Sum of Sq RSS - p1 7 395.41 33704 - p4 1 7.22 33315 - p3 1 20.72 33329 - p5 1 129.73 33438 <none> 33308 - p7 1 1073.76 34382 - p2 1 1118.05 34426 AIC 1978.9 2010.3 2010.5 2012.0 2016.4 2024.5 2025.1

Step: AIC=1978.91 p12 ~ p4 + p5 + p7 + p2 + p3 Df Sum of Sq RSS - p4 1 2.84 33706 - p3 1 20.27 33724 - p5 1 192.53 33896 <none> 33704 - p2 1 1059.88 34763 AIC 1972.8 1973.1 1975.4 1978.9 1986.7 Curso avanzado del paquete estadistico R

Unidad de Consultora Estadstica

CAP ITULO 8. EJERCICIOS

113

- p7 + p1

1 7

1274.22 34978 1989.5 395.41 33308 2016.4

Step: AIC=1972.83 p12 ~ p5 + p7 + p2 + p3 Df Sum of Sq RSS - p3 1 19.74 33726 - p5 1 201.80 33908 <none> 33706 + p4 1 2.84 33704 - p2 1 1057.06 34764 - p7 1 1273.99 34980 + p1 7 391.03 33315 Step: AIC=1966.99 p12 ~ p5 + p7 + p2 Df Sum of Sq RSS - p5 1 190.99 33917 <none> 33726 + p3 1 19.74 33706 + p4 1 2.32 33724 - p2 1 1052.82 34779 - p7 1 1505.36 35232 + p1 7 390.67 33336 Step: AIC=3088.28 p12 ~ p7 + p2 AIC 1963.4 1967.0 1972.8 1973.1 1974.7 1980.5 2004.5 AIC 1967.0 1969.4 1972.8 1978.9 1980.6 1983.4 2010.3

Call: lm(formula = p12 ~ p7 + p2, data = alcohol) Coefficients: (Intercept) 8.29555

p7 0.07475

p2[T.Femen.] -2.90666

Genere el modelo simplicado p12p7 + p2. Llmelo modelofinal. a Call: lm(formula = p12 ~ p7 + p2, data = alcohol) Residuals: Min 1Q -25.982 -5.355 Coefficients: Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

Median -2.510

3Q 2.826

Max 50.369

114

CAP ITULO 8. EJERCICIOS

Estimate Std. Error t value Pr(>|t|) (Intercept) 5.38889 0.64189 8.395 2.53e-16 *** p2[T.Mascul.] 2.90666 0.65976 4.406 1.22e-05 *** p7 0.07475 0.01478 5.056 5.45e-07 *** Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.706 on 707 degrees of freedom (573 observations deleted due to missingness) Multiple R-squared: 0.067, Adjusted R-squared: 0.06436 F-statistic: 25.39 on 2 and 707 DF, p-value: 2.255e-11 Ejercicio 6. Determine la bondad del modelo del ejercicio anterior (modelofinal). Solucin: o Breusch-Pagan test data: p12 ~ p2 + p7 BP = 48.3988, df = 1, p-value = 3.478e-12 RESET test data: p12 ~ p2 + p7 RESET = 14.9451, df1 = 1, df2 = 706, p-value = 0.0001209 outlierTest(Modelofinal) rstudent unadjusted p-value Bonferonni p 68 5.932588 4.6702e-09 3.3159e-06 284 5.883926 6.1879e-09 4.3934e-06 498 5.299646 1.5527e-07 1.1025e-04 1131 5.270635 1.8084e-07 1.2840e-04 154 5.166829 3.1018e-07 2.2023e-04 738 4.814580 1.8055e-06 1.2819e-03 43 4.273992 2.1837e-05 1.5504e-02 1093 4.154694 3.6566e-05 2.5962e-02

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

CAP ITULO 8. EJERCICIOS

115

Ejercicio 7. Realice una transformacin logartmica de las variables gasto total de alcohol o (p12) y dinero semanal que te dan (p7). Calcule el diagrama de dispersin de las logar o tmicas de p12 y p7. Solucin: o

Ejercicio 8. Genere el modelo log(p12)log(p7)+ p2. Llmelo ModeloTransfor. a Solucin: o Call: lm(formula = log(p12) ~ log(p7) + p2, data = alcohol) Residuals: Min 1Q -2.77672 -0.58646 Coefficients: (Intercept) log(p7) p2[T.Mascul.] Estimate Std. Error t value Pr(>|t|) 0.51070 0.17571 2.907 0.00377 ** 0.34916 0.05266 6.630 6.66e-11 *** 0.33816 0.06652 5.084 4.75e-07 *** 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Median 0.05107

3Q 0.62273

Max 2.37514

Signif. codes:

Residual standard error: 0.881 on 707 degrees of freedom (573 observations deleted due to missingness) Multiple R-squared: 0.09653, Adjusted R-squared: 0.09397 F-statistic: 37.77 on 2 and 707 DF, p-value: 2.605e-16 Curso avanzado del paquete estadistico R Unidad de Consultora Estad stica

116

CAP ITULO 8. EJERCICIOS

Ejercicio 9. Determine la bondad del modelo ModeloTransfor. Breusch-Pagan test data: log(p12) ~ log(p7) + p2 BP = 0.2286, df = 1, p-value = 0.6326 RESET test data: log(p12) ~ log(p7) + p2 RESET = 8e-04, df1 = 1, df2 = 706, p-value = 0.9773 outlierTest(ModeloTransform.) No Studentized residuals with Bonferonni p < 0.05 Largest |rstudent|: rstudent unadjusted p-value Bonferonni p 916 -3.204988 0.0014115 NA Observation: 916

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

Apndice A e Bases de datos


A.1. Produccin de acero o

Con el n de analizar el consumo energtico de una empresa productora de acero se inse peccionaron durante cinco d cada una de las tres l as neas de produccin. En cada una de ellas o se anotaron las variables ms relevantes para las distintas horas del turno, salvo en la ultima a hora donde slo se inspeccion durante cuatro d En total se disponen de 117 mediciones o o as. recogidas en las siguientes variables: consumo Consumo energtico de la empresa (Megavatioshora). e pr.tbc Produccin del tren de bandas calientes (Toneladas de acero). o pr.cc Produccin de colada continua (Toneladas de acero). o pr.ca Produccin del convertidor de acero (Toneladas de acero). o pr.galv1 Produccin de galvanizado de tipo I (Tns. de acero). o pr.galv2 Produccin de galvanizado de tipo II (Tns. de acero). o pr.pint Produccin de chapa pintada (Tns. de acero). o linea L nea de produccin empleada (A, B o C). o hora Hora en la que se recogieron los datos (1, 2,. . . , 8). temperatura Temperatura del sistema: alta (Alta), media (Media) y baja (Baja). averias Presencia de aver (S No). as , naverias Nmero de aver detectadas. u as sistema Activacin de un sistema de deteccin de sobrecalientamiento: encendido (ON), apagado o o (OFF). raiz.consumo Transformacin de Box-Cox de la variable consumo con = 0,5. o raiz.consumo = 2( consumo 1) 117

118

APENDICE A. BASES DE DATOS

reco.linea L nea de produccin: l o nea A (A) y l neas B o C (ByC). lineaB Vale 1 si es de la l nea B y 0 en el resto de los casos. lineaC Vale 1 si es de la l nea C y 0 en el resto de los casos.

Una muestra de la base datos acero es: 1 2 3 4 5 6 1 2 3 4 5 6 consumo pr.tbc pr.cc pr.ca pr.galv1 pr.galv2 pr.pint linea hora temperatura 135.31 6840 830 0 579 1401 0 A 1 A 84.08 443 903 58 611 1636 717 A 2 A 131.62 7270 572 36 982 1963 243 A 3 M 90.46 5031 694 122 896 1568 0 A 4 M 120.04 9365 1054 157 403 1480 0 A 5 M 153.68 9281 1003 172 605 1525 473 A 6 M averias naverias sistema raiz.consumo reco.linea lineaB lineaC S 1 OFF 21.26457 A 0 0 No 0 OFF 16.33903 A 0 0 No 0 OFF 20.94515 A 0 0 No 0 ON 17.02209 A 0 0 No 0 OFF 19.91255 A 0 0 S 1 OFF 22.79355 A 0 0

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

APENDICE A. BASES DE DATOS

119

A.2.

Consumo de alcohol

Encuesta sobre el consumo de alcohol de las personas jvenes de Gijn o o Cdigo del cuestionario codigo: o 1. Periferia 2. Pumar - Roces n 3. El Llano 4. El Coto p1 Barrio donde vive: 5. Centro - Cimadevilla 6. Calzada - Natahoyo - Moreda 7. Arena - Viesques - Bibio 8. Contrueces - Ceares p2 Sexo: p3 Edad: p4 Ingresos mensuales personales (en euros): p5 Ingresos mensuales familiares (en euros): p6 Nmero de personas en la familia, con ingresos: u p7 Dinero semanal que te dan (en euros): 1. Nunca he fumado 2. Slo fum alguna vez o e p8 Fumas cigarrillos?: 3. Fumaba pero ya no 4. S fumo , p9 A qu edad comenzaste a fumar?: e Los siguientes consumos se expresan en unidades alcohlicas, obtenidas a partir de las tablas o de equivalencia segn la respuesta facilitada por la persona entrevistada. u p10 Consumo de alcohol viernes tarde/noche: p11 Consumo de alcohol sbado tarde/noche: a p12 Consumo de alcohol total semanal: 1. Masculino 2. Femenino

Una muestra de la base datos acero es: 1 2 3 codigo p1 p2 p3 1 Calzada-Nata.-Moreda Femen. 19 2 El Coto Mascul. 18 3 El Llano Mascul. 23 p4 p5 p6 p7 0 2160 2 30 0 720 1 10 0 1260 1 NA p8 p9 Nunca he fumado NA Nunca he fumado NA Nunca he fumado NA

Curso avanzado del paquete estadistico R

Unidad de Consultora Estad stica

120

APENDICE A. BASES DE DATOS

4 5 6 1 2 3 4 5 6 p10 0 2 3 3 0 1

4 El Llano Mascul. 22 144 1800 5 Pumar.-Roces Femen. 23 0 1620 6 Centro-Cimadevilla Mascul. 16 0 1080 p11 p12 6 6 0 2 4 7 4 8 4 4 1 3

3 NA Fumo actualmente 12 1 30 Fumaba alguna vez 17 2 10 Nunca he fumado NA

Unidad de Consultora Estadstica

Curso avanzado del paquete estadistico R

Вам также может понравиться