Вы находитесь на странице: 1из 12

M.

Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

Prctica 3:

Descripcin bidimensional de datos

La siguiente prctica la realizamos con el chero

Pulse.rda

que contiene los datos

de pulsaciones (Pulse1) de un conjunto de individuos. La variableActivity indica el


nivel de actividad deportiva que realizan de manera habitual. La variable

Ran

indica

aquellos individuos que despus de lanzar una moneda al aire y obtener cara estuvieron
corriendo durante 5 minutos. A todos los individuos (corrieran o no) se les volvi a medir
las pulsaciones (Pulse2). Adems contiene los datos de sus pesos en libras (Weight) y
sus alturas en pulgadas (Height).
Adems, usaremos el chero

Mundo.rda.

1. Tablas de doble entrada


R-Commander dispone de la opcin para construir tablas de doble entrada para
una pareja de variables cualitativas, o en general, para parejas de factores. Adems es
posible construir las distribuciones de frecuencias condicionadas por las o por columnas. Las opciones se encuentran en  Tabla

de doble entrada

Prctica 1.1 (Tabla de contingencia)

1. Realizar la tabla de doble entrada que

contingencia

de  Estadsticos.

del men  Tabla

de

Tablas de contingencia de Estadsticos, usando Sex


Activity como variable columna.

se encuentra en el men
como variable la y

La opcin sealada por defecto presenta las frecuencias absolutas de la tabla de


doble entrada. Seala la opcin

Porcentajes totales.

Observa las frecuencias

conjuntas e interpreta su signicado.


2. Realiza las distribuciones de frecuencias de la variable

Actividad

condicionada a

cada uno de los sexos (distribuciones por las). Identica las dos distribuciones de
frecuencias que se generan.
3. Realiza las distribuciones de frecuencias de la variable
una de las modalidades de la variable

Actividad

Sexo

condicionada a cada

(distribuciones por columnas).

Identica las tres distribuciones de frecuencias que se generan.


4. Responde a las siguientes cuestiones:
a) El nmero de individuos de la muestra que son hombres y realizan la actividad

B.
b) El porcentaje que supone la frecuencia anterior.
c) El porcentaje de individuos que practican la actividad B.
d) El porcentaje de mujeres de la muestra.

Prctica 3

Curso 2011-12

Pgina: 1

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

e) El porcentaje que practican la actividad B en el conjunto de hombres.


f) El porcentaje de hombres dentro de los que practican la actividad B.

5. Indica qu tipo de frecuencia o porcentaje (conjunto, marginal o condicionado) es


cada uno de los del apartado anterior.

Prctica 1.2 Mediante la opcin Datos ->Modificar variables del conjunto de

datos activo ->Segmentar variable numrica

podemos crear una clasicacin de

los datos de una variable cuantitativa continua en clases de intervalo. Dicha variable
segmentada en clases de intervalo puede ser usada para intervenir en una tabla de doble
entrada.
Por ejemplo, si quisiramos hacer una tabla de frecuencias de la pareja de variables

(Height,

Weight)

lo nico que podemos hacer es mediante agrupaciones en clases de

intervalo, al igual que hacamos en el caso de una nica variable cuantitativa continua.

Datos ->Modificar variables del conjunto de datos activo


->Segmentar variable numrica para crear la variable Height2 y Weight2 de forma
que Height2 establece 3 niveles de altura H1, H2 y H3 de Height y Weight2 establece
3 niveles de peso W1, W2 y W3 de Weight. (En la imagen siguiente aparece para la
variable Height)
Usamos la opcin

Una vez que las dos variables estn segmentadas en clases de intervalos podemos
usarlas para llevar a cabo la tabla de frecuencias de doble entrada.
1. Realiza la tabla de doble entrada de la pareja de variables (Height2, Weight2). Qu
porcentaje de individuos de la muestra tienen el mismo nivel de peso y altura?.
2. Realiza la tabla de distribuciones de frecuencias por las. Cul es la distribucin
de frecuencias de la variable

Weight2 (en porcentajes) de los individuos que tienen

nivel medio de altura?. Cul es la moda en cada distribucin?


3. Realiza la tabla de distribuciones de frecuencias por columnas. Cul es la distribucin de frecuencias de la variable

Height2

(en porcentajes) de los individuos que

tienen nivel alto de peso?. Cul es la moda en cada distribucin?. Qu diras


respecto a la posible relacin entre la pareja de variables?.

2. Grcas de una tabla de doble entrada


La grca que se ha usado para representar grcamente la distribucin de frecuencias de una variable cualitativa o de un factor ha sido, en el caso de una sola variable, el

Prctica 3

Curso 2011-12

Pgina: 2

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

diagrama de sectores o el diagrama de barras. En el caso de 2 variables,

R-Commander

no dispone de opciones en el men de grcas y hay necesariamente que recurrir a los


comandos de

R.
X, Y ,

Para describir una pareja de variables cualitativas


en los vectores

x, y ,

la funcin

table(x,y)

cuyos datos se encuentran

construye la tabla de frecuencias absolutas

conjuntas o tabla de doble entrada.

table(x,y) #

Tabla de frecuencias absolutas;

en las e

en columnas.

barplot(table(x,y)) # Grco en forma de barras de las frecuencias marginales


de y. En cada barra apila las frecuencias conjuntas para cada clase de x.
barplot(table(x,y),beside=T) # Grco en forma de barras de las frecuencias
marginales de y. En cada barra desapila las frecuencias conjuntas para cada clase
de x.
barplot(table(x,y),lengend.text=c( )) #
quetas de las clases del factor x.

en

c( )

podemos incluir las eti-

prop.table(table(x,y)) # Tabla de frecuencias relativas; x en las e y en columnas.

prop.table(table(x,y),1) #

Tablas de frecuencias relativas condicionadas por

las.

prop.table(table(x,y),2) #

Tablas de frecuencias relativas condicionadas por

columnas.
Las opciones

barplot( ), beside=T

lengend.text=c( )

pueden ser aplicadas

a las tablas de frecuencias relativas o condicionales por las o por columnas.


Si intercambiamos

por

y,

es decir,

en las y

barras representan las frecuencias marginales de


clases o modalidades del factor

y.

en columnas, los grcos de

apiladas o desapiladas por las

Prctica 2.1 (Aprendiendo R) Describe la pareja de factores Sexo y Actividad del


chero Pulse.TXT mediante las funciones de R y la ventana de instrucciones de RCommander.

table(Sexo,Actividad) # Tabla de frecuencias absolutas conjuntas, en las Sexo


y en columnas Actividad.
table(Sexo,Actividad)->t #

Opcional. Guarda en el objeto

el contenido de

la tabla. Si no se hace, el resto de funciones tienen que ejecutarse sobre el objetotable(Sexo,Actividad).

barplot(table(Sexo,Actividad)) #

Diagrama de barras de la pareja de fac-

tores. Las alturas de las barras representan las frecuencias marginales de

Actividad

y en cada una de ellas se apilan las correspondientes a cada uno de los sexos.

Prctica 3

Curso 2011-12

Pgina: 3

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

barplot(table(Sexo,Actividad),beside=T) #

Diagrama de barras desapiladas

de la pareja de factores. En el eje horizontal se representan las clases del factor

Actividad y para cada una se desapilan las correspondientes frecuencias conjuntas


para cada uno de los sexos.

barplot(table(Sexo,Actividad),legend.tex=c("H","M"))#
aadiendo etiquetas para distinguir las clases del factor Sexo.
prop.table(table(Sexo, Actividad)) # Tabla
tas, en las Sexo y en columnas Actividad.
barplot(prop.table(table(Sexo, Actividad)))

Igual que antes,

de frecuencias relativas conjun-

Diagrama de barras de la pareja de

factores pero ahora con frecuencias relativas.

prop.table(table(Sexo, Actividad),1) # Tabla de frecuencias relativas condicionadas por las (Sexo)


barplot(prop.table(table(Sexo, Actividad),1),beside=T) # Diagrama de
barras de frecuencias relativas condicionadas por las (Sexo). Las tres barras del
mismo color representan una distribucin condicionada. Para que las variables
fueran independientes las alturas de la pareja de barras (H y M) para cada clase
de actividad deberan ser iguales.

barplot(prop.table(table(Sexo, Actividad),2),beside=T) # Diagrama de


barras de frecuencias relativas condicionadas por columnas (Actividad). Las dos
barras en cada modalidad de Actividad es la distribucin del sexo condicionada a
dicha actividad.
Podemos repetir las tablas y grcos anteriores para el objeto

table(Actividad,Sexo).

Interpreta cada una de las frecuencias de dichas tablas y grcos.

Prctica 2.2 Realiza los grcos para la pareja de variables (Height2, Weight2). Describe el comportamiento de la variable

Weight2

en funcin de

Height2.

3. Estadsticos y diagramas de caja por grupos


En general, cuando trabajamos con variables condicionadas

Y |x, como variables uni-

variantes, el tipo de tratamiento estadstico es el mismo que para la variable marginal

Y.

La diferencia es que nos interesa tratar todas las variables

comportamiento depende del valor

X=x

Y |x

para analizar si su

(variables dependientes) o por el contrario en

el comportamiento de todas las variables condicionadas

Y |x no hay diferencias signica-

tivas (variables independientes).


Como ya dijimos, un resumen descriptivo de una variable cuantitativa puede venir dado mediante el resumen descriptivo de la opcin

numricos.

Estadsticos->Resmenes->Resmenes

Esta opcin puede ser llevada a cabo para cada grupo de individuos segn

la clasicacin hecha por el factor independiente

X.

La descripcin anterior puede completarse mediante el

otes por grupos,

diagrama de caja y big-

pues ste recoge para ser interpretadas las caractersticas de central-

izacin, localizacin, dispersin y forma de la distribucin de frecuencias. Por ello, como

Prctica 3

Curso 2011-12

Pgina: 4

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

herramienta bsica para analizar la dependencia entre una variable cuantitativa y una
cualitativa vamos a usar este grco.

Prctica 3.1 En la opcin Estadsticos->Resmenes->Resmenes numricos obtenemos algunos estadsticos bsicos de la variable Pulse2 condicionada a las modalidades
de

Activity,

seleccionando en la opcin

Resumir por grupos

dicho factor.

1. Cuntos individuos de la muestra practican cada actividad?


2. Qu actividad presenta por trmino medio menores pulsaciones?
3. Qu muestra es la ms homognea?.

Prctica 3.2 (Diagrama de caja y bigotes por grupos) Vamos a construir el diagrama de caja y bigotes de la variable Pulse2 para cada tipo de actividad. La opcin
la podemos encontrar en diagrama de caja del men Grcas y seleccionando la opcin Grca por grupos. Discute las caractersticas de cada una de las tres muestras
comparndolas entre ellas.

Prctica 3.3 (Diagrama de medias) Mediante la opcin Grfica de medias podemos visualizar las medias junto con sus desviaciones tpicas de cierta variable cuantitativa, cuando dichas medias se han calculado por niveles de cierto factor o atributo. Realiza
el grco de medias que se halla en el men de grcas para la variable

Activity.

cin de las modalidades de

Pulse2

en fun-

Discute las grcas en trminos de comparacin

de los valores medios y de dispersin de las tres muestras.

4. Diagrama de dispersin
Si la pareja de variables

(X, Y )

son cuantitativas continuas y no estn agrupadas en

clases de intervalo no es posible realizar tablas de frecuencias porque la extensin de la


tabla sera excesivamente larga. La forma de representacin grca es mediante nubes de
puntos

(xi , yi )

de todas las parejas de valores observados. Cuando estudiamos la posible

relacin entre dos variables cuantitativas continuas es necesario en primer lugar intuir
tanto la forma como la intensidad de la relacin. Ello podemos llevarlo a cabo mediante
un grco llamado Diagrama de dispersin que representa en el plano bidimensional las
parejas de valores

(xi , yi ),

desde

i = 1, 2, ...., n.

La forma de la nube puede indicarnos

si existe una relacin ms o menos intensa entre dos variables, que en las prximas
prcticas cuanticaremos mediante estadsticos.

Prctica 4.1 (Diagrama de dispersin) El siguiente grco muestra el diagrama de

(Height, Weight). Ha sido obtenido en Grficas


->Diagrama de Dispersin. Hemos seleccionado Height como variable independiente
y Weight como variable dependiente. En opciones hemos dejado nicamente la opcin
de cajas de dispersin marginales que efecta una descripcin marginal de cada

dispersin para la pareja de variables

una de ellas mediante el diagrama de caja y patillas. El resto de opciones no deben ser
seleccionadas, pues de momento no se usan.
La nube de puntos representa cada uno de los puntos observados respecto a la pareja
de variables en estudio. La forma de la nube nos indica que puede haber cierta relacin
Prctica 3

Curso 2011-12

Pgina: 5

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

Hombre
Mujer

200

200

160

100

100

120

140

180

160

Weight

Weight

180

140

120

62

64

66

68

70

72

74

62

Height

64

66

68

70

72

74

Height

lineal entre dichas variables pues la forma de la nube est ms o menos dispersa a lo
largo de una recta creciente.
La grca tambin puede hacerse por grupos, teniendo en cuenta una tercera variable
que sea un factor para clasicar individuos en grupos. Por ejemplo, la grca anterior
se podra haber hecho teniendo en cuenta el sexo de los individuos. Basta con sealar
dicha variable en la opcin

Grficas por grupos.

Prctica 4.2 (Matriz de diagramas de dispersin) La opcin Matriz de diagramas

de dispersin

puede llevar a cabo el grco anterior para ms de una pareja de vari-

ables.
Llevar a cabo la matriz de diagramas de dispersin tomando en cuenta las variables

Pulse1, Pulse2, Weight y Height.

Observar cada una de las nubes de puntos, de-

tectando en cada uno de ellos qu variable acta como variable independiente (la que
se representa en el eje horizontal) y cul acta como variable dependiente (la que se
representa en el eje vertical).

5. Regresin lineal
Para esta prctica vamos a trabajar con el chero

Mundo.rda.

Prctica 5.1 (Recta de regresin y lnea suavizada) Realizamos el grco de dispersin de la pareja de variables (ESPMAS,

ESPFEM) mediante la opcin Grficas ->Diagrama


de dispersin. Seleccionando la variable ESPMAS y ESPMAS, en variable x e y respectivamente. En options sealamos Lnea de mnimos cuadrados y Smooth line.
La

Lnea de mnimos cuadrados es la recta que mejor ajusta a la nube de puntos

bajo el criterio de mnimos cuadrados, es la recta que ms cerca pasa por la nube
de puntos.

Smooth line

es la lnea suavizada que aproxima a la funcin que mejor ajusta a

la nube de puntos. Si la nube est formada por la coleccin de

Prctica 3

Curso 2011-12

puntos

(xi , yi );

Pgina: 6

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

i = 1, ...., n,

Universidad de Murcia

el valor de la curva suavizada

f (xi )

por la media aritmtica de un nmero predeterminado de

yi .

60

ESPFEM

70

80

posteriores a

(xi , yi ) viene dado


valores yj anteriores y

en el punto

50

40

45

50

55

60

65

70

75

ESPMAS

Cuando ambas lneas son parecidas indica que el ajuste lineal es apropiado para relacionar las variables en juego. En caso contrario, un ajuste no lineal sera ms adecuado.

En la grca anterior observamos que para explicar la relacin entre la pareja (ESPMAS,

ESPFEM)

la recta es la funcin ms adecuada puesto que la recta de mnimos cuadrados

y la lnea suavizada son casi coincidentes.

Prctica 5.2 (Obtencin de la recta de regresin) En los casos anteriores es posible que interese obtener la expresin de la recta de regresin as como el grado de bondad
del ajuste medido mediante el Coeciente de Determinacin. Este parmetro es usado,
adems, para comparar la bondad del ajuste entre dos situaciones.

Estadsticos ->Ajuste
de Modelos ->Regresin lineal. Elegimos en Variable explicada la variable dependiente, (ESPFEM en este caso) y en Variable explicativa la variable independiPara obtener la recta de regresin debemos elegir la opcin

ente (ESPMAS en este caso).

Realizada esta opcin con la pareja de variables (ESPMAS,

ESPFEM)

obtenemos que la

recta de regresin es

ESP F EM = 2.55 + 1.11 ESP M AS


con un coeciente de determinacin

r2 = 0.965
De la expresin de la recta obtenemos que por cada ao que aumenta

ESPMAS

aumento medio de 1.11 aos en

ESPFEM.

96.5 % de la varianza de

queda explicada por su relacin lineal con

ESPFEM

hay un

El coeciente de determinacin indica que el

ESPMAS

y es

la medida de bondad del ajuste ms habitual.


El uso comn de la recta de regresin es para estimar el valor medio de la variable
dependiente cuando la variable independiente toma un valor jo.
Prctica 3

Curso 2011-12

Pgina: 7

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

Por ejemplo, supongamos que queremos estimar el valor medio de la variable


para el conjunto de pases cuyo valor de

ESPMAS

ESPFEM

es de 75 aos. Haramos

ESP F EM = 2.55 + 1.11 75 = 79.95


Es decir, el valor medio de

ESPFEM

es de 79.95 aos.

6. Prcticas adicionales
1. Repetir las tablas y grcos de la primera seccin para la pareja de variables

table(Smokes, Activity). Interpreta cada una de las frecuencias de dichas tablas


y grcos.
Responde a las siguientes cuestiones:

a ) El nmero de individuos de la muestra que fuman y realizan la actividad B.


b ) El porcentaje que supone la frecuencia anterior.
c ) El porcentaje de individuos que fuman.
d ) El porcentaje que practican la actividad B en el conjunto de fumadores.
e ) El porcentaje de fumadores dentro de los que practican la actividad B.

Weight a kilos. Usa


Modificar variables del conjunto de datos activo ->Calcular
una nueva variable para crear la variable Peso, expresada en kilos.

2. Sabiendo que una libra es 0.453 kilos, transforma la variable


la opcin

3. Describir la variable

Peso

en funcin del sexo. Interpreta los estadsticos bsicos

para cada grupo.


4. Crea una nueva variable llamada

Dif=Pulse2-Pulse1.

Dif

para expresar la diferencia de pulsaciones

Estudia el comportamiento de dicha variable en funcin de

Ran).

si se corri 5 minutos o no (variable

Obtener las caractersticas bsicas de

las dos muestras mediante:

a ) Estadsticos bsicos por grupos.


b ) Diagrama de caja por grupos
c ) Grca de medias y desviaciones tpicas.
5. Sabiendo que una pulgada son 2.54 cm, crea una variable nueva llamada
para transformar la variable

Prctica 3

Height

Altura

a metros con 2 cifras decimales.

Curso 2011-12

Pgina: 8

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

6. Describe la variable anterior en funcin del sexo. Interpreta los estadsticos bsicos
para cada grupo.

Mundo.rda.

7. Mediante el chero

Realizar una matriz de diagramas de dispersin

con aquellas variables cuantitativas continuas que consideres de mayor inters.


Observar qu casos se observan en donde la nube de puntos se aproxima ms a
una recta y en cules no. En estos segundos casos, pensar sobre qu tipo de ajuste
sera ms adecuado.
8. Llevar a cabo el grco de dispersin para la pareja de variables (FERT,
ando las opciones

Lnea de mnimos cuadrados

Smooth line.

NATAL) us-

Comparar este

grco con el anterior.


9. Para esta pareja de variables, obtener la recta de regresin, interpretar la pendiente
de la recta, valorar la bondad del ajuste y estimar el valor de NATAL cuando
FERT=1.6.

7. Regresin no lineal
Esta seccin no es contenido obligatorio del curso, aunque se aade en este punto
para completar el tema de regresin simple y para alumnos que desean saber ms.
La forma de la nube de puntos puede sugerir en ocasiones que existe relacin estadstica entre dos variables pero que dicha relacin no es de tipo lineal, como puede sugerir
las dos siguientes nubes de puntos.

150

80

0
0

5000

50

50

60

70

ESPFEM

100

MORTINF

10000

15000

20000

PIB

5000

10000

15000

20000

PIB

Algunas transformaciones de los datos pueden linealizar la nube de puntos, de forma


que la nube transformada tiene forma lineal y es posible aplicar a esta nueva nube las
tcnicas de regresin lineal.
Algunas transformaciones habituales que consiguen la linealidad son las siguientes:

Regresin hiperblica

b
y =a+
x

Prctica 3

Cuando vemos la nube con forma aproximada a la funcin

1
x

y de esa forma la funcin de ajuste

Curso 2011-12

Pgina: 9

podemos realizar el cambio

x0 =

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

de la variable

1
X0 = .
X

sera

Regresin logartmica

Y = a + b X 0,

Universidad de Murcia

es decir, sera lineal respecto a la variable

Cuando vemos la nube con forma aproximada a la funcin

y = a + b log(x) podemos realizar el cambio x0 = log(x) y de esa forma la funcin


0
de ajuste de la variable Y sera Y = a + b X , es decir, sera lineal respecto a la
0
variable X = log(X).
Regresin potencial

ax

y=
y = a xb

Cuando vemos la nube con forma aproximada a la funcin

podemos calcular logaritmos en ambos miembros de la expresin

resultando

log(y) = log(a) + b log(x)


y 0 = log(y) y el cambio x0 = log(x) y de esa
0
0
0
la variable Y = log(Y ) sera Y = a + b X , es
0
variable X = log(X).

es decir, podemos realizar el cambio


forma la funcin de ajuste de
decir, sera lineal respecto a la

Regresin exponencial

y = ab

Cuando vemos la nube con forma aproximada a la funcin


x
podemos calcular logaritmos en ambos miembros de la expresin y = ab

resultando

log(y) = log(a) + x log(b)


es decir, podemos realizar el cambio y
0
0
de la variable Y = log(Y ) sera Y =
0
variable X con b = log(b).

= log(y) y de esa forma la funcin de ajuste


a + b0 X , es decir, sera lineal respecto a la

Prctica 7.1 Con los ejemplos anteriores observamos que la transformacin logartmica
resuelve muchas situaciones de ajustes no lineales del tipo exponencial o potencial.

log(y) calcula el logaritmo natural, (en base e)


nmero x que verica exp(x)=y, donde exp(x) es la

En R y R-Commander, la funcin
del nmero

y.

Es decir, calcula el
ex .

funcin exponencial
La funcin
el nmero

log(y,a)

que verica

calcula el logaritmo del nmero

a (x) = y ,

donde

a (x)

1. Calcula el valor aproximado del nmero

a.

Es decir, calcula
x
es la funcin exponencial a .

haciendo

en base

exp(1).

2. Calcula los valores siguientes: log(e), log(10), log(2), log(1), log(0.5), log(100),
log(1000). Interpreta los resultados usando la funcin exponencial.
3. Calcula los logaritmos de los mismos valores anteriores en base 10 e interpreta los
resultados usando la funcin exponencial.
4. Igual pero en base 2.

curve(log(x),1,10) representa grcamente la funcin log(x)


(1, 10).

5. Mediante la funcin
en el intervalo

6. Si no cierras en grco anterior y haces


resenta la funcin
7. Tambin hacemos
Prctica 3

log(x,10)

curve(log(x,10),1,10,add=T)

se rep-

en el mismo grco

curve(log(x,2),1,10,add=T)
Curso 2011-12

a continuacin.
Pgina: 10

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Prctica 7.2

1. Crea el chero

de variables

(X,Y):

Universidad de Murcia

Ajuste1.rda

con los siguientes datos de la pareja

(1, 536), (1.2, 400), (1.5, 220), (2, 82), (3, 11), (4, 4), (5, 2).

2. Crear el diagrama de dispersin de la pareja de variables (X,Y). El diagrama de


dispersin tambin se puede hacer mediante el comando

plot(X,Y)

en la ventana

de instrucciones.

log(X) y log(Y) usando la opcin Crear una nueva variable


del submen Modificar variables del conjunto de datos activo del men
Datos. Llmalas, por ejemplo LX y LY, respectivamente.

3. Crear las variables

4. Hacer el diagrama de dispersin de la pareja de variables

(LX, LY)

5. Hacer el ajuste lineal de la pareja anterior. La recta de regresin es

LY = 6.63 3.69 LX
con coeciente de determinacin
que

r2 = 0.9889

r = 0.9889 = 0.9944

puesto

tiene el mismo signo que la pendiente.

(LX, LY) es equivalente a ajustar (X,Y) mediante


b
un ajuste potencial del tipo y = a x (ver regresin potencial) con log(a)=6.63,
6.63
es decir, a = e
= 757.48 y b=-3.69. Es decir, Y = 757.48 X 3.69 , en este caso.

6. Ajustar linealmente las variables

7. Si queremos estimar el valor medio de


X = 2.5 podemos hacer 758.48 2.53.69

Y para un
= 25.76

valor de

X,

por ejemplo para

LY = 6.63
3.69 LX , sustituimos el valor X=2.5 y tenemos log(y) = 6.63 3.69 log(2.5) =
3.2488. Es decir, log(Y ) = 3.2488 por lo que Y = exp(3.2488) = 25.76.

8. Tambin podemos hacer lo siguiente: partiendo de la recta de regresin

9. Podemos representar la ecuacin potencial de regresin as:


Realizamos el diagrama de dispersin de la pareja

(X,Y),

desmarcando todas

las opciones.
Sin cerrar el grco anterior hacemos

T ).

curve(758.48 x (3.69), 1, 5, add =

De esa forma podemos representar el ajuste realizado visualizando la bon-

dad del ajuste. La cuanticacin de la bondad del ajuste es el parmetro


r2 = 0.9889 del ajuste lineal entre (LX, LY). En la imagen siguiente aparece
el grco.
Hemos ajustado las variables (LX,

LY)

donde

LX=log(X)

LY=log(Y).

Para

ajustar a un modelo potencial podemos haber usado una tranformacin logartmica con cualquier otra base. Por ejemplo

LX=log(X,10) y LY=log(Y,10),

es decir usando la funcin logaritmo en base 10 en vez de logaritmos naturales.


Los parmetros

Prctica 3

cambian en este caso.

Curso 2011-12

Pgina: 11

M. Iniesta
Grado en Ciencia y Tecnologa de los Alimentos

Universidad de Murcia

300

100

200

400

500

Prctica 7.3 Vamos a tratar el caso de la pareja de variables (PIB, MORTINF) del
chero

Mundo.rda.

1. Realizar el diagrama de dispersin de la pareja de variables

(PIB, MORTINF). Dibu-

jar la recta de regresin y la curva suavizada y observar que son bastante dispares.
2. Realizar el ajuste lineal y medir la bondad del ajuste mediante el coeciente de
determinacin.
3. Calcular las variables nuevas

1/PIB, log(PIB)

log(MORTINF).

(1/PIB, MORTINF),
(log(PIB), MORTINF), (log(PIB), log(MORTINF)) y (PIB, log(MORTINF)); representando la recta de regresin y la curva suavizada. Puedes usar la opcin Matriz
de diagramas de dispersin y reconocer en este grco las grcas que se solicitan. Recuerda que cuando indicamos la pareja de variables (X, Y ) signica que
X es la variable independiente o explicativa que se representa en el eje horizontal,
mientras que Y es la variable dependiente o explicada que se representa en el eje

4. Realizar los diagramas de dispersin de las parejas de variables

vertical.
5. Intuir cul de los cuatro grcos anteriores presenta mejor ajuste lineal.
6. Llevar a cabo dichos ajustes observando el coeciente de determinacin. Indicar
qu ajuste tiene mayor bondad.
7. Usando el ajuste de mayor bondad, estimar la tasa de mortalidad infantil medio
en el conjunto de pases con PIB=20000 dlares per cpita.

Prctica 3

Curso 2011-12

Pgina: 12

Вам также может понравиться