Академический Документы
Профессиональный Документы
Культура Документы
Mathieu Kessler
Departamento de Matematica Aplicada y Estadstica
Universidad Politecnica de Cartagena
mathieu.kessler@upct.es
Esta
es una version preliminar, comentarios bienvenidos, 2003
Todos los graficos de estos apuntes han sido realizados con el programa
estadstico freeware R, (http://cran.r-project.org)
Indice general
I. Exploraci
on de datos
I.1. Introduccion . . . . . . . . . . . . .
I.2. Estudio de una variable . . . . . . .
I.2.1. Unos cuantos terminos . . . .
I.2.2. Tabulacion y representaciones
I.2.3. Medidas numericas . . . . . .
I.3. Extension al experimento aleatorio .
I.3.1. Introduccion . . . . . . . . .
I.3.2. Medidas numericas asociadas
I.3.3. Modelos mas utilizados . . .
. . . . .
. . . . .
. . . . .
graficas
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
2
4
7
7
9
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
17
17
18
19
III.Regresi
on lineal
III.1. Introduccion . . . . . . . . . . . . . . . . . . . .
III.2. Criterio de mnimos cuadrados . . . . . . . . . .
III.3. Regresion lineal . . . . . . . . . . . . . . . . . . .
III.3.1. Regresion lineal simple . . . . . . . . . . .
III.3.2. Regresion lineal m
ultiple . . . . . . . . . .
III.4. Inferencia para la regresion . . . . . . . . . . . .
III.4.1. Introduccion . . . . . . . . . . . . . . . .
III.4.2. Algunas distribuciones muestrales . . . .
III.4.3. Contrates de significacion . . . . . . . . .
III.4.4. Ejemplo . . . . . . . . . . . . . . . . . . .
III.4.5. Introduccion a la construccion de modelos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
23
25
25
28
31
31
32
33
33
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
iv
IV.An
alisis en componentes principales
IV.1. Introduccion . . . . . . . . . . . . . . . . . . . .
IV.1.1. Presentacion . . . . . . . . . . . . . . . .
IV.1.2. Planteamiento para dos variables . . . . .
IV.2. Planteamiento general . . . . . . . . . . . . . . .
IV.2.1. Preliminares . . . . . . . . . . . . . . . .
IV.2.2. Analisis en componentes principales . . .
IV.3. Propiedades . . . . . . . . . . . . . . . . . . . . .
IV.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
IV.4.1. Notas de examenes . . . . . . . . . . . . .
IV.5. Criterio de seleccion del n
umero de componentes
IV.5.1. Diagrama de codo . . . . . . . . . . . . .
IV.5.2. Proporcion de variabilidad explicada . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
38
40
40
42
43
43
43
44
45
45
V. An
alisis de conglomerados
V.1. Introduccion . . . . . . . . . . . . . . . . . . .
V.2. Metodo de particion. El algoritmo de k-medias.
V.2.1. Presentacion . . . . . . . . . . . . . . .
V.2.2. Criterios para comparar particiones. . .
V.2.3. Descripcion del algoritmo . . . . . . . .
V.2.4. Comentarios . . . . . . . . . . . . . . .
V.2.5. Eleccion del n
umero de grupos . . . . .
V.2.6. Ejemplos . . . . . . . . . . . . . . . . .
V.3. Metodos jerarquicos . . . . . . . . . . . . . . .
V.3.1. Presentacion . . . . . . . . . . . . . . .
V.3.2. Distancia, similaridad . . . . . . . . . .
V.3.3. Metodos aglomerativos . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
48
48
48
49
50
50
50
50
50
51
52
VI.An
alisis factorial
VI.1. Introduccion . . . . . . . . . . . .
VI.2. El modelo . . . . . . . . . . . . . .
VI.2.1. Primera formulacion . . . .
VI.2.2. No unicidad de los factores
VI.2.3. Hacia el modelo definitivo .
VI.3. Estimacion de las cargas factoriales
VI.3.1. Metodo del factor principal
VI.4. Rotacion de los factores . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
55
55
56
56
57
57
58
58
59
.
.
.
.
.
.
61
61
62
63
63
64
65
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
VII.
Introducci
on a las series temporales
VII.1.Introduccion . . . . . . . . . . . . . . .
VII.2.Primer paso: exploracion grafica . . . .
VII.3.Descomposicion en patrones de una serie
VII.3.1.Presentacion . . . . . . . . . . .
VII.3.2.El modelo . . . . . . . . . . . . .
VII.4.Autocorrelacion . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
temporal
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
VIII.
Descomposici
on de una serie temporal
VIII.1.
Filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VIII.2.
Medias moviles y componente estacional . . . . . . . . . . . . . . . .
VIII.3.
Procedimiento para la descomposicion clasica . . . . . . . . . . . . .
v
69
69
70
72
CAPITULO
Exploraci
on de datos
I.1.
Introducci
on
La estadstica utiliza datos para conseguir comprension sobre un fenomeno. Basicamente, esta comprension es una consecuencia de la combinacion entre conocimientos previos sobre el fenomeno y nuestra capacidad a utilizar graficos y calculos para
extraer informacion de los datos.
En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran n
umero de variables. Un efecto contradictorio aparece: por
una parte, cuanto mas datos, mas informacion podemos extraer sobre las variables
de interes, pero a la vez es mas difcil su extraccion.
En este contexto aparece una primera etapa fundamental frente a un conjunto
de datos: la exploraci
on, que se realiza a traves de representaciones graficas y del
calculo de unas cuantas medidas numericas bien escogidas.
Para tener las ideas claras, unos cuantos graficos pueden proporcionarnos informacion mas valiosa que procedimientos sofisticados que no dominamos. En esta
asignatura, veremos en temas posteriores metodos sofisticados de analisis para conjuntos con varias variables (el llamado analisis multivariante) pero dedicamos ahora
un captulo a recordar las tecnicas elementales con el objetivo de fomentar reacciones
sanas frente a un conjunto de datos.
I.2.
Aun cuando el conjunto de datos presenta varias variables, se debe empezar por
el estudio individual de cada una.
I.2.1.
Unos cuantos t
erminos
Exploraci
on de datos
los individuos son los alumnos.
Consideramos variables asociadas a este conjunto de datos, distinguiremos entre variable cuantitativa, que asocia un n
umero a cada individuo, o variable cualitativa, que coloca cada individua en una categora. Ejemplos de
variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el
grupo sanguneo son en cambio variables cualitativas.
Un concepto fundamental que utilizaremos con frecuencia corresponde a la
distribuci
on de una variable X asociada a un conjunto de datos. Describir la
distribucion de X corresponde a establecer la lista de los valores que toma X
junto con la frecuencia con la que toma cada valor. En particular nos interesa
saber si el conjunto presenta mucha o poca variabilidad.
I.2.2.
Tabulaci
on y representaciones gr
aficas
Frecuencia
1
2
4
8
Valor
0.49
0.50
0.51
0.51
Frecuencia
8
10
5
8
Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statistics, W. H. Freeman and Company: New York, NY, pp 3-16.
6
2
Frecuencias
10
0.45
0.46
0.47
0.48
0.49
0.50
0.51
0.52
Mediciones de la concentracin
En el caso en que los datos estan agrupados por clase, el diagrama resultante
se llama histograma. En la figura I.2, aparece el histograma para las mediciones de
Newcomb.
15
10
5
0
Frecuencias
20
25
40
20
20
40
Mediciones
Exploraci
on de datos
Las representaciones graficas describen la distribucion de la variable en el conjunto. Al examinarlos hay que que intentar contestar a las siguientes preguntas
1. Es el histograma simetrico?
2. Posee la distribucion colas largas?
3. Posee el histograma un maximo claro u
nico? En este caso hablamos de histograma unimodal.
4. Aparecen datos atpicos?, es decir datos que se alejan del patron global de los
datos.
5. Donde localizamos el centro aproximado de los datos?
6. Presentan los datos mucha dispersion?, lo que se traduce en la forma puntiaguda o chata del histograma.
I.2.3.
Medidas num
ericas
Se suele acompa
nar las representaciones graficas de las distribuciones con medidas numericas que proporcionen un resumen de sus caractersticas principales. Existen medidas numericas para contestar a cada pregunta (y alguna mas...) planteadas
en el apartado anterior a la hora de examinar el histograma. Nos limitaremos a las
medidas de centro y de dispersion, es decir las que proporcionen una respuesta a las
preguntas 5 y 6.
a).
Medidas de centro
x1 + + xn
.
n
Medidas de dispersi
on
La desviaci
on tpica Mide lo lejos que estan situados los datos respecto a su centro
de gravedad, la media. Empezamos por definir la varianza:
s2 =
(x1 x
)2 + + (xn x
)2
,
n1
(I.1)
Un resumen gr
afico: el diagrama de caja-bigotes
Exploraci
on de datos
12
11
Dato atpico
Bigote
10
Q3
Me
Q1
40
50
60
70
102
203
Comentarios: No hay datos atpicos, es decir que no hay equipo que se haya
destacado por arriba o por abajo del resto de los equipos. Hay mas diferencia de
puntos entre el primer y el u
ltimo clasificado para la liga 02/03 que en la liga anterior.
Los equipos del tercer cuarto de la clasificacion estan muy apelotonados en la liga
02/03.
I.3 Extensi
on al experimento aleatorio
I.3.
I.3.1.
Extensi
on al experimento aleatorio
Introducci
on
f (x)dx.
a
Exploraci
on de datos
0.0
0.1
0.2
0.3
0.4
Valores de X
0.2
0.1
0.0
Densidad
0.3
0.4
Densidad y histograma
I.3 Extensi
on al experimento aleatorio
I.3.2.
Medidas num
ericas asociadas
E[X]
E[X]
I.3.3.
2 .
X
Modelos m
as utilizados
Resulta que existen situaciones comunes en las que unos pocos modelos estandar sirven para describir los experimentos considerados.
a) El modelo normal Es el modelo mas utilizado en la practica. Su densidad
depende de dos parametros y 2 , que representan parametros de localizacion y de
dispersion respectivamente. Su expresion es
f (x) =
1
2 2
(x)2
2 2
10
Exploraci
on de datos
cuya representacion grafica es la famosa campana de Gauss. Si la densidad de
X es la funcion f arriba descrita, se dice que X sigue una distribucion normal de
parametros y 2 .
Se puede demostrar que, si X admite la densidad f descrita arriba, la esperanza
de X es , mientras que su varianza es 2 .
Bastara por lo tanto para escoger un modelo normal para una variable fijar el
valor de y el valor de como reflejando el centro y la dispersion de la distribucion.
En la figura I.8, se ha ajustado una curva normal al histograma de los datos recogidos
por Newcomb, despues de omitir los dos datos atpicos 44 y 2. Se observa que el
ajuste es bastante bueno.
0.04
0.00
0.02
Frecuencias
0.06
0.08
40
20
20
40
Mediciones
e 22 dx,
2 2
a
para obtener P(a < X b). Los programas informaticos de analisis de datos como
SPSS o Statistix disponen de algoritmos que permitan calcular para cualquier t la
probabilidad P(X t). Tambien existe un calculadora estadstica freeware NCSScalc, que se puede bajar de mi pagina web. (http://www.dmae.upct.es/mathieu)
A pesar de que no exista una expresion simple para las probabilidades asociadas
a una distribucion normal, es muy u
til conocer la regla siguiente: si X es una normal
2
N (, ), tenemos
I.3 Extensi
on al experimento aleatorio
11
P( X + ) '
0,68
P( 2 X + 2) '
0,95
P( 3 X + 3) ' 0,997,
lo que queda reflejado en la figura I.9: el 68 % del area debajo de la curva normal
esta comprendida entre y + , el 94 % entre 2 y + 2, y el 99.7 %
entre 3 y + 3.
68%
+
95%
+ 2
99.7%
+ 3
Ap
endice
Datos: la velocidad de la luz, por S. Newcomb
Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30,
23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30,
12
Exploraci
on de datos
22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27,
28, 29, 16, 23
TEMA
II
II.1.
Distribuciones muestrales
14
15
1000
0
500
Frecuencias
1500
2000
0.67
0.68
0.69
0.70
0.71
0.72
0.73
^
p
Densidad
10
20
30
40
16
0.67
0.68
0.69
0.70
0.71
0.72
0.73
phat
1000
0
500
Frecuencias
1500
0.6
0.7
0.8
0.9
^
p
Toda la teora desarrollada acerca de los sondeos utiliza de manera crucial el hecho de que antes de extraer la muestra, se dispone de un modelo para la distribucion
de p por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este
17
modelo permite en particular decidir si, fijado el error maximo que se esta dispuesto
a cometer respecto a la proporcion poblacional, el tama
no de la muestra es suficiente
como para que el riesgo de cometer un error mayor es lo suficientemente peque
no.
Introducimos dos terminos fundamentales en estadstica:
Definici
on. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadstico. La distribucion de los valores que puede tomar un estadstico respecto a todas las muestras de tama
no n que se podra extraer se llama
distribuci
on muestral de este estadstico.
II.2.
Contrastes de hip
otesis
II.2.1.
Ejemplo ilustrativo
Supongamos que dispongo de una monedo y quiero saber si esta trucada. Formalizo el modelo tal como lo hemos visto en la seccion anterior: X es la variable
resultado obtenido al tirar la moneda, X puede tomar dos valores c (Cara) o +
(Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 p. Me pregunto si
p = 1/2 o p 6= 1/2. Formulo por lo tanto dos hipotesis:
una hipotesis nula:
una hipotesis alternativa
H0
H1
p = 1/2
p 6= 1/2
Para decidir cual de las dos hipotesis es cierta, pienso tirar la moneda 100 veces y
calcular la proporcion muestral p de caras. Por la teoria de probabilidad y de las
variables aleatorias, se sabe que, si p = 1/2, la distribucion muestral de p se puede
modelizar por una normal con media 0.5 y desviacion tpica 0.05. Es decir que, antes
de realizar el experimento de tirar 100 veces la moneda y calcular la proporcion p
de caras entre estas 100 tiradas, se que, si la moneda no esta trucada, puedo esperar
que la distribucion de los valores que podra tomar p sera tal como en la figura II.4.
Entre que valores se encontrar
a con gran confianza p?
Supongamos ahora que efectivamente, tiro 100 veces la moneda y obtengo 61
caras y 39 cruces. Por lo tanto p = 0,61. Esta la moneda trucada? En principio,
parece que s, pero por otra parte, como sabemos que este resultado, alejado del
0.5 esperado si la moneda no fuera trucada, no se deba sencillamente al azar, y no
provenga de la variabilidad natural inevitable al tirar 100 veces la moneda? Podemos
contestar a esta pregunta porque, precisamente, disponemos de un modelo para la
distribucion de los valores de p si en realidad p = 1/2.
Observamos que el valor p = 0,61 es un valor bastante extremo para su distribucion. De hecho, que porcentaje de las muestras de tama
no 100, proporcionan
un valor tan o mas alejado del 0.5 esperado que 0.61? Para saberlo calculo con
una calculadora estadstica y utilizando el modelo que tengo para p, la probabilidad
P[
p 0,39 p 0,61], que es aproximadamente igual a 0.028. Deduzco que, si en
efecto p = 1/2 solo el 2.8 % de las muestras de tama
no 100 proporcionaran un valor
tan o mas alejado de 0.5 como el valor que me ha salido. En este sentido, el valor que
he obtenido es extremo, suponiendo que la hipotesis nula es cierta... En este caso,
los datos tienden a refutar la hipotesis nula, y basandonos en la muestra extraida,
afirmamos que la moneda esta trucada.
18
0.0
0.2
0.4
0.6
0.8
1.0
^
p
Figura II.4: Distribucion muestral de p para 100 tiradas de una moneda no trucada
II.2.2.
Procedimiento global
= 0
6= 0
= 0
> 0 .
= 0
< 0 .
19
Para la primera formulacion hablamos de hipotesis alternativa bilateral mientras que para las dos u
ltimas hablamos de hipotesis alternativa unilateral.
Planificamos nuestra toma de muestra: escogemos el tama
no de la muestra
que extraeremos. En funcion del parametro que queremos, escogeremos un
estadstico y un modelo para su distribucion muestral bajo el supuesto que la
hipotesis nula es cierta.
Extraemos una muestra, calculamos, para esta muestra, el valor del estadstico,
y situamos este valor en la distribucion muestral del estadstico cuando H0 es
cierta.
Cuantificamos la fuerza de los datos en contra de la hipotesis nula y a favor
de la hipotesis alternativa a traves del p-valor: el p-valor es el porcentaje
de muestras del tama
no escogido que proporciona un valor del estadstico
tan o mas extremo en la distribucion muestral que el obtenido para nuestra
muestra. En el ejemplo ilustrativo de la seccion anterior, habamos encontrado
un p-valor del orden de 2.8 %.
Nota: conforme a la filosofa de estos temas recordatorios, hemos escogido una
presentaci
on intuitiva obviando algunas sutilezas y/o dificultades. Nuestro objetivo es que el lector haya asimilado el concepto de estadstico y de distribuci
on
muestral, as como la idea de un contraste de hip
otesis, sabiendo interpretar
un p-valor.
Se suele considerar que un p-valor menor que 0.05 indica una gran fuerza en los
datos en contra de la hipotesis nula y a favor de la alternativa, mientras que cuando
el p-valor es mayor de 0.2, se considera que los datos no contradicen la hipotesis
nula.
II.2.3.
Los contrastes m
as utilizados
Existe un gran n
umero de contrastes, y nos limitaremos a recordar aqu los m
as
sencillos.
En el caso en que el modelo escogido para la variable X en la poblacion sea
N (, 2 ), los contrastes sobre la media se formulan como
H0
H1
= 0
6= 0 ,
0 , y su distribuci
prueba es Z0 = X
on muestral en el supuesto de que H0 es cierta
/ n
es
Z0 N (0, 1) si H0 es cierta.
Extraemos una muestra concreta, denotamos por z el valor tomado para esta muestra
por el estadstico Z0 .
20
0 , y su distribuci
prueba es T0 = X
on muestral si H0 es cierta,
s/ n
TEMA
III
Regresi
on lineal
III.1.
Introducci
on
22
160
Nivel
80
10
15
20
25
1940
1950
1940
Ao
1960
1980
1980
1500
500
1920
1970
Velocidad (km/s)
15000
0 5000
MBBL
1900
1960
1880
Ao
1930
Das
120
35
25
15
Resistencia
0.0
0.5
1.0
1.5
2.0
Distancia(megaparsecs)
2.5
III.2.
23
Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta
que llamaremos Y y una variable explicativa que llamaremos X.
Disponemos de n pares de datos
X
Y
x1
y1
x2
y2
xn
yn
2.0
2.5
3.0
Para visualizar el conjunto recurrimos a la nube de puntos, tambien llamada diagrama de dispersion, en el que representamos los pares (xi , yi ), i = 1, , n, en unos
ejes Ox, Oy, ver figura III.2
1.5
(x2,y2)
1.0
(x3,y3)
0.5
(x1,y1)
24
(x3,y3)
y3
f(, x3)
y=f(, x)
x3
III.3 Regresi
on lineal
25
i = 1, . . . , n.
n
X
e2i
i=1
III.3.
Regresi
on lineal
(III.1)
donde 1 2 . . . , k son n
umeros reales. En este caso el parametro es igual a
(1 2 . . . , k ).
III.3.1.
Regresi
on lineal simple
El caso mas utilizado de regresion lineal corresponde al ajuste por una recta, es
decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo
de la forma
Y = aX + b.
Se trata de un caso particular de la formulacion general (III.1), si consideramos
b = 1 , X1 = 1, a = 2 y X2 = X.
26
Obtenci
on de la recta ajustada
La suma de cuadrados se escribe
SC() = SC(a, b) =
n
X
i=1
SC(a, b) = 0
a
SC(a, b) = 0.
b
Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este
sistema de ecuaciones son
a
=
xy
xy
x2 (
x) 2
b = y a
x
.
Introducimos la cantidad
n
(xy x
y),
(III.2)
n1
que llamamos la covarianza de X e Y . El coeficiente a
se puede escribir como
sxy =
a
=
sxy
,
s2x
sxy
(x x
).
s2x
Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene
el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza es
positiva, Y y X presentan una asociacion positiva: cuando crece X, crece Y y cuando
decrece X, decrece Y . En cambio, si la covarianza es negativa Y y X presentan una
asociacion negativa, es decir que si X crece, Y decrece y vice versa.
b).
sxy
.
sx sy
(III.3)
III.3 Regresi
on lineal
27
Deducimos que R2 esta siempre comprendido entre 0 y 1, y cuanto mas cercano este
de 1, mejor es el ajuste, puesto que correspondera a una suma residual de cuadrados
= 0, y para todo i = 1, . . . , n,
menor. En particular, deducimos que si R2 = 1, SC()
yi = yi : todos los puntos observados estan situados en la curva ajustada: los residuos
son nulos y el ajuste es perfecto.
Puesto que R2 = r2 y 0 R2 1, deducimos que el coeficiente de correlacion r
esta siempre comprendido entre 1 y 1. Si r = 1, el ajuste de los puntos observados
por una recta es perfecto. El coeficiente de correlacion se interpreta en general como
una cantidad que cuantifica la asociacion lineal que existe entre dos variables: cuanto
mas cerca de 1, mas se aproxima la nube de puntos a una recta.
Ademas por la definicion (III.3), sabemos que r es del mismo signo de la covarianza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia de
una asociacion lineal positiva entre las dos variables, mientras que si es negativo y
cercano a 1, presentan una asociacion lineal negativa.
Sin embargo, es necesario tener precaucion a la hora de interpretar valores del
coeficiente de correlacion: solo es un resumen, fiable en el caso en que esta proximo
a 1 para indicar que existe una fuerte asociacion lineal entre las variables pero
mucho menos fiable si toma un valor alejado de 1. Anscombe (1973), Graphs in
statistical analysis, American Statistician, 27, pp 17-21, construyo cuatro conjuntos
de datos artificiales que dan lugar al mismo coeficiente de correlacion y a las mismas
rectas de regresion, pero cuyos aspectos son completamente diferentes. Los datos se
presentan en el apendice, y se deja su estudio en ejercicio.
c).
Predicci
on
28
III.3.2.
a).
Regresi
on lineal m
ultiple
Presentaci
on
La regresion lineal m
ultiple corresponde al caso general
Y = 1 X1 + 2 X2 + + k Xk .
(III.4)
Se trata de un modelo bastante general que incluye muchas posibles formas funcionales para f (, x).
Muy a menudo, se considera un termino constante en el modelo, lo que corresponde a imponer que X1 = 1.
Los modelos incluidos en esta formulacion general comprenden entre otros
La regresion lineal simple.
Y =
+aX
Y =
1 X1
+2 X2
X1 = 1 X2 = X
La parabola
Y
= a0 + a1 X + a2 X 2
= 1 X1 + 2 X2 + 3 X3
X1 = 1,
X2 = X,
X3 = X 2
= a0 + a1 X + a2 X 2 + + aq X q
= 1 X1 + 2 X2 + + q+1 Xq+1
X1 = 1,
X2 = X, . . .
Xq+1 = X q
= 1 X1 + 2 X2 + 3 X3
X1 = 1,
X2 = X,
X3 = Z,
= 1 X1 + 2 X2 + 3 X3 + 4 X4 + 5 X5 + 6 X6 +
X1 = 1,
X2 = X,
X3 = Z,
X4 = XZ,
X5 = X 2 ,
X6 = Z 2
III.3 Regresi
on lineal
29
b).
Y
y1
y2
..
.
X1
x11
x21
..
.
X2
x12
x22
..
.
...
...
...
..
.
Xk
x1k
x2k
..
.
yn
xn1
xn2
...
xnk
C
alculo de los coeficientes
x11 x12 . . .
x21 x22 . . .
X= .
..
..
..
.
.
de dise
no que contiene todos los
x1k
x2k
..
.
Y =
y1
y2
..
.
yn
y el vector de coeficientes = (1 , 2 , . . . , k )0 , donde
suma de cuadrados SC() se puede escribir
denota la transpuesta. La
SC() = kY Xk2 ,
donde k k denota la norma eucldea de un vector en Rn . Esta situacion es bien conocida en algebra lineal, buscamos el elemento del espacio vectorial generado por las
columnas de X que minimice la distancia a un vector dado: se trata de la proyecci
on
ortogonal, y la expresion de los coeficientes que minimiza SC() es
1
2
.
..
n
= (X 0 X)1 X 0 Y,
30
Ejemplo
Concentracion( %)
40
40
40
40
50
50
50
50
Tiempo(mn)
20
20
25
25
20
20
25
25
Rendimiento
28.27
36.33
26.00
37.00
37.40
42.45
39.42
45.47
= 1 X1 + 2 X2 + 3 X3 + 4 X4
X1 = 1,
X2 = T emp,
donde Y es el rendimiento.
Para este modelo la matriz de dise
no es
1 10
1 15
1 10
1 15
X=
1 10
1 15
1 10
1 15
X3 = Conc,
40
40
40
40
50
50
50
50
20
20
25
25
20
20
25
25
X4 = T iempo,
y las distintas cantidades que necesitamos para calcular los coeficientes son
8
100
360
180
100 1300 4500 2250
X 0X =
360 4500 16400 8100
180 2250 8100 4100
C = X 0X
1
23,5
0,25
0,25
0,02
=
0,225
0
0,45
0
27. 995
1. 509
X 0Y =
0. 9285
0. 173
0,225 0,45
0
0
0,005
0
0
0,02
31
27,96
1,51
= C X 0 Y =
0,93
0,17
III.4.
III.4.1.
Introducci
on
Al igual que en los dos primeros temas, conseguiremos sacar informacion mas precisa sobre el fenomeno bajo estudio si disponemos de un modelo para el mecanismo
de generacion de los datos que hemos observado.
Para simplificar, empecemos por el caso en que solo tenemos una variable explicativa X. Consideramos entonces el experimento que consiste en escoger un valor
de X y observar el valor de la respuesta Y resultante. Como explicar que, si escogemos varios valores de X, obtenemos una nube de puntos que, por ejemplo, parece
globalmente seguir una recta? Los puntos observados sufren desviaciones de la recta,
algunas veces se encuentran por abajo, otras por encima. El modelo que explica la
relacion entre el dato obtenido para Y y el escogido para X puede por lo tanto ser
Y = aX + b + ,
donde es una variable aleatoria (por lo tanto impredecible) que algunas veces toma
valores negativos, lo que implica que el punto observado esta por debajo de la recta,
y otras veces positivos. La variable corresponde a la perturbaci
on aleatoria que
sufre la relacion lineal entre Y y X.
Para completar la especificacion del modelo, solo nos falta escoger un modelo
para la distribucion de los valores que puede tomar la perturbacion . La opci
on
mas extendida y que suele ser bastante acorde con lo observado en la practica corresponde a la campana de Gauss: suponemos que, sea cual sea el valor escogido de
X, la perturbacion asociada a la generacion del valor de la respuesta sigue una
distribucion normal con media cero (el centro de los valores de la perturbacion corresponde a la situacion sin perturbacion) y con la misma desviacion tpica , es
decir
N (0, 2 ).
32
III.4.2.
Fijado este modelo, nos damos cuenta de que consideramos ahora que los datos
que hemos observado son el resultado de un experimento aleatorio, y que si repitiera
la toma de las mismas n combinaciones de valores de las explicativas y observara los
n valores resultantes de la respuesta, obtendra otra nube de puntos, seguramente
con una forma global parecida, pero distinta. En particular, los coeficientes ajustados
1 , . . . , k que calculara seran distintos. En resumen, las cantidades 1 , . . . , k son
variables aleatorias, cuya distribucion muestral es de sumo interes para poder realizar
afirmaciones sobre la relacion entre Y y las variables explicativas.
La teora estadstica determina en el caso de la regresion lineal m
ultiple las
distribuciones muestrales de los coeficientes estimados, si suponemos que los datos
han sido generados a partir del modelo (III.5).
Puesto que nuestro objetivo aqu es llegar a interpretar los principales elementos
de la salida de un programa como SPSS, nos limitamos a las distribuciones muestrales
de cada i .
Estimaremos la varianza 2 de la perturbacion por la varianza residual
2 que
definimos a continuacion,
2 =
n
1 X
(yi yi )2 .
nk
(III.6)
i=1
Cii
tnk ,
(III.7)
III.4.3.
33
Contrates de significaci
on
Cii
como P[|tnk | > |t|] donde tnk representa una variable con distribucion t de Student
con n k grados de libertad.
Los contrastes
H0 : i = 0
H1 : i 6= 0,
III.4.4.
Ejemplo
34
i
-27.96
0.93
0.17
1.51
Error est
andar i
9.65
0.14
0.28
0.28
Est. prueba
-2.90
6.6
0.61
5.36
p-valor
0.0442
0.003
0.57
0.006
i
-24.09
0.93
1.51
Error est
andar i
6.81
0.13
0.26
Est. prueba
-3.54
7.05
5.73
p-valor
0.016
0.0009
0.002
con un R2 igual a 0.94. La bondad del ajuste medida por el coeficiente de determinacion m
ultiple no ha variado mucho, por otra parte los p-valores correspondientes
a los contrastes de significacion para los coeficientes 1 , 2 y 3 son ahora todos muy
peque
nos, lo que nos lleva a rechazar que cualquiera de ellos sean nulos. A falta
de un examen de los residuos, que esbozaremos en practicas, nos quedamos con el
modelo para el rendimiento promedio:
Rendimiento promedio = 24,09 + 0,93T emp + 1,51Conc.
III.4.5.
Introducci
on a la construcci
on de modelos
35
C
alculo de R2 para todos los posibles submodelos
R2
0
0,568
0,375
0,375
0,943
0,573
0,38
0,948
Dos modelos aparecen con un alto valor de R2 : el modelo completo y el correspondiente a E[Y ] = 1 + 2 C + 3 TMP , en el que ha desaparecido la variable Tiempo.
En los otros submodelos se nota un descenso importante de la calidad de ajuste.
Puesto que el valor de R2 apenas difiere, nos quedamos con el modelo mas simple:
E[Y ] = 1 + 2 C + 3 TMP .
Una desventaja evidente de este metodo es que el n
umero de modelos a comparar
puede ser rapidamente muy grande en cuanto tenemos varias variables explicativas.
Ademas el criterio de comparacion - calculo de R2 - es pobre y a menudo no ayuda
a seleccionar el modelo mas satisfactorio.
b).
Eliminaci
on hacia atr
as.
36
Ap
endice
A continuacion se presentan los datos de Anscombe (1973), Graphs in statistical
analysis, American Statistician, 27, pp 17-21, se recomienda calcular las medias de
X1 , X2 , X3 , y X4 asi como de Y1 , Y2 , Y3 y Y4 y a continuacion calcular las rectas de
regresion de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro graficas
de Yi en funcion de Xi para i=1, 2, 3, 4.
X1
10
8
13
9
11
14
6
4
12
7
5
Y1
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
X2
10
8
13
9
11
14
6
4
12
7
5
Y2
9.14
8.14
8.74
8.77
9.26
8.1
6.13
3.1
9.13
7.26
4.74
X3
10
8
13
9
11
14
6
4
12
7
5
Y3
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
X4
8
8
8
8
8
8
8
19
8
8
8
Y4
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.5
5.56
7.91
6
TEMA
IV
An
alisis en componentes principales
IV.1.
Introducci
on
IV.1.1.
Presentaci
on
X= .
(IV.1)
.
..
..
..
.
.
.
.
.
xn1 xn2 xnk
Los datos forman una nube de n puntos en un espacio k-dimensional. Por supuesto,
38
IV.1.2.
10
X2
10
10
10
X1
Cual sera el cambio de ejes que mas nos convendra si quisieramos conseguir una
reduccion de la dimension del conjunto? Para reducir la dimension, una vez realizado
el cambio de sistema de coordenadas, nos quedamos solo con la primera componente
para cada individuo. Esta claro que la nueva descripcion sera mas pobre que la
original, al sustituir un par de n
umeros para cada individuo por un u
nico n
umero,
pero si tenemos la suerte de que en el nuevo sistema, la segunda componente toma
IV.1 Introducci
on
39
valores parecidos para todos los individuos, la perdida de informacion sera peque
na,
puesto que de todas formas, la componente que omitimos no diferencia mucho a los
individuos.
Intuitivamente, los ejes que buscamos corresponden a los representados en la
figura IV.2. En efecto, si llamamos Z1 y Z2 las coordenadas de los puntos en el
X2
Z2
Z1
x2
X1
x1
nuevo sistema de coordenadas, observamos que esta eleccion de los ejes consigue
que la primera componente presente la mayor varianza, mientras que la segunda
componente la menor varianza posible. La figura IV.3 representa la misma nube de
puntos en el nuevo sistema OZ1 OZ2 . Observamos que en esta figura, el eje OZ1
coincide con la recta de regresion ajustada a la nube, por lo tanto, la pendiente de
la recta de regresion de Z2 sobre Z1 es nula, lo que implica que la covarianza entre
estas dos variables es nula. En resumen, el cambio de coordenadas que buscamos
proporciona dos variables Z1 y Z2 cuya matriz de covarianzas es diagonal.
Tal como lo desarrollamos en lo que sigue, el analisis en componentes principales
determina el cambio de coordenadas en las que las nuevas componentes de la nube
de puntos presenten una matriz de covarianzas diagonal.
40
Z2
X2
z2
Z1
X1
z1
IV.2.
Planteamiento general
IV.2.1.
Preliminares
a).
41
z11
z21
Z= .
..
z12 z1k
z22 z2k
.
..
..
..
.
.
.
U =
u11
u21
..
.
u12
u22
..
.
..
.
u1k
u2k
..
.
(IV.2)
(IV.3)
Nota: Si los vectores ~u1 , . . . , ~uk forman una base ortonormal, la matriz U satisface
U 0 U = Id, y por lo tanto (U 0 )1 = U .
b).
Volvamos al conjunto de datos representado por la matriz X. La matriz de covarianzas de las variables X1 , . . . , Xk para este conjunto es
2
sX1
sX1 X2 sX1 Xk
sX X s2
sX2 Xk
1 2
X2
(IV.4)
SX = .
,
.
..
..
..
..
.
.
sX1 Xk
uX2 Xk
s2Xk
42
1
1
Z 0Z =
U 1 X 0 X(U 0 )1 = U 1 SX (U 0 )1 .
n1
n1
IV.2.2.
(IV.6)
An
alisis en componentes principales
IV.3 Propiedades
43
y utilizando un programa como SPSS o Mathematica, obtenemos que los dos valores propios son 1 ' 13,93 y 2 ' 1,16. Los vectores propios asociados son
~u1 = (0,89, 0,46) y ~u2 = (0,46, 0,89). Deducimos que los dos componentes
principales son
Z1 = 0,89X1 0,46X2
Z2 = 0,89X1 0,89X2
IV.3.
Propiedades
1 0
0 2
SZ = .
..
...
0
...
...
..
.
0
0
..
.
. . . . . . . . . k
para todo 1 i k, el valor propio i es por lo tanto la varianza del i-esimo componente principal Zi . Por otro lado, por construccion, los componentes principales
son incorrelados (rZi Zj = 0).
Los principales teoremas del algebra lineal nos permiten deducir las siguientes
propiedades de los componentes principales:
1. Cualquier combinacion lineal estanderizada de las variables iniciales, es decir
a1 X1 + + ak Xk con a21 + + a2k = 1, presenta una varianza menor or igual
que la del primer componente Z1 , es decir:
V ar(a1 X1 + + ak Xk ) 1 .
Podemos decirlo de otra manera: sea cual sea el primer vector del nuevo sistema de coordenadas que escojamos, la varianza, para la nube de puntos, de
la primera componente en este nuevo sistema sera menor o igual que 1 , es
decir que, cuando fijamos este primer vector como u~1 , el vector propio de SX
asociado a 1 , maximizamos la varianza de los valores que toma la primera
componente en la nube de puntos.
2. La variabilidad total se preserva.
V ar(X1 ) + + V ar(Xk ) = V ar(Z1 ) + + V ar(Zk )
= 1 + + k
IV.4.
Ejemplos
IV.4.1.
Notas de examenes
44
IV.5.
Criterio de selecci
on del n
umero de componentes
IV.5.1.
45
Diagrama de codo
0.35
0.20
0.15
0.05
0.10
lambda
0.25
0.30
0.00
IV.5.2.
Proporci
on de variabilidad explicada
46
% Variabilidad
0.734
0.068
0.057
0.038
0.027
0.023
0.021
0.021
0.011
Nos deberamos quedar con los cuatro o 6 primeros componentes. Sin embargo, es
muy dficil en general interpretar de manera inteligente mas de uno o dos componentes, es por lo tanto mas razonable quedarse en este ejemplo con los dos primeros.
App
endice
Datos del ejemplo, seccion IV.1.2.
1,360
2,115
2,460
3,235
2,030
5,335
6,120
4,395
1,375
5,345
X=
3,020
0,715
0,605
2,210
1,840
4,295
4,000
0,080
3,960
2,270
0,705
0,720
0,670
0,930
1,685
4,080
2,660
3,660
0,775
2,610
0,535
0,580
1,915
1,030
2,595
0,135
1,775
0,440
2,605
1,860
TEMA
An
alisis de conglomerados
V.1.
Introducci
on
48
V.2.
M
etodo de partici
on. El algoritmo de k-medias.
V.2.1.
Presentaci
on
ng
1 X
xijg
ng
i=1
ng
s2jg =
1 X
(xijg x
jg )2
ng 1
i=1
V.2.2.
V.2 M
etodo de partici
on. El algoritmo de k-medias.
Dada una particion P, buscamos un critero que mida la homogeneidad de los G
grupos. Un grupo sera homogeneo si la dispersion de las variables X1 , X2 , . . . , Xk
dentro de este grupo sera peque
no. Una manera de medir la homogeneidad de la particion se consigue por lo tanto calculando para cada grupo la suma de las varianzas
de cada variable y realizar la suma sobre todos los grupos, dando mas peso a los grupos mas numerosos. Esta cantidad se llama la suma de cuadrados dentro de los
grupos asociada a la particion P, y se denota por SCDG(P). Mas concretamente
SCDG(P) =
G X
k
X
g=1 j=1
V.2.3.
Descripci
on del algoritmo
49
50
V.2.4.
Comentarios
V.2.5.
Elecci
on del n
umero de grupos
SCDG(G) SCDG(G + 1)
.
SCDG(G + 1)/(n G 1)
V.2.6.
Ejemplos
V.3.
M
etodos jer
arquicos
V.3.1.
Presentaci
on
Queremos clasificar en una jerarqua los individuos del conjunto. Esta clasificacion se hara basandose en los valores de las variables observadas para cada individuo.
Recordar que los datos se presentan en la matriz de datos
x11 . . . x1k
..
..
X = ...
,
.
.
xn1 . . . xnk
donde cada fila representa un individuo, y en cada columna vienen recogidos los
valores de una variable.
V.3 M
etodos jer
arquicos
51
Asimismo, asociamos a cada individuo un punto en el espacio Rk , cuyas coordenadas son los valores de las variables X1 , . . . , Xk . Los grupos, subgrupos, subsubgrupos que construiremos contendran individuos cuyos puntos asociados esten cercanos
basandonos en una medida de su distancia.
V.3.2.
a).
Distancia, similaridad
(V.1)
A menudo, para evitar que, si las variables se miden en escalas muy distintas
tengan unos pesos muy distintos en el calculo de la distancia, se procede primero a
estanderizarlas.
Definici
on Si X es una variable en un conjunto de datos, estanderizar X consiste
en restarle su media y dividir la variable resultante por su desviaci
on tpica, es decir
considerar
X x
ZX =
.
sX
La variable ZX tiene en el conjunto media 0 y desviaci
on tpica 1.
Al trabajar con las variables estanderizadas, conseguimos que tengan el mismo orden de magnitud y por lo tanto que ninguna domine de manera clara en la
expression (V.1).
b).
Similaridad.
La distancia eucldea es valida para variables continuas pero si algunas de las variables, por ejemplo X1 , son binarias (toman valores 0 o 1, por ejemplo como respuesta
a una pregunta en la que hay que contestar por s o no) el termino correspondiente
tendra en general menor peso que el de variables continuas a
un estanderizadas. Para
conseguir una mayor homogeneidad en la importancia de cada vaiable a la hora de
medir lo alejados que estan dos individuos, se introduce el coeficiente de similaridad.
Definici
on El coeficiente de similaridad entre el individuo i y el individuo h seg
un
la variable Xj es una cantidad sjih que cumple
i) 0 sjih 1.
ii) sjii = 1.
iii) sjih = sjhi .
A partir de los coeficientes de similaridad seg
un cada variable del conjunto podemos
construir un coeficiente global de similaridad entre el individuo i y el individuo h,
que llamaremos sih , realizando una suma ponderada.
Se han propuesta varias medidas de similaridad, cabe destacar
52
| xij xhj |
,
rango(xj )
Matriz de distancias
Despues de haber calculado todas las distancias o similaridades entre los individuos de un conjunto, podemos representarlas en una matriz n n, A = (aih )1i,hn .
El elemento aih de esta matriz, llamada matriz de distancias, es la distancia entre el
individuo i y el individuo h. Deducimos en particular que es una matriz simetrica,
cuyos elementos diagonales son todos nulos.
De manera similar podemos construir la matriz de similaridades
V.3.3.
M
etodos aglomerativos
Son los que parten de los individuos separados y los van agrupando en distintos
niveles:
a).
Algoritmo
Tiene una forma iterativa:
0,30 0,6
0,35 0,4
X=
(V.2)
0,70 0,8 ,
0,80 0,5
y se deja como ejercicio al lector comprobar que
(distancia eucldea) es
0
0,21 0,45
0,21 0
0,53
D=
0,45 0,53 0
0,51 0,46 0,32
0,51
0,46
.
0,32
0
0.4
0.4
0.0
0.0
0.2
0.2
0.6
0.6
0.8
0.8
1.0
53
1.0
V.3 M
etodos jer
arquicos
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
0.4
0.4
0.0
0.0
0.2
0.2
0.6
0.8
0.8
0.6
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
b).
1.0
1.0
0.2
1.0
0.0
1.0
54
C
alculo para el ejemplo (V.2)
Recordar que la matriz de distancias para este
0
0,21 0,45
0,21 0
0,53
D=
0,45 0,53 0
0,51 0,46 0,32
ejemplo es
0,51
0,46
.
0,32
0
En el metodo de encadenamiento simple, los pasos que se siguen son: puesto que
d(A, B) = 0,21, d(A, C) = 0,45, d(A, D) = 0,51, d(B, C) = 0,53, d(B, D) = 0,46 y
d(C, D) = 0,32 , en el primer paso se agrupan A y B en una clase. Las distancias
entre las nuevas clases AB, C y D son d(AB, C) = mn(d(A, C), d(B, C)) = 0,45,
d(AB, D) = mn(d(A, D), d(B, D)) = 0,46 y d(C, D) = 0,32. Por lo tanto se agrupan
ahora C y D. Tenemos dos clases: AB y CD que se agrupan en una u
nica clase.
En el metodo de encadenamiento completo, en el primer paso se siguen agrupando
A y B, ahora las distancias necesarias son d(AB, C) = max(d(A, C), d(B, C)) = 0,53,
d(AB, D) = max(d(A, D), d(B, D)) = 0,51 y d(C, D) = 0,32. Agrupamos C y D, y
obtenemos dos clases AB y CD como en el metodo anterior.
d).
Dendograma
0.35
0.30
0.25
0.20
distancia
0.40
0.45
0.50
Dendograma
TEMA
VI
An
alisis factorial
VI.1.
Introducci
on
1 0,83 0,78
.
1
0,67
.
.
1
56
= a1 f + 1
X2
= a2 f + 2
X3 = a3 f + 3 ,
donde 1 , 2 , y 3 representan perturbaciones aleatorias de las relaciones lineales.
Estos metodos tuvieron de hecho su origen en psicometra, es decir el analisis de
datos aplicados a la psicologa, pero se aplicaron posteriormente con mucho exito a
otras ciencias.
VI.2.
El modelo
VI.2.1.
Primera formulaci
on
X1
.
~ =
X
.. ,
Xk
f1
f~ = ... ,
fm
~ = ... ,
k
(VI.1)
VI.2 El modelo
VI.2.2.
57
VI.2.3.
(VI.3)
n
X
a2ij + i2 ,
i = 1, . . . , k,
(VI.4)
j=1
58
(VI.5)
VI.3.
Estimaci
on de las cargas factoriales
VI.3.1.
M
etodo del factor principal
1
0
..
= AA0 +
(VI.6)
.
.
k2
~ = (X1 , . . . , Xk )0
Disponemos ahora de la observacion de los valores que toma el vector X
para n individuos y buscamos estimar los coefficientes de la matriz A. Calculamos
a partir de estos datos la matriz de covarianzas de las variables X1 , . . . , Xk , que
llamamos S. Esta matriz satisfacera aproximadamente la relacion (VI.6) puesto que
estima . Por lo tanto, si disponemos de estimadores 12 , . . . , k2 de las especificidades
12 , . . . , k2 con los cuales formamos la matriz diagonal
2
1
0
..
=
,
.
0
2
k
se cumplira
S ' AA0 ,
(VI.7)
sabiendo ademas que la matriz km A es tal que A0 A es diagonal. El metodo del factor principal resuelve este sistema de ecuaciones con incognitas aij , i = 1, . . . , k, j =
1 . . . , m.
Una solucion explcita de este sistema se puede obtener utilizando los valores
Concretamente, sean
propios y los vectores propios de la matriz simetrica S .
VI.4 Rotaci
on de los factores
59
1
0
..
1 =
D
,
.
0
y sea G1 la matriz k m cuyas columnas estan formadas por los vectores propios
asociados a 1 , . . . , m . La matriz
1/2
A = G1 D1 ,
(VI.8)
cumple que
S ' AA0 .
necesitamos una estimacion preliminar de las
Para llevar a cabo el calculo de A,
especifidades.
Una primera opcion consiste sencillamente en considerar i = 0, para todo
i = 1, . . . , k. En este caso, los valores propios y los vectores propios requeridos
para el calculo de A en (VI.8) son los de la matriz S, es decir los mismos que se
utilizan para el calculo de los componentes principales. En SPSS esta opci
on
corresponde a escoger como metodo de extraccion Componentes principales.
Una segunda opcion consiste en especificar un estimador i2 de la especificidad
i de la comunalidad hi utilizando la relaci
i a partir de un estimador h
on
2
2
VI.4.
Rotaci
on de los factores
No olvidemos que uno de los principales objetivos del analisis factorial es conseguir identificar los factores que subyacen y originan la variacion com
un de las
variables observadas. Sin embargo la interpretacion de los factores es precisamente
la tarea mas delicada del analisis.
Para conseguir una descripcion u
nica, hemos realizado dos restricciones adicionales al modelo (VI.1), la primera - suponer los factores incorrelados y de varianza
unidad- es natural en cuanto a interpretacion. En cambio, la segunda, que consiste en
imponer que la matriz A0 A sea diagonal, esta principalmente destinada a simplificar
la estimacion de A, ver seccion anterior, y no tiene una justificacion muy fundamentada para la interpretacion. De hecho, los factores identificados correspondientes al
modelo definitivo no tienen una interpretacion facil en general. Para paliar esta dificultad, se suelen rotar los factores obtenidos en la seccion anterior: se considera
una matriz ortogonal G y se calcula la matriz de cargas correspondiente a la nueva
60
TEMA
VII
Introducci
on a las series temporales
VII.1.
Introducci
on
Empezamos con este tema el estudio de las series temporales: una serie temporal
o serie cronologica esta formada por la observacion del valor de una variable en
distintos intantes de tiempo. Los ejemplos abundan, estudiaremos por ejemplo en
practicas las series siguientes
Evolucion de la temperatura media mensual en San Javier desde 1981.
Evolucion de la tasa de paro por trimestres en Espa
na desde el tercer trimestre
1976.
Produccion diaria de una empresa.
Demanda mensual de energa electrica en Espa
na desde 1998 hasta 2002,
Sea Y la cantidad de interes, observamos los valores Y1 , Y2 , . . . , Yt , donde t representa
el indice de tiempo.
Al estudiar una serie temporal, podremos estar interesados en dos aspectos:
1. La comprension del fenomeno que describe, buscando contestar por ejemplo
a las preguntas siguientes aparece un patron de evolucion?una tendencia
global?, una periodicidad?, una ruptura de tendencia?
2. La prediccion de valores futuros. Se trata a lo mejor del aspecto mas deseado:
basandonos en la serie de datos observados Y1 , Y2 , . . . , Yt , podemos predecir
el valor de Yt+1 ?, y los de Yt+2 , Yt+3 o en general Yt+m ?
Este tema presenta los terminos, conceptos y herramientas basicas asociadas a series
temporales. En el tema siguiente veremos como abordar el punto 1) arriba mencionado, es decir detectar tendencias, periodicidad etc..., mientras que el tercer y u
ltimo
tema de este bloque estara dedicado a la prediccion.
62
VII.2.
Al igual que en todos los procedimientos vistos hasta ahora, el primer paso fundamental consiste en realizar graficas de la serie temporal. Una primera grafica asociada
a una serie temporal consiste por supuesto en representar Yt en funcion de t, lo que
permite en una primera exploracion detectar datos atpicos, la presencia de una tendencia o el caracter periodico del fenomeno que estudiamos. En la figura VII.1, se ha
representado la serie temporal de las temperaturas mensuales medias en San Javier
desde enero de 1981 (fuente: http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro).
Una periodicidad clara aparece, y por otra parte sera interesante conseguir decidir
si existe o no una tendencia al alza, se comprueba con estos datos el calentamiento
global?
20
10
15
Temperatura
25
1982
1984
1986
1988
1990
VII.3 Descomposici
on en patrones de una serie temporal
63
20
5
10
15
Temperatura
25
30
10
12
mes
Figura VII.2: Grafica estacional para las temperaturas mensuales medias en San
Javier
VII.3.
Descomposici
on en patrones de una serie temporal
VII.3.1.
Presentaci
on
64
VII.3.2.
El modelo
patrones + errores
(VII.1)
donde
Tt :
St :
Et :
componente de tendencia-ciclo.
componente estacional
componente irregular - error.
VII.4 Autocorrelaci
on
65
19000
18000
17000
16000
demanda
15000
14000
tiempo
VII.4.
Autocorrelaci
on
66
1500
Descomposicin de la demanda
1000
St
500
500
17000 1000
16000
Tt
15000
40014000
200
200
residuos
400
10
20
30
40
50
Time
Y
10.3
10.8
15.8
18
21.8
22.6
23.6
Y+1
10.8
15.8
18
21.8
22.6
23.6
22.5
22.5
19.3
..
.
..
.
19.3
..
.
Y+2
15.8
18
21.8
22.6
23.6
22.5
19.3
..
.
..
.
..
.
...
...
...
...
...
...
...
...
...
...
...
60
VII.4 Autocorrelaci
on
67
con T 1 valores.
La autocovarianza c2 y la autocorrelacion r2 de orden 2 se calculan como la covarianza y la correlacion respectivamente de los valores Y1 , Y2 , . . . , YT 2 con los valores
Y3 , Y4 , . . . , YT . Se calculan con T 2 valores.
En general, definimos la autocovarianza ck y la autocorrelacion rk de orden k como
la covarianza y la correlaci
on de la serie con la misma serie trasladada de k unidades
de tiempo.
En el ejemplo de las temperaturas de San Javier, obtenemos r1 = 0,82, r2 =
0,463, r3 = 0,003, r4 = 0,44, etc...
Se presentan los valores de las autocorrelaciones en una grafica, en la que en el
eje Ox aparecen k el n
umero de unidades de la traslacion y en el eje Oy el valor de
rk .
En la figura VII.5 aparece el autocorrelograma correspondiente a las series de
temperaturas en San Javier. Detectamos en este autocorrelograma el patron de esta-
0.0
0.5
ACF
0.5
1.0
10
15
20
Lag
68
TEMA
VIII
Descomposici
on de una serie temporal
Nuestro objetivo en este tema es, basandose en los datos Y1 , . . . , YT de una serie
temporal, identificar y aislar los componentes Tt , St y Et que la constituyen.
VIII.1.
Filtrado
Consideramos dos se
nales (Yt )t1 y (Xt )t1 relacionadas por
Yt = Xt + Et ,
para todo t,
Se
nal
Y1
Y2
Y3
Y4
..
.
N 1
N
YN 1
YN
Se
nal promediada
.
Y2,3 = Y1 +Y32 +Y3
Y3,3 = Y2 +Y33 +Y4
Y4,3 = Y3 +Y34 +Y5
..
.
Y
+Y
+Y
YN 1,3 = N 2 3N 1 N
.
70
=
=
a(t 1) + b + at + b + a(t + 1) + b
3
3at + 3b
= Xt
3
t,3 , siendo
Por lo tanto, si X es una se
nal lineal, deducimos que Yt,3 = Xt + E
el nuevo error de menor magnitud que para la se
nal original: el proceso de
medias moviles de orden 3 Y,3 es una aproximacion - estimacion de la se
nal
X .
En el caso en que la se
nal X no es lineal pero presenta una evolucion suave,
sin cambios bruscos, tres observaciones consecutivas presentaran aproximada ,3 sera una
mente una relacion lineal, aunque X no sea globalmente lineal y X
buena aproximacion de X , lo que implica que Y,3 tambien.
Podramos hacerlo con mas de tres observaciones:
k1
Definici
on. Sea k un n
umero impar, el proceso Yt,k , t = k1
2 ,...,N 2
se llama el proceso de medias m
oviles de orden k. Este proceso representa un
suavizado del proceso Yt , t = 1, . . . , N .
Cuanto mayor sea k, mas suave sera la aproximacion, tal como esta ilustrado
en la figura VIII.1.
VIII.2.
Medias m
oviles y componente estacional
Supongamos ahora que Xt este constituida por una tendencia-ciclo y un componente estacional de periodo p,
X t = T t + St .
VIII.2 Medias m
oviles y componente estacional
71
Medias mobiles, k= 3
10
Medias mobiles, k= 7
10
Medias mobiles, k= 15
10
72
VIII.3.
Si la periodicidad natural es p, y
Yt = Tt + St + Et .
73
Medias mobiles, k= 3
25
15
10
20
ysj
1982
1984
1986
1988
1990
xmes
Medias mobiles, k= 7
25
15
10
20
ysj
1982
1984
1986
1988
1990
xmes
Medias mobiles, k= 13
25
20
10
1982
15
ysj
1984
1986
1988
1990
xmes
Figura VIII.2: Suavizado de la serie de temperaturas en San Javier para varios valores
de k