Apuntes Estadistica

Apuntes de Estadstica Industrial
Mathieu Kessler
Departamento de Matematica Aplicada y Estadstica
Universidad Politecnica de Cartagena
mathieu.kessler@upct.es
Esta
es una version preliminar, comentarios bienvenidos, 2003
Todos los graficos de estos apuntes han sido realizados con el programa
estadstico freeware R, (http://cran.r-project.org)
Indice general
I. Exploraci
on de datos
I.1. Introduccion . . . . . . . . . . . . .
I.2. Estudio de una variable . . . . . . .
I.2.1. Unos cuantos terminos . . . .
I.2.2. Tabulacion y representaciones
I.2.3. Medidas numericas . . . . . .
I.3. Extension al experimento aleatorio .
I.3.1. Introduccion . . . . . . . . .
I.3.2. Medidas numericas asociadas
I.3.3. Modelos mas utilizados . . .
. . . . .
. . . . .
. . . . .
graficas
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
2
4
7
7
9
9
II. Distribuciones muestrales - contrastes de hip

otesis
II.1. Distribuciones muestrales . . . . . . . . . . . . . . .
II.2. Contrastes de hipotesis . . . . . . . . . . . . . . . . .
II.2.1. Ejemplo ilustrativo . . . . . . . . . . . . . . .
II.2.2. Procedimiento global . . . . . . . . . . . . . .
II.2.3. Los contrastes mas utilizados . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
17
17
18
19
III.Regresi
on lineal
III.1. Introduccion . . . . . . . . . . . . . . . . . . . .
III.2. Criterio de mnimos cuadrados . . . . . . . . . .
III.3. Regresion lineal . . . . . . . . . . . . . . . . . . .
III.3.1. Regresion lineal simple . . . . . . . . . . .
III.3.2. Regresion lineal m
ultiple . . . . . . . . . .
III.4. Inferencia para la regresion . . . . . . . . . . . .
III.4.1. Introduccion . . . . . . . . . . . . . . . .
III.4.2. Algunas distribuciones muestrales . . . .
III.4.3. Contrates de significacion . . . . . . . . .
III.4.4. Ejemplo . . . . . . . . . . . . . . . . . . .
III.4.5. Introduccion a la construccion de modelos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
23
25
25
28
31
31
32
33
33
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

INDICE GENERAL
iv
IV.An
alisis en componentes principales
IV.1. Introduccion . . . . . . . . . . . . . . . . . . . .
IV.1.1. Presentacion . . . . . . . . . . . . . . . .
IV.1.2. Planteamiento para dos variables . . . . .
IV.2. Planteamiento general . . . . . . . . . . . . . . .
IV.2.1. Preliminares . . . . . . . . . . . . . . . .
IV.2.2. Analisis en componentes principales . . .
IV.3. Propiedades . . . . . . . . . . . . . . . . . . . . .
IV.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
IV.4.1. Notas de examenes . . . . . . . . . . . . .
IV.5. Criterio de seleccion del n
umero de componentes
IV.5.1. Diagrama de codo . . . . . . . . . . . . .
IV.5.2. Proporcion de variabilidad explicada . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
38
40
40
42
43
43
43
44
45
45
V. An
alisis de conglomerados
V.1. Introduccion . . . . . . . . . . . . . . . . . . .
V.2. Metodo de particion. El algoritmo de k-medias.
V.2.1. Presentacion . . . . . . . . . . . . . . .
V.2.2. Criterios para comparar particiones. . .
V.2.3. Descripcion del algoritmo . . . . . . . .
V.2.4. Comentarios . . . . . . . . . . . . . . .
V.2.5. Eleccion del n
umero de grupos . . . . .
V.2.6. Ejemplos . . . . . . . . . . . . . . . . .
V.3. Metodos jerarquicos . . . . . . . . . . . . . . .
V.3.1. Presentacion . . . . . . . . . . . . . . .
V.3.2. Distancia, similaridad . . . . . . . . . .
V.3.3. Metodos aglomerativos . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
48
48
48
49
50
50
50
50
50
51
52
VI.An
alisis factorial
VI.1. Introduccion . . . . . . . . . . . .
VI.2. El modelo . . . . . . . . . . . . . .
VI.2.1. Primera formulacion . . . .
VI.2.2. No unicidad de los factores
VI.2.3. Hacia el modelo definitivo .
VI.3. Estimacion de las cargas factoriales
VI.3.1. Metodo del factor principal
VI.4. Rotacion de los factores . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
55
55
56
56
57
57
58
58
59
.
.
.
.
.
.
61
61
62
63
63
64
65
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
VII.
Introducci
on a las series temporales
VII.1.Introduccion . . . . . . . . . . . . . . .
VII.2.Primer paso: exploracion grafica . . . .
VII.3.Descomposicion en patrones de una serie
VII.3.1.Presentacion . . . . . . . . . . .
VII.3.2.El modelo . . . . . . . . . . . . .
VII.4.Autocorrelacion . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
temporal
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

INDICE GENERAL
VIII.
Descomposici
on de una serie temporal
VIII.1.
Filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VIII.2.
Medias moviles y componente estacional . . . . . . . . . . . . . . . .
VIII.3.
Procedimiento para la descomposicion clasica . . . . . . . . . . . . .
v
69
69
70
72
CAPITULO
Exploraci
on de datos
I.1.
Introducci
on
La estadstica utiliza datos para conseguir comprension sobre un fenomeno. Basicamente, esta comprension es una consecuencia de la combinacion entre conocimientos previos sobre el fenomeno y nuestra capacidad a utilizar graficos y calculos para
extraer informacion de los datos.
En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran n
umero de variables. Un efecto contradictorio aparece: por
una parte, cuanto mas datos, mas informacion podemos extraer sobre las variables
de interes, pero a la vez es mas difcil su extraccion.
En este contexto aparece una primera etapa fundamental frente a un conjunto
de datos: la exploraci
on, que se realiza a traves de representaciones graficas y del
calculo de unas cuantas medidas numericas bien escogidas.
Para tener las ideas claras, unos cuantos graficos pueden proporcionarnos informacion mas valiosa que procedimientos sofisticados que no dominamos. En esta
asignatura, veremos en temas posteriores metodos sofisticados de analisis para conjuntos con varias variables (el llamado analisis multivariante) pero dedicamos ahora
un captulo a recordar las tecnicas elementales con el objetivo de fomentar reacciones
sanas frente a un conjunto de datos.
I.2.
Estudio de una variable
Aun cuando el conjunto de datos presenta varias variables, se debe empezar por
el estudio individual de cada una.
I.2.1.
Unos cuantos t
erminos
Un conjunto de datos describe individuos, que pueden ser personas pero

tambien objetos. Por ejemplo, asociados a esta clase, podemos considerar que
Exploraci
on de datos
los individuos son los alumnos.
Consideramos variables asociadas a este conjunto de datos, distinguiremos entre variable cuantitativa, que asocia un n
umero a cada individuo, o variable cualitativa, que coloca cada individua en una categora. Ejemplos de
variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el
grupo sanguneo son en cambio variables cualitativas.
Un concepto fundamental que utilizaremos con frecuencia corresponde a la
distribuci
on de una variable X asociada a un conjunto de datos. Describir la
distribucion de X corresponde a establecer la lista de los valores que toma X
junto con la frecuencia con la que toma cada valor. En particular nos interesa
saber si el conjunto presenta mucha o poca variabilidad.
I.2.2.
Tabulaci
on y representaciones gr
aficas
Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos

se presentaran o bien en forma bruta: un fichero con una columna para cada variable,
donde cada fila representa un individuo, o bien en forma ya tabulada, es decir donde
los datos estan agrupados.
Para datos agrupados, consideramos por ejemplo mediciones del contenido en
nitrato en una muestra de agua:
Valor
0.45
0.46
0.47
0.48
Frecuencia
1
2
4
8
Valor
0.49
0.50
0.51
0.51
Frecuencia
8
10
5
8
En el caso en que el conjunto presente muchas valores proximos pero distintos,

agrupamos los datos por clases. Consideramos por ejemplo el conjunto de datos de
Newcomb (http://www.dmae.upct.es/mathieu) Newcomb fue el primero en conseguir en 1882! una estimacion de la velocidad de la luz. Las mediciones recogidas
en el apendice corresponden a los tiempos codificados que tardo un rayo de luz en
recorrer el camino de ida-vuelta desde el laboratorio de Simon Newcomb situado en
el Ro Potomac hasta un espejo situado en la base del Washington Monument, en
total una distancia de 7400m. Para obtener los tiempos en nano segundos (109 s)
no codificados, hay que a
nadir 24800 a cada dato.1
Agrupando los datos en clases obtenemos:
Frecuencia Clase
Frecuencia Clase
Frecuencia
Clase
] 45, 40] 1
] 15, 10] 0
]15, 20] 4
] 40, 35] 0
] 10, 5]
0
]20, 25] 17
] 35, 30] 0
] 5, 0]
1
]25, 30] 26
] 30, 25] 0
]0, 5]
0
]30, 35] 10
] 25, 20] 0
]5, 10]
0
]35, 40] 7
] 20, 15] 0
]10, 15]
0
Los datos tabulados se examinan con mas comodidad a traves de representaciones
graficas. En el eje Ox aparecen los valores de la variables, o en su caso las clases y
1
Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statistics, W. H. Freeman and Company: New York, NY, pp 3-16.
I.2 Estudio de una variable
6
2
Frecuencias
10
en el eje Oy las frecuencias. Obtenemos as un diagrama de barras en el ejemplo de

las mediciones de la concentracion en nitrato, ver figura I.1.
0.45
0.46
0.47
0.48
0.49
0.50
0.51
0.52
Mediciones de la concentracin
Figura I.1: Diagrama de barras para las concentraciones de nitrato
En el caso en que los datos estan agrupados por clase, el diagrama resultante
se llama histograma. En la figura I.2, aparece el histograma para las mediciones de
Newcomb.
15
10
5
0
Frecuencias
20
25
Histograma, mediciones de Newcomb
40
20
20
40
Mediciones
Figura I.2: Histograma para las mediciones de Newcomb
Exploraci
on de datos
Las representaciones graficas describen la distribucion de la variable en el conjunto. Al examinarlos hay que que intentar contestar a las siguientes preguntas
1. Es el histograma simetrico?
2. Posee la distribucion colas largas?
3. Posee el histograma un maximo claro u
nico? En este caso hablamos de histograma unimodal.
4. Aparecen datos atpicos?, es decir datos que se alejan del patron global de los
datos.
5. Donde localizamos el centro aproximado de los datos?
6. Presentan los datos mucha dispersion?, lo que se traduce en la forma puntiaguda o chata del histograma.
I.2.3.
Medidas num
ericas
Se suele acompa
nar las representaciones graficas de las distribuciones con medidas numericas que proporcionen un resumen de sus caractersticas principales. Existen medidas numericas para contestar a cada pregunta (y alguna mas...) planteadas
en el apartado anterior a la hora de examinar el histograma. Nos limitaremos a las
medidas de centro y de dispersion, es decir las que proporcionen una respuesta a las
preguntas 5 y 6.
a).
Medidas de centro
La media: Si x1 , . . . , xn son los datos, sabemos todos que la media es

x
=
x1 + + xn
.
n
Representa el centro de gravedad de los datos.

Cuidado: Es muy sensible a datos atpicos en el conjunto de datos, y es poco
representativa del centro en el caso en que la distribucion es asimetrica.
Para paliar estos inconvenientes, se considera tambien la mediana:
La mediana:
La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 %
a su derecha. Es una medida de centralizacion mas adecuada que la media en el caso
en que la distribucion de los datos es asimetrica ( lo que se ve en el histograma) o si
hay datos atpicos. Si la distribucion es simetrica, la media y la mediana coinciden.
Para calcular la mediana de un conjunto de n datos, x1 , x2 , . . . , xn . Empiezo por
ordenar los datos por orden creciente. La mediana es el dato ordenado no (n + 1)/2.
Ejemplo: 125, 129, 134, 185, 200. La mediana es el dato ordenado no 3, y es igual
a 134.
11, 15, 20, 23: la mediana es el dato ordenado no 2.5, que tomamos por convencion
igual al punto medio entre el dato no 2 y el dato no 3. En este caso, la mediana es
igual a 17.5.
I.2 Estudio de una variable

b).
Medidas de dispersi
on
La desviaci
on tpica Mide lo lejos que estan situados los datos respecto a su centro
de gravedad, la media. Empezamos por definir la varianza:
s2 =
(x1 x
)2 + + (xn x
)2
,
n1
(I.1)
que representa aproximadamente el promedio de las distancias al cuadrado entre los

datos y su media. La desviacion tpica s es la raz cuadrada de s2 .
Naturalmente, la desviacion tpica es representativa de la dispersion del conjunto de
datos solo si la media es representativa de su centro.
Una medida alternativa de dispersion que puede ser mas representativa en el caso
en que la distribucion es asimetrica o en presencia de datos atpicos, es el rango
intercuartlico.
El rango intercuartlico (RIC). Hemos definido la mediana como el punto que
separa el conjunto en dos partes de mismo tama
no. Definimos de la misma manera
los cuartiles como los puntos que separan el conjunto en cuatro partes de mismo
tama
no. El primer cuartil Q1 deja el 25 % de los datos ordenados a su izquierda, y
el otro 75 % a su derecha, mientras que el tercer cuartil Q3 deja el 75 % de los datos
ordenados a su izquierda, y el otro 25 % a su derecha. Por lo tanto el par (Q1 , Q3 )
nos proporciona informacion sobre la dispersion presente en los datos: cuanto m
as
alejados esten los cuartiles, mas dispersos estan los datos. Por ello, calculamos el
rango intercuartlico RIC como la diferencia entre Q3 y Q1 .
Para calcular los cuartiles, empezamos por calcular la mediana M e de los datos.
El primer cuartil es la mediana del grupo de datos que queda a la izquierda de M e
(M e excluida), mientras que el tercer cuartil se calcula como la mediana del grupo
que queda a su derecha (M e excluida).
El RIC tambien se utiliza para detectar datos atpicos:
Regla: Se consideran como atpicos los datos que son menores de Q1 1,5 RIC,
o mayores de Q3 + 1,5 RIC.
c).
Un resumen gr
afico: el diagrama de caja-bigotes
El diagrama de caja-bigotes es un resumen grafico que permite visualizar, para

un conjunto de datos, la tendencia central, la dispersion y la presencia posible de
datos atpicos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el
tercer cuartil de los datos:
El diagrama de caja-bigotes presenta de manera grafica estas informaciones, tal
como esta recogida en la figura I.3.
Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta : el dato del conjunto inmediatamente superior a Q1 1,5 RIC para el bigote inferior, y el dato
inmediatamente inferior a Q3 + 1,5 RIC, para el bigote superior.
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o m
as
conjuntos de datos.
Ejemplo
La puntuacion de los equipos de la liga espa
nola al final de las temporadas 01/02
y 02/03 en primera division se pueden comparar con un diagrama caja-bigotes, como
aparece en la figura I.4
Exploraci
on de datos
12
11
Dato atpico
Bigote
10
Q3
Me
Q1
40
50
60
70
Figura I.3: Componentes del diagrama caja-bigotes
102
203
Figura I.4: Comparacion puntuacion final, temporadas 01/02 y 02/03
Comentarios: No hay datos atpicos, es decir que no hay equipo que se haya
destacado por arriba o por abajo del resto de los equipos. Hay mas diferencia de
puntos entre el primer y el u
ltimo clasificado para la liga 02/03 que en la liga anterior.
Los equipos del tercer cuarto de la clasificacion estan muy apelotonados en la liga
02/03.
I.3 Extensi
on al experimento aleatorio
I.3.
I.3.1.
Extensi
Introducci
on
Las tecnicas descriptivas son muy u

tiles pero tienen su limitacion, se puede llegar
a conclusiones mucho mas precisas si estamos dispuestos a formular un modelo para
el mecanismo de generaci
on de los datos que observamos: no nos limitamos a los
datos que tenemos sino que los consideramos generados a partir de un experimento
que formalizamos. En el ejemplo de Newcomb, podemos considerar el experimento:
Llevar a cabo, con el procedimiento de Newcomb, una medicion del tiempo que tarda
la luz en recorrer los 7400m. Los datos de los que disponemos fueron generados a
partir de las 66 realizaciones que realizo Newcomb de este experimento.
Formular un modelo consiste en traducir nuestras creencias sobre las posibilidades que tienen de ocurrir los resultados del experimento. Para ello, utilizaremos
el concepto de probabilidad: asignaremos a cada resultado posible del experimento
un n
umero entre 0 y 1, seg
un nuestra vision de cuales son las posibilidades de que
ocurra. Si pensamos que ocurrira con toda seguridad le asignamos la probilidad 1
mientras que si pensamos que no tiene posibilidades de ocurrir, le asignamos la probabilidad 0. Merece la pena resaltar que la formulacion de un modelo es un decisi
on
subjetiva: dos personas distintas pueden escoger modelos diferentes para modelizar
el mismo experimento.
Si consideramos el experimento de tirar una moneda no trucada, asignaremos
la probabilidad 1/2 a cada de los posibles resultados, cara o cruz. En cambio, si
pensamos que la moneda esta trucada, y que es tres veces mas probable de que
ocurra cara que cruz, asignaremos la probabilidad 0.75 al resultado cara, y 0.25 al
resultado cruz.
Existe una formulacion axiomatica del concepto de probabilidad que da lugar a
una teora coherente y muy estudiada. En esta asignatura nos limitaremos a utilizar
el concepto intuitivo de probabilidad.
En el caso en que consideramos una variable X asociada a un experimento, al
formular un modelo para su distribucion, tendre que ser capaz de asignar una probabilidad a cada resultado asociado con X. Si X solo puede tomar un n
umero finito
de valores (o infinito pero numerable), describir su distribucion consistira en realizar
la lista de los valores que puede tomar junto con la probabilidad que asignamos a
cada valor. En cambio, si X puede tomar cualquier valor real por ejemplo, tendre
que definir que probabilidad asigno a cualquier intervalo. Este u
ltimo supuesto se
consigue definiendo una funcion de densidad f :
La funcion de densidad
f de una variable X es una funcion positiva que integra
R
1, es decir tal que f (x)dx = 1 y que permite calcular la probabilidad de que X
pertenezca a un intervalo ]a, b] como
Z
P[a < X b] =
f (x)dx.
a
Deducimos que la probabilidad de que X este entre a y b corresponde al area debajo

de la curva de f comprendida entre a y b, tal como esta ilustrado en la figura I.5.
Si disponemos de un conjunto de datos con una variable X, generados a partir de realizaciones de un experimento, y si nuestra descripcion del mecanismo de
generacion de los datos a traves de un modelo para X, es adecuada, la funcion de
Exploraci
on de datos
0.0
0.1
0.2
0.3
0.4
Valores de X
Figura I.5: Funcion de densidad y su interpretacion
densidad de X tiene mucha relacion con el histograma. En efecto, la probabilidad

de que X pertenezca a una clase debe explicar la frecuencia de datos que aparecen
en esta clase, y por lo tanto la forma del histograma debe corresponder a la forma
de la densidad, tal como viene reflejado en la figura I.6.
0.2
0.1
0.0
Densidad
0.3
0.4
Densidad y histograma
Figura I.6: Densidad y histograma
I.3 Extensi
I.3.2.
Medidas num
ericas asociadas
De la misma manera que para distribuciones de variables en un conjunto de

datos, se pueden resumir algunas caractersticas de las distribuciones de variables
asociadas a experimentos aleatorios.
a) Media - Esperanza Sea X una variable con densidad f , definimos la media de
X, tambien llamada esperanza o valor esperado, como
Z
X = E[X] = xf (x)dx.
Es una medida de centro de la distribucion si esta es relativamente simetrica, se
interpreta como el centro de gravedad de la distribucion, ver figura I.7.
E[X]
E[X]
Figura I.7: La esperanza es el centro de gravedad

b) Desviaci
on tpica La varianza se define como el promedio de la distancia al
cuadrado entre X y su media:
Z
2
X
= V ar(X) = (x X )2 f (x)dx,
y la desviacion tpica es X =
I.3.3.
2 .
X
Modelos m
as utilizados
Resulta que existen situaciones comunes en las que unos pocos modelos estandar sirven para describir los experimentos considerados.
a) El modelo normal Es el modelo mas utilizado en la practica. Su densidad
depende de dos parametros y 2 , que representan parametros de localizacion y de
dispersion respectivamente. Su expresion es
f (x) =
1
2 2
(x)2
2 2
10
Exploraci
on de datos
cuya representacion grafica es la famosa campana de Gauss. Si la densidad de
X es la funcion f arriba descrita, se dice que X sigue una distribucion normal de
parametros y 2 .
Se puede demostrar que, si X admite la densidad f descrita arriba, la esperanza
de X es , mientras que su varianza es 2 .
Bastara por lo tanto para escoger un modelo normal para una variable fijar el
valor de y el valor de como reflejando el centro y la dispersion de la distribucion.
En la figura I.8, se ha ajustado una curva normal al histograma de los datos recogidos
por Newcomb, despues de omitir los dos datos atpicos 44 y 2. Se observa que el
ajuste es bastante bueno.
0.04
0.00
0.02
Frecuencias
0.06
0.08
Histograma, mediciones de Newcomb
40
20
20
40
Mediciones
Figura I.8: Ajuste de una densidad normal al histograma de Newcomb
Ademas puesto que la funcion f no admite primitiva en una forma cerrada,

no hay expresion simple para calcular la probabilidad de que una variable normal
pertenezca a un intervalo dado. Se recurre por lo tanto a aproximaciones numericas
de la integral
Z b
(x)2
1
e 22 dx,
2 2
a
para obtener P(a < X b). Los programas informaticos de analisis de datos como
SPSS o Statistix disponen de algoritmos que permitan calcular para cualquier t la
probabilidad P(X t). Tambien existe un calculadora estadstica freeware NCSScalc, que se puede bajar de mi pagina web. (http://www.dmae.upct.es/mathieu)
A pesar de que no exista una expresion simple para las probabilidades asociadas
a una distribucion normal, es muy u
til conocer la regla siguiente: si X es una normal
2
N (, ), tenemos
I.3 Extensi
11
P( X + ) '
0,68
P( 2 X + 2) '
0,95
P( 3 X + 3) ' 0,997,
lo que queda reflejado en la figura I.9: el 68 % del area debajo de la curva normal
esta comprendida entre y + , el 94 % entre 2 y + 2, y el 99.7 %
entre 3 y + 3.
68%
+
95%
+ 2
99.7%
+ 3
Figura I.9: Regla del 68 % - 95 % - 99.7 %
b) El modelo exponencial Este modelo ha resultado adecuado para modelizar

el tiempo discurrido entre dos apariciones de un suceso dado, como por ejemplo el
tiempo que pasa entre dos emisiones de partculas por un material radiactivo o el
tiempo que pasa entre dos llegadas de clientes a una cola.
Decimos que X es una variable exponencial con parametro si su funcion de
densidad de

ex si x > 0
f (x) =
0
en otro caso.
Es facil demostrar que la media de X es 1/ y su varianza 1/2 .
Ap
endice
Datos: la velocidad de la luz, por S. Newcomb
Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30,
23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30,
12
Exploraci
on de datos
22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27,
28, 29, 16, 23
TEMA
II
Distribuciones muestrales - contrastes de hip

otesis
II.1.
Distribuciones muestrales
Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger

un modelo, posiblemente con uno o varios parametros que tendremos que ajustar.
Ejemplos
Me interesa una moneda para tirar a cara o cruz. El experimento es Tirar la
moneda y la variable X corresponde al resultado, su distribucion se describe
como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades:
P[X = c] = p y P[X = +] = 1 p. p es por lo tanto la probabilidad de que
salga cara, y es un parametro de nuestro modelo. En el caso en que confiamos
en que la moneda no esta trucada, nuestro modelo considerara que p = 1/2.
Para sacar informacion sobre p y comprobar en particular que la moneda no
esta trucada, repetiremos un cierto n
umero de veces el experimento.
Para las proximas elecciones generales, queremos determinar la proporci
on
de gente que tiene intencion de ir a votar, es decir queremos estimar la tasa
de participacion. El censo electoral para Espa
na tiene unos 32 millones de
personas. Es claramente imposible entrevistar a todas las personas del censo.
En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas
3000 personas entre el censo y preguntandoles si tienen intencion de ir a votar.
El ndice de audiencias manda en la programacion de television. Pero c
omo saben cuantos espectadores vieron un partido dado o un programa determinado? A m nunca me han preguntado... En realidad, una encuesta se
realiza de manera automatica y continua: una empresa especializada llamada
SOFRES (http://www.sofresam.com) ha escogido al azar unos 3300 hogares
que representan unas 10000 personas de entre un total de aprox. 39 500 000
espectadores potenciales. En cada uno de estos hogares, instala un aparato
14
Mathieu Kessler: Estadstica industrial

llamado audmetro que graba cual es el programa que se esta viendo en cada
momento.
Quiero conocer la concentracion de un determinado producto en una solucion.
Pienso que es razonable que la distribucion de los valores proporcionados por
mi aparato de medicion sea una normal con media y desviacion tpica
desconocidas. El centro de esta distribucion, es decir , sera por lo tanto lo
mas representativo de la concentracion que intento determinar. Para estimar
, repetire la medicion varias veces.
Pero surge una pregunta evidente:
Pregunta: Como sabemos que nuestra estimacion es fiable? Por que limitandose
a unas 3000 personas, se puede extropolar el resultado con confianza a una poblacion
de 30 millones? Ademas esta claro que el resultado que obtengo depende de la
muestra particular que haya escogido, si escojo otra muestra me sale otro resultado.
Este hecho se llama la variabilidad muestral.
Intento de respuesta: Consideremos el caso del sondeo en el que se busca estimar

la tasa de participacion antes de unas elecciones. Para intentar convencer al lector de
que, el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas
a la poblacion de 32 millones no es excesivo, llevo a cabo un estudio de simulacion:
Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que
representara el censo electoral. Los unos representaran a las personas que s
tienen la intencion de ir a votar, mientras que los ceros a los que no piensan ir a
votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos,
mientras que el 30 % son ceros. (70 % es una tasa razonable de participacion
en unas elecciones)
Extraigo al azar una muestra de 3000 datos del fichero completo, hago el
recuento de los unos, y encuentro que la proporcion de unos en esta muestra
es de 0.71. Por lo tanto, en este caso, mi estimacion es muy buena: estimo
la tasa de participacion en 71 % mientras que la autentica, es dec`
ur, la de
la poblacion (el fichero) es de 70 %. Os he convencido? Seguro que alg
un
lector desconfiado dira: no demuestra nada, ha tenido suerte de que en la
muestra que ha escogido, la proporci
on de unos sea pr
oxima a la proporci
on
poblacional, pero con otra muestra podra salir otro resultado peor. De acuerdo,
el argumento es valido... Pero para convencerle, voy a coger otra muestra al
azar de 3000 datos, y encuentro que la proporcion muestral de unos es 0.72.
Sigue estando muy bien, no? Sigue sin convencerle? Bueno, puedo repetir la
extraccion de muestras hasta 10 000 veces por ejemplo, y guardo los valores
que encuentro para la proporcion de 1 en cada una de estas 10000 muestras
en una variable llamada p.
Realizo un histograma de los 10000 valores de p, el resultado aparece en la
figura II.1. Una primera conclusion se impone: la gran mayora de las muestras
han proporcionado un valor de p entre 0.68 y 0.72, lo que corresponde a una
muy buena estimacion del valor de la proporcion poblacional. Por lo tanto este
estudio simulado demuestra que al escoger una muestra de 3000 personas, es
muy probable que el valor de la proporcion de 1 en la muestra este bastante
15
1000
0
500
Frecuencias
1500
2000
II.1 Distribuciones muestrales
0.67
0.68
0.69
0.70
0.71
0.72
0.73
^
p
Figura II.1: Histograma de los valores de p para 10000 muestras extraidas
proxima (menos de dos puntos) de la proporcion de 1 en la poblacion, aunque

esta sea muchsimo mas grande que la muestra.
Podemos dar un paso mas en la utilizacion de este estudio simulado: si considero
ahora el experimento extraer una muestra de tama
no 3000 en la poblacion, p es la
variable proporcion de 1 en la muestra extraida. Quiero formular un modelo para
su distribucion. El histograma en la figura II.1 me sugiere que puedo escoger una
distribucion normal para p. De hecho en la figura II.2, se aprecia que el ajuste por una
normal con media = 0,70 y desviacion tpica = 0,008 es muy bueno. Utilizando
entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar
en la poblacion una muestra de tama
no 3000, la probabilidad de que la proporci
on
muestral p se encuentre entre 0,7 2 0,008 = 0,694 y 0,07 + 2 0,008 = 0,716 es
del 95 %.
Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado,
podramos preguntarnos si podramos ahorrarnos algo y extraer una muestra m
as
peque
na. Repitamos por ejemplo el estudio simulado con muestras de solo 100 personas. El histograma que obtenemos aparece en la figura II.3. Observamos que en
este caso el histograma es muchsimo mas chato, y que la dispersion de los valores de
p es mucho mayor: es mas probable, al escoger una muestra de 100, que la proporci
on
Densidad
10
20
30
40
16
0.67
0.68
0.69
0.70
0.71
0.72
0.73
phat
Figura II.2: Ajuste de una normal al histograma de los valores de p
1000
0
500
Frecuencias
1500
muestral este bastante alejado del objetivo 0.7.
0.6
0.7
0.8
0.9
^
p
Figura II.3: Histograma de los valores de p para 10000 muestras de tama

no 100
extraidas
Toda la teora desarrollada acerca de los sondeos utiliza de manera crucial el hecho de que antes de extraer la muestra, se dispone de un modelo para la distribucion
de p por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este
II.2 Contrastes de hip

otesis
17
modelo permite en particular decidir si, fijado el error maximo que se esta dispuesto
a cometer respecto a la proporcion poblacional, el tama
no de la muestra es suficiente
como para que el riesgo de cometer un error mayor es lo suficientemente peque
no.
Introducimos dos terminos fundamentales en estadstica:
Definici
on. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadstico. La distribucion de los valores que puede tomar un estadstico respecto a todas las muestras de tama
no n que se podra extraer se llama
distribuci
on muestral de este estadstico.
II.2.
Contrastes de hip
otesis
II.2.1.
Ejemplo ilustrativo
Supongamos que dispongo de una monedo y quiero saber si esta trucada. Formalizo el modelo tal como lo hemos visto en la seccion anterior: X es la variable
resultado obtenido al tirar la moneda, X puede tomar dos valores c (Cara) o +
(Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 p. Me pregunto si
p = 1/2 o p 6= 1/2. Formulo por lo tanto dos hipotesis:
una hipotesis nula:
una hipotesis alternativa
H0
H1
p = 1/2
p 6= 1/2
Para decidir cual de las dos hipotesis es cierta, pienso tirar la moneda 100 veces y
calcular la proporcion muestral p de caras. Por la teoria de probabilidad y de las
variables aleatorias, se sabe que, si p = 1/2, la distribucion muestral de p se puede
modelizar por una normal con media 0.5 y desviacion tpica 0.05. Es decir que, antes
de realizar el experimento de tirar 100 veces la moneda y calcular la proporcion p
de caras entre estas 100 tiradas, se que, si la moneda no esta trucada, puedo esperar
que la distribucion de los valores que podra tomar p sera tal como en la figura II.4.
Entre que valores se encontrar
a con gran confianza p?
Supongamos ahora que efectivamente, tiro 100 veces la moneda y obtengo 61
caras y 39 cruces. Por lo tanto p = 0,61. Esta la moneda trucada? En principio,
parece que s, pero por otra parte, como sabemos que este resultado, alejado del
0.5 esperado si la moneda no fuera trucada, no se deba sencillamente al azar, y no
provenga de la variabilidad natural inevitable al tirar 100 veces la moneda? Podemos
contestar a esta pregunta porque, precisamente, disponemos de un modelo para la
distribucion de los valores de p si en realidad p = 1/2.
Observamos que el valor p = 0,61 es un valor bastante extremo para su distribucion. De hecho, que porcentaje de las muestras de tama
no 100, proporcionan
un valor tan o mas alejado del 0.5 esperado que 0.61? Para saberlo calculo con
una calculadora estadstica y utilizando el modelo que tengo para p, la probabilidad
P[
p 0,39 p 0,61], que es aproximadamente igual a 0.028. Deduzco que, si en
efecto p = 1/2 solo el 2.8 % de las muestras de tama
no 100 proporcionaran un valor
tan o mas alejado de 0.5 como el valor que me ha salido. En este sentido, el valor que
he obtenido es extremo, suponiendo que la hipotesis nula es cierta... En este caso,
los datos tienden a refutar la hipotesis nula, y basandonos en la muestra extraida,
afirmamos que la moneda esta trucada.
18
0.0
0.2
0.4
0.6
0.8
1.0
^
p
Figura II.4: Distribucion muestral de p para 100 tiradas de una moneda no trucada
El porcentaje de muestras de tama

no 100 que proporcionaran un valor igual o
mas alejado que el valor encontrado en nuestra muestra es una medida de la fuerza
de los datos contra la hipotesis nula y a favor de la hipotesis alternativa.
II.2.2.
Procedimiento global
De manera repetida en la asignatura, los procedimientos que veremos incluiran

contrastes de hipotesis:
Llamando un parametro del modelo,
formularemos una hipotesis nula y una alternativa respecto al valor de .
H0
H1
= 0
6= 0
En el ejemplo ilustrativo, era p y 0 era 1/2. En algunos casos, solo nos

interesara incluir en la hipotesis alternativa valores del parametro mayores que
0 . En este caso formularemos las hipotesis como
H0
H1
= 0
> 0 .
Por supuesto tambien podramos considerar en la alternativa valores menores

que 0 :
H0
H1
= 0
< 0 .
II.2 Contrastes de hip

otesis
19
Para la primera formulacion hablamos de hipotesis alternativa bilateral mientras que para las dos u
ltimas hablamos de hipotesis alternativa unilateral.
Planificamos nuestra toma de muestra: escogemos el tama
no de la muestra
que extraeremos. En funcion del parametro que queremos, escogeremos un
estadstico y un modelo para su distribucion muestral bajo el supuesto que la
hipotesis nula es cierta.
Extraemos una muestra, calculamos, para esta muestra, el valor del estadstico,
y situamos este valor en la distribucion muestral del estadstico cuando H0 es
cierta.
Cuantificamos la fuerza de los datos en contra de la hipotesis nula y a favor
de la hipotesis alternativa a traves del p-valor: el p-valor es el porcentaje
de muestras del tama
no escogido que proporciona un valor del estadstico
tan o mas extremo en la distribucion muestral que el obtenido para nuestra
muestra. En el ejemplo ilustrativo de la seccion anterior, habamos encontrado
un p-valor del orden de 2.8 %.
Nota: conforme a la filosofa de estos temas recordatorios, hemos escogido una
presentaci
on intuitiva obviando algunas sutilezas y/o dificultades. Nuestro objetivo es que el lector haya asimilado el concepto de estadstico y de distribuci
on
muestral, as como la idea de un contraste de hip
otesis, sabiendo interpretar
un p-valor.
Se suele considerar que un p-valor menor que 0.05 indica una gran fuerza en los
datos en contra de la hipotesis nula y a favor de la alternativa, mientras que cuando
el p-valor es mayor de 0.2, se considera que los datos no contradicen la hipotesis
nula.
II.2.3.
Los contrastes m
as utilizados
Existe un gran n
umero de contrastes, y nos limitaremos a recordar aqu los m
as
sencillos.
En el caso en que el modelo escogido para la variable X en la poblacion sea
N (, 2 ), los contrastes sobre la media se formulan como
H0
H1
= 0
6= 0 ,
en su version bilateral, o sustituyendo H1 por H1 : > 0 , o H1 : < 0 en su

version unilateral.
Para muestras de tama
no n, el estadstico de prueba depende de si el valor de
2 es conocido o no, es decir si el modelo para X especifica un valor concreto para
la varianza, o si esta se considera desconocida. Si 2 es conocido, el estadstico de
0 , y su distribuci
prueba es Z0 = X
on muestral en el supuesto de que H0 es cierta
/ n
es
Z0 N (0, 1) si H0 es cierta.
Extraemos una muestra concreta, denotamos por z el valor tomado para esta muestra
por el estadstico Z0 .
20

El p-valor se calcula como 2 P[Z0 |
z |] en el caso de una hipotesis alternativa
bilateral, y como P[Z0 |
z |] en el caso en que H1 sea unilateral.
Si en cambio no se especifica ning
un valor con el modelo para la varianza de X,
2
2
se estima por s la varianza calculada a partir de la muestra. El estadstico de
0 , y su distribuci
prueba es T0 = X
on muestral si H0 es cierta,
s/ n
TEMA
III
Regresi
on lineal
III.1.
Introducci
on
Es muy normal considerar mas de una variable asociada a un experimento. En

este caso, mas que la distribucion de cada variable por separado, nos puede interesar
en particular las relaciones que existan entre ellas. Nos centraremos aqu en el caso
en que distinguimos una variable llamada respuesta, cuya amplitud depende de los
valores de otras variables llamadas explicativas, y aprenderemos como deducir un
modelo para la evolucion de la primera en funcion de estas u
ltimas.
Hay dos utilidades principales al disponer de un modelo: podemos primero explicar la manera en la que cambios en los valores de una variable explicativa induce
cambios en el valor de la variable respuesta. Por ejemplo, si pienso que la temperatura media Y en agosto en San Javier evoluciona en funcion del a
no seg
un el
modelo:
T emperatura = 582,5 + 0,31a
no,
deducire que en promedio, la temperatura media en agosto aumenta de 0.3 grados
cada a
no.
Por otra parte, si dispongo de un modelo para la evolucion de la variable respuesta, me permite tambien realizar predicciones del valor que tomara para valores
de las explicativas que no hemos observado.
Acabamos esta seccion de presentacion con cuatro ejemplos con datos reales
tomados de campos diferentes. Las nubes de puntos correspondientes estan presentadas en la figura III.1
Estudio de la resistencia del cemento en funcion del tiempo de fraguado en
das. Fuente: Hald, A. (1952) Statistical theory for engineering applications,
Wiley & Sons New-York, pag 541. Como evoluciona la resistencia de piezas de
cemento en funcion del tiempo de fraguado? Cuanto tiempo hay que esperar
para conseguir el 90 % de la resistencia maxima? Este es el tipo de preguntas
a las que podemos contestar con el estudio de este conjunto de datos.
22

Todos los a
nos Venecia se inunda durante las acqua alta. Sin embargo, parece
que el nivel maximo al que llega el mar esta cada a
no mas alto, haciendo
temer por la conservacion de la ciudad y de sus monumentos. Es por lo tanto
de interes estudiar la evolucion del nivel maximo del mar en funcion del a
no.
Fuente: Smith, R.L (1986) Extreme value theory based on the r largest annual
events, Journal of Hydrology, 86.
Evolucion de la produccion mundial de petroleo desde 1880. Fuente: Data and
Stories Library http://lib.stat.cmu.edu/DASL/.
En 1929, Edwin Hubble investigo la relacion entre la distancia de una galaxia
a la tierra y la velocidad con la que esta alejandose. En efecto se piensa que
las galaxias se alejan como consecuencia del Big Bang. Hubble penso que
disponiendo de un modelo que relacionara la velocidad de recesion con la distancia a la tierra proporcionara informacion sobre la formacion del universo
y sobre lo que podra pasar en el futuro. Los datos recogidos incluyen distancias en megaparsecs (1 megaparsec= 3.26 a
nos luz) y velocidad de recesion en
km/s. Fuente: Data and Stories Library, http://lib.stat.cmu.edu/DASL.
Resistencia del cemento
Nivel mximo del mar en Venecia
160
Nivel
80
10
15
20
25
1940
1950
1940
Ao
1960
1980
1980
1500
500
1920
1970
Velocidad (km/s)
15000
0 5000
MBBL
1900
1960
Velocidad de recesin de 24 nebulosas
1880
Ao
1930
Produccin mundial de petrleo
Das
120
35
25
15
Resistencia
0.0
0.5
1.0
1.5
2.0
Distancia(megaparsecs)
Figura III.1: Cuatro ejemplos de conjuntos de datos
2.5
III.2 Criterio de mnimos cuadrados
III.2.
23
Criterio de mnimos cuadrados
Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta
que llamaremos Y y una variable explicativa que llamaremos X.
Disponemos de n pares de datos
X
Y
x1
y1
x2
y2
xn
yn
2.0
2.5
3.0
Para visualizar el conjunto recurrimos a la nube de puntos, tambien llamada diagrama de dispersion, en el que representamos los pares (xi , yi ), i = 1, , n, en unos
ejes Ox, Oy, ver figura III.2
1.5
(x2,y2)
1.0
(x3,y3)
0.5
(x1,y1)
Figura III.2: Ejemplo de nube de puntos

Por conocimientos previos sobre el fenomeno que estudiamos o por la propia
nube de puntos, decidimos ajustar a esta una curva de una determinada forma
funcional: podra ser por ejemplo una recta, de ecuacion Y = aX + b, o una parabola
Y = a0 + a1 X + a2 X 2 . La forma de la curva esta fijada pero intervienen en la
ecuacion constantes, tambien llamadas parametros, cuyo valor tenemos que ajustar
para obtener el mejor ajuste posible: en el caso de la recta, debemos encontrar los
valores de la pendiente b y de la ordenada al origen a.
En una formulacion general, escogemos una familia parametrica de funciones
x 7 f (, x) = (1 , . . . , k ),
donde es el vector de parametros. Buscar la funcion de la familia que mejor se ajusta
a la nube de puntos es equivalente a encontrar el valor de , que corresponde a
esta funcion.
Debemos ahora dar sentido a la nocion de mejor; debemos fijarnos un criterio
que nos permita decidir que una funcion de la familia se ajusta mejor a la nube de
puntos que otra. El criterio que seguimos en este tema es el de mnimos cuadrados.
24

Definimos la suma de cuadrados asociada a una funcion de la familia como la
suma de los cuadrados de las distancias verticales entre la curva correspondiente y
los datos observados de la nube de puntos. Tal como viene reflejado en la figura III.3,
la distancia vertical entre por ejemplo el punto x3 , y3 ) y la curva es y3 f (, x3 ),
por lo tanto la suma de cuadrados se escribe
SC() = (y1 f (, x1 ))2 + (y2 f (, x2 ))2 + + (yn f (, xn ))2 .
(x3,y3)
y3
f(, x3)
y=f(, x)
x3
Figura III.3: Ajuste de una curva a la nube de puntos.

Buscamos el valor de que minimiza la cantidad 7 , en muchos casos, es
imposible encontrar este mnimo explcitamente y tenemos que recurrir a algoritmos
III.3 Regresi
on lineal
25
numericos. Nos centraremos en este tema en el que la forma parametrica de f es
particularmente simple y permite el calculo explcito de .

Supongamos que hemos ajustado la curva, es decir que hemos encontrado el valor
de que minimiza la suma de cuadrados, introduzcamos unos cuantos terminos:

x) se llama la curva ajustada.
La curva de ecuacion y = f (,
Los ordenadas de la curva ajustada correspondientes a los datos observados,
x1 ), . . . , yn = f (,
xn ) se llaman los valores
es decir los valores y1 = f (,
ajustados.
Las distancias verticales entre los puntos observados y la curva ajustada se
llaman los residuos e1 , . . . , en . Tenemos
ei = yi yi ,
La suma de cuadrados
=
SC()
i = 1, . . . , n.
n
X
e2i
i=1
se llama suma residual de cuadrados.

Para la regresion lineal, el coeficiente
Pn
(
yi y)2
2
R = Pni=1
)2
i=1 (yi y
mide la proporcion de variabilidad en los datos explicada por el modelo. Se
llama coeficiente de determinaci
on m
ultiple.
III.3.
Regresi
on lineal
Hablamos de regresion lineal cuando los parametros intervienen de manera lineal

en la especificacion de la funcion y = f (, x). Mas concretamente, suponemos que
tenemos k variables explicativas, X1 , X2 , . . . , Xk , y que la variable respuesta Y es
una combinacion lineal de X1 , X2 , . . . , Xk :
Y = 1 X1 + 2 X2 + + k Xk ,
(III.1)
donde 1 2 . . . , k son n
umeros reales. En este caso el parametro es igual a
(1 2 . . . , k ).
III.3.1.
Regresi
on lineal simple
El caso mas utilizado de regresion lineal corresponde al ajuste por una recta, es
decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo
de la forma
Y = aX + b.
Se trata de un caso particular de la formulacion general (III.1), si consideramos
b = 1 , X1 = 1, a = 2 y X2 = X.
26

a).
Obtenci
on de la recta ajustada
La suma de cuadrados se escribe
SC() = SC(a, b) =
n
X
(yi (axi + b))2 ,
i=1
Los candidatos a alcanzar el mnimo de esta funcion satisfacen
SC(a, b) = 0
a
SC(a, b) = 0.
b
Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este
sistema de ecuaciones son
a
=
xy
xy
x2 (
x) 2
b = y a
x
.
Introducimos la cantidad
n
(xy x
y),
(III.2)
n1
que llamamos la covarianza de X e Y . El coeficiente a
se puede escribir como
sxy =
a
=
sxy
,
s2x
donde s2x es la varianza de X que introdujimos en el tema 1. Con estas notaciones,

se puede escribir la ecuacion de la recta ajustada en una forma compacta:
y y =
sxy
(x x
).
s2x
Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene
el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza es
positiva, Y y X presentan una asociacion positiva: cuando crece X, crece Y y cuando
decrece X, decrece Y . En cambio, si la covarianza es negativa Y y X presentan una
asociacion negativa, es decir que si X crece, Y decrece y vice versa.
b).
Bondad del ajuste

Para la regresion lineal simple se puede demostrar que R2 = r2 donde
r=
sxy
.
sx sy
(III.3)
La cantidad r se llama el coeficiente de correlaci

on entre X e Y . Para cuan =
tificar
la
bondad
del
ajuste
desarrollamos
la
suma
de
cuadrados residual, SC()
Pn
i )2 . Podemos demostrar que
i=1 (yi y
= (n 1)s2 (1 R2 ).
SC()
y
III.3 Regresi
on lineal
27
Deducimos que R2 esta siempre comprendido entre 0 y 1, y cuanto mas cercano este
de 1, mejor es el ajuste, puesto que correspondera a una suma residual de cuadrados
= 0, y para todo i = 1, . . . , n,
menor. En particular, deducimos que si R2 = 1, SC()
yi = yi : todos los puntos observados estan situados en la curva ajustada: los residuos
son nulos y el ajuste es perfecto.
Puesto que R2 = r2 y 0 R2 1, deducimos que el coeficiente de correlacion r
esta siempre comprendido entre 1 y 1. Si r = 1, el ajuste de los puntos observados
por una recta es perfecto. El coeficiente de correlacion se interpreta en general como
una cantidad que cuantifica la asociacion lineal que existe entre dos variables: cuanto
mas cerca de 1, mas se aproxima la nube de puntos a una recta.
Ademas por la definicion (III.3), sabemos que r es del mismo signo de la covarianza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia de
una asociacion lineal positiva entre las dos variables, mientras que si es negativo y
cercano a 1, presentan una asociacion lineal negativa.
Sin embargo, es necesario tener precaucion a la hora de interpretar valores del
coeficiente de correlacion: solo es un resumen, fiable en el caso en que esta proximo
a 1 para indicar que existe una fuerte asociacion lineal entre las variables pero
mucho menos fiable si toma un valor alejado de 1. Anscombe (1973), Graphs in
statistical analysis, American Statistician, 27, pp 17-21, construyo cuatro conjuntos
de datos artificiales que dan lugar al mismo coeficiente de correlacion y a las mismas
rectas de regresion, pero cuyos aspectos son completamente diferentes. Los datos se
presentan en el apendice, y se deja su estudio en ejercicio.
c).
Predicci
on
Tal como lo mencionamos en la introduccion del tema, si disponemos del modelo

ajustado podemos utilizarlo para predecir el valor de la respuesta para valores no
observados de X:
Si x0 es un valor no observado, nuestra prediccion del valor de Y sera
y x0 = a
x0 + b.
Sin embargo, debemos tener mucho cuidado al extrapolar nuestro modelo fuera del
rango de valores de X que hemos observado, al no disponer de valores fuera de este
rango, tampoco sabemos si el modelo deducido seguira valido. Por ejemplo en la
introduccion hemos visto que un modelo para la evolucion de la temperatura media
en agosto Y en funcion del a
no X esta dado por
T emperatura = 582,5 + 0,31a
no.
Este modelo se obtuvo a partir de mediciones de la temperatura para los u
ltimos
20 a
nos aproximadamente. El hecho de que la pendiente al origen sea -582.5 implica
que si el modelo lineal fuera valido hasta el a
no 0, la temperatura media en el mes
de agosto habra sido de -582 grados! El modelo lineal es una buena aproximaci
on
para la evolucion de la temperatura en los u
ltimos veinte a
nos, pero no es valido
para epocas demasiada alejadas de la actualidad.
28
III.3.2.
a).
Regresi
on lineal m
ultiple
Presentaci
on
La regresion lineal m
ultiple corresponde al caso general
Y = 1 X1 + 2 X2 + + k Xk .
(III.4)
Se trata de un modelo bastante general que incluye muchas posibles formas funcionales para f (, x).
Muy a menudo, se considera un termino constante en el modelo, lo que corresponde a imponer que X1 = 1.
Los modelos incluidos en esta formulacion general comprenden entre otros
La regresion lineal simple.
Y =
+aX
Y =
1 X1
+2 X2
X1 = 1 X2 = X
La parabola
Y
= a0 + a1 X + a2 X 2
= 1 X1 + 2 X2 + 3 X3
X1 = 1,
X2 = X,
X3 = X 2
Cualquier polinomio de orden q,

Y
= a0 + a1 X + a2 X 2 + + aq X q
= 1 X1 + 2 X2 + + q+1 Xq+1
X1 = 1,
X2 = X, . . .
Xq+1 = X q
Si disponemos de dos variables X y Z y buscamos un modelo para Y en

funcion de estas, Y pertenece a una superficie, que se puede representar en un
eje tridimensional. Tenemos por ejemplo el caso mas sencillo
Y
= a00 + a10 X + a01 Z
= 1 X1 + 2 X2 + 3 X3
X1 = 1,
X2 = X,
X3 = Z,
en el que la respuesta Y evoluciona en un plano en funcion de X y Z, o si

a
nadimos terminos cuadraticos,
Y
= a00 + a10 X + a01 Z + a11 XZ + a20 X 2 + a02 Z 2
= 1 X1 + 2 X2 + 3 X3 + 4 X4 + 5 X5 + 6 X6 +
X1 = 1,
X2 = X,
X3 = Z,
X4 = XZ,
X5 = X 2 ,
X6 = Z 2
III.3 Regresi
on lineal
29
obtenemos que la respuesta describe una superficie cuadratica, una paraboloide

de revolucion por ejemplo.
En cuanto a la presentacion de los datos, disponemos de n valores y1 , y2 , . . . , yn
que corresponden a distintos valores de las explicativas. Se recogen en una tabla de
la forma
b).
Y
y1
y2
..
.
X1
x11
x21
..
.
X2
x12
x22
..
.
...
...
...
..
.
Xk
x1k
x2k
..
.
yn
xn1
xn2
...
xnk
C
alculo de los coeficientes
Introducimos la matriz X, llamada matriz

valores de las variables explicativas
x11 x12 . . .
x21 x22 . . .
X= .
..
..
..
.
.
de dise
no que contiene todos los
x1k
x2k
..
.
xn1 xn2 . . . xnk

as como el vector de observaciones
Y =
y1
y2
..
.
yn
y el vector de coeficientes = (1 , 2 , . . . , k )0 , donde
suma de cuadrados SC() se puede escribir
denota la transpuesta. La
SC() = kY Xk2 ,
donde k k denota la norma eucldea de un vector en Rn . Esta situacion es bien conocida en algebra lineal, buscamos el elemento del espacio vectorial generado por las
columnas de X que minimice la distancia a un vector dado: se trata de la proyecci
on
ortogonal, y la expresion de los coeficientes que minimiza SC() es

1
2
.
..
n
= (X 0 X)1 X 0 Y,
donde X 0 denota la transpuesta de X.

Nota. La expresion anterior presupone que se puede invertir X 0 X, lo que es equivalente a que las columnas de la matriz X vistas como vectores son linealmente
independientes.
30

c).
Ejemplo
Se estudia el rendimiento Y de una reaccion qumica en funcion de la temperatura

T M P a la que se lleva a cabo, la concentracion inicial del producto C y el tiempo
T que transcurre.
Los datos se presentan en la tabla siguiente:
Temperatura(C)
10
15
10
15
10
15
10
15
Concentracion( %)
40
40
40
40
50
50
50
50
Tiempo(mn)
20
20
25
25
20
20
25
25
Rendimiento
28.27
36.33
26.00
37.00
37.40
42.45
39.42
45.47
Buscamos un modelo de la forma:

Y
= 1 + 2 T emp + 3 Conc + 4 T iempo
= 1 X1 + 2 X2 + 3 X3 + 4 X4
X1 = 1,
X2 = T emp,
donde Y es el rendimiento.
Para este modelo la matriz de dise
no es
1 10
1 15
1 10
1 15
X=
1 10
1 15
1 10
1 15
X3 = Conc,
40
40
40
40
50
50
50
50
20
20
25
25
20
20
25
25
X4 = T iempo,
y las distintas cantidades que necesitamos para calcular los coeficientes son
8
100
360
180
100 1300 4500 2250
X 0X =
360 4500 16400 8100
180 2250 8100 4100
C = X 0X
1
23,5
0,25
0,25
0,02
=
0,225
0
0,45
0
27. 995
1. 509
X 0Y =
0. 9285
0. 173
0,225 0,45
0
0
0,005
0
0
0,02
III.4 Inferencia para la regresi

on
31
27,96
1,51
= C X 0 Y =
0,93
0,17
El modelo ajustado es por lo tanto

Rendimiento = 27,96 + 1,51T emp + 0,93Conc + 0,17T iempo.
En particular deducimos que un aumento de 1 grado en la temperatura a la que se
realiza la reaccion induce un aumento de 1.51 puntos en el rendimiento.
En la tabla siguiente presentamos los valores observados para la respuesta, los
valores ajustados por nuestro modelo y los residuos.
y
28.27 36.33 26.00 37.00 37.40 42.45 39.42 45.47
27.70 35.24 28.56 36.10 36.98 44.52 37.84 45.38
y
residuos
0.57
1.09 -2.56
0.90
0.42 -2.07
1.58
0.09
III.4.
Inferencia para la regresi

on
III.4.1.
Introducci
on
Al igual que en los dos primeros temas, conseguiremos sacar informacion mas precisa sobre el fenomeno bajo estudio si disponemos de un modelo para el mecanismo
de generacion de los datos que hemos observado.
Para simplificar, empecemos por el caso en que solo tenemos una variable explicativa X. Consideramos entonces el experimento que consiste en escoger un valor
de X y observar el valor de la respuesta Y resultante. Como explicar que, si escogemos varios valores de X, obtenemos una nube de puntos que, por ejemplo, parece
globalmente seguir una recta? Los puntos observados sufren desviaciones de la recta,
algunas veces se encuentran por abajo, otras por encima. El modelo que explica la
relacion entre el dato obtenido para Y y el escogido para X puede por lo tanto ser
Y = aX + b + ,
donde es una variable aleatoria (por lo tanto impredecible) que algunas veces toma
valores negativos, lo que implica que el punto observado esta por debajo de la recta,
y otras veces positivos. La variable corresponde a la perturbaci
on aleatoria que
sufre la relacion lineal entre Y y X.
Para completar la especificacion del modelo, solo nos falta escoger un modelo
para la distribucion de los valores que puede tomar la perturbacion . La opci
on
mas extendida y que suele ser bastante acorde con lo observado en la practica corresponde a la campana de Gauss: suponemos que, sea cual sea el valor escogido de
X, la perturbacion asociada a la generacion del valor de la respuesta sigue una
distribucion normal con media cero (el centro de los valores de la perturbacion corresponde a la situacion sin perturbacion) y con la misma desviacion tpica , es
decir
N (0, 2 ).
32

En conclusion, el modelo que escogemos para la respuesta Y en el caso en que
conocemos el valor de X, es
Y N (aX + b, 2 ),
si pensamos ajustar una recta mientras que, para el caso mas general de la regresion
lineal m
ultiple:
Y N (1 X1 + 2 X2 + + k Xk , 2 ).
(III.5)
Dos caractersticas fundamentales de nuestro modelo son
La respuesta promedio, es decir la esperanza de Y , E[Y ] esta dada por
E[Y ] = 1 X1 + 2 X2 + + k Xk ,
es decir que el centro de los valores que obtenemos corresponde precisamente
a un elemento de la familia parametrica que hemos escogido.
La varianza de la perturbacion, y por lo tanto de la respuesta, no depende del
valor concreto de las variables explicativas: hablamos de homocedasticidad.
III.4.2.
Algunas distribuciones muestrales
Fijado este modelo, nos damos cuenta de que consideramos ahora que los datos
que hemos observado son el resultado de un experimento aleatorio, y que si repitiera
la toma de las mismas n combinaciones de valores de las explicativas y observara los
n valores resultantes de la respuesta, obtendra otra nube de puntos, seguramente
con una forma global parecida, pero distinta. En particular, los coeficientes ajustados
1 , . . . , k que calculara seran distintos. En resumen, las cantidades 1 , . . . , k son
variables aleatorias, cuya distribucion muestral es de sumo interes para poder realizar
afirmaciones sobre la relacion entre Y y las variables explicativas.
La teora estadstica determina en el caso de la regresion lineal m
ultiple las
distribuciones muestrales de los coeficientes estimados, si suponemos que los datos
han sido generados a partir del modelo (III.5).
Puesto que nuestro objetivo aqu es llegar a interpretar los principales elementos
de la salida de un programa como SPSS, nos limitamos a las distribuciones muestrales
de cada i .
Estimaremos la varianza 2 de la perturbacion por la varianza residual
2 que
definimos a continuacion,
2 =
n
1 X
(yi yi )2 .
nk
(III.6)
i=1
Introduzcamos ahora la matriz C = (X 0 X)1 , tenemos que, para todo i = 1, . . . , k,

i
1/2
Cii
tnk ,
(III.7)
donde Cii denota el i-esimo elemento de la diagonal de C, y tnk es la distribucion

1/2
t de Student con n k grados de libertad. El denominador
Cii se llama el error
estandar del estimador i .

on
III.4.3.
33
Contrates de significaci
on
La principal utilidad que haremos de la distribucion muestral (III.7) consistira en

plantear el contraste para comprobar si un determinado coeficiente en la regresi
on
es significativamente diferente de cero. Para i entre 1 y k, plantearemos las hipotesis
H0 : i = 0
H1 : i 6= 0.
A continuacion, obtenemos el valor de i a partir de los datos que hemos observado

as como el de la varianza residual (III.6), para acabar calculando el valor concreto t
i
. El p-valor se obtendra entonces
para nuestra muestra del estadstico de prueba 1/2
Cii
como P[|tnk | > |t|] donde tnk representa una variable con distribucion t de Student
con n k grados de libertad.
Los contrastes
H0 : i = 0
H1 : i 6= 0,
son particularmente importantes a la hora de construir el modelo. Muy a menudo no

tenemos muy claro si una determinada variable tiene influencia sobre la respuesta
o no, y por lo tanto no sabemos si el modelo que construimos para la respuesta
promedio debe incluirla.
III.4.4.
Ejemplo
Volvamos al ejemplo del rendimiento de la reaccion qumica. El ajuste obtenido

era
E[Y ] = Rendimiento promedio = 27,96 + 1,51T emp + 0,93Conc + 0,17T iempo,
es decir que los coeficientes de cada variable explicativa han sido todos estimados
por valores distintos de cero, lo que induce a pensar que tanto la temperatura como
la concentracion inicial del reactivo como el tiempo de reaccion tienen una influencia sobre el rendimiento. Sin embargo son estos coeficientes significativamente
diferentes de cero?, o es que su alejamiento del valor nulo se debe solamente a la
variabilidad natural de los valores del estimador i correspondiente? A lo mejor si
repito el experimento completo, obtendra una ecuacion ajustada en la que el coeficiente del tiempo estuviera muy cerca de cero o incluso negativo, lo que cambiara del
todo mi conclusion sobre el efecto del tiempo sobre el rendimiento. Los contrastes
de significacion sobre cada coeficiente nos permiten contestar a estas preguntas.
Para los datos descritos en la seccion I.3.2 c), un programa estadstico como SPSS
o Statistix nos proporciona los valores estimados 1 , . . . , k , sus errores estandar, el
valor de los estadsticos de prueba as como los p-valores asociados a los contrastes
de significacion de los coeficientes. Una salida tpica sera:
34

Variable
Constante
Conc
Tiempo
Temperatura
i
-27.96
0.93
0.17
1.51
Error est
andar i
9.65
0.14
0.28
0.28
Est. prueba
-2.90
6.6
0.61
5.36
p-valor
0.0442
0.003
0.57
0.006
y nos proporciona un coeficiente de determinacion m

ultiple R2 igual a 0.95. Entre
los p-valores asociados a los contrastes de significacion de los coeficientes, hay que
destacar el correspondiente al coeficiente de la variable tiempo con un valor de 0.57.
Un p-valor tan alto para el contraste H0 : 4 = 0 contra H1 : 4 6= 0 evidencia que
los datos soportan la hipotesis nula. Deducimos por lo tanto que el tiempo (por lo
menos en el rango de valores que hemos experimentado, es decir 20 o 25 minutos) no
tiene una influencia significativa sobre el rendimiento. Podemos por lo tanto probar
a eliminarlo del modelo y buscar una relacion del tipo:
E[Y ] = Rendimiento promedio = 1 + 2 T emp + 3 Conc.
Obtenemos para este modelo:
Variable
Constante
Conc
Temperatura
i
-24.09
0.93
1.51
Error est
andar i
6.81
0.13
0.26
Est. prueba
-3.54
7.05
5.73
p-valor
0.016
0.0009
0.002
con un R2 igual a 0.94. La bondad del ajuste medida por el coeficiente de determinacion m
ultiple no ha variado mucho, por otra parte los p-valores correspondientes
a los contrastes de significacion para los coeficientes 1 , 2 y 3 son ahora todos muy
peque
nos, lo que nos lleva a rechazar que cualquiera de ellos sean nulos. A falta
de un examen de los residuos, que esbozaremos en practicas, nos quedamos con el
modelo para el rendimiento promedio:
Rendimiento promedio = 24,09 + 0,93T emp + 1,51Conc.
III.4.5.
Introducci
on a la construcci
on de modelos
En situaciones en las que se dispone de un gran n

umero de variables explicativas
y pocos conocimientos previos sobre cuales pueden tener una influencia sobre la
respuesta, sera u
til disponer de un procedimiento que nos permita incorporar o
eliminar variables de manera casi automatica en el modelo, y nos proporcione al
final un modelo que de cuenta de los datos. Empecemos por decir que no existe un
procedimiento que funcione de manera satisfactoria en todos los casos, en cambio se
han propuesto muchos intentos de solucion, ninguno ha conseguido la unanimidad
de los especialistas sobre sus virtudes, y es un campo de la estadstica en el que se
sigue investigando de manera activa.
Presentaremos aqu dos metodos muy sencillos y intuitivos, pero que tienen limitaciones para conjuntos de muchas variables: el calculo de todas las posibles regresiones y la eliminacion hacia atras.

on
a).
35
C
alculo de R2 para todos los posibles submodelos
Un primer metodo bastante natural consiste en realizar una comparacion de

todos los modelos que podra construir con combinaciones lineales de las variables
explicativas, y calcular el valor de R2 asociado a cada uno. Supongamos que tenemos
en total k posibles regresores X1 , . . . , Xk , podemos construir 2k posibles submodelos
utilizando algunos de estos regresores. Tenemos submodelos con solo 1 regresor:
E[Y ] = 1 X1 , . . . E[Y ] = k Xk , submodelos con solo dos dos regresores: E[Y ] =
1 X1 +2 X2 , . . . , 1 X1 +k Xk , . . . , E[Y ] = k1 Xk1 +k Xk , con solo tres regresores
etc... hasta el modelo completo con los k regresores.
Para el ejemplo del rendimiento de la reaccion qumica, es razonable del punto
de vista qumico que siempre este el termino constante, nos limitamos entonces a
incluir o excluir las tres variables explicativas C, TMP y T . Los submodelos son
23 = 8, los describimos a continuacion, junto con el valor de R2 del ajuste asociado:
Modelo
E[Y ] = 1
E[Y ] = 1 + 2 C
E[Y ] = 1 + 3 TMP
E[Y ] = 1 + 4 T
E[Y ] = 1 + 2 C + 3 TMP
E[Y ] = 1 + 2 C + 4 T
E[Y ] = 1 + 3 TMP + 4 T
E[Y ] = 1 + 2 C + 3 TMP + 4 T
R2
0
0,568
0,375
0,375
0,943
0,573
0,38
0,948
Dos modelos aparecen con un alto valor de R2 : el modelo completo y el correspondiente a E[Y ] = 1 + 2 C + 3 TMP , en el que ha desaparecido la variable Tiempo.
En los otros submodelos se nota un descenso importante de la calidad de ajuste.
Puesto que el valor de R2 apenas difiere, nos quedamos con el modelo mas simple:
E[Y ] = 1 + 2 C + 3 TMP .
Una desventaja evidente de este metodo es que el n
umero de modelos a comparar
puede ser rapidamente muy grande en cuanto tenemos varias variables explicativas.
Ademas el criterio de comparacion - calculo de R2 - es pobre y a menudo no ayuda
a seleccionar el modelo mas satisfactorio.
b).
Eliminaci
on hacia atr
as.
Otro metodo muy utilizado y implementado en cualquier programa de estadstica

corresponde a la eliminaci
on hacia atras. Empezamos con el modelo completo, que
incluye todos los regresores. Se trata de un algoritmo recursivo, que empieza con el
modelo completo y desarrolla los siguientes pasos
a) Realizamos el ajuste, y calculamos el p-valor asociado al contraste de significacion para cada coeficiente.
b) Nos fijamos en la variable con el p-valor mas alto: si este es mayor que un umbral prefijado (0.1 por ejemplo), eliminamos la variable del modelo y volvemos
al paso a).
El algoritmo se para cuando todos los p-valores son menores que el umbral.
36

Si el umbral se fija en 0.1, el procedimiento de eliminacion hacia atras para
el ejemplo del rendimiento qumico coincide con los pasos que hemos seguido en la
seccion III.4.4, la conclusion es la misma que para el calculo de los todos submodelos
posibles: nos quedamos con el modelo en el que aparecen un termino constante, la
concentracion y la temperatura.
En todos los casos, sea cual sea el metodo de construccion de modelo que escogemos, debemos controlar todos los pasos que realiza el algoritmo y no confiar
ciegamente en el resultado final proporcionado por el programa.
Ap
endice
A continuacion se presentan los datos de Anscombe (1973), Graphs in statistical
analysis, American Statistician, 27, pp 17-21, se recomienda calcular las medias de
X1 , X2 , X3 , y X4 asi como de Y1 , Y2 , Y3 y Y4 y a continuacion calcular las rectas de
regresion de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro graficas
de Yi en funcion de Xi para i=1, 2, 3, 4.
X1
10
8
13
9
11
14
6
4
12
7
5
Y1
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
X2
10
8
13
9
11
14
6
4
12
7
5
Y2
9.14
8.14
8.74
8.77
9.26
8.1
6.13
3.1
9.13
7.26
4.74
X3
10
8
13
9
11
14
6
4
12
7
5
Y3
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
X4
8
8
8
8
8
8
8
19
8
8
8
Y4
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.5
5.56
7.91
6
TEMA
IV
An
IV.1.
Introducci
on
IV.1.1.
Presentaci
on
En situaciones en las que consideramos un gran n

umero de variables cuantitativas
asociadas a cada individuo de un conjunto, es difcil tener una vision general de las
asociaciones que puedan existir entre ellas. Sin embargo sera muy conveniente; en
efecto, si detectaramos por ejemplo asociaciones muy fuertes entre algunas variables,
podramos omitir en nuestro estudio las variables que se pueden predecir a partir de
otras, y conseguir as una descripcion del conjunto mas sencilla al involucrar menos
variables: es el problema importante de la reduccion de dimension en un conjunto
de datos con muchas variables. En particular la reduccion de dimension del conjunto
puede facilitar la descripcion de la estructura de la variabilidad presente en los datos.
Un primer paso que nos puede ayudar y que hemos aplicado repetidamente en
practicas de regresion lineal m
ultiple, consiste en calcular la matriz de correlaciones
de las variables presentes, y buscar valores de la correlacion proximos a 1. El
analisis en componentes principales que describimos en este tema es una tecnica
muy relacionada al ser tambien basada de la matriz de correlacion / covarianza de
los datos.
El objetivo es reducir la dimension del conjunto de datos, pero perdiendo poca
informacion sobre los individuos. Supongamos que cada individuo esta descrito por
k variables. Presentaremos los datos en una matriz, que contara tantas columnas
como variables - k en nuestro caso - y lneas como individuos, por ejemplo n.
x11 x12 x1k

x21 x22 x2k
X= .
(IV.1)
.
..
..
..
.
.
.
.
.
xn1 xn2 xnk
Los datos forman una nube de n puntos en un espacio k-dimensional. Por supuesto,
38

si k 3, es imposible representar esta nube graficamente. Sin embargo, esta claro
que descripciones equivalentes del conjunto se pueden obtener con un simple cambio de sistemas de coordenadas. La tecnica de componentes principales consiste en
determinar el sistema de coordenadas que facilitara la reduccion de dimension. Para
entender el tipo de cambio de sistemas de coordenadas que nos proporciona el analisis en componentes principales, dedicamos ahora algo de tiempo al caso sencillo en
el que solo tenemos dos variables, es decir k = 2.
IV.1.2.
Planteamiento para dos variables
10
Observamos dos variables para unos 20 individuos, obteniendo la matriz de datos

20 2 recogida en el apendice, y la nube representada en la figura IV.1.
X2
10
10
10
X1
Figura IV.1: Nube de puntos, datos originales
Cual sera el cambio de ejes que mas nos convendra si quisieramos conseguir una
reduccion de la dimension del conjunto? Para reducir la dimension, una vez realizado
el cambio de sistema de coordenadas, nos quedamos solo con la primera componente
para cada individuo. Esta claro que la nueva descripcion sera mas pobre que la
original, al sustituir un par de n
umeros para cada individuo por un u
nico n
umero,
pero si tenemos la suerte de que en el nuevo sistema, la segunda componente toma
IV.1 Introducci
on
39
valores parecidos para todos los individuos, la perdida de informacion sera peque
na,
puesto que de todas formas, la componente que omitimos no diferencia mucho a los
individuos.
Intuitivamente, los ejes que buscamos corresponden a los representados en la
figura IV.2. En efecto, si llamamos Z1 y Z2 las coordenadas de los puntos en el
X2
Z2
Z1
x2
X1
x1
Figura IV.2: Nube de puntos con los nuevos ejes
nuevo sistema de coordenadas, observamos que esta eleccion de los ejes consigue
que la primera componente presente la mayor varianza, mientras que la segunda
componente la menor varianza posible. La figura IV.3 representa la misma nube de
puntos en el nuevo sistema OZ1 OZ2 . Observamos que en esta figura, el eje OZ1
coincide con la recta de regresion ajustada a la nube, por lo tanto, la pendiente de
la recta de regresion de Z2 sobre Z1 es nula, lo que implica que la covarianza entre
estas dos variables es nula. En resumen, el cambio de coordenadas que buscamos
proporciona dos variables Z1 y Z2 cuya matriz de covarianzas es diagonal.
Tal como lo desarrollamos en lo que sigue, el analisis en componentes principales
determina el cambio de coordenadas en las que las nuevas componentes de la nube
de puntos presenten una matriz de covarianzas diagonal.
40
Z2
X2
z2
Z1
X1
z1
Figura IV.3: Nube de puntos rotada y representada en el nuevo sistema de coordenadas
IV.2.
Planteamiento general
IV.2.1.
Preliminares
a).
Recordatorios sobre cambio de base
Sea x~1 , . . . , ~xk una base de Rk . Consideramos la nube k-dimensional de n puntos

que llamamos M1 , M2 , . . . , Mn . (xi1 , xi2 , . . . , xik ) son las coordenadas del punto Mi
en la base x~1 , . . . , ~xk . Cada lnea de la matriz X definida en (IV.1) corresponde por
lo tanto a los componentes de un punto de la nube en el sistema de coordenadas
inducido por esta base.
Consideramos ahora otra base ~u1 , . . . , ~uk de Rk . Sean (zi1 , zi2 , . . . , zik ) las coordenadas del punto Mi en esta nueva base. Construimos la matriz k n Z cuyas
IV.2 Planteamiento general
41
lneas contienen las coordenadas de los
z11
z21
Z= .
..
puntos de la nube en la base u~1 , . . . , ~uk :
z12 z1k
z22 z2k
.
..
..
..
.
.
.
zn1 zn2 znk

Para relacionar Z con X, consideramos U , la matriz de paso de la base ~x1 , . . . , ~xk
a la nueva base. Recordar que la matriz U es una matriz k k cuyas columnas
contienen las coordenadas de los vectores ~u1 , . . . , ~uk en la base inicial, es decir si
~u1 = u11 ~x1 + u21 ~x2 + + uk1 ~xk
~u2 = u12 ~x1 + u22 ~x2 + + uk2 ~xk
.. ..
. .
~uk = u1k ~x1 + u2k ~x2 + + ukk ~xk ,
la matriz de paso sera
U =
u11
u21
..
.
u12
u22
..
.
..
.
u1k
u2k
..
.
uk1 uk2 ukk

La relacion entre Z, X y U es
X = ZU 0 ,
(IV.2)
donde U 0 denota la matriz transpuesta de U . U es invertible y deducimos que

X(U 0 )1 = Z.
(IV.3)
Nota: Si los vectores ~u1 , . . . , ~uk forman una base ortonormal, la matriz U satisface
U 0 U = Id, y por lo tanto (U 0 )1 = U .
b).
Matriz de covarianzas y cambio de bases
Volvamos al conjunto de datos representado por la matriz X. La matriz de covarianzas de las variables X1 , . . . , Xk para este conjunto es
2
sX1
sX1 X2 sX1 Xk
sX X s2
sX2 Xk
1 2
X2
(IV.4)
SX = .
,
.
..
..
..
..
.
.
sX1 Xk
uX2 Xk
s2Xk
donde s2Xi representa la varianza de la variable Xi en el conjunto y sXi Xj es la

covarianza de Xi y Xj , ver ecuaciones (I.1) y (III.2) de los temas 1 y 3.
Supondremos ahora, para simplificar las notaciones y sin perder generalidad,
que las variables en X1 , . . . , Xk estan centradas, es decir que tienen media cero:
42

x1 = . . . = xk = 0. En este caso, es facil comprobar que la matriz de covarianzas de
X se puede expresar como
1
X 0 X.
(IV.5)
SX =
n1
Utilizando la relacion (IV.2), deducimos que la matriz SZ de covarianzas de las variables Z1 , . . . , Zk , componentes de los puntos en la nueva base ~u1 , . . . , ~uk se relaciona
con SX a traves de
SZ =
1
1
Z 0Z =
U 1 X 0 X(U 0 )1 = U 1 SX (U 0 )1 .
n1
n1
En el caso en que U es ortogonal, la relacion se escribe

SZ = U 1 SX U.
IV.2.2.
(IV.6)
An
Tal como lo ilustramos en el ejemplo particular de dos variables, el analisis en

componentes principales persigue determinar el cambio de sistema de coordenadas
en el que la matriz de covarianzas de las nuevas componentes sea diagonal. Por
los preliminares vistos en la seccion anterior, y en particular la relacion (IV.6),
deducimos que los vectores de la nueva base ~u1 , . . . , ~uk que lo consiguen son los
vectores propios de la matriz SX .1
Por su forma, una matriz de covarianzas es siempre diagonalizable y ademas sus
valores propios son todos mayores o iguales a cero. Introducimos la definicion
Sean 1 2 k 0 los valores propios ordenados de SX . Llamemos
~u1 , ~u2 , . . . , ~uk los vectores propios de norma 1 asociados. Los componentes Z1 , . . . , Zk
de los puntos del conjunto en la base ~u1 , ~u2 , . . . , ~uk son los componentes principales
del conjunto de datos descrito por la matriz X. Al calcular los vectores propios de
la matriz SX , obtenemos los coeficientes uij de la matriz U de paso (ver (a)). Por la
formula de cambio de base (IV.3), deducimos que
Z1 = u11 X1 + u21 X2 + + uk1 Xk
Z2 = u12 X1 + u22 X2 + + uk2 Xk
.. ..
. .
Zk = u1k X1 + u2k X2 + + ukk Xk .
Los componentes principales Z1 , . . . , Zk se obtienen por lo tanto como combinaciones

lineales de las variables originales X1 , . . . , Xk , cuyos coeficientes se deducen de la
expresion de los vectores propios.
Volvamos al ejemplo simple visto en la seccion IV.1.2 y cuyos datos se pueden
encontrar en el apendice. La matriz de covarianzas de los datos es

11,249135 5,199287
SX =
,
5,199287 3,840685
1
Recordar que es un valor propio de la matriz A, y ~

u es un vector propio asociado a , si se
cumple A~
u = ~
u.
IV.3 Propiedades
43
y utilizando un programa como SPSS o Mathematica, obtenemos que los dos valores propios son 1 ' 13,93 y 2 ' 1,16. Los vectores propios asociados son
~u1 = (0,89, 0,46) y ~u2 = (0,46, 0,89). Deducimos que los dos componentes
principales son
Z1 = 0,89X1 0,46X2
Z2 = 0,89X1 0,89X2
IV.3.
Propiedades
Por la definicion de los componentes

covarianzas SZ es
1 0
0 2
SZ = .
..
...
0
principales, obtenemos que la matriz de

...
0
..
.
...
...
..
.
0
0
..
.
. . . . . . . . . k
para todo 1 i k, el valor propio i es por lo tanto la varianza del i-esimo componente principal Zi . Por otro lado, por construccion, los componentes principales
son incorrelados (rZi Zj = 0).
Los principales teoremas del algebra lineal nos permiten deducir las siguientes
propiedades de los componentes principales:
1. Cualquier combinacion lineal estanderizada de las variables iniciales, es decir
a1 X1 + + ak Xk con a21 + + a2k = 1, presenta una varianza menor or igual
que la del primer componente Z1 , es decir:
V ar(a1 X1 + + ak Xk ) 1 .
Podemos decirlo de otra manera: sea cual sea el primer vector del nuevo sistema de coordenadas que escojamos, la varianza, para la nube de puntos, de
la primera componente en este nuevo sistema sera menor o igual que 1 , es
decir que, cuando fijamos este primer vector como u~1 , el vector propio de SX
asociado a 1 , maximizamos la varianza de los valores que toma la primera
componente en la nube de puntos.
2. La variabilidad total se preserva.
V ar(X1 ) + + V ar(Xk ) = V ar(Z1 ) + + V ar(Zk )
= 1 + + k
IV.4.
Ejemplos
IV.4.1.
Notas de examenes
Para ilustrar el metodo de los componentes principales, utilizaremos el ejemplo

de la encuesta de Presupuestos Familiares, estudiado en Pe
na (2002) An
alisis de
datos multivariantes, p140.
44

La encuesta de presupuestos familiares en Espa
na para el a
no 1990/1991, recoge
los gastos medios de las familias espa
nolas para las 51 provincias (Ceuta y Melilla
aparecen unidas como una provincia). Las variables son: X1 = alimentacion, X2 =
vestido y calzado, X3 = vivienda, X4 = mobiliario domestico, X5 = gastos sanitarios, X6 = transporte, X7 = ense
nanza y cultura, X8 = turismo y ocio, X9 21 otros
gastos.
Por razones de simetra, se trabaja con los logaritmos de los datos, es decir que
consideramos las variables Y1 = log(X1 ), . . . , Y9 = log(X9 ).
Los valores propios de la matriz SY de covarianzas de Y que encontramos son
1 = 0,348 2 = 0,032 3 = 0,027 4 = 0,018 5 = 0,013 6 = 0,011
7 = 0,010 8 = 0,010 9 = 0,005
El vector propio asociado a 1 nos proporciona el primer componente principal:
z1 = 0,12y1 + 0,18y2 + 0,30y3 + 0,31y4 + 0,46y5 + 0,34y6
+0,50y7 + 0,31y8 + 0,31y9
El primer componente, el que mejor permite diferenciar a las distintas provincias en

cuanto a presupuestos familiares, es por lo tanto una suma ponderada de todas las
variables. Las variables que mas peso tienen en esta suma son las que corresponden
a los gastos en ense
nanza y cultura (Y7 ) y sanitarios (Y5 ). En cambio, los gastos en
alimentacion (Y1 ) tienen menor peso. Si clasificamos las provincias seg
un su valor
para el componente Z1 , que dejamos en ejercio para el lector, observamos que la
clasificacion refleja los niveles de la renta media por familia en cada provincia.
El segundo componente, asociado al valor propio 2 = 0,032, es
z2 = 0,05y1 + 0,16y2 0,17y3 + 0,07y4 0,21y5 + 0,29y6
0,40y7 0,17y8 + 0,78y9
= (0,05y1 + 0,16y2 + 0,07y4 + 0,29y6 + 0,78y9 )
(0,17y3 + 0,21y5 + 0,40y7 + 0,17y8 ).
Este segundo componente corresponde por lo tanto a la diferencia entre dos sumas
ponderadas: la primera incluye las variables Y1 , Y2 , Y4 , Y6 y Y9 y da sobre todo peso
a Y9 (otros gastos) y Y6 (transporte). D. Pe
na conjetura que, al estar incluidas en
otros gastos las transferencias fuera de la provincia a miembros de la familia mayores
de 14 a
nos que no residan en ella, este componente separa las provincias que reciben
transferencias de las que las envian.
IV.5.
Criterio de selecci
on del n
Recordamos que nuestro objetivo es conseguir una reduccion de la dimension del

conjunto de datos, pero como seleccionar el n
umero de componentes que permita
dar cuenta suficiente de la variabilidad y que a la vez suponga una reduccion en el
n
umero de variables? Al igual que para otros metodos, se han propuesto un gran
n
umero de procedimientos para determinar el n
umero de componentes retenidos,
nos limitamos a dos muy sencillos.
IV.5 Criterio de selecci

on del n
IV.5.1.
45
Diagrama de codo
0.35
Se representan los valores propios i en funcion de i. Buscamos detectar un

punto a partir del cual los valores propios son proximos y peque
nos. El diagrama
correspondiente se llama en ingles Scree plot que se puede traducir por diagrama
de codo. Para el ejemplo de la encuesta de presupuestos familiares, el diagrama de
codo se representa en la figura IV.4 Se observa que podemos retener la primera o
0.20
0.15
0.05
0.10
lambda
0.25
0.30
0.00
Figura IV.4: Diagrama de codo, encuesta de presupuestos familiares

las dos primeras componentes y conseguir una efectiva reduccion de la dimension.
IV.5.2.
Proporci
on de variabilidad explicada
Puesto que la varianza del componente i-esimo es y que la variabilidad total

es la suma de los valores propios (ver propiedad 2 en la seccion IV.3), la proporci
on
de la variabilidad total explicada por los p primeros componentes es
1 + + p
.
1 + + p + k
Se suele por lo tanto considerar que nos quedamos con los componentes que explican mas del 90 % o 95 % de la variabilidad total. En el ejemplo de la encuesta de
46

presupuestos familiares, tenemos
Valor propio
1
2
3
4
5
6
7
8
9
% Variabilidad
0.734
0.068
0.057
0.038
0.027
0.023
0.021
0.021
0.011
% acumulado variabilidad explicada

0.734
0.802
0.859
0.897
0.924
0.947
0.968
0.989
1.000
Nos deberamos quedar con los cuatro o 6 primeros componentes. Sin embargo, es
muy dficil en general interpretar de manera inteligente mas de uno o dos componentes, es por lo tanto mas razonable quedarse en este ejemplo con los dos primeros.
App
endice
Datos del ejemplo, seccion IV.1.2.
1,360
2,115
2,460
3,235
2,030
5,335
6,120
4,395
1,375
5,345
X=
3,020
0,715
0,605
2,210
1,840
4,295
4,000
0,080
3,960
2,270
0,705
0,720
0,670
0,930
1,685
4,080
2,660
3,660
0,775
2,610
0,535
0,580
1,915
1,030
2,595
0,135
1,775
0,440
2,605
1,860
TEMA
An
alisis de conglomerados
V.1.
Introducci
on
Al Cesar lo que es del Cesar: este tema est

a esencialmente inspirado en el captulo
correspondiente del excelente libro de Daniel Pe
na, 2002, An
alisis de datos multivariantes, MacGraw Hill. He procedido a una simplificaci
on de su exposici
on para
adaptarla al nivel que pienso adecuado para nuestra asignatura.
El objetivo del analisis en conglomerados, o analisis cluster, es conseguir agrupar individuos en grupos similares acorde a los valores que toman varias variables.
Estos metodos tratan tres tipos de problemas:
1. Partici
on de los datos. Se busca dividir un conjunto de datos en un n
umero
G prefijado de grupos de tal manera que
a) Los grupos no se solapan.
b) Todos los elementos quedan clasificados.
c) Los grupos son homogeneos en cuanto a valores de las variables observadas.
Un ejemplo consiste en el analisis de las respuestas a una encuesta sobre preferencias televisivas donde se pide que cada encuestado puntue sobre 10 una serie
de 30 programas televisivos. Para cada individuo, se dispone de los valores de
30 variables, y se busca clasificar cada individuo en grupos de telespectadores
acorde a los valores de estas variables.
2. Construcci
on de jerarquas. Dado un conjunto de datos, se busca construir
una jerarqua de clasificacion, basandose en una medida de distancia o similitud entre individuos, obteniendo una clasificacion en grupos - subgrupos subsubgrupos, etc...
48

Podemos por ejemplo analizar un conjunto de paises seg
un varios indicadores
de riqueza. Apareceran en un primer nivel tres grandes grupos; un grupo correspondera al llamado Primer mundo que contendra en particular Europa,
EEUU, Japon y Canada, un segundo grupo contendra paises en va de desarrollo, mientras que un tercera contendra los paises subdesarrollados. En un
segundo nivel de jerarqua, dentro del primer grupo, distinguiremos subgrupos,
en el caso de Europa por ejemplo, estos subgrupos podran corresponder a los
paises de cabeza, del peloton o de cola...
3. Clasificaci
on de variables. En lugar de clasificar los individuos, buscamos
agrupar variables que presenten similitudes, basandose en los valores que toman
para un conjunto de individuos, con el objetivo de conseguir una reduccion de
la dimension.
En las secciones siguientes, trataremos los dos primeros puntos.
V.2.
M
etodo de partici
on. El algoritmo de k-medias.
V.2.1.
Presentaci
on
Tenemos un conjunto de n individuos y los valores de k variables X1 , X2 , . . . , Xk

para cada individuo; queremos particionar este conjunto en un n
umero G prefijado
de grupos.
El algoritmo de k-medias es un procedimiento iterativo que parte de una particion
inicial y en cada iteracion puede cambiar la asignacion de un individuo a los grupos
para conseguir una mejor particion, hasta dar con una particion satisfactoria.
El conjunto de datos consiste en npuntosdel espacio euclideo k-dimensional Rk .
A cada individuo asociaremos un punto con coordenadas (x1 , x2 , . . . , xk ) que son
los valores que toman las variables X1 , X2 , . . . , Xk para este individuo. Procedamos
a introducir distintas notaciones asociadas a una particion. Dada una particion en
G grupos, denotaremos por n1 , n2 , . . . , nG el n
umero de individuos en el primer
grupo, en el segundo,..., en el G-esimo respectivamente. Tenemos por lo tanto que
n1 + + nk = n, donde n es el n
umero total de individuos en el conjunto. Ademas
suponemos que observamos los valores de k variables, X1 , X2 , . . . , Xk . El valor que
toma la variable Xj para el individuo n
umero i del grupo g sera xijg . La media y la
varianza de la variable Xj en el grupo g seran por lo tanto
x
jg =
ng
1 X
xijg
ng
i=1
ng
s2jg =
1 X
(xijg x
jg )2
ng 1
i=1
Definimos el centro del grupo g como el punto de Rk con coordenadas (

x1g , x
2g , . . . , x
kg ),
es decir las medias de las variables X1 , X2 , . . . , Xk para este grupo.
V.2.2.
Criterios para comparar particiones.
Para ser capaz de decidir si una particion de un conjunto de individuos es mejor

que otra, debemos darnos un criterio para comparar dos particiones.
V.2 M
etodo de partici
on. El algoritmo de k-medias.
Dada una particion P, buscamos un critero que mida la homogeneidad de los G
grupos. Un grupo sera homogeneo si la dispersion de las variables X1 , X2 , . . . , Xk
dentro de este grupo sera peque
no. Una manera de medir la homogeneidad de la particion se consigue por lo tanto calculando para cada grupo la suma de las varianzas
de cada variable y realizar la suma sobre todos los grupos, dando mas peso a los grupos mas numerosos. Esta cantidad se llama la suma de cuadrados dentro de los
grupos asociada a la particion P, y se denota por SCDG(P). Mas concretamente
SCDG(P) =
G X
k
X
s2jg (ng 1).
g=1 j=1
Dadas dos particiones PA y PB , diremos que la particion PA es mejor que la

particion PB si SCDG(PA ) SCDG(PB ), es decir si PA es mas homogenea que
PB .
Este criterio tambien se llama el criterio de la traza porque la cantidad SCDG(P)
se puede escribir como la traza de una matriz.
V.2.3.
Descripci
on del algoritmo
Al tratarse de un procedimiento iterativo, consta de una etapa inicial, de la

iteracion, es decir como pasar de la etapa i a la etapa i + 1, y finalmente de un
criterio de parada.
1. Etapa inicial. Me doy una particion inicial, P0 .
Para ello, tendre que
a) elegir G centros para los G grupos iniciales. Puedo hacerlo escogiendolos
al azar entre los individuos del conjunto, escoger los puntos mas alejados
entre s, o utilizar alg
un tipo de informacion a priori, que me indique
donde deberan estar estos centros.
b) asignar cada individuo del conjunto a un grupo, es decir asociarlo a uno de
los G centros escogidos anteriormente. Para ello, asigno cada individuo al
grupo cuyo centro esta mas cercano, en el sentido de la distancia eucldea.1
2. Iteraci
on: como pasar de la partici
on Pi a la partici
on Pi+1 .
Partiendo de la particion Pi , considero el primer individuo y intento moverlo
de grupo llamando Q a la nueva particion. Si Q es mejor que Pi (es decir si
SCDG(Q) SCDG(Pi )), hago Pi+1 = Q. En caso contrario, considero el
segundo individuo y intento moverlo de grupo, etc...
3. Criterio de parada. Cuando Pi+1 = Pi , es decir, si no consigo mejorar la
particion moviendo alg
un individuo de Pi , el algoritmo se para.
1
Recordar que si X = (x1 , x2 , . . . , xk ) e Y = p

(y1 , y2 , . . . , yk ) son dos puntos de Rk , la distancia
eucldea entre X eY se calcula como d(X, Y ) = (x1 y1 )2 + + (xk yk )2 .
49
50
V.2.4.
Comentarios
No se garantiza con este procedimiento que acabemos con la mejor particon

posible. Notar que un metodo directo que calculara todas las posibles particiones en G grupos de los n individuos, y se quedara con la particon con menor
SCDG, es imposible de llevar a cabo en la practica, puesto que requerira calcular las SCDG de un n
umero prohibitivo de particiones.
El resultado final del algoritmo depende de la particion inicial y del orden de
los individuos en la muestra, hay por lo tanto tomar con cautela el resultado
proporcionado.
V.2.5.
Elecci
on del n
umero de grupos
El algoritmo que hemos descrito supone que hemos fijado de antemano el n

umero
de grupos G que queremos obtener. Sin embargo esta eleccion no siempre es facil
y varios procedimientos, no siempre bien justificados, han sido propuesto para realizarla. Descrimos ahora uno de estos procedimientos.
Supongamos que he ejecutado el algoritmo con G grupos y me pregunto si introduzco otro mas, es decir si debo partir el conjunto en G + 1 grupos. LLamemos
SCDG(G) y SCDG(G + 1) las sumas de cuadrados finales obtenidas cuando el
algoritmo se ejecuta con G grupos y G + 1 grupos respectivamente. Calculamos
F =
SCDG(G) SCDG(G + 1)
.
SCDG(G + 1)/(n G 1)
Merecera la pena considerar una particion con G + 1 grupos en lugar de G grupos

si se consigue reducir la suma de cuadrados final significativamente. Es decir que, si
F es suficientemente grande, considerare una particion con G + 1 grupos. En caso
contrario, me quedare con la particion con G grupos. Una regla aproximada debida
a Hartigan es que si F es mayor de 10, escogeremos una particion con G + 1 grupos.
V.2.6.
Ejemplos
Ver los ejemplos tratados en practicas.
V.3.
M
etodos jer
arquicos
V.3.1.
Presentaci
on
Queremos clasificar en una jerarqua los individuos del conjunto. Esta clasificacion se hara basandose en los valores de las variables observadas para cada individuo.
Recordar que los datos se presentan en la matriz de datos
x11 . . . x1k
..
..
X = ...
,
.
.
xn1 . . . xnk
donde cada fila representa un individuo, y en cada columna vienen recogidos los
valores de una variable.
V.3 M
etodos jer
arquicos
51
Asimismo, asociamos a cada individuo un punto en el espacio Rk , cuyas coordenadas son los valores de las variables X1 , . . . , Xk . Los grupos, subgrupos, subsubgrupos que construiremos contendran individuos cuyos puntos asociados esten cercanos
basandonos en una medida de su distancia.
V.3.2.
a).
Distancia, similaridad
Para variables continuas ( que pueden tomar cualquier valor en un

intervalo).
Si todas las variables X1 , . . . , Xk son de tipo continuo, utilizamos la distancia

eucldea para medir lo alejado que estan dos puntos. Es decir si a dos individuos
se asocian los valores observados (x11 , x12 , . . . , x1k ) y (x21 , x22 , . . . , x2k ) respectivamente, la distancia entre estos dos individuos se calcula como
p
(x11 x21 )2 + + (x1k x2k )2 .
(V.1)
A menudo, para evitar que, si las variables se miden en escalas muy distintas
tengan unos pesos muy distintos en el calculo de la distancia, se procede primero a
estanderizarlas.
Definici
on Si X es una variable en un conjunto de datos, estanderizar X consiste
en restarle su media y dividir la variable resultante por su desviaci
on tpica, es decir
considerar
X x
ZX =
.
sX
La variable ZX tiene en el conjunto media 0 y desviaci
on tpica 1.
Al trabajar con las variables estanderizadas, conseguimos que tengan el mismo orden de magnitud y por lo tanto que ninguna domine de manera clara en la
expression (V.1).
b).
Similaridad.
La distancia eucldea es valida para variables continuas pero si algunas de las variables, por ejemplo X1 , son binarias (toman valores 0 o 1, por ejemplo como respuesta
a una pregunta en la que hay que contestar por s o no) el termino correspondiente
tendra en general menor peso que el de variables continuas a
un estanderizadas. Para
conseguir una mayor homogeneidad en la importancia de cada vaiable a la hora de
medir lo alejados que estan dos individuos, se introduce el coeficiente de similaridad.
Definici
on El coeficiente de similaridad entre el individuo i y el individuo h seg
un
la variable Xj es una cantidad sjih que cumple
i) 0 sjih 1.
ii) sjii = 1.
iii) sjih = sjhi .
A partir de los coeficientes de similaridad seg
un cada variable del conjunto podemos
construir un coeficiente global de similaridad entre el individuo i y el individuo h,
que llamaremos sih , realizando una suma ponderada.
Se han propuesta varias medidas de similaridad, cabe destacar
52

para Xj , una variable binaria,
sjih = xij xhj + (1 xij )(1 xhj ),
que toma por lo tanto el valor 0 si Xj toma valores distintos para los dos
individuos i y h, y el valor 1 si toma valores identicos.
para Xj , una variable continua,
sjih = 1
| xij xhj |
,
rango(xj )
donde el rango de xj es la diferencia maxima de dos valores de Xj en el

conjunto.
c).
Matriz de distancias
Despues de haber calculado todas las distancias o similaridades entre los individuos de un conjunto, podemos representarlas en una matriz n n, A = (aih )1i,hn .
El elemento aih de esta matriz, llamada matriz de distancias, es la distancia entre el
individuo i y el individuo h. Deducimos en particular que es una matriz simetrica,
cuyos elementos diagonales son todos nulos.
De manera similar podemos construir la matriz de similaridades
V.3.3.
M
etodos aglomerativos
Son los que parten de los individuos separados y los van agrupando en distintos
niveles:
a).
Algoritmo
Tiene una forma iterativa:
1. Empezamos con tantas clases como individuos.

2. Dada una particion en clases, seleccionamos las dos clases mas proximas y
formamos una nueva que las contenga como subclases.
3. Paramos cuando todos los elementos esten en una u
nica clase.
La figura V.1 ilustra en un ejemplo muy simple los pasos del metodo aglomerativo: se
empieza con tantas clases como individuos (en este caso cuatro), y se van agrupando
las dos clases mas proximas. La matriz de datos que corresponde a esta figura es
0,30 0,6
0,35 0,4
X=
(V.2)
0,70 0,8 ,
0,80 0,5
y se deja como ejercicio al lector comprobar que
(distancia eucldea) es
0
0,21 0,45
0,21 0
0,53
D=
0,45 0,53 0
0,51 0,46 0,32
la matriz de distancias asociada
0,51
0,46
.
0,32
0
0.4
0.4
0.0
0.0
0.2
0.2
0.6
0.6
0.8
0.8
1.0
53
1.0
V.3 M
etodos jer
arquicos
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
0.4
0.4
0.0
0.0
0.2
0.2
0.6
0.8
0.8
0.6
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
Figura V.1: Ilustracion del metodo aglomerativo
b).
1.0
1.0
0.2
1.0
0.0
Como definir la distancia entre dos clases
Para llevar a cabo el algoritmo anterior, necesitamos ser capaces de calcular la

distancia entre dos clases con el objetivo de seleccionar las dos mas proximas. Vista
la manera en la que el algoritmo va formando clases, es suficiente saber calcular la
distancia entre una clase formada por dos subclases A y B, que denotaremos por AB
y una tercera clase C. Repitiendo el procedimiento podremos calcular la distancia
entre dos clases en cualquier nivel del algoritmo. Para ello, se han propuesto varias
reglas:
Regla del encadenamiento simple, o del vecino mas proximo:
d(AB, C) = min(d(A, C), d(B, C)).
Regla del encadenamiento completo, o del vecino mas lejano:
d(AB, C) = max(d(A, C), d(B, C)).
Las jerarquas que resultan de la aplicacion de una o otra regla no tienen por que
coincidir.
1.0
54

c).
C
alculo para el ejemplo (V.2)
Recordar que la matriz de distancias para este
0
0,21 0,45
0,21 0
0,53
D=
0,45 0,53 0
0,51 0,46 0,32
ejemplo es
0,51
0,46
.
0,32
0
En el metodo de encadenamiento simple, los pasos que se siguen son: puesto que
d(A, B) = 0,21, d(A, C) = 0,45, d(A, D) = 0,51, d(B, C) = 0,53, d(B, D) = 0,46 y
d(C, D) = 0,32 , en el primer paso se agrupan A y B en una clase. Las distancias
entre las nuevas clases AB, C y D son d(AB, C) = mn(d(A, C), d(B, C)) = 0,45,
d(AB, D) = mn(d(A, D), d(B, D)) = 0,46 y d(C, D) = 0,32. Por lo tanto se agrupan
ahora C y D. Tenemos dos clases: AB y CD que se agrupan en una u
nica clase.
En el metodo de encadenamiento completo, en el primer paso se siguen agrupando
A y B, ahora las distancias necesarias son d(AB, C) = max(d(A, C), d(B, C)) = 0,53,
d(AB, D) = max(d(A, D), d(B, D)) = 0,51 y d(C, D) = 0,32. Agrupamos C y D, y
obtenemos dos clases AB y CD como en el metodo anterior.
d).
Dendograma
El dendograma es una manera grafica de representar los pasos seguidos en el

metodo iterativo: se colocan en un eje Ox los elementos en su orden de aparicion en el
algoritmo, y en el eje Oy las distancias. Un agrupamiento de dos clases se representa
por un segmento horizontal a la altura correspondiente a la distancia entre estas dos
clases. La figura V.2 recoge el dendograma correspondiente al ejemplo (V.2).
0.35
Figura V.2: Dendograma para el ejemplo (V.2)
0.30
0.25
0.20
distancia
0.40
0.45
0.50
Dendograma
TEMA
VI
An
alisis factorial
VI.1.
Introducci
on
El analisis factorial est

a asociado con un modelo matematico que pretende explicar las correlaciones en un grupo grande de variables en clave de un n
umero peque
no de factores subyacentes, tambien llamados variables latentes, que no podemos
observar. Frente a las asociaciones que observamos entre distintas variables, buscamos variables aleatorias ocultas- factores - comunes a las variables observadas,
que son la causa de los patrones de evolucion conjunta de estas.
Consideremos por ejemplo, para distintas ciudades de Espa
na, el n
umero de
iglesias X as como el n
umero de delitos registrados Y . Si representamos la nube de
puntos, nos saldra una relacion lineal, con un coeficiente de correlacion proximo a
uno. Es decir que el n
umero de delitos perpetrados en una ciudad esta altamente
correlado con el n
umero de iglesias en esta ciudad! Dicho de otra manera, cuantas
mas iglesias en una ciudad, mas delitos se cometen! Sorprendente? En realidad,
en cuanto pensamos un poco, nos damos cuenta de que no es nada sorprendente:
hay un factor oculto, que no hemos mencionado, y que explica la asociacion positiva
entre X e Y , se trata sencillamente del n
umero de habitantes, f . En efecto podemos
esperar que tanto el n
umero de iglesias como el n
umero de delitos cometidos en una
ciudad sean proporcionales al n
umero de habitantes: la asociacion positiva fuerte
que observamos entre X e Y se explica porque ambas dependen linealmente de una
tercera variable f .
Un ejemplo clasico del analisis factorial corresponde al trabajo pionero de Spearman que estudio a principios del siglo XX las puntuaciones X1 , X2 , y X3 , obtenidas
por un grupo de ni
nos en tres examenes de historia, frances, e ingles, respectivamente. La matriz de correlaciones que Spearman obtuvo fue
1 0,83 0,78
.
1
0,67
.
.
1
56

evidenciando fuertes asociaciones entre las puntuaciones obtenidas en las tres materias. Spearman busco un factor oculto f que explicara estas asociaciones y que se
interpretara como la habilidad global del alumno, tentadoramente llamado tambien
la inteligencia del alumno. Las relaciones entre X1 , X2 , X3 y este factor f seran:
X1
= a1 f + 1
X2
= a2 f + 2
X3 = a3 f + 3 ,
donde 1 , 2 , y 3 representan perturbaciones aleatorias de las relaciones lineales.
Estos metodos tuvieron de hecho su origen en psicometra, es decir el analisis de
datos aplicados a la psicologa, pero se aplicaron posteriormente con mucho exito a
otras ciencias.
VI.2.
El modelo
VI.2.1.
Primera formulaci
on
Observamos para muchos individuos el valor de una variable k-dimensional X =

(X1 , X2 , . . . , Xk )0 . Existen m factores aleatorios (variables latentes) comunes f1 , f2 , . . . , fk ,
tal que cada Xi esta asociado con los m factores ocultos a traves de una regresion
lineal m
ultiple:
X1
= a11 f1 + a12 f2 + + a1m fm + 1
X2 = a21 f1 + a22 f2 + + a2m fm + 2

..
..
.
.
Xk = ak1 f1 + ak2 f2 + + akm fm + k
2 , . . . , 2 las varianzas de X , . . . , X respectivamente. A parte
Denotamos por 11
1
k
kk
de los factores, los otros ingredientes del modelo son
los coeficientes aij , i = 1, . . . , k, j = 1, . . . m que recogemos en una matriz

A = (aij ) de dimensiones k m, que llamamos la matriz de cargas factoriales.
Las perturbaciones 1 , . . . , k , que son variables aleatorias que suponemos independientes, centradas E[i ] = 0, i = 1, . . . k, y de varianza V ar(i ) = i2 i =
1, . . . k.
Introduciendo los vectores
X1
.
~ =
X
.. ,
Xk
f1
f~ = ... ,
fm
~ = ... ,
k
podemos formular las ecuaciones del modelo en forma compacta:

~ = Af~ + ~.
X
(VI.1)
~ para n individuos, buscaremos, en el marco de una

Dados los valores de X
representacion de la forma (VI.1), estimar las cargas factoriales A, con el fin de
identificar e interpretar los factores.
VI.2 El modelo
VI.2.2.
57
No unicidad de los factores
Consideremos la ecuacion (VI.1), y sea H una matriz invertible m m, podemos

escribir
~ = AH H 1 f~ + ~.
X
(VI.2)
Llamando A = AH y ~g 0 = H 1 f~, hemos obtenido una nueva descomposicion
~ = A~
g + ~,
X
con una nueva matriz de cargas, y unos nuevos factores ~g . Es decir que, en cuanto
existe una descomposicion en factores del tipo (VI.1), existe una infinidad de otras
descomposiciones de este tipo. El modelo (VI.1) tal como lo hemos introducido
no proporciona una descripcion u
nica de las variables observadas en terminos de
un n
umero m de factores. Debemos restringir los modelos que consideramos para
obtener una descomposicion u
nica.
VI.2.3.
Hacia el modelo definitivo
En nuestra formulacion general del modelo a traves de la relacion (VI.1), no

hemos hecho ninguna hipotesis sobre los factores que buscamos identificar, y esta
es precisamente la causa de la no unicidad del modelo. Una primera restricci
on
muy razonable consiste en buscar una descomposicion en la que los factores sean
incorrelados: no hay que olvidar que pretendemos explicar las asociaciones entre
variables en terminos de un cierto n
umero de factores; dejar que estos factores sean
correlados no ayudara a la interpretacion, y sera como quedarse a medio camino
de la explicacion de la estructura de correlacion... Podemos ademas suponer que las
varianzas de los factores son iguales a 1, puesto que solo cambia el valor de las cargas
factoriales.
Consideramos por lo tanto el modelo
~ = Af~ + ~,
X
con f1 , . . . , fk , incorrelados y de varianza unidad.
(VI.3)
Una primera consecuencia importante de esta restriccion adicional es la relacion

ii2
n
X
a2ij + i2 ,
i = 1, . . . , k,
(VI.4)
j=1
donde recordamos que, para i = 1, . . . , k, ii2 es la varianza de Xi . La varianza

individual de la variable Xi se puede por lo tanto descomponer en dos partes:
P
la comunalidad hi = nj=1 a2ij , que corresponde a la parte de ii2 explicada
por los factores.
la especificidad i2 , parte de ii2 especfica de la variable Xi .
Imponiendo la restricion de incorrelacion de los factores, hemos reducido las posibles descomposiciones (VI.3), sin embargo todava no hemos conseguido la unicidad
de la descomposicion. En efecto, si G es una matriz m m ortogonal, es decir que
cumple G0 G = Id, podemos escribir, a partir de cualquier descomposicion del tipo
(VI.3),
~ = AG G0 f~ + ~,
X
58

obteniendo una descomposicion nueva, con A = AG y ~g = G0 f~. Si G es ortogonal, y
los factores f~ son incorrelados y de varianza 1, podemos demostrar que los nuevos
factores G0 f~ son tambien incorrelados y de varianza unidad. La nueva descomposicion es por lo tanto tambien del tipo (VI.3).
En conclusion una restriccion adicional es necesaria para conseguir una descomposicion u
nica. Varias posibilidades existen, veremos la que lleva a una simplificacion
en la obtencion de estimadores de las cargas factoriales.
Supondremos que la matriz de cargas factoriales A es tal que sus vectores columnas son ortogonales, es decir que la matriz m m A0 A es diagonal.
El tipo definitivo de descomposicion que consideraremos es por lo tanto
Tipo definitivo de descomposici
on:
~ = Af~ + ~,
X
(VI.5)
donde los factores f1 , . . . , fk son incorrelados y de varianza unidad, y

adem
as los vectores columnas de la matriz de cargas factoriales son ortogonales, es decir A0 A es diagonal
~ admite una descomposicion de este tipo, esta es u
Si X
nica.
VI.3.
Estimaci
on de las cargas factoriales
VI.3.1.
M
etodo del factor principal
Deducimos de la ecuacion (VI.5) algo mas que la descomposicion (VI.4) de cada

varianza individual en comunalidad y especificidad, deducimos que la matriz de
~ satisface
covarianzas del vector X
2
1
0
..
= AA0 +
(VI.6)
.
.
k2
~ = (X1 , . . . , Xk )0
Disponemos ahora de la observacion de los valores que toma el vector X
para n individuos y buscamos estimar los coefficientes de la matriz A. Calculamos
a partir de estos datos la matriz de covarianzas de las variables X1 , . . . , Xk , que
llamamos S. Esta matriz satisfacera aproximadamente la relacion (VI.6) puesto que
estima . Por lo tanto, si disponemos de estimadores 12 , . . . , k2 de las especificidades
12 , . . . , k2 con los cuales formamos la matriz diagonal
2
1
0
..
=
,
.
0
2
k
se cumplira
S ' AA0 ,
(VI.7)
sabiendo ademas que la matriz km A es tal que A0 A es diagonal. El metodo del factor principal resuelve este sistema de ecuaciones con incognitas aij , i = 1, . . . , k, j =
1 . . . , m.
Una solucion explcita de este sistema se puede obtener utilizando los valores
Concretamente, sean
propios y los vectores propios de la matriz simetrica S .
VI.4 Rotaci
on de los factores
59
1 2 k los valores propios de S clasificados por orden decreciente de

magnitud, formamos la matriz diagonal con los m valores propios mas grandes
1
0
..
1 =
D
,
.
0
y sea G1 la matriz k m cuyas columnas estan formadas por los vectores propios
asociados a 1 , . . . , m . La matriz
1/2
A = G1 D1 ,
(VI.8)
cumple que
S ' AA0 .
necesitamos una estimacion preliminar de las
Para llevar a cabo el calculo de A,
especifidades.
Una primera opcion consiste sencillamente en considerar i = 0, para todo
i = 1, . . . , k. En este caso, los valores propios y los vectores propios requeridos
para el calculo de A en (VI.8) son los de la matriz S, es decir los mismos que se
utilizan para el calculo de los componentes principales. En SPSS esta opci
on
corresponde a escoger como metodo de extraccion Componentes principales.
Una segunda opcion consiste en especificar un estimador i2 de la especificidad
i de la comunalidad hi utilizando la relaci
i a partir de un estimador h
on
2
2
sii = hi + i , que aproxima (VI.4). En particular una opcion de las m

as
utilizadas consiste en escoger
i = s2 R2 ,
h
ii i
donde Ri2 es el coeficiente de determinacion m
ultiple correspondiente a la regresion de la variable Xi sobre todas las demas variables. En SPSS esta opci
on
corresponde a escoger como metodo de extraccion Ejes principales.
VI.4.
Rotaci
on de los factores
No olvidemos que uno de los principales objetivos del analisis factorial es conseguir identificar los factores que subyacen y originan la variacion com
un de las
variables observadas. Sin embargo la interpretacion de los factores es precisamente
la tarea mas delicada del analisis.
Para conseguir una descripcion u
nica, hemos realizado dos restricciones adicionales al modelo (VI.1), la primera - suponer los factores incorrelados y de varianza
unidades natural en cuanto a interpretacion. En cambio, la segunda, que consiste en
imponer que la matriz A0 A sea diagonal, esta principalmente destinada a simplificar
la estimacion de A, ver seccion anterior, y no tiene una justificacion muy fundamentada para la interpretacion. De hecho, los factores identificados correspondientes al
modelo definitivo no tienen una interpretacion facil en general. Para paliar esta dificultad, se suelen rotar los factores obtenidos en la seccion anterior: se considera
una matriz ortogonal G y se calcula la matriz de cargas correspondiente a la nueva
60

~ = AGG0 f~ + ~, los factores rotados son G0 f~ y la nueva matriz de
descomposicion X
cargas factoriales AG.
Muchas rotaciones especficas fueron propuestas, cada una corresponde a una
eleccion particular de la matriz de rotaci
on G. Una de las mas populares es la rotacion
Varimax, que persigue que cada factor este asociado con unas pocas variables, y que
no tenga apenas influencia en las demas, con la esperanza de que aparezca as una
interpretaci
on mas clara. Mas concretamente, la rotacion Varimax busca factores
con unas pocas cargas factoriales fuertes y las demas casi nulas. Para ello, maximiza
la varianza de las cargas de cada columna.
TEMA
VII
Introducci
on a las series temporales
VII.1.
Introducci
on
Empezamos con este tema el estudio de las series temporales: una serie temporal
o serie cronologica esta formada por la observacion del valor de una variable en
distintos intantes de tiempo. Los ejemplos abundan, estudiaremos por ejemplo en
practicas las series siguientes
Evolucion de la temperatura media mensual en San Javier desde 1981.
Evolucion de la tasa de paro por trimestres en Espa
na desde el tercer trimestre
1976.
Produccion diaria de una empresa.
Demanda mensual de energa electrica en Espa
na desde 1998 hasta 2002,
Sea Y la cantidad de interes, observamos los valores Y1 , Y2 , . . . , Yt , donde t representa
el indice de tiempo.
Al estudiar una serie temporal, podremos estar interesados en dos aspectos:
1. La comprension del fenomeno que describe, buscando contestar por ejemplo
a las preguntas siguientes aparece un patron de evolucion?una tendencia
global?, una periodicidad?, una ruptura de tendencia?
2. La prediccion de valores futuros. Se trata a lo mejor del aspecto mas deseado:
basandonos en la serie de datos observados Y1 , Y2 , . . . , Yt , podemos predecir
el valor de Yt+1 ?, y los de Yt+2 , Yt+3 o en general Yt+m ?
Este tema presenta los terminos, conceptos y herramientas basicas asociadas a series
temporales. En el tema siguiente veremos como abordar el punto 1) arriba mencionado, es decir detectar tendencias, periodicidad etc..., mientras que el tercer y u
ltimo
tema de este bloque estara dedicado a la prediccion.
62
VII.2.
Primer paso: exploraci

on gr
afica
Al igual que en todos los procedimientos vistos hasta ahora, el primer paso fundamental consiste en realizar graficas de la serie temporal. Una primera grafica asociada
a una serie temporal consiste por supuesto en representar Yt en funcion de t, lo que
permite en una primera exploracion detectar datos atpicos, la presencia de una tendencia o el caracter periodico del fenomeno que estudiamos. En la figura VII.1, se ha
representado la serie temporal de las temperaturas mensuales medias en San Javier
desde enero de 1981 (fuente: http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro).
Una periodicidad clara aparece, y por otra parte sera interesante conseguir decidir
si existe o no una tendencia al alza, se comprueba con estos datos el calentamiento
global?
20
10
15
Temperatura
25
Temperaturas mensuales medias en San Javier, 19911990
1982
1984
1986
1988
1990
Figura VII.1: Evolucion de las temperaturas mensuales medias en San Javier
En el caso en una periodicidad natural es evidente, tambien es u

til realizar una
grafica estacional: en una misma grafica representamos todos los periodos presentes
en la serie. En el caso de las temperaturas mensuales medias en San Javier por
ejemplo, la periodicidad natural es 12 (cada 12 meses el comportamiento de la temperatura es parecido), representamos en una misma grafica las series anuales de 12
temperaturas, ver figura (VII.2). La forma muy parecida que tienen las series de
VII.3 Descomposici
on en patrones de una serie temporal
63
temperaturas mensuales para los distintos a

nos confirma la periodicidad de 12.
20
5
10
15
Temperatura
25
30
Temperaturas mensuales medias en San Javier, 19911990
10
12
mes
Figura VII.2: Grafica estacional para las temperaturas mensuales medias en San
Javier
VII.3.
Descomposici
on en patrones de una serie temporal
VII.3.1.
Presentaci
on
Al examinar la grafica cronologica, cuatro tipo de patrones pueden aparecer

1. H: un patron horizontal: los datos fluctuan alrededor de una media constante.
2. S: un patron estacional: el comportamiento de la variable esta influida por
periodos como estaciones, das, trimestres, a
nos, etc... Vimos un ejemplo de
este tipo de patron en la serie de las temperaturas mensuales en San Javier.
3. C: Un patron cclico: hablamos de patron cclico cuando los datos presentan
subidas y bajadas que no son de duracion fija. Aparecen en series de datos
64

economicos por ejemplo con periodos de recesion o de bonanza, o en series de
datos climaticos con ciclos de sequa.
4. T : una tendencia: cuando hay un incremento o decrecimiento a largo plazo en
los datos. Los datos de temperatura en San Javier presentan por ejemplo una
tendencia creciente?
Muchas de las series temporales incluyen en realidad combinaciones de los distintos
patrones.
VII.3.2.
El modelo
La descomposicion supone que los datos que observamos estan formados de la

siguiente manera
datos =
patrones + errores
= f (tendencia ciclo, estacin, error)
A parte de los patrones se incluye en la descomposicion un termino de error, tambien

llamado componente irregular. Un metodo de descomposicion busca identificar el
patron de tendencia-ciclo, as como el patron estacional. La parte no explicada por
estos dos patrones se denomina el residuo y se asume ruido. Su prediccion es por lo
tanto imposible.
La formulacion matematica es
Yt = f (Tt , St , Et ),
(VII.1)
donde
Tt :
St :
Et :
componente de tendencia-ciclo.
componente estacional
componente irregular - error.
Dados los datos Y1 , Y1 , . . . , YT , buscaremos por lo tanto estimar T1 , T2 , . . . , TT y

S1 , S2 , . . . , ST , es decir los componentes de tendencia-ciclo y estacional en cada instante.
La relaci
on funcional f depende del contexto. Mencionaremos dos tipos
1. Modelo aditivo
Yt = Tt + St + Et .
2. Modelo multiplicativo
Yt = Tt St + Et .
Un modelo aditivo es adecuado cuando la variacion del componente estacional es mas
o menos constante y no depende del nivel de la serie. En cambio para datos donde
el efecto de la estacon aumenta a medida que aumenta la serie (podemos pensar en
series de precios por ejemplo, en las que el componente estacional se expresa como
un porcentaje del precio), se suele utilizar un modelo multiplicativo.
Aplicaremos un metodo de descomposicion a la serie de datos correspondientes
a la demanda mensual en energa electrica en Espa
na desde 1998 hasta 2002 (fuente
VII.4 Autocorrelaci
on
65
Demanda de energa elctrica, 19982002
19000
18000
17000
16000
demanda
15000
14000
tiempo
Figura VII.3: Demanda mensual de energa electrica en Espa

na, 1998-2002.
Red Electrica Espa

nola, www.ree.es). La grafica cronologica aparece en la figura
VII.3. La periodicidad de 12 es clara.
Despues de haber conseguido una descomposicion - veremos metodos para hacerlo
en el tema siguiente - representaremos los distintos componentes en graficas apiladas.
La figura VII.4 presenta el resultado de la descomposicion para los datos de demanda
en energa electrica, suponiendo un modelo aditivo.
VII.4.
Autocorrelaci
on
Dada una serie temporal podemos preguntarnos si el valor de la variable Y en eun

instante tiene mucha influencia sobre su valor, por ejemplo, 10 instantes de tiempo
mas tarde, es decir, si el fenomeno que estudiamos tiene memoria larga o memoria
corta (va olvidando pronto los valores que toma). Para contestar a este tipo de
preguntas que sin duda son de importancia en particular para realizar predicciones,
calculamos las autocorrelaciones, que nos permitiran deducir informacion sobre la
estructura de dependencia temporal que presenta el fenomeno. Vimos en el tema de
regresion como la covarianza y la correlacion son cantidades que miden el grado de
asociacion lineal entre dos variables. La autocorrelacion de orden 1 es la correlaci
on
de la serie de valores Y1 , Y2 , . . . , YT con los mismos datos translatados de un instante
de tiempo, es decir con la serie Y2 , Y3 , . . . , YT . La tabla siguiente presenta los primeros
datos de las temperaturas en San Javier, as como las series formadas al realizar
traslaciones de una, dos etc... unidades de tiempo.
66
1500
Descomposicin de la demanda
1000
St
500
500
17000 1000
16000
Tt
15000
40014000
200
200
residuos
400
10
20
30
40
50
Time
Figura VII.4: Descomposicion para la demanda mensual de energa electrica en Espa

na, 1998-2002
Y
10.3
10.8
15.8
18
21.8
22.6
23.6
Y+1
10.8
15.8
18
21.8
22.6
23.6
22.5
22.5
19.3
..
.
..
.
19.3
..
.
Y+2
15.8
18
21.8
22.6
23.6
22.5
19.3
..
.
..
.
..
.
...
...
...
...
...
...
...
...
...
...
...
Si observamos la serie Y1 , . . . , YT , la serie trasladada de una unidad de tiempo es

Y2 , . . . , YT y contiene una observacion menos.
La autocovarianza c1 y la autocorrelacion r1 de orden 1 se calculan como la
covarianza y la correlacion respectivamente de los valores Y1 , Y2 , . . . , YT 1 con los
valores Y2 , Y3 , . . . , YT , es decir de las dos primeras columnas de la tabla. Se calculan
60
VII.4 Autocorrelaci
on
67
con T 1 valores.
La autocovarianza c2 y la autocorrelacion r2 de orden 2 se calculan como la covarianza y la correlacion respectivamente de los valores Y1 , Y2 , . . . , YT 2 con los valores
Y3 , Y4 , . . . , YT . Se calculan con T 2 valores.
En general, definimos la autocovarianza ck y la autocorrelacion rk de orden k como
la covarianza y la correlaci
on de la serie con la misma serie trasladada de k unidades
de tiempo.
En el ejemplo de las temperaturas de San Javier, obtenemos r1 = 0,82, r2 =
0,463, r3 = 0,003, r4 = 0,44, etc...
Se presentan los valores de las autocorrelaciones en una grafica, en la que en el
eje Ox aparecen k el n
umero de unidades de la traslacion y en el eje Oy el valor de
rk .
En la figura VII.5 aparece el autocorrelograma correspondiente a las series de
temperaturas en San Javier. Detectamos en este autocorrelograma el patron de esta-
0.0
0.5
ACF
0.5
1.0
Autocorrelacion, temperaturas en San Javier
10
15
20
Lag
Figura VII.5: Autocorrelograma para las temperaturas medias mensuales en San

Javier, 1981-1990
cionalidad: los datos presentan una periodicidad de 12. La temperatura en un mes

esta muy poco asociada con la temperatura tres meses mas tarde.
68

El autocorrelograma permite saber si el proceso es de tipo memoria larga o
memoria corta y en particular nos da indicios sobre nuestra capacidad predictiva.
TEMA
VIII
Descomposici
on de una serie temporal
Nuestro objetivo en este tema es, basandose en los datos Y1 , . . . , YT de una serie
temporal, identificar y aislar los componentes Tt , St y Et que la constituyen.
VIII.1.
Filtrado
Consideramos dos se
nales (Yt )t1 y (Xt )t1 relacionadas por
Yt = Xt + Et ,
para todo t,
donde Et representa un error aleatorio, (ruido, perturbacion).

Como, observando Y1 , . . . , YN , reconstruir los valores X1 , . . . , XN ? Es decir,
como filtrar las observaciones Y1 , . . . , YN y eliminar el ruido E?
Una primera idea sencilla consiste en promediar la se
nal observada por bloques
de k observaciones consecutivas. Pongamos k = 3 por ejemplo, construimos una
nueva se
nal (Yt,3 , t = 2, . . . , N 1) como
t
1
2
3
4
..
.
Se
nal
Y1
Y2
Y3
Y4
..
.
N 1
N
YN 1
YN
Se
nal promediada
.
Y2,3 = Y1 +Y32 +Y3
Y3,3 = Y2 +Y33 +Y4
Y4,3 = Y3 +Y34 +Y5
..
.
Y
+Y
+Y
YN 1,3 = N 2 3N 1 N
.
Al promediar tres observaciones consecutivas, perdemos dos observaciones, la primera

y la u
ltima.
70

Cual es el efecto de promediar la se
nal? Puesto que Yt = Xt + Et , obtenemos
que
Yt1 + Yt + Yt+1
Yt,3 =
3
Xt1 + Xt + Xt+1 Et1 + Et + Et+1

+
.
3
3
t,3 + E
t,3
= X
=
Hemos obtenido una nueva se

nal Yt,3 , t = 2, . . . , N 1 que es la suma de la se
nal X
t,3 .
promediada y de un nuevo termino de error E
t,3 = Et1 +Et +Et+1 , para
a) Consideremos primero el nuevo termino de error, E
3
t = 2, . . . , N 1. Al promediar tres errores, se obtiene un error de menor magnitud, recordar de hecho que, si 1 , 2 y 3 son tres variables independientes
2
con la misma varianza 2 , tenemos V ar( 1 +32 +3 ) = 3 , es decir que la dis
persion del promedio de tres errores de misma dispersion es 3 mas peque
na
que la dispersion de cada uno. El termino de error correspondiente a la se
nal
promediada sera por lo tanto en general de menor magnitud que el error de la
se
nal original.
t,3 . Supongamos para empezar que X es una
b) Consideremos ahora el termino X
se
nal lineal, es decir que Xt = at + b. En este caso,
Xt1 + Xt + Xt+1
3
=
=
a(t 1) + b + at + b + a(t + 1) + b
3
3at + 3b
= Xt
3
t,3 , siendo
Por lo tanto, si X es una se
nal lineal, deducimos que Yt,3 = Xt + E
el nuevo error de menor magnitud que para la se
nal original: el proceso de
medias moviles de orden 3 Y,3 es una aproximacion - estimacion de la se
nal
X .
En el caso en que la se
nal X no es lineal pero presenta una evolucion suave,
sin cambios bruscos, tres observaciones consecutivas presentaran aproximada ,3 sera una
mente una relacion lineal, aunque X no sea globalmente lineal y X
buena aproximacion de X , lo que implica que Y,3 tambien.
Podramos hacerlo con mas de tres observaciones:
k1
Definici
on. Sea k un n
umero impar, el proceso Yt,k , t = k1
2 ,...,N 2
se llama el proceso de medias m
oviles de orden k. Este proceso representa un
suavizado del proceso Yt , t = 1, . . . , N .
Cuanto mayor sea k, mas suave sera la aproximacion, tal como esta ilustrado
en la figura VIII.1.
VIII.2.
Medias m
oviles y componente estacional
Supongamos ahora que Xt este constituida por una tendencia-ciclo y un componente estacional de periodo p,
X t = T t + St .
VIII.2 Medias m
oviles y componente estacional
71
Medias mobiles, k= 3
10
10
Figura VIII.1: Influencia de k sobre el suavizado a traves del proceso de medias

moviles
LLamamos Sp el promedio de los efectos del componente estacional en un periodo:

S1 + S2 + + S p
Sp =
.
p
Podemos escribir
Xt = (Tt + Sp ) + (St Sp )
= Tt0 + St0 ,
donde Tt0 = Tt + Sp es un nuevo componente de tendencia-ciclo y St0 = St Sp es un
nuevo componente estacional ahora de media cero. Es decir, que partiendo de una
descomposicion Xt = Tt + St , siempre podemos reescribirla de tal manera que el
componente estacional tenga media cero en un periodo. A partir de ahora, cuando
escribamos Xt = Tt + St , siempre consideraremos que St es de promedio nulo sobre
un periodo.
Para fijar ideas, supongamos por ejemplo que el periodo es p = 3, cual es el
10
72

efecto de considerar el proceso de medias moviles?
t,3 + St,3
Yt,3 = X
t,3 .
= Tt,3 + St,3 + E
Pero al ser S periodica de periodo 3, tenemos que

S1 + S2 + S3
St1 + St + St+1
=
= 0.
St,3 =
3
3
por lo tanto, si el componente de tendencia-ciclo es de evolucion suave (ver seccion
anterior), y aunque haya una componente estacional el proceso de medias moviles
Y,3 aproxima T .
Por lo tanto, cuando estemos en presencia de una se
nal que presenta una componente estacional de periodo p impar, calcularemos el proceso de medias moviles
de orden p, Y,p , para aproximar la tendencia-ciclo.
Sin embargo, muchas de las series temporales estan formadas por datos trimestrales, donde el periodo natural es 4, o datos mensuales donde el periodo p es 12.
Como en este caso, calcular el proceso de medias moviles de orden p puesto que p
es par?
Supongamos por ejemplo que estamos estudiando datos trimestrales, queremos
calcular las medias moviles de orden 4. Para el instante 3, que medias calculamos?
3 +Y4
4 +Y5
Podemos calcular Y1:4 = Y1 +Y2 +Y
o Y2:5 = Y2 +Y3 +Y
, pero ninguno de estos

4
4
dos promedios esta centrado en el instante 3: el primero da mas peso a las observaciones anteriores a t = 3, mientras que el segundo mas peso a las observaciones
posteriores. Una manera de recuperar la simetra es volver a calcular la media de
estos dos promedios. Para el instante t = 3, el promedio final sera por lo tanto
Y1:4 + Y2:5
Y1 + 2Y2 + 2Y3 + 3Y4 + Y5
=
.
2
8
Se trata de una media movil con una ventana de anchura 5 (el n
umero de observa1 2 2 2 1
ciones que intervienen en el calculo) y con pesos ( 8 , 8 , 8 , 8 , 8 ).
En general si p es par, el proceso de medias moviles de orden p se calcula como
Ytp/2 + 2Ytp/2+1 + + 2Yt+p/21 + Yt+p/2 ,
y se denota por 2 p M A(Y ).
En la figura VIII.2 se presenta el resultado de calcular para varios valores de
k el proceso de medias moviles asociado a la serie de temperaturas en San Javier
(ver tema 7). Cuando estamos proximos a la periodicidad de la serie, el proceso de
medias moviles estima la tendencia de la serie.
VIII.3.
Procedimiento para la descomposici

on cl
asica
Si la periodicidad natural es p, y
Yt = Tt + St + Et .
VIII.3 Procedimiento para la descomposici

on cl
asica
73
25
15
10
20
ysj
1982
1984
1986
1988
1990
xmes
25
15
10
20
ysj
1982
1984
1986
1988
1990
xmes
25
20
10
1982
15
ysj
1984
1986
1988
1990
xmes
Figura VIII.2: Suavizado de la serie de temperaturas en San Javier para varios valores
de k
Calculamos el proceso de medias moviles de orden p, obteniendo as una aproximacion Tt de Tt .

Restamos Tt a Yt para obtener una estimacion de St + Et .
Calculamos los p valores de la componente estacional calculando el promedio
de los datos separados de p instantes de tiempo:
S1 = promedio(S1 , S1+p , S1+2p , . . .)
S2 = promedio(S2 , S2+p , S2+2p , . . .)
..
..
.
.
Obtenemos el componente irregular como
t = Yt St Tt .
E
Muchos otros metodos de descomposicion de una serie temporal han sido desarrollados.

Apuntes Estadistica

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Apuntes Estadistica

Загружено:

Авторское право:

Доступные форматы

Apuntes de Estadstica Industrial

II. Distribuciones muestrales - contrastes de hip

Estudio de una variable

Un conjunto de datos describe individuos, que pueden ser personas pero

Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos

En el caso en que el conjunto presente muchas valores proximos pero distintos,

I.2 Estudio de una variable

en el eje Oy las frecuencias. Obtenemos as un diagrama de barras en el ejemplo de

Figura I.1: Diagrama de barras para las concentraciones de nitrato

Histograma, mediciones de Newcomb

Figura I.2: Histograma para las mediciones de Newcomb

La media: Si x1 , . . . , xn son los datos, sabemos todos que la media es

Representa el centro de gravedad de los datos.

I.2 Estudio de una variable

que representa aproximadamente el promedio de las distancias al cuadrado entre los

El diagrama de caja-bigotes es un resumen grafico que permite visualizar, para

Figura I.3: Componentes del diagrama caja-bigotes

Figura I.4: Comparacion puntuacion final, temporadas 01/02 y 02/03

Las tecnicas descriptivas son muy u

Deducimos que la probabilidad de que X este entre a y b corresponde al area debajo

Figura I.5: Funcion de densidad y su interpretacion

densidad de X tiene mucha relacion con el histograma. En efecto, la probabilidad

Figura I.6: Densidad y histograma

De la misma manera que para distribuciones de variables en un conjunto de

Figura I.7: La esperanza es el centro de gravedad

Histograma, mediciones de Newcomb

Figura I.8: Ajuste de una densidad normal al histograma de Newcomb

Ademas puesto que la funcion f no admite primitiva en una forma cerrada,

Figura I.9: Regla del 68 % - 95 % - 99.7 %

b) El modelo exponencial Este modelo ha resultado adecuado para modelizar

Distribuciones muestrales - contrastes de hip

Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger

Mathieu Kessler: Estadstica industrial

Intento de respuesta: Consideremos el caso del sondeo en el que se busca estimar

II.1 Distribuciones muestrales

Figura II.1: Histograma de los valores de p para 10000 muestras extraidas

proxima (menos de dos puntos) de la proporcion de 1 en la poblacion, aunque

Mathieu Kessler: Estadstica industrial

Figura II.2: Ajuste de una normal al histograma de los valores de p

muestral este bastante alejado del objetivo 0.7.

Figura II.3: Histograma de los valores de p para 10000 muestras de tama

II.2 Contrastes de hip

Mathieu Kessler: Estadstica industrial

El porcentaje de muestras de tama

De manera repetida en la asignatura, los procedimientos que veremos incluiran

En el ejemplo ilustrativo, era p y 0 era 1/2. En algunos casos, solo nos

Por supuesto tambien podramos considerar en la alternativa valores menores

II.2 Contrastes de hip

en su version bilateral, o sustituyendo H1 por H1 : > 0 , o H1 : < 0 en su

Mathieu Kessler: Estadstica industrial

Es muy normal considerar mas de una variable asociada a un experimento. En

Mathieu Kessler: Estadstica industrial

Resistencia del cemento

Nivel mximo del mar en Venecia

Velocidad de recesin de 24 nebulosas

Produccin mundial de petrleo

Figura III.1: Cuatro ejemplos de conjuntos de datos

III.2 Criterio de mnimos cuadrados

Criterio de mnimos cuadrados

Figura III.2: Ejemplo de nube de puntos

Mathieu Kessler: Estadstica industrial

Figura III.3: Ajuste de una curva a la nube de puntos.

numericos. Nos centraremos en este tema en el que la forma parametrica de f es