Вы находитесь на странице: 1из 562

- -

Paraninfo
:X-// ¿)o 1 - ~

'-¡ z ,(..
=e? o ·- éJro lj S tJ ~ 2 - e:.- e J

-=:,;e_~

"::~.><'-
'5?.. ,
\2 c.__ ;<. ~ ) ro~l~civn
-- 5v S2'-.. C~nt- c:W 'ºl~c.¡~,)
V
Sección 1 • Introducción
Capítulo 1 La Estadística aplicada a la Economía 3
1.1 Estadística y rné:todos estadísticos . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. Variables, atributos y escalas.. .. .. ......... ... ..... 6
1.1. 2. Población y muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
l. l. 3.Etapas del análisis estadístico . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Ciencia económica y Estadística....... ............ .. ... 9

Sección 2 • Análisis estadístico de una variable

-
Distribución de frec_uencias_
2.1
13
Variable estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1. l. Variable discreta y variable continua . . . . . . . . . . . . . . 14
2.2 Distribuciones de frecuencia . .. ..................... .. ... 15
2.2.1. Frecuencia absoluta y relativa . . . . . . . . . . . . . . .. . . . . . . 15
2. 2.2. Frecuencias acumuladis-: . ~ -~ ........ . .. .. .. .. .. .. 16
2.2.3. Distribución de frecuencias de una sola variable 16
2.2.4 . Recorrido, intervalos y marcas de clase.......... . 17
2.3 Representaciones gráficas . .. .................. :·.. .. ...... 18
2.3.1. Tipos de gráficas......... . ........ .. ................ . . 19
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Apéndice. Operadores Suma y Producto . . . . . . . . . . . . . . . . . . . . . 32
El operador suma o sumatorio .. . .. .. .. .. .. .. .. . . .. . . .. . . . 32
El operador producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

IX
X • INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL

Capítulo 3 Medidas de posició:p. 35


3.1 Características de una distribución de frecuencias .
Los promedios y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Media aritmética............................. .. ..... . ...... 36
3-:2..1-:--Pr-;;piedades........ ... ... ....... ...... . ... .... . .. ..... . 38
3.2.2. Ventajas e inconvenientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3l.__Media g~ométric~...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.1. Propiedad ... ................... . ............... ...... . . 42
3.3.2. Ventajas e inconvenientes ... . ...... ................. 43
3.,_4 .Media armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.1. Ventajas e inconvenientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.2. Relación entre estos tres promedios . . . . . . . . . . . . . . . 46
3.5 Mediana . ... . .. ....... ... ....... .. .... .. .. ...... ... .. .. . . ... 47
3.5.1. ProPiedad.................... ........................ ....... .... ... .... .. 51
3.5.2. Uso específico de la mediana ................. :......-........ 52

-----
3.6Moda
3.6.1. Cálculo de la moda .................................. .
53
53
3.7 Medidas de posición no centrales.. . ............... . ... . 58
3. 7.1. Los cuartiles .......................... : ............... . 59
3.7.2. Los deciles .. ........ . .... ... ... . ... . ... . .... ... .... .. . . 59
3. 7. 3. Los percentiles ....... .... ... .. .. ................. . .. . . 59
Ejercicios resueltos.............................................. 61
~ -Apéndice. Momentos potenciales. .. .... ....................... . 68
Momentos respecto al origen y momentos respecto
a la media . . . .. . . . .. .. .. . .. .. . . . . . . .. .. . .. .. .. . . . .. .. . . .. . . . . . 68

Capítulo 4 Dispersión 73
4. 1 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.1. Medidas de dispersión absolutas........................... 75
4.1. 2. Desviación media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
_1.2.1.-_ Desviación_rípjs_a ,Q estándar . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.2. Propiedades de la varianza.... . ..... ........ . .. ..... 81
4.2.3. Propiedades de la desviación típica ..... .. .. .. .. ... 83
4.2.4. Tipificación...................................... .. . ... 84

4.3
- ........._ - - - _..., ....
Medidas de dispersión relativas......................... 86
.
4.2.5. Cálculo de la varianza.. .... . . . .................. . ... .
- 85

4.3.1.
'--~_...,.
4 .3. 2.
--...... --
Coeficiente de variación de Pearson..... .. . . . . . .. .
Indice de dispef'Si'Oñi'especto a la mediana . . . . . . .
.. 88
89
Ejercicios resueltos.... ........................................ . . 91
CONTENIDO 11 XI

Capítulo 5 Asimetría y curtosis 99


5. 1 Medidas de forma: medidas de asimetría y curtosis . 99
5.1.1. Medidas de asimetría .. ........ .......... ..... .................... 100
5.1.2. Medidas de apuntamiento o curtosis............... 107

Ejercicios de la Sección 2 .......................................... .. 111

Sección 3 • Desigualdad
Capítulo 6 Concentración 163
6.1 Medidas de concentración .............................. . 163
6.2 Índice de concentración de Gini y Curva de Lorenz. 164
6. 3 Coeficiente de concentración de Theil ................. 172
Ejercicios resueltos .. ......... ......... .......................... 176
Ejercicios de la Sección 3 ............................................ 179

Sección 4 • Análisis estadístico de


dos o más variables
apítulo 7 Distribuciones bidimensionales 197
7.1 Distribución bidimensional de frecuencias .. .. ........ 197
7. l. l. Independencia y relación funcional de dos ...... .
variables..... ............ ................. ....... .. ... .. 198
7 .l. 2. Distribuciones bidimensionales:
tablas de correlación y de contingencias . . . . . . . . . . 200
_2:.1-3_._Distribuciones marginales. . ......... .. ...... ...... .. 201
7 .1.4. Distribuciones condicionadas .. .. .. .. .. .. . .. .. .. .. .. 202
' 7 .1. 5. Independencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.2 Representaciones gráficas ...... .... ................. : .... 206
7. 3 Momentos en distribuciones bidimensionales ... ..... . 208
-----=~~
7. 3. l.Momentos respecto al origen .. .. .. .. . .. .. .. .. .. .. .. 208
7. 3. 2.Momentos respecto a las medias .. .. .. .. .. .. .. .. .. . 209
7. 3. 3.Cálculo de los momentos centrales en función
de los momentos respecto al origen................ 210
7. 3.4. Transformaciones lineales y valor de las varianzas
~ covar~as .................... ................ ...... 212
7.3.5. Valor de la covarianza en caso de independencia
estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
XII • INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL

Capítulo 8 Interpolación y ajuste 215


8.1 Interpolación ....... . .... ......... .............. .... . .... ... 215
8. 2 Interpolación lineal y parabólica ....... . ..... .. . . .. .. ... 216
8.3 Ajuste ................................................... . ... 220
8 .4 Método de los números cuadrados ...................... 222
8.4.1. Algunos ajustes por rrúnimos cuadrados .. .. .. .. .. 224

'Capítulo 9 Regresión y_cq_rnja.Qól!. 235


9.1 Re_g_u:sjón., .... .. .. . .................... ...... . ..... ....... .. 235
9 .1.1. Regresión l.... .. . .. . .... .. ......... .. ..... .. . .. .. . .. ... 236
9.1 .2. Regresión II ........... ........ .. .... .... : ...... .. .... .. 239
9 .1.'3. Regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
9.1.4. Coeficientes de regresión .. .. . . .. .. .. .. .. . .. . .. . .. . .. 242
9. 2.. Cotrelaci.óJ1................................................. ... 244
9.2.1. Campo de variación de R y su interpretación .... 246
9.2.2. Coeficiente de correlación lineal . .. . .. .. .. . .. .. .. .. 247
9.2.3. Interpretación analítica de r ......................... 249
9. 2. 4. Correlación lineal e independencia estadística . . . 251
9.2.5. Invarianza de r ante transformaciones lineales . .. 252
~ _ Vari'!..~bid~resjón J:s=oeficient~
de det~minación lineal . ... ......... .. . ...... .... . ... : . ... 252
9.4 Aplicaciones de la regresión y la correlación ..... . ... 257
9.4.1. Uso y abuso de la regresión ......... .... ......... ... 257
9.4.2. Predicción............. ...... .............. ............. 258
Ejercicios resueltos ................ ; ...... . ... .... ............... 261

Capítulo 10 Regresión múltiple 273


10.1 Distribución P-dimensional de frecuencias ...... ..... . 273
10.2 Regresión múltiple ......... ... . ..... . ... .. .. ... ... ........ 274
10.2.1. Regresión y correlación en más de dos variables 276
10.3 Regresión lineal múltiple ......... .. .......... ... . ........ 277
10.3.1 . Correlación lineal múltiple....... .. ..... .. ........ .. 280
10.3.2. Correlación parcial . . . .. . . .. . . .. . .. .. .. . .. . .. .. .. .. .. . 284
10.3.3. El problema de la multicolinealidad . .. .. ... ....... 285
Ejercicios resueltos ........ .... .......... .. ... .. .... .. ... . ....... 289
Ejercicios de la Sección 4 ................. ...... .. ................... 297
CONTENIDO • XIII

Sección 5 • Números índices


Capítulo 11 Números índices 375
11.1 La problemática de la comparación ...... .. ... .. .... ... 375
" 11.2 ~úmeros índices_simples y complejos ................. 377
- - - 11.2.1. Números índices simples .. .. . .. .. .. . .. .. .. .. .. .. .. .. 377
11.2.2. Números índices complejos .. .. .... .............. .. . 378
11. 2. 3. Propiedades de los números índices .... .'.......... 381
11.2.4. Índices en cadena ............... .. .............. .. .... 382
11.3 Índices de precios . .................. .... .... ... .. .. ... . . .. 384
11.3 .l. Índices complejos de precios .. ...................... 384
11.4 Índices cuánticos o de producción ................... .. . 391
11.5 Algunos problemas en la construcción y
utilización de los números índices ... ................... 392
11.6 Deflactación de series estadísticas ................. ..... 392
11.7 Enlaces y cambio de base .................... .. .......... 395
i 1.8 Participación y repercusión .................... ..... .. . .. 397
11 .9 Índice de Precios de Consumo y otros índices
elaborados en España ... ......... ....... _ , ............ . .. 399
' 1 ~
ll.2...L.JnQ.ices de.Erecios de_Consumo (IPC) ............. 400
11 .9.2. Otros índices elaborados en Espana ................ 402
11.10 El indicador del nivel de inflación .............. .. ...... 403
-Ejercicios
- ~-·
resueltos ... ..... . .................. .... ....... .... .... 407
Ejercicios de la Sección 5 ............................................ 413

Sección 6 • Series temporales


Capítulo 12. ~.S temporajes 449
12.1 Introducción .............. ................... . .... .. . ....... 449
12.1.1. Concepto........... .. .. . ..... . ........... . .. . .... . .. .. . 450
12.1.2. Representación gráfica....... ......... .. ... ... . ...... 450
I2.T"3~Componentes de una serie de tiempo....... . ...... 451
),.2.1.4. Formas de combinar las componentes............. 455
12.2 Análisis de la tendencia ...... ............................ 458
12.2.1. Método del ajuste analítico...... .. ......... .. ....... 459
12.2.2. Método de las medias móviles.... .. ........ .. ...... 460
12.3 Variaciones estacionales ..... .. ................... ... ..... 462
12.3.1. Método de las relaciones de medias
mensuales respecto a la tendencia. . . . . . . . . . . . . . . . . . 464
12.3.2. Método de las medias móviles........ .. .. . . ..... . .. 465
XIV • INTRODUCCIÓN A LA ESTA DÍSTICA ECONÓMICA Y EMPRESARIAL

12.4 Aplicaciones prácticas .......... .. ........................ 466


Ejercicios de la Sección 6 ............................................ 473

Sección 7 • Tasas de variac.ión


Capítulo 13 Tasas de variación 513
13.1 Variación temporal de variables económicas
y su medida ........... ............ .. .. ..... ................ 513
13 .l. l. Variación absoluta ................... . .... ~ ..... .. . .. . 514
13.1.2. Variaciones relativas : tasas de variación .. .. .... .. 515
13.2 Estacionalidad y tasas-de variación ................... .. 517
13.2.1 . Suavización por medio de medias
escalonadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
13.2.2. Suavización por medio de medias móviles ........ 520
13.3 Equivalencia entre tasas de variación
de diferentes períodos .................................... 521
13.4 Tasas medias de variación .................. .. .... ....... 523
13.5 Cálculo aproximado de tasas de variación ............. 526
Ejercicios de la Sección 7 ............. ......... ........ ... ........... 529

Sección 8 • Análisis estadístico de datos


ordinales y categóricos
Capítulo 14 Estadística de atributos 557
14.1 Correlación por rangos ............................. ...... 558
14 .1. l. Coeficiente de correlación por rangos
de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559
14.2 Asociación entre caracteres nominales .............. .. . 561
14.2.1. Tabla de contingencia 2 x 2 .. .. .. . .. . .. .. . .. .. .. .. 563
14. 2.2. Criterio de independencia .. ... ... .. ......... . ...... 563
14.2.3. Coeficientes de asociación ................... .... .... 564
14.3 Tablas de contingencia h x k .......................... .. 566
2
14.3.1. Coeficiente de contingencia x_ . .. .. .. .. . .. .. .. .. .. 567
14.3.2. Coeficiente de contingencia de K. Pearson.. ..... 568
14.3.3. Coeficiente de Tschuprow . ... ..... ... . ... .. .... ..... 569
Ejercicios de la Sección 8 ............................................ 571
Bibliografía .............................................................. 591
,
In dice analítico ........................... .. . ............. .. ...... ...... 595
..

CAPÍTULO 1

La Estadística
aplicada a la
Economía

La acepción vulgar del término Estadística hace referencia a una determinada


información numérica. Esta primera conceptualización que, como veremos,
tiene orígenes históricos, cada día se encuentra más arraigada en la sociedad
actual irremisiblemente inmersa en un mundo de cifras tales como datos y se-
ries sobre el Producto Interior Bruto, variaciones de los índices de precios,
tasas de inflación, evolución del paro, gasto familiar, cotizaciones bursátiles,
número de accident~s de circulación, distribución de votantes, p9rcentaje de
personas que padecen una cierta enfermedad, etc., las cuales llenan los medios
de comunicación e impregnan nuestras referencias personales. ·
Pero la Estadística no puede entenderse, simplemente, como un conjunto de
valores númericos, ya que, sobre todo hoy día, la Estadística es una ciencia que

3
4 • SECCIÓN 1. INTRODUCCIÓN

facilita no sólo los métodos precisos para la obtención de la información numé-


rica de base sino que, además, proporciona métodos objetivables de análisis de
esa información recogida y, en general, métodos de investigación, aplicables al
resto de las Ciencias.
Esta doble vertiente que tiene la Estadística es la consecuencia del proceso
histórico seguido hasta su formación como cuerpo propio de generación de
conocimiento. Para entenderlo mejor efectuemos una breve síntesis de esta
génesis histórica.
Filológicamente, el término Estadística tiene su raíz en la palabra estadista,
y ésta, a su vez, en el latín «Status» . De aquí nace su primera vocación: la de
constituirse como la exteriorización cuantitativa de las cosas del Estado.
En este sentido, los antecedentes de la Estadística serán tan remotos como
lo pueda ser la historia del hombre. Es fácilmente imaginable que las socieda-
des humanas más primitivas estuvieran interesadas en enumerar sus caracterís-
ticas más relevantes: familias , hombres aptos para la guerra, utensilios de caza
y labranza, cabezas de ganado, etc.
Ya en el Pentateuco , en el libro al que se le da el significativo nombre de
los Números, se cita un censo de personas; no obstante, las referencias ar-
queológicas e históricas nos proporcionan las primeras evidencias de recuentos
situándolos en el censo del emperador Yao en la China del año 2238 a. de J. C.
y en documentos asirios, egipcios y griegos, que preceden a los más cercanos
del Imperio Romano , en el que la preocupación por la actividad censal de los
individuos y bienes del Estado tenía una clara finalidad tributaria y militar.
Posteriormente, el avance general del conocimiento generado a lo largo de
los siglos XVI, XVII y XVIII se refleja también en la Estadística desde dos ver-
tientes diferentes.
En primer lugar, el conocimiento cuantitativo de las cosas del Estado en sus
facetas de recogida de información, descripción y análisis de la misma, adqui-
rió una base más científica a través de las mejoras introducidas por las dos es-
cuelas estadísticas más importantes: la alemana, centrada en la llamada geogra-
fía política (Staatenkunde) y representada por Seckendorff, Conring y
Achenwall (a este último se le atribuye la introducción del término Estadística
en una de sus obras, publicada en 1749) y la de los aritmético-políticos ingleses
Graunt, Petty, Davenant, Halley, King, etc., preocupados por el problema del
conocimiento exacto de la población, que en la ciudad de Londres disminuía
considerablemente por efecto de sucesivas epidemias . En esta línea de avance
de la ciencia estadística son dignos de mención tres españoles ilustres cuyas
contribuciones son universalmente reconocidas: Jerónimo de Uztáriz, Campo-
manes y J avellanos.
LA ESTADÍSTICA APLICADA A LA ECONOMÍA • 5

Pero la gran transformación de la Estadística, que la ha convertido en una


ciencia susceptible no solamente de describir la realidad, sino de modelizarla
utilizando los métodos del Análisis Matemático, surge precisamente de su vin-
culación a éste a través del Cálculo de Probabilidades.
El origen del Cálculo de Probabilidades se suele situar en el siglo XVII, atri-
buyéndose a las aportaciones que Pascal y Fermat realizaron sobre algunos
problemas clásicos de los juegos de azar, viéndose estimulados a ello por su
correspondencia epistolar con el Caballero de Méré. Pero en realidad, ya a
partir del siglo xv algunos matemáticos notables , como Pacioli, Cardario, Tar-
taglia, Kepler y Galileo habían esbozado unas primeras formalizaciones de
algunos esquemas aleatorios.
Esta nueva ciencia fue tomando cuerpo y vinculándose cada vez más fuer-
temente a la Teoría de Funciones (y, por tanto, utilizando cada vez mejor los
instrumentos de investigación aportados por ésta) a lo largo de los siglos XVIII,
XIX y comienzos del XX, merced a los logros de figuras tan notables como Hu-
ygens, Jacob y John Bernouilli, Leibniz, Montmort, Buffon, D' Alembert, Ba-
yes, Legendre, Gauss, Laplace y, posteriormente Chebychev, Markov, Venn,
von Misses, Kolmogorov, Keynes , Ramsey, de Finetti y Savage, entre otros
muchos. El resultado de todo ello ha sido la construcción de un modelo de
comportamiento de los llamados fenómenos estocásticos en el que pueda encua-
drarse toda experiencia o evidencia empírica que revista carácter de aleatorie-
dad.
La fusión de estas dos vertientes de mejora del conocimiento: la estadística
como recogida, descripción y análisis de la información y el Cálculo de Proba-
bilidades, se ha plasmado en una nueva rama floreciente de esta disciplina, la
Estadística Matemática, surgida en las primeras décadas del siglo XX, y cuyo
fruto -producto de las aportaciones de hombres como Pearson, Yule, Gosset
(Student), Fisher , Neyman, Pearson (hijo) y Wald entre otros- ha sido la dis-
ponibilidad de eficaces instrumentos que permiten poner en relación los datos
recogidos con algún modelo ideal de probabilidad y ayudan a descubrir en la
evidencia empírica algún tipo de regularidad estocástica.
La Estadística, por tanto, se configura como la tecnología del método cien-
tífico que proporciona instrumentos para la toma de decisiones cuando éstas se
adoptan en ambiente de incertidumbre, siempre que esta incertidumbre pueda
ser medida en términos de probabilidad. Por ello, la Estadística se preocupa de
los métodos de recogida y descripción de datos, así como de generar técnicas
para el análisis de esta información.
Esta Introducción a la Estadística se va a centrar precisamente en el desa-
rrollo de estos métodos primarios de recogida y descripción de datos, así como
6 • SECCIÓN 1. INTRODUCCIÓN

de aquellas técnicas específicas de tratamiento de los hechos econom1cos de


carácter elemental, dejando las técnicas estocásticas, basadas en el concepto de
probabilidad, para manuales más avanzados.

1.1.1. VARIABLES, ATRIBUTOS Y ESCALAS

Como el lenguaje que utiliza la Estadística es el matemático, la primera abs-


tracción con que nos encontramos es la de asignar la idea de variable al carác-
ter o fenómeno que estemos estudiando en la realidad.
Sin embargo, no todos los caracteres que nos puedan llegar a interesar tie-
nen concreciones de naturaleza cuantitativa, como puede ocurrir cuando inves-
tigamos, por ejemplo, el nivel de estudios de un colectivo, su sexo, las ramas
de actividad económica, etc. A estas <<Variables>> no cuantitativas. se las suele
designar con el nombre de atributos.
Muchas son las clasificaciones que se suelen efectuar respecto ~ las varia-
bles utilizadas como , por ejemplo, la de considerar la diferencia existente entre
variables continuas o variables discretas, o bien, en función de su referencia
temporal, la de distinguir los datos históricos, cuando las observaciones del
carácter estudiado se efectúan secuenciadas en el tiempo, de los datos cross-
section o de corte transversal, que se· refieren a observaciones en un mismo
instante o período de tiempo de un carácter en diferentes sujetos (por ejemplo,
los datos referentes a la producción, en un mismo año, de los diferentes secto-
res económicos, o de las diferentes regiones económicas). Si se combinan am-
bos tipos de datos, históricos con los de corte transversal, se dice qúe se tiene
datos panel.
Sin embargo, desde el punto de vista estadístico quizá adquiera mayor rele-
vancia aquella clasificación que hace referencia a las propiedades métricas de
las escalas bajo las cuales pueden aparecer nuestras observaciones, distinguien-
do así:

(a ) Escala nominal

Se dice que la información sobre un determinado carácter viene dada en escala


nominal cuando ésta se puede clasificar en categorías no numéricas mutuamente
excluyentes, entre las cuales no se puede establecer ninguna relación de orden,
no pudiéndose fijar , por tanto, ningún origen que sirva de referencia. Pertene-
cen a esta categoría las observaciones correspondientes, por ejemplo, a las dis-
tintas ramas de actividad económica, profesiones laborales, ideología política,
estado civil, sexo, etc.
LA ESTADÍSTICA APLICADA A LA ECONOMÍA • 7

(b ) Escala ordinal
Las medidas en escala ordinal son aquéllas que participando de las propiedades
de la escala nominal, se diferencian de éstas en que sí se puede establecer algún
tipo de orden, existiendo, pues, algún origen de referencia para tal ordenación.
Las observaciones que se puedan obtener sobre niveles de estudios (primarios,
medios, superiores, y otros) , estratificaciones de familias por su capacidad de
consumo (bajo, medio, alto , etc.) pertenecen a este tipo de escala ordinal.

(e) Escala de intervalos


En este caso puede establecerse de antemano algún tipo de unidad de medida,
pudiéndose C\.lantificar numéricamente la distancia existente entre dos observa-
ciones cualesquiera. Ésta es una escala verdaderamente cuantitativa, encontrán-
dose numerosos ejemplos de ella en Economía, tales como datos referentes a
salarios, presupuestos, gastos, volúmenes de ventas, pasivos financieros, etc.

(d ) Escala de proporción

En esta categoría se incluyen aquellas mediciones en las que además de ser


relevantes las propiedades de la escala de intervalos, tiene pleno sentido la fija-
ción de un punto de origen que marque un cero absoluto, como puede ocurrir
con .- la edad de los individuos o el número de unidades físicas de un stock in-
ventariado, e(\tre otros .
La importancia de la distinción entre estos cuatro tipos de escalas proviene
de su influencia en la elección de los métodos de estadística más adecuados, en
cada caso, para el análisis de los datos. En.Economía, en general, nos encon-
traremos con caracteres cuya concreción vendrá dada en términos de escala de
intervalos o de proporción; no obstante, en el capítulo 14 se hace referencia a
los métodos más elementales que se pueden utilizar en el caso de que nuestras
observacione·s sean nominales u ordinales.

1.1.2. POBLACIÓN Y MUESTRA

Por otra parte, el análisis estadístico puede extenderse o no, a todo el conjunto
de elementos que participan del carácter objeto de nuestra investigación.
Recibe el nombre de población, colectivo o universo, todo el conjunto de
individuos o elementos que tienen unas características comunes.
No siempre es factible estudiar todos y cada uno de los elementos de lapo-
blación ya sea por razones de coste, de rapidez en la obtención de la informa-
8 • SECCIÓN 1. INTRODUCCIÓN

ción, o porque los elementos se destruyen en el propio proceso de investiga-


ción, por lo que es necesario acudir a examinar sólo una parte de esta pobla-
ción , que se denomina muestra. Por tanto , una muestra será todo subconjunto
representativo de la población.
En el caso de que nuestra investigación se dirija a toda la población se dice
que se realiza un censo, mientras que la recogida de la información muestra!
recibe el nombre de encuesta. A veces se suele emplear la expresión "encuesta
exhaustiva" como sinónimo de censo.
Al nivel de esta Introducción no será relevante esta distinción entre pobla-
ción y muestra, pero dentro de la estadística los procedimientos de que hoy se
dispone para la extensión de las conclusiones muestrales a toda Hi población es,
precisamente, lo que le otorga la cualidad de ser el principal instrumento de
investigación para el científico.

1.1.3. ETAPAS DEL ANÁLISIS ESTADÍSTICO

Las fases por las que ha de atravesar el análisis estadístico son:


a • La recogida de los datos, que no por ser una labor elemental está exenta de
dificultades e indicaciones que hay que observar. Una recogida mal efectuada
puede ocasionar un sesgo inicial sobre la información de la que se quiere dis-
poner. El planteamiento sobre lo que se puede investigar y la organización del
trabajo de campo necesario para la recogida ha de diseñarse de manera minu-
ciosa.
b • La ordenación y presentación de los datos necesita una labor previa de
depuración de las anomalías que hayan podido observarse. En general, la pre-
sentación de los datos se realiza disponiendo los mismos en tablas simples o de
doble entrada.
e • Para poder llegar a una descripción inicial de las características más rele-
vantes que puedan apreciarse en una serie estadística de datos se procede a la
determinación de medidas o parámetros que intenten resumir la cantidad de
información que dicha serie pueda comportar poniendo de relieve las peculiari-
dades que destaquen en el conjunto de los datos.
d • Por último vendría el análisis estadístico formal que , a través del empleo
de los métodos facilitados por la estadística matemática, permitirá verificar las
hipótesis sobre las regularidades que, en principio , puedan detectarse en las
etapas previas.
LA ESTADÍSTICA APLICADA A LA ECONOMÍA • 9

El contenido de este texto introductorio se centrará precisamente en las tres


primeras etapas de este proceso, ya que la última, a pesar de ser la más impor-
tante, requiere un tratamiento estadístico más avanzado que el incluido en la
presente Introducción.

La Ciencia ~conómica, como el resto de las ciencias sociales, tiene por objeto
el estudio del comportamiento, en este caso desde la óptica económica, del ser
humano y de la sociedad en general, intentando descubrir las interrelaciones y
diferentes actitudes de los individuos o grupos sociales ante los estímulos de
carácter económico.
En esta ardua labor, el científico económico se encuentra con una sociedad
en continuo cambio, donde ciertas respuestas pertenecientes al pasado se en-
tremezclan con posturas ya impregnadas de hábitos del futuro siendo, en defi-
nitiva, imposible establecer normas fijas de comportamiento y leyes inmutables
que r~gulen las relaciones económicas.
Además, el científico económico encuentra que sus evidencias empíricas no
pueden ser obtenidas ·y repetidas en ningún laboratorio económico controlando
las condiciones de partida.
Ante esta situación, la utilización del método estadístico como método de
investigación en las ciencias sociales, no sólo es aconsejable sino que se hace
imprescindible. La posibilidad de disponer de instrumentos objetivables para la
verificación estadística de las hipótesis que sobre un determinado comporta-
miento económico se establezcan constituye la única salida racional al proceso
de investigación económica.
Cualquiera que sea, pues, el nivel en que se desarrolle una investigación
económica, se hace imprescindible el estudio y conocimiento de las principales
técnicas de la Estadística. El análisis formal de la economía sectorial, de los
problemas monetarios, de las finanzas públicas, de las políticas económicas que
puedan adoptarse, de la economía laboral, del comercio internacional, de la
economía empresarial, de la comercialización de productos, etc., requiere mé-
todos estadísticos. Es por ello por lo que parece necesario para todo economista
el estu<,lio de estas técnicas, incluso para el historiador económico, ya que cada
10 8 SECCIÓN 1. INTRODUCCIÓN

vez es más utilizada la metodología estadística en la investigación histórico-


económica.
El conjunto de técnicas estadísticas utilizables en economía es, en parte,
común a otras ciencias y, en parte, específico, ya que se han desarrollado mé-
todos propios para el tratamiento de problemas específicos de la estadística
económica. Dentro de este segundo apartado pueden citarse los análisis sobre
concentración de la renta, el estudio de los números índices, buena parte del
desarrollo estadístico de las series temporales, los modelos de contabilidad na-
cional y las tablas input-output de relaciones intersectoriales, los indicadores y
modelos regionales, el tratamiento del problema de la agregación y desagrega-
ción económica, las técnicas demográficas, etc.
La estadística económica suministra métodos que permiten el análisis de he-
chos económicos, poniendo de manifiesto sus características más relevantes y
fijando incluso las limitaciones, condiciones y alcance de las conclusiones que
de dicho análisis estadístico puedan extraerse.
CAPÍTULO 2

Distribuciones
de frecuencias

El investigador social intenta captar de la amplia realidad que le circunda una


serie de fenómenos. Dichos fenómenos pueden dar lugar a observaciones de
tipo cuantitativo o cualitativo.
Los fenómenos de naturaleza cuantitativa son aquéllos cuyas observaciones
vienen expresadas en forma cuantitativa: una concreción del fenómeno estatura
de un individuo es, por ejemplo, 1,74 metros.
Los fenómenos de naturaleza cualitativa o categórica son, por consiguiente,
aquéllos cuyas observaciones no tienen carácter numérico. Así, la concreción
sobre el estado civil, sexo, o profesión constituyen ejemplos puntuales de di-
chos fenómenos.
En definitiva, por ahora, tenemos al investigador con una información que
ha obtenido de la realidad, y que intenta analizar. Para ello, o bien tendrá que
crear un lenguaje nuevo, o bien necesitará utilizar un modelo con un lenguaje
ya conocido. El investigador social opta por aplicar un modelo matemático.

13
14 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Así , en el modelo matemático existe el concepto variable y el concepto de


valor o dato. Para emplear el modelo matemático hacemos corresponder la idea
de fenómeno al concepto de variable, y la concreción del fenómeno, al con-
cepto de dato. Cuando el fenómeno es de naturaleza cualitativa la idea de atri-
buto sustituye a la de variable.
Al observar las diferentes variables o atributos se obtiene un conjunto, nu-
mérico o no, denominado conjunto de datos. El dato estadístico puede ser uni-
dimensional si corresponde a una sola variable (o atributo) o multidimensional
si corresponde a varias variables (o atributos).
Los resultados obtenidos al medir u observar variables se denominan valo-
res y los correspondientes a atributos, modalidades.

2.1.1. VARIABLE DISCRETA Y VARIABLE CONTINUA

Dentro de las variables existen dos tipos: discretas y continuas.


• Variable discreta. Se defme como aquella variable que, entre dos valores
próximos, puede tomar a lo sumo un número fmito de valores. Por ejemplo:
número de hijos de una familia, número de obreros de una fábrica, etc.
• Variable continua. Es aquélla que puede tomar los infinitos valores de un
intervalo. Ejemplos: el•peso, la estatura ... , ya que, entre cada dos valores,
puede tomar los infinitos intermedios que existen entre ambos.
La distinción que acabamos de hacer es más teórica que práctica, puesto
que la limitación de los aparatos de medida hace que todas las variables, prácti-
camente, se comporten como discretas cuando se pretende observarlas.
Por otra parte, y haciendo extensiva la noción de vartable estadística conti-
nua, una magnitud que pueda tomar un gran número de valores y muy próxi-
mos -aunque sean valores aislados- será considerada como una variable con-
tinua. Así ocurre con magnitudes monetarias como el salario mensual de un
obrero, el beneficio anual de una empresa, y otras.
No obstante, no hay que olvidar la naturaleza discreta o continua de la va-
riable, ya que en los modelos teóricos de la Estadística dicha distinción tiene
gran importancia.
Dado que la variable es un símbolo matemático que representa a un con-
junto de valores, establecemos que si este conjunto toma un número infinito de
valores, la variable se representa por el símbolo X, Y, Z, ... Si, por el contrario,
tenemos un conjunto finito representaremos la variable por X1 , Y¡ , Z1 , .•.
DISTRIBUCIONES DE FRECUENCIAS • 15

2.2 Distribuciones
de frecuencias
2.2.1. FRECUENCIA ABSOLUTA Y RELATIVA

Consideremos, para la descripción de las mismas, la tabla siguiente donde se


recogen las rentas percibidas por 20 personas.
O Frecuencia absoluta o repetición. Es el número de veces que se repite cada
valor o dato de la variable.
En general, se representa por n¡. En nuestro ejemplo, n5 = 5, es decir, el
valor x5 , que es 973 euros, se repite 5 veces.

O Frecuencia relativa. Es igual a la frecuencia absoluta dividida por el núme-


ro total de datos . Se representa por /¡ .

Si N es el número total de datos

/¡ = n¡ .
N
Por ejemplo, en nuestra tabla estadística,

f.5 = n5 = 2._ = O25 = 25%


N 20 ' '
es decir, que la frecuencia relativa también puede interpretarse como una
participación porcentual.
,., . . .. _): ".;;.;t
Free. relativa ,-, . Free. .'
..·

Renta (euros) ' Free. ftbsolllta Qbs. acum. Free. rel. acum.

,•
11¡ f¡ 1' N¡ F¡
"'· .:&
901 > 1 1/20 1 1/20
931 3 3/20 4 4/20
949 2 - 2/20 6 6120
961 3 3/20 9 9120
973 5 5120 14 14120
991 1 1120 15 15/20
1 081 1 1120 16 16/20
1 117 2 2/20 18 18/20
1 202 1 1/20 19 19/20
1 232 1 1/20 20 =N 20/20 = 1

N= 20 1 - -
16 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARJABLE

2.2.2. FRECUENCIAS ACUMULADAS

D Frecuencia absoluta acumulada. Nos dice el número de datos que hay


igual al considerado e inferiores a él. Su símbolo es N¡ .

Así, por ejemplo, N 1 = 16, nos dice que valores iguales o inferiores a
x7 = 1.081 hay 16.
D Frecuencia relativa acumulada. Es el resultado de dividir cada frecuencia
acumulada por el número total de datos. Se designa por F; .
En nuestro ejemplo,

F
7
= N? =~.
N 20
Es evidente que:
(a) La suma de todas las frecuencias relativas· es igual a la unidad. En efec-
to:
n n n n n +n +···+n N
LJ;=.:..:l.+-...1..+···+__1!_= 1 2 n=-=1.
i=t N N N N N

(b) La última frecuencia relativa acumulada es la unidad:

Nt =ni
N2 = ni+ n2
N3 = 11.¡ + ~ + n3

Por tanto

2.2.3. DISTRIBUCIÓN DE FRECUENCIAS DE UNA SOLA


VARIABLE

Llamaremos distribución de frecuencias al conjunto de valores que ha tomado


una variable con sus frecuencias correspondientes. Para que quede determinada
DISTRIBUCIONES DE FRECUENCIAS • 17

una distribución de frecuencias debemos conocer los diferentes valores de x; y


cualquiera de las columnas de frecuencias, ya que el paso de una a otra es in-
mediato. Como normalmente la primera columna que obtenemos es la de las
n; , representaremos una distribución de frecuencias como los diferentes valores

que, en cada caso, toma eLpar (x;; n;) .

Para que dos distribuciones de frecuencias sean iguales han de ser iguales
los diferentes X; y sus frecuencias relativas f; .

2.2.4. RECORRIDO, INTERVALOS Y MARCAS DE CLASE

Vamos a distinguir, por otra parte, dos tipos fundamentales de distribuciones de


frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos.
Una vez recogida y tabulada la información, ésta se dispone asociando a ca-
da valor su frecuencia . En este caso, tendremos una distribución no agrupada
en intervalos. Si las frecuencias son todas iguales a 1, la distribución se deno-
mina de frecuencias unitarias.
Pero si el número de valores distintos que ha tomado la variable es sufi-
cientemente grande parece aconsejable, para mayor comodidad en el trata-
miento de la información, agrupar estos valores en clases o intervalos, tenien-
do en cuenta que lo que ganamos en manejabilidad lo perdemos en informa-
ción.
En la agrupación hay tres aspectos que debemos contemplar: primero, que
el máximo de información lo tenemos al recogerla, disminuyendo al realizar la
operación de agrupación por intervalos. Segundo, que en las distribuciones
agrupadas en intervalos, estos intervalos no se «presentan>> realmente así, sino
que es el investigador el que los crea para manejar los datos más fácilmente.
Tercero, que al agrupar hay que tener en cuenta las frecuencias.
En general, representaremos una distribución de frecuencias agrupada en
intervalos por el par (L.,_ 1 - L.;
l
n.)
l
, donde L l es el extremo superior del inter-
valo y LH su extremo inferior.
Para agrupar los datos en intervalos o clases, debemos comenzar determi-
nando el recorrido de la variable, que se define como la diferencia entre el
mayor y el menor valor de la variable. Es decir,

1Re = m¡..xx; - mlnx;


18 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Este recorrido se divide entonces en intervalos.


Si denominamos amplitud de un intervalo a la diferencia entre los extremos
superior e inferior del mismo, o sea,

1 e,. = L,. - L,-_ 1 1


los intervalos pueden ser de amplitud (o longitud) constante o variable. (Para el
mejor tratamiento de la información, es más cómodo que sean de amplitud
constante). Si la amplitud es constante se verificará que
Re = N° de intervalos · e,.

Esta relación nos permite deducir el número de intervalos si fijamos la ampli-


tud, o esta última si fijamos el número de intervalos.
En la fijación del número de intervalos no existen reglas fijas (suelen oscilar
entre 5 y 15), hasta el punto de que a veces se hacen varios ensayos. Un inter-
valo queda especificado por sus extremos; en general, para el intervalo í-ésimo
se representará por L,._ 1 - L,. .

Aparece un problema cuando un valor de la variable coincide exactamente


con un extremo de intervalo, con lo que hay dudas sobre su inclusión o no en
un determinado intervalo. Por esto se establece, como regla general, que los
intervalos son abiertos por la izquierda y cerrados por la derecha, es decir, del
tipo (a, b], lo que quiere decir que el intervalo se compone de todos los puntos
comprendidos entre a y b , incluido by excluido a.
Por último cabe señalar que, como representante de cada intervalo o clase,
elegimos su punto medio al cual denominamos marca de clase (x,.) . Así, en el
intervalo í-ésimo la marca de clase será

¡2~3-· ·. {iepresentaciones gráficas

Aunque el par de columnas (x,. ; n,.) encierra toda la información disponible,


parece útil traducirla en gráficos, de modo que la referencia visual sirva de
punto de partida para el análisis estadístico.
DISTRIBUCIONES DE FRECUENCIAS • 19

Como habíamos dicho, las distribuciones de frecuencias pueden ser de datos


sin agrupar y de datos agrupados, presentando estas últimas la particularidad de
que los valores de la variable no aparecen individualizados, sino agrupados en
intervalos. En general, como ya advertimos anteriormente, consideraremos los
intervalos abiertos por la izquierda y cerrados por la derecha.

2.3 . 1. TIPOS DE GRÁFICOS

A) Para fenómenos cualitativos:


l. Diagramas sectoriales.
2. Cartogramas.
3. Pictogramas.
B) Para fenómenos cuantitativos:
l. Diagrama de barras para distribuciones no agrupadas.
2. Histograma de frecuencias para distribuciones agrupadas en intervalos.
A) Comenzando por la representación de caracteres cualitativos, destaca-
mos, en primer lugar, los diagramas de sector o de pastel, así como también
los diagramas de rectángulos. El principio de este tipo de representación es el
de la proporcionalidad de las áreas de los gráficos a las frecuencias absolutas.
Por ejemplo, sea el conjunto de datos sobre la distribución de los extranje-
ros que viven en España, según su zona de procedencia (Fíg. 2.1).

África del
Norte

FIGURA 2. 1. Diagrama de sector o de pastel

En este sistema de representación los sectores circulares tienen un ángulo


central proporcional a la frecuencia absoluta correspondiente y, por consi-
guiente, un área proporcional a la frecuencia absoluta.
20- • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Los diagramas de rectángulos tienen una base constante y una altura pro-
porcional a la frecuencia absoluta correspondiente (Fig. 2.2) . Su superficie es
proporcional a la frecuencia absoluta.

500 000 -
B 400 000 -

E
< -
"'
"'
-¡:;
300 000 ..
..,
e
1 ~
F -,_
::>
u
e 200 000 - -·
¡,¡.
r.
lOO 000 -
,,
Países del
01 1 '1
,_

Otros países Países de Países Resto


Mercado Común europeos África del None del mundo

FIGURA 2.2. Diagrama de rectángulos

También como método de representación de las distribuciones de carácter


cualitativo, podemos hablar del pictograma. Si se quiere representar de manera
pictórica un carácter cualitativo, se puede indicar por una silueta sugestiva el
significado de cada unidad de carácter.
Se pueden utilizar los gráficos de sectores para comparar, por ejemplo, ca-
tegorías de población de diversas áreas geográficas. De este modo, represen-
tando en un mapa dividido en regiones o áreas geográficas los diferentes círcu-
los subdivididos según los valores que en cada una de ellas toman las diversas
categorías de población, se consigue en una sola representación gráfica introdu-
cir un gran volumen de información que permite obtener una buena imagen del
conjunto. Esto es lo que se ha hecho en la figura 2.3 (véase página siguiente),
en la cual se ha representado sobre cada región española un gráfico circular,
subdividido cada uno de ellos en cuatro segmentos que representan los corres-
pondientes porcentajes de población activa agraria, diferenciada en cuatro cla-
ses o estratos sociales: clase alta, clase media-alta, clase media-media y clase
media-baja y clase obrera.
Obsérvese que este tipo de gráfico nos proporciona una amplia información
al permitirnos comparaciones interregionales.
21

Clase Clase
Media-alta alta

Clase
~~~· Clase
Media-Media Obrera
y
Media-Baja

Fueme: Manuel .García Ferrando, «Estratificación social en el campo español>>. Revista de Estudios
Agrosoctales, 102, 1978, pág. 21.

FIGURA 2.3. Estratificación social agraria por regiones

B) En la representación gráfica de variables cuantitativas, cabe señalar que


aquí también se fija el principio general de la proporcionalidad para la obten-
ción de gráficos, en este caso de las alturas o áreas a las frecuencias absolutas.
En el éaso de datos sin agrupar la representación gráfica se realiza fácil-
mente mediante un sistema de ejes de coordenadas cartesianas, representando
en el eje de abscisas los valores de la variable y en el de ordenadas las frecuen-
cias. En general, se puede marcar el segmento correspondiente dando lugar a lo
que denominamos diagrama de barras. Las frecuencias acumuladas dan lugar
a un diagrama de escalera o escalonado. Se pueden hacer las representaciones
utilizando frecuencias absolutas o relativas indistintamente; en el caso de utili-
zar frecuencias relativas la suma de las longitudes de las barras es igual a 1, lo
que permite comparar gráficamente dos distribuciones de efectivos desiguales.
Supongamos una variable X, que presenta los siguientes valores

y las siguientes frecuencias


n, = 1 3

Podemos presentar entonces la siguiente tabla:


22 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

·' ·~'
X¡ ni Ni ·.!; ·Ft .

XI 0,1 0,1
x2 2 3 0,2 0,3
x3 4 0,1 0,4
x4 3 7 0,3 0,7
x5 3 10 0,3 1,0

Lo mismo que se comenta para frecuencias absolutas, se puede afirmar para


las relativas.
Para construir el diagrama de barras (Fig. 2.4) se llevan los valores de la
variable sobre el eje de abscisas, empleando una escala de medida cualquiera.
Y sobre cada valor de la variable se levanta un segmento igual a la frecuencia
absoluta, (o relativa, en su caso) empleando también una escala gráfica (que no
tiene por qué ser igual a la empleada en el eje de abscisas). Si sobre el eje de
ordenadas representásemos las frecuencias relativas obtendríamos el mismo
dibujo, pero con la diferencia de la escala de ordenadas, que diferiría.

FIGURA 2.4. Diagrama de barras

Si utilizásemos frecuencias absolutas acumuladas (igual con frecuencias re-


lativas acumuladas) utilizaríamos el diagrama de escalera (Fig. 2.5), el cual se
construye levantando sobre cada valor de la variable, representado de igual
forma que la explicada antes, una altura igual a su frecuencia acumulada, y
uniendo mediante trazos horizontales el extremo de cada ordenada con el si-
DISTRIBUCIONES DE FRECU ENCIAS • 23

guiente. La última ordenada será de magnitud N (número total de observacio-


nes) , y la ordenada correspondiente a un valor x¡ de la abscisa indicará el nú-
mero de observaciones para las cuales la variable ha tomado valores menores o
iguales a la abscisa. A partir de la última ordenada se suele prolongar con un
rrazo horizontal hacia la derecha, mientras que a partir del menor valor de la
variable se prolonga sobre el eje X, hacia la izquierda.

10

5 N= lO

il
N4
3

it
ir
2
2

:+N
lt l 11
X¡ ~ X) x4 Xs X¡

FIGURA 2.5. Diagrama de escale ra

En el caso de datos agrupados, la representación se efectúa mediante el his-


tograma o histograma de frecuencias. Se construye levantando sobre cada
intervalo un rectángulo de área proporcional a la frecuencia absoluta corres-
pondiente a dicho intervalo.
Si los intervalos son de amplitud constante, las alturas de los rectángulos se-
' que al ser las bases de los
rán iguales a las frecuencias absolutas respectivas, ya
rectángulos iguales las áreas dependerán sólo de las alturas.
Si las amplitudes de los intervalos son desiguales, las alturas de los rectán-
gulos deben calcularse dividiendo la frecuencia absoluta por la longitud del
24 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

intervalo. Si llamamos dl a la altura del intervalo i-ésimo, c.l a la longitud del


mismo y ni a las frecuencias correspondientes, di vendrá dada por:

y se conoce como densidad de frecuencia; por tanto, el área del rectángulo será
n.
S. = c. _j_ = n. .
l l c. l
l

Así pues, una distribución de este tipo aparecerá de la forma siguiente:

L¡_¡-L¡ 11¡ e:.¡- d¡ ..


"'
LO-Ll ~ C¡ di
Lt- L2 ~ c2 d2
L2- L3 n3 c3 d3
:
:
L¡ _1 -L; n.l c.l d.l
:

El área de cada intervalo vale exactamente su frecuencia absoluta, por lo


que la suma de todas las áreas será igual a la frecuencia total N.

-----------------...-----,

------------- .----

------------- --- ------ --- ---------,-----~

t
~ ............ L¡_¡

FIGURA 2.6. Histograma de frecuencias


DISTRIBUCIONES DE FRECUENCIAS • 25

Si trabajásemos con frecuencias absolutas acumuladas (lo mismo operaría-


mos para frecuencias relativas acumuladas), la representación gráfica se haría
mediante un polígono de frecuencias (véase figura 2.7).

Lo- l; fl¡ NJ

l;- L2 n2 N2

L2- L3 ~ N3

Li-1- Lí n¡ N.1

: --------------------------~-~ -~-~-~

~ .... ........ LH
1
FIGURA 2.7. Polígono de frecuencias

Para construirlo, se levanta en el extremo superior de cada intervalo una


ordenada igual a la frecuencia acumulada correspondiente, uniendo a continua-
ción dichas ordenadas. La primera ordenada se une al extremo inferior del pri-
mer intervalo, prolongando el polígono desde este punto hacia la izquierda so-
bre el eje xi , y prolongando también a partir de la ordenada del extremo supe-
rior del último intervalo, con una paralela al eje de abscisas: La ordenada co-
26 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

rrespondiente a cada valor de x; nos mide el número de observaciones para las


cuales la variable ha tomado valores menores o iguales a la abscisa.
La altura correspondiente al extremo superior del último intervalo será igual
a la frecuencia total N, si hemos empleado frecuencias absolutas acumuladas; y
será igual a 1, si hemos empleado frecuencias relativas acumuladas.
Como ejemplos podemos señalar el siguiente cuadro y el gráfico de la figu-
ra 2.8.
Evolución del déficit de las Administraciones Públicas

1977 ~ 1978 1980 ~


1983 .
1979 1981 1982
...,.,.
~. (*) .
.. .
Necesidad de financiación de las
AA.PP. en %del P.I.B. -0,5 -1,9 -1,7 -2,1 -3,3 -5,9 -6
(") Previsión.
Fuente: Papeles de Economía Española, núm. 18. 1984, págs. 385-386.

% s/PIB

10,0

9,0

8,0

7 ,0 -
6,0 - ,,
5,0 -
4,0 -
,.;
,:, ,¡:
3,0
·• ·"1·~
2,0 - '
1,0 - ..
't/'
.
0,0
1978
1 1
1979 1980 1981
,.
1982
'
1983
·~

FIGURA 2.8. Evolución del déficit de las AA.PP.


Fuerue: Contabilidad Nacional.
DISTRIBUCIONES DE FRECUENCIAS • 27

Los gráficos anteriores nos muestran, en términos de Contabilidad Nacio-


nal, la evolución del déficit para el conjunto de las Administraciones Públicas,
en el período 1977-83. Se puede observar que el déficit se acelera muy fuerte-
mente en los años posteriores al comienzo de la crisis (7 6-77), hasta alcanzar
un nivel muy próximo al 6% del PIB en 1982.
Otra práctica también muy utilizada es la de sustituir el histograma por un
polígono de frecuencias (Fig. 2.9), pero no acumuladas. Es el gráfico que se
forma al unir los puntos medios de cada intervalo (marca de clase), a una altura
proporcional a la frecuencia (intervalos iguales). La unión de tales puntos
constituye una línea quebrada rectilínea, que al prolongarla por los extremos
corta el eje x¡ . El área que queda por debajo del polígono de frecuencias es
igual al área contenida dentro del correspondiente histograma.
Si prolongamos BC mediante el trazado de los segmentos, AB, CD hasta los
puntos medios de la categoría inferior y superior inmediatos y que corresponde
a la clase de frecuencias cero, el polígono queda cerrado y su área es igual a la
de la suma de los rectángulos.

FIGURA 2.9. Polígono de frecuencias.

A veces presenta un gran interés efectuar este tipo de gráficos para varios
grupos y considerarlos cohjuntamente, comparándolos. Así se pueden observar
las áreas donde las distribuciones correspondientes coinciden o se separan.
Un ejemplo de esto se puede ver en un trabajo de M.S. Weitzman sobre las
distribuciones de los ingresos en las familias de población blanca y negra de los
Estados Unidos, reflejado en la figura 2.10.
28 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

%
14
12
Población
10 Población blanca
8
6
4
2
o
$1000 $2000 $5000 $50000
Ingresos

FIGURA 2.1 O. Polígonos de frecuencias porcentuales correspondientes a las


distribuciones de ingresos en familias de población blanca y negra en los EEUU.

En este ejemplo, que hemos tomado del análisis gráfico realizado por
Weitzman , se produce una coincidencia del 71% del área de ambos polígonos
de frecuencias. Una segregación completa, del 0%, vendría dada por una re-
presentación gráfica en la que no se produjeran coincidencias mientras que, una
integración completa, del 100%, se produciría si coincidieran ambas poligona-
les.

L
DISTRIBUCIONES DE FRECUENCIAS • 29

Ejercicios resueltos

EJERCICIO 1
Investigados los precios por habitación de 50 hoteles de una ciudad se han obtenido
los siguientes resultados:
700, 300, 500, 400, 500, 700, 400, 750, 800, 500
500, 750, 300, 700, 1000, 1500, 500, 750, uoo, 800
400, 500, 300, 500, 1000, 300, 400, 500, 700, 500
300, 400, 700, 400, 700, 500, 400, 700, 1000, 750
700, 800, 750, 700, 750, 800, 700, 700, 1200, 800
Determínese:
l. La distribución de los precios:
(a) agrupados en frecuencias
(b) agrupados en 5 intervalos de igual amplitud.
2. Represéntense gráficamente dichas distribuciones.

SOLUCIÓN
(a) En primer lugar hay que proceder a la ordenación de la información, haciendo
recuento de las veces que se repite cada precio. Habremos formado así la tabla es-
tadística de la distribución de precios agrupados por frecuencias .

..'
Precios (x¡) 300 400 500 700 750 800 1000 1200 1500 Total

N" de hoteles (n1) 5 7 10 11 6 5 3 2 1 N= 50

(b) Agruparnos ahora los valores de la variable en 5 intervalos de igual amplitud.


La frecuencia de cada intervalo se obtendrá teniendo en cuenta el número de ho-
teles que hay en cada intervalo.
30 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

250 - 500 22
500 - 750 17
750- 1000 8
1000- 1250 2
1250- 1500

N=50

2. Para representar la primera distribución utilizaremos el diagrama de barras:

11 ------ -----------
10 ----------

7
6
5 --

3
2

--------------1
300 400 500 700750 800 1000 1200 1500 X¡

FIGURA 2.11

En la distribución agrupada por intervalos utilizamos el histograma de frecuencias


siguiente:
l

DISTRIBUCIONES DE FRECUENCIAS • 31

25

20

15

10

250 500 750 1000 1250 1500

FIGURA 2.12
32 • SECCIÓN 2. ANALISIS ESTADÍSTICO DE UNA VARIABLE

APÉNDICE
Operadores Suma y Producto

El OPERADOR SUMA O SUMATORIO

Una variable es un símbolo matemático que representa a un conjunto· de valo-


res. Si este conjunto tiene un número infinito de valores, la variable se repre-
senta por el símbolo X. Si, por el contrario, tenemos un conjunto finito repre-
sentaremos la variable X; . De una variable obtenemos n observaciones

Se llama suma o sumatorio de x; para i desde 1 hasta na:


n
x1 + x1 + x3 + ·· · + X 11 = ¿ x; .
i=l

El operador L: representa, pues, una suma y goza, por lo tanto, de todas las
propiedades de ésta. No obstante, vamos a desarrollar algunas de ellas:
(a) La suma de una constante desde 1 hasta n es n veces la constante.
En efecto,
n
Lk =k+ k+ .. · +k= n·k.
i= 1

(b) La suma de una constante por una variable es igual a la constante por
la suma de la variable
n n
L kx¡ = kx 1 + k.x2 + · · · + kx11 = k (x1 + x 1 + · · · + X 11 ) = k LX¡.
i= 1 i =1
DISTRIBUCIONES DE FRECUENCIAS • 33

(e) La suma desde 1 hasta n de una suma de variables es la suma de las


sumas desde 1 hasta n de cada una de las variables

L" (x; +Y) = (x, + Y 1) + · ·· + (x, +Y,) =


i = 1

= (x, + x2 + ... + x,) + (y, + Yz + ... + Y,) = " LX; + L" Y; ·


i = 1 i = 1

EL OPERADOR PRODUCTO

El producto de los diferentes valores de x; para i desde 1 hasta n se representa


por el siguiente operador, llamado producto

rr"
i = 1
X¡ = X 1 · X2 · X3 · · · Xn .

El operador IT representa, pues, un producto y goza de las propiedades de


éste:
(a) El producto desde 1 hasta n de una constante es la constante elevada a n

rr n

i = 1
k = k . k . k ... k = k" .

(b) El producto de una constante por una variable es igual a la constante


elevada a n por el producto de la variable

rr
n

i = 1
kx¡ = kx1 · kx2 · · · kx, = k · k · · k · X1 · X 2 · • · Xn = k" rr
"

i = 1
X¡ .

(e) El logaritmo de un producto es la suma de los logaritmos de cada uno


de los valores

log nn

i = 1
X¡ = log(x1 · X2 ···X,) =
n
= log x1 + log x2 + · · · + log x, = L log x;
i = 1
CAPÍTULO 3

Medidas de posición

La tabla estadística nos ofrece toda la información disponible, pero el investi-


gador se encuentra, en numerosos casos, incapaz de interpretar toda esa extensa
información, por lo que intenta resumirla en una serie de expresiones. Hacia la
síntesis de esa información van dirigidas las expresiones o medidas que se con-
templan en este capítulo.
Toda síntesis de una distribución se considerará como operativa si:
(a) Intervienen en su determinación todos y cada uno de los valores de la
distribución.
(b) Es siempre calculable.
(e) Es única para cada distribución de frecuencias.

35
36 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE l.iNA VARIABLE

En este proceso de síntesis buscamos unos valores que nos fijen el compor-
tamiento global del fenómeno a partir de los datos individuales recogidos en la
información disponible.
En una primera etapa se intentará resumir las características básicas de la
información en algunos valores sintéticos que reciben tradicionalmente el nom-
bre de medidas de posición.
Las medidas de posición, como veremos, podrán ser promedios (o valores
medios) o no, así como de tendencia central o no.
Los promedios más importantes son la media aritmética, la media geométri-
ca y la media armónica.
También estudiaremos, como medidas de posición, la mediana, la moda y
los cuantiles.

3.2 Media aritmética

Se define como la suma de todos los valores de la distribución dividida por el


número total de datos.
Si el valor x; de la variable X se repite n; veces hay que considerar estas
repeticiones en la suma, es decir, si simbolizamos la media aritmética por x,
tendremos:

X = X/~ + x2n2 + .. . + xnnn =


N N
Como veremos posteriormente, la expresión matemática que representa la
media aritmética coincide con el momento de primer orden respecto al origen.

EJEMPLO
Sea la variable X que representa los pesos en kilogramos de 10 estudiantes y que pre-
senta los valores:
X¡ = {54, 59, 63, 64}

con las siguientes frecuencias


n¡ = {2, 3, 4, 1} .
MEDIDAS DE POSICIÓN • 37

Es decir

X. ni
1

54 2
59 3
63 4
64 1

10

La media aritmética vendría dada por:


54 . 2 + 59 . 3 + 63 . 4 + 64 . 1 108 + 177 + 252 + 64 = 601 = 601 k .
x= - - - - - -- - - -
10 10 ' g
10

Pero esto sólo es válido en el supuesto más sencillo en que los datos de la
variable estén sin agrupar . En el caso de que tuviésemos una distribución con
datos agrupados, los valores individuales de la variable serían desconocidos y,
por tanto, no podríamos hacer uso de la fórmula anterior. En este supuesto se
postula la hipótesis de que el punto medio del intervalo de clase (marca de cla-
se) representa adecuadamente el valor medio de dicha clase; y se aplica la fór-
mula original de la media simple para dichos valores.

EJEMPLO

- ~
n xn
; 1
X=~-
¡ o l N
30-40 3 35
40 - 50 2 45 x= 35 · 3 + 45 · 2 + 55 · 5 = 470 = 47
50-60 5 55 10 10
10

Otro tema al que hay que hacer referencia es el de la llamada media arit-
mética ponderada, que se produce cuando se otorga a cada valor de la variable
x, una ponderación o peso, distinto de la frecuencia o repetición. En este caso,
en el cálculo de la media aritmética tendríamos en cuenta dichas ponderaciones,
38 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

y la media se definiría como

:Lv}.)i
x = __,,'=·: : - - -
Lffi;
donde ro; son las ponderaciones respectivas.

EJEMPLO
Supongamos que un estudiante realizó tres exámenes en los que logró las puntuaciones
de 50, 80, 70; el primer examen lo hizo en media hora, el segundo en una hora y el
tercero en hora y media. Se les atribuye una ponderación de 1, 2 y 3, respectivamente.
Entonces,

50 1
80 2
70 3

Utilizando la expresión de la media aritmética ponderada, tendremos que

x = 50 · 1 + 80 · 2 + 70 · 3 = 420 = 70 .
1+2+3 6

Encontraremos varios ejemplos de medias ponderadas en los números índi-


ces. Hay que destacar que cuando se emplean ponderaciones proporcionales, la
suma de las mismas es la unidad, y esto nos evita la división por su suma.
También es posible encontrar casos de medias ponderadas para distribuciones
de datos agrupados operando en forma similar.

3.2.1. PROPIEDADES DE LA MEDIA ARITMÉTICA

[!] La suma de las desviaciones de los valores de la variable respe,cto a su


media es cero.
MEDIDAS DE POSICIÓN • 39

En efecto
n
n n n
¿x¡n¡
1
"(x.
L...J 1 - x)n.1 ¿x¡n¡ -x¿n¡ = N.:_¡=__.:=----- xN = NX- NX = O.
i = 1 i ~ 1 i ~ 1 N

por esta propiedad se dice que x es el centro de gravedad de la distribución.


[I] La media de las desviaciones al cuadrado de los valores de la variable
respecto a una constante k cualquiera, se hace mínima cuando esa constante k
es igual a la media aritmética. (Teorema de Konig).
En efecto, consideremos la expresión
n
D(k) = ¿n (x. -
i=1 1
k) 2 _¡_
N

que toma diferentes valores para una misma distribución de frecuencias, según
los distintos valores de k.
Si sumamos y restamos x, dentro del paréntesis, tenemos que:
n n
D(k) ::: ¿(X¡ - k) 2 _¡_ :::
i=1 N
n.
= ¿n (x. - k + x - x) 2 __.1_ =
i~I 1 N
n n
= L[(x.- x)- (k- x)f-L =
i=l 1 N
n. n. n.
= ¿n (x¡ - X)
2
__.1_ + (k - X)
2
¿n __.1_ - 2 (k - X) ¿n (x¡ - x) __.1_

i=I N i~lN i=I N


teniendo en cuenta la propiedad anterior el último sumando será nulo, por lo
que la expresión anterior, haciendo operaciones, se transforma en
n n
D (k) = L (X¡ - X)2 _¡_ + (k - X) 2 , [1]
i~1 N

en donde el valor de k que hace mínimo D(k) es x, es decir,


n. n.
mín D (k)
k
= mín
k
¿n (x. -
i=l 1
k)2 __.1_
N
= ¿n (x. -
i=1 1
X) 2 __.1_
N

ya que el segundo sumando de [1] (k - x) 2 toma su menor valor posible cuan-


do k= x.
40 • SECCIÓN 2. ANÁLISIS ESTAO[STICO DE UNA VARIABLE

!}] Si a todos los valores de una variable les sumamos una constante k, la
media aritmética queda aumentada también en esa constante. Es decir, la me-

1
n.)
1
--
dia aritmética queda afectada por los c_g.__mbios de..01:i.ge!!.
En efecto , sea la distribución de frecuencias (x.; ; su media es

n n.
x = ¿x.
i~l N 1
-L ·

Consideremos la nueva distribución (x,- + k; ni), resultado de haber efec-


tuado un cambio de origen, cuya media será
n n. n n. n.
¿ (x,- + k) = ¿ x,- ¿
/!
x' = _l_ _l_ +k _l_ =x + k .
i=l N i=l N ;~¡N

GJ Si todos los valores de una variable los multiplicamos por una constante
k, su media aritmética también queda multiplicada por la misma constante. Es
decir, la media aritmética queda afectada por los qambios de escala:..
~--
Sea la distribución (x,-; ni) con

~ n.
X= ¿X. _l_
;~¡ 1 N

y sea la nueva distribución que se obtiene al realizar un cambio de escala


(k · x.;
1
n.)
1
; la nueva media aritmética es ahora

n n. n n.
x" = ¿ kx. N
i =l 1
_l_ = k I x. N
;~ ¡ 1
_l_ = kX .

Como corolario de estas dos últimas propiedades consideramos la siguiente


transformación lineal z,- = ax,- + b , siendo a y b dos constantes cualesquiera.
La nueva distribución sería (ax,- + b; n,-) y por tanto, la nueva media aritmética
quedaría
n n n n n 11 n
z = L z. _¡_ = L (ax. + b) -L = I L _¡_
/!
ax. _¡_ +b =
;~¡ 1 N i=l 1 N i= l 'N N
i=l

n. n.
= a ¿n x . _l_ + b ¿n _l_ = ax + b .
i=l 1 N i=! N

[iJ Si de un conjunto de valores obtenemos dos o más conjuntos disjuntos, la


media aritmética de todo el conjunto se relaciona con todas las medias aritmé-
ticas de los diferentes subconjuntos disjuntos.
MEDIDAS DE POSICIÓ N • 41

Consideremos la siguiente distribución


-. ·~

X¡ ní-

XI ni

x2 n2
: : IN,
xh nh

.. ..... ... ····· ·· · ·· · ·· · · ···· NI + N2 = N

xh+l .,,,}
N1
X nn
n

- -
N

de donde se han formado dos subconjuntos, el primero de los cuales recoge los
h primeros valores, y el segundo, los restantes . Tenemos que
h n

h 11 ""
L...J x,,
.n ""
L.J x,.n,.
n n ¿ X¡n ¡ + ¿ X¡n¡ N I i =NI + N2 i = h+ l
"" ; ; = 1 ; = h+l 1 N2
X = ,L.; X. - = - - ----'----- - = - -----'--------=----- =
i=l 'N N N

siendo :X1 y :X2 las medias aritméticas de cada subconjunto.

3.2.2. VENTAJAS E INCONVENIENTES

Como ventajas podemos citar las tres que se le exigen a una medida de sínte-
sis, es decir,
l. Consideración de todos los valores de la distribución.
2. Ser calculable.
3. Ser única.
42 • SECCIÓN 2. ANÁLISIS ESTADfSTICO DE UNA VARIABLE

También se considera una ventaja la primera propiedad, que hace de la x el


centro de gravedad de la distribución, así como la derivada de la segunda pro-
piedad que decía

Sin embargo, tiene el inconveniente de que, a veces, puede dar lugar a


conclusiones no muy atinadas. Esto ocurre en el caso de que de la variable
presente valores anormalmente extremos que pueden distorsionar la media
aritmética, haciéndola incluso poco representativa. Como veremos posterior-
mente, este inconveniente no lo posee la mediana.
La media aritmética, como medida de posición, es la fórmula más adecuada
para el resumen estadístico en caso de distribuciones en escala de intervalos o
de proporción, con las cuales dicha medida alcanza su máximo sentido.

Media geométrica

Sea una distribución de frecuencias (x;; n;) . La media geométrica, que repre-
sentaremos por G, se define como la raíz N-ésima del producto de los N valores
de la distribución.
Así:

W
n n.
X.1 ' =
i = 1

3.3.1. PROPIEDAD

La propiedad fundamental es que el logaritmo de la media geométrica es igual


a la media aritmética de los logaritmos de los valores de la variable.
MEDIDAS DE POSICIÓN • 43

En efecto

log G ~ Iog ~ fr x;' ~ _!:_


N
i=l
Iog [ IT x;;] = __!_ f
i=l N i= l
log x;; =

EJEM PLO
Sea una clase de 22 niños, en los cuales la talla se reparte del modo siguiente:

Talla wn e~ 100 120 125 140


Frecuencia 10 5 4 3

Para el cálculo de la media geométrica, se suelen aplicar logaritmos, de manera que


1
log G = - [10 loglOO + 5 log120 + 4 log125 + 3 log140] =
22

= -145,22193 = 2, 05554
22
G = antilog2,05554 = 113,6 cm.

3. 3.2. VENTAJAS E INCONVENIENTES

Como ventajas cabe señalar:


l. En su determinación intervienen todos los valores de la distribución.
2. Es menos sensible que la media aritmética a los valores extremos.
Como inconvenientes, destaquemos:
l. Es de significado estadístico menos intuitivo que la media aritmética.
2. Su cómputo es más difícil.
3. En ocasiones no queda determinada. Cuando la variable toma al menos
un x; = O entonces G se anula. Si la variable toma valores negativos se
pueden presentar una gama de casos particulares en los que tampoco
queda determinada G.
44 • SECCIÓN 2. ANÁLISIS ESTADfSTICO DE UNA VARIABLE

El empleo más frecuente de la media geométrica es el de promediar por-


centajes, tasas, números índices, etc., es decir, en los casos en los que se supo-
ne que la variable presenta variaciones acumulativas.

EJEMPLO
Supongamos un capital colocado durante n años a unos tantos unitarios de interés anual
i1 , i2 ,
00 in . Si deseamos saber el tanto de interés medio del período, no debemos cal-
. ,

cular la media aritmética de los n tantos de interés anuales, pues nos daría un valor
erróneo. En efecto, sea e0 el capital inicial. Al final de cada año obtendremos los
montantes e l ' e 2, o, en siguientes:
00

el = eo (1 + ¡1)
e 2 = e 1(1 + i 2) = e 0 (1 + i1)(1 + i 2 )

El tanto medio i que estamos buscando tiene que ser el que cumpla la igualdad

con lo que igualando obtenemos

(1 + iY = (1 + i 1) (1 + i2 ) 00
• (1 + Ín)

(1 + i) = ~(1 + ~) (1 + i 2 ) 00
• (1 + in)

de donde el tanto i será

i = ~(1 + i 1 ) (1 + i2 ) ··· (1 + in) - 1

valor que se determina en función de la media geométrica de los rendimientos unitarios


de cada año y que difiere sensiblemente del que se obtiene al calcular la media aritméti-
ca de los tantos unitarios de interés anual.
MEDIDAS DE POSICIÓN • 45

Media armónica
La media armónica, H, de una distribución de frecuencias (x¡; n) se define como

N N
=---
H = 1 1 1 n 1
-X n1 + -n
X 2
+ ··· +-n
X n
'L - n¡
1 2 n i = 1 X¡

Nótese que la inversa de la media armónica es la media aritmética de los in-


versos de los valores de la variable.

3.4.1. VENTAJAS E INCONVENIENTES


Como ventajas, mencionaremos la intervención en su cálculo de todos los va-
lores de la distribución y que, en ciertos casos, es más representativa que la
media aritmética. Por otra parte, siempre se puede pasar de una media armóni-
ca a una media aritmética transformando adecuadamente los datos.
Como inconvenientes, hay que citar la influencia de los valores pequeños ,
y su no determinación en las distribuciones con algunos valores iguales a cero;
por ello no es aconsejable su empleo en distribuciones en que existan valores
muy pequeños.
Se suele utilizar para promediar velocidades, tiempos, rendimientos, etc. En
general, para promediar todo aquello cuyas unidades vengan expresadas como
el cociente de dos magnitudes simples.

EJEMPLO
Supongamos un móvil que efectúa un recorrido de 100 km, en dos sentidos. En un
sentido va a una velocidad constante vi = 60 km/h y, en el otro, a una velocidad tam-
bién constante v2 = 70 kmlh y, por tanto, diferente de la anterior.

Si quisiéramos conocer la velocidad del recorrido total debemos calcular la media


armónica, y vendrá dada por
espacio 2s
V = -- - = --
tiempo t1 + t 2
Pero
S 100 km
ti=-=
vi 60 km/h
S 100 km
t = - = - --
2 v2 70 km/h
46 • SECCIÓN 2 . ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Sustituyendo
2s 200km
V=---
100 km 100 km
60 kmlh 70 km/h
2km 2
l
1
kmlh = 64,62 km/h ==H .
- +-
60 70
obteniéndose que la velocidad media es la media armónica de las velocidades de cada
recorrido.

3.4.2. RELACIÓN ·ENTRE ESTOS TRES PROMEDIOS

Se puede demostrar que para una misma distribución de frecuencias (x¡; n) se


verifica que:

cuando estas medias existen.


Vamos a ver esta demostración para el caso de una distribución con dos
valores x 1, x 2 , con frecuencia unitaria

G = ~x1 x2 ;

Comenzamos demostrando H ::; G :

~;
2
--:1;-------:1;--- ::;
-+-
X¡ x2

2x1x 2 ::; ~x1 x2 (x1 + x2 )


2
4x1 x~ ::; x1x 2 (x1 + x 2 )
2

4x1x 2 ::; (x1 + x 2 ) 2

4x1x 2 ::; x~ + x~ + 2x 1x 2

O ::; x~ + x~ - 2x1x 2
MEDIDAS DE POSICIÓN • 47

y siempre

con lo que H $ G.

Por otra parte si G $ x

con lo que

que es el mismo resultado que en el caso anterior.


Luego, por tanto,

Dado que la definición de mediana puede entrañar múltiples dificultades, vamos


a tratar de dar una definición operativa diciendo que es:
a • Aquel valor de la distribución, supuesta ésta ordenada de menor a mayor,
que deja a su- izquierda -y a su derecha el mismo número de frecuencias, es
decir, el valor que ocupa el lugar central, supuesto un número impar de datos.
Si el número de datos fuese par puede decirse que hay dos valores medianos, y
se toma la media aritmética entre ellos como valor mediano.
b • También se podría definir como aquel valor de la distribución cuya fre-
cuencia acumulada es N/2.
Por ejemplo, sea la serie
X¡ = {1, 2, 5, 7, 9, 10, 13, 14};
la mediana sería
7+9
Me= - - = 8.
2
48 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Si la serie estadística presentase diferentes frecuencias , el método de cálculo


más cómodo y práctico sería:

X¡ n¡ N.1

1 3 3
2 4 7
5 9 16
7 10 26
lO 7 33
13 2 35

35

donde

N = 35 = 17 5
2 2 ,

y el centro será el que ocupe el lugar décimo-octavo, con lo que la mediana


será
Me= 7
puesto que x; = 7 es el valor de la variable que ocupa el lugar décimo-octavo,
al ser su frecuencia acumulada 26, ya que los valores que ocupan los lugares
del 17 al 26 son 7.
Si el número de términos fuese par, la mediana sería, como en el caso ante-
rior, la media aritmética de los dos términos centrales.
No obstante, hay que observar que para estos diferentes casos particulares
(número impar de datos, número par de datos, distribuciones de frecuencias
unitarias) podrían establecerse otros criterios diferentes.
e • En distribuciones agrupadas en intervalos:
No es necesario distinguir si los intervalos se han construido de la misma o
distinta amplitud.
Si seguimos el método general de búsqueda del valor que ocupa el lugar
N /2 ; en este caso nos encontramos con un intervalo mediano en lugar de un
valor mediano.
Con objeto de fijar la mediana en un valor, seleccionaremos un represen-
tante del intervalo mediano al que llamaremos mediana. El criterio usualmente
seguido es el que a continuación exponemos:
MEDIDAS DE POSICIÓN • 49

Suponemos, en primer lugar, que todos los valores comprendidos dentro del
mtervalo mediano se encuentran distribuidos uniformemente a lo largo de éL A
continuación, vamos a considerar la poligonal de frecuencias acumuladas co-
rrespondiente al intervalo mediano y a sus dos contiguos, y determinamos grá-
ficamente la mediana (Fig. 3.1).

N
1
2 1
1
1
1
.-------r-::;¡¡¡jfC·- ------~- C'
e: 1

1'1¡

FIGURA 3.1

Vemos que
Me= L¡_ 1 +m.

Determinaremos m conforme a la hipótesis fijada que nos permite escribir:

AC BC
===
AC' B'C'
6. 6.
ya que ABC =AB' C' .
50 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Pero
AC =m

AC' =c.l
- N
BC =--N.
2 t-1

B'C' = N.1
- N1-
.1 = n.
l

Por tanto ,
N
m -2 -Ni-1
c¡ ni

Es decir,

con lo que

N_N
2 i-1
Me= L.1-1 + n. c.1
1

EJEMPLO
Sea la siguiente distribución de salarios

Salario anual NO de obreros


..
N° de obreros acumul. ·
.

600-700 100 100


700-900 150 250
900 - 931 200 450
931 - 960 180 630
960- 990 41 671

671

N = 671 = 335 5
2 2 '
MEDIDAS DE POSICIÓN • 51

indica que el salario anual mediano está comprendido en el tercer intervalo. La ampli-
IUd de este intervalo es C; = 31 .

Me = 900 + 335,5- 250 . 31


200
Me = 900 + 0,4275 · 31 ~ Me = 913,25

3.5.1. PROPIEDAD

Lll mediana hace mínima la suma de todas las desviaciones absolutas.


Es decir, si representarnos la mediana por Me, tenernos que
n n
m}n I 1 x; - k 1 n; =I 1 x; - Me 1 n;
i = 1 i = 1

decir, cuando la constante respecto a la cual se toman las desviaciones, k, es


ípal a la mediana Me.
En efecto, transformarnos la distribución en otra de frecuencias unitarias,
que

k> Me. ·
Por definición de Me tendremos igual número de valores iguales o infería-
que iguales o superiores. Supongamos que hay m - 1 en cada lado; ten-
•m<>s que:
m-1 a-1 n
X; - k1 = ~)k - x¡) + I (k - x¡) + I (x; - k) [1]
i= l i=m i=a

m-1 a-1 n
x, - MeJ = L (Me- x¡) + L(X;- Me)+ I <x;- Me) [2]
i=l i=m i=a

n m-1
xí -k 1- L 1x; -Me j = :¿ (k- Me ) +
i =1 i = 1
[3]
a- 1 n
+ I (k + Me - 2x¡) + L (Me - k)
i = m i =a
52 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

a-1
Sumando y restando L, (k- Me) en [3]:
i=m

n n m-1 a-1 · a-1


L,lx;-
i~1
kl- L,lx;- Mel =
;~1
'L,(k- Me)+ 'L,(k- Me)+ 'L,(k +Me- 2x¡)-
i~1 i=m i =m
a-1 n
- L, (k - Me) + L, (Me - k)
i=m i~a

a-1 a-1
+ L (k + Me - 2x¡) + ¿(k - Me) =
i=m i=m

a-1
= (m - l)(k - Me) - (m - l)(k - Me) + ¿ (2k - 2x,) =
i=m

a-1
= 2 ¿(k- x¡).
i=m

Es decir
n n a-1
L1
i~1
X¡ - k 1- L1
i ~ 1
X¡ - Me 1 = 2 L (k -
i~m
x¡) > 0

luego
n n
'Lix;- kl > 'Lix; - Mel
i~ 1 i=1

n
por tanto ¿1 X; - Me 1 es mínimo para cualquier k > Me . Análogamente se
i= 1

demostraría para k < Me .

3.5.2. USO ESPECÍFICO DE LA MEDIANA

La mediana tiene mayor sentido en casos de distribuciones en escala ordinal


(datos susceptibles de ser ordenados), de la cual es la medida más representati-
va por describir la tendencia central de la misma, ya que, en estos casos, no
tiene demasiado sentido la utilización de promedios.
MEDIDAS DE POSICIÓN • 53

La moda es el valor de la variable que más veces se repite y, en consecuencia,


una distribución de frecuencias, es el valor de la variable que viene afectada
J10f la máxima frecuencia de la distribución.

CÁLCULO DE LA MODA

Distinguimos entre distribuciones no agrupadas en intervalos y distribuciones


acrupadas en intervalos.
Distribuciones no agrupadas en intervalos
En este caso, la determinación de la moda Mo es inmediata. Se observa la co-
lmnna de las frecuencias absolutas y el valor de la distribución al que corres-
nde la mayor frecuencia será la moda. Así, si la mayor frecuencia es n4 ,
Mo = x 4 •

La moda, en este caso, corresponde a x 4 = 7 , como se desprende de la


51II1ple observación de la tabla anterior.
Aquí nos ha resultado muy sencilla su determinación, porque aparece una
sola moda, en sentido absoluto, pero no siempre es así; a veces aparecen distri-
buciones con más de una moda (bimodales, trimodales, etc.), e incluso una
di..®bución de frecuencias que presente una moda absoluta y una relativa.
Un ejemplo de única moda en sentido absoluto es el que a continuación
mostramos en la figura 3.2.
54 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIA BLE

FIGURA 3.2

Ejemplos de los otros dos casos están representados en las figuras 3.3 y 3.4:

Moda Moda
rela1iva absolma

FIGURA 3.3 FIGURA 3 .4

[[] Distribuciones agrupadas en intervalos


Diferenciemos dos casos:
B .l. Intervalos de la misma amplitud
En este caso, una vez determinada la mayor frecuencia observamos que a ésta
no le corresponde un valor sino un intervalo, luego realmente no tendremos un
valor modal sino un intervalo modal.
Ahora bien, de entre todos los valores comprendidos en el intervalo modal
vamos a seleccionar uno que desempeñe el papel de valor modal. Para esto,
podemos utilizar diferentes criterios, entre los cuales citamos los cuatro si-
guientes:
MEDIDAS DE POSICIÓN • 55

Tomar como valor modal el extremo inferior del intervalo, es decir:


Mo = L¡_ 1

Considerar como moda el extremo superior, Mo = L; .

Hacer la moda igual a la marca de clase, Mo = x¡ .

O bien, suponiendo que:


l . Todos los vaiores del intervalo están distribuidos uniformemente dentro
de él.
2. La moda estará más cerca de aquel intervalo contiguo cuya frecuencia
sea mayor.
Es decir, observando la figura 3. 5, en donde se ha considerado el
intervalo modal y sus dos contiguos, deducimos que la moda estará más
cerca del intervalo posterior ya que, al ser su frecuencia mayor que la
del contiguo, la fuerza de atracción hacia sí que ejerce sobre la moda
será mayor. Lo anterior se puede resumir diciendo que las distancias de
la moda Mo a los intervalos contiguos son inversamente proporcionales
a las frecuencias de dichos intervalos.

n.
1

---
n.
1 ni +!

---- ni-1

,.__!!}_~

L.1-2 L.r- 1 Mo L. L.1+1 x.

FIGURA 3 .5
56 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Pues bien, de acuerdo a l. y 2. , la moda será,


Mo = L¡_ 1 +m

Pero

m = ni+J
e¡- m n¡_ 1

que, teniendo en cuenta las propiedades de las proporciones, queda


m

de donde

Por tanto

EJEMPLO

L1_ 1 - L¡ n¡ C¡

o- 25 20 25
25- 50 40 25
50- 75 100 25--?
75- 100 60 25

220

Aplicando la fórmula

~.¡ 60
Mo = L1_ 1 + -~-'--- · c. = 50 + · 25 = 50 + 15 = 65 .
n¡_ 1 + ni+t ' 40 + 60
MEDIDAS DE POSICIÓN • 57

vamos a dar un tratamiento similar al del caso anterior, con la diferencia de


p para determinar el intervalo modal no es significativa la mayor frecuencia.
En efecto, si recurrimos a la definición que hemos dado como moda (valor
.-s abundante, o en su defecto, intervalo más abundante), al ser ahora los in-
a:r.alos diferentes la frecuencia absoluta no nos dirá nada sobre la abundancia
\alores en cada intervalo, ya que podría ocurrir que el intervalo al que co-
ndiese la mayor frecuencia fuera muy amplio y entonces, relativamente,
llera más denso otro intervalo con menor frecuencia que el anterior pero tam-
con menor amplitud.
Vemos, pues, que ahora las frecuencias no son significativas para resolver
problema.
Recordemos las densidades de frecuencia nos marcan qué intervalos son re-
•~'·ameme más abundantes en observaciones. Se obtenían dividiendo las fre-
•r:nc:tas absolutas por los recorridos o amplitudes de sus correspondientes in-
' es decir
n.
d.=.....!.....
l c.l

Realmente, las densidades de frecuencias nos dan el número de valores que


en cada unidad de intervalo para cada intervalo. La· mayor densidad de
ahora sí, nos determina el intervalo modal.
('na vez determinado el intervalo modal, y siempre en la línea de operar
\alores y no con intervalos, podemos aplicar cualquiera de los cuatro crite-
expuestos en el caso anterior. De ellos, hemos seleccionado, como más
_ICJVI.Jo<LlJ'" "' el cuarto. Entonces

Obsérvese que cuando los intervalos son desiguales operamos con densida-
de frecuencias; es por esto por lo que en la fórmula anterior aparecen los
no los n¡ . Por otro lado, la deducción, en este caso, de dicha fórmula es
~-.u.o<U al caso anterior, con la diferencia, repetimos, de que ahora se conside-
densidades de frecuencias.
58 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

EJEMPLO
Añadiendo a la tabla de frecuencias ya conocida una columna adicional para d; .

50- 100 180


100- 150 40
150 - 200 20

400

d i-l 3,6
MO = L. 1 + · C¡ = 25 + · 25 = 25 + 20,5 = 45, 5 .
l- di - l + d i+ l 0, 8 + 3,6

Por último, cabe señalar que la moda es la medida más representativa en ca-
so de distribuciones en escala nominal. Esto es debido a que las distribuciones
de este tipo presentan los datos no susceptibles de ordenación, de tal forma que
para estas distribuciones no es posible realizar operaciones elementales con sus
observaciones.
Relacionar las medidas estudiadas (.X, Me, Mo) con los tipos de escalas es
algo muy importante , porque cada escala tiene su medida más apropiada.

3.7 Medidas de posición


no centrales
Pasamos ahora a analizar otros valores notables pero que no van a reflejar nin-
guna tendencia central: los cuantiles. Son valores de la distribución que la divi-
den en partes iguales, es decir, en intervalos, que comprenden el mismo núme-
ro de valores.
Entre los cuantiles podemos citar, por ser de uso más frecuente, los cuarti-
les, los deciles y los percentiles.
MEDIDAS DE POSICIÓN • 59

LOS CUARTILES

los tres valores que dividen ·1a distribución en cuatro partes iguales, es de-
en cuatro intervalos dentro de cada cual están incluidos el veinticinco por
de los valores de la distribución.

LOS DECILES

los nueve puntos que dividen la distribución en diez partes de forma que,
de cada una, están incluidos el diez por ciento de los valores.

LOS PERCENTILES

los noventa y nueve valores que dividen la distribución en cien partes.

Para distribuciones no agrupadas en intervalos


Cuartiles:
C1 es el valor que ocupa el lugar ~
2
C2 es el valor que ocupa el lugar ;

3
C3 es el valor que ocupa el lugar ;

Deciles:
D1 es el valor que ocupa el lugar !!..
lO
2N
D2 es el valor que ocupa el lugar lo

D9 es el valor que ocupa el lugar ~~

Percentiles:
P.1 es el valor que ocupa el lugar !:!_
100
2N
P2 es el valor que ocupa el lugar 100

~ 9 es el valor que ocupa el lugar 9


::
60 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Para determinarlos se calculan previamente las frecuencias acumuladas, y se


busca el valor que ocupe el lugar ~ N de la distribución.

B. Para distribuciones agrupadas en intervalos


El problema que se presenta es similar al que teníamos al calcular la mediana.
Para elegir el representante para un determinado cuartil seguiremos el criterio:

!_·N-N.
k 1-1
Qrfk = Li-1 + . C¡
n.1

en donde
para k = 4 y r = 1, 2, 3 , tendremos los cuartiles
para k = 10 y r = 1, 2, ... , 9 tendremos deciles
para k = 100 y r = 1, 2, ... , 99 tendremos percentiles

La fórmula anterior se obtiene de forma análoga a la desarrollada en la me-


diana.
Como último comentario, reseñaremos que en el conjunto de medidas de
posición (mediana, moda y cuantiles) no intervienen para su cálculo todos los
valores de la distribución, que era la primera condición que imponíamos a una
buena medida de síntesis.
MEDIDAS DE POSICIÓN • 61

<20 7 7
20-40 13 20
40-60 35 55
60- 80 30 85
>80 15 100

100

:\ledia aritmética.
:\lediana.
~loda.

_JC/ÓN
x: como la distribución es abierta por ambos extremos, y como no tenemos in-
formación complementaria, no es posible calcular las marcas de clase del primer y
del último intervalo. Por tanto, no se puede calcular L x¡n¡ y, en consecuencia,

tampoco :X .
. N
Me: Valor que ocupa el lugar 2 = 50. Como N2 = 20 y N3 = 55, el intervalo
mediano es (40-60), luego:
N
- -N
Me= L. + 2 50 20
1-1
i-1 . c.
1
= 40 + - . 20 = 5714.
ni 35 '

e Mo: al ser los intervalos de diferente amplitud, tendríamos que calcular las densi-
dades de frecuencia, pero esto no es posible porque no se conoce la amplitud del
primer y del último intervalo. Por tanto, la moda tampoco se puede calcular.
62 • SECCIÓN 2. ANÁIJSIS ESTADÍSTICO DE UNA VARIABLE

Nota: Cuando el intervalo mediano es el primero, se plantea el problema de que no


existe N;_1 y no se podría calcular Me. No obstante, se suele hacer el supuesto de que
al no existir intervalo anterior N¡_1 = O .

Ejercicio 2
La distribución de los salarios en 2003 en el sector turístico de un país es la que
figura en la tabla siguiente. Calcúlese:
(a) El salario medio por trabajador (marca de clase del último intervalo 200 000).
(b) El salario más frecuente.
(e) Un s:;tlario tal que la mitad de los restantes sea inferior a él.

!1.
Li-1-4 n¡ X¡ X; · n¡ Ni d.1 = ...L

< 15 000 2 145 7 500 16 087 500 2 145 0,143


15 000 - 20 000 1 520 17 500 26 600 000 3 665 0,304
20 000 - 25 000 840 22 500 18 900 000 4 505 0,1 68
25 000 - 30 000 955 27 500 26 262 500 5 460 0,191
30 000 - 35 000 1 110 32 500 36 075 000 6 570 0,222
35 000- 40 000 2 342 37 500 87 825 000 8 912 0,468
40 000 - 50 000 610 45 000 27 450 000 9 522 0,061
50 000 - 100 000 328 75 000 24 600 000 9 850 0,006
> 100 000 150 200 000 30 000 000 10 000 0,0007

10000 293 800 000

SOLUCIÓN
(a) El salario medio es la media aritmética:

.X = 2:X;n; = 293 800 000 = 29 380 .


N 10 000

(b) El salario más frecuente es el valor modal de la distribución. Como los intervalos son
desiguales hay que calcular la densidad de frecuencias y ver, así, cuál es el interva-
lo modal, el de mayor densidad. En este caso, es el que corresponde al intervalo
(35 000- 40 000). Para calcular el valor modal se aplica la fórmula correspondiente.

Mo = L. +
d l.+ l
· c.1 = 35 000 +
o' 061 5 000 =
1
¡ - di-1 + d i+ l 0,222 + 0,061
MEDIDAS DE POSICIÓN • 63

salario tal que la mitad de los restantes son inferiores a él, es el salario media-
Como

N= 5000
2 ,

unervalo mediano es (25 000 - 30 000), pues es el que contiene esa frecuencia
iiOIUJD)ada.

Aplicando la fórmula calcularíamos la mediana:

N _N
W: L 2 i -1 . c. = 25 000 + 5 000 - 4 505 . 5 000 =
• e = i- 1 + n. ' 955
l

= 25 000 + 0,518 . 5 000 = 27 591,62.

3
empresas de importación han realizado, cada una de ellas, cuatro pagos en
a lo largo del año, siendo el cambio aplicado a cada operación así como la
!lllllllr:aci.ón trimestral en euros, las siguientes:

3,5
2,7
3,3
2,5

Caicúlese el tipo de cambio medio del dólar respecto al euro para cada una de las
. . empresas citadas.

-uCIÓN. Como vimos en la parte teórica, para promediar datos que vienen
apresados en términos relativos (€/$) hay que utilizar la media armónica (H).
64 • SECCIÓN 2. AN.ALISIS ESTADÍSTICO DE UNA VARIABLE

Empresa A:

H = L, euros = 270 + 330 + 126 + 240


A L,$ 270 + 330 + 126 '+ 240
0,98 0,99 1 1,05
966 _ _N_ _ = ~ = 1 002 €/$.
- - 270 + - - 330 + ~126 + - -240
1 1 1 "_!_ 963,41 '
LJ n;
0,98 0,99 1 1,05 X¡

Operando lógicamente hemos llegado a que el tipo de cambio medio es la media


armónica de los tipos de cambio de cada operación ponderados por el volumen de ptas
de cada operación; por eso le hemos llamado HA .

Análogamente se obtendría para la empresa B,

L,n; _ __ 3_,5_+_2_
, 7_+_3,_3_+_
2,_5_ _ _ = _1_2_ = 1, 001 €/$.
1 1 1 1 11•98
"-n.
L...Jx_ 1
- -3 5 + - - 2 7 + !3 3 + - - 2 5
0,98 ' 0,99 ' 1 ' 1,05 '
1

Ejercicio 4
Una cadena hotelera tiene cinco hoteles de diferente número de plazas cada uno de
ellos. En el año 2003, los ingresos totales y el rendimiento por habitación de cada
hotel son los siguientes:

1 200 000 100


2 360 000 90
3 250 000 50
4 240 000 80
5 180 000 120

Determínese el rendimiento medio por habitación para el total de los hoteles de la


cadena.

SOLUCIÓN. El rendimiento de cada hotel será igual a los ingresos del mismo,
partido por el número de habitaciones, es decir

R
1
= iL_
H donde H1 = !_;__
1 Rl
MEDIDAS DE POSICIÓN • 65

El rendimiento medio de la cadena es


R = Ingresos totales cadena
N° habitaciones cadena
JI + /2 + /3 + /4 + /5
R=
Ht + H2 + H3 + H4 + Hs

.-e será igual a


R = N 200 000 + 360 000 + 250 000 + 240 000 + 180 000
¿ _!_n. 200 000
- - - +
360 000 250 000
+ +
240 000 180 000
+---
X.
1
1 100 90 50 80 120
= 79,35 €/habitación.

ide con la media armónica ponderada de los rendimientos de cada hotel.

Ejercicio 5
t:a un determinado país la renta «per cápita>> ha sido en 1997 de 3 200 $. Se ha
lllimado que en los próximos ocho años se duplicará la renta <<per cápita».
Ddermínese:
Si la tasa de crecimiento de 1998 ha sido un 3% anual, ¿cuál será la renta
«per cápita» en ese período?
La tasa media anual acumulativa para poder alcanzar el objetivo de duplicar
esta renta.

,.... _JC/ÓN
La renta <<per cápita» de 1997 es de 3 200 $ y la tasa de crecimiento de 1998 es
del 3%, luego al final de ese período la renta será
Renta 98 = Renta 97 + Tasa crecim.98 x Renta 97 ==
= 3 200 + 0,03 + 3 200 =
= 3 200(1 + 0,03) =
= 3 200 X 1, 03 =
= 3 296$ .
66 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

(b) Dentro de ocho años (2005) se quiere que la renta «per cápita» sea el doble, es
decir,
Renta05 = 2 Renta97
La tasa media anual acumulativa r será tal que:

Renta05 = Renta97 (1 + r) 8
2 Renta97 = Renta 97 (1 + r) 8

2 . 3 200 = 3 200 (1 + d
r = Vi - 1 = 1,09 - 1 = 0,09 = 9% .

EJERCICIO 6
Disponemos de la información del número de turistas entrados en España durante
el mes de enero de los años 1990 y 1992, así como del gasto efectuado por los
turistas en dólares según su procedencia. La información es la siguiente:

;,
~~' -~~
1,•• •.. Año l99!J · Ar1v 1?92" _e<
Paises
i''i. Nil'iJe~turii'td;·_ ~
'•
aasto$ N° de turistas G~to$
Francia 300 37 500 350 45 000
Alemania 500 25 000 750 20 000
Inglaterra 450 14 000 500 16 000
Holanda 350 10000 350 12 500
Bélgica 400 6 500 400 7 500

Hállese la tasa media de crecimiento del gasto entre los dos años.

SOLUCIÓN. Primero debemos hallar el gasto medio de cada año:

Gasio N° de turistas
x 1n1
x:¡ . ll¡ "'
Año 1990:
300 37 500 11 250 000
500 25 000 12 500 000
450 14 000 6 300 000 L X¡fl¡ 36 150 000
350 10 000 3 500 000
xoo = -- =
N 93 000
400 6 500 2 600 000
= 388,7 $.
N= 93 000 36 150 000
MEDIDAS DE POSICIÓN • 67

Año 1992:
15 750 000
15 000 000
8 000 000 _ L x;n, 46 125 000
X =--=---
4 375 000 92 N 101 000
3 000 000
= 456,68$.
N=lOlOOO 46 125 000

La rasa de crecimiento anual r entre los gastos medios de 1990 y 1992 será tal que

x92 = x90 (1 + d ,

456 68
r=JE-1= • - 1 = 1,0839 - 1
388,70
= o' 0839 = 8,39%.
/ SECCIÓN 2. ANÁLISIS ESTADISTICO DE UNA VARIABLE
/
APÉNDICE
Momentos potenciales

MOMENTOS RESPECTO AL ORIGEN Y MOMENTOS


RESPECTO A LA MEDIA

Al considerar las diferentes características de una distribución haremos referen-


cia a unos valores específicos, deducidos de todos los valores de la distribución
y que, como se verá, serán base de alguna de las características de cada distri-
bución de frecuencia.
Estos valores específicos reciben el nombre de momentos.
Los momentos de una distribución son unos valores que la caracterizan, de
tal modo que dos distribuciones son iguales si tienen todos sus momentos igua-
les, y son tanto más parecidas cuanto mayor sea el número de momentos igua-
les que tengan.
Conviene advertir que existen dos tipos de momentos: los potenciales y los
factoriales. Nos referiremos únicamente a los momentos potenciales y, en ade-
lante, los denominaremos simplemente con el nombre de momentos.
El momento de orden r respecto a un origen arbitrario 0 1 se define
n
M =
r
Ln (x. -
i = 1 '
O )' _i_
t N

en donde
x; : diferentes valores de la variable
O, : origen arbitrario
n; : frecuencia absoluta de x;
N: número total de datos
r: orden del momento
MEDIDAS DE POSICIÓN • 69

dentro de los momentos potenciales cabe distinguir, a su vez, dos ti-


momentos respecto al origen y los momentos centrales o respecto a la

respecto al origen
llllal:mente, dichos momentos se representan por ar y se obtienen hacien-
. por tanto

ar

coincide con la media aritmética de la distribución

••liS respecto a la media aritmética o centrales


...o::!iieDita.n por mr y se obtienen al hacer o, ::: X ' por tanto,

n n.
m =
r
¿
i = 1
(x. -
1
xY -L
N

la media aritmética de la distribución.


70 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

m0 = ¿~ (x¡ ~ -
- x-)o -ni -- ¿ ni -_ -N -_ 1
i=l N i=lN N

m1 = ¿~ (X¡ -
-) -ni = ¿
X
~ X¡ -ni - -X ¿~ -ni = X- -
-N
X- = X- -
- = O
X
i=l N i=l N i=IN N

Conviene resaltar el significado del nombre que se emplea para designar estos
momentos. Obsérvese que los términos de la suma son de la forma (x.1 - .X)' n1. . Si
llamamos

el momento central de orden r de la distribución (x¡, n¡) será:

~ ,n. ~,n.
m = ¿ (x. - .X) _l_ = ¿ u. _l_
, i= l 1 N i=l 1 N

que es, por definición, el momento de orden r respecto al origen para la distribu-
ción (u¡; n¡) . Quiere decir esto que, conceptualmente, no existe diferencia entre los
momentos respecto al origen y respecto a la media. La única diferencia existente
entre ambos consiste en que mientras en los momentos respecto al origen se toma
como origen de medidas el cero de la escala correspondiente a la característica en
estudio, en los momentos centrales se hace una traslación del origen de medidas,
para situarlo precisamente en la media aritmética.
Podemos verlo gráficamente en la figura de la página siguiente.
MEDIDAS DE POSICIÓN • 71

o:1
XI
1
1

nuevo origen

FIGURA A.1

los momentos respecto a la media se pueden expresar en función de los


_,tnV•nt."'c: respecto al origen.

En efecto, sabemos por el binomio de Newton que

(a -b)' =(~)ar -(~) ar-tb+(;)ar-2b 2 --··+(-l)'(~)br =

= i=o(-l)h ( r)ar-hbh .
1! h

Por tanto:
72 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Casos particulares

Vamos a expresar ~ , m3 y m4 en función de los momentos respecto al ori-


gen.

= a3 - 3a2 · a 1 + 3a¡ - a¡ = a3 - 3a2 • a 1 + 2a13

m4 = I<x¡ - xf nN¡ =
i~l
I
h~O
(-l)h (~) ata4-h =

Todas estas expresiones serán muy útiles para el cálculo de las característi-
cas-resumen de cada distribución de frecuencias, como iremos comprobando en
los capítulos posteriores.
Por otra parte, en el capítulo 7 generalizaremos el estudio de los momentos
para el caso de distribuciones de frecuencias en donde se realicen observaciones
de dos o más características simultáneamente.
PÍTULO 4

.tsperston
.,

Medidas de dis

capítulo anterior definíamos una serie de medidas de tendencia central


_•etivo era sintetizar toda la información de que se disponía. Pues bien,
:apítulo vamos a ver hasta qué punto, para una determinada distribución
~·•ectleiJtcu·1s, estas medidas de tendencia central son representativas como
de toda la información.
Jkrlir la representatividad de estas medidas equivale a cuantificar la separa-
de los valores de la distribución respecto a dicha medida. Por ejemplo, si
•:mc:>s estudiar en qué grado una media aritmética nos marca una tendencia
generalizable del comportamiento de todos los elementos del conjunto
•tla(llO (población o muestra), tendremos que fijarnos en la separación (en la
ión) de cada valor respecto a la media. Si todos los valores están cerca-
\ alor medio, éste será representa.tivo de ellos .
la mayor o menor separación de los valores respecto a otro, que se pre-
sea su síntesis, se le llama dispersión o variabilidad.
Para entender claramente el concepto de representatividad de la media su-
-¡:¡&JJc~v¡:,, por ejemplo, que dos países cualesquiera tienen en un determinado
una renta media «per cápita>> de 6 500 dólares. Pero así como el país A pre-
una distribución de los distintos valores de renta del tipo de histograma de
fi1ura siguiente:
73
74 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Rentas inferiores a la media


x = 6.500
rl1
Rentas superiores a la media

F~GURA 4 .1

el país B presenta una distribución del tipo:

x = 6.500

FIGURA 4.2

La simple inspección de los gráficos pone de manifiesto que, aunque la me-


dia aritmética haya sido correctamente aplicada y calculada, presenta un grado
de representatividad muy bajo para el país A, de forma que debe rechazarse esa
cifra de 6 500 dólares como promedio representativo del nivel de vida de ese país
pues, como fácilmente se comprende, esa cifra es la resultante de promediar
valores muy distantes o dispersos, es decir, rentas muy altas con rentas muy
bajas, dando una idea de una falsa uniformidad representada por dicha cifra.
En cambio la cifra de 6.500 dólares es aceptable para el país B, puesto que
los distintos valores de la renta están muy concentrados alrededor de ella.
Será, pues, tanto más representativa la media aritmética de una variable
cuanto más agrupados en torno a ella estén los valores promediados y, por el
contrario, será tanto más rechazable, por no ser representativa, cuanto mayor
dispersión exista respecto a la media.
Resulta, pues, necesario para completar la información que pueda deducirse
de la media aritmética, acompañar este promedio de uno o varios coeficientes
que nos midan el grado de dispersión de la distribución de la variable. Estos
coeficientes son los que llamamos medidas de dispersión.
DISPERSIÓN • 75

Para una mejor sistematización, vamos a distinguir entre medidas de disper-


absolutas y relativas.

MEDIDAS DE DISPERSIÓN ABSOLUTAS

primera aproximación para medir la dispersión en una distribución es cal-


su recorrido.
ltecorrido es la diferencia entre el mayor y el menor valor de una distribu-
Es decir:

1 Re = xn -XI 1
Por ejemplo, si tenemos una distribución de edades y el recorrido Re
= 5,
el número total de observaciones N = 50 , en principio podemos decir
existe poca dispersión.
Se uata, por consiguiente, de un medio burdo para medir la dispersión,
_,_u•~ sólo a algunos casos.
l amamos recorrido intercuartílico a la diferencia existente entre el tercer
· y el primero. Es decir,

indica que en un intervalo de longitud R1 están comprendidos el 50% de


alores centrales. Si R1 es pequeño, siempre en términos relativos de
con las unidades en que venga dada la distribución, podemos intuir una
l!lllqueiia dispersión.

Ya hemos definido dos primeras medidas de dispersión, pero el objetivo


perseguimos es determinar la representatividad de las medidas de posición,
estas dos medidas contempladas no hacen referencia específica a ningún pro-

~ecesitamos, pues, medidas de dispersión que involucren a los promedios.


éstas, estudiaremos la desviación media, la varianza y la desviación típica.
Supongamos que tenemos un promedio P, del que vamos a estudiar su re-
·•esc::ntat· idad . Consideremos que tenemos dos distribuciones que originan
mismo promedio P (para mayor facilidad supongamos que estas distribu-
a:xx:s son de frecuencias unitarias) y que son tales como las que se representan
el siguiente gráfico:
76 • SECCIÓN 2. ANÁLISIS EST AD[STICO DE UNA VA RI ABLE

11 1 11 1 11 111
x1 x 2 ................•... p .................... Xn

11 1 1 1
x 1 x2 ............... ............ p ...................... ...... ........ xn

FIGURA 4.3

Si nos preguntamos cuál de los dos promedios es más representativo, dire-


mos que, sin duda , el primero porque al caracterizar la primera distribución
por P, considerando cada caso particular, el error que cometemos utilizando P
es menor , en la mayoría de los valores, en la primera que en la segunda. Lue-
go, cuanto más agrupados estén los valores alrededor del promedio, es decir,
cuanto menos dispersos estén, más útil es P.
Pero, ¿cómo podemos medir esto para una distribución genérica (x¡; n;)?
La primera solución sería considerar todas las desviaciones de cada valor al
promedio y promediar estas desviaciones, es decir, determinar
n n
D = _L(x - P)....i..
;~¡ ' N

pero esto, que sería lo primero que se nos ocurriría, tiene un grave inconve-
niente: puede ocurrir que tengamos una distribución muy dispersa a ambos
lados del promedio. Hallamos las desviaciones respecto a P, que serán muy
grandes, y promediamos éstas. Al efectuar esta última operación, tenemos que
sumar todas las desviaciones y dividir por N. Como estas desviaciones tendrán
sus correspondientes signos (positivo las desviaciones de los valores a la dere-
cha de P y negativo las correspondientes a las de su izquierda) al sumar se
compensarán las desviaciones positivas con las negativas y la medida que ha-
bíamos definido resultaría pequeña siendo la dispersión grande.
Para solucionar este inconveniente tendremos que optar por una de las dos
siguientes alternativas: considerar los valores absolutos de las desviaciones o
elevar éstas al cuadrado.

4.1.2. DESVIACIÓN MEDIA

Bajo este epígrafe se estima la solución de considerar las desviaciones en valor


absoluto .
DISPERSIÓN • 77

•nación media respecto a la media aritmética


el promedio genérico Pes la media aritmética x. Vimos que si conside-
n
D =
i=t
L (x 11

1
- P) __L
N

desviaciones se compensaban. En el caso particular de P = x, no sólo se


sino que, además, D = O (recuérdese la primera propiedad de la
aritmética) . Tomando las desviaciones en valor absoluto, tenemos
11 n.
D_
X
= L1
i = 1
X. -
1
X 1 Q_!_
N

la desviación media respecto a la media aritmética. Un valor de Dx


nos indicará una gran dispersión en la distribución.
La desviación media (respecto a la media aritmética) se puede definir, pues,
la media aritmética de los valores absolutos de las diferencias entre los
de la variable y la media aritmética.

--~~an1os la siguiente distribución de frecuencias que expresa las puntuaciones obte-


en un examen por 200 alumnos, distribución cuya media aritmética es 6,22. Te-
en cuenta los datos expresados en la tabla siguiente:
-
Pul/tu(Jcianes ·
de 0-10 N° 4e alwnnos x = 6,22 1x,-x¡n,
,.
X¡ . n¡ lx,- :rj
10,0 2 3,78 7,56
9,5 3 3,28 9,84
9,0 3 2,78 8,34
8,5 10 2,28 22,80
8,0 15 1,78 26,70
7,5 20 1,28 25,60
7,0 20 0,78 15,60
6,5 30 0,28 8,40
6,0 35 0,22 7,70
5,0 28 1,22 34,16
4,5 14 1,72 24,08
4,0 10 2,22 22,20
3,0 6 3,22 19,32
2,0 4 4,22 16,88
200 249,18
78 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

el cálculo práctico de la desviación media respecto a la media aritmética es

El hecho de que el resultado sea pequeño se interpreta en el sentido de que gran


cantidad de alumnos tienen una puntuación próxima a la media.
Si el resultado obtenido fuese un valor grande significaría que los valores de la va-
riable, en este caso, las puntuaciones de los alumnos, se distribuirían en valores aleja-
dos de la media.

También es frecuente utilizar como medida de dispersión la desviación me-


dia respecto a la mediana.

Desviación media respecto a la mediana


Si el promedio cuya eficacia queremos medir es ahora la mediana, calcularemos
n n.
DMe = "L....i 1 x.1 - Me 1 _..!...
N
i = 1

que es la desviación media respecto a la mediana. Para DMe grande, la mediana


no ·será representativa. En la mediana demostramos que

era mínima para k = Me, luego DMe < Dx.

Cuando la distribución está agrupada en intervalos, para calcular Me se-


guíamos el criterio:
N
- -N
Me =L. + 2 i-1
1-1
n,.
mientras que para x utilizábamos las marcas de clase. En esta doble operación
utilizamos unas hipótesis de trabajo incompatibles. Para la Me la hipótesis era
que los valores dentro del intervalo estaban distribuidos uniformemente, mien-
tras que para x, al utilizar las marcas de clase, se emplea implícitamente la
hipótesis de que todos los valores de cada intervalo son iguales a x;. Debemos,
DISPERSIÓN • 79

caso, optar por una de las dos hipótesis para ambos cálculos (para xy

caros expresados en el ejemplo anterior con N


2
=100 y como la mediana es

- U , teniendo en cuenta que

10,0 2 2 3,5 7,0


9,5 3 5 3,0 9,0
9,0 3 8 2,5 7,5
8,5 10 18 2,0 20,0
8,0 15 33 1,5 22,5
7,5 20 53 1,0 20,0
7,0 20 73 0,5 10,0
6,5 30 @ 0,0 0,0
6,0 35 138 0,5 17,5
5,0 28 166 1,5 42,0
4,5 14 180 2,0 28,0
4,0 10 190 2,5 25,0
3,0 6 196 3,5 21,0
2,0 4 N = 200 4,5 18,0

247,5

media respecto a la mediana será


11

:Ljx; -Mejn; 247 5


j; [
DMe = = '
200
= 1 2375 .
,
N

DMe nos da un valor relativamente pequeño, lo que quiere decir


::!rdiana es representativa y que los valores de la variable se distribuyen próxi-

.:iesviaciones medias tienen un significado preciso como «promedio de


:.a.ciones», aunque, precisamente por incorporar valores absolutos, tie-
-onveniente de no ser muy adecuadas al cálculo algebraico.
/
/ 1 SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

De todas las medidas de dispersión absolutas respecto a la media aritmética, la


varianza y su raíz cuadrada, la desviación típica, son las más importantes.
Hasta ahora, al hablar de la dispersión absoluta, nos hemos referido a la solu-
ción que parece más simple: promediar las desviaciones respecto a la media
aritmética, con su signo correspondiente. Esto es

D = _i _= _I________
N
Pero ya vimos que la primera propiedad de la x era que el valor de D era
siempre nulo ; por tanto, no se puede utilizar D como medida de dispersión.
Podemos eliminar este problema empleando una potencia par para las desvia-
ciones. De todas las potencias pares elegimos la más sencilla, la cuadrática, y
así surge una nueva medida de dispersión, denominada varianza, que defini-
mos como la media aritmética de los cuadrados de las desviaciones de los valo-
res de la variable a la media aritmética, es decir, el momento de segundo orden
respecto a la media aritmética, S2 = m2 .

Se define, por tanto, como

-)2 -n;
-X
N

Evidentemente S2 nos medirá la mayor o menor dispersión de los valores


respecto a la media aritmética. Si la dispersión es muy grande, la media no será
representativa.
En el caso extremo de que todas las observaciones fuesen iguales, la media
coincidiría con el valor común de las mismas y las desviaciones serían todas
nulas, resultando que S2 = O. En general, cuanto más dispersas sean las ob-
servaciones, mayores serán las desviaciones respecto a la media y, por tanto,
mayor el valor numérico de la varianza.

4.2.1. DESVIACIÓN TÍPICA O ESTÁNDAR

Así como las desviaciones medias vienen expresadas en las mismas unidades de
medida que la distribución, la varianza no, ya que vendrá dada en las unidades
DISPERSIÓN • 81

•soc:md.íenltes pero elevadas al cuadrado. Esto dificulta su interpretación, y


necesario definir la desviación típica.
~ desviación típica que se representa por S es la raíz cuadrada, con signo
o. de la varianza

--LLl.
ser la raíz cuadrada de la varianza vendrá expresada en las mismas unidades
que la distribución, lo cual la hace más apta como medida de dispersión.

PROPIEDADES DE LA VARIANZA

La varianza nunca puede ser negativa.


efecto, como la varianza es una suma de cuadrados, ésta será cero o positiva,
S2 ~o.

= O, las desviaciones son todas iguales a cero, luego x¡ = x. En esre


particular, la variable sólo toma un valor y éste, por lo tanto, es la media.

Ltl varianza es la medida cuadrática de dispersión óptima ya que:


n n
S2 = ¿n (x. -
i =t 1
X) 2 _L
N
< ¿n (x. - ki
i=t 1
_L
N
Vk =t; x

Úl varianza es igual al momento de segundo orden respecto al origen


e: de primer orden elevado al cuadrado.
82 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

También se podría haber llegado a esta relación, como caso particular del
te<Jrema de Kónig que vimos en el capítulo anterior, y que decía

Haciendo k = O , queda
.¿, 2
L. x.
n.
_L =
n
L (x; - X) NI
2 n. .
+ x2 '
1
i =i N i=i

Esta propiedad es de gran utilidad práctica, ya que así es como se suele cal-
cular S2 .

[iJ Si en la distribución de frecuencias sumamos a todos los valores de la


variable una constante, la varianza no varía.
Sea la distribución (x;; n;) cuyas media y varianza son, respectivamente,

n n.
x = ¿x;--L;
i =i N

Consideremos ahora la nueva distribución (x; + k; n;) cuya media, teniendo


en cuenta las propiedades de x , es:
x' = X+k siendo x; = X ¡ + k .
Por tanto,
n n. n n.
= :¿ ex; - x) 2
~ = :¿ rcxi + k) - c:x + k)f ~ =
i =i N i = i N

Luego un cambio de origen en la variable no afecta a la varianza.

(I] Al multiplicar los valores de una distribución de frecuencias por una


constante k, la varianza queda multiplicada por el cuadrado de la constante.
Partirnos de una distribución ( x ;; n;) en donde
n.
2
S = L (x. -
n

i=l t
X)
2
--L ·
N
DISPERSIÓN • 83

Sea ahora (kx;; n;) resultando de multiplicar cada x; por k, sabemos que

x' = kX .

la varianza cambia al realizar un cambio de escala.


•lii[Il()len puede utilizarse como medida de dispersión respecto a la media el

n n N
S12 = ¿(x -xi-;- = - - S2
i=l ' N-1 N-1

PROPIEDADES DE LA DESVIACIÓN TÍPICA

S~ O.
Es una medida de dispersión óptima.

~·o le afectan los cambios de origen.


Le afectan los cambios de escala, siendo S' = 1k 1 · S .

'lll:mcJs de hacer notar que en la desviación típica tienen más influencia las
-...,.innP" de los valorés muy extremos que en la desviación media, ya que
desviaciones, en la primera medida, están previamente elevadas al cua-
/ 84 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

4.2.4. TIPIFICACIÓN

Vamos a estudiar ahora lo que se llama valor tipificado o tipificación. En la


figura 4.4 se considera la desviación típica S = 10 puntos, la media aritmética
x = 70 puntos y un valor individualizado x¡ = 90 puntos.
Resulta que el valor individual es 20 puntos superior a la media o, en térmi-
nos de desviación típica, está dos desviaciones típicas por encima de la media.

1
1
1
1
1

:.1s
12
2s
1
1
1
1
:o- ~4
65 70 90
x

FIGURA 4.4

Si escogiésemos otro valor individualizado, por ejemplo 65 puntos, vemos


que está cinco puntos por debajo de la media, es decir 1/2 desviación típica por
debajo de la media.
X - X
90 - 70 = 2 desv1ac10nes
. . ' dar.
= estan
S 10
X-X 65-70 1
--=--- desviaciones estándar.
S 10 2
Siempre se puede expresar la diferencia entre la media y un valor individual
en términos de desviación típica. Se dice entonces que la desviación X¡ - x se
ha tipificado.
Una variable estadística se denomina tipificada, estandarizada o reducida, si
su media es cero y su varianza (o su desviación típica) es uno. Evidentemente,
dada una variable X con una media x y varianza s;, la variable

x-x
Z =S- - ,
X
~--..-
es su tipificada.
DISPERSIÓN • 85

En efecto
- 1 _ .X
Z = - x --=O
sx sx

Las propiedades de la media y de la varianza.


La distribución de frecuencias correspondiente también se denomina distri-
tipificada.

CÁLCULO DE LA VARIANZA

2 ,;, _;=_ 1_ _ _ __
8
N
a veces para el cálculo práctico de la varianza es preferible usar la rela-
s= = a2 -a~ que habíamos estudiado antes.

la varianza de una distribución de frecuencias referente a los resultado obte-


con 50 lanzamientos de un dado:

: ,,
-- ·., --
X¡ n. · 2
l · xinh X¡ IJ¡
".,·
1 6 6 6
2 11 22 44
3 6 18 54
4 7 28 112
5 9 45 225
6 11 66 396

50 185 837
86 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Vamos a hacer ahora una ligera referencia a la relación existente entre las
tres medidas estudiadas hasta ahora: desviación media respecto a la media y
respecto a la mediana, y desviación típica.
Tanto la varianza como la desviación típica son susceptibles de aplicación
del cálculo algebraico, lo que ha hecho que su uso se haya generalizado en
relación al de las otras dos medidas.
Por último, como
n
-)2 -ni
L:<x;
i = 1
-X
N'

tenemos que

Como resumen de las medidas de dispersión absolutas diremos que éstas, en


general, se refieren a un promedio (podríamos haber definido también la varia-
ción media respecto a la moda y las desviaciones cuadráticas respecto a la me-
diana y a la moda), que vienen dadas en las mismas unidades de medida que la
distribución (o, en su defecto, en potencias de estas unidades como en la va-
rianza), y que marcan la representatividad de los promedios con los que se
relacionan.

Supongamos que tenemos dos distribuciones de frecuencias cuyos promedios


son P¡ y P2 y queremos saber cuál de los dos es más representativo. Sucede
que esta comparación no la podemos efectuar por sus respectivas medidas de
dispersión, ya que las distribuciones, en general, no vendrán dadas en las mis-
mas unidades de medida. Tampoco en el caso de que las unidades de medida
sean las mismas, si los promedios son numéricamente diferentes.
Es preciso, pues, construir medidas adimensionales, es decir, que no ven-
gan afectadas por las unidades de medida. Estas medidas de dispersión, llama-
das relativas, siempre se concretan en forma de cociente, es decir, de índice.
DISPERSIÓN • 87

Coeficiente de apertura. Se defme como la relación por cociente entre el


valor y el menor en una distribución dada. Si éstos son x n y X¡ tendre-
que :

~
L..:J
E cociente ha eliminado las unidades y ahora nos es posible comparar dos
110buc:io11es a través de este coeficiente. Si bien es verdad que este coefi-
es el más fácil de calcular, presenta una serie de inconvenientes, entre
cuales citamos los siguientes: mide la dispersión de la distribución sin hacer
- .u...:w. a ningún promedio, por lo que no se resuelve el problema de la
.,anlLCiém entre éstos; por otra parte, como no tiene en cuenta más que los
nlores extremos de la distribución nos dará una gran dispersión si estos
están muy separados, a pesar de que puede ocurrir que el resto de los
estén concentrados tal y como se representa en el ejemplo gráfico de la
~ . 5:

1 111 11 1 11 1 111 1
x2 .......................... ...... xn-1

FIGURA 4.5

relativo. Se define como el cociente entre el recorrido y la me-

indica el número de veces que el recorrido contiene a la media aritmé-

~orrido semi-intercuartílico. Se define como el cociente entre el reco-


mrercuartílico y la suma del primer y el tercer cuartil:
/ 88 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

4.3. 1. COEFICIENTE DE VARIACIÓN DE PEARSON

Un intento para resolver el problema de comparación de roedias aritméticas de


dos distribuciones que pueden venir, en general, en unidades diferentes, o en
las que las medias no sean iguales, es el que K. Pearson propuso.
Si tuviéramos el caso particular de dos distribuciones en las que, por ejemplo:
x1 = 10 kg
x2 = 10 kg

y nos hacemos la pregunta de qué media es más representativa, diríamos que la


primera, porque, al ser iguales las medias, fijándonos en sus desviaciones típi-
cas vemos que es menor la primera, lo que implicaría una menor dispersión
alrededor de x1 y, por lo tanto, que ésta sería más representativa que x2 •

Si no coincidieran las medias, la simple comparación entre desviaciones tí-


picas no serviría. Añadamos la complicación de las unidades de medida (por
ejemplo, la primera en kilos y la segunda en litros) . ¿Cuál es el resultado? Está
claro que necesitamos una media ajena a estos problemas.
Ésta podría ser el coeficiente de variación de Pearson, que se define como
la tel.acjón..J2.Qr cociente~[ltre la desviación típica y la media aritmética:

En primer lugar, observamos que al efectuar el cociente eliminamos las


unidades, y por tanto V es adimensional, como cabía esperar.
En segundo lugar V representa el número de veces que S contiene a x , y es
claro que cuanto mayor sea V más veces contendrá S a x , luego relativamente
a mayor V menor representatividad de x .
Este coeficiente también se suele expresar en tantos por ciento empleándose:
S
V=-· 100.
x
Como tanto en S como en x han intervenido todos los valores de la distri-
bución, V presenta la garantía, frente a otros coeficientes, de que utiliza toda la
información.
Conviene señalar aquí el caso particular para el cual V no es significativo.
Si x = O, esto haría que V tendiera a infinito. Aquí la utilización de V no
interesa, ya que su resultado numérico nos puede llevar a conclusiones estadís-
DISPERSIÓN • 89

equivocadas. Además se pueden argüir otros inconvenientes metodo-


como, por ejemplo, que este coeficiente no es invariante ante cambios

ÍNDICE DE DISPERSIÓN RESPECTO


A LA MEDIANA

comparar medianas se define un coeficiente similar a V. Este coeficiente


y se defme como:

n
D L: jx;- Mej
V = _____!.!!__ = _;_=_1_ _ _ _ __
Me Me N·Me
comentario expresado respecto de V, en general, se puede aplicar aquí.
característica específica recordaremos las dificultades de cálculo de Me y

a ver un ejemplo que haga referencia a todas las medidas más im-
que hemos estudiado en este capítulo .

. . ..,.....1.1<1.1 los rendimientos entre empresas españolas y norteamericanas, pertene-


a un sector muy especializado, se seleccionan 20 empresas con características
de cada lugar, obteniéndose los resultados siguientes:

2
2
90 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIA BLE

Se pide:
Obtener el rendimiento medio en cada país, precisando en cuál de los dos hay mayor
grado de homogeneidad.
(a) En las empresas españolas:
""x.n .
.X = _L_. ,-' = 1160 000
N

S2 = ¿ (x¡ - x? n, = 14 400 ooo ooo


X N
sx = .JST = 120 000
V = 120 000 = _g__ = O 1034
X 1160 000 116 '
(b) En las empresas norteamericanas:

Y= LY;n¡ = 13 000
N
2
S2 = L(Y; - y) n; = 3000 000
Y N

Sy fi2 = 1 732, 0508


= '\júy
V = 1 732, 0508 = O
1332
y 13 000 ,

De la comparación entre los coeficientes de variación resulta que las empresas es-
pañolas (0,103 < 0,13) son más homogéneas que las norteamericanas.
DISPERSIÓN • 91

-.a distribución (x1, n) con las siguientes características:


x==4
Mo == 5
S2 == 1,2
N== 30

La media aritmética de la nueva distribución será

L:<x1 + 10)n1 L:x n1 1 L:n1


x' == 1 == _,_·- - + 10 - 1- == .x + 10 == 14.
N N N
mLXla corresponderá al valor desplazado de 5. Si 5 es el que más se repite en la
-IDCIÓfi (X¡; n1 ) , 5 + 10 == 15 será también el más frecuente en la nueva distribu-
.X - 10; n1 ) por tanto Mo' == 15.

La t.arianza no viene afectada por este cambio de origen. En efecto, la nueva

~)<x, + 10) - (.X + lO)f n1 :L<X; - xf n 1


5') 2 == --'1'--
. - - - - - - -- -- == --'1.'--- - - -- = S2 = 1, 2.
N N
último, el número total de datos N ·== Ln 1 no varía.

es nna variable tipificada? Aplicación de sus propiedades (media igual a cero


•nac:ion típica igual a 1) a la distribución:
92 • SECCIÓN 2. ANALJSIS ESTADÍSTICO DE UNA VARIABLE

4
6
8
10
12

SOLUCIÓN. Si (x;; n;) es una distribución de frecuencias, la variable tipificada de

X. - X
-'--
sx
y como

LX; 40
x=-'-=-=8
N 5
4 16
6 36 ¿x;2
8 64 s2 = a - a2 = _;_ - x2 = 360 - 64 =
X 2 1 N 5
10 100
12 144 =72-64=8

40 360
S.r =.J8=2 .Ji

En consecuencia, la distribución de la variable tipificada será:

..;~
z. 1 ,,
,,- '~ zJ
. ¡, -
¿z. 1 o
·"* z =_,_ =-=o
-fi N 5
2
-.fi/2
¿z}
0,5 s2
2
= _i_ _ - .l2 = ~ - o = 1
o o N 5

.fi/2 0,5 Sz =.Jl=l


J2 2
Luego Z =O y S2 =1
o 5
DISPERSIÓN • 93

cio 3
de dos grupos de familias durante un cierto período de tiempo ha sido el

N° de ftmiilias
10 14 8 5
12 16 10 10
14 20 11 15
16 15 13 30
18 18 15 20
20 17 18 16
20 4
100 100

••ínese cuál de los dos grupos es más homogéneo respecto a su gasto, con
•c.:ión de los pasos aplicados y de los resultados obtenidos.

Hemos de calcular el coeficiente de variación de Pearson, para deter-


en cuál de los dos grupos hay una mayor dispersión relativa. El grupo de fami-
4R ofrezca una mayor dispersión relativa será el menos homogéneo, ya que los
paniculares de cada familia del grupo estarán más separados del gasto medio de

S
V =-
x
. .llc:nos , pues, este coeficiente para cada grupo. Para el grupo A:

¡. ··
x¡ TI¡~ x~n.
., x¡n¡
1 !..
10 14 140 1400
12 16 192 2 304
14 20 280 3 920
16 15 240 3 840
18 18 324 5 832
20 17 340 6 800
N= 100 1 516 24 096
94 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

El gasto medio del grupo A será

:¿x.n.
.X = _;_'_' = 1 516 = 15 16
N 100 '
la varianza de ese grupo es

24 096
= - (15 16) 2 = 11 1344
100 ' '

y la desviación típica

sx = ~11, 1344 = 3, 3368 :::: 3, 34 .


Por tanto el coeficiente de variación

vx = sx = 3,34 = 0,2203.
x 15,16

Análogamente para el grupo B:

Y¡ n; Y¡n¡
?
LY;n;
./ Íni - = _;__ = 1 363 = 13 63
y N 100 '
8 5 40 320
2
JO JO 100 1 000 LY; n;
11 15 165 1 815 s 2 = 1 _ y2 =
13 30 390 5 070 Y N
15 20 300 4 500
18 16 288 5 184 = 19 489 - (13 63)2 = 9 11
100 ' '
20 4 80 1 600

N= 100 1 363 19 489


sy = J9I1 = 3,02

3 02
vy = !.x_ = • = 0,2215 .
y 13,63

Comparando ambos coeficientes Vx = 0,2203, Vy = 0,2215, observamos que es


menor el del grupo A, por lo que será este grupo el más homogéneo en su gasto, aun-
que no hay una excesiva diferencia.

EJERCICIO 4
En un cierto barrio se ha constatado que las familias residentes se han distribuido,
según su tamaño, de la forma siguiente: ·
DISPERSIÓN • 95

1 •. 1-~áeídmiüa. .·. ··..· ·· ,~ ~. ~ ..


N° defantilias
.
.. ' .. .
o- 2 110
2- 4 200
4- 6 90
6- 8 75
8- 10 25
500

¿Cuál es el número medio de personas por familia?


¿Cuál es el tipo de familia más frecuente?
Si sólo hubiera plazas de aparcamiento para el 50% de las familias y éstas se
atendieran por familias de mayor a menor tamaño, ¿qué componentes tendría
que tener una familia para entrar en el cupo? Se supone que cada familia sólo
tiene un vehículo.
¿Se pueden hacer previsiones de acuerdo al número medio de componentes
por familia?
Si el coeficiente de variación de Pearson de otro barrio es 1,8, ¿cuál de los dos
barrios puede ajustar mejor sus previsiones en base al diferente tamaño de las
familias que lo habitan?

Primero formamos la tabla con las columnas de los datos que nos van a hacer
falta.

!:" . ~
.. -··. - .
..""
-~
. f
tt-1-t-.L¡ ~i J~.~
n>
"> · ~ ~ ~- ·--:
'" '· ~.
..- ..
(Jt11i 2
X¡ n¡ !fr

o- 2 110 1 110 110 110


2- 4 200 3 600 1 800 310
4- 6 90 5 450 2 250 400
6- 8 75 7 525 3 675 475
8 -10 25 9 225 2 025 500

N= 500 1 910 9 860

el número medio de personas por familia será

x = .L:X1n1 = 1910 = 3•82


N 500
96 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

(b) El tipo de familia más frecuente será el valor modal; el intervalo modal es (2, 4)
n1 =200,c1 =2

ni+l 90
Mo = L1_ 1 + c.1 = 2 + 2 = 29
n1_ 1 + n1+ 1 110 + 90 '

por lo que el tipo de familia modal será aquélla que se compone de 2,9 personas.
(e) Para determinar los componentes que tendría que tener una familia para que estu-
viera incluida en el 50% de los que tienen aparcamiento, bajo los supuestos seña-
lados, calculamos la mediana. Observando N1 vemos que el intervalo mediano es

el (2 - 4] ( ~ = 250 ) por lo que la mediana

N_N
Me = L. + 2 i -1 e = 2 + 250 - 110 2 = 3 4.
1- l
n; i 200 '

(d) Para poder hacer previsiones de acuerdo al número medio de personas por fami-
lia, esta media deberá ser representativa. Calculemos su desviación típica.

S 2 = a2 - a 12 a1 = :X = 3, 82
L:x?n 1
s 2 = -''.'--__ _ y 2 = 9 860 - (3 82) 2 = 19 72 - (3 82)2 = 5 1276
N 500 ' ' ' '
S= ~5,1276 = 2,26.
(e) Calculemos previamente el coeficiente de variación del primer barrio:

v; = !J._ = 2,26 = 0,59 .


x1 3,82

Como el otro barrio tiene un coeficiente de variación de 1,8, el tamaño de sus


familias presentará una mayor variabilidad, y por tanto, serán menos fiables sus
previsiones.

EJERCICIO 5
En una empresa el 20% es personal «DO cualificado, , el 50% es personal «Cua-
lificado» y el resto personal «técnico». La plantilla consta de 1 000 empleados. Se
ha estimado la productividad para cada uno de estos grupos en unos coeficientes
que van de 1 a 5 como se puede observar en la tabla siguiente:
DISPERSIÓN • 97

10 5 4,5
~ 20 20 10 l7
3 30 20 40 28
.! 30 40 30 35
5 10 15 20 15,5

Hállese la productividad media de los 1 000 empleados.


¡Qué nivel de productividad es el más corriente en esta empresa?
¡Bajo qué coeficiente están el 50% de los trabajadores menos productivos?
Comparando las productividades medias del personal no cualificado y del
personal cualificado, ¿cuál de ellas corresponde a una distribución de
~encias más homogénea?

x.

4,5 4,5 _ I,x;P; 340


34,0 21,5 X = - 1
- - = - - = 3,4.
28 84,0 49,5 LP; 100
35 140,0 84,5
15,5 77,5 N = 100,0
100,0 340,0

que en otros ejercicios utilizábamos la media armónica para promediar


Aquí, las productividades vienen dadas por un coeficiente no re-
y, por tanto, no tiene sentido emplear la media armónica.
nivel de productividad más corriente en la empresa será la productividad mo-
y en este caso Mo = 4 .
lim.ire de productividad que separa al 50% de los trabajadores menos producti-
-N = 50 , luego la med"1ana es Me = 4 .
2
98 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Personal no cualificado:

:i
..
. ·. .: ::"' 2.'-r
X¡ E . ·p,i ~¡P(·~f:. :· •-:XíPI. ··
.1' · •>t· a
'
1 10 10 10
2 20 40 80
3 30 90 270 ¿x¡p;
4 30 120 480 i - 2
5 10 50 250
-'"=-- - XNe
LJP;
i
100 310 1 090
= 1 090 - (3 1)2 = 1 29
100 , ,

SNe = ~1,29 = 1,1358

Personal cualificado:
:. ,;
X¡ p; XiP; 'z .;·
X¡ p¿
1 5 5 5
2 20 40 80
3 20 60 180
4 40 160 640
5 15 75 375
100 340 1 280
= 1 280 - (3 4)2 = 1 24
100 , '

se = ~1,24 = 1,1135

entonces

VNe = 1,1358 = o 366


3,1 ,
135
V = 1,1 =O 327
e 3,4 '

Por tanto, el personal cualificado presenta una productividad media más repre-
sentativa.
PÍTULO 5

.tmetrta
, .
y curtosts

capítulos anteriores hemos iniciado el análisis estadístico sintetizando la


•ció:n, para lo cual utilizábamos las medidas de posición, y estudiando la
en la distribución. Pero parece evidente que analizar datos no con-
•tan:tente en hallar una media y una varianza, necesitamos conocer más
...po11ainiento de la distribución.
podemos basar nuestras conclusiones únicamente en expresiones que
dadas en términos de mediast . Si bien intentamos globalizar el com-
del colectivo que sea objeto de nuestro estudio, para lo cual las
son nuestro mejor instrumento, no debemos proceder a una interpreta-
implique un comportamiento de todos los elementos del colectivo uní-
constante e igual a la media. Necesitamos definir una media por-

que la varianza mide la dispersión por térmioo medio, ya que es la media ariunética de las
cuadráticas.

99
100 • SECCIÓN 2. ANÁLISIS ESTADfSTICO DE UNA VARIABLE

que existe disparidad, y esta disparidad no la podemos ignorar en un análisis


completo.
Esta variedad de comportamientos, que se traduce en los diferentes x¡ que
tenemos en una distribución, se hace más ostensible al realizar la representa-
ción gráfica de la distribución. Pues bien, lo que vamos a exponer a continua-
ción es una tipología de distribuciones según la forma de su representación
gráfica.

5.1 .1. MEDIDAS DE ASIMETRÍA

Las medidas de asimetría se dirigen a elaborar un indicador que permita esta-


blecer el grado de simetría (o asimetría) que presenta la distribución, sin nece-
sidad de llevar a cabo su representación gráfica.
Supongamos que hemos representado gráficamente una distribución de fre-
cuencias; tracemos una perpendicular al eje de abscisas por x . Si tomamos esta
perpendicular como eje de simetría, diremos que una distribución .es simétrica
si existe el mismo número de valores a ambos lados de dicho eje, equidistantes
de x dos a dos y tales que cada par de valores equidistantes a x tengan la
misma frecuencia. En caso contrario, las distribuciones serán asimétricas; así,
la asimetría es la ausencia de simetría en la distribución.
Vamos a considerar dos tipos de distribuciones que, desde luego, no son las
únicas posibles; éstas son las distribuciones con forma de campana (campani-
formes) y las distribuciones en U. Los ejemplos gráficos de la figura 5.1 nos
pueden aclarar lo anterior.
Si la distribución es simétrica, el eje de simetría de su representación gráfi-
ca será una recta paralela al eje de ordenadas, que pasa por el punto cuya absci-
sa es la media aritmética. Por ello, cuando la distribución es asimétrica, referi-
remos los valores de la distribución a este promedio, con lo que se consigue
que la medida que así obtengamos sea independiente del origen de medidas. Si
además logramos que esta medida tenga carácter de índice, habremos consegui-
do que no venga afectada por los cambios de escala.
Ahora nuestro trabajo será buscar una medida que recoja esta característica
de forma: la simetría o asimetría de una distribución.
Si una distribución es simétrica, existe el mismo número de valores a la de-
recha que a la izquierda de x y, por tanto, el mismo número de desviaciop.es
con signo positivo que con signo negativo, siendo la suma de desviaciones po-
sitivas igual a la suma de las negativas.
ASIMETR[A Y CURTOSIS • 101

x
simétrica asimétrica a derechas asimétrica a izquierdas

x x
asimétrica a derechas asimétrica a izquierdas

FIGURA 5.1

a partir, pues, de las desviaciones (x¡ - X) . Lo más sencillo sería tomar

i=l

N
hemos visto que esta medida siempre es cero. Por otro lado, no pode-
IDmar potencias pares porque perderíamos los signos, que nos interesa
. Así pues, tomaremos una potencia impar de dichas desviaciones. Y
de asimetría podría ser el promedio de estas desviaciones, elevadas a
impar más simple, es decir,

si~= O la distribución es simétrica


si~> O la distribución es asimétrica positiva
si~< O la distribución es as~étrica negativa
102 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Si la distribución es asimétrica a derechas o positiva sería lógico pensar que


la suma de las desviaciones positivas será mayor que la suma de las desviacio-
nes con signo negativo. En caso de que la distribución sea asimétrica a la iz-
quierda o negativa, lo anterior se reproducirá, pero en sentido opuesto.
Esta medida vendría expresada en las mismas unidades que las de la varia-
ble, pero elevadas al cubo, por lo que no es invariante ante un cambio de esca-
la. Para conseguir un indicador adimensional, debemos dividir la expresión
anterior por una cantidad que venga en sus mismas unidades de medida. Esta
cantidad es el cubo de la desviación típica , obteniéndose así el coeficiente de
asimetría de R.A. Fisher.

-1 ~
L., ( X. - X
-)3 n.
m N ; =l 1 1

g, = si = 312

[i, (x; - xi !1]


i =l N
siendo S la desviación típica, que como sabemos es mayor que O, lo que impli-
ca que el signo de g1 es el de ~ y, por tanto , si

g1 = O la distribución es simétrica
g1 > O la distribución es asimétrica positiva
g1 < O la distribución es asimétr ica negativa.

Recuérdese que ~ se calculaba en función de momentos respecto al origen:

m3 = a3 - 3a2 ll¡ + 20.:


Cuando g1 < O , se dice que la distribución presenta asimetría a la izquierda
(o negativa) y entonces , de las dos ramas de la curva que separa la ordena-
da que pasa por la media, la de la izquierda es más larga que la de la derecha
(Fig. 5.2).
Hemos de hacer notar que , así como una distribución que es simétrica tiene
g1 = O (o lo que es lo mismo , ~ = O) , el recíproco no se cumple necesaria-
mente, por lo que se hace especialmente preciso acompañar el estudio cuantita-
tivo de la forma de una distribución de su representación gráfica, que es la que
realmente nos dará la clave, pues puede haber distribuciones asimétricas para
las que g1 = O.
ASIMETR[A Y CURTOSIS • 103

8t <o

FIGURA 5.2. Distribución asimétrica a la izquierda

8t =o

FIGURA 5 .3. Distribución simétrica

8t >o

FIGURA 5.4. Distribución asimétrica a la derecha


104 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Otras medidas de asimetría


Karl Pearson propuso para distribuciones campaniformes, unimodales y mode-
radamente asimétricas el siguiente coeficiente:

1 AP ~ X -SMo 1
basado en el hecho evidente de que en una distribución campaniforme simétrica
x = Mo =Me.

Si la distribución es asimétrica positiva o a derechas, la x se desplaza a la


derecha de la moda, y por tanto,
x- Mo >O.
En el caso de distribución asimétrica negativa la media se sitúa por debajo
de Mo, por lo que
x- Mo <O.
Así, tendremos que si
Ap =O la distribución es simétrica
AP > O la distribución es asimétrica positiva
AP < O la distribución es asimétrica negativa.

La desviación típica que aparece en el denominador no modifica el signo de


la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha
diferencia .
También Pearson comprobó empíricamente, para este tipo de distribucio-
nes , que
:X - Mo == 3 (:X- Me).

La mediana siempre se sitúa entre la media y la moda en las distribuciones


moderadamente asimétricas.
Por esta relación, algunos autores utilizan como coeficiente de asimetría de
K. Pearson

3(x- Me)
S
ASIMETRfA Y CURTOSIS • 105

Coeficiente de asimetría de Bowley. Está basado en la posición de los


y la mediana, y utiliza la siguiente expresión:

A e3: . ._+ __.:_


= ___. e1 __ - 2Me
_
s e3 -el
• lllel10o la misma regla de signos.
Existe también el llamado coeficiente absoluto de asimetría, que viene da-
por la expresión:

son los cuartiles de la distribución. Cuando la distribución es


obtenemos AA = O. El signo de AA coincide con el de la asimetría.

J;; :,...
;;,· X¡ · n¡

o 2
10 4
20 7
30 5
40 2

~fedia, mediana, moda; primero, segundo y tercer cuartil, y el percentil 45.


2
S , S, coeficiente de variación, desviación media, recorrido y recorrido inter-
cuartílico.
Coeficientes de simetría.

o o o o
w 40 400 4 000 40 000 6
lO 140 2 800 56 000 1 120 000 13
30 150 4 500 135 000 4 050 000 18
40 80 3 200 128 000 5 120 000 20

20 410 10 900 323 000 10 350 000


106 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

x.
. t _,n t !xt.·- Me 1 1X¡ - Me r'¡r·,
o 2 20 40
10 4 10 40
20 7 o o
30 S 10 so
40 2 20 40

20 170

(a) Tenemos que


x = l:X;n; = 410 = 20 5
N 20 '
N
Me= 20 (ya que 6 < - = 10 < 13)
2
Mo = 20 (ya que 7 es la máxima frecuencia)
N
(ya que 2 < - = 5 < 6)
4
2N
(ya que 6 < - = 1O < 13)
4
3N
c3 = 30 (ya que 13 < - = 15 < 18)
4
N
Percentil45 = 20 (ya que 6 < 45- =9 < 13)
100

(b) a = ¿x¡n; = 10 900 = 545


2
N 20
s = 545 -
2
20,5 2
= 124,75
S=#= ~124,75 = 11,169
V = §_ = 11• 169 = O 5448
x 20,5 '

DM =
e
_!_ "1
x. -Me n.
N LJ '
1 1
=
170
20
= 8,5

Re=40-0=40
R1 = C3 - e, = 30 - 1o = 20
ASIMETRIA Y CURTOSIS • 107

Coeficiente de asimetría de Fisher

gl = m3 = -137,235 = -0,098.
S3 11,169
m3 = a3 - 3a2a1 + 2a( = 16150-3 · 545 · 20,5 + 2. 20,53 = -137,25.

aJ = ¿x;n; = 323 000 = 16 150.


N 20
Coeficiente de asimetría de K. Pearson

A = :X - Mo = 20, 5 - 20 = O 04 .
P S 11169 '
X '

Coeficiente de asimetría de Bowley:


A
8
= e3 + e1 - 2 Me = 30 + 10 - 2 . 20 = 0
e3 - e1 30-10
o

Coeficiente absoluto de asimetría:

A = e3 + e1 - 2 Me = 30 + 10 - 2 . 20 = 0 .
A S 11,169

MEDIDAS DE APUNTAMIENTO O CURTOSIS


medidas de curtosis se aplican a distribuciones campaniformes, es decir
_...,.,....,,,., simétricas o con ligera asimetría. En esencia, las medidas de curto-
uaran de estudiar la distribución de frecuencias en la «Zona central>> de la
La mayor o menor concentración de frecuencias alrededor de la
y en la zona central de la distribución dará lugar a una distribución más
1•eru>S apuntada. Por esta razón a las medidas de curtosis se les llama tam-
de «apuntamiento>> o <<COncentración central>>.
Para estudiar la curtosis de una distribución es necesario definir previa-
una distribución «tipo», que vamos a tomar como modelo de referencia.
Esta distribución es la llamada distribución normal, que corresponde a fe-
...enc>S muy corrientes en la naturaleza, y cuya representación gráfica es una
•parta de Gauss, dada por la fórmula:
1 __1_ (x- JJ)2
f (x) = e 2 0'2
(J ..Ji;.
Jl y cr son, respectivamente, la media y la desviación típica.
108 • SECCIÓN 2. ANÁLISIS ESTA DÍSTICO DE UNA VARIABLE

Su representación corresponde a la figura 5.5.


A esta distribución se le llama normal porque se presenta en numerosos ca- ·
sos, e implica que la mayoría de los valores de la variable están cerca de la
media, y aquéllos que se encuentran muy distanciados de ella, a ambos lados,
son poco numerosos. Este comportamiento es lógico y normal en numerosos
fenómenos estudiados (estatura, peso, etc.).

f(x )

FIGURA 5.5

Pues bien, tomando esta distribución como referencia diremos que una dis-
tribución puede ser más apuntada que la normal (es decir, leptocúrtica) o me-
nos apuntada (platicúrtica) (Fig. 5.6). A la distribución normal, desde el punto
de vista de la curtosis, se le llama mesocúrtica .

x X
platicúrtica Jeptocúrtica

FIGURA 5 .6
ASIMETRÍA Y CURTOSIS • 109

Es decir, en defmitiva, aquí se estudia la deformación de una distribución


5entido vertical respecto a la normal.
En la distribución normal se verifica que:
m4 = 3S4

m4 el momento de orden 4 respecto a la media y S la desviación típica.


consideramos el cociente:

Yalor será siempre igual a 3 cuando se trate de una distribución normal, y si


considera
m
g=-4-3
2 4
8
Yalor será cero para la distribución normal.
La idea del apuntamiento de una distribución surgió de la comparación de
lleuet1CI·,as
de los valores centrales de la distribución considerada con la fre-
de dichos valores en una distribución normal con media y varianza
a las de la distribución que se compara.
Por ello, como coeficiente de apuntamiento o curtosis se utiliza

1g, ~? - 3 1

mesocúrtica (normal) si g2 = O
leptocúrtica si g2 > O
platicúrtica si g2 < O

Para calcular el momento m4 , utilizamos la expresión en función de los


•IJeDtos respecto al origen calculado en el apéndice del capítulo 3

m4 = a4 - 4a3a 1 + 6a2 a; - 3~4 .


En contra de lo que pudiera parecer por las representaciones gráficas de
epígrafe, el estudio de la curtosis no implica necesariamente que las distri-
KliOI]j~ sean simétricas. Así, por ejemplo, podríamos tener la distribución de
figura 5.7, que es leptocúrtica y, sin embargo, asimétrica positiva.
110. SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

FIGURA 5.7

EJEMPLO
Dada la distribución de frecuencias del ejemplo anterior, calcule el coeficiente de cur-
tosis.

SOLUCIÓN
4
= L,x; n; = 10 330 000 = 516 500
a4 N 20
m4 = a4 - 4a3 a1 + 6a2 a; - 3a: =
= 516 500 - 4 X 16150 X 20,5 + 6 X 545 X 20,52 - 3 X 20,5 4
= 36 587,3125

82
= m4 _
3 = 36 587,3125 _ = _
3 2 35 3
= -ü 65
4
S 11. 1694 ' '

que, como vemos, nos dice que esta distribución es platicúrtica (g2 < O), es decir,
con un apuntamiento por debajo de la normal.
Ejercicios
DE LA SECCIÓN 2
EJERCICIOS DE LA SECCIÓN 2 • 113

Los lOO alumnos que se presentaron al examen de Estadística Económica en la


convocatoria de junio obtuvieron las siguientes calificaciones:
7 3 2 4 5 1 8 6 1 5
3 2 4 9 8 1 o 2 4 1
2 5 6 5 4 7 1 3 o 5
8 6 3 4 o 10 2 5 7 4
o 2 1 5 6 4 3 5 2 3
9 7 3 4 3 5 7 4 6 5
6 1 o 5 7 8 5 2 3 10
4 6 2 1 1 2 6 7 4 5
4 7 6 3 5 o 2 8 2 7
8 5 2 7 1 4 6 3 5 6
Obténgase la distribución de frecuencias de las calificaciones.
¿Qué porcentaje de alumnos sacaron un 5?
¿Cuántos alumnos sacaron notas superiores al 6?
¿Qué porcentaje aprobó?
Determínense el diagrama de barras y la poligonal de frecuencias de esta
distribución.

ÓN
La variable correspondiente a las calificaciones puede tomar los valores cero a
diez; para determinar la distribución de frecuencias que resume el conjunto de las
100 observaciones hay que proceder a un recuento que nos determinará el número
de veces que se repite cada valor o frecuencia absoluta.
El resultado del recuento se ofrece en la tabla siguiente:
114 • SECCIÓN 2. ANÁLISIS ESTADfSTICO DE UNA VARIABLE

·.'' 'jff'
.,
. ... . ..
F~ecuenda
1" '"•'
Frecttencia
FreCUI!rld<l Fr_ecuencja
Galijjcaciones
Recuento al)soluta relativa ·.absofúla r:w, félllliva
<icumúlada acumuJada
-~- i ·~
;
1 ~' ~ 1 ~-~ ~

o +t+t 1 6 0,06 6 0,06


1 +t+t +t+t 10 0,10 16 0,16
2 +t+t +t+t 111 13 0,13 29 0,29
3 +t+t +t+t 1 11 0 ,11 40 0,40
4 +t+t +t+t 111 13 0,13 53 0,53
5 +t+t +t+t +t+t 1 16 0,16 69 0,69
6 +t+t +t+t 1 11 0,11 80 0,80
7 +t+t +t+t 10 0,10 90 0,90
8 +t+t 1 6 0,06 96 0,96
9 11 2 0,02 98 Ó,98
10 11 2 0,02 100 1,00

- -

(b) Las frecuencias relativas

representan el peso relativo de cada valor en la distribución; por tanto, el porcen-


taje de alumnos que obtuvieron un 5 será su correspondiente frecuencia relativa,
es decir, 0,16 = 16%.
(e) Las frecuencias absolutas acumuladas nos dicen cuántos valores hay iguales o
inferiores al que nos estemos fijando. Por ejemplo, en esta distribución hay 80
alumnos que sacaron una calificación igual a 6 o inferior a ella.
Por tanto, como tenemos una clase con un total de 100 alumnos, los que obtu-
vieron una nota superior a 6 fueron 20.
(d) Los que aprobaron fueron aquéllos que sacaron una nota igual o superior a 5, es
decir, mayor que 4. El porcentaje de alumnos con notas iguales o inferiores a 4 lo
podemos obtener en la columna de frecuencias relativas acumuladas que, en este
caso, es 0,53 = 53% , por lo que el porcentaje de aprobados fue del47%.
(e) Esta distribución, representada gráficamente, es como sigue:
EJERCICIOS DE LA SECCIÓN 2 • 115

16

13

11 ~-----------
10 f-.----- - --- ---

6 --- --- --- --- --- - - - --- --- ---

2 1---- --- --- --- --- --- --- --- 1---- ---.---1
o 2 3 4 5 6 7 8 9 10

FIGURA S2.1

qt.>e es un diagrama de barras.


La poligonal de frecuencias se obtiene uniendo entre sí los extremos superiores
de los segmentos o barras del gráfico anterior:

o 2 3 4 5 6 7 8 9 10

FIGURA 52.2
116. SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Ejercicio 2. 2
Sea la siguiente distribución del gasto anual en bienes y servicios, excepto
alimentación, de los jóvenes entre 18 y 26 años:

0-5 40 40
5- 10 110 150
10- 15 165 315
15-20 220 535
20-25 75 610
25-30 60 670
N= 670

(a) Dibújese el histograma de frecuencias de esta distribución.


(b) Dibújese también el histograma de frecuencias acumuladas.

SOLUCIÓN
(a) Como la distribución del gasto está agrupada en intervalos de la misma longitud,
entonces, para formar sobre cada intervalo un rectángulo proporcional a su fre-
cuencia absoluta, bastará con dar a cada uno de estos intervalos una altura que sea
proporcional a estas frecuencias, con lo que el histograma será como sigue:

n.1

22

165

110

7
6
4

5 2 25 3

FIGURA S2.3
EJERCICIOS DE LA SECCIÓN 2 • 117

En este caso procederemos de manera similar, con la diferencia de que utilizare-


mos las frecuencias absolutas acumuladas. Así obtenemos el histograma pedido:

670 ------------- --- - ------ ----~~~

610 ---- - --------- - --- - -- ~~-4

535 --- - - ---- - ------ .-~..;

315 ------ ----..---i

150

40 +---i

5 10 15 20 25 30

FIGURA 52.4

2.3
-~ntt~e gráficamente la siguiente distribución:

0- 10 12 10 1,20
10- 40 32 30 1,07
40- 80 64 40 1,60
80- 100 57 20 2 ,85
100 - 130 89 30 2,97
130 - 160 44 30 1,47

Para poder dibujar el histograma de frecuencias y, en general, cual-


ópo de gráfico estadístico, hay que tener en cuenta siempre que, si asignamos una
1111nmaoa superficie (rectángulo, sector circular, etc.) a una clase de valores de la
las superficies que se utilicen deben ser proporcionales a las frecuencias de
valores.
118 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Como, en este caso, la distribución viene agrupada en intervalos de distinta longitud,


no podemos construir el histograma con rectángulos cuyas alturas sean proporcionales
directamente a las frecuencias , ya que, al no ser las longitudes de dichos intervalos cons-
tantes, no se guardaría la proporcionalidad entre las áreas de.dichos rectángulos.
Para obtener un histograma representativo podemos proceder de la manera si-
guiente:
l. Se determinan las longitudes c1 de cada intervalo.

2. Se calculan las densidades de frecuencia de cada intervalo

n.
d=__j_·
1 c.
1

3. Se construyen los rectángulos en cada intervalo con una longitud o base c1 y


con una altura d; .

De esta manera, las superficies de los rectángulos de cada intervalo serán

n
S
n
=Cd
nn
=Cnc
.....!!....=nn
n

es decir, proporcionales a las frecuencias absolutas de esos intervalos.


Por tanto, el histograma de frecuencias de esta distribución será el que se repre-
senta a continuación:
EJERCICIOS DE LA SECCIÓN 2 • 119

2,97 ----------------------------.--~----,
2,85 ----------------------r----l

1,60
1,47
1,20
1,07

10 40 80 100 130 160

FIGURA S2.5

io 2.4
una encuesta en una ciudad, se han agrupado los establecimientos
el número de plazas que poseen, obteniéndose la siguiente

. ~''c'•t,•

~~-P~ ~0 ~h~lea
~-·
0- 100 25
100- 200 37
200- 300 12
400- 500 22
500- 600 21
600- 700 13
700- 800 5
800- 900 3
900- 1 000 2

.muero de establecimientos con más de 300 plazas.


pol'centaje de establecimientos que tienen más de 100 plazas y menos de
120. SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

SOLUCIÓN
(a) Fácilmente obtendremos este número de establecimientos a partir de las frecuen-
cias absolutas acumuladas, Ni .

En primer lugar, conformemos la tabla siguiente:

o - 100 25 25 0,1786 0,1786


100 -200 37 62 0,2643 0,4429
200 -300 12 74 0,0857 0 ,5286
400 -500 22 96 0,1571 0,6857
500 -600 21 117 0,1500 0,8357
600 -700 13 130 0,0929 0,9286
700 -800 5 135 0,0357 0,9643
800 -900 3 138 0,0214 0,9857
900- 1 000 2 140 0,0143 1,0000

N== 140 1,0000

Como la frecuencia absoluta acumulada hasta establecimientos con 300 plazas es


de 74, esto quiere decir que, con más de 300 plazas, existen 66 establecimientos
hoteleros, ya que 66 = 140 - 74 .
(b) En este caso utilizamos las frecuencias relativas acumuladas. Por una parte, tene-
mos que el porcentaje de establecimientos con 400 plazas o menos es el 0,5286; es
decir, el mismo que el correspondiente a 300 plazas o menos, ya que, según la in-
formación suministrada por la encuesta, no se registraron establecimientos con un
número de plazas comprendidas entre 300 y 400. Por otro lado, el porcentaje de
establecimientos con 100 plazas o menos era del 0,1786. Por tanto, con más de
100 y menos de 400 tendremos:
0,5286 - 0,1786 = 0,35 = 35% .

Ejercicio 2. 5
En un museo se sabe que el precio medio de entrada es de O, 70 euros. Los adultos
deben pagar sus correspondientes tickets a 1 euro y los niños a 0,30 euros. ¿Qué
porcentaje de adultos y niños visitan el museo?
EJERCICIOS DE LA SECCIÓN 2 • 121

Sea P el porcentaje de adultos; el de niños será 100 - P. Como el


medio de los tickets es la media ponderada de los precios de cada grupo, ten-
que

1 P+0,30 (100-P) =O ?O
100 '

p = 57,14.
F1 porcentaje de adultos será el 57,14 y el de niños el 42,86.

2.6
~ país en donde se integran tres regiones tales que:

A 550 65
B 1 180 80
e 370 40

-unne.-;e el valor del indicador número de teléfonos por cada mil habitantes
el conjunto de este país.

Sea F el valor de este indicador, que se obtendrá teniendo en cuenta

F = Número total de teléfonos =


Número total de habitantes
= 65. 550 + 80 . 1180 + 40. 370 = 144 950 = 69 02
550 + 1180 + 370 2 100 '

. que F es la media aritmética ponderada de los índices de teléfonos por mil


de cada región.

2.7
X¡ = {1, 2, 3} , cuya media es .X = 2 . ¿Cómo se vería afectada esta
si transformamos la distribución con un cambio de origen y de escala
122 • SECCIÓN 2. ANÁLISIS ESTAD[STICO DE UNA VARIABLE

(ax¡ + b; n), siendo a = 2 y b = 3? ¿Se produciría el mismo resultado si a = 1


y b = -1 que si a = -1 y b = 1?

SOLUCIÓN. La nueva distribución es descrita por la variable

Z¡ = ax¡ + b

en donde, por las propiedades de la media aritmética, se cumple que


z =af+b =2·2+ 3=7.

Vamos a verificarlo a través de la distribución de Z¡. Sabemos que

X¡ Z¡ =a·x+b
1} i;;,'
1 5 = 2. 1 +3
2 7 =2-2+3
3 9=2-3+ 3
6 21

y, por tanto,

En los otros casos se definen las nuevas variables

u.1 = ax.1 + b = 1 · x.1 - 1

siendo
ü"=.f - 1=2-1=1
v = -x + 1 = - 2 + 1 = -1
luego se comprueba que estos valores medios son diferentes.

Ejercicio 2.8
Una compañía inmobiliaria tiene 200 apartamentos para alquilar. La distribución
de las superficies de los apartamentos es la siguiente:
EJERCICIOS DE LA SECCIÓN 2 • 123

N = 200 13 350

Si la compañía alquila los apartamentos a un promedio de 4,80 €/m2 , ¿cuál es


d alquiler medio de los apartamentos?
;Cuál es el tipo de apartamentos más frecuente?

En primer lugar, vamos a determinar la superficie media de los apartamentos de


esta compañía, para lo cual calcularemos la media aritmética de las superficies.

Como la distribución que nos dan viene agrupada en intervalos, tendremos que
determinar las marcas de clase de cada intervalo, que, por ejemplo, para el primer
aervalo será

XI = 40 + 50 = 45 .
2
La superficie media, entonces, es
n
¿x.n.
:X = ¡ ; I 1 1 = 13 350 = 66 75 m2 •
N 200 '

Por lo tanto, como el m 2 se alquila a razón de 4,80 €, tendremos que el alqui-


ler medio de los apartamentos es

A = 66,75 m2 · 4, 80 €/m2 = 320, 4 €.


El tipo de apartamento más frecuente, por su superficie, será el modal.
Como la distribución viene dada en intervalos de distinta longitud, habrá que
tkrerminar, inicialmente, las densidades de frecuencia de cada intervalo, lo que se
-=e en la tabla partiendo de las longitudes de cada intervalo, e¡ , y de sus fre-

El intervalo modal, el más denso, es, pues, el primero, es decir, el constituido


p apartamentos con una superficie entre los 40 y 50 m 2 .
124 • SECCIÓN 2 . ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Si quisiéramos fijar un único valor modal haríamos uso, en este caso, de la


fórmula

pero no disponemos de la densidad de frecuencia del intervalo anterior d1_ 1 ,


puesto que el intervalo modal es el primero. No obstante, si aceptamos la hipótesis
de que d1_ 1 = O, entonces

Mo = 40 + - 4- 10 = 50 m .
2
0+4

Ejercicio 2. 9
Consideremos una variable X 1 = {x1, x2 , x3}, tal que x 1 = O, x2 = 2 y x3 = u.
Estúdiese la evolución de la media aritmética y de la mediana cuando u varía.

SOLUCIÓN. La media aritmética de esta variable es

¿:xl 2 1
x = _;_ = 0+2+U =- +-u
N 3 3 3
es decir, que x es una función lineal creciente de u, e irá aumentando a medida que lo
haga u.
La mediana de esta distribución es 2, ya que es el valor central de los tres, por lo
que esta medida de posición es invariante respecto a los valores que pueda tomar u,
siempre que u > x2 = 2 .

Ejercicio 2. 1 O
Hállense la mediana y la moda de la siguiente distribución:

L1_ 1 -L1 11¡

lO - 20 27
20-30 10
30-40 6
40-50 5
50 - 60 2

50
EJERCICIOS DE LA SECCIÓN 2 • 125

Formemos, en primer lugar, la siguiente tabla:

10-20 27 27
20-30 10 37
30-40 6 43
40-50 5 48
50-60 2 50

N= 50

Mediana. Será el valor que ocupe el lugar N /2 = 25 . Al ser la frecuencia acumu-


lada del primer intervalo 27, el valor que ocupa el lugar 25 se encontrará en este
~alo (10-20) .
Una vez detectado el intervalo mediano sabemos que

Para este cálculo conocemos todos los valores menos la frecuencia acumulada
.-erior Ni-J, porque no existe, ya que el intervalo mediano es el primero. Por
11010, no se puede determinar la mediana.

~o obstante, se suele hacer el supuesto de que, como no existe intervalo ante-


nor. Ni-!= O y, entonces,

25-
Me = 10 + - -
o · 10 = 19,25.
27
El intervalo modal, el más frecuente, en este caso también será el primero,
que su frecuencia, ni , es la mayor.

Sabemos que

Aquí ocurre una situación análoga a la de la mediana, ya que no conocemos


_ . En principio, la moda no se podría calcular, pero también podemos hacer el
= O y, entonces,

10
Mo = 10 + - - · 10 = 20 .
o+ 10
126 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Ejercicio 2. 11
Los ingresos anuales de una muestra de 500 familias se distribuyen de la forma
siguiente:

Menos de 80 25 40 25 0,31
80- 100 61 90 - 86 3,05
100- 150 72 125 158 1,44
150-200 75 175 233 1,50
200-250 128 225 361 2,56
250- 300 64 275 425 1,28
300- 500 45 400 470 0,23
Más de 500 30 ? 500

N = 500

Determínese:
(a) El ingreso medio por familia.
(b) El ingreso modal.
(e) La mediana de estos ingresos.

SOLUCIÓN
(a) El ingreso medio sería:

,L:x¡n¡
.f = _,_·- - .
N
Para calcularlo es necesario que estén determinadas todas las marcas de clase
de cada intervalo.
Esta distribución es abierta tanto en el intervalo inferior como en el superior;
al ser la variable el volumen de ingresos familiares, que se supone positiva, enton-
ces el primer intervalo, «menos de 80», lo podemos considerar equivalente a <<de O
a 80», con lo cual la marca de clase de ese intervalo sería 40.
El intervalo superior de <<más de 500», sin embargo, está indeterminado, por lo
que no es posible, sin disponer de mayor información, saber cuál sería su marca
de clase. Esta indeterminación nos impide el poder calcular la media aritmética, al
no poder fijar el valor de X¡ en el último intervalo.
EJERCICIOS DE LA SECCIÓN 2 • 127

El intervalo modal será el de mayor densidad de frecuencia, al ser los intervalos


de distinta longitud.
En este caso, tampoco podemos determinar la densidad del último intervalo, al
oo estar fijado su límite superior y, por tanto, no poderse calcular su longitud o
amplitud. No obstante, como su frecuencia absoluta es 30, podemos suponer que
el límite superior está lo suficientemente distanciado para que su densidad sea ne-
tamente inferior a la del intervalo 80 a 100, que es de 3,05, luego, sin supuestos
excesivamente restrictivos, podemos suponer que éste es el intervalo modal y,
entonces,

di+l 144
Mo = L¡_1 + · e¡ = 80 + ' · 20 = 96,45.
di-1 + di+l 0,31 + 1,44
Es el valor que ocupa el lugar

N = 500 = 250
2 2
que se sitúa en el intervalo 200 a 250. Por tanto,

N_N
2 250 233
M e = Li - t + í-1
n. . e; = 200 + -
128 · 50 = 206,64 .
1

2.12
un barrio de una ciudad, el 20% de las viviendas tiene una superficie
da entre 50 y 60m2 , el 25% entre 60 y 70, el 20% entre 70 y 80, el 25%
80 y 100 y el 10% entre 100 y 120.

La superficie media por vivienda.


El tipo de vivienda más frecuente.

La distribución de las superficies, que nos viene dada en forma porcentual, es la


siguiente:
128 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Porcentaji!$}J.
frecuencia 'relcitiva

f;

50- 60 0,20 55 11,00 0,0200


60 - 70 0,25 65 16,25 0,0250
70- 80 0,20 75 15,00 0,0200
80- 100
0,25 90 22,50 0,0125
0,10 110 11,00 0,0050
100- 120

IJ. = 1 75,75

La superficie media de estas viviendas será:

(b) El intervalo modal, al ser los intervalos de distinta longitud, será aquél que tenga
mayor densidad. En este ejemplo, el intervalo modal es el constituido por vivien-
das con una superficie entre 60 y 70m2 .
Por tanto, podemos considerar como superficie más frecuente de estas vivien-
das a

0 0200
· c. = 60 + • · 10 = 65m2 •
' O, 0200 + O, 0200

Ejercicio 2. 13
Dada la distribución 3, 5, 10 y 12, pruébese que
H~G~x

siendo:
H = Media armónica.
G = Media geométrica.
x = Media aritmética.
EJERCICIOS DE LA SECCIÓN 2 • 129

Calculemos las diferentes medias


N 4
H == "" 1 = 1 1 1 1 = 5, 5814
LJ -+-+-+ -
¡ X¡ 3 5 10 12

G == ~fJx, = V3 · 5 · 10 · 12 = 6,5136

L;x;
x= _;_ == 3 + 5 + 10 + 12 = 30 == 7 5 .
N 4 4 '
Queda, pues, comprobado que
H~G~x.

2.14
. .liei:tdo que x ;: : G , demuéstrese <lue
H ~ G.

Sea la variable X = (x;; n;), cuyas medias armónica y geométrica

N
HX =
¿ __!__ n.1
i X¡

Consideremos una nueva variable U tal que

N N 1
HX -- = -
L;-n;1 L;u,n; u
¡ X¡
130 • SECCIÓN 2. ANÁLISIS ESTAOrSTICO DE UNA VARIABLE

es decir,

Ejercicio 2.15
Demuéstrese que, si X¡ = (x1, x2 ), entonces
G = .Jx · H

SOLUCIÓN. En efecto,

G=fi7=
" ...1 ...2

XX
(x + x ) 1 2
1 2 X +X
1 2

--
1
2
~
1
= .Jx . H.
-+ -
xl x2

Ejercicio 2. 16
Obténgase la media geométrica de la siguiente distribución:
-1, 3, 9,
comentando el resultado.

SOLUCIÓN. La media geométrica es

G = Vx1x2x3 = ;j(-1) · 3 · 9 = -3.


EJERCICIOS DE LA SECCIÓN 2 • 131

resultado, aunque es matemáticamente correcto, lo debemos rechazar, ya que


geométrica es, en definitiva, un promedio y, en este caso, G = -3 cae fuera
- - n .·::o•n de variación de la variable, que es (-1, 9).

es uno de los inconvenientes de la media geométrica, ya que sus resultados no


•:adJISticatneJGte fiables en algunos casos donde existan valores negativos.

2.17
distribución formada por N valores que se han estratificado en tres grupos
• N 1 y N 3 valores cada uno de ellos, tal que N1 + N 1 + N 3 = N.
bajo qué condición, si G1 , G2 y G3 son las medias geométricas de cada
o estrato, la media geométrica del conjunto de los N valores es la media
de estas medias geométricas de cada estrato.

Llamemos X; , Y; y Z; a los valores incluidos en cada estrato, en

G1 = N,fx
\J 1x2 ··· x N 1

G2 = N~yiy2 ... YN,

GJ = N\)z,~ ... zN,

N
3

G = NlcNf3 . cNf3 . cNf3 = 3/c . e e


'J¡ 2 3 \,j¡ 2·3.

JIDr" lallto, para que se cumpla esta relación, los estratos deben ser ·todos del mismo
132 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Ejercicio 2.18
Determínese la media geométrica de la siguiente distribución:

115 15
124 30
162 32
214 23

N= lOO

SOLUCIÓN. Tenemos que

G = N~;~ x( =
100
.JI15
15
· 124
30
· 162
32
· 214
23

que podemos calcular tomando logaritmos:


1
log G =- [15 log 115 + 30 log 124 + 32 log 162 + 23 log 214] =
100

= - 1 [15 . 2,0607 + 30 . 2,0934 + 32 . 2,2095 + 23 . 2,3304] =


100
= 218,016 = 218016.
100 '
Por lo tanto,
G = antilog 2,18016 = 151,412.

Ejercicio 2. 19
Una cooperativa agrícola tiene cuatro fmcas en explotación. Las producciones de
trigo y los rendimientos por hectárea obtenidos son los siguientes:

Producción Rendimieñ{()S
Fincas
(Qm) (QI'n/Ha)

A 2200 11
B 2 800 7
e 3 200 16
D 4 000 25
EJERCICIOS DE LA SECCIÓN 2 • 133

el rendimiento medio por hectárea para el conjunto de la cooperativa.

Como lo que queremos promediar es una magnitud relativa, el rendi-


que viene expresado en Qm/Ha, recuérdese que se debe utilizar la media ar-
Por tanto,
N 2 200 + 2 800 + 3 200 + 4 000
H= - --
__!__ 2 200 + .!.. 2 800 + _!_ 3 200 + _!_ 4 000
11 7 16 25

12 200 = 12 200 = 12 71 Qm/Ha.


200 + 400 + 200 + 160 960 '
Podríamos haber usado la media aritmética, pero transformando previamente la in-
--..,,v.... En efecto, tenemos que

Rendimientos Superficie
(Qm/l{a) . .,(Ila)
·, > ''

-\ 11 - 200
7 400
16 200
25 160
12 200 960

R= Producción total = 12 200 =


12 71 Qm/Ha.
Superficie total 960 '

Esta última expresión es la media aritmética de los rendimientos ponderados por la


· a que corresponden, es decir,

R=
N
11 . 200 + 7 . 400 + 16 . 200 + 25 . 160
200 + 400 + 200 + 160
12 200
= = 12 71 Qm/Ha.
960 '
Por tanto, si no transformamos la información, en estos casos de magnitudes relati-
el valor medio se ha de calcular a través de una media armónica.
134 • SECCIÓN 2. ANALISIS ESTADÍSTICO DE UNA VARIABLE

""1 ,Ejercicio 2.20


En tres empresas se dan las siguientes cifras de producción total y productividad
media por empleado:

Compaiua
.. A É
.,, e
"

..., o

Producción (unidades) 200 350 400


Productividad por empleado 0,5 0,7 0,8

Determínese la productividad media por empleado para el conjunto de las tres


empresas.

SOLUCIÓN. Si la productividad viene medida en términos de producción por em-


pleado, entonces, por ejemplo, en la compañía A el número de empleados será
__ 200 unidades d
N - - - - - - -- - = 400 emp1ea os.
A 0,5 unidades/empleado

Por tanto, la productividad media del conjunto de las tres empresas será

. "dad ed. Producción total


PrOdUCtlVl m 1a = ----------
Número total de empleados
200 + 350 + 400 950
-----------
1 1 1 =--=
1400
- - 200 + - - 350 + - - 400
0,5 0,7 0,8
= O, 68 unidades/empleado.

Observamos, pues, que la productividad media es la media armónica de las produc-


tividades de cada una de las tres empresas.

Ejercicio 2. 21
Determínese el tipo de cambio medio del yen respecto al euro para una empresa
que durante un año realizó las siguientes operaciones en esa divisa:
- ~

·":'
Operaaones
""·. ,,, .
A:
B ~;¡. ciiii .,. 1,' :<...
D .!!!!
,,
Tipo de cambio (1 yen) 70 72 65 68
Volumen negociado ( 106 euros) 200 250 100 400
EJERCICIOS DE LA SECCIÓN 2 • 135

El tipo de cambio medio de las cuatro operaciones se obtendrá tenien-

Total euros cambiados


Cambio medio == - - - - - - - - - =
Total contravalor en yens
200 + 250 + 100 + 400
=
200 250 100 400
- +- +- +-
70 72 65 68
950 m. de euros
- - - - - - = 69 , 09 euros1yens.
13 ,75 m. de yens

Por tanto, observamos que el tipo de cambio medio es la media armónica de los ti-
de cambio de las cuatro operaciones.

2.22
de los trabajadores de una empresa, según su categoría

A 15
B 40
e 10

¡Cuál es la productividad media en el conjunto de la empresa?


¡Cuál es el tiempo medio empleado para fabricar una unidad y cuál es el
número de unidades diarias si la jornada laboral es de 7 horas?

Suponiendo que el número de trabajadores de cada categoría es el mismo, tenemos


que la productividad media de la empresa será la media armónica de las producti-
"'idades de cada categoría, es decir,

PH = i
-1 + - + - 1
== -
3
-
0,1917
= 15,65 unidades/hora.

15 40 10
El tiempo medio empleado será el inverso de PH ,

- 1 1
T -
- --- == 0,0639 horas/unidad.
PH 15,65 u/h
136 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

que expresado en minutos será


f = 0,0639 h/u · 60 m/h = 3,834 m/u.
A lo lar go de una jornada laboral de 7 horas, el total de unidades fabricadas será

Número de unidades = PH · 7 = 15,65 · 7 = 109,55 unidades"" 110 unidades.

Ejercicio 2. 23
Sea la distribución

X¡ n.
1

XI ni

x2 ~

¿Qué valores deben tomar n1 y n2 para que la varianza de esta distribución sea
máxima?

SOLUCIÓN. La media aritmética de esta distribución es

Llamando a f. = A , como f. + h = 1 , tenemos que h = 1 - A. , y, por tanto,

x= A.x1 + (1 - A.) x 2 .

La varianza será

2
S (A.) = 2:: (x,. - X)
2
~ = (X¡ - X)
2
"
2
+ (x2 - X) (1 - A) =
1

= {x1 - (A.x1 + (1 - A) x2 ]}2 A. + {x2 - [A.x1 + (1 - A) x2 ]}2 (1 - A) =


= A-((1 - A) x 1 - (1 - A) x2 f + (1 - A)[A.x2 - A.x1f =

= A (1 - Al (x1 - x 2 ) 2 + (1 - A) A2 (x2 - x/ =
2
= A-(1 - A-)[1 - A + A](x1 - x2 ) =
2
= A(l - A) (x1 - x 2) •
EJERCICIOS DE LA SECCIÓN 2 • 137

B ••alar de A. que hace máximo ·S2 (/...) será

. 1 N
1
DDIO, SI r.. = -,entonces fl¡ = n2 = - ·
2 2

2.24
números naturales, hállese su media aritmética y su

La distribución, en este caso, es:

2
3
4

99
100

En primer lugar, vamos a agrupar la distribución en intervalos; formemos diez in-


de amplitud C¡ = 10 . La tabla obtenida es:
e¡;
- , ·· --
2 ..
L¡_ 1 -L1 . n¡ X¡- X¡lli ·\ ft¡

0- 10 10 5 50 250
LO- 20 10 15 150 2 250
20- 30 10 25 250 6 250
30- 40 10 35 350 12 250
40- 50 10 45 450 20 250
50 - 60 10 55 550 30 250
60- 70 10 65 650 42 250
70- 80 10 75 750 56 250
80- 90 10 85 850 72 250
90- 100 10 95 950 90 250

N= 100 5 000 332 500


138 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Por tanto,
¿x.n.
1
x == _,._~- == 5 OOO == 50
N 100
2
S == a2 -a:
a1 == x == 50

'l:x n2
1 1
== i = 332 500 = 3 325
a2 N 100
S 2 == 3 325 - 502 == 825
S == +.J825 = 28, 7 .
Si no hubiéramos efectuado esta agrupación en intervalos tendríamos que

x = _'l:xt
1_ == 1 + 2 + · · · + 100 = _1_ . 1 + 100 . 100 == 50 5
N 100 100 2 '
S2 =a2-a,2
¿x2 1 2 2 2
a == _ 1_ = _1_+_2__+_·_··_+_10_0_ = _1_. 100(100 + 1) (2 · 100 + 1) ==
3 383 5
2
N 100 100 6 '
ya que
1 +N
1 + 2 + · · · + N == - - N
2
¡2 + 22 + ... + N 2 == N (N + 1) (2N + 1)
6
s 2 == 3 383,5 - 50,5 2 = 833,25, s = +~833, 25 = 28,9
con lo que comprobamos los errores que se cometen al agrupar los datos en intervalos,
debido a la pérdida de información que ello supone.

Ejercicio 2.25
Sean los números 1, 2 y 3 y supongamos que su varianza es S~ . Agregando dos
veces el número 2 tenemos 1, 2, 2, 2, 3, cuya varianza es Si . ¿Será Si menor,
mayor o igual que S~ ?
EJERCICIOS DE LA SECCIÓN 2 • 139

Estas dos distribuciones tienen el mismo valor medio, ya que

1+2+3=2
3
1+2+2+2+3
- - - - - - - = 2.
5
~ suma de las desviaciones cuadráticas respecto a su valor medio es igual. En

n
¿ (x¡ - x/ = o - 2/ + (2 - 2)2 + (3 - 2) 2 = 2
i=l

n
¿ ex; - x2)
2
= (1 - 2)2 + 3 (2 - 2/ + (3 - 2)2 = 2
i=l

el número de valores en la segunda distribución, que es 5, es mayor que el de


, que es 3, entonces la varianza de esta segunda distribución será menor que
;.a primera, ya que esta medida de dispersión no es otra cosa que el valor medio
desviaciones cuadráticas respecto a su media. Por tanto, s; < S( .

2.26
las variables X¡ + h y X¡ + A.h, donde h = {-2, - 1, O, 1, 2}.

Calcúlese la media aritmética de las dos distribuciones.


Hállense las varianzas.
¡Qué valor ha de tomar A para que el coeficiente de variación de la primera
,-ariable sea la mitad que el de la segunda?

X1 a la primera variable, X¡ + h , cuya media será

_ (x - 2) + (x - 1) + x + (x + 1) + (x + 2)
X = =X
1 5

:\la segunda variable, X; + 'J....h , la notamos por X2 , y su media es

(x - 2A) + (x - A) + x + (x + A) + (x + 21..)
X2= 5 =X.

Por tanto, estas dos variables tienen la misma media.


140 • SECCIÓN 2. ANÁLISIS ESTA DÍSTICO DE UNA VARIABLE

(b) Sus varianzas son

s2 = 2)<x + h) - .xlf = 2)<x + h) - xf


1
N N
(-2)2 + (-1)2 +
.;__.;___.;__;____ _+_¡2__
_02 + 22 = -10 =2
5 5
s2 - ¿ [(x + 'Ah) - .x2f - ¿ [(x + 'Ah) - xf
2 - N N
L "-2h2 = A2 ¿h2 = A2 . 2 .
N N

(e) Como los coeficientes de variación son

Y¡ = - = -
St .Ji
X¡ X

v = s2 = x..fi
2
X2 X

V
se verifica que V2 = A. Y¡ , luego, para que Y¡ = _l_ , tendremos que A. = 2 .
2

Ejercicio 2.27
Sea una distribución (x;; n) , con las siguientes características:

.X= 7
Mo = 5
2
S = 3, 4
N = 50
Determínense estas medidas para:
(a) La distribución (x; + 2; n) .
(b) La distribución (20 x;; n) .
EJERCICIOS DE LA SECCIÓN 2 • 141

En este caso, se define una nueva variable Y; = X¡ + 2 que, por las propiedades
de estas medidas estadísticas, cumple que
Y=x+2=7+2=9

s~ = s; = 3,4
NY = Nx =50
Mo (y) = Mo (x) + 2 =5 + 2 = 7

En el segundo cambio de variable, Z; = 20 X¡ , se obtendrá que

z = 20 x = 20 · 7 = 140
s 2
Z
= 20 2 2
S = 400 . 3, 4 = 1 360
X

N, = Nx = 50
M o (z) = 20 Mo (x) = 20 · 5 = 100.

2.28
dos distribuciones simétricas y campaniformes. Disponemos de la siguiente
.-.uacHJ•n de cada una de estas distribuciones

Distrif{Y:Ción A se Dis(ljbucíón B .,
'"
Me = 15 Mo = 20
sz = 36 s2 = 36
cuál de las dos distribuciones presenta una mayor variabilidad.

Al ser las distribuciones de tipo campaniforme y simétricas, sus tres


de tendencia central, media aritmética, mediana y moda, coinciden. Tendre-
pues que

Para comparar la variabilidad de ambas distribuciones no podemos relegamos a la


comparación de las varianzas, puesto que las distribuciones pueden venir en
diferentes, y además debemos relacionar la variabilidad con su correspon-
promedio. Utilizaremos los coeficientes de variación

SA 6 SB 6
V = - = - = 0 4· V8 =-=-=03
A XA 15 , , x8 20 '
La distribución B, al tener menor coeficiente, presenta una menor dispersión relativa.
1 42 • SECCIÓN 2. ANÁLISIS ESTAD ÍSTICO DE UNA VARIABLE

~j e rcicio 2.29
Hállese el coeficiente de variación de la siguiente distribución:

-4
-3
o
2
5
Razónese el resultado.

SOLUCIÓN. Formemos la siguiente tabla:

2
X¡ X¡

-4 16
-3 9
o o
2 4
5 25

o 54
Como

¿:xi
x= -¡-=.Q=O
N 5
2 2
S =a2 - a 1
a1 =x=O
¿x;
a2
= _ i _N = 54
5
= 1o, 8
2
S = 10,8- 0 2 = 10,8
S = +.JSi = +J10,8 = 3,28.
Por tanto, el coeficiente de variación es

Comprobamos que el coeficiente de variación, cuando la media aritmética es cero,


no es significativo, puesto que tiende a infinito.
EJERCICIOS DE LA SECCIÓN 2 • 143

2.30
que el coeficiente de variación de una distribución es 0,2 y que la
JI_ Hállese la desviaCión típica de la distribución.

Como el coeficiente de variación de K. Pearson es


S
V=-
x

S =V · x = 0,2 · 30 =6.

2.31

v - ~­ ~(YJ
x N
(X¡ -X)
--'--x-- indica la desviación relativa de x; con respecto a x.

En efecto, tenemos que

~(<X¡; XJ
N
x es invariante respecto al sumatorio.

2.32
•ariable X tiene su desviación típica igual a 4 y su media es 6. Determínense la
y la varianza de las variables:
X- 1
Y = -- ·
2
X- 6
T= - - ·
4
144 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

SOLUCIÓN
(a) Sabemos que , si Y = a + bX , entonces
y= a+ bx
s2y = b2s2.
X

Como, en este ejemplo, x =6 y Sx = 4, siendo

1 1
Y=-X--
2 2
tendremos que

(b) Para esta segunda transformación

T=..!.x-~
4 4
- l_ 6 1 6
t = - X - - = - 6--=0
4 4 4 4

s2 = (..!.)2
l 4
s2 = _..!._
X 16
. 42 = I

es decir, T =O y S1 =1 .
Esta segunda variable T es precisamente la variable tipificada de X, confir-
mando estos resultados las propiedades de este tipo de variables.

Ejercicio 2.33
Un hotel tiene cinco tipos de habitaciones, cuyos precios, así como los ingresos
obtenidos, son los siguientes:
,_
Precia par habitaci6n -~- Ingresas.
200 16 000
500 20 000
750 37 500
1 000 30 000
1 300 26 000
EJERCICIOS DE LA SECCIÓN 2 • 145

Calcúlese el precio medio y sú representatividad. 'j¡ (.;:-- ~ -.J ~~


Si el coeficiente de variación de los precios de otro hotel es 0,75, ¿cuál de los
tlos hoteles presenta una estructura de precios más homogénea?

J:n primer lugar hay que hallar el número de habitaciones de cada precio.
Como los ingresos correspondientes a las habitaciones de 200 unidades mone-
llrias (u.m.) han sido 16 000, esto indica que el número de habitaciones de este
llpOes

= 16 000 = 80 .
fZ¡ 200

Análogamente,

n1 = 20000 = 40 n, = 37 500 = 50
500 750
= 30 000 = 30 = 26 000 = 20
n4 1000 n5 1 300

la distribución de los precios por habitaciones será

200 80 16 000 3 200 ()()()


500 40 20000 10 000 ()()()
750 50 37 500 28 125 000
1 000 30 30 000 30 000 000
1 300 20 26000 33 800 000
N=220 129 500 105 125 000

¿x.n.
- i
X = - --
1 1
=
129 500 = 588 64 um
N 220 ' ..

Para comprobar si este promedio es representativo calcularemos la desviación típica:

S2 = a2 - a12
a 1 =:X= 588,64

105 125 ooo· = 477 840,91


N 220
146 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARlABLE

s2 = 477 840,91- 588,64 2 = 131343,86


S = +.JSi = +~131343,86 = 362,4.
Como la desviación típica es menor que una vez la media, podemos decir que
no existe demasiada dispersión y, por lo tanto, considerar el precio medio como
representativo del conjunto de los precios.
(b) Para poder comparar las estructuras de precios entre los dos hoteles, calculemos el
coeficiente de variación para éste

V=§__= 362,4 = 061.


.X 588,64 '

Como el otro hotel tiene un coeficiente de variación de O, 75, este hotel presen-
ta una estructura más homogénea de precios.

Ejercicio 2.34
De dos regiones con la misma población, de un determinado país, se han tomado
sendas muestras sobre las rentas percibidas. La información recogida es la
siguiente:

Númeroáe
(en eures) JWrlilias
6 010- 12 020 24 30 050 - 90 150 10
12 020- 18 030 36 90 150- 150 250 42
18 030 - 24 040 20 150 250 - 330 550 35
24 040 - 30 050 20 330 550 - 450 760 20
30 050- 60 100 50 450 760 - 570 960 13
150 120

(a) Hállese la renta media de las muestras de cada región y la renta media del
conjunto de las dos regiones.
(b) ¿Cuál de las dos rentas medias es más representativa?
(e) ¿Es posible decir si una región posee un nivel de vida superior a la otra, si
medimos este nivel a través de la renta?
(d) ¿Cuál es el nivel de renta percibido por un mayor número de familias en la
primera región?
(e) Si en la segunda región clasificamos a una familia en el grupo en donde se
encuentran el SO% de las menos favorecidas, ¿cuál sería el tope de renta que
podría percibir?
EJERCICIOS DE LA SECCIÓN 2 • 147

1 950 485 400 0,00399334


8 127 022 500 0,00599002
8 849 424 500 0,00332779
1,4629E+ 10(*) 0,00332779
1,0159E+11 0,00166389
1,3514E+ 11

3,612E+10 0,00016639
6,0682E+ 11 0,00069884
2,0227E+l2 0,00019412
3,0522E+12 0,00016638
3,3927E+12 0,00010815
120 28517680 9,1106E+12

X = ~X¡n¡ = 3 972 610 = 26 484 06 €


N 150 '
~).n.
- = _¡_'_' = 28 517 680 = 237 647 33 € .
y N 120 '
RDE:amedia del conjunto de las dos muestras será la media aritmética pondera-
las medias de cada región, es decir,

x ·150 +y. 120 = 26 484,06 · 150 + 237 647,33 · 120 =


120 334 40
€.
150 + 120 270 '
esrudiar cuál de las dos rentas medias es más representativa debemos calcular
a~~~;po:ndi,ent,escoeficientes de variación.
Pre\iamente hallaremos las desviaciones típicas:
SX2 =a2 - a12
a1 = x= 26484,06€
148. SECCIÓN 2. ANALISIS ESTADÍSTICO DE UNA VARIABLE

:~.:>2n.
a = ; 1 1 = 135 143 354 150 = 900 955 694 3
2 N 150 '
SX2 = 900 955 694,3 - 26 484,062 = 199 549 907,1

fS2
S x = + V0 x = 14126,2134

ll¡ = y = 237 647,33


LY?n;
i = 9 110 603 175 300 = 75 921 693 128
N 120
Sy2 = 75 921 693 128 - 237 647,332 = 19 445 438 087

fs2
- Sy = +'\j'"'y = 139 446,90

Los coeficientes de variación serán

vx = ~ = 0,5333
X
sy
vy= -=-
y
= o, 5867

Por tanto, la renta media de la primera región es más representativa, aunque


las dispersiones relativas no son muy dispares.
(e) Al ser los coeficientes de variación similares, la variabilidad es parecida en ambas
distribuciones, así como la representatividad de cada una de las rentas medias.
Como en la primera región la renta media es superior, podemos suponer que en
esta región las personas disfrutan de un nivel de vida más alto.
(d) El nivel de renta percibido por un mayor número de familias en la primera región
será su renta modal. Como la distribución viene dada en intervalos de desigual
amplitud, nos fijaremos en las densidades de frecuencia. De esta forma compro-
bamos que el intervalo modal es (12 020-18 030), luego
d. 1 0,0033
Mo = L; 1 + l+ C¡ =12 020+ ·6 010 = 14 774,58.
- d¡_1 + d;+1 O, 0039 +O, 0033

(e) El tope de renta que podrían percibir sería la renta mediana. El intervalo mediano
será el que contenga la frecuencia

N = 120 = 60
2 2 ,
EJERCICIOS DE LA SE CCIÓN 2 • 149

observando la columna de frecuencias acumuladas, N; , vemos que es


250-330 550); por tanto
N
l - NH 60-52
Me= L¡_1 + e¡ = 150 250 + · 180 300 = 191461,43.
n¡ 35

2.35
Central de Correos realiza una encuesta por muestreo sobre el
medio de las cartas que diariamente tiene que distribuir en la ciudad. La
•a1n recogida, sobre una muestra de 500 cartas, es la siguiente:

0, 18 145
0,24 132
0,30 84
0,42 50
0,60 48
0,72 22
1,08 10
1,20 8
1,50

500

la muestra y verifíquese si es

a la muestra anterior es significativa del total de cartas que diariamente se


IIII!IJIIlrten en la ciudad, calcúlese si el servicio es rentable, teniendo en cuenta
p se reparten 350 000 cartas al día y que el coste diario del servicio es de
121 202 euros.
150 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE


.... 1<.'·~ '

xft, 2- · ,
X¡ n¡ X¡n¡
. 1 1 ·''

0,18 145 26,10 4,70
0,24 132 31,68 7,60
0,30 84 25,20 7,56
0,42 50 21,00 8,82
0,60 48 28,80 17,28
0,72 22 15,84 11,40
1,08 10 10,80 11,66
1,20 8 9,60 11,52
1,50 1 1,50 2,25

N= 500 170,52 82,79

El franqueo medio de la muestra es


¿x.n.
x= _¡_'_' = 170,52 =O 34 €.
N 500 '
Para verificar si esta media es representativa, calculemos su desviación típica

S2 =az -a¡2
a1 = x = 0,34
¿x;n¡ 82 79
a2 =-'-=O 16
N 500 '
2
S = o,16- o,34
2
= o, 0444
S = +fil = +.J0,0444 = 0,2107
Como la desviación típica es menor que una vez la media, la dispersión en tor-
no a la media aritmética no es alta y ésta, por lo tanto, es representativa.
(b) Para determinar si el servicio es rentable debemos estimar los ingresos diarios por
este servicio; para ello supondremos que el franqueo medio de la muestra es el
franqueo medio del total de las 350 000 cartas, es decir, es el franqueo medio de
la población. Por tanto,
Ingresos = 350 000 x 0,34 = 119 000 euros.

El beneficio económico del servicio es


Beneficio = Ingresos- Costes= 119 000- 120 202 = -1202 euros.

Como el beneficio es negativo, significa que el Servicio de Correos, en este


supuesto, es deficitario.
EJERCICIOS DE LA SECCIÓN 2 • 151

laboratorios farmacéuticos, los empleados_se encuentran clasificados er


~orías: técnicos, administrativos y operarios, de tal forma que, e11
de 2003, se tenia:

7
2,25
130 4,2

Ml:úllese el salario medio para el conjunto de la empresa.


lllliídiese en qué categoría de empleados existe mayor homogeneidad salarial.
fijar los salarios del año 2004 se propusieron las tres alternativa!!

los operarios, un 8% a los


Mlllinistrativos y un 4% a los técnicos.
1!111rmiln.e1nse los salarios medios totales con cada alternativa.

~-nnT,._<:ll
tiene dividida su plantilla en tres categorías o estratos, por lo que el
medio será

N
== _h el peso o tamaño relativo de cada estrato.
N

- 20 50 130 3
X == -30 + - · 14,5 + -15,6 == 16,765 · 10 €
200 200 200
152. SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

(b) Podemos utilizar el coeficiente de variación de K. Pearson para estudiar el


de dispersión de los salarios dentro de cada categoría:

V, = ST = 2_ = o 23
T X¡. 30 '
V = SA = 2,25 =o 15
A XA 14,5 '
V = So = 4,2 =O 27
0
x0 15,6 '

Como VA = 0,15 es quien toma el menor valor, podemos decir que existe ma-
yor homogeneidad de los salarios en esta categoría que en las otras dos, al ser
dispersión relativa inferior.
(e) Si representamos los salarios de cada uno de los 200 empleados por X¡ , tendría-
mos:
Caso l. Que una subida proporcional del 5% de todos los salarios situaría todos
ellos en
x; = X¡ + 0,05 X¡ = 1,05 X¡
con lo que, teniendo en cuenta las propiedades de la media, varianza y desviación
típica, estas características para cada categoría laboral serían
X~ = 1,05 XT = 1,05. 30 = 31,5
~ = 1,05 XA = 1,05. 14,5 :::: 15,225
~ = 1,05 x0 = 1,05 · 15,6 = 16,38
S~ :::: 1,05 ST = 1,05. 7 :::: 7,35
S~ = 1,05 SA = 1,05. 2,25 = 2,3625
S~ = 1,05 S0 = 1,05 · 4,2 = 4,41

El salario medio total sería ahora


20 50 130
X'=.¿, W.X' = 315+ 15 225+ 16 38 =
/-:1 h h 200 ' 200 ' 200 '
::::17,603
que también podríamos haber calculado como
x' = 1.os. x = 1,05 ·16, 765 = 17,603.
Caso 2. Una subida lineal de 1 000 € haría que
x; =X; +1
EJERCICIOS DE LA SECCIÓN 2 • 153

x;. = Xr + 1 = 30 + 1 = 31, O
x~ =XA +1 =14,5+1 =15,5
~ = x0 + 1 = 15,6 + 1 = 16,6

x' = x + 1 = 16,765 + 1 = 17,765.


3. Por último, en la tercera hipótesis tenemos que, para la categoría de téc-

x; =X;+ 0,04 X¡ = 1,04 X¡


Xr = 1,04 Xr = 1,04 · 30 = 31,2
S~ = 1,04 ST = 1,04. 7 = 7,28.

la categoría de administrativos
x; =X¡+ 0,08 X; = 1,08 X;
XA = 1,08 XA = 1,08 ·14,5 = 15,66
S~ = 1,08 SA = 1,08. 2,25 = 2,43.

la categoría de operarios
x; =X¡+ 0,10 X; = 1,10 X;
x0 = 1,10 x0 = 1,10 ·15,6 = 1, 71
S~ = 1,10 S0 = 1,10 · 4,2 = 4,62 .
• _,...,..,n medio global sería

±= 1
20
x = h whx;. = 200 31,2+
50
200
15,66+
130
200
1.71 = 8,15

2.37

10-20 7
20-30 11
30-40 15
40-50 10
50-60 5
60-70 2
50
154 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

calcúlense:
(a) Media, mediana y moda. Desviación media respecto a la media.
(b) Tercer cuartil, sexto decil y trigésimo percentil.
(L7 Recorrido intercuartílico.
( d) Coeficiente de asimetría de Bowley.
(~ El percentil que corresponde al valor 47.

SOLUCIÓN
(a) Formemos previamente la tabla:

L;_t-Li n¡ X¡ x¡n¡ lx¡- xl jx¡ -·xh " N¡


.1
10-20 7 15 105 20,2 141,4 7
20 -30 11 25 275 10,2 112,2 18
30-40 15 35 525 0,2 3,0 33
40-50 10 45 450 9,8 98,0 43
50-60 5 55 275 19,8 99,0 48
60-70 2 65 130 29,8 59,6 50 J
N= 50 1 760 513,2 j
Media aritmética

:L:Xn.
:X = _;_'_' = 1 760 = 35 2 .
N 50 '

Mediana. Como N = 25 , el intervalo que contiene la mediana es aquél cuya


2
frecuencia acumulada es 33, es decir, es el intervalo (30-40).
La mediana para distribuciones agrupadas en intervalos es

N_N
Me = L. + 2 i- 1 . c. =
1-1 1

25 18
= 30 + - . 1o = 34 66 .
15 ,

Moda. El intervalo modal es (30-40), ya que es el que más se repite. Como

10
= 30 + . 10 = 34,76 .
11 + 10
EJERCICIOS DE LA SECCIÓN 2 • 155

media .respecto a la media. Esta medida de dispersión absoluta es

:Lix;- xh
Dx = ---'----- =
j

N
= 513,2 = lO 264.
50 •

3
Tenemos que determinar N = 37,5 ; el intervalo donde se en-
4
acma esta frecuencia, observando la columna N;, es (40 - 50), luego

= 40 + 37,5lO- 33 . 10 = 44, 5 .

6N
Ahora la frecuencia buscada es - = 30 , que se encuentra en el
10

30 18
= 30 + - . 10 = 38.
15
ngésimo percentil. Busquemos en qué intervalo se encuentra la frecuencia
30.V = 15. El intervalo es (20- 30), luego
00

30N -N
100 . i-1
= Li- l + . e¡
n.1

15- 7
= 20 + - - ·10 = 27,27.
11
156 • SECCIÓN 2. ANÁUSIS ESTADÍSTICO DE UNA VARIABLE

Como el cuartil tercero lo tenemos calculado (C3 = 44,5) , determinemos


N .
C1 • Este valor ocupará el lugar = 12,5, que está en el intervalo (20-30), luego
4
N_N
- 4 i-1
el - Li-1 + . e¡ =
ni
12 5 7
= 20 + • - . 10 = 25.
11
El recorrido intercuartílico es una medida de dispersión absoluta que nos indica
longitud del intervalo en el que están el 50% de los valores centrales. En este caso,
R1 = 44,5 - 25 = 19,5.
(d) Coeficiente de asimetría de Bowley
A _ C3 + C1 - 2Me _
s- c3- el -
= 44,5 + 25 - 2 34,66 o = o809 > o o

44,5- 25 '

La distribución, por ser A8 > O , es asimétrica positiva.

P. -33 5
(e) 47 = 40+-'--·10; P,. =40; P.=40= 0J. }=80.
10 J 100'
El percentil 80.

~jercicio 2.38
Dada la siguiente distribución:

1 5
3 12
4 20
6 8
10 5
50

calcúlense: ·
(a) Media aritmética, mediana y moda.
(b) Desviación típica, coeficiente de apertura y coeficiente de variación.
(e) Coeficientes de asimetría de Pearson y de Fisher.
(d) Coeficiente de apuntamiento\ W\ ~4·
- "'
EJERCICIOS DE LA SECCIÓN 2 • 157

x41n1 N¡

5 5 5 5 5
36 108 324 972 17
4 80 320 1280 5 120 37
6 48 288 1 728 JO 368 45
10 5 50 500 5 000 50000 50

N= 50 219 1 221 8 337 66 465

¿x.n.
- -
X- i
- -219
1 1 -
- -- - 4 38
N 50 ' .

.-~r.na. Calculemos N = 25 ; la frecuencia acumulada que es mayor que 25 es


2
= 37 , Juego el valor de la variable que ocupa el Jugar vigésimo quinto es 4;

Me= 4.
El valor más abundante de la distribución es
Mo = 4

.,.,..,n·nil>n típica. Calculemos previamente la varianza

S 2 =a2 - a12
a1 = x = 4,38
.L:X2n
= i 1 1 = 1 221 = 24 42
a2 N 50 '
s2 = 24,42 - 4, 38
2
= 5, 2356

S = +~5,2356 = 2,29 .
158 • SECCIÓN 2. ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

Coeficiente de apenura

A = XII = .!.2. = 10 .
X1 1

Coeficiente de variación

V = ~ = 2,29 = 0,52 .
x 4,38

(e) Coeficiente de asimetría de Pearson

A = x- Mo = 4,38 - 4 = O 16 >O.
P S 2,29 '

Coeficiente de asimetría de Fisher


mJ
gl = Sl
m3 = a3 - 3a2a1 + 2a~
a1 = x = 4,38
a2 = 24,42

¿x;n; 8 337
a 3 i
N
= -50- = 166' 74

m3 = 166,74 - 3 · 24,42 · 4,38 + 2 · 4,38 3 = 13,92


luego
13,92
gl = - - 3 = 1,16
2,29
> o.
La distribución es asimétrica positiva.
(d) Coeficiente de apuntamiento. Para estudiar la curtosis utilizaremos el coeficiente
m
g1 = s: - 3
siendo
m4 = a4 - 4a3 a1 + 6a2 a12 - 3a:
a1 = x = 4,38
az = 24,42
aJ = 166,74

¿x;n;
a4 = 66 465 = 1 329 3
N 50 ,
EJERCICIOS DE LA SECCIÓN 2 • 159

luego

m~ = 1329,3- 4 · 166,74 · 4,38 + 6 · 24,42 · 4,382 - 3 · 4,384 = 114,69 ..


Por tanto,
114 69
g2
= • - 3 = 117 >
2 294 '
o
'
luego la distribución es leptocúrtica, más apuntada que la normal.

2.39'
y número de unidades vendidas de un artículo ha sido:

1999 1 000 ptas. 15 000


2000 1 100 ptas. 15 500
2001 1 300 ptas. 16 000
2002 9 euros 16 200
2003 11 euros 17 000
2004 12 euros 17 300
Nota: 1 € = 166,386 ptas.

el precio medio del artículo.

proceder a calcular la media aritmética, resulta necesario homogeneizar las


monetarias en que vienen reflejados los precios. Expresaremos en euros los
los años 1999, 2000 y 2001

li¡iE!.~~J~~~·J~~i~_;:]~;i:{;~J!~!1~i
1999 6,01 15 000
2000 6,61 15 500
2001 7,81 16 000
2002 9 16 200
2003 11 17 000
2004 12 17 300
N=97 000
160 • SECCIÓN 2. ANALISIS ESTADÍSTICO DE UNA VARIABLE

Así,
n
¿x;n;
x = ~ = 857 965 = 8 84 €
N 97000 '

Ó, 8,84 ·166,386 = 1470 ptas.


. ,
ncentracton

«dispersión» y «COncentración» tienen significados opuestos, el


estadístico de ambos conceptos no coincide con el que corriente-
a ambos vocablos.
punto de vista estadístico la «dispersión» hace referencia a la va-
los datos y, por tanto, a la mayor o menor representatividad de los

de concentración, sin embargo, tratan de poner de relieve el ma-


grado de igualdad en el reparto del total de los valores de la varia-
tanto, indicadores del grado de equidistribución de la variable.
tienen especial aplicación a variables económicas (rentas,
. En una distribución estadística, de rentas por ejemplo, desde el
de la equidad económica ni la media, ni incluso la varianza son
lo que verdaderamente interesa es la mayor o menor igualdad en
los componentes de la población; es decir, que esté equitativa-

fin están concebidos los estudios sobre concentración. En primer


. .DJit.anlOS concentración a la mayor o menor equidad en el reparto
IOOll de la variable considerada (rentas , salarios, propiedades, etc.).
163
164 • SECCIÓN 3. DESIGUALDAD

Es decir, si suponemos que la distribución es de rentas y que tenemos


rentistas cuyas rentas son:

n
nos interesa estudiar hasta qué punto la suma total de rentas L x; está equitati-
i =1

vamente repartida.
No cabe duda que las infinitas posiciones de reparto que se nos pueden pre-
sentar estarán incluidas entre las dos siguientes situaciones extremas:
l. Concentración máxima: cuando de los n rentistas, sólo uno percibe el total
de renta y los demás nada:
para xn ~ o.
2. Concentración mínima o equidistribución: todos los rentistas perciben la
misma cantidad:

De los diferentes estudios teóricos sobre este tema, vamos a desarrollar los
conocidos de Gini, Lorenz y Theil.

Sea una distribución de rentas (x.;


1
n.),
1
donde los valores X.
1
están ordenados
de menor a mayor, a partir de la cual vamos a formar las siguientes columnas:
l . Los productos x;n; , que nos indicarán la renta total percibida por los n;
rentistas de renta individual xl. .

2. Las frecuencias absolutas acumuladas N; .

3. Los totales acumulados u; , que se calculan de la siguiente forma:


CONCENTRACIÓN • 165

la renta total percibida por los N; primeros rentistas.

columna de frecuencias acumuladas relativas, que expresaremos en tan-


por ciento, y que aquí llamaremos P; t .

M:ull:tda la renta total para todos los rentistas, que evidentemente será un ,
lllllres:aremc,s cada u; en tantos por ciento de un. A este porcentaje le lla-

N u.
pJ =.:.:J.. · lOO q. = _l ·lOO
N l Un

~ P¡ ql
n2 Xz ~ u2 p2 q2
~ XJ~ NJ UJ PJ qJ

n.1 x;n; N; U¡ P; q;

nn x.n. N. =N u. pll = 100 qn = 100

N u.

visto así puede parecer muy abstracto; veamos un ejemplo referido al


50 trabajadores, para aclarar estas primeras ideas:

NI
p .= - · 100.
' N
u.
q. = ....!... . 100 .
1 u
n
166 • SECCIÓN 3·. DESIGUALDAD

Marca N°de N"acumul. Volumen n u


Su/ario
semanal clqse rrabajadores ri'{Jbajadbres salario&
u,= r
••1
x,n, N, 00
p.=-·1 q, =-L
' N u.
( 103 euros) ( x,) (n,) (N¡) (X¡Il,) (u,) (p¡) (q)

0,5 - 1,5 1 5 5 5 5 10 3,16


1,5- 2,5 2 14 19 28 33 38 20,88
2,5-3 ,5 3 15 34 45 78 68 49,36
3,5-4,5 4 7 41 28 106 82 67,08
4,5-5,5 5 4 45 20 126 90 79,74
5,5-6,5 6 3 48 18 144 96 91,14
6,5-7,5 7 2 50 14 158 100 100,00

Si relacionamos las dos últimas columnas, obtenemos la información que


nos indica el <<reparto» de los salarios, poniéndonos de relieve la concentración
de los mismos. En efecto, ordenados los trabajadores de menor a mayor sala-
rio, resulta que el 10 por 100 de los trabajadores se reparte el 3,16 por 100 del
total de salarios de la empresa, el 38 por 100 de los trabajadores recibe sola-
mente el 20,88 por 100 del total de salarios, el 68 por 100 sólo el 49,36 por
100, etc. Si los salarios estuvieran equidistribuidos, el 10 por 100 de los traba-
jadores recibiría el 10 por 100 de los salarios, el 38 por 100 recibiría el 38 por
100 del total, etc.
Esta distribución de salarios, o de rentas, se puede materializar gráficamen-
te, obteniéndose la llamada <<curva de concentración o curva de Lorenz» (Fig.
6.1).

de Lorenz

o 100 P¡%

FIGURA 6.1. Curva de Lorenz

Dibujemos un cuadrado cuyos lados están divididos en una escala de 1 a


100. En el vértice inferior izquierdo está el origen de coordenadas, en el eje de
CONCENTRACIÓN • 167

representamos P; y en el de ordenadas q;. (Dibujamos en una escala


a 100 porque éste será su campo de variación, al ir las variables P; y q;
en porcentajes). Podemos entonces ir representando los puntos
que, al unirlos entre sí, nos determinan una poligonal llamada «curva

curva que ·se obtiene necesariamente habrá de situarse por debajo de


_a que los salarios están ordenados de menor a mayor

· que tener en cuenta que, en algunas ocasiones, se prefiere cambiar la


.........a .....·.vu poniendo % en el eje de abscisas y P; en el de ordenadas, para

la homogeneidad con el criterio de que las frecuencias se sitúan en el


ordenadas. En este caso, y en un ejemplo como el nuestro, la curva de
estaría situada por encima de la diagonal del cuadrado. La curva sería
creciente, y si tenemos q; representada en abscisas y P; en ordenadas,
~mem:as cóncava.
volviendo al supuesto original ( P; en abscisas, q; en ordenadas) la cur-
por debajo de OB , con lo que sería imposible que el P; % de los pri-
asalariados superara ese mismo porcentaje en cuanto a volumen de salario
q;. Así pues, no puede haber ningún punto por encima de OB.

-wu•...u por la ordenación de salarios, de menor a mayor, la curva tendrá


siempre creciente, ya que se consideran porcentajes obtenidos de totales
Empezará en el origen O (0, 0), ya que el 0% de los rentistas
_......... del O% de la renta, y terminará en B ( 100%, 100%) por un raza-
análogo.
curva que nos indicaría la concentración mínima coincidiría con la dia-
OB , ya que en ella P; = q; . La concentración mínima es equivalente a
y ya sabemos que, en ese caso, todos los rentistas percibirán la
cantidad, por lo que al acumular resulta evidente que el 10% de los
•1on~s (rentistas) percibirán el 10% del salario; el 25% de los trabajado-
25% del salario, etc.
caso más desfavorable sería aquél en que tuviéramos, por ejemplo, cien
de los que noventa y nueve no percibieran nada y el trabajador
lo percibiera todo. Es decir, hasta el 99% de los trabajadores acumulan
del salario y el último dispone del 100%. La curva de Lorenz estaría
por los lados OA y AB del cuadrado (Fig. 6.2).
168 • SECCIÓN 3. DESIGUALDAD

lOO

~ Concentración
máxima

A
o

FIGURA 6 .2

Luego podemos empezar a .pensar que cuanto más próxima esté la curva a
la diagonal OB mejor será la distribución de la renta, en el sentido de más
equitativa.
En total concordancia con la curva de Lorenz, podemos estudiar la concen-
tración a través del siguiente índice de concentración de Gini:

i = 1
/G =- -n-- -,..-1- -

LP¡
i = 1

Sabemos que si la concentración es mínima, es decir, si la renta está repar-


tida por igual,

entonces

En el caso de concentración máxima, solamente el último trabajador percibe


renta, por lo que:
ql = % = ... = qn-1 = O
CONCENTRACIÓN • 169

n-1 n-1
L(P;- q¡) Í:(P;- O)
i ~ 1 i ~ 1
IG n- 1 = n-1 = 1
LP; LP;
i ~ l i~ 1

~CIQIO
de variación de IG va, pues, de cero a uno; e IG responderá a
•mucwn tanto más justa de la renta o del salario cuanto más próximo

o 100

FIGURA 6 .3

otra parte, se puede demostrar fácilmente, para una curva de Lorenz tal
la representada en la figura 6.3, que el índice de Gini es aproximada-
~ al área encerrada entre la diagonal OB y la curva (área rayada)
~
por el área del triángulo OAB. Es decir

, ~B
Areao
1G :::: ....,Á,-r_e_a--=---~
8
170 • SECCIÓN 3. DESIGUALDAD

Si la concentración era mínima la curva coincidía con la diagonal OB , coa


lo que el área del numerador sería cero e IG = O.

La concentración máxima determinaba una curva formada por los lados OA


y AB del cuadrado. En este caso, las dos áreas serían iguales e IG = 1 .

O A P;% A P;%
Distribución de concentración mínima Distribución de concentración máxima

FIGURA 6.4

Pero entre los dos casos extremos representados en la figura 6.4 están los
casos intermedios , en los que la curva de Lorenz es más curvada cuanto más
desigual sea la distribución, y más fuerte la concentración.

A: distribución con un grado


de concentración débil.
B: distribución con un grado
de concentración más fuerte.

P;%
CONCENTRACIÓN • 171

iibimo, cabe señalar que si bien el índice de Gini tiene la ventaja de re-
una sola cifra las complejas informaciones expresadas por la curva de
por lo mismo, permite comparar más fácilmente que la curva la con-
de dos distribuciones, esta ventaja tiene su contrapartida: dos distribu-
aspectos muy diferentes pueden, en efecto, tener dos índices de caneen-
del mismo valor. Así, las distribuciones representadas por las siguientes
de Lorenz A y B tienen el mismo grado de concentración global, pero la
del reparto de la variable no es la misma (Figs. 6.5 y 6.6).
un ejemplo de estas medidas.

A y B tienen 100 trabajadores cada una. Los salarios anuales por trabaja-

A: 20 perciben 8 000€
10 ((
10 000 €
10 << 12 000 €
10 << 15 000 €
50 << 75 000 €
B: 10 perciben 8 000 €
30 << 10 000 €
35 << 12 000 €
24 « 15 000 €
1 << 75 000 €

Para la empresa A será:

n- 1

L (P; - q¡) 108 93


/
GA
::= i e 1
n- 1
::= - - '-
140
::= o, 778 •
LP;
i = 1
172 • SECCIÓN 3 . DESIGUALDAD

Para la empresa B sería:

8 000
}¡t N¡

10
x1n1
n
l:x,n,: u;
/•l
p.
'
'N..
= :.:L
N
. 100
' ~ ~"4
"
q. = iu'' ·100
u.

6,48
P,-1
3,5~
10 80000 80 000 10
10000 30 40 300 000 380 000 40 30,77 9,23
12 000 35 75 420 000 800 000 75 64,78 10,22
15000 24 99 360 000 1 160 000 99 93,93 5,07
75 000 1 100 75 000 1 235 000 lOO 100,00 -
100 1 235 000 28,04

ll-1

¿ <P; - q¡) 2s 04
1G, = l= 1 rr-1 ' - = o,125.
= -224
LP;
1=1

6.3 Eoeficiente de
concentración de Theil
La entropía es una medida de orden-desorden dentro de un sistema que puede
utilizarse para determinar la mayor o menor equidad en el reparto de una mag-
nitud económica. Veamos a continuación cómo se utiliza en el análisis de la
concentración.
Consideremos un conjunto de N rentistas cuyas rentas son:

tales que
N
,Lx; =X,
i=l

siendo X el total de renta que se distribuye entre los N rentistas analizados.


Si determinamos el porcentaje de renta total o alícuota que le corresponde a
cada rentista
x.
P; = _¡_
X
.....__...CONC ENTRACIÓN • 173

N
'_¿pi= 1 = 100%.
i=1

la entropía en la distribución de la renta viene dada por la

N N 1
HN (x) =- "'_¿ P; logp; = ¿ P; log-
; =1 ; = 1 P;

entre otras, verifica las siguientes propiedades básicas:


~o es necesario ordenar las observaciones de menor a mayor.
HN (x) es siempre positiva dado que todos los log P; ::;; O, al ser
O::;; P; ::;; l.

En el caso de concentración mínima o equirreparto, entonces

'íli

con lo que
N 1 N 1 1
HN(x) = L:P; log-
; =1 P;
= L:-log- =
; N 11N =1

1
= N-logN = logN.
N
En el supuesto de concentración máxima habrá un P; = 1 = 100% , el
resto de los pi = O para j * i, obteniéndose quet
N 1
HN (x) = ¿ P; log- =
; = 1 P;
= o+ o+ ... + 1. o+ ... + o = o.

tendremos los siguientes tipos de sumandos:


1 1
log -
• Um p, log _!_ = lím __!i = Hm _Ji = 11m p = O
p,~ 0 p1 P,~o _!_ P,~o __!_ P,~o '
p, p,z

• 1 1
p1 log - = 1 log - = llog 1 = 1 · O = O .
P¡ 1
174 • SECCIÓN 3. DESIGUALDAD

[IJ Lo anterior nos lleva a que el campo de variación de H N (x) es:

O < H N (x) ~ logN.

Teniendo en cuenta estas propiedades , Theil propuso a la entropía como


medida de la equidad en la distribución de magnitudes económicas por el
guiente motivo: varía en función de N, reflejando la diferente '"""1 ""''"rr·,r-~.-­
relativa, al recoger el efecto del número de elementos.
También podemos utilizar otra medida derivada de la entropía, deriOIIIJll:3llla:
redundancia, que es el coeficiente T de Theil y cuya expresión es:

1T = logN - H N (x) para O ~ T < logN 1


que, cuando la desigualdad es mínima, toma el valor cero, y cuando sea máu-
ma es igual a Iog N, es decir, que se interpreta en sentido opuesto a la entropía..
Generalmente, sin embargo, se utiliza como índice de concentración la redwt-
dancia relativa

logN- HN (x) HN (x)


T = =1- . para O~~ <1
r logN logN

índice que varía entre O y 1, que posibilita las comparaciones, pero que,
embargo, pierde la información sobre el número de partícipes N.

EJEMPLO
Determínese el coeficiente de concentración T de Theil que existe en la siguiente distri-
bución de una herencia:

40 000 0,1429 -0,844968 -{),120746


21 000 0,0750 -1,124939 -{),084370
89 000 0,3178 -ü,497846 -{),158215
115 000 0,4107 -0,386475 - 0,158725
15 000 0,0536 -1,270835 -{),068117
280 000 1,0000 -0,590173
CONCENTRACIÓN • 175

N
T = log N + Í: p1 log p1 =
; = 1

= log 5 - 0,590173 =
= 0,698970- 0,590173 = 0,108797.

T = 0,108797 = O1556 .
r 0,698970 '
176 • SECCIÓN 3. DESIGUALDAD

Ejercicios resueltos

EJERCICIO 1
Supóngase que dos padres de familia, cada uno de ellos con cuatro hijos, deciden
testar y repartir su patrimonio de la siguiente forma:

PadreA Padre$

1er hijo 100 000 1 200 000


2° hijo 500 000 1 300 000
3er hijo 300 000 1 400 000
4° hijo 100 000 1 100 000

¿Cuál de los dos repartos es más equitativo? Justifíquese el resultado de acuerdo


con el análisis estadístico del reparto.

SOLUCIÓN. Calculemos los índices de Gini para cada testamento:

Padre A
Previamente hay que ordenar los patrimonios heredados de menor a mayor; a continua-
ción formamos la siguiente tabla:

X¡ nc x¡nt U¡ N¡ Pt% q¡%

100 000 2 200 000 200 000 2 50 20


300 000 1 300 000 500 000 3 75 50
500 000 1 500 000 1 000 000 4 100 100

4 1 000 000

El índice de Gini para este reparto será:


CONC ENT RACIÓN • 177

lo mismo que en el caso A:

1 200 000
1 300 000
1400 000 4

4 5 000 000 10

el índice de Gini será:


n- 1
¿ (p¡- q¡ )
_i=- 1
----,-- = _!Q_ = o 066
n- 1 150 '
i
LP;
=1

O, 066 < O, 44 , podemos concluir que el reparto del padre B es más justo, ya
d reparto será tanto mejor o más justo cuanto menor . sea el índice de concentra-

salarios de los 150 empleados mejor remunerados de una


multinacional es la siguiente:

187 000 21
204 000 25
280 000 30
325 000 17
450 000 15
500 000 18
620 000 14
1 000 000 10

150

Hállese el índice de Gini.


Represéntese la curva de Lorenz.
178 • SECCIÓN 3. DESIGUALDAD

SOLUCIÓN

187 000 21 392 700 392 700 21 6,84 14,00


204 000 25 510 000 902 700 46 15,73 30,66
280 000 30 840 000 1 742 700 76 30,37 50,66
325 000 17 552 500 2 295 200 93 39,99 62,00
450 000 15 675 000 2 970 200 108 51,76 72,00
500 000 18 900 000 3 870 200 126 67,44 84,00
620 000 14 868 000 4 738 200 140 82,57 93,33
1000 000 10 1000 000 5 738 200 150 100,00 100,00

n-1
I (P¡ - q)
111 95
IG
i=1
n- 1 = 406,65
• = o,2753
LP¡
i=l

Como 0,2753 no está muy lejos de cero podemos decir que los salarios
bastante bien repartidos.
(b) La curva de concentración de Lorenz que mostramos en la figura 6.7 se forma
los porcentajes P;• q¡ , llevando P; a abscisas y q; a ordenadas. Observando la cllr\1l
comprobamos su coherencia con el mdice calculado, puesto que cuanto más próxima
esté la curva a la diagonal OB menor será la concentración, y mejor será el reparto.

100 1-- - - - - - - - - - - - - - . . . B
90
80
70
60
50
40
30
20
10

o 10 20 30 40 50 60 70 80 90 100 p¡%

FIGURA 6.7
Ejercicios
DE LA SECCIÓN 3
EJERCICIOS DE LA SECCIÓN 3 • 181

que, si Y = kX , los coeficientes de concentración de Gini de X e Y

Sea la distribución X = (x;; n;) , cuyo coeficiente de concentración de

i=l
1c (X) = .:.__:_n--1,.---
LP;
i=l

i
'L,n;
p . =N._ , =
i=l
--
1 N N

la variable Y = (y1 ; n1 ) es tal que y1 = kx1 , entonces tendremos que

/
0
(y) = / 0 (x) .

3.2
de 100 familias en el último año fue:
182 • SECCIÓN 3. DESIGUALDAD

Alwn·o Número de
(en euros) familias

(- 1000)- o 16
0- 500 20
500 - 1 000 32
1000-2000 24
2 000-5 000 8

100

Determínese el nivel de concentración del ahorro, según los tramos establecidos.

SOLUCIÓN. Tanto el índice de concentración de Gini como las medidas de des-


igualdad de Theil, basadas en el concepto de entropía, no pueden calcularse, ya que, en
ambos casos, es necesario que las variables sean positivas.
En este ejemplo, en el primer intervalo se integran 16 familias con un ahorro nega-
tivo en el año, lo cual es factible económicamente, bien porque se produjera desahorr
con cargo a los niveles alcanzados en ejercicios anteriores, bien porque el exceso de
consumo de ese período se cubra a través de endeudamiento con cargo a ejercicios
futuros, pero, en cualquier caso, no pueden determinarse estas medidas de concentra-
ción.

Ejercicio 3. 3
En una determinada provincia, las rentas percibidas se han distribuido según la
siguiente tabla:

4- 10 25 000
10 - 20 15 000
20- 25 30 000
50- 100 25 000
100- 150 5 000

100 000

Estúdiese la distribución de la renta a través del correspondiente índice de


concentración.
EJERCICIOS DE LA SECCIÓN 3 • 183

Formemos la siguiente tabla:

11¡ x.l X¡ll¡ U¡ NI P¡% qi% P;- qi

25 000 7 175 000 175 000 25 000 25 4,9 20,1


15 000 15 225 000 400 000 40 000 40 11 ,2 28,8
30000 22,5 675 000 1 075 000 70 000 70 30,1 39,9
25 000 75 1 875 000 2 950 000 95 000 95 82,5 12,5
5 000 125 625 000 3 575 000 100 000 100 100,0 0,0

N = 100 000 3 575 000 101,3

n- 1
L/P; -q¡)
1 - i : 1 = 101,3 =o 44.
G- n-1 230 '
LPi
1
i :

rema está concentrada, aunque no excesivamente, ya que el índice de concentra-


más próximo a cero que a uno.

3.4
tenía, a 31-ll-2003, 11 053 accionistas. La distribución del capital social
siguiente:

o- 25 7 568
25- 50 1 746
50- 100 934
100-500 725
Más de 500 80

11 053

Determínese el número medio de acciones que poseía cada accionista.


¿En qué medida está repartido el capital entre sus accionistas?
Tómese como marca de clase del último intervalo 8 000.
184 • SECCIÓN 3 . DESIGUALDAD

SOLUCIÓN
(a) Formemos la siguiente tabla:

ll¡

0- 25 7 568 12,5 94 600


25 - 50 1 746 37,5 65 475
50- 100 934 75,0 70 050
100-500 725 300,0 217 500
Más de 500 80 8 000,0 640 000

N= 11053 1 087 625

El número medio de acciones será:


n

L:X;n;
x = _i=-1- -
1 087 625
= - - - - = 98,4 acciones/accionista.
N 11053

(b) Para estudiar en qué medida está repartido el capital social entre sus accionistas
determinaremos el índice de concentración de Gini
n-1
L(P;- q;)
i=1
le n-1

LP;
i= 1

Tenemos que
·n-I

LP; = 344,5
i=I

luego

258,9 = o75 .
le = 344,5 ,

Como hemos comprobado, le = 0,75 está más próximo a uno que a cero.
Esto nos indica que hay una fuerte concentración del capital social en unos pocos
accionistas. El número medio de acciones por accionista, en este caso, no será
significativo.
EJERCICIOS DE LA SECCIÓN 3 • 185

3.5
empresa trabajan 20 000 productores, cuyos salarios, según categorías,

10 - 20 12 000
20- 40 6 000
40- 50 1000
50 - 100 800
100-200 200

20 000

...,,.....,;"'"""' el coeficiente de concentración de Gini.


parte de la nómina percibe el 5% del personal mejor pagado?
porcentaje de productores percibe el 50% de los salarios?

n- l
'L:<P¡- q)
i ~ l

n-l

LP¡
i ~t

Para calcularlo debemos formar la tabla siguiente, después de cerciorarnos de


los valores de los salarios están ordenados de menor a mayor, usando, por
parte, como representante de cada intervalo salarial, su marca de clase.

N = 20000 495 000 59,2


186 • SECCIÓN 3. DESIGUALDAD

Por tanto,
n-1
L (P; - q¡)
.:...;~-'1---:-- = 59,2 ::: o17
n- 1 344 ,
LP;
i~l

ya que
n- 1 n
¿ P; = LP; - 100 = 444 - 100 = 344.
i = 1 i~l

Como este coeficiente está próximo a cero, la masa salarial está bastante
repartida.
(b) El 5% del personal mejor pagado será el que va del tramo del 95% al del 1
(véase la columna P; ). A este 5% de trabajadores le corresponde el siguiente
centaje de la nómina
100%- 81,8% = 18,2%

ya que al P; = 100% le corresponde el q; = 100% , y al P; = 95%


qi = 81,8%.
(e) En esta tabla observamos que al 60% de los trabajadores le corresponde el 36,4
de la nómina, y al 90% el 72,7% de la nómina. Por tanto, el 50 % de la
estará distribuida entre un conjunto de trabajadores situado entre el 60%
90%.
Para determinar este porcentaje podemos establecer, bajo hipótesis de ·
dad, la siguiente relación: como el 36,4% de la nómina corresponde al 60% de
trabajadores, el 13,6% restante, hasta completar el 50%, será tal que
90%-60% X

72,7 % - 36,4% 13,6%

de donde
408
X=--=11 2%
36,3 ,

y, por tanto, el 50% de los salarios se lo repartirán entre el 60% + 11,2% = 71,2 'l
de los trabajadores.
EJERCICIOS DE LA SECCIÓN 3 • 187

3.6
se determinaron las siguientes distribuciones de la

1,5 0,5 - 1,5 583


2,5 225 1,5 - 2,5 435
4,5 182 2,5 - 4,5 194
4,5 - 6,5 56 4,5 - 6,5 221
6,5-10,0 32 6,5- 10,0 67

Total 840 Total 1 500

Compruébese que el índice de concentración de Gini no depende de los niveles


* renta, síno del número de individuos incluidos en cada nivel.
Determínese la concentración de renta para el conjunto de las dos regiones.

Observamos que los niveles de renta establecidos son los mismos para cada re-
p.)n; para comprobar la afirmación propuesta calcularemos los índices de Gini pa-
a cada una de estas regiones.
Formamos, pues, las siguientes tablas:

2 225
3,5 182
5,5 56
8,25 32

840 2 004 79,39


188 • SECC IÓN 3. DESIGUALDAD

Regi6nB
.·' ~,, 1;~·
.,, .. ,
Marca de clase
Renta /l.
¡ xiní U¡ N¡ P;% qi% P;-

0,5 - 1,5 1 583 583,00 583,00 583 38,87 14,95 23,9:


1,5 - 2,5 2 435 870,00 1 435,00 1 018 67,87 37,25 30,6:
2,5- 4,5 3,5 194 679,00 2132,00 1 212 80,80 54,66 26,1~

4,5 - 6,5 5,5 221 1 215,50 3 347,50 1 433 95,53 85,83 9 -·


6;5 - 10 8,25 67 552,75 3 900,25 1 500 100,00 100,00 -

1 500 3 900,25 90,3$

Como el índice de concentración de Gini es

obtenemos que, para la región A,


79 39
1 (A)= • = 027
e 294,57 '

y para la región B

90 38
1 (B) = • = O 32
e 283,07 '

y, por tanto, le (A) "# l e (B), con lo que este índice depende del número de indl-
viduos incluidos en cada nivel.
(b) La distribución de la renta para el conjunto de las dos regiones es:

..
Marca de clase
Renta x.¡ n¡ X¡fl¡ U¡ N¡ P;% q¡% P;-
'
0,5- 1,5 1 928 928,00 928,00 928 39,66 15,72 23,9-t
1,5 - 2,5 2 660 1 320,00 2 248,00 1 588 67,86 38,07 29,- -
2,5- 4,5 3,5 376 1 316,00 3 564,00 1 964 83,93 60,36 23,5-
4,5- 6,5 5,5 277 1 523 ,50 5 087,50 2 241 95,77 86, 17 9,6(
6,5 - 10 8 ,25 99 816,75 5 904,25 2 340 100,00 100,00 -

2 340 5 904,25 86,%


EJERCICIOS DE LA SECCIÓN 3 • 189

su índice de concentración de Gini es

I = 86,90 = O30.
G 287,22 '

3.7

El coeficiente de concentración T de Theil se define como


n
T = logN + LP;logp;
i=l

representa el porcentaje de participación del individuo i-ésimo en el repar-


de renta (o salarios, etc ... ).
nueva variable Y, estos porcentajes son:
, Renta del individuo i-ésimo en Y
p . = - - -- - - - - - - - -
1 Total de renta Y
k Renta del individuo i-ésimo en X
=
k Total de renta X
=
= P;·
los porcentajes no varían, entonces el coeficiente Ty = Tx .

3.8
empresa de 20 empleados se registran los siguientes salarios anuales, en

82, 53, 104, 89, 87, 38, 165, 92, 230,


53, 115, 175, 124, 48, 59, 110, 280, 50.

el índice T de Theil para la concentración de los salarios.


190 • SECCIÓN 3. DESIGUALDAD

SOLUCIÓN. Una de las ventajas del coeficiente T de Theil sobre el de Gini p


medir la concentración es que no es necesario ordenar la variable de menor a mayor.
Se defme como
n
T = logN + LP; logp;,
j;¡

en donde X; son los porcentajes de participación de cada individuo en el total, que


este ejemplo será el porcentaje del salario de cada trabajador sobre el total de la ma:sa
salarial.
Para calcularlo formaremos la siguiente tabla:

Renta P, (%) Jogpl P, logp;

45 2,16 -1 ,6655 -0,035975


82 3,93 -1,4056 -0,055240
53 2,54 -1,5952 -0,040518
104 4,98 - 1,3028 -0,064879
89 4,26 - 1,3706 - 0,058388
87 4,17 -1,3799 - 0,057542
38 1,82 -1,7399 -0,031666
165 7,91 -1,1018 -0,087152
92 4,41 -1,3556 -0,059782
230 11,02 -0,9578 - 0,105550
88 4,22 -1,3747 - 0,058012
53 2,54 -1,5952 - 0,040518
115 5,51 - 1,2588 -0,069360
175 8,38 -1,0540 -0,088325
124 5,94 -1,2262 -0,072836
48 2,30 -1,6383 - 0,037681
59 2,83 -1,5482 -0,043814
110 5,27 -1,2782 -0,067361
280 13,42 -0,8722 - 0,117049
50 2,39 -1,6216 -0,038756

2 087 100,00 -1,230404

siendo
n
T = log N+ LP; logp;
j;¡

= log 20 + (-1,230404) = 1,301030- 1,230404 =


= 0,070626.

Sabemos que T varía entre cero y log N, por lo que, como en este caso T está más
próximo a cero, el nivel de concentración salarial es bastante pequeño.
EJERCICIOS DE LA SECCIÓN 3 • 191

3.9

Niveles de renta Número dé


(en l03·euros) ~ personas

0,5 - 1,5 125
1,5- 2,5 381
2,5 - 3,5 214
3,5 - 4,5 107
4,5 - 6,5 62
6,5 - 15,5 21

910

Determínese el índice de concentración de Gini.


Calcúlese el índice de concentración T de Theil.
Compruébese que una transferencia de ricos a pobres disminuye la
concentración; es decir, verifíquese si estos índices recogen la condición de
Pigou-Dalton.

El índice de concentración de Gini es


n- 1
¿ (p¡ - q¡)
1 = =
- -=1'---.,------
.:...¡
G n- 1

LP¡
i=l

125 13,74 4,94


887 55,60 35,07
1 529 79,12 60,46
1 957 90,88 77,38
5,5 2298 97,69 90,87
11 2 529 100,00 100,00

910 2 529 68,31


192 • SECCIÓN 3. DESIGUALDAD

con lo que
68 31
I
G
= 337,03
• = O, 2027 .

Hemos llamado a la marca de clase de cada intervalo Y; , y no x; , como era


habitual, para no confundir el significado que X; tiene en el coeficiente T de
Theil.
(b) El coeficiente T de Theil es
n
T = log N + LP; log P;
i=l

y si hay valores de P; repetidos (frecuencias no unitarias, es decir, varios rentis-


tas con la misma P; ), entonces este coeficiente es igual a
n
T = log N + Ln;P; log P;
i= l

siendo P; el porcentaje de participación de cada rentista en el total de renta distri-


buida.
Teniendo en cuenta que el total de renta es, como vimos en el apartado ante-
rior, 2 529 miles de euros, entonces

Con estas consideraciones construimos entonces la tabla:

P; 11.¡ !ogp; P; Iog P; n;P; Iog P;

0,000395 125 - 3,403403 -0,001344 -0,168000


0,000791 381 -3,101824 -0,002454 -0,934974
0,001186 214 -2,925915 -0,003470 -0,742580
0,001582 107 -2,800794 - 0,004431 - 0,474117
0,002175 62 - 2,662541 -0,005791 -0,359042
0,004350 21 - 2,361511 -0,010273 -0,215733

910 - 2,894446

y el coeficiente T es igual a

T = log N + L n;P; log P;


= log 910 + (-2,894446) = 2,959041 - 2,894446 =
= 0,064595 .
EJERCICIOS DE LA SECCIÓN 3 • 193

Comprobamos que tanto T como I G son relativamente pequeños, por lo que el


el de concentración de la renta es poco relevante.
l.a condición de Pigou-Dalton se traduce en la exigencia de que estos coeficientes,
existir transferencias de ricos a pobres, deben recoger este hecho, y, por tanto,
4isminuir en estos casos.
Para verificar empíricamente esta propiedad volveremos a calcular l a y T; en
caso del índice de Gini la transferencia de renta de ricos a pobres consistirá en
m trasvase, por ejemplo, de 10 000 euros de renta del cuarto nivel al tercer nivel
*renta.
Para este índice de Gini, la tabla necesaria para el cálculo será ahora:

125 125 125 125 13,74 4,94 8,80


381 762 887 506 55,60 35,07 20,53
214 652 1 539 720 79,12 60,85 18,27
107 418 1 957 827 90,88 77,38 13,50
62 341 2 298 889 97,69 90,87 6,82
21 231 2 529 910 100,00 100,00

910 2 529 67,92

67 92
I = • = O2015
G 337,03 ,

. por tanto, el índice disminuye, reflejando una menor concentración.


En el caso del índice de Theil, esa transferencia de 10 000 euros de renta su-
pone que la renta de cada individuo del tercer nivel será

642 + 10 = 652 = 3 047


214 214 ,
mientras que la de los del cuarto nivel

428 - 10 = 418 = 3 907 o

107 107 ,
Por tanto, como

X.1
194 • SECCIÓN 3. DESIGUALDAD

tendremos

Marca de clase
P¡ n.l logp; P¡logp, '~P; lOg P;
x. ,_,
'
1 0,000395 125 -3,403403 -0,001344 -0,168000
2 0,000791 381 -3,101824 -0,002454 -0,934974
3,047 0,001205 214 -2,919013 -0,003517 -0,752638
3,907 0,001545 107 -2,811072 -0,004343 - 0,464701
5,5 0,002175 62 -2,662541 -0,005791 -0,359042
11 0,004350 21 - 2,361511 -0,010273 -0,215733

910 -2,895088 1

y entonces
T = 2,959041 - 2,895088 = 0,063953

que también disminuye.


Vemos que ambos coeficientes satisfacen la condición de Pigou-Dalton.
tribuciones
ensionales

de los capítulos precedentes hemos estudiado las características fun-


de las distribuciones de variables unidimensionales de carácter
. Pero para una población dada, se pueden estudiar simultáneamente
caracteres cuantitativos diferentes. Por ejemplo, se puede medir so-
de salarios, a la vez, el salario percibido y la antigüedad en la
sobre una población de estudiantes, la nota obtenida en una prueba
de los candidatos.

..
istribución;
idimensional
frecuencias

general, si se estudian sobre una misma población y si se miden por


unidades estadísticas un carácter X y un carácter Y (ambos cuantita-
obtienen dos series estadísticas de las variables X e Y. Considerando
197
198 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

simultáneamente la dos series , es decir, para cada unidad estadística el par


valores (x;; Y) que le corresponde, se suele decir que estamos ante una
dística de dos dimensiones, o de una variable estadística bidimensional.
Se puede, evidentemente, estudiar separadamente la distribución de la pe
blación según el carácter X o el carácter Y, y resumir cada una de las distri
ciones, por ejemplo calculando, X, Sx, y, Sy' etc. r pero puede ser lillCll:;~(lJlUIO.
considerar simultáneamente los dos caracteres a fin de estudiar las posibl
relaciones entre ellos y poder responder a cuestiones como, ¿existe una relact
entre los valores del carácter X y los del carácter Y ? Por ejemplo, ¿existe ·
relación entre el nivel de salario· y la antigüedad en la empresa? o ¿exi~
una relación entre la nota qbtenida y la edad del candidato? Es dec
¿existe una relación causal entre X e Y ? , ¿la antigüedad en la empresa de[e
mina el nivel salarial?, ¿la nóta obtenida depende de la edad del candidato? En
principio, ningún instrumento estadístico puede permitir afirmar que existe
relación de causalidad entre dos caracteres. Sin embargo, existen instrumente
estadísticos que permiten revelar la existencia de coincidencias entre los valor
de dos variables; y a partir de la constatación de esas coincidencias se puede
eventualmente, formular la hipótesis de una relación causal entre los dos c.:
racteres. Éste es el interés fundamental del estudio de las variables estadísti
con dos dimensiones.
Si existen coincidencias estadísticas entre los valores de dos caracteres ,
existe una relación entre las dos variables, las coincidencias pueden ser más
menos fuertes, y la intensidad de la relación puede variar entre dos extrem~
ausencia total de ligazón o relación, o ligazón perfecta. Vamos a estudiar ahora
los dos extremos antes de entrar en el tema, más complicado, de las situaciones
intermedias.

7 .1. 1. INDEPENDENCIAS Y RELACIÓN FUNCIONAL


DE DOS VARIABLES

Cuando no existe relación entre dos variables, se dice que las variables son
independientes. Inversamente, cuando la relación entre dos .variables es perfec-
ta, se dice que las variables están relacionadas funcionalmente, lo que significa
que su relación puede ser expresada bajo la forma y = f (x) .

Diremos que Y depende funcionalmente de X cuando podamos establecer


una aplicación que nos transforme los elementos de X en elementos de Y. Pues
bien, desde el punto de vista de la Estadística, lo verdaderamente importante es
que a través de esa función, se pueden determinar inequívocamente los ele-
DISTRIBUCIONES BIDIMENSIONALES • 199

de Y conocidos los de X_(o viceversa) . Un ejemplo de este tipo de rela-


ser la existente entre el espacio y el tiempo, para una velocidad
_ .......... , en el movimiento uniforme, ya que sabemos que s = v · t , y esto
-'""'"'una determinación exacta des para los diferentes t.
existen otros tipos de características como estatura y peso, consumo y
opiniones sobre cierto tema y nivel de educación, etc., en los que no
tfllda de que existe interrelación, pero en los que es imposible definir so-
una aplicación en el sentido estrictamente matemático. Es decir, no
funcionalmente una de otra.
bien, estadísticamente es claro que el peso depende en cierta forma
estarura, el consumo de la renta, etc. Este tipo de relación no expresable a
de una determinada aplicación es la conocida como dependencia estadís-
así como la dependencia funcional no admite grados, la dependencia
sí los admite, ya que pueden existir dependencias más o menos

siruación opuesta a la dependencia funcional es la independencia coro-


entre los dos fenómenos (por ejemplo , precio de las varas de bambú en
~ producción de acero en España).

tipos de dependencia se podrían representar en un segmento de la


real, en donde en un extremo se situaría la dependencia funcional y en el
· la independencia. Los puntos intermedios corresponderían a los dife-
grados de dependencia estadística (Fig. 7 .1),

Dependencia Dependencia
funcional ..,.¡~1-------- estadística -----tliJJ>~ Independencia

FIGURA 7.1

Para distinguir la dependencia existente entre dos variables (consumo y


o entre dos atributos (opiniones y nivel de educación) hablaremos de
entre variables y de contingencia o asociación entre atributos. Este
aspecto, el relativo a atributos, será estudiado posteriormente, en el
14 con más detenimiento.
200 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIAB LES

7 .1.2. DISTRIBUCIONES BIDIMENSIONALES:


TABLAS DE CORRELACIÓN Y DE CONTINGENCIA

Sea una población estudiada simultáneamente según dos caracteres X e Y; re-


presentaremos genéricamente la distribución de variables por (x1, y,; n,) , donde
x1 , y.J son dos valores cualesquiera y n1}. es la frecuencia absoluta conjunta cid
valor i-ésimo de X con el j -ésimo de Y.
Una forma de disponer los resultados es la conocida como tabla de corre-
lación, que es una tabla de doble entrada como la siguiente:

11¡)

n.y

X
'} n.¡ n'} N

Por ejemplo, n11 nos dice el número de veces que se ha presentado x


conjuntamente con y1 ; ll¡ 2 , la frecuencia conjunta de x 1 con y2 , etc. El núme-
ro total de individuos observados es N.
Si la distribución bidimensional es de atributos , la tabla de doble entrada se
llama de contingencia. Por ejemplo, supongamos que podemos aglutinar las
diferentes respuestas a una cierta pregunta en cuatro categorías A, B, C y D , j
que intentamos relacionar estas respuestas con el nivel cultural. La tabla de
contingencia podría ser la siguiente:
DISTRIBUCIONES BIDIMENSIONALES

-- ~

Estudios
Bachillerato Superiores

'1 1 ~1 '~1

B '12 ~2 ~2

e '1 3 n23 ~3

D '14 n24 ~4

forma de disponer los resultados , a veces más cómoda, es:

X. Yj nij
1

X¡ Y¡ '11
:

X¡ Yj n ..
1}
:

xh yk nhk

DISTRIBUCIONES MARGINALES

ocurrir que, a partir de una distribución bidimensional, nos interese es-


aisladamente cada una de las variables. De esta forma tendríamos dos
.-Jou<:1o1nes unidimensionales que serían las distribuciones de X y de Y, res-

Para obtenerlas debemos determinar las frecuencias marginales. En la dis-


_ ........... . marginal de X, tenemos que hallar cuántas veces se repite cada valor
n independencia de que aparezca conjuntamente con cada valor de Y. Así,
x1 , con independencia de los valores
según la tabla de correlación, será:
k
11¡. = 11¡ 1 + fl¡z + · · · + ll¡j + ·.. + ll¡k = L nu
j = 1
202 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

que se lee «n subíndice uno puntO>> y es la frecuencia marginal de x 1 • Por tan-


to, para un valor i-ésimo de X, su frecuencia marginal será:
k
n ¡. = nii + n ;2 + · · · + n ij + · · · + n ik = L
j = 1
nij

Análogamente, para la distribución marginal de Y, la frecuencia marginal de


un valor j-ésimo cualquiera será:
h
n. j = n 1j + n 1 j + · · · + nij + · ·· + nhj = L nij
i = 1

Vemos pues que la última fila y la última columna de la tabla de correlación


anterior se corresponden con las frecuencias marginales.
Las distribuciones marginales de frecuencias serán:

X y

X¡ n.1• Yj n.
•J

X¡ n1· Y¡ n.1

xz nz. y1 n.1

x1. n.1 • yj .
n ).

xh nh· yk n.k

N N

Es claro que:
h k h k
'\'n.
¿ 1•
= '\'n
¿ •). = L ¿ nij = N
i =1 j = 1 i = lj =1

7 .1.4. DISTRIBUCIONES CONDICIONADAS

Se pueden formar otro tipo de distribuciones unidimensionales en las que pre-


viamente hace falta definir una condición. Por ejemplo, la distribución de X
DISTRIBUCIONES BIDIMENSIONALES • 203

xJyz 1l¡p.

'"
X¡ 71¡2

x2 n22

X. ni2
1

: :

xh nh2

n.2

En general, las distribuciones de X condicionadas a un valor cualquiera de Y

..
x;jyj n¡¡¡
,,,.
X¡ Tl¡j
x2 n2j

:
X.1 n ..
1}

:
xh
nhj

n.
•)

!\ná.logamente, las distribuciones de Y condicionadas a un valor i-ésimo de


204 • SECCIÓN 4. ANÁLI SIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Yijx; nj/1

Y¡ ni l

y2 ni2

yj nij

yh nik

n.
1•

Las frecuencias relativas de las distribuciones condicionadas a algún valor


de Y, o a algún valor de X serán, respectivamente,
n..
f i/j = .:...!!.._
n.
•J

A continuación, veamos un ejemplo.

EJEMPLO
Sea la siguiente tabla de doble entrada

~ 5
1

1
2

2
3

1
4

3
n.1•

10 2 1 3 2 8

15 3 2 1 2 8

n . 6 5 5 7 23
•J

Se pide calcular:
(a) La distribución marginal de la Y.
(b) La distribución condicionada de X/Y = 2.
DISTRIBUCIONES BIDIMENSIONALES • 205

y. fl. 11
·j/N
J •J

1 6 6/23
2 5 5/23
3 5 5/23
4 7 7/23

23 1

X;¡y,z ni/2 /1/2


5 2 2/5
10 1 115
15 2 2/5

5 1

INDEPENDENCIA ESTADÍSTICA

\'ariables X e Y se dice que son independiente estadísticamente cuando la


_ ...... ,·,.. relativa conjunta es igual al producto de las frecuencias relativas
..,...uu,,.,, es decir

Vi, j.

este caso, las frecuencias relativas condicionadas serán


n .
n. _.:)_
N
nij n;. 1·
f;¡j = - = -- = -
n.•J n.
•J
N
n.
n_:j_
f = nij = ~ = n.j
jfi n. . n. N
l• 1•

Es decir, las frecuencias relativas condicionadas son iguales a sus corres-


--n't"" frecuencias relativas marginales, lo que nos indica que el condicio-
....,,.."'r", en cuanto tal, no existe: las variables son independientes, puesto que
206 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

en las distribuciones marginales se estudia el comportamiento de una vari


con independencia de los valores que pueda tomar la otra.

Representaciones gráfic·a s

En cuanto a la representación gráfica más utilizada en el caso bidimensional


consiste en representar cada pareja de valores por un punto en un espacio euch-
deo bidimensional. Por tanto, la distribución vendrá representada por un con-
junto de puntos que recibe el nombre de nube de puntos o diagrama de dis-
persión. Cuando una pareja de valores está repetida, junto a la representación
del punto correspondiente se indica el valor de su frecuencia. Así está indicado
por ejemplo en la figura 7 .2.

>< n ..
Yj - - - - - - - - - -- -------":< '1
>< :
>< >< :
1
>< :
1
1

FIGURA 7.2

Y extendiendo la representación gráfica a tres dimensiones, asignamos un


eje a la variable X, otro a la variable Y, y el tercero para las frecuencias (Fig.
7.3).
DISTRIBUCIONES BIDIMENSIONALES • 207

X
FIGURA 7.3

representación gráfica de la nube de puntos puede hacerse tanto con da-


-....uv·"'-''-'" (en cuyo caso se representarían las marcas de clase) como con
sin agrupar. En el diagrama de tres dimensiones (Fig. 7 .4) (similar al
y utilizando los límites de intervalos - no marcas de clase- , el «es-
_....,,rn,," más adecuado es el constituido por paralelepípedos cuyo volumen
correspondiente frecuencia, y los lados de la base cada una de las ampli-
de los respectivos intervalos de las variables, y donde nu es el volumen
•'3..1e:Jer>iDI:!dO y h..1) la altura del mismo.

FIGURA 7.4
208 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Moméntosen
·distribuciones
bidimensionales

7 .3.1. MOMENTOS RESPECTO AL ORIGEN

De la misma forma que se definen los momentos en las distribuciones


mensionales, se pueden considerar en las bidimensionales. También cabe
tinguir momentos respecto al origen y momentos respecto a la media.
El momento de orden (r, s) respecto al origen, para la distribución
mensional (x;, yj; nij) se define como:

h k n..
ars :L :L x;y; _!!_
; = tj = 1 N

Los momentos de primer orden serán a 10 y a 01 :

h k n..
a1o = L L x>J N
; = tj = 1
_!!_ =
h k n.. h k n..
= LL
i=tj=l
X¡ _!!_
N
= L X¡
i=!
L
j=t
_!!_
N
=
n.
h
= ¿x¡ _,
_. = x
i=t N
h k n..
ao1 = L L x~y} N
; = tj = t
_!!_ =

h k n.. k h n..
:L :L Yj N = :L Yj :L _2_ =
i=tj=t
_!!_
j=t i=tN

k n.
= ¿
j =t
Yj ___:¿_
N
=y

Los momentos de segundo orden serán a20 , a02 y a 11 :


DISTRIBUCIONES BIDIMENSIONALES • 209

h k n..
ao2 = 2:~ 2: x~ y~ __!!_
¡ tj = tN
=
h k n.. k h n ..
= 2: 2: y~ N = 2: y~ 2: N
i~tj=t
__!¿_
j=t i=t
__!¿_ =
k n.
=l:l_:¿_
j = t ¡ N

MOMENTOS RESPECTO A LAS MEDIAS

que a 10 = .X y a01 = y. El momento de orden (r, s) respecto a las


o momento central se define como:

tanto, los momentos de primer orden m10 y m01 serían


210 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Análogamente
mo, =O.
Por su parte, los momentos de segundo orden (m20 , m02 , fr1 1) serían
h k n..
= ¿ ¿ (xí - xi (y¡. - y) 0 _!!_
N
=

h k n. h k n..
= L L (X xi 1
- _!!_ = L (X¡ - xl L __!!_ =
í=lj=I N í=l j=I N
h n.
= ¿ (x. - xl-r•
í = 1 Nr
=S 2
x

Luego los momentos m20 y m02 son, respectivamente, las varianzas de


de Y.
Al momento m11 se le llama covarianza y también se le representa por S
por tanto,

7 .3.3. CÁLCULO DE LOS MOMENTOS CENTRALES


EN FUNCIÓN DE LOS MOMENTOS RESPECTO
AL ORIGEN
De igual forma que los momentos de las distribuciones unidimensionales,
momentos centrales de una distribución bidimensional pueden expresarse
función de los momentos respecto al origen.
DISTRIBUCIONES BIDIMENSIONALES • 211

h k n.. h n
=L L (x; - x)2 __!!_ = ¿ (x; - x)2 __!:_ =
t= lj=J N i = J N

h n.1 h n. h n. h n.
= L (x; - 2x;x + x 2 ) - -· = ¿ x; -~-· - 2x¿ x; -~-· + x 2 ¿- 1
-· =
·=1 N i =J N i=J N i =IN

- - 2 1 2 2 2 2
= a2o - 2 xa1o + x · = a2o - a1o + a¡o = a2o - a1o

s2 = m2o = a2o -aJo


2
X

s2y = mo2 = ao2 2


- aoJ.

h k n ..
L L (x; - x) (yj -y)_!!_ =
; = lj = 1 N
h k n..
= L. "
"' L.' ( x iyj - -
xyj - -yx; + x- -
y )- 1) =
; = Jj = 1 N
1z k n.. h k n..
·= L. "
"' L.' L.' "
x i y j1)- - x- " L.' y j -
IJ -
i=lj=J N i=lj=l N

/¡ k n.. h k n..
-y L L xi_!!_ + xy L L
i =l j = l N
__!!_
i=lj=IN
=
= a 11 - x · a01 - ya¡ 0 + xy · 1 =
212 • SECCIÓN 4. ANÁLI SIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

7 .3.4. TRANSFORMACIONES LINEALES Y VALOR


DE LAS VARIANZAS Y COV ARIANZAS
Supongamos que a partir de las variables X e Y, en donde sus
principales son:
- y,
X, - Sx2 ' Sy'
2 s~
se efectúan sendas transformaciones lineales, en donde los valores de las
vas variables transformadas son:
x; = a1 + b1x;
Y~ = a2 + b2yj
Según vimos , en el capítulo 3, sus valores medios serán
x' =:al + blx

Y' = a2 + b2y
Por las propiedades de la varianza tendremos que sólo el factor de escala
( b1 o b2 , en cada caso) le afectará, siendo invariantes respecto a los compo-
nentes de cambio de origen, es decir,
(S' )2
X
= b21 s2 X

(S'y )2 = b22 s2y


o, lo que es lo mismo, en términos de desviaciones típicas,
S'X = bS
1 X

S'y = b2S y
Vamos, por último, a estudiar cuál será el valor de la covarianza de las
nuevas variables . Tendremos, pues, que
h k n ..
S~ = m; 1 = L L <x; - x') (y~ - f ) _jL =
; ;1 j ;J N
h k n..
=L L [(a 1 + b1x) - (a1 + b1x)] [a2 + b2 y) - (a2 + b2 y)] _iL =
;;¡ j ;J N
h k n ..
= L: L: [bl <x; - X> b2 <Yj - Y>l _jL =
; ; ¡ j ;I N
h k n..
= blb2 L L (x¡ -
; ;¡ j ; I
x) (yj - y) _!L
N
=

= blb2Sxy .
DISTRIBUCIONES BIDIMENSIONALES • 213

Por tanto, a la covarianza tampoco le afectan los cambios de origen, aunque


~....,.,."' de los cambios de escala.

VALOR DE LA COVARIANZA EN CASO


DE INDEPENDENCIA ESTADÍSTICA
acabarnos de comprobar:
S xy = mil = al! - a1o · ao1 ·

condición de independencia estadística era:


nij n;. n.j
=-·-·
N N N

h k n..
all = LL
; = lj = 1
x;yj _!L
N
=
h k n n.
= .L .L
i=lj= l
xiyj __!_:_ • __:_!._ =
N N
h n k n.
= L
i=l
X;__!_:_ L Yj
Nj=l
__:_!._
N
= a1o · ao1

la covarianza, cuando son independientes las variables, será:


Sxy = mil = all - a!O . aOI =
= aJO . a OI - a!O . aOI = Ü

lallto, si las variables son independientes su covarianza es cero.


que hacer notar que el recíproco no siempre es cierto, es decir, el he-
que la covarianza sea nula no implica necesariamente que las variables

datos de la siguiente tabla, obténganse las medias, las varianzas y la covarianza de


X e Y. Estúdiese la posible existencia de independencia entre las variables.
214 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

SOLUCIÓN

<'i
r 2 4 n.1•
t
x.w.·
1 '' l•
LY

5 1 o 2 3 15 75 9
10 2 o 3 30 300 4
15 o 3 4 60 900 14

11 .
•j
3 2 5 10 105 1 275 295

y j 11· j 3 4 20 27

2 3 8 80 91
y J. 11•J.

Por tanto

""x.n.
~ 1 l• 105
x= 1

N
= - = 10 5
10 '

Por otra parte,

1275
S2 = a 20 - :X
2
= - 10 52 = 17' 25
X 10 '

S2
y
= a02 - y-2 = 2.!..
10
- 2 72
'
= 1' 81

N
sxy = all - :xy = 29,5 - 10,5. 2,7 = 1,15
Para ver si las variables son independientes recordemos el resultado según el cual si las
variables son independientes su covarianza es cero.
Aquí,

sxy = 1,15 * o,
luego, no son independientes.
PÍTUL0 .8

terpolación

JUSte

x1, x2 , ... , xn de valores distintos de una variable X así co-


11Ye5J>Onldlé~nt¡~s de otra variable Y, y1 , y2 , .. . , yn , se llama interpola-
de cálculo por el cual se obtiene un valor de la segunda variable
_.....,....,,.. a otro de la primera comprendido entre dos consecutivos de la

de valores (x; ; y¡), que constituyen un conjunto de puntos aisla-


....__.vu''" discontinuas, determinan una función que no ha de ser
algebraica, pero que, si es conocida, reduce el problema a un
aritmético. Cuando esa función no está determinada, la interpo-
en el principio de continuidad, haciendo pasar una curva por los
-"'"""r1,...., y atribuyendo a los otros las coordenadas de ésta.

215
216 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Hasta ahora estábamos hablando del problema de la interpolación; es


determinar un valor de Y para un x0 que no figura en la d ·
(x1, x 2 , ••. , xn) pero que está incluido en el campo de variación de X. Es
determinar el valor de Y para un x0 tal que x1 s x0 s xn . El problema
similar para un x0 > xn, y se denomina extrapolación. La solución del
ma de extrapolación es más delicada, puesto que no es lo mismo suponer
lo que ya ha acontecido, que sobre lo que tiene que acontecer.
Aquí nos vamos a limitar al caso de interpolación, suponiendo una
dependencia funcional entre X e Y; es decir Y = f (X) , por lo que todos
puntos (x1 ; y1 ) deben pertenecer a Y = f (X) . Ahora bien, por los
puntos (x1 ; y 1 ) pueden pasar diferentes f (X) ; de todas éstas se selecciona
más sencilla. A esta función se la denomina función de interpolación o ·
polatriz.
La determinación de la función de interpolación, operación necesaria
a la interpolación, es un problema meramente matemático. Para ello
varios métodos, entre los cuales figuran: el método de interpolación L"'''au•vu........
método de aproximaciones sucesivas, método de Lagrange y el método de
rencias finitas de Newton. Nosotros sólo vamos a estudiar en este capítulo
más sencillo, el método de interpolación parabólica y su caso particular de
terpolación lineal.

Jn·terpolación lineol
y parabólica
La interpolación parabólica establece la hipótesis de que los valores buscados
pueden obtenerse con suficiente aproximación a partir de la ecuación de un
polinomio de grado n - 1 que pasa por los n puntos conocidos de la sucesión.
Así, si tuviéramos dos puntos la función interpolatriz sería un polinomio de
grado uno, etc.

Véase, a este respecto, MARTÍN-GUZMÁN, P. y MARTÍN PLIEGO, F. J.: op. cit., págs. 119-126.
INTERPOLACIÓN Y AJUSTE • 217

los puntos por los que ha de pasar el polinomio

esta parábola debe pasar por todos los puntos, las condiciones que deben
•:act!r los coeficientes «a)), serán:

que se obtiene un sistema de n ecuaciones con n incógnitas, que son los


•ímc~tr<)S (a0 , CZ¡, a2 , ..• , an_ 1).
Si este sistema es compatible y determinado,
•ICiém única (a0 , CZ¡, ... , an _1) nos dirá qué parábola de grado n - 1 es la
por todos los puntos.
sistema es compatible y determinado, por ser distinto de cero el determi-
de los coeficientes
x2 n-i
1 X¡ 1 X¡

x2 n-1
1 x2 x2
2
= (x2 - x 1) (x3 - x)
1
· · · (x -
11
xn - i ) :¡:. O'

1 xn x2 x~-1
n

existen puntos repetidos, habrá que eliminar estas repeticiones para que
anule 1 ~ ~-
caso particular de interpolación parabólica se produce cuando
= 1. Éste es el caso más elemental, que es aquél en el cual conocemos
(xl' y1) e (x2 , y2 ), y se quiere determinar la correspondencia en Y
x0 tal que x1 ::;; x 0 ::;; x2 •
218 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

La función de interpolación f (x) , la más sencilla que contenga a los


puntos conocidos, es una recta. Este caso es conocido con el nombre de
polación lineal.
Sabemos que la expresión general de una recta es:

1 y = a+ bx 1
por lo que para determinar la recta que pasa por los dos puntos (xl'
(x2 , y2 ) habrá que conocer los valores de los parámetros a y b . Para ello
demos proceder de tres formas:
a• Como (x1, y 1) y (x 2 , y2 ) son puntos de la recta, deben verificarla, por lo

con lo que se obtiene un sistema de dos ecuaciones con dos u·tcO:e:ruli.JI


(a y b) que es compatible y determinado y nos dará los valores de a~
de la recta que pasa por los dos puntos.
b • También, recordemos que la ecuación de la recta que pasa por dos
tos es

e • Se puede comprobar que la recta que pasa por dos puntos puede expre-
sarse de la forma

X y 1
XI Y¡ 1 =Ü
x2 y2 1

EJEMPLO 1
Vamos a ver un ejemplo de interpolación parabólica. Supongamos que tenemos los si-
guientes cuatro puntos (x;; y): (0, 4), (1, 3), (2, 2), (3, 7) y queremos calcular el valor
de Y; para x = 1,5 . Hacemos pasar por los cuatro puntos un polinomio de tercer grado
INTERPOLACIÓN Y AJUSTE • 219

El sistema de ecuaciones correspondiente es

4 = a0 + Oa1 + Oa2 + Oa3

3 = a0 + la1 + 12 a2 + 13 a 3

2 = a0 + 2a1 + 22 a2 + 2 3 a 3
2
7 = a0 + 3a1 + 3 a2 + 33 a 3

De la primera ecuación obtenemos a0 = 4 , luego

3=4+a1 +a2 +a3 }

2 = 4 + 2a1 +4a2 +8a3


7 = 4 + 3a1 + 9a2 + 27a3

viendo este sistema obtenemos

el polinomio buscada es y =4 + x - 3x2 + x 3 , que para x0 = 1,5 nos dará

y = 4 + 1,5 - 3 . 1,52 + 1,53 =


= 4 + 1,5 - 6, 75 + 3,375 = 2,125

ahora sólo dispusiéramos de dos puntos: (1, 5) y (3, 7), por ejemplo, y si quisié-
interpolar para x0 = 2 estaríamos en un caso de interpolación lineal, en donde

7-5
y = - - (x - 1) + 5 = x + 4,
3- 1

y (2) = 2 + 4 = 6 .

ha canjeado repetidamente en la oficina de cambio de un hotel dólares por


Recuerda los cambios de dos ocasiones: en uno de ellos por un billete de 10 $ le
.O €, y en otro por 75 $, 78 €.
en los otros cambios él ha cedido divisas por 25 $ y 130 $, ¿cuál es el total de
que ha dispuesto en nuestro país, suponiendo el tipo de cambio fijo?

Suponemos que el tipo de cambio permanece constante en las cuatro


-IIIID!llllii!:S. El turista se extraña porque· si por 10 $ le han dado 10 €, por .75 $.le tenían
220 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

que haber dado, según él, 75 €, ya que el cambio teórico serían 1 €/$. Esto no ha
cedido así.
Para poder aclararle el tema al turista, procedamos de la forma siguiente:
(a) La relación entre €/$ no es estadística.
(b) Es una relación proporcional, es decir, vendrá expresada por una función
terpolatriz de tipo lineal.
(e) Determinemos dicha función, ya que si x son dólares e y euros, conocemos
puntos por Jos que pasa: (10, 10) y (75, 78).
La recta interpolatriz será

es decir
y -10 X -10
78 - 10 75-10
de donde
y = 1,05x- 0,46

siendo y los euros , comprobamos que el tipo de cambio es de 1,05 €/$, pero
en la oficina de cambio cobran una comisión fija de 0,46 € por cambio. Así..
interpolando, por 25 $ le darían
y = 1, 05 · 25 - O, 46 = 25,79 €
y por 130 $obtendría
y = 1,05 . 130 - 0,46 = 136,04 €.

Por tanto, este turista dispuso en total de


Yr = 10 + 78 + 25, 79 + 136,04 = 249, 83 €.

Aiuste
Sea (x¡, y ; n¡) una distribución bidimensional en la que se supone que existe
1
relación entre las variables X e Y. A diferencia de la interpolación, ahora no
vamos a suponer que exista dependencia funcional entre las variables, sino
dependencia estadística.
INTERPOLACIÓN Y AJUSTE • 221

Si representamos gráficamente en unos ejes de coordenadas los pares de


de las dos variables, el problema del ajuste consiste en la obtención
ecuación de una curva que pase «cerca» de los puntos dados, y que se
lo mejor posible al conjunto de los mismos , cumpliendo determinadas
_.~...uJLlc:~>. Por lo tanto, cuando se pretende hacer un ajuste nos encontramos
dos problemas:
Elegir el tipo de curva que mejor se adapte a los datos disponibles, es de-
crr, que mejor represente la relación entre X e Y. En esta fase suele ser de
eran utilidad la representación gráfica como orientación para la elección.
Fijado el tipo de curva a través de su ecuación en forma explícita con un
aerto número de parámetros, determinar éstos mediante las condiciones
.,re se impongan según el procedimiento de ajuste empleado.
seleccionar el tipo de función podemos observar su representación grá-
onbe de puntos de la distribución. Supongamos las cuatro distribuciones
fi:,oura 8 .l.

X X

X X

FIGURA 8.1

:ma distribución como la primera, seleccionamos una función de tipo


~-a la segunda una parábola de 2. 0 grado, una exponencial para la ter-
..:1 polinomio de 3.er grado para la cuarta.
222 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Una vez seleccionado el tipo de función, por ejemplo, una· parábola


2. grado, y = ax 2 + bx + e, tendremos que determinar cuál de ellas, de
0

infinitas que hay en el plano, pasa lo más cerca posible de los puntos.

Dados los puntos (x1, y1), (x2 , y2 ), . .. , (xm, ym), elegida una función de
definida por

en la que intervienen n parámetros (~, a2 , ... , a11 ) , n < m, consideremos


nube de puntos representada en la figura 8.2,

Y¡ ......................................... ........... ··················· ·······~ / X


>< ej { ¡ ><
><
><

FIGURA 8.2

en donde para cada valor de X, x.1 , tenemos dos valores de Y, el observado y1


correspondiente a la nube de puntos, y otro que vamos a llamar teórico, que se

Existen otros métodos de ajuste que pueden verse en MARTÍN-G UZMÁN, P. y MARTÍN PLIEGO , F . J.
op. cit., págs . 140-155.
INTERPOLACIÓN Y AJUSTE • 223

llbiJerte al hacer x = x; en la función, y para el que emplearemos la notación

Como se puede observar en la figura 8.3, en la que para mayor claridad


consideramos este punto de la nube, para cada x; tenemos una diferencia
los dos valores de Y, el observado y el teórico, que vamos a llamar resi-
o error e. , tal que
1

FIGURA 8.3

mmtmos cuadrados consiste en determinar los parámetros


... , an de tal forma que el conjunto de los residuos sea mínimo.
tomamos la suma de todos los residuos

L L (yj - Yj) nij


i j

presentarán dos inconvenientes. Primero, como unos residuos serán de


s.gno positivo y otros de signo negativo, al sumar se compensan y la suma
podría ocultar residuos de cierta importancia a ambos lados de la curva
Segundo, la determinación de los parámetros no es única, ya que ten-
diferentes conjuntos de valores de los parámetros que arrojarán la
suma mínima de los residuos.
224 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Para obviar esto, buscaremos minimizar la expresión cuadrática:

<t> = L: L: <Yj -
i j
2
Y;) nij

Como los valores teóricos son los obtenidos a partir de la curva ajustada,
claro que

de donde se deberá hacer mínimo

<l> = LL[Yj - f(x¡; al,a2 , ... ,an)f nij


i j

para lo cual la condición necesaria es que las primeras derivadas parciales res-
pecto a cada uno de los parámetros se anulen, es decir,

O<D = 2 _L_L)yj - f(x¡;a1,a2, ... ,an)] nIJ.. (- f') =O


oal 1 J
a,

O<D = 2 LL[Yj - f(x¡;a1 ,a2, ... ,an)] nij (-f:) =O


oa2 1 J (1)

LL[Y j- f(x¡;a1,a2'" .. ,an)] nij (- f:) =O


1 J

Resolviendo este sistema , llamado de ecuaciones normales, quedan deter-


minados .a1, a 2 , ... , an, así como la correspondiente función.

La cqndición suficiente para que <l> tenga mínimo se cumple siempre para el
valor obtenido en (1).

8.4.1. ALGUNOS AJUSTES POR MÍNIMOS CUADRADOS

A continuación vamos a utilizar el método descrito para ajustar algunas funcio-


nes que corrientemente se suelen presentar.
INTERPOLACIÓN Y AJUSTE • 225

una cierta estructura de la nube de puntos se decide ajustar una recta de la

t:P =¿ ¿ (yj - y;) nij


2
=¿ ¿ [yj - (a + bx)] nij
2
=
. j i .

='EL (yj -a- bx/ nij


i j

lo cual las derivadas parciales respecto a a y b deberán anularse, es decir


a<I>
2 " " (y. -a- bx.) (-1) n.. O
-
aa =
L.. L..
1 1
1 1 11
=

a<I>
-ab = 2"" (y. -a- bx.) (-x.) n.. =O
L.. L.. 1 11 1 1
1 1

L L (yj -
i j
a - bx) nij == O

L L (yj -
i j
a - bx) (x) nij =O

y traspasando términos

¿ Lj yjnij
i
=aL
i
Lj nij + b L Lj x;n;j
i

L Lj xiyjnij
i
= a L Lj xinij + b L Lj xJnij
i i

al sumar las frecuencias quedará

¿yjn·j == aN + b ¿x;n;.
j

¿¿xiyjnij =a ¿x;n;. + b ¿xJn;.


1 1 i i

Resolviendo este sistema, llamado sistema de ecuaciones normales como


dijimos, determinaremos los valores de a y b de la recta que mejor se
..:1 a la nube de puntos dada.
226 • SECCIÓN 4. ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

EJEMPLO
El número de accidentes de carretera ocurridos en una determinada ciudad y el
de coches matriculados en la misma durante una serie de períodos de tiempo han
los siguientes

i""
N° de coches matricultuúJs N° de accidentes
(x.) (y¡) '· ..... , ;

·,·:. 1 '"'' • ... '· .

''·'""' ""
500 23
510 25
520 29
540 31
580 32

Ajústese una recta que exprese el número de accidentes ocurridos en función del
ro de coches matriculados.

SOLUCIÓN. La recta será del tipo y* = a + bx .


En este caso todas las frecuencias n..
1)
son unitarias, luego:

yj X.¡ X)Yj ·· ~ ··.


. 1 :y

23 500 11 500 250000


25 510 12 750 2(J) 100
29 520 15 080 270400
31 540 16740 291600
32 580 18 560 336400

140 2650 74630 1408 500

el sistema qe ecuaciones normales quedará

140 = 5a + 2 650b }
74 630 = 2 650a + 1 408 500b
cuya solución es

74 200 = 2 650a + 1404 500b}


74 630 = 2 650a + 1 408 500b
430 = 4 OOOb
INTERPOLACIÓN Y AJUSTE • 227

b = -430- = 0,1075,· a = -28,975.


4000

que la recta ajustada por mínimos cuadrados sería


y* = -28,975 + 0,1075x .

de una parábola
caso, la curva seleccionada es

yj* = a+ bX1 + ex12


hallar a, by e, deberemos minimizar
<l> = L L (yj - a - bx1 -
2
exJ) n1j
i j

ello, las primeras derivadas, respecto de a, b y e, se deberán anular


8<1>
-oa = 2 ""(y .- a- bx. - cx 2 ) (-1) n11.
L..L.. 1 1 1
=O
1 1

¿yjn·j = Na+ b ¿x1n1• +e :LxJn1•


j i i

2 3
"
L. " 1 = a"
L. x.y.n..
1 1 1 L. x.n.
1 1•
+ b "x
L. 1 n.1• + e"
L. x1 n.1•
i j í 1 i

L. x1 n.1• + b "x~n. L. x~n.


2 2
"
L. "
L. x1 y1.n1).. = a" L. 1 1• + e" 1 1•
i j i i i

resolución se obtienen los valores numéricos de los parámetros de la


-arábola de segundo grado en el sentido mínimo cuadrático para la nube
dada.
supuesto que esto es generalizable a un polinomio de grado h, del tipo
y = a0 + a1x + a2x 2 + ·· · + ahxh .
228 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Determinamos a0 , ~, ... , ah con la condición de que

<1> = ¿¿ (yj- a0 - ~X¡- a2 x:- ···- ahx;) nij


2

i j

sea mínima, para lo cual se debe verificar

0<1> = 2 " "(y.- a - ax.- a x 2 -ahxh) (-1) n.. =O


aa o
L.JL.J 1
1
o
1
11 21
- ...
l lJ

0<1>
- =2
aa1
¿¿
-- (y.-ao -nx.-ax.
1 ll 21
2 - .. · -ax.)(-x.)n.=O
h
hl 111
1 1

0<1>
- =2
aah
¿¿
-- (y.-ao -nx.-ax. 1 ---¡1 21
2
- "·-ax.
hl
h h
)(-x)n.
1 11
=0
1 1

o bien

+a1 "xn
L.,¿ i ¡.
+ .. . +ah "xh _n_
L.,¿ 1 1•
1 1

LLxiyjnij = a0 ¿x¡n¡.
1 1

¿¿x;yjnij = a0 ¿x;n¡. + a1 ¿x;+1n¡. + ... +ah 'LxJhn¡.


i j

siendo
N="n.
L. 1•

Este sistema nos permite calcular a0 , ~· ... ,ah.

Ajuste hiperbólico
Este tipo de funciones tienen un especial interés para el economista, y para
introducirlas nada mejor que considerar un ejemplo económico, la función de
demanda de un cierto bien. Llamando p al precio y q a la cantidad dema~dada.
definimos la elasticidad de la cantidad demandada respecto al precio como
dq p
e q,p = - · -
dp q
INTERPOLACIÓN Y AJUSTE • 229

se observa, esta elasticidad depende de los niveles de precio y canti-


de la derivada de ésta respecto a aquél. Supongamos que para este bien la
-~.... es constante, es decir , que

dq p
E
q,p
= kc:> - · - = k
dp q

ello se demuestra que es suficiente que la función que liga la cantidad


~.u~....a con el precio sea, como indica la figura 8 .4, de la forma

pq = K

r· q2 .......................T................

P¡ p

FIGURA 8.4

•~'"""'v a términos más generales, estas funciones son ramas de hipérbolas


y tienen la forma
1
yx =b e:> b - =y
X

b una constante cualquiera.


tipo de función también muy corriente es la función anterior, pero
.-.=u•a una cantidad a
1
y= a + b-
x
230 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

El ajuste de mínimos cuadrados se reduce al caso de la recta en cuanto


!izamos la transformación
1
z=-
x
_con lo que quedaría y = a + bz .

Esto quiere decir que si partimos de una distribución (x1, yj; n1) ,
ajustar una hipérbola equilátera debemos ajustar una recta a la distn
(z1, yj; n1) , donde

1
x_
1

Ajuste potencial
La forma general de la función potencial es

y= a· x b
que se puede reducir al caso general lineal tomando logaritmos
log y = log a + b log x =A + b log x
Partiendo de (x1, yj ; nij) , para ajustar una función potencial,
ajustar una recta a la distribución (z.,
1
u1 ; n1} ) en donde

Z¡ = log X 1
uj = log yj
una vez determinados los parámetros, A = log a y b en el ajuste
u = A + bz , la potencial será •
y= a· x b donde a = antilog A .

EJEMPLO
Estudiando el mercado de un cierto producto de consumo se ha reunido la siguiente
información sobre los consumidores:

2,5
4,3 4,6

se trata de ajustar una función de consumo potencial e = a/ .


INTERPOLACIÓN Y AJUSTE • 231

La función a ajustar es e = al que linealizamos tomando logaritmos

log e = log a + b log y

e = Iog e}
Y = log y se transforma en e = A + bY .
A = log a

Y¡ ej Y¡ Ijej y2
J

1,5 4,0 0,17610 0,60206 0,10602 0,36247


2,0 4,3 0,30103 0,63346 0,19069 0,40127
2,5 4,6 0,39794 0,66275 0,26373 0,43923
3,0 5,0 0 ,47710 0,69897 0,33348 0,48856

1,35217 2.59724 0,89282 1,69153

de ecuaciones normales sería

L ej
j
= NA +bL
i
Y; }
¿ ¿ r;ej = A ¿ r; + b ¿ Y; 2

1 J t '

1,35217 = 4A + 2,59724b
0,89392 = 2,59724A + 1,69153b

A = 1,35217- 2,59724b
4
1 35217 2 59724
0,89392 = 2,59724( • -4 · b ) + 1,69153b

b = 3,11328

A = 1, 35217 - (2, 59724 X 3, 11328) = -1 68344


4 '
232 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

De donde
b = 3,11328
a = antilog A = antilog(-1,68344) = 0,021
Por tanto,

e* = O, 021 . /·"Jzs.

Ajuste de una función exponencial


La ecuación general es
y =a . bx.

Tomando logaritmos, linealizamos la función


Iog y = loga + xlogb
es decir, Y = A + Bx .
En este caso, el ajuste de la recta se hará a la distribución
donde
Y.1 = log y.1
y siendo A = log a y B = log b
los parámetros determinados por ..................._
cuadrados, los parámetros de la exponencial serán
a = antilog A
{b = antilog B

EJEMPLO
Dada la siguiente distribución

X.¡ 1 2 3 4 5
'

yj 100 120 110 150 130

ajústese una función exponencial del tipo y = a · bx .


INTERPOLACIÓN Y AJUSTE • 233

En primer lugar, linealizaremos la función tomando logaritmos


log y = log a + x log b
A = log a y B = log b , obtenemos la recta Y = A + Bx . El

_¿yj = NA+ BLx1 }

LL~iyj
i j
= A ¿x
i
1 +B ~x¡
1

' ~ X1 ,¡;"
,. Y¡ Y.J x21 x.Y.
1 J

1 100 2,0000 1 2,0000


2 120 2,0792 4 4,1584
3 110 2,0414 9 6,1242
4 150 2,1761 16 8,7044
5 130 2,1139 25 10,5695

15 10,4106 55 31 ,5565

ecuaciones normales y sus soluciones son:

10,4106 = 5A + 15B }
31,5565 = 15A + 55B

A = 10,4106- 15B
5
10 410
31,5565 = 15( • ~- 15 B ) + 55B
B = 0,03247
A = 1,98471

a = antilog A = antilog 1,98471 = 96,54


b = antilog B = antilog 0,03247 = 1,0776

y* = 96,54 · 1, 0776x .
ÍTULO 9

. ,
greston y
rrelación

objetivos de todo tipo de investigador es el de encontrar relaciones


sucesos que se le presentan dentro de su campo de investigación. El
o investigador intenta traducir esas relaciones en estructuras maneja-
lo cual hace uso de un lenguaje ya conocido, fundamentalmente el
_...,.-uua•~•uau•-v, a través del establecimiento de relaciones funcionales
un número finito de magnitudes (variables o atributos) X1, X2 , . .. , XP
que están relacionadas con una variable Y a través de la expresión

sea por el desconocimiento del investigador sobre la verdadera estruc-


relación entre estas magnitudes, bien sea porque esa dependencia no
•mente matemática (recuérdese lo que apuntábamos sobre la dependen-
rica en el capítulo 7), el tratamiento que necesita esta modelización
235
236 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

no es estrictamente matemático, sino que requiere un análisis furldalm(mtaln:teJ:IIIJI


estadístico.
Desde esta perspectiva, dos son los enfoque con que simultáneamente
puede abordar este problema:
[¡] El estudio del grado de dependencia existente entre las variables,
será el contenido de la Teoría de la Correlación, que desarrollaremos
riormente en este capítulo.
[]] La determinación de aquella estructura de dependencia que mejor .. v.-.r.....
el tipo de relación de la variable Y con las demás.
Precisamente, la regresión tiene por objeto esta segunda finalidad, a .
poner de manifiesto, a partir de la información de que se disponga, la
ra de dependencia que mejor explique el comportamiento de la variable· Y
riable dependiente o explicada) a través de todo el conjunto de
XI' x2' ... 'xp (variables independientes o explicativas) con las que se "UIJVU...

que está relacionada.


Introduciremos en este capítulo el problema general de la regresión y la co-
rrelación para el caso más elemental en que tengamos una sola variable expli-
cativa, dejando para el capítulo siguiente el planteamiento de la regresión •
correlación múltiples, en el que se introduce más de una variable explicativa en
el modelo.
Sea, pues, X e Y dos variables cuya distribución conjunta de frecuencias es
(x.,
1
y.;
J
n..).
1)
Llamaremos regresión de Y sobre X a la función que explica
.
la
variable Y para cada valor de X. La regresión de X sobre Y nos hablará de
comportamiento de X para cada valor de Y.
Para la determinación de estas funciones se pueden seguir dos criterios dife-
rentes que reciben el nombre de regresión 1 y regresión 11.

9.1 .1. REGRESIÓN 1

Regresión 1 de Y sobre X
Consideremos la nube de puntos de la figura 9 .l. Si nos preguntáramos qué
valor deberíamos asignar a Y para X == x1 , diríamos que la media de las Y
cuya X sea x 1 , es decir, la media de las yj cuyaabscisa sea x1 , que no es otra
que la media de Y condicionada a que X tome el valor x1 •
REGRESIÓN Y CORRELACIÓN • 237

x2 x3 ............... xh X

FIGURA 9.1

este criterio para x2 , tomaríamos la media de Y condicionada a

el gráfico, las ordenadas de los puntos que están unidos entre sí repre-
estas medias condicionadas. La regresión I de Y sobre X estaría formada
puntos:
(x1 ; Y/ x1 )
(x2 ; Y/x2 )
(x3; Yj x3)

puntos aparecen unidos por una línea quebrada para indicar que son
que pertenecen a una misma regresión.

I de X sobre Y

de puntos que reproducimos en la figura 9.2 es la misma que en el


238 • SECCIÓN 4. ANÁLISIS EST ADfSTICO DE DOS O MÁS VARIABLES

En estas condiciones, para determinar el valor de X para un y.


J
tomaríamos la media condicionada de X a ese valor y .
1

yk ---- ------ - -------------- --- ------------·

y3 -----------------

x2 x3 ···· ······· ···· xh X

FIGURA 9.2

Las abscisas de los puntos unidos entre sí representan análogamente


medias condicionadas. La regresión I de X sobre Y está formada pues por
puntos:
(xfyr; Yr)
(xfyz; Yz)
(xjy3; Y3)

que se unen por una línea quebrada para indicar, igual que en el caso anterior
que son puntos que pertenecen a una misma regresión.
Si los campos de variación de las variables fueran intervalos reales, ten-
dríamos infinitos puntos correspondientes a las medias condicionadas, y las
regresiones I, tanto de Y sobre X como de X sobre Y, serían funciones conti-
nuas.
REGRESIÓN Y CORRELACIÓN • 239

REGRESIÓN 11

el criterio seguido para determinar las funciones de regresión es el míni-


' es dec~r, se toma como valor de una variable, para uno dado de
el deducido de la función ajustada por mínimos cuadrados.

de la información suministrada, cuya representación gráfica es la nube


, se selecciona el tipo de función y posteriormente se ajusta la mejor
familia de funciones seleccionada, haciendo mínimos los residuos al
, es decir, minimizando
2
LL(Yi - Y1) nii ·
i j

función así obtenida se toma como función de regresión de Y sobre X.

11 de X sobre Y

lllamtente, la curva de regresión de X sobre Y sería la deducida con la con-


de que minimice la suma

2: 2: (x¡ -
i j
xn
2
nij

representa el correspondiente valor teórico de X para un yi cual-

considera que el criterio de regresión I nos proporciona la <<Verdadera»


(regresión intrínseca) entre las variables, siendo el criterio de regre-
un procedimiento de aproximación a la regresión I.
•nnvaJmente, esto se puede ver teniendo en cuenta que el mínimo absolu-

2
LL[Yi- f(x)] nii·
i j
240 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

para cualquier tipo de función, se obtiene cuando para cada j, f (x)


valor mediot, es decir, que

mJn_Lz)yj- f(x¡)] 2 niJ = _L_L[yj - (Jjx¡)] 1 nij·


1 J 1 J

El problema es que para llegar a ello, la nube de puntos debería tener


disposición que la elección del tipo de familia de curvas a ajustar por
cuadrados fuera coincidente con la que se obtendría a través de la regresióa
coincidencia que es difícil que se dé.
Por otra parte, como normalmente trabajaremos con un conjunto finito
puntos aislados , la regresión 1 está siempre formada por puntos y no por
curva continua, lo que hace menos manejable para nuestro interés
(explicar una variable a través del comportamiento de la otra) este tipo de
gresión «intrínseca».
Por ello se utilizan de manera generalizada las curvas de regresión II
nidas por el método de ajuste mínimo-cuadrático, siendo nuestro grado
aproximación tanto mayor cuanto más acertada sea la elección del tipo de
lia de curva a ajustar. Por este motivo es fundamental el estudio gráfico de
nube de puntos para poder elegir el tipo de curva de regresión más idóneo
principio.
Por otra parte, la diferencia práctica entre los criterios de regresión l' y
gresión II es que en la regresión 1 no fijamos «a priori» el tipo de función.
decir, no seleccionamos ningún tipo de curva, mientras que en la regresión
esta elección es el primer paso a dar antes de pasar al propio ajuste.

9.1.3. REGRESIÓN LINEAL

La regresión será lineal cuando la curva de regresión obtenida o selecc ·


sea una recta. Vamos a desarrollar este caso particular, que es el más '-'U'f""'""'.--
do, centrándonos ya sólo en las rectas mínimo-cuadráticas de regresión.

t Recuérdese la propiedad de medida óptima cuadrática de la varianza.


REGRESIÓN Y CORRELACIÓN • 241

de regresión de Y sobre X
m:;mato la técnica de mínimos cuadrados para el ajuste de una recta, es de-
Jr.aciendo mínimo
<I>, = L L (y j - a - bx/ nij
i j

prnd.terldo ambas ecuaciones por N, expresamos este sistema en función de


~m<::nt()S respecto al origen:

a0 ;= a + b · a10 }
[1]
a11 = a · a10 + b · a 20

resolverlo multipliquemos la primera ecuación de [1] por - ll¡ 0 y su-

a en la primera ecuación de [1] tenemos que

a = a01 -
sxy a
-
- sxy x- .
= y - -
sx2 10 sx2
las estimaciones mínimo cuadráticas de los parámetros a y b son:

~(. ~-"
~ '·.J \
'O-"'

- / 1 • í\Q'.."'
\! l ,.,::.,"'\ V
~e\r:::;•~'

- Sxy - 0" r__,~ ~\ '

a= y- S2 X
X
242 • SECCIÓN 4. ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

Por tanto, la recta de regresión de Y sobre X, y = a + bx, en función


los momentos quedará
S
y =y - ;J X + SSj_
X X
X

que, reordenando, es

1Y - ji = t (x - X) 1

Recta de regresión de X sobre Y


Análogamente, haciendo mínimo

<D2 = L ¿ (x; - a' - b'y/ n.¡


i j

la recta de regresión de X sobre Y será


S
- (y
X -- X =xy -y- )
s2 y

Estas dos rectas de regresión se cortan en el punto (x, Y)


nombre de centro de gravedad de la distribución conjunta.

9.1.4. COEFICIENTES DE REGRESIÓN


Los coeficientes de regresión lineal son las pendientes de las rectas de
sión. Así, el coeficiente de regresión de Y sobre X será

2
.
pero
b = tg a = ~y
~

luego el coeficiente de regresión de Y sobre X nos mide la tasa de


de Y para variaciones de X. Es decir, b indica la variación de la variable Y
un incremento unitario de X.
REGRESIÓN Y CORRELACIÓN • 243

.Ar.Lálc>gamente, el coeficiente de regresión de X sobre Y será:

6]
1
1
1
: óy
1
1
1
--------, 1

óx

FIGURA 9.3

óx
--------------r---------
1
1
óy :
S
_31_
bl -
- 2
sy

X X+ ÓX

FIGURA 9.4
244 • SECCIÓN 4. ANÁLISIS EST ADISTICO DE DOS O MÁS VARIABLES

como
Llx
b' = tg a.' = Lly '

b' nos indicará la variación de X correspondiente a un incremento unitario de


Tanto el signo de b como el de b' será el signo de la covarianza. Una
rianza positiva nos dará dos coeficientes de regresión positivos y sus
pendientes rectas de regresión crecientes. Si la covarianza es negativa, las
rectas de regresión serán decrecientes al serlo sus pendientes. En caso de
covarianza (m11 ) sea igual a cero las rectas de regresión serán paralelas a
ejes de coordenadas (y por tanto, perpendiculares entre sí). Veámoslo
mente en la figura 9.5.
y y

FIGURA 9.5

9.2 Correlación

Llamamos correlación al grado de dependencia mutua entre las variables.


El problema, pues, que se plantea ahora es la medición de la intensidad
que dos variables pueden estar relacionadas. Para ello recordemos que a
de la curva de regresión expresábamos la estructura de la relación exis
entre las variables, y que para cada valor de x; obteníamos una diferencia,
llamábamos residuo, entre el valor de Y en la nube de puntos y el I'AlrrP<>IV•
diente valor teórico obtenido en la función.
REGRESIÓN Y CORRELACIÓN • 245

todos los puntos de la nube estuvieran en la función, la dependencia será


y el grado de dependencia sería el máximo posible. Cuanto más se
Los puntos de la función, es decir, cuanto mayores sean los residuos,
perdiendo intensidad en la asociación. Esto nos inclina a utilizar los
para medir la dependencia.
sabemos que para evitar que se compensen utilizamos los residuos al
. Pues bien, a la media de todos los residuos elevados al cuadrado se
aJ!Illlrla varianza residual:

n. n.
sz = "'"'(y.
ry L..L.. 1
- y*)2 _!!_
1 N
= "'(y.
L. 1
- y*)2 __:¿_ •
1 N
1 1 1

tanto, la varianza residual serviría, en principio, para nuestros fines. Si


-...,.,.,,n'7<> es grande, los residuos, por término medio, serán grandes, los
estarán alejados de la función, y por tanto, la dependencia será pequeña.
W1 razonamiento análogo, si la varianza residual es pequeña la depen-
será grande.
utilización de .la varianza residual presenta el problema de las unidades
que imposibilita la comparación de la dependencia entre grupos de
. Se puede utilizar, en este caso, el cociente:
sz
ry

52y
es la varianza marginal de Y, y donde este cociente funcionará en
mverso al de la varianza residual respecto a la dependencia.
armonizar el sentido de la medida de la correlación con la correlación
. a mayor medida, mayor dependencia, y viceversa), se define el coe-
de correlación general de K. Pearson corno:

~
R=f-s:·
cuadrado del coeficiente de correlación, es decir a R 2 , se le denomina
de determinación general.
246 • SECCIÓN 4. ANÁLISIS ESTADÍSTJCO DE DOS O MÁS VARIABLES

9.2.1. CAMPO DE VARIACIÓN DE R


Y SU INTERPRETACIÓN

Hemos definido el coeficiente de correlación general como:

de donde
R=
n 2
y

despejando la varianza residual tendremos

Como la varianza marginal de Y y la varianza residual son sumas de


mandos no negativos, es decir

tendremos que

Demostraremos más adelantet que


, o-~-R2-~-1-.I
...
Por tanto

Sabiendo que Sry2 = Sy2 (1 - R 2 ) , analicemos lo que ocurre con la


cia para diferentes valores de este coeficiente.

t Véase más adelante en §9.3.


REGRESIÓN Y CORRELACI _ _ _ __ _

S~ = O. Todos los valores teóricos coinciden con los observa-


, es decir, los puntos de la nube están en la función y, por tanto, la de-
~dencia es funcional. Se dice que existe correlación perfecta positiva,
íodicando el adjetivo «positiva>> que ambas variables varían en el mismo
sentido.
R = -1 => S~ = O. La dependencia también sería funcional, pero aquí
las variables varían en sentidos opuestos. Se dice, entonces, que la corre-
kión es perfecta negativa.
R = O => Sry2 = Sy2 • No se consigue ninguna explicación
.
de la variable Y
relacionándola con la X, luego no están asociadas. La correlación es nula.
Para - 1 < R < O , la correlación sería negativa, siendo más intensa
cuanto más próxima esté R a - 1.
Para O < R < 1 , correlación positiva, indicándonos para valores próxi-
JDOS a 1 un mayor grado de interrelación.

COEFICIENTE DE CORRELACIÓN LINEAL

coeficiente nos medirá el grado de cor relación lineal que existe entre las
. Téngase en cuenta que el concepto de correlación está íntimamente
al de regresión, ya que siempre se debe hablar de correlación según una
.....LU.L<.ua curva de regresión. Puede ocurrir que las variables no estén reta-

según una recta y sí lo estén según una parábola, por ejemplo.


determinar el coeficiente de correlación lineal partiremos del coefi-
de correlación general, cuyo campo de variación ya conocemos, calcu-
la varianza residual para el caso de regresión lineal.
Ietleno.os que la varianza residual es
n..
s2ry == "" "" (y . _ y*)2 _!}_
LJLJ ¡ ; N
1 J

los valores teóricos en la recta serán


S
Y1*. = a+ bX 1. == y- + -Sxy2 (X., - XV\1
. X
248 • SECCIÓN 4. ANÁLISIS ESTAD[STICO DE DOS O MÁS VARIABLES

n ..
S2 = ""(y . - y*i __!!__ =
ry L.L. ' ' N

lr;~
1 J

~ ~~ { y1 - [Y + ~! (x, - X)
2
s
= LL [ (y . -Y)- __2_(x. -:X)
] n..
__!!__ =
. . '
1 )
s2 X
1 N

~
= LL(Yj -Y) ~ +
1 J
2 n..
(S7)2
X
LL<x; - -)2~
1 J
x N-
S n..
-2__2_
s2X ""<Y·-
L.L. '
y-) (x.- :X)_!!_=
N 1
l J

Por tanto, el coeficiente de correlación lineal será

[S;; s xy
r=f -s:= SX ·Sy

es decir,

el coeficiente de determinación lineal es

Como ya hemos dicho, el campo de variación del coeficiente de


lineal r será el mismo de R, al ser r un caso particular de R. Es decir,
-l~r~l

la interpretación de R nos sirve exactamente igual para r; no obstante,


remos en ello relacionando los diferentes valores de r con las diferentes
ciones de las rectas de regresión.
REGRESIÓN Y CORRELACIÓN • 249

INTERPRETACIÓN ANALÍTICA DE r

que las rectas de regresión de Y sobre X, y de X sobre Y, son respec-

S
- = -xyX
y-y ( -X-)
s2 X

S
X --X =xy- ( y-y
-)
s2y
coeficidente de correlación lineal es

r =

aquí podemos relacionar r con los coeficientes de regresión b y b'


S S
b =~ = r___L
2
SX sX

S S
b' =~ = r-2..
2
Sy sy

que una nueva forma de expresar las rectas de regresión será


S
y - y = r .J.... (x - .X)
sx [2]
S
x - .X = r -2.. (y - y)
sy
-..rtP,·Pnln<:! ahora los siguientes casos:
la varianza residual es cero y los valores teóricos coinciden con
ados, luego todos los puntos de la nube están en la recta. En este
rrelación lineal es perfecta positiva y las rectas de regresión coinci-
al sustituir r por 1 en [2], las rectas de regresión quedan
S
y - y = .J.... (x - X)
sx
S
X - X = _¿_ (y - Y)
sy
250 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

que es la misma recta. En este caso la dependencia funcional existeme


reflejada por una recta creciente ya que la pendiente es positiva.
b • jsí r = -lj, la correlación lineal es perfecta negativa. Aquí
rectas coinciden
-S
y - -y = -yX
( -)
- X
sx
-S
X- X =_ x (y - Y)
sy
pero esta recta es decreciente al ser negativa su pendiente.
e • jsí r = oj, la correlación lineal es nula, y las dos rectas son:

Y- Y= o}
x-x=O
es decir, dos rectas paralelas, cada una de ellas respecto a un eje.

Y X=X

---+---+------------
(x, y)
y = y

o X

FIGURA 9.6

Sí tomamos, por ejemplo, en este caso , la recta de regresión de Y sobre


que es y = y , observamos que por mucho que varíe X, la variable Y no
es decir, el grado de asociación es nulo. Análogamente, esto se reproduciría
la recta de regresión de X sobre Y.
d • 1Si - 1 < r < Oj, la correlación lineal será negativa y las rectas de
sión, que ahora serán dos diferentes , serán las dos decrecientes, puesto que
REGRESIÓN Y CORRELACIÓN • 251

de las pendientes b y b' es el mismo que el de la covarianza, que es la


el signo a r, luego al ser r negativo también b y b' lo serán.
la correlación lineal es positiva, siendo las dos rectas de
crecientes por un razonamiento análogo al anterior.
otra parte, a veces también es úti~ la relación que se deduce a partir de
S
b = .2l.
s2 X

iente de correlación lineal es la media geométrica de los coeficientes de


lineales.

CORRELACIÓN LINEAL E INDEPENDENCIA


ESTADÍSTICA

defmido el coeficiente de correlación lineal como

r =
SX ·Sy
el capítulo 7 vimos que cuando las variables eran estadísticamente inde-
la covarianza era cero. Por consiguiente, si las variables son in-
-""'""'""• están también incorrelacionadas linealmente, al ser r = O .
bien, el recíproco no se verifica necesariamente, ya que la correla-
líneal entre las variables puede ser nula; al ser r = Sxy = O , y no ser in-
-aa._...._,.,, ya que la covarianza se puede anular sin que se cumpla la condi-
de independencia.
252 • SECCIÓN 4. ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

Esto quiere decir, en definitiva, que dos variables pueden estar


cionadas linealmente y ser dependientes, puesto que al ser r = O lo úru
podemos decir es que la dependencia estadística lineal es nula, pero esas
bies pueden depender según otro tipo de función (parabólica,
etc.). ·

9.2.5. INVARIANZA DE r ANTE TRANSFORMACIO


LINEALES

Sabemos que al realizar los cambios de variable

y~ = a2 + b2yj
las desviaciones típicas y la covarianza, en función de las nuevas v
serán
S'X = bS
1 X

S'y = b2Sy
S~ = b1b2 Sxy

Por tanto , el coeficiente de correlación lineal queda


S'
r' = xy = sxy .
S'X ·S'y SX Sy
El coeficiente de correlación lineal es invariante ante cambios de origen
de escala.

Varianza debida a la
regresión y coeficiente .
de determinación lineal

El intento de explicar una variable en función de la otra viene motivado por


supuesto a priori, que posteriormente habrá que verificar, de que la infon:na-
REGRESIÓN Y CORRELACIÓN • 253

que suministra la variable sobre la que se «regresa» va a mejorar el cono-


del comportamiento de la otra variable. Es decir, se supone que en el
de la regresión de Y sobre X, Y se explica mejor a través de X que con la
ión marginal de Y.
Para ver en qué medida la mejora de la descripción de una variable a través
otra tiene lugar, vamos a definir previamente el concepto de varianza
a la regresión.
Para ello, consideremos las tres variables que se obtienen en la regresión:
y. que, como hemos visto, representa a la serie de valores observados
J

de Y.

y; que son el conjunto de valores teóricos asignados a cada X¡ en la re-


gresión de Y sobre X.
e conjunto de residuos o errores que se generan en la regresión míni-
J

valores medios de estas tres variables son:

La media de la serie observada de Y,


n..
y=
-
L..~Yj Nlj
""

1 1

La media de los residuos en la regresión lineal de Y sobre X es


. n.. n..
e =¿ ¿ ej _!1_
N
=¿ ¿ (yj - y 7) N _!1_ =

+~!
¡ j ¡ j

~ ~ ~ { YJ + (x, - ~ ]} ; ~
n.. S n..
= ¿¿ (yj - Y) _!1_ - -4 ¿ ¿ (x¡ - x) _!1_ =
¡ 1 N Sx ¡ j N

.::s decir, en la regresión lineal, la suma de residuos es nula, y su me-


:..Z, por lo tanto, también.
254 • · SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

(e) La media de los valores teóricos

=Y-e=Y
Vemos que, el valor medio de los valores teóricos y; coincide
valor medio de los valores observados.
Teniendo en cuenta estos resultados, podemos definir las siguientes \
zas:

[¡) La varianza total de los valores observados

[[] La varianza de los errores o residuos

n ..
" <Y1 _ y*)2
= "LJLJ 1
_!}_ = s2
N ry
1 1

que, como comprobamos, no es otra cosa que lo que denominábamos,,.,.,.,.,..


residual. Ahora podemos comprender por qué a esta expresión se la
de varianza.

~ Y, por último, introducimos el nuevo concepto de varianza debida a


regresión , que es, precisamente, la varianza de los valores teóricos
n.. n ..
S~ = L L (y; - Y*)2 _!}_ = L L <Y; - 2
Y) _!}_ .
¡ j N ¡ j N

Entre estas tres varianzas existe, en la regresión lineal, una relación


vamos a determinar a continuación; para ello, calculemos teniendo s;
cuenta que

yj* sxy <X¡


= y- +Si" V\
-X¡,
X
REGRESIÓN Y CORRELACIÓN • 255

[3]

decir, la varianza marginal , que nos mide la variación de Y en la distri-


marginal observada, se puede descomponer en la suma de dos varían-

s; la varianza debida a la regresión, que recoge la dispersión de los


valores en la recta de regresión.
S~ la varianza residual, que mide las desviaciones entre los valores
~eóricos y los observados, es decir la dispersión que queda fuera de la
recta de regresión.
otra parte, dividiendo ambos miembros de [3] por s; tenemos que
s2 s2
1 = __B_ +
__Q'_ • [4]
s2
y
s2y
primer sumando del segundo miembro
s2R
sr
y
256 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

nos dice la parte de la variación de Y que es explicada por la recta de r,.,..._.


y el segundo sumando

la parte que no es explicada por la recta, la que escapa de ésta o variaciáB


dual. Ahora bien, de [4} tenemos quet ·
s2 s2
=
__!i_
s2
1 - __.!1._ = r 2 .
s2
y y

El coeficiente de determinación lineal r 2 nos medirá el grado de


la utilización de la regresión. O lo que es lo mismo, r 2 nos dará el
de variabilidad de Y que queda explicada por la regresión. La
r, coeficiente de correlación lineal, se justifica con el fin de añadir a
rácter de la dependencia estadística (positiva o negativa).
Teniendo en cuenta [5}, si r 2 = 1, es decir, si la correlación es nPr1"Prn.-
S2
r
2 = __fi_ = 1 ~ SR2 = Sy2
2
5y

lo que implica que la varianza residual Sry2 es nula, luego se ha uo1¡enu1111


mejor descripción de Y mediante la utilización de la información surnirúst:DI
por X. Toda la variabilidad marginal de Y está contenida en la regresión.
Si r = O , caso de correlación nula:
s2
r
2
= __fi_2 = o => SR2 = o => Sry2 = Sy2
5y

es decir, en este caso X no nos sirve para ampliar la descripción del coJIIlDOd
miento de la variable Y.

t Como r 2 = s;¡s: es un cociente de valores no negativos, entonces /


2
do que O 5 r 5 1.
REGRESIÓN Y CORRELACIÓN • 257

caciones de la ··
resión y la correlación

_ de los métodos expuestos de regresión y correlación exige un


.......vu

teórico previo de las posibles relaciones entre las variables. El prescin-


esta ret)exión inicial puede conducir nuestro análisis a conclusiones ab-
De hecho, puede ocurrir que se seleccionen dos variables cualesquiera
• que dé la casualidad de que, estadísticamente, la correlación sea per-
pero que teóricamente no se pueda asignar ningún tipo de relación entre

ejemplo, el hecho de que, casualmente, la correlación lineal entre la ta-


llaralidad en Nueva Zelanda y la producción de cereales en España a lo
un determinado período fuera perfecta no nos debería llevar a suponer
algún tipo de relación lineal entre estas variables. Éste es un caso
de correlación espúrea.
deben seleccionar variables entre las que la fundamentación teórica avale
tipO de relación, evitando, en lo posible, relaciones a través de otra va-
principal. Por ejemplo, el consumo de bebidas puede variar en la misma
que el consumo de gasolina, pero no porque una variable dependa
111111ente de la otra, sino porque ambas van en el mismo sentido que las
de la renta, que será la principal variable explicativa.
los ejercicios que figuran al final de esta sección se incluyen algunos
lineales de modelos económicos que son extensibles a la regresión. A
de ejemplo pueden considerarse la función de producción de Cobb-
que previamente necesita de la transformación logarítmica para su
Eaci,on, el modelo exponencial de Harrod-Domar, etc. La formulación de
keynesiana de consumo, en su versión más simple, nos podría servir
orra posible aplicación, en donde la demanda de consumo, e, se supone
.....,.Lk1uLa linealmente con la renta disponible, Yd , a través de

e= a+ bYd.

estimación de los parámetros a y b de esta regresión y el cálculo del coe-


de correlación lineal entre e e Yd puede ilustrar esta hipótesis de la
258 • SECCIÓN 4. ANÁLISIS ESTADfSTICO DE DOS O MÁS VARIABLES

Por otra parte, aunque desde el punto de vista estadístico siempre cabe
posibilidad de plantearse las dos regresiones, la de Y sobre X y la de X sobre
desde el punto de vista de investigación aplicada puede ocurrir que '>VléUUIMII
una de las dos regresiones tenga sentido teórico.
Todas estas consideraciones son fundamentales antes de abordar el
estadístico de la regresión y de la correlación.

9.4.2. PREDICCIÓN

El objetivo último de la regresión es la predicción o pronóstico sobre el


portamiento de una variable para un valor determinado de la otra.
recta de regresión de Y sobre X es
S
Y = y+ sx; (x - X)
X

la predicción de Y para X = x 0 será

S
- + -2
xy(xo - x-) .
Yo = y
sx
Es claro que la fiabilidad de esta predicción será tanto mayor, en princilrJÍCII
cuanto mejor sea la correlación entre las variables. Por tanto, una medida
ximativa de la bondad de la predicción podría venir dada por r.
No obstante, hemos de señalar que tanto este tema, como en general toda
formulación de los modelos de regresión, están más rigurosamente tratados
la teoría avanzada de los modelos lineales, siendo todo lo expuesto un p ·
contacto con los problemas que se suscitan en los modelos de regresión al nh
introductorio con que se plantea este texto.
Veamos a continuación un ejemplo de los métodos expuestos.

EJEMPLO
Dada la siguiente distribución
REGRESIÓN Y CORRELAC IÓN • 2 59

2 3 5
2 4 10
2 5 17
4 5 19
7 4 20
7 5 16
10 3 9
10 5 4

100

recta de regresión de Y sobre X (Yj X) utilizando para el cálculo de los corres-


FDd.Ient,es momentos la tabla de correlación.
grado de dependencia lineal entre las variables.

regresión Y /X es y = a + bx , siendo las estimaciones núnimo-


• drálicas de a y b

a= y- bx;

32 64 128
30 80 170
o o 19
19 76 304
o o 380
o 20 16
36 252 1 764
o 560 560
9 o 4
13 130 1 300
270 o 200
14 30 56 100 522 3 496

42 120 280 442

126 480 1 400 2 006


260 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Necesitamos, pues, calcular

Lx;n;. ~22
--'---- = _:>- = 5 22
N 100 '
s; = a10 - a,o = 34,96- 5,22 2 = 7,7116
2

LY~n.j 2006
a
01
= 1
= - - = 20, 06
N 100
Sy 2
= 20,06- 4,422 = 0,5236
Sry = a
11
- a a
10 01

~~X;Y;n;j = 30 + 80 + 170 + 380 + 560 + 560 + 270 + 200 =


22 50
N 100 '
sry = 22,50- 5,22. 4,42 = -0,5724

b = -O, 5724 = -0 074


7, 7116 '
a= y- bx = 4,42 - (- 0,074). 5,22 = 4, 81

luego la recta de regresión es


y = 4, 81- 0,074x.

(b) Para estudiar la dependencia lineal entre las variables calcularemos el ""''rP<:TVl-.
diente coeficiente de correlación lineal

r =~ = -0,5724 = -0,2848.
sx · sy ~7,7116 ~0,5236 ·

El tipo de asociación es inversamente lineal ya que el coeficiente de ""r'r" ''~


ción es negativo y, lógicamente, confirma que la recta es decreciente, cosa que .
sabíamos puesto que b = -0,074 .
Por otra parte, el coeficiente de correlación es demasiado pequeño para que
podamos decir que el modelo lineal para esta distribución refleja conveniente-
mente la dependencia estadística que pueda ligar X con Y.
l

REGRESIÓN Y CORRELACIÓN • 261

una previsión de la renta para 2008 y calcúlese el coeficiente de correlación


expresando el grado de bondad del ajuste efectuado.

La recta mínimo-cuadrática es: y = a + bt , en donde

a = ~- bt
{b = ....!!.
s2t

cálculos necesarios los disponemos en la siguiente tabla, en donde


- 2001.

1998 3 -3 9 9 -9
1'999 6 -2 4 36 - 12
2000 7 -1 1 49 -7
2001 8 o o 64 o
2002 10 1 1 100 10
2003 11 2 4 121 22
2004 12 3 9 144 36
57 o 28 523 40

'2>: =0
t'= -j-
N

LYj 57
J=~ = --;:¡=8,1
262 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

"'t'2
L. l 28
a =-'-- = - = 4
2o N 7

LYJ 523
a02 = _j_
N
= 7 = 74 , 7143

¿¿t;yj 40
i j
N
=
7 = 5, 7143

con lo que
2
S/ =a20-a:o =4-0=4
s: = a 02
- a~ 1 = 74,7143- 8,14 2 = 8,4547
St'y = all - a10 a01 = 5,7143 - 0 · 8,14 = 5,7143
Por tanto

b = st'y = 5,7143 = 1,43


2
S1 4
a = y- bl' = 8,14 - 1,43 · O = 8,14

La recta de regresión, como t' = t - 2001 , será


y = 8,14 + 1,43 (t- 2001).

Por tanto, la previsión de la renta para 2008 es


y = 8,14 + 1,43 (2008 - 2001) = 8,14 + 1,43. 7 =
= 8,14 + 10,01 = 18,15.
La bondad del ajuste vendrá dada por el coeficiente de correlación lineal

Sr'
r = __Y_ = 5,7143 = o 98
Sy · S¡ ' ~8,4547 J4 , .
Este coeficiente próximo a 1 nos indica que la evolución de la renta se adapta
proporcionalmente a las variaciones del eje de tiempos.

EJERCICIO 2
El gasto de los consumidores en bienes y servicios y la renta co•~re:mo,ndienl•
(ambos en 'billones de euros) han sido
REGRESIÓN Y CORRELACIÓN • 263

1,0 1,2 1,4 1,5 1,7 1,9 2,1 2,5 2,7

-!nclo que para 2006 se mantenga la estructura de la relación,


~t...-.nín"''"" el gasto en bienes y servicios para ese año, si la renta es de
000 $ «per cápita>• y la población alrededor de 40 millones de habitantes
S= 1,04€).
una medida de la bondad de la predicción.
es el porcentaje de causas comunes atribuibles al gasto de los consu-
_.,rtnr,..., y a la renta?

parte del gasto no nos explica la relación establecida entre gasto y

es un modelo típico en economía, e = f (y) (consumo en función de la ren-


) la hipótesis más sencilla es
c=a+by

determinar a y b ordenamos los cálculos en la siguiente tabla:

0,6 0,9 0,36 0,81 0,54


0,6 1,0 0,36 1,00 0,60
0,7 1,2 0,49 1,44 0,84
0,8 1,4 0,64 1,96 1,12
0,9 1,5 0,81 2,25 1,35
1,0 1,7 1,00 2,89 1,70
1,1 1,9 1,21 3,61 2,09
1,2 2,1 1,44 4,41 2,52
1,5 2,5 2,25 6,25 3,75
1,6 2,7 2,56 7,29 4,32

10,0 16,9 11 ,12 31,91 18,83


264 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

:~:::cj
e = _i_ = 10 = 1
N 10

y=
L Y;
_ i -
· 169
= - ' = 1,69
N 10
¿e~
11 12
a02 = _i _ = • = 1112
N 10 '

LY:
a = -;- = 3 1,91=3191
20
N 10 '
¿¿eiyi
a = ; i = 18,33 = 1,883
11
N 10
s: = a02 - a~ 1= 1,112 - 2
1 = 0,112
s: = a 20
- a~0 = 3,191 - 1,69 = 0,3349
2

Scy = a11 - a10a01 = 1,883 - 1,69 · 1 = 0,193


0 1930
b = scy2 = · = o 57629
Sy o' 3349 '

a = e - by = 1 - 0,57629 · 1,69 = 0,026 .

El modelo ajustado es
e = 0,026 + 0,57629y .
Cuando la renta y = O, el consumo no es cero sino e = 0,026 , es decir.
produce un desahorro para gastar en el mínimo vital.
En 2006 la renta será

y2006 = (30 000 $/ hab) · 1, 04 € · 40 000 000 hab. = 1,248 · 1012 €

luego, el consumo esperando sería

e= 0,026 + 0,57629 (1,248) =O, 7452 ·1012 €

(b) Una medida de la bondad de la predicción nos vendrá dada por el coeficiente de
correlación lineal entre las variables

r = ~ = 0,193 = O 99
se . sy ~0,112 ~0,3349 '

que es próximo a 1, luego el resultado obtenido en (a) es fiable.


REGRESIÓN Y CORRELACIÓN • 265

El porcentaje de causas comunes atribuibles al gasto de los consumidores y a la


renta viene medido por el coeficii:mte de determinación, que será
2 2
r = 0,99 = 0,98 '

Juego el 98% de las causas que determinan un cierto nivel de gasto en bienes y

Por el contrario, la parte del gasto que no nos explica el modelo es

1 - r2 = 1 - 0,98 = 0,02

es decir, 2%. En la estructura de formación del gasto hay un 2% de causas que no


están recogidas en el modelo, que se quedan en los residuos.

empresa de importación de maquinaria, cuya cuota de mercado es del 4%


compras del sector. Teniendo en cuenta que, en los 6 últimos años, el
de importación de maquinaria y la producción industrial de los sectores
absorbido esas importaciones han sido

Imponación Producción
(en 106 euros) (en 106 euros)

22 105
33 120
45 125
50 130
65 140
67 154

Cuál será el volumen de importación de esa empresa en un año en que la


poducción industrial estimada es de 200 millones de euros (suponiendo que la
relación de estos seis años se mantenga en dicho año).
Fiabilidad de dicha estimación.
(:alcúlese la varianza debida a la regresión y la varianza residual.

Suponemos que las importaciones (M) estarán en función del nivel de producción
iDiustrial (Y) y que el tipo de relación es lineal
m=a+by
266 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

para determinar esta recta de regresión realizamos los cálculos siguientes:

22 105 484 11025 2310


33 120 1089 14400 3 960
45 125 2025 15625 5625
50 130 2500 16900 6500
65 140 4225 19600 9100
67 154 4489 23716 10318

282 774 14 812 101266 37 813

m = 282 = 47
6
774
y= = 129
6
14812
ao2 = 6 = 246866
,
101266
a2o = 6 = 16 877,66
37 813
an = = 6 302,16
6
2
Sm2 = 2 468,66 - 47 = 259,66
Sy2 = 16 877,66 - 1292 = 236,66
Smy = 6 302,16 - 129 · 47 = 239,16

b = smy = 239,16 = 101


Sy2 236, 66 '

a = m - by = 47 - 1,01 · 129 = -83,29


el modelo lineal ajustado es
m = -83,29 + 1,01 y .
Suponiendo que la estructura de la dependencia de las importaciones respecto a
la producción se mantenga en el año deseado, el volumen de importaciones sera
(siendo la producción industrial 200 millones de €)
m = -83,29 -1,01· 200 = 118, 71 ·106 €
Como la empresa de que hablamos dispone de una cuota de mercado del 4%.
sus importaciones serán
mempresa = 0,04 ·118, 71 = 4, 7484 ·106 €
REGRESIÓN Y CORRELACIÓN • 267

Para ver si esta estimación es estadísticamente fiable, determinemos el grado de


dependencia lineal a través del coeficiente de correlación correspondiente

r =

0,96 está próximo a 1, luego la estimación es estadísticamente fiable.


La varianza debida a la regresión en una regresión de Y sobre X es:
s2 = s2 . r2
R y

en este caso, como la variable independiente es m


s2 = s2 . r2
R m

SR2 = 259,66 . 0,96 2 = 239,30


La varianza residual, en la regresión de Y sobre X, es

Sry2 = Sy2 (1 - r 2 )

que, en este caso,

Sm2 = 259,66(1 - 0,96 2 ) = 20,36

Comprobamos que

239,30 + 20,36 = 259,66.

e! l es un factor residual que se suele asimilar al progreso técnico

lamsidE~ramc•s que el stock de capital no varía, permaneciendo también estable el


residual, entonces Y sería una función de la cantidad de trabajo

Y=rz!'
268 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Partiendo de los datos

Producción (L) 10 20 26 31

Trabajo (L) 200 400 600 800

se trata de estimar, de acuerdo con este modelo, la producción para un


trabajo igual a 100.

SOLUCIÓN. La función a ajustar es Y =r Lb, que debemos linealizar


In Y = In r + b In L
llamando

u1 = lnY1 }
z.1 = In L.1 tendremos el modelo lineal u = a + bz
a= Inr

donde los parámetros a y b los obtenemos por mínimos cuadrados


a = ü- bz

Para ello, formamos la tabla siguiente:

Y.
J
L.1 u1 = In Y1 Z¡ = lnL¡ u~ u. .
J
J

10 200 2,30258 5,29831 5,30187 28,07208


20 400 2,99573 5,99146 8,97440 35,89759
26 600 3,25809 6,39692 10,61515 40,92058
31 800 3,43398 6,68461 11,79222 44,68401

11,99038 24,37130 36,68364 149,57426

de donde

:~::u,
- j 11, 99038
u=--= = 2,997595
N 4

-
LZ¡
1 24,37130
z = -- = = 6,092825
N 4
REGRESIÓN Y CORRELACIÓN • 269

s; = a02 - a~ 1 = a02 - ü 2 = 9,17091- (2,997595)2 = 0,1853

1>2
= _1_1 = 36,68364 = 9 17091
ao2 N 4 ,

s; = a20 - a~0 = a 20 - z2 = 37,393565- (6,092825)2 = 0,27104852

I,z;
a = _;_ = 149, 57426 = 37 393565
20 4 4 '
S"'- = a11 - ~ 0 a01 = 18,48628 - 2, 997595 · 6, 092825 = O, 22245825

LLU¡Z¡
j l 73,94512 = 18 48628
a11 = N 4 '

b = s.. = 0,22245825 = o82


Sl2 0,27104852 '
a = u- bz = 2,997595 - 0,82 . 6,092825 = -1,9985215

r.= antiln a = antiln (-1,9985215) = 0,1355.


la función de Cobb-Douglas ajustada es

Y = 0,1355 · L0' 82 .

La estimación de Y para un volumen de L = 100


y = 0,1355 . 100°'82 = 5,91.

el modelo de crecimiento económico de Harrod-Domar:

Y, = renta período t
y0 = renta inicial
t = tiempo
p es un parámetro
270 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Sabiendo que:

Años R(fnra

1 12
2 15
3 20
4 26
5 34

Determínese:
(a) La renta inicial.
(b) La renta estimada para el año 10.

SOLUCIÓN. Como el modelo de Harrod-Domar es un modelo exponencial


demos, para poder utilizar el ajuste núnimo cuadrático, a linealizar el modelo:
ln Y, = ln y0 + pt

si llamamos

u, = ln Y,}u, =a + pt
a = ln y0

Los parámetros a, p serán


a =u - pt
SUI
p= S2.
1

Formamos la tabl9 siguiente:


. ~'~. ",~~,
1! Y,, 1¡ ul ¡ = lny1¡ uz

tf
1
'B u,¡t.·' ,1¡:;

12 1 2,4849 6, 1747 1 2,4849


15 2 2,7080 7 ,3333 4 5,4160
20 3 2,9957 8,9742 9 8,9871
26 4 3,2581 10,61-52 16 13,0324
34 5 3,5263 12,4348 25 17,6315

15 14,9730 45,5322 55 47,5519


REGRESIÓN Y CORRELACIÓN • 271

¡¡ = ~u,, = 14,9730 = 2 9946


N 5 - '

- .L t i
t= - ' - = -
15
=3
N 5
s: = a 02 - a~ 1 = 9,1064 - (2,9946) 2 = 0,1387708
¿uz
a = _¡_ '' = 45,5322 = 91064
o2 N 5 '

¡: t i2 55
a2o =-'-=-=11 .
N 5
S., = a11 - a10a01 = 9,51038 - 2,9946 - 3 = 0,52658
.L.Lu t.
r1 ¡
1 1
' = 47,5519 =
9 51038
N 5 '

p = 0,52658 = 0,26329
2
a = 2,9946 - 0,26329 - 3 = 2,20473 _

Y(
= 9' 068 eo. 26329 ,

y10 = 9,068 - 13,9140 = 126,17.


ÍTULO 10

gresión múltiple

istribU.c ión.p-dimensional
frecuenci(Js

anteriores se han estudiado las distribuciones bidimensionales y las


la regresión lineal simple y de la correlación, que nos permitían rela-
comportamiento de una variable con el de otra. Pero, en la realidad,
es que una variable venga explicada por la acción simultánea de
De aquí el interés de generalizar el modelo visto al caso

distribuciones p -dimensionales a las procedentes de la observa-


- . . ..... nnn"

características simultáneamente. Cada una de las características ob-


da lugar a una variable unidimensional, por lo que son distribuciones
de p variables .

273
274 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

La distribución de una variable p-dimensional será, por tanto, de la fo

1a observación

2 a observación

N-ésima observación

El conjunto de observaciones se suele denominar «matriz de oo:serva<:;IOIJCI


ya _que dichas observaciones se pueden representar en una matriz
(N x p). El subíndice o número de fila corresponde al subíndice de la
(1, 2, ... , p) , y el número de columna al orden de la observación (1, 2, ... , .\

10.2 Regresión múltiple

Generalizando el concepto de distribución condicionada, ya visto en el


anterior, denominaremos hipersuperficie de regresión al lugar geométrico
todas las medias condicionadas de las variables.
Nótese que para cada combinación de los valores de X2 , X3 , ... , XP
dremos una distribución de X1 , para la que obtendremos un valor medio.
mando todas las posibles combinaciones de valores de X2 , ... , XP, o
mos para cada una de ellas una distribución de XI , con su corre"f-'''u~..~·­
valor medio. La hipersuperficie en que se encuentran dichos valores medios
la llamada hipersuperficie de regresión de XI sobre x 2, .. . ' xp.

Pudiera darse el caso de que las hipersuperficies de regresión fueran


planos (planos, para el caso de tres variables). En este caso, los hiperp
(o los planos) de regresión 1 coinciden con los que se obtienen al realizar
ajuste mínimo-cuadrático.
REGRESIÓN MÚLTIPLE • 275

~ancrune11te, en el caso de tres variables, si representainos la distribución


sistema tridimensional de ejes cartesianos, obtendremos una nube de .
. Esta nube de puntos estará distribuida alrededor del punto O' de coor-

suponemos que la regresión de XI sobre x2 y x3 es lineal , el plano


1 coincidirá con el plano que ajustemos a la nube de puntos por el
de mínimos cuadrados.

ecuación del plano que queremos ajustar, los coeficientes b12 , b13 (coefi-
de regresión parcial) y b10 se determinarán con la condición de que
•trn1ma la suma de los cuadrados de las diferencias entre los valores obser-
x1j y los calculados mediante la ecuación del plano, x1: •

X X
X X
X X
X X
X x2
X O'
--..e--)XI, X2.X3
X

FIGURA 10.1
276 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

10.2.1. REGRESIÓN Y CORRELACIÓN EN MÁS DE D


VARIABLES

Vamos a tratar aquí sucintamente este problema. Dada una serie de


se trata de estudiar el grado de dependencia simultánea entre todas o
pos de ellas y, de acuerdo a la intensidad con que dependan, estab
función que explique una variable mediante todas las demás, que se
sus causas influyentes.
Sean las variables XI, x2' ... ' xp' que forman una distribución de
sión p, en donde se pretende explicar X1 a través de las p - 1 v
tantes x2, x3' ... 'xp .

El problema, al igual que en la correlación y regresión simple,


por una parte, medir el grado de asociación según una determinada
regresión y, en segundo lugar, determinar la función de regresión.
Teniendo el residuo la misma interpretación que en el caso de "v''"'·'-
simple , la varianza residual correspondiente a la regresión de
x2, x3, ... 'xp' será:

s2 = "(x!j - x~)2
rl·2 3 .. . p 7 N

y el coeficiente general de correlación múltiple, por consideraciones a.u<UVJ!II


las expuestas en correlación simple, se define como

szr l ·2 3 ···
"R
• .,.2 3 ... p
=
~
1_ 2
p

51

y mide el grado de interdependencia, o dependencia simultánea, entre


variables consideradas, según la función de regresión de que se disponga.
El coeficiente de determinación múltiple es

Jl2 = 1 _ s2rl·2 3 ... p


"1·2 3 ... p
512

y varía también entre O y 1 (con lo que R, 2 3 . .. P estará comprendido entre


y 1).
REGRESIÓN MÚLTIPLE • 277

la regresión múltiple mínimo-cuadrática habrá que seleccionar la hiper-


. de regresión que, a priori, supongamos que mejor se adapta a la nube
. Si ésta viene dada por la función

x; =f (x2, x3, ..• , xP, b1, b2 , .•• , bk)

bl' b2, ... , bk se determinarán haciendo que los residuos sean


, es decir, minimizando

4> = I, (xli - x~)2 .


j

función elegida es lineal, tendremos un hiperplano de regresión. El ca-


elemental se tendrá cuando sólo sean tres las variables (X1, X2 , X3 )
una superficie de regresión que, cuando la función seleccionada
lineal, será un plano.

a considerar el caso en que se seleccione una función del tipo lineal, tal

1y; = bo + blxli + b2x2i + ... + bPxPi 1


para mayor claridad en la exposición, a la variable explicada la re-
por Y, y a todas las explicativas por XI, x2' ... 'xp .

ajustar un hiperplano de regresión, la condición mínimo-cuadrática es

mín "L... (yJ. - y~)


2
J
j

son los valores observados, e y; son los valores teóricos que se


a través del hiperplano.
278 • SECCIÓN 4. ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

Siendo e el vector columna de los residuos

e= =y- y*

y teniendo en cuenta que

Y¡ - bo - blxll - b2x21 - ... - bpxpl


Y2 - bo - blxl2 - b2x22 - .. · - bpxpz
e= = =

Y¡ 1 XII x2I xpl bo

Yz 1 xl2 x22 xp2 bl


= =y - Xb

YN 1 XIN x2N xpN bp

en donde y es el vector de las observaciones de la variable aplicada,


vector de coeficientes que se quieren deternúnar y X es la matriz de las .\f
servaciones de cada una de las p variables explicativas ampliada por una
lumna de unos y, además, y* = Xb . Entonces la condición
expresada matricialmente queda

$="<Y·-
L.,¡ J
j
y*)
J
2
= "e
L.,¡ J
j
2
= e'e = [y- Xb]' [y - Xb] =

= [y'- b'X'] [y - Xb] = y'y- y'Xb- b'X'y + b'X' Xb.

La condición necesaria para que $ tenga un mínimo nos lleva a que


o$ o (y'y - y'Xb - b'X'y + b'X' Xb)
- = =0
ob ob

Consúltese cualquier manual de Álgebra Matricial para repasar la derivación de matrices.


REGRESIÓN MÚLTIPLE • 279

a<j> = -2Xy + 2X' Xb =O


ab
O un vector de ceros, donde

1X' Xb = Xy 1
es una matriz no singular, es decir, si su determinante
es distinto de cero, se puede calcular l~ inversa [X' xr 1
y entonces

1b = [X' xr1 xy 1
son los coeficientes de regresión parciales, y así, por ejemplo, b2
la variación de Y, inducida por una variación de X2 , suponiendo que las
variables permanecen constantes.
otra parte, la condición mínimo-cuadrática
X'Xb = Xy

Xy - X' Xb =O
X'[y - Xb] =O

X'e = O.

1 xll x2I xpt

1 xt2 x22 xp2


= [1 X1 x2 xp]
1 xlN x2N xpN

X1, X2 , ••• , XP, son los vectores columnas correspondientes a la N


-~n{:w... ., de cada variable explicativa X¡ , y 1 es un vector columna de
280 • SECCIÓN 4 . ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

1' l'e o
X'1 X'1e o
X'e = X'2 e= X'2e =0= o

X'p X'pe o
de donde
l'e = O.
Pero como

tenemos que, al igual que en la regresión lineal simple, la suma de los


o errores generados en la regresión es nula. Por tanto, también su valor
e= o.
Por otra parte, dado que

" e.,
L., = "L., (y.1 - y*)
1 = O
j j

se verifica también en la regresión lineal múltiple que

es decir que y = Y* .
La media, pues, de las observaciones de Y es igual al valor medio
valores teóricos obtenidos en el hiperplano de regresión. Este resultado lo
caremos a continuación.

10.3.1. CORRELACIÓN LINEAL MÚLTIPLE

El grado de asociación lineal simultánea de las p variables según el ..,~,._,.,.


de regresión vendrá dado por el coeficiente de correlación múltiple

R = 1
_ Varianza residual
Y· n .. p Varianza total
REGRESIÓN MÚLTIPLE • 281

ftrianza residual, expresada matricialmente, será

S 2 == _!_[y'y - b'Xy]
r N

1 1 1
s2 == - " (e. - e)2 == - " e2 == - " (y . - y*)2
r NL. 1 NL. 1 N~ 1 1
1 J J

- y*)
J
2 = "e 2
L. J == e'e =[y- Xb]' [y ·_ Xb] =[y' - b'X'][y- Xb] =
j

= y'y - b'X'y - y'Xb + b'X' Xb =


= y'y - b'X'y - y'Xb + y'X [X' Xr 1 X' Xb =
= y'y - b'X'y - y'Xb + y'Xb = y'y - b'X'y

b' = y'X [X' xrl


nrianza debida a la regresión, análogamente, es

1s; = -f;¡[b'X'y - NY'l 1

s2 = _!_ " (y* _ .Y*)2 == _!_ " (y* _ .Y)2


R N~ J N~ 1
J J

= LY;2 - Ny2 =y*' y* - N y2 = [Xb]' [Xb]- Ny2 =


j

= b'X' Xb- NJ2 == b'X' X[X' Xr 1 X'y- NJ2 =


= b'X'y- NJ 2
282 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

ya que

(a) 'f.y; = 'f.yj =N y, según vimos antes.


j j

(b) 'f.y7 2
=y*' y* = [Xb]' [Xb], teniendo en cuenta, según vimos
j

que el vector de valor teórico dado por la regresión es y* = Xb .

• Por último, la varianza total de la variable explicada y será

1s: = ~[y'y - NY'l 1


dado que

• A la expresión
2
"L..,¿ (y.1 - y*)
1
= y'y - b'X'y
j

se le denomina suma de cuadrados debida al error.


• La suma de las desviaciones cuadráticas

I<Y; - '}) 2
= b'X'y- NY2
j

recibe el nombre de suma de cuadrados debida a la regresión.


• Mientras que a la suma de las desviaciones cuadráticas respecto a la media

I<Yj - '})2 = y'y- Ny2


j

se le llama suma de cuadrados del total.


Estas tres sumas de cuadrados nos recogen las fuentes de variación que
pueden detectar cuando se ajusta un hiperplano de regresión: la que queda
en los residuos o errores, la que incorpora la regresión, y la total de la
explicada y.
REGRESIÓN MÚLTIPLE • 283

vimos en el capítulo anterior que


s2y = s2r + s2R

, por tanto, análogamente que

:¿ <Yj - Y>2 = :¿ (yj - y;)2 + ¿j <Y7 - Y>2.


j j

que se verifica la identidad


y'y- NY2 = (y'y- b'X'y) + (b'X'y - Ny2).

los cálculos necesarios para el análisis del grado de asociación lineal


disponer en una tabla como la siguiente:

"' c(.lluÍrados
Varianza Correlación

b'X'y - Nyl

y'y - b'X'y

y'y - NY 2

IOdo lo anterior, el coeficiente de correlación lineal múltiple será

R = ~~- s2s; = 1-
y'y - b'X'y
y'y - Ny2 -
-
b'X'y - N y2
V y'y - N y2
y

lill!!terJmiJJación lineal múltiple

S2 S2 b'X'y - N y 2
Rl = 1- _ r_ = ....Ji. = ----=------=~
s2y s2y y'y- Ny2

CIU'ilparte se puede demostrar que la inclusión de una nueva variable


no empeora la descripción de Y en el modelo de regresión. En
ruviéramos en principio tres variables Y, X1 y X2 sabemos que

s: = s~.12 + s~.12
284 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

si introducimos una nueva variable X3 en el modelo, entonces se

Demostrándose que
2
SRy•l23 > s2
- Ry·l2

2
Sry•l23 < 52
- ry•i2

o, lo que es lo mismo, que

10.3.2. CORRELACIÓN PARCIAL

Si queremos estudiar el grado de asociación lineal entre, por ejemplo.


riables Y y X1 podríamos calcular el coeficiente de correlación lineal
tal como lo habíamos definido en el capítulo anterior, es decir
S
___!L
Sy S X¡

pero de esta manera no se tiene en cuenta que el grado de correlación que


obtenga puede ser debido a la influencia sobre estas variables del otro
de variables X2 , X3, ... , XP, que, a su vez, pueden estar relacionadas coo
XI.
Con objeto de obtener la asociación lineal que estrictamente pueda
entre Y y X1 , hay que proceder a intentar eliminar la posible influencia de
otras variables. Para ello, se deben seguir los siguientes pasos:
(a) Se obtienen los hiperplanos de regresión
y= c0 + c2 x2 + c3x 3 + .. · + cPxP
i1 = d0 + d2 x2 + d3x3 + · · · + dPxP

que se supone que resumen la influencia que sobre Y y X1 , re~;oectil


mente, ejercen el resto de las variables X2 , X3 , ... , XP.
REGRESIÓN MÚLTIPLE • 285

Se definen las nuevas variables


u=y-y
v=x,- x,
que no son otra cosa que los residuos de las anteriores regresiones, y
que se supone que incorporan aquella parte de Y y X1 , respectivamente,
que queda libre de la influencia del conjunto de las variables
~· X3, ... , xp.

Por último, se considera que la correlación parcial entre Y y X1 , es la co-


rrelación simple que exista entre sus correspondientes variables residuos. Es
decir, el coeficiente de correlación parcial entre Y y X1 sería pues,

ltorando convenientemente los subíndices obtendríamos los correspondientes


llfit-·iPr>t"'" de correlación parcial entre el par de variables que se desee .

. 3. EL PROBLEMA DE LA MULTICOLINEALIDAD
problema surge cuando existe una correlación lineal simple perfecta entre
o más) variables explicativas, ya que implica que una (o más) columna(s)
matriz X de observaciones son combinaciones lineales de otra(s), con lo
rango de esta matriz X se reduce.
En principio el rango de [X' X] es p + 1 , es decir, igual al número de pa-
. pero si existe alguna combinación lineal entre las colm1ll1as de X,
su rango es menor que p + 1 , con lo que el determinante
= O, lo que nos impide calcular la matriz inversa de [X' X] , y por lo
el vector de coeficientes b

b =[X' xr 1
xy

ltáneamente, si designamos a los coeficientes de correlación lineal


entre cada dos variables explicativas por
286 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

podemos escribir la matriz de correlaciones de las variables explicativas


formada por estos coeficientes de correlación lineal simple
1 ~2 ~p
rz1 1 r2p
RX

rpl rp2 1

que es simétrica dado que f¡j = rji ; si 1Rx 1 = O , decimos que existe m111ltilall
nealidad. Cuando 1 Rx 1 = O, se dice que existe cuasi-multicolinealidad
multicolinealidad imperfecta.
La solución de este problema requiere modificar el modelo o realizar
tipo de transformación que elimine la multicolinealidad, pero éste es un
que se sale del objetivo del texto y que se encuentra debidamente tratado
cualquier manual de econometría.

EJEMPLO
Sean las siguientes variables Y, XI ' x2 ' de las que se dispone de la siguiente .
ción:

2 4 1
3 5 2
6 10 7
8 11 8
10 15 12

Estúdiese el modelo de regresión múltiple


y = bo + bJxJ + b2x2 .
REGRESIÓN MÚLTIPLE • 287

2 2
xli x2J Yi1i yix2i x11 x21

4 16 1 8 2 4
9 25 4 15 6 10
7 36 100 49 60 42 70
11 8 64 121 64 88 64 88
15 12 100 225 144 150 120 180
45 30 213 487 262 321 234 352

LY¡ 29
y= T = s- =5,8

- ~x,i 45
X
1
= - - = - =9
N 5

- ~x2i 30
X2 =--= -= 6
N 5

LY~
s2 = _ i _ - Y-2 = 213 - 5 82 = 8 96· sy = 2,9933
Y N 5 ' ' '

s, = 4,04969

sx,. = 4,04969

LYjXlj
j 321 .
Syx, - y-.xl = - - 5,8. 9 = 12
N 5
LYjX2j
j 234
Syx,_ - y .X2 = 5 - 5' 8 · 6 = 12
N
¿xlJx2J
j 352
Sx x - x;.x2 = - - 9. 6 = 16 4
1 2 N 5 '
288 • SECCIÓN 4. ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

S
rYX¡ = ___3._ =
S S
o' 989
y X,

S
ryx,_
= ...--I:L
S S
= o' 989
y x,

S
r = ___5.2_ = 1
yx, S S
X¡ x2

b = [X'Xr1 [Xy]

N ¿xlj

+:
Ixzj
j j 45
[X' X]= ¿xlj ¿x;j ¿xljx2j 487 301
352
j j j
30 352 262
Ixzj ¿x.ljx2j Ixij
j j j
45
487
30]
352 = 637 970 + 475 200 + 475 200 -
1 X' X 1 = [ .:
30 352 262 - (438 300 + 619 520 + 530 550) = o

1 X' X 1 = O, y por tanto [X' X] es singular y no podemos calcular su inversa [X' Xf


con lo que el vector b de coeficientes queda indeterminado.
Existe multicolinealidad ya que

lo que, a su vez, es debido a que las observaciones de X1 son una combinación ·


de las de X2 • En este caso, se tendría
REGRESIÓN MÚLTIPLE • 289

siguiente tabla nos muestra los valores de las variables «importaciones de bienes
!B"Vicios» (variable dependiente Y ), «producto nacional bruto» (PNB, X1 ) y
relativos de las importaciones>> ( x2 ), durante el período 1995-2004 de la
•10m1a de un país

~.>:Lri~~L::~:-~_-~:__ :::> >~ ..-._·: ._. _:{::~:it-~:_-:


1995 21 52 120
1996 30 58 120
1997 40 64 116
1998 50 69 109
1999 56 73 105
2000 72 78 98
2001 82 84 96
2002 81 88 94
2003 86 93 100
2004 100 100 100
618 759 1 058

popone estudiar la demanda de importaciones en función del PNB y de los


relativos de las mismas
y1 = b0 + b1xll + b2x 21 •

Calcular los coeficientes de regresión parciales.


\ arianza debida a la regresión y varianza residual
Estudiar la fiabilidad del ajuste lineal.
Los coeficientes de correlación lineal simple.

formamos la tabla que aparece en la siguiente página y cuyas medias son:


290 • SECCIÓN 4 ANÁLISIS ESTA DfSTICO DE DOS O MÁS VARIABLES

Lx11
- = _ 1_ = 759 = 75 9
~ T 10 '

Lx21
x2 = -~- = 1 058 = 105,8
T 10

- = ~y/ = 618 = 61 8
y T 10 '

La determinación de los coeficientes de regresión se realíza teniendo en


que:

b = [X'Xr1 Xy.
Para ello los cálculos matriciales necesarios son:

21 52 120 441 2 704 14 400 1 092 2 520

30 58 120 900 3 364 14 400 1 740 3 600

40 64 116 1 600 4 096 13 456 2 560 4 640

50 69 109 2 500 4 761 11 881 3 450 5 450

56 73 105 3 136 5 329 11 025 4 088 5 880

72 78 98 5 184 6 084 9 604 5 616 7 056

82 84 96 6 724 7 056 9 216 6 888 7 872

81 88 94 6 561 7 744 8 836 7 128 7 614

86 93 100 7 396 8 649 10 000 7 998 8 600

100 100 100 10 000 10 000 10 000 10 000 10 000

618 759 1 058 44 442 59 787 112 818 50 560 63 232

donde

T
759
1 058]
59 787 79 090
79 090 112 818
REGRESIÓN MÚLT IPLE • 291

6181
= 50 560
[
63 232

108,491238 -0,432271725 -0,7143838661


[X' xr 1
= -0,432271725 0,0019526673 0,0026849175
[
-0, 714383866 0,0026849175 0,0048260739

20,00606 1
b " [ :: 1"txxr' X 'y =
[
1, 3556359
-0,5774955

Y, = 20,00606 + 1,3556359x1, - 0,5174955x21 •

Si el PNB creciera una unidad, el volumen de importaciones lo haría más (en


.3555 ... ). Para cada incremento de los precios de las importaciones en una uni-
el volumen de importaciones disminuye (-0,5773). Volumen de importación
PNB están en relación directa. Volumen de importaciones y precios de las mis-
están en relación inversa.
debida a la regresión y varianza residual

= -1 L:<y -y-2) = -1 [ y,y- y y- 2] = 1- ¿ y 2 - y y- 2 =


T 1 ' T T , '
2
44 _442
_ _ -_10_. 61,8
_..;__ = 624,96
10

= _!_[b'X'y- TY2 ] =
T

= ~{[20,00606
lO
1,3556359 -0,5774955] [so ;~~1- 10. 61,8
2
] =
63 232
= 619,610073
292 • SECCIÓN 4 ANÁLISIS ESTAD[STICO DE DOS O MÁS VARIABLES

sry2 = _!_[y'y - b'X'y1 =


T

= _!_.{44 442- [20,00606


10
1,3556359 -0,5774955] f 5o :~~]] =
63 232
= 5,349927

y comprobamos que

6 249,6 = 6196,10073 + 53,49927.


(e) Para estudiar el grado de fiabilidad del modelo, se calcula R 2

R2 _ S~ _ 6196,10073 = O
9914396
- s2 - 6 249,6 '
y

o bien
s2 53 49927
R 2 = 1- _2:...
2
= 1- · = 1- 8 560431 · 10-3 = O 9914396
s 6 249 6 • '
y '

por tanto R2 = 99,14396%, luego el ajuste parece bastante bueno.

(d) Coeficiente de correlación lineal simple:

:Ll
s2 = -~-~ _ y- 2 = 44442
-6182 = 62496
Y T 10 ' '

L X~
s2 = -~-- _x2 = 59787-7592 = 21789
x, T 1 10 ' '
¿x1
s2 = -~-21- - _x2 = 112 818 - 105 82
2
= 8816
x, T 10 ' '
sy = 24,9992

S.r, = 14,76109

Sx, = 9,38935

¿ xy 11 1 50560
Syx, = 1
T - x1)1 = ----w- - 75,9 · 6 1,8 = 365,38
¿x21yl
Syx, 1
T - .f2)1 = Il--
63 2 2
105,8 · 61,8 = - 215,24
REGRESIÓN MÚLTIPLE • 293

79 090
-- =
- xtx2 10 - 75 , 9 . 105, 8 = - 121, 22
T

S 365,38 = o 99
rYX, = -YX,- =
SS
y x,
24,9992 ·14,76109 ,

S -215,24
ryx, ~ = -215,24 = -0 917
SS
y X!
24,9992 . 9, 38935 742,26953 ,

Sx,x, -121,22 121 22


rxtx:z = - - = - • = -0 87462
SX, Sx, 14,76109. 9,38935 138,59704 '

las variables Y, X1 , X2 de las que se tienen los siguientes datos:

Y¡ X¡¡ ~

-5 -1 3
3 1 1
-1 o 2
4 2 1

el plano de regresión de Y sobre X1 y X2 y el coeficiente de


~-Lill''""'u lineal, realizando todos los cálculos matricialmente.

Sabemos que

b= rx' xr1 x'y


2 b'X'y- NY2 s2
R = -~-~=_!L·
y'y- NY2 s2y
primer lugar, se estudia si [X' X) es no singular

-1 3

[X'~= r-~ r: ~ ~1
1 1
1
1 o
1 o 2 =
1 2 7 o 15
2
294 • SECCIÓN 4 ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

de donde

1 X' X 1 = 360 - O - O - 294 - O - 60 = 6 -¡:; O.

Como esta matriz es no singular, se procede al cálculo de su inversa; para


determina inicialmente la matriz de sus adjuntos

~21
-30
adj [X' X] = rw
-30 11 14 = [adj [X' X]]'

-42 14 20

luego

90 30 42
6
--
6
--
6
[adj [X' X]]' 30 11 14
[X' X]-1 -- - -
¡xx¡ 6 6 6
42 14 20
-- - -
6 6 6

Por otra parte, como

-5

r-~ ~1-~ r ~~1


1

xy =
o
2 1
= -10
4

tenemos que

90 30 42
-
6
--
6
--6

L:l=Ul
30 11 14
b = [X' X]- 1 Xy = -- - -
6 6 6
42 14 20
-- - -
6 6 6

luego el plano ajustado es


REGRESIÓN M ÚLTIPLE • 295

calcular el coeficiente de determinación múltiple R 2 obtenemos

-3] r 1~ 51
b'X'y = ( 5
- 10
-5
1 =

3
y'y = [-5 3 1 4) = 51
4

51- 4(_!_ )
R2 = 4 = 1,

51 -4(±J
, que en este caso la correlación múltiple es perfecta, siendo nulos todos y cada
los residuos.
Ejercicios
DE LA SECCIÓN 4
EJERCICIOS DE LA SECCIÓN 4 • 299

4.1
cambios de dólares por euros según la siguiente equi-

10 11
75 89
100 119

será el valor en euros que dicho turista percibirá por otros 80 $?

Suponemos que el tipo de cambio permanece constante en las cuatro

E1 turista piensa que si por los 10 $ primeros le han dado 11 €, por los 75 $ segun-
le tenían que haber dado 82,5 €, ya que el cambio teórico sería de 1,1 €/$.
Para poder aclarar este tema pensemos, en primer lugar, que la relación entre divi-
80 es estadística, sino que responde a algún tipo de función matemática, y si el tipo
cambio no varía, esta relación ha de ser lineal; es decir, que los tres puntos que
los tres primeros cambios han de estar sobre una recta.
Para comprobar este supuesto consideremos los dos primeros casos, y determine-
la recta que pasa por esos puntos; siendo x la variable dólares e y la variable
esta recta interpolatriz será
y - Y¡ X- X
1
=
Y2 - Y1 x2 - x1
y -11 X -10
89 - 11 75 -10

y = 1,2x- 1

lo que el tipo de cambio es de 1,2 €/$, cobrando la oficina de cambio una comisión
de 1 € por cambio.
Verifiquemos que esta relación se da en el tercer cambio
y = 1, 2 . 100 - 1 = 119 €

Entonces, por los últimos 80 $ percibirá


y = 1, 2 . 80 - 1 = 95 €
300 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIAB LES

Ejercicio 4.2
El consumo de productos congelados (yj ) y la renta mensual familiar ea
muestra de 5 hogares son los siguientes:

100 2000 20 40 200


150 2 500 25 62,5 375
180 3 500 35 122,5 630
200 4000 40 160 800
210 4 500 45 202,5 945
840 165 587,5 2 950

SOLUCIÓN. Para elegir el tipo de modelo al cual ajustar nos basaremos en la


de puntos o diagrama de dispersión (Fig. E4.1), en donde podemos observar que
puntos de esta nube se disponen próximos a una recta, por lo que selc~cciloruliii(•
modelo lineal para el ajuste, es decir, tomamos
y=a+bx.

Consumo

210 - --- ---- - --------- -------- - ------------- ·


200 ------------------- - ------- ---------.
180 --- - ------ ------------- --------
150 --- - ------------ -----

100 --- ----- - -------.1


1
1
1
1
1
1
1
1

20 25 35 40 45 Renta
(en miles)

FIGURA E4.1
EJERCICIOS DE LA SECCIÓN 4 • 301

Usamos el sistema de ecuaciones normales

L, yi = Na + bL, x; }
L,x;yi =a L,x; + bL,x; 2

para mayor comodidad de cálculo, consideramos la nueva variable

, X¡
x.=-·
l 100

840 = 5a + 165b }
2 950 = 165a + 587,5b

a = 31,38
b = 4,14

y = 31,38 + 4,14x'.

4.3
de ahorro y la renta del sector familias, en billones de pesetas
de 1977, para el período 1977-1986, fueron:

~~~~~~~~;T:-'Ó,~- ,•. -;'', ~· -: '•; 'l


1977 1,9 20,5
1978 1,8 20,8
1979 2,0 21,2
1980 2,1 21,7
1981 1,9 22,1
1982 2,0 22,3
1983 2,2 22,2
1984 2,3 22,6
1985 2,7 23,1
1986 3,0 23,5

lineal que explique el comportamiento del ahorro en


302 8 SECCIÓN 4 . ANÁLISIS ESTAD[STICO DE DOS O MÁS VARIABLES

(b) Ajústese el modelo S1 = b0 + b1y1 + b2 l .


(e) Calcúlense las elasticidades ahorro-renta en los casos anteriores para 1986..
(d) Determínese la propensión media al consumo en el supuesto de relación
entre estas dos macromagnitudes económicas para este mismo período.

SOLUCIÓN
(a) Para ajustar por mínimos cuadrados el modelo lineal
S1 =a+ by1

debemos resolver el sistema de ecuaciones normales

L S = Ta + b L y
(
1
(
1 )

¿s y =a LY + b ¿y;
1 1 1
( ( (

Para ello formamos la tabla:

s, Y, ~Y, y; ~
1,9 20,5 38,95 420,25 798,475 8 615,125
1,8 20,8 37,44 432,64 778,752 8 998,912
2,0 21 ,2 42,40 449,44 898,880 9528,128
2,1 21,7 45,57 470,89 988,869 10218,313
1,9 22,1 41,99 488,41 927,979 10 793,861
2,0 22,3 44,60 497,29 994,580 11089,567
2,2 22,2 48,84 492,84 1 084,248 10941,048
2,3 22,6 51,98 510,76 1 174 ,748 11543,176
2,7 23,1 62.~7 533,61 1 440,747 12 326,391
3,0 23,5 70,50 552,25 1 656,750 12 977,875

21,9 220,0 - ," 484,64 4 848,38 10 744,028 107 032,396

Como tenemos T = 10 observaciones, el sistema quedará

21,9 = lOa + 220b }


484, 64 = 220a + 4 848, 38b
cuya solución es
a = -5,27
b = 0,34
luego el modelo lineal será
s, = -5,27 + 0,34y(.
.,

EJERCICIOS DE LA SECCIÓN 4 • 303

Para ajustar el modelo parabólico

S, . = bo + blyt + b2yr2

el sistema de ecuaciones mínimo-cuadrático es

¿s, = Tbo + bl L Y, + bz L Y;
1 1 1

I s,y, = .bo I Y, + bl I y; + b2 I 3
Y,
1 1 1 1

¿s,y; = boLl + bl LY; + bz LY:


1 1 1 1

es decir

21,9 = 10b0 + 220b1 + 4 848,38b2 )

484,64 = 220b0 + 4 848,38b1 + 107 032,396b2


10 744,028 = 4 848,38b0 + 107 032,396b1 + 2 366 849,5478b2

que, una vez resuelto, nos da


b0 = 85,713
bl = -7,962
b2 = 0,189

luego el modelo ajustado será

s, = 85,713 - 7,962y, + 0,189l.

La elasticidad ahorro-renta en el modelo lineal es

E = L dS = Lb.
sfy S dy S

Como, para 1986, Y, = 23,5

s; 6
= -5,27 + 0,34 · 23,5 = 2,72
23 5
E*
Sfy
= • · 0,34 = 2 94 .
2, 72 '

En el modelo parabólico de segundo orden

ES/y = sy dS y
dy :::: -s<bl + 2b2y) •
304 • SECCIÓN 4. ANÁLISIS ESTADfSTICO DE DOS O MÁS VARIABLES

la estimación del ahorro para 1986 es

S~ = 85,713 - 7,962 · 23,5 + 0,189 · 23,5 2 = 2,98


y, por tanto,

* 23,5
+ 2. 0, 189. 23,5) = 7,26.
ES/y = 2 98 (-7,962
'
(d) La propensión media al ahorro en 1986 será

s* 2,12
PMS = - = - - = O 116"" 11 6%
y 23' 5 ' '

y como, siendo e el consumo, se verifica la igualdad


S+e=y,

la propensión media al consumo es

PMe = e* = 1- PMS = 1- 0,116 = 0,884 = 88,4%.


y

Ejercicio 4.4
El gasto familiar y el nivel de ingresos (en el mes de marzo) de las
domésticas en los últimos años fueron (en €)

610 1 120
720 1200
800 1310
840 1470
950 1500
1000 1750

(a) Ajústese el modelo


1
G,=a+b-·
!,
(b) Determínese la elasticidad gasto-renta, en el supuesto de que / 1 "" 1 600 .
EJERCICIOS DE LA SECCIÓN 4 • 305

Haciendo el cambio x =_!_ , el modelo queda linealizado


' I,

G, = a+ bx1

y las ecuaciones normales serán

L G,_" Ta + b ~:X, '}


¿c,x, -a L:x, +b ¿x 1
1 1

Para determinar a y b formemos la tabla:

G, x;
610 1120 0,00089 0,5429 0,7921 . 10-{í

720 1200 0,00083 0,5976 0,6889 . 10-{í

800 1 310 0,00076 0,6080 0,5776 . 10-{í

840 1470 0,00068 0,5712 0,4624 . 10-{í

950 1 500 0,00067 0,6365 0,4489 . 10-{í

1000 1 750 0,00057 0,5700 0,3249 . 10-{í

4920 0,00440 3,5262 3,2948 . 10 -{í

4 920 = 6a + 0,0044b }
6
3,5262 = 0,0044a + 3,2948 · 10- b

a = 820,0
b = - 1.1753. w- 6
El modelo hiperbólico ajustado es

G1 = 820 - 1,1753 · 10- 6 _!_ ·


JI
306 • SECCIÓN 4 . ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Como el coeficiente b = -1,1753 · 10-ó = O, entonces el ajuste


tiende a G1 = 820 , es decir, a una recta paralela al eje / 1 a la altura

- = 4 -6
G 920 = 820,

lo cual parece indicar que el gasto no viene explicado, en este ejemplo,


volumen de ingresos.
(b) La elasticidad gasto-ingreso es

1 dG
EG/I = G di = G
1 [-
P
b] - b
= G/ .

Como para 11 = 1 600

1
G*
1
= 820 -1,1753 · 10-ó == 820
1 600

entonces

E
* = -(-1,1753. 10-ó) =0
Gf / 820 · 1 6()()

lo que nos vuelve a señalar, al ser esta función prácticamente inelástica.


gasto no obedece a las variaciones de los ingresos.

Ejercicio 4. 5
Los impuestos corrientes sobre la renta y el patrimonio y la renta bruta
de las familias, en billones de pesetas, en el período 1971-1980, fueron:

1971 0,10 2,59


1972 0,12 3,02
1973 0,15 3,63
1974 0,18 4 ,50
1975 0,24 5,24
1976 0,30 6,29
1977 0,40 7,90
1978 0,58 9,81
1979 0,75 11,44
1980 1,01 13,11

Fuenie: Contabilidad Nacional de España. Base 1970.


EJERCICIOS DE LA SECCIÓN 4 • 307

Ajústese un modelo potencial que explique el volumen recaudado de impues-


tos en función de la renta.
Calcúlese la elasticidad impuestos-renta en 1980.

Si T,* representa el volumen de impuestos estimado a través del modelo

potencial, compruébese que la media geométrica de T,* coincide con la media


geométrica de T, .

Inicialmente, el modelo que se desea ajustar es

T1 =a· yb1

que quedará lir. ~al izado si tomamos logaritmos

log T, = log a + b log Y, .

Llamando

Z1 = log T,
= log a
A
xz = log yl

Z1 =A+ bx1

en donde los parámetros A y b se podrán obtener a partir de las ecuaciones nor-


males
308 • SECCIÓN 4. ANÁLISIS ESTADfSTICO DE DOS O MÁS VARIABLES

Y,
0,10 2,59 -1,00000 0,41330 -0,41330 0,1708:
0,12 3,02 -0,92082 0,48001 -0,44200 0,23~:
0,15 3,63 -0,82391 0,55991 -0,46132 0,3135(
0,18 4,50 -0,74473 0,65321 ' -0,48646 0,4266S
0,24 5,24 -0,61979 0,71933 -0,44583 0,51744
0,30 6,29 -0,52288 0,79865 -0,41760 0,63784
0,40 7,90 -0,39794 0,89763 -0,35720 0,805~4
0,58 9,81 -0,23657 0,99167 -0,23460 0,9834.
0,75 11,44 -0,12494 1,05843 -0,13224 1,12or
1,01 13,11 - 0,00432 1,11760 -0,00483 1,24903

- 5,39590 7,68974 -3,39538 6,45514

el sistema queda

-5,39590 = lOA + 7,68974b}


-3,39538 = 7,68974A + 6,45514b

cuya solución es
A = -1,609378
b = 1,391189:::: 1,39

y, por tanto, a = antilog A = O, 02458 = O, 0246 , y el modelo potencial es

T1 = O, 0246 y11'39 •
(b) La elasticidad impuestos-renta de este modelo es

E = }_ dT = Labyb-1 = abl =b
T/y T dy T T

ya que T =a/.
Comprobamos que, en este tipo de modelos potenciales, la elasticidad
constantemente igual aben todos sus puntos y, por tanto, para 1980

E; Yso = E;1Y = b = 1,39 .


1
(e) El ajuste lineal mínimo-cuadrático tiene la propiedad de que la media de los
duos o errores es nula, es decir

¿e,
e = - '- =O
N
EJERCICIOS DE LA SECCIÓN 4 • 309

= zl - zl* , en este caso, tenemos que

¿ log r;* = L log r;


1 1

log( I¡r;* ) = log(J!r:)


nr:* = nr:
1 1

= GT , como queríamos demostrar.

4.6
a precios de mercado y la formación bruta de capital fijo {FaCF), en
de pesetas, en el período 1970-1982, fueron:

~~:~EF~l.'~ ;¡·. }' ·· .•• ,.··,:~:ft:


1970 2,6 0,6
1971 2,9 0,6
1972 3,4 0,8
1973 4,1 1,0
1974 5,1 1,3
1975 6,0 1,4
1976 7,2 1,6
1977 9,2 1,9
1978 11 ,2 2,2
1979 13,1 2,5
1980 15,2 2,9
1981 17,3 3,5
1982 19,9 3,9

FuenJe: Contabilidad Nacional de España. Base 1970.


310 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

(a) Ajústese el modelo reducido de Cobb-Douglas:


yl =a. Klc.

(b) Determínese la elasticidad producto-capital para K; = 2 .

SOLUCIÓN
(a) La función de producción de Cobb-Douglas es

en donde r, b, e y r son parámetros: L representa la cantidad de trabajo, k


stock de capital y e" es un factor residual que se suele asimilar al progreso ·
co.
Si consideramos constantes todos los factores, excepto K, entonces

En este ejemplo, tomamos la F.B.C.F. como variable «proxy» o indicatha


stock de capital; para poder estimar el modelo es necesario linealizarlo
mente tomando logaritmos

log y1 = log a + e log K1 •


Llamando

zl = log y/
A= log a
x 1 = log K 1

entonces el modelo queda

en donde los parámetros A y e se determinan a partir de las ecuaciones normales

Formemos la tabla siguiente:


EJERCIC IOS DE LA SECCIÓN 4 • 311

K1 Z1 = log y1 x1 = Iog K1 Z1x1 XI


2

0,6 0,41497 -0,22 185 -0,09206 0,04922


2,9 0,6 0,46240 -0,22185 -0,10258 0,04922
3,4 0,8 0,53148 -0,09691 -0,05151 0,00939
.!, 1 1,0 0,61278 0,00000 0,00000 0,00000
5.1 1,3 0,70757 0,11394 0,08062 0,01298
5,0 1,4 0,77815 O, 14613 0,11371 0,02135
- .2 1,6 0,85733 0,20412 0,17500 0,04166
9.2 1,9 0,96379 0,27875 0,26866 0,07770
:.2 2,2 1,04922 0,34242 0,35927 0,11725
2,5 1,11727 0,39794 0,44461 0,15836
2,9 1,18184 0,46240 0,54648 0,21381
3,5 1,23805 0,54407 0,67359 0,29601
3,9 1,29885 0,59106 0,76770 0,34935

11,21370 2,54022 3,18349 1,39630

el número de observaciones es T = 13 , el sistema quedará


11,21370 = l3A + 2,54022c }
3,18349 = 2,54022A + 1,39630c

A = 0,6471
e = 1,1026 =1,1
a = antilog A = 4,4374 =4,4
~BlCICtn reducida de Cobb-Douglas es

Y1 = 44
'
· K11' 1 •

E = K . .!!1_ = K acKc-I = acKc = caKe =e


y/K y dK y y aKc

que, en todos sus puntos, la elasticidad es constantemente igual a


312 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Ejercicio 4. 7
Dada la distribución

1 3
6 7
11 13
24 16
36 21

(a) Ajústese el modelo exponencial y = abx .


(b) Determínese la elasticidad de y sobre x, para x = 10 .

SOLUCIÓN
(a) Para poder determinar los parámetros del modelo exponencial a y b,
linealizar previamente dicho modelo tomando logaritmos
log y = log a + x log b .

Llamando
Z¡ = log Y;
A = log a
B = log b

el modelo queda ahora


Z=A+Bx
cuyo sistema de ecuaciones normales es

L Z; = NA + B LX;
1 1
}
¿z;x; =A ¿x; + B¿x¡
i i i

Formemos, por tanto, la siguiente tabla:


EJERCICIOS DE LA SECCIÓN 4 • 313

1 3 0,0000 0,0000 9
6 7 0,7782 5,4474 49
11 13 1,0414 13 ,5382 169
24 16 1,3802 22,0832 256
36 21 1,5563 32,6823 441

60 4,7561 73,7511 924

4, 7561 = 5 A + 60 B }
73,7511 = 60A + 924B

B = 0,081754
A = -0,029828

b = antilog B = 1, 21
a = antilog A = 0,93.
El modelo exponencial ajustado es

y = 0,93 · 1,21x.

E = ~ . dy = ~ abx In b = X In b . abx = X In b
yfx Y dx Y abx

E;x = 10lnl,21 = 10 · 0,1906 = 1,906.

o 4.8
comunidad, la renta semanal de sus integrantes se distribuyó de la forma
314 • SECCIÓN 4 . ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

0,7 10
1,2 22
1,5 34
1,8 46
2,2 53
2,7 61
3,2 38
3,5 24
4,0 12
N= 300

(a) Ajústese la ley de Pareto.


(b) Estímese la renta mínima para ese colectivo.
(e) Determínese la elasticidad de la curva ajustada en los siguientes puntos: x

SOLUCIÓN
(a) La ley de Pareto viene definida a través de la expresión

donde:
y representa el porcentaje de personas con una renta igual o inferior a x .
x0 es la renta mínima del colectivo.
b es un parámetro estructural.
Para poder proceder al ajuste, en primer lugar, hemos de lograr la
ción de este modelo

y=l-(~J
1 - y=(~J
ln(l- y) = blnx0 - blnx.

Llamando
Z ln(l- y)
=

A= blnx0
B = -b
u= lnx
EJERCICIOS DE LA SECCIÓN 4 • 315

.as queda
Z = A+ Bu
lo cual el problema se reduce a un ajuste mínimo-cuadrático a la distribución
. Z¡) , en donde se obtienen los valores de A y B a través de las ecuaciones

L Z; = NA + B L u; }
i i

L Z;u¡ = A L u; + B L u;
1 1 1

Z1111 Jl1
l
x1n1

10 0,033 -(),03356 0,0121 0,13 7,0


22 0, 107 -(),11317 -(),0204 0,03 26,4
34 0,220 -(),24846 -(),0994 0,16 51,0
46 112 0,373 -0,46681 -(),2754 0,35 82,8
53 165 0,550 -(),79851 -(),6308 0,62 116,6
61 226 0.753 -1.39837 -1,3844 0,98 164,7
38 264 0,880 -2,12026 - 2,4595 1,35 121,6
24 288 0.960 - 3,21886 -4,0236 1,56 84,0
12 300 1,000 48.0

6,39 N S 300 -8.39800 -8,8814 5.18 702.1

valores d~Y; serán precisamente las frecuencias relativas acumuladas F; .


:rao al linealizar tenemos que obtener los valores de la variable transfo rmada
= ln (1 - y) , siempre ocurrirá que el último Y; será igual a la unidad, y en-
es el valor de Z; para esa última clase no será informativo; por esta razón,
:ca el ajuste, prescindiremos del último nivel de renta, con lo que las ecuaciones

- 8, 3980=8A+5 B}
-8,9914 = 5A + 5,18B

que L u; para los ocho primeros niveles de renta será 6,39 - 1,39 = 5,00 .

Este sistema nos da como solución


A = 0,0551
B = -1,7677

tanto,
b = -B = 1,7677
316 • SECCIÓN 4. ANÁLISIS EST AD{STICO DE DOS O MÁS VARIABLES

y el modelo de Pareto ajustado es


xo )1,7677
y= 1- ( -
X

(b) La renta mínima teórica del colectivo x0 , según esta relación, será

A = blnx0

x0 = antiln A
b
= antiln °· 0551
1,7677
= antiln 0,0312 "' 1,032

es decir, 1 032 € es el mínimo que se espera que perciba algún miembro


comunidad.
La ley de Pareto queda, por fin,
1, 032 )1,7677
y = 1 - ( -- para x ~ 1, 032 .
X o

(e) Determinaremos, en primer lugar, la expresión de la elasticidad cor-respmldll:ll


este modelo

E
y fx
dy
= _L =~
dx . y
o dy
dx
= ~ [ -b ( Xo ) b-1 ( - xo2 ) =
y X x
l
X

_ bx
- y · xgx b+ l
_ b( x
- y ---;0)b
Consideremos ahora los dos casos que nos proponen:
Caso l. Para x0 = 1, 032

E* _ .!!_[Xo)b b
Y/Xo - y* XO y*

donde
1 032 )107677
y* = 1 - ( -'- = o.
1,032

Por tanto,
EJ ERCICIOS DE LA SECCIÓN 4 • 317

n
¿:x.n
x = ~ = 702,1 = 2 34
N 300 '

1.7677
1 032
y
* = 1- (

2,34 )
= o' 7647
1.7677
E* _ = 1,7677 1,032 =O 5438 _
yjx O, 7647 ( 2,34 ) '

Obsérvese, por otra parte, que según nuestro modelo ajustado

y; = 0,7647

decir, que según éste, a una renta de hasta 2,34 le correspondería un porcentaje
perceptores del 76,47%, pero, si nos fijamos en nuestras observaciones, a este
de renta le debería corresponder un porcentaje acumulado entre el 55% y el
%. Esta cierta coherencia de resultados nos revela el hecho de que este ajuste
es del todo malo.

4.9
Sx = 3 , y = 2 y que la recta de regresión de X sobre Y
0.1 5y , determínese la recta de regresión de Y sobre X y los valores de Sxy,

La recta de regresión de X sobre Y tiene como expresión general

x* = a'+ b'y

a'= x- b'y
318 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

En este caso, a' =Oy b' = 0,15 y, por tanto,


x- b'Y =O
x = b' y = O, 15 · 2 = O, 30
y también
S
b' = __.2.
s2
= 0,15
y

por otra parte,

pero como Sx =3

Entonces
1,8Sy = 0,15Sy2

S = ~ = 12
y 0,15
Sxy = 1, 8Sy = 1,8 · 12 = 21,6.
La recta de regresión de Y sobre X será

y* =a+ bx

b = Sxy = 21,6 = 2 4
s2 32 ,
X

a =y- bx =2 - 2, 4 · o, 3 = 1, 28

es decir,

y* = 1,28 + 2,4x.
EJERCICIOS DE LA SECCIÓN 4 • 319

4.10
una distribución bidimensional en donde syx = 4,1' s: = 9 y el coeficiente de
de la recta de Y/X es b = -1,1 . Determínense:
Las dos rectas de regresión de Y/X y X/Y , sabiendo que x = 2 , y = 5.
El coeficiente de correlación lineal.

N
Los coeficientes de regresión de las rectas serían
Y/ X b = - 1,1

X/Y b' = Sxy2 =~=O 46


Sy 9 '

lo cual es imposible, ya que los dos coeficientes de regresión deben ser del mismo
signo, puesto que, como

y las varianzas son no negativas, entonces el signo de b y b' debe ser el mismo
cpe el de la covarianza sxy.

Como, en este caso, Sxy = 4,1 > O, no puede ser b = - 1,1, resultado que
8eeesariamente debe estar equivocado. Aceptando como verdadero valor
S., = 4,1, lo único que podemos determin.lf es la recta de regresión de X sobre Y

X * -2= -4,1 (y - 5)
9
x* = - 0,3 + 0,46y.
320 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

(b) Por los mismos motivos que antes no se puede determinar r, ya que, como

r = s¡;y
sxsy
b . =~
= -11 s2 X

s2 =~<o
X -1,1

lo cual no puede ser.


Este coeficiente r debe tener también el mismo signo que Sxy , b y b' .

Ejercicio 4 . 11
Justifíquense las razones por las cuales debe aceptarse o rechazarse que las
rectas y = 2x + 1, x = 5y + 10, son, respectivamente, las líneas de rP(Jrr*""~
mínimo-cuadráticas de Y sobre X y de X sobre Y de una misma serie de nh<>P.........
ciones.

SOLUCIÓN. Se supone inicialmente que las rectas de regresión son,


mente,
Y/X y= 2x + 1
X/Y X= 5y + 10
con lo que los coeficientes de regresión serían, por tanto,
b = 2; b' = 5.

Como resulta que, entre otras, debe verificarse la relación

r = ..¡¡;-:-¡;
siendo 1r 1 ~ 1 , en este caso, tendríamos que

r = ~ = ,JlO = 3,16

lo cual, al ser mayor que la unidad, es imposible.


Podemos concluir afirmando que estas dos rectas no pueden ser rectas de regresión
de una misma distribución (x;; yj ) .
EJ ERCICIOS DE LA SECCIÓN 4 • 321

4.12
la distribución bidimensional (x;; y ), cuyas rectas de regresión son
1

X+ 4y = 1
X+ 5y = 2
jllléng.ase el coeficiente de correlación lineal y explíquese su significado.

Vamos a distinguir dos posibles soluciones:


Caso l. Que la recta de regresión de Y sobre X sea x + 4y = 1 , y la de X sobre Y,
5y = 2 , es decir
1 1
YjX y=--X+-
4 4
X/Y X= -5y + 2
Los coeficientes de regresión b y b' son del mismo signo, pero como

r = Jb.b' = ~( -±) (-5) = 1,12

que la unidad, en este caso los resultados son incompatibles.


2. La recta de regresión de Y sobre X es x + 5y = 2 y la de X sobre Y,
_ = 1, y, por tanto,
1 2
YjX y=- -X+-
5 5
X/Y X= -4y + 1
y b' = -4 • y entonces te¡,emos que

1r 1 = ~ = ~( -~) (-4) = O, 89 •
esta es la solución correcta y, por tanto, el coeficiente de correlación lineal que
será r = -0,89.

4.13
en cuáles de los casos que a continuación se relacionan los resultados que
son compatibles entre sí:
322 • SECCIÓN 4. ANÁLISIS ESTADISTICO DE DOS O MÁS VARIABLES

(a) rxy = -0,3 y* = 4x + 5

(b) Sxy = 100 SX = 5 sy2 = 400 Se2 =o


1
(e) y= 5x + 8 y=-x+9 rxy = 0,2
5
1
(d) y* =- x+4 x* = y +4 x= 16 y= 12
2

SOLUCIÓN
(a) Como el coeficiente de regresión de la recta b =4
coeficiente de correlación lineal negativo.
(b) El coeficiente de correlación lineal es

S 100
r=___!L_=--=1
SS
X y
5 ·20

que también puede expresarse como

r = JI - :~ = Jt - 4~ = 1
en donde s; es la varianza de los residuos o de los errores.
Por tanto, estos resultados muestran coherencia entre sí.
(e) En este caso existen dos posibilidades:
Caso l . Que las rectas sean

Y/X y* = 5x + 8

X/Y x* = 5y - 45

con lo que el coeficiente de correlación lineal sería

r = .,¡¡;-:-¡¡ = .{5:5 = 5>1

que es mayor que la unidad, lo cual es imposible.


Caso 2. Que las rectas sean
1
Y/X y* = - X+ 9
5

X/Y X *= -1 y - -
8
5 5
EJERCICIOS DE LA SECCIÓN 4 • 323

y, por tanto,

lo que concuerda con este enunciado.


Sabemos que el punto de corte entre las dos rectas de regresión debe ser (.X, Y) ;
para comprobar que en este caso se verifica esta propiedad resolveremos el siste-
ma de ecuaciones formado por estas dos ecuaciones

y = ±x+4}
x=y+4
2y- 8}X =

-y+x=4
de donde
y= 12
X = 4 + y = 4 + 12 = 16
que son, precisamente, los dos valores medios que nos ofrecen.

4.14
•u~;tnese que, siendo y* el valor teórico obtenido a través de la recta de
de Y sobre X, se verifica que

Sabemos que la recta de regresión de Y sobre X es de la forma


S
y* - Y = ...!L(x - .X)
s2X

y* - Y = b(x - X),
b es el correspondiente coeficiente de regresión.
324 • SECCIÓN 4. ANÁLISIS ESTADISTICO DE DOS O MÁS VARIABLES

Para determinar ryy• es necesario calcular previamente las siguientes

cas: s;. ysyy• .


Tenemos, en primer lugar, que

Y>2
s;. = ¿<y*-
'¡y
ya que, como sabemos, la media de la variable
y; por tanto

"[b(x . - x)f = b2 "Li <x.- x)1 = b2 S2


S~ -=
Li=-- -'----
1
1
N N X

Por otra parte

L L (yj - Y) (y; - Y) L L (yj - Y) b (X¡ - i)


Syy• = N N

=b L L (yj- Y) (X¡ - X) = bS
N xy

Con lo que el coeficiente de correlación lineal entre estas variables será

r • = _s_YY_·_ = bSX), = bSxy = !..:z_ = r


YY Sy Sy• Sy ~b2 s2X Sy bSX Sy SX yx

que es lo que se quería demostrar.


Este resultado nos muestra que existe el mismo grado de correlación lineal de la
riable y con la x que de la variable observada y con su explicación y* , obtenida a
vés de la relación lineal sobre x.

Ejercicio 4.15
De la distribución bidimensional (x,1 y.;
J
n1).. ) se sabe que, para 100 observaciones..

LYjn·j = 1 000
j

Í:L:X;Yjn!i = 6 000
i j
EJERCICIOS DE LA SECCIÓN 4 • 325

¡Cuánto vale la covarianza entre X e Y?


¡Y la covarianza de (U, Z) ? , si se tiene que
22 3
2X = 3U + 4 , Y = +
2

cov(x, y) = 60 - 5 · 10 = 10.

2X=3U+4}
f=2Z +3
2
tenemos que

U= 3 ~X-~}
3
3
Z=f - -
2
y, por tanto,

cov(U, Z) = cov[(~ X- j). (r- f)] =

2 2 20
= - · 1 cov (X · Y) = - · 10 = -
3 3 3
3 26 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

ya que a la covarianza no le afectan los cambios de origen, sino solarrlel:R


escala, es decir

Ejercicio 4.16
Dada la distribución bidimensional

10 200
20 180
30 150
40 120
50 100

(a) Ajústese una recta por el procedimiento de los mínimos cuadrados.


(b) Calcúlese el coeficiente de correlación lineal y explíquese su significado.

SOLUCIÓN
(a) Formemos la siguiente tabla:

10 200 lOO 40000 2000


20 180 400 32 400 3 600
30 150 900 22 500 4 500
40 120 1 600 14 400 4 800
50 lOO 2 500 10 000 5 000

150 750 5 500 119 300 19 900

La recta de regresión de Y sobre X, ajustada por mínimos cuadrados, es

y* =a+ bx

siendo

a=y-bx
EJERCICIOS DE LA SECCIÓN 4 • 327

Determinemos las medias, varianzas y covarianzas

. ¿:xi
x = _;_ = 150 = 30
N 5
~>j
- j 750 150
Y = ---¡:¡-=-5-=

Sx2 = a20 -~o


2

a 10 = x = 30

a
¿:x:
= _;_ = 5 500 = 1100
20
N 5
s2
X
= noo - 2
30 = 200

a01 = Y= 150

Í:Y~
= _ j _ = 119 300 = 23 860
ao2 N 5

· Sy2 = 23 860 - 150 2 = 1 360

Sxy = all - a i O . aOI

2,2,xiyj
i j = 19 900 = 3 980
N 5
Sxy = 3 980 - 30 · 150 = -520.
Por tanto,

b = sxy = - 520 = _ 2 6
SX2 200 •
a = y - bx = 150 - ( -2, 6) · 30 = 228,
de donde la recta ajustada es
y = 228 - 2,6x.
El coeficiente de correlación lineal es

r =~ = - 520 = -0,99.
sx sy JiOO ..}1 360
328 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Como el coeficiente de correlación es negativo, nos indica que la ~ .-..


de tipo inverso; al estar muy próximo a -1, podemos decir que el grade
ciación lineal es muy fuerte y que, por lo tanto, el poder explicativo de la
X sobre la variable Y es muy grande.

Ejercicio 4.17
Dada la distribución

-----
.. •

· .. Yj ·
: El
'.- • • ~ •

.
r
.:""'1; ••

~j .. _·
- • 'i=
:~ :

•1 · -·
14
12
6 18
4 5 25

20 49 56 131 200

determínese el coeficiente de correlación lineal entre las variables.

SOLUCIÓN. El coeficiente de correlación lineal es

Para calcularlo, partiendo de la tabla anterior, vamos obteniendo


EJERCICIOS DE LA SECCIÓN 4 • 329

s; = a 20 - ~20 = 6,55 - (2,45f = 0,5475


sx = 0,7399 :::: 0,74

s: = a 02 - a~1 = 10,00- (2,80f = 2,16

sy = 1,4697 = 1,47

Sxy :::: a 11 - a10 • a01 = 7,10- 2,45 · 2,80 = 0,24

r =~ =
0 24
• = 0,2206.
sx sy o. 74 . 1,47
También podríamos haber formado una tabla de correlación, de doble entrada, co-
la siguiente:

5 ,.
1(: x.n.
l ,.
2
X¡n1•

2 13 26 52
(12) (56)

4 2
3 6 18 54
(24) (30)

5 5 25
(20)

n.
•J 6 4 8 2 N= 20 49 131

yjn·j 6 8 32 10 56

2
yj n·j 6 16 128 50 200
330 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

a partir de la cual obtendríamos

.l:Xln.
1 1•

a2o
1
= ~ = 6 55
N 20 '
.l)jn·j
j
ao1 = 56
20 = 2 80
,
N

12 + 56 + 24 + 30 + 20 = 142 = 7 10
20 20 ,

y luego seguiríamos los mismos cálculos que hemos tenido que efectuar antes.

Ejercicio 4.18
Dada la distribución:

C;
. '
Y¡ x,
4 2
7 5
12 8
21 11
25 14

(a) Estímese el modelo y = a + bx + cx2 •


(b) Calcúlese su coeficiente de correlación.

SOLUCIÓN
(a) Para detenninar los parámetros a, b y e de este modelo parabólico hacemos uso
las ecuaciones normales mínimo-cuadráticas:
EJERCICIOS DE LA SECCIÓN 4 • 331

LY; = Na + b L x; + e L x;
i i i

L Y;X; = a L x; + b L x; + e ¿
i i ; i
x;

L Y;x;
i
= a L x; + b L x¡ + e L x:
i i i

Por tanto, debemos formar la tabla:

Yr ·"~l . x:·
i X: x41 Y¡X¡ '
2
Y¡X¡

4 2 4 8 16 8 16
7 5 25 125 625 35 175
12 8 64 512 4096 96 768
21 11 121 1 331 14 641 231 2 541
25 14 196 2 744 38 416 350 4 900

69 40 410 4720 57 794 720 8 400

y el sistema será

69 = 5a + 40 b + 41 Oe }
720 = 40a + 410b + 4 720e
8 400 = 410a + 4 720b + 57 794e

cuya solución es
= 1, 057
'a = 1, 057138
b = 1,104763 =1,105
e = 0,047619 = 0,048
y el modelo ajustado es

y* = 1,057 + 1,105x + 0,048x2 .

El coeficiente de correlación parabólico es

en donde s:
R=

es la varianza de la variable observada


H y
'

y, y S~ es la varianza de los
residuos o errores que se obtienen con este ajuste. Para calcularlas formamos la
tabla:
332 • SECCIÓN 4. ANÁLISIS ESTADISTICO DE DOS O MÁS VARIABLES

Y; y¡ = 1,057 + 1,105~í + 0,048x; e1 "'=, Y; .-.y¡ e;


4 1,057 + 1,105 . 2 + 0,048. 2 2 = 3,459 0,541 0,292681
7 1,057 + 1,105 . 5 + 0,048. 5 2
= 7,782 -0,782 0,611524
2
12 1,057 + 1,105. 8 + O, 048 · 8 = 12,969 -0,969 0,938961
21 1,057 + 1,105 ·11 + 0,048 ·11 2
= 19,020 1,980 3,920400
2
25 1,057 + 1,105. 14 + 0,048. 14 = 25,935 -0,935 0,874225

69 - 0,165 6,637791

y, por tanto,

~Y; 69
y=~= 5 = 13,8

s2
LY?
= _;_ - Y
- 2 = 1 275 - 13 82 = 64 56
Y N 5 ' '
¿e;
e=_;_= -0,165 =-o 033
N 5 '
¿e¡
s 2
= _; _ _ e2 = 6 •637791 -(-o 033) 2 = 1 326469
ry N 5 ' '

con lo que el coeficiente de correlación parabólico será

1 326469
R = 1_ •
64,56
= Jo' 979454 = o' 9897
que, como está próximo a la unidad, nos indica un alto grado de correlación
bólica entre las variables.

Ejercicio 4.19
En el Servicio Central de Turismo de un país se ha observado que el núm~
plazas hoteleras ocupadas es diferente según sea el precio de la habitación.
el total de plazas ocupadas en un año, se tiene la siguiente distribución
precio de las habitaciones:
EJ ERCICIOS DE LA SECCIÓN 4 • 333

,- ' --
- :>,_ ' • ~ '" : ·' ' • • • ' -.1 ' ' '1 • ):

.. . . ~ .. - --- - . . . '

Hasta 50 4 725
50 - 80 2 610
80- 120 1 872
120- 160 943
160-300 450

10 600

¿Cuál será el precio tope al que se podrían ofrecer plazas hoteleras en ese
país, si el comportamiento de los turistas no variase?
¿Cuántas habitaciones se llenarían a 130 € por día?
¿En qué medida podemos considerar que el nivel de ocupación depende de la
estructura de precios?

Consideremos que el nivel de ocupación depende linealmente de la estructura de


los precios, es decir,
y= a+ bp
siendo y el número de habitaciones ocupadas y p el precio de la habitación.
Para estimar a y b procedamos a calcular medias, varianzas y covarianzas a
partir de la siguiente tabla:

Hasta 50 22 325 625


50- 80 6 812 100
80 - 120 3 504 384
120 - 160 889 249
160 - 300 202 500

10 600 560 87 350 33 733 858 710 495

- i
LP;
560 112
P = -¡:¡-=-5- =

LYj
10 600
y = _j_ = = 2120
N 5
SP2 = aw -ato
2
334 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

a 10 = p = 112

a = _í_
LP: = 87 350 = 17 470
20
N 5
S~ = 17 470 - 1122 = 4 926

Sy2 = aoz - ao1


2

a 01 =Y= 2120

LY~
- 33 733 858 ::::: 6 746 771 6
ao2 -
j
----¡;¡- 5 ,

Sy2 = 6 746 771,6 - 2 1202 = 2 252 371,6


Syp ::::: all - aiOaOi

¿¿)jpí
í j = 710 495 = 142 099
N 5
syp = 142 099 - 112 . 2 120 = -95 341

de donde

b = syp = -95 341 = -19 35


Sp2 4 926 '

a =y - bp = 2120- (- 19,35) ·112 = 4 287,2.


La recta de regresión ajustada es
y ::::: 4 287,2 - 19,35p.
El precio tope a que se podrían ofrecer plazas será aquél que diera lugar
vel de ocupación nula, luego
o : : : 4 287,2- 19,35p
4 287 2
p = • = 221 56 €/día.
19,35 '

(b) Haremos la predicción del número de habitaciones que se llenarían a 130 €


y = 4 287,2- 19,35 · 130 = 1771,7 habitaciones.
(e) Determinemos el coeficiente de correlación lineal

r = ~ = -95 341 = -0 9051


sy sp ~2 252 371,6 ~4 926 '
EJERCICIOS DE LA SECCIÓN 4 • 335

La relación entre el nivel de ocupación y el nivel de precios es, lógicamente,


de tipo inverso, además de que, por ser suficientemente alta, podamos considerar
que existe una dependencia lineal entre las variables bastante fuerte.

4.20
han observado, durante un mes determinado, el gasto de electricidad y el
total en seis familias. Los resultados obtenidos han sido:

GaSto en eU!ctFici4ai:I Ingreso total


yi X¡

1a familia 0,2 4
23 familia 0,3 6
33 familia 0,5 8
43 familia 0,9 10
5" familia 1,0 12
63 familia 1,9 20

Calcúlese las estimaciones de los parámetros de la regresión lineal simple de Y


sobre X.
Calcúlese el coeficiente de determinación lineal.
Interprétense los resultados obtenidos en los dos epígrafes anteriores.

Formemos la tabla siguiente:

~~~¿~ty;;~~-~;;:: ?.~ · : : ::Q:·-~~.·. ~.~~~iif;~?f~!~T:.:


0,2 4 0,04 16 0,8
0,3 6 0 ,09 36 1,8
0,5 8 0,25 64 4,0
0,9 10 0,81 100 9,0
1,0 12 1,00 144 12,0
1,9 20 3,61 400 38,0

- 4,8 60 5,80 760 65,6 ~

La recta de regresión mínimo-cuadrática es


y= a+ bx
336 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

donde
S
b -- _!]_
2
sx
a= y- bx
como

.L>i = 60 = 10
x = _;_
N 6

-
.L>j
j 4,8 o8
Y = -¡¡-=-¡;=,
S2 = a20 - 10
X
a
2

'I.x:
a2o
= _;_N = 760
6 = 126, 66

SX2 = 126,66- 102 = 26,66


SY2 = a02 -
2
a01
a01 = y = 0,8

LY:
am = _ j _N = 56•8 = o, 9666
s: = 0,9666- 0,82 = 0,3266

sxy = 10,93- 10. o,8 =2,93


Por tanto,

b = sxy = 2,93 = o 11
SX2 26,66 '
a= y- bx = 0,8-0,11 ·10 = -0,3
luego la regresión lineal simple de Y sobre X es
y = -0,3 + O,llx
EJERCICIOS DE LA SECCIÓN 4 • 337

coeficiente de determinación lineal es

2,932 = o 986.
26,66 · O, 3266 '

coeficiente de regresión b = O, 11 nos indica un crecimiento proporcional del


en electricidad menor, como es lógico, que el crecimiento de los ingresos.
El coeficiente de determinación 0,986 nos dice que el 98,6% de las causas que
.....,........,U! el comportamiento del gasto en electricidad están recogidas en el modelo

del litro de leche en los cinco últimos años, así como el consumo de
alimenticios, han sido:
r .. - ~ _,~ ~ . - ~~- -:
t ' ~: ;~ ~< .,_-: : ' ~~ • ' ; • '

: . '~~ ' '.


·--·~. -- -~

0,50 42
0,52 48
0,55 50
0,60 55
0,64 62

estimado que el consumo en el próximo año va a ser de 70 miUones de


ampruébese que los ingresos estimados para ese año (para una producción
de 200 000 litros) pueden fmanciar los costes, que se han presupuestado en
Dése una medida de la fiabilidad del resultado.

Aquí tendremos que suponer que el precio de la leche depende del


de productos alimenticios, hipótesis discutible desde el punto de vista econó-
con la información de que disponemos no se puede hacer otra. Posterior-
estadísticamente este supuesto de dependencia.
Ílllare:m<>s la recta:
p=a+bc

es el precio y e el consumo.
338 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Formemos la tabla:

0,50 42 0,25 1 764 21


0,52 48 0,2704 2 304 24,96
0,55 50 0,3025 2 500 27,5
0,60 55 0,36 3 025 33
0,64 62 0,4096 3 844 39,68

2,81 257 1,5925 13 437 146,14

Tenemos que

LPj
-
P = _ j _ = 2•81 = o 562
N 5 '
¿e¡
e = _ i _ = 257 = 51 4
N 5 '
2 2
SP = aoz - ao¡
a01 = p = 0,562

a =
LPJ
_j_ = 1,5925 = O 3185
02
N 5 '
s: = 0,3185- 0,562 = 2,656. 10-3
2

Se2 =a20-a!O
2

a10 =e= 51,4


¿e~
= _ i _ = 13 437 = 2 687 4
a2o N 5 ,

Se2 = 2 687,4- 51,4 2 = 45,44

scp = 29,228- o,562 . 51,4 = 0,3412


EJERCICIOS DE LA SECCIÓN 4 • 339

b = scp = 0,3412 = 7 5 . 10_3


S2 45 44 '
e '

a = p- be = 0,562- 7,5 . 10- 3 . 51,4 = 0,1760.

p = 0,1760 + 7,5. 10-3 c.

cuál será, según esta relación, el precio del litro de leche en el próximo
-:=ID{Js
consumo es de 70 millones de €, según nos dicen:

p* = 0,1760 + 7,5 · 10-3 • 70 = O, 701 €/litro .

l.clltaiJil11dad del sector lechero vendrá medida por la diferencia entre sus ingre-
costes. Los ingresos totales para este año se obtendrán de la venta de los
litros de leche a 0,701 €; sabemos que los costes son de 70 000 €. Por tanto,
B = 200 000 · O, 701- 70 000 = 70 200 €,
este precio de venta del litro de leche se pueden financiar los costes de su

r =~ = 0,3412 = 0,98.
se sp .J45,44 .J2,656. 10-3

..........""""' partido político se plantea el problema de hasta qué punto le


compensar los gastos de la campaña de propaganda para k•c; futuras

últimas cinco elecciones, los gastos de publicidad y el número de diputados


han sido:

1500 3
1 750 4
3 250 4
4 000 6
5 000 8
340 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

La Comisión Electoral está estudiando la posibilidad de un


propaganda de 10 000 euros.
(a) ¿Cuál será el número de diputados que serían elegidos de ese
acuerdo con ese presupuesto, si la imagen del partido no varía r.,.,..._,.
elecciones anteriores?
(b) ¿Con qué confianza se puede esperar ese resultado?
(e) ¿Cuál sería el porcentaje de causas diferentes a la publicidad que
las elecciones?

SOLUCIÓN
(a) Supongamos que el número de diputados elegidos depende de los gastos
cidad linealmente, es decir,
y= a+ bg

siendo y el número de diputados elegidos y g los gastos de publicidad.


Para estimar los parámetros formemos la siguiente tabla:

3 1 500 9 2 250 000 4 500


4 1 750 16 3 062 500 7 000
4 3 250 16 10 562 500 13 000
6 4 000 36 16 000 000 24 000
8 5 000 64 25 000 000 40 000

25 15 500 141 56 875 000 88 500

Como

- 25
y=--=-=5
~>j
N 5
¿gi
g= _i_ = 15 500 = 3 100
N 5
s: = a02 - a;1
ao¡ =Y = 5
LY~
= _ j _ = 141 = 28 2
a02 N 5 '
EJERCICIOS DE LA SECCIÓN 4 • 341

2
Sy = 28' 2 - 52 = 3' 2
s2 2
e = a20 - a¡o

a10 = g = 3100
¿g¡
= _i_ = 56 875 000 = 11375 000
a2o N 5
2
Sg = 11 375 ooo - 3 1002 = 1 765 ooo
Syg2 = all - awaol

¿¿yjgi
a
11
= ¡ j = 88 500 = 17 700
N 5
syg = 11 100 - 3 100 5
o = 2 200
Por tanto,

b = syg2 = 2 200 = o 0012


sg 1 765 ooo '
a = y- bg = 5- 0,0012 o 3100 = 1,280

El modelo lineal ajustado es


y = 1,28 + 0,0012g.

La comisión electoral se plantea el gasto de 10 000 € en propaganda electoral;


el modelo, el número de diputados elegidos sería:
y = 1,28 + 0,0012 10 000 = 13,28 = 13 diputados
o o

confianza con que se puede esperar este resultado dependerá de que la propa-
sea realmente efectiva y sea factor explicativo del número de diputados
IIIIK'l!óJ.U'J~ Para dar una medida de la confianza utilizaremos el coeficiente de corre-
o

lineal, que nos dirá en qué grado están relacionadas linealmente estas

syg 2 200
r = sy sg = .J3,2 ~1 765 000 =
0 92
' o

En principio, estadísticamente, podemos confiar en la predicción sobre el nú-


de diputados elegidos o

porcentaje de causas comunes entre la variable número de diputados elegidos y


gastos de publicidad viene dado por el coeficiente de determinación lineal, en

r2 = 0,922 = 0,84 = 84% o


342 • SECCIÓN 4 . ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

Por tanto, el porcentaje de causas diferentes a la publicidad que


las elecciones sería del 16 % para ese partido.

Ejercicio 4. 23
Los turistas llegados a un país caribeño procedentes de cinco países,
2000, fueron:

Turistas Relación entré


País
(miUones) fru:iices de precios

A 5 1,4
B 4 1,3
e 3 1,3
D 2 1,2
E 1,1

indice de precios país extranjero


La relación ----~--~----"--- es la que se expresa en la
índice de precios del país caribeño
correspondiente.
(a) Calcúlese si existe correlación lineal entre ambas variables x e y.
(b) Estímese, previo ajuste de la recta de regresión mínimo-cuadrática. d
de una subida del 15% de los precios en el país caribeño,
estables los extranjeros.

SOLUCIÓN. Supondremos que los turistas eligen como lugar de vacaciones


caribello por la mejor posición relativa de los precios en ese país, es decir, q-z
mero de turistas está en función directa de la relación entre los índices de
país emisor respecto al país receptor.
Para poder hacer el análisis formemos previamente la tabla:

Turistas Relación 2
;yi x2 X;Yj .
yi X¡ l

5 1,4 25 1,96 7,0


4 1,3 16 1,69 5,2
3 1,3 9 1,69 3,9
2 1,2 4 1,44 2,4
1' 1 1 1,21 1,1

15 6,3 55 7,99 1.9,6


EJERCICIOS DE LA SECCIÓN 4 • 343

El coeficiente de correlación lineal es:

r=~
SX Sy

)i=-1-=-=3
2>j 15
N 5

-
2>¡
i 6,3 1 26
x=N=-s= •

Sy2 = ao2 - ao12

aOI =y= 3

552>:
a02 = -1- = - = 1 1
N 5
2
Sy = 11- 32 = 2
Sx2 = a2o - a1o
2

a10 =x = 1,26

.L:Xi2 7 99
a = _;_ = • = 1 598
2o N 5 ,

2
SX = 1,598- 1,262 = o,0104

SX)' = 3,92- 1,26 · 3 = 0,14.

0 14
r = • =O 97
.Jo,OI04 J2 '
laego existe una fuerte correlación lineal entre ambas variables.
344 • SECCIÓN 4 . ANÁLISIS EST ADISTICO DE DOS O MÁS VARIABLES

(b) La relación ·entre índices es:

X = -!' = ...,-,- Índice de precios país extranjero


- - - - 0 - ----:...-- - - - " - - - -
1 lndice de precios en el país caribeño
En el supuesto de que los precios tengan una subida del 15%, nP•-m,,,_.,¡¡
constantes en el extranjero, la nueva relación x' sería:
1 1
x' = - - - - = - x = 0,869x .
1+15%1 1,15

La variación en las relaciones entre índices viene expresada en la


guiente:

0,869-1,4 = 1.ZI66
0,869 . 1,3 = 1,1297
0,869. 1, 3 = 1,1297
0,869. 1,2 = 1,0428
0,869. 1,1 = 0,9559

El efecto de esta variación en los precios en España se trasladará al


turistas entrados. Para estimarlo, procedamos a determinar la
recta de regresión:
y= a+ bx
donde

b = sxy2 = ~= 13 46
s X
o,0104 '
a = y- bx = 3 - 13,46 · 1,2(¡ = -13,96
luego
y = -13,96 + 13,46x.
Así, el número de turistas esperados después de esta variación de los
será:
EJERCICIOS DE LA SECCIÓN 4 • 345

A y= -13, 96 +13,46 ·1,2166 = 2,41


B y = -13,96 + 13,46. 1,1297 = 1,24
e y = -13,96 + 13,46 . 1,1297 = 1,24
D y = -13,96 + 13,46. 1,0428 = 0,07
E y = -13,96 + 13,36 . 0,9559 = - 1, 09

Para el país E se produce una ausencia de turistas hacia el país receptor; no se


debe interpretar que entra una cifra negativa de turistas.
En el resto de los países se reduce la preferencia hacia el país caribeño por el
incremento interno de los precios.

4.24
un determinado sector, la producción y las exportaciones durante los 6ltimos
han sido (en miles de euros):

1998 400 80
1999 420 80
2000 440 90
2001 480 92
2002 500 98

Si se estima que la-producción en el ejercicio 2004 va a ser de 640 000 euros y


que las condiciones del mercado internacional no van a variar, ¿cuál será el
volumen de exportación previsible?
¡En qué medida esta previsión puede ser o no aceptable?

l'io es difícil defender la hipótesis de que el volumen de exportaciones es una


variable que depende de la producción. Si las exportaciones las representamos por
X y la producción por Y, la especificación lineal de esta hipótesis viene dada por
x=a+by
346 • SECCIÓN 4 . ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

Para estimar por mínimos cuadrados los parámetros a y b, formemos la

80 400 6 400 160 000 32000


80 420 6 400 176 400 33 600
90 440 8 100 193 600 39 600
92 480 8 464 230 400 44 160
98 500 9 604 250 000 49000

440 2 240 38 968 1 010 400 198 360

Como

2:::Xj 440
x= _j_ = = 88
N 5

- - i
LY;
2 240 - 448 .
Y -- - -- - --
N 5
2 2
SX = 0 02 - 0 01

a01 = x = 88
l:x}
= _j_ = 38 968 = 7 793,6
ao2 N 5

SX2 = 1 793,6- 882 = 49,6


s2y = a2o 2
- Cl¡o

a 10 =y = 448
¿y¡
a = _;_ = 1010 400 = 202 080
2o N 5
sy = 202 080 -
2
4482 = 1 376
Sxy =al! - aiOaOI

Sxy = 39 672 - 448 · 88 = 248


EJERCICIOS DE LA SECCIÓN 4 • 347

Tendremos que

b = sxy = 248 = o 18
Sy2 1376 •
a = x-bY = 88- 0,18 · 448 = 7, 36

El modelo ajustado es
X = 7,36 + 0,18y.
Se estima que la producción en 2004 va a ser de 640 000 € y que las condicio-
nes del mercado internacional no cambian. Esta última hipótesis nos faculta para
poder seguir utilizando el modelo lineal ajustado; por tanto,
x = 7,36 + 0,18 · 640 = 122,56 miles de € .

Las exportaciones se situarán, pues, sobre los 122,56 miles de euros.


Para estudiar la bondad de la predicción calcularemos previamente el coeficiente
de correlación lineal,

r = ~= 248
= O, 95.
sx sy .)49,6 ~1376

Estadísticamente, al ser elevado el grado de asociación lineal entre las varia-


bles, debemos aceptar como muy posible el resultado.

4.25
_ ..,.._LUu privado interior y la renta nacional disponible a precios de mercado en
de pesetas fueron, en el período 1971-1980:

.. _. :
!1'5~'. ,--,-<:-~-/- ' . .' . .. ... ., . . ..

~ili~~~;.::.~¿.~:.;~~ ·~: :e.·:.; ~


..- .~:;,, ~ -~-~--~
·- ... ~ ~~~=~-·~:~~J
1971 2,12 2,70
1972 2,47 3,18
1973 2,97 3,87
1974 3,64 4,74
1975 4,29 5,54
1976 5,23 6,64
1977 6,65 8,40
1978 8,08 10,28
1979 9,43 11,96
1980 11,02 13,77

Fuente: Contabilidad Nacional de España. Base 1970.


348 • SECCIÓN 4. ANÁLISIS ESTAD[STICO DE DOS O MÁS VARIABLES

(a) Ajústese el modelo e1 = a + by1 por el método de mínimos cuadrados.


(b) Calcúlese el coeficiente de determinación lineal.
(e) Determínese la elasticidad del consumo-renta en el punto y.
(d) Determínese la propensión media y propensión marginal a consumir
españoles en 1980.

SOLUCIÓN
(a) Sabemos que las estimaciones mínimo-cuadráticas de los parámetros a y b de
modelo de regresión son:
S
b = --f; a = e- by.
sy
Para determinar, pues, a y b formamos la tabla:

et Yt ctyt y¡ czt :¡.

2,12 2,70 5,7240 7,2900 4,4944


2,47 3,18 7,8546 10,1124 6,1009
2,97 3,87 11,4939 14,9769 8,8209
3,64 4,74 17,2536 22,4676 13,2496
4,29 5,54 23,7666 30,6916 18,4041
5,23 6,64 34,7272 44,0896 27,3529
6,65 8,40 55,8600 70,5600 44,2225
8,08 10,28 83,0624 105,6784 65,2864
9,43 11,96 112,7828 143,0416 88,9249
11,02 13,77 151,7454 189,6129 121,4404

55,90 71,08 504,2705 638,5210 398,2970

y, siendo T = 10 el número de observaciones, calculamos las


siguientes:

¿e,
e= _ l_ = 55,90 = 5 59
-T 10 '
Se2 = a02 - ao1
2
= ao2
-2
- e

¿e;
a = _,_ = 398,2970 = 39 8297
02
T 10 '
2 2
Se = 39,8297- 5,59 = 8,5816
S, = 2,929
EJERCICIOS DE LA SECCIÓN 4 • 349

-=
Y
~Yr = 71,08 = 7 108
T 10 '
Sy2 = a2o - aJo
2
= a2o -
-2
Y

:~:>:
a = -~--= 638,5210 = 63 8521
20 T 10 '
s: = 63,8521 - 7' 108
2
= 13, 3284

Sy = 3,651

Scy = all - a l OaO l = all - yc

a,. = ~;Y, = 504;~705 ~ 50,42705


scy = 50,42705- 7,108. 5,59 = 10,6933
Los parámetros a y b son:

b = scy = 10,6933 = o 802


s2 13 3284 '
y '

a= e- by= 5,59-0,802. 7,108 = 0,111

luego la recta de regresión del conswno sobre la renta será:

e¡ = 0,111 + 0,802y, .

El coeficiente de determinación lineal es

10 69332
• = o 9999 = 99 99%
8,5816 . 13,3264 ' ' '

lo que nos muestra que el 99,99% de la variabilidad del conswno queda explicado
por el nivel de renta disponible a través de esta estructura de relación lineal.
Nótese que hemos utilizado unas series de consumo y renta a precios corrien-
tes y que, por el efecto de la elevación general de precios, va sistemáticamente
awnentando tanto el nivel de conswno como el de renta. Este análisis hubiese sido
más correcto efectuarlo con las series de conswno y renta a precios constantes de
algún año que se tomara como referencia. Esta problemática cae de lleno en el
tema de la deflactación, que será tratado más adelante en el capítulo relativo a los
números índices.
350 • SECCIÓN 4. ANÁLISIS ESTA DÍSTICO DE DOS O MÁS VARIABLES

(e) La elasticidad consumo-renta de este modelo es

Ecfy = l. de = l. b
e dy e

Como

e; = 0,111 + 0,802 · 7,108 = 5,812,


entonces
7
E* = ' 108 O 802 = O 981.
cfy 5,812 ' '

(d) La propensión media al consumo se define como

P.MC = !:._
y

que para 1980 se determinará así

*
C80 = 0,111 + o,802. 13,77 = 11,15
PMC~ =
11 15
' = 0,809 = 80,9%.
13,77
Como para 1980 tenemos observaciones de ambas variables, podíamos
hecho

PMC
80
= ~ = ll,02 = 0,800 = 80,0%
Yso 13,77

y como el ajuste que realizamos era bastante bueno, observamos que

La propensión marginal al consumo se define como:


'
de
PMaC = -
dy

que, en el caso de esta relación lineal, será

PMac* = b = 0,802 = 80,2%.


EJERCICIOS DE LA SECCIÓN 4 • 351

n consumo privado interior y la renta nacional neta disponible a precios de


.ercado en el período 1971-1980 fueron (en billones de pesetas):

1971 2,12 2,70


1972 2,47 3,18
1973 2,97 3,87
1974 3,64 4,74
1975 4,29 5,54
1976 5,23 6,64
1977 6,65 8,40
1978 8,08 10,28
1979 9,43 11 ,96
1980 11,02 13,77

Fuente: Contabilidad Nacional de España. Base 1970.

Ajústese el modelo C
1
= by1 por el método de mínimos cuadrados.
Compruébese que, en este caso, la media de los errores o residuos no es nula.
Estúdiese si se cumple la descomposición de la varianza total s; s; + s;c.
=

Determínese el coeficiente de correlación lineal.

CIÓN
Dado que el modelo de regresión lineal general es de la forma

c*=a+b·
r yr

el modelo que nos planteamos ahora estimar es un modelo con la restricción de


que a = O y que, por tanto, deberá ser tratado de manera especial.
En primer lugar, estudiaremos cuál es la estimación mínimo cuadrática del pa-
rámetro b de este nuevo modelo

Para ello, considerando la función

J.
'!' L....' (er -
= " e*?
r
352 • SECCIÓN 4. ANÁLISIS ESTADISTICO DE DOS O MÁS VARIABLES

tendremos que

Q4¡ =
ob
L' 2(e, - by)(-y)
, '
=O

de donde

¿e,y,
b=-'--·
¿y;
1

Como utilizamos los mismos datos que en el ejercicio anterior

504 2705
b ::; • ::; o 78975 = o 79
638,5210 ' '

y el modelo estimado será:

e; = 0,79y,.
(b) Los errores o residuos son

e, =e,- e;
y, por tanto,

¿e, = L(e, -e;> =


1 1

= ¿e, - Le: ::: Le, - b LY, .


t 1 e 1

Para que ¿e, = O, tendría que verificarse que:


¿e,
b=-'-
LY, 1

pero, como la estimación mínimo-cuadrática de b es

¿e,y, ¿ e,
1 1
b =~"#~,
L.Y1 L.Y,

entonces L e, -:~: O .

Solamente en el caso de que y1 =1, para todo t, se cumpliría la condicióa


anterior, siendo b = e y no estando las variables relacionadas linealmente.
EJERCICIOS DE LA SECCIÓN 4 • 353

Luego, en general, como Le, * O, tendremos que


1

e* o; e* e*.
En nuestro ejemplo

¿e, =¿:e, - b L:Y, = 55, 9-0,79 · 71,08 = -0,2532 *O

y formando la tabla

, e';
2,12 2,70 O, 79 · 2, 70 = 2,1330 -0,0130 4,5497 0,000169
2,47 3,18 O, 79 · 3,18 = 2,5122 -0,0422 6,3111 0,001781
2,97 3,87 O, 79 · 3,87 = 3,0573 - 0,0873 9,3471 0,007621
3,64 4,74 O, 79 · 4, 74 = 3, 7446 -0,1046 14,0220 0,010941
4,29 5,54 0,79. 5,54 = 4,3766 -0,0866 19,1546 0,007500
5,23 6,64 O, 79 · 6,64 = 5,2456 -0,0156 27,5163 0,000243
6,65 8,40 O, 79 · 8,40 = 6,6360 0,0140 44,0365 0,000196
8,08 10,28 O, 79 · 10,28 = 8,1212 -0,0412 65,9539 0,001697
9,43 11,96 O, 79 · 11,96 = 9,4484 -0,0184 89,2723 0,000339
11,02 13,77 O, 79 · 13,77 = 10,8783 0,1417 118,3374 0,020079

55,90 71,08 56, 1532 -0,2532 398,5009 0,050566

Comprobamos que, efectivamente,


¿e,
e=-'-= - 0•2532 = -o 02532 *o
T 10 '

¿e¡ 56 1532
e* = -'-T = •
10
= 5' 61532
Let 55 9
e =-'-
T
= 10
• = 5' 59

e* e*.
354 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

(e) En este modelo e: = by tendremos que


1

2 2
¿ e1
= "" + ""
¿ e*
1 - ¿ e11
2 "" e*
1

pero, como

entonces

¿e; = ¿e; + ¿ b2 y; - 2 ¿ eby 1 1


=
1 1

=¿ e; + b ¿ 2
y; - 2b . b ¿ y; =
1 1

es decir, que

para que se cumpliera que

como en el modelo de regresión general, tendríamos que

'* '*
pero, como e O y e e*, de la condición (1) no se deduce la (2), luego
este modelo con restricción
l

EJERCICIOS DE LA SECCIÓN 4 • 355

Numéricamente:

s: = 8,.5816

¿c;2
s2 = _,__ _ c-*2
R T
398 5009

10 - 5, 615322 = 8, 3183

L:e,2
s2 = _,_- e2
re T

= 0,050566 - (-0 02532)2 = o 0044.


10 , ,

El coeficiente de correlación será:

[S!:
R=f-s:=
0 0044
= 1- •
8,5816
= o, 9997

y el de determinación

R2 = 0,9995 = 99,95%.
Obsérvese que, en este modelo particular,

R = ~~ - S!
2
S
* !e,_
S S
= r.
e e y

cio 4.27
tres variables Y, X 1 , X2 , de las que se dispone de la siguiente información:
356 • SECCIÓN 4. ANÁLISIS ESTADISTICO DE DOS O MÁS VA RI ABLES

Si se determina el plano de regresión mínimo-cuadrático de Y sobre X


Y = b0 + b1X1 + b2X2 , ¿cuánto valdrá el coeficiente de determinación
2
R ? Justifíquese la respuesta.

SOLUCIÓN. Como solamente nos proporcionan tres observaciones para


riables, y como todo plano está definido por tres puntos, el ajuste, en este
perfecto, no obteniéndose residuo o error alguno, con lo que R2 = l.
Solamente en el caso de que exista multicolinealidad entre X1 y X2 , R2
indeterminado, al igual que el plano de regresión, donde no se podrán estimar
ficientes de regresión.

Ejercicio 4.28
Sean las siguientes variables Y, XI y x2 ' de las que disponemos de la
siguiente:

Y¡ ;¡¡} ~

1 3 3
4 5 7
6 8 13
7 10 17
10 12 21

Estúdiese el modelo de regresión múltiple


y = bo + blxl + b2x2 •

SOLUCIÓN. La estimación mínimo-cuadrática de los parámetros


modelo viene dada por el vector columna
b = [X'Xr1 Xy.
La matriz de observaciones X es
3 3
5 7
X = 8 13
10 17
12 21
EJERCICIOS DE LA SECCIÓN 4 • 357

3 3

[X'~~ [: 5
7
1
8
13
10
17
1

~~1
21
5
8
10
12
7
13
17
21
+:
61
38
342
570
611
570
957

Para hallar la inversa de [XX] calculamos previamente su determinante

¡xx¡ = 1636 470 + 1321 260 + 1321 260- 1 212 582-


- 1 624 500 - 1 381 908 =o
esta matriz es singular, no puede obtenerse la inversa única de XX , y, por tan-
estimaciones de los coeficientes b0 , b1 y b2 quedan indeterminadas.

&to ocurre porque existe multicolinealidad entre X1 y X2 , es decir, que existe una
lineal entre estas variables. Vamos a comprobarlo; para ello calcularemos la
de X1 sobre X2 y su correspondiente coeficiente de correlación lineal .

, entonces, la tabla:

3 3 9 9 9
5 7 25 49 35
8 13 64 169 104
10 17 100 289 170
12 21 144 441 252
38 61 342 957 570
358 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

El coeficiente de determinación lineal es


2
21,28 = 452,8384 = 1
10,64 . 42,56 452,8384

luego también ~2 = 1 , es decir, existe una relación lineal perfecta entre estas
riables.
Si determinarnos la recta de x 1 sobre x2 tenemos

x1 =a+ bx2

b = sl2 = 21,28 = o5
S~ 42,56 '
a = .x; - bx2 = 7,6- 0,5 · 12,2 = 1, 5

es decir,
x1 = 1,5 + 0,5x2 ,

y comprobamos que
..
,;
>?_¡
. . . xjj ~ 1;5 + 0.5-'2 ~
. J"

3 1,5 + 0,5 . 3 = 3 3
7 1,5 + 0,5 . 7 = 5 5
13 1,5 + 0,5 . 13 = 8 8
17 1,5 + 0,5 . 17 = 10 10
21 1,5 + 0,5 . 21 = 12 12

Ejercicio 4. 29
A partir de la siguiente información:
EJERCICIOS DE LA SECCIÓN 4 • 359

1 2 17
3 1 15
4 3 13
6 4 10
7 5 9
10 8 8
15 7 6
16 9 5
18 11 3
20 12 4

Estímese el modelo de regresión


y = bo + blxl + b2x2
Obténgase una medida de fiabilidad de este ajuste lineal.
¿Qué parte de la variabilidad de Y queda explicada a través del plano de
regresión?

y b2 , estimados bajo la condición mínimo-cuadrática, son

b = [X'xr1 xy.
Para obtenerlos empezaremos calculando la matriz
2 17
1 15
1 3 13
1 4 lO

1~]
1
5 9
3 4 5 8 7 9 11
8 8
15 13 10 9 8 6 5 3
7 6
1 9 5
1 11 3
12 4
62
= ['o
62 514
90]
405
90 405 1014
360 • SECCIÓN 4. ANÁLISIS ESTADISTICO DE DOS O MÁS VARIABLES

cuyo determinante es
1 X' X 1 = 5 211 960 + 2 259 900 + 2 259 900- 4163 400-
- 1 640 250 - 3 897 816 =
= 30 294 "#o
que, como es no nulo, nos señala que podemos calcular la inversa.
Para ello, en primer lugar, obtenemos la matriz de los adjuntos
357 171 ·-26 418
-21150]
adj[X' X] = -26 418 2 040 1 530 = [adj[X' X]]'
[
-21150 1 530 1296

luego

357 171 - 26 418 -21150


30294 30 294 30 294
-26 418 2 040 1530
[X'xr1 =
30294 30 294 30 294
-21150 1530 1296
30 294 30 294 30 294

Por otra parte

3
4
6

~ ~~]
1 1
7
xy = [ 1 3 4 5 8 7 9 11
10
17 15 13 10 9 8 6 5 3
15
16
18
20

= ¡::]
621
EJERCICIOS DE LA SECCIÓN 4 • 361

Por tanto,

357171 -26 418 - 21150


30 294 30 294 30 294

b = [X'Xr1 Xy =
-26 418
30 294
2 040
30 294
1530
30 294
[100]
843 ==
621
-21150 1530
- 1 296
-

==
[10,0,9332][ b,
- 0,67
= bl
b2
l 30 294 230 294 30 294

b0 = 10,32
bl = 0,93
b2 == -0,67

y == 10,32 + 0,93x1 - 0,67x2 .

La fiabilidad del ajuste nos la puede medir el coeficiente de determinación lineal

2
R ==-
S~ b'X'y- Ny2
s2 y
y'y- Ny2

b'Xy == [10,32 0,93 -0,67] ¡~:] = 1399,92


621

y'y == ~>~ == 1416


j

1 2
= -(100) = 1 000
10
R 2 = 1399,92 - 1 000 == 399,92 == O 96
1416 -1 000 416 ,

como está próximo a la unidad podemos aceptar que la utilización del modelo es
~~Etantefiable.
362 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

(e) La parte de variabilidad contenida en Y que queda explicada por el


precisamente R 2 = O, 96 = 96% , que es suficientemente alta.

Ejercicio 4.30
Siendo Y el nivel de renta de unas familias y C su consumo

~~- ' -
Consumo ~enta
¡;
eí Y;

0,3 1, 1
0,8 2,0
2,2 3,1
2,8 3,9
3,2 4,7
4,1 5,3

SOLUCIÓN. Llamando X1 =y y X2 = l, el modelo quedaría reformulado

e = b0 + b1x1 + b2x2

en donde los valores mínimo-cuadráticos de sus coeficientes serán

b = [X'Xf 1 X 'e .

La matriz [X' X] es

1,1 1,21
2,0 4, 00
1 1

(X' X] "[ 1,1 2,0 3,1 3,9 4,7 15,3 j 3,1 9, 61


3,9 15,21
1,21 4,00 9,61 15,21 22,09 28,09
4,7 22,09

l
5, 3 28,09

= 20,1
6
80, 21
20,1
80,21
351,14
80,21
351,14
1618,1765
l
EJERCICIOS DE LA SECCIÓN 4 • 363

1 X' X 1 = 1 396,3076 =1- O , podemos calcular la matriz inversa, que es

[ 4,651 -3,123 0,447]


[X' X]- = -3,123
1
2,346 -0,354
0,447 -0,354 0,055

0,3
0,8

x·c~r~.1 13,~]
1 1 1
2,0 3,1 3,9 4,7 5,3 j 2,2
2,8
[
= 56,44
1,21 4,00 9,61 15,21 22,09 28,09 253,15
3,2
4,1

[bo 1
4,651 - 3,123
0,447] [ 13,40]
b :.: -3,123 2,346 -0,354 56,44 = r-0, 78]
O, 94 = b1
[
0,447 -0,354 O, 055 253,15 -0,07 b2

e = -0,78 + 0,94x1 - 0,07x2

e = -0,78 + 0,94y - 0,07y 2 .

4.31
XI ' x2 y x3 ' de las que se dispone de la siguiente infor-

yJ ..l)j -·

2 4 2 3
3 5 4 6
6 10 6 7
8 11 7 8
10 15 10 9

~mu1en:se los coeficientes de correlación parcial de Y con X2 y de Y con X3 •


364 • SECCIÓN 4. ANÁ LI SIS ESTA DÍST ICO DE DOS O MÁS VARIABLES

SOLUCIÓN. En primer lugar, determinamos las regresiones


y = b0 + b1x1 + b3x3
X2 = c0 + c1x1 + c3x3
y = do + dlxl + d2x2
x3 = h0 + h¡x1 + ~x2
donde
b = [Z' Zf1 Z'Y
e= [Z'Zf1 ZX2
d = [V 'Vf1 vr
1
h = [V' Vf VX3
siendo
z = [1 XI XJ]
V= [1 XI X2]
(a) La regresión de Y sobre X1 y X3 será

4 3

[Z' Z] = [ :
6
5 10
7
11
8
ji l +:
1
1
1
10
11
15
5 6
7
8
9
33
45
487
335
33
335
239

IZ'ZI = 1472 *o

1 1
[Z' Zf = - -
[4168 3oo
300
106
-~6]
- 190
1472
- 996 -1 90 410
2

5
6
10
7
11
8
1~] ~ [3~:]
9 8
=
220
10

b = [Z' Zf1 Z'Y =


-1,3234]
0,6291 =
rb
b
o]
1
[
0,2215 b3
EJERCICIOS DE LA SECCIÓN 4 • 365

y entonces
y = - 1,3234 + 0,6291x1 + 0,2215x3 .

La segunda regresión es

~~~ ~: =::~1
4
1 1
[Z'zr =_ _ [
1472
-996 -190 410
2

Z'X, = l: 1
5
6
1
10
7
11
8
10

e = [Z' zr1 Z' X2 = r-1,1~91lc'1


=0,4552 e1
0,4389 e3

luego
x2 = -1,1929 + 0,4552x1 + 0,4389x3 .
La tercera regresión es
1 4 2

v·v = l~ 1
5
4
10
6
1
11
7
1~1
10
1
1
5
10
11
15
4
6
7
10
+~ 29
45
487
315
291
315
205

j V'V 1 = 508 *O
-90
[Y' vrl
[ 610
= - 1- -9o 184 -270 521
508
52 -270 410
366 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

V'Y = r: 5
4
10
6
11
7
1~1 ~ r3~:1
10 8
=
208
10

d = [V'Vr 1 V' Y =
-0,7559]
0,5787 =
rd 0

d1
]

r 0,2323 d3

por tanto

y = -0,7559 + 0,5787x1 + 0,2323x2 .

(d) Finalmente, la cuarta regresión es

1 610
[V'Vr = - - -9o
1 r -90
184 -270
52]
508
52 -270 410
3

r~ ~~]
1 6

v· x, =
5 10 11 7 = r 33
335
4 6 7 10 8
9
218 1
h = [V'vr 1 v' X3 =
r 2.5005 = r~
-0,3740 ~~¡
1,2716 1 1 ~

luego

x3 = 2,5905 - 0,3740x1 + 1,2716x2 •

Los residuos estimados a través de estas tres regresiones serán


EJERCICIOS DE LA SECCIÓN 4 • 367

yj(l) = - 1,3234°+ 0,6291X¡ + 0,22l5x3 eY¡<l> =Y¡- ij(l) e;¡(!)

-1,3234 + 0,6291 o 4 + 0,2215 3 = 1,8575o 0,1425 0,020300


-1,3234 + 0,6291 o 5+0,2215°6= 3,1511 --Q,1511 0,022831
-1,3234 + 0,6921 10 + 0,2215 7 = 6,5181
o o
--Q,5181 0,268427
-1,3234 + 0,6921 11 + 0,2215 8 = 7,3687
o o
0,6313 0,398540
-1,3234 + 0,6921°15 + 0,2215 9 = 10,1066 o
0

-0,1066 0,011364

=o 0,721462

~
xj1 = -1,1929 + 0,4552x1 + 0,4389x3 e21 = x21 - x;i ez.J

-1,1929 + 0,4552 o 4 + 0,4389 3 = 1,9446 o 0,0554 0,003069


- 1,1929 + 0,4552 o 5 + 0,4389 6 = 3, 7165
o 0,2835 0,080372
-1,1929 + 0,4552 10 + 0,4389 7 = 6,4314
o o -0,4314 0,186106
-1,1929 + 0,4552 11 + 0,4389 8 = 7, 3255
o o
--ü,3255 0,105950
-1, 1929 + 0,4552 15 + 0,4389 9 = 9,5852
o o
0,4148 0,172059

=o 0,547556

2
Yfc7-> 7 --ü,75.59 + 0,5787x1 + 0,2323x2 eyo (2)
1
= Yj - Yj(2)
..
eY¡ (2)

-0,7559 + 0,5787 o 4 + 0,2323 o 2= 2,0235 --Q,0235 0,000552


-0,7559 + 0,5787 o 5 + 0,2323 o 4 = 3,0668 --Q,0668 0,004462
-0,7559 + 0,5787 °10 + 0,2323 o 6 = 6,4249 --ü,4249 0,180540
-o, 7559 + 0,5787 o 11 + 0,2323 o 7 = 7,2359 0,7641 0,583849
-0,7559 + 0,5787 15 + 0,2323 10 = 10,2476
o o
-0,2476 0,061306

=o 0,830709 .
368 • SECCIÓN 4 . ANÁLISIS ESTAD[STICO DE DOS O MÁS VARIABLES

2,5905 - 0, 3740. 5 + 1,2716 . 4 = O, 1931


7 2,5905 - 0,3740 . 10 + 1,2716. 6 = 6,4801 0,5199
8 2, 5905 - 0, 3740. 11 + 1, 2716 . 7 = 7,3777 0,6223
9 2, 5905- 0,3740 . 15 + 1,2716 . 10 = 9,6965 - 0,6965

=0

Dado que las medias

e,.<I> = e,.<2> =
J J
e2j = ~j = o,
las varianzas y covarianzas de los residuos serán

~e~, <I>
s2 = 1
= o,I44292
e, (1) N

L;eiJ
sez2 = -1-· N- = 0,109511
L;e,.<I> e2J
--'1'-
. _ ' _ _ = -0,012228
N
"e2
LJ Y¡ (2)
1
_..:;- - = 0,166142
N

L;eY, <2>elJ
S•,. <2) e, = _..:1;- N
- - = 0,085827.

Y, por fm, los coeficientes de correlación parcial son:


l. De Y con X2

s., ( lj e, -0,012228
r = -0,10 .
Y.lz .Jü,l44292. 0,109511
EJERCICIOS DE LA SECCIÓN 4 • 369

2. De Y con X3

S,,. (2) e, 0,085827


ryx, 1 = 0,37 .
""0,166142. 0,317323

LY¡ = 15 ¿x1¡ = 10 ¿x2¡ = 30


j j j

Í:X1¡Y¡ = 100 ¿x2¡Y¡ = 180 ¿x3JYJ = 120


j j j
2
¿x11 = 160 ¿x;, = 90 ¿x~i = 140 LY~ = 2 600
j j j j

¿x1ix2¡ = 80 ¿x1ix3¡ = 100 ¿x2¡x3¡ = 110


j j j

Determínese el hiperplano de regresión


y = bo + blxl + bzxz + b3x3 .
¿Qué parte de la variabilidad de Y queda explicada a través de esta regresión?

Las estimaciones núnimo-cuadráticas de los parámetros b0 , b1, b2 y b3 vienen


dadas a través del vector

b = [X' xr xy . 1

Como hemos visto en anteriores ejercicios, la matriz [X' X] es

N ¿xiJ ¿x2J ¿x3J


j j j

¿xiJ ¿x~i ¿xlix2J ¿x1Jx3i


j j j j
[X' X]=
¿x2J ¿x2Jxli ¿x;i ¿x2Jx3i
j j j j

¿x3J ¿x3Jxli .¿ x3Jx2i ¿x~i


j j j j
370 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O MÁS VARIABLES

que, en este· ejemplo, es

20 10 30 40
10 160 80 100
[X' X] :=
30 80 90 110
40 100 110 140

Por tanto,
20 10 30 40 30 10 30 40
10 160 80 100 170 160 80 100
1 X' X 1 := 30 80 90 110
=
80 90 110 110
40 100 110 140 140 100 110 140
-10 10 30 40
70 160 80 lOO
=
o 80 90 110
O lOO 110 140
160 80 100 10 30 40
= -10 80 90 110 - 70 80 90 110
100 110 140 100 110 140
= -10 · 44 000- 70 (-9 000) = 190 000 * O.
Como esta matriz es no singular, tiene inversa. Calculemos ahora, en
lugar, la matriz de los adjuntos de [X' X]

44 000 9 000 14 000 - 30 000


9 000 4000 2 000 - 7 000
adj [X' X] = = [adj [ X' X]]'
14 000 2000 58 000 - 51000
- 30 000 -7 000 - 51 000 55 000
y , por tanto, la inversa será:
44 9 14 -30
190 190 190 190
9 4 2 -7
[X' xr 1 = [adj [X' X ] ]' = 190 190 190 190
1 X' X 1 14 2 58 -5 1
190 190 190 190
-30 -7 -51 55
190 190 190 190
EJERCICIOS DE LA SECCIÓN 4 • 371

Por otra parte,

LYJ
j
15
'LxlJYJ
j 100
Xy =
'LxzJYJ 180
1
120
¿xlJYJ
j

luego

44 9 14 -30 480
- - -
190 190 190 190 190
9 4 2 -7 15 55
- -
190 190 190 190 100 190
b =
14 2 58 -51 180 4 730
- - - -
190 190 190 190 120 190
-30 -7 -51 55 -3 730
- ---
190 190 190 190 190
de donde
480
bo = 190 = 2, 53

b1 = 22..
190
=o ,29
4 730
b2 = 190 = 24, 89

b3 = - 3190
730
= -19 ,63
El hiperplano de regresión ajustado es
y = 2,53 + 0,29x1 + 24,89x2 - 19,63x3
Para determinar la parte de la variabilidad de Y que queda explicada por esta re-
gresión múltiple, calcularemos el coeficiente de determinación lineal R2

R2 = s; = b'Xy - NY
2

szy y'y - Nyz


372 • SECCIÓN 4. ANÁLISIS ESTADÍSTICO DE DOS O M ÁS VARIA BLES

Por una parte tenemos

S2 = - í'[ yy-
, N y- 2] = - - y
-2= rr
Y N N
LY~ 2
= _j_ - y2 = 2 600 - (~J = ·129 44
N 20 20 '

y como

S 2 -- -1 [b'X'y- N y- 2] - 1 b'X'y-y
- - -2
R N N
15

b'X'y = [ 480
55 4 730 -3 730] 100 = 416 500 = 2 192.~
190 190 190 190 180 190
120

s2 = 2192,11 - (.!2_J2 = 109 04


R 20 20 '

obtenemos que

R2 = 109,04 = 0,84 = 84%


129,44
y, por tanto, queda explicado el 84 % de la variabilidad de Y.
APÍTULO 11

úmeros índices

capítulos anteriores hemos venido caracterizando las distribuciones de


por una serie de medidas que intentaban sintetizar el conjunto de
información disponible (medidas de posición), pasando después por el
de la variabilidad (medidas de dispersión) y de las :(Iledidas de forma
y curtosis) . El problema que ahora se nos presenta es la comparación
serie de observaciones respecto a una situación inicial, fijada arbitraria-

las observaciones tienen carácter cuantitativo, que es el caso que


a estudiar, existen dos sistemas alternativos para efectuarla: la compara-
diferencia y la comparación por cociente.
efecto, si tenemos dos observaciones x0 y x1 que queremos comparar
determinar la diferencia de los dos valores de manera que si
D = x1 - x0
a cero, diremos que ambas observaciones son iguales, si D > O dire-
x1 es mayor que x 0 y, por último, si D < O entonces x 1 será menor

375
376 • SECCIÓN 5. NÚMEROS ÍNDICES

que x 0 . La diferencia D que se obtiene adquiere su sentido bien


igual a cero, o bien por el signo que tenga. Pot otra parte, como Des
ple diferencia, vendrá dada en las mismas unidades de medida de la
X, cuyas observaciones x0 y x 1 se están comparando.

Si la comparación se efectúa por cociente,

entonces tendremos que si e = 1 , ambas observaciones son iguales, s


x1 será mayor que x0 y, por último, si e < 1 ocurrirá lo contrario.

Aquí el origen de referencia será la unidad pero, en este caso, e


utilizado proporciona comparaciones adimensionales al realizarse por
Esta propiedad básica es extremadamente interesante ya que permite la
ción de comparaciones de magnitudes X, Y, Z,... que pueden venir
diferentes unidades de medida, cosa que con el sistema de cmno:ua¡.:ilfi
diferencia no llegaríamos a poder lograr. Por esta sencilla razón, es por
normalmente utilizaremos comparaciones por cociente.
Por otra parte, para las comparaciones habrá también que tener en
los dos aspectos siguientes:
(a) Fijación arbitraria de la situación inicial a la que se referirán las
ciones. La elección de la situación inicial condiciona el resultad
comparación y, por tanto, dicho punto de referencia inicial debe ser
adecuado posible a los objetivos que se persigan.
(b) Comparación de magnitudes simples o complejas. Esto nos introduce
problema de la agregación de magnitudes y de la construcción de
de comparación adecuados, que más adelante estudiaremos.
Por ejemplo, si se quiere comparar la producción global entre dos
de un mismo país en dos épocas diferentes, al ser la producción una
compleja (compuesta por producciones simples cuyas unidades físicas son
rogéneas: litro, kilogramo, unidades de producción, etc.) ¿cómo
la comparación? Una vía para agregar las producciones simples sería ~_;u.~•
sus valores monetarios, en vez de dicha producción en cada una de las
físicas respectivas. Otra será, la utilización de índices o cocientes adi_r:n:•
nales para cada una de las producciones.
NÚMEROS ÍNDICES ·~

un número índice como aquella medida estadística que nos per-


:udiar los cambios que se producen en una magnitud simple o compleja
Pe:soecto al tiempo o al espacio; es decir, vamos a comparar dos situacio-
de las cuales se considera de referencia. Con esto queremos decir que
comparar, por ejemplo, el coste de vida en una ciudad con el habido
al período anterior o bien con el coste de una ciudad vecina.
este capítulo vamos a estudiar únicamente las comparaciones en el tiem-
los métodos que se describan serán prácticamente aplicables en su
,-..¡.¡4Lu:;

al espacio.
período inicial se le denomina período base o de referencia, por con-
-ión, la situación que queremos comparar es denominada período actual

. 1. NÚMEROS ÍNDICES SIMPLES


una magnitud simple y, sean x10 y x11 los valores de dicha magnitud en
base y actual, respectivamente. El número índice simple 11 para la
citada se define como

l. = ¡t (i) = 3!._
t O X
JO

s mide la variación, en tanto por uno, que ha sufrido la magnitud X,


.os dos períodos considerados.
índices simples más usuales son los siguientes:
El precio relativo, que es la razón entre el precio de un bien en el perío-
do actual (p¡¡) y el precio del mismo en el período base (p10 )

I- P,t
Po -
P;o
378 • SECCIÓN 5. NÚMEROS ÍNDICES

• La cantidad relativa, que se define como la razón entre la . . .= ......._


ducida o vendida de un bien en sus períodos actual (q;1 ) y base

• El valor relativo, si definimos el valor de un bien en un nPlrin.'1111111


quiera como el producto del precio de ese bien y la cantidad ~ ............_
vendida), entonces el valor relativo será la razón entre los valo~
bien en el período actual (P;1q;1 ) y en el período base (P;oq;0 )

como podemos ver, el valor relativo de un bien es igual al produ...


precio relativo y su cantidad relativa, es decir
111 1 1
Yo =Po·%·
Generalmente, estos índices se suelen expresar en porcentajes, mlL
dolos por cien.

11.2.2. NÚMEROS ÍNDICES COMPLEJOS

En la realidad, sucede que, generalmente, no estamos interesados en


precios, cantidades o valores de bienes individuales, sino que se compar~
magnitudes para grandes grupos de bienes. Como consecuencia de ello.
mación suministrada por los índices simples de cada uno de los diferente"
debe ser resumida en un único índice al que vamos a denominar complej
La construcción de un índice complejo no es tarea fácil. Si
ejemplo, elaborar un índice que nos mostrase la evolución del coste de
un país (así, en España sería el IPC) habría que seleccionar un grupo de
que reflejasen dicho coste, teniendo en cuenta la importancia relativa
uno de esos bienes en el conjunto elegido, la existencia de calidades
para un mismo bien, ... y, finalmente , habría que decidir la forma de
toda esta información y obtener un único índice.
Nuestro objetivo es llegar a un número índice sencillo, pero que -
reúna la mayor cantidad posible de información. Así, podemos
tipos de índices complejos, en los que va a primar, en mayor o menor
cada una de las características anteriores. Si se prefiere sencillez '"''"'""'""""-
NÚMEROS ÍNDICES • 379

complejos no ponderados y si, por el contrario, lo que se desea es que


-·-=1n~a.ula mayor cantidad de información posible se utilizarán los índices
os ponderados.

índices complejos no ponderados


ravés de los índices simples es lógico
-.t~u:<al éstos. Así los índices compuestos van a ser medias aritméticas, geo-
, armónicas y agregativas de los índices simples.

media aritmética de índices simples

a. magnitud compleja X formada por las simples X1, X2 , ... , X;, ... , XN que

· Perlado base Perfodo actudl · . lndices Si~t,iples


~~~~~--+-~-----

primera solución para resumir los diferentes 1¡ sería considerar su me-

N N
~ ~xit
L.,¿ Ji L.,¿ -
- JI + /2 + ... + Ji + ... + JN i = 1 i = l XiO
1 = -'-'-=--=--·
N N N

media geométrica de índices simples

J =N/J . J ... J ... J =NffG=NI1N 3.!_,


G " 1 2 i N '{i
V i =l x;o
380 • SECCIÓN 5. NÚMEROS ÍNDICES

• Índice media armónica de índices simples

• Índice media agregativa


Otra solución diferente podría ser considerar, en vez de los diferentes
simples, la relación entre las sumas de los diferentes valores en los do
dus, en el caso de que sean agregables
N

XII + X21 + ... + Xit + ... + X NI


¿xü
i=l
-N--·
+ X20 + ... + + ... + X NO
X lO XiO
¿x¡o
i=l

Números índices complejos ponderados


En todos estos índices complejos anteriores no hemos tenido en cuenta
rente importancia relativa que puede tener cada una de las magnitudes
dentro del conjunto de todas ellas. Esto equivaldría, por ejemplo, a cor ·
que la variación en el precio del pan tendría la misma importancia q:
misma variación porcentual en el precio de la carne, si lo que estamc
diando es la magnitud compleja precio. Como esto, tanto en este caso e
la mayoría de los que podamos considerar, no es así, es necesario a:
cada magnitud simple, y por tanto a sus índices, de unas ponderacion:-
midan su peso relativo dentro del conjunto en que se consideren.
Supongamos que las diferentes ponderaciones o pesos asignadC"
w1, w2 , ... , w¡, ... , wN. De esta forma obtendríamos los siguientes
índices:

• Índice media aritmética ponderado

¡*
NÚMEROS ÍNDICES • 381

=
"w
¿
i=l
i IJ!w.
N
.
1

1
i =1

media armónica ponderado


N

w1 + · ·· + w; + · · · + w N
¿w;
; = 1
¡* ----~------~------~--- = ~---
H
1 1 1 ~ w;
-w + ·· · + - w. + ·· · + -w L...,
/1 1 /¡ ' fN N ¡ = 1 /¡

media agregativa ponderado

.3. PROPIEDADES DE LOS NÚMEROS ÍNDICES

E~tencia. Todo número índice debe existir, ha de tener un valor finito


de cero. ·Por ejemplo, los índices de media geométrica y armónica se
si algún xit es cero y por lo tanto, en este caso, no están determinados.

Identidad. Si se hacen coincidir el período base y el período actual el


índice debe ser igual a la unidad. Esta propiedad debe cumplirse nece-
puesto que los números índices miden variaciones entre dos perío-
al hacer coincidir éstos, el número índice no debe reflejar ninguna varia-

Inversión. Si notamos por /~ un índice con base O y período actual t, al


_...,u ••cu los períodos entre sí (/~) el nuevo índice debe ser tal que,
382 • SECCIÓN 5 . NÚMEROS ÍNDICES

0 Circular. Si consideramos los períodos O, t, t', tn, se debe '"' .... .L......... ~­
to · ¡I' =1 1
· / ¡'0

¡eo . ¡e• . ¡e•


¡'
1
. ¡O
¡•
=1
Como consecuencia de esta propiedad y de la inversión, tenemos

1
l oe . ¡e'c=o=> ¡t ¡e' ¡t'
o ·t = o
11.

¡e . ¡t' . ¡c· = ~ => ¡t . ¡e· . ¡t' = ¡r·


O 1 1' ¡O O t t' O
¡'

denominada propiedad cíclica o circular modificada .


!]] Proporcionalidad. Si en el período actual todas las magnitudes
una variación proporcional, el número índice debe quedar lógicamente
por esta variación.
. -
Si los valores x¡
1
sufren una variación proporcional de orden k, de
que los nuevos valores en el período t' son:
xit. = X¡1 + kxit = (1 + k) x¡1
los nuevos índices simples serán:

f' = Xit' = (1 + k) X¡1 = (1 + k)/..


1 1
x ¡o x ¡o

Sería deseable que estas propiedades, que en general se cumplen para


índices simples, se verificasen también en los complejos. Esto no siempre
rre, como veremos más adelante.

11.2.4. ÍNDICES EN CADENA

Los índices en cadena se obtienen a través de enlaces relativos que son


para los cuales la base es siempre el período precedente, con lo que cada
de ellos representa una comparación porcentual respecto al período anterior
NÚMEROS ÍNDICES • 383

Supongamos que los precios de un determinado bien son 12, 14, 24 y 30 unidades mo-
aetarias, para el período 1996-1999 respectivamente. En este caso los enlaces relativos

p:~ = 14/12 = 116,6%


p:~ = 24/14 = 171,43%
p: = 30/24 = 125%
Como consecuencia de la propiedad circular modificada, el precio, la cantidad o el
relativo para un período dado, respecto a un período base, puede siempre expre-
en términos de: sus enlaces relativos respectivos.- Por ejemplo,

p25 = ~3~4p45.
Aplicando este supuesto a los datos del ejemplo tendríamos
96 = 100%
P96
91
P96 = 116,6%

p%98 = p91 . p98 = -14 . -24 = 200%


96 97 12 14

99
p96
97 98
= p96 . p91 . p98
99 = .!i . 24
12 14
. 30 = 250%
24

que

p99 = p99 = 30 = 250%


96 p 12
96

el mismo resultado que el obtenido mediante enlaces relativos.

este tipo de índices, conseguidos por medio de enlaces relativos, se les


índices en cadena relativos a una base fijada. Como hemos visto en
, a través de este procedimiento y partiendo de una serie de enlaces
podemos conseguir una serie de índices referidos a una base común
en el ejemplo). La nueva serie obtenida nos permitirá efectuar compara-
a medio y largo plazo.
384 • SECCIÓN 5. NÚMEROS ÍNDICES

lndices de precios
Vamos a detenernos en el estudio de las magnitudes económicas a tra,·es
llamados índices de precios, que miden la evolución de la magnitud
un conjunto de bienes y servicios. Los números índices de precios más
dos son los siguientes.

11.3.1. ÍNDICES COMPLEJOS DE PRECIOS

Índices complejos de precios no ponderados


• Índice de Sauerbeck
Es la media aritmética no ponderada de los índices simples. Teniendo en
que éstos serán ahora los precios relativos

1, = P¡¡
P;o

el índice de Sauerbeck será

que es simplemente la media aritmética de los precios relativos de los


considerados.

• Índice de Bradstreet-DUtot
Es la media agregativa sin ponderar de los precios
N
LP;,
i = 1
B-Dp = N

LP;o
i = 1

Estos dos índices que acabamos de ver tienen la ventaja de ser fác·
aplicar, pero presentan el siguiente inconveniente: No tienen en cuenta
NÚM EROS ÍNDICES • 385

portancia relativa de cada uno de los diferentes bienes en el conjunto total, ya


que son no ponderados.

Supongamos una <<Cesta de la compra» compuesta por los siguientes artículos: pan,
Ia!che, huevos y carne, de los que la información disponible aparece en la tabla siguien-
ae:

Precws
Bienes
2002 2003 2004

Pan 0,30 0,32 0,35


Leche 0,80 0,84 0,89
Huevos 2 2,20 2,35
Carne 9 11,00 12,50

12, 10 14,36 16,09

llatloni.en<io que el año base es 2002, ¿cuáles serían los índices de Sauerbeck y de
para cada uno de los otros dos períodos?

2003 "'
Bienes Pi'2002 \lO)

Pan 100 0,32/0,30 = 106,6 0,35/0,30 = 116,6


Leche 100 0,84/0,80 = 105 0,89/0,80 = 111 ,25
Huevos 100 2,20/2 = 110 2,35/2 = 117,5 •
Carne 100 1119 ·= 122,2 12,50/9 = 138,8
443 ,8 484,3

s 2oo3 i :
± P; (2003)
1P; (2002) = 443,8 = 110 97
4 4 '
±
P2002

P; (2004)
s2004 i = 1 P; (2002) = 484,3 =
121 07
P~, 4 4 '
386 • SECCIÓN 5. NÚMEROS ÍNDICES

4
¿p. c2oo3)
B-D9a
p91
i=l

±
i = 1
1

P; (2002)
= 14,36 = 118 68
12,1 O ,

4
L P; (2004)
B-D99
p91
i

±
=1

i = 1
P; (2002)
= 16,09 = 132 98
12,10 ,

Índices complejos de precios ponderados


Los sistemas de ponderación propuestos tradicionalmente son:
(a) w; = piOqiO, que es el valor de la cantidad consumida del bien i
el período base, a precios de dicho período.
(b) w; = piOqit , valor a precios del período base de la cantidad C011SU.IllJI•

bien i en el período actual.


La primera corresponde a una situación real y la segunda a una
con valoración ficticia.
Los índices de precios ponderados más utilizados son:

• Índice de Laspeyres
Es la media aritmética ponderada de los índices simples de precios. El
de ponderación seguido es w; = Pw · qw ; por tanto

~
N N
P;r
LI;w; ~ ~ P;o . q;o LP;c · qiO
Lp
i = 1 P;o
i = 1
= --:-N:-'-'~--- i = 1
N N
LW;
i = 1
L P;o . qiO
i = 1
L P;o
i = 1
· q;o

¿Cómo se elige el período base para efectuar las ponderaciones? Los


ríos para la elección del período base son variados, pero fundarnentalmeiR
requiere que sea un año no irregular o «normal>>.
NÚMEROS ÍNDICES • 387

u:ambién una media aritmética ponderada de los índices simples, pero aquí el
· de ponderación es w; = P;o · qil ; por tanto,

N N
~ P¡¡
Ll;w; L..., - piO . qit
i; 1 ; ; 1 P;o i; 1
N
= --:-N: - ' - " - - - = - N
:-:-----

¿w;
i ; 1
¿ P;o . qit L P¡o . qit
i; 1 i ; 1

démonos que la fórmula de Paasche exige calcular las ponderaciones,


. para cada período corriente. Como vemos, pues, el cálculo de este índi-
laborioso y, según se puede observar, presenta un inconveniente adicio-·
el índice de precios de cada año sólo se puede comparar con el del año
debido a que las ponderaciones varían de período en período, siendo, por
distintas en los diferentes índices calculados.

de Edgeworth
media agregativa ponderada de precios cuyo coeficiente·de ponderación,
do en los grupos anteriores, es w; = q;o + q;1 ; portanto,
N N
L P¡¡W¡ L P¡¡ (q;o + qit)
Ep = -i N,;_,--1 -
i ; 1
= .;_N
: -:-"--- ---

¿
i ; 1
P;ow; L P;o (q;o + qit )
i; 1

FlSHER propuso como número índice de precios la media geométrica de


de precios de Laspeyres y Paasche, es decir,

a intentar determinar cuál de todos los índices de precios definidos


más idóneo para ser utilizado en la medición de las variaciones de los
La selección la vamos a efectuar a través del estudio de las propieda-
todo buen número índice debe cumplir.
388 • SECCIÓN 5. NÚMEROS fNDICES

!IJ Existencia. Esta propiedad la cumplen los seis índices de precios


dos.
[IJ Identidad. También esta propiedad la verifican los seis índices
tos.
W Inversión. Esta propiedad la verifica solamente los índices de
Dutot, Edgeworth y Fisher.
[!] Proporcionalidad. La satisfacen los seis índices algebraicamente.
desde el punto de vista económico hay que hacer algunas vv''"''"''v"-
los de Paasche, Edgeworth y Fisher.
Vamos a estudiar esta propiedad de proporcionalidad en los seis
proporcionalidad de un índice de precios se cumplirá si al variar los
en una proporción fija k el índice se incrementa en esta misma nrr,nr•rr·•r..
nuevos precios, p 11.. , serán igual a p.11 + kp.11 = (1 + k) p.11 con lo que ·
vos índices serán:
• Índice de Sauerbeck
N
¿Pit'
i=1 P¡o
± (1 +k) pil
P¡o
N
¿Pit
S'p = =
i=1 = (1 + k ) ¡ = 1 P¡o = (1 + k) Sp .
N N N
• Índice de Bradstreet-Dutot
N N

LP¡¡• I (1 +k) P¡¡


B-D p' = i = 1 _i=
_ 1_N
____ = (1 + k ) B - D.
N p

L PiO LPiO
i = 1 i = 1

• Índice de Laspeyres
N

LPit' qiO
L~ = _
iN
~
= _1 - - = _i _- _1"""N, - - - - - = (1 + k)Lp .

i
I= 1 P¡o qiO I= 1 P¡o qiO
i

• Índice de Paasche
N N

LPit'qit I <1+ k)pil qit


P'p _
i .,..,.
~_ 1_ _ = _i_=_1 -:-N:--- - - = (1 + k)PP.
I
i = 1
P¡o qil I
i = 1
P¡o qil
NÚMEROS ÍNDICES • 389

Índice de Edgeworth
N N

j
L P¡¡• (q¡o + qi1)
= 1 . j
L (1 + k)p¡¡ (q¡o + q¡¡)
= 1
E'p = N
= -'--'---:-:-
N -- - - - - = (1 + k)EP.

L PiO (q¡o + q¡¡)


j = 1 j
L PiO (q¡o + q¡¡)
= 1

Índice ideal de Fisher

t; = ~L~ · P; = ~(1 + k) LP (1 + k) PP = (1 + k) ~LP · PP = (1 + k) FP.

Si bien algebraicarnente todos estos índices cumplen esta propiedad, en el


de los de Paasche, Edgeworth y Fisher se puede plantear una objeción de
económico: al variar los precios en cualquier proporción es difícil mante-
el supuesto de que las cantidades q¡1 permanezcan constantes; la variación
estas dependerá de las elasticidades cantidad-precio de cada bien. Sólo sería
la suposición de constancia de las q¡1 cuando la cantidad es rígida
al precio (variaciones en el precio no provocan variaciones en la canti-
Luego sólo el resto de los índices (Sp , B-Dp , L p ) cumple realmente dicha
~P~eaaa de proporcionalidad.
Como B-Dp es el que cumple más propiedades, parecería lógico que fuera
utilizado, pero al ser un índice no ponderado no suele utilizarse con
_ ........... Todos los índices ponderados cumplen el mismo número de propie-
. pero se suele seleccionar el índice de Laspeyres porque es el único que
.-u"u""'" cumple la de proporcionalidad, propiedad fundamental para cual-
expresión que intente medir la variación de los precios.

-.am<)S que para el conjunto de bienes del ejercicio anterior disponemos de infor-
adicional sobre la cantida vendida en cada uno de los períodos considerados y
reflejada en la tabla que presentamos a continuación. Determínense los índi-
precios de Laspeyres, Paasche, Edgeworth y Fisher para 2004 con respecto al
de 2002.
390 • SECCIÓN 5. NÚMEROS ÍNDICES

Cantidad vendida
Bienes
2002 2004

Pan 200 275


Leche 500 530
Huevos 800 925
Carne 400 375

SOLUCIÓN

Bienes P,o2qi04 P;o4qif12 pi04qi04 pi02qi04 Q¡ = qj(J2 + qi04


Pan 60 70 96,25 82,5 475
Leche 400 445 471,70 424 1 030
Huevos 1 600 1 880 2 173,75 1 850 1 725
Carne 3 60P 5 000 4 687,50 3 375 775

5 660 7 390 7 429,20 5 731,5

i ~ 1

4
L P;04qi04
p04 = i ~1 = 7 429,20 = 129 62
piYl. 4 5 731,50 '
i
L P;w.qi04
~ 1
NÚMEROS ÍNDICES • 391

lll!.i:ne:n podemos estudiar la evolución de las magnitudes a través de sus can-


físicas. Los números índices cuánticos o de producción atenderán, pues,
variaciones habidas en la producción física de un conjunto de bienes y
, para medir su evolución en el tiempo.
Sólo nos vamos a fijar en las formulaciones de números índices complejos
, ya que únicamente se suelen utilizar éstos. Los más importantes

N
"f.J¡ ·W¡ ¿ -q;oP;o
N
qit
N
"f.qítpiO
i = 1 i = 1 qiO i = 1
Lq N = N N
¿w; L q;o P;o L q;o P;o
i= 1 i=1 i= 1

N
L(W;
¿ -q;oP;r
N
qít
N
"f.qít pít
i = 1 i = 1 qiO i = 1
pq N N N
¿w; Lq;oP;r "f.q;oPu
i = 1 i = 1 i= 1

E criterio de ponderación es igual que en los índices de precios, el del va-


del bien; pero aquí hemos de ponderar por el valor neto o valor añadido
ien y no por el precio de venta o valor bruto del mismo, ya que si lo hicié-
así contabilizaríamos una misma cantidad varias veces, tantas como eta-
diferentes suponga el proceso de producción.
Por un razonamiento análogo al de los índices de precios, se concluye que
cuántico de Laspeyres es el que más se utiliza.
392 • SECCIÓN 5. NÚMEROS ÍNDICES

'11.5 A19unós problemas ~tl la·.


construcción .y utilizaclón
de·los números índices 1
Los problemas más importantes con los que uno se encuentra al trabajar
números índices hacen referencia a dos cuestiones fundamentalmente, y
son:
1. El sistema de ponderaciones. Como hemos venido indicando, el tipo
ponderaciones utilizadas en la elaboración de un índice debe reflejar,
medida de lo posible , la importancia relativa de cada bien en particular
los índices estudiados hemos considerado que las ponderaciones más
piadas se basan en cantidades o valores para los índices de precios, .
precios o valores para los índices de cantidad.
En la práctica sucede a menudo que cada bien incluido en un índice
piejo se interpreta, no como tal bien individual, sino como rPr>rP·~Pr•r ,.r•
de toda una clase de artículados relacionados, en cuyo caso la pon<lc~raCIII
asignada a cada artículo individual refleja la importancia, no tanto de
mismo en particular, sino de toda la clase que representa.
2. Período base y su relación con los factores de ponderación. uenorn11•
mos período base de un índice aquél con respecto al cual se efectúan
comparaciones; lo que hace que, generalmente, se suela elegir como
uno no excesivamente alejado del período corriente, dado que
comparaciones pierden sentido al distanciarse los períodos de
ción. Por ello, hay que renovar periódicamente la información relati\"J.
año base, es decir, cambiar el año base, para que el índice no se quede
soleto y pierda significatividad.

11.6 Deflactación de series


estadísticas
Tal vez la más importante función del dinero sea la de permitirnos pasar
unidades físicas a una unidad de cuenta común a través de una valoración de
distintos bienes y servicios, y generalmente mediante la utilización de un
NÚMEROS ÍNDICES • 393

de precios; una vez realizada esta homogeneización estamos en condiciones


poder efectuar comparaciones en base a esta uriidad de cuenta común, siem-
y cuando no se hayan producido cambios en los· precios de lós diferentes
....-..Ul~"'' esto es, en tanto en cuanto la valoración la hagamos a los precios que
en un determinado período; si esto es así, tendremos el valor de los bie-
Y servicios a precios constantes (los del período considerado); si por el
llllrarlO valoramos las mercancías objeto de estudio a los precios de cada pe-
tendremos su valor a precios corrientes; como este último procedimien-
es el más utilizado\ se nos va a plantear el problema de comparar el valor de
-.;=•'uu''" económicas a lo largo del tiempo.
:\sí como esta comparación era posible cuando se realizaba la valoración a
ios constantes (de un período determinado), ya no es posible si la valora-
se efectúa a precios corrientes (precios de cada período), puesto que las
de los precios de un período a otro confieren distinto poder adqui-
a las unidades monetarias (un euro de 2002 no es equivalente, en cuanto
poder de compra, a un euro de 2004).
El problema, pues, queda planteado en los siguientes términos: si dispone-
de una serie estadística expresada en pesetas corrientes y pretendemos
una comparación entre dos períodos distintos, puesto que la serie no
mogénea ¿qué hacer para poder efectuar la comparación? El problema es
de resolver: tendremos que expresar la serie en euros constantes, y así ya
posible dicha comparación, es decir, lograr una serie como:

Valor nominal Valor real


(en euros corrientes) (en euros constantes del período O)

2 v2 = LP;2q;z
ik

que lo normal es expresarnos en términos de valores de mercado y éstos están referidos a los precios
IDCillento de la valoración.
394 • SECCIÓN 5. NÚMEROS ÍNDICES

Para pasar de una serie en euros corrientes a una en euros co:nstarniiCSI


remos la serie primitiva por un índice de precios adecuado ya que, de
ma, se puede eliminar la influencia de los precios. El paso de una sene
res corrientes a constantes se conoce con el nombre de deflactación de
y al índice elegido para efectuar dicha transformación se le llama
deflactor no será siempre el mismo: habrá que elegirlo de la forma
sirva para este objetivo en cada caso.
Como los índices de precios más comúnmente utilizados son los de
res y Paasche, vamos a ver cómo juegan estos dos índices en su ....,••..,.,.,..._
deflactar una serie estadística.
Supongamos que el valor nominal de una magnitud compleja en el
es:
N

~ LPitqit'
i = l

Vamos a utilizar como deflactor el índice de Laspeyres


N

N LP;rqir
~ ~ = Vo . pq VR
LJ = 1
P;o q;o · -i N ::----
:¡:.
r .
Lp
i =
1
L
P;r qiO
i =1
N

L P;o · q;o
i =1

No pasamos de valores monetarios corrientes a valores monetarios


tes; no obstante, este índice se utiliza como deflactor muchas veces, por
que se construye más comúnmente y se dispone de él casi siempre.
Utilicemos el índice de Paasche como deflactor

N
~
LJ P;o qir = VR
e •
i = 1

LP;oqic
i = 1

Obtenemos así una relación entre valores monetarios corrientes y valores


tarios constantes. Este índice de Paasche sería, por tanto, el deflactor
NÚMEROS ÍNDICES

siempre que los valores que figuran en la serie pudiesen descampo-


en sumas de precios por cantidades.
omo antes advertíamos, la elección del deflactor, es decir, del índice de
adecuado a tal fin es fundamental; así, si queremos deflactar una serie
los valores nominales o corrientes de la producción agraria lo idóneo
disponer de un índice de precios agrarios, si lo que queremos deflactar es
~ríe sobre el PIB nominal tendríamos que utilizar un índice general de
si lo que se deflacta es una serie sobre la producción de la industria
habría que utilizar un índice de precios industriales, etc .. .

cambio de base

problema que se plantea es la pérdida de representatividad de los índices


os alejando del período base, sobre todo cuando , para ponderar magnitu-
actuales, se utilizan pesos relativos referidos al período base; este problema
resuelve haciendo un cambio de base a un período más cercano al actual.
poder relacionar series de índices referidos a distintos períodos base se
los enlaces técnicos entre ambas series.
Para efectuar el cambio de base nos basaremos en la propiedad de inver-

Sea la siguiente serie de números índices referidos al período de base O.

Periodo lndice
o ¡O
o
l ¡1
o

i ¡i
o
: :

h ¡h
o

t ¡1
o

Supongamos que deseamos efectuar un cambio de período base desde el pe-


O al h. Obtenemos así una nueva serie referida a dicho peiíodo h
SECCIÓN 5. NÚMEROS ÍNDICES

Periódo indice,
o ¡O
h

1 ¡1
h

i lh
: :

h ¡h
h
: :

t / /¡

La nueva serie de índices se obtendrá teniendo en cuenta que

¡i = /~ . ¡h - !~
h ¡h h ¡h
o o
en donde !~ es el índice que hace de enlace técnico entre las dos series

EJEMPLO
Supongamos que poseemos para un conjunto de bienes los siguientes datos:

Años Base= 1990 Base= 1993

1990 LP;oq;o =5
1991 LP;,q;o = 5,5
1992 'f.pi2qi0 = 6
1993 LP;3qt0 = 6,5 LP;oq;o = 8
1994 'f.p;,q;o = 9

1995 LP;2q;o = 10

1996 L P;Jq;o = 10,5

donde los períodos base de ponderación son 1990 y 1993, respectivamente. Con
datos se han elaborado los correspondientes índices de precios de Laspeyres
NÚMEROS ÍNDICES • 397

5
Lw'XJ = - = 100% L93 =
93
~8 = 100%
5
L9I =
90
~ = 110% J!493 = -
9
= 112 5%
5 8 '
6 L95 =10
L: = - = 120% 93
- = 125%
5 8
L93 =
90
~= 130% J!6
93
=
10 5
• = 131 25%
5 8 '

los índices de precios de los períodos 90, 91 y 92 con base

Estamos tratando de combinar dos series de números índices con base

Utilizando la definición de cambio de base que acabamos de ver, tenemos

j ¡~
I h =¡h
--
o

~= L:
L: = 100%
130%
= 76 9%
'

los otros dos períodos

1!931 = 1!901 • L 90
93
= 110%. 76,9% = 84, 6%

~; = L: -L:i = 120% · 76,9% = 92,3%.

referiremos en este apartado al índice de Laspeyres


N ,
LP;¡qiO
i ~ 1 pltqiO + P2,q20 + ... + PN,qNO
N N
(1)
L P;o q;o L P;o q;o
i =1 i ~ 1
398 • SECCIÓN 5. NÚMEROS ÍNDICES

Supongamos que todas las magnitudes simples que componen el


fren una variación que podemos expresar por 11p11 , 11p21 , • • • , 11pNt:
índice será
N
L (pit
i = 1
+ !1pil) qiO
L p +Mp

Si nos interesa conocer la variac10n del índice general


igualdad (2) la igualdad (1) obteniendo
N N
L (pit
i = 1
+ !1pit) qiO
i
L= !1pit qiO
1

Llamaremos repercusión de la variación de la componente i en el


general a la expresión

!1pit qiO
R.
1
= N

L piO qiO
i = 1

La suma de todas las repercusiones individuales de cada co1mnn11í~


igual a la variación total del índice general.
La variación en porcentaje del índice general se expresa como
N

L !1pit qiO
i = 1
N N

M L piO qiO L !1pit qiO


__
P · 100 = -1-=....:..1- - - · 100 = _i --- .:..¡- - - • 100
LP ~
L. Pit qiO
~
L. Pit q,o
i = 1 i = 1
N

:L P10 qiO
i = 1
NÚMEROS ÍNDICES 111 399

En porcentaje, la variación de la componente i en el índice general es


flpit qiO
N

L P;o q¡o
_R., 1- - -
_,._; ,-- ·100 = flpil qiO . 100
N N
L P,., qiO
i; 1
LPit qiO
i; 1
N

L P¡o qiO
i; 1

. también se cumplirá que su suma para todas las componentes será igual a la
ariación porcentual del índice generaL
Entenderemos por participación en porcentaje de la componente i en la va-
riación del índice general a la relación por cociente entre la repercusión en
rcentaje y la suma de las repercusiones en porcentaje de todas las compo-
nentes, expresada en tanto por ciento. Su expresión será

flpil qiO
N
. 100
LPit qiO
i ~ l flpit q,.o
P.1 N
· 100 = N
. 100
L flpil qiO L flpit q,.o
i ~ 1 i ~ 1
N
· 100
LP¡,q¡Ó
i ~ 1

este apartado se intenta dar una visión general del conjunto de índices que
calculan en España por los organismos estadísticos oficiales, destacando la
~todología de aquéllos de uso más frecuente.
/
/ :>ECCIÓN 5. NÚMEROS ÍNDICES

11.~. ·1. ÍNDICES DE PRECIOS DE CONSUMO (IPC)

Entre los índices de precios que podemos estudiar se encuentra el deiiOII•


índice de precios de consumo (antes Índice del Coste de la Vida), sin
dudas el más popular de todos por la influencia que ejercen sus
los agentes económicos y en la opinión pública, en general.
La anterior denominación «Índice del Coste de la Vida>> proviene de
nición dada por Konüs ( 1924) del verdadero índice del coste de la vida
«la relación de gastos en metálico que un individuo debe hacer para
un mismo nivel de vida en dos situaciones que difieren solamente en
ciOS>>. Para la aplicación práctica de esta definición existirían algunos
nientes, tales como la subjetividad del concepto del nivel de vida y su
miento durante un largo período de tiempo, así como la referencia a ua
individuo.
Actualmente, y siguiendo las corrientes internacionales, hablaremos
dice de Precios de Consumo, que elabora el Instituto Nacional de
(INE).
Para resolver todos los problemas mencionados acerca de la subjeti
concepto de nivel de vida y su medición, en los últimos años todos los
entre ellos el nuestro, se basan para la elaboración del índice en la
cesta de la compra. Este método consiste en obtener, a través de """"..._.___
continuas de Presupuestos Familiares (E.C.P.F.) el conjunto de
servicios las familias adquieren de manera preferente, y que les nnmorci~•
mismo nivel de vida a lo largo de un período de tiempo no demasiado Ulll't"..._
Una vez determinada la cesta de la compra se valorarán las coJrresp<)DII•
tes cantidades consumidas a precios del período base y del actual. Su
nos dará el índice del coste de la vida, o menor, según la terminología
el Índice de Precios de Consumo (IPC).
En casi todos los países, el índice de precios utilizado en este caso es
Laspeyres, es decir

ya que su cálculo no requiere información sobre las cantidades actuales.


NÚMEROS INDICES • 401

Así pues, el índice de precios de consumo tiene por objeto medir la evolu-
en el tiempo de los precios de un conjunto determinado de bienes y serví-
que componen la llamada cesta de la compra.
Para calcular este índice será necesario tener en cuenta las siguientes etapas:
1 . Realización de una Encuesta Permanente de Consumo a través de una
que comprenda a un número significativo de familias del país.
2. Estimación, para el período base, de los bienes y servicios consumidos a
de la información muestral.
3. Selección, de entre todos los bienes y servicios, de aquéllos que por su
en el gasto toal deban incluirse en la cesta de la compra.
4. Especificación de cada uno de los artículos de la cesta, es decir, deter-
de las características de todos los artículos (calidades, variedades,
de medida, etc.).
5. Selección de municipios y, dentro de éstos, de los establecimientos en
se va a efectuar la recogida de datos .

7. Procesamiento de la información recogida, depurándola y realizando los


respectivos para obtener los índices establecidos.
El primer sistema de números índices de precios de bienes y servicios de
se elaboró por el INE con base en julio de 1939; posteriorm~nte, se
cambiando la base (1958, 1968, 1976 y 1983) y así hasta la situación actual
el índice de precios de consumo tiene base 1992. Según parece en el año
se procederá a un nuevo cambio de base.
Según esto, el índice español se ha formado uniendo las cestas de la compra
l!resp<mdtu·~nt1es a sus regiones y a zonas que tienen hábitos de consumo ho-

Dentro de cada conjunto espacial se calculan 8 índices independientes, para


otros tantos grupos de bienes y servicios de consumo en que se estructura la
de la compra:
-Alimentos, bebidas y tabaco.
-Vestido y calzado.
-Vivienda.
- Menaje.
-Medicina.
402 • SECCIÓN 5. NÚMEROS ÍNDICES

- Transportes.
-Comunicaciones.
- Ocio y cultura.
- Enseñanza.
- Hoteles, cafés y restaurantes.
-Otros bienes y servicios.
Aparte de ellos, se calculan índices más detallados para estudios
al igual que índices mensuales y medios anuales.

11.9.2. OTROS ÍNDICES ELABORADOS EN ESP

• Índices de producción industrial


Normalmente se construyen dos series de índices de producción ·
periodicidad mensual, recogiendo una las variaciones de la ofena
dentro de la mayoría de las ramas de la actividad industrial, y otra
do las variaciones en la producción de bienes de equipo.

• Índices de Precios Industriales.


Miden la evolución de los precios de los bienes de equipo y, por
tuye el deflactor idóneo para determinar el valor real de la Formación
CapitaL

• Índices de Comercio Exterior


En estos tipos de índices cobra especial relevancia el problema de la
puesto que al analizar la evolución de la balanza comercial nos podemos
trar con productos con un gran volumen de transacciones pero de
monetario que pueden encubrir la influencia de otros productos que, a
su menor frecuencia en el intercambio, sean de un importe monetario
Los índices tradicionalmente utilizados son los de Laspeyres y P
precios y cantidades. También se elaboran otros índices como el índice
ladones de cambio, o relación real de intercambio, que es

P (X)
R = ~P __
PP(M)

siendo X el volumen de exportaciones, M el de importaciones y Pp


de precios de Paasche.
NÚMEROS [NDICES • - - - -- - - _

Índice de cotización de valores en la Bolsa.


índices pretenden medir las fluctuaciones en las cotizaciones que se regís-
diariamente, y hacen referencia a la cotización de los valores en el momen-
de cierre de la sesión. Tanto el Índice General de la Bolsa de Madrid como
ffiEX-35 tienen una estructura de índice de Laspeyres.
Un conjunto de niírfieros índices (precios, producción, salarios, etc.), nos
dar una idea aproximada sobre la evolución de la economía de un país.
sistema de índices que se utilicen a tal fm suele denominarse sistema de in-
llatdores de coyuntura y permite un análisis a corto plazo, coyuntural, de los
IIStmt<>s aspectos de una economía.

El indicador del nivel


de inflación
acuerdo con cualquier manual básico de Economía, la inflación puede defi-
como una subida general y persistente de los precios del conjunto de bie-
y servidos que se intercambian en un determinado país.
Si la inflación está relacionada con la variación de los precios, ésta podrá
a través de un índice de precios. Los dos indicadores del nivel de in-
tradicionalmente empleados son los siguientes:
El índice de precios de consumo (IPC). Este índice tiene la ventaja de
se calcula mensualmente, disponiéndose habitualmente del dato del mes t
la segunda quincena del mes t + 1 , es decir, con un pequeño desfase de
quince días. Sin embargo, tiene el inconveniente que solamente incluye
bienes y servicios destinados al consumo final, ignorando todo el conjunto
bienes y servicios intermedios que se intercambian en los procesos producti-
de los sectores básicos de cualquier economía: agrario , industrial y de ser-

• El deflactor implícito del Pffi. Los sistemas homogeneizados para la


~mii1acíón de las Cuentas Nacionales que usan la mayoría de los países
el de la ONU, bien el Sistema Europeo de Cuentas --sEC- de la Unión
establecen el cálculo o estimación de los principales agregados eco-
tanto en términos nominales o en unidades monetarias corrientes como
lérminos reales o unidades monetarias constantes del período que se haya
404 • SECCIÓN 5. NÚMEROS ÍNDICES

tomado como base de comparación, de manera que en cualquier


sobre Cuentas Nacionales puede obtenerse, en otras, la siguiente inf'nr ,m..........

Valor nouúna/
Periodos
(en ptas corrientes)

o PIBo = L P;oq;o
i

2 PIB2 = L Pi1.qi2
ik

Es decir, que se efectúa una doble estimación directa de la Producción


rior Bruta (PIB), así como de otros agregados macroeconómicos, tanto
minos nominales o corrientes como en términos reales o a unidades mo1net•
constantes.
Como vimos anteriormente, en el epígrafe dedicado a la deflactación.
la siguiente relación:

---'~-- = yR
1
Deflactor
por lo que si obtenemos:
PIB1
--R- = Deflactor
PIB,

a este deflactor se le denomina «deflactor implícito del PIB>> ya que no se


ne directamente, sino de manera implícita al estimar tanto el PIB nominal
el PIB real.
Como en la definición del PIB deben contemplarse todos los bienes y
cios, tanto los dedicados al consumo final como los utilizados como inpü-
termedios, la variación de los precios que recoge el deflactor implícito de
es más general, no solamente contempla los bienes y servicios dedica
consumo como el IPC, por lo que, en principio, sería un indicador más
del nivel de inflación de un país.
NÚMEROS [NDICES • 405

Sin embargo, como las estimaciones sobre el Pffi se suelen desfasar en el


oempo bastante\ y como la inflación es considerada como una grave enferme-
dad de las economías que requiere una terapia urgente, se suele utilizar como
·cador del nivel de inflación el IPC, aunque reiteramos que su alcance e
,~LJLl~'·U<lu son menores que en el deflactor implícito del Pffi.

En estudios más minuciosos, se suele introducir el concepto de inflación


-•n.'"''"'"n~.. , en donde habida cuenta de alta estacionalidad* que normalmente
..-esen.tan los precios de los productos agrarios no elaborados, y de la importan-
dependencia que tiene la economía española de las fuentes energéticas prima-
no nacionales, se excluyen los items de la cesta de la compra que hacen
~"'T"'"";· a los bienes y servicios de estos dos grandes apartados, obteniéndose
nuevo IPC cuyas variaciones nos medirán la evolución de los precios de
JIIIUC>u.J.uv relacionados con los sectores no estacionales e interiores, que marcan

nivel de inflación intrínseca de nuestro país.


Por otra parte, con objeto de disponer de una medida común de la inflación
permita realizar comparaciones, en el seno de la Unión Monetaria Europea
determina en cada uno de sus países miembros el Índice de Precios de Con-
Armonizado (IPCA), que se obtiene a partir de cada IPC nacional, efec-
las necesarias adaptaciones y ajustes, para que las cestas de la compra
liRJan~s de estos países europeos sean lo más similares posibles.

El IPCA de ~ada país cubre aquellos bienes y servicios que superan el uno
mil del total de gasto de la cesta de la compra nacional. En cada Estado
-...nhr·n ha sido necesario realizar particulares ajustes para conseguir la coro-

deseada mediante determinadas inclusiones o exclusiones de las


de consumo. En España, se excluyen los Servicios médicos y la Ense-
reglada, y se modifican las ponderaciones de determinados subgrupos de
cesta de la compra, tales como en los Seguros donde sólo se consideran los
ligados a las primas netas, en Automóviles donde se eliminan las ventas
consumidores, o en Medicamentos y productos farmacéuticos que sólo
los subvencionados. Como resultado de estas exclusiones, motivadas
et ajuste mencionado, la ponderación total eliminada de la estructura del
español se sitúa al 5%.
Por otro lado, se suministra el IPCA para los doce grupos de bienes y ser-
que antes se reseñaron.

a seis meses para un primer Avance, más de un año para las cifras provisionales, y aún más para las

el capítulo siguiente para comprender mejor este concepto.


406 • SECCIÓN 5. NÚMEROS ÍNDICES

También, la oficina estadística de la Unión Europea, Eurostat, 11 .,,.,..,..,.


partir de los IPCA de los países miembros, un Índice de Precios de
de la Unión Europea.
NÚMEROS ÍNDICES • 4 07

Alimentos, bebidas y tabaco 100 405,20 135


Vestido y calzado 100 81,65 131
Vivienda 100 140,05 132
Menaje y servicios del hogar 100 77,50 121
Servicios médicos y conservación de la salud 100 33,75 122
Transportes y comunicaciones 100 97,45 125
Esparcimiento, cultura y enseñanza 100 69,45 128
Olros gastos de consumo 100 94,95 124
..................................................... 100 1000,00 130,22

.-~ru¡e las repercusiones y participaciones de cada uno de los grupos del «índice
precios de consumo» en la variación sufrida en el índice global a 31-Xll-77.
es el grupo más afectado por la subida de precios?
· Los grupos referidos son los correspondientes al antiguo IPC.

El índice de precios de consumo es un índice del tipo Laspeyres de la

w; son las ponderaciones e 1¡ los índices de cada grupo.

Tendremos que las repercusiones de cada grupo serán

~ = M 1w1 = (135 -lOO) 405,20 = 14 182 %


LW; 1000 '

R = M 2w2 = (131 -lOO) 81,65 = 2 53115 %


2
¿w; 1000 '
408 • SECCIÓN 5. NÚMEROS ÍNDICES

~ = M 3 w3 = (132- 100)140,05 = 4 4816 %


¿w; 1000 '

R = M 4 w4 = (121 -100)77,5 = l 6275 %


4
¿w; 1000 '

R = M 5w 5 = (122- 100)33,75 = O 7425 %


5 ¿w; 1000 '

R = M 6 w6 = (125- 100)97,45 = 2 43625 %


6
¿w; 1000 '

R = M 7 w1 = (128 - 100)69,45 = 1 9446 %


7
¿w; 1000 '

R = M 8 w8 = (124- 100)94,95 = 2 2788 %


8
¿w; 1000 . '
i

La suma de las repercusiones de todos los grupos será igual a la


índice general
L R; = 30,2244
M.,
p
= 130,22 - 100 = 30,22
Como vemos

L.... 1 = ~Lp .
"R.
i

(b) La participación de cada grupo en la variación del índice de precios de


es
R.
P=-'
'M.,
p

entonces

p = !i__ = 14,182 = 46 93%


1 M.,p 30, 22 ,

p = ..!!:L = 2,53115 = 8 37%


2 M., p 30 , 22 ,
NÚMEROS ÍNDICES • 409

p
3
=~ = 4,4816 = 14 83%
M.,p 30, 22 ,

p
4
= ~ = 1,6275 = 5 39%
M.,p 30 , 22 ,

p = !!J._ = O, 7425 =2 45 %
5 M., 30, 22 ,
p

p =~ = 2,43625 = 8 06%
6 M.,p 30 , 22 ,

p
7
=!!:J._= 1,9446 = 6 43%
M.,p 30 , 22 ,

p =~ = 2,2788 = 7 54%
8 M., p 30, 22 ,

Se tiene que verificar que

:¿ P; = wo% .
i

B grupo que más ha afectado a la subida del índice es el primer grupo (alimentos,
bebidas y tabaco), el cual, en la subida del índice en un 30,22, ha repercutido con
un 14,182, que supone un 46,92% de la variación del total.

fábrica produce tres tipos de envases. Por el estudio de la estructura de sus


se sabe que el coste unitario de las materias primas de cada tipo de envase es
15 y 20 euros respectivamente en el año 2002.

2003 2004
Númert¡de Precio Número de
unidades Venta uniiládes
428 27 614 30 805
530 24 722 25 910
102 37 224 39 235
410 • SECCIÓN 5. NÚMEROS ÍNDICES

SOLUCIÓN. El índice de producción o cuántico de Laspeyres toma la forma

Debe tenerse en cuenta que las ponderaciones que se realizan en los índices
cos deben ser la base a valores añadidos, es decir, se debe ponderar con el valor
haya incorporado en ese proceso de producción.
Así, en 2002, el envase tipo «A» se ha realizado con materias primas cuyo
sido 10 euros. El precio de venta es 25 euros, luego la diferencia es de 15 €.
el valor añadido por unidad.
Razonando análogamente para los otros tipos:
Valor añadido envase tipo «B>> ~ 5 €/unidad = (20 - 15)
Valor añadido envase tipo <<C>> ~ 10 €/unidad = (30- 20)
Por lo tanto

L03 = 614 · 15 + 722 · 5 + 224 · 10 = 15 060 = 1 4926 = 149 26 %


q02 428 . 15 + 530 . 5 + 102 . 10 10 090 , ,

L04 = 805 ·15 + 910 · 5 + 235 ·10 = 18975 = 18806 = 188 06 %.


q02 10 090 10 090 ' ,

EJERCICIO 3
Las relaciones comerciales entre dos países vienen reflejadas en la
información:
País A exporta a país B

1998
Productos
Precio Cantidad

X 10 1 200
y 12 1 500
NÚMEROS [NDICES • 411

A importa del país B

z 5 600 8 710
u 7 420 12 560
V 10 530 15 940

el índice de relación de cambio para el país A, comentando el

El índice de relación de cambio en el comercio exterior viene dado


el cociente entre los índices de valores medios, que en definitiva son a su vez índi-
de Paasche de precios.
Por tanto:
p (X)
R = _P_ _
PP(M)

X las exportaciones y M las importaciones.


Calculamos primero los índices de precios de Paasche para exportaciones e impor-
lkJOnc!s del año 2000, con base 1998 = 100.

1400 . 15 + 1 600 . 20 = 1 596 = 159 6%


1 400 . 10 + 1 600 . 12 ' '

LP;,q¡, 710.8 + 560. 12 + 940 ·15 = 1,571 = 157,1%.


LP;oq;, 710 . 5 + 560 . 7 + 940 . 10

Por tanto

Roo = PP (X) = 159,6 = 1 016


98
PP (M) 157,1 '

el precio de los productos exportados es mayor que el de los impor-


' lo que sitúa en posición ventajosa al país A frente al B. '
412 • SECCIÓN 5. NÚMEROS ÍNDICES

EJERCICIO 4
Las cantidades pagadas por una empresa de seguros en concepto
nizaciones por incendios en el período 89-93, así como los correspondientes
de precios al consumo para dicho período vienen dadas en el siguiente cuadril:

Año r·fP.c ~985 = lOO) . .. lndemnizacioMspagadas


... ·.. ..
(10 3
··~~
) .• ,~

89 204,3 5 430
90 275,7 9 680
91 384,3 13 940
92 424,5 15 100
93 479,8 17 590

A fecha 1-1-1994 dicha empresa desea saber cuál es la valoración en


monetarias (u.m.) de 1993 de la suma total de pagos efectuada en los 5
anteriores.

SOLUCIÓN. Primero hay que cambiar de base los IPC y ponerlos


1993 = 100 , y en segundo lugar deflactar la serie de cantidades pagadas,
por los respectivos IPC obtenidos en el apartado anterior. La nueva serie de .......__
93
/ 93 = 100
92
/ 93
= 1:
¡ 93
= 424,5 = 88 5
479 8 •
86 '

¡ 91 = ~:~ = 384,3 = 80 1
93 ¡93 479 8 •
86 •

¡ 90 = /: = 275,7 =57 46
93 ¡93 479 8 •
86 •

¡ 89
93
= 1:: = 204,3
¡93 479 8
= 42 58
• .
86 ,

Con lo que el valor de las indemnizaciones del período a u.m. de 1993 será:

A fíO
l IPC (1993 = 100) 3
lndem¡¡izaciones en 10 u. m. de 1993 1
89 42,58 5 430/0,4258 = 12 752,47
90 57,46 9 680/0,5746 = 16 846,50
91 80,10 13 940/0,801 = 17 403,25
92 88,50 15 100/0,885 = 17 062,15
93 100,00 17 590/1 = 17 590,00
81 654,37
Ejercicios
DE LA SECCIÓN 5
EJERCICIOS DE LA SECCIÓN 5 • 415

5.1
EP el índice de precios de Edgeworth, demuéstrese que, si LP < PP,

LP<E<P
p p

LP y PP representan los índices de precios de Laspeyres y Paasche,

Sabemos que estos índices son

L P;r (q;o + q¡¡)


E = -;::::;;- - - - -
P L P;o (q;o + qit)

L P;oq;o = B
1

LP¡,q;, =e
i

D
E =A+C.
P B+D
416 • SECCIÓN 5. NÚM EROS ÍNDICES

Como suponemos que


A e
-<-
B D
tendremos
AD < Be.
Sumando AB a ambos miembros de esta desigualdad
AD + AB < Be + AB
A (B + D) < B (A + C)

de donde
A A+ e
- < --
B B +D
y, análogamente, sumando ahora eD,
AD + eD < Be + eD
e (B + D)
D (A + e) <
A+ e e
-- < -
B+D D
y, por tanto,
A A+
- <- - <-
e e
B B+D D
es decir,
LP < EP < PP.

Si partiéramos de la condición de que PP < LP, entonces llegaríamos a

PP < EP < LP

por lo que podemos afirmar que el índice de precios de Edgeworth siempre toma
res comprendidos entre los de los índices de Laspeyres y Paasche.

Ejercicio 5. 2
El índice de precios de Bowley es

LP;, (q;o + J.Lq;,)


i
Bp
EJERCICIOS DE LA SECCIÓN 5 • 417

Estúdiese este índice cuando:


(a) ll = O.
(b) ll = 1.
(e) J.1 ~ oo.

SOLUCIÓN.
El índice de precios de Bowley cuando ll = O se transforma en

es decir, es el índice de Laspeyres.


Cuando ll = 1

es el índice de precios de Edgeworth.


Si J.1 ~ oo , tenemos que

L P;t (q;o + llqit)


i

1 + ll

, ~pit(~qiO +~qit)
= J~ ~>.. e:~ q, + 1 ~ ~ q, J
L,pitqit
i = p
LP;oq;t P

es decir, tiende al índice de precios de Paasche.


418 • SECCIÓN 5. NÚMEROS fNDICES

Ejercicio 5. 3
Una magnitud económica aumenta, entre el año Oy ell, en un 30%.
2 un 20%, y ha disminuido entre el 2 y el 3 en un 40% .
Obténgase la serie de números índices para esta magnitud con base O=

SOLUCIÓN. En el año O, considerado como base, el índice tomará e


entre el año O y el 1 esa magnitud económica se incrementó en un 30 ~
índice al fmal de ese período sería
11 = 100 + 100t1 = 100(1 + t1 ) = 100(1 + 0,30) = 130,0.
Análogamente, al final del año 2

/2 = ]¡ + 11 . t2 = ] ¡ (1 + t2) = 130(1 + 0,20) = 156,0


y, al término del tercer año,

13 = / 2 + /2 . t3 = 12 (1 + t3) = 156(1 - 0,40) = 93,6

ya que en este período la tasa de variación es negativa.


Por tanto, la serie de índices que nos mostraría la evolución de esa l.l.L<1l;;.-'-'

o 100,0
1 130,0
2 156,0
3 93,6

( Ejercicio 5.4
Conocidos los precios y cantidades de tres artículos de consumo corres~o.•
los años 2000 a 2004:

2
3 5
4 7 6 12
4 8 5 13
EJERCICIOS DE LA SECCIÓN 5 • 419

~rmíineJilSelos números índices de precios de Laspeyres, Paasche, Edgeworth y


con base 2000 = 100.

Calcularemos cada uno de estos índices de precios, con base


= 100 , para los años 2001, 2002, 2003 y 2004.

Laspeyres. Sabemos que este índice es igual a

LPitqiO
L ===;_ _
P L P;oq;o

Por tanto,
LOI = 2 . 10 + 6. 12 + 11. 3 = 125 = 113,6%
p 2·10+5·12+10·3 110
L02 = 3 · 10 + 6 · 12 + 12 · 3 = 138 = 125 4 %
p 110 110 ,
L03 = 4 · 10 + 7 · 12 + 12 · 3 = 160 = 145 4 %
p 110 110 ,
L04 = 4 · 10 + 8 · 12 + 13 · 3 = 175 = 159 1%.
p 110 110 ,
Paasche. Este índice es de la forma

LP;¡qit
p - ==
; _ _
P - L P;oqit

pOI = 2 · 12 + 6 · 10 + 11 · 2 = 10q = , %
112 8
p 2 . 12 + 5 . 10 + 10 . 2 94
p02 = 3 . 15 + 6 . 5 + 12 . 3 = .!...!._! = 130,6%
p 2 . 15 + 5 . 5 + 10 . 3 85
p03 = 4 . 20 + 7 . 6 + 12 . 1 = 134 = 167,5 %
p 2 . 20 + 5 . 6 + 10 . 1 80
p04 = 4. 18 + 8. 5 + 13. 2 = 138 = 170,4% .
p 2 . 18 + 5 . 5 + 10 . 2 81
Edgeworth. Este índice agregativo adopta la expresión

E =±;_ _ __ _
L Pu (q;o + q¡¡)
P L P;o (q;o + qit)
i
420 • SECCIÓN 5. NÚMEROS fNDIC ES

y, en este ejemplo, toma los valores


2(10 + 12) + 6(12 + 10) + 11(3 + 2) 231
2(10 + 12) + 5(12 + 10) + 10(3 + 2) 204
Ern. _ 3 (10 + 15) + 6 (12 + 5) + 12 (3 + 3) _ 249 _ , ~
p - 2 (10 + 15) + 5 (12 + 5) + 10 (3 + 3) - 195 - ·-

E 03 = 4 (10 + 20) + 7 (12 + 6) + 12 (3 + 1) = 294 =


154
p 2(10+20)+5(12+6)+10(3+1) 190
E 04 = 4(10 + 18) + 8(12 + 5) + 13(3 + 2) = 313 =
163
p 2(10 + 18) + 5(12 + 5) + 10(3 + 2) 191

4. Fisher. El índice de precios de Fisber, como sabemos, es la medll:


los índices de Laspeyres y Paasche, es decir,

con lo que

Fp01 = .J113,6 · 112,8 = 113,2%

pprrl = .J125,4. 130,6 = 128,0%


Fp03 = .J145,4. 167,5 = 156,0%
Fp04 = .J159,1. 170, 4 = 164, 6%.

Ejercicio 5. 5
Una fábrica de automóviles produce cuatro modelos, cuyos precios de
de materiales empleados y números de unidades producidas en los
años fueron los siguientes

2001 2002
Modelos
Precio ,\ '" de Precio N ° de
Coste Coste
vema unidades ¡·en/a 1 unidades

206 0,9 0,4 3 200 1' 1 0,5 4 100 1,2


307 1,3 0,6 4 200 1,3 0,7 3 000 1,5
406 1,9 1,0 2 300 2,0 1,1 2 400 2 ,1
607 3,8 2,2 1700 4,1 2,5 1 500 4,3
4
* El precio de venta y el coste de materiales se expresan en 10 euros.
EJERCICIOS DE LA SECCIÓN 5 • 421

El índice de producción de Laspeyres para 2002 y 2003, con base 2001 = 100.
l.A:Is índices cuánticos de Paasche, con la misma base.
Los índices de precios de Laspeyres, con la misma base.

En los mdices de producción, cuánticos o de cantidades los valores que actúan como
..,.ooerac1ones deben ser valores añadidos, con objeto de evitar las dobles contabili-
IICIOnc~s y/o sobreestimaciones de las distintas fases del proceso productivo.

ejemplo, en 2001, si el precio de venta del modelo 206 era de 9 000 euros y
coste de los materiales empleados en producirlo era de 4 000, entonces el valor
en la fabricación de este modelo es tan sólo de 9 000 - 4 000 = 5 000
, ya que los 4 000 euros del coste de los materiales utilizados será valor in-
en procesos productivos anteriores, el imputable a los suministradores
los materiales.
• TDlJLDalldo los valores añadidos de cada modelo en cada uno de estos tres años
_ ......u"v" la tabla siguiente:

0 ,7 4 300
0,9 2000
1,6 1 200

el índice de producción de Laspeyres adopta la expresión

Lq;rPiO
L = -;!::
; --
q L q;oP10
i

, tomando como base 1995 = 100 , tendremos

100·05 + 3000·0,7+2400 · 0,9 + 1500·1,6 = 8710 =93,4 %


200 · O, 5 + 4 200 · O, 7 + 2 300 · O, 9 + 1 700 · 1, 6 9 330
600 . O, 5 + 4 300 · O, 7 + 2 000 · O, 9 + 1 200 · 1, 6 = 9 530 = %
102 1
9 330 9 330 ,
422 • SECCIÓN 5 . NÚMEROS ÍNDICES

es decir, si bien la producción de la fábrica descendió en 2002, volvió a


en 2003.
(b) Los índices de cantidades de Paasche son

y entonces

p qOI = 100,0%
pW. = 4100. 0,6 + 3 000. 0,6 + 2 400. 0,9 + 1500. 1,6 = 8 820 = 95.
q 3 200 · O, 6 + 4 200 · O, 6 + 2 300 · O, 9 + 1 700 · 1, 6 9 230
p03 = 5 600. 0,6 + 4 300 . 0,8 + 2 000. 0,8 + 1200. 1,5 = 10 200 =
q 3 200 · O, 6 + 4 200 · O, 8 + 2 300 · O,8 + 1 700 · 1, 5 9 670
(e) Los índices de precios de Laspeyres son

LP;rqiO
L = -;::'=· ,.- -
P L P;oq;o
Si queremos estudiar la evolución de los precios de venta de estos aut()IIJIÍÍIIIII
volviendo a la primera tabla tendremos

L01
p
= 100 0%
'

Lw. = 1,1 · 3 200 + 1,3 · 4 200 + 2,0 · 2 300 + 4,1 · 1700 = 20 550 = ..,.
10
p 0,9. 3 200 + 1,3. 4 200 + 1,9. 2 300 + 3,8. 1700 19170
L03 = 1,2 · 3 200 + 1,5 · 4 200 + 2,1 · 2 300 + 4,3 · 1700 = 22 280 =
1
p 19170 19170

.....lJEjercicio 5. 6
El valor de un bien en 1998 es un 20% superior al de 1994 y un 7% superior
valor en 1996. ¿Cuál era el valor relativo de este bien en 1996 respecto a 1994!

SOLUCIÓN. Para ese bien tenemos que


V98 = V94 + 0.20 V94 = V94 (1,20)
V98 = V96 + o,o7 V96 = V96 (1,07)
EJERCICIOS DE LA SECCIÓN 5 • 423

por tanto, los índices de valor serán


V. V.94 . 1 20
/
98
94
= __.2ª-.
V.
= V.
' :::: 1 20
'
= 120' O%
94 94

V. V.96 . 1 07
/
98
96
= __.2ª-.
V.
= V.
' = 1' 07 = 107' O%
96 96

Como·estos índices simples cumplen la propiedad de circularidad, tendremos que


¡98 = ¡96 . ¡98
94 94 96

¡96 =
94
I:!
¡98
= 120 = 112 15%
107 '
96

ese bien valía un 12,15% más en 1996 que en 1994.

5.7
almacenes, las cifras de ventas anuales para el período 1999-2003,
_...,.,.,¡.,.., en tanto por ciento, en relación a las del año anterior, fueron:
. .
.. . . :. . .:;::· ·?f -~-~- -'_"
·- . -

' - - -·.. .¡~: ·. .. . ~. -.:_' -


1999 118
2000 104
2001 98
2002 96
2003 106

Las cifras de ventas para el período 1998-2003.


El índice de ventas con base 1998 = 100.
La tasa media anual acumulativa de crecimiento de las ventas para ese
período.
424 • SECCIÓN 5. NÚMEROS ÍNDICES

SOLUCIÓN
(a) En este ejemplo nos proporcionan una serie de índices en los cuales, en cada
cicio anual, el período de referencia es el año inmediatamente anterior. Esu:s
ces nos indican que en el año 1999 las ventas crecieron un 18% respectO
conseguidas en 1998, en el año 2000 las ventas volvieron a crecer respecto
en un 4%, en el año 2001, por el contrario, se produjo una disminución del
men de ventas respecto a 2000, ya que su índice está por debajo de 100, ~
cesivamente.
Por tanto, como las ventas en 1998 fueron de 1 000 millones de pesetas,
V99 = V98 (1 + t98 ) = V98 (1 + 0,18) = V98 . 1,18 =
1
= v98 . ....2ª- = 1180,00 millones de u.m.
100
V00 = V99 (1 + t 99 ) = V99 (1 + 0,04) = V99 . 1, 04 =
1
= v99 . ~ = 1227,20 millones de u.m.
100
Análogamente

1 98
V01 = V00 · ~ = 1227,20 · - = 1202,66 millones de u.m.
100 100
1 96
V
02
= V01 · _Q!_
100
= 1 202 66 ·-
100
= 1154,55 millones de u.m.
1 106
V03 = V02 · ~ = 1154, 55 · - = 1223,82 millones de u.m.
100 100
(b) Tomando como referencia la cifra de ventas de 1998, los índices serían

199 = 1180,00 = 118 = 118%


98 1 000 ,

l oo = 1227,20::::1 23 = 123%
98 1 000 ,

= 1 202,66::::
IOI
1 20 = 120 %
98 1 000 ,

102 = 1154,55 :::: 1 15 = 115%


98 1 000 ,

~~: = 1223,82:::: 1,22 = 122%.


1000
EJERCICIOS DE LA SECCIÓN 5 • 425

con lo que la serie de índices de ventas sería

1998 100
1999 118 118
2000 104 123
2_001 98 120
2002 96 115
2003 106 122

tasa media anual acumulativa de crecimiento de las ventas para el período


~,.o- ....v'-'J
sería

v = s 1223•
1000
82
- 1 = 1 04- 1 = o 04
' '
= 4%

_..lb1~:n podría determinarse teniendo en cuenta los índices que recogen la evolu-
respecto a 1999

V. = 1122
5
- 1 = 1,04 - 1 = 0,04 = 4%.
100

5.8
medicamentos, en euros corrientes desde 1995 a 2004, ha sido

Gastos
Años
(en 106 €)

1995 10
1996 12
1997 15
1998 16
1999 18
2000 21
2001 20
2002 25
2003 27
2004 30
426 • SECCIÓN 5. NÚMEROS fNDICES

Sabiendo que los índices de precios han sido

1995 100
1996 110
1997 112
1998 120
1999 125
2000 130 100
2001 105
2002 120
2003 124
2004 128

determínese cuál ha sido el porcentaje, en términos reales, del mc:rerne~~


gasto en el período 1995-2004.

SOLUCIÓN. Consideremos que vamos a tomar como base de "'-'l.uva~a.......


gasto en términos reales el año 1995, es decir, vamos a expresar el gasto a euros
tantes de 1995. Como las series de índices se refieren a dos bases diferentes,
mente debemos hacer un cambio de base para obtener una única serie de lllu~~.. ,
base 1995 = 100.
Tenemos que el índice, con base 2000 = 100, para 2001 es

/~ = 105 .

El índice de 2001 , con base 1995 = 100 , será


¡ OI ¡00
¡ OI = ...=
00~·----!9:!..
5 105 . 130 = 136 5 .
95 100 •
100
Análogamente

¡m = 1: · 1:¿ = 120 · 130 =


156
95
100 100
Por tanto, la serie de índices con base 1995 = 100 será
EJERCICIOS DE LA SECCIÓN 5 • 427

1995 100
1996 110
1997 112
1998 120
1999 125
2000 130
2001 136,5
2002 156
2003 161,2
2004 166,4

Ahora podemos deflactar la serie de gastos , para expresarla en euros constantes de


5.
Para deflactar eliminaremos por cociente la influencia de la subida de los precios;
ejemplo, el gasto en euros constantes de 1995 de los medicamentos en el año

G = _E_ = E_ = 10 91 .
110% 1,10 ,
Para el año 1997 es
G = _____!2_ = ~ = 13,39 .
112% 1,12
Procediendo análogamente tendremos
.
Gastos
Años
.' ~.
(en 106 euros constantes de 1995)
1995 10,00
1996 10,91
1997 13,39
1998 13,33
1999 14,40
2000 16,15
2001 14,65
2002 16,02
2003 16,75
2004 18,03

El porcentaje, en términos reales, de incremento relativo del gasto para el período


1117_,_ ~·.1\J""t es
GR = "18•03 - 10 = 0,803 = 80,3% .
10
~ótese que, en términos monetarios, nos daría

(; = 30 - 1o = 2 o = 200% .
M 10 '
428 • SECCIÓN 5. NÚMEROS ÍNDICES

Ejercicio 5.9
En cierto país el salario medio por hora, en unidades monetarias
trabajadores de un determinado sector productivo y los índices
consumo a lo largo de los seis últimos años fueron:

Años

1989 52 140
1990 58 162
1991 60 175
1992 63 190
1993 64 200
1994 84 205

(a) Estúdiese la modificación del valor real del salario/hora.


(b) ¿Cuál fue la variación, en ese período, del salario en unidades
corrientes? ¿Cuál fue en términos reales?
(e) Calcúlese la tasa media anual acumulativa de los salarios en términos

SOLUCIÓN
(a) Suponemos que la serie de índices de precios que nos proporcionan es
para deflactar los salarios, pero observamos que dicha serie tiene corno
base uno no especificado, por lo que considerarnos conveniente realiza:
mente, un cambio de base para situar este período de referencia en alguno
años que estamos estudiando. Podemos tomar como período base, por
primero, 1989.
Los nuevos índices de precios con base 1989 = 100

en donde el subíndice O representa el período base no señalado en este


tanto,

p89 140 p92 190


89
=- = 1 = 100 O% 89
=- = 1,357 = 135,7%
140 ' 140
162 200
~~ = 1157 = 115 7% p93
= - 89
= - = 1 429 = 142 9%
140 ' ' 140 ' '
175 205
p91
89
=- = 1,250 = 125,0% pB~ = - = 1 464 = 146 4 %
140 140 ' '
Ahora ya podemos estudiar la evolución del salario real por hora, a
1989, sin más que deflactar la serie de salarios monetarios que nos dan;
EJERCICIOS DE LA SECCIÓN 5 • 429

minar la influencia de los precios y hacer más comparables los salarios de cada
año utilizamos, pues, como deflactores estos índices de precios de la siguiente
forma:
Salarios reales en pesetas de 1989:
52 63
1989 =52 o 1992 = 46 4
100,0 % ' 135,7% '
58 64 = 44 8
1990 =50 1 1993
115,7 % ' 142,9% '
60 84
1991 =480 1994 =57 4
125,0% ' 146,4% '
Todos estos resultados los resumimos en la siguiente tabla:

~-
Salario/hora Tasa de variación
Salario/hora Índices de
Índices de en u.m. del salario/hora
Años en u.m. precios base
precios constantes real respecto al
corrientes 1989 = 100
de 19S9 año anterior
1989 52 140 100,0 52,0 -
1990 58 162 115,7 50,1 -3,6%
1991 60 175 125 ,0 48,0 -4,2%
1992 63 190 135 ,7 46,4 -3,3%
1993 64 200 142,9 44,8 -3 ,4%
1994 84 205 146,4 57,4 +28,1 %

Como observamos, a diferencia de los salarios nominales, que crecen en todos y


cada uno de los años analizados, los salarios reales sufren un paulatino descenso,
respecto a su nivel de 1989, en los cuatro períodos siguientes, recuperándose sólo
en el último año gracias al incremento experimentado en este año.
La tasa de variación para todo el período de los salarios nominales es

sM
=
84
-
52
52
=
84
52
- 1 = o 615 = 61 5 %
' '

mientras que la de los salarios reales fue


. 57 4
SR = - ' - -1 = 0,104 = 10,4%.
52
No obstante, esta tasa global para todo el quinquenio de los salarios reales en-
cubre el hecho de que durante los cuatro primeros años el crecimiento de los sala-
rios reales, como puede observarse en la tabla anterior, ha sido negativo, y que
sólo el notable incremento del poder adquisitivo del salario real conseguido en el
último año logra compensar este comportamiento decreciente.
430 • SECCIÓN 5. NÚMEROS ÍNDICES

Por otra parte, vemos que, en términos reales, es decir, de capacidad 0e


pra, el salario crece menos que lo que indica la tasa de variación de los
nominales, situada en el 61 ,5%, siendo sólo, para el conjunto del períodlll.,.l
10,4%.
(e) La tasa media anual acumulativa de los salarios, en términos reales, será

SR = ~ 5752• 4 -1 = ~1,104 -1 = 1,020- 1 = 0,02 = 2%


que también puede calcularse como

SR = ~(1 - 0,036) (1 - 0,042) (1 - 0,033) (1- 0,034) (1 + 0,281) - 1 =


=1,020-1=2%

es decir, como media geométrica de los factores 1 + SR de cada año.

Ejercicio 5. 1O
El propietario de un apartamento tiene pactado en 2001 un alquiler ~
inquilino de 200 000 ptas. mensuales. Si en 2004 quiere revisarle el alquiler ea
a los incrementos del grupo vivienda del índice de precios de consumo ea
años, cuyos índices han sido

:- "Aws fndiée grupa viVienda"l<. > "'-


2001 118,3
2002 130,5
2003 147,3
2004 167,8

¿cuál será el nuevo alquiler mensual? (expresado en euros).


(Nota: 1 € = 166,386 ptas.]

SOLUCIÓN. Los incrementos relativos interanuales son

- = 130, 5 - 118,3 = 10 3%
01
118, 3 '
a = 147,3- 130,5 = 12 8 %
2 130,5 ,

a = 167,8 -147,3 = 13 9 %_
3 147,3 ,

Tenemos que 200 000 ptas. _son 1 202,02 €.


EJERCICIOS DE LA SECCIÓN 5 • 431

del alquiler en cada año será


A:z002 = 1202,02(1 + t:i1 ) = 1202,02(1 + 0,103) = 1325,83 €
A:z003 = 1 325,83 (1 + t:i2 ) = 1 325,83 (1 + O, 128) = 1 495,54 €
A:z004 = 1 495,54 (1 + t:i3 ) = 1 495,54 (1 + O, 139) = 1 703,42 €

5.11
medio de los automóviles de menos de 1 200 centímetros cúbicos, así
los índices de precios, fueron, para los últimos años, los siguientes:

1997 7,6 110


1998 8,0 117
1999 8,5 125
2000 9,1 132
2001 9,8 140
2002 11,4 148
2003 12,3 155

Realícese un estudio comparativo de los precios de estos automóviles, en


términos reales.
~Cuál es el incremento medio anual, en ténninos reales?
Si estos automóviles sufren en 2004 un incremento de sus precios, en términos
reales, del 6%, y el índice de precios se incrementa en un 5%, ¿cuál sería el
valor de un coche en u.m. corrientes de este año?

El valor de venta de estos automóviles en u.m. constantes de 1997, se obtendrá


deflactando la serie de precios corrientes de cada año.
Para ello, en primer lugar, es conveniente situar el origen de estos índices en el
año base de comparación, es decir, en 1997.
97 110 117
/
97
= 110 . 100 = 100 01
/ 97 = · 100 = 106 36
110 '
¡98 = 125 . 100 = 113 64 02 132
97 110 ' /
97
= . 100 = 120 00
110 '
/
99
97
= 140 . 100 = 127 27 /
03 148
= 110 . 100 = 134' 55
110 ' 97

00 155
/ = · 100 = 140 91
97 110 '
4 32 • SECCIÓN 5. NÚM ERO S ÍNDIC ES

La evolución del precio de estos vehículos, en u.m. constantes de 1997.


la tabla siguiente:

Precios corrientes fndices de fndices base Precios


Atios 5
(en 105 u.m.) precios 1997 = 100 (en 10

1997 7,6 110 100,00


1998 8,0 117 106,36
1999 8,5 125 113,64
2000 9,1 132 120,00
2001 9,8 140 127,27
2002 11,4 148 134,55
2003 12,3 155 140,91

(b) La tasa media de variación del precio, en términos constantes, es

PR == 6
8 73
• -1 == ~1,1487 -1 == 1,0234-1 == 0,0234 == 2,34%.
7,60
(e) Como el precio en 2004 crece un 6% en términos reales, entonces el
u.m. constantes de 1997 será
p04/ 91 = 8,73 + 0,06. 8,73 == 8,73(1,06) == 9,25.

El índice de precios en 2004 se situará, con el incremento del 5%, en


¡~ == 140,91 + 0,05. 140,91 == 140,91(1,05) == 147,96.

Por tanto, el valor medio de estos coches, en u.m. corrientes de 2004, se


así
P04 = P04191 • 1g; = 9,25 · 147,96% == 13,69 ·105 u.m.

Ejercicio 5. 1 2
Los IPC en España y en el conjunto de la Unión Europea (UE)
período 1980-1985:

Años
' .- ·•.
IPC ~-1980 ..2 100)
¡' .·' - ..
r··
'Es¡laiia UE.
.·· "

1980 100,0 100,0


1981 114,6 111,7
1982 131 '1 123,0
1983 147,0 132,7
1984 163 ,5 141,2
1985 178,0 149,1
1986 192,8 154,3
Fuente: Eurostat, Estadísticas Básicas de la Comunidad.
EJ ERCICIOS DE LA SECCIÓN 5 • 43 3

Si se mide la inflación a través de estos IPC, estúdiese la evolución de la


illflación diferencial entre España y la UE.
Sllpnesto que los precios en la UE crecieran anualmente a partir de 1986 a un
nmo igual a su tasa anual media del período 1984-1986, ¿cuál debería ser el
-.vel de desaceleración de los precios en España para que en 1990 la inflación
tiiferencial con la UE se hubiera hecho nula?

tasas anuales de crecimiento de los precios son:

España UE. 1njlaclón diferencial

1981 14,6 11,7 2,9


1982 14,4 10,1 4,3
1983 12,1 7,9 4,2
1984 11,2 6,4 4,8
1985 8,9 5,6 3,3
1986 8,3 3,5 4,8

:anio, si bien es cierto que se ha producido una desaceleración en el ritmo de


-=:-::mtent:o de los precios en España a lo largo del período 1980-1986, ese ritmo
::Jás intenso en la UE, lo que se tradujo en que la diferencial de inflación de
con respecto al conjunto de los países comunitarios en estos años se man-
a unos niveles similares o

tasa media de crecimiento de los precios en la UE para el período 1984-1986

p :E = ~(1 + 0,056) (1 + 0,035) - 1 = 1,0455 - 1 = 0,0455 :::: 4,6% o

que en 1990 la inflación diferencial se anulara, los precios en España ten-


que crecer también tan sólo el 4,6%; como en 1986 aumentaron el 8,3%, el
de desaceleración medio tendría que ser tal que

4,6% = 8,3%(1 + d) 4

d =
o 4*6
4 -'-
8,3
-1 = 0,8628-1 = -0,1372:::: -13,7% o
434 • SECCIÓN 5. NÚMEROS ÍNDICES

Las tasas anuales de incremento de los precios serían


p81 = 8,3(1- 0,137) = 7,2%

p88 = 7,2(1- 0,137) = 6,2%


p89 = 6,2(1- 0,137) = 5,3%

p90 = 5,3 (1 - 0,137) = 4,6%.


Por tanto, la evolución de los índices de precios previstos según el
rior, así como los niveles de inflación diferencial, serían:

España
Años
IPC IPC
Tasa anual Tása anual
(base 1980 = 100) (base 1980 =

1986 8,3 192,8 3,5 154,3


1987 7,2 206,7 4,6 161 ,4
1988 6,2 219,5 4,6 168,8
1989 5,3 231,1 4,6 176,6
1990 4,6 241 ,7 4,6 184,7

Ejercicio 5. 1 3
Del índice de precios de consumo (IPC) con base 1983 = 100

Índice mensual
Grupos medio de 1985

l. Alimentos, bebidas y tabaco 130,2 330,3


2. Vestido y calzado 128,0 87,4
3. Vivienda 120,1 185,7
4. Menaje 130,0 74,1
5. Servicios médicos y sanitarios 121 ,7 23,9
6. Transportes y comunicaciones 119,3 143,8
7. Esparcimiento, enseñanza y cultura 125,4 69,6
8. Otros bienes y servicios 135,2 85,2

Total 126,41115 1 000,0

(a) Determínense las repercusiones y participaciones de cada uno de los


del IPC en la variación sufrida por el índice general en 1986.
(b) ¿Cuáles son los grupos más y menos afectados por la subida de precios?
(e) Compruébese el valor del índice general en 1986.
EJERCICIOS DE LA SECCIÓN 5 • 435

El IPC es un índice del tipo Laspeyres de la forma

:LI,w 1
L = --;';·::::---
P ¿w,
en donde w1 son las ponderaciones de cada bien o servicio e 11 los índices de
cada grupo.
La repercusión de cada grupo i-ésimo en la variación global del IPC desde 1983 a
1986 viene dada por

R = M 1w1
, ¿~

Por tanto,

R, = M1 ~ = (136,9- 130,2) · 330,3 = 2 21301 %


¿~ 1 000 '

~ = M 2W2 = (134,1 -128,0) · 87,4 =O 53314 %


¿""" 1 ooo ·
R = M 3 W3 = (122,1- 120,1) · 185, 7 = O 3714 %
3
¿ """ 1 000 •

R = M 4 W4 = (131,5 -130,0) · 74,1 =O 11115 %


4
¿""" 1 ooo ·
R = M5 ~ = (123,8 -121,7) · 23,9 =O %
05019
5
¿""" 1 000 •

R = M 6 W6 = (121,3 - 119,3) · 143,8 = • %


0 2876
6
¿""" 1 ooo
R., = M 7 W7 = (129,6- 125,4) · 69,6 = O 29232 %
:¿""" 1 ooo ·
Ra = M 8W8 = (137,9- 135,2) · 85,2 = 0, 23004 %
¿~ 1 000
436 • SECCIÓN 5. NÚMEROS ÍNDICES

La suma de las repercusiones será igual a la variación del índice general; e11
to,
LR; = 4,08885%
i

!lLp = 130,5 -126,41115 = 4,08885%.


Si las repercusiones anteriormente calculadas, en valor absoluto, se ,v,.r...,..
porcentaje respecto del índice correspondiente al año 1985, obtenemos las
cusiones porcentuales de cada uno de los grupos en la variación porcentual
dice general:
2 21301
R 1 (%) = R1 • 100 = • · 100 = 1 75064%
LP(1985) 126,41115 '

0 53314
R2 (%) = R2 · 100 = • · 100 = O 42175%
LP(1985) 126,41115 '

0 3714
JS (%) = R3 . 100 = • · 100 = 0,29380%
LP {1985) 126,41 115

R4 (%) = R4 - 100 = O,lll 15 ·100 =O 08793%


L p (1985) 126,41115 '

0 05018
R (%) = Rs . 100 = • · 100 = O 03970%
S Lp (1985) 126,41115 ,

0 2876
R6 (%) = R6 · 100 = • · 100 = O 22751%
LP(1985) 126,41115 '

0 29232
R7 (%) = R, · 100 = • · 100 = O 23124%
LP (1985) 126,41115 '

0 23004
R8 (%) = R8 · 100 = • · 100 = O 18198%
LP (1985) 126,41115 '

La suma de las repercusiones en porcentaje será igual a la variación, en nnr•....,..


je, del índice general; en efecto,
LR; (%) = 3,23455%
i

/:lLP . 100 = 130,5 - 126,411115 ·lOO = 3 23455 %.


LP (1985) 126,41115 '
EJERCICIOS DE LA SECCIÓN 5 • 437

La participación de cada grupo en la variación del IPC es


R.
p =-'-
't:JLp

Por tanto,

p1 = _!i_ = 2 21301
• = 54 12304% ~ = !!L = 0,05019 = 1 22748%
!:JL 4 08885 ' !:JLP 4,08885 '
p '

p
2
= !!L = 0,53314 = 13 03887% p6 = !!.L = 0,28760 = 7 03376%
!:JLp 4 ' 08885 ' !:JLp 4, 08885 '

0 3714
p3 = !!:L
!:JL
= •
4 08885
= 9 08324%
'
0,29232 = 7 14920%
4,08885 '
p '

p4 = ~ = 0,11115 = 2 71837% Pg = _!i_ = O,


23004
= 5 62603%
!:JLP 4,08885 ' !:JLP 4,08885 '

donde
¿~ = 1oo,o%.
i

El grupo que más ha afectado a la subida del IPC es el primero (alimentos, bebi-
dll;s y tabaco), el cual en la subida índice de un 3, 23%, ha repercutido con un
1,75%, lo que supone un 54,12% de la variación total.
El que menos fue el quinto (servicios médicos y sanitarios) que repercutió tan sólo
con un 0,04%, que equivalía al1,23% del incremento global del período.
' Sabemos que el l. P.C. es un índice de Laspeyres del tipo

en donde tanto el numerador como el denominador se pueden descomponer, te-


niendo en cuenta la existencia de los ocho grupos básicos, en

L P;,q;o = L P;,q;o + L P;,q;o + ·· · + L pirq;o


i ieG1 ieG1 ieG1

representando esta última igualdad el hecho de que el valor global de los bienes y
servicios incluidos en el IPC en el -.período base,

Vo = L P;oq;o '
j
438 • SECCIÓN 5. NÚMEROS ÍNDICES

es la suma de los correspondientes valores de los bienes y/o servicios de ca.::a


de los grupos en ese año; es decir, siendo

VD(Gk) = ¿ P;oq;o ,
ieG,

entonces

El índice de precios puede escribirse como

_
L pilqiO + L pilqiO + ... + L pilqiO
ieG1 ieG2 ieG8
Lp

donde cada

no es otra cosa que el índice de Laspeyres de cada grupo k, y

es la ponderación global de ese grupo.


Por tanto, el índice general es la media ponderada de los índices de
cada grupo
8
LP = L W(k) LP(k)
k=l

y en este caso comprobamos que, por ejemplo,

L (1986) = 330' 3 136 9 + 87 4


• 134 1 +
185 7
• 122 1 +
74 1
• 131 5 +
p 1 000 , 1 000 , 1 000 , 1 000 ,

= 130.~
23 9 143 8 69 6 85 2
+ • 123 8 + • 121 3 + • 129 6 + • 137 9
1000 , 1000, 1000, 1000,
EJERCICIOS DE LA SECCIÓN 5 • 439

Ejercicio 5. 14
En una región existen cuatro industrias lácteas, cuyos niveles de ocupación y
salarios en el período 2002-2004 fueron los siguientes:

Ocupación Salarios
(núm. personas empleadas) ( 103 € por empleado al a!lo)
2002 2003 2004 2002 2003 2004
820 810 920 97 107 112
1 480 1 510 1 560 95 98 106
920 910 940 109 126 132
314 370 450 110 118 125

Determínense los índices de salarios de Laspeyres con base 2002 = 100 .


Calcúlense los índices de salarios de Paascbe.
¿Cuáles serían los índices de salarios de Laspeyres y Paasche para 2005 si se
adoptase un convenio colectivo por el que los salarios se incrementasen en
10 000 € al año linealmente, permaneciendo estables las plantillas de las dos
últimas industrias lácteas y creciendo el número de empleados en un 5% en la
primera y en un 2% en la segunda?

Como los índices de Laspeyres son medias ponderadas de los, índices simples, en
donde el sistema de ponderaciones utilizado corresponde al período base, un índi-
ce de salarios de Laspeyres podría definirse como

en donde
Su = Salarios en el período ten cada industria i.
Sm = Salarios del año base O.
ei0 = Nivel de empleo u ocupación en cada industria en el año base.

Por tanto, si tomamos como base 2002 = 100 , tendremos


107 98 126 118
820 + 1480 + 920 + 314
Lo3 97 95 109 110 = 3 831,6 = 108 4 %
S 820 + i 480 + 920 + 314 3 534 ,
112 106 132 125
820 + 1 480 + 920 + 314 .
L04 97 95 109 110 = 4 069,1 = 115 1%.
S 3 534 3 534 ,
440 • SECCIÓN 5. NÚMEROS ÍNDICES

(b) Análogamente, los índices de salarios de Paasche serán

L Ss.
i
_jf_ •

iO
e.
11

con lo que, con base 2002,


107 98 126 118
810 + 1510 + 910 + 370
p03 = 97 95 109 110 3 900,0 = 108 3%
S 810+1510+910+370 3600 ,
112 106 132 125
920 + 1 560 + 940 + 450
p04 = 97 95 109 110 = 4 452,6 = 115 0 ~
S 920 + 1 560 + 940 + 450 3 870 ,
(e) Con las condiciones establecidas tenemos que

2005
Industrias
Salarios Empleados
Lagasa 122 966
Ladegasa 116 1 591
Galecsa 142 940
Ingalesa 135 450

y, por tanto,

122 820 + 116 1480 + 142 920 + 135 314


Los = 97 95 109 110 = 4 422,4 = 125 1%
S 3 534 3 534 ,
122 116 142 135
966 + 1591 + 940 + 450
pOS = 97 95 109 110 = 4 934,5 = 125 0%
S 966 + 1 591 + 940 + 450 3 947 ,

Ejercicio 5. 1 5
Las relaciones comerciales entre dos países, Northernland y Farland,
reflejadas en la siguiente información:
EJERCICIOS DE LA SECCIÓN 5 • 441

Northernland exportó a Farland

el 20 800 32 1 400
e2 7 1 500 11 600
e3 12 200 14 500

Nortberland importó de Farland

2003

Precio Precio Cantitkid

In¡ 4 200 5 410


m2 10 100 9 300
m3 11 50 15 100
m4 8 320 10 150

Los índices de precios de Laspeyres y Paasche para la exportación y para la


importación con base 1997 = 100 .
Los correspondientes índices de cantidades.
El índice de relación real de intercambio.
Si existe déficit o superávit comercial para Nortbernland en 1997 y 2003.
La tasa de cobertura en 2003.

El índice de precios de Laspeyres para la exportación (X), con base 1997 = 100
será

L03 (X) = 32 · 800 + 11 · 1500 + 14 · 200 = 44 900 = 155, 4 %


p 20. 800 + 7 . 1 500 + 12. 200 28 900
442 • SECCIÓN 5. NÚMEROS ÍNDICES

y el de Paasche

¿pitqil
p (X) = ='=-·- -
P LP;oq;,
i

po3 (X) = 32 · 1400 + 11 · 600 + 14 · 500 = 58 400 = 152, 9 %


p 20 . 1 400 + 7 . 600 + 12 . 500 38 200

y para los precios de importación (M) serán:

L03 (M) = 5 · 200 + 9 · 100 + 15 ·50+ 10 · 320 = 5 850 = 119•1%


p 4 . 200 + 10 . 100 + 11 . 50 + 8 . 320 4 910
po3 (M) = 5 · 410 + 9 · 300 + 15 · 100 + 10 · 150 = 7 750 = 111, 7 ('!'

p 4 . 410 + 10 . 300 + 11 . 100 + 8 . 150 6 940

(b) Los correspondientes índices cuánticos son

L~3 (X) = ~q;,P;o = 1 400 · 20 + 600 · 7 + 500 · 12 = 38 200 ==


1322
"L,q;oP;o 28 900 . 28 900

p o3 (X) = ~q;,P;, = 1 400 · 32 + 600 · 11 + 500 · 14 = 58 400 =


130
..
q "L,q;oP;, 800 · 32 + 1500 · 11 + 200 · 14 44 900

L03 (M) = 410 · 4 + 300 · 10 + 100 · 11 + 150 · 8 = 6 940 = 141 3 %


q 4 910 4 910 '

po3 (M) = 410 · 5 + 300 · 9 + 100 · 15 + 150 · 10 = 7 750 =


132, 5 %.
q 200 . 5 + 100 . 9 + 50 . 15 + 320 . 10 5 850

(e) El índice de relación real de intercambio en el comercio exterior viene


el cociente entre los índices de precios de Paasche de exportaciones e
nes. Por tanto,
p (X)
R=-P__ .
PP(M)
En este caso
po3 (X)
R03 == P = 152,9 = 1 37 .
" 97 po3 (M) 111,7 '
p

Como R > 1 , el precio medio de los productos exportados es mayor que el


importados, lo que sitúa en posición ventajosa a Northernland frente a Farla3i
EJERCICIOS DE LA SECCIÓN 5 • 443

(el) El déficit o superávit de la balanza comercial vendrá determinado por la diferencia


entre el valor de las exportaciones y el de las importaciones, es decir, el saldo de
esta balanza será
SBC = V(X)- V(M).

En 1997 será

SBC91 = V97 (X)- V97 (M) =


i
LX Pwq;o - LM P;oq;o
E i E

= 28 900 - 4 910 = 23 990 > O.


En 2003 será

SCB03 = V03 (X) - V03 (M) =


i
LX P;rqil
E
-
i
LM P;rqit
E

= 58 400 - 7 750 = 50 650 > O.

Luego Northernland tuvo superávit comercial en los dos períodos considerados.


La tasa de cobertura se defme como

CBC = Vo3 (X) = 58 400 =75 > 1


03
~3 (M) 7 750 '

que, como es mayor que la unidad, nos revela una mayor actividad exportadora
que importadora en Northerland, mostrando también el superávit comercial en
2003 que antes habíamos señalado.

1990 1996
Acciones
Volumen negociado
Cotización Cotización
(en 109 u.m.)

Bancos 230 25,4 614


Eléctricas 94 10,3 153
Inmobiliarias 112 7,1 510
Monopolios 125 8,9 325
Químicas 82 2,1 184
Metalúrgicas 75 0,8 415
Inversión mobiliaria 60 3,4 825
Varios 107 0,5 407
444 • SECCIÓN 5. NÚMEROS ÍNDICES

SOLUCIÓN. Si representamos por 1¡ los índices simples de cada valor


que, con base 1990 = 100,

¡96 = 614 = 266 9% ¡ 96 = 184 = 224 4%


B 230 ' Q 82 '

¡96 = 153 = 162 8% ¡96 = 415 = 553 3%


E 94 ' ME 75 '

= 510 = 455 4% 825


¡96 196 = = 1 375 0%
1
112 ' /M 60 '

¡96 = 325 = 260 0% ¡96 = 407 = 380 4%


M 125 ' 1 V 107 '

Generalmente, los índices de cotizaciones de Bolsa utilizados son del tipo


res, es decir, la media ponderada de los índices simples

en donde las ponderaciones w¡ son el volumen de contratación negociado de cada


en el año base.
Por tanto, tendríamos que

266,9. 25,4 + 162,8. 10, 3 + 455,4. 7,1 + 260,0. 8,9


=
25, 4 + 10,3 + 7,1 + 8,9 + 2,1 + 0,8 + 3,4 + 0,5
224,4 . 2,1 + 553,3. 0,8 + 1375,0. 3,4 + 380,4. 0,5
+ =
25,4 + 10,3 + 7,1 + 8,9 + 2,1 + 0,8 + 3,4 + 0,5
= 19. 782,52 = 338 16 %.
58,5 ,

Según esto, el valor de esta cartera aumentó desde 1990 a 1996 en un 238,16""

Ejercicio 5. 1 7
Un ahorrador invierte 100 euros en la Bolsa en el año 1999.
cotizaciones y general de precios al fmal de los años siguientes son:
EJERCICIOS DE LA SECCIÓN 5 • 445

2000 84,6 118


2001 75 ,3 124
2002 80,5 142
2003 71,3 160

¿Cuál era el valor de su inversión, a precios constantes de 1999, al fmal de 2003?

SOLUCIÓN. Supongamos que ese pequeño ahorrador ba distribuido su inversión de


lOO euros en 1999 en una cartera de títulos diversificada de forma que las variaciones
del índice de cotizaciones puedan reflejar también las variaciones del valor de su
cartera.
En este supuesto de descenso de las cotizaciones durante los cuatro años estudiados,
!.os 100 € del ahorrador se habrán reducido a
En 2000, Y¡ = 100 · 84,6% = 100 · 0,846 = 84,6 €
En2001, V2 = 84,6 · 0,752 = 63,62 €
En 2002, V3 = 63,62 · 0,805 = 51,21 €
En 2003, V4 = 51,21 · 0,713 = 36,51 €

Pero estas valoraciones de su inversión están calculadas a precios corrientes de cada


- ; si descontamos la pérdida de poder adquisitivo por la subida de los precios, infor-
ión dada por los correspondientes índices de precios deflactando tendremos que

2000 84,6/1,18 = 71,69 €


2001 63,62/1,24 = 51 ,31 €
2002 51 ,21 /1,42 = 36,06 €
2003 36,51 /1,60 = 22,82 €

lo que la bajada persistente de la Bolsa en estos años le ba hecho perder más del
% del valor de su inversión, considerada a precios constantes.

5.18
JllllernllÍn.enlse los deflactores implícitos para el Producto Interior Bruto a precios
mercado sabiendo que
446 • SECCIÓN 5. NÚMEROS ÍNDICES

Producto Interior Bruto


A1ios (miles de fnillones de ptas)

A precios constantes de 1995 A precios .con·ientes


1998 (!"'trimestre) 120 017 128 831
1999 ( 1er trimestre) 124 183 136 872
2000 (1er trimestre) 130 508 148 513
2001 (!"'trimestre) 134 525 159 153
2002 ( 1°'trimestre) 137 507 169 168
2003 W' trimestre) 140 576 180 526

Fuente: INE.

SOLUCIÓN. Los deflactores implícitos serán:

Años De¡/.actor implfcito del PIB >


(1 er trimestre)
.-~
(base 1980 = 100) ¡¡

1998 128 831/120 017 = 1,0734 = 107,34%


1999 136 872/124 183 = 1,1021 = 110,21%
2000 148 513/130 508 = 1,1379 = 113,79%
2001 159 153/134 525 = 1,1830 = 118,30%
2002 169 168/137 507 = 1,2302 = 123,02%
2003 180 5261140 576 = 1,2841 = 128,41%

que reflejan la evolución general de los precios de todos los items incluidos en el
APÍTULO 12

eries temporales

tn·troducción

IIBIID<)Sserie temporal, cronológica, histórica o de tiempo a una sucesión


lb;ervac:toJaes cuantitativas de un fenómeno ordenadas en el tiempo. Interesa
porque permite analizar la evolución que en el transcurso del tiempo
BI:~er1mcmttdo una variable, tmto para construir un modelo descriptivo de la
del fenómeno como para poder predecir sus valores futuros.
imporumte entender desde el principio que, en una serie temporal es
la ordenación que el tiempo induce en los datos. A diferencia de lo que
en la mayor parte de los capítulos que hemos visto hastt ahora, los
tienen un orden que no podemos variar: por ejemplo, si esttmos estu-
la evolución trimestral del número dt parados, el dato del primer tri-
de 2003 ha de ir inmediatamente antes del dato del segundo trimestre de
año, y no podemos cambiar esa ordenación si no queremos distorsionar
el fenómeno a estudiar. Al mismo tiempo, es precisamente esa evo-
a lo largo del tiempo la que nos va a permitir analizar la variable en
e intentar predecir sus valores futuros.
vamos a considerar una serie temporal como una distribución
Ul.llUI...l.u .... ,

KHMvual en donde una de las variables, la dependiente es la magnitud que


analizar, mientras la variable independiente es el tiempo.

449
• SECCIÓN 6 . SERIES TEMPORALES

12. 1.1. CONCEPTO

Podemos diferenciar dos grandes grupos de magnitudes: magnitudes


magnitudes flujo. Por magnitudes stock entendemos aquéllas que toman
res concretos en momentos concretos del tiempo: en este sentido,
considerar la serie como los valores medidos en determinados momentos de
variable que es continua en el tiempo (por ejemplo, la cantidad de dinero
tente en un país). Por' magnitudes flujo entendemos aquéllas que rer>re:ser1a.
total acumulado de una variable desde la observación anterior (por ejemp
consumo de una familia en un cierto período). En cualquier caso, el
de tiempo entre dos observaciones contiguas ha de ser constante.
La diferencia fundamental entre ambos tipos de magnitudes ecl::>n<)ffilC3SI
que el valor de un flujo dependerá del intervalo de tiempo que cons
entre dos observaciones, decisión que en principio no tiene por qué
los valores de una magnitud stock. Es más, en la realidad el problema se
va, pues aunque el intervalo de tiempo entre observaciones sea fijo, en la
tica es muy difícil que los diferentes valores de una magnitud flujo sean
tamente homogéneos. Pensemos en la producción mensual de una fábrica
principio, está claro que no todos los meses tienen el mismo número de
pero además, tampoco tienen el mismo número de fines de semana, ni de
vos, ni de puentes, etc., lo que en definitiva se traduce en una diferencia
derable de días laborales entre los distintos meses.
Vamos a designar a la serie temporal observada alternativamente por
por Y;k , según sea más ilustrativo en cada caso particular. Cuando emnleaiii
la notación Y, estamos suponiendo todas las observaciones ordenadas una
trás de otra, tal y como se van produciendo, y t toma los valores 1, 2, 3, ...
Por el contrario, al emplear la notación Y,k estamos considerando '"'"~'u'"""'
mente el año i (i = 1, 2, .. . , N) y la época del año k (k = 1, 2, ... , 12 si
meses, k = 1, 2, ... , m en general) a que se refiere la observación. Como
natural, T = N · m .

12.1.2. REPRESENTACIÓN GRÁFICA

Todo análisis de series de tiempo ha de iniciarse con una representación


de la misma, poniendo en el eje de abscisas el tiempo y el de ordenadas
valores de la serie. Esto nos permite detectar las características más
tes del fenómeno, tales como el movimiento a largo plazo, amplitud de las
cilaciones, la posible· existencia de ciclos, rupturas, valores anómalos, etc.
SERIES TEMPORALES • 451

1anto, la representación es uno de los pasos más importantes, por no decir el


~e más, pues va a condicionar todo el análisis posterior. En ese sentido se ha
de tener cuidado con la representación, pues el mismo fenómeno representado
tle distinta forma parece diferente, y esto puede mod~car todo el estudio.
Esto hace que tengamos que ser especialmente cuidadosos con la elección
las escalas en los gráficos debiendo procurar que las empleadas reflejen ade-
la evolución del fenómeno sin distorsionarlo. Es difícil dar una
general desde aquí, por lo que cada caso se ha de considerar de forma

Las ventas mensuales de una empresa aparecen recogidas en el cuadro si-

Ventas mensuales
Meses (en miles de euros)

1998 1999 2000 2001 2002 2003


Enero 89 100 115 124 136 152
Febrero 103 106 122 126 150 152
Marzo 117 103 143 127 166 147
Abril 135 82 157 llO 179 126
Mayo 154 85 175 llO 201 132
Junio 147 76 175 97 202 119
Julio 163 66 185 94 211 122
Agosto 142 68 164 89 194 111
Septiembre 155 85 178 llO 201 134
Octubre 136 96 168 ll9 193 142
Noviembre ll9 103 142 124 166 151
Diciembre 123 133 151 148 179 175

La representación gráfica correspondiente a este ejemplo es la que se mues-


en la página siguiente.

1.3. COMPONENTES DE UNA SERIE DE TIEMPO

teoría clásica de las series de tiempo se basa en que toda serie empírica está
por cuatro componentes teóricas: tendencia, variaciones estacionales,
.-.:aciiOD«~ cíclicas y variaciones residuales.
452 • SECCIÓN 6. SERIES TEMPORALES


220

60

FIGURA 12.1

La tendencia, al igual que las demás componentes, es un concepto


difícil de definir, como tendremos ocasión de comprobar más adelante.
camente se ha venido llamando tendencia al movimiento general a largo
de la serie en cuestión. Así, para hablar de tendencia tendremos que
haciendo una valoración subjetiva de lo que es el largo plazo, valoración
su vez dependerá de la longitud de la serie analizada. La denotaremos por

Las variaciones estacionales (eik) son oscilaciones que se producen


período igual o inferior al año, y que se reproducen de manera
los diferentes años. Se deben frecuentemente a causas climatológicas,
concretamente a los efectos de éstas sobre la actividad económica. Es de
car que el período no ha de ser necesariamente la estación del año, sino
puede ser el mes, la semana o incluso el día.
Las variaciones cíclicas (cik) son oscilaciones qu~ se producen con un
ríodo superior al año, y que se deben principalmente a la alternancia de e
de prosperidad y de depresión en la actividad económica. Normalmente en
serie económica se superponen distintos ciclos de esta clase, lo que hace que
la práctica ésta sea la componente más difícil de determinar.
La amplitud de un ciclo o período es el número de años que dura un
completo. Como es natural, cuanto mayor sea el período de un ciclo que
SERIES TEMPORALES • 453

nuestra variable, mayor ha de ser el número de observaciones para que aquél


reconocible.
Por último, las variaciones residuales (f¡k) , también llamados residuos,
irregulares o variaciones erráticas, son movimientos que no
•"""nr<>n un carácter periódico reconocible y, como tales, se les considera ori-
P"'" ...'-'" por fenómenos singulares que afectan a la variable en estudio de mane-
más o menos casual y no permanente. Por ejemplo , el efecto causado en una
· por una huelga, una guerra; un terremoto, etc ...
En la práctica, resulta complicado separar con certeza la tendencia y el ci-
por los problemas inherentes a ambos. Por esgo algunos autores prefieren
de componente extraestacional, denotada por E ik , y tratarlas conjun-
-~.. ,... ,· salvo que se advierta lo contrario, en este capítulo las trataremos por

La serie de ventas antes mencionada es una serie artificial, construida a par-


de la suma de cuatro series que representan a las componentes teóricas, y

La tendencia, que toma el valor 100 para enero de 1998 y que va aumen-
rando cada vez una unidad hasta 171 en diciembre de 2003.
Un ciclo de período 24 meses, que tomando el valor O en enero de 1998,
toma sucesivamente los valores 5, 15, 30, 40, 45, 50, 45, 40, 30, 15, 5,
O, -5 , - 15, - 30, -40, -45 , -50, -45 , -40, - 30, - 15, - 5 y otra vez cero
en enero de 2000, volviendo a repetirse el ciclo.
Una variación estacional dada por

Cna variación irregular o residual que se fijó como:


454 • SECCIÓN 6. SERI ES TEMPORALES

Variaciones residuales
Meses
1998 1999 2000 2001 2002

Enero -1 -2 -2 -2
Febrero 3 4 -2 o 2
Marzo -2 2 o 2 -1 --
Abril 4 -1 2 3 o _:;
..,
Mayo 4 3 1 4 3 -
Junio -5 2 -1 -1 2 -3
Julio 5 -5 3 o 5 .!
Agosto -2 2 o -1 2 -3
Septiembre 1 -1 o o -1 o
Octubre -5 3 3 2 4 1
Noviembre -2 -4 -3 -3 -3 o
Diciembre -3 5 -4 5 -1

La representación gráfica de las cuatro componentes aparece en el


siguiente:

Componentes
teóricas
171
50

cik

lOO

- 50
eik
10
-lO
5
rik
-5

FIGURA 12.2
SERIES TEMPORALES • 455

1.4. FORMAS DE COMBINAR LAS COMPONENTES

se combinan las cuatro componentes teóricas para formar la serie que


observamos? Podemos considerar las siguientes hipótesis o esquemas:

Esquema multiplicativo 1:

. 1Y;k = ~k · cik · e ik · 'ik

Esquema multiplicativo 11:

1Y;k = ~k · cik · eik + 'ik


n supuesto fundamental del análisis clásico es la independencia de las va-
residuales respecto de las demás componentes, entendiendo como tal
magnitud de dichos residuos no dependa del valor que tome cualquier
lCC>mtJortente de la serie. Esto es fácil de entender, ya que si recordamos la
de variaciones residuales, éstas se caracterizan por no presentar un
periódico reconocible. Ahora bien, si dependiesen de cualquier otra
....,.............. , este suppesto, ya no se cumpliría, pues las otras componentes sí
una evolución reconocible. Por lo tanto, para que las variaciones
merezcan realmente tal nombre, es necesario que no se puedan cono-
partir de las otras componentes, o lo que es lo mismo, que su evolución
~IPñPnl11PntP de las demás.

términos de los esquemas anteriores, esa independencia de las variacio-


· .-;.;:••u•~'"'~"'
equivale a que éstas aparezcan sumadas a las demás componen-
que sucede en los casos (a) y (e); por lo tanto, si creemos que nuestra
se adapta a uno de estos dos esquemas, no tenemos ningún problema en
~c:ma1o. En cambio, si nos parece que en nuestra serie la componente resi-
entra de forma multiplicativa, como en el esquema (b), hay que solucionar
v"'"'""' antes de seguir adelante.

~·vu,.v saber si una serie concreta presenta un problema de este tipo y, en


de que lo presente, cómo podemos corregirlo? Empezando por la forma
un esquema como el (b), en la práctica, la independencia de los
va asociada a la relación que existe entre la media y la varianza de
grupos de observaciones de la serie. Si dividimos la serie original en
de q observaciones (dos años en cada grupo, por ejemplo), calculamos
· y la desviación típica de cada grupo y representamos los resultados en
456 • SECCIÓN 6. SERIES TEMPORALES

un gráfico tendremos, bie!J. una nube de puntos donde la desviación típica


ce no depénder de la media (Fig. 12.3.1), bien una nube en la que la
típica aparentemente aumenta al aumentar la media (Fig. 12.3.2).
Si tenemos una sitUación como la de la figura 12.3.1, podemos a"~'~...
la componente residual entra aditivamente en el modelo, y no se plantea eJ
blema que estamos comentando; sin embargo, si nuestra serie proporc
representación parecida a la de la 12.3.2, en la que la desviación típica
mente crece al crecer la media, es razonable creer que la componente
aparece multiplicando a las demás y que, por lo tanto, se incumple uno
supuestos básicos del análisis clásico de series temporales.

desviación
desviación
típica típica

• • •
• • • •
• •
• • • • •
• •
media

FIGURA 12.3.1 FIGURA 12.3.2

En la práctica, ¿cómo hemos de dividir la serie original para realizar el


culo anterior, es decir, cuál ha de ser el valor de q? Lo deseable sería
un valor tal que eliminase la influencia de las componentes cíclica y esta(~JOI•
Así, si tuviésemos datos mensuales con un ciclo de año y medio en la serie.
buen valor de q sería 36 (3 años de datos). Ahora bien, también hay que
en cuenta la longitud de la serie que puede hacer inviable ese valor ·
mente deseable de q, y eso sin contar que es muy difícil que conozcamos
características de la componente cíclica de nuestra serie en esta primera fase
estudio. De ahí que cada caso haya que considerarlo por separado, y la
regla general que se puede dar es la de que entren años
( q = 12, 24, 36, . . . si hablamos de datos mensuales) para eliminar la
nente estacional.
Si en esta etapa concluimos que la serie obedece a un esquema
vo de tipo 1, es decir
SERIES TEMPORALES • 457

seguir adelante hemos de tomar logaritmos. En efecto, es inmediato que


In Yik = ln <r;k · eik · eik · ~k) =
= In r;k + In eik + In eik + In ~k

tenemos, por lo tanto, un esquema aditivo.


Nos quedan pues los modelos (a) y (e) , ¿en qué se diferencian? La diferen-
fundamental está en que la componente estacional se combina con la com-
IJDillente extraestacional aditivamente en un caso y multiplicativamente en otro.
se traduce en que en un caso -modelo a)-- la oscilación estacional dentro
cada año tiende a mantenerse con una amplitud constante, tal y como se
en la figura 12.4.1 (datos trimestrales): nótese como la diferencia entre
trimestre k-ésimo (k = 1, 2, 3, 4) y la tendencia se mantiene aproximada-
constante a lo largo de los años. Sin embargo, en el caso del modelo (e)
oscilaciones estacionales tienden a crecer a medida que la variable toma
cada vez mayores: figura 12.4.2.
Hay que señalar que el mismo problema se puede plantear respecto a la
cíclica; sin embargo, como es difícil tener alguna información
los ciclos en esta etapa del análisis, en la práctica lo relevante es la forma
que la componente estacional se sobrepone a la extraestacional en general.

Y,

YYYYY~
1 11 111 IV 1 11 111 IV 1 11 111 IV 1 11 IIIIV 1 IIIIIIV 1 11 111
"--y--1 "--y--1 "--y--1 "--y--1 '--y-J "--y--1
al\o 1 al\o 2 al\o 3 3110 4 al\o 5 al\o 6 31101 311o2 allo3 311o4 311o5 al\o6
1

FIGURA 12.4.1 FIGURA 12.4.2


458 • SECCIÓN 6. SERIES TEMPORALES

Como resumen, podemos decir que en los modelos (a) y (e) la


residual es independiente de las demás, lo que hace que ambos
analizables con las técnicas que veremos a continuación; por el
modelo (b) no presume la independencia de ~k, aunque las cmno•one•
dan, en general, deberse a distintas causas. Esto aconseja transformar
delo (b), mediante logaritmos, a un modelo del tipo (a).
Por lo tanto, cuando hablemos en adelante de esquema aditivo, n
remos a un modelo del tipo (a), y al hablar de esquema multiplicativo
mos de un modelo como el (e).
A continuación estudiaremos procedimientos para aislar la tenden.:
variaciones estacionales. No entraremos en el análisis del ciclo por la
dad de las técnicas que tendríamos que utilizar, incluso al nivel ...,...,........
que nos movemos.

12.2 Análisis de la tendencia

Existen muchos métodos para aislar el movimiento a largo plazo de una


Recordemos que el concepto largo plazo depende fundamentalmente de la
gitud de la serie observada, pues lo que parece tendencia en una serie
de duración dos años puede ser, en gran medida, parte de un ciclo de tres
ciclo que sólo podremos aislar con un mínimo de doce o quince años de
vaciones. Esto nos sirve para recordar la debilidad teórica del concepto
cia, debilidad que se origina al considerar que nuestra serie empieza e~
observación más antigua de que disponemos y que termina con la última
tener en cuenta que los datos que poseemos no son más que una parte de
proceso que viene desde un pasado más lejano y que probablemente se ,v,.,.,....
rá en el futuro.
Volviendo al punto que nos ocupa, podemos decir que, históricamente
han derivado sucesivos métodos de determinación de la tendencia, aunque
expondremos sólo los más empleados.

Para aislar la componente cfclica, véanse los procedimientos que se exponen en: MARTÍN-GUZMÁI'.
MARTÍN PLIEGO, F.J.: op. cit., págs. 256-260.
SERIES TEMPORALES • 459

12.2.1. MÉTODO DEL AJUSTE ANALÍTICO

idea principal de este método consiste en ajustar una función que relacione
variable en función del tiempo, que sea sencilla y que recoja de manera satis-
toda la marcha general del fenómeno. De acuerdo con esto, hemos de tomar
doble decisión: en primer lugar, determinar la forma de la función y, en
_ _,,~..,~v, los valores concretos de los parámetros.

Por lo que respecta a la forma , la decisión se basa en un análisis visual de la


~eJJtre~;en.tación gráfica de la serie, intentando percibir el movimiento a largo
de la misma y aproximándolo mediante una función adecuada. Por lo que
ltS}:>eclta a los parámetros concretos, éstos se determinan tal y como se ha estu-
en el tema de ajuste, por lo que únicamente repetimos aquí los resultados.
En el caso de que exista estacionalidad es conveniente no emplear los datos
sino someterlos a una transformación previa para eliminar la com-
estacional, que puede distorsionar la estimación de la tendencia. Para
m
. es aconsejable calcular la media anual, Y;. = L Y ;k /m, y ajustar a estas
k= 1

Si suponemos una tendencia lineal , Y;. = a + bi, las ecuaciones normales

l:Y;. ==Na+ bl:i


Li.Y;. = a¿i + bl:i2
los valores a y b. Si la tendencia es parabólica,
2
= a + bi + ci , las ecuaciones normales son

LY;. = Na+ bl:i + c:Li 2

l:i.Y;. = a¿i + bl:i2 + c¿P


Li 2 Y;. = a:Li 2 + b:LP + c:Li 4

En el caso de una tendencia exponencial, aplicando logaritmos tenemos


lny-.1• = lna + ilnb
la reduce al caso de la recta.
cualquier caso, una vez · que obtenemos los valores de los parámetros
obtener la tendencia sin más que sustituirlos en la relación obtenida.
460 • SECCIÓN 6. SERIES T EMPORALES

La gran ventaja que presentan los métodos de ajuste es que PO<Jentm


una medida de la bondad del mismo, calculando el coeficiente de ,..("\,,........
entre Y;. e i, e interpretándolo de la manera ya conocida.

También es importante señalar que si la serie presenta una ruptura


en el sentido de que podemos distinguir dos partes completamente diterc::nc•
y con una evolución general marcadamente diferente, puede ser u .............,.
ajustar diferentes funciones para cada conjunto de datos con tendencia
nea.

12.2.2. MÉTODO DE LAS MEDIAS MÓVILES

Este método se basa en el «Suavizado» de la serie a partir del cálculo


de valores medios según veremos inmediatamente.
Para aplicar este método escogemos un número p de acuerdo con los
rios que luego analizaremos. Si p es impar, formamos una serie nueva a
de las siguientes medias

yp+l = Y1 + Y2 + ··· + Yp
~----------~
Yp+3
2
p 2
p

- =
y+y+···+y
3 4 p+2 ...
Yp+5
2 p

y así sucesivamente, medias que hacemos corresponder a los instantes


p+3 p+5 ( ' 1 . )
- - , -- , . .• que seran va ores enteros, pues pes Impar .
2 2

Si por el contrario p es par, entonces repetimos el proceso, aunque


~, P; 3, p;s , .. . no son números enteros y por Jo tanto la nueva serie
«descentrada>>; para centrarla, hallamos las medias móviles entre cada dos
días móviles originales consecutivas, es decir

Yp+l + Yp+3 Yp+3 + Yp+s


Yp+2 = 2 2
Yp+4 = 2 2
, ...
2
2 2

~
pues ahora -p+2
2- , 2 , .•. ,
'
SI son enteros.

En los esquemas siguientes, en donde se consideran medias móviles para


p =3 y p = 4 respectivamente, se representa por un punto del eje de tiem-
SERIES TEMPORALES • 461

pos el momento al que se asignan estas medias móviles, y cómo en el caso de


que p sea par hay que proceder a un centrado para que los momentos en donde
teníamos las observaciones de la serie original (Fig. 12.5). En efecto:
p =3
• • •1 • • • • •
1 1 1 1 1 1 1

, ~ j 1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1 1 1 1 1 1 1 1
2 3 4 5 6 7 8 9 eje de tiempos

p =4

r
~
1

X1
1

! 1 '\l!
.
1

'i1
1
1
1 •• •• ••
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1 1 1
1
1 1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
eje de tiempos
l 2 3 4 5 6 7 8

En estos mismos esquemas, también observamos que al sustituir los valores


la serie original por los que se obtienen a partir de las medias móviles se
datos al principio y al final de la serie. El número de datos que se pier-
depende, evidentemente, del valor de p, ya que cuanto mayor sea p mayor
el número de observaciones perdidas , y también dependerá de que p sea
o impar, es decir, de que se necesite un posterior centrado o no, puesto que
vez que se calculan medias móviles se pierden valores en la nueva serie

Una vez obtenidas las medias móviles defmitivas, la tendencia será la línea
brada que las una. Esto es fácil de ver si recordamos la descomposición de
serie en sus componentes: tomando el esquema aditivo para simplificar el

¿Qué sucede si promediamos un número adecuado de observaciones adya-


Promediar varias Y;k equivale a promediar las r;k correspondientes, las
las eik y las 'ik y sumar los promedios que obtenemos para cada compo-
. Si recordamos la definición de variaciones cíclicas, es inmediato que si
-T-t<>T1nn" en el número de datos que promediamos, el promedio de las compo-

cíclicas es cero (véase en el epígrafe 12.1 los valores que toma esa com-
en la serie artificial que allí propusimos); por un razonamiento similar,
462 • SECCIÓN 6. SERIES TEMPORALES

lo mismo sucede con la componente estacional, con tal que tomemos años
ros en el cálculo de los promedios. Como a su vez el promedio de las
nes erráticas es de esperar que sea cero (ya que si siempre fuese
ejemplo, habría algo no errático en esas presuntas variaciones erráticas .
nos queda es el promedio de las tendencias o valor estimado de la
para el punto medio del intervalo temporal considerado. Si la serie
esquema multiplicativo como el (e) el detalle del razonamiento se
aunque la esencia del mismo permanece.
Como es natural cobra especial interés la determinación del valor de
que, de su correcta elección depende que realmente el promedio de v
se reduzca al promedio de las T;k correspondientes. De ahí que lo "u"'"....,._
escoger como valor de p el período de las oscilaciones más importanres
presenta la serie.
Esto ya constituye una primera crítica al método, pues supone conocer
de las componentes cíclica y/o estacional; además, en el supuesto de
superpongan varias oscilaciones (por ejemplo, una oscilación estacional
con una componente cíclica), aunque escojamos el valor de p adecuado
eliminar una de ellas, la otra permanecerá en la serie de medias móviles
obtengamos, lo que nos impide aislar la componente tendencial. En este
do, la elección no es tan trivial como parece, sino que requiere un
miento previo del fenómeno a estudiar.
En resumen, este procedimiento es operativamente más sencillo que el
ajuste, pero presenta como inconvenientes, además del señalado en el
anterior, que no va acompañado de una medida de fiabilidad análoga al
ciente de correlación y que supone una pérdida de observaciones , en el
de que si pes impar no podemos determinar la tendencia de las P; 1- 1
ras observaciones y de las IT- - 1 últimas, mientras que si p es par n P •., , . . _

P; 2 - 1 observaciones al principio y otras tantas al final.

-.~-----

12.3 Variaciones esta~ionales .


Al hablar de las variaciones estacionales, vimos que éstas se definían
todas aquellas oscilaciones de período igual o inferior a un año, que
deberse a factores climatológicos, o a otros cualesquiera, generadores de
dicidad regular. Así, en una serie temporal pueden darse varios movm1Je1:uo
SERIES TEMPORALES • 463

t~:stacH:malles diferentes, dependiendo del fenómeno estudiado y del período para


que tomemos los datos; por ejemplo, si consideramos el consumo mensual de
--~-·,..,··~ eléctrica en los hogares observamos que los meses de otoño e invierno
lllf'e!Sentan un valor más alto que los de primavera y verano, pero si estudiamos
mismo fenómeno tomando las observaciones cuatro veces al día, veremos
ahora surge un segundo movimiento estacional de período un día (con un
-..-• .u.,,v a primeras horas de la noche y un mínimo en la madrugada) super-

al anterior. Nosotros limitaremos el análisis al caso en que sólo existe un


· estacional, pero en la realidad pueden presentarse casos con dos o

El motivo principal que nos induce a estudiar la componente estacional es


en la inmensa mayoría de las series económicas dicha componente provoca
distorsión del verdadero movimiento. Por lo tanto, para efectuar el seguí-
de alguna variable tenemos que captar el movimiento real de la misma,
primer paso consiste en eliminar oscilaciones puramente estacionales.
:\daremos esta idea con un ejemplo. Supongamos que en el Ministerio de
IOODmla y Hacienda se realiza un estudio de la entrada de divisas extranjeras
nuestro país: acaba de llegar el dato del tercer trimestre (meses de julio,
y septiembre) del año en curso, y se trata de compararlo con el último
disponible, el del segundo trimestre (meses de abril, mayo y junio), para
la evolución de dicha variable en el pasado reciente. ¿Podemos campa-
cifra que acaba de llegar con la del segundo trimestre sin más? Pensemos
nuestro país es uno de los principales receptores del turismo , turismo que
P>IJlceiltra en los meses de verano. Si comparamos directamente las dos ci-
extraemos una conclusión equivocada, ya que, por el hecho de que los
hayan aumentado no podemos decir que esta variable ha tenido una
favorable: es necesario eliminar ese defecto de las estaciones concre-
las que están referidas ambos datos, y sólo a partir de ahí se pueden com-
las cifras resultantes.
esto se resume el problema de la desestacionalización. A continuación
a proponer algunos métodos sencillos de aproximación a la serie deses-

facilitar la comprensión, vamos a suponer que la serie es de datos


· la extensión a otras periodicidades es inmediata, aunque para facili-
diremos que k oscila entre 1 y m en vez de entre 1 y 12.
464 • SECCIÓN 6. SERIES TEMPORALES

12.3. 1. MÉTODO DE LAS RELACIONES DE MEDIAS


MENSUALES RESPECTO A LA TENDENCIA

Este método consta de los siguientes pasos:


a • Ajustar una recta por mínimos cuadrados a las medias anuales de los
observados , y-.1• :

Y-1•. =a+ bi

de aquí obtendríamos el valor de b, que representa el incremento de los


medios anuales en el transcurso de un año. Por lo tanto, b/m (b/12)
incremento debido al transcurso de un mes.
b • Calcular las medias mensuales Y.1 , Y. 2 , ••. , Y.m teniendo en cuenta que,
- ~ Yu, = 1,
Y.k =
i
LJN
=1
para k ... , m

e • Para aislar la componente estacional de la variación debida


al paso del tiempo restarnos a cada media mensual la proporción del
anual, obteniendo la serie de las medias mensuales corregidas.
~ - b(k-1)
Y.k = Y.k - m

En efecto, corno en enero todavía no ha transcurrido ningún mes,


11 = Y.1 ; ahora bien, en febrero tenemos que considerar que la parte del
total del transcurso de un año correspondiente a enero ya está incorporada
serie, con lo que, para conocer la verdadera media mensual desprovista de
dencia, tenemos que restar a la original la doceava parte del incremento.
general b/m, y así sucesivamente. Nótese que lo que suponernos es que el
cremento anual b no se materializa de golpe el último día del año, sino que
distribuye uniformemente a lo largo del mismo.
d • Calcular la media global corregida
.,..,. + ~ ++y~
y~ =.:....
Y:.!.,.t_.:...Y•:..:.2__
-
• ·_·_.....:·=m
m
e • Obtener la componente estacional:
En el esquema aditivo la componente estacional para el mes k-ésirno será

f eik = Y:k - Y' 1


SERIES TEMPORALES • 465

En el esquema multiplicativo calculamos los índices de variación estacional,


dados por
_,
¡k = Y.k . 100
y
se pueden interpretar como el tanto por ciento de aumento o disminución
el valor anual medio que se observa en un dato por pertenecer a un mes

Obtenido ese índice de variación estacional para el mes k, la componente


ional no es más que

/k Y.k
e=-=-
ik 100 y
En el caso de que la serie no presente tendencia, es decir, b = O, entonces
cálculos se simplifican mucho, dando lugar a lo que se conoce como méto-
de las relaciones de las medias mensuales respecto a la media anual, que
un caso particular del anterior.

2.3.2. MÉTODO DE LAS MEDIAS MÓVILES

método consiste en:


• Obtener la componente extraestacional mediante un ajuste de la serie origi-
empleando medias móviles con p = 12 , para eliminar las variaciones esta-
............... (A este respecto, recuérdese lo dicho al hablar del método de medias
para la determinación de tendencias.) Recordemos que será necesario
posterior centrado de la serie, lo que en conjunto nos llevará a perder las
primeras observaciones y las seis últimas e;
2
- 1) .

....,,uu;o.u-.•v la media para el mes k, tenemos


e·k =-y· k -E·k - r·k
que las medias son de m (N - 1) datos por las observaciones per-
466 • SECCIÓN 6. SERIES TEMPORALES

Si hacemos el supuesto de que las variaciones irregulares asociadas


mes concreto se compensan en diferentes años (es decir, si r:k = O) , ent:oa•

e·k =-
Y.k -E· k
Si el esquema es multiplicativo,

equivale a
1 N-i y. 1 N-1 1 N- ir.
--L-A=-- ¿eik + - - L -lL
N - 1 ; = Eik
1 N - 1 ;= N - 1 ; = Eik
1 1

Si hacemos el supuesto de que para un mes concreto las variaciones


les expresadas en porcentajes de la componente extraestacional se coiTID(~IlSil•
N-1
lo largo de varios años (es decir, si L t¡k/ Eik = O)
i = 1

En cualquier caso, e_k es el valor de la componente estacional para el


k-ésimo.

12.4 Aplicaciones prácticas


Consideremos la serie sobre ventas recogida en el apartado 12.1 y "u~JV.,,5 w~
en principio , que desconocemos sus componentes teóricas. Vamos a aplicar
distintas técnicas que hemos estudiado hasta ahora, para posteriormente
rarlas entre sí y con los valores verdaderos.
En primer lugar, tenemos que determj.nar si el esquema es aditivo o
plicativo; para ello, dividamos la serie en grupos de dos años y calculemos
media y la desviación típica de cada grupo. Tenemos

1998-1999 111 ,92 28,13


2000-2001 135,54 28,00
2002-2003 160,04 29,23
SERIES T EMPORALES • 467

como vemos, no parece existir relación entre la media y la desviación típica,


pues la primera siempre crece, mientras que ésta es más estable. Por otra parte,
al tener sólo tres pares de valores la comparación tiene mucho de ficticia; en
esto, como en tantos otros aspectos del análisis de series de tiempo, la longitud
de la serie juega un papel fundamental.

Parece mucho más fiable el método visual que propusimos. Podemos obser-
Yar que la serie parece moverse alrededor de la tendencia con una dispersión
o menos constante (compruébese en su representación gráfica en la figura
2.1); así, aunque la tendencia es alcista las oscilaciones alrededor de ella no se
más pronunciadas.
Por lo que respecta a la variación estacional, en primer lugar podemos
w-u-nnrntv>r que existe, fijándonos en que el valor de enero siempre es menor
el del diciembre anterior, agosto siempre es menor que septiembre, etc. Al
tiempo, no parece que la diferencia entre meses tienda a crecer a medi-
que crece la tendencia, con lo que podemos suponer que el esquema es adi-

Pasemos ahora a la determinación de la tendencia, haciendo uso del método


ajuste analítico. Podemos calcular las ventas medias para cada año, y obte-

una recta a estos datos (y haciendo la transformación i'


poo;> •.a.u..•v =i - 1998
simplificar cálculos)
815 = 6a + 15b
2167,81 = 15a + 55b
b = 7,45, y por lo tanto , para cada mes del año
, la tendencia será
I;k == 117,22 + 7,45(i - 1998)
468 • SECCIÓN 6. SERIES TEMPORALES

de donde obtenernos la serie sin tendencia representada en el gráfico


ventas» corno serie l.

112,46 124,58 135,98 148,72


Febrero 113,39 125,50 137,00 149,88
Marzo 114,34 126,42 138,06 150,84
Abril 115,34 127,50 139,00 151,58
Mayo 116,23 128,60 140,00 152,38
Junio 117,25 129,56 141,10 153,29
Julio 118,29 130,58 142,21 154,34
Agosto 119,21 131,60 143,38 155,38
Septiembre 120,14 132,56 144,48 156,20
Octubre 121,29 133,56 145,48 157,06
Noviembre 122,44 134,48 146,50 158,12
Diciembre 123,50 135,23 147,56 159,23

Pasando al método de las medias móviles, si observamos la serie, parece


da 24 observaciones se repite el mismo patrón, lo que nos sugiere tornar p =
en este caso, calcularnos Y<24 +t)/ 2 , Y<24 + 3>12 , ... , es decir, Y12.5' .Y13, 5 , ... COIID
rnos observar, la serie está descentrada, y para centrarla calcularnos
media de .Y;2 ,5 y Y13,5 , ~ 4 como media de .Y13,5 y .Y14•5 , y así sucesivamente.
niendo los resultados recogidos en el cuadro anterior de medias móviles.
24 2
Podemos comprobar como perdemos las { - 1 observaciones
restando el dato original de la cifra correspondiente de la media móvil de
cuadro obtenemos la serie sin tendencia representada en el gráfico
ventaS>> como serie 2.
Comparando los resultados, vernos que el método de ajuste analítico y
medias móviles dan resultados muy parecidos (de hecho, observando
samente ambas series, parece que subsiste un ligero movimiento al alza,
que la eliminación de esta componente no fue total), permitiendo ver con
dad la componente cíclica y la estacional.
Centrándonos ahora en la componente estacional, y más concretameme
el primer método planteado, recordemos que el coeficiente de regresión
regresión de Y;. sobre i era 7,45, de donde b/ m = 7,45/12. Si calculamos
medias mensuales
SERIES TEMPORALES • 469

U)

....e<11
Q)
>
Q)
"'O
Q)
-~
(/)

co
...
N
470 • SECCIÓN 6. SERIES TEMPORALES

de donde las medias mensuales corregidas serán

.,..,
Y.k = Y.k - 7' 45 (k - 1) ,
12
es decir,

Como la media global corregida es


cional del mes k-ésimo será

e.k -13,09 -6,54 o.n -2,78 -7,93 0,48

y la serie desestacionalizada, obtenida restando del dato original la cm:r.-•


estacional del mes correspondiente, aparece en el siguiente gráfico como
Pasando al método de medias móviles, calculemos y(I2+I)/2 ' y< 12 + 3> •
12
mo la serie está descentrada la centramos de la forma conocida, oo;tenleJJ•
valores y7 , y8 , y9 , .•• ; calculando la media para el mes k-ésimo de estos
obtenemos E.k ; para calcular la componente estacional sólo tenemos que
cular Y.k - E.k , obteniendo

e.k - 16.96 -9,19 -1.43 - 3.63 7,38 -0,15

Si ahora restamos de la serie original la componente estacional corre sot~Jl(•


obtenemos la serie desestacionalizada que aparece en la figura 12.7 como
Comparando los dos métodos, vemos como dan resultados muy su·.l ll.lcu.......
tiempo que aproximan bastante bien la auténtica serie desestacionalizada.
SERIES TEMPORALES • 471
______________.........
EJERCICIOS DE LA SECCIÓN 6 • 475

Ejercicio 6. 1
¿Con qué componentes de una serie temporal asociaría cada uno de los siguientes
hechos?
(a) Una huelga de trabajadores del sector del metal.
(b) Un incremento de la producción de trigo debido a la incorporación de nuevas
técnicas de cultivo.
(" Un aumento de las ventas de automóviles durante el mes de mayo.
d) Una disminución de las ventas de helados en agosto a causa de una oleada de
frío.
(e) Una recesión en el volumen de construcción de viviendas durante tres años.

:OLUC/ÓN
Una huelga de trabajadores del sector del metal es una fluctuación de tipo errático
o residual, que no presenta periodicidad.
La incorporación de nuevas técnicas de cultivo cambiará la estructura de la pro-
ducción de trigo; aquí aparece un cambio de tendencia de la serie.
~ El incremento de las ventas de automóviles durante el mes de mayo es un movi-
miento estacional que obedece a la lógica demanda del consumidor que, aproxi-
mándose las fechas veraniegas, elige esta época para plantearse este tipo de acqui-
sición.
El movimiento es claramente residual.
Este hecho de la recesión del volumen de construcción de viviendas es cíclico;
téngase en cuenta el período superior al año del supuesto.

rcicio 6.2
Yolumen de facturación de un hipermercado, desde 1989 hasta 2003, ha seguido
siguiente evolución:
476 • SECCIÓN 6. SERIES TEMPORA LES

1989 2 500
1990 3 400
1991 3 800
1992 4 200
1993 4 700
1994 5 200
1995 5 500
1996 6000
1997 6 500
1998 6200
1999 7 500
2000 8 200
2001 9000
2002 9 300
2003 9 000

(a) Estímese cuál será el volumen de facturación de ese bipermercado en


2006 a través de la recta de tendencia.
(b) Calcúlese un coeficiente que mida el grado de bondad del ajuste y
el resultado obtenido.

SOLUCIÓN
(a) Consideraremos la siguiente tendencia
y1 == a+ bt.

Para facilitar los cálculos haremos el cambio de variable


t' =t - 1996.
Hemos seleccionado el origen 1996 por ser el central.
Formemos la tabla siguiente:
EJERCICIOS DE LA SECCIÓN 6 • 477

.. .
\,
'
. ' - - --

. --
1 y. "'-

~
.t. _,
- - -

1989 2 500 -7 49 -17 500 6 250 ()()()


1990 3 400 --ó 36 -20 400 11 560 000
1991 3 800 -5 25 -19 000 14 440 000
1992 4 200 -4 16 -16 800 17 640 ()()()
1993 4 700 -3 9 -14 100 22 090 ()()()
1994 5 200 -2 4 -10 400 27 040 ()()()
1995 5 500 -1 1 -5 500 30 250 ()()()
1996 6 000 o o o 36 000 ()()()
1997 6 500 1 1 6 500 42 250 ()()()
1998 6200 2 4 12 400 38 440 ()()()
1999 7 500 3 9 22 500 56 250 ()()()
2000 8 200 4 16 32 800 67 240 ()()()
2001 9000 5 25 45 000 81 000 000
2002 9 300 6 36 55 800 86 490 (){)()
2003 9000 7 49 63 000 81 000 ()()()

91 000 o 280 134 300 617 940 ()()()

Tenemos que

Entonces

- = LYr = 91 000 = 6 066 66


y N 15 '

t' = L:t' = _Q_ = o


N 15
2 2
Sy = aoz - ao1
a 01 = y = 6 066,66

a = LYr2 = 617 940 000 = 41196 000


02
N 15
Sy 2
= 41196 000 - 6 066,662 = 4 391636,45
Sr'2 = a2o - aw
2

a10 =t' = O
-
a20
L:t' 280 = 18 66
= -- = -
2

N 15 '
478 • SECCIÓN 6. SERIES TEMPORALES

s; = 18,66- 0 2
= 18,66
Syr, = a11 - a10a01

a = ~), . t' = 134 300 = 8 953 33


11
N 15 '
Syt. = 8 953,33- O· 6 066,66 = 8 953,33
donde

b = 8 953,33 = 479 81
18,66 '
a' = 6 066,66- 479,81 ·O = 6 066,66
Por tanto, la recta de tendencia es
Y, = 6 066,66 + 479,811' ,

o bien
Y, = 6 066,66 + 479,81(t- 1996),

por lo cual la estimación de la facturación del hipermercado para 2006 será

yi006 = 6 066,66 + 479,81(2000 -1990) = 10 864,76 miles de dólares.

(b) El coeficiente que nos puede medir el grado de bondad del ajuste es el coe:na.e~~
de correlación lineal

r = s )1' = 8 953,33 = 0,989.


SA· ~4 391636,45 . .JI8,66
Al ser r = O, 989 , próximo a uno, el ajuste lineal para la tendencia es idóneo

Ejercicio 6.3
Una empresa, con vistas a afrontar la fmanciación de una posible expansión,
interesada en estimar el volumen de ventas para el año 2009. Para ello utiliza
información disponible de las ventas de años anteriores.
EJERCICIOS DE LA SECCIÓN 6 • 479

1994 100
1995 120
1996 132
1997 140
1998 182
1999 210
2000 205
2001 310
2002 420 (2 524 250,84 €)
2003 430 (2 584 352,05 €)

¿Podría afrontar, con cargo a su volumen de ventas, un desembolso fmanciero de


quinientos millones de pesetas en el año 2006? ¿En qué medida podría confiar en el
análisis anterior?

SOLUCIÓN. En primer lugar, estimemos el volumen de ventas para el año 2006.


Para ello, hagamos la hipótesis de comportamiento lineal para la tendencia; es decir,
y1 =a + bt.

Para facilitar el cálculo haremos el cambio


t' = t -1998 .
La tabla a formar será:

1994 100 -4 16 10 000 -400


1995 120 -3 9 14 400 - 360
1996 132 -2 4 17 424 -264
1997 140 -1 1 19 600 - 140
1998 182 o o 33 124 o
1999 210 1 1 44100 210
2000 205 2 4 42025 410
2001 310 3 9 96 100 930
2002 420 4 16 176 400 1 680
2003 430 5 25 184 900 2 150
2249 5 85 638 073 4 216
480 • SECCIÓN 6. SERIES TEMPORALES

Tenemos que

- = I Y, = 2 249 = 224 9
Y N 10 '
~t :L/
=- = -
5 = 0,5
N 10
Sy2 = ao2 - ao1
2

a 01 = y = 224,9
a02 = LY? = 638 073 = 63 807 3
N 10 '
s: = 63 807,3 - 224,9 = 13 227,29 2

Sr·2 = aw - aw
2

a 10 = t' = 0,5

a 20
It'- = -85 = 8,5
=-
2

N 10
s,: = 8,5 - 0,5
2
= 8,25

"' Y · t'
a 11
-
-
L., t
N
= -4 10
216
- = 421,6
syt. = 421,6- 224,9. o,5 = 309,15.
Entonces

b = s". = 309,15 = 37 47
2
S,. 8' 25 •
a' =y- bi' = 224,9- 37,47 · 0,5 = 206,16.

La tendencia ajustada será


Y, = 206,16 + 37,47 · t'

o bien
Y, = 206,16 + 37,47 (t - 1998).

El volumen de ventas estimado para el año 2006 se situará en

Yiooo = 206,16 + 37,47 (2000- 1989) = 618,33 millones de ptas. ó 3 716 238,15
EJERCICIOS DE LA SECCIÓN 6 • 481

Con un volumen de 618,33 · 106 ptas, sí podrá la empresa afrontar el desembolso


previsto.
¿En qué medida podemos confiar en este resultado? En la medida en que el ajuste
corresponda a un alto grado de asociación lineal entre variables (que nos lo medirá el
coeficiente de correlación lineal) y en que las ventas no modifiquen su tendencia.
Lo que podemos cuantificar es el grado de asociación lineal a través del correspon-
diente coeficiente de correlación

r = !L_ = 309,15 = 0 93
sy s ~13 221,29 .Js,25
1
• ' ·

Este coeficiente nos indica la existencia de un alto grado de dependencia lineal en-
tre las variables.

Ejercicio 6.4
El volumen de pasivos fmancieros (en millones de libras esterlinas) de la banca
privada en el período 1992-2003 evolucionó de la forma siguiente:

2,5 -12,5
3,1 -4 -12,4
3,9 -3 - 11 ,7 -27
4,7 -2 -9,4 -8
5,9 -1 1 - 5,9 -1
7,0 o o 0,0 o
8,0 1 1 8,0 1 8,0
9,6 2 4 19,2 8 16 38,4
11,7 3 9 35 ,1 27 81 105,3
14,0 4 16 56,0 64 256 224,0
16,8 5 25 84,0 125 625 420,0
19,2 6 36 115,2 216 1 296 691,2

106,4 6 146 265,6 216 3 254 1 658,8

Obténgase una previsión para 2005, según las hipótesis:


Crecimiento lineal.
Crecimienta parabólico de _segundo grado.

..,·".
1, •

... ...
482 • SECCIÓN 6. SERIES TEMPORALES

SOLUCIÓN
(a) Para simplificar los cálculos hacemos el cambio
t' = t-1997
por lo que la recta ahora ajustada será
y1 =a+ bt'

cuyos coeficientes a y b se obtienen a partir de las ecuaciones normales

L Y = T · a + b L t' }
1

¿ t'yt = a ¿ t' + b ¿ r•2


que, en este caso, son

106,4 = 12a + b6 }
265,6 = 6a + b146

en donde
a = 8,12 b = 1,49
y la recta ajustada es
Y1 = 8,12 + 1,49t'
es decir
Y1 = 8,12 + 1,49(t- 1997)

y la predicción lineal para 2005 es

Yri'5 = 8,12 + 1,49 (2005 -1997) = 20,04 millones de


(b) Para ajustar la parábola
y1 = a + bt' + et'2

las ecuaciones normales son


2
L Y = Ta + b L t' + e L t'
1 }

¿ t'yt = a ¿ t' + b ¿ r·2 + e ¿ t'3


¿ t'2yt = a ¿ t'2 + b ¿ r·3 + e ¿ r•4
que, para este ejemplo, son

106,4 = 12a + 6b + 146e}


265,6 = 6a + 146b + 216e
1658,8 = 146a + 216b + 3 254e
EJERCICIOS DE LA SECCIÓN 6 • 483

Este sistema, una vez resuelto, nos lleva a que la parábola ajustada es

Yr = 6, 97 + 1, 37t' + O,llt' 2
Yr = 6,97 + 1,37 (t -1977) + O,ll(t -1997) 2

que, para t = 2005 , nos proporciona la predicción y6'5 = 24,97 millones de li-
br.as-esterlinas.
Para poder estudiar cuál de las dos predicciones es mejor se deberían determinar
los correspondientes coeficientes de correlación, lineal y parabólico, con lo que
podemos hacernos una idea de cuál de los dos modelos ajustados se adapta mejor a
la información disponible, y, además, en el caso más favorable, si el ajuste es su-
ficientemente bueno. En efecto, podría ocurrir que el ajuste lineal fuera mejor que
el parabólico, por ejemplo; pero podría ser el coeficiente de correlación lineal su-
ficientemente bajo e indicarnos que tampoco este ajuste es bueno, con lo que de-
beríamos buscar otro modelo de éomportamiento que respondiera mejor a la es-
tructura de relación entre estas variables.

De 1992 a 2003, la inversión en instalaciones turísticas fue la siguiente:


;"':. ~-- . - .. -.
" ' . . .
:·. ·. .. -:_:. .. .
k~~-~~~-~-~ .. : ·.. ::_? ··: ·:-- ~
1992 600
1993 800
1994 750
1995 400
1996 350
1997 500
1998 1 000
1999 950
2000 810
2001 540
2002 720
2003 1 160

Si la inversión turística se comporta cíclicamente y el período del ciclo es de


cinco años, determínese la tendencia por el método de las medias móviles.
El mismo supuesto si el período del ciclo fuera de cuatro años.
484 • SECCIÓN 6. SERIES TEMPORALES

SOLUCIÓN
(a) Al tener el ciclo un período de cinco años, consideraremos medias
cada cinco años, tales· como

- Y1 + Y2 + ··· + Yp
Yp+l =
-2- p

- _ Y2 + Y3 + ... + Yp+l
Yp+3 -
-2- p

Como p = 5 , las medias móviles son

- _ Y¡ + Y2 +; .. + Ys
y3 - 5
y +y +···+y
y4 = 2 3 5 6

La serie de medias móviles será

Aflos Inversión Total móvil Media móvil

1992 600 - -
1993 800 - -
1994 750 2900 580
1995 400 2 800 560
1996 350 3 000 600
1997 500 3 200 640
1998 1 000 3 610 722
1999 950 3 800 760
2000 810 4 020 804
2001 540 4 180 836
2002 720 - -
2003 1 160 - -
EJERCICIOS DE LA SECCIÓN 6 • 485

Y,

1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003

FIGURA E6.1

mayor comodidad, obtenemos primero los totales móviles de cada cinco


y posteriormente hallamos las medias móviles dividiendo por cinco.

d caso del ciclo con un período de cuatro años, período par de años, las me-
móviles serían
486 • SECCIÓN 6. SERIES TEMPORALES

Años

1992 600
1993 800
.......................... 2 550
1994 750 4 850
.......................... 2 300
1995 400 4 300
...... .. ....................... 2 000
1996 350 4 250
...........................2 250
1997 500 5 050
.................... ...... 2 800
1998 1 000 6 060
.......................... 3 260
1999 950 6 560
...... . ...... ... ............... 3 300
2000 810 6 320
....................... .... .... 3 020
2001 540 6 250
.................. .. ..... ..... . 3 230
2002 720
2003 1 160

La serie de medías móviles quedaria descentrada respecto a los


tiempo en que se ha tomado información. Así, en este caso, en el
son anuales, las medías móviles obtenidas quedarian en los 2,5, 3.5
decir, a mitad de cada año. Para centrar esta serie de medías móviles
otras medias móviles de cada dos medias móviles; por ejemplo, la
las medias móviles ubicadas en los momentos 2,5 y 3,5 quedaría en

2, 5 + 3,5 = 3.
2
El procedimiento práctico, en este caso, para obtener las .............u ....
móviles centradas es obtener los totales móviles de cada cuatro datos
pués obtener los totales móviles centrados de cada dos totales móviles
y, por fm, dividir por ocho.
La serie de medías móviles centradas sería la que se muestra en e
esta página.
La tendencia sería, por su parte, la poligonal que une las medias
tradas.
EJERCICIOS DE LA SECCIÓN 6 • 487

6.6
recogido datos de la evolución de los gastos (en €) en vestido y calzado por
y mes durante los años 2002, 2003 y 2004:

1er Trimestre 12 13 15
2 ° Trimestre 15 18 18
3er Trimestre 10 12 10
4 ° Trimestre 22 25 32

i llamamos Y¡. al gasto total por año, la tendencia lineal será

Y1•. =a + bi.

2002 59 -1 1 -59 3 481


2003 68 o o o 4 624
2004 75 75 5 625

202 o 2 16 13 730

-
Y = ¿)¡. = 202 = 67 33
N 3 '

r = ¿t = .2. = o
N 3
2 2
Sy = a02 - ao1

a01 = Y = 67,33
488 • SECCIÓN 6. SERIES TEMPORALES

a =
02
~>~ = 13 730 = 4 576 67
N 3 '
Sy2 = 4 576,67- 67,33 = 43,34 2

S;·2 = a2o - a1o


2

a10 = r =o
a
¿·12 2
= _ l _ = - = O 67
2o N 3 '
2
si: = o,67- 0 = o,67

= LLY;.i' = ~ = 5 33
ll¡¡ N 3 '
syi' = 5,33- o. 67,33 = 5,33.

Por tanto

b = syi. = 5,33 = 7 95
si: o, 67 •
a' = y- bf = 67,33 - 7,95 ·O = 67,33
La tendencia para el gasto total es
Y;. = 67,33 + 7,95(i- 2003).

La bondad del ajuste viene medida por

r = syi' = 5,33 = 0,989.


sysi. .J43,34 .Jo,67

(b) Para poder desestacionalizar debemos previamente determinar los índices de


riación estacional; utilizaremos el método de las relaciones de las medias
les respecto a la tendencia.
Calcularemos la pendiente de la tendencia ajustada a las medias anuales:

2002 14,75 -1 1 - 14,75


2003 17 o o o
2004 18,75 18,75

50,50 o 2 4
EJERCICIOS DE LA SECCIÓN 6 • 489

Por tanto,

50,50 = 3a + Ob}
4 = Oa + 2b

de donde
4
b= - =2.
2
Formemos la siguiente tabla:
-.

~ -;/:~_;.:~~;;;:~~L>,··.,;;:::>~:-.=-k~;L :_· ,_-_. . _._,_- _:~_ ~--,:-. ~- _· ' ---~)~:~~·; : ~ ~~~<~~::~·:: ':_., :: ;ii:~~j
1er Trimestre 12 13 15 40 13,33 13,33 83%
2° Trimestre 15 18 18 51 17 16,50 103%
3er Trimestre 10 12 10 32 10,67 9,67 60%
4 ° Trimestre 22 25 32 79 26,33 24,83 154%

Total ..... 59 68 75 64,33


1
1 Y;. 14,75 17 18,75 16,08
·'

Las medias corregidas de la tendencia son:

"12 = 17- .¡ = 16,5

2·2
"13 = 10,67 - - 4- = 9,67

3-2
"14 = 26,33 - -4- = 24,83.

Al determinar la media y
16,08, los índices de variación estacional, bajo el
=
supuesto de esquema multiplicativo, son:
13 33
/VE1 = • . 100 = 83%
16, 08
16 50
/VE2 = • . 100 = 103%
16,08
9 67
/VE3 = • . 100 = 60%
16,08
24 83
/VE4 = • . 100 = 154%.
16,08
Para desestacionalizar basta con dividir los datos correspondientes a las obser-
vaciones trimestrales por sus respectivos índices de variación estacional.
490 • SECCIÓN 6. SERIES TEMPORALES

En nuestro caso, la serie desestacionalizada quedaría:

1er Trimestre .E_= 14 46


0,83 •
~
0,83
= 15 66

~ = 18 07
0,83 '

2° Trimestre ~ = 14 56 ~
1, 03
= 17 47

~
1,03
= 17 47

1,03 •

3er Trimestre ~
0,60
= 16 67

_E_= 20 -
10
0,60
= 16 67

0,60

4 ° Trimestre _E_= 14 28 ~
1,54
= 16•23 23._ = 20 78
1,54 • 1,54 .

2. Si suponemos que el esquema es aditivo,


trimestre será

e. 1 = 13,33 - 16,08 = - 2,75


e;2 = 16,50 -16,08 = +0,42
e.3 = 9,67 - 16,08 = -6, 41

e. 4 = 24,83 - 16,08 = +8, 75

La desestacionalización, en este caso, se efectúa por diferencia, de


la nueva serie desestacionalizada sería:

2° Trimestre 15-0,42 = 14,58 18- 0,42 = 17, 58


3erTrimestre 10 - (-6,41) = 16, 41 12- (-6, 41) = 18,41
4° Trimestre 22-8,75 = 13,25 25- 8, 75 = 16,25 32-8,75 =

(e) La recta de tendencia, obtenida sobre los valores medios anuales, era
b=2
50 5
a' = • = 16 8
3 '
Y;. = 16,8 + 2 (i - 2003)
EJERCICIOS DE LA SECCIÓN 6 • 491

con lo que el valor de la tendencia para cada uno de estos tres años será

2002 16,8 + 2(2002- 2003) = 14,8


2003 16,8 + 2(2003 - 2003) = 16,8
2004 16,8 + 2(2004- 2003) = 18,8

y la serie sin tendencia bajo esquema aditivo es

1er Trimestre -2,8 -3,8 -3,8

2 ° Trimestre 0,2 1,2 -0,8

3er Trimestre -4,8 -4,8 -8 ,8

4 ° Trimestre 7,2 8,2 13,2

y en el supuesto multiplicativo

1er Trimestre 0,81 0,77 0,80

2 ° Trimestre 1,01 1,07 0,96

3er Trimestre 0,68 0,71 0,53

4 ° Trimestre 1,49 1,49 1,70

rcicio 6. 7
precios de una mercancía, observados durante cada trimestre de los años
, 2000, 2001, 2002 y 2003 fueron los siguientes:
492 • SECCIÓN 6. SERIES TEMPORALES

1999 ¡o 2
1999 20 3
1999 30 3
1999 40 4
2000 ¡o 5
2000 20 4
2000 30 5
2000 40 6
2001 ¡o 5
2001 20 4
2001 30 4
2001 40 3
2002 ¡o 3
2002 20 4
2002 30 6
2002 40 7
2003 ¡o 6
2003 20 6
2003 30 8
2003 40 8

Analícese esta serie histórica, calculando la tendencia de las


medias anuales y un sistema de números índices trimestrales
estacional (suponiendo un esquema multiplicativo).

SOLUCIÓN. Dispongamos la información de la forma siguiente:

1er Trimestre 2 5 5 3 6
2° Trimestre 3 4 4 4 6
3er Trimestre 3 5 4 6 8
4 o Trimestre 4 6 3 7 8

Totales Y;. 12 20 16 20 28

Medias Y;. 3 5 4 5 7

La serie de medias anuales se calculó en la tabla anterior. La tendencia será


-.1• =a+ bi
Y
donde Y;. representa la media anual en el año i. Para realizar el ajuste hacemos el
bio i' = i - 2001, entonces
EJERCICIOS DE LA SECCIÓN 6 • 493

~. - :- --- ' . -

li·.~·--·-'.··, .·_:·· <'. _-___ ---


'
_'!·.-:: .. _.~·~~~-:{)
1999 3 -2 4 -6
2000 5 -1 1 -5
2001 4 o o o
2002 5 1 1 5
2003 7 2 4 14
24 o 10 8

Como

I~. =Na+ bii'


I~.i' = a¿t + b ¿t2

24 5a + bO }
=
8 = aO + blO
24
a=-=48
5 '
8
b = - = 0,8.
10

La tendencia para las correspondientes medias anuales será

~: = 4,8 + 0,8 (i - 2001)


Para determinar el sistema de números índices trimestrales de variación estacional
laremc)s el método de las relaciones de las medias mensuales respecto a la tenden-

:Ieníe11do en cuenta que la pendiente de la recta ajustada sobre las medias es


0.8 , formaremos el siguiente cuadro:

4,0
4,8
7 5,0 111%
12 20 16 20 28 18,0

3 5 4 5 7 4,5
494 • SECCIÓN 6 . SERIES TEMPORALES

Una vez determinadas las medias mensuales .Y.k , se corrigen de la tendencia

Y:l = 4,2 .,.., = 4•2- 0 •8 = 4


Y.z 4

.,.., = 5 6 - 3 . 0,8 = 5
Y.4 • ·
4
Posteriorm~nte se calcula la media de las medias corregidas, que en este
y= 4,5.

Los IVE serán los porcentajes respecto a Y' de cada media corregida, ya que
nemos que el esquema es multiplicativo; para el primer trimestre, por ejemplo:
42
!VE1 = • . 100 = 93%.
4,5
Los demás índices, ya calculados de forma análoga, figuran en la tabla.

Ejercicio 6.8
La región A de un determinado país experimentó, desde 1998 hasta
siguientes entradas de turistas en millones:

Primavera 2 3 3 4 4 5 6
Verano 6 9 11 14 16 19 20
Otoño 3 3 4 4 5 5 6
Invierno 1 1 2 2 3 3 4
Total ... 12 16 20 24 28 32 36

Calcúlense los índices de variación estacional por el método de las relaciones


medias mensuales respecto a la tendencia y explíquese su significado.

SOLUCIÓN. El desarrollo del método es el siguiente:


l. Se obtienen las medias anuales C.Y;.) .
En e_ste caso serían:
- - 12 - 3
Y¡.- 4 -

- - 16 - 4
Yz. - -
4
EJERCICIOS DE LA SECCIÓN 6 • 495

: .

Se ajusta una recta de tendencia a las medias anuales

..... -ex.."''"--·.·. ·. • ·-.. ,.


,.,..-~~~~·~=~~~--,.-····
~~~~ . r~~r::..i~:r"'?>~-~ " ---~--·~-~""""'"'"'~~-

':f,,. V'l .~~~,!~·~""""::::- ~ ~

~~~<,.!1¡;.~4:~:;.el'~é~"l:r::"'~ ••. '/·""'·"·/~#!.;.~


~ ;¡:
"Ó.
t~ t·~·.; ~ : ~ .~··Jl.~ i:;t:;.¡;
1
~ ~ ~ "~~..~wffi~..!"~:l :'l.: ·,'25 ;~.:·! ~:~7 .,i:'~- .
1 -1

1998 3 -3 9 -9
1999 4 -2 4 -8
2000 5 -1 1 -5
2001 6 o o o
2002 7 1 1 7
2003 8 2 4 16
2004 9 3 9 27
42 o 28 28

Las ecuaciones normales son:

¿y;. = Na+ bLi' }


2
¿y;/= a¿t + bL:i'
Entonces

42 = 7a + bO }
28 = aO + b28

de donde
42
b=28= 1 Q= - =6.
28 7
Nos fijamos en la pendiente b, que es el crecimiento de la serie en cada año.

i.
496 • SECCIÓN 6. SERIES TEMPORALES

3 . Se hallan las medias por estación en este caso.


Se recoge esta información y la de los apartados siguientes en el cuadro:

Verano
Otoño
Invierno 4

Total .. 12 16 20 24 28 32 36 22,49

Y;. 3 4 5 6 7 8 9 5,6225

Una vez obtenidas las medias trimestrales Y.k, se corrigen de la tendencia.


4. La corrección de la tendencia se realiza restando a cada media trimestral la
tendencia que le corresponde. Así

.,. ,. = 3' 86 - o4. b = 3' 86


Y.¡

.,.,.2
Y = 13 57 - ~ = 13 57 - !4 = 13' 32
' ' 4 '

r 3
= 4,28- 2
·b
4
= 4,28 - ~ = 3, 78
4
3. b 3
.,.,.4 = 2 28 - -
Y = 2 28 - - = 1 53
' ' 4 ' 4 '
En este caso b = 1 .
5 . Se halla la media de las medias corregidas rk
=- = ¿rk = 22, 49 = 5 6225 .
Y 4 4 '
6. Por fin, los índices de variación estacional (IVE) se obtienen expresando, en
por ciento, cada media corregida de la tendencia respecto a la media de las
corregidas.
El índice de variación estacional para la primavera será:

!VE = ~ . 100 = 68 65% .


p 5,6225 '
EJERCICIOS DE LA SECCIÓN 6 • 497

13 32
IVE
V
= 5,6225
• · 100 = 236' 91%

IVE = ~ · 100 = 67 23%


o 5,6225 '

IVE1 =~·lOO= 27 21%.


5,6225 '

La componente estacional actúa positivamente en verano, ya que su IVE es mayor


que 100, y negativamente en las otras tres estaciones. Hay una clara estacionalidad
del número de turistas entrados, con puntas máximas que se repiten en cada verano.

6.9
la empresa VENPLASA, que se dedica a la venta a plazos, se registró el
pien1te volumen de ventas trimestrales (en millones de euros) durante los años
2002 y 2003:
. . .

L~ :~f~_:-': . ." ·-.-: >, ;~ · _·, ·..· . . .·. ::~---~·>-,-~·


1er Trimestre 10 15 17
2° Trimestre 21 25 29
3er Trimestre 4 8 9
4 ° Trimestre 25 30 33

Determínense los índices de variación estacional, comentando los resultados.


Estímense las ventas totales para el año 2004 y para cada uno de sus tri-
mestres.

75 24,125
4 21 5,25
25 88 26,705

Total ..... 60 78 88 70,080

Y;. 15 19,5 22 17,520


498 • SECCIÓN 6. SERIES TEMPORALES

Calculemos la pendiente b de la recta de tendencia usando las medias anuales


para lo cual

2001 15 -1 1 -15
2002 19,5 o o o
2003 22 1 22

56,5 o 2 7

Por las ecuaciones normales mínimo-cuadráticas

56,5 = 3a + bO }
7 = aO + b2

de donde
7 56 5
b=-=35 a= ' = 18,8.
2 ' 3
Una vez calculadas las medias trimestrales
este caso

Y:! = 14

.,. ,., = 25 - ~ = 24, 125


Y.2
4
2 35
.,. ,.,
Y.J = 7- .4 • = 5, 25

,. ,., = 29,33- 3 . 3' 5 = 26,705.


Y.4 4
Se calcula la media de las medias corregidas

Y' = 70,08 = 17,52 .


4

Suponiendo que el esquema es multiplicativo, los I. V .E. se obtienen ex¡JreS311111


las medias corregidas en tantos por ciento de su media general

NE1 = __!±.__ · 100 = 79 91%


17,52 ,
24 125
NE2 = ' · 100 = 137 70%
17, 52 ,
EJERCICIOS DE LA SECCIÓN 6 • 499

5 25
IVE3 = • · 100 = 29 96 %
17,52 '
26 705
IVE4 = • ·lOO= 152 43 %.
17,52 '
En esta empresa se produce una estacionalidad en sus ventas de forma que, por
ejemplo, las ventas del segundo trimestre son un 37,7 % superiores a las que ten-
dría en caso de que su actividad no presentara estacionalidad.
La serie de ventas totales anuales es

2001 60 -1 1 3600 -60


2002 78 o o 6 084 o
2003 88 1 1 7 744 88
226 o 2 17 428 28

La recta de tendencia de las ventas anuales es

Y¡. =a+ bi
Haciendo i' = i - 2002 reducimos los cálculos. Sabemos que

-y = L Y¡. = 226 = 75 33
N 3 '

Ji= L,i' = Q =o
N 3
s; = a02 - a~1
a0 1 = J = 75, 33
428
= L,yJ. = 17 = 5 809 33
am N 3 '
s; = 5 809,33- 75,33
2
= 134, n ·
S¡•2 = a2o - a1o
2

a10 = P =O
L, 1 ·12 2
a = - - = - = O 67
20 N 3 '
si: = 0,67 - 0
2
= 0,67
500 • SECCIÓN 6. SERIES TEMPORALES

Syi' == all - aiOaOI

"'Y,·. · i'
=L.,¿:_:.__
28
== - == 9, 33
au == N 3
syr == 9,33- o. 75,33 == 9,33.
Entonces

b == syi' == 9,33 == 13 93
S~ 0,66 '
a' == y- bf == 75,33- 13,93 ·O == 75,33.

La recta ajustada es
Y¡. == 75,33 + 13, 93i'

o bien,
Y¡. == 75,33 + 13,93(i- 2002) .

La estimación de las ventas en 2004 es

y;004 == 75,33 + 13,93(2004- 2002) == 103,19


También podríamos haber estimado las ventas totales en base a la
sobre medias anuales. La estimación de las ventas medias en 2004 sería

y2~ == 18,8 + 3,5(2004- 2002) == 25,8


luego las ventas totales de los 4 trimestres del año 2004 se obtendrían así

y;004 == 4y~ == 4. 25,8 == 103,20

Debemos dar una medida de la bondad del ajuste por medio del ""'•hr:r...,....,
correlación lineal

El ajuste lineal es estadísticamente idóneo.


Para la distribución por trimestres de las ventas en 2004 hay que tener
cuenta la estacionalidad, de manera que las ventas trimestrales serían
EJERCICIOS DE LA SECCIÓN 6 • 501

es decir,

Y~. 1 =Y~. . IVEI = 25,8. 0,7991 = 20,62

Y;004 , 2 = Y~. · IVE2 = 25,8 · 1,3770 = 35,52


Y~. 3 = Y~. · IVE3 = 25,8 · 0,2996 = 7, 73

Y;004 , 4 = Y~. · lVE4 = 25,8 · 1,5243 = 39,33

6.10
evolución estacional del número de turistas en España, en millones de personas,
el período 1961-1968, fue

Como los datos son trimestrales, consideraremos las medias móviles


cada cuatro datos pero, al ser par el número de elementos que componen la media
, ésta quedará descentrada y será preciso hallar las medias móviles centradas de
dos medias móviles sin centrar.
El procedimiento práctico es obtener, en primer lugar, los totales móviles no cen-
. luego, formar la tabla de totales móviles centrados, y, por fm, determinar las
móviles centradas dividiendo por ocho (4 x 2) cada componente de la tabla

7,45
30-40 7,66
4°-1° 8,14
502 • SECCIÓN 6. SERIES TEMPORALES

Totales móviles centrados

1961 1962 1963 1964 1965 1966


1., Trimestre 16,93 19,72 25,72 28,42 31,94 35,35
2° Trimestre 17,47 21,31 27,84 28,49 34,11 35,63
3•r Trimestre 15 ,L 17,46 22,45 28,06 28,76 34,89 35,74
4 ° Trimestre 15,80 18,12 23,50 28,14 29,57 35,24 36,30

Medias móviles centradas

1961 1962 1963 1964 1965 1966 1967

1er Trimestre 2,11 2,46 3,21 3,55 3,99 4,42


2° Trimestre 2,18 2,66 3,48 3,56 4,26 4,45
3er Trimestre 1,89 2,18 2,80 3,51 3,59 4,36 4,47
4° Trimestre 1,97 2,26 2,94 3,52 3,69 4,40 4,54

l. Si suponemos un esquema aditivo, entonces la componente estacional de


mestre es

e:k = Y.k - E.k


en donde E.k es la componente extraestacional media que obtenemos a través
medias móviles.
Como en la serie original, yík , tenemos que

- =: 13,00 = 1,63
Y., 8

- =: 24,17 = 3,02
Y.2
8
- = 55, 30 = 6 91
Y.J 8 ,

Y.4
= 17,21 =215

8
teniendo en cuenta los valores de E.k de la tabla anterior, la componente
será
e:, = 1,63- 3,49 =: -1,86
e:2 = 3,02- 3,62 = -0,60
e:3 = 6,91 - 3,23 =: 3,68
e:4 = 2,15- 3,33 = -1,18.
EJERCICIOS DE LA SECCIÓN 6 • 503

En este caso, la desestacionalización se realiza por diferencia, de manera que, por


ejemplo, en 1961 los valores desestacionalizados de la serie serían

1"' Trimestre = 2,72


0,86- (-1,86)
2 ° Trimestre 1,53- (-0,60) = 2,13
3er Trimestre 3,64- 3,68 = -0,04
4 ° Trimestre 1,42- (- 1,18) = 2,60

y para toda la serie

1961 1962 1963 1964 1965 1966 1967 1968

2,72 2,93 3,03 3,62 3,48 3,74 4,17 4,19


2,13 2,61 3,17 3,63 3,85 4,40 4,32 4,86
-0,04 0,61 1,65 3,41 3,47 5,29 5,48 5,99
2,60 2,49 3,04 3,40 3,41 3,76 3,85 4,10

En esta serie desestacionalizada observamos, en el tercer trimestre de 1961, un


valor negativo que no puede ser, dado que la variable estudiada es estrictamente no
negativa, ya que es el número de turistas extranjeros entrados en España y, además,
una evolución anómala de todos los valores de este tercer trimestre.
Comprobamos, pues, que bajo la hipótesis de esquema aditivo no queda bien aislada
la componente estacional.
Si nos basamos en la hipótesis de esquema multiplicativo, la componente estacional
se obtiene de la siguiente manera:
Dividimos la serie inicial Y;k por la serie que obtuvimos de medias móviles, que
suponemos que contiene sólo componente extraestacional Eik , obteniendo, pues, la
· Y;k/Eik, que en este ejemplo será

1961 .1962 1"963 19()íl. 1965 19o8

0,507 0,475 0,548 0,456 0,471 0,522 0,499


0,922 0,966 0,871 0,913 0,892 0,836 0,895
1,926 1,968 1,903 2,019 1,991 2,057 2,049
0,721 0,579 0,632 0,631 0,604 0,586 0,588

vez obtenido este cuadro de componente estacional, hallamos las medias por
es decir,
.....,-v>c::1rr"" ,

1 N- 1 Y;k
e:k =-
N
- l: -
- 1 ; ; I Eik
504 • SECCIÓN 6. SERIES TEMPORALES

que son

-
e.¡
= 3,478 =
7
o' 497
6 295
e·2 = •7 = o' 899
13 913
- =
e.J •7 = 1 988
'

- = 4, 341
e.4 7
= o' 620
cuya media, a su vez, es

e= 0,497 + 0,899 + 1,988 + 0,620 = •


1 001
.
4
Los índices de variación estacional se obtienen expresando las medias
trales en tanto por ciento de su media, es decir,
e
IVEk = __:_!_ • 100
e
y, en este caso,
0 497
IVE1 = • = 49 65%
1,001 '
0 899
!VE2 = • = 89 81%
1, 001 '
1 988
!VE3 = • = 198 60%
1,001 '

!VE = 0,620 = 61 94%.


4
1, 001 '

Ahora, para dt,.,sestacionalizar la serie original, se divide cada o


su correspondiente índice de variación estacional. En este ejemplo, la serie
cionalizada que se obtiene es

1961 1962 1963 1964 1965 '1966

1er Trimestre 1,73 2,16 2,36 3,54 3,26 3,79 4,65


2° Trimestre 1,70 2,24 2,86 3,37 3,62 4,23 4,14
3er Trimestre 1,83 2,16 2,68 3,57 3,60 4,52 4,61
4 ° Trimestre 2,29 2,11 3,00 3,58 3,60 4,17 4,31
EJERCICIOS DE LA SECCIÓN 6 • 5 05

en donde, por ejemplo, -·'


1 73 = 0,86
, 49,65%

1,70 = 1,53
89,81%
3 64
1 83 = •
' 198,60%

2,29 = 1,42
61,94 %

Sin limpiar totalmente la serie de componente estacional, esta serie obtenida


tiene mejor comportamiento que la serie desestacionalizada que logramos bajo hipó-
tesis aditiva.

La región A de un determinado país experimentó en el período 1997-2003 las


siguientes entradas de turistas (en millones):

Primavera 2 3 3 4 4 5 6
Verano 6 9 11 14 16 19 20
Otoño 3 3 4 4 5 5 6
, Invierno 2 2 3 3 4

Calcúlense los índices de variación estacional por el método de las relaciones de las
medias mensuales respecto a la tendencia, y por el método de medias móviles,
comparando los resultados.

Método de las relaciones de las medias mensuales respecto a la tendencia. En


primer lugar formamos la tabla siguiente:


500 • SECCIÓN 6. SERIES TEMPORALES

Otoño 3 4
Invierno 2 16

Total .. 12 16 20 24 28 32 36

Y;. 3 4 5 6 7 8 9

donde lo primero que obtenemos son las medias anuales Y.; , a las que ·
una recta de tendencia.
Para ello, teniendo en cuenta que i' = i - 2000 ,

.
i Y¡. i' (2 ~- . i'

1997 3 -3 9 -9
1998 4 -2 4 -8
1999 5 -1 1 -5
2000 6 o o o
2001 7 1 1 7
2002 8 2 4 16
2003 9 3 9 27
42 o 28 28

Las ecuaciones mínimo-cuadráticas de este ajuste son

¿);. = Na +b 2/ }
LY)' = a¿i' + bz.)'2
42 = 7a + bO }
28 = aO + b28

de donde a =6 y b = 1.
Seguidamente calculamos las medias trimestrales Y.k , que ya figuran en la
corrigiéndose a continuación estas medias de la parte de tendencia que les
es decir

ft = Y.t = 3,86
_, = -y - !!._ = 13 57 - .!. = 13 32
Y·2 ·2 4 , 4 ,
EJERCICIOS DE LA SECCIÓN 6 • 507

Y_,·3 = -y·3 - 24b = 4 . 29 - 3:.


4
= 3 79

.,.,·4
Y = -y·4 - 3
4
b = 2•28 - ~
4
= 1•53

Por último, los índices de variación estacional se obtienen expresando cada una
de estas medias en tantos por ciento de su media, luego, si

"""y = 3,86 + 13,32 + 3,79 + 1,53 = 22,50 = 5 625


4 4 •

los índices serán

3 86
JVE1 =f 1 · 100 = • · 100 = 68 62%
y 5,625 •
32
JVE2 =f 2 · 100 = 13• · 100 = 236 80%
y 5,625 •

IVE3 = f3 · 100 = 3•79 · 100 = 67,38%


y 5,625

JVE4 =f 4 · 100 = ~ · 100 = 27 20%.


y 5,625 •

Éstos serían los índices que podríamos utilizar para desestacionalizar la serie en el
supuesto de que admitiéramos un esquema multiplicativo en la relación de sus
componentes.
Método de las medias móviles. Con los datos de que disponemos formaremos
medias móviles de cada cuatro años para, en primer lugar, eliminar la componente
estacional y obtener la componente extraestacional.
Ahora bien, al ser par el número de elementos que forman cada media móvil,
éstas quedarán descentradas, es decir, entre cada dos estaciones, y será necesario
110lver a centrar la serie, para lo que volveremos a hallar medias móviles de cada
de las medias móviles que hayamos obtenido antes.
Desde el punto de vista práctico, parece más cómodo calcular, en primer !u-
los totales móviles de cada cuatro datos, que no estarán centrados; luego, los
de cada dos de los totales no centrados, y, por último, dividir por ocho
x 2) cada elemento de esta tabla final.

,. .
508 • SECCIÓN 6. SERIES TEMPORALES

La primera tabla será:

Totales móviles no centrados

Primavera-verano 16 19 24 27 32 35
Verano-otoño 12 16 20 24 28 32 36
Otoño-invierno 13 16 21 24 29 33
Invierno-primavera 16 18 24 26 32 34

La segunda, de totales móviles centrados, es:

Totales móviles centrados

Estaciones 1997 1998 1999 2000 2001 2002 2003


Primavera 32 37 48 53 64 69
Verano 32 39 48 55 64 71
Otoño 25 32 41 48 57 65
Invierno 29 34 45 50 61 67

Por último, las medias móviles, al dividir por ocho, quedan

Medias móviles centradas

Estaciones 1997 1998 ! 1999 2000 2001 2002 2003


Primavera 4,00 4,62 6,00 6,62 8,00 8,62
Verano 4,00 4,87 6,00 6,87 8,00 8,87
Otoño 3,12 4,00 5,12 6,00 7,12 8,12
Invierno 3,62 4,25 5,62 6,25 7,62 8,37

Ahora, si aceptamos la hipótesis de esquema multiplicativo, para obteg:m


índices de variación estacional dividimos cada uno de los valores de la sene
nal (Y;k) por su correspondiente valor de la media móvil, que suponemos
tiene solamente componente extraestacional (E;k) , al quedar eliminada la
nalidad en el proceso de medias móviles.
EJERCICIOS DE LA SECCIÓN 6 • 509

Esta nueva tabla de la serie de componente estacional e;~ = Y;k será:


Eik
Totales móviles centrados

-~~~~~~Yi::~~~-~i8~_.;_ ~:-i~~:~~:~2~~J)}G}~f{~~hh~~~~:.r~!
Primavera - 0,75 0,65 0,67 0,60 0,62 0,70 0,66
Verano - 2,25 2,26 2,33 2,33 2,37 2,25 2,30
Otoño 0,96 0,75 0,78 0,67 0,70 0,61 - 0,74
Invierno 0,28 0,23 0,36 0,32 0,39 0,36 - 0,32

Se calculan ahora las medias trimestrales de la componente estacional


- 1 N-! Y¡¡¡
e
·k
=-L:-
N - 1 ; Eik = ¡

que son las que figuran en la tabla, cuya media es

e= e: 1 + e: 2 + e: + e:
3 4 = 0,66 + 2,30 + 0,74 + 0,32 =
1005
4 4 •
Entonces, los índices de variación estacional se obtienen determinando los co-
cientes:

IVE =
e
_:.!_ · 100
e
luego

0 66
!VE1 = e:e
1
o 100 = •
1,005
100 = 65 67%
o

'
2 30
IVE2 = e: 2 100 = • · 100 = 228 86%
e o

1,005 '
0 74
!VE3 = e:e
3
-100 = •
1,005
100 = 73 63%
o

'

lVE4 = -·4
e 100 =- -
o,32
100 0
= 31 84/oo
01

e
o

1,oo5 •
CAPÍTULO 13

Tasas de variación

Variación temporal
de variables económicas
su medida

se analizan series estadísticas relativas a alguna variable socioeconórni-


Y, una de las características de estas series, que suele ser objeto de interés,
la referente a su evolución temporal.
A. través de las técnicas estadísticas englobadas dentro de la llamada meto-
de análisis de «Series temporales» se pueden obtener determinados pa-
cte comportamiento de estas variables, extremadamente útiles para reali-
predicciones o proyecciones hacia el futuro sobre la evolución temporal de
económica en cuestión.
Estas técnicas ya han sido estudiadas con cierto detalle en el capítulo anterior.
To obstante, otra característica sobre la que el economista puede centrar su in-
es la relativa a la variación intertemporal de la variable objeto de análisis.
Por esta razón, creemos conveniente dedicar un estudio pormenorizado del
y medición de la variación.

513
514 • SECCIÓN 7 ASAS DE VARIACIÓN

Comencemos por establecer los conceptos más elementales.

13.1.1. VARIACIÓN ABSOLUTA

Sea una serie de observaciones ordenadas en el tiempo relativa a la


económica Y, que denotaremos por:

Yo,~.· .. • ~-1' ~. · •· ' Yr


Estas observaciones se suponen que se han obtenido en períodos
de la misma duración. En principio supondremos, por ser uno de los
frecuentes, que se tienen observaciones mensuales.
La variación absoluta en el mes t, respecto al mes anterior t - l.
como la diferencia e.rtre los valores observados de estos dos meses
vos, es decir:

1 VA(~) = .1~ = ~ - ~-1


Esta diferencia viene dada en las mismas unidades de medida que
original, de manera que si la VA(~) es positiva nos indica que la serie
lucionando temporalmente, por lo menos en lo que se refiere al peJiOII•
mensual estudiado, de manera creciente, al ser mayor el dato re~Dst:nllll•
momento t que en su inmediato anterior t - 1 .
Por el contrario, una variación absoluta negativa nos marca una
decreciente en el período en donde se haya medido la variación.
Vemos, por tanto, que el signo de la VA(~) es suficientemente ·
vo, inicialmente, respecto a la evolución de la serie.
· No podemos decir lo mismo en relación a la cuantía de la variacic:.
luta. Acudamos a un ejemplo para respaldar esta idea.

EJEMPLO
Supongamos que el valor de la serie J-; en el momento t - 1 es igual a 200
en el momento tes 220 unidades, la variación absoluta sería
VA (J-;) = ~1-; = 1-; - J-;_ 1 = 220 - 200 = 20 unidades.
TASAS DE VARIACIÓN • 515

Ahora observemos otra serie X, que en el momento t - 1 toma el valor de 2 000 uni-
dades y en el momento t se sitúa en 2 020 unidades, su variación absoluta entre estos
períodos es

VA (X) = óX, - X, - X, _1 = 2 020 - 2 000 = 20 unidades.

Como puede comprobarse, en ambos casos la variación absoluta es igual a 20 uni-


d;tdes positivas, lo que nos indica un crecimiento de igual signo y cantidad en los dos
casos; sin embargo, por otra parte, parece también evidente que no marca una evolu-
ción temporal semejante el pasar de un valor 200 a otro de 220, que hacerlo desde
2 000 a 2 020.

Para poder medir estas variaciones del modo más preciso, de manera que se
reflejen las características de cada serie, eliminando las diferencias de escala
para que sean comparables entre sí, es necesario relativizarlas, que es lo que
vamos a estudiar a continuación.

13.1.2. VARIACIONES RELATIVAS:


TASAS DE VARIACIÓN

La variación relativa de la serie en el período t, o como normalmente se deno-


mina, su tasa de variación, se representa por ~ y se define como:

VA(Y,) y
Yt - yt-1 = _t_
~ = -----'- -1
Y,_¡ Y,_¡ Y, _¡

Esta medida viene dada, en principio, en tantos por uno, y es habitual ex-
presarla en porcentaje o tantos por ciento, lo que se logra multiplicando el re-
sultado obtenido por 100.

EJEMPLO
(continuación)
En el primer ejemplo ct,_¡ epígrafe anterior la tasa de variación sería
220
~ = - - 1 = 1,10- 1 = 0,10 = 10%
200
es decir, del 0,10 por uno, o del10%, que es lo mismo.
516 • SECCIÓN 7. TASAS DE VARIACIÓN

Un cálculo similar para el segundo ejemplo anterior nos llevaría a

xl = xl - xl-1 = li__ - 1 =
xl-1 x1-1

2020
= -- - 1 = 1, O1 - 1 = O, O1 = 1 %
2000

lo que nos revela que, aunque en ambos casos su crecimiento absoluto fue de 20
des, en la primera serie esta variación suponía un 10% respecto al valor inicial
como referencia mientras que, en el segundo caso, la variación relativa fue del 1

Una ventaja adicional del uso de las tasas de variación proviene del
adimensional de éstas, lo que posibilita cualquier tipo de comparación
evolución de las series, aunque dichas series vengan expresadas en
dispares unidades de medida.
Otra manera de introducir el concepto de tasa de variación que, por
te, se deduce de las definiciones anteriores, proviene de la siguiente ,·,.IPnlhm. .
VA(Y)
t; = t;_1 + VA(t;) = t;_ 1+ ~ t; _1 =
1-1

= t;_¡ + ~t;-1 = t;_¡ (1 + ~)


lo que no representa otra cosa que el hecho de que el valor observado en d
t es igual al valor de la serie en el mes anterior t - 1 más la variación
producida, pudiéndor! expresar esta variación en términos de porcentaje
observación del mes t - 1 .

EJEMPLO
(continuación)
Siguiendo el ejemplo número anterior, la cadena de identidades se transformaría ea

220 = 200 + 20 = 200 20


+ -200 = 200 ( 1 +20- ) = 200(1 + 0,10) .
200 100

.-
Si la variación absoluta es negativa también lo será la correspondiente
de variación.
TASAS DE VARIACIÓN • 517

(continuación)
Así, si en el mes t el valor de la serie es 200 y en el mes anterior es 220, la tasa de
"-ariación que obtendríamos sería

~ = l_ 1 = 200 - 1 =
~ -1 220
= 0,9090- 1 = -0,0909 = -9,09%.

frecuente que de un somero análisis de una serie temporal se pongan de


comportamientos discrepantes del patrón que se observa en la serie.
ejemplo, si analizamos la evolución de una serie de precios de productos
no elaborados podemos encontrarnos con variaciones anormal-
grandes en un mes determinado en relación con las variaciones de los
~"·'-'"-'03 de la mayoría de los mesest.

Si determinamos la tasa de variación en ese mes, obtendremos un valor


alto, reflejando el crecimiento anómalo de la serie, lo que nos
hacer pensar ··.n cambio de ritmo en la evolución de la serie temporal.
embargo, la experiencia nos dice que, en meses posteriores, los valores de
serie suelen recuperar el nivel de los valores anteriores, no siendo tan extre-
~daJnente grandes las variaciones como ese valor concreto podría inducir.

Las soluciones que se proponen para minorar el efecto de esas observacio-


anómalas suponen, como veremos a continuación, una suavización de la
basándose en la promediación de sus valores mensuales.

t: na causa de este hecho podría ser la aparición de una helada o un granizo que reduzca notablemente la
:::osecha de un producto alimenticio básico en una campaña, encareciéndose dicho producto anormal y tran-
moriamente.
518 • SECCIÓN 7 . TASAS DE VARIACIÓN

13.2.1. SUAVIZACIÓN POR MEDIO DE MEDIAS


ESCALONADAS

Medias escalonadas son aquéllas que se calculan con grupos consecuth 01


observaciones excluyentes, es decir, donde no existe ninguna observación
mún entre cada dos medias escalonadas.
La idea que subyace en la suavización de la serie es la de sustituir el
correspondiente a un determinado mes por el valor medio de las on<,.>Mll!>,._
registradas en un número predeterminado de meses. Cuanto mayor sea e
mero de observaciones que se incluyan en el promedio, mayor será el
producido por la suavización.
Para aclarar el procedimiento, utilicemos la siguiente notación para las
servaciones de una serie mensual de datos, correspondientes a los
t - 1:
Ene 1_ 1, Feb 1_ 1, Mar1_ 1, Abr1_ 1, Mayl-1' Juni- I'
Juli-I ' Agoi-I' Set 1_ 1, Oct 1 _ 1, Nov 1_ 1, Dicl-1 '
Ene 1 , Feb 1 , Mar1 , Abr1 , May 1 , Jun 1 ,
Jul 1 , Ago 1 , Set1 , Oct1 , Nov 1 , Dic 1 ,

Unos ejemplos de cálculo directo de tasas de variación mensual,


semestral y anual vendrían dados por las siguientes expresiones:
• Tasa de variación mensual en diciembre del año t

• Tasa de variación trimestral en diciembre del año t

T3 = Dicl -1
Setl ·

• Tasa de variación semestral en diciembre del año t


TASAS DE VARIACIÓN • 519

• Tasa de variación anual en diciembre del año t

Die
T12 = - -1- -1
Die r-1

Los subíndices <<j>> en cada una de las tasas T.J hacen referencia al número de
incluidos en el período en el cual se mide la variación. Eh todos estos
, no hemos tenido en cuenta la estacionalidad. Si se observa este efecto
...,.a.. lvu.,u, como ya hemos comentado, es más conveniente utilizar las tasas
o las que se obtienen por medias móviles, que veremos en el epígrafe

Utilizando medias escalonadas, las tasas de variación que pueden calcularse,


valentes a las anteriores son:
Tasa de variación trimestral

Oct 1 + Nov 1 + Dic 1


Oct + Nov + Dic 1
T*
3
= -=---::---.,....-"'3_----:=--- - 1= r r - 1
Jul1 + Ago1 + Set 1 Jul1 + Ago1 + Set 1
3
En este caso, la tasa de variación es trimestral porque entre las dos medias
existen tres meses de diferencia.
_....v'"'".""

Tasa de variación semestral

Jul 1 + Ago1 + Set 1 + Oct1 + Nov1 + Dic1


T* = ---,.,.,--------,-~6,_____,._ _~---- - 1 =
6 Ene1 + Feb1 + Mar1 + Abr1 + May1 + Jun 1
6
= Jul1 + Ago1 + Set1 + Oct1 + Nov1 + Dic1 _
1
Ene 1 + Feb1 + Mar1 + Abr1 + May 1 + Jun 1

Análogamente, en este caso, entre las medias escalonadas que se emplean


una distancia de seis meses, por lo que la tasa medirá esa variación se-
520 • SECCIÓN 7. TASAS DE VARIACIÓN

• Tasa de variación anual

Ene, + Feb 1 + Mar, + · · · + Nov 1 + Die,


---------"'-12=---------- - 1 =
Ene 1_ 1 + FebH + Mar1_ 1 + · · · + Nov1_ 1 + Dic,_1
12
Ene, + Feb1 + Mar, + · · · + Nov, + Die,
------~--~----~--------~----~---1
Ene,_ 1 + Feb,_ 1 + Mar1_ 1 + · · · + Nov,_ 1 + Die 1_ 1

Aquí la taasa es anual, ya que es obvio que se compara el dato medio


año completo respecto al correlativo del año anterior.

13.2.2. SUAVIZACIÓN POR MEDIO DE MEDIAS MÓVI

En el capítulo anterior ya definimos lo que se entendía por medias


Ejemplos de tasas de variación determinadas en función de valores nrr'n.'.n
a través de medias móviles serían:
• Tasa de variación mensual basándose en medias móviles trimestrales

Oct, + Nov, +Die,


3
-=-------,:::--='----::-::--- -
Oct, + Nov1 +
1 = ___,______,_
Die, _
____ . :. . 1
Set, + Oct, + Nov,
3
• Tasa de variación mensual basándose en medias móviles semestrales

Jul, + Ago, + Set 1 + Oct, + Nov1 + Die,


T.o
1
= -::-------~6-:::-----:::------ _ 1 =
Jun, + Jul 1 + Ago, + Set, + Oct 1 + Nov,
6
= Jul1 + Ago1 + Set1 + Oct 1 + Nov1 + Die, _
1
Jun, + Jul1 + Ago1 + Set1 + Oct, + Nov1

t La utilización de medias móviles para la obtención de tasas, no hace especial hincapié en el tema del
trado de la serie para un p par, ya que aquí lo relevante es la distancia en el eje de tiempos entre las
móviles comparadas.
TASAS DE VARIAC IÓN • 521

• Tasa de variación mensual basándose en medias móviles anuales

Ene1 + Feb 1 + Mar1 + · · · + Nov 1 + Dic1


To
1
= -------~12~------ _ 1 =
Dic1 - 1 + Ene1 + Febl + · · · + Oct l + Novl
12

Todas estas tasas, I;0 , calculadas según medias móviles, son tasas de ca-
mensual porque la distancia entre estas medias móviles calculadas siem-

Equivalencia entre tasas


de variación de
diferentes eríodos

rodo lo anterior implícitamente se desprende que es bastante habitual el


de tasas de variación intermensuales. Pero también es cierto que está
extendida la costumbre de referenciar nuestros cálculos, nuestros análisis y
s a una base anual. Esta ambivalencia de nuestras referencias tem-
más comunes hace necesario el establecimiento de una relación entre las
de variación intermensuales con las anualest .
La cuestión, pues, que debemos resolver es la siguiente: ¿cuál será la tasa
I;2 equivalente a una tasa mensual y;? La respuesta es inmediata, la
equivalente será aquélla que refleje idénticas variaciones absolutas.
Para establecer la expresión matemática que refleje la equivalencia vamos a
como sigue:

es lógico, y como veremos también, se podrán establecer relaciones entre tasas trimestrales y se-
1111:Strales con las anuales, o con las de cualquiera de los períodos entre sí.
522 • SECCIÓN 7. TASAS DE VARIACIÓN

Sea ¡; una tasa mensual determinada; suponiendo que la variación ell.II'r


da dos meses consecutivos de un año se mantiene al mismo nivel ¡; , la
registrará un valor determinado por esa volucíón a final del año, que
calcularse de la forma siguiente:
En el prime·· mes estudiado la tasa I; será:

T=~-Yo=~-1
1 V V
Lo Lo

en donde Y¡ = Y0 (1 + I;).
En el segundo mes tendríamos

T=Y2-~=Y2_1
1 ~ ~

es decir, Y2 = ~ (1 + I;) .
Y así sucesivamente, hasta el duodécimo mes en donde:

T = ~2 - ~~ = ~2 - 1
1 ~] ~]
siendo ~ 2 = ~ 1 (1 + I;).
Estableciendo una relación recurrente mes a mes, obtendríamos que el
final del año de la serie sería:
~2 = ~ 1 <1 + I;) = ~o (1 + I;)(1 + I;) =
= Y.; (1 + I;)(1 + :f¡) (1 + I;) = ... =
= Y0 (1 + I;) (1 + I;)(1 + t 1) • • • (1 + I;) =
= y0 (1 + I;)J2 .

Por otra parte, según hemos visto anteriormente, la tasa de variación


vendría determinada por:

siendo
. ...
-
TASAS DE VARIACIÓN • 523

De estos dos cálculos anteriores se pueden deducir que, lógicamente,


(1 + 7;2) = (1 + 7;)12
en donde la tasa de variación anual equivalente, en función de la tasa de varia-
ción mensual, vendrá dada por la relación:

17;2 = (1 + I;i2 - 1 1
Para reflejar que esta tasa anual es una tasa equivalente a la mensual, es decir,
que se ha calculado a partir de la mensual, la notación más generalizada es la
de 7;1 que se lee como «tasa de variación mensual elevada a anual>>.

En general, las tasas equivalentes se notarán por TJ; cuya lectura será: «tasa
de variación de período j elevada a tasa de período i>> .
Dentro de las tasas de períodos inferiores al año elevadas a anuales, la ex-
presión general que las liga será:

IIJ1= (1 + 1J )12/j - 1 1
A continuación, por ser las más frecuentes, ofrecemos como casos particu-
las relaciones de equivalencia entre tasas para algunos períodos:
Tasa de variación trimestral elevada a anual:

1T3t = (1 + T3 )4 - 1 ~ ·
Tasa de variación cuatrimestral elevada a anual:

1r; = (1 + T4 )3 - 1 1
Tasa de variación semestral elevada a anual:

1r; = (1 + T i - 1 1
6

r'lt'o de los ejercicios que suelen presentarse cuando se trabaja con tasas de
•·.A.:-iación es el referente a su promediación.
524 • SECCIÓN 7. TASAS DE VARIACIÓN

El problema se puede plantear de la siguiente manera. Sea una serie


sual de observaciones

en donde se han producido las siguientes tasas mensuales de variación:

T. (1)
1
= ~-
y
1
o

T. (2) = y2 - 1
1 y
1

T. (3) =
1
y; - 1
y
2

~ (12) = f¡ 2 - 1
Y¡¡
que lo normal es que sean diferentes en cantidad e, incluso, en signo.
Estas diferencias en las tasas mensuales :f¡ (K) , nos hace pensar en cuál
ría el valor de la tasa de variaciór. que aplicada repetidamente a lo largo de
meses nos reprodujera el valor a final del período anual f¡ 2 partiendo de
valor inicial Y0 . Es dt:!cir, la denominada tasa media de variación
ría a aquélla que cumpliera la siguiente relación funcional:

f¡2 = Yo (1 + TM¡i2
Para su determinación no hay más que tener en cuenta que del cálculo de
tasas mensuales de variación se deduce que:
Y¡ = Y0 [1 + :f¡ (1)]
y2 = Y¡ [1 + :f¡ (2)]
y3 = y2 [1 + :f¡ (3)]

f¡2 = Y¡¡ [1 + :f¡ (12)]


TASAS DE VARIACIÓN • 525

que a través de una sustitución recurrente se transforma en

r; = Y0 {U + ~ (1)] [1 + ~ (2)] [1 + ~ (3)] · ·· [1 + ~ (12)]}


2 [2]

Cada uno de los factores


1+ J; (K)
recibe el nombre de factor de variación unitaria del mes K-ésimo.
Relacionando las expresiones [1] y [2] tendremos que:

(1 + ™1 i 2
= {[1 + ~ (1)] [1 + I; (2)] [1 + ~ (3)] ... [1 + ~ (12)1}

TM1 = 1V[l + ~ (1)] [1 + ~ (2)] [1 + :z; (3)] ... [1 + :z; (12)] - 1

es decir, que la tasa media de variación mensual es la media geométrica de los


factores de variación unitaria de cada uno de los meses menos la unidad.
Esta última expre.sión nos conduce a las siguientes conclusiones:
• Aunque sea una práctica habitual, el calcular la tasa media de variación
_ .u.,,ua• hallando la media aritmética de las tasas de variación mensual consti-
una práctica errónea que nos lleva a resultados equivocados.
• La verdadera tasa media de variación mensual ni siquiera se calcula a tra-
de la media geométrica de las tasas mensuales, sino a través de la media
__.,,mt>tru•<> de los factores de variación unitaria deduciéndole posteriormente la

Por otra parte, una vez obtenida la tasa media de variación mensual puede
sarnos el determinar su tasa anual equivalente, lo que, según el epígrafe
...,.,.,.,r,,., lograríamos de acuerdo con
:z;l = (1 + ™/2 - 1.
Esta tasa anual equivalente podría calcularse directamente a través de las
~~rvaciom!s de la s'"'rie mensual haciendo:

-\estas conclusiones ya llegamos en el capítulo 3.


526 • SECCIÓN 7. TASAS DE VARIACIÓN

Lo expuesto en este epígrafe es el sustrato teórico que debe utilizarse


do, por ejemplo, se quiere determinar un indicador de inflación anual de
do a la evolución de los precios registrada por el IPC mensualmente.
Recuérdese que los cálculos realizados basados en medias aritméticas
erróneos.

1 ª·S · ~álculo aproximado


·.. ·de .tasas de variación

Sabemos que la tasa de variación entre las observaciones correspondieniiCS


dos períodos consecutivos cumple la relación:

~ = ~ -1 (1 + ~) .
Por otra parte, siempre es posible encontrar una constante de prc>porctiOIIil•
dad p1 en donde se verifique:

es decir

= -~-
y
1-1

y tomando logaritmos neperianos


y
Pe~ = ln -~­
~-1
o lo que es lo mismo
y
~ :::: ln-1-
~-1
A veces, suele utilizarse esta relación de proporcionalidad para el cálcul
aproximado de la tasa de variación, incurriendo en un error de aproximacióa
que dependerá de la constante de proporcionalidad p 1 que no se considera en
esta últliTia expresión y que, a su vez, depende del valor que tome ~ .
TASAS DE VARIACIÓN • 527

En la tabla siguiente se han calculado estos errores según sea el valor de ~ ,


y como puede apreciarse, éstos crecen a medida que lo hace ~ .

y y
l ~
o

~ = .-._t -1 l n1- Error=~ -ln -


~..:1 :t;_, ~-1 ~-1
~

0,01 1,01 0,00995 0,00005


0,02 1,02 0,01980 0,00025
0,03 1,03 0,02956 0,00069
0,04 1,04 0,03922 0,00078
0,05 1,05 0,04879 0,00121
0,06 1,06 0,05827 0,00173
0,07 1,07 0,06766 0,00234
0,08 1,08 0,07696 0,00304
0,09 1,09 0,08618 0,00382
0,10 1,10 0,09531 0,00469

Por consiguiente, este tipo de aproximación será tanto más aceptable cuanto
~ r

-
Ejercicios
DE LA SECCIÓN 7
EJERCICIOS DE LA SECCIÓN 7 • 531

Ejercicio
::--
7. 1 - r

El consumo de electricidad en España, en millones de kwlhora, fue de diciembre


de 1985 a diciembre de 1986:

1985 Diciembre 10 163,0


1986 Enero 10 752,5
Febrero 9 968,9
Marzo 9 465,0
Abril 9 544,3
Mayo 8 927,3
Junio 8 957,7
Julio 9 582,4
Agosto 7 863, 1
Septiembre 8 967,4
Octubre 9 178,0
Noviembre 9 572,3
Diciembre 10 234,9

Nota: (*) Consumo de electricidad sólo en la Península


Fuente: UNESA.

Las tasas mensuales de variación.


La tasa intermensual, formada por medias móviles anuales.
Las tasas anuales de variación.

La variación relativa o tasa de variación de una variable entre diferentes momen-


tos de tiempo, sabemos que es:

Como podemos considerar diferentes períodos de tiempo, entonces podremos


calcular distintas tasas de variación; entre ellas, las más usuales son las mensuales,
trimestrales, cuatrimestrales, semestrales y anuales, que, cuando las utilicemos
conjuntamente, para distinguirlas, las simbolizaremos por .XI, i3, X4, x6 y .:i:l2'
respectivamente.
También pued n obtenerse otras tasas mediante el uso de medias móviles o
medias escalonadas; algunas de estas aplicaciones serán empleadas en este ejerci-
cio.
532 • SECCIÓN 7. TASAS DE VARIACIÓN

Teniendo en cuenta lo anterior, las tasas mensuales o intermensuales de


del consumo de electricidad en España serán
= 10 752,5 - 10163,0 = 10 752,5 - 1=
él
Enero 1986 10163,0 10163,0
= 1,058- 1 = 0,058 = 5,8%

9 968 9
Febrero 1986 • - 1 = o 927 - 1 = -0 073 = -7 3 %
10 752,5 , ' '

Marzo 1986 . = 99 465


e1

968,9
0
- 1 =o ' 949- 1 = -0' 051 = -51%
'

Abril1986 .1 = 9 544•3 - 1 = 1 008 - 1 = o 008 = o 8%


e 9465,0 ' ' '
8 927 3
Mayo 1986 él = • - 1 = o 935- 1 = -0 065 = -6 ' 5%
9 544,3 ' ,
8 957 7
Junio 1986 él · - 1 = 1 003 - 1 = o 003 = o, 3%
8 927,3 ' '
9 582 4
Julio 1986 é1 = • - 1 = 1 070- 1 = o 070 = 7 0%
8 957,7 ' , ,
7 863 1
Agosto 1986 . = • - 1 =o 821- 1 = - 0 179 =-17 ' 9%
e1 9 582,4 ' '
8 967 4
Septiembre 1986 . = • - 1 = 1140 - 1 = o 140 = 14' 0%
e1 7 863, 1 ' '

91780
Octubre 1986 é1 = 8 967,4
• - 1 = 1 024- 1 = o 024 = 2 , 4%
, '
9 572 3
Noviembre 1986 . = 9 178,0
• - 1 = 1 043 - 1 = o 043 = 4' 3%
el , ,

Diciembre 1986 . = 19o572,3


e1
234 9
• - 1 = 1 069 - 1 = o 069 = 6 9%
' ' '

(b) La tasa intermensual, formada por medias móviles anuales, es una tasa
mensual para períodos anuales de 12 meses. La podemos representar por écc
en este ejemplo, será
. Ene86 + Feb 86 + · .. + Dic 86 113 013,8 _ =
e(l2) = . - 1 =---- 1
Dlc85 + Ene 86 + ... + Nov 86 112 941,9
= 1,0U06- 1 = 0,0006 = 0,06%
EJERCICIOS DE LA SECCIÓN 7 • 533

(e) La tasa anual de variación es


10 234,9
- - - - - 1 = 1,007 -1 = 0,007 = 0,7%
10 163,0

que también puede obtenerse a través de la media geométrica de los incrementos


unitarios 1 + e1 de los doce meses del año, calculando, en primer lugar, las tasas
medias mensuales (las que determinamos antes). Entonces:

e, = 'V[1 + e, cenero)] ... [1 + e, (diciembre)] - 1=

= ';.11, 006001 - 1 = 1, 0004987 - 1


y elevando esta tasa media a tasa anual a partir de la relación

1+ e, 2 = (1 + e, )12
e, 2 = (1 + i:\ )12 - 1 =
= (1,006001)- 1 = 0,006 = 0,6%.

La diferencia que se obtiene con el resultado anterior proviene del redondeo en


las tasas mensuales.
Cuando la tasa anual se obtiene por elevación de una tasa de orden inferior se
la suele representar así

e.¡1 = e. 12 = (1 + e..1)12 -
1

que se lee tasa media mensual elevada a anual.


También podíamos haber obtenido una tasa anual de variación elevando la tasa
intermensual formada por medias móviles a tasa anual, es decir

e~12) = [1 + e<12 >]' 2 - 1=


12
= [1 + 0,0006) - 1 = 1,0072- 1 = O, 72%
que tiene la ventaja de que, en el caso de que exista estacionalidad en la variable,
ésta queda minorada por el uso de las medias móviles.

Ejercicio 7. 2
Los precios, en un determinado país, suben un 1% en cada uno de los once
primeros meses del año, y bajan el 10% en diciembre. ¿Cuál será el incremento
anual de los precios?
534 • SECCIÓN 7. TASAS DE VARIACIÓN

SOLUCIÓN. Si tomamos el mes de diciembre del año anterior como base de a.-
paración, haciendo 100 su índice, los de los doce meses de este año serán

t- 1 Diciembre 100,00
Enero 101,00
Febrero 102,01
Marzo 103,03
Abril 104,06
Mayo 105,10
Junio 106,15
Julio 107,21
Agosto 108,29
Septiembre 109,37
Octubre 110,46
Noviembre 111,57
Diciembre 100,41

y la tasa de variación anual de los precios es

. 100,41
~2 = 100,00 - 1 = 1, 0041- 1 = 0,0041 = 0,41%.

En el año los precios subieron sólo un 0,41 %. Sin embargo, los consumidores
sufrido alzas de precios en once de los doce meses del año, pagando por amlCIJ[)311•
subidas de precios que luego se neutralizarían.

Ejercicio 7. 3
Las ventas de una empresa en el mes de enero de 2004 fueron del orden de 215 . _
euros, y en febrero de 222 000.
(a) ¿Cuál sería la estimación del crecimiento de las ventas de ese año?
(b) ¿Y si en marzo se registrasen unas ventas de 230 000 euros?

SOLUCIÓN
(a) La tasa de variación intermensual de las ventas entre enero y febrero fue
222 000
V:1 = 215 000 - 1 = 1, 033 - 1 = 3 , 3% .

Si considerásemos que se mantuviera este crecimiento a lo largo de los doce meses


del año, entonces la tasa anual sería, por elevación de la tasa mensual
v;~ = (1 + 'V;i2 - 1 = (1,033) 12 - 1 = 1,476 -1 = 47,6%.
EJERCICIOS DE LA SECCIÓN 7 • 535

(b) En este caso tenemos más información: las ventas del mes de marzo, aunque lo
idóneo sería conocer la evolución mensual de las ventas en años anteriores.
Con estos datos sólo podemos efectuar las siguientes previsiones:
l. Hallar las tasas medias mensuales, y su tasa promedio elevarla a anual, es de-
cir, si la tasa mensual de febrero a marzo es
. 230
V.1 = -222 - 1 = 1, 036 - 1 = 3, 6%

la tasa media de los dos meses será

v; = .j(1 + 0,033) (1 + 0,036) - 1 = 1,0345 - 1 = 3,45%

y entonces la tasa anual equivalente será


"1
~ = (1 + 0,0345)12 - l = 1,502 - 1 = 50,2%.

2. Hallar la tasa media mensual de estos tres meses en base a medias móviles bi-
mensuales, es decir,
222 230
V:(Z) = +
215 + 222
- 1 = 1 0343 - 1 = 3 43%
• •

y elevarla a tasa anual

v;2)
"1
= (1 + 0,0343) 12 - 1 = 1,499- 1 = 49,9%.
Este segundo procedimiento tiene la ventaja de que amortigua parte de la posi-
ble estacionalidad.

Ejercicio 7.4
Dado un fenómeno que evoluciona exponencialmente y que pasa en 16 años del
valor lOO a 4 728, hállese su tasa media anual acumulativa de crecimiento.

SOLUCIÓN. Esta tasa media t es tal que

4 728 = 100(1 + t)16

de donde

. = v4100728
r 16 - - - 1 = 1,2725- 1 = 0,2725
.
= 27,25%.
536 • SECCIÓN 7. TASAS DE VARIACIÓN

Ejercicio 7. 5
Obténgase la tasa media anual acumulativa de los salarios anuales siguientes:

Salarios
Años
(en lo:' €)

2002 100
2003 120
2004 156

SOLUCIÓN. Para detenninar esta tasa podemos proceder por dos vías alte:rruñ •
obteniendo previamente las tasas anuales, o directamente.
En el primer caso se obtienen las tasas anuales de variación para los distintos
dos:
Para el período 2002-2003 tendremos que

120 = 1oo<1 + s 03 )

de donde

S = 120 - 100 = 120 - 1 = O 20 = 20oto.


03 100 100 ' lC

Para el período 2003-2004

s
04
=
156
120
- 1 = o 30
'
= 30%.

La tasa media anual acumulativa que nos piden será tal que

(1 + sl = (1 + s03
) (1 + s 04
)

s = ~(1 + S )(1 + S
03 04
) - 1 = ~(1 + 0,20) (1 + 0,30) - 1 =
= 1,2489- 1 = 0,2489 = 24,89%.

Esta tasa media es, pues, la media geométrica de los valores unitarios al final de
cada período.
Nótese que la tasa media no es la media aritmética de las tasas anuales, que en es1e
caso sería

x = 0,20 + 0,30 = O 25 = 25%


2 '
aunque no se aleje demasiado del verdadero valor promedio que antes se calculó.
EJERCICIOS DE LA SECCIÓN 7 • 537

Por otra parte, esta tasa media se puede determinar directamente, teniendo en cuen-
ta que

156 = 100 (1 + S)2


de donde

S. = ~56
- - 1 = 0,2489 = 24,89 % .
lOO
Este procedimiento, como puede comprobarse, es mucho más rápido que el ante-
rior.

Ejercicio 7. 6
El índice de precios de consumo de un determinado país ha evolucionado de la
forma siguiente:

1995 100
1996 105
1997 110
1998 116
1999 120
2000 125
2001 132
2002 141
2003 150

¡ Cuál será el índice en 2005 si suponemos que la tasa media anual acumulativa del
período 1995-2003 se mantiene estable?

SOLUCIÓN. La tasa media anual acumulativa para el período 1995-2003 es

I. = v150
- - 1 = 1, 052 - 1 = O, 052 = 5, 2% .
100

Si suponemos que esta tasa media de crecimiento de los precios de consumo se


mantiene hasta 2005, entonces los índices para 2004 y 2005 serán

p9~ = 150(1 + 0,052) = 157,8%

p9~5 = 157,8(1 + 0,052) = 166,0%


538 • SECCIÓN 7. TASAS DE VARIACIÓ N

Ejercicio 7. 7
Supongamos que se quiere lograr en cuatro años rebajar la tasa de incremente
índice general de precios desde un 30% a un 10%. ¿Cuál sería la tasa media
acumulativa de desacel~ración en la subida de los precios? Reconstr.úyanse
índices de precios esperados en esos cuatro años.

SOLUCIÓN. La tasa media anual de desaceleración de las tasas de incrememo


los precios será tal que

10 = 30(1 + P)4
de donde

p. = 4~0
- - 1 = 0,7598- 1 = -0,2402 = -24,02%.
30
Es decir, que si en el año O los precios subieron un 30%, en los cuatro años
guientes las tasas de incremento deberán ser:

Años Tasas de variación anual


r-
1 p = 30 (1 - 0,2402) = 22,79%
2 p = 22,79(1- 0,2402) = 17,32%
3 p = 17,32(1- 0,2402) = 13,16%

4 p = 13,16(1 - 0,2402) = 9,99%::::10,0%

La serie de índices con base en el año O sería, por tanto,

Índices
Años
(base año O = 100)

o 100,00%
1 100(1 + 0,2279) = 122,79%
2 122, 79(1 + 0,1732) = 144,06%
3 144,06(1 + 0,1316) = 163,02%
4 163,02(1 + 0,10) = 179,32%
EJERCICIOS DE LA SECCIÓN 7 • 539

Ejercicio 7.8
Consideremos la evolución de los siguientes agregados monetarios:

r;,::r . . J. '/· (• r. •,: ' •• . ' •'


~

'' . . ' . ·.
..
\, ~.- '•
~

.
r· . ~ . ! .: . • . . r, . . . ''· .
. -- ~· .. . .. --
- .. ~

1979 3 645,6 3 016,9 4 112,2 229,5


1980 4 090,0 3 335,0 5 126,8 283,0
1981 4 606,7 3 681,5 6 273,6 380,3
1982 4 926,3 4031,6 7 645,1 609,7
1983 5 252,8 4 483,2 9 002,6 1 057,6
1984 5 676,8 4 777,3 10 531 ,5 1 551,1
1985 6 389,4 5 300,1 10 446,0 3 109,6
1986 7 322,8 5 975,3 9 702,9 5 174,6

Fuente: Boletín Estadístico del Banco de España. Saldos en miles de millones de pesetas a 31 de
diciembre.

(a) En el período 1979-1986, ¿a qué ritmo crecieron la oferta monetaria, la M2 ,


las disponibilidades líquidas y los activos líquidos en manos del público
(ALP)?
(b) ¿Y en el período 1982-1986?

SOLUCIÓN
(a) Sabemos que el agregado monetario M2 es igual al M1 (oferta monetaria) más los
depósitos de ahorro, que las disponibilidades líquidas (M3) se obtienen agregando
a M2 los depósitos a plazo, y que los ALP son igual a la M3 más los otros pasi-
vos líquidos del sistema; por tanto,

t"~;;I.:::,.-Y,L,~,...··.-·.:•.· •· .·-•.•:· :.;:;•·-.J~~)~~~


1979 3 645 ,6 6 662,5 10 774,7 11 004,2
1980 4 090,0 7 425,0 12 551,8 12 834,8
1981 4 606,7 8 288,2 14 561,8 14 942,1
1982 4 926,3 8 957,9 16 603,0 17 212,7
1983 5 252,8 9 736,0 18 738,6 19 796,2
1984 5 676,8 10 454,1 20 985,6 22 536,7
1985 6 389,4 11 689,5 22 135,5 25 245,1
1986 7 322,8 13 298,1 23 001,0 28 175,6
540 • SECCIÓN 7. TASAS DE VARIACIÓN

Las tasas anuales de variación de cada uno de estos' agregados son:

:· ;''- .-~ 1"-:''; •


Años M] M2 •~·· Ml flP
1980 12,19 11,44 16,49 16,64
1981 12,63 11,63 16,01 16,42
1982 6,94 8,08 14,02 15,20
1983 6,63 8,69 12,86 15,01
1984 8,07 7,38 11,99 13,84
1985 12,55 11,82 5,48 12,02
1986 14,61 13,76 3,91 11,61

Puede observarse que las series de tasas que presentan menos fluctuaciones
las relativas a la M 3 y a los ALP, siendo el crecimiento de esta última más
dentro de su desaceleración
Las tasas medias anuales para el período 1979-1986 son

MI = 1,j(1 + 0,1219) (1 + 0,1263) (1 + 0,0694) (1 + 0,0663) (1 + 0,0807) .

'7_J(l + 0,1255) (1 + 0,1461) - 1 = 1,1048- 1 = 10,48%


Esta tasa también puede calcularse como

7 322 8
M1 = 7 • - 1 = 11048 - 1 = 10 48%
3 645,6 ' ,

Como es más cómodo este procedimiento, para los otros agregados monetillil
tendremos

13 298 1
M2 = 7 • - 1 = 11038- 1 = 10 38%
6 662,5 ' ,

23 001 0
M3 = 7 • - 1 = 11144- 1 = 11 44%
10 774,7 ' ,

28175 6
ALP =7 • - 1 = 11437 - 1 = 14 37%
11 004,2 ' '

(b) Estas tasas medias, para el período 1982-1986 serán

7 322 8
M = 4 4 926,3
1 • - 1 = 1 1042 - 1 = 10 42%
, ,

13 298 1
4
• - 1 = 11038- 1 = 10 38%
8957,9 ' '
EJERCICIOS DE LA SECCIÓN 7 • 541

23 001 0
M.J = 4 16 603,0
• - 1 = 1 0849 - 1 = 8 49%
'
7
C
0

28175 6
ALP = 4 • -1
17 212,7
= 11311-1

= 1311

%.

Ejercicio 7. 9
Sean las variables X e Y tales que
X = {x1x2 .. . xN}
y = {yly2 ... yN }

(a) Compruébese que, si U =X ·Y y V = X/Y , entonces


Gu = Gx · Gr
G
G = :::..x.
V Gy
en donde G representa la media geométrica de la correspondiente variable.
(b) Aplíquese esta p~ opiedad, con algún ejemplo, al cálculo de tasas medias de
variación.

SOLUCIÓN
(a) Si U = X · Y , entonces, para cada observación i-ésima,

La media geométrica de la variable U será


542 • SECCIÓN 7. TASAS DE VARIACIÓN

Análogamente, como
X.
V. = _!_

' Y;
tendríamos que

(b) Consideremos el siguiente ejemplo

Índices !ndices de precios Salarios reales


Años Hf yens) (base 100 = 1999)
(en (yens de 1999)

1999 150 100 150,0


2000 175 115 152,2
2001 190 124 153,2
2002 195 132 147,7
2003 220 138 159,4

en donde sabemos que los salarios reales se obtienen deflactando los salarios
netarios, nominales o corrientes por el correspondiente índice de precios, es decD"

S = SM.
R J

Las tasas medias de variación anual acumulativa de cada una de estas


son

. v220
150 - 1
SM = = 1,1005- 1 = 0,1005 = 10,05%

j = v 138
100
_ 1 = 1,0838 _ 1 = 0,0838 = 8,38%

159 4
sR
=
4
• - 1 = 1 0153- 1 = o 0153 = 153%.
150,0 ' ' '
EJERCICIOS DE LA SECCIÓN 7 • 543

Conociendo j y SR, y aplicando la propiedad anterior; podríamos calcular


SM a través de

(1 + SM) := (1 + j) (l +SR):= 1,0838. 1,0153 := 1,1004

de donde

SM := 1,1004- 1 := 0,1004 := 10,04% :::: 10,05%.


Análogamente, para determinar SR en función de SM e j , haríamos

1 +SR := 1 +S"! := 1,1005 := 1,0154


1+ 1 1,0838
SR := 1,0154- 1 = 0,0154 = 1,54% ::: 1,53%.

Ejercicio 7. 1 O
Los indicadores coyunturales de la economía de algunos países comunitarios
europeos muestran que, en el trienio 1986-1988, se van a producir las variaciones
porcentuales en el PIB, consumo privado y precios siguientes:

Alemania 2,5 1,5 2,0 4,2 3,3 2,9 - 0,4 0,8 2,0
España 3,0 2,8 3,0 3,9 3,5 3,1 9,1 6,0 5,4
Francia 2,4 1,5 2,4 2,9 1,8 1,9 2,7 2,7 2,3
Inglaterra 2,4 3,1 2,6 4,7 3,8 3,2 3,7 3,9 4,2
Italia 2,7 3,2 2,8 3,2 4,2 3,9 6,3 4,3 3,7
CEE-12 2,5 2,2 2,3 3,7 3,1 2,8 3,8 3,2 3,3

Fuente: A. Fernández Díaz. •Política económica coyuntural• . Editorial AC. Madrid, 1987.

Determínense:
(a) Las tasas medias anuales de crecimiento del PIB.
(b) Las tasas anuales de crecimiento del PIB en unidades monetarias corrientes.
(e) La tasa de variación del consumo en España en el período 1986-1988.
(d) Las elasticidades consumo-producción de estos países.
544 • SECCIÓN 7. TASAS DE VARIACIÓN

SOLUCIÓN
(a) Las tasas medias anuales de crecimiento del PIB para cada uno de estos países..
simbolizamos esta macromagnitud por Y, son

Alemania: ,· = v(l + o.o25) (1 + o,o15) (1 + o,o2o) -1 =


= 1,020- 1 = 2,0%

España: y = v(l + o,o30) (1 + o.o28) (1 + o.o30) - 1 =


= 1,029 - 1 = 2,9%
Francia: y = v(l + o,o24) (1 + o.o15) (1 + 0,024) - 1 =
= 1,021- 1 = 2,1%

Inglaterra: Y = V<1 + o,o24) <1 + o,o31) <1 + o,o26) - 1 =


= 1,027 - 1 = 2,7%

Italia: Y= V(l + O, 027)(1 + O, 032)(1 + O, 028) - 1 =


= 1,029 - 1 = 2,9%
CEE- 12: y = v(l + o,o25) (1 + o,o22) (1 + o,o23) - 1 =
= 1, 023 - 1 = 2, 3% .
España, al igual <pe Italia, creció en este trienio por encima de la media COIIll.U»-
taria.
(b) Según hemos visto en el ejercicio anterior, si representarnos por YR, YM y P la.
tasas de variación del PIB a precios constantes, del PIB a precios corrientes o ca
unidades monetarias corrientes, y de los índices de precios, respectivamente. e
verifica que

por lo que las tasas de variación anual para el PIB nominal o monetario serán

Tasa de variación del PIB nominal {YM)


Paises
1986 1987 1988
Alemania 2,09 2,31 4,04
España 12,37 8,97 8,56
Francia 5,16 4,24 4,76
Inglaterra 6,19 7,12 6,91
Italia 9,17 7,64 6,60
CEE-lL. 6,40 5,47 5,68

en donde, por ejemplo, para Alemania, en 1986, la tasa YM será

YM = (1 + 0,025) (1 - 0,004)- 1 = 1,0209- 1 = 2,09%


·EJERCICIOS DE LA SECCIÓN 7 • 54 5

y, para España, para el mismo año


YM = (1 + 0,030) (1 + 0,091) - 1 = 1,1237 - 1 = 12, 37%

etc ...
(e) La tasa de variación del consumo en España para el período 1986- 1988 es
é86- 88 ::::: (1 + 0,039)(1 + 0,035) (1 + 0,031)- 1 = 1,1087- 1 = 10,87%

siendo la tasa anual media de este período

é : : : '{/(1 + 0,039) (1 + 0,035) (1 + 0,031) - 1 ::::: 1,035- 1 = 3,5%.


(d) La elasticidad consumo-producción se define como
de
E - e de
cfy - dy - e dy
_z
y
que, para una función determinada de consumo, nos proporciona la elasticidad en
cada punto de esa función al particularizar Ecfy en el mismo.

Otra elasticidad que puede determinarse es la llamada elasticidad en un inter-


valo, que se defme para intervalos finitos a través de la expresión:
!le
E ~ e =..!::_!le.
c¡r !lY e !lY
y
Si consideramos intervalos anuales, es decir, si tomamos
!le = e, - e,_ 1
!lY = ~ -J ,_¡

entonces la elasticidad será


e1 - el-! _S_ -1
· e r- 1 e,_ 1 é
Ec¡r = y1 - y1- 1 l _¡ y
~- 1 ~-1
y, por tanto, puede calcularse como cociente entre las tasas anuales de variación
de estas macromagnitudes.
Teniendo en cuenta esto, las elasticidades consumo-producción de cada uno de
estos países serán: ·
546 • SECCIÓN 7. TASAS DE VARIACIÓN
.·~.

~,:~:~~:S;~r{·<~;, ><,; c·¡;~:ci::~~:~


~~~ji~~~'t;~-~~L=~&~~2;~~3.~r~~~§:~~
Alemania 1,68 2,20 1,45
España 1,30 1,25 1,03
Francia 1,21 1,20 0,79
Inglaterra 1,96 1,23 1,23
Italia 1,19 1,31 1,39
CEE-12 1,48 1,41 J,22

donde puede observarse de qué manera tan dispar los expertos de la CEE pensa-
ban que iba a comportarse el consumo en estos años y países.

Ejercicio 7. 11
El índice de precios de consumo (IPC) en España, para el conjunto nacional, tolllÓ
en el período enero de 2002 a diciembre de 2003, los valores que se ofrecen a
continuación:

~f~~~;I~~~~-,~~~ ·;1;~~~
Enero 101,3 105
Febrero 101,4 105,2
Marzo 102,2 106
Abril 103,6 106,8
Mayo 103,9 106,7
Junio 104,0 106,8
Julio 103,2 106,1
Agosto 103,5 106,6
Septiembre 103,9 106,9
Octubre 104,9 107,7
Noviembre 105,1 108
Diciembre 105,5 108,2

Fuente: INE.

(a) Obténganse las tasas de variación anual para el período 2002-2003 (IPC de
diciembre de 2001 = 100).
(b) Estímese la taSa de variación del IPC en 2004.
EJERCICIOS DE LA SECCIÓN 7 • 547

SOLUCIÓN
(a) Estas tasas de variación anual del IPC, en base al índice de diciembre de un año
sobre el índice de diciembre del año anterior, serán

P. =105,5 _ 1=55%
2002
100 '
P. = 108,2 - 1 = 2 56%
2003 105,5 ,

Podríamos calcular tasas anuales de variación usando medias móviles de doce


meses y elevándolas a las tasas anuales, es decir,
P. = Ene1 + Feb1 + ... + Dic1 _
12 1
< > Die1 - l + Ene1 + · · · + Nov1
·¡ . 12
1(12) = [1 + 1(12)) - 1

que nos darían en cada año,


. 1242,5
l(m 2oo2 = 1 237 - 1 = O, 00446
.1 . 12
1(12) 2002 = [1 + 1(12)) - 1 = 1, 00036 - 1 = O, 0369%
. 1280
1(12)2003 = 1277,3 -1 = 0,00211
·¡ . 12
1(12)2003 = [1 + 1(12) ) - 1 = 0,0175%

También podríamos obtener la tasa anual de 2003 mediante medias escalonadas


de doce meses, es decir, si las medias mensuales escalonadas son
P. _ Ene1 +Feb 1 +···+DiC 1 _
1
12/ 12 -
Enet-1 + FebH + · · · + D.IC1_ 1

Para 2003 . 1280


1'¡2/12 = -1 = 0,03018
1242,5

(b) Para estimar la tasa de variación del IPC en 2004 podríamos adoptar alguna de las
siguientes alternativas:
l. Determinar las tasas mensuales de enero a diciembre de 2003, hallar su tasa
media mensual y elevarla a anual.
Tasas mensuales de enero a diciembre de 2003:

~Enero = 105,1 - 1 = -0, 0009514


105
Enero

105 2
Febrero P.!Febrero = • - 1 = o 001904
105 '
548 • SECCIÓN 7. TASAS DE VARIACIÓN

Marzo P. = ~- 1 = o 007604
!Marzo 105,2 '
. 106,8
Abril ~Abril = 106 - 1 = 0,007547
106 7
Mayo P.!Mayo = • - 1 = -0 0009363
106,8 '
106 8
Junio P. . = • - 1 = o 0009372
llumo 106, 7 '
106 1
Julio P.lluho. = • - 1 = -{) 006554
106, 8 '

Agosto P..Agosto = 106,6 - 1 = O 004712


106,1 t

106 9
Septiembre P.!Sepnembre
. = 106,6
• - 1 = o 002814
'
107 7
Octubre P.!Octubre = • -1 =o 007483
106,9 '

Noviembre P.!Novtembre
. =~
107,7
- 1 = o ' 002785
. 108,2
Diciembre ~Diciembre = 108- 1 = 0,001851
Tasa media mensual:
P¡ = 2.j(l - 0,0009514) (1 + 0,001904) (1 + 0,007604) (1 + 0,007547) (1- 0,0009363
1

• 2.j(l + 0,0009372)(1- 0,006554) (1 + 0,004712) (1 + 0,002814) (1 + 0,007483


1

. ~v(l + o.oo2785) (1 + o.oo1851) - 1 =


= 0,00238.

Tasa anual prevista para 2004:


"1 .. 12 12
~ = [1 + ~] - 1 = [1 + 0,00238] - 1 = 2,89%.

Ejercicio 7. 1 2
Con los datos córrespondientes al IPC y las tasas interanuales de variación del IPC
del período 1998-2001, estúdiese la estacionalidad de las tasas de varíacióa
intennensuales y coméntese su incidencia en las previsiones anuales.
--
EJERCICIOS DE LA SECCIÓN 7 • 549

¡: '_
('

--
-
- - ' - - -~ - - ~

Enero 94,9 106,4 116,2 127,1


Febrero 95,4 106,8 117,2 127,7
Marzo 96 107,6 117,9 128,1
Abril 97,3 108,2 119,1 128,4
Mayo 97,7 108,7 119,5 128,8
Junio 98,3 109,5 119,3 129,9
Julio 98,6 111,2 120 131,3
Agosto 100 112 120,2 131,6
Septiembre 100,8 112,2 121,5 133
Octubre 102,1 112,9 122,1 133,5
Noviembre 103,2 113,4 123 133,2
Diciembre 104,8 114,2 123,6 133,8

1
t· .,
-
Enero 1,61 1,53 1,75 2,83
Febrero 0,53 0,38 0,86 0,47
Marzo 0,63 0,75 0,60 0,31
Abril 1,35 0,56 1,02 0,23
Mayo 0,41 0,46 0,34 0,31
Junio 0,61 0,74 -0,17 0,85
Julio 0,31 1,55 0,59 1,08
Agosto 1,42 0,72 0,17 0,23
Septiembre 0,80 0,18 1,08 1,06
Octubre 1,29 0,62 0,49 0,38
Noviembre 1,08 0,44 0,74 -0,22
Diciembre 1,55 0,71 0,49 0,45

SOLUCIÓN. Aparecen como claramente estacionales las variaciones del IPC en los
meses de enero de estos añ.os. También, y en sentido contrario, habría que destacar los
meses de mayo.

Para reducir el efecto de la estacionalidad vamos a determinar medias móviles de


orden 12 meses de los índices mensuales.
En primer lugar, obtendremos los totales móviles de cada 12 meses que estarán no
centrados; luego formaremos otra tabla con los totales móviles de orden 2 de cada dos
totales móviles no centrados con objeto de centrar la serie, y~ por último, las medias
móviles centradas se calcularán dividiendo cada elemento de la tabla anterior por 24
(12 X 2).
550 • SECCIÓN 7. TASAS DE VARIACIÓN

Totales móviles no centrados de los índices

Enero-febrero 1 269,3 1 393,9 1 511,7


Febrero-marzo 1 281,3 1 402,1 1 523,1
Marzo-abril 1 292,7 1 411,4 1 534,6
Abril-mayo 1 303,5 1 420,6 1 546,0
Mayo-junio 1 313,7 1 430,2 1 556,2
Junio-julio 1 189,1 1 323,1 1 439,6 1 566,4
Julio-agosto 1 200,6 1 332,9 1 450,5
Agosto-septiembre 1 212,0 1 343,3 1 461,0
Septiembre-octubre 1 223,6 1 353,6 1 471,2
Octubre-noviembre 1 234,5 1 364,5 1 480,5
~oviembre-diciembre 1 245,5 1 375,3 1 489,8
Diciembre-enero 1 256,7 1 385,1 1 500,4

Totales móviles centrados de los índices


..
1998 1999 2000 o 2001
Enero - 2 526,0 2 779,0 3 012,1
Febrero - 2 550,6 2 796,0 3 034,8
Marzo - 2 574,0 2 813,5 3 057,7
Abril - 2 596,2 2 832,0 3 080,6
Mayo - 2 617,2 2 850,8 3 102,2
Junio - 2 636,8 2 869,8 3 122,6
Julio 2 389,7 2 656,0 2 890,1 -
Agosto 2 412,6 2 676,2 2911 ,5 -
Septiembre 2 435 ,6 2 696,9 2 932,2 -
Octubre 2 458,1 2 718,1 2 951,7 -
~oviembre 2 480,0 2 739,8 2 970,3 -
Diciembre 2 502,2 2 760,4 2 990,2 -

Medias móviles centradas de los índices

::..L o,
_;:: 1-i I~ :'~, p~:;;_,·í~.- ~-t; k·~·200ti . [> ;2001' :•
Enero - 105,25 115,79 125,50
Febrero - 106,28 116,50 126,45
Marzo - 107,25 117,23 127,40
Abril - 108,18 118,00 128,36
Mayo - 109,05 118,78 129,26
Junio - 109,87 119,58 130,11
Julio 99,57 110,67 120,42 -
Ago~to 100,53 111 ,51 121,31 -
Septiembre 101,48 112,37 122,18 -
Octubre 102,42 113,25 122,99 -
~oviembre 103,33 114, 16 123,76 -
Diciembre 104,26 115,02 124,59 -
EJERCICIOS DE LA SECCIÓN 7 • 551

Las tasas de variación intermensuales, en base a esta serie suavizada de la estacio-


nalidad, son:

Tasas intermensuales de variación de las medias móviles del IPC


··. ·' .., •. J

'.' 1~ 1999 2000 2001 .:


. " '
Enero - 0,95 0,67 0,73
Febrero - 0,98 0,61 0,76
Marzo - 0,91 0,63 0,75
Abril - 0,87 0,66 0,75
Mayo - 0,80 0,66 0,70
Junio - 0,75 0,67 0,66
Julio - 0,73 0,70 -
Agosto 0,96 0,76 0,74 -
Septiembre 0,94 0,77 0,72 -
Octubre 0,93 0,78 0,66 -
Noviembre 0,89 0,80 0,63 -
Diciembre 0,90 0,75 0,67 -

Si comparamos estas tasas intermensuales con las inicialmente calculadas, observa-


mos que ha desaparecido prácticamente la estacionalidad, sobre todo la más intensa de
los meses de enero por un extremo y de mayo por el otro.
Con las tasas originales, si hacemos previsiones, por ejemplo, para la tasa de 1986
basada en sus seis primeros meses tendríamos que, como la tasa media mensual es

~ = ~1,0283 . 1,0047. 1,0031. 1,0023. 1,0031 . 1,0085 - 1 =


= 1, 008292 - 1 = O, 008292
la tasa anual, elevando ~ a anual, será

12
~1 = [1 + ~] 12 - 1 = [1 + 0,008292] - 1 = 1,1042- 1 = 10,42%

mientras que con las tasas intermensuales de las medias móviles de los índices

~ = ~1,0073. 1,0076. 1,0075 . 1,0075. 1,0070. 1,0066 - 1 =


= 1, 00725 - 1 = O, 00725

y entonces la tasa anual sería

~1 = [1 + ~] 12
- 1 = [1 + 0,00725t2 - 1 = 1,091- 1 = 9,1%

que está bastante más próxima a la tasa registrada para ese año, que fue del 8,25%.
Por tanto, hay que tener cuidado con el empleo de tasas mensuales cuando existe
estacionalidad, a la hora de perfilar comportamientos a mayor plazo. Lo recomendable,
pues, es un estudio de esta componente previamente.
CAPÍTULO 14 ' r

Estadística
de atributos

Hasta ahora hemos estudiado la denominada Estadística de variables, que


incluye las diferentes técnicas para analizar la información disponible acerca de
un determinado fenómeno colectivo cuyos sucesos vienen expresados en térmi-
nos cuantitativos o numéricos (renta, salarios, precios , etc.). Sin embargo,
cuando esos sucesos vienen referidos a cualidades o características no medibles
del fenómeno estudiado (color, nacionalidad, enfermedades, etc.), o a un orden
que pueda establecerse entre ellos (1 °, 2 °, 3 °, ... ) dará lugar a lo que defini-
remos como Estadística de atributos.
En la Estadística de atributos, bien establecemos un determinado orden o
rango entre las observaciones, cuando éstas son susceptibles de aparecer en una
determinada escala ordinal, o bien procedemos al simple recuento de las dis-
tintas modalidades o categorías en que se divide el atributo o cualidad en la
serie de objetos o individuos que se estén analizando, cuando la información
aparezca en escala nominal. En este último caso, el carácter numérico surge al
efectuar el recuento, obteniéndose de este modo la distribución de frecuencias
del atributo correspondiente. Así, por ejemplo, de un total de 33 201 000 cabe-
zas de ganado observadas en España en un año concreto, éstas se distribuían
del siguiente modo

555
Bovino 4 495
Ovino 16 238
Caprino 2 403
Porcino 9112
Caballar 266
Mular 377
Asnal 310

Total 33 201

En el capítulo 3 ya comentamos como en estos casos no tenía sentido


pleo de promedios, tales como la media aritmética o geométrica, y que
las observaciones se nos ofrecían en una escala nominal sólo la moda
utilizarse como medida resumen, y si éstas respondían a una escala
podría determinarse, además del valor modal, también la mediana.
El problema que se nos plantea ahora es el de estudiar la posibilidad
tablecer medidas similares a las de correlación, que se expusieron en los
los 9 y 10, para estos casos en donde las «variables» no son estrictameOIIe
tricas.
Cuando los caracteres estudiados pueden ordenarse de acuerdo con una
ta escala, se puede llegar a unos coeficientes de correlación que midan el
de asociación entre ellos de manera parecida a como lo hicimos para
asociación entre variables. Estos coeficientes están basados en los rmlSI]•
órdenes de las observaciones y son estudiados en el próximo epígrafe.
Si las observaciones son nominales, entonces estableceremos los ll<IJ..._..
coeficientes de asociación y contingencia.

Sean A; y B¡ los caracteres que presentan las observaciones, y coJnSI,deJreu•


que X; es el rango o número de orden que le correspondería a A¡
mas esta característica, con la escala que se determine, de menor a
Análogamente, Y; representaría el rango de cada B¡ .
ESTADÍSTICA DE A TRIBUTOS • 557

Basándonos en la concordancia o discordancia de las «clasificaciones por


rangos>> x¡ e Y¡ , queremos estudiar el grado de asociación entre los caracteres
A¡ y B¡.

14.1 .1. COEFICIENTE DE CORRELACIÓN POR RANGOS


DE SPEARMAN

Si designamos por A y B los criterios de ordenación y por xi e Y¡ sus rangos


correspondientes, el coeficiente de correlación por rangos de Spearman se ob-
tendrá fácilmente a partir del coeficiente de correlación lineal r

~ 2;-Cxi - x) (y¡ -Y)


r = ---.== = =¡==== ====

teniendo en cuenta que como X¡ e Y¡ son rangos

LX. = L y. = 1 + 2 + ... + N = -1 +N
- .N
i ¡ i ¡ 2

2;- xJ = 2;- Y¡2 = 12 + 22 + ... + N 2 = N (N + 1~ (2N + 1)


¡ ¡

y por tanto

N (N _+ _.:_.:.___
1) (2N_ +___:_ (
1 +2N N)2 3
- N
= _..:..._ 1)
_o_-=-----<-- =N
6 N 12
Por otra parte , siendo di = xi - Y¡, y teniendo en cuenta que, en este caso,
x=Y
558 • SECCIÓN 8. ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

Ld;
i
2
= I<x;
i
-Y/ = L[(x; - x) - (y; - Y)f =
¡

= I<x; - x) + I<Y; - Y) 2 2
- 2 I<x; - x) (y; - y)
i ¡ ¡

de donde
3 3
-N -- N
-+ N - N
- "L.Jd.12
"L.J (X¡ -) (Y; - y- ) -- 12 N3 - N __;_ _
- X 212 ; = 12 2
con lo que este coeficiente de correlación por rangos, que se representa por p.
será

N3
N "d,~
L.J
I<x; - x) (y; -Y) -
_ __ _ _ i_ _

p = i 12 2
~¡:.<x; - x)2 I<Y; - Y)2
l l

es decir,

6Idi2
-1- _____,..:..
i __
P- N3 - N

Este coeficiente también es denominado coeficiente de correlación ordinaL


El coeficiente de correlación por rangos de Spearman varía entre - 1 y
+ 1 . Cuando la concordancia entre los rangos es perfecta entonces
di = xi - Y; = O y p = 1 ; y cuando la discordancia es perfecta, los pares de
rangos (x¡; y) vienen dados por

Y; N (N - 1) (N - 2) [N - (i - 1)] 2

y entonces p = -l.
ESTADfSTICA DE ATRIBUTOS • 559

.....
EJEMPLO
Los rangos de 5 estudiantes según sus calificaciones de Estadística y de Economía son
los siguientes:

. -
·~·
; ~
/,.,.,:, ' .
{
. ... . .
.
.
-
.

--~- ~
. .
--· ····)_" ..
- -
..
- -

- ..
.
~-~~~-~---~: ~ ~: ~--~-~~~:_j~-~~J.:~i. ~--?-._:~·::I
A 1 3 -2 4
B 2 2 o o
e 3 1 2 4
D 4 5 -1 1
E 5 4 1 1

15 15 o 10

Luego

p
= 1 - ~=1-
53 - 5
60
120
=05
'

De forma análoga al caso de dos variables, la observación simultánea de dos


atributos da lugar a una tabla de doble entrada, en donde nii indica el número
de objetos o individuos que poseen conjuntamente las modalidades indicadas en
la fila i-ésima y en la columna j-ésima. Esta table recibe la denominación de
tabla de contingencia, como ya dijimos en el capítulo 7. Su representación es
como sigue:
560 • SECCIÓN 8. ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

Atributo A

~ fl:!1 n12 fl:!¡ fl:!k n¡.

Az n21 n22 n2J n2k n2·

Modalidades A¡ n.,.
ni! n¡z nlj.. nik

Ah nh1 nh2 nhk nh·


nhJ

Total n.¡ n.2 n.


•j n.k N

Las distribuciones que se refieren a uno solo de los dos atributos también se
denominan distribuciones marginales. Éstas están reflejadas en la última fila
reseñada para el atributo B, y en la última columna, para el atributo A, de la
tabla de contingencia, de modo que las distribuciones marginales extraídas de
esta tabla son:

k h

j
¿ni¡
~ 1
= n¡. B¡ L n¡¡
i = 1
= n.¡
A¡ ¿n2i = n2· B2 L:n;2 = n.2
j i
............... ···············
A¡ ¿nii = n.,. B¡ ¿nii = n·i
j i

............... ...............
Ah ¿nhi = nh· B* L:nih = n.k
i
j

De donde se deduce
h k h k

L.. ,. = "n.
"n. L.. =LL •j niJ =N
i = 1 j = 1 i = 1j =1
ESTADÍSTICA DE ATRIBUTOS • 561

14.2.1. TABLA DE CONTINGENCIA 2 x 2

La clasificación por atributos más sencilla es la dicotómica, esto es , la que pre-


senta dos modalidades mutuamente excluyentes, para cada carácter.
Así, por ejemplo, sea una población con N objetos o individuos, en la que
nos interesamos por dos atributos, «Sexo» y «tener visión», que representaremos
por las letras A y B , respectivamente. Tendremos, pues, una clasificación que
puede representarse en una tabla como la que sigue:


n¡¡ n-¡2 n¡.
(mujer)

~ n21 n22 n2·


(varón)

Total n.¡ n.2 N

donde n ij (i = 1, 2; j = 1, 2) representa la frecuencia correspondiente a la


combinación de las modalidades A,. y B.J ; n•J. y n.1• son las frecuencias margi-
nales y N el total de observaciones.

14.2.2. CRITERIO DE INDEPENDENCIA

Se dice que dos atributos son independientes cuando entre ellos no existe nin-
gún tipo de influencia mutua.
Si tenemos dos atributos A y B con las modalidades (J\; ~) y (B1; B2 ) res-
pectivamente, no hay relación entre ambos atributos si la proporción de ciegos
en las mujeres es la misma que la proporción de ciegos en los varones. Esto es

nll n21
-=-
n¡. n2 •
562 • SECCIÓN 8. ANÁLISIS ESTA DÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

de donde

.5.!_
fl¡.

n21
=

=
nu + n21
n1. + n2.
n" + n21 =
!!:!_
N

!!:!_
=>
¡
nii=N ~.n.,
n n
n21 = ~ ·1
n2· n1. + n2. N

E igualmente para las otras dos modalidades. Con esto queremos señalar que si
dos atributos, A y B, son estadísticamente independientes, la frecuencia relativa
conjunta será igual al producto de las frecuencias marginales respectivast .

14.2.3. COEFICIENTES DE ASOCIACIÓN

Como concepto contrario al de independencia tenemos el de asociación. Se


dice que A y B están asociados cuando aparecen juntos en mayor número de
casos que el que cabría esperar si fuesen independientes. Existe asociación, por
ejemplo, entre la modalidad «africano» del atributo a observar «raza», y lamo-
dalidad «negro» del atributo «Color de piel», mientras que no es corriente encon-
trar esa asociación entre «africano» y «amarillo>> como «Color de piel» .
Según que esa tendencia a coincidir o no coincidir esté más o menos marca-
da, tendremos distintos grados de asociación. Para medirlos se han ideado di-
versos procedimientos (coeficientes de asociación) , entre los que destacaremos
los siguientes:

Coeficiente de asociación H

En la tabla 2 x 2 señalábamos que dos modalidades A¡ y B1 eran indepen-


dientes si

Por tanto, podría obtenerse una primera medida de asociación mediante la dife-
rencia

n1n 1 Nn11 - n1.n.1


H = n~~-N= N
,.
1

t Recuérdese la condición de dependencia estadística que establecimos en el capítulo 7.


ESTADfSTICA DE ATRIBUTOS • 583

Con lo que:
si H = O => los atributos son independientes
si H > O => presenta una asociación positiva
si H < O => presenta una asociación negativa.
-nn_ nn
Este coeficiente variará entre 12 ·· · ·z¡ y _!!__1L
N N
Por otra parte, también puede calcularse Ha través de
n n
H=n -~=
u N

= Cnu + nu + nzi + nzz) ~~ - (~¡ + ni2) (~¡ + n21) _

~~ + ~2 + n2I + n22

Teniendo en cuenta que:

n.¡ = nll + nz1


N = nu + n12 + n21 + nzz
Este coeficiente tendrá, por tanto, el inconveniente de que su amplitud depen-
derá de los valores que tomen N, ~ 1 , 11¡2 , n 21, n 22 .

EJEMPLO
De 1 000 conductores de turismos, 734 son hombres y el resto mujeres. De aquéllos,
100 han sufrido algún accidente conduciendo durante un número de horas determinado,
mientras que las mujeres accidentadas fueron 14. Establézcase la tabla de doble entrada
correspondiente y determínese si existe asociación o independencia entre los atributos
«SeXO>>y «tener accidentes».

SOLUCIÓN. Para analizar la asociación entre mujer y accidentes, utilizamos el


coeficiente de asociación H
564 • SECCIÓN 8 . ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓR>

S V 100 634 734


e
X
M 14 252 266
o

Total 114 886 1 000

H =n - nM.n·A = 14- 266. 114 = -16 324.


MA N 1 000 ,

El valor H = -16,324 indica que existe una disociación o asociación negativa entre
categorías o modalidades mujer y accidentes, según estas observaciones de que se
pone.

Estas tabas se construyen cuando las categorías o modalidades del atributo


son h y hay k categorías o modalidades del atributo B.
En este caso, al analizar la independencia entre los dos atributos "v'"''",......,.,
dos, se utiliza una generalización del criterio empleado en la construcción
los coeficientes anteriores. Esto es, si
n.l• n.• ) \-1' o

n .. = - - vl,j
lJ N

entonces los atributos son estadísticamente independientes. En la práctica, basu


que se verifique para (h - 1) (k - 1) valores de nij, ya que entonces se verifi-
cará para todos los restantes.
En este casp, para medir el grado de asociación entre los dos atributos utili-
zaremos los siguientes coeficientes de contingencia.
-
ESTADÍSTICA DE ATRIBUTOS • 565

14.3.1. COEFICIENTE DE CONTINGENCIA x2

Si designamos por nij la frecuencia conjunta correspondiente a la modalidad A¡


del atributo A y B1 de B y por n~ la frecuencia teórica que correspondería en
el caso en que ambos atributos fueran independientes, esto es
n. n . i = 1, 2, ... ,h
n..' -- ~
IJ N j = 1, 2, .. . , k

y N al total de elementos que se estudian, definimos el coeficiente de contin-


gencia x2 como

Este coeficiente también es denominado en la literatura estadística como cua-


drado de la contingencia.
Desarrollando este cuadrado tendremos:
2 2
(n' n )2 k (n' + n 2n' n )
x =I I
2
h k
ij - , ij =
h
ij I I
ij ,- ij ij =
i=1J =1 nij i= 1 J =1 nij
h k h k n~ h k
= I In~ +
¡ = 11= 1
I 1I-+
nij
;=1 =1
- 2 ;I 1I =1 =1
nij

y como
h k h k n. n .
I'Ln~ =IL. ~=N
i=1 }=1 i= 1j = 1 N
resulta finalmente

es decir
2 h k n~
x·=II-+-N
nij i= 1 1 =1

siendo ésta otra forma de expresar el coeficiente x2 •


686 • SECCIÓN 8. ANÁLISIS ESTADIST ICO DE DATOS ORDINALES Y CATEGÓRICOS

También se utiliza la expresión


z 1 h k nz
q>2 =L = - L L -f - 1
N N i=tj=lnij

que se denomina cuadrado medio de la contingencia.


Tanto x2 como q>2 no podrán ser nunca negativos ya que ias frecuencias
serán positivas o cero. Si los atributos fuesen independientes, x2 y q>2 serían
cero puesto que las frecuencias teóricas coincidirían con las observadas.

14.3.2. COEFICIENTE DE CONTINGENCIA DE K. PEARSON

El cuadrado medio de la contingencia no es muy apropiado para constituir por


sí mismo un coeficiente, dado que sus límites varían en cada caso. Por este
motivo, K. Pearson propuso el siguiente coeficiente

El coeficiente e tiene un campo de variación entre cero y uno, de manera


que cuando existe una carencia absoluta de asociación entre los atributos (cuan-
do éstos son independientes), entonces todos los n ij serán iguales a sus respec-
tivos n~ , y e = O . Y cuando los atributos muestren una total asociación entre
sí, el coeficiente debería ser igual a 1, pero esto último no se logra nada más
que en el caso ideal de infinitas modalidades .
Se puede demostrar que, en el caso de una tabla de contingencia cuadrada,
en donde h = k, el límite superior de e es ~(h - 1)/ h, que difiere de la uni-
dad, dependiendo dicho límite superior, en el caso más general de h * k , pre-
cisamente de estos parámetros.
De todas formas , un coeficiente e nos revelará un menor grado de asocia-
ción entre los atributos cuanto más próximo esté a cero.
ESTADÍSTICA DE A TRIBUTOS • 567

14.3.3. COEFICIENTE DE TSCHUPROW

Para evitar los inconvenientes del coeficiente C, Tschuprow propuso un coefi-


ciente que depende de x_2 , del número de filas y columnas, y del total de ele-
mentos N. Este coeficiente se suele designar por T 2 y se defme
2
T2 = <p
~(h - 1) (k - 1)

que varía realmente entre O y l.


Aunque estos coeficientes son muy útiles y de fácil aplicación, su utilización
no debe inducirnos a olvidar métodos más detallados de análisis. Toda tabla de
contingencia debe ser examinada con cuidado para observar si presenta particu-
laridades significativas en la distribución de sus frecuencias, antes de comenzar
los cálculos de estos coeficientest.

EJEMPLO
En un centro universitario se dispone de tres libros de texto para impartir la asignatura
de Estadística: A, B, C. Se supone que la calidad de los textos influye en las califica-
ciones obtenidas por los alumnos. Para comprobar si tal suposición se ajusta o no a la
realidad, se realiza un experimento consistente en que tres grupos de alumnos estudien
con cada uno de los libros, siendo impartidas las clases por el mismo profesor. Los
resultados fueron

~
Suspenso Aprobado Notable Sobresaliente
Total
(S) (A) (N) (SS)
. ::.:,:

A 10 32 12 40 94
B 14 12 10 30 66
e 8 10 6 16 40

Total 32 54 28 86 200

Determínese la asociación entre estos dos atributos.

t Para estudiar con cierta exbaustividad las técnicas estadísticas aplicadas al análisis de datos categóricos,
véase: RUIZ-MAYA, L.; MARTÍN PLIEGO, F.J.; MONTERO, J.M.; URIZ, P.: Análisis estadístico de encues-
tas: Datos cualitativos, Ed. AC, Madrid, 1995.
568 • SECCIÓN 8. ANÁLISIS ESTAD[ST ICO DE DATOS ORDINALES Y CATEGÓRICOS

SOLUCIÓN. Para ello construimos la tabla de frecuencias teóricas d.


lJ

A 15,04 25,38 13, 16 40,42


B 10,56 17,82 9,24 28,38
e 6,4 10,8 5,6 17,2

Calculando a continuación para cada celda ij la cantidad (n~ - n;/


d.
lJ

S A N SS
A 1,69 1,72 0,10 0,0044
B 1,12 1,9 0,06 0,092
e 0,4 0,06 0,03 0,083

A partir de estos resultados obtenemos el coeficiente de contingencia de la x} , dado


por la expresión

x2 = ¿ ¿ (n'.,, - ,n,,..
3 4 )2
= 7,2594.
¡ = tj = 1 nij

Si los atributos «librOS>> y «calificaciones» fuesen independientes, x2 sería cero, de


donde se deduce que existe asociación entre estos dos atributos que se están relacionan-
do.
Otra medida 4e1 grado de asociación entre dos atributos viene dada por el coeficien-
te de contingencia de Pearson

Este coeficiente es un número que varía entre O y 1, lo ,que indica que, como está muy
cerca de cero, el nivel de asociación es muy pequeño.
Utilizando el coeficiente de Tschuprow tenemos
x2
-:-:----r=:====:=:==:=:=:7 = o' o1481
J<h - 1)(k - 1) N -.}(3 - 1) ( 4 - 1)

que es algo menor que el coeficiente C, acusando un menor grado de asociación que el
registrado por C.
Ejercicios
DE LA SECCIÓN 8
EJERCICIOS DE LA SECCIÓN 8 • 571

Ejercicio 8. 1
En la tabla siguiente figuran clasificados los países de la CEE-12 según el número
de televisores y de teléfonos por cada 1 000 habitantes en 1983:

Alemania 3 3
Bélgica 6 6
Dinamarca 2 1
España 7 9
Francia 1 4
Grecia 8 lO
Holanda 5 8
Inglaterra 4 5
Irlanda 11 11
Italia 10 7
Luxemburgo 9 2
Portugal 12 12

Encuéntrese si existe asociación entre estos dos indicadores de equipamiento en los


países comunitarios.

SOLUCIÓN. La tabla anterior nos proporciona los rangos u órdenes de cada país en
cada una de las dos categorías.
Para medir el grado de asociación entre estos dos indicadores, al ser los datos de
carácter ordinal, podemos utilizar el coeficiente de correlación por rangos de Spear-
man:

6 :¿ d¡2

p = 1- ----:;;-'-
¡--
N3 - N

en donde di es la diferencia de los rangos entre las dos clasificaciones.

Por tanto, formando la nueva tabla:


572 • SECCIÓN 8. ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

·::-· ""~': . _;¿ -~

Rango en el Rango en el
Pafs ... índice de televisores índice de teléfonos d1 = x,- y1
d¡ '~~
X¡ Y;

Alemania 3 3 o o
Bélgica 6 6 o o
Dinamarca 2 1 1 1
España 7 9 -2 4
Francia 1 4 -3 9
Grecia 8 10 -2 4
Holanda 5 8 -3 9
Inglaterra 4 5 -1 1
Irlanda 11 11 o o
Italia 10 7 3 9
Luxemburgo 9 2 7 49
Portugal 12 12 o o
o 86

tendremos que
6. 86
p = 1- 3
12 - 12
= 1- o. 30 = o. 70
que, como está más próximo a la unidad que a cero, muestra correlación ordinal entre
estos dos indicadores.

Ejercicio 8. 2
En una prueba de maratón, 15 atletas llegan a la meta en este orden (los atletas
llevan un dorsal que va desde ell all5):
7, 4, 2, 3, l, 6, 10, 5, 8, 11, 14, 9, 13, 12 y 15
Hállese el coeficiente de correlación por rangos entre los órdenes de los dorsales y
los de llegada.

SOLUCIÓN. Los dos rangos de cada atleta son:


EJERCICIOS DE LA SECCIÓN 8 • 573

lf?{i~f~1i~1~~:E~~~~}r~:~~~;~:;~;~~~::~~~:i~~~:~1i:i
~~;'s~íi:~1t'c.'·t'«c-'il~~~~t\:!:~{,k-,~~.3:~4J:.,,.;4':wi.;,·s:.:;1;,;~
1 7 -6 36
2 4 -2 4
3 2 1 1
4 3 1 1
5 1 4 16
6 6 o o
7 10 -3 9
8 5 3 9
9 8 1 1
10 11 -1 1
11 14 -3 9
12 9 3 9
13 13 o o
14 12 2 4
15 15 o o
o 100

donde d; es la diferencia de los rangos de las dos clasificaciones para cada individuo i-
ésimo:

y comprobamos que

ya que la suma de todos los rangos en cada una de las clasificaciones debe ser la mis-
ma.
Por tanto, el coeficiente de correlación por rangos de Spearman es

6'fA2
p = 1- --:,-:.i_ _
N3 - N
= 1- 6·100
153 - 15
= 1 - 0,179 = 0,821

que, como está cercano a la unidad, nos indica que la asociación entre estas dos clasifi-
caciones es bastante alta.
574 • SECCIÓN 8. ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

Ejercicio 8. 3
Diez novelistas concurren a un premio de novela, siendo clasificados por tres
jueces en estos órdenes:
1, 6, 5, 10, 3, 2, 8, 7, 9, 4
2, 4, 3, 9, 7, 10, 6, 5, 1, 8
5, 3, 9, 6, 4, 2, 8, 7,. 10, 1
Discútase, utilizando el coeficiente de correlación por rangos, cuál es el par de
jueces que más próximos están en cuanto a sus preferencias.

SOLUCIÓN. Calcularemos los coeficientes de correlación por rangos para cada dos
jueces, para lo cual construimos la siguiente tabla:

l 2 5 -1 1 --4 16 -3 9
6 4 3 2 4 3 9 1 1
5 3 9 2 4 --4 16 -6 36
lO 9 6 1 4 16 3 9
3 7 4 --4 16 -1 1 3 9
2 10 2 -8 64 o o 8 64
8 6 8 2 4 o o -2 4
7 5 7 2 4 o o -2 4
9 1 10 8 64 -1 l -9 81
4 8 1 --4 16 3 9 7 49

o 178 o 68 o 266

Como este coeficiente es

6í:di2
p = 1- i
N3 - N
tendremos que
6. 178
P1 2 = 1 - = -O, 079
- 103 - 10
6. 68
P1_ 3 = 1 - = 0,588
990
6. 266
P2-J = 1- = -0,612
990
"'
EJERCICIOS DE LA SECCIÓN 8 • 575

lo cual nos muestra que los jueces 1° y 2 ° son los que tienen criterios menos similares,
y
al estar su coeficiente muy próximo a cero; los jueces 1° 3° son los que tienen crite-
rios más concordantes en su evaluación, mientras que los jueces 2 ° y 3 ° son bastante
discordantes.

Ejercicio 8.4
Dos analistas de inversiones estudian doce peticiones de crédito en un banco. Uno
de ellos fija unas puntuaciones que, de menor a mayor, muestran su preferencia
por clientes a los que considera más idóneos para concederles el crédito; el otro
ordena los expedientes de las peticiones marcando con una letra del abecedario su
orden de preferencias.
El resultado del análisis de estos dos expertos es el siguiente:

¡o 215 e
20 75 G
30 110 B
40 45 L
so 80 F
60 110 J
70 200 A
8o 60 K
90 75 1
10° 150 H
110 180 D
120 20 E

Estúdiese si existe relación entre los criterios de los dos analistas de inversiones.

SOLUCIÓN. Tanto las puntuaciones de analista 1 como la clasificación alfabética


del analista 11 permiten una determinada ordenación de los expedientes relativos a las
peticiones de crédito. Los criterios de ambos expertos pueden traducirse a una escala
ordinal en donde es posible establecer un determinado orden de preferencias.
En la escala del analista 1, que tiene carácter más cuantitativo que la del 11, obser-
varnos expedientes que tienen la misma puntuación. En efecto, el 2° y el 9° fueron
puntuados con 75, al igual que el 3° y el 6°, ambos con 110 puntos. Cuando hay ob-
servaciones repetidas, con el mismo rango, se suele utilizar corno criterio asignar a esas
observaciones la media de los rangos que les pertenecerían teóricamente.
576 • SECCIÓN 8. ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

Así, al valor 110 repetido le corresponderían los rangos 5 y 6, en este caso; el cri-
5 6
terio que ·apuntamos supone asignarle + = 5,5 a cada uno de ellos. De igual ma-
2
8 9
nera, a los valores repetidos 75 y 75 les asignamos el rango + = 8, 5 .
2
Con estas salvedades, para calcular el coeficiente de correlación por rangos de
Spearman formamos la siguiente tabla:

¡o 1,0 3 -2,0 4,00


20 8,5 7 1,5 2,25
30 5,5 2 3,5 12,25
40 ll,O 12 - 1,0 1,00
so 7,0 6 1,0 1,00
60 5,5 10 --4,5 20,25
70 2,0 1 1,0 1,00
8o 10,0 11 - 1,0 1,00
90 . 8,5 9 -0,5 0,25
lOO 4,0 8 4,0 16,00
ao 3 ,0 4 1,0 1,00
120 12,0 5 7,0 49,00

0,0 109,00

y entonces

6"f.dí2
=1- j = 1 - 62. 109 = o 62
p N 3 - N 12 - 12 ' .

Como p = 0,62 está más próximo a la unidad que a cero, podemos aceptar que
existe cierta relación entre los criterios de los dos analistas de inversiones.

Ejercicio 8. 5
De una población de 100 personas, se ha observado que 30 de ellas están en paro.
Los padres de 11 de ,estas 30 personas tampoco tienen empleo. Estúdiese si el paro
. es una situación que sé reproduce dentro de las familias, teniendo en cuenta que de
las 100 personas observadas, 40 tienen padres en desempleo.
EJERCICIOS DE LA SECCIÓN 8 • 577

SOLUCIÓN. En el cuadro siguiente figuran los datos que nos han suministrado.
Encerrados en un círculo aparecen los que nos dan directamente, determinándose el
resto fácilmente por diferencia.

Padres parados ® 29

Padres ocupados 19 41 60

Total 70

Vamos a analizar si existe algún tipo de asociación entre estos caracteres: la situa-
ción de parado-ocupado de un individuo y la situación laboral de su padre.
Para ello determinamos, al tener una tabla de contingencia 2 x 2 , el coeficiente de
asociación H , siendo una de sus formulaciones

que, en nuestro ejemplo, toma el valor


H = 11 · 41 - 29 · 19 = -lOO = _1
100 100
lo que en principio nos muestra algún tipo de asociación negativa.

Ejercicio 8. 6
Se les pregunta a 500 personas con empleo cuál es, en su opinión, el problema
económico más acuciante en España, obteniéndose el siguiente resultado:


~~::~::.z:~;~,!.~~2~~~r ~:~/ ~i~~7~~~} ~~:~~~¿~·~:;;~f¿
Asalariados 236 86 322

Profesionales libres 53 125 178

Total 289 211 500


Estúdiese si existe relación entre la ocupación laboral y el tipo de problema que


más preocupa.
578 • SECCIÓN 8. ANÁLISIS ESTAD[STICO DE DATOS ORDINALES Y CATEGÓRICOS

SOLUCIÓN. Como los resultados se muestran a través de una tabla de contingencia


de 2 x 2 , para estudiar la posible existencia de asociación entre cada una de las dos
modalidades de estas características emplearemos el coeficiente de asociación H:

H = ll¡¡nzz - 11¡2 - n2I =


N
= 236 . 125 - 86 . 53 = 49 88 > o
500 '
lo que nos indica una cierta asociación positiva entre asalariado-paro y profesional
libre-déficit público.

Ejercicio 8. 7
1 000 súbditos de nacionalidad española (E), francesa (F), italiana (1), argentina
(A) y colombiana (C) fueron interrogados acerca de cuáles eran sus deportes
favoritos, obteniéndose los siguientes resultados

~ 'S

Fútbol
E

82
F

67 107
1 A

76
e

16
Total

348
Baloncesto 75 10 16 47 30 178
Tenis 12 23 42 41 40 158
Atletismo 16 20 44 36 22 138
Golf 8 53 30 43 44 178

Total 193 173 239 243 152 1000

Discútase la asociación entre la nacionalidad del súbdito y su deporte favorito.

SOLUCIÓN. Para este estudio nos basaremos en el coeficiente de contingencia x2


de K. Pearson, que viene dado por la expresión:
h k ( )2
X2 = LL 1

nij -, nij
i =I j =I nij
EJERCICIOS DE LA SECCIÓN 8 • 579

donde, como sabemos, n~ son las frecuencias teóricas que se determinan bajo la hipó-
tesis de independencia
n.n .
n~. = ___!:____:_!__ Vi;}
" N
La tabla de contingencia correspondiente a estas frecuencias teóricas es

:,~· -~~~?~~:}.::~~~~-;.:: -i(~~:i:F?{~~B¡cp_:!~;_r··?~ ?'~~!~7:!~ff~(~,


t~-·"·~""'--'"'"~~··:---"1-- . .. ?" . :' ..- ••~• .,·--~ -- -~"- ·,~,·-··"7.·~jt'¡t~.t:..:
.:
D;~-.~~;:·~-·;'i)~~~ ~j¿\·'f·;~'l·- .·.---~·-·'1: ct::~~É~<~·:f'~t~~~i~>1
...d~~~.t~~-; ~~~:.-· ~·. ;g~~~~::;:~ ~·t.t ~~t \·-~-'~'~_::-,\~~~if-'}«K~.!.,::;¿ ..

Fútbol 67 60 83 85 53 348
Baloncesto 34 31 43 43 27 178
Tenis 31 27 38 38 24 158
Atletismo 27 24 33 34 20 138
-------------------------
Golf 34 31 42 43 28 178
Total 193 173 239 243 152 1000

donde, por ejemplo, la frecuencia teórica del número de españoles que prefieren el
fútbol sería:

, = 193 . 348 ::::: 67


n¡¡ 1 000 .

La columna correspondiente a la nacionalidad colombiana, así como la fila del de-


porte del golf, una vez calculadas las demás frecuencias teóricas, se han calculado por
diferencia respecto a sus totales marginales.

Ahora, para calcular este coeficiente "l, disponemos las frecuencias observadas,
nij , y las teóricas, n~ , debidamente apareadas, en la tabla siguiente:
580 • SECCIÓN 8. ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS

82 67 -15 225 3,36


75 34 -41 1 681 49,44
12 31 19 361 11,64
16 27 11 121 4,48
8 34 26 676 19,88
67 60 -7 49 0,82
10 31 21 441 14,23
23 27 4 16 0,59
20 24 4 16 0,67
53 31 -22 484 15,61
107 83 -24 576 6,94
16 43 27 729 16,95
42 38 -4 16 0,42
44 33 -11 121 3,67
30 42 12 144 3,43
76 85 9 81 0,95
47 43 -4 16 0,37
41 38 -3 9 0,24
36 34 -2 4 0,12
43 43 o o 0,00
16 53 37 1 369 25,83
30 27 -3 9 0,33
40 24 - 16 256 10,67
22 20 -2 4 0,20
44 28 -16 256 9,14
1 000 1000 o 199,98

y, por tanto,
x2 = 199,98
que, como es mayor que cero, nos indica la presencia de cierto grado de asociación
entre los dos caracteres.
Para hacernos una mejor idea de cuál es el grado de asociación, empleamos el co-
eficiente de contingencia C de K. Pearson

~
C = ~~=

199,98 =o 41
1 000 + 199,98 ,

que, como está más próximo a cero que al valor ideal 1, nos indica que la asociación
existente no es muy relevante .
EJERCICIOS DE LA SECCIÓN 8 • 581

Como, cuando en la tabfa de contingencia· h = k, como en nuéstro caso, el límite


superior real de Ces ~(h - 1)/ h, podemos determinar un coeficiente relativo a través de

e*= e =
~(h- 1)/ h
0,41 = 46%
~(5- 1)/ 5

lo que nos muestra que nuestro coeficiente de contingencia, en este caso, sólo supone el
46% del valor máximo de asociación total que podría tomar el coeficiente de contin-
gencia C.

Ejercicio 8.8
Se les pregunta a 50 economistas, 40 ingenieros y 10 abogados si cree que la bolsa
en el próximo mes va a bajar, subir o permanecer igual. El 20% de los economistas
opina que subirá, mientras que el 40% de ellos piensa que bajará; el 50% de los
ingenieros se inclina por que permanecerá igual, y tan sólo el 5% cree que bajará;
por último, la mitad de los abogados se decanta por la subida y la otra mitad cree
que bajará.
¿Existe relación entre los pronósticos sobre la evolución del mercado bursátil y la
profesión del encuestado?

SOLUCIÓN. En primer lugar, formemos la tabla de contingencia con los resultados


obtenidos

Economista 20 20 10 50
Ingeniero 2 20 18 40
Abogado 5 o 5 10
Total 27 40 33 100

Para medir si existe asociación entre estos dos atributos utilizaremos el coeficiente
de contingencia x2 de K. Pearson:
582 • SECCIÓN 8. ANÁLISIS ESTADISTICO DE DATOS ORDINALES Y CATEGÓRICOS

en donde n~. son las frecuencias teóricas conjuntas, calculadas bajo el supuesto de
lj

independencia estadística, es decir,


n. n.
~ "di;j
N
La tabla de contingencia correspondiente a estas frecuencias teóricas es

~
Permanece
Baja Sube Total
igaal
l

Economista 14 20 : 16 so
'
'
Ingeniero 11 16 ' 13 40
-----------------------
Abogado 2 4 4 JO
Total 27 40 33 lOO

Para calcular este coeficiente formamos ahora la tabla siguiente

(nij- n/
nü - "ii)2
1
nü nij nü - nij ( 1

llij
"""·,....,..
20 14 -6 36 2,57
2 11 9 81 7,36
5 2 -3 9 4,50
20 20 o o 0,00
20 16 -4 16 1,00
o 4 4 16 4,00
10 16 6 36 2,25
18 13 -5 25 1,92
5 4 -1 1 0,25
100 100 o - 23,85

obteniéndose que x2 = 23,85, que como es mayor que cero, nos revela cierto grado
de asociación entre la profesión del opinante y su pronóstico.
Para obtener un coeficiente relativo que muestre cuál es el grado de asociación,
calculamos el coeficiente de contingencia C de Pearson:

C=M;=

__2_3,_8_5_ = 0,
1 44
100 + 23,85
EJERCICIOS DE LA SECCIÓN 8 • 583

que, al estar más próximo a cero que al valor' ideal 1, indica que el grado de asociación
no es demasiado importante.

Por último, determinaremos también el coeficiente de asociación T 2 de Tschu-


prow:

N ~(h - l)(k - 1)

23,85 ::' 0,12


100 ~(3 - -1) (3 - 1)

que, al estar alejado de la unidad, señala también poco grado de asociación.

Ejercicio 8.9
En un barrio de una ciudad se realizó una encuesta sobre la situación laboral de
sus residentes, obteniéndose los siguientes resultados:

Ocupado 56 115 320 410 270 1171


Parado, habiendo
8 34 93 107 61 303
trabajado antes

En busca del primer


empleo
92 182 10 2 o 286

Total 156 331 423 519 331 1760

Analícese si existe relación entre la edad de los individuos de ese barrio y su


situación laboral.

SOLUCIÓN. Para ello determinaremos el coeficiente de asociación x2 de Pearson:

h k (n' - n)2
2
X = LL ij , ij
i=t i=t nij

j •.
584 • SECCIÓN 8. ANÁLISIS ESTADfSTICO DE DATOS ORDINALES Y CATEGÓRICOS

en donde d.ij serían las frecuencias que corresponderían a. cada celda si ambos atributos
fueran independientes, es decir, si
n.n.
_::___:j__ Vi;j
N
La tabla de contingencia correspondiente a estas frecuencias teóricas es

Ocupado 104 220 281 345 221 1171


Parado, habiendo
27 57 73 89 57 303
trabajado antes
------------------------------------- ----- ·
En busca del primer
25 54 69 85 53 286
empleo

Total 156 331 1760

Disponiendo ahora de forma apareada las frecuencias observadas, nij, y las teóri-
cas, n~ , en la siguiente tabla:

56 104 48 2 304 22,15


8 27 19 361 13,37
92 25 -67 4 489 179,56
115 220 105 11 025 50,11
34 57 23 529 9,28
182 54 - 128 16 384 303,41
320 281 -39 1 521 5,41
93 73 -20 400 5,48
10 69 59 3 481 50,45
410 345 -65 4 225 12,25
107 89 -18 324 3,64
2 85 83 6 889 81,05
270 221 -49 2 401 10,86
61 57 -4 16 0,28
o ' 53 53 2 809 53,00

1 760 1 760 o 800,30

obtenemos que x! = 800, 30 =F O , lo que revela cierto grado de asociación.


EJERCICIOS DE LA SECCIÓN 8 • 585

Para determinar el nivel de asociación existente calcuíamos ahora el coeficiente de


contingencia de Pearson

800,30
= 0,56
1 760 + 800,30

que nos vuelve a indicar asociación entre estos atributos.


Como el valor máximo de este coeficiente depende del número de filas y de colum-
nas, calculamos ahora el coeficiente T 2 de Tschuprow, para h = 3 filas y k = 5
columnas

N .j(h - 1) (k - 1)

800,30 = 0,16
1 760 .j(3 - 1) (5 - 1)

que nos muestra que la intensidad de la asociación entre la edad de los encuestados y su
situación laboral no es muy relevante.

Ejercicio 8. 1 O
A un grupo de empresarios se les pregunta su opinión sobre la posibilidad de
exportar a Estados Unidos según el tipo de cambio del euro con el dólar,
obteniéndose las siguientes respuestas:

1
20 32 1 15
Igual 1 67
_____ _i~~ ______(~~~ (15)

34 20 15
Mayor 69
(27) (27) (15)
Total j- 70 70 40 180

¿Existe asociación entre el nivel de exportación esperado y el tipo de cambio para


estos empresarios?
586 • SECCIÓN 8. ANÁLISIS ESTAD{STICO DE DATOS ORDINALES Y CATEGÓRICOS

SOLUCIÓN. Determinaremos el coeficiente x2 de Pearson:

h * (n' - n)z
2
X = L: L: ij , ij
i=l i= l nif

obteniendo previamente las frecuencias teóricas nij bajo la hipótesis de independencia,


es decir, haciendo
n. n.
n~. = .....!:._:L Vi;j.
IJ N
Estas frecuencias nij figuran calculadas en la tabla anterior en cada celda, entre pa-
réntesis, lo que nos permite construir ahora la tabla:

16 17 1 1 0,059
20 26 6 36 1,385
34 27 -7 49 1,815
18 17 -1 1 0,059
32 26 -6 36 1,385
20 27 7 49 1,815
10 10 o o 0,000
15 15 o o 0,000
15 15 o o 0,000

180 180 o 6,518

2
Como x = 6,518 -:t O, parece que existe cierta asociación entre los tipos de cam-
bio y las exportaciones; no obstante, para medir el grado de asociación empleamos el
coeficiente e de Pearson

e -- --
6,518 = o 19
180 + 6,518 '

que, como está próximo a cero, nos indica que la asociación es muy débil, pudiéndose
mantener la hipótesis de que la evolución de las exportaciones parece asociada más a
otros factores que al tipo de cambio.
EJERCICIOS DE LA SECCIÓN 8 • 587

Si calculamos el coeficiente T 2 de Tschuprow:


2
T2 = X
N ~(h - 1) (k - 1)

6,518 = 0,02
180 ~(3 - 1) (3 - 1)

comprobamos la casi independencia de estos caracteres, según, claro está, el criterio de


los empresarios encuestados.

Вам также может понравиться