Академический Документы
Профессиональный Документы
Культура Документы
ESTADSTICA DESCRIPTIVA
E INFERENCIAL I
FASCCULO 3.
CORRELACIN Y REGRESIN
LINEALES
COLEG IO DE
BACHILLERES
Colaboradores:
Asesora Pedaggica:
Irma Cruz Santilln
Revisin de Contenido
Armando Martnez Cruz
Diseo Editorial
Leonel Bello Cuevas
Javier Daro Cruz Ortiz
NDICE
PROPSITO
INTRODUCCIN
CUESTIONAMIENTO GUA
9
11
CORRELACIN LINEAL
Concepto de Correlacin
Diagramas de Dispersin
11
13
COEFICIENTE DE CORRELACIN
22
REGRESIN LINEAL
29
RECAPITULACIN
45
ACTIVIDADES DE CONSOLIDACIN
46
AUTOEVALUACIN
48
ACTIVIDADES DE GENERALIZACIN
49
BIBLIOGRAFA CONSULTADA
50
PROPSITO
En los fascculos anteriores de esta asignatura, has aprendido a utilizar eficazmente los
mtodos ms usuales para organizar, analizar y cuantificar los datos aportados por
observaciones estadsticas, todo ello dentro del contexto de la estadstica descriptiva.
De esa manera, tienes ya un panorama general de los elementos bsicos de esta rama
importante de la estadstica paramtrica.
En este fascculo, efectuaremos una breve introduccin a los temas de Correlacin y
Regresin lineales de datos bivariados, donde aprenders a calcular, por un lado, en
qu medida se relacionan dos variables estadsticas, a travs del coeficiente de
correlacin de Pearson y por otro desarrollars un mtodo general para calcular la
ecuacin de regresin lineal que nos llevar a la recta de mejor ajuste, misma que nos
permitir realizar ciertas predicciones estadsticas, a partir de los datos registrados en
una tabulacin.
Cabe dentro del propsito de este fascculo, el que comprendas la diferencia entre los
objetivos que se buscan con el anlisis la correlacin lineal y los del anlisis de
regresin.
Es necesario que recuerdes que el anlisis de correlacin y regresin lineales es un
punto de partida para abordar los temas de la inferencia estadstica, que sern
abordados y analizados en el siguiente curso de Estadstica.
INTRODUCCIN
CUESTIONAMIENTO GUA
No.
ESTUDIANTE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Jaime
Eduardo
Carolina
Marcia
Pedro
Jos
Toms
Irene
Claudia
Mara
Antonio
Ana
Javier
Erika
Linda
PROMEDIO NIVEL
MEDIO SUPERIOR
80
82
84
85
87
88
88
89
90
91
91
92
94
96
98
PROMEDIO NIVEL
SUPERIOR
1.0
1.0
2.1
1.45
2.1
1.7
2.0
3.5
3.1
2.4
2.7
3.0
3.9
3.6
4.0
Podrs ayudar al Profr. Gmez a solucionar este problema? Existe alguna relacin
entre los promedios de nivel medio superior y de nivel superior?
Quizs al principio no tengas la menor idea de cmo ayudarlo, pero conforme estudies
este fascculo, irs adquiriendo los conocimientos necesarios para llegar a la respuesta
y, as poder resolverlo por ti mismo.
10
CORRELACIN LINEAL
CONCEPTO DE CORRELACIN
En las diferentes reas del conocimiento existen problemas que requieren el anlisis de
ms de una variable, como por ejemplo; un socilogo puede estar interesado en saber
qu clase de relacin existe entre la tasa de delincuencia juvenil que hay en la
comunidad y el grado de hacinamiento de los hogares que all se encuentran; un
profesor puede estar interesado en conocer de qu manera se puede predecir el
rendimiento en lgebra de un estudiante con base en el puntaje obtenido en una prueba
de aptitud en dicha asignatura; un psiclogo desea saber si existe alguna relacin entre
el concepto que tiene un alumno de s mismo y su promedio en el estudio; un agrnomo
desea conocer si existe relacin entre la cantidad de lluvia cada y el rendimiento de
ciertos productos agrcolas, es decir, si es afectado desfavorablemente tanto por la
excesiva lluvia (humedad), como por la excesiva sequa del suelo.
Como te habrs dado cuenta, estas relaciones y muchas otras se pueden investigar por
medio del anlisis de correlacin y/o regresin, simples o lineales, si la relacin est
limitada a dos variables (si fueran ms de dos variables, este anlisis de correlacin y
regresin sera mltiple). En esta seccin del fascculo hablaremos de la correlacin
lineal cuyo objetivo principal es medir la intensidad de una relacin lineal entre dos
variables; la correlacin lineal sirven para medir la relacin entre dos variables.
Despus de leer lo anterior, te preguntars, cmo es que una medida puede
representar una relacin? En realidad el trmino medida de correlacin lineal implica
encontrar un valor numrico que exprese el grado de correspondencia o dependencia
que existe entre dos variables. Por ejemplo:
La siguiente tabla muestra las cantidades vendidas (y) por 15 vendedores de una
compaa en un periodo dado. La tabla tambin muestra el nmero de periodos (x) de
experiencia que cada vendedor tiene.
11
Tabla:
VENDEDOR
NMERO DE
PERIODOS (x)
3
4
4
5
5
6
6
7
7
7
8
9
9
10
10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
VENTAS
(y)
2
3
4
3
4
3
4
4
5
6
5
6
7
7
8
Mostraremos la relacin entre estas dos variables, grficamente, para que te des
cuenta de cmo estn relacionadas estas variables. Ms adelante, introduciremos el
coeficiente de Pearson, y una frmula para calcularlo, que nos indicar el grado de
relacin de estas variables.
Grafiquemos los puntos para observar la relacin entre estas variables.
Y
8
7
6
5
4
3
2
1
X
1
Grfica No. 1
12
10
Este diagrama sugiere que a medida que los valores X aumentan, tambin los valores
Y aumentan. Adems, aparece que los puntos se agrupan a lo largo de una lnea recta.
Por lo mismo decimos que hay una relacin lineal entre los variables X y Y.
Al hablar de la correlacin lineal de dos variables es necesario distinguir dos casos:
Correlacin Positiva y Correlacin Negativa.
Correlacin Positiva. Ocurre cuando al crecer (o decrecer) una de las variables, la otra
tambin crece (o decrece). Por ejemplo: a medida que se eleva el nivel de vida de una
poblacin, tiende a aumentar el consumo de artculos que no son de primera
necesidad.
Correlacin Negativa. Ocurre cuando al crecer alguna de las variables, la otra decrece
o viceversa. Por ejemplo: a medida que se amplan los sistemas de salubridad y
medicina preventiva, decrece el ndice de mortalidad de las enfermedades infectocontagiosas.
En el ejemplo anterior (las ventas) tenemos una correlacin positiva. Estas dos
correlaciones y otras ms, se pueden mostrar utilizando los Diagramas de Dispersin,
de los que nos ocuparemos enseguida.
DIAGRAMAS DE DISPERSIN
La forma ms sencilla que tienen para predeterminar si existe o no correlacin entre
dos variables es construir un diagrama de dispersin.
Para construir un diagrama de dispersin tienes que utilizar un sistema de coordenadas
rectangulares, el cual aprendiste en los fascculos de Matemticas I, II y IV, lo
recuerdas?, bien. El sistema de coordenadas rectangulares, en el eje X (abscisas), es
donde se marca una escala adecuada para registrar los valores de una de las variables
y sobre el eje Y (ordenadas), se marca otra escala adecuada para representar o
registrar los valores de la otra variable. Los dos valores de las variables forman pares
ordenados (X, Y) dispersos en dicho sistema de coordenadas rectangulares. Esta
dispersin de los pares ordenados deben de sugerir una lnea recta, (de aqu el nombre
de correlacin lineal) como lo muestra el diagrama de dispersin del ejemplo anterior.
La dispersin de estos puntos tienen las siguientes formas generales:
a) Cuando los puntos se van localizando en los ejes coordenados de manera que
veas que si los valores de la variable X aumentan y los valores de la variable Y
tambin aumentan, entonces existe una Correlacin Lineal Positiva. Un ejemplo
as ocurre al correlacionar las edades del marido y de la mujer en las parejas
conyugales. En este caso a mayor edad del marido, mayor edad de la mujer.
13
Edad de la Mujer
X
Edad del Marido
Grfica No. 2
Como vemos en el diagrama de dispersin anterior, conforme la edad del marido (X)
aumenta, aumenta la edad de la mujer (Y), por lo que tendremos una correlacin lineal
positiva.
b) Si los puntos se localizan en los ejes coordenados y observas que los valores de la
variable X aumentan mientras que los valores de la variable Y decrecen, entonces
existe una Correlacin lineal negativa. Un ejemplo as ocurre al correlacionar el
nmero de accidentes de trabajo acaecidos en un periodo de tiempo, con el
nmero de dispositivos de seguridad operantes en las plantas de una industria. En
este caso a mayor nmero de dispositivos de seguridad, menor nmero de
accidentes de trabajo.
Y
Nmero de Accidentes
X
Nmero de Diapositivos de Seguridad
Grfica No. 3
14
m3 por hectrea
Correlacin
Curvilnea
X
Precipitacin Pluvial (mm)
Grfica No. 4
X
Estatura de los fundadores
Grfica No. 5
15
Los diagramas de dispersin que acabas de ver te muestran las diferentes relaciones
entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos
sealar que si tanto los valores de X como los valores de Y tienden a seguir un patrn
recto, entonces existe una correlacin lineal.
Para mostrar estos tipos de diagramas de dispersin y recordando cmo se localizan
los puntos o parejas ordenadas en los ejes cartesianos, te invito a que resuelvas
grficamente los problemas que a continuacin mencionamos e infieras algn tipo de
correlacin.
Ejemplo: El Departamento de Ventas de una empresa realiza un anlisis comparativo
entre el volumen de pedidos levantados y el nmero de visitas efectuadas por sus 10
vendedores en un cierto periodo de tiempo. Todos los vendedores trabajan en zonas
similares, en lo referente al nmero de clientes y al potencial de compra de dichos
clientes. Los resultados de la comparacin se muestran a continuacin:
Considera el nmero de visitas como la variable (X) y el monto de los pedidos como la
variable (Y), construye el diagrama de dispersin correspondiente e infiere si existe
algn tipo de correlacin.
Vendedor
Nmero
1
2
3
4
5
6
7
8
9
10
Visitas
Realizadas (X)
245
172
291
124
191
218
101
259
307
142
Pedidos en
Millones (N$) (Y)
13.4
10.3
15.1
6.9
7.3
14.2
5.2
11.28
14.3
5.5
Solucin: La tabla de valores nos proporciona los pares para localizarlos en los ejes,
como se muestra en la siguiente grfica. Verifica estas localizaciones.
16
Pedidos ($)
18
16
14
12
10
8
6
4
2
110
100
120
130
150
140
170
160
190
180
210
200
230
220
250
240
270
260
290
280
310
300
320
Nmero de visitas
Grfica No. 6
El diagrama de dispersin indica que existe una correlacin lineal positiva, sabes por
qu?
La construccin de diagramas de dispersin es sencilla, si consideras que tienes
antecedentes de este conocimiento desde Matemticas I. Ahora, el siguiente ejemplo
te brinda la oportunidad para que t construyas la grfica correspondiente e indiques
qu tipo de correlacin tiene.
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
17
Solucin:
Y
nmero de exusuarios
12
10
8
6
4
2
X
Ao de uso
Grfica No. 7
La tabla del ejemplo te facilit la localizacin de los puntos en los ejes y confirmaste
que existe una correlacin lineal negativa. A estas alturas te puedes dar cuenta de la
facilidad con que se construye este tipo de diagramas y se reconoce el tipo de
correlacin que existe entre las variables.
18
Mes
Publicidad (X)
(miles de N$)
200
250
300
250
330
180
150
350
240
250
230
170
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
Ventas (Y)
(miles de N$)
350
300
630
840
930
1060
1280
850
700
1160
910
1500
2)
Puntaje de
satisfaccin (Y)
58
54
67
64
66
73
70
85
74
85
Puntaje de
aptitud (X)
50
55
60
65
70
75
80
85
90
95
68
63
70
66
81
74
82
76
81
92
Paso de la
Madre (X)
60
64
68
72
76
80
84
88
92
96 100
19
85
3)
La siguiente tabla muestra el nmero de horas por semana que estudiaron diez
universitarios y su promedio de calificaciones acumulativas.
Promedio de
Calificaciones (Y)
Horas de
Estudio (X)
4)
5)
2.1
2.7
2.6
2.5
3.5
3.0
3.5
3.7
2.9
4.0
10
11
12
13
14
30
30
40
40
50
50
60
60
60
70
70
45
35
20
38
17
26
28
22
12
12
La siguiente tabla muestra los resultados de una prueba para medir el nivel de
seguridad en s mismo y de otra prueba para medir el nivel de madurez social de
15 estudiantes de preparatoria.
Puntaje de seguridad en s mismo
(Y)
Puntaje de madurez social (X)
10
15
15
20
20
25
25
25
32
40
37
45
35
50
20
15
25
20
35
30
30
30
35
35
40
40
20
21
COEFICIENTE DE CORRELACIN
Ahora que has aprendido a construir los diagramas de dispersin y a identificar cundo
hay correlacin (positiva y negativa), y cundo no hay, podemos empezar a estudiar
cmo se calcula el Coeficiente de Correlacin de Pearson.
De los diversos coeficientes de correlacin que existen, el ms popular y utilizado es el
Coeficiente de Correlacin de Pearson. Para su aplicacin es indispensable que la
correlacin sea lineal.
El coeficiente de correlacin de Pearson, que se simboliza con la letra minscula r, se
calcula dividiendo la suma de los productos de las desviaciones de cada variante de X
e Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por el
producto de las desviaciones estndar de ambas variables. En forma prctica, el
coeficiente de correlacin de Pearson es:
N
r=
(XY)
i=1
i=1
i=1
i=1
i=1
X Y
i=1
i=1
Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de
10 escuelas para nios superdotados. La razn alumno/maestro es (X) y los
estudiantes que se salen antes de completar el curso es (Y).
X
Y
20
12
18
16
16
10
15
14
14
12
12
10
12
9
10
8
8
7
5
2
22
(1)
(2)
(3)
X
20
18
16
15
14
12
12
10
8
5
X = 130
(4)
X2
400
324
256
225
196
144
144
100
64
25
Y
12
16
10
14
12
10
9
8
7
2
X2 = 1878
Y = 100
Y2
144
256
100
196
144
100
81
64
49
4
Y2 = 1138
(5)
XY
240
288
160
210
168
120
108
80
56
10
XY = 144
De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones
originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y en la
columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma con el
producto de cada X por cada Y, finalmente se suman los valores de las cinco columnas
y se sustituyen en la frmula que ya conoces, obteniendo el siguiente resultado.
N
N
r=
r=
(XY)
i=1
i=1
i=1
i=1
i=1
i=1
r=
r=
i=1
r=
14400 13000
(18780 16900 ) (11380 10000 )
1400
(1880 ) (1380 )
1400
2594400
1400
= 0.869180
1610.7141
23
Ahora interpretaremos este valor. Para ello es necesario conocer las siguientes
caractersticas del coeficiente de correlacin lineal.
El valor de r es un nmero que satisface la desigualdad 1 r 1.
Cuando la relacin de dos variables es perfectamente positiva, o sea cuando al
variar la primera, la segunda vara en las mismas proporciones y en la misma
direccin, el coeficiente de correlacin es + 1 (unidad positiva).
Cuando la relacin de dos variables es perfectamente negativa, o sea cuando al
variar la primera, la segunda vara en las mismas proporciones pero en direccin
contraria, el coeficiente de correlacin es 1 (unidad positiva).
Cuando no existe relacin entre las dos variables, o sea cuando al variar la primera,
las variaciones de la segunda no reflejan dependencia o conexin alguna con las
variaciones de la primera, el coeficiente de correlacin lineal es cero.
Lo anterior significa que, entre 0 y +1 cabe toda una gama de correlaciones positivas,
que sern tanto ms directamente proporcionales, cuanto ms se acerquen a +1.
Similarmente entre 1 y 0 cabe toda una gama de correlaciones negativas, que sern
tanto ms inversamente proporcionales, cuanto ms se acerquen a 1.
Los
coeficientes de correlacin, cuanto ms cerca de cero, indican menor correlacin.
Con todas estas caractersticas, podemos interpretar el resultado que calculamos del
coeficiente r de Pearson. Como r = 0.869180 podemos concluir que la correlacin es
fuerte y positiva.
Con base a las caractersticas del coeficiente de correlacin lineal (r) de Pearson, se
muestra a continuacin una tabla que indica cundo una correlacin lineal es dbil,
fuerte, positiva o negativa.
Tabla
Significado de
Tendencia del agrupamiento con respecto a
la lnea de regresin.
R=0
0 < r << 1,
1 r << 1
0 < r << 1, < 0
1 + r << 1
Correlacin nula
Correlacin baja positiva
Correlacin alta positiva
Correlacin baja negativa
Correlacin alta negativa
Como puedes observar, lo nico tedioso es la tabla, pero sta concentra los resultados
para obtenerlos con cierta facilidad. Te invito a que resuelvas el siguiente ejemplo sin
ver los resultados, salvo te aparezcan dudas, intntalo!
24
Ejemplo: Retomemos los valores utilizados del ejemplo de las visitas realizadas y los
pedidos hechos por diez vendedores de un Departamento de Ventas, lo recuerdas?,
te mostrar la tabla de valores que utilizamos; calcula el coeficiente r de Pearson.
Vendedor
Nmero
1
2
3
4
5
6
7
8
9
10
Visitas realizadas
(X)
245
172
291
124
191
218
101
259
307
142
XY
3283.00
1771.60
4394.10
855.60
1394.30
3095.60
525.20
3056.20
4390.10
781.00
X2
60025
29584
84681
15376
36481
47524
10201
67081
94249
20164
Y2
179.56
106.09
228.01
47.61
53.29
201.64
27.04
139.24
204.49
30.25
Solucin: Recuerda que para facilitar este clculo, se puede elaborar una tabla para
mostrar los totales, la cual est a continuacin de la tabla de datos, como observas.
La suma de las visitas realizadas es: X = 2050
La suma de los pedidos hechos es:
Y = 104
r=
10 (23546.6) 213200
= 0. 9
Prueba Previa
6.0
4.0
3.0
5.0
6.0
4.0
7.0
4.0
6.5
5.5
6.0
5.0
Prueba Final
6.5
5.5
7.0
5.0
7.0
6.5
10.0
5.0
9.0
7.0
8.5
6.0
7)
Test 1
15
14
10
9
8
8
7
6
4
2
Test 2
12
14
9
10
8
7
8
4
6
4
Francs
54
53
51
50
48
47
47
46
45
45
44
44
44
43
40
38
37
36
34
203
196
202
186
204
184
196
182
170
178
181
175
168
174
162
158
170
144
141
27
La siguiente tabla muestra los valores obtenidos en asistencia a juntas tanto para
hombres como para mujeres.
Asistencia a juntas
Hombres (X)
Mujeres (Y)
10
10
9
9
8
7
7
7
6
6
5
5
4
4
3
8
7
7
6
5
6
5
4
4
3
4
3
4
3
2
28
REGRESIN LINEAL
Ahora que has analizado el grado de relacin que existe entre dos variables
estadsticas (datos bivariados), a travs del clculo del coeficiente de correlacin de
Pearson, es importante dar un contexto adecuado al tema de Regresin Lineal, con el
objeto de ubicar correctamente algunos de los conceptos que se utilizarn en el
proceso de prediccin estadstica. Es probable que hayas escuchado una expresin
tan popular como para muestra basta un botn, que ilustra muy bien lo que sucede en
la inferencia estadstica. El proceso inferencial consiste en obtener informacin acerca
de una Poblacin de objetos cuantitativos (datos), a partir de informacin contenido en
una parte de esta poblacin llamada Muestra. Cabe preguntarnos por qu no utilizar
todos los datos de una Poblacin? Pongamos por ejemplo que un especialista desea
informacin acerca de las dimensiones de las alas de la mariposa Monarca que
anualmente hace una emigracin desde Canad hasta Mxico. Ser posible estudiar
todas y cada una de las mariposas monarcas que llegan cada ao a nuestro pas?
Desde luego que no, pues ello implica un enorme gasto de recursos humanos y
materiales entre otros, cosa que hara prcticamente imposible el estudio. Para llevar
adelante su investigacin el especialista tomara una muestra de la poblacin, medira y
analizara estadsticamente los datos que le interesan y apoyndose en un modelo
matemtico adecuado tratara de deducir las caractersticas esenciales de toda la
poblacin de mariposas. Este modo de proceder del especialista lo realizamos todos
cotidianamente, aunque no de manera tan rigurosa. Por ejemplo, una ama de casa en
el supermercado quiere comprar naranjas y sabe por experiencia que no siempre las
ms grandes son las ms jugosas, escoge unas cuantas para observar su peso,
consistencia, madurez y si es posible prueba una de ellas, slo despus de hacer estas
operaciones toma una decisin. Al hacerlo no fue necesario que probara todas las
naranjas que haba en el aparador o en la bodega o en la huerta del productor que
provee al supermercado, slo le bast una muestra.
En los ejemplos siguientes, se har referencia a muestras de datos, esperamos que
con la explicacin anterior logres observar que stas forman parte de poblaciones ms
grandes.
Hablemos ahora de la Regresin Lineal. En primer lugar nos surgen interrogantes
como:
Qu es la regresin lineal?
29
Estas y otras preguntas tratarn de ser contestadas en los siguientes prrafos, a fin de
que puedas usar el modelo estadstico de Regresin Lineal para hacer deducciones o
predicciones estadsticas. Las respuestas a cada una de ellas si bien no sern
definitivas s sern vlidas para nuestro anlisis, mismo que deber ser ampliado y
profundizado en estudios posteriores.
Dentro de las aplicaciones de la estadstica, podemos encontrar problemas que tienen
que ver con procesos de planeacin en la administracin de recursos materiales y
humanos, tal es el caso del ejemplo que a continuacin te presentamos.
Una compaa comercializadora desea contratar vendedores, para lo cual se ha
seleccionado una muestra de ocho aspirantes, tomando en cuenta dos parmetros de
seleccin que pueden servir de referencia para tomar una decisin sobre otros
aspirantes. Dichas variables son: los aos de experiencia (X) y el monto de ventas
promedio (Y). Los datos se incluyen en la tabla de valores siguiente:
VENDEDOR
AOS (x)
1
2
3
4
5
6
7
8
MONTO EN
MILES N% (Y)
12
18
25
23
27
19
32
26
2
4
5
3
4
6
20
12
Tabla
El conjunto de datos que incluye la tabulacin, los llevaremos al plano cartesiano para
obtener la grfica siguiente:
Y
35
30
25
20
15
10
5
10
Grfica No. 8
30
12
14
Los valores de las variables X y Y forman parejas ordenadas (x,y) susceptibles de ser
graficadas en el plano cartesiano. Al exhibir grficamente los datos de la tabla No. 1
obtenemos el Diagrama de Dispersin. De la tabulacin se puede considerar que al
haber pares ordenados (x,y), tericamente puede existir una relacin Funcional entre
las variables X a la que llamaremos variable independiente y Y a la que llamaremos
variable dependiente suponiendo que el problema es saber cmo vara Y en funcin
de X? Para hacer esto ms claro, te pedimos que apoyndote en la tabulacin y en la
grfica escribas en el siguiente cuadro cunto esperaras que vendiera un aspirante
con tres aos de experiencia?, cunto si tiene siete u ocho aos en ventas?
_____________________________
_____________________________
Como te habrs dado cuenta, lo que hiciste para contestar las preguntas anteriores fue
apoyarte en la observacin de datos conocidos y en tu experiencia, es decir, has hecho
una estimacin emprica a partir de cierta informacin estadstica. Esta forma de
proceder ha sido la base del desarrollo de la estadstica moderna, pues de esa manera,
los procesos prospectivos o de planeacin a futuro tienen una fundamentacin terica
basada en observaciones hechas con anterioridad. Volveremos a este ejemplo para
proponer un mtodo general de anlisis, que nos permita hacer predicciones
estadsticas consistentes. Pero ahora te pedimos que analices el siguiente caso donde
encontrars nuevas interrogantes.
Una Empresa de publicidad, ha sido contratada para llevar a cabo una campaa para
disminuir el consumo de bebidas alcohlicas entre la juventud. Los planificadores de la
empresa estiman que el consumo disminuir si incrementan el nmero de anuncios
televisivos con el eslogoan sin alcohol la vida es ms placentera. Para verificar esta
hiptesis toman una muestra de diez personas al azar y hacen una encuesta que arroja
los siguientes resultados:
NOMBRE
Jorge
Andrs
Carlos
Sandra
Martha
Ruth
Juan
Pedro
Ral
Claudia
EDAD (AOS)
18
19
21
16
22
18
17
23
19
22
No. ANUNCIOS
VISTOS EN T.V.
3
5
7
10
6
10
14
9
8
15
Tabla No. 9
31
Copas ingeridas
Anuncios en T.V.
Grfica No. 10
Por el texto del problema, nos percatamos de que los planificadores de esta Empresa
desean analizar tericamente, la variacin entre el consumo de alcohol y el nmero de
anuncios vistos por el pblico, tomando como variable independiente o de entrada este
nmero de anuncios (X) y como variable dependiente o de salida el nmero de copas
de bebida ingeridas en una fiesta (Y). Ilustramos esto mediante el siguiente esquema:
(X)
(No. anuncios)
proceso
emprico
(Y)
(No. copas)
Esquema No. 1
33
1. BIOLOGA.
El crecimiento de una cierta especie de alga marina al aplicarle
cierta dosis de lquido protenico.
Y (cm)
X (ml)
Grfica No. 11
X (aos)
Grfica No. 12
34
X (das)
Grfica No. 13
X (edad)
Grfica No. 14
35
f(x) = a + bx es lineal.
f(x) = ax2 + bx + c se llama cuadrtica.
f(x) = a(bx) se llama exponencial.
f(x) = a logb x es logartmica.
Si se trata del modelo lineal, entonces la grfica es una recta a la que llamaremos:
Recta de ajuste o Recta de regresin. En todo caso, los puntos registrados en el
diagrama de dispersin sugieren el tipo de funcin de regresin que se debe utilizar.
Ver las siguientes figuras:
Y
Recta de ajuste
Recta de ajuste
Grfica No. 15
Grfica No. 16
Desde luego que encontrar la expresin de esta funcin, no siempre es sencillo, por lo
que, se propone el modelo de la ecuacin lineal:
y = a + bx
como una buena alternativa de solucin al problema de la prediccin estadstica. Por
cierto, recuerdas cules son los parmetros que determinan la funcin lineal, en este
caso a y b? Si no es as comntalo con tu profesor o asesor.
Es tiempo de contestar las preguntas bsicas, cmo encontrar las rectas de ajuste
para un problema en particular?, qu criterio se debe utilizar para asegurar la recta de
mejor ajuste?
El ejemplo siguiente, nos muestra un mtodo de trazo rpido (mano alzada) de la
recta de ajuste sobre el diagrama de dispersin. No olvidemos que al trazar la recta,
sta coincidir con algunos puntos pero en general habr puntos que se encuentren
arriba o debajo de la recta. Observa la grfica del siguiente ejemplo.
36
Ejemplo No. 3
Dibuja en el plano cartesiano un diagrama de dispersin con los datos x,y de la
tabulacin dada. Sobre el diagrama de dispersin traza una recta que incluya los datos
si es posible, si no es as, trata de minimizar las distancias entre la recta y los puntos
tabulados.
Mide la distancia entre cada punto (x,y) de la tabulacin y su
correspondiente punto de prediccin (x,y) que pertenece a la recta. Observa la figura.
X
0
1
2
3
4
5
6
7
Y
2
4
3
6
5
7
9
8
Tabla
Y
(6,9)
10
8
(5,7)
(7,8)
(3,6)
6
(1,4)
(4,5)
4
2
(0,2)
(2,3)
Grfica No. 17
+1
0.7
-1
X
Grfica No. 18
Si ( y y ) = 0.6
Como te habrs dado cuenta, cuando las diferencias ( y y ) son cada vez ms
cercanas a cero, el valor del cuadrado de la diferencia tambin tiende a cero. Esto es
muy importante, ya que si esta diferencia al cuadrado la asociamos a un cierto valor de
ERROR en la prediccin entonces decimos que la Curva de mejor ajuste es aquella
en donde la suma de los errores cuadrticos es mnima. Es decir:
38
+ d 32
+ ... d n2
(Mnimo)
di = ( yi y i )2
donde:
Los resultados anteriores nos inducen a pensar por un lado, que existe una recta que
minimiza las distancias que hay entre sta y los puntos del diagrama de dispersin y
por otro, que la diferencia entre los puntos registrados y la recta nos ofrece una medida
de la bondad de la recta de regresin como instrumento de prediccin estadstica. En
y = a + bx
(1)
Predicho
y1
y1
Y2
y2
Y3
y3
yn
yn
y1 y 1
y2 y 2
y3 y 3
Diferencia
( y1 y 1 )2
( y2 y 2 )2
( y3 y 3 )2
Diferencia al cuadrado
yn y n
( yn y n )2
y i y i = y 1 y 1 + y 2 y 2 + . . . + y n y n
D=
i=1
39
(2)
y i y i =
D=
i=1
[y
(y
(a + bx i )]
i=1
a bx i
(3)
i =1
Como te dars cuenta, los valores xi y yi son valores incluidos en la tabulacin, por lo
tanto, el error mnimo (D) slo depende de los valores que tomen los parmetros a y b
que determinan la recta de regresin o prediccin. Esto nos conduce a una
conclusin sorprendente, pues el problema de calcular la recta de regresin o
prediccin se reduce a calcular los valores de a y b para los cuales el valor del error (D)
es mnimo.
Hasta aqu, hemos preparado el terreno para desarrollar el mtodo general para
encontrar la Recta de regresin, al que llamaremos Mtodo de Mnimos Cuadrados.
Retomaremos la tabulacin del ejemplo No. 1, para observar cmo se calcula la recta
de regresin, a la que tambin llamaremos: Recta de mnimos Cuadrados. En este
clculo utilizaremos los valores cuadrticos x2, y2 y xy, as como tambin las
sumatorias correspondientes xi , yi y xi2 que ya habas utilizado para el clculo del
coeficiente de correlacin (r).
Consideremos la tabulacin donde se incluyen los datos correspondientes a los aos
de experiencia (X) y Monto en miles N$ de ventas (Y) de un grupo de vendedores. Se
completa con los valores de X2, y2 y XY, adems de las sumatorias ()
correspondientes.
X2
Y2
XY
2
4
5
3
4
6
10
12
46
12
18
25
23
27
19
32
26
182
4
16
25
9
16
36
100
144
350
144
324
625
529
729
361
1024
676
4412
24
72
125
69
108
114
320
312
1144
40
Promedio de Y = y =
y = a + bx
(1)
b=
(1/ n) xy
(1/ n) n 2
xy
(x)2
(Pendiente de la recta)
(2)
y =a+b x
de donde despejamos el parmetro a, y obtenemos:
a = y b x (Ordenada al origen)
(3)
SOLUCIN.
Calculando los promedios x y y tenemos:
x=
n = 46 = 5.75
n
y=
y = 182 = 22.75
n
41
12.1875
= 1.1403 1.14
10.6875
y = 16.2 + 1.14x
( xy ) ( x )( y )
n x ( x )
2
(4)
(5)
(8)(1144 ) ( 46)(182)
(8)(350 ) ( 46)
780
= 1.1403
684
30
(11,28.74)
25
20
(2,19.62)
15
10
10
12
14
Grfica No. 19
y = 16.2 + 1.14 x
43
al sustituir x obtenemos:
y = 16.2 + 1.14 x
pero x = 5.75 luego:
y = 16.2 + 1.14(5.75) = 16.2 + 6.555 = 22.755 22.75
lo que es el valor de y
Que se puede observar en la grfica siguiente:
Y
30
25
22.75
20
(5.75,2275)
(X, Y )
15
10
X
Grfica No. 20
Una vez que has desarrollado estos conceptos, te recomendamos que calcules las
ecuaciones de regresin de los ejemplos 2 y 3 de este tema con el fin de que
practiques el desarrollo del mtodo de mnimos cuadrados.
44
RECAPITULACIN
Un esquema de los temas de correlacin y regresin lineales se te presenta a
continuacin, complemntalo y agrega algn resumen de los puntos que consideres
ms relevantes de los mismos. Comntalo con tu profesor o asesor.
REGRESIN ESTADSTICA
REGRESIN LINEAL
REGRESIN POLINOMIAL
O TRASCENDENTE
PAREJAS ORDENADAS
TABULACIN
GRFICA DE DISPERSIN
RECTA DE REGRESIN
O PREDICCIN
MTODOS DE MNIMOS
CUADRADOS
y = a + bx
b=
( xy) ( x )( y )
n x ( x )
2
a= y +b(x x )
yP = x + b ( x - x )
GRFICA
RESUMEN DE CORRELACIN Y REGRESIN LINEALES
45
ACTIVIDADES DE CONSOLIDACIN
Para reafirmar los conocimientos que adquiriste sobre los temas de Correlacin y
Regresin Lineales al estudiar este fascculo, te sugerimos realizar las siguientes
actividades:
1. Los siguientes datos muestran el nmero de horas (x) dedicadas a estudiar para un
examen y la calificacin (y) obtenida en dicha prueba. Observa en el diagrama de
dispersin si existe alguna correlacin lineal y en caso de que as sea, calcula el
coeficiente de correlacin de Pearson (r).
x (horas-estudio)
y (calificacin)
2
5
3
5
3
7
4
5
4
7
5
7
5
8
6
6
6
9
6
8
7
7
7
9
7
10
8
8
8
9
2. Se realiz un estudio para investigar la relacin que existe entre el peso (x) en
libras (lb), la presin sangunea (y), de adultos varones cuyas edades oscilan entre
19 y 30 aos. Se obtuvieron los siguientes resultados.
x(lb)
y(lb/pul2)
173
178
145
146
157
175
173
137
199
131
152
172
163
170
135
159
76
76
74
70
80
68
90
70
96
80
90
72
76
80
68
72
10 10 11 12
11 12 11 12 14 14 16 15 17
4. De acuerdo con lo que has desarrollado en este fascculo, contesta las preguntas
que se encuentran al inicio del tema de regresin y comntalas con tu profesor o
asesor.
5. En una de las Secretaras del gobierno federal se ha implantado el sistema de retiro
voluntario. Para analizar dicho proceso se toma una muestra aleatoria en los
distintos departamentos, donde se relaciona el nmero de empleados que han
renunciado y el nmero de aos de servicio. Se pretende estimar cuntos
trabajadores renunciaran en funcin de su antigedad. Se obtuvieron los
siguientes datos:
46
16
9
13
10
15
10
11
12
47
AUTOEVALUACIN
A continuacin te proporcionamos algunas de las respuestas de los problemas que
estn redondeadas a dos o tres cifras, de las Actividades de Consolidacin.
Compltalos y verifica tus respuestas.
SOLUCIONES:
1) El diagrama de dispersin lo dejamos para que los compares con tus compaeros y
cambies impresiones. El clculo de r redondeado a tres cifras, da como resultado
0.741.
2) El coeficiente r de Pearson redondeado a tres cifras tiene un valor de 0.453 y como
recuerdas, el tipo de correlacin que existe entre las variables se llama.
_____________________ Completa la respuesta, con base a los diferentes
diagramas de dispersin e interpreta dicho resultado.
3) El coeficiente r de Pearson redondeado a tres cifras tiene un valor de 0.95.
4) El coeficiente de Pearson redondeado a tres cifras tiene un valor de 0.999.
Para el tema de Regresin Lineal, se sugiere elaborar un ensayo acerca de los puntos
esenciales del tema, de manera que el profesor o asesor observe el manejo de stos.
48
ACTIVIDADES DE GENERALIZACIN
525
550
515
535
510
535
495
520
430
455
400
420
49
BIBLIOGRAFA CONSULTADA
50