Вы находитесь на странице: 1из 7

GUA METODOLGICA DE ESTADSTICA INFERENCIAL

ING. ROBERTO LINCE


ANALISIS DE CORRELACION Y REGRESION
Hasta el momento, nos hemos ocupado del anlisis de una sola variable,
es decir de una sola caracterstica, desde una sola poblacin hasta
varias poblaciones, corresponde entonces realizar el anlisis sobre dos o
ms variables. El anlisis de correlacin y regresin corresponde al
anlisis respecto del comportamiento que presentan en conjunto dos o
ms variables relacionadas, es decir dos o ms caractersticas en los
Relacin: se refiere a la influencia que ejerce una caracterstica sobre otra, entendindose la
influencia como la afectacin o estmulo de la una variable respecto de la otra o viceversa. Lo
cual origina un comportamiento conjunto de las dos variables.

mismos elementos poblacionales; para esto, es necesario entender a


que nos referimos con relacin;
En virtud de tal relacin se definen y diferencian dos tipos de variables:
Variable Independiente: es aquella caracterstica que influye o incide en el comportamiento de
la otra variable, y se la nomina siempre como X.
Variable Dependiente: es aquella que es influida o afectada por la otra variable y es la que
tiene particular inters en el estudio y es la que se nomina como Y.

Tambin, se requiere diferenciar el sentido de la relacin que presentan


las variables analizadas, para esto se tiene que:
Relacin Positiva o directa: se da cuando a un incremento de la variable independiente X le
corresponde un incremento en la variable dependiente Y.
Relacin Negativa o indirecta: es cuando a un incremento en X le corresponde una
disminucin en Y.
Relacin Nula: cuando no existe ningn tipo de sentido definible respecto del comportamiento
conjunto de las variables.

Por ejemplo, si se relaciona las ventas con la publicidad, la publicidad


sera la variable independiente X, porque es la que influye en el
comportamiento de las ventas, y lgicamente las ventas sera Y; el
sentido de la relacin podra tener los siguientes esquemas:
a) Directa
b) Indirecta
c) Nula

Grficamente ser:

Por otro lado, se requiere determinar el tipo de relacin que describen


las dos variables en virtud de identificar el comportamiento conjunto de
ambas variables y establecer los criterios para la prediccin y pronstico
que corresponde al anlisis de regresin, encontrndose que la relacin
podra ser de tipo lineal, exponencial o logartmica.
1. ANLISIS DE CORRELACIN
En primera instancia, se debe obtener un panorama respecto de la
relacin que definen las dos variables analizadas, lo cual se consigue a
travs del diagrama de dispersin, una vez identificado el
comportamiento conjunto, se requiere de un descriptor que exprese el
sentido y la fuerza de la relacin identificada y su correspondiente
parmetro, para esto se tiene el coeficiente de correlacin r, y su
parmetro (rho).
Coeficiente de correlacin (rho): mide el grado de relacin que existe entre dos variables y
puede tomar valores desde -1 hasta 1, siendo su estimador puntual r, es decir:
-1 r 1

Donde el signo del indicador expresa si la relacin es directa o inversa y


el valor representa la fuerza de la relacin, entendindose que 1 implica
una relacin perfecta.
Para tener un referente para su interpretacin se podra considerar el
siguiente esquema:
Si
r 0.9
Si 0.7 r > 0.9
Si 0.5 r > 0.7

se considera una relacin fuerte


ser una relacin significativa o moderada
ser una relacin dbil

Ms all de estos valores ya no resulta relevante la relacin encontrada y se la podra considerar


aleatoria.
Debe considerarse que, la relacin que se est analizando debe guardar
una escenario lgico y coherente, numricamente se puede establecer
relacin entre variables que no la tienen en la realidad.
Por ejemplo; la produccin de petrleo con la crianza de ovejas,
numricamente pueden presentar relacin pero no la tienen en realidad.
Dentro del escenario de la inferencia estadstica, corresponde entonces
realizar las estimaciones y sus respectivas pruebas de hiptesis,
considerando que se lo hace a partir de la informacin generada por una
muestra, segn los esquemas analizados en las herramientas
respectivas.
Para calcular r se tiene la siguiente ecuacin:
( n1 ) S x S y
r=
2
2
n x 2( x) n y 2( y )

][

Donde se entiende que r es una medida de la relacin entre, la variacin


conjunta de XY respecto de la media de la variacin conjugada de X con
la de Y.
Para realizar la prueba respectiva, se deben considerar los siguiente
puntos:
1. Definiciones.- Poblacin, Variables independiente y dependiente, y
Parmetro.
2. Realizar la grfica de dispersin.- para identificar grficamente el
sentido y tipo de relacin.
3. Formular las hiptesis.- para este caso las hiptesis sern:
H0: = 0
H1: > 0 < 0 segn si la relacin se considera positiva o
negativa respectivamente
4. Determinar la significancia y el valor crtico.- es decir, el valor de t en
la tabla conforme la significancia (), los grados de libertad sern gl =
n-2
5. Establecer la regla de decisin.- Si tc > t ; se rechaza H0
6. Escoger el estadstico de prueba.- en este caso la prueba para es:
tc=

r n2
1r 2

7. Calcular los valores.- determinar el valor de r y r 2, y remplazar en la


ecuacin,
8. Tomar la decisin.- esto es, rechazar o aceptar H 0 segn la evidencia
muestral,
9. Elaborar la conclusin general.- resolucin conforme el escenario de
aplicacin de la prueba.
Para demostrar el procedimiento anterior se tiene el siguiente ejemplo:

Ejemplo:
Una muestra de 10 familias en el rea de Quito revel las siguientes cifras
referentes al tamao de familia y la cantidad de dinero (en dlares) gastada
en alimentos, por semana.
Tamao
de la
familia

Cantid
ad
gastad
a

Tamao
de la
familia

Cantid
ad
gasta
da

3
6
5
6
6

$ 99
104
151
129
142

3
4
4
5
3

$111
74
91
119
91

La variable independiente X ser el tamao de la familia y la variable


dependiente Y ser el gasto, es decir el gasto depende del tamao de la
familia.
El diagrama de dispersin ser:

Diagrama de dispersin
200
150
Gasto 100
50
0
2.5

3.5

4.5

5.5

6.5

Tamao

Conforme la grfica parece existir una relacin positiva entre ambas


variables, habr que determinar si es estadsticamente significativa.
1. Definiciones.- Poblacin, todas las casas del sector de Quito
Variable independiente, el tamao de la familia
Variable dependiente, el Gasto delas familias,
Parmetro, el nivel de correlacin entre el tamao y el gasto
de todas las familias de Quito.
2. Formular las hiptesis.- para este caso las hiptesis sern:
H0: = 0

H1: > 0 por cuanto se supone positiva


3. Determinar la significancia y el valor crtico.- la significancia
= 0.05, con gl = 10 2 = 8, t = 2.823
4. Establecer la regla de decisin.- Si tc >2,823 ; se rechaza H0
5. Escoger el estadstico de prueba.- en este caso la prueba para
es:
tc=

r n2

1r 2

6. Calcular los valores.- remplazando valores se tiene,


tc=

0.5892 102
=2,062
10.58922

7. Tomar la decisin.- como 2,062 es menor que 2,823 se acepta


la hiptesis H0,
8. Elaborar la conclusin general.- segn la evidencia de la
muestra, la relacin observada entre el tamao de la familia y
el gasto familiar no es estadsticamente significativa.

Вам также может понравиться