Вы находитесь на странице: 1из 39

Estadstica

Introduccin
Qu es la estadstica?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha
experimentado un gran desarrollo a lo largo de los ltimos aos.
En qu reas se aplica la estadstica?
Actualmente se aplica en todas las reas del saber, por ejemplo en Sociologa,
Educacin, Psicologa, Administracin, Economa, Medicina, Ciencias Polticas,
entre otras.
Ejemplos de su aplicacin son:
1) En Administracin de Empresas: la estadstica se utiliza para evaluar un producto
antes de comercializarlo.
2) En Economa: para medir la evolucin de los precios mediante nmeros ndice o para
estudiar los hbitos de los consumidores a travs de encuestas de presupuestos
familiares.

Estadstica

Introduccin
Ejemplos de su aplicacin son:
3) En Ciencias Polticas: para conocer las preferencias de los electores antes de una
votacin mediante sondeos y as orientar las estrategias de los candidatos.
4) En Sociologa: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.
5) En Psicologa: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).
6) En Medicina: uno entre muchos usos de la estadstica, es para determinar el estado
de salud de la poblacin.
En general en las Ciencias Sociales, la estadstica se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.

Estadstica

Introduccin
Etapas de un estudio estadstico
Un anlisis estadstico se lleva a cabo siguiendo las etapas habituales en el llamado
mtodo cientfico cuyas etapas son:
1)

Planteamiento del problema: consiste en definir el objetivo de la investigacin y


precisar el universo o poblacin.

2)

Recogida de la informacin: consiste en recolectar los datos necesarios


relacionados al problema de investigacin.

3)

Anlisis descriptivo: consiste en resumir los datos disponibles para extraer la


informacin relevante en el estudio.

4)

Inferencia estadstica: consiste en suponer un modelo para toda la poblacin


partiendo de los datos analizados para obtener conclusiones generales.

5)

Diagnstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la poblacin

Estadstica

Introduccin
Esquema de las etapas de un estudio estadstico

AREA DE INTERES

DATOS

ORGANIZAR Y RESUMIR
Tema de Investigacin

ESTADSTICA DESCRIPTIVA

(Tablas,
Grficos, Medidas
Descriptivas, etc.)

-Antecedentes Previos
-Objetivos
-Preguntas de Investigacin
-Posibles Hiptesis

INTERPRETACIN
Poblacin o Muestra?

Muestra

-Unidad de Anlisis
-Poblacin

Poblacin

-Variables

CONCLUSIONES
INFORMACIN

INFERENCIA ESTADSTICA

Probabilidad
4

Estadstica

Introduccin
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo existe discriminacin salarial debida al sexo de
la persona empleada.
2) Se quiere determinar el perfil de los trabajadores en trminos de condiciones
econmicas y sociales en diferentes comunidades.
3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a
vestuario, alimentacin, ocio y vivienda.
4) Se quiere determinar las tallas estndar en vestuario para mujeres espaolas.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de
distintas empresas del pas.
6) Se quiere determinar el perfil sociodemogrfico de los estudiantes de una Universidad.
7) Se quiere estudiar el gasto en telfono mvil mensual de los estudiantes de una
Universidad, y si ste tiene alguna relacin con su edad u otras caractersticas.

Estadstica
Resumen de algunos conceptos planteados en la Introduccin

VARIABLE: es lo que se va a medir y representa una caracterstica de la UNIDAD DE ANLISIS.


QUINES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Anlisis de una
Poblacin o una Muestra
POBLACIN : Es el total de unidades de anlisis que son tema de estudio.
MUESTRA: Es un conjunto de unidades de anlisis provenientes de una poblacin.

Poblacin:
Las personas que
trabajan en empresas de
comunicacin

Muestra

Muestra: 60 trabajadores de empresas de comunicacin


Unidad de anlisis: Trabajador de empresa de comunicacin
Variables: sexo, edad, salario, N de horas de trabajo, etc.

Estadstica
Variable: corresponde a la caracterstica de la Unidad de Anlisis
TIPOS DE VARIABLES
Variables Cuantitativas
CONTINUA

DISCRETA

Variables Cualitativas
NOMINAL

ORDINAL

Intervalo

Toma valores enteros


Ejemplos: Nmero de Hijos, Nmero de
empleados de una empresa, Nmero de
asignaturas aprobadas en un semestre, etc.
Toma cualquier valor dentro de un intervalo
Ejemplos: Peso; Estatura; Temperatura, etc.

Caracterstica o cualidad
cuyas categoras no tienen
un orden preestablecido.
Ejemplos: Sexo, Deporte
Favorito, etc.
Caracterstica o cualidad cuyas
categoras tienen un orden
preestablecido.
Ejemplos: Calificacin (S, N, A);
Grado de Inters por un tema, etc.

Unidad de Medida:
Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura

Estadstica

Frecuencia: desde un conjunto de unidades, corresponde al Nmero o Porcentaje de veces que se


presenta una caracterstica.
Variable
Cuantitativa

CONTINUA
DISCRETA

Variable
Cualitativa

Variable
Cualitativa

NOMINAL
ORDINAL

Frecuencia Absoluta
(F)
Frecuencia Absoluta
Acumulada (FAA)

NOMINAL
ORDINAL

TIPO FRECUENCIA

Variable
Cuantitativa

CONTINUA
DISCRETA

Frecuencia Relativa
(f)
Frecuencia Relativa
Acumulada (fra)

Estadstica

EJEMPLO

Problema de Investigacin: Se quiere establecer el perfil de las industrias


de conserva en funcin de algunas caractersticas.
Unidad de Anlisis: Industria de Conserva
Poblacin: Industrias de Conservas del pas

Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- N de Empleados: se refiere al nmero de empleados en las lneas de produccin. ( cuantitativa
discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las reas de
produccin. (cuantitativa continua)
- Calificacin: calificacin realizada por una institucin pblica sobre cumplimiento de ciertos
estndares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)
Datos
Industria n
1
2
.
.
.
299
300

Tipo
A
B
.
.
.
D
C

N Empleados
100
150
.
.
.
250
300

Superficie
1000,6
1200,4
.
.
.
800,3
4000,2

Calificacin
Muy Bien
Bien
.
.
.
Mal
Regular

Estadstica
Problema de Investigacin:
Investigacin: Se quiere establecer el perfil de las industrias de conserva en
funcin de algunas caractersticas.

EJEMPLO

Unidad de Anlisis:
Anlisis: Industria de Conserva

TABLAS DE
FRECUENCIA
Tipo de
Industria
A
B
C
D
Total

(1)

Frecuencia
Absoluta (F j)

Poblacin:
Poblacin: Industrias de Conservas del pas
Frecuencia
Relativa (fj)

300
Numero de
Empleados
<100
[100-150[
.
.
[950-1000]
Total

Porcentaje
(%)

1
Frec.
Absoluta (Fj)

100
Frec.Relativa
(fj) o %

Calificacin
Muy Bien
Bien
Regular
Mal
Total

Frec. Absol.
Acum. (FAAj)

Frec.
Absoluta (F j)

Frec.Relativa
(fj) o %

300

Frec. Absol.
Acum. (FAAj)

Frec. Relat.
Acum. (fraj) o %

300

1 (o 100)

(2)

1 (o 100)

Frec. Relat.
Acum. (fraj) o %

(3)
300
300

1 (o 100%)

(4)

Superficie
(mt2)
<200
[200-400[
.
.
[50000-5200]
Total

1 (o 100%)
Frec.
Absoluta (F j)

300

Frec.Relativa
(fj) o %

1 (o 100%)

Frec. Absol.
Acum. (FAAj)

Frec. Relat.
Acum. (fraj) o %

300

1 (o 100%)

10

Estadstica

Elementos de una tabla de frecuencia cuando la variable es continua (x)

[LI1 ; LS1 [

Intervalo

Centro
de clase Amplitud

I1

c1

a1

[LI2 ; LS2 [

I2
.
.

c2

a2

[LIk ; LSk]

Ik

ck

ak

Total

cj = (LIj) + LSj )/2

FAA fra

n
n

aj = (LSj LIj))

11

Estadstica
Ejercicio: confeccin de una tabla de frecuencia para una variable
continua
Los datos corresponden a la edad de
los hijos de los trabajadores de una
empresa
10,5
10,7
9,5
10,5
11,8
11,2
12,0
10,7
10,4
11,7
13,9
7,3

10,3
11,5
7,5
10,3
10,6
8,0

13,5
11,1
10,2
10,6
10,0
8,5

12,3
10,6
8,7
10,5
10,8
12,5

10,6
9,3
10,9
11,9
10,6
9,7

9,8
12,9
9,9
11,0
-

Realice la siguiente actividad


1)

Construya un Diagrama de Tallo y Hoja

2)

Cul es la variable?; Cul es la Unidad de


anlisis?; Cunto vale n?; Cul es el rango
de la variable?.

3)

Sobre una Tabla de frecuencia:


frecuencia: Cuntos
intervalos podra construir?; Cul es la
amplitud de cada intervalo?; Cuntas
medidas de frecuencia puede obtener para
cada intervalo?.

4)

Construir tabla de frecuencia para la


variable:
variable: Intervalos, centro de clase,
amplitud, frecuencias.

Datos ordenados de menor a mayor


7,3
7,5
8,0
8,5
8,7
9,3
9,5

9,7
9,8
9,9
10,0
10,2
10,3
10,3

10,4
10,5
10,5
10,5
10,6
10,6
10,6

10,6
10,6
10,7
10,7
10,8
10,9
11,0

11,1
11,2
11,5
11,7
11,8
11,9
12,0

12,3
12,5
12,9
13,5
13,9
-

Diagrama de Tallo y Hoja: permite organizar los


datos de una variable medida sobre un conjunto de
individuos. Su utilidad viene dada cuando no
contamos con herramientas automticas para ordenar
los datos.

12

Estadstica
1. Grfico de Sectores Circulares (de Torta)

TIPOS DE
GRFICOS

Distribucin de las unidades de anlisis de


acuerdo a variable 1

D
10%

Distribucin de las unidades de


anlisis de acuerdo a variable 1
D
10%
C
40%

A
20%

A
20%

B
30%

Distribucin de las unidades de


anlisis de acuerdo a variable 1
C
40%

B
30%
D
10%
C
40%

A
20%

B
30%

13

Estadstica
TIPOS DE
GRFICOS

2. Grfico de Barras

Numero de unidades de anlisis


de acuerdo a variable 1

Proporcin de unidad de anlisis de acuerdo a


variable 1
D
variable 1

500

300
200

C
B
A

100
0
A

variable 1

0,2

0,4

0,6

0,8

Proporcin de unidad de anlisis

-Este tipo de grfico se utiliza generalmente para


representar la frecuencia de las categoras de una
variable cualitativa.

Porcentaje de unidad de anlisis de acuerdo a


variable 1

-Cuando una variable es cuantitativa se puede utilizar


este tipo de grfico slo si la variable se ha
transformada en categoras.

D
variable 1

400

C
B
A
0

20

40

60

% unidad de anlisis

80

100

-Hay distintas versiones de estos grficos (por ejemplo


en Excel), y en algunos casos son muy tiles para
describir el comportamiento de una variable en distintos
grupos.
14

Estadstica
TIPOS DE
GRFICOS

3. Histograma
Histograma

Distribucin de los hijos de trabajadores


de la empresa de acuerdo a edad

Frecuencia
N

15

10

Histograma
- Permite la representacin de
la frecuencia de una variable
Cuantitativa.
- El eje x se refiere a la
variable.

0
7

10

11

12

13

edad
edad

Ejemplo
En el grfico se puede observar el nmero de
hijos , de menor edad (7-8 aos), las de mayor
edad (13-14 aos); y adems que la mayora de
hijos de los trabajadores estn entre los 10 y 12
aos.

14

- El eje y se refiere a la
frecuencia (N , %).
- Cada barra representa la
frecuencia de la variable en la
poblacin en estudio (o la
muestra).
-El histograma se puede
construir desde los datos de la
tabla de frecuencia de la
variable en estudio.

15

Estadstica
TIPOS DE
GRFICOS

5. Polgono de Frecuencia

Distribucin de los hijos de trabajadores


de la empresa de acuerdo a edad

Frecuencia
N

15

-Esta representacin se basa en


el Histograma.
-Slo es til para variables
cuantitativas.

10

edad

-El eje x se refiere a la


variable.

0
7

10

11

edad

12

13

14

- El eje y se refiere a la
frecuencia (N , %).
-Los puntos que permiten la
unin de las lneas representa
el centro de clase (o marca de
clase).
16

Estadstica
TIPOS DE
GRFICOS

5. Diagrama de Caja

Edad de las personas que se realizaron


angioplasta entre 1980 y 2000

100
90
80
70

- Permite identificar grficamente


mediana, los cuartiles 1 y
(percentiles 25 y 75), mnimo
mximo de una variable.

Edad

60
50
40
30

- Slo es til
cuantitativas.

20

variables

-El eje x permite identificar la


poblacion en estudio.

10
0
N=

para

la
3
y

584

1473

Mujeres

Hombres

- El eje y representa los valores de la


variable en estudio.
17

Estadstica
TIPOS DE
GRFICOS

6. Otros
Nmero de alumnos matriculados en la
Carrera B segn ao de ingreso
N de alumnos

100
80
60
40
20
0
1998

1999

2000

2001

2002

100
80
60
40
20
0

2003

1998

1999

ao de ingreso

2000

2001

2002

2003

ao de ingreso
Nmero de alumnos matriculados en las Carreras
segn ao de ingreso

ao de ingreso
1998
1999
2000
2001
2002
2003

N de alumnos
Carrera A
Carrera B
60
80
55
70
80
50
40
60
68
50
70
75

N de alumnos

N de alumnos

Nmero de alumnos matriculados en la


Carrera A segn ao de ingreso

200
150
100
50
0
1998

Carrera B
Carrera A

1999

2000

2001

2002

2003

ao ingreso

18

Estadstica

NOTACION
Variables Cuantitativas

de la variable en el individuo i
x variable xi valor
OBSERVACIONES
y variable y valor de la variable en el individuo i i 1,..., n
* El Tipo de Grficoi seleccionado va a depender de la variable en estudio.
, b, c :General
constantes
* El Grfico debe contener un aTtulo
y la identificacin de cada eje
n

(variable en estudio y frecuencia).

ocasiones
c nc
c *c En
i 1
n

frecuencia.

i 1

i 1

i 1

cx1 cx
c xi que una
x1 de
xn
resulta
ms
unn
grfico
cx
xitabla
i ilustrativo
2

n
n
* Al igual que las tablas, los grficos deben
ser auto-explicativos.
2

(axi b) (ax1 b) (axn b) a xi b


i 1

i 1

( xi ) ( x1 x n ) 2
i 1

( xi yi ) ( x1 y1 ) ( x n y n )
i 1

( xi yi ) ( x1 y1 ) ( xn y n )
i 1

19

Estadstica
-Media Aritmtica (Promedio)
MEDIDAS DE TENDENCIA CENTRAL

-Mediana
-Moda

Datos Cuantitativos

x
x1
x2

xn

Datos Cuantitativos ordenados de menor a mayor

Media Aritmtica o Promedio


n

xi
i 1

Datos
Cualitativos y Cuantitativos

x
x(1)

Mediana

M E x( k )

x( 2 )

ME

x(n )

Si n es impar

x( k ) x( k 1) Si n es par
2

x( k ) dato del centro

Moda

M o " el dato que ms se repite"


20

Estadstica
-Percentil (ejemplo: 25, 50, 75)
Percentiles, Deciles o Cuartiles

-Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los
n datos estn ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que rene al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posicin 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posicin 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que rene al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posicin 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posicin 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que rene al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posicin 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posicin 64.

21

Estadstica
-Rango
-Varianza

MEDIDAS DE DISPERSIN

-Desviacin Estndar
Datos Cuantitativos

x
x1
x2

xn

Varianza

1 n
( xi x )
x ( xi ) 2

1 n 2
n i 1
i 1
R max( xi ) min( xi ) s 2 i 1

xi x 2
n
n
n i 1
Rango

2
i

Desviacin Tpica o Estndar

s s2
Comparacin entre Variables

Se refiere al comportamiento de las variables cuantitativas en un


grupo. Por ejemplo: Si se tiene un conjunto de personas a las que
se les mide Estatura, Peso, Edad: Entre estas variables cul
presenta mayor variacin?

Coeficiente de Variacin

cv

s
x

22

Estadstica

-Asimetra

Otras medidas o Coeficientes

-Kurtosis o Apuntamiento

Adems de la posicin y la dispersin de los datos, otra medida de inters en una distribucin de frecuencias
es la simetra y el apuntamiento o kurtosis.

Coeficiente de Asimetra CA

(x
i 1

x)3

n s3
n

Coeficiente de Apuntamiento CAp

Si CA=0 si la distribucin es simtrica alrededor de la media.


Si CA<0 si la distribucin es asimtrica a la izquierda
Si CA>0 si la distribucin es asimtrica a la derecha

( xi x ) 4
i 1

n s4

- Si CAp=0 la distribucin se dice normal (similar


a la distribucin normal de Gauss) y recibe el
nombre de mesocrtica.
- Si CAp>0, la distribucin es ms puntiaguda que
la anterior y se llama leptocrtica, (mayor
concentracin de los datos en torno a la media).
- Si CAp<0 la distribucin es ms plana y se
llama platicrtica.

23

Estadstica

Otras medidas o Coeficientes

-Asimetra
-Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetra y apuntamiento

14

30

12

10

20
8

3
6
2

10
4

Desv. tp. = 1,67

Desv. tp. = ,64

Media = 3,9

Media = 0,0

N = 30,00

0
1,0

2,0

3,0

4,0

V2

5,0

6,0

7,0

N = 30,00

0
-1,0

0,0

1,0

V4

2,0

Desv. tp. = 2,42


Media = 5,2
N = 28,00

0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

V5

24

Estadstica

Otras medidas o Coeficientes

-Asimetra
-Kurtosis o Apuntamiento
Ejemplos

Datos

16

Histograma

Medidas descriptivas
Media

14

3,9

Mediana

12

Moda

10

Desviacin estndar

1,67

Varianza de la muestra

2,78

kurtosis

-0,43

Coeficiente de asimetra

-0,02

Rango

Mnimo

Mximo

Cuenta

30

Desv. tp. = 1,77


Media = 5,4
N = 66,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

V1

25

Estadstica

Media, Desviacin tpica, Coeficientes de Asimetra y Apuntamiento


para datos Agrupados (tabla de frecuencias)
Tabla de frecuencia (para variable cuantitativa)
Intervalo

Centro
de clase Amplitud

f1
f2

I1

c1

a1

I2
.
.

c2

a2

n1
n2

Ik

ck

ak

nk

fk

Total

FAA fra

2) La Desviacin tpica para datos


agrupados esta dada por:

sc
n

Sea cj la marca de clase (o centro de clase) y fj la


frecuencia relativa de la clase j, donde j=1, 2,, k.

1) La Media para datos agrupados es igual a


la suma de los productos de las marcas de
clase por sus frecuencias relativas, de la forma:

j 1

(c
j 1

xc ) 2 f j

3) El Coeficiente de Asimetra para


datos agrupados esta dado por:
k

CAc

(c
j 1

xc ) 3 f j

s c3

4) El Coeficiente de apuntamiento para


datos agrupados esta dada por:
k

Media c x c c j f j

CAp c

(c
j 1

xc ) 4 f j
s c4
26

Estadstica
Descripcin de 2 variables cualitativas
Distribucin conjunta

Problema
Interesa estudiar cual es el
principal medio de transporte
preferido por un grupo de
personas a la hora de dirigirse
al centro comercial.

Tabla 1

Para esto se consult a cada


persona sobre la actividad a
la que se dedicaba y el medio
de transporte preferido.

Actividad

Transporte

Estudia

Pensionado

Trabaja

Autobus

Bicicleta

Caminar

Coche

Metro

Transporte

Autobus

12

20,0

Bicicleta

13,3

Caminar

15,0

Coche

14

23,3

Metro

17

28,3

TOTAL

60

100

Actividad

Estudia

21

35,0

Pensionado

26

43,3

Trabaja

13

21,7

TOTAL

60

100

27

Estadstica
Descripcin de 2 variables cualitativas
Distribucin conjunta
N de personas
Tabla 2

Actividad

Transporte

Estudia

Pensionado

Trabaja

TOTAL

Autobus

12

Bicicleta

Caminar

Coche

14

Metro

17

TOTAL

21

26

13

60

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

28

Estadstica
Descripcin de 2 variables cualitativas
Distribucin conjunta
N de personas y % respecto de tipo de Transporte
Tabla 3
Transporte

Actividad

Estudia

Pensionado

Trabaja

TOTAL

12

41,7

58,3

100

37,5

37,5

25

100

22,2

55,6

22,2

100

14

35,7

28,6

35,7

100

17

35,3

41,2

23,5

100

TOTAL

21

26

13

60

35

43,3

21,7

100

Autobus
%
Bicicleta
%
Caminar
%
Coche
%
Metro
%

29

Estadstica
Descripcin de 2 variables cualitativas
Distribucin conjunta
N de personas y % respecto de tipo de Actividad
Tabla 4
Transporte

Actividad

Estudia

Pensionado

Trabaja

TOTAL

12

23,8

26,9

20

14,3

11,5

15,4

13,3

9,5

19,2

15,4

15

14

23,8

15,4

38,5

23,3

17

28,6

26,9

30,8

28,3

TOTAL

21

26

13

60

100

100

100

100

Autobus
%
Bicicleta
%
Caminar
%
Coche
%
Metro
%

30

Estadstica

MEDIDAS DE ASOCIACIN LINEAL

x
x1
x2

xn

- Covarianza

Datos

- Correlacin

Cuantitativos

Recordemos que: Hasta ahora hemos estudiado las medidas tendencia


central (Media, Mediana, Moda) y dispersin
(Varianza y Desviacin Estndar) para una Variable
Cuantitativa (x).

Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x


(x1 , x2) o bien (x
(x , y)

x
x(1)

y( 1 )

1 n
cov( x , y ) ( xi x )( yi y )
n i 1

x( 2)

y( 2 )

Si Cov(x,y) es positiva: la asociacin entre x e y es directamente proporcional,


es decir que cuando x aumenta y tambin aumenta; y viceversa.

x(n )

Si Cov(x,y) es negativa: la asociacin entre x e y


es inversamente
proporcional, es decir que cuando x aumenta y disminuye; y viceversa.

y( n )

Si Cov(x,y) es cero: no existe asociacin entre x e y.

31

Estadstica

MEDIDAS DE ASOCIACIN LINEAL

- Covarianza

Datos

- Correlacin

Cuantitativos

Correlacin: Se refiere al grado de asociacin entre dos variables (x1 , x2) o bien (x , y)
Coeficiente de Correlacin de Pearson (r): Mide el grado de Asociacin Lineal
entre dos variables Cuantitativas
y

x
x(1)

y( 1 )

x( 2)

y( 2 )

x(n )

y( n )

cov( x , y )
sx s y

xi yi nx y

r i 1
( n 1 )s x s y

1 r 1

Si r es positivo: la asociacin entre x e y es directamente proporcional, es decir que


cuando x aumenta y tambin aumenta; y viceversa. Si r=1: la asociacin lineal es
perfecta.
Si r es negativo: la asociacin entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociacin lineal es
perfecta.
Si r es cero: no existe asociacin entre x e y.
32

Estadstica

EJEMPLO : Representacin grfica de las variables x e y

r=1

r=-1

33

Estadstica

Datos Cuantitativos

REGRESION LINEAL SIMPLE


Objetivo 1
Determinar si dos variables estn
asociadas y en qu sentido se da
la asociacin.

Determinar si existe relacin


entre las variables x e y:
Coeficiente de Correlacin

x
x(1)

y( 1 )

x( 2)

y( 2 )

x(n )

y( n )

Objetivo 2
Estudiar si los valores de una
variable pueden ser utilizados para
predecir el valor de la otra

Estudiar la dependencia de una


variable respecto de la otra:

Modelo de Regresin

Trminos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relacin Lineal (modelo lineal)
Parmetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)

34

Estadstica

Datos Cuantitativos

REGRESION LINEAL SIMPLE


y

x
x(1)

y( 1 )

Notacin

x( 2)

y( 2 )

x(n )

Variable Respuesta: y
Variable Explicativa: x

y( n )

Modelo de Regresin Lineal Simple: yi=+xi+ei


Intercepto:
Pendiente:
Error: e

Modelo Estimado
(recta de regresin)

Mtodo de Estimacin: Mnimos Cuadrados

a y bx

y a bx

Residuos o Errores

i 1

i 1

i 1

ei y i y i

n xy xi y i
n

n x

i 1

i 1

xi

35

Estadstica

REGRESION LINEAL SIMPLE


MODELO DE REGRESIN LINEAL SIMPLE

yi=+xi+ei
DATOS

MODELO ESTIMADO

y a bx

x
x(1)

y( 1 )

x( 2)

y( 2 )

x(n )

y( n )

ESTIMADORES

ERRORES

a y bx

ei y i y i

i 1

i 1

i 1

n xy xi y i
n

i 1

n x 2

i 1

xi

36

Estadstica

REGRESION LINEAL SIMPLE


EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.
nio
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14

edad (meses) talla (cm)


xi
yi
3
55
6
68
5
64
5
66
3
62
4
65
9
74
8
75
9
73
7
69
6
73
5
68
8
73
6
71

y=talla / x=edad / n=14


14

yi
i 1

14

956 y 68,3 s y 5,6

xi
i 1

84 x 6

sx 2

cov( x, y ) 9,07 rxy 0,88


14

xi y i
i 1

5863

14

xi2 556
i 1

37

Estadstica

REGRESION LINEAL SIMPLE


EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.

Modelo Estimado
y a bx
b 2,44 a 53,64
y 53,64 2,44 x
Interpretacin de los resultados
- Existe asociacin o dependencia entre la Talla del nio y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresin lineal simple, se tiene que la talla
media de un nio es de 53,64 cm. Cuando la edad del nio (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.
38

Estadstica

REGRESION LINEAL SIMPLE


EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.
nio
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14

edad (meses) talla (cm) Talla estimada


xi
3
6
5
5
3
4
9
8
9
7
6
5
8
6

yi
55
68
64
66
62
65
74
75
73
69
73
68
73
71

error

y i

ei

61,0
68,3
65,8
65,8
61,0
63,4
75,6
73,2
75,6
70,7
68,3
65,8
73,2
68,3

-6,0
-0,3
-1,8
0,2
1,0
1,6
-1,6
1,8
-2,6
-1,7
4,7
2,2
-0,2
2,7

14

( yi yi ) 2 402,86
i 1

14

14

i 1

i 1

( yi y i ) 2 ei2 92,7
Bondad de Ajuste del Modelo
R2 = 0,77

De acuerdo al coeficiente de
determinacin, el modelo ajustado
a los datos es adecuado (R2
cercano a 1)
39