You are on page 1of 27

Organizacin y Presentacin de datos

Bivariados

MATE 3026

Organizacin y Presentacin de datos


Bivariados
Datos bivariados cualitativos
Para organizar datos de dos variables cualitativas se usan tablas de
doble entrada. Los valores de una variable van en columnas y los valores
de la otra variable van en filas. Tambin Son llamadas tablas de
contingencia .
Tabla de contingencia para estudiar la
asociacin entre fumar durante la gestacin y el
bajo peso del nio al nacer. Estudio de
seguimiento de 2000 gestantes.
Recin nacido de bajo
peso

MATE 3026

Gestante

No

Total

Fumadora

43 (a)

207 (b)

250

No
Fumadora

105 (c)

1645 (d)

1750

Total

148

1852

2000

Ejemplo
Supongamos que deseamos estudiar las variables tipo de escuela superior
y la aprobacin de la primera clase de matemticas que toma el estudiante
en la universidad, usando los datos de 20 estudiantes que se muestran
abajo:
Est escuela aprueba Est
escuela aprueba
1 priv
si
11
pbl
si
2 priv
no
12
priv
no
3 pbl
no
13
pbl
no
4 priv
si
14
priv
si
5 pbl
si
15
priv
si
6 pbl
no
16
pbl
no
7 pbl
si
17
priv
no
8 priv
si
18
pbl
si
9 pbl
si
19
pbl
no
10 priv
si
20
priv
si

MATE 3026

Ejemplo (cont)

MATE 3026

No

Si

Total

Privada

10

Publica

10

Total

12

20

Ejemplo
Los siguientes datos se han recopilados para tratar de establecer si hay
relacin entre el Sexo del entrevistado y su opinin con respecto a una
ley del Gobierno.

Construir una tabla de contingencia y responder adems las siguientes


preguntas:
a) Qu porcentaje de los entrevistados son mujeres que se abstienen
de opinar?
b) De los entrevistados varones. Qu porcentaje est en contra de la
ley?
c) De los entrevistados que estn a favor de la ley. Qu porcentaje
son varones?

MATE 3026

Solucin:

MATE 3026

Datos Bivariados Cuantitativos


Si se quiere representar la relacin entre dos variables cuantitativas X e Y
entonces se usa un diagrama de dispersin (Scatterplot).

MATE 3026

Ejemplo
El dueo de una empresa que vende carros desea determinar si hay relacin
lineal entre los aos de experiencia de sus vendedores y la cantidad de carros
que venden. Los siguientes datos representan los aos de experiencia (X) y
las unidades de carros vendidas al ao (Y), de 5 vendedores de la empresa.

Aos

Ventas

MATE 3026

MATE 3026

Ejercicio
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las
siguientes:

MATE 3026

10

El Coeficiente de Correlacin
Llamado tambin coeficiente de correlacin de Pearson, se representa por r y es
una medida que representa el grado de asociacin entre dos variables cuantitativas
X e Y.

La correlacin varia entre -1 y 1. Un valor de r cercano a 0 indica una


relacin lineal muy pobre entre las variables. Un valor cercano a 1 indica
que hay una buena relacin lineal entre la variable y adems al aumentar
una de ellas la otra tambin aumenta. Un valor cercano a 1 indica una
buena relacin lineal pero al aumentar el valor de una de las variables la
otra disminuye.

MATE 3026

11

Correlacin Positiva

MATE 3026

12

Correlacin Negativa

MATE 3026

13

No Existe Correlacin

MATE 3026

14

Coeficiente de Correlacin

MATE 3026

15

Ejemplo
El dueo de una empresa que vende carros desea determinar si hay relacin
lineal entre los aos de experiencia de sus vendedores y la cantidad de carros
que venden. Los siguientes datos representan los aos de experiencia (X) y
las unidades de carros vendidas al ao (Y), de 10 vendedores de la empresa.

MATE 3026

16

Solucin:
r=0.983593
Interpretacin:
Existe una buena relacin lineal entre los aos de experiencia y las unidades
que vende el vendedor. Adems mientras ms experiencia tiene el vendedor
ms carros vender. Se puede usar los aos de experiencia para predecir las
unidades que vender anualmente a travs de una lnea recta.

MATE 3026

17

Coeficiente de Correlacion para diversos plots


150

r=.984

40

r=-.993

140
130

30

120
110

20

100
90

10
80
0

10

15

20

25

10

20

90

r=.107

80

40

14

r=.005

70

10

MATE 3026

30

15

18

Efecto de valores anormales en el valor de la correlacion


120
40

100

r=.371

r=.319

30

80
60
40

20

20
10
0
0

10

15

20

25

10

20

30

90

60

40

r=.984

70

35

60

30

50

25

50

45

80

40

20

30

15

20

10

10

r=.974

0
0

10

20

MATE 3026

40

30

40

10

15

20

25

19

Una introduccin a Regresin Lineal.


La variable Y es considerada como la variable dependiente o de respuesta
y la variable X es considerada la variable independiente o predictora. La
ecuacin de la lnea de regresin es:
Donde: es el intercepto con el eje Y, y es la pendiente de la lnea de
regresin. Ambos son llamados los coeficientes de la lnea de regresin.
Los estimadores y son hallados usando el mtodo de mnimos cuadrados,
que consiste en minimizar la suma de los errores cuadrticos de las
observaciones con respecto a la lnea. Las frmulas de clculo son:

donde x es la media de los valores de la variable X y y es la media de los


valores de Y.
MATE 3026

20

Una introduccin a Regresin Lineal.


Interpretacin de los coeficientes de regresin:
La pendiente se interpreta como el cambio promedio en la variable de
respuesta Y cuando la variable predictora X se incrementa en una unidad
adicional.
El intercepto indica el valor promedio de la variable de respuesta Y
cuando la variable predictora X vale 0. Si hay suficiente evidencia de que X
no puede ser 0 entonces no tendra sentido la interpretacin .

MATE 3026

21

Una introduccin a Regresin


Lineal.

MATE 3026

22

Ejemplo
Supongamos que se desea establecer una relacin entre la nota que un
estudiante obtiene en la parte de aprovechamiento matemtico de ingreso
(CEEB) y el Promedio acadmico al final de su primer ao de universidad
(GPA). Se toma una muestra de 15 estudiantes y se obtiene los siguientes
datos:

Obtener el diagrama de dispersin de los datos, la ecuacin de la lnea de


regresin y trazar la lnea encima del diagrama de dispersin.

MATE 3026

23

Solucin
La variable independiente es CEEB y la
variable dependiente es GPA. La grfica es:
Regresin de GPA versus CEEB
GPA = 2.210 + 0.001087 CEEB

3.50

S
R-Sq
R-Sq(adj)

0.291371
12.1%
5.4%

GPA

3.25

3.00

2.75

2.50
400

500

600
CEEB

700

800

Interpretacin: El coeficiente de correlacin


es .121 esto indica una pobre relacin lineal
entre las variables CEEB y GPA. O sea que es
poco confiable predecir GPA basado en el
CEEB usando una lnea.

MATE 3026

Interpretacin:
La
pendiente
0.00109 indica que por cada punto
adicional en el College Board el
promedio del estudiante subira en
promedio en 0.00109, Por otro lado,
si consideramos que es imposible que
un estudiante sea admitido sin tomar
el College Board, podemos decir que
no tiene sentido interpretar el
intercepto.

24

Prediccin
Uno de los mayores usos de la lnea de regresin es la prediccin del
valor de la variable dependiente dado un valor de la variable
predictora. Esto se puede hacer fcilmente sustituyendo el valor dado
de X en la ecuacin.
Por ejemplo, supongamos que deseamos predecir el promedio
acadmico de un estudiante que ha obtenido 600 puntos en la parte
matemtica del examen de ingreso. Sustituyendo x =600 en la
ecuacin
de
la
lnea
de
regresin
se
obtiene
Y=2.21+.00109*600=2.21+.654=2.864. Es decir que se espera que el
estudiante tenga un promedio acadmico de 2.86.

MATE 3026

25

Ejercicio
Una compaa de seguros considera que el nmero de vehculos (y) que
circulan por una determinada autopista a ms de 120 km/h , puede ponerse
en funcin del nmero de accidentes (x) que ocurren en ella. Durante 5 das
obtuvo los siguientes resultados:

Calcula el coeficiente de correlacin lineal.


Si ayer se produjeron 6 accidentes, cuntos vehculos podemos suponer
que circulaban por la autopista a ms de 120 km / h?
Es buena la prediccin?
MATE 3026

26

Solucin

MATE 3026

27