Вы находитесь на странице: 1из 17

UNIDAD 3. ESTADISTICA BIVARIADA

Tablas de Contingencia

Cuando se miden dos variables en una sola unidad experimental, los datos resultantes se llaman datos bivariados.

En las ciencias sociales, de la salud y del comportamiento es muy frecuente encontrarse con variables categóricas. El sexo, la raza, la clase social, el lugar de procedencia, la categoría laboral, participar o no en un programa de intervención, el tipo de tratamiento aplicado, los distintos departamentos de una empresa, padecer o no una enfermedad o un determinado síntoma, etc…, son ejemplos de algunas variables categóricas con las que nos podemos encontrar. Son variables sobre las que únicamente es posible obtener una medida de tipo nominal u ordinal.

Si en una investigación, se pregunta sobre si a partir de sus ingresos declara impuestos (si o no), entonces se está trabajando como una variable de carácter nominal. Si en la investigación, se consulta sobre ¿cómo considera su nivel de ingresos? Y le brindan algunas alternativas, como por ejemplo, bajo, medio o alto, entonces se está trabajando como una variable ordinal.

Una tabla de contingencia se compone de dos vías o entradas y muestra la relación contingente entre dos variables, cuando éstas han sido clasificadas en categorías mutuamente excluyentes y las entradas de cada celda son frecuencias. Denotaremos a la tabla de contingencia como r x c, r es el número de filas o renglones; y c, el de las columnas.

Por ejemplo. Se registró un total de 309 defectos de muebles y los defectos se clasificaron en cuatro tipos: A,B,C,D. Al mismo tiempo cada mueble fue identificado por el turno de producción en el que se fabricó. Estos valores se presentan en la siguiente tabla.

Tipo de

Turno

Defecto

1

2

3

A

15

26

33

B

21

31

17

  • C 45

34

49

  • D 13

5

20

Tabla de contingencia de 4*3

Por ejemplo. Los siguientes datos se obtuvieron de una muestra aleatoria de los pacientes en un hospital. Los pacientes se clasifican como quirúrgicos o médicos. Se lleva un registro del número de veces que los pacientes requieren servicios de enfermería durante la noche y de si estos pacientes tienen o no pensión médica. Los datos son los siguientes:

Serv.

Tipo

Pensión

Serv.

Tipo

Pensión

Serv.

Tipo

Pensión

Enf.

Paciente

Médica

Enf.

Paciente

Médica

Enf.

Paciente

Médica

  • 1 quirúrgico

si

6

quirúrgico

no

11

médico

si

  • 2 médico

no

7

quirúrgico

no

12

médico

si

  • 3 médico

si

8

quirúrgico

si

13

quirúrgico

no

  • 4 médico

si

9

médico

no

14

quirúrgico

no

  • 5 Médico

si

10

médico

no

15

quirúrgico

si

Obtenga la tabla de contingencia haciendo referencia a la variable Pensión Médica y Tipo Paciente.

Pensió

Tipo Paciente

n

Quirúrgico

Médico

Médica

Si

3

5

No

4

3

Tabla de contingencia 2*2

Las

tablas

de

fundamentales:

contingencia tienen dos objetivos

  • 1. Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores.

  • 2. A partir de la tabla de contingencia se puede analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio.

Ejercicio. Para determinar si existe relación entre las costumbres de vestido de los empleados bancarios y su progreso profesional, una muestra de 20 dio los siguientes resultados. Elabore la tabla de contingencia que resuma las costumbres de vestido y su progreso profesional.

No.

No.

Empl.

Vestido

Progreso

Empl.

Vestido

Progreso

No. Empl.

Vestido

Progreso

  • 1 lento

muy bien

8

mal

lento

15

mal

rápido

  • 2 promedio

muy bien

9

mal

lento

16

mal

lento

  • 3 promedio

mal

10

bien

lento

17

mal

promedio

  • 4 rápido

bien

11

muy bien

promedio

18

muy bien

rápido

  • 5 promedio

mal

12

muy bien

promedio

19

bien

lento

  • 6 promedio

bien

13

bien

rápido

20

bien

lento

  • 7 rápido

bien

14

bien

rápido

FRECUENCIAS CONJUNTAS, MARGINALES, OBSERVADAS Y ESPERADAS

Frecuencias Conjuntas: es la frecuencia de la intersección de dos eventos.

Frecuencias Marginales: es la suma de todas las frecuencias contenidas en la fila correspondiente a ese valor.

Frecuencia Observada: es la frecuencia observada en la muestra.

Frecuencia Esperada: es la frecuencia esperada bajo el supuesto de que se realice un muestreo aleatorio en la población de la hipótesis nula, para cada una de las celdas, se calcula multiplicando el total de la fila por el total de la columna correspondientes, y dividiéndolo por el total global.

Por ejemplo. Cada persona de un grupo de 300 estudiantes fue identificado como hombre o mujer, preguntándoseles si prefería recibir cursos en el área de matemáticas, ciencias sociales o humanidades. La siguiente tabla indica las frecuencias observadas para esas categorías. Obtener frecuencias marginales y esperadas.

Sexo del

Area Favorita

Estudian

Matemátic

C.Social

Humanidad

te

as

es

es

Hombre

37

41

44

Mujer

35

72

71

Cálculo de frecuencias esperadas

Sexo del

Area Favorita

Sexo del Area Favorita Total

Total

Estudiante

Matemáticas

C.Sociales

Humanidades

Hombre

37(29.28)

41(45.95)

44(46.77)

122

Mujer

35(42.72)

72(67.05)

71(68.23)

178

Total

72

113

115

300

(122*72)/300 = 29.28

(178*72)/300 = 42.72

(122*113)/300 = 45.95

a) ¿Cuántos encuestados prefieren ciencias sociales? b) ¿Qué proporción de encuestados son mujeres? c) d) Ejercicios.
a)
¿Cuántos encuestados prefieren ciencias sociales?
b)
¿Qué proporción de encuestados son mujeres?
c)
d)
Ejercicios.
1.
Seguro
Tipo
Seguro
Tipo Paciente
Pacient
gastos
e
Quirúrgico
Médico
Total
Si
46
52
No
36
43
gastos
Quirúrgico
Médico
Si
e)
Obtener
No
f)
¿Cuántos
Total
médicos
g)
¿Qué proporción de pacientes son de tipo médico?
h)
i)
2.
a)
“¿Disfruta usted comprando ropa?”.
b)
Obtenga frecuencias marginales y esperadas.
c)
d)
e)

¿Qué proporción de personas disfrutan comprando ropa?

¿Cuántos encuestados son mujeres y prefieren matemáticas?

¿Cuál es la proporción de encuestados que son hombres y prefieren humanidades?

Los pacientes se clasifican como quirúrgicos o médicos. Se lleva un registro del número de veces que los pacientes requieren servicios de enfermería durante la noche y de si estos pacientes tienen o no seguro de gastos médicos mayores. Los datos se reflejan en la siguiente tabla.

frecuencias marginales y esperadas.

pacientes tienen seguro de gastos

mayores?

¿Cuántos pacientes no tienen seguro de gastos médicos mayores y son de tipo quirúrgico?

¿Qué proporción de pacientes tienen seguro de gastos médicos mayores y son de tipo médico?

Se seleccionó una muestra de 500 encuestados en un área metropolitana para determinar cierta información acerca del comportamiento de los consumidores. Entre las preguntas estaba: “¿Disfruta usted comprando ropa?” De 240 hombres 136 respondieron que sí. De 260 mujeres, 224 respondieron que sí.

Construya la tabla de frecuencias observadas para la categoría sexo y la respuesta a la pregunta

¿Cuántas personas son mujeres y disfrutan comprando ropa?

¿Qué proporción de personas son hombres y no disfrutan comprando ropa?

Cálculo de frecuencias esperadas Sexo del Area Favorita Total Estudiante Matemáticas C.Sociales Humanidades Hombre 37 (29.28)

3.

Una compañía ha puesto a la disposición de sus empleados (sin cargo extra) un gimnasio que pueden usar antes del trabajo, durante la hora del almuerzo, después del trabajo o en fines de semana. Los registros del último año indican que de 250 empleados, 110 usaron el gimnasio en alguna ocasión. De 170 hombres empleados por la compañía, 65 usaron el gimnasio en alguna ocasión.

  • a) Construya la tabla de frecuencias observadas para la categoría sexo y si usaron el gimnasio en alguna ocasión.

  • b) Obtenga frecuencias marginales y esperadas.

  • c) ¿Qué proporción de empleados son mujeres?

  • d) ¿Cuántos empleados no han usado el gimnasio?

  • e) ¿Qué proporción de empleados son hombres y no han usado el gimnasio?

3. Una compañía ha puesto a la disposición de sus empleados (sin cargo extra) un gimnasio

Distribución condicional.

Consiste en estudiar las frecuencias asociadas a las clases de una variable cuando nos restringimos a los elementos de una clase dada según la otra variable, esto es estudiar el comportamiento de una variable dado un valor fijo de la otra. Se calcula usando la siguiente fórmula:

Distribución condicional de x dado y: f xy

= f xy f y

Por ejemplo: La siguiente tabla resume la información de personas encuestadas identificando el sexo y la categoría de tabaquismo actual.

Sexo

 

Tabaquismo

Sexo Tabaquismo Total

Total

Fumador

No fumador

Ex fumador

Hombre

40

50

20

110

Mujer

20

10

10

40

Total

60

60

30

150

  • a) ¿Cuántas personas fueron encuestadas en total?

  • b) ¿Cuántas personas encuestadas son hombres?

  • c) ¿Cuántas personas encuestadas son mujeres y no fuman?

  • d) ¿Qué proporción de encuestados no fuman?

  • e) De las personas fumadoras, ¿qué proporción de ellas son hombres?

  • f) De las mujeres, ¿qué proporción de ellas son ex – fumadoras?

  • g) De las personas no fumadoras, ¿qué proporción son mujeres?

Ejercicios.

  • 1. Cada año, se recopilan evaluaciones del desempeño de los automóviles nuevos durante los primeros 90 días de uso. Suponga que los autos se clasificaron de acuerdo con dos atributos, si necesita una reparación amparada por la garantía (sí o no) y el país de manufactura del automóvil (Estados Unidos, otro diferente a Estados Unidos). Con base a los 750 datos recopilados, 30 autos nuevos requieren una reparación amparada por la garantía, 450 autos se fabricaron en Estados Unidos, además, 19 autos requieren una reparación amparada por la garantía y se fabricaron en los Estados Unidos.

    • a) Construya la tabla de frecuencias observadas para resumir si el auto necesita reparación amparada por la garantía y el país de manufactura.

  • b) Obtenga frecuencias marginales y esperadas.

  • c) ¿Qué proporción de autos requieren reparación amparada por la garantía?

  • d) ¿Qué proporción de autos no se fabricaron en Estados Unidos y no requieren reparación?

  • e) De los autos fabricados por una compañía en Estados Unidos, ¿qué proporción no necesita una reparación amparada por la garantía?

  • f) De los autos que requieren reparación amparada por la garantía, ¿qué proporción fueron fabricados en Estados Unidos?

b) Obtenga frecuencias marginales y esperadas. c) ¿Qué proporción de autos requieren reparación amparada por la

Estadístico Χ 2 (Chi-Cuadrada, ji-cuadrada)

Para identificar relaciones de dependencia entre variables cualitativas se utiliza un contraste estadístico basado en el estadístico X 2 .

Propiedades

  • a) Los valores de chi-cuadrada pueden ser cero o positivos, no negativos.

  • b) Es no simétrica (a diferencia de las distribución normal), conforme aumenta el número de grados de libertad, la distribución se vuelve más simétrica.

  • c) La distribución chi-cuadrada es diferente para cada número de grados de libertad.

Aplicaciones más comunes de las Distribución Chi-cuadrada

Pruebas de independencia: Cuando se estudia datos en los que intervienen dos variables, una consideración importante es la relación entre las dos variables. Cuando la información se clasifica de acuerdo a dos o más atributos, se puede utilizar la prueba de independencia para determinar si los principios o criterios empleados para la clasificación cruzada son independientes o no; es decir, existe correlación entre uno y otro criterio o no.

Prueba de Homogeneidad:

Esta prueba se utiliza cuando el experimentador controla una de las

dos variables, de manera que los totales de fila o columna están predeterminados. Se desea investigar si las proporciones son o no las mimas en las c categorías de todas las poblaciones.

El procedimiento de contraste para independencia y homogeneidad con tablas de contingencia es el mismo.

Prueba de independencia

Pasos a seguir

  • 1. Plantear hipótesis nula y alternativa.

  • 2. Determinar el valor crítico X 2 , debe conocerse el nivel de significancia y el número de grados de libertad implicado, esto es (número de renglones – 1)(número de columnas – 1), en caso de que r o c fuera igual a 1, entonces los grados de libertad es k – 1, donde k representa el número de celdas.

  • 3. Obtener el valor calculado de X 2 , esto es mediante la siguiente fórmula:

χ 2 = ( f o f e ) 2 f e

Sea fe la frecuencia esperada en la categoría del renglón de la tabla de contingencia su fórmula es:

f e

= (total del renglón)(total de columna ) tamaño de la muestra

  • 4. Tomar la decisión de rechazar o no la hipótesis nula.

  • 5. Concluir.

Por ejemplo:

Cada persona de un grupo de 300 estudiantes fue identificado como hombre o mujer, preguntándosele si prefería recibir cursos en el área de matemáticas, ciencias sociales o humanidades. La siguiente tabla de contingencia indica las frecuencias encontradas para esas categorías. ¿Presenta esta tabla la evidencia suficiente para afirmar que “la preferencia por las matemáticas, ciencias sociales o humanidades es independiente del sexo de un alumno”, con una estimación del 5%?

Sexo del

Area Favorita

Estudiante

Matemáticas

Ciencias Sociales

Humanidades

Total

Hombre

37 (29.28)

41 (45.95)

44 (46.76)

122

H 0 :

La

preferencia

por

Mujer

35 (42.72)

72 (67.04)

71 (68.23)

178

matemáticas,

ciencias

Total

72

113

115

300

sociales

o humanidades

es independiente del sexo

de los estudiantes de la escuela. H 1 : La preferencia por las áreas no es independiente del sexo de los estudiantes Tabulado:

χ 2 (2gl, α=5%) = 5.991

X 2 = ( (3729.28 ) 2 ) + ( (4145.95) 2 ) + ( (4446.76) 2 ) + ( (3542.72) 2 ) + ( (7267.04 ) 2 ) + ( (7168.23) 2

29.28

45.95

46.76

42.72

67.04

68.23

4.604

)

=

Como 4.604 (X 2 calculada) es menor que 5.991(X 2 de tabla), no se rechaza la hipótesis nula, con un nivel de significancia del 5%, hay independencia entre el sexo de un estudiante y su área académica preferida.

Ejercicio.

1. Para estudiar la dependencia que hay entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

 

Presenta depresión

No presenta depresión

Total

Deportista

15

75

90

No deportista

42

38

80

Total

57

113

170

¿Presenta esta tabla la evidencia suficiente para afirmar que “la práctica deportiva disminuye el riesgo de depresión”, con una estimación del 5%?

  • 2. Hay un decreto que propone reducir la edad legal para permitir consumir bebidas alcohólicas a los 18 años, el cual está en discusión en la legislatura local. Un politólogo que vive en esa ciudad quiere determinar si existe una relación entre la afiliación política y la actitud hacia el decreto. Este científico social envía cartas a dos muestras aleatorias; una de 200 miembros al partido republicano ya otra de igual número al partido demócrata; en esta misiva, el científico explica el interés que tiene sobre el decreto y pregunta a las personas si están a favor, indecisas o en contra de esta iniciativa de ley. El politólogo incluyó un sobre con porte pagado para facilitar la respuesta. El investigador recibe un total de 400 respuestas, que aparecen en la siguiente tabla:

Afiliación

Actitud

política

A favor

Indeciso

En contra

Republicano

60

15

110

Demócrata

99

18

98

 

¿Presenta esta tabla la evidencia suficiente para afirmar que “no existe relación entre las variables de la población con una estimación del 5%?

  • 3. Un profesor de estudios religiosos quiere determinar si existe una relación entre la asistencia a la iglesia y el nivel de educación. Se reúnen los datos de una muestra de individuos que sólo han concluido el bachillerato y de otra muestra que ha recibido una educación universitaria. Los siguientes datos son las frecuencias resultantes:

Nivel de

Educación

Asistencia a la iglesia

 

Asiste

No asiste

 

regularmente

regularmente

Bachillerato

88

112

Universidad

56

104

 

¿Presenta esta

tabla

la

evidencia suficiente para afirmar que “el nivel de educación es independiente de la asistencia a la iglesia” con una estimación del 5%?

Prueba de Homogeneidad

Supóngase que se encuestan electores inscritos en un padrón en relación con una iniciativa de ley propuesta por un gobernador. En la encuesta se seleccionan aleatoriamente 200 residentes urbanos, 200 suburbanos y 100 rurales, y se les pregunta si están a favor o en contra de la propuesta del gobernador. ¿Respalda la evidencia mostrada en la tabla la hipótesis de que “los votantes dentro de los distintos grupos de residentes tienen opiniones distintas acerca de la propuesta del gobernador? Utilícese α = 0.05.

Tipo de

Propuesta del Gobernador

 

Residente

A Favor

En Contra

Total

Urbano

143 (101.6)

57 (98.4)

200

Suburbano

98 (101.6)

102 (98.4)

200

Rural

13 (50.8)

87 (49.2)

100

Total

254

246

500

H 0 : La proporción de votantes a favor de la propuesta es la misma en los tres grupos. H 1 :La proporción de votantes que favorecen la propuesta no es la misma en los tres grupos.

X 2 (2gl, α=0.05) = 5.991

X 2 = ( (143101.6) 2 ) + ( (5798.4) 2 ) + ( (98101.6) 2 ) + ( (10298.4) 2 ) + ( (1350.8) 2 ) + ( (8749.2) 2

101.6

98.4

101.6

98.4

50.8

49.2

)

X 2 =91.72

Como 91.72 es mayor que 5.991, se rechaza la H 0 , es decir, no todos los grupos tienen las mismas proporciones de personas a favor de la iniciativa de la ley propuesta.

Ejercicios. 1. En un estudio de un taller, se reúne un conjunto de datos para determinar si la proporción de defectuosos producida por los trabajadores es la misma para el turno matutino, vespertino o nocturno. Se reunieron los siguientes datos:

 

Turno

Turno
 

Matutino

Vespertino

Nocturno

Total

Defectuosos

45

55

70

170

No Defectuosos

905

890

870

2665

 

Realice la verificación de homogeneidad con una estimación del 10%.

  • 2. Con una estimación de 10%, establezca si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres.

Sexo

 

Componentes

Sexo Componentes

Lata

Plástico

Cartón

Vidrio

Varones

27

30

19

24

Mujeres

12

29

26

33

 

Análisis de correlación lineal

El objetivo principal del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables.

Diagrama de dispersión: Tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Se muestran como un conjunto de puntos, cada uno con el valor de la variable independiente “x” que determina la posición en el eje horizontal y el valor de la variable dependiente “y” determinado por la posición en el eje vertical. También llamado gráfico de dispersión.

Los siguientes diagramas de dispersión indican diferentes relaciones entre las variables independientes x y las variables dependientes y.

No hay correlación

Correlación Positiva

Alta correlación positiva

Correlación negativa

Alta correlación negativa

Correlación positiva perfecta

Correlación no lineal

Si no existe un cambio definido en los valores de y conforme aumentan los valores de x, se dice que no hay correlación o que no existe relación entre x y y.

Si al aumentar x hay una modificación definida en los valores de y, entonces existe correlación, la correlación es positiva cuando y tiende a aumentar, y negativa cuando y decrece.

Si tanto los valores de x como los de y tienden a seguir una dirección recta, existe una correlación lineal.

La correlación lineal perfecta es cuando todos los puntos están situados a lo largo de una recta en forma exacta, esta puede ser positiva o negativa.

Si los datos forman una recta vertical u horizontal no existe correlación, pues una variable no tiene efecto sobre la otra.

En algunos casos se establecen relaciones no lineales, es decir, las dos variables no están relacionadas linealmente y por lo tanto no presentan correlación lineal.

Coeficiente de correlación lineal: es la medida de la intensidad de la relación lineal entre dos variables. Refleja el grado de relación o efecto que tiene el cambio de una variable sobre la otra. Siempre tiene un valor entre -1 y +1. Un valor igual a +1 o -1 indica una correlación positiva o negativa perfecta respectivamente. Es denotado por r.

Si a medida que se incrementa x hay un incremento general en el valor de correlación positiva.

y, entonces r, indica una

Se calcula mediante la siguiente fórmula:

r=

S xy S xx S yy

Donde:

n

S xx = x i

2

i=1

n (

1

n

i=1

x i ) 2

;

n

n ( n (

1

n

i=1

y i ) 2

1

n

i=1

S yy = y i

2

i=1

n

;

x i )(

n

i=1

S xy = x i y i

i=1

y i )

Por ejemplo:

El director general de una cadena de tiendas de autoservicio en expansión desea conocer el comportamiento de las ventas en los diferentes establecimientos con base en la superficie de piso en la que se exhiben los diferentes productos con el fin de contar con un modelo que le permita llevar un

control adecuado de la eficiencia con la que trabaja cada establecimiento. Para ello utiliza el volumen de ventas mensuales (millones de pesos) y la superficie de piso (miles de metros cuadrados). En forma aleatoria recopila el volumen de ventas del último mes en diez tiendas de la cadena que correspondan más o menos entre 2,000 y 12,000 metros cuadrados de superficie de piso.

Tienda

1

2

3

4

5

6

7

8

9

10

Superfici

2.15

9.20

6.70

13.50

5.50

12.15

4.8

10.70

3.25

8.25

e

Ventas

1

3

3

4.5

2

5

1

4

1.5

3.5

 
 
 
  • a) Calcule e interprete dentro del contexto del problema el coeficiente de correlación.

  • b) Trace e interprete el diagrama de dispersión.

Ejercicios.

1. El gerente de personal de una empresa intuye que quizás exista relación entre el ausentismo laboral y la edad de los trabajadores. Se seleccionó una muestra aleatoria de 10 trabajadores y se obtuvo los siguientes datos:

Edad (x) 27 61 37 23 46 58 29 36 64 40 Días (y) 15 6
Edad (x)
27
61
37
23
46
58
29
36
64
40
Días (y)
15
6
10
18
9
7
14
11
5
8
a) Calcule e interprete dentro del contexto del problema el coeficiente de correlación.
  • b) Trace e interprete el diagrama de dispersión.

  • 2. En la siguiente tabla se presentan las calificaciones (denotadas x y y) de 10 estudiantes en dos primeros exámenes de estadística:

x 6 5 8 8 7 6 10 4 9 7 y 8 7 7 10
x
6
5
8
8
7
6
10
4
9
7
y
8
7
7
10
5
8
10
6
8
6
a) Calcule e interprete dentro del contexto del problema el coeficiente de correlación.
  • b) Trace e interprete el diagrama de dispersión.

  • 3. El gerente de personal de una empresa intuye que quizás exista relación entre el ausentismo laboral y la edad de los trabajadores. Se seleccionó una muestra aleatoria de 10 trabajadores y se obtuvo los siguientes datos:

Edad (x) 27 61 37 23 46 58 29 36 64 40 Días (y) 15 6
Edad (x)
27
61
37
23
46
58
29
36
64
40
Días (y)
15
6
10
18
9
7
14
11
5
8
Encuentre:
  • a) El coeficiente de correlación entre “x” y “y” e interprete.

  • b) El diagrama de dispersión e interprete.

La covarianza: calcula la medida en que dos variables varían juntas. Un signo positivo indica una relación directa, en tanto que un signo negativo indica relación inversa. Es denotado por cov. La fórmula para calcular la covarianza muestral es:

cov (X ,Y )= (xx´ )( y−´y )

n1

Por ejemplo.

El director general de una cadena de tiendas de autoservicio en expansión desea conocer el comportamiento de las ventas en los diferentes establecimientos con base en la superficie de piso en la que se exhiben los diferentes productos con el fin de contar con un modelo que le permita llevar un control adecuado de la eficiencia con la que trabaja cada establecimiento. Para ello utiliza el volumen de ventas mensuales (millones de pesos) y la superficie de piso (miles de metros cuadrados). En forma aleatoria recopila el volumen de ventas del último mes en diez tiendas de la cadena que correspondan más o menos entre 2,000 y 12,000 metros cuadrados de superficie de piso.

Tienda

1

2

3

4

5

6

7

8

9

10

Superficie

2.15

9.20

6.70

13.50

5.50

12.15

4.8

10.70

3.25

8.25

Ventas

1

3

3

4.5

2

5

1

4

1.5

3.5

  • a) Calcule la covarianza muestral.

NATURALEZA DE LA REGRESION: LINEAL Y NO LINEAL

La relación entre la variable dependiente y la variable independiente es aproximadamente una línea recta. El análisis de regresión calcula una ecuación que produce valores de y para valores dados de x. Uno de los principales objetivos del análisis de regresión es hacer predicciones. Generalmente no se predice el valor exacto de y.

Cuando la función de regresión está conformada por dos variables, se llama modelo de regresión simple, en el caso de dos o más variables independientes, este modelo se conoce como de regresión múltiple.

Dependiendo de la forma de la relación entre las dos o más variables tenemos, regresión lineal si la relación se expresa mediante una línea recta y regresión curvilínea cuando la relación es del tipo exponencial, parabólica, etc…

Existe diferencia entre los objetivos de los análisis de regresión y correlación. En el análisis de regresión se busca una relación entre las variables, la ecuación que representa a esta relación puede ser la respuesta deseada o puede tomarse como base para efectuar la predicción o pronóstico que se busca. Por otra parte, en el análisis de correlación se pregunta simplemente, ¿existe una relación lineal significativa entre las dos variables?

La gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables x y y.

Una vez identificado el modelo de regresión, es posible determinar los parámetros de la función elegida.

Los supuestos sobre los que descansa el análisis de regresión son los siguientes:

  • 1. La variable dependiente debe ser una variable aleatoria.

  • 2. La relación entre ambas variables debe ser lineal.

3.

La distribución de los valores de la variable dependiente para cada uno de los valores de la variable independiente debe ser normal.

  • 4. La varianza de las distribuciones de la variable dependiente para cada valor de la variable independiente debe ser la misma (Homoscedasticidad).

  • 5. El error (diferencia “residual” entre un valor observado y uno predicho de “y”) debe ser independiente para cada valor de x.

El modelo de regresión lineal simple está dado por la función:

Donde:

Y ^ i = β ^ 0 + β ^ 1 X i +ε i

Y i = Variable dependiente. X i = Variable independiente. β 0 = Primer parámetro de la regresión (ordenada al origen). β 1 = Segundo parámetro de la regresión (pendiente de la recta). ε i = Error aleatorio de muestreo.

Para estimar los parámetros de la regresión se utiliza el método de mínimos cuadrados ya que determina la ecuación de la recta de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores reales de Y y los valores pronosticados para Y.

La ordenada en el origen o intersección con el eje Y es la intersección Y. Es el valor estimado de la variable

dependiente

^

Y i

β ^ 0 yβ ^ 1 ´x

cuando X i = 0. Se puede calcular mediante la siguiente fórmula:

La pendiente estimada de la recta de regresión es el cambio promedio en la variable dependiente

^

Y i

para cada

cambio de una unidad en la variable independiente x i y la podemos calcular mediante la siguiente ecuación:

β ^ 1 = S xy

S xx

La ecuación de predicción

Y ^ i = β ^ 0 +

β ^ 1 X i +ε i

es la ecuación de una recta, donde

^

Y i

(léase y con circunflejo)

representa el valor predicho de y que corresponde a un valor particular de x.

Existe diferencia entre los objetivos de los análisis de regresión y correlación. En el análisis de regresión se busca una relación entre las variables, la ecuación que representa a esta relación puede ser la respuesta deseada o puede tomarse como base para efectuar la predicción o pronóstico que se busca. Por otra parte, en el análisis de correlación se pregunta simplemente, ¿existe una relación lineal significativa entre las dos variables?

Recta de Regresión: Recta que atraviesa a la nube de puntos y que mejor se ajusta a ellos. Supongamos que medimos la distancia vertical de cada punto a la recta). La recta buscada es aquella para la que la suma de estas distancias fuera mínima.

La recta de mejor ajuste resulta ser horizontal cuando no hay relación entre las variables, este tipo de recta tiene pendiente cero, lo cual implica que el valor de la variable independiente no tiene efecto sobre la variable dependiente.

Cuando se hagan redondeos en las cifras decimales de los valores calculados de

β ^ 0 y

^

β 1

, consérvese siempre dos

dígitos significativos por lo menos; pero mientras se efectúan los cálculos este número de cifras debe ser mayor (8 dígitos).

Por ejemplo.

El director general de una cadena de tiendas de autoservicio en expansión desea conocer el comportamiento de las ventas en los diferentes establecimientos con base en la superficie de piso en la que se exhiben los diferentes productos con el fin de contar con un modelo que le permita llevar un control adecuado de la eficiencia con la que trabaja cada establecimiento. Para ello utiliza el volumen de ventas mensuales (millones de pesos) y la superficie de

piso (miles de metros cuadrados). En forma aleatoria recopila el volumen de ventas del último mes en diez tiendas de la cadena que correspondan más o menos entre 2,000 y 12,000 metros cuadrados de superficie de piso.

Tienda

1

2

3

4

5

6

7

8

9

10

Superficie

2.15

9.20

6.70

13.50

5.50

12.15

4.8

10.70

3.25

8.25

Ventas

1

3

3

4.5

2

5

1

4

1.5

3.5

  • a) Encuentre la estimación mínimo cuadrática para la recta de regresión.

 
 

^

^

  • b) Interprete los coeficientes de regresión

β 0 y

β 1

.

  • c) Represente gráficamente los datos X, Y y la ecuación de predicción.

 

^

  • d) Calcule el volumen de ventas cuando la superficie de piso donde se exhiben los productos

Y

cuando la

superficie es 10,000mts 2 . (x n = 10).

Del ejemplo del tema anterior (covarianza y coeficiente de correlación) se tienen ya calculados los siguientes valores:

S xy = 46.53 S xx = 129.786

´x

= 7.62

´y

= 2.85

c)

piso (miles de metros cuadrados). En forma aleatoria recopila el volumen de ventas del último mes

Ejercicios.

  • 1. Cierta empresa desea determinar si existe relación entre el número de llamadas telefónicas de ventas hechas en un mes y la cantidad de tiempos compartidos vendidos durante ese lapso. El gerente selecciona al azar una muestra de 10 representantes y determina el número de tales llamadas que hizo cada uno el mes anterior y la cantidad de tiempos compartidos vendidos. La información se muestra en las siguiente tabla: No. de llamadas = x, No. tiempos compartidos vendidos = y

Representante

x

y

A

20

30

B

40

60

C

20

40

D

30

60

E

10

30

F

10

40

G

20

40

H

20

50

I

20

30

J

30

70

220

450

  • a) Encuentre la estimación mínimo cuadrática para la recta de regresión.

  • b) Interprete los coeficientes de regresión

^

β 0 y

^

β 1

.

  • c) Represente gráficamente los datos X, Y y la ecuación de predicción.

  • d) ¿Cuál es el número esperado de tiempos compartidos vendidos por un representante que realiza 20 llamadas a sus clientes?

  • 2. En una empresa dedicada al diseño de publicidad se analiza la relación entre el consumo de energía (en miles de kilowatts-hora) y el número de privados en la oficina. Una muestra aleatoria de 10 complejos produjo lo siguiente:

Complejo

No. privados

Consumo

1

12

9

2

9

7

3

14

10

4

6

5

5

10

8

6

8

6

7

10

8

8

10

10

9

5

4

10

7

7

91

74

  • a) Encuentre la estimación mínimo cuadrática para la recta de regresión.

  • b) Interprete los coeficientes de regresión

^

β 0 y

^

β 1

.

  • c) Represente gráficamente los datos X, Y y la ecuación de predicción.

  • d) Evalúe el consumo, en miles de kilowatts-hora para una oficina con ocho privados.

  • 3. El dueño de la agencia “Bara auto bara” desea estudiar la relación entre la antigüedad (años) de un automóvil y su precio de venta (miles de dólares). A continuación aparece una muestra aleatoria de 12 autos usados vendidos en el establecimiento durante el último año.

Auto

Antigüedad

Precio

1

9

8.1

2

7

6

3

11

3.6

4

12

4

5

8

5

6

7

10

7

8

7.6

8

11

8

9

10

8

10

12

6

  • 11 8.6

6

 
  • 12 8

6

 

107

82.9

  • a) Encuentre la estimación mínimo cuadrática para la recta de regresión.

  • b) Interprete los coeficientes de regresión

^

^

β 0 y

β 1

.

  • c) Represente gráficamente los datos X, Y y la ecuación de predicción.

  • d) ¿Cuánto costará aproximadamente en este establecimiento un auto con 11 años de antigüedad?