Вы находитесь на странице: 1из 22

ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Lujn es un Profesor Universitario Venezolano en el rea de Probabilidad y Estadstica, con ms de 40 aos de experiencia en las ms reconocidas universidades del rea metropolitana de Caracas. Universidad Catlica Andrs Bello: Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposicin desde 1993 al presente Universidad Simn Bolvar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrnico: angelf.arvelo@gmail.com Telfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Mster en Estadstica Matemtica CIENES, Universidad de Chile 1972 Cursos de Especializacin en Estadstica No Paramtrica Universidad de Michigan 1982 Doctorado en Gestin Tecnolgica: Universidad Politcnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniera Industrial de la Universidad Catlica Andrs Bello (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro Capacidad de Procesos Industriales UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el rea de Estadstica General y Control Estadstico de Procesos. Otras publicaciones del Prof. Arvelo pueden ser bajadas de su pgina web: www.arvelo.com.ve , en la seccin PDFS.

Datos Bidimensionales Angel Francisco Arvelo L.

DATOS BIDIMENSIONALES
Los datos estadsticos que se han analizado hasta el momento, se refieren exclusivamente al comportamiento de una sola variable aisladamente. En muchas oportunidades dentro de una investigacin, interesa analizar en forma simultanea, dos o ms variables. As por ejemplo, es posible que a una persona le preguntemos su estatura y su peso; en cuyo caso vamos a obtener como respuesta, un par de valores (X , Y), uno de los cuales se refiere a su estatura, y el otro a su peso. Este tipo de datos se llaman bidimensionales, o bivariados ; y la idea puede perfectamente generalizarse al concepto de datos multidimensionales, en caso de que la pregunta abarque el valor de varias variables simultaneas, como puede ser por ejemplo, adems de la estatura y el peso, la edad, la tensin arterial, el nivel de colesterol, etc. La condicin fundamental de un dato multidimensional, es que todas las variables en consideracin, son observadas sobre un mismo sujeto; de manera que el par (X , Y) se refiere a la estatura y el peso de una misma persona. En una investigacin, este anlisis se hace con dos objetivos fundamentales: 1) Medir el grado de asociacin que presentan estas variables. 2) Pronosticar el valor de una de las variables, cuando se conoce el de la otra. Aunque estos objetivos lucen distintos, estn en realidad muy ligados, pues evidentemente la precisin del pronstico depender en gran medida del grado de asociacin que presenten las variables; y as por ejemplo, si conocemos la estatura de una persona, podremos predecir con bastante exactitud su peso. En el anlisis de datos bidimensionales, se pueden presentar tres casos: Caso I : Las dos variables consideradas son ambas cualitativas. Caso II : Las dos variables consideradas son una cualitativa, y otra cuantitativa. Caso III : Las dos variables consideradas son ambas cuantitativas. En este captulo se estudiaran las tcnicas descriptivas, para el tratamiento de datos bidimensionales, en cada uno de estos tres casos.

1 Dos variables Cualitativas: En este caso, los datos se organizan en una


tabla llamada tabla de contingencia, la cual tiene una forma matricial con filas y columnas, que corresponden a cada categora de las variables cualitativas en consideracin. En cada cruce de fila de con columna, se coloca la frecuencia absoluta que le corresponde a esa combinacin. Por ejemplo, supongamos que las dos variables cualitativas en consideracin son A y B, y que A tiene k categoras, mientras que B tiene h. La tabla de contingencia tiene por consiguiente k filas y h columnas , y en cada casilla se coloca la frecuencia que le corresponde a la fila y columna correspondiente. ....... B1 B2 Bh Total El total de la fila representa el ....... f1. A1 f11 f12 f1h nmero de observaciones que se ....... f2. A2 f21 f22 f2h encontraron en cada una de las ....... ....... ....... ....... ....... fij categoras de A , y se llama ....... fk. Ak fk1 fk2 fkh Frecuencia marginal de A. ....... f.1 f.2 f.h Total n

Datos Bidimensionales Angel Francisco Arvelo L.

Anlogamente, el total de la columna, representa la frecuencia de cada una de las categoras de la variable B, y recibe el nombre de Frecuencia marginal de B. La notacin a seguir es la siguiente: fij = Frecuencia de casilla ubicada en la fila i, y la columna j.
j h

fi. =
j 1

fij = Frecuencia marginal de la fila i .


i k

f.j = n=

fij = i 1 i k j h
i 1 j 1

Frecuencia marginal de la columna j .


i k
j h

fij =
i 1

fi. =
j 1

f.j = Nmero total de observaciones.

Una tabla de contingencia, puede ser representada grficamente de varias maneras, como en el siguiente ejemplo. Ejemplo 1 A un grupo de estudiantes universitarios, se le pregunt la carrera que cursan y su sexo. Los resultados se dan en la siguiente tabla:
CARRERA

Derecho Economa Ingeniera Hombre 71 63 84 Mujer 95 52 57 Total 166 115 141 Hacer la representacin grfica de estos datos.

SEXO

Letras 16 31 47

Medicina 53 78 131

Total 287 313 600

Solucin: Los totales de fila y de columna representan las frecuencias marginales de cada variable. Para hacer la representacin grfica, existen las siguientes alternativas: a) El histograma tridimensional : En este grfico, se selecciona a uno de los ejes, por ejemplo el X para una de las variables, al eje Y para la otra variable, y al eje Z para las frecuencias. Los ejes X y Y se dividen en tantos segmentos de igual longitud como categoras tengan cada una de las variables, quedando as el plano XY cuadriculado. Sobre cada cuadro, se construye un prisma rectangular con altura igual a la frecuencia, obteniendo el siguiente grfico:

Datos Bidimensionales Angel Francisco Arvelo L.

100 90 80 70 60 Frecuencias 50 40 30 20 10 0
Derecho Economa Ingeniera

Hombre Mujer

Mujer Hombre
Letras Medicina

SEXO

CARRERA

b) El Histograma Doble. Con las frecuencias marginales de una de las variables se construye un histograma convencional, y luego el rectngulo que corresponda a cada categora de esta variable se divide en partes proporcionales segn la otra variable. As por ejemplo, si se construye el histograma para las carreras, y luego el rectngulo que seala que seala la frecuencia de cada carrera se divide segn el sexo de los estudiantes que la cursan, se obtiene el siguiente grfico:
Frecuencias 200 150 100 50 0
Derecho Economa Ingeniera Letras Medicina

Mujer Hombre

CARRERA

Si en lugar de construir el histograma para las carreras, se construye el del sexo, se obtiene este otro grfico:

Datos Bidimensionales Angel Francisco Arvelo L.

350

frecuencia

300 250 200 150 100 50 0

Medicina Letras Ingeniera Economa Derecho Hombre SEXO Mujer

Tambin es posible construir el histograma doble, colocando en el eje horizontal a una de las variables y luego, en lugar de representar su frecuencia marginal, construir tantos rectngulos como categoras tenga la otra variable, colocndolos uno al lado del otro sin suponerlos, dando lugar a los siguientes grficos:
100

frecuencia

80 60 40 20 0 Derecho Economa Ingeniera Letras Medicina Hombre Mujer

CARRERAS

100 90 80 70 60 50 40 30 20 10 0

Derecho Economa Ingeniera Letras Medicina

frecuencia

Hombres

Mujeres

SEXO

c) Grficos Circulares. Estos consisten en utilizar un grfico circular, para representar la forma como se distribuye cada categora de una de las variables segn la otra. As por ejemplo, para representar la distribucin de la poblacin masculina y femenina, segn las diferentes carreras, tendramos:

Datos Bidimensionales Angel Francisco Arvelo L.

Otra posibilidad es sealar la distribucin por sexo en cada carrera, dando lugar a los siguientes grficos circulares:

y as sucesivamente, con las dems carreras. Tambin es posible construir grficos con las frecuencias marginales de cada variable, en donde no se tome en consideracin a la otra.

Obviamente, la decisin acerca de cual es el grfico mas conveniente, depende del mensaje que se quiera trasmitir con l, y de los aspectos que ms se quieran

Datos Bidimensionales Angel Francisco Arvelo L.

resaltar. No hay que olvidar el objetivo de la Estadstica Descriptiva, cual es el de proporcionar tcnicas que permitan de una manera fcil y precisa, resumir el comportamiento de los datos.

2 Una cualitativa y otra cuantitativa:

En este caso, existen tantos conjuntos de datos como categoras tenga la variable cualitativa. Por ejemplo, supongamos que en un estudio se quiere analizar como es el rendimiento estudiantil en varios liceos. En este caso se tiene una variable cualitativa que se refiere al liceo donde curso estudios un determinado estudiante, y otra variable cuantitativa que se refiere a la calificacin obtenida por ese mismo estudiante en un cierto examen comn para todos. Al finalizar el estudio, se va a tener una lista para cada liceo, que contiene las calificaciones obtenidas por cada uno de sus respectivos estudiantes. Cada una de estas listas constituye un conjunto de datos aisladamente, y podra ser analizada por las tcnicas ya estudiadas en los captulos previos. Mediante estas tcnicas, podra entonces calcularse las medias y varianzas de cada grupo, para describir cual de ellos presenta un mejor rendimiento, una menor variabilidad, etc. La Inferencia Estadstica proporciona una inmensa variedad de procedimientos para analizar, si entre estos diferentes niveles de la variable cualitativa existen diferencias significativas en cuanto a la variable cuantitativa. Entre algunos de tales procedimientos cabe mencionar las pruebas de comparacin entre medias, entre varianzas, las pruebas de anlisis de la varianza con clasificacin simple, y las pruebas no paramtricas de Wilcoxon y de Kruskall Wallis. En caso de estas pruebas estadsticas revelen diferencias significativas entre dos o mas niveles de la variable cuantitativa, corresponder al investigador averiguar las causas de tales diferencias, para lo cual es muy importante haber diseado adecuadamente el experimento, tal como se explic en el Capitulo I, en las etapas de una investigacin estadstica. As por ejemplo, si el estudio concluye que entre los alumnos de los diferentes liceos existen diferencias significativas en su rendimiento, el investigador deber averiguar si estas se deben a diferentes mtodos de enseanza, o a que unos liceos estn mejor dotados que otros, etc. La representacin de los datos puede hacerse mediante el Grfico de Cajas Mltiples, que es una generalizacin del explicado en el Capitulo VIII para una variable, y que consiste en construir un grfico de caja para cada conjunto de datos Ejemplo 2 En un estudio mdico, se observ el nivel de colesterol en sangre para un grupo de 75 de personas, clasificadas previamente segn su condicin socio - econmica, en tres niveles: 1= Alto , 2 = Medio , 3 = Bajo, de 25 personas en cada una. Los resultados fueron:
Nivel 1 195 Nivel 2 155 214 203 166 136 187 160 190 170 257 160 154 134 194 278 148 126 155 246 190 139 167 200 180 125 143 229 136 163 236 173 150 146 206 186 140 126 175 159 125 139 166 234 189 214 188 178 265 157

Datos Bidimensionales Angel Francisco Arvelo L. Nivel 3 194 138 142 140 167 159 138 128 140 190 126 168 114 204 150 136 145 184 130 120 145 126 201 156 150

Analizarlos, y representarlos en un grfico de cajas mltiples. Solucin: Se construye un grfico para cada nivel por separado, y luego se colocan los tres en uno solo, obteniendo:
300
37

200

Colesterol
100 0
N= 25 25 25

2 Nivel Socio-E conm ico

Luego se calcula la media, la desviacin tpica y el coeficiente de variacin para cada nivel, y tambin para todo el conjunto de 75 datos, obteniendo:
Grupo Socio Econmico Alto Medio Bajo Total Tamao 25 25 25 75 Media 195,56 158,52 151,64 168,57 Desviacin Tpica 34,23 31,91 25,22 36,25 Coeficiente de Variacin 17,50 % 20,13 % 16,63 % 21,50 %

De estos resultados, se pueden obtener las siguientes conclusiones preliminares: a) El nivel socio econmico alto presenta un mayor nivel medio de colesterol, y entre el nivel medio y el bajo se presenta un comportamiento bastante similar. b) Existe una observacin anormal dentro del nivel socio econmico medio, que corresponde a la observacin N 37, con un valor de 265. c) El nivel socio econmico medio es el que presenta mayor variabilidad. Es recomendable reforzar estas conclusiones preliminares, con un anlisis mas completo, basado en Inferencia Estadstica.

3 Dos variables Cuantitativas: En este caso, las dos variables en estudio


pueden estar en forma puntual o en forma agrupada.

Datos Bidimensionales Angel Francisco Arvelo L.

En caso de que estn en forma puntual, la representacin grfica es muy simple, pues equivale a representar un conjunto de pares (X ,Y) en un plano cartesiano, dando lugar a una nube de puntos, que se denomina Diagrama de Dispersin. Ejemplo 3 Se seleccionaron 20 estudiantes universitarios, y se observ la calificacin obtenida en una prueba de aptitud acadmica (X), y el promedio de calificaciones obtenido durante su primer ao de carrera (Y). Los resultados fueron:
X Y 67 76 78 74 54 60 71 67 87 90 45 43 52 60 66 73 42 48 50 55 87 90 75 71 72 77 60 68 59 52 70 81 61 66 80 97 37 40 53 54

El diagrama de dispersin correspondiente, es el resultado de representar los puntos (X , Y), tal como se muestra en la figura de la izquierda:
100 100 90 90

80

80

PROMEDIO

70

PROMEDIO

70

60

60

50

50

40

40

30 30 40 50 60 70 80 90

30 30 40 50 60 70 80 90

APTITUD

APTITUD

DIAGRAMA DE DISPERSION

DIAGRAMA DE DISPERSIN CON RECTA DE REGRESIN AJUSTADA

En muchas oportunidades, interesa predecir el valor de la variable dependiente (Y) a travs de la independiente (X), para lo que se hace necesario encontrar la curva de regresin, como se muestra en la figura de la derecha. El procedimiento para encontrar esta curva ser analizado posteriormente. -------------------------Cuando el nmero de puntos es considerablemente grande, el tratamiento puntual se vuelve incmodo y conviene agrupar, dando lugar a lo que se denomina una tabla bidimensional de frecuencias. En esta tabla, los valores de cada una de las dos variables se agrupan en intervalos, siguiendo los mismos criterios ya estudiados para una sola variable, en cuanto a nmero de intervalos, amplitud y lmites de clase, y cada celda representa la frecuencia que corresponde a cada cruce de valores entre ellas.
Valor de Y
Valor de X Mo a M1 M1 a M2
.......

Mh-1 a Mh

Lo a L1 L1 a L2
.......

f11 f21
.......

f12 f22
.......

....... .......

f1h f2h
.......

Lk-1 a Lk

Total

fk1 f.1

fk2 f.2

....... .......

fij

fkh f.h

Total f1. Los valores de X" quedan f2. agrupados en k intervalos de ....... clase, mientras que los de Y en fk. h intervalos. n

Datos Bidimensionales Angel Francisco Arvelo L.

Al igual que en las tablas de contingencia, la suma de las frecuencias en una misma fila o en una misma columna, representa el total de observaciones que corresponden a ese intervalo de valores, sin considerar a la otra variable, y recibe el nombre de frecuencia marginal de fila o columna segn corresponda. As por ejemplo f2., total de la fila 2, representa el total de observaciones que tienen un valor de X comprendido entre L 1 y L2, sin importar que valor tenga Y. La representacin grfica de una tabla bidimensional de frecuencias recibe el nombre de histograma tridimensional o tambin estereograma, y la unin de los puntos medios de las caras superiores superficie de frecuencias. Ejemplo 4 La siguiente tabla bidimensional de frecuencias, muestra la estatura y el peso de un grupo de personas.
Peso Estatura
1.40 a 1.49 1.50 a 1.59 1.60 a 1.69 1.70 a 1.79 1.80 a 1.89 1.90 a 2.00 40 a 49 5 4 1 0 0 0 50 a 59 2 17 10 6 2 0 60 a 69 1 12 85 73 11 0 70 a 79 0 4 74 65 21 0 80 a 89 0 1 23 28 10 0 90 a 99 0 0 8 15 7 5 100 a 109 0 0 1 0 2 3

Su representacin grfica en un estereograma es la siguiente:


90 80 70 60 50 Frecuencia 40 30 20 10 0 1.40 a 1.50 a 1.60 a 1.70 a 1.80 a 1.90 a 1.49 1.59 1.69 1.79 1.89 2.00 Estatura 40a 49 60 a 69 80 a 89 100 a 109 Peso

y al unir los puntos medios de las caras superiores, se obtiene la siguiente superficie de frecuencias:

Datos Bidimensionales Angel Francisco Arvelo L.

10

90 80 70 60 50 Frecuencia 40 30 40a 49 20 60 a 69 10 0 80 a 89 Peso 1.40 1.50 100 a 109 1.60 1.70 a 1.80 1.90 a a a 1.49 1.59 a a 1.69 1.79 1.89 2.00 Estatura

4 Distribuciones de frecuencia condicionadas:

Cuando se tienen distribuciones de frecuencia bidimensionales, es posible imponer una condicin, y medir su impacto sobre alguna de las variables. Existen en la Bibliografa especializada, numerosas frmulas y expresiones para encontrar las distribuciones condicionadas a partir de la tabla de frecuencia bidimensional, pero dada la dificultad de su aplicacin, debido a los subndices que utilizan y diversidad de condiciones que pueden presentarse, lo ms recomendable para encontrar a esta distribucin condicionada de frecuencias, es hacer valer la condicin, y definir el conjunto de elementos la cumplen. As por ejemplo, en el ejercicio anterior 10.4, si se quisiera obtener la distribucin de frecuencias para el peso de las personas, esta vendra dada por la marginal de columnas, y obtendramos como resultado al sumar sobre cada una de ellas:
Peso
Frecuencia 40 a 49 10 50 a 59 37 60 a 69 182 70 a 79 164 80 a 89 62 90 a 99 35 100 a 109 6

Sobre esta distribucin de frecuencias no existe condicin alguna, y en ella intervienen todas las personas que formaron parte del estudio. Si sobre la variable estatura se impusiera alguna condicin, como por ejemplo medir 1,70 ms, evidentemente esta condicin modificara la tabla de frecuencias de los pesos, pues en ella intervendran exclusivamente los que cumplen la condicin, representados en la tabla por las tres ltimas filas, y ahora quedara de la siguiente manera:
Peso condicionado a una estatura de 1,70 mas
Frecuencia 40 a 49 0 50 a 59 8 60 a 69 84 70 a 79 86 80 a 89 38 90 a 99 27 100 a 109 5

Ntese que esta nueva tabla de frecuencia ha sido obtenida de la bidimensional, pero sumando nicamente sobre las tres ltimas filas, que son las que cumplen la condicin de tener una estatura de 1,70 ms.

Datos Bidimensionales Angel Francisco Arvelo L.

11

Sobre la tabla de frecuencia marginal y la condicional, pueden hacerse todos los clculos de tendencia central, dispersin, etc., ya estudiados en los captulos precedentes para una variable. El valor de estas medidas cuando se calculan sobre la distribucin marginal, no tienen condicin alguna, reciben el nombre de incondicionales, y se designan de la manera convencional; pero cuando se calculan sobre la condicional, reflejan el valor de esa medida slo para aquellos que cumplen la condicin, y se designan con la notacin . Con esta notacin, X representa la media incondicional de la variable X ; pero X A (lase X dado A, X condicionada a A) representa la media de la variable X calculada exclusivamente sobre los que cumplen la condicin A. Cuando estas medias resultan significativamente diferentes, pudiramos obtener como conclusin preliminar, que la condicin afecta el comportamiento de la variable, y que por lo tanto existe algn grado de relacin entre la variable y la condicin. Como ilustracin, si la vida media de las personas que fuman (condicin), resulta menor que la vida media general, se pudiera inferir que el hbito de fumar afecta la salud. Cuando los resultados de tendencia central, dispersin, etc., resultan iguales en la distribucin marginal y en la condicional, se pudiera concluir que la condicin no afecta a la variable. En el ejemplo 4 , la media incondicional de los pesos sera:
Y 44,5 x10 54,5 x37 64,5 x182 10
44,5 x0

74,5 x164

84,5 x62 62 35 6

94,5 x35

104,5 x6

37

182 164
64,5 x84 0 8

= 71,76

mientras que el peso medio de las personas que miden 1,70 mas de estatura es:
Yx

170 ,

54,5 x8

74,5 x86 84 86

84,5 x38 38 27 5

94,5 x27

104,5 x5

= 74,78

Al incrementarse la media por efecto de la condicin, podra pensarse que la estatura afecta positivamente al peso, pues al excluir del grupo a las personas con estatura menor a 1,70, la media del peso aumenta. La conclusin obtenida en este ejemplo, que luce obvia por el tipo de variable que se estn manejando, no es tan obvia cuando la naturaleza de las variables involucradas es de otro tipo; y de all la importancia de las medidas de asociacin, que sern estudiadas en el captulo siguiente. Medias y Varianzas Condicionales : Aunque la condicin puede ser de la ms variada ndole, el caso ms frecuente es cuando una de las variables toma un determinado valor , y se calcula la media y la varianza de la otra, obteniendo X Y y j ( lase media de X, dado o condicionada a que Y tom el valor y j) y

S2 Y X

y j ( lase varianza de X, dado o condicionada a que Y tom el valor y j) .

El procedimiento para encontrar estas medias y varianzas condicionales, es anlogo al ya descrito en el ejemplo anterior, que consiste en buscar los valores de la variable X que cumplen la condicin Y = y j ; y a ellos exclusivamente calcularle su media y su varianza. ( lase media de X, dado o condicionada a que Y tom el valor yj).

Datos Bidimensionales Angel Francisco Arvelo L.

12

En el caso particular de una tabla bidimensional de frecuencias, con valores discretos tanto para X como para Y, tal como la siguiente:
Valores de X

y1 f11 f21
.......

y2 f12 f22
.......

Valores de Y ....... ....... ....... .......

yj

....... ....... ....... ....... ....... .......

yh f1h f2h
.......

Total f1. f2.


.......

La media y la varianza condicional de una de las variables, condicionada a que la otra tom un determinado valor, se pudieran calcular, por

x1 x2
.......

....... xk fk1 fk2 ....... f.1 f.2 Total las expresiones siguientes:
i k

f1j f2j fij fkj f.j

fkh f.h

fk. n
i k

xifij XY yj
i 1

( xi S2 Y X yj
i 1

XY

y j )2 fij

f.j f.j Ntese que para calcular la media y la varianza de una de las variable, por ejemplo X, condicionada a que la otra Y tom un determinado valor y j, slo es tomada en consideracin la tabla de frecuencia correspondiente a los valores de X que cumplen la condicin Y = y j , es decir la j-sima columna, y luego se aplican las frmulas ya conocidas para distribuciones de frecuencias univariantes.
Ejemplo 6 En una encuesta entre hogares, se pregunt el nmero de vehculos (X) , y numero de aparatos de T.V (Y), existentes en cada vivienda. Aparatos de T.V Encuentre: Vehculos 0 1 2 3 4 a) La media para el nmero de 0 4 15 28 14 6 aparatos de T.V en una vivienda. 1 0 23 57 32 15 b) La media y la moda para el 2 0 2 63 54 21 nmero de aparatos de T.V, en la 3 0 0 23 57 30 viviendas que poseen 2 automviles. c) La media y la desviacin tpica del nmero de vehculos, en las viviendas que poseen 4 aparatos de T.V. Solucin: a) Aqu se pide la media incondicional de Y, y sta se calcula con sus frecuencias marginales, que representan la distribucin del nmero de aparatos de T.V en cada vivienda, sin tomar en cuenta cuantos vehculos hay en ella.
Y 0 4 1 (15 23 2) 2 (28 57 63 23) 3 (14 32 54 57) 4 (6 15 21 30) 4 (15 23 2) (28 57 63 23) (14 32 54 57) (6 15 21 30)

Y = 2,57

b) Aqu se pide la media y la moda de Y condicionada a X = 2, y deben ser calculadas tomando en cuenta slo aquellos valores de Y que cumplen la condicin, cuyas frecuencias vienen dadas por la fila correspondiente a X = 2.
YX

0 0 1 2 2 63 0 2 63

3 54 54 21

4 21

= 2,67

mientras que la moda en las viviendas que poseen 2 vehculos, es de 2 aparatos de T.V, mxima frecuencia en la fila X=2. c) Anlogamente, la media de X condicionada a Y = 4 viene dada por:

Datos Bidimensionales Angel Francisco Arvelo L.

13

XY

0 6 1 15 6 15

2 21 3 30 21 30

= 2,04

(0 2,04)2 6 (1 2,04)2 15 (2 2,04)2 21 (3 2,04)2 30 =0,96 6 15 21 30 y por lo tanto, la desviacin tpica condicional: Sx Y 4 = 0,96 = 0,98 Es importante destacar que la varianza condicional, tambin pudiera calcularse por los mtodos ya conocidos de momentos, a partir de la distribucin de
S2 Y x

i k

frecuencias condicional : que

S2 X

Y yj

i 1

xi2 fij f.j

( X Y y j )2

aplicada en este caso, dara por resultado: 2 2 2 2 (0) 6 (1) 15 (2) 21 (3) 30 S2 Y 4 - (2,04)2 = 0,96 x 6 15 21 30 y as en general, todas las medidas condicionales, pueden ser obtenidas aplicando el procedimiento univariante a la distribucin de frecuencias condicional. EJERCICIOS RESUELTOS Ejemplo 7 En un estudio electoral , se clasific a un grupo de personas seleccionadas al azar , segn su condicin econmica, y segn el candidato de su preferencia. Los resultados fueron :
Condicin Econmica Candidato A Candidato B Candidato C Candidato D

Baja 95 32 235 58 Media 143 12 94 21 Alta 72 15 9 14 a) Construya un diagrama circular que seale las preferencias hacia a cada candidato , en base a toda la muestra . b) Construya un grfico circular , que seale las preferencias hacia cada candidato, entre las personas de condicin econmica baja. c) Construya un histograma de frecuencias relativas que seale la composicin por niveles socio econmicos, para los simpatizantes del candidato D. Solucin: a) La distribucin marginal de frecuencias para cada candidato se obtiene sumando sobre las filas, y se obtiene:
Candidato A Candidato B Candidato C Candidato D Total

Frecuencia

310

59

338

93

800

Datos Bidimensionales Angel Francisco Arvelo L.

14

Con las frecuencias marginales correspondientes a cada candidato, se procede a construir el grfico circular.

b) La preferencia de las personas de condicin socio econmica baja, aparecen sealadas en la primera fila de la tabla bidimensional de frecuencias, y con ella se elabora el correspondiente grfico circular, tomando en consideracin que la frecuencia marginal es 420, lo que arroja para el candidato A por ejemplo, una frecuencia relativa 95 100% = 22,62 % . de: 420

c) La distribucin de los simpatizantes del candidato D por niveles socio econmicos viene dada en la ltima columna de la tabla, con una frecuencia marginal de 93, lo que da para el nivel Bajo, por ejemplo, una frecuencia 58 100% = 62,37 % relativa de : 93

Simpatizantes Candidato "D"


70 60 50 40 30 20 10 0 62,37

Porcentaje

22,58 15,05

Baja

Media Condicin Economica

Alta

Datos Bidimensionales Angel Francisco Arvelo L.

15

Ejemplo 7 Se seleccionaron en total 100 bombillos de diferentes marcas A, B, C y D; se encendieron en un tablero, y se observ la duracin en horas, de cada uno de ellos. Los resultados fueron:
N Marca 1 A 2 A 3 C 4 D 5 A 6 B 7 D 8 C 9 D 10 B 11 A 12 C 13 B 14 D 15 A 16 D 17 C 18 C 19 B 20 A Hrs. 56 87 106 76 73 145 89 96 98 132 77 100 128 108 70 114 97 113 153 95 N 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Marca Hrs.

D C A B D A C D D A A B B D A B D A C C

89 106 64 128 80 59 115 91 107 84 77 114 126 85 74 137 96 80 120 126

N Marca 41 C 42 B 43 B 44 A 45 D 46 D 47 C 48 A 49 A 50 B 51 B 52 C 53 C 54 D 55 A 56 B 57 C 58 D 59 A 60 B

Hrs. 90 118 126 79 88 96 104 69 76 129 107 102 110 101 86 120 125 76 80 131

N Marca 61 B 62 A 63 D 64 D 65 C 66 A 67 B 68 D 69 A 70 D 71 C 72 B 73 B 74 A 75 B 76 D 77 C 78 A 79 B 80 D

Hrs. 116 89 90 86 100 88 125 74 68 81 97 118 120 66 116 112 91 55 146 107

N Marca 81 B 82 A 83 D 84 D 85 C 86 D 87 A 88 B 89 A 90 C 91 D 92 A 93 C 94 B 95 C 96 A 97 B 98 A 99 D 100 C

Hrs. 128 67 90 103 114 101 78 112 90 105 95 73 107 126 113 70 135 72 104 130

a) Clasifique las duracin de los bombillos por marcas, calcule las diferentes medias y desviaciones tpicas, y obtenga sus conclusiones. b) Elabore un grfico de cajas mltiples, que compare la duracin de los bombillos por marcas. c) Encuentre la distribucin de frecuencias por marca de bombillo, para los que duran 90 horas o mas. Solucin : Hay que comenzar clasificando los bombillos por tipo marca. As por ejemplo, para la marca A, se obtiene:
A 56 87 73 77 70 95 64 59 84 77 74 80 79 69 76 86 80 89 88 68 66 55 67 78 90 73 70 72

Una vez clasificados, se le calcula la media, la desviacin tpica, y el coeficiente de variacin. Repitiendo este procedimiento para las dems marcas, se obtiene:
Marca A B C D Nmero 28 24 22 26 Media 75,07 126,50 107,59 93,73 Desviacin Tpica 10,10 10,94 10,82 11,17 Coeficiente de Variacin 13,45 % 8,65 % 10,06 % 11,92 %

De estos resultados, se infiere que los bombillos marca B son los que proporcionan un mayor duracin promedio, mientras que los A son los que duran menos.

Datos Bidimensionales Angel Francisco Arvelo L.

16

La variabilidad en sus duraciones es aproximadamente la misma, a excepcin de los B que presentan una menor dispersin relativa. En conclusin, los bombillos marca B parecen ser los de mejor calidad, por dar una mayor duracin, tal como puede apreciarse en el diagrama de caja.
160

140

120

DURACION

100

80

60

40
N= 28 24 22 26

MARCA

c) La distribucin por marca, condicionada a que la duracin es de 90 horas como mnimo, se obtiene contando el nmero de bombillos que cumplen la condicin, y clasificndolos por marca, obteniendo como resultado la siguiente tabla de frecuencias: Marca A B C D Frecuencia 2 24 22 16

Ejemplo 8 A cada uno de los estudiantes de un liceo, se les tom dos pruebas, una de habilidad verbal y otra de habilidad numrica. Cada prueba fue calificada sobre una escala de 100 puntos, y posteriormente agrupada . Los resultados se dan en la siguiente tabla bidimensional de frecuencias:
Verbal 0 a 19 20 a 39 40 a 59 60 a 79 80 a 99 0 a 19 3 6 9 2 0 20 a 39 5 16 28 15 4 Prueba Numrica 40 a 59 1 27 35 30 12 60 a 79 0 4 12 15 14 80 a 99 0 1 6 10 8

a) Calcule la media en la prueba de habilidad numrica, y luego la media en esa misma prueba, pero slo para aquellos alumnos que obtuvieron 60 mas puntos en la de habilidad verbal. Interprete el resultado. b) Calcule la media en la prueba de habilidad verbal, y luego la media en esa misma prueba, pero slo para aquellos alumnos que obtuvieron menos de 40 puntos en la de habilidad numrica. Interprete el resultado.

Datos Bidimensionales Angel Francisco Arvelo L.

17

Solucin : a) Para hallar la media en la prueba de habilidad numrica, es necesario encontrar primero su distribucin de frecuencia marginal, sumando las frecuencias que se encuentran en una misma columna.
Calificacin Frecuencia 0 a 19 20 Prueba Numrica 20 a 39 40 a 59 68 105 60 a 79 45 80 a 99 25

La media en la prueba numrica es en consecuencia: 9,5 20 29,5 68 49,5 105 69,5 45 89,5 25 = 48,51 Y 20 68 105 45 25 La distribucin de frecuencias en la prueba numrica, con la condicin de tener 60 mas puntos en la verbal, se obtiene sumando exclusivamente las frecuencias de las dos ltimas filas, que son las que cumplen la condicin, obteniendo:
Calificacin Frecuencia Prueba Numrica con 60 ms puntos en la Verbal 0 a 19 20 a 39 40 a 59 60 a 79 2 19 42 29 80 a 99 18

y por lo tanto, la media condicional es: 9,5 2 29,5 19 49,5 42 69,5 29 89,5 18 Y X 60 = 57,14 2 19 42 29 18 Este resultado puede interpretarse como una correlacin directa entre las calificaciones en las dos pruebas, pues al excluir a los alumnos con baja calificacin en la prueba verbal, la media en la numrica aumenta. b) Para obtener la media en la prueba verbal se procede de manera anloga, pero sumando las frecuencias sobre cada fila, para obtener la distribucin marginal de frecuencias:
Calificacin Frecuencia 0 a 19 9 Prueba Verbal 20 a 39 54 40 a 59 90 60 a 79 72 80 a 99 38

9,5 9 29,5 54 49,5 90 69,5 72 89,5 38 = 55,28 9 54 90 72 38 mientras que la distribucin de frecuencias con la condicin de tener menos de 40 puntos en la prueba numrica es: X
Calificacin Frecuencia Prueba Verbal de aquellos con menos de 40 puntos en la Numrica 0 a 19 20 a 39 40 a 59 60 a 79 8 22 37 17 80 a 99 4

XY

40

9,5 8 29,5 22 49,5 37 69,5 17 89,5 4 = 46,55 8 22 37 17 4

Este resultado nuevamente confirma la relacin directa entre ambas pruebas, pues al considerar slo a los peores alumnos de la prueba numrica, la media de la verbal disminuye.

Datos Bidimensionales Angel Francisco Arvelo L.

18

Preguntas de Revisin
1) En una tabla bidimensional de frecuencias: a) Es necesario que el nmero de filas sea igual al nmero de columnas ?. b) Cmo se calcula el nmero total de datos ?. c) Qu representa el nmero colocado en cada celda ?. 2) En una tabla bidimensional de frecuencias de k filas y h columnas f a) Qu representa el cociente i, j ? fi. f b) Qu representa el cociente i k j.j h ? fij
i 1 j 1
i k

c) Qu representa la suma
i 1

fi. ?

d) Qu representa el cociente

fi j
i k j h

?
fij

i 1 j 1

3) Qu representa la distribucin marginal de frecuencias ?. 4) Cmo se obtiene la superficie de frecuencias ?. 5) En una distribucin para dos variables cuantitativas, cmo se interpreta que la media de una variable sea igual a su media condicionada cuando la otra toma un cierto valor, es decir : Y Y X xi ?. 6) Cul es la diferencia entre una tabla bidimensional de frecuencias y una tabla de contingencia ?. 7) En una distribucin para dos variables cuantitativas, cmo se interpreta que la media de una variable sea menor que su media condicionada, cuando la otra toma un cierto valor, es decir : Y Y X xi ?. 8) En una distribucin bidimensional, en donde una variable es cualitativa y la otra cuantitativa, cmo se interpreta que las medias y las varianzas de la variable cuantitativa sean las mismas, para todos los niveles de la variable cualitativa?. 9) En una distribucin de frecuencias para dos variables cuantitativas, cmo se calcula la proporcin de valores que cumplen X xi y Y yj ? .

Datos Bidimensionales Angel Francisco Arvelo L.

19

10) En una distribucin para dos variables cuantitativas, cmo se interpreta que la varianza condicional de una de las variables, sea igual para todos los valores de la otra variable, es decir : S2 Y y1 = S2 Y y2 =.....= S2 Y yh ?. x x x

Temas complementarios para investigar


1) Investigue acerca de la Distribucin Normal Bivariada, uso y aplicaciones. 2) Investigue la forma de la tabla bidimensional de frecuencias, y de la representacin grfica, en cada uno de los siguientes casos: Una variable cualitativa y la otra cuantitativa discreta. Dos variables cuantitativas discretas. Dos variables cuantitativas, una discreta y otra continua. 3) Investigue como se construye el grfico pirmide de la poblacin , utilizado en Demografa, para representar la edad de una poblacin y su sexo. Problemas Propuestos I. Nivel Elemental 9) En un estudio de mercado, se hizo un seguimiento sobre el color preferido en un tipo de automvil y el sexo del cliente, encontrando: Color a) Qu porcentaje de los hombres Sexo Blanco Gris Rojo Azul Negro prefiere el color blanco? Hombre 26 56 8 12 36 b) Qu porcentaje de los clientes Mujer 10 21 37 25 4 prefieren el color gris? c) Elabore un grfico circular que muestre la preferencia de las mujeres por cada color . Solucin : a) 18,84 % b) 32,77 % 10 ) El personal de una empresa fue clasificado por aos de antigedad, y por nivel de sueldo, encontrando: Sueldo
Aos 0a<5 5 a < 10 10 a < 15 15 a < 20
200 a < 600 600 a <1.000 1.000 a <1.400 1.400 a <1.800 1.800 a <2.200 2.200 a <2.600

25 12 0 0

3 43 5 1

1 8 16 3

0 4 7 15

0 1 3 9

0 0 2 4

a) Cul es el sueldo promedio del personal de esta empresa ?, y cual el del personal con 10 mas aos de antigedad?. Interprete el resultado. b) Cul es la antigedad promedio de las personas que ganan menos de 1.000?. Solucin : a) 1061,73 y 1556,92 b) 6,32 11 ) Tres marcas de cauchos A, B y C ,son sometidas a una prueba, en donde se observa el kilometraje recorrido antes de sufrir algn tipo de desgaste. Los resultados, en miles de kilmetros fueron:

Datos Bidimensionales Angel Francisco Arvelo L.

20

A 34.2 39.8 25.6 43.1 35.0 29.2 25.8 32.1 39.5 40.6 36.3 38.4 32.1 45.0 38.9 27.3 34.9 36.8 29.6 33.0 B 45.1 43.7 36.1 44.8 39.2 46.2 40.2 35.9 37.7 42.9 39.5 40.0 44.6 48.9 C 39.0 28.6 45.9 39.2 36.8 37.9 40.5 28.7 41.8 45.4 41.1 36.8 29.3 43.0 26.9 36.1 37.4

a) Elabore un grfico que permita comparar a estas tres marcas de cauchos. b) Cul de las tres marcas proporciona un mayor kilometraje en promedio?, y cual de las tres tiene un rendimiento ms homogneo ? 12 ) Los siguiente pares de datos se refieren al ingreso mensual en miles de dlares (X) y al nmero de hijos (Y) , de 50 parejas : (1,5 ; 1) (1,5 ; 2) (2,5 ; 1) (3,0 ; 3) (5,0 ; 3) (2,5 ; 1)(4,5 ; 2) (5,0 ; 3) (3,5 ; 1) (1,5 ; 0) (5,0 ; 0) (4,0 ; 2) (4,5 ; 0) (4,5 ; 1) (1,0 ; 3) (2,5 ; 3)(5,0 ; 2) (3,0 ; 1) (2,5 ; 2) (2,5 ; 1) (4,5 ; 4) (3,0 ; 2) (1,0 ; 1) (1,5 ; 1) (2,0 ; 1) (2,5 ; 2)(2,0 ; 2) (2,0 ; 3) (3,5 ; 2) (3,0 ; 1) (2,0 ; 0) (3,0 ; 1) (1,0 ; 0) (2,5 ; 2) (3,0 ; 0) (4,5 ; 2)(2,5 ; 0) (2,0 ; 1) (3,0 ; 1) (4,0 ; 1) (1,5 ; 3) (2,0 ; 2) (1,5 ; 1) (4,5 ; 1) (2,0 ; 2) (3,5 ; 1)(4,0 ; 0) (2,5 ; 3) (1,5 ; 2) (2,0 ; 0) a) Construya la tabla bidimensional de frecuencias. b) Halle la distribucin condicional del nmero de hijos, para las parejas con ingresos mensuales inferiores a 2.000 dlares. c) Halle el ingreso medio de las parejas sin hijos. d) Halle la moda en el nmero de hijos, para las parejas con ingresos mensuales de 3.000 dlares mas. Solucin : c) 2,83 d) 1 13 ) Antes de iniciar un curso, se somete a los participantes a una prueba de conocimientos previos y al concluir, se compara la calificacin obtenida en el curso (Y), con la obtenida en la de conocimientos previos (X). Ambas calificaciones estn sobre 100 puntos, 20 participantes obtuvieron: (45, 67) (78,89) (51,58) (66,70) (32,39) (87,81) (60,63) (70,76) (69, 86) (53,45) (91,86) (72,87) (27,45) (34,23) (75,90) (93,96) (51,42) (64,60) (70,72) (36,42) a) Obtenga la calificacin media en el curso. b) Obtenga la calificacin media en el curso, para aquellos que obtuvieron 50 mas puntos en la prueba de conocimientos previos. Conclusin ?. c) Obtenga la mediana en la calificacin del curso. d) Obtenga la mediana en la calificacin del curso., para aquellos que obtuvieron 50 mas puntos en la prueba de conocimientos previos. Conclusin ?. Solucin : a) 65,85 b) 73,40 c) 68,5 d) 76 II. Nivel Intermedio 14 ) En el ejercicio 10, calcule: a) La antigedad promedio de las personas con sueldo entre 1200 y 1500. b) La media y el coeficiente de variacin de los sueldos, para el personal con antigedad entre de 2 y 6 aos. Solucin : a) 12,32 aos b) 632,26 y 49,

15 ) En una encuesta entre matrimonios , se pregunt el nivel de ingresos del esposo y el de la esposa, obteniendo los siguientes resultados , en miles de dlares:

Datos Bidimensionales Angel Francisco Arvelo L.

21

Esposo 2 - 4 4 - 6 6- 8

1-2 23 8 4

Esposa 2-3 35 14 11

3-4 6 10 12

Solucin : a) 6.841 b) 4.075

a) Calcule el ingreso medio total de los matrimonios encuestados. b) Calcule el ingreso medio de los hombres cuyas esposas ganan entre 1200 y 2600 dlares

16 ) La siguiente tabla bidimensional de frecuencias, expresa el nivel mensual de ingreso en miles de dlares de una persona adulta y el nmero de aos de estudio: Ingreso Mensual Aos de estudio 0-2 2-4 4-6 0 -6 20 2 1 6 - 12 25 17 6 12 - 18 7 10 12 a) Calcule la media , la mediana y la desviacin tpica en el ingreso, de las personas que tienen entre 10 y 15 aos de estudios . b) Calcule el porcentaje de personas en la muestra, con ingresos superiores a 3 mil dlares mensuales, y que a la vez tienen menos de 8 aos de estudio. Solucin : a) 2,75 , 2,64 y 1,59 b) 6,83 % . III. Nivel Avanzado 17 ) En una distribucin bidimensional de frecuencias con valores discretos para ambas variables, existen tantas medias condicionales para una de las variables, como valores distintos pueda tomar la otra ; as por ejemplo, existen tantas X Y y j , como valores distintos pueda tomar yj . Demuestre que la media de estas medias condicionales, es la media incondicional. 18 ) Tomando como base el resultado del ejercicio anterior, demuestre que la varianza de cualquiera de las dos variables, se puede descomponer como suma entre la media de sus varianzas condicionales mas la varianza entre las medias condiciones. 19 ) Suponga que en todas las celdas de una tabla bidimensional de frecuencias con valores discretos para ambas variables, se verifica que la frecuencia de la celda es igual al producto de sus dos frecuencias marginales dividida entre el fi. f.j nmero total de datos, es decir: fij . n Demuestre que en este caso, la media condicional de cualquiera de las dos variables, es igual a su media incondicional.

Вам также может понравиться