Вы находитесь на странице: 1из 13

Tema 2: El anlisis de datos multivariantes

NDICE 2.1 2.2


2.2.1 2.2.2 2.2.3 2.2.4

Tcnicas de visualizacin Distribuciones de frecuencia asociadas a datos multivariantes


Distribucin conjunta Distribuciones marginales Distribuciones condicionadas Relaciones: independencia de variables estadsticas

2.3

Representaciones grficas de una distribucin conjunta

Cuando de una poblacin se observan dos o ms caractersticas de forma conjunta, surge el anlisis de datos denominado multivariante. Para ilustrar este contexto introduzcamos el siguiente ejemplo Esta tabla recoge los siguientes datos: Poblacin/Muestra: Pases europeos en el ao 1985 (tamao 26) Variable estadstica: Porcentajes de personas que trabaja en 9 sectores diferentes de la economa. Siguiendo las siguientes abreviaturas, AGR: agricultura, MIN: minera, MAN: manufactura. EL: suministros elctricos, CON: construccin, SER: servicios, FIN: finanzas, SP: servicios pblicos y sociales y TC: transportes y comunicaciones

PAIS Blgica Dinamarca Francia RFA Irlanda Italia Luxemburgo Holanda

AG 3,3 9,2 10,8 6,7 23,2 15,9 7,7 6,3

MIN 0,9 0,1 0,8 1,3 1 0,6 3,1 0,1

MAN 27,6 21,8 27,5 35,8 20,7 27,6 30,8 22,5

EL 0,9 0,6 0,9 0,9 1,3 0,5 0,8 1

CON 8,2 8,3 8,9 7,3 7,5 10 9,2 9,9

SER 19,1 14,6 16,8 14,4 16,8 18,1 18,5 18

FIN 6,2 6,5 6 5 2,8 1,6 4,6 6,8

SP 26,6 32,2 22,6 22,3 20,8 20,1 19,2 28,5

TC 7,2 7,1 5,7 6,1 6,1 5,7 6,2 6,8

R. Unido Austria Finlandia Grecia Noruega Portugal Espaa Suecia Suiza Turqua Bulgaria Checoslovaquia RDA Hungra Polonia Rumana URSS Yugoslavia

2,7 12,7 13 41,4 9 27,8 22,9 6,1 7,7 66,8 23,6 16,5 4,2 21,7 31,1 34,7 23,7 48,7

1,4 1,1 0,4 0,6 0,5 0,3 0,8 0,4 0,2 0,7 1,9 2,9 2,9 3,1 2,5 2,1 1,4 1,5

30,2 30,2 25,9 17,6 22,4 24,5 28,5 25,9 37,8 7,9 32,3 35,5 41,2 29,6 25,7 30,1 25,8 16,8

1,4 1,4 1,3 0,6 0,8 0,6 0,7 0,8 0,8 0,1 0,6 1,2 1,3 1,9 0,9 0,6 0,6 1,1

6,9 9 7,4 8,1 8,6 8,6 11,5 7,2 9,5 2,8 7,9 8,7 7,6 8,2 8,4 8,7 9,2 4,9

16,9 16,8 14,7 11,5 16,9 13,3 9,7 14,4 17,5 5,2 8 9,2 11,2 9,4 7,5 5,9 6,1 6,4

5,7 4,9 5,5 2,4 4,7 2,7 8,5 6 5,3 1,1 0,7 0,9 1,2 0,9 0,9 1,3 0,5 11,3

28,3 16,8 24,3 11 27,6 16,7 11,8 32,4 15,4 11,9 18,2 17,9 22,1 17,2 16,1 11,7 23,6 5,3

6,4 7 7,6 6,7 9,4 5,7 5,5 6,8 5,7 3,2 6,7 7,6 8,4 8 6,9 5 9,3 4

Las nueve variables que describen a los nueve pases son de intervalo. Sin embargo, es usual encontrarse con variables de tipo nominal u ordinal dentro de un estudio. Para este tipo de caso consultar algn tratado de estadstica aplicada en donde se pude observar casos de diferentes clases de medida. Este sera el caso de incluir en el ejemplo anterior variables como: alineacin del pas, grado de prosperidad... Un tipo de tabla diferente es la que proporciona una tabla de frecuencias asociada a dos variables nominales/ordinales: veamos un par de ejemplos para intentar evitar errores de interpretacin

Status econmico Alto Programa preferido Seriales Informativos Teatro Cine 33 44 15 85 108 90 66 288 75 32 30 202 Medio Bajo

Esencialmente, el anlisis multivariante se interesa por las relaciones entre variables. Para poder tener una primera aproximacin del problema recurriremos a las tcnicas de visualizacin. En secciones posteriores, nos centraremos en el problema bidimensional que es el ms sencillo de manejar desde el punto de vista pedaggico

2.1 TCNICAS DE VISUALIZACIN


Una buena tcnica grfica permite poner luz a que ocurre con un conjunto de datos que viene representado con varias dimensiones. De hecho las tcnicas de visualizacin de datos constituyen todo un reto a la combinacin de la Estadstica y las Ciencia de la Computacin. Una representacin grfica de datos multidimensionales es una correspondencia entre los elementos de la muestra M y un conjunto de grficos: mi M gi Vamos a centrarnos en cuatro tipo de representaciones: Grficos de estrella, Caras de Chernoff, Curvas de Andrew y Scatter-plot matrix

Grficos de estrella (Star plot ) Los Grficos de Estrella (Chambers, 1983) constituyen un mtodo para representar datos multivariantes que no sean muy numerosos (en torno a unos cientos) en donde gi es una estrella. Todo software estadstico convencional suele incluir esta tcnica de representacin multivariante (STATGRAPHIS, SPSS..) Una estrella, que representa a un elemento de la muestra o poblacin, se define a partir de un conjunto de radios, que forman el mismo ngulo, y que confluyen en un centro geomtrico. Cada radio representa a una variable. Su longitud es proporcional a la magnitud de la variable representada, relativizada al mximo valor que alcanza sta en la poblacin. La lnea que conecta los extremos los radios determina el grfico de estrella. Por lo general, los radios no aparecen dibujados, tan solo se especifica el contorno. En el caso en el que los radios aparezcan explcitos, el grfico adquiere el nombre de Sunray Plot, aunque algn software utilice ste como el nico Grfico de Estrella. Un Grfico de Estrellas suele utilizarse para responder a las siguientes preguntas: 1. Fijado un elemento de la poblacin, qu variables son las dominantes? 2. Pueden establecerse similitudes entre los elementos de la poblacin?. A tenor de esto, podan establecerse grupos (clusters)? 3. Existen valores atpicos Hay que tener en cuenta que toda respuesta a estas preguntas, considerar el comportamiento de la poblacin a tendiendo a un conjunto de variables de forma simultnea. Veamos el grfico de estrella para nuestro ejemplo

Blgica

Dinamarca

Francia

RFA

Irlanda

Italia

Luxemburgo

Holanda

R. Unido

Austria

Finlandia

Grecia

Noruega

Portugal

Espaa

Suecia

Suiza

Turqua

Bulgaria

Checoslovaquia

RDA

Hungra

Polonia

Rumana

URSS

Figura 1: Grficos de estrella para los 25 primeros pases

Superficialmente, se puede observar que existen pases con una estrella ms horizontal (Blgica, Dinamarca, Francia, Irlanda,...) y otros cuya forma es ms heterognea (RFA, Grecia, Noruega, Hungra, Polonia..). Esto nos permitira hacer clusters e intentan explicar el por qu de dichas agrupaciones en funcin de las variables a estudio
AGR TC SP CON EL

Para entender este tipo de representacin, todo software convencional proporciona un diagrama clave parecido a la figura de la izquierda. En donde se especifica la correspondencia entre radios y variables

SER MIN MAN

FIN

Caras de Chernoff La tcnica fue propuesta originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981). No todo software estadstico dispone de esta opcin. Uno de los que dispone de ella es el S-PLUS. Cada elemento de la poblacin es representado por el dibujo de una cara, cuyos rasgosforma, curva de la boca, posicin de los ojos etc.- son determinados por el valor de las variables en dicho elemento. Esta clase de grficos responde a las preguntas anteriores dos y tres.

Con el S-PLUS se ha elaborado la representacin de los 26 piases de nuestro ejemplo. La asignacin de parmetros y rasgos utilizada ha sido la siguiente

rea de la cara ------------Forma de la cara ----------Longitud de la nariz ------Localizacin de la boca --Curva de la sonrisa --------

variable 1 (AG) variable 2 (MIN) variable 3(MAN) variable 4 (EL) variable 5 (CON)

Amplitud de la boca Localizacin ojos ---Separacin ojos -----Localizacin ojos ----

Variable 6 (SER variable 7 (FIN) variable 8 (SP) variable 9 (TC)

Blgica

Italia

Finlandia

Suecia

RDA

Dinamarca

Luxemburgo

Grecia

Suiza

Hungra

Francia

Holanda

Noruega

Turqua

Polonia

RFA

R. Unido

Portugal

Bulgaria

Rumania

Irlanda

Austria

Espaa

Checoslovaquia

URSS

Figura 2: Caras de Chernoff para los 25 primeros pases

Curvas de Andrews Andrews (1972) propuso el siguiente mtodo para representar datos multivariantes en dos dimensiones. Cada punto p-dimensional x = (x1, x2,..., xp) es representado por la funcin fx (t ) = 1 2 x1 + x 2 sen(t ) + x3 cos(t ) + x 4 sen(2t ) + x 5 cos(2t ) + .....

en un rango de - < t < . Se puede demostrar que esta representacin preserva las distancias eucldeas, en el sentido de que a dos elementos de la poblacin con valores similares de las variables, les correspondern curvas prximas. Las aplicaciones de este tipo de grficas coinciden con la de tcnicas anteriores

Matriz de grfico de dispersiones (Scatterplot Matrix) Un grfico de dispersin pone de manifiesto las relaciones o asociaciones entre dos variables, representadas en los ejes X e Y respectivamente. Cuando se tienen k variable una matriz de grficos de dispersin es un conjunto de grficos ordenados, donde la posicin (i, j) est definida por el grfico de dispersin de la variable Xi (eje Y) frente a Xj (eje X). Una Matriz de Grficos de Dispersiones suele utilizarse para responder a las siguientes preguntas: 1. 2. 3. 4. Existe algn tipo de relacin entre pares de variables? En caso afirmativo, qu clase de relacin existe (lineal, cuadrtica, etc.)? Hay valores atpicos respecto a la relacin que se ha establecido Se pueden establecer grupos, a la vista de dichas relaciones

El ejemplo se refiere a los datos sobre 26 pases europeos que se ha venido analizando. Se han seleccionado las tres primeras variables para el estudio

AGR

CON

EL

Figura 3: Scatter plot matrix para las 3 primeras variables

2.2 DISTRIBUCIONES DE FRECUENCIA


Si hasta ahora se ha descrito los elementos de una poblacin atendiendo a la medida de las variables sobre ellos, seguidamente vamos a introducir el concepto de repeticin o frecuencia con el propsito de establecer otro tipo de estructuras. Claramente, en el primer epgrafe respetaba las individualidades y la agrupacin se haca a ojo de buen cubero. Ahora, la metodologa consiste en categorizar dentro de cada variable y establecer una estructura mediante una tabla cruzada. Para poder representar estas distribuciones de frecuencia se va a restringir el estudio al caso bidimensional; adems, vamos a considerar variables estadsticas y no caracteres generales, tal y como se apunt en la introduccin. El planteamiento general es el siguiente: Sea una muestra (o poblacin) de tamao n descrita por las variables estadsticas X e Y; o, lo que sera equivalente, sea (x1, y1), (x2, y2), , (xn,, yn) una serie de n datos bidimensionales. Se designar por a1, a2,...., ak y por b1, b2,....bp, los k y p valores distintos que pueden tomar X e Y, respectivamente. Si alguna de estas variables fuese continua por estos valores representan la correspondiente marca de clase, una vez agrupada en intervalos. Existen varias formas de estudiar las repeticiones en esa serie de datos bidimensionales: 1. Contemplando ambas medidas de forma simultnea (distribucin conjunta) 2. Contemplando cada variable X e Y por separado (distribuciones marginales) 3. Fijando el valor de una de las variable y estudiando el comportamiento de la otra (distribuciones condicionadas) Seguidamente se analizan cada una de estas posibilidades

2.2.1 DISTRIBUCIN DE FRECUENCIA CONJUNTA


Se va a denotar por nij al nmero de elementos de la muestra que presentan el valor (ai, bj); es decir, a la frecuencia absoluta del valor (ai, bj). La distribucin de estas frecuencias se denomina conjunta, pues considera las variables X e Y de forma simultnea sobre los elementos de la poblacin. Esta distribucin se puede representar en una tabla denominada tabla de contingencia.
X a1 a2 ... ai ... ak Y b1 n11 n21 ... ni1 ... nk1 b2 n12 n22 ... ni2 ... nk2 .. .. .. .. .. ... ... bj n1j n2j ... nij ... nkj .. .. .. .. .. ... ... bp n1p n2p ... nip ... nkp

Tabla 3: Modelo general de tabla de contingencia

La tabla de contingencia puede definirse tambin usando frecuencias relativas. Adems, las relaciones en esta distribucin conjunta son las siguientes

fij =

nij n

i =1 j =1

nij = n

i =1 j =1

fij = 1

Ejemplo 2.1 Se selecciona 20 alumnos de la Facultad de Informtica presentados a la ltima convocatoria de la asignatura Probabilidades y Estadstica y con el Clculo aprobado. Se les pregunta por la calificacin obtenida en PyE y por el n de convocatorias que necesitaron para aprobar Clculo, obteniendo los siguientes resultados: (5.12, 2), (7, 1), (8.62, 2), (6, 3), (2.88, 2), (7.33, 2), (6, 3), (2.75, 4) (5.25, 2), (5, 1) (6.88, 5) (5.83, 1), (5, 4), (3.38, 4), (6.25, 3), (6.12, 1), (6, 2), (4.62, 3), (6.62, 2), (8.5, 1) En primer lugar vamos a definir las dos variables estadsticas dentro del estudio: X calificacin de la asignatura PyE en esa convocatoria Y n de convocatorias para aprobar el Clculo

Podemos ordenar esta serie mediante un orden lexicogrfico: primero la segunda variable y despus la primera

Y=1 Y=2 Y=3 Y=4

(5, 1), (5.83, 1), (6.12, 1), (7, 1), (8.5, 1) (2.88, 2), (5.12, 2), (5.25, 2), (6, 2), (6.62, 2), (7.33, 2), (8.62, 2) (4.62, 3), (6, 3), (6, 3), (6.25, 3), (2.75, 4), (3.38, 4) , (5, 4)

Y=5

(6.88, 5)

Evidentemente, mientras la variable Y es una variable estadstica discreta (y, por tanto, sus modalidades aparecen de forma natural), la variable X es continua (y se necesita agrupar en intervalos para obtener las modalidades). La agrupacin de la variable X se realizar segn las puntuaciones enteras de las calificaciones.
Y X [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9)

1 0 0 0 2 1 1 1

2 1 0 0 2 2 1 1

3 0 0 1 0 3 0 0

4 1 1 0 1 0 0 0

5 0 0 0 0 1 0 0

Tabla 4: Distribucin de frecuencias conjunta para (X,Y)

Se han eliminado aquellas clases cuyas filas eran iguales a 0 Seguidamente se analizar qu ocurre cuando, a partir de un estudio conjunto, se desea analizar cada variable de forma individual.

2.2.2 DISTRIBUCIONES MARGINALES


El estudio de una distribucin marginal slo tiene sentido cuando se parte de la distribucin conjunta representada en una tabla de contingencia. Es entonces cuando puede surgir la pregunta: qu ocurre si ignoramos una de las variable y nos centramos en la otra?. Claramente, este interrogante carece de sentido cuando la informacin viene expresada como elementos de una poblacin descrita con cada uno de los atributos. Tal es el caso del ejemplo de los 26 pases europeos descrito en la introduccin. Si se estuviera interesado en la variable AG, slo tendramos que centrarnos en un estudio unidimensional de la primera columna. En este caso el concepto de marginal resulta innecesario. La siguiente tabla ilustra el concepto de distribucin marginal

X a1 a2
...

b1
n11 n21
...

b2
n12 n22
...

.. ..

bj
n1j n2j
...

.. ..

bp
n1p n2p
...

Marginal X

n1 = n1 j
j =1
p

.. .. .. ... ...

.. .. .. ... ...

n 2= n 2 j
j =1

...

ai
...

ni1
...

ni2
...

nij
...

nip
...

n i = n ij
j =1

...

ak
Marginal Y

nk1
k

nk2
k

nkj
k

nkp

n k = n kj
j =1

n1 = ni1 n2 = ni 2 ... n j = n ij
i =1 i =1

...

i =1

n p = n ip
i =1

n = n ij
i =1 j =1

Se observa que la denominacin de marginal se debe a que aparecen representadas en el margen de la tabla de contingencia. Por otra parte, el efecto de marginar, o quitar el efecto de la variable(s) innecesaria(s) equivale a sumar en columnas (marginal de la X) o en filas (marginal de la Y). De esta forma, se usar la siguiente notacin: Por n i =

n
j =1

ij

se conocer a la frecuencia absoluta asociada a ai, mientras

que

f i= f
j =1

ij

k ni denotar su frecuencia relativa. Del mismo modo, n j = n ij representar n i =1

la frecuencia absoluta asociada a bj, mientras que f j = posibles relaciones

f
i =1

ij

n j ser la relativa. Otras n

2.2.3 DISTRIBUCIONES CONDICIONADA


Se supone que el valor de una de las variables se fija, cmo se distribuye ahora la otra variable. En el ejemplo 2.1, supongamos que fijamos el valor del n de convocatorias en 1. Ya no interesa la poblacin total formada por 20 alumnos, ahora slo interesa la subpoblacin de aquellos alumnos que necesitaron slo una convocatoria para aprobar el Clculo.

Y=1

(5, 1), (5.83, 1), (6.12, 1), (7, 1), (8.5, 1)

A este proceso de fijar el valor de una de las variables se le denomina condicionar, y es equivalente a restringir el estudio descriptivo de la poblacin inicial a un subconjunto de la
10

misma. As, la distribucin condicional de Y= bj , que se va a denotar por X | Y = bj , tendra la siguiente estructura mostrada en la Figura 4

X| Y=bj
a1 a2
... n1j n2j ... nij ... nkj n1j n2j nij n j n j ... n j ... n j

ai
...

fi j

ak

nkj

nj
SUBPOBLACIN
Figura 4: Frecuencias absolutas y relativas de X | Y=bj

En el caso del ejemplo, supngase que se desea estudiar la variable X |Y=1. Su distribucin de frecuencias en forma tabulada es la siguiente

Calificaciones (clases) [ 4, 5 ] ( 5, 6 ] ( 6, 7 ] ( 7, 8 ] ( 8, 9 ] TOTALES

Marcas de clase 4.5 5.5 6.5 7.5 8.5

Frecuencia absoluta 1 1 2 0 1 5

Frecuencia absoluta Frecuencia acumulada relativa 1 2 4 4 5 1/5 = 0.20 0.20 0.40 0.00 0.20 1

Frecuencia relativa acumulada 0.20 0.40 0.80 0.80 1

11

2.2.4 RELACIONES: INDEPENDENCIA DE VARIABLES ESTADSTICAS


Seguidamente, se exponen las relaciones entre las tres distribuciones anteriormente vistas. CONJUNTA = MARGINAL x CONDICIONADA Cuando las condicionadas son todas iguales, a las variables se les denomina independientes. Desde las variables independientes se puede reconstruir la conjunta desde el producto de marginales. Una forma operativa de determinar si entre dos variables estadsticas existe relacin funcional es demostrando que no son independientes. Esto equivale a la siguiente relacin algebraica en la tabla de contingencia X e Y son independientes fij = f i f j X e Y no son independientes i j

i j

tal que fij = fi f j

2.3 REPRESENTACIN DE LA DISTRIBUCIN CONJUNTA


En este apartado se incluye un histograma tridimensional como forma de representar la distribucin conjunta. A diferencia de lo tratado en representaciones anteriores, el histograma tridimensional est basado en el concepto de frecuencia (repeticiones), mientras que los vistos hasta ahora slo se interesaban por el valor numrico de cada variable en un elemento de la poblacin. Dicho de otra forma, en las representaciones anteriores el elemento de la poblacin nunca perda su entidad pero en el histograma tridimensional dicha particularidad se pierde en beneficio de una clasificacin basada en repeticiones.

En la Figura de arriba se observa un histograma tridimensional para las variables nmero de convocatorias y calificacin.

12

REFERENCIAS BIBLIOGRFICAS
Chernoff, H. (1973) The use of face to represent points in k-dimensional space graphically, Journal of American Statistical Association, 68, pp. 361-368. Flury, B., Riedwyl, H. (1981) Graphical representation of multivariate data by means of asymmetrical faces, Journal of American Statistical Association, 76, pp.757-765 Chambers, J., Cleveland, W., Kleiner, B., Tukey, P. (1983), Graphical Methods for Data Analysis, Wadsworth.

REFERENCIAS WEB
http://www.itl.nist.gov/div898/handbook/eda/section3/starplot.htm (EDA) http://www.epcc.ed.ac.uk/epcc-tec/documents/SciVis-course/SciVis.book_46.html (Chernoff) http://www.pavis.org/essay/multivariate_visualization_techniques.html#SECTION003620 (visualizacin multivariante) http://www.xplore-stat.de/ (software para visualizacin de datos) http://www.student.math.uwaterloo.ca/~stat841/ (curso sobre exploracin computacional de datos) http://www.man.ac.uk/MVC/training/postgrad/vis_hp/courses/mdv/mdv-1-frame.html de visualizacin de datos multidimensionales) http://www.cis.hut.fi/~sami/thesis/node8.html http://vlado.fmf.uni-lj.si/vrml/paris.97/ (grficos n-dimensionales) http://ivpr.cs.uml.edu/theses/jplee-ch0.pdf (tesis) http://wiwi10.unibielefeld.de/~naeve/lehre/material_spezifisch/praktikum99.00/andrews/andrews.html (cdigo Splus) http://www.math.yorku.ca/SCS/Gallery/ (galera de grficos para la visualizacin de datos) (tcnica

13

Вам также может понравиться