Академический Документы
Профессиональный Документы
Культура Документы
2.3
Cuando de una poblacin se observan dos o ms caractersticas de forma conjunta, surge el anlisis de datos denominado multivariante. Para ilustrar este contexto introduzcamos el siguiente ejemplo Esta tabla recoge los siguientes datos: Poblacin/Muestra: Pases europeos en el ao 1985 (tamao 26) Variable estadstica: Porcentajes de personas que trabaja en 9 sectores diferentes de la economa. Siguiendo las siguientes abreviaturas, AGR: agricultura, MIN: minera, MAN: manufactura. EL: suministros elctricos, CON: construccin, SER: servicios, FIN: finanzas, SP: servicios pblicos y sociales y TC: transportes y comunicaciones
R. Unido Austria Finlandia Grecia Noruega Portugal Espaa Suecia Suiza Turqua Bulgaria Checoslovaquia RDA Hungra Polonia Rumana URSS Yugoslavia
2,7 12,7 13 41,4 9 27,8 22,9 6,1 7,7 66,8 23,6 16,5 4,2 21,7 31,1 34,7 23,7 48,7
1,4 1,1 0,4 0,6 0,5 0,3 0,8 0,4 0,2 0,7 1,9 2,9 2,9 3,1 2,5 2,1 1,4 1,5
30,2 30,2 25,9 17,6 22,4 24,5 28,5 25,9 37,8 7,9 32,3 35,5 41,2 29,6 25,7 30,1 25,8 16,8
1,4 1,4 1,3 0,6 0,8 0,6 0,7 0,8 0,8 0,1 0,6 1,2 1,3 1,9 0,9 0,6 0,6 1,1
6,9 9 7,4 8,1 8,6 8,6 11,5 7,2 9,5 2,8 7,9 8,7 7,6 8,2 8,4 8,7 9,2 4,9
16,9 16,8 14,7 11,5 16,9 13,3 9,7 14,4 17,5 5,2 8 9,2 11,2 9,4 7,5 5,9 6,1 6,4
5,7 4,9 5,5 2,4 4,7 2,7 8,5 6 5,3 1,1 0,7 0,9 1,2 0,9 0,9 1,3 0,5 11,3
28,3 16,8 24,3 11 27,6 16,7 11,8 32,4 15,4 11,9 18,2 17,9 22,1 17,2 16,1 11,7 23,6 5,3
6,4 7 7,6 6,7 9,4 5,7 5,5 6,8 5,7 3,2 6,7 7,6 8,4 8 6,9 5 9,3 4
Las nueve variables que describen a los nueve pases son de intervalo. Sin embargo, es usual encontrarse con variables de tipo nominal u ordinal dentro de un estudio. Para este tipo de caso consultar algn tratado de estadstica aplicada en donde se pude observar casos de diferentes clases de medida. Este sera el caso de incluir en el ejemplo anterior variables como: alineacin del pas, grado de prosperidad... Un tipo de tabla diferente es la que proporciona una tabla de frecuencias asociada a dos variables nominales/ordinales: veamos un par de ejemplos para intentar evitar errores de interpretacin
Status econmico Alto Programa preferido Seriales Informativos Teatro Cine 33 44 15 85 108 90 66 288 75 32 30 202 Medio Bajo
Esencialmente, el anlisis multivariante se interesa por las relaciones entre variables. Para poder tener una primera aproximacin del problema recurriremos a las tcnicas de visualizacin. En secciones posteriores, nos centraremos en el problema bidimensional que es el ms sencillo de manejar desde el punto de vista pedaggico
Grficos de estrella (Star plot ) Los Grficos de Estrella (Chambers, 1983) constituyen un mtodo para representar datos multivariantes que no sean muy numerosos (en torno a unos cientos) en donde gi es una estrella. Todo software estadstico convencional suele incluir esta tcnica de representacin multivariante (STATGRAPHIS, SPSS..) Una estrella, que representa a un elemento de la muestra o poblacin, se define a partir de un conjunto de radios, que forman el mismo ngulo, y que confluyen en un centro geomtrico. Cada radio representa a una variable. Su longitud es proporcional a la magnitud de la variable representada, relativizada al mximo valor que alcanza sta en la poblacin. La lnea que conecta los extremos los radios determina el grfico de estrella. Por lo general, los radios no aparecen dibujados, tan solo se especifica el contorno. En el caso en el que los radios aparezcan explcitos, el grfico adquiere el nombre de Sunray Plot, aunque algn software utilice ste como el nico Grfico de Estrella. Un Grfico de Estrellas suele utilizarse para responder a las siguientes preguntas: 1. Fijado un elemento de la poblacin, qu variables son las dominantes? 2. Pueden establecerse similitudes entre los elementos de la poblacin?. A tenor de esto, podan establecerse grupos (clusters)? 3. Existen valores atpicos Hay que tener en cuenta que toda respuesta a estas preguntas, considerar el comportamiento de la poblacin a tendiendo a un conjunto de variables de forma simultnea. Veamos el grfico de estrella para nuestro ejemplo
Blgica
Dinamarca
Francia
RFA
Irlanda
Italia
Luxemburgo
Holanda
R. Unido
Austria
Finlandia
Grecia
Noruega
Portugal
Espaa
Suecia
Suiza
Turqua
Bulgaria
Checoslovaquia
RDA
Hungra
Polonia
Rumana
URSS
Superficialmente, se puede observar que existen pases con una estrella ms horizontal (Blgica, Dinamarca, Francia, Irlanda,...) y otros cuya forma es ms heterognea (RFA, Grecia, Noruega, Hungra, Polonia..). Esto nos permitira hacer clusters e intentan explicar el por qu de dichas agrupaciones en funcin de las variables a estudio
AGR TC SP CON EL
Para entender este tipo de representacin, todo software convencional proporciona un diagrama clave parecido a la figura de la izquierda. En donde se especifica la correspondencia entre radios y variables
FIN
Caras de Chernoff La tcnica fue propuesta originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981). No todo software estadstico dispone de esta opcin. Uno de los que dispone de ella es el S-PLUS. Cada elemento de la poblacin es representado por el dibujo de una cara, cuyos rasgosforma, curva de la boca, posicin de los ojos etc.- son determinados por el valor de las variables en dicho elemento. Esta clase de grficos responde a las preguntas anteriores dos y tres.
Con el S-PLUS se ha elaborado la representacin de los 26 piases de nuestro ejemplo. La asignacin de parmetros y rasgos utilizada ha sido la siguiente
rea de la cara ------------Forma de la cara ----------Longitud de la nariz ------Localizacin de la boca --Curva de la sonrisa --------
variable 1 (AG) variable 2 (MIN) variable 3(MAN) variable 4 (EL) variable 5 (CON)
Blgica
Italia
Finlandia
Suecia
RDA
Dinamarca
Luxemburgo
Grecia
Suiza
Hungra
Francia
Holanda
Noruega
Turqua
Polonia
RFA
R. Unido
Portugal
Bulgaria
Rumania
Irlanda
Austria
Espaa
Checoslovaquia
URSS
Curvas de Andrews Andrews (1972) propuso el siguiente mtodo para representar datos multivariantes en dos dimensiones. Cada punto p-dimensional x = (x1, x2,..., xp) es representado por la funcin fx (t ) = 1 2 x1 + x 2 sen(t ) + x3 cos(t ) + x 4 sen(2t ) + x 5 cos(2t ) + .....
en un rango de - < t < . Se puede demostrar que esta representacin preserva las distancias eucldeas, en el sentido de que a dos elementos de la poblacin con valores similares de las variables, les correspondern curvas prximas. Las aplicaciones de este tipo de grficas coinciden con la de tcnicas anteriores
Matriz de grfico de dispersiones (Scatterplot Matrix) Un grfico de dispersin pone de manifiesto las relaciones o asociaciones entre dos variables, representadas en los ejes X e Y respectivamente. Cuando se tienen k variable una matriz de grficos de dispersin es un conjunto de grficos ordenados, donde la posicin (i, j) est definida por el grfico de dispersin de la variable Xi (eje Y) frente a Xj (eje X). Una Matriz de Grficos de Dispersiones suele utilizarse para responder a las siguientes preguntas: 1. 2. 3. 4. Existe algn tipo de relacin entre pares de variables? En caso afirmativo, qu clase de relacin existe (lineal, cuadrtica, etc.)? Hay valores atpicos respecto a la relacin que se ha establecido Se pueden establecer grupos, a la vista de dichas relaciones
El ejemplo se refiere a los datos sobre 26 pases europeos que se ha venido analizando. Se han seleccionado las tres primeras variables para el estudio
AGR
CON
EL
La tabla de contingencia puede definirse tambin usando frecuencias relativas. Adems, las relaciones en esta distribucin conjunta son las siguientes
fij =
nij n
i =1 j =1
nij = n
i =1 j =1
fij = 1
Ejemplo 2.1 Se selecciona 20 alumnos de la Facultad de Informtica presentados a la ltima convocatoria de la asignatura Probabilidades y Estadstica y con el Clculo aprobado. Se les pregunta por la calificacin obtenida en PyE y por el n de convocatorias que necesitaron para aprobar Clculo, obteniendo los siguientes resultados: (5.12, 2), (7, 1), (8.62, 2), (6, 3), (2.88, 2), (7.33, 2), (6, 3), (2.75, 4) (5.25, 2), (5, 1) (6.88, 5) (5.83, 1), (5, 4), (3.38, 4), (6.25, 3), (6.12, 1), (6, 2), (4.62, 3), (6.62, 2), (8.5, 1) En primer lugar vamos a definir las dos variables estadsticas dentro del estudio: X calificacin de la asignatura PyE en esa convocatoria Y n de convocatorias para aprobar el Clculo
Podemos ordenar esta serie mediante un orden lexicogrfico: primero la segunda variable y despus la primera
(5, 1), (5.83, 1), (6.12, 1), (7, 1), (8.5, 1) (2.88, 2), (5.12, 2), (5.25, 2), (6, 2), (6.62, 2), (7.33, 2), (8.62, 2) (4.62, 3), (6, 3), (6, 3), (6.25, 3), (2.75, 4), (3.38, 4) , (5, 4)
Y=5
(6.88, 5)
Evidentemente, mientras la variable Y es una variable estadstica discreta (y, por tanto, sus modalidades aparecen de forma natural), la variable X es continua (y se necesita agrupar en intervalos para obtener las modalidades). La agrupacin de la variable X se realizar segn las puntuaciones enteras de las calificaciones.
Y X [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9)
1 0 0 0 2 1 1 1
2 1 0 0 2 2 1 1
3 0 0 1 0 3 0 0
4 1 1 0 1 0 0 0
5 0 0 0 0 1 0 0
Se han eliminado aquellas clases cuyas filas eran iguales a 0 Seguidamente se analizar qu ocurre cuando, a partir de un estudio conjunto, se desea analizar cada variable de forma individual.
X a1 a2
...
b1
n11 n21
...
b2
n12 n22
...
.. ..
bj
n1j n2j
...
.. ..
bp
n1p n2p
...
Marginal X
n1 = n1 j
j =1
p
.. .. .. ... ...
.. .. .. ... ...
n 2= n 2 j
j =1
...
ai
...
ni1
...
ni2
...
nij
...
nip
...
n i = n ij
j =1
...
ak
Marginal Y
nk1
k
nk2
k
nkj
k
nkp
n k = n kj
j =1
n1 = ni1 n2 = ni 2 ... n j = n ij
i =1 i =1
...
i =1
n p = n ip
i =1
n = n ij
i =1 j =1
Se observa que la denominacin de marginal se debe a que aparecen representadas en el margen de la tabla de contingencia. Por otra parte, el efecto de marginar, o quitar el efecto de la variable(s) innecesaria(s) equivale a sumar en columnas (marginal de la X) o en filas (marginal de la Y). De esta forma, se usar la siguiente notacin: Por n i =
n
j =1
ij
que
f i= f
j =1
ij
f
i =1
ij
Y=1
A este proceso de fijar el valor de una de las variables se le denomina condicionar, y es equivalente a restringir el estudio descriptivo de la poblacin inicial a un subconjunto de la
10
misma. As, la distribucin condicional de Y= bj , que se va a denotar por X | Y = bj , tendra la siguiente estructura mostrada en la Figura 4
X| Y=bj
a1 a2
... n1j n2j ... nij ... nkj n1j n2j nij n j n j ... n j ... n j
ai
...
fi j
ak
nkj
nj
SUBPOBLACIN
Figura 4: Frecuencias absolutas y relativas de X | Y=bj
En el caso del ejemplo, supngase que se desea estudiar la variable X |Y=1. Su distribucin de frecuencias en forma tabulada es la siguiente
Frecuencia absoluta 1 1 2 0 1 5
Frecuencia absoluta Frecuencia acumulada relativa 1 2 4 4 5 1/5 = 0.20 0.20 0.40 0.00 0.20 1
11
i j
En la Figura de arriba se observa un histograma tridimensional para las variables nmero de convocatorias y calificacin.
12
REFERENCIAS BIBLIOGRFICAS
Chernoff, H. (1973) The use of face to represent points in k-dimensional space graphically, Journal of American Statistical Association, 68, pp. 361-368. Flury, B., Riedwyl, H. (1981) Graphical representation of multivariate data by means of asymmetrical faces, Journal of American Statistical Association, 76, pp.757-765 Chambers, J., Cleveland, W., Kleiner, B., Tukey, P. (1983), Graphical Methods for Data Analysis, Wadsworth.
REFERENCIAS WEB
http://www.itl.nist.gov/div898/handbook/eda/section3/starplot.htm (EDA) http://www.epcc.ed.ac.uk/epcc-tec/documents/SciVis-course/SciVis.book_46.html (Chernoff) http://www.pavis.org/essay/multivariate_visualization_techniques.html#SECTION003620 (visualizacin multivariante) http://www.xplore-stat.de/ (software para visualizacin de datos) http://www.student.math.uwaterloo.ca/~stat841/ (curso sobre exploracin computacional de datos) http://www.man.ac.uk/MVC/training/postgrad/vis_hp/courses/mdv/mdv-1-frame.html de visualizacin de datos multidimensionales) http://www.cis.hut.fi/~sami/thesis/node8.html http://vlado.fmf.uni-lj.si/vrml/paris.97/ (grficos n-dimensionales) http://ivpr.cs.uml.edu/theses/jplee-ch0.pdf (tesis) http://wiwi10.unibielefeld.de/~naeve/lehre/material_spezifisch/praktikum99.00/andrews/andrews.html (cdigo Splus) http://www.math.yorku.ca/SCS/Gallery/ (galera de grficos para la visualizacin de datos) (tcnica
13