Вы находитесь на странице: 1из 24

10 46 (1–2):

Lilloa O. E. A. Arce et
10–33, 10
al.: Estudio comparativo basado en una aplicación a la taxonomía numérica
2009

Componentes principales y coordenadas principales:


estudio comparativo basado en una aplicación a la
taxonomía numérica
Arce, Osvaldo E. A. 1 ; Nora E. De Marco 1 ; María R. Santillán 2
1Facultad de Agronomía y Zootecnia.
2Facultad de Ciencias Económicas.
Universidad Nacional de Tucumán. E-mail: ova.arce@gmail.com

➤ R e s u m e n — Arce, Osvaldo E. A.; Nora E. De Marco; María R. Santillán. 2009.


“Componentes principales y coordenadas principales: estudio comparativo basado en una
aplicación a la taxonomía numérica”. Lilloa 46 (1-2). El objetivo del trabajo es realizar un es-
tudio comparativo de las ordenaciones obtenidas mediante la aplicación de componentes prin-
cipales y coordenadas principales a una matriz de datos mixtos correspondiente a los taxones
argentinos del género Echinochloa (Poaceae), bajo diferentes condiciones de aplicación. Se uti-
lizaron los datos sin estandarizar y estandarizados por desvío estándar o rango. En coorde-
nadas principales se usaron: distancia Euclidiana, disimilaridades Manhattan, Bray Curtis,
Canberra y el coeficiente de similaridad de Gower. Para la comparación de resultados obte-
nidos se emplearon varias técnicas. Los análisis se corrieron en el paquete NTSys. En los
casos que fueron necesarios se aplicaron correcciones por autovalores negativos por los
métodos de Lingoes y Cailliez. El uso de los diagramas de Shepard y correlaciones entre
matrices resultó muy útil para juzgar las ordenaciones. La estandarización resultó el elemento
más importante para la obtención de ordenaciones apropiadas. El coeficiente de Gower ma-
nejó apropiadamente la naturaleza mixta de las variables. La presencia de autovalores nega-
tivos no introdujo distorsiones importantes en espacios de dimensión reducida.
Palabras claves: ordenación, Echinochloa, estadística multivariada, autovalores negativos,
diagramas de Shepard, NTSys, coeficiente de Gower.

➤ A b s t r a c t — Arce, Osvaldo E. A.; Nora E. De Marco; María R. Santillán. 2009.


“Principal components and principal coordinates: a comparative study based on an implemen-
tation to numerical taxonomy”. Lilloa 46 (1-2). The objective of the present paper is to com-
pare ordinations obtained from principal components and principal coordinates using a mixed
data matrix corresponding to the Argentinean taxa of Echinochloa (Poaceae) under different
application conditions. The following coefficients were used in principal coordinates: Euclidean
distance, Manhattan, Bray Curtis and Canberra dissimilarities, and Gower similarity coeffi-
cient. Unstandardized and range or standard deviation standardized data were used. Ordina-
tion comparisons were accomplished using several techniques. All the analyses were run on
the package NTSys. Corrections for negative eigenvalues were applied when necessary by
means of Lingoes and Cailliez methods. Using Shepard diagrams and matrix to matrix corre-
lations was very useful in order to judge ordinations. Standardization was the most important
element to obtain appropriate ordinations. Gower coefficient handled appropriately the vari-
ables mixed nature. No important distortions in reduced dimensionality spaces were obtained
when negative eigenvalues were present.
Keywords: Ordination, Echinochloa, multivariate statistics, negative eigenvalues, Shepard
diagrams, NTSys, Gower coefficient.

INTRODUCCIÓN el adelanto tecnológico permitió la movili-


dad de un lugar a otro del planeta el núme-
La diversidad de los organismos biológi- ro de seres vivos conocidos se fue incremen-
cos despertó la curiosidad del hombre desde tando y surgió la necesidad de reunirlos en
sus inicios. En un principio se comenzaron a grupos definidos.
observar y diferenciar los animales y plan- Así es como surge la Taxonomía (palabra
tas. Luego se les pusieron nombres. Cuando de origen griego que significa “ley o norma
de ordenación”), que es la ciencia de la cla-
Recibido: 21/08/08 – Aceptado: 27/07/09 sificación (De La Sota, 1982).
Lilloa 46 (1–2): 10–33, 2009 11

Una doctrina dentro de esta ciencia es el 2002; Legendre y Legendre, 1998; Legendre
feneticismo, el cual se basa en el estudio de y Anderson, 1998; Jobson, 1992; Jolliffe,
las relaciones taxonómicas fenéticas, enten- 1986; Seber, 1984; Gower y Digby, 1981;
diéndose como tales a aquellos arreglos por Gower, 1966) han sido ampliamente usados.
similitud total basados en todos los caracte- Otras técnicas han sido utilizadas también,
res disponibles para los objetos u organis- aunque en menor grado, como ser análisis
mos bajo estudio sin una ponderación de los de factores, escalas multidimensionales no
mismos (Crisci y López Armengol, 1983; De métricas y análisis canónico.
la Sota, 1982; Sneath y Sokal, 1973). En taxonomía numérica estas técnicas se
Debido a que los caracteres empleados usan para obtener grupos a partir de repre-
en estudios de este tipo deben ser cuantifica- sentaciones gráficas bi y/o tridimensionales,
dos con precisión es que al enfoque feneti- es decir, se usan como una alternativa al
cista de la taxonomía se le ha llamado taxo- análisis de conglomerados (“cluster” análi-
nomía numérica. Esta taxonomía emplea sis) y con fines clasificatorios.
entonces técnicas numéricas, entendiéndose La calidad de las representaciones gráfi-
como tales, aquéllas que mediante operacio- cas obtenidas a partir de los métodos de or-
nes matemáticas calculan la afinidad entre denación ha sido motivo de numerosos tra-
unidades taxonómicas a base del estado de bajos. Al ser dichas representaciones en es-
sus caracteres. pacios de dimensión reducida el elemento
Al trabajar con caracteres cuantitativos o que el investigador tomará en cuenta para
cualitativos codificados es que la taxonomía extraer conclusiones válidas sobre su traba-
debió valerse de las técnicas proporcionadas jo, es que se debe asegurar que éstas sean lo
por la estadística. Por otra parte, como cada más fieles posibles a las matrices de proxi-
entidad está caracterizada por múltiples midades en las que éstos se basan.
atributos, es la estadística multivariada la Moss (1968) fue uno de los primeros au-
principal proveedora de herramientas de tores en plantear que la aplicación de dife-
análisis para estudios taxonómicos de tipo rentes técnicas puede conducir a resultados
numérico. diferentes y, en consecuencia, a conclusiones
Las técnicas clasificatorias basadas en taxonómicas distintas. Realiza estudios com-
información estrictamente numérica comen- parativos aplicando diferentes técnicas
zaron a desarrollarse a mediados del siglo (componentes principales, coordenadas
XX. Sin embargo el gran auge de las mismas principales y escalas multidimensionales no
se da con la difusión masiva de las compu- métricas) a los mismos datos.
tadoras a fines de los ‘80. Numerosos pa- Las primeras presentaciones de estos mé-
quetes estadísticos han sido desarrollados todos y discusión de sus propiedades se pre-
desde entonces, lo cual ha puesto estas herra- sentan en el clásico libro de Sneath y Sokal
mientas de análisis a disposición de toda la (1973).
comunidad científica y técnica. Rohlf (1972) trabaja en la comparación
Entre todas las técnicas usadas en taxo- de distintos métodos de ordenación y usa al-
nomía numérica, los métodos basados en gunos datos simulados muy simples. Su inte-
autovalores y autovectores (ordenación) tales rés radica principalmente en el efecto de los
como componentes principales (Peña, 2002; datos faltantes. Propone algunas medidas
Hair et al., 1999; Legendre y Legendre, que pueden ser usadas para evaluar la cali-
1998; Gnanadesikan, 1997; Jobson, 1992; dad de las representaciones gráficas.
Johnson y Wichern, 1992; Everitt y Dunn, Thorpe (1980) trabaja sobre razas de la
1991; Jolliffe, 1986; Anderson, 1984; Dillon serpiente Natrix natrix y compara varios
y Goldstein, 1984; Seber, 1984; Karson, métodos de ordenación: componentes princi-
1982; Mardia et al., 1979; Morrison, 1967), pales, coordenadas principales, escalas mul-
y coordenadas principales (también llamado tidimensionales no métricas. Los datos con
escalado multidimensional métrico) (Peña, los que trabaja representan un modelo taxo-
12 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

nómico conocido. Llega a la conclusión que En trabajos posteriores (Peña, 2002; Le-
la estandarización es recomendable. gendre y Legendre, 1998; Gower y Legendre,
Pimentel (1981) realiza un trabajo simi- 1986; Gower, 1985) se comenzó a dar im-
lar al de Thorpe para especies de Abronia. portancia a las propiedades matemáticas de
Trabaja con componentes principales, coor- las matrices obtenidas a partir de distintos
denadas principales, escalas multidimensio- coeficientes de disimilaridad o similaridad,
nales no métricas y mapeo linear. Aplica el ya que la metricidad y euclinidad de los mis-
coeficiente de Gower. mos son esenciales para la obtención de re-
Hartmann (1988) compara métodos de presentaciones apropiadas de los datos en
ordenación empleando datos de dientes de espacios de dimensión reducida. Se discute
Homínidos. Analiza el efecto de la estandari- asimismo como la estandarización por ran-
zación de datos y propone comparar el ajuste go puede llevar a la euclinidad a ciertos co-
entre diferentes métodos usando coeficientes eficientes de disimilaridad.
de correlación entre matrices de distancias y Legendre y Legendre (1998) proponen
matrices derivadas a partir de los puntos en dos métodos, Cailliez (1983) y Lingoes
los espacios de dimensión reducida. (1971), para corregir la presencia de auto-
En todos los casos se concluye que las valores negativos y asegurar la euclinidad
diferentes combinaciones de tipos de datos, de disimilaridades y similaridades no métri-
estandarización, coeficientes de disimilari- cas. Legendre y Anderson (1998), desarro-
dad / similaridad y técnica empleada pue- llan un paquete de software (DistPCoA) para
den producir distintos resultados. aplicar estas correcciones.
En los trabajos mencionados previamente Bramardi (2000) y Rohlf (1990) presen-
los autores trabajaron con variables de tipo tan la técnica del árbol de distancia mínima
mixto, es decir, datos con variables cuantita- (“minimum-length spanning tree”) como
tivas y cualitativas codificadas. Según Thor- una manera adicional de evaluar la calidad
pe (1980) la codificación otorga a los datos de las representaciones gráficas al superpo-
no numéricos un carácter de numéricos y nerlo sobre la representación obtenida a par-
propone estandarizarlos como si se trataran tir de cualquier ordenación.
de variables de este tipo. Pimentel (1981) Rohlf (2009) desarrolla la versión 2.2 del
realiza su estudio sobre Abronia aplicando paquete NTSys-pc para su aplicación en pro-
un concepto similar. blemas de taxonomía numérica incorporan-
Crisci y López Armengol (1983) aplican do todos los procedimientos que aparecen en
componentes principales a una matriz de la bibliografía sobre el tema desde los men-
especies del género Bulnesia constituida por cionados por Sneath y Sokal (1973) hasta
23 variables cuantitativas y 20 categóricas los más modernos, como análisis de “pro-
codificadas. También trabajan con las varia- crustes”.
bles codificadas como si se trataran de va- En este trabajo se realizaron todos los
riables numéricas. El uso de matrices de da- análisis con dicho paquete estadístico.
tos que contienen variables de tipo mixto es El objetivo general del presente trabajo es
muy común en estudios de taxonomía numé- realizar un estudio comparativo de las orde-
rica, no habiéndose dado la importancia que naciones obtenidas mediante la aplicación
el tema tiene en la bibliografía existente so- de las técnicas de componentes principales y
bre análisis estadístico multivariado. coordenadas principales a una matriz de
Componentes principales y la mayoría de datos correspondiente a los taxones argenti-
las medidas de di/similaridad existentes, nos del género Echinochloa (Poaceae: Pani-
empleadas en coordenadas principales, no coideae: Paniceae), bajo diferentes condicio-
han sido diseñadas para manejar matrices de nes de aplicación.
datos mixtos. Gower (1971) presenta una Los objetivos parciales son:
alternativa, la única encontrada por los au- – Analizar el efecto de la estandarización
tores, para manejar datos de este tipo. de datos por desvío estándar o rango sobre
Lilloa 46 (1–2): 10–33, 2009 13

todas las variables y sólo sobre variables Los caracteres exomorfológicos analiza-
cuantitativas en una matriz de datos mixtos. dos y considerados como relevantes para deli-
– Estudiar distintos coeficientes de disimi- mitar taxones, determinaron la existencia de
laridad y similaridad y su efecto en las re- dos grandes grupos, el primero de los cuales
presentaciones gráficas obtenidas. se encuentra constituido por las siguientes
– Evaluar los resultados obtenidos al entidades: E. colona (C), E. crusgalli var. crus-
aplicar las técnicas de componentes princi- galli (VC), var. mitis (VM), E. cruspavonis
pales y coordenadas principales. (CR), E. chacoensis (CH); y el segundo confor-
– Comparar los resultados obtenidos a mado por E. oryzoides (O), E. helodes (H), E.
partir de distintos métodos de corrección de polystachya var. polystachya (VP) y var. spec-
autovalores negativos. tabilis (VS). Los caracteres de separación
– Evaluar las soluciones obtenidas en es- para estos grupos son: la propagación vege-
pacios de dimensión reducida, a partir de la tativa que es cespitosa o rizomatosa, el ciclo
aplicación, a la matriz de datos, de diferen- de la planta que es anual o perenne y la lon-
tes combinaciones de centrado, estandariza- gitud de la espiguilla que varía de 2-5 mm o
ción, coeficientes de disimilaridad / simila- de (4,5) 5-7 mm de longitud.
ridad y técnica de análisis empleada. El análisis de otros caracteres como la
forma de la espiguilla, su longitud y el ápice
METODOLOGÍA de la lemma inferior permiten delimitar los
siguientes subgrupos dentro del primer gran
Las evaluaciones metodológicas general- grupo: El subgrupo (C), evidencia uniformi-
mente involucran simulaciones hechas con dad y está definido claramente el carácter
computadoras o el estudio a partir de datos predominante que es la presencia de lemma
reales que tienen una estructura taxonómica mútica o mucronada. El subgrupo (CR) se
conocida. La importancia de evaluaciones manifiesta en forma homogénea y separado
del último tipo radica en el hecho de que del anterior, los caracteres que contribuyeron
modelos matemáticos generados no produ- son la forma de la espiguilla, que es lanceo-
cen información que pueda ser justificada lada y la lemma inferior aristada. El otro
biológicamente (Pimentel, 1981). subgrupo está formado por las entidades VC
Thorpe (1980) dice que si se parte de y VM que no se separan claramente por los
datos generados por computadora, las técni- caracteres exomorfológicos, lo cual sugiere
cas bajo estudio serán la única base para la que pudo haber procesos de hibridación entre
construcción del modelo taxonómico crean- ellos.
do de esta manera una lógica circular. Dentro del segundo gran grupo se encuen-
Por este motivo se trabajó con datos rea- tra los siguientes subgrupos: el subgrupo O en
les con una estructura taxonómica conocida. el que los caracteres que contribuyeron a su
En este estudio el modelo taxonómico cono- separación son la longitud de la espiguilla y
cido corresponde a De Marco (2002), es de- lemma inferior con arista hasta de 3 cm de
cir, la estructura de agrupamientos en la longitud. El subgrupo H presenta uniformi-
matriz de datos se conocía con anterioridad dad, con sus espiguillas lanceoladas, lemma
a su análisis estadístico. inferior aristada y su inflorescencia linear y
nutante. Los subgrupos formados por las enti-
Modelo taxonómico.— El género Echino- dades VP y VS, en donde caracteres como el
chloa en la Argentina (De Marco, 2006; Zu- de nudos y vainas glabras, nudos setosos-hir-
loaga et al., 1994), se encuentra representa- sutos y vainas hirsutas los delimitan. Sin em-
do por 7 especies y 2 variedades: E. colona, bargo, a pesar de que poseen caracteres dife-
E. crusgalli var. crusgalli, E. crusgalli var. renciales, son muy similares entre sí.
mitis, E. cruspavonis, E. chacöensis, E. helo- Puesto que VC y VM no se diferencian cla-
des, E. oryzoides, E. polystachya var. polysta- ramente, a los fines de este trabajo se los
chya, E. polystachya var. spectabilis. considerará como un grupo único. Por lo
14 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

tanto el número de grupos en estudio es de 8. Para estos casos existen dos métodos de
Se evaluaron 10 individuos de cada uno corrección disponibles que permiten obte-
de los 9 taxones. Se midieron 9 variables ner una representación euclídea en todos
cuantitativas, 11 binarias y 10 cualitativas los casos.
multiestado. La descripción de las variables
se encuentra en De Marco (2002). Las varia- Método de Lingoes:
bles cualitativas fueron codificadas mediante
códigos numéricos.
En los gráficos de ordenación las referen-
cias de los taxones correspondientes son las donde c es el valor absoluto del autovalor
siguientes: ● VS, * VP, o C, + O, ✕ H, … CR, negativo más grande de la corrida del análi-
Δ VC, ‘ VM, ∇ CH. sis de coordenadas principales (Lingoes,
A lo largo de este trabajo se adoptará la 1971).
convención de asignar los individuos a las n
filas de la matriz y las variables a las p co- Método de Cailliez:
lumnas.
El análisis de componentes principales se
aplicó a datos centrados, en todos los casos,
tal como lo sugieren Legendre y Legendre donde c es el mayor autovalor de una matriz
(1998). Se trabajó con los datos sin estanda- no simétrica especial (Cailliez, 1983).
rizar y estandarizados por desvío estándar o Detalles sobres estos métodos se encuen-
rango. El coeficiente de correlación es la co- tran en Legendre y Legendre (1998) y se in-
varianza de las variables centradas y estanda- cluyen en el paquete estadístico DistPCoA
rizadas por desvío estándar (Johnson y Wi- (Legendre y Anderson, 1998).
chern, 1992), razón por la cual calcular la
covarianza de variables así estandarizadas o Para la evaluación de ordenaciones se
la correlación de variables no estandarizadas utilizaron las siguientes técnicas:
proporcionará la misma matriz de asocia-
ción y, por lo tanto, idénticos autovalores. Autovalores y porcentaje de varianza explica-
La estandarización fue aplicada a todas da.— Esta es la técnica más usada y amplia-
las variables primero y luego sólo a las va- mente recomendada en la bibliografía (Hair
riables cuantitativas. Los siguientes coefi- et al., 1999; Legendre y Legendre, 1998;
cientes fueron aplicados: varianza-covarian- Gnanadesikan, 1997; Jobson, 1992; Johnson
za y correlación, en componentes principa- y Wichern, 1992; Everitt y Dunn, 1991; Jolli-
les; y coeficiente de similaridad general de ffe, 1986; Anderson, 1984; Dillon y Golds-
Gower (Bramardi, 2000; Gower, 1971) y tein, 1984; Seber, 1984; Karson, 1982; Mar-
distancias Euclidiana, disimilaridades Man- dia et al., 1979; Morrison, 1967) para eva-
hattan, Bray Curtis y Canberra (Gower y Le- luar representaciones gráficas obtenidas a
gendre, 1986; Gower, 1985), en coordena- partir de un análisis de componentes princi-
das principales. pales.
Es equivalente al coeficiente de determi-
Autovalores negativos.— Autovalores ne- nación r2 empleado en análisis de regresión.
gativos pueden generarse al usar medidas de Si se consideran un espacio de dimensión
distancia semimétricas o no métricas. Tam- m, con m << p, su expresión será:
bién pueden encontrarse durante el análisis
de algunas distancias métricas que no ga-
rantizan una completa representación Eucli-
diana (Gower y Legendre, 1986). El proble-
ma que surge aquí es que los correspondien-
tes ejes de ordenación serán imaginarios.
Lilloa 46 (1–2): 10–33, 2009 15

e indica el porcentaje de la variabilidad total Gráficos en 2 dimensiones con árboles de re-


explicada por los primeros m autovalores. corrido mínimo superpuestos.— El árbol de
Normalmente se considera que una repre- recorrido mínimo se calcula a partir de una
sentación es apropiada si los dos o tres pri- matriz de disimilaridades o similaridades.
meros autovalores explican un alto porcen- Es útil para su superposición sobre ordena-
taje de la variabilidad total. ciones para ayudar a detectar distorsiones
Legendre y Legendre (1998) indican que locales, es decir, pares de puntos que se ven
esta es también una medida válida en el próximos en un gráfico pero que en realidad
caso de coordenadas principales ya que, al- están separados si otras dimensiones son to-
gunas veces, los autovalores obtenidos a par- madas en cuenta (Rohlf, 2009). También se
tir de coordenadas principales son los mis- utilizan para una más fácil identificación de
mos (excepto por un factor de escala) que agrupamientos.
los obtenidos a partir de componentes prin- Gower y Ross (1969) muestran que este
cipales. árbol equivale a obtener un agrupamiento
Peña (2002) establece que esta medida (“clustering”) no jerárquico de los objetos
indica el grado de bondad de ajuste de la por el método de agrupamiento simple.
representación gráfica en el caso de coorde- NTSys incluye estos árboles en el procedi-
nadas principales, ya que en esta técnica los miento MST.
autovalores no corresponden a varianzas.
El módulo EIGEN de NTSys brinda esta Diagramas de Shepard.— Estos diagramas
información. fueron originalmente propuestos por Kruskal
(1964). Consisten en graficar una matriz
Congruencia entre el modelo taxonómico es- contra la otra, elemento a elemento, igno-
tudiado previamente y el obtenido mediante rando las diagonales.
ordenaciones.— Esta metodología fue utili- McCune y Grace (2002), Gnanadesikan
zada por Hartman (1988), Pimentel (1981) y (1997) y Everitt y Dunn (1991) indican que
Thorpe (1980). en estos diagramas puede observarse si existe
El esquema 1 resume el procedimiento una relación monótona entre las matrices,
usado. lo cual indica una apropiada configuración
La congruencia se evaluó determinando de puntos en el espacio de dimensión reduci-
si el número de grupos obtenidos mediante da. La monotonicidad asegura que las dis-
las ordenaciones concordaba con el número tancias interpuntos recuperadas concuerden
presente en el modelo taxonómico conocido. con las disimilaridades originales, o sea,
16 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

cuanto mayor sea la disimilaridad entre dos dica que las posiciones relativas recuperadas
objetos, mayor será la distancia interpunto han sufrido una distorsión.
en la representación euclidiana de estos ob- Estos diagramas están incluidos en el
jetos. Dicho en otras palabras, las relaciones procedimiento MXCOMP de NTSys.
de orden entre las distancias interpuntos en
la representación euclidiana está en exacta Correlación entre matrices.— Es una medida
concordancia con las relaciones de orden de la correspondencia entre los elementos de
entre las disimilaridades originales. Si lo dos matrices. Esta técnica es recomendada
que se compara es una medida de similari- por Rohlf (1972) para evaluar cuán próxima
dad con la distancia, la relación que se bus- es la configuración de puntos en espacios de
ca es la inversa a la anterior, es decir, a dimensión reducida en relación a la configu-
mayor distancia, menor similaridad. ración de los mismos en el espacio original
También se puede observar qué tan p-dimensional.
próxima o similar es la matriz de disimilari- Legendre y Legendre (1998) sugieren utili-
dades o similaridades derivada con respecto zar la distancia Euclídea en el espacio origi-
a la original. Legendre y Legendre (1998) nal y en el reducido en el caso de componentes
muestran que cuanto más próxima está la principales. En coordenadas principales y es-
nube de puntos a la diagonal del diagrama, calas multidimensionales no métricas acon-
más parecidas serán ambas configuraciones. sejan calcular las distancias Euclídeas entre
Además si la nube de puntos está próxima los objetos en el espacio reducido y comparar-
a la diagonal y sigue una tendencia lineal, las las con las disimilaridades o similaridades en
posiciones relativas de los puntos habrán sido las cuales se basó la ordenación.
recuperadas con precisión. A veces la relación Este procedimiento también fue utilizado
entre ambos espacios no es lineal, lo cual in- por Hartman (1988) con el fin de evaluar
Lilloa 46 (1–2): 10–33, 2009 17

las correspondencias entre las configuracio- Concordancia entre el espacio original y el


nes obtenidas a partir de distintos análisis de derivado para una ordenación en particu-
los mismos datos y con el fin de comparar la lar.— Los esquemas 2 y 3 resumen los proce-
similitud entre los resultados obtenidos. dimientos utilizados.
NTSys permite calcular estas correlacio- En el caso de componentes principales se
nes en el procedimiento MXCOMP. trabajó de la manera indicada en el esquema 2.

Correlación
Coeficiente % Var. Grupos
Estandarización Autovalores orig.–deriv.
Codificación explicada identificados
en 2 y 3 dim.

varcov centrado 234.2879 72.7269 0.97882 0


varne 36.9095 84.1843 0.98947
22.3580 91.1246

varcov* centrado 10.9144 36.3815 0.90527 8


varde desvío estándar 5.2534 53.8928 0.93862
todas las variables 3.3983 65.2203

varcov centrado 8.7915 40.3805 0.92172 8


vardec desvío estándar sólo 3.6024 56.9266 0.95762
variables cuantitativas 2.5782 68.7684

varcov centrado 1.8088 41.6909 0.91065 8


varrg rango todas la variables 0.7888 59.8711 0.95244
0.4958 71.2983

varcov centrado 6.4281 47.4834 0.90657 10


varrgc rango sólo variables 2.2339 63.9853 0.97270
cuantitativas 1.7291 76.7580

Tabla 1. Autovalores, porcentaje de varianza explicada, correlación entre espacio euclidiano


original y derivado en 2 dimensiones, ídem en 3 dimensiones, y número de grupos identificados
en la representación bidimensional bajo distintas condiciones de estandarización. Palabras en
cursiva corresponden a la codificación empleada en otras tablas y figuras. varcov = varianza–
covarianza; corr = correlación; (*) esta opción es equivalente a la correlación entre variables.
18 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

varne varde vardec varrg varrgc

varne 1
varde 0.20884 1
vardec 0.28319 0.92527 1
varrg 0.12544 0.97792 0.89460 1
varrgc 0.16950 0.79844 0.92389 0.89032 1

Tabla 2. Correlaciones entre distancias Euclidianas en espacios derivados en dos dimensiones.


Referencias en Tabla 1.

En coordenadas principales se trabajó tal arithmetic average clustering”), mediante el


como lo muestra el esquema 3. módulo SAHN de NTSys. El procedimiento se
indica en el esquema 4.
Concordancia entre espacios derivados me- Hartman (1988) utilizó este procedi-
diante distintos análisis aplicados a la mis- miento aunque realizó una ordenación sobre
ma matriz de datos.— Se correlacionaron las matrices de correlaciones. En este trabajo
las matrices de distancia Euclidiana obteni- se obtuvieron mejores resultados con el aná-
das a partir de espacios bidimensionales, lisis de conglomerados.
para las distintas combinaciones estudiadas,
a fin de juzgar la similitud entre las solucio- RESULTADOS
nes obtenidas (módulo MXCOMP en NTSys).
A las matrices de correlaciones obtenidas se C OMPONENTES P RINCIPALES
les aplicó análisis de conglomerados por el Se observa en la tabla 1 que el centrado
método UPGMA (“unweighted pair-group sin estandarización no permitió la identifica-
Lilloa 46 (1–2): 10–33, 2009 19

ción de los 8 grupos. La estandarización ya derivado bidimensional vs. las mismas dis-
sea por rango (todas las variables) o desvío tancias en el espacio p-dimensional original
estándar (todas las variables y sólo cuantita- con estandarización de todas las variables.
tivas) permitió una correcta identificación de La figura mencionada muestra que los espa-
grupos. La estandarización por rango sólo cios original y derivado no manifestaron una
de variables cuantitativas no resultó apro- relación lineal pero sí monótona, generándo-
piada. se una distorsión importante en distancias
La tabla 2 muestra que la correlación medias y bajas, aunque las relaciones de or-
entre los espacios euclidianos derivados a den se mantuvieron, por lo que los valores
partir de datos estandarizados por desvío de correlación entre espacios no represen-
estándar y rango presentaron un valor de tan, en este caso, un buen indicador de la
concordancia elevado (r = 0.97792) indi- calidad de las representaciones obtenidas.
cando que las ordenaciones obtenidas fueron La gran estructura de agrupamientos (dis-
muy similares cuando se estandarizó todas tancias grandes) está representada con preci-
las variables. La ordenación con estandari- sión en la figura 5. Pero aquellos puntos que
zación por rango sólo de variables cuantita- se encuentran próximos en el espacio p-di-
tivas es la que menor concordancia presentó mensional, se verán más próximos en el es-
con las demás. La relación entre espacios pacio bidimensional de lo que estaban origi-
resultó fuertemente lineal para valores de r nalmente.
> 0.9. Como ejemplo se presenta un diagra- La figura 2 muestra que al estandarizar
ma de Shepard en la figura 1. sólo las variables cuantitativas, por desvío
La figura 2 presenta una comparación estándar, la relación entre los espacios es
entre distancias Euclidianas en el espacio aproximadamente lineal por lo que las dis-

Figura 1. Diagrama de Shepard que muestra la concordancia entre la distancia Euclidiana en


espacio bidimensional obtenida por componentes principales de una matriz de correlaciones
(Ordenación 1) e igual distancia a partir de una matriz de datos estandarizados por rango (todas
las variables). r = 0.97792
20 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

tancias se recuperaron con más exactitud en que el porcentaje de varianza explicada no


2 dimensiones es, por sí mismo, un buen indicador de la ca-
Arce (2002, 2003) realizó un estudio si- lidad de las representaciones gráficas.
milar al presente sólo con variables cuanti- El análisis de los porcentajes de varianza
tativas y encontró que las relaciones entre explicada y de las figuras 4 y 5 muestra que
espacios fueron fuertemente lineales. La in- este no es un buen criterio para juzgar la
clusión de variables cualitativas codificadas, calidad de las representaciones gráficas,
tratadas como si se trataran de variables como está ampliamente recomendado en la
numéricas, seguramente está produciendo bibliografía. Las mejores ordenaciones se
este efecto de no linealidad entre espacios. obtuvieron con proporciones menores de va-
Las correlaciones entre espacios origina- rianza explicada. Se debe tener en cuenta
les y derivados en 3 dimensiones (tabla 1) que, en los datos utilizados, las variables
resultaron en todos los casos mayores que en estuvieron medidas en diferentes escalas de
2 dimensiones, ya que al ir aumentando di- medida y, por lo tanto, sus varianzas fueron
mensiones nos aproximamos cada vez más muy distintas, alterando los resultados obte-
al espacio original p-dimensional. nidos. La estandarización apareció aquí
Al analizar los porcentajes de varianza como un elemento clave a tener en cuenta al
explicados por los tres primeros autovalores realizar un análisis de componentes principa-
en la tabla 1 pudo verse que la estandariza- les. Si todas las variables hubieran estado
ción produjo una reducción importante en medidas en iguales unidades y, por lo tanto,
esos valores. Sin embargo, esto no fue un fac- sus varianzas hubieran sido similares, la
tor determinante en la identificación de los mejor ordenación habría sido la de varian-
ocho grupos en estudio. Esto está indicando za–covarianza de datos no estandarizados ya

Figura 2. Distancia Euclidiana en espacio derivado bidimensional vs. igual distancia en espacio
p-dimensional para componentes principales derivados a partir de una matriz de varianza–cova-
rianza de datos estandarizados (todas las variables) por desvío estándar. r = 0.90527.
Lilloa 46 (1–2): 10–33, 2009 21

Correlación
% Varianza Grupos
Codificación Estandarización Autovalores euc.–euc.
explicada identificados
en 2 y 3 dim.

eucne ninguna 20852.6227 72.7269 0.97882 0


3285.9533 84.1843 0.98947
1989.8586 91.1245

eucde desvío 971.3848 36.3815 0.90257 8


estándar 467.5525 53.8928 0.93862
302.4450 65.2203

eucdec desvío estándar 782.4438 40.3805 0.92172 8


sólo cuantitativas 320.6091 56.9266 0.95762
229.4570 68.7684

eucrg rango 160.9807 41.6909 0.91065 8


70.1990 59.8711 0.95244
44.1238 71.2983

eucrgc rango 572.0997 47.4834 0.90657 10


sólo cuantitativas 198.8215 63.9853 0.97570
153.8913 76.7580

Tabla 3. Autovalores, proporción de varianza explicada, correlaciones entre espacios euclidia-


nos original y derivado en 2 y 3 dimensiones y número de grupos identificados al aplicar coor-
denadas principales a matrices de distancia Euclidiana. Palabras en cursiva corresponden a la
codificación empleada en otras tablas y figuras.

que, como se observa en la tabla 1, es la presentaron configuraciones muy distintas a


condición que mejor preservó el espacio ori- las de las opciones con estandarización (r <
ginal (r’s próximos a 1). 0.62).
Esto se nota claramente en las figuras 4 y
5. La ordenación a partir de varianza-cova- C OORDENADAS P RINCIPALES
rianza de datos no estandarizados, que es la Distancia Euclidiana.— Existe dualidad en-
que mayor porcentaje de varianza explicada tre los resultados obtenidos a partir de com-
presentó, no logra separar los 8 grupos. La ponentes principales y coordenadas principa-
figura 4 muestra el efecto de la estandariza- les sobre una matriz de distancias euclidia-
ción, en la cual se identifican los 8 grupos aún nas. La comparación de las tablas 3 y 1
con menor porcentaje de varianza explicada. muestra lo mencionado. Los autovalores re-
Los árboles de distancia mínima super- sultan diferentes pero los porcentajes de va-
puestos a las ordenaciones mostraron clara- riabilidad explicada son los mismos y tam-
mente la estructura de agrupamiento de las bién las ordenaciones obtenidas. Por este
cinco poblaciones en las figuras 4 y 5 y per- motivo, todo lo enunciado en componentes
mitieron detectar las distorsiones que se pro- principales es válido para este caso.
dujeron en las posiciones relativas de algu- Las posiciones relativas de los objetos re-
nos puntos próximos. sultaron idénticas, no así sus posiciones ab-
Las estandarizaciones por desvío estándar solutas. El gráfico de ordenación estuvo rota-
y por rango (todas las variables) generaron do 180º con respecto al de componentes
ordenaciones casi idénticas (valores muy principales. No se presenta el gráfico de la
próximos a 1 en la tabla 2), al comparar los ordenación de coordenadas principales, pero
espacios derivados en dos dimensiones para sí el de disimilaridad Manhattan que fue si-
opciones con desvío estándar vs. aquéllas milar. La comparación de las figuras 5 y 7
con rango. Las opciones no estandarizadas permite verificar esta situación.
22 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

Aut. negativos Correlación


Estanda- % Varianza (autovalor manh-euc Grupos
Codificación Autovalores en 2 y 3
rización explicada más pequeño) identificados
dimensiones

manhne ninguna 77.1890 47.3160 si 0.91653 0


45.5673 75.2483 (-6.6148) 0.95017
21.8463 88.6390

manhde desvío estándar 27.7460 54.6451 si 0.94691 8


10.5028 75.3302 (-0.8935) 0.98749
5.1645 85.5015

manhdec desvío estándar 18.8519 55.1748 si 0.94022 8


sólo cuantit. 6.1158 73.0743 (-0.6585) 0.96792
3.4929 83.2973

manhrg rango 4.1112 57.9395 si 0.94963 8


1.4699 78.6547 (-0.1454) 0.98074
0.6892 88.3679

manhrgc rango 10.7183 60.3417 si 0.94909 8


sólo cuantit. 2.9134 76.7435 (-0.4959) 0.97164
1.8804 87.3297

Tabla 4. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlación entre distancia original y derivada en 2 y 3 dimensiones, correlación entre distancia
original y distancia Euclidiana derivada en 2 y 3 dimensiones y correlación entre distancia Eucli-
diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y número de grupos identi-
ficados en la representación bidimensional bajo distintas condiciones de estandarización. Pala-
bras en cursiva corresponden a la codificación empleada en otras tablas y figuras.

Disimilaridad Manhattan o City Block.— La ra autovalores negativos), y con datos no


columna 6 de la tabla 4 indica la concor- centrados. Esta medida de disimilaridad no
dancia entre el espacio euclidiano original y tolera el centrado, produciendo resultados
la disimilaridad Manhattan en el espacio p- absurdos en ese caso tal como fue estudiado
dimensional, que fue razonablemente buena por Arce (2003). La ordenación sólo pudo
(r > 0.90) para los casos con variables es- identificar 2 grupos (tabla 6). La autonor-
tandarizadas. malización incluida en este coeficiente no
La tabla 5 muestra que las correcciones fue suficiente para lograr una correcta iden-
por autovalores negativos produjeron orde- tificación de grupos, como se observa en la
naciones similares a las opciones no corregi- figura 8. La ordenación obtenida fue similar
das (r próximo a 1). En la tabla 4 se ve que a la que se obtiene cuando no se estandari-
los autovalores negativos tomaron valores zan las variables.
muy pequeños en relación a los tres primeros
valores propios positivos, razón por la cual Disimilaridad Canberra.— La disimilaridad
los efectos de la corrección son mínimos. Canberra, autonormalizada al igual que la
Las figuras 6 y 7 ponen en evidencia el disimilaridad de Bray Curtis, generó un espa-
efecto de la estandarización en la identifica- cio similar al de las variables estandarizadas.
ción de los grupos. Para la identificación de los 8 grupos fue ne-
cesario usar 3 dimensiones (figuras 9 y 10).
Disimilaridad de Bray Curtis.— Se traba- El diagrama de Shepard correspondiente
jó sólo con la transformación a raíz cuadra- no se incluye por ser muy similar a los pre-
da, que tiene propiedades métricas (no gene- sentados anteriormente.
Lilloa 46 (1–2): 10–33, 2009 23

Figura 3. Distancia Euclidiana en espacio derivado bidimensional vs. igual distancia en espacio
p-dimensional para componentes principales derivados a partir de una matriz de varianza–cova-
rianza de datos estandarizados por desvío estándar sólo para variables cuantitativas. r =
0.92172.

De nuevo las correcciones por autovalo- una medida de similaridad con una de disi-
res negativos no mostraron cambios impor- milaridad. El coeficiente de Gower generó
tantes con respecto a la ordenación sin co- un espacio similar al de las variables estan-
rrección (tabla 7). darizadas.
Los diagramas de Shepard no se incluyen
Coeficiente de similaridad de Gower.— En porque son similares a los presentados con
la tabla 8 los valores de correlación nega- anterioridad.
tivos se deben a que se está comparando Al igual que en la disimilaridad Canberra,

Figura 4. Ordenación de componentes principales obtenidos a partir de una matriz de varianza–


covarianza de datos no estandarizados.
24 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

manhde manhdec manhrg manhrgc

manhde 1
manhde_lg 0.99980
mandeh_cl 0.98490
manhdec 1
manhdec_lg 0.99883
manhdec_cl 0.99687
manhrg 1
manhrg_lg 0.99760
manrgh_cl 0.97905
manhrgc 1
manhrgc_lg 0.99962
manrghc_cl 0.99569

Tabla 5. Correlaciones entre espacios euclidianos bidimensionales obtenidos por coordenadas


principales de una matriz de disimilaridad Manhattan sobre datos estandarizados por desvío es-
tándar y rango, con y sin correcciones por autovalores negativos. Referencias en tabla 5. (lg
= corrección de Lingoes; cl = corrección de Calliez).

Figura 5. Ordenación de componentes principales obtenidos a partir de una matriz de varianza–


covarianza de datos centrados y estandarizados por desvío estándar (sólo variables cuantitativas).
Lilloa 46 (1–2): 10–33, 2009 25

Correlación
Estanda- % Varianza bray-euc Grupos
Codificación Autovalores Aut. negativos
rización explicada en 2 y 3 identificados
dimensiones

rcbray ninguna 24.7733 24.7783 no 0.85353 2


14.8198 39.5932 0.90017
9.4153 49.0084

Tabla 6. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlación entre distancia original y derivada en 2 y 3 dimensiones, correlación entre distancia
original y distancia Euclidiana derivada en 2 y 3 dimensiones y correlación entre distancia Eucli-
diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y número de grupos identi-
ficados en la representación bidimensional. Palabras en cursiva corresponden a la codificación
empleada en otras tablas y figuras. (rcbray = √ Bray Curtis).

la adición de una tercera dimensión mejoró estandarizadas, como se observa en el grupo


la representación gráfica (figuras 11 y 12). de la parte superior (desde varne hasta rc-
bray). En este grupo está incluida la disimi-
C OMPARACIÓN DE RESULTADOS laridad Bray Curtis, que pese a ser auto nor-
DE COMPONENTES PRINCIPALES malizada, generó resultados similares a los
Y COORDENADAS PRINCIPALES de opciones sin estandarizar. Todas las op-
El dendrograma (figura 13) muestra cla- ciones en este grupo fracasaron en la sepa-
ramente la poca concordancia entre configu- ración de los grupos en estudio.
raciones con variables estandarizadas y no El grupo ubicado en el sector medio (des-

Figura 6. Ordenación de coordenadas principales a partir de una matriz de disimilaridad Man-


hattan de datos no estandarizados.
26 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

Aut. negativos Correlación


Estanda- % Varianza (autovalor más can-euc Grupos
Codificación Autovalores en 2 y 3
rización explicada pequeño) identificados
dimensiones

can ninguna 2.7156 55.2353 si 0.93154 8


1.1163 77.9412 (-2.1004) 0.98410
0..5990 90.1248

canlg ninguna 2.8160 20.3312 no 0.94475 8


correc. Lingoes 1.2161 29.1157 0.97341
0.6994 34.1651

cancl ninguna 5.6082 33.0526 no 0.92897 8


correc. Calliez 2.5286 47.9553 0.98416
1.5509 57.0955

Tabla 7. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlación entre distancia original y derivada en 2 y 3 dimensiones, correlación entre distancia
original y distancia Euclidiana derivada en 2 y 3 dimensiones y correlación entre distancia Eucli-
diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y número de grupos identi-
ficados en la representación bidimensional. Palabras en cursiva corresponden a la codificación
empleada en otras tablas y figuras.

de varde hasta manhdec_cl) muestra todas las La disimilaridad Manhattan produjo re-
opciones con resultados similares y que per- sultados similares a los de distancia Euclídea.
mitieron la identificación de los 8 grupos. La autonormalización incluida en la di-

Figura 7. Ordenación de coordenadas principales a partir de una matriz de disimilaridad Man-


hattan de datos estandarizados por rango (todas las variables).
Lilloa 46 (1–2): 10–33, 2009 27

Correlación
Estanda- % Varianza Autovalores gower-euc Grupos
Codificación Autovalores en 2 y 3
rización explicada negativos identificados
dimensiones

gower ninguna 13.4788 34.5496 no –0.92484 8


6.1171 50.2294 –0.95880
4.2227 61.0532

Tabla 8. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlación entre distancia original y distancia Euclidiana derivada en 2 y 3 dimensiones y corre-
lación entre distancia Euclidiana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y
número de grupos identificados en la representación bidimensional. Palabras en cursiva corres-
ponden a la codificación empleada en otras tablas y figuras.

similaridad Canberra resultó equivalente a la originada por la opción sin corrección.


las estandarizaciones realizadas en otros Pero se debe destacar que en los casos estu-
coeficientes. diados los valores propios negativos resulta-
El coeficiente de similaridad de Gower, ron muy próximos a 0 o con valores absolu-
diseñado específicamente para variables tos muy pequeños en relación a los tres pri-
mixtas, produjo ordenaciones similares a las meros con valores positivos
de otros coeficientes con estandarización. En el grupo inferior (desde vardec hasta
Se observa que las dos técnicas de co- eucrgc) se encuentran las opciones con estan-
rrección por autovalores negativos genera- darización solo de variables cuantitativas. Al
ron ordenaciones casi idénticas entre sí y a aparecer juntas en el dendrograma indica

Figura 8. Ordenación de coordenadas principales a partir de una matriz de disimilaridad Bray


Curtis.
28 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

Figura 9. Ordenación de coordenadas principales, en 2 dimensiones, a partir de una matriz de


disimilaridad Canberra.

Figura 10. Ordenación de coordenadas principales, en 3 dimensiones, a partir de una matriz


de disimilaridad Canberra.
Lilloa 46 (1–2): 10–33, 2009 29

Figura 11. Ordenación de coordenadas principales, en 2 dimensiones, a partir de una matriz


de coeficiente de Gower.

Figura 12. Ordenación de coordenadas principales, en 3 dimensiones, a partir de una matriz


de coeficiente de Gower.
30 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

Figura 13. Análisis de agrupamientos por ligamiento promedio realizado para la matriz de
correlaciones entre los espacios euclidianos derivados bidimensionales para todos los coeficien-
tes, estandarizaciones y las dos técnicas en estudio. Referencias en tablas 1, 3, 4, 6, 7 y 8.

que fueron similares, sin embargo como se variables cuantitativas, en el caso de compo-
vio anteriormente la estandarización por nentes principales, o por variables binarias,
rango solo de variables cuantitativas condujo categóricas multiestado o cuantitativas en el
a una sobreidentificación de grupos. caso de coordenadas principales.
También se observa la dualidad de com- Numerosos trabajos de aplicación de es-
ponentes principales y coordenadas principa- tas técnicas pueden encontrarse en la litera-
les con distancia Euclidiana. tura científica (Hartmann, 1988; Pimentel,
1981; Thorpe, 1980; Crisci y López Armen-
DISCUSIÓN gol, 1983; Sneath y Sokal, 1973; Moss,
1968). En la mayoría de ellos se aplican las
La mayoría de la bibliografía referida a técnicas multivariadas sin tener en cuenta la
análisis estadístico multivariado presenta las naturaleza mixta de los datos. La interpreta-
dos técnicas mencionadas para situaciones ción de los ejes, en este caso, resulta poco
de aplicación en las que se dispone de varia- clara ya que las correlaciones entre varia-
bles de un solo tipo (Peña, 2002; Hair et al., bles numéricas y categóricas codificadas o
1999; Gnanadesikan, 1997; Jobson, 1992; entre los códigos numéricos de las variables
Johnson y Wichern, 1992; Jolliffe, 1986; categóricas carecen de sentido.
Anderson, 1984; Dillon y Goldstein, 1984; Con respecto a la rotación en 180º de las
Seber, 1984; Karson, 1982; Mardia et al., ordenaciones de componentes principales y
1979; Morrison, 1967). Se asume que la coordenadas principales, Legendre y Legen-
matriz básica de datos está constituida por dre (1998) dicen lo siguiente; “las elecciones
Lilloa 46 (1–2): 10–33, 2009 31

de signos de los autovectores son arbitrarias resuelto computacionalmente por Legendre y


durante la ejecución de los algoritmos de Anderson (1998). No se encontró un efecto
computadora”. Por lo tanto, esta rotación no importante de las correcciones porque el va-
es una característica propia de la técnica lor absoluto de los autovalores negativos re-
sino del algoritmo incluido en el paquete con sultó muy pequeño en relación a los prime-
el que se está trabajando En el caso de ros tres autovalores positivos. Pero se trabajó
NTSys la multiplicación de los dos primeros empíricamente con un solo conjunto de da-
autovectores de coordenadas principales por tos. Esto no necesariamente será siempre así
(-1) generará ordenaciones con posiciones por lo que debería verificarse el efecto de las
similares a las de componentes principales. correcciones siempre que se obtienen auto-
En este trabajo se pretendió comparar las valores negativos
ordenaciones obtenidas usando el coeficien- Se intentó presentar una metodología
te de Gower, apropiado para variables mix- que incluyera varias técnicas para juzgar
tas, y evaluar la robustez de las técnicas de ordenaciones. Se observó en los resultados
componentes principales y coordenadas prin- que el uso de la más usada (porcentaje de
cipales cuando se aplican coeficientes que varianza explicada) no es suficiente por sí
no son apropiados para matrices con varia- misma y que incluso puede conducir a le
bles de distintos tipos. elección de una ordenación inapropiada.
El uso de los diagramas de Shepard (Mc- El uso del coeficiente de Gower debiera
Cune y Grace, 2002; Gnanadesikan, 1997; extenderse. Se ha visto empíricamente en
Everitt y Dunn, 1991; Legendre, 1998; Krus- este trabajo, que su uso en la matriz de da-
kal, 1964) resultó muy útil para evaluar las tos de Echinochloa resultó satisfactorio. Pi-
relaciones entre espacios originales y deriva- mentel (1981) y Bramardi (2000) mencionan
dos, ya que permitieron observar el tipo, di- también su efectividad en este tipo de matri-
rección y magnitud de las distorsiones obte- ces. Este coeficiente no se encuentra como
nidas. Estas relaciones son lineales cuando una alternativa disponible en el software de
se trabaja con variables cuantitativas sola- uso común. En NTSys no está incluido pero
mente (Arce y Santillán, 2002; Arce, 2003) se lo puede calcular de manera sencilla
Es posible que la inclusión de variables no usando las operaciones de matrices inclui-
numéricas codificadas haya producido las das en el módulo TRANSF. Recientemente ha
relaciones no lineales observadas entre los sido incluido en el paquete “cluster” de R (R
espacios original y derivados. Por este moti- Development Core Team, 2009), mediante el
vo cabe esperar mayores distorsiones al tra- procedimiento DAISY (Kaufman y Rous-
bajar con datos mixtos que cuando sólo se seeuw, 1990).
utilizan variables cuantitativas. En los traba- También se observó que el uso de com-
jos mencionados con anterioridad no se hace ponentes principales y coordenadas principa-
mención a este efecto de no linealidad. La les, al ser empleados sin considerar la natu-
inclusión en NTSys de estos gráficos resulta raleza mixta de las variables, presentó ro-
muy apropiada, como así también el cálculo bustez, es decir, ordenaciones apropiadas.
de correlación entre matrices. Pero en este caso se trabajó con una sola
La superposición de árboles de recorrido matriz de datos por lo que los resultados
mínimo a las ordenaciones (Gower y Ross, obtenidos no deberían generalizarse para
1969) resultó muy útil para detectar distor- toda matriz de datos mixtos.
siones en la representación de los puntos en
el espacio de dimensión reducida. Bramardi CONCLUSIONES
(2000) también analiza en su trabajo la uti-
lidad de esta herramienta de evaluación de En la matriz de datos estudiada se cono-
ordenaciones en este sentido. cía la estructura de agrupamientos con ante-
El efecto de la autovalores negativos ha rioridad a su análisis estadístico, es decir, el
sido tratado por Gower y Legendre (1986) y modelo taxonómico era conocido. La utili-
32 O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica

zación de ambas técnicas, bajo diferentes de Ciencias Económicas, Universidad Nacional de


condiciones de aplicación, permitió verificar Tucumán, 149 pp.
Bramardi, S. 2000. Estrategias para el análisis de
si el modelo taxonómico conocido podía ser datos en la caracterización de recursos fitoge-
reproducido o no en espacios de dimensión néticos. Tesis doctoral. Valencia, Universidad
reducida. El número de grupos identificados Politécnica, 390 pp.
en algunos casos fue nulo, en otros fue el Cailliez, F. 1983. The analytical solution of the additive
correcto y en unos pocos resultó menor que constant problem. Psychometrika, 48: 305-308.
Crisci, J. y M. F. López Armengol. 1983. Introducción
el número original. Esto indica que algunas a la teoría y práctica de la taxonomía numérica.
condiciones de aplicación pueden llevar al Monografía Nº 26. Washington, Organización de
investigador a obtener conclusiones taxonó- Estados Americanos, 132 pp.
micas erróneas. De La Sota, E. 1982. La taxonomía y la revolución en
Excepto en los casos especiales de duali- las ciencias biológicas. Monografía Nº 3. Was-
hington, Organización de Estados Americanos,
dad mencionados, el análisis de componen- 86 pp.
tes principales no tiene una relación directa De Marco, N. 2006. Echinochloa. En A. Molina y Z.
con el de coordenadas principales. R. de Agrasar (editores). Colección científica del
El análisis de las dos técnicas mostró que INTA 23. INTA, Buenos Aires, pp. 493-510.
ambas son robustas, ya que en la mayoría De Marco, N. 2002. Estudio sistemático y fitogeográ-
fico de las especies del género Echinochloa
de los casos produjeron resultados muy simi- (Poaceaea: Panicoideae: Paniceae) para la Argen-
lares y concordantes con el modelo taxonó- tina. Tesis doctoral. Tucumán, Facultad de Agro-
mico conocido. nomía y Zootecnia, Universidad Nacional de Tu-
La condición fundamental para obtener cumán, 178 pp.
ordenaciones que reprodujeron el modelo Dillon, W y M. Goldstein. 1984. Multivariate analysis.
Methods and applications. New York, Wiley, 287 pp.
taxonómico original fue la estandarización Everitt, B. y G. Dunn. 1991. Applied multivariate data
de los datos y no la selección de coeficientes analysis. London, Arnold, 304 pp.
determinados. Gnanadesikan, R. 1997. Methods for statistical data
No debiera utilizarse componentes princi- analysis of multivariate observations. 2 nd edi-
pales con datos de naturaleza mixta debido a tion. New York, Wiley, 353 pp.
Gower, J. 1966. Some distance properties of latent
la no linealidad que se genera entre los espa- roots and vector methods used in multivariate
cios original y derivado, que produce distor- analysis. Biometrika, 53: 325-338.
siones en la representación bidimensional. Gower, J. 1971. A general coefficient of similarity and
Se observó que coordenadas principales some of its properties. Biometrics, 27: 857-74.
fue capaz de forzar un modelo euclidiano a Gower, J. 1985. Measures of similarity, dissimilarity
and distance. Encyclopedia of statistical sciences,
una matriz cualquiera de disimilaridades o 5: 397-405.
similaridades, lo que indicaría que se puede Gower, J. y N. Digby. 1981. Expressing complex rela-
aplicar a cualquier tipo de datos usando tionships in two dimensions. En V. Barnett (edi-
medidas de di/similaridad apropiadas. El tor). Interpreting multivariate data . Wiley, UK,
coeficiente de Gower surge como una alter- pp 83-118.
Gower, J. y P. Legendre. 1986. Metric and euclidean
nativa interesante. properties of dissimilarity coefficients. Journal of
Classification, 3: 5-48.
Gower, J. y G. Ross. 1969. Minimum spanning trees
BIBLIOGRAFÍA and single linkage cluster analysis. Applied sta-
tistics, 18: 54-64.
Anderson, T. 1984. An introduction to multivariate
Hair, J., R. Anderson, R. Tatham y W. Black. 1999.
statistical analysis. 3 rd edition. New York, Wiley,
Análisis multivariante. 5ª edición. Madrid, Pren-
752 pp.
tice Hall Iberia, 799 pp.
Arce, O y M. Santillán. 2002. A comparative study of
Hartman, S. 1988. Evaluation of some alternative
two ordination techniques based on simulated
procedures used in numerical systematic. Syste-
multivariate normal data. Biocell, 26 (1): 159.
matic zoology, 37 (1): 1-18.
Arce, O. 2003. Componentes principales y coordena-
Jobson, J. 1992. Applied multivariate data analysis.
das principales: estudio comparativo con aplica-
Volume II: Categorical and multivariate methods.
ciones a la taxonomía numérica. Tesis de Maes-
New York, Springer-Verlag, 768 pp.
tría en Estadística Aplicada. Tucumán, Facultad
Lilloa 46 (1–2): 10–33, 2009 33

Johnson, R y W. Wichern.1992. Applied multivariate PimenteL, R. 1981. A comparative study of data and
statistical analysis. 3 rd edition. New Jersey, ordination techniques based on a hybrid swarm
Prentice Hall, 642 pp. of sand verbenas (Abronia Juss.). Systematic
Jolliffe, I. 1986. Principal component analysis. Heidel- zoology, 30 (3): 250-267.
berg, Springer-Verlag, 271 pp. R Development Core Team. 2009. R: A language and
Karson, M. 1982. Multivariate statistical methods. An environment for statistical computing. R Founda-
introduction. Iowa, Iowa State University Press, tion for Statistical Computing, Vienna, Austria.
307 pp. ISBN 3-900051-07-0, URL http://www.R-
Kaufman, L y P. Rousseeuw. 1990. Finding groups in project.org (consultado el 21 de octubre de
data. An introduction to cluster analysis. New 2009).
York, Wiley-Interscience, 342 pp. Rohlf, F. 1972. And empirical comparison of three
Kruskal, J. 1964. Multidimensional scaling by optimi- ordination techniques in numerical taxonomy.
zing goodness of fit to a nonmetric hypothesis. Systematic zoology, 21 (3): 271-280.
Psychometrika, 29 (1): 1-27. Rohlf, F. 1990. Numerical taxonomy system of multi-
Legendre, P. y J. Anderson. 1998. Program DistPCoA. variate statistical programs. Version 1.8. New
User’s manual. Montreal: Université de Montre- York: State University at Stony Brook.
al, Département de Sciences Biologiques. http:/ Rohlf, F., 2009. Numerical taxonomy system of mul-
/www.bio.umontreal.ca/casgrain/en/telechar- tivariate statistical programs. Getting started
ger/index.html#DistPCoA (consultado el 21 de guide. Version 2.2. New York: State University at
octubre de 2009). Stony Brook, 43 pp.
Legendre, P. y L. Legendre. 1998. Numerical ecology. Seber, G. 1984. Multivariate observations. New York,
2 nd Edition. Amsterdam, Elsevier, 853 pp. Wiley and Sons, 686 pp.
Lingoes, J.C. 1971. Some boundary conditions for a Sneath, P. y R. Sokal. 1973. Numerical taxonomy. The
monotone analysis of symmetric matrices. Psy- principles and practice of numerical classifica-
chometrika, 36: 195-203. tion. San Francisco, Freeman, 573 pp.
McCune, B y Grace, J. 2002. Analysis of ecological Thorpe, R. 1980. A comparative study of ordination
communities. Oregon, MJM, 300 pp. techniques in numerical taxonomy in relation to
Mardia, K., J. Kent y J. Bibby. 1979. Multivariate racial variation in the ringed snake Natrix natrix
analysis. London: Academic Press, 521 pp. (L.). Biological journal of the Linnean Society, 13:
Morrison, D. 1967. Multivariate statistical methods. 7-40.
New York, McGraw Hill, 409 pp. Zuloaga, F. O., E. G. Nicora, Z. E. Rúgolo de Agrasar,
Moss, W. 1968. Experiments with various techniques O. Morrone, J. Pensiero y A. M. Cialdella.
of numerical taxonomy. Systematic Zoology, 17 1994. Catálogo de la Familia Poaceae en la
(1): 31-47. República Argentina. Monographs in Systematic
Peña, D. 2002. Análisis de datos multivariantes. Botany. Missouri Botanical Garden, 47: 1-178.
Madrid, MacGraw Hill Interamericana de España,
539 pp.

Вам также может понравиться