6-Analisis Multivariante

Analisis multivariante
Luis Cayuela
Septiembre de 2011
Area
de Biodiversidad y Conservacion, Universidad Rey Juan Carlos,
Departamental 1 DI. 231, c/ Tulipan s/n. E-28933 Mostoles (Madrid),
Espa
na. E-mail: luis.cayuela@urjc.es.
An
alisis multivariante (versi
on 1.1)
Publicado por: Luis Cayuela
Se autoriza a cualquier persona a utilizar, copiar, distribuir y modificar esta

obra con las siguientes condiciones: (1) que se reconozca la autora de la misma;
(2) que no se utilice con fines comerciales; y (3) que si se altera la obra original,
el trabajo resultante sea distribuido bajo una licencia similar a esta.
Para cualquier comentario o sugerencia por favor remitirse al autor de la obra.
Indice
1. Introducci
on
2. An
alisis de componentes principales (PCA)
2.1. Ejemplo: Modelando la riqueza de plantas exoticas en Reino Unido

a partir del clima . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. An
alisis de la varianza multivariado (MANOVA)
3.1. Ejemplo: Que variables determinan la composicion florstica en
bosques tropicales montanos? . . . . . . . . . . . . . . . . . . . .
4. Escalamiento multidimensional no m
etrico (NMDS)
4.1. Ejemplo: Gradientes de composicion florstica en bosques tropicales montanos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. An
alisis de correspondencias can
onico (CCA)
5.1. Ejemplo: C
omo se relaciona la estructura de comunidades de
plantas con las variables ambientales? . . . . . . . . . . . . . . .
5
12
13
15
16
22
23
6. M
as ejemplos
25
7. Referencias
25
Luis Cayuela
1.
Introducci
on
En un sentido amplio, el an
alisis multivariante hace referencia a cualquier
metodo estadstico que analice simultaneamente m
ultiples caractersticas en
cada uno de los individuos o muestras objeto de la investigacion. Una de las
dificultades en definir que es el analisis multivariante reside en el hecho de que
el termino multivariante (o multivariado) no ha sido usado de manera
consistente en la literatura. Algunos investigadores usan el termino
multivariado simplemente para referirse a las relaciones existentes entre mas
de dos variables. Sin embargo, para que un analisis sea considerado
verdaderamente multivariante, todas las variables deben de ser aleatorias y
deben de estar interrelacionadas de tal manera que los diferentes efectos no
puedan ser interpretados significativamente de manera independiente. Por
ejemplo, si queremos ver el efecto de una variable ambiental sobre las
diferentes especies de peces que hay en un ro, tiene sentido considerar todas
las abundancias de cada una de las especies en su conjunto y no la abundancia
de cada una de las especies por separado, ya que las diferentes especies se
interrelacionan entre s por medio de interacciones bioticas (competencia por
recursos, predaci
on, etc) y es difcil de separar estos efectos de los efectos
puramente ambientales.
Podemos considerar como tecnicas multivariantes, entre otras:
An
alisis de componentes principales
An
alisis discriminante
An
alisis cluster (tecnica de agrupacion)
An
alisis de correspondencias
Escalamiento multidimensional
An
alisis de correspondencias canonico
Modelo de ecuaciones estructurales (an
alisis causal)
An
alisis de la varianza multivariado (incluyendo la regresion
multivariada)
En esta sesi
on veremos algunas de ellas, prestando especial atencion al analisis
de comunidades biol
ogicas.
2.
An
alisis de componentes principales (PCA)
El an
alisis de componentes principales (PCA) es una tecnica estadstica de
sntesis de la informaci
on, o reduccion de la dimension (n
umero de variables).
Es decir, ante un banco de datos con muchas variables, el objetivo sera
reducirlas a un menor n
umero perdiendo la menor cantidad de informacion
posible. Los nuevos componentes principales o factores seran una combinacion
lineal de las variables originales, y ademas seran independientes entre s.
4
Luis Cayuela
Un aspecto clave en PCA es la interpretacion de los factores, ya que esta no

viene dada a priori, sino que sera deducida tras observar la relacion de los
factores con las variables iniciales (habra, pues, que estudiar tanto el signo
como la magnitud de las correlaciones). Esto no siempre es facil, y sera de
vital importancia el conocimiento que el experto tenga sobre la materia de
investigaci
on.
Fases de un an
alisis de componentes principales:
1. An
alisis de la matriz de correlaciones. Un analisis de componentes
principales tiene sentido si existen altas correlaciones entre las variables,
ya que esto es indicativo de que existe informacion redundante y, por
tanto, pocos factores explicaran gran parte de la variabilidad total.
2. Selecci
on de los factores. La eleccion de los factores se realiza de tal
forma que el primero recoja la mayor proporcion posible de la
variabilidad original; el segundo factor debe recoger la maxima
variabilidad posible no recogida por el primero, y as sucesivamente. Del
total de factores se elegiran aquellos que recojan el porcentaje de
variabilidad que se considere suficiente. A estos se les denominara
componentes principales. Esta decision puede ser mas o menos arbitraria
(p.e. que capturen el 80 % de la variabilidad de los datos) o estar basada
en criterios estadsticos. El paquete nFactors ofrece una serie de funciones
para la selecci
on de factores (ver
http://www.statmethods.net/advstats/factor.html).
3. An
alisis de la matriz factorial. Una vez seleccionados los componentes
principales, se representan en forma de matriz. Cada elemento de esta
representa los coeficientes factoriales de las variables (las correlaciones
entre las variables y los componentes principales). La matriz tendra
tantas columnas como componentes principales y tantas filas como
variables.
4. Interpretaci
on de los factores. Para que un factor sea facilmente
interpretable debe tener las siguientes caractersticas, que son difciles de
conseguir:
- Los coeficientes factoriales deben ser proximos a 1.
- Una variable debe tener coeficientes elevados solo con un factor.
- No deben existir factores con coeficientes similares.
5. C
alculo de las puntuaciones factoriales. Son las puntuaciones que tienen
los componentes principales para cada caso, que nos permitiran su
an
alisis posterior y su representacion grafica.
2.1.
Ejemplo: Modelando la riqueza de plantas ex

oticas
1
en Reino Unido a partir del clima
En este ejemplo queremos modelar la riqueza de especies exoticas en el Reino

Unido utilizando variables climaticas. Para ello se ha dividido todo el Reino
1 Datos cedidos por Fabio Suzart, Universidad de Alcal
a. Estos datos no pueden ser usados
para otros fines que no sean docentes sin permiso del autor.
Luis Cayuela
Unido en celdas de 10 x 10 kms y se han utilizado los registros de colecciones

bot
anicas para contar el n
umero de especies exoticas. Las variables climaticas
se han extraido del WorldClim (http://www.worldclim.org/).
Los datos est
an accesibles en la siguiente direccion
http://tinyurl.com/yan3b9j. Vamos a leer los datos directamente de la
direcci
on web con la funci
on url().
> clima <- read.table("http://tinyurl.com/exoticas", header = T,
+
sep = "\t")
> str(clima)
'data.frame':
2243 obs. of 13 variables:
$ Alien
: int 23 32 25 46 35 89 38 46 40 4 ...
$ Mean.Temperature
: num 6.86 7.39 5.3 7.71 7.39 ...
$ Mean.Jan.Temperature: num 3.27 3.46 2.29 3.31 2.91 ...
$ Rango.de.temperatura: num 4.84 6 3.98 6.46 6.53 ...
$ PET
: num 518 600 592 607 601 ...
$ Min.pET
: num 8.44 13.89 12.98 12.7 11.82 ...
$ Max.pET
: num 89.9 101.8 101.5 105.4 105.5 ...
$ Insolation
: num 2.79 2.8 3.04 3.28 3.2 ...
$ Growth.Season
: num 282 291 205 275 263 ...
$ AET
: num 459 484 434 459 451 ...
$ Water.Defcit
: num 58.4 115.6 158 148.8 150.4 ...
$ Precipitation
: num 1392 1605 855 959 958 ...
$ Rainfall
: num 1392 1605 855 959 958 ...
La primera variable sera la variable respuesta en nuestro modelo y el resto de
variables seran variables explicativas. Sin embargo, al ser todas las variables
explicativas variables clim
aticas es muy posible que haya mucha colinealidad
(es decir, correlaci
on entre variables), lo que hara cualquier modelo estadstico
basado en dichas variables muy inestable. Vamos a ver si realmente existe
correlaci
on entre las variables explicativas con la funcion cor() y/o pairs().
> pairs(clima[, -1])
As que vemos que realmente existe mucha correlacion entre las variables
explicativas. Una soluci
on a este problema sera utilizar analisis de
componentes principales para reducir la dimensionalidad de los datos y luego
utilizar los factores principales que nos resumen los datos para modelar la
riqueza de especies ex
oticas. Para ello podemos utilizar varias funciones, como
prcomp(), princomp() o factanal(). El paquete psych tiene otras funciones
relacionadas con el an
alisis de componentes principales como los PCA
jer
arquicos.
> pca1 <- prcomp(clima[, -1], scale = T)
> summary(pca1)
Luis Cayuela
Importance of components:
PC1
PC2
PC3
PC4
PC5
PC6
PC7
Standard deviation
2.6437 1.7183 0.98154 0.71722 0.47717 0.39998 0.35721
Proportion of Variance 0.5824 0.2461 0.08028 0.04287 0.01897 0.01333 0.01063
Cumulative Proportion 0.5824 0.8285 0.90876 0.95162 0.97060 0.98393 0.99456
PC8
PC9
PC10
PC11
PC12
Standard deviation
0.20319 0.12922 0.08389 0.01386 0.007336
Proportion of Variance 0.00344 0.00139 0.00059 0.00002 0.000000
Cumulative Proportion 0.99800 0.99939 0.99998 1.00000 1.000000
Como podemos ver, los dos primeros factores recogen cerca del 83 % de la
variabilidad de las variables climaticas utilizadas. Tomaremos estos dos
componentes para representar la variabilidad en el clima. Ahora es importante
interpretar que significan estos componentes principales. Para ello podemos
utilizar la matriz de correlaci
on de las variables climaticas con los factores.
> pca1$rotation[, 1:2]
PC1
PC2
Mean.Temperature
0.34852153 -0.16985773
Mean.Jan.Temperature 0.30722684 -0.31362840
Rango.de.temperatura 0.21576733 0.13711343
PET
0.35433070 -0.09847938
Min.pET
0.27654607 -0.28400149
Max.pET
0.31976844 0.21453683
Insolation
0.33246966 -0.05442222
Growth.Season
0.32063663 -0.26539819
AET
-0.01362093 -0.54991427
Water.Defcit
0.23318824 0.40121923
Precipitation
-0.28774698 -0.30042944
Rainfall
-0.28741001 -0.30094185
Tambien es conveniente dibujar los componentes seleccionados del PCA en un
gr
afico. Para ello utilizaremos la funcion biplot().
2237
2243
0.6
0.8
0.6
0.4
2232
2234
1191
0.2
1883
1102
1881
2167
1482
1606
2189
914
1521
1654
761
2231
807
0.0
2197
2195
2194
AET
2131
2107
2064
1886
2138
1106
1338
1304
1907
1531
659
636
637
798
731
479
102
631
900
377
28
113
83
39
664
79
730
708
618
52
2125
2162
2178
2052
968
2091
2193
1942
2151
2132
2192
2093
1255
2142
2242
2196
2127
931
2163
674
787
2164
2170
2126
2128
1941
2092
2130
986
2169
1788
1024
1909
2172
1910
2114
838
2141
629
872
741
1778
1163
763
762
1787
518
1131
1064
2176
609
2209
1025
1610
1008
765
1065
1254
791
1063
1043
1331
951
1979
933
1062
632
2134
2135
896
770
1026
1005
695
1943
952
1259
915
2113
1853
1085
717
570
987
1006
823
1009
768
747
1980
549
2143
790
2175
1702
2153
2112
654
2119
2095
1195
1045
1044
1911
1080
2105
2007
1747
1821
1060
2225
2235
2148
1567
1084
2115
2103
1854
1082
585
990
971
1822
1041
2140
1940
493
675
988
1369
969
610
953
569
565
529
1446
2109
2118
2021
1083
1132
2070
2020
2108
2106
2068
1066
1046
1976
991
1977
2061
1086
2075
2099
769
590
1611
1656
1789
1748
2054
2100
2145
745
528
2096
2022
1704
2005
1010
1791
2055
2066
1110
1561
12
826
2019
1049
2071
1407
2097
2078
1108
2079
1104
2062
2146
2065
2117
750
655
676
530
701
571
56
746
656
633
1047
682
723
1048
721
1568
495
2031
1887
1262
2032
2067
1139
1823
2018
2060
722
591
842
725
824
1657
494
972
748
749
751
1751
811
2036
1167
475
728
1230
1199
2039
1792
2073
724
934
611
510
1164
2081
2037
1332
1111
1982
592
879
1296
1526
1409
1408
2056
2029
1969
1913
1888
2026
2057
1228
785
1171
1165
773
1944
2035
2043
1749
1528
774
1028
34
974
738
2033
1752
1013
1994
2024
1297
1197
1990
1134
1750
2028
1141
634
512
794
1136
2025
2040
1133
1200
703
788
1229
1029
992
1949
531
1030
812
1989
752
1614
1115
994
1958
1168
1137
13
825
1012
657
973
1140
1794
2034
1170
1793
2003
1333
1177
796
726
860
1950
1824
1966
1198
1985
2042
1951
1706
1142
1987
1992
1615
1457
795
809
1918
1570
1919
1986
1917
1263
1959
1965
1754
1231
2041
993
1995
1889
459
680
1983
1945
1173
1705
1991
1993
1957
1488
1795
1929
1144
1206
1952
704
705
727
729
1486
1112
1703
1659
702
843
1928
1410
1988
1984
1449
1755
572
532
1708
476
1613
775
827
122
66
1174
975
1114
1089
1447
1997
1916
1968
1489
1529
1933
593
950
1571
1575
1448
1175
612
533
932
1069
1176
1209
401
460
496
1166
1203
1298
1914
1619
1825
1890
1903
1707
1927
1920
1450
1661
1960
1014
1496
1202
1924
1210
1205
1947
1453
1964
1146
1955
1921
1956
1946
955
1113
1456
1201
1803
497
813
2000
1953
1711
1998
1915
1999
1891
707
957
1236
995
1892
753
1207
954
1178
715
1371
14
1208
1569
976
1232
1932
1237
38
658
635
797
26
1533
1884
1934
1239
1418
776
1487
956
442
1238
461
551
910
1145
1930
1709
1372
1712
1756
1937
958
1233
2001
1963
1804
1270
1493
1264
1373
1050
1662
940
1896
1451
1492
1663
1894
1413
996
1240
1574
1241
1455
1893
1235
1922
1417
1414
1710
1908
1495
1572
1532
939
1527
1268
1452
1266
15
500
814
235
754
552
515
1491
1490
1269
1267
148
871
534
1299
1454
1265
1458
1765
1494
1757
484
1713
1857
162
17
920
553
1898
1412
1341
1242
1900
1411
1375
921
1800
1303
1326
1271
1618
1497
1814
477
828
777
120
499
686
638
70
714
614
119
890
16
1301
1116
837
410
1288
18
889
480
1758
1004
1284
498
1180
922
584
80
61
32
44
1459
482
1322
31
615
907
906
755
30
40
19
554
594
756
481
319
135
176
462
273
844
616
732
27
799
870
200
444
211
2006
1306
428
1340
861
297
556
424
1002
465
929
983
759
463
964
909
772
144
147
665
883
643
713
735
146
186
445
778
965
687
29
94
908
573
925
225
771
793
693
249
864
887
340
409
141
692
161
902
116
671
65
888
74
555
863
562
650
427
296
163
801
620
905
175
582
363
171
145
172
387
820
806
1885
2171
2094
2133
1007
792
2053
2173
2136
2149
2174
2152
2014
1939
2104
2110
2137
2015
1023
1081
1912
1042
1061
1105
2144
2069
1733
2111
317
403
423
71
561
318
576
2072
2077
2101
2082
2030
513
2063
2076
2116
2059
1109
2139
2017
2074
2102
2016
1138
1107
550
2080
2023
1660
2004
2038
1370
1855
2208
862
164
617
709
379
690
598
402
710
361
688
670
355
21
380
193
62
64
55
829
362
42
597
1948
1172
1996
1090
2002
1169
1753
1967
1961
1530
1204
1936
1664
1334
1234
1902
1962
1620
187
408
802
140
1901
1899
1796
1897
1805
1925
1665
1802
1895
1289
1806
1022
1415
1668
1616
1808
1015
1376
1305
1179
1273
1576
1534
1379
1211
1335
1272
1212
1339
1337
1377
1031
1070
2177
1498
1378
1302
1243
1573
1157
1021
1666
1126
1807
1621
1536
1038
1766
1416
1667
1560
1617
1535
1325
1797
1419
1759
1764
1715
1374
1125
1300
1321
1287
1308
985
535
483
736
539
1336
1669
1307
1799
1059
1319
1767
1380
760
1156
536
2154
805
1363
1760
1364
1622
1360
1722
1032
1091
1577
1801
1190
1714
1359
1361
1768
1798
1645
959
967
1286
782
1285
1274
1147
448
948
1342
1499
1623
1578
1324
997
1905
1362
1100
1346
1309
1051
1538
1460
1213
1719
1275
1323
1721
1624
1537
1676
1541
1671
1092
1400
1057
1672
1079
1099
1627
1058
1420
1398
118
1016
1320
1628
926
944
1828
1626
978
1583
1124
1716
1397
1421
1033
1343
804
Growth.Season
Min.pET
Mean.Jan.Temperature
1809
1003
1244
1675
1826
1539
1520
1720
1037
1403
1723
1399
1810
1858
1401
1358
1052
1181
1906
1540
1629
1763
1402
1117
1859
1345
947
821
943
886
869
1670
941
1501
1344
1381
1078
1502
963
945
822
1098
1463
1584
1582
960
1724
1384
1673
1500
903
1439
982
198
923
1860
1071
1076
1674
1221
1461
942
1097
1036
1034
1148
1542
1438
1581
1762
1811
1189
1625
1053
1437
1761
1462
1503
1072
1543
1677
1077
1587
1631
1423
1769
865
924
1725
464
1827
781
1481
1478
980
1276
984
1579
1020
1477
1601
1056
557
447
966
160
174
711
800
41
577
339
833
173
364
605
998
946
407
224
849
134
295
425
386
1396
1017
1096
981
1441
1476
1440
1422
1310
1357
1383
138
1464
1424
1385
904
1001
962
538
1382
1155
1387
117
404
733
142
583
53
757
558
648
575
143
92
834
581
406
621
139
195
712
133
619
63
223
199
405
93
248
758
184
115
579
197
185
578
734
169
691
668
601
82
649
103
644
667
1425
885
779
850
603
1311
1348
604
819
384
666
272
196
647
170
293
1473
1509
1352
104
602
1512
1355
1281
1216
1316
1593
1684
1390
1505
1732
1640
1506
426
596
626
595
381
848
385
168
294
247
646
72
1429
1470
1549
1510
1430
1391
1591
73
559
246
81
1432
1433
1282
1353
891
1471
1830
645
194
383
600
20
580
1862
165
1838
1839
1837
221
270
269
1865
1864
274
1863
356
1842
121
1630
0.2
1644
1770
1681
1442
979
1019
1000
1035
1514
1122
2180
1054
1554
1678
1600
1214
1585
1586
1515
1680
1251
1774
1149
1718
2044
1075
999
1388
1504
1594
1314
868
1182
1595
1123
1313
852
1312
1479
1679
1771
1248
1185
1475
1544
1726
1278
1688
1018
1559
1386
1682
1596
1187
927
780
1153
1555
1643
1517
1283
1518
1280
1073
1118
1513
1055
446
625
1717
1516
1279
1347
1812
1389
1436
1727
1829
136
1350
1349
835
1184
1183
624
1094
836
1249
1557
137
1730
1119
1558
1150
1356
1217
1093
1435
1151
1772
1154
1545
1095
1465
1218
1552
1546
1395
1152
1773
1861
928
1135
1729
1426
1186
1519
1637
1351
1480
1632
1121
1728
1315
1120
1556
1466
1219
1220
1245
1474
1638
1683
1597
1074
1427
1731
1277
1434
1215
1687
1598
1550
1508
1318
1685
1633
1250
1247
1589
1428
1639
1588
1246
1634
1641
1392
1354
1642
622
1592
1472
1393
1317
1468
867
851
1469
1635
1511
1394
1551
1507
1548
1636
1467
1547
623
1866
1686
1431
1590
1869
245
1290
191
466
250
222
1856
220
166
271
341
33
694
930
1870
1868
1840
1867
1841
1873
1831
1874
1871
1832
330
845
336
808
1935
1938
219
949
1158
429
1872
1833
1813
1599
866
167
192
1553
961
884
1580
1188
537
560
628
642
847
382
360
244
189
213
359
1844
1836
1040
1252
1602
358
1101
331
241
215
606
627
1834
286
365
1845
217
1877
267
357
853
1846
1835
1879
1876
218
239
268
214
242
240
1847
1878
285
243
105
262
292
263
1848
291
190
1849
290
216
2150
2179
1775
Water.Defcit
289
1975
> lm.exoticas <- lm(clima$Alien ~ pca1$x[, 1:2])

2

1875
1843
188
1926
1904
1923
1039
516
1954
1931
783
737
803
901
574
43
882
54
284
287
514
2027
2058
1658
388
338
818
669
212
2147
2098
810
1978
1790
672
443
689
114
333
45
673
651
1880
517
2161
1850
789
1368
1485
916
69
183
2190
2168
786
2045
1815
2155
1127
911
2191
1882
1817
2089
764
509
744
2086
548
568
508
2123
2129
895
1701
1027
878
840
1816
2013
912
1564
767
1525
2048
2090
1522
1786
1128
2051
716
854
2088
630
1523
1227
76
2047
1981
977
706
Max.pET
Rango.de.temperatura

Insolation
PET
Mean.Temperature
2166
784
2012
1367
1608
1103
543
2124
1609
2120
588
1974
1563
1607
2011
873
859
474
376
354
2226
2087
1605
2050
75
1604
1443
1820
547
1779
2049
1653
1700
1738
1697
1562
1818
739
46
563
1405
766
367
1261
1129
541
544
608
1698
467
1651
523
1365
524
2207
526
1292
1406
85
486
413
1743
371
521
302
389
226
1159
502
504
875
1366
525
251
2184
1734
1652
150
205
1742
1257
2219
1689
491
431
323
430
435
1776
2008
1253
2046
449
1777
2223
2199
2227
2236
2220
698
599
264
332
2233
2230
1819
315
312
2198
2215
2157
2122
1603
1735
2185
2224
2156
2218
1737
2202
2203
589
2228
2210
2165
2229
1851
2214
1852
2241
2222
2211
2239
2160
1404
545
1695
2188
2158
1739
2159
1696
1130
2121
1694
919
1736
2085
685
1693
661
1691
2009
2238
2240
1690
684
50
237
1970
1692
1740
1781
613
2083
2084
1741
2206
1780
1649
2212
1160
1646
2216
25
51
2183
660
316
236
311
310
2213
Precipitation
Rainfall
2181
1612
2221
913
989
131
540
1782
663
832
91
342
542
2200
1655
112
2201
1785
1746
937
881
1650
740
182
1327
1483
699
1648
892
84
527
1087
458
337
817
1647
894
839
78
132
519
507
586
897
1088
564
1222
1971
653
700
378
238
334
2182
2186
487
1196
677
390
1068
1143
106
95
60
209
1973
1783
679
2204
652
441
433
1260
303
343
391
1972
501
393
1011
77
344
935
210
831
313
261
366
152
107
49
1256
2217
227
11
1162
511
1067
258
420
1295
816
90
266
288
0.6
124
718
58
2205
492
485
1223
696
87
24
67
567
697
228
877
2010
1784
720
566
96
151
893
607
159
345
641
305
520
1291
100
1328
35
123
1566
970
876
640
469
57
1524
2187
1745
204
126
1565
22
1258
1445
1294
503
815
522
546
858
1444
1226
1744
1330
125
201
127
129
473
208
1699
743
505
1293
490
422
436
846
468
880
1329
234
414
1224
434
639
392
369
938
683
346
478
399
368
400
681
841
899
898
936
68
457
1225
918
456
419
233
257
440
742
37
450
130
98
256
856
375
1484
59
252
678
917
179
455
298
321
36
111
314
857
23
351
719
439
324
47
155
229
10
855
397
411
472
452
470
301
307
488
275
110
353
308
348
506
101
231
489
437
306
329
279
276
328
320
259
156
108
283
451
830
454
327
438
158
352
304
662
88
153
421
89
149
587
277
99
432
322
154
282
326
370
281
109
254
157
181
309
177
178
412
86
398
280
180
1194
203
347
202
416
206
335
253
255
97
325
265
374
417
260
48
350
396
395
394
128
207
372
349
232
0.4
1161
300
874
373
418
0.2
471
299
415
230
0.0
278
453
0.2
1192
1193
0.4
PC2
Luis Cayuela
> biplot(pca1, cex = c(0.01, 1), scale = 0.5, ylim = c(-0.6, 0.6))
> points(x = pca1$x[, 1], y = pca1$x[, 2], cex = clima[, 1]/300,
+
col = "grey")
0.4
PC1
Lo que hemos hecho ha sido, por un lado, representar la relacion de las

variables clim
aticas con los dos primeros componentes del PCA. Pero ademas,
hemos representado en este gr
afico cada una de las celdas de 10 x 10 km con
un tama
no (cex) que es proporcional a su riqueza de especies exoticas. De esta
manera podemos interpretar el significado de los ejes y empezar a vislumbrar
si existe alguna relaci
on entre estos ejes y nuestra variable respuesta. Tanto el
gr
afico como las correlaciones de las variables con los ejes parecen apuntar a
que el primer componente est
a relacionado con la temperatura
(Mean.Temperature, Mean.Jan.Temperature), la evapotranspiracion potencial
(PET, Max.PET) y la duraci
on de la estacion de crecimiento (Growth.Season),
mientras que el segundo componente esta relacionado fundamentalmente con
la evapotranspiraci
on real (AET) y el deficit hdrico (Water.Deficit). Por tanto
podramos decir que el primer componente esta vinculado a la entrada de
energa en el sistema y el segundo al deficit hdrico (ya que esta y la AET estan
correlacionadas negativamente). Ademas, vemos que la riqueza de especies
nativas parece estar asociada positivamente con el eje 1 (entrada de energa en
el sistema).
Vamos a ajustar ahora el modelo estadstico para explicar la riqueza de

especies nativas est
a realmente explicada por estas dos nuevas variables.
Luis Cayuela
> summary(lm.exoticas)
Call:
lm(formula = clima$Alien ~ pca1$x[, 1:2])
Residuals:
Min
1Q
-144.57 -43.12
Median
-7.34
3Q
32.69
Max
365.61
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
155.9568
1.3266 117.562
<2e-16 ***
pca1$x[, 1:2]PC1 29.8974
0.5019 59.567
<2e-16 ***
pca1$x[, 1:2]PC2 -0.3346
0.7722 -0.433
0.665
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 62.83 on 2240 degrees of freedom
Multiple R-squared: 0.613,
Adjusted R-squared: 0.6127
F-statistic: 1774 on 2 and 2240 DF, p-value: < 2.2e-16
Vemos que la primera variable es significativa y positiva y que el modelo
explica cerca del 60 % de la variabilidad de la riqueza de exoticas. Vamos a
revisar los residuos del modelo.
Luis Cayuela
ScaleLocation
100
100
200
1.0
0.0
1885
1902
1800
2.0
Residuals vs Fitted
Standardized residuals
200
0
200
Residuals
400
> par(mfcol = c(2, 2))

> plot(lm.exoticas)
300
1885
1902
1800
100
Fitted values
6
4
2
0
2
6
4
2
0
2
200
300
Residuals vs Leverage
1885
1800
1902
100
Fitted values
Normal QQ
1885
1902

1872
Cook's distance
0.000
0.002
Theoretical Quantiles
0.004
0.006
Leverage
No parece que el modelo sea muy idoneo. Es claramente heterocedastico y no

lineal. Adem
as, tengamos en cuenta que la variable respuesta es un conteo y,
por tanto, predicciones que no sean enteros o con valores por debajo de 0 (que
son posibles asumiendo una distribucion de errores normal) no tienen sentido.
Probemos un modelo Poisson.
> glm.exoticas <- glm(clima$Alien ~ pca1$x[, 1:2], family = poisson)
> summary(glm.exoticas)
Call:
glm(formula = clima$Alien ~ pca1$x[, 1:2], family = poisson)
Deviance Residuals:
Min
1Q
-12.8684
-3.4042
Median
-0.6294
3Q
2.4196
Max
20.9990
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
4.8574493 0.0020704 2346.14
<2e-16 ***
pca1$x[, 1:2]PC1 0.2581541 0.0008915 289.56
<2e-16 ***
pca1$x[, 1:2]PC2 -0.0303083 0.0010245 -29.59
<2e-16 ***
--10
Luis Cayuela
Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for poisson family taken to be 1)

Null deviance: 153463
Residual deviance: 45873
AIC: 60635
on 2242
on 2240
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4

Ahora las dos variables son significativas. La primera, relacionada con la
entrada de energa en el sistema, se relaciona positivamente con la riqueza de
nativas. Y la segunda, que es una indicadora del deficit hdrico, lo esta
negativamente. As que a mayor deficit hdrico, menor riqueza de especies
ex
oticas. Vamos a ver si esta vez los residuos son adecuados.
> par(mfcol = c(2, 2))
> plot(glm.exoticas)
3
2
1
0
ScaleLocation
1013
621
536
Std. deviance resid.
10
0
10
Residuals
20
Residuals vs Fitted
2.5
3.5
4.5
5.5
1013
621
536
2.5
3.5
Predicted values
30
20
10
0
10
Std. Pearson resid.
10
20
1013
621
536
0
10
Std. deviance resid.
Normal QQ
4.5
5.5
Predicted values
Residuals vs Leverage
2150
1885
517
Cook's distance
0.000
Theoretical Quantiles
0.004
0.5
0.5
0.008
Leverage
Si vemos los residuos observaremos que el modelo, aunque no es perfecto, es

bastante m
as adecuado que el modelo normal.
11
Luis Cayuela
3.
An
alisis de la varianza multivariado
(MANOVA)
El An
alisis de la Varianza Multivariante (MANOVA) es una extension del
an
alisis de la varianza (ANOVA) que permite cubrir los casos donde hay mas
de una variable dependiente que no pueden ser combinadas de manera simple.
Por tanto, frente al ANOVA o la regresion, en donde tendramos la siguiente
formulaci
on del modelo:
y x1 + x2 + . . . + xn
en el MANOVA el modelo quedara formulado de la siguiente forma:
y1 + y2 + . . . + yk x1 + x2 + . . . + xn
Por lo general, se ha aceptado la terminologa de MANOVA para referirse a
an
alisis que contemplan varias variables respuesta continuas, pero sin prestar
mucha atenci
on a si las variables explicativas son continuas o discretas. En un
sentido estricto, si las variables explicativas fueran continuas tendramos una
regresi
on m
ultiple multivariante, si fueran discretas estaramos ante un caso de
an
alisis de la varianza multifactorial multivariante, y si fueran de ambos tipos
el an
alisis sera del tipo ANCOVA multivariante. Sin embargo, es muy com
un
referirse a cualquiera de ellos como MANOVA, y esta sera la terminologa
usada aqu. El MANOVA, al igual que los modelos lineales, se basa en una
serie de supuestos:
las muestras son independientes entre s;
cada variable tiene una distribuci
on normal;
en conjunto las k variables dependientes tienen la distribuci
on normal
conjunta;
las varianzas de cada variable son iguales al compararlas de tratamiento
a tratamiento;
las correlaciones entre dos variables de un mismo grupo son las mismas
de grupo a grupo.
Estos supuestos son muchas veces difciles de cumplir. Por ello, una alternativa
eficiente al MANOVA es el MANOVA semi-parametrico, que utiliza las
distancias entre cada par de observaciones para obtener una matriz de
distancia sobre la que luego se calcula la significacion de las variables
explicativas con simulaciones de Monte Carlo. Este tipo de enfoque es muy
similar al del escalamiento multidimensional no metrico (NMDS), en tanto que
la partici
on de la varianza se hace utilizando una matriz de distancias, por lo
que ambos metodos se complementan bastante bien.
Hay que considerar que la interpretacion de un MANOVA (ya sea parametrico
o semi-parametrico) es bastante mas compleja que la de un ANOVA o una
12
Luis Cayuela
regresi
on. Por medio de este analisis solo es posible saber si la(s) variables
explicativa(s) tienen un efecto sobre el conjunto de las variables respuesta,
pero difcilmente sabremos c
omo es este efecto a no ser que utilicemos otras
tecnicas complementarias como el NMDS. Por tanto, al realizar un analisis de
este tipo nos fijaremos en la significacion de los coeficientes y, cuando sea
posible, en la variabilidad explicada por cada una de las variables explicativas.
En R hay, por lo menos, dos funciones que nos permiten ajustar un MANOVA.
La funci
on manova() se encuentra dentro del paquete stats y ajusta MANOVAs
parametricos, por lo que es importante evaluar la idoneidad del modelo
mirando los residuos. La funci
on adonis(), dentro del paquete vegan, permite
ajustar MANOVAs semi-parametricos, por lo que la evaluacion de los residuos
del modelo no es necesaria. Nos centraremos en esta u
ltima para el analisis de
comunidades biol
ogicas.
3.1.
Ejemplo: Qu
e variables determinan la composici
on
2
florstica en bosques tropicales montanos?
Se quiere investigar que variables ambientales afectan la composicion florstica

de
arboles en parcelas de 0.1 hectareas muestreadas en distintos tipos de
bosques tropicales en los Altos de Chiapas, Mexico (bosque de pino-encino
(POF), bosque de encino (OF), bosque de pino (PF), bosque nublado (MCF)
y bosque transicional a selva baja caducifolia (TF)). El tipo de bosque es el
resultado de factores ambientales (clima) y el uso humano.
Para este caso de estudio se han seleccionado las 86 especies mas abundantes
sobre un total de 231 en 204 parcelas de 0.1 hectareas. Para cada especie
tenemos su abundancia total en cada parcela. Queremos construir un modelo
en d
onde la composici
on de
arboles quede en funcion por un lado del tipo de
bosque y, por otro, de la productividad (medida a partir del ndice de
vegetaci
on NDVI obtenido de una imagen Landsat del a
no 2000) y la elevacion.
La matriz de parcelas (filas) x especies (columnas) esta disponible en la
siguiente direcci
on http://tinyurl.com/MANOVA-bio. Las variables
ambientales para las parcelas muestreadas (tipo de bosque, productividad,
elevaci
on) est
an disponibles en la siguiente direccion
http://tinyurl.com/MANOVA-env.
Vamos primero a cargar la matriz de parcelas x especies y los datos
ambientales en R.
> bio <- read.table("http://tinyurl.com/MANOVA-bio", header = T,
+
sep = "\t")
> env <- read.table("http://tinyurl.com/MANOVA-env", header = T,
+
sep = "\t")
Ahora vamos a ajustar un MANOVA en donde la composicion de especies
(bio) va a estar en funci
on de las variables que hay en el arreglo de datos env
(Forest type, Productivity, Elevation).
2 Cayuela,
L., Golicher, D.J., Rey Benayas, J.M., Gonz

alez-Espinosa, M. & RamrezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181
13
Luis Cayuela
>
>
>
>
library(vegan)
attach(env)
manova1 <- adonis(bio ~ Forest.type + Productivity + Elevation)
manova1
Call:
adonis(formula = bio ~ Forest.type + Productivity + Elevation)
Df SumsOfSqs MeanSqs
Forest.type
4
14.486 3.6215
Productivity
1
1.019 1.0188
Elevation
1
5.401 5.4013
Residuals
197
57.895 0.2939
Total
203
78.801
--Signif. codes: 0 *** 0.001 **
F.Model
R2 Pr(>F)
12.3231 0.18383 0.001 ***
3.4667 0.01293 0.001 ***
18.3791 0.06854 0.001 ***
0.73470
1.00000
0.01 * 0.05 . 0.1 1
Los resultados muestran que todas las variables son significativas. Las sumas
de cuadrados (SumsOfSqs) nos dicen que cantidad de variabilidad esta
explicada por cada una de las variables y la variabilidad residual (esto es, no
explicada por el modelo). En este ejemplo podemos ver que la composicion de
arboles en bosques tropicales montanos esta explicada fundamentalmente por
el tipo de bosque (14.49/78.80 = 18 %), pero tambien por la productividad
(1.018/78.80 = 1 %) y la elevacion (5.40/78.80 = 7 %). Es decir, que
dependiendo del tipo de bosque vamos a encontrar distintas especies. Pero
adem
as existe un gradiente altitudinal que condiciona en parte la composicion
de estos bosques. Podra ser interesante explorar si este gradiente altitudinal
afecta de manera distinta a los distintos tipos de bosque. Para ello vamos a
incluir la interacci
on entre estas variables en un nuevo modelo.
> manova2 <- adonis(bio ~ Forest.type + Productivity + Elevation +
+
Forest.type:Elevation)
> manova2
Call:
adonis(formula = bio ~ Forest.type + Productivity + Elevation +
Df SumsOfSqs MeanSqs
Forest.type
4
14.486 3.6215
Productivity
1
1.019 1.0188
Elevation
1
5.401 5.4013
Forest.type:Elevation
4
4.323 1.0808
Residuals
193
53.572 0.2776
Total
203
78.801
--Signif. codes: 0 *** 0.001 ** 0.01 *
F.Model
13.0471
3.6704
19.4590
3.8936
R2 Pr(>F)
0.18383 0.001 ***
0.01293 0.001 ***
0.06854 0.001 ***
0.05486 0.001 ***
0.67984
1.00000
0.05 . 0.1 1
Y vemos que, efectivamente, el cambio en la composicion de especies a lo largo

del gradiente altitudinal va a ser distinto seg
un el tipo de bosque (y explica
14
Forest.type:Elevation)
Luis Cayuela
cerca de un 5 % de la variabilidad en la composicion de especies). Esto podra

indicar, por ejemplo, que algunos tipos de bosque no van a sufrir ning
un
cambio en la composici
on de especies a lo largo del gradiente altitudinal y
otros s. Sin embargo, no es posible conocer el sentido de esta interaccion a
partir u
nicamente de los resultados de este analisis. Podramos hacer
MANOVAS individuales para cada uno de los tipos de bosque o podramos
utilizar otras tecnicas multivariantes que nos van a ayudar a interpretar estos
resultados visualmente, como veremos en la siguiente seccion.
4.
Escalamiento multidimensional no m
etrico
(NMDS)
El escalamiento multidimensional no metrico (NMS, MDS, NMDS o NMMDS)

es una tecnica multivariante de interdependencia que trata de representar en
un espacio geometrico de pocas dimensiones las proximidades existentes entre
un conjunto de objetos. El NMDS es un metodo de ordenacion adecuado para
datos que no son normales o que estan en una escala discontinua o arbitraria.
Una ventaja del NMDS frente a otras tecnicas de ordenacion es que, al estar
basada en rangos de distancias, tiende a linealizar la relacion entre las
distancias ambientales y las distancias biologicas (esto es, calculadas a partir
de una matriz de sitios x especies). Una de las desventajas de esta tecnica es la
dificultad para alcanzar una solucion estable u
nica. A pesar de ello, el NMDS
es una tecnica ampliamente utilizada en ecologa para detectar gradientes en
comunidades biol
ogicas.
El NMDS se implementa de la siguiente forma:
1. Se calcula la matriz de disimilaridad X a partir de la matriz de datos de
sitios x especies. Esta matriz nos indica como de iguales son cada par de
sitios utilizando para ello la similaridad entre sus especies. Supongamos
que tenemos tres especies (sp1, sp2, sp3) y tres sitios (A, B, C). El sitio
A tiene sp1 = 3, sp2 = 0 y sp3 = 8. El sitio B tiene sp1 = 3, sp2 = 0 y
sp3 = 6. El sitio C tiene sp1 = 0, sp2 = 5 y sp3 = 1. Por tanto, podemos
calcular una matriz de disimilaridad que nos indique con n
umeros que los
sitios A y B son muy iguales, mientras que los sitios A y C y B y C son
muy distintos entre s. Cuando se trata de datos biologicos la distancia
m
as usada es la distancia de Sorensen (Bray-Curtis) en vez de la
distancia Eucldea.
2. Se asignan los sitios (unidades muestrales) a una configuracion inicial
aleatoria en un espacio k-dimensional (donde k es el n
umero de especies),
aunque en realidad, la ordenacion se va a realizar principalmente sobre
unas pocas dimensiones (2 o 3).
3. Se calculan las distancias sobre este nuevo espacio geometrico y se
calcula una matriz de distancia Y .
4. Se comparan las matrices de distancia X e Y y se mide como son de
parecidas entre ellas (stress).
15
Luis Cayuela
5. A partir de la configuracion inicial, se reasignan los sitios (unidades

muestrales) para reducir las distancias con la matriz X.
6. Se repite este proceso de manera iterativa hasta que se consigue una
soluci
on
optima en d
onde la matriz de distancias Y es muy parecida a la
matriz de distancias X. Esto es, se minimiza el stress.
La ventaja del NMDS es que nos permite, al igual que el PCA, reducir la
dimensionalidad de nuestros datos originales. El resultado de la ordenacion se
puede visualizar en un gr
afico de ordenacion. Posteriormente podemos
relacionar los ejes resultantes de dicha ordenacion con distintas variables
ambientales para determinar de manera indirecta el efecto de estas sobre la
matriz de sitios x especies.
Aunque en ecologa se utiliza tpicamente esta tecnica para analizar datos de
comunidades biol
ogicas (matriz de sitios x especies) tambien se puede aplicar a
otro tipo de datos, como por ejemplo m
ultiples variables fsico-qumicas
medidas en distintos cuerpos de agua (ros, embalses, pantanos). Esta tecnica
se utiliza tambien mucho en otras disciplinas, como la psicologa o la
economa. En R tenemos una implementacion de esta funcion (metaMDS) en el
paquete vegan.
4.1.
Ejemplo: Gradientes de composici

on florstica en
bosques tropicales montanos3
Al igual que en ejemplo anterior, se quiere investigar que variables ambientales

afectan la composici
on florstica de arboles en parcelas de 0.1 hectareas
muestreadas en distintos tipos de bosques tropicales en los Altos de Chiapas,
Mexico. El tipo de bosque es el resultado de factores ambientales (clima) y el
uso humano. Se seleccionaron las 86 especies mas abundantes sobre un total de
231 en 204 parcelas de 0.1 hectareas. Para cada especie tenemos su abundancia
total en cada parcela. Queremos construir un modelo en donde la composicion
de
arboles quede en funci
on por un lado del tipo de bosque y, por otro, de la
productividad (medida a partir del ndice de vegetacion NDVI obtenido de una
imagen Landsat del a
no 2000) y la elevacion.
Los objetivos concretos son:
1. Explorar visualmente c
omo son de similares o distintas las parcelas
muestreadas en funci
on de las especies que contienen.
2. Investigar la relaci
on entre esta ordenacion y las variables ambientales
por medio de correlaciones de dichas variables con los ejes de ordenacion
y el ajuste de superficies de tendencia.
La matriz de parcelas (filas) x especies (columnas) esta disponible en
http://tinyurl.com/MANOVA-bio. Las variables ambientales para las parcelas
3 Cayuela, L., Golicher, D.J., Rey Benayas, J.M., Gonz
16
Luis Cayuela
muestreadas (tipo de bosque, productividad, elevacion) estan disponibles en

http://tinyurl.com/MANOVA-env.
Al igual que en el caso anterior es necesario cargar la matriz de parcelas x
especies y los datos ambientales en R. Si se ha realizado el ejercicio anterior en
esta misma sesi
on se puede saltar este paso.
> bio <- read.table("http://tinyurl.com/MANOVA-bio", header = T,
+
sep = "\t")
> env <- read.table("http://tinyurl.com/MANOVA-env", header = T,
+
sep = "\t")
Vamos ahora a realizar el escalamiento multidimensional no metrico. Como la
configuraci
on inicial de las parcelas es aleatoria, cada vez que realicemos el
NMDS vamos a tener un resultado ligeramente distinto. Para evitar esto
vamos a utilizar el comando set.seed() que genera unos datos semilla a partir
de los cuales se establece la configuracion inicial de las parcelas en los ejes del
NMDS. De esta manera, cada vez que realicemos el analisis obtendremos el
mismo resultado.
17
Luis Cayuela
> set.seed(0)
> nmds1 <- metaMDS(bio)
Square root transformation
Wisconsin double standardization
Using step-across dissimilarities:
Too long or NA distances: 3643 out of 20706 (17.6%)
Stepping across 20706 dissimilarities...
Connectivity of distance matrix with threshold dissimilarity 1
Data are connected
Run 0 stress 20.58713
> plot(nmds1)
++
+ +
++
+
+
NMDS2
+
+ +
+
++
+
+
+
+
++ ++++ ++
+ ++
+
+
+
+

+
++
+
+
+ + +
+++
18
1
++

+
+
+
0
NMDS1
Luis Cayuela
Este gr
afico no es muy informativo. Vamos a personalizarlo para poder obtener
m
as informaci
on sobre los tipos de bosque.
> plot(nmds1, type = "n")

> points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)
+
cex = 1.5)
> legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest",
+
"Pine forest", "Pine-oak forest", "Transitional forest"),
+
pch = c(1:5), col = c(1:5))
NMDS2

Cloud forest
Oak forest

Pine forest
Pineoak forest
Transitional forest
2
NMDS1
Vemos que los distintos tipos de bosque se diferencian bastante bien en cuanto
a la composici
on de especies que los componen. Algunos grupos son mas
compactos, como los bosques transicionales, y otros mas heterogeneos, como
los bosques de niebla (que parece que forman dos subgrupos) y los bosques de
encino y pino-encino. Vamos a insertar en la grafica los vectores de las
variables ambientales utilizando para ello la funcion envfit() del paquete vegan.
19
Luis Cayuela
plot(nmds1, type = "n")

points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)
cex = 1.5)
legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest",
pch = c(1:5), col = c(1:5))
ef <- envfit(nmds1, env, permu = 1000)
plot(ef)
>
>
+
>
+
+
>
>
Forest.typeTF
NMDS2
Forest.typeCF
Forest.typeOF
Forest.typePOF
Productivity
Cloud forest
Oak forest

Pine forest
Pineoak forest
Transitional forest
2
Forest.typePF
Elevation
NMDS1
Vemos los centroides de los distintos tipos de bosque. Tambien observamos que
la elevaci
on est
a relacionada con el eje 2 y la productividad con ambos ejes
marcando un gradiente desde la parte superior derecha de la grafica (menor
productividad) a la parte inferior izquierda (mayor productividad). Sin
embargo, las respuestas multivariantes a variables ambientales rara vez son
lineales. Por ello vamos a utilizar otra tecnica que nos va a permitir ajustar
superficies de tendencia para las variables continuas.
20
Luis Cayuela
>
>
+
>
+
+
>
plot(nmds1, type = "n")

points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)
cex = 1.5)
pch = c(1:5), col = c(1:5))
ordisurf(nmds1, env$Productivity, add = T)
Family: gaussian
Link function: identity
Formula:
y ~ s(x1, x2, k = knots)
<environment: 0x95cce1c>
Estimated degrees of freedom:
8.0797 total = 9.079708
GCV score: 0.0126316
> ordisurf(nmds1, env$Elevation, add = T, col = "green")
Family: gaussian
Link function: identity
Formula:
y ~ s(x1, x2, k = knots)
<environment: 0xa7dda38>
Estimated degrees of freedom:
8.7164 total = 9.716417
GCV score: 10561.37
0.5
0.55
1600
0.
0.6
1700

2100
2200
0.9
NMDS2
.9

0
0
20
1800
0.6
1900
0.7
2300
2400
26
00

Cloud forest
0
2
Oak forest 70

2500
0.55
0.
85
0.7
Pine forest
Pineoak forest
Transitional forest
21
2
0
NMDS1
Luis Cayuela
Ahora tenemos una visi

on mucho mas completa de que esta pasando. Vemos
que las zonas de mayor altitud van a determinar la presencia de bosque
nublado, pero no de bosque de pino, como pareca indicar la grafica anterior.
Por otro lado la productividad va a condicionar (en mucha menor medida
como vimos en el ejemplo anterior) la formacion de bosques transicionales y
pinares. Los bosques de encino y pino-encino muestran una heterogeneidad
bastante amplia en cuanto a su respuesta a la productividad y la elevacion y,
finalmente, los bosques de niebla son los que mas productividad tienen (por
algo son bosques siempre-verdes frente al resto -excepto los bosques de pinoque son mixtos caducifolios).
5.
An
alisis de correspondencias can
onico
(CCA)
Que es el an
alisis de correspondencias canonico? El analisis de
correspondencias can
onico (CCA) es una tecnica multivariante que permite
representar en un espacio geometrico de pocas dimensiones las proximidades
existentes entre un conjunto de objetos condicionado por una serie de variables
predictoras. El CCA es una tecnica de ordenacion restringida (constrained
ordination), lo que significa que la ordenacion de los objetos representa
solamente la estructura de los datos que maximiza la relacion con una segunda
matriz de variables predictoras. Normalmente el CCA relaciona dos matrices:
la matriz de variables dependientes (p.e. una matriz de sitios x especies) y la
matriz de variables independientes (p.e. una matriz de variables ambientales).
La relaci
on entre ambas matrices se hace por medio de tecnicas de regresion
multivariante.
Cuando se utiliza CCA es importante tener en cuenta lo siguiente:
1. El CCA incluye la aplicacion de tecnicas de regresion y, por tanto, todas
los supuestos y consideraciones de los modelos lineales han de ser tenidos
en cuenta.
2. A medida que el n
umero de variables ambientales aumenta con respecto
al n
umero de observaciones (muestras), el resultado del CCA se hace
m
as dudoso, independientemente de que las relaciones observadas sean
aparentemente fuertes.
3. Los usuarios de esta tecnica han de tener en cuenta que su interpretacion
no supone una descripci
on de los datos de la matriz de variables
dependientes per se, sino mas bien de la parte de la estructura de los
datos que est
a relacionada con las variables predictoras.
En el CCA, la variabilidad explicada por los ejes de ordenacion esta
representada por el termino inercia (Inertia). Hay una inercia total que
representara la variabilidad total de los datos (como la devianza del modelo
nulo en GLM) y una devianza de la ordenacion restringida (constrained inertia)
que informa de la parte de la variabilidad total explicada por las variables
predictoras en el CCA. Asimismo es interesante ver que proporcion de dicha
22
Luis Cayuela
variabilidad queda explicada por cada uno de los ejes del CCA, teniendo en
cuenta que habr
a tantos ejes como variables predictoras incluyamos en el
modelo, si bien generalmente la mayor parte de la variabilidad va a quedar
resumida en los 2 o 3 primeros ejes.
5.1.
Ejemplo: C
omo se relaciona la estructura de
comunidades de plantas con las variables
ambientales?4
Siguiendo con el ejemplo anterior (ver secciones 3.1 y 4.1) queremos seguir
profundizando en la relaci
on entre las variables ambientales y la composicion
de
arboles en bosques tropicales montanos. Los objetivos especficos de este
caso de estudio son:
1. Investigar cu
al es la relacion entre especies y sitios explicada por
variables ambientales;
2. Visualizar los datos con distintas funciones graficas y entender los
resultados de un CCA.
Los datos son los mismos que hemos utilizado en los ejemplos 3.1 y 4.1.
> cca1 <- cca(bio ~ Forest.type + Productivity + Elevation, data = env)
> cca1
Call: cca(formula = bio ~ Forest.type + Productivity + Elevation, data
= env)
Inertia Proportion Rank
Total
12.7751
1.0000
Constrained
2.2884
0.1791
6
Unconstrained 10.4867
0.8209
85
Inertia is mean squared contingency coefficient
Eigenvalues for constrained axes:
CCA1
CCA2
CCA3
CCA4
CCA5
CCA6
0.73472 0.58627 0.51578 0.24928 0.12219 0.08012
Eigenvalues for unconstrained axes:
CA1
CA2
CA3
CA4
CA5
CA6
CA7
CA8
0.6702 0.5871 0.4999 0.4946 0.4819 0.4276 0.3761 0.3420
(Showed only 8 of all 85 unconstrained eigenvalues)
4 Cayuela, L., Golicher, D.J., Rey Benayas, J.M., Gonz
23
Luis Cayuela
plot(cca1, type = "n")

points(cca1, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type))
points(cca1, display = "bp", col = "red")
text(cca1, display = "bp")
pch = c(1:5), col = c(1:5))
>
>
>
>
>
+
+
Productivity
Elevation
Forest.typeTF
Forest.typeOF
Forest.typePF
Forest.typePOF
CCA2
Cloud forest
Oak forest
Pine forest
Pineoak forest
Transitional forest
6
CCA1
La varianza de la composici
on de especies explicada por las variables
ambientales es de 2.288/12.775 (es decir, un 17.9 %). De esta variabilidad, la
mayor parte est
a explicada por los ejes 1 (0.734/12.775), 2 (0.586/12.775) y 3
(0.515/12.775). En la gr
afica, tambien vemos que el eje 1 del CCA, que esta
relacionado con el tipo de bosque de transicion, nos separa este tipo de bosque
del resto. El eje 2 est
a m
as relacionado con la productividad, la elevacion y el
resto de tipo de bosques. Sera interesante ver otros ejes del CCA para lo cual
podemos hacer representaciones dos a dos del eje 1 con el 3, y del 2 con el 3, o
probar a representar los tres primeros ejes con una grafica tridimensional. El
paquete scatterplot3d y rgl contienen funciones que nos pueden ayudar a esto.
24
Luis Cayuela
>
>
>
>
>
>
library(scatterplot3d)
op <- ordiplot3d(cca1, angle = 25, type = "n")
text(op, "points", col = "grey", pos = 3, cex = 0.6)
text(op, "arrows", col = "blue", pos = 3)
text(op, "centroids", col = "blue", pos = 3)
points(op, "points", col = as.numeric(env$Forest.type))
Elevation
2
Bazom24
Yasht4
Bazom22
Yasht3
Huitep18
Bazom20
Huitep17
TzontA6
TzontA3
TzontA1
TzontA9
Bazom4
Mitzit2
TzontB9
TzontA5
Mitzit3
TzontB10
Bazom8
TzontA8
Barre5
TzontB5
Mitzit1
Barre3Barre1
TzontB7
Yasht5
TzontB4
TzontB1
Barre4
TzontB6
TzontB8
TzontA4
TzontA2
TzontA7
Mitzit5
Bazom2
Yalcuk3
TzontA10
Yalcuk2
Barre10
Mitzit4
Barre9
Bazom21
TzontB2
Bazom3 TzontB3
SAnton5
Mitzit6
Bazom12
Bazom16
Bazom26
SAnton4
SAnton8
Santia8
Chilil2
Bazom17
Bazom19
Bazom25
SAnton9
Santia3
Chilil8
Santia10
Mitzit8
SAnton3
Chilil3
Huitep16
Santia7
Santia2
Mitzit7
Bazom5
Yasht8
Bazom15
Huitep12
Huitep10
Bazom23
Huitep8
SAnton1
Bazom7
Chilil6
Huitep1
Bazom1
Santia5
Yasht9
Naven6
Santia4
Bazom10
Bazom6

Huitep4
SAnton2
Huitep3
Yalcuk9
Bazom11
Santia9
Huitep7
Santia6
Barre6
Yalcuk8
Naven4
Huitep13
Huitep11
Yalcuk4
SAnton6
Huitep14
Bazom18
Naven10
Bazom9
Yasht2
Chilil10
Yalcuk5
Huitep2
Bazom14
Huitep9
Huitep5
Chilil4
Chilil1
Chilil5
Naven9
Yalcuk10
Naven5
Barre7
Yasht6
Naven3
Yasht10
Mitzit9
Huitep15
Yalcuk6
Chilil7
Bazom13
Huitep6
Naven2
Naven1
BVista7
SAnton10
Barre2
Yalcuk7
BVista10
Naven7
Yasht1
Yalcuk1
Mitzit10
Yasht7
BVista6
SAnton7
Santia1
Naven8
Chilil9

SJTunas6

BVista9
SJTunas1
SJTunas9
SJTunas4
BVista2
Cholol1
Barre8
SJTunas8
BVista8
BVista5
Cholol7
BVista1

BVista4
Cruzto2
SJTunas10
SJTunas7
Cruzto8
Cruzto4
SJTunas2
Epalch6
Epalch10
SJTunas5
Cruzto5
SJTunas3
Cruzto7
BVista3
Cholol6
Epalch3
Epalch9
Epalch7
Epalch1
Cruzto10 Cruzto6
Epalch2
Epalch8
Cholol2
Cruzto3
Carid4
Cholol9
Epalch4
Carid8
Cholol5
Cholol3
Cholol4
Cruzto1
Cholol8
Cholol10 Carid10
Carid2
Cruzto9
Carid5
Epalch5
Carid3
Carid1
Carid6
Forest.typePF
Forest.typeTF
Forest.typePOF
Forest.typeCF
Productivity
Forest.typeOF
1
0
1
2
Carid9
Carid7
2
8
CCA2
CCA3
+
+
+
CCA1
Por u
ltimo, podemos utilizar las graficas interactivas del paquete rgl para
representar los resultados del CCA.
> library(rgl)
> ordirgl(cca1, display = "sites")
6.
M
as ejemplos
Se pueden encontrar m
as ejemplos resueltos en
http://curso-r-ceama2009.wikispaces.com/An%C3%A1lisis+multivariante.
7.
Referencias
Zuur, A.F., Ieno, E.N. & Smith, G.M. (2007). Analysing ecological data.
Springer, New York.

25
Luis Cayuela
Crawley, M.J. (2007). The R Book. Wiley.
26

6-Analisis Multivariante

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

6-Analisis Multivariante

Загружено:

Авторское право:

Доступные форматы

Analisis multivariante

Se autoriza a cualquier persona a utilizar, copiar, distribuir y modificar esta

Para cualquier comentario o sugerencia por favor remitirse al autor de la obra.

2.1. Ejemplo: Modelando la riqueza de plantas exoticas en Reino Unido

Un aspecto clave en PCA es la interpretacion de los factores, ya que esta no

Ejemplo: Modelando la riqueza de plantas ex

En este ejemplo queremos modelar la riqueza de especies exoticas en el Reino

Unido en celdas de 10 x 10 kms y se han utilizado los registros de colecciones

> lm.exoticas <- lm(clima$Alien ~ pca1$x[, 1:2])

Lo que hemos hecho ha sido, por un lado, representar la relacion de las

Vamos a ajustar ahora el modelo estadstico para explicar la riqueza de

> par(mfcol = c(2, 2))

No parece que el modelo sea muy idoneo. Es claramente heterocedastico y no

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1)

Number of Fisher Scoring iterations: 4

Std. deviance resid.

Std. Pearson resid.

Std. deviance resid.

Si vemos los residuos observaremos que el modelo, aunque no es perfecto, es

Se quiere investigar que variables ambientales afectan la composicion florstica

L., Golicher, D.J., Rey Benayas, J.M., Gonz

Y vemos que, efectivamente, el cambio en la composicion de especies a lo largo

cerca de un 5 % de la variabilidad en la composicion de especies). Esto podra

El escalamiento multidimensional no metrico (NMS, MDS, NMDS o NMMDS)

5. A partir de la configuracion inicial, se reasignan los sitios (unidades

Ejemplo: Gradientes de composici

Al igual que en ejemplo anterior, se quiere investigar que variables ambientales

muestreadas (tipo de bosque, productividad, elevacion) estan disponibles en

> plot(nmds1, type = "n")

plot(nmds1, type = "n")

plot(nmds1, type = "n")

Ahora tenemos una visi

plot(cca1, type = "n")

Springer, New York.

Crawley, M.J. (2007). The R Book. Wiley.

Вам также может понравиться

0 * 0.001 0.01 * 0.05 . 0.1 1