Вы находитесь на странице: 1из 26

Analisis multivariante

Luis Cayuela
Septiembre de 2011

Area
de Biodiversidad y Conservacion, Universidad Rey Juan Carlos,
Departamental 1 DI. 231, c/ Tulipan s/n. E-28933 Mostoles (Madrid),
Espa
na. E-mail: luis.cayuela@urjc.es.

An
alisis multivariante (versi
on 1.1)
Publicado por: Luis Cayuela

Se autoriza a cualquier persona a utilizar, copiar, distribuir y modificar esta


obra con las siguientes condiciones: (1) que se reconozca la autora de la misma;
(2) que no se utilice con fines comerciales; y (3) que si se altera la obra original,
el trabajo resultante sea distribuido bajo una licencia similar a esta.

Para cualquier comentario o sugerencia por favor remitirse al autor de la obra.

Indice
1. Introducci
on

2. An
alisis de componentes principales (PCA)

2.1. Ejemplo: Modelando la riqueza de plantas exoticas en Reino Unido


a partir del clima . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. An
alisis de la varianza multivariado (MANOVA)
3.1. Ejemplo: Que variables determinan la composicion florstica en
bosques tropicales montanos? . . . . . . . . . . . . . . . . . . . .
4. Escalamiento multidimensional no m
etrico (NMDS)
4.1. Ejemplo: Gradientes de composicion florstica en bosques tropicales montanos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. An
alisis de correspondencias can
onico (CCA)
5.1. Ejemplo: C
omo se relaciona la estructura de comunidades de
plantas con las variables ambientales? . . . . . . . . . . . . . . .

5
12
13
15
16
22
23

6. M
as ejemplos

25

7. Referencias

25

Luis Cayuela

1.

Analisis multivariante

Introducci
on

En un sentido amplio, el an
alisis multivariante hace referencia a cualquier
metodo estadstico que analice simultaneamente m
ultiples caractersticas en
cada uno de los individuos o muestras objeto de la investigacion. Una de las
dificultades en definir que es el analisis multivariante reside en el hecho de que
el termino multivariante (o multivariado) no ha sido usado de manera
consistente en la literatura. Algunos investigadores usan el termino
multivariado simplemente para referirse a las relaciones existentes entre mas
de dos variables. Sin embargo, para que un analisis sea considerado
verdaderamente multivariante, todas las variables deben de ser aleatorias y
deben de estar interrelacionadas de tal manera que los diferentes efectos no
puedan ser interpretados significativamente de manera independiente. Por
ejemplo, si queremos ver el efecto de una variable ambiental sobre las
diferentes especies de peces que hay en un ro, tiene sentido considerar todas
las abundancias de cada una de las especies en su conjunto y no la abundancia
de cada una de las especies por separado, ya que las diferentes especies se
interrelacionan entre s por medio de interacciones bioticas (competencia por
recursos, predaci
on, etc) y es difcil de separar estos efectos de los efectos
puramente ambientales.
Podemos considerar como tecnicas multivariantes, entre otras:
An
alisis de componentes principales
An
alisis discriminante
An
alisis cluster (tecnica de agrupacion)
An
alisis de correspondencias
Escalamiento multidimensional
An
alisis de correspondencias canonico
Modelo de ecuaciones estructurales (an
alisis causal)
An
alisis de la varianza multivariado (incluyendo la regresion

multivariada)
En esta sesi
on veremos algunas de ellas, prestando especial atencion al analisis
de comunidades biol
ogicas.

2.

An
alisis de componentes principales (PCA)

El an
alisis de componentes principales (PCA) es una tecnica estadstica de
sntesis de la informaci
on, o reduccion de la dimension (n
umero de variables).
Es decir, ante un banco de datos con muchas variables, el objetivo sera
reducirlas a un menor n
umero perdiendo la menor cantidad de informacion
posible. Los nuevos componentes principales o factores seran una combinacion
lineal de las variables originales, y ademas seran independientes entre s.
4

Luis Cayuela

Analisis multivariante

Un aspecto clave en PCA es la interpretacion de los factores, ya que esta no


viene dada a priori, sino que sera deducida tras observar la relacion de los
factores con las variables iniciales (habra, pues, que estudiar tanto el signo
como la magnitud de las correlaciones). Esto no siempre es facil, y sera de
vital importancia el conocimiento que el experto tenga sobre la materia de
investigaci
on.
Fases de un an
alisis de componentes principales:
1. An
alisis de la matriz de correlaciones. Un analisis de componentes
principales tiene sentido si existen altas correlaciones entre las variables,
ya que esto es indicativo de que existe informacion redundante y, por
tanto, pocos factores explicaran gran parte de la variabilidad total.
2. Selecci
on de los factores. La eleccion de los factores se realiza de tal
forma que el primero recoja la mayor proporcion posible de la
variabilidad original; el segundo factor debe recoger la maxima
variabilidad posible no recogida por el primero, y as sucesivamente. Del
total de factores se elegiran aquellos que recojan el porcentaje de
variabilidad que se considere suficiente. A estos se les denominara
componentes principales. Esta decision puede ser mas o menos arbitraria
(p.e. que capturen el 80 % de la variabilidad de los datos) o estar basada
en criterios estadsticos. El paquete nFactors ofrece una serie de funciones
para la selecci
on de factores (ver
http://www.statmethods.net/advstats/factor.html).
3. An
alisis de la matriz factorial. Una vez seleccionados los componentes
principales, se representan en forma de matriz. Cada elemento de esta
representa los coeficientes factoriales de las variables (las correlaciones
entre las variables y los componentes principales). La matriz tendra
tantas columnas como componentes principales y tantas filas como
variables.
4. Interpretaci
on de los factores. Para que un factor sea facilmente
interpretable debe tener las siguientes caractersticas, que son difciles de
conseguir:
- Los coeficientes factoriales deben ser proximos a 1.
- Una variable debe tener coeficientes elevados solo con un factor.
- No deben existir factores con coeficientes similares.
5. C
alculo de las puntuaciones factoriales. Son las puntuaciones que tienen
los componentes principales para cada caso, que nos permitiran su
an
alisis posterior y su representacion grafica.

2.1.

Ejemplo: Modelando la riqueza de plantas ex


oticas
1
en Reino Unido a partir del clima

En este ejemplo queremos modelar la riqueza de especies exoticas en el Reino


Unido utilizando variables climaticas. Para ello se ha dividido todo el Reino
1 Datos cedidos por Fabio Suzart, Universidad de Alcal
a. Estos datos no pueden ser usados
para otros fines que no sean docentes sin permiso del autor.

Luis Cayuela

Analisis multivariante

Unido en celdas de 10 x 10 kms y se han utilizado los registros de colecciones


bot
anicas para contar el n
umero de especies exoticas. Las variables climaticas
se han extraido del WorldClim (http://www.worldclim.org/).
Los datos est
an accesibles en la siguiente direccion
http://tinyurl.com/yan3b9j. Vamos a leer los datos directamente de la
direcci
on web con la funci
on url().
> clima <- read.table("http://tinyurl.com/exoticas", header = T,
+
sep = "\t")
> str(clima)

'data.frame':
2243 obs. of 13 variables:
$ Alien
: int 23 32 25 46 35 89 38 46 40 4 ...
$ Mean.Temperature
: num 6.86 7.39 5.3 7.71 7.39 ...
$ Mean.Jan.Temperature: num 3.27 3.46 2.29 3.31 2.91 ...
$ Rango.de.temperatura: num 4.84 6 3.98 6.46 6.53 ...
$ PET
: num 518 600 592 607 601 ...
$ Min.pET
: num 8.44 13.89 12.98 12.7 11.82 ...
$ Max.pET
: num 89.9 101.8 101.5 105.4 105.5 ...
$ Insolation
: num 2.79 2.8 3.04 3.28 3.2 ...
$ Growth.Season
: num 282 291 205 275 263 ...
$ AET
: num 459 484 434 459 451 ...
$ Water.Defcit
: num 58.4 115.6 158 148.8 150.4 ...
$ Precipitation
: num 1392 1605 855 959 958 ...
$ Rainfall
: num 1392 1605 855 959 958 ...
La primera variable sera la variable respuesta en nuestro modelo y el resto de
variables seran variables explicativas. Sin embargo, al ser todas las variables
explicativas variables clim
aticas es muy posible que haya mucha colinealidad
(es decir, correlaci
on entre variables), lo que hara cualquier modelo estadstico
basado en dichas variables muy inestable. Vamos a ver si realmente existe
correlaci
on entre las variables explicativas con la funcion cor() y/o pairs().
> pairs(clima[, -1])
As que vemos que realmente existe mucha correlacion entre las variables
explicativas. Una soluci
on a este problema sera utilizar analisis de
componentes principales para reducir la dimensionalidad de los datos y luego
utilizar los factores principales que nos resumen los datos para modelar la
riqueza de especies ex
oticas. Para ello podemos utilizar varias funciones, como
prcomp(), princomp() o factanal(). El paquete psych tiene otras funciones
relacionadas con el an
alisis de componentes principales como los PCA
jer
arquicos.
> pca1 <- prcomp(clima[, -1], scale = T)
> summary(pca1)

Luis Cayuela

Analisis multivariante

Importance of components:
PC1
PC2
PC3
PC4
PC5
PC6
PC7
Standard deviation
2.6437 1.7183 0.98154 0.71722 0.47717 0.39998 0.35721
Proportion of Variance 0.5824 0.2461 0.08028 0.04287 0.01897 0.01333 0.01063
Cumulative Proportion 0.5824 0.8285 0.90876 0.95162 0.97060 0.98393 0.99456
PC8
PC9
PC10
PC11
PC12
Standard deviation
0.20319 0.12922 0.08389 0.01386 0.007336
Proportion of Variance 0.00344 0.00139 0.00059 0.00002 0.000000
Cumulative Proportion 0.99800 0.99939 0.99998 1.00000 1.000000
Como podemos ver, los dos primeros factores recogen cerca del 83 % de la
variabilidad de las variables climaticas utilizadas. Tomaremos estos dos
componentes para representar la variabilidad en el clima. Ahora es importante
interpretar que significan estos componentes principales. Para ello podemos
utilizar la matriz de correlaci
on de las variables climaticas con los factores.
> pca1$rotation[, 1:2]
PC1
PC2
Mean.Temperature
0.34852153 -0.16985773
Mean.Jan.Temperature 0.30722684 -0.31362840
Rango.de.temperatura 0.21576733 0.13711343
PET
0.35433070 -0.09847938
Min.pET
0.27654607 -0.28400149
Max.pET
0.31976844 0.21453683
Insolation
0.33246966 -0.05442222
Growth.Season
0.32063663 -0.26539819
AET
-0.01362093 -0.54991427
Water.Defcit
0.23318824 0.40121923
Precipitation
-0.28774698 -0.30042944
Rainfall
-0.28741001 -0.30094185
Tambien es conveniente dibujar los componentes seleccionados del PCA en un
gr
afico. Para ello utilizaremos la funcion biplot().

2237

2243

0.6
0.8
0.6
0.4
2232

2234

1191

0.2

1883

1102

1881

2167

1482

1606

2189

914

1521

1654

761

2231

807

0.0

2197

2195

2194

AET
2131

2107

2064

1886

2138

1106

1338

1304

1907

1531

659

636

637

798

731

479

102

631

900

377

28

113

83

39

664

79
730

708

618

52

2125

2162

2178

2052

968

2091

2193

1942

2151

2132

2192

2093

1255

2142

2242

2196

2127

931

2163

674

787

2164

2170

2126

2128

1941

2092

2130

986

2169

1788

1024

1909

2172

1910

2114

838

2141

629

872

741

1778

1163

763

762

1787

518

1131

1064

2176

609

2209

1025

1610

1008

765

1065

1254

791

1063

1043

1331

951

1979

933

1062

632

2134

2135

896

770

1026

1005

695

1943

952

1259

915

2113

1853

1085

717

570

987

1006

823

1009

768

747

1980

549

2143

790

2175

1702

2153

2112

654

2119

2095

1195

1045

1044

1911

1080

2105

2007

1747

1821

1060

2225

2235

2148

1567

1084

2115

2103

1854

1082

585

990

971

1822

1041

2140

1940

493

675

988

1369

969

610

953

569

565

529

1446

2109

2118

2021

1083

1132

2070

2020

2108

2106

2068

1066

1046

1976

991

1977

2061

1086

2075

2099

769

590

1611

1656

1789

1748

2054

2100

2145

745

528

2096

2022

1704

2005

1010

1791

2055

2066

1110

1561

12

826

2019

1049

2071

1407

2097

2078

1108

2079

1104

2062

2146

2065

2117

750

655

676

530

701

571

56

746

656

633

1047

682

723

1048

721

1568

495

2031

1887

1262

2032

2067

1139

1823

2018

2060

722

591

842

725

824

1657

494

972

748

749

751

1751

811

2036

1167

475

728

1230

1199

2039

1792

2073

724

934

611

510

1164

2081

2037

1332

1111

1982

592

879

1296

1526

1409

1408

2056

2029

1969

1913

1888

2026

2057

1228

785

1171

1165

773

1944

2035

2043

1749

1528

774

1028

34

974

738

2033

1752

1013

1994

2024

1297

1197

1990

1134

1750

2028

1141

634

512

794

1136

2025

2040

1133

1200

703

788

1229

1029

992

1949

531

1030

812

1989

752

1614

1115

994

1958

1168

1137

13

825

1012

657

973

1140

1794

2034

1170

1793

2003

1333

1177

796

726

860

1950

1824

1966

1198

1985

2042

1951

1706

1142

1987

1992

1615

1457

795

809

1918

1570

1919

1986

1917

1263

1959

1965

1754

1231

2041

993

1995

1889

459

680

1983

1945

1173

1705

1991

1993

1957

1488

1795

1929

1144

1206

1952

704

705

727

729

1486

1112

1703

1659

702

843

1928

1410

1988

1984

1449

1755

572

532

1708

476

1613

775

827

122

66

1174

975

1114

1089

1447

1997

1916

1968

1489

1529

1933

593

950

1571

1575

1448

1175

612

533

932

1069

1176

1209

401

460

496

1166

1203

1298

1914

1619

1825

1890

1903

1707

1927

1920

1450

1661

1960

1014

1496

1202

1924

1210

1205

1947

1453

1964

1146

1955

1921

1956

1946

955

1113

1456

1201

1803

497

813

2000

1953

1711

1998

1915

1999

1891

707

957

1236

995

1892

753

1207

954

1178

715

1371

14

1208

1569

976

1232

1932

1237

38

658

635

797

26

1533

1884

1934

1239

1418

776

1487

956

442

1238

461

551

910

1145

1930

1709

1372

1712

1756

1937

958

1233

2001

1963

1804

1270

1493

1264

1373

1050

1662

940

1896

1451

1492

1663

1894

1413

996

1240

1574

1241

1455

1893

1235

1922

1417

1414

1710

1908

1495

1572

1532

939

1527

1268

1452

1266

15

500

814

235

754

552

515

1491

1490

1269

1267

148

871

534

1299

1454

1265

1458

1765

1494

1757

484

1713

1857

162

17

920

553

1898

1412

1341

1242

1900

1411

1375

921

1800

1303

1326

1271

1618

1497

1814

477

828

777

120

499

686

638

70

714

614

119

890

16

1301

1116

837

410

1288

18

889

480

1758

1004

1284

498

1180

922

584

80

61

32

44

1459

482

1322

31

615

907

906

755

30

40

19

554

594

756

481

319

135

176

462

273

844

616

732

27

799

870

200

444

211

2006

1306

428

1340

861

297

556

424

1002

465

929

983

759

463

964

909

772

144

147

665

883

643

713

735

146

186

445

778

965

687

29

94

908

573

925

225

771

793

693

249

864

887

340

409

141

692

161

902

116

671

65

888

74

555

863

562

650

427

296

163

801

620

905

175

582

363

171

145

172

387

820

806

1885

2171

2094

2133

1007

792

2053

2173

2136

2149

2174

2152

2014

1939

2104

2110

2137

2015

1023

1081

1912

1042

1061

1105

2144

2069

1733

2111

317

403

423

71

561

318

576

2072

2077

2101

2082

2030

513

2063

2076

2116

2059

1109

2139

2017

2074

2102

2016

1138

1107

550

2080

2023

1660

2004

2038

1370

1855

2208

862

164

617

709

379

690

598

402

710

361

688

670

355

21

380

193

62

64

55

829

362

42

597

1948

1172

1996

1090

2002

1169

1753

1967

1961

1530

1204

1936

1664

1334

1234

1902

1962

1620

187

408

802

140

1901

1899

1796

1897

1805

1925

1665

1802

1895

1289

1806

1022

1415

1668

1616

1808

1015

1376

1305

1179

1273

1576

1534

1379

1211

1335

1272

1212

1339

1337

1377

1031

1070

2177

1498

1378

1302

1243

1573

1157

1021

1666

1126

1807

1621

1536

1038

1766

1416

1667

1560

1617

1535

1325

1797

1419

1759

1764

1715

1374

1125

1300

1321

1287

1308

985

535

483

736

539

1336

1669

1307

1799

1059

1319

1767

1380

760

1156

536

2154

805

1363

1760

1364

1622

1360

1722

1032

1091

1577

1801

1190

1714

1359

1361

1768

1798

1645

959

967

1286

782

1285

1274

1147

448

948

1342

1499

1623

1578

1324

997

1905

1362

1100

1346

1309

1051

1538

1460

1213

1719

1275

1323

1721

1624

1537

1676

1541

1671

1092

1400

1057

1672

1079

1099

1627

1058

1420

1398

118

1016

1320

1628

926

944

1828

1626

978

1583

1124

1716

1397

1421

1033

1343

804

Growth.Season
Min.pET

Mean.Jan.Temperature

1809

1003

1244

1675

1826

1539

1520

1720

1037

1403

1723

1399

1810

1858

1401

1358

1052

1181

1906

1540

1629

1763

1402

1117

1859

1345

947

821

943

886

869

1670

941

1501

1344

1381

1078

1502

963

945

822

1098

1463

1584

1582

960

1724

1384

1673

1500

903

1439

982

198

923

1860

1071

1076

1674

1221

1461

942

1097

1036

1034

1148

1542

1438

1581

1762

1811

1189

1625

1053

1437

1761

1462

1503

1072

1543

1677

1077

1587

1631

1423

1769

865

924

1725

464

1827

781

1481

1478

980

1276

984

1579

1020

1477

1601

1056

557

447

966

160

174

711

800

41

577

339

833

173

364

605

998

946

407

224

849

134

295

425

386

1396

1017

1096

981

1441

1476

1440

1422

1310

1357

1383

138

1464

1424

1385

904

1001

962

538

1382

1155

1387

117

404

733

142

583

53

757

558

648

575

143

92

834

581

406

621

139

195

712

133

619

63

223

199

405

93

248

758

184

115

579

197

185

578

734

169

691

668

601

82

649

103

644

667

1425

885

779

850

603

1311

1348

604

819

384

666

272

196

647

170

293

1473

1509

1352

104

602

1512

1355

1281

1216

1316

1593

1684

1390

1505

1732

1640

1506

426

596

626

595

381

848

385

168

294

247

646

72

1429

1470

1549

1510

1430

1391

1591

73

559

246

81

1432

1433

1282

1353

891

1471

1830

645

194

383

600

20

580

1862

165

1838

1839

1837

221

270

269

1865

1864

274

1863

356

1842

121

1630

0.2

1644

1770

1681

1442

979

1019

1000

1035

1514

1122

2180

1054

1554

1678

1600

1214

1585

1586

1515

1680

1251

1774

1149

1718

2044

1075

999

1388

1504

1594

1314

868

1182

1595

1123

1313

852

1312

1479

1679

1771

1248

1185

1475

1544

1726

1278

1688

1018

1559

1386

1682

1596

1187

927

780

1153

1555

1643

1517

1283

1518

1280

1073

1118

1513

1055

446

625

1717

1516

1279

1347

1812

1389

1436

1727

1829

136

1350

1349

835

1184

1183

624

1094

836

1249

1557

137

1730

1119

1558

1150

1356

1217

1093

1435

1151

1772

1154

1545

1095

1465

1218

1552

1546

1395

1152

1773

1861

928

1135

1729

1426

1186

1519

1637

1351

1480

1632

1121

1728

1315

1120

1556

1466

1219

1220

1245

1474

1638

1683

1597

1074

1427

1731

1277

1434

1215

1687

1598

1550

1508

1318

1685

1633

1250

1247

1589

1428

1639

1588

1246

1634

1641

1392

1354

1642

622

1592

1472

1393

1317

1468

867

851

1469

1635

1511

1394

1551

1507

1548

1636

1467

1547

623

1866

1686

1431

1590

1869

245

1290

191

466

250

222

1856

220

166

271

341

33

694

930

1870

1868

1840

1867

1841

1873

1831

1874

1871

1832

330

845
336

808

1935

1938

219

949

1158

429

1872

1833

1813

1599

866

167

192

1553

961

884

1580

1188

537

560

628

642

847

382

360

244

189

213

359

1844

1836

1040

1252

1602

358

1101

331

241

215

606

627

1834

286

365

1845

217

1877

267

357

853

1846

1835

1879

1876

218

239

268

214

242

240

1847

1878

285

243

105

262

292
263

1848

291

190

1849

290

216

2150

2179

1775

Water.Defcit

289

1975

> lm.exoticas <- lm(clima$Alien ~ pca1$x[, 1:2])


2


1875

1843

188

1926

1904

1923

1039

516

1954

1931

783

737

803

901

574

43

882

54

284

287

514

2027

2058

1658

388

338

818

669

212

2147

2098

810

1978

1790

672

443

689

114

333

45

673

651

1880

517

2161

1850

789

1368

1485

916

69

183

2190

2168

786

2045

1815

2155

1127

911

2191

1882

1817

2089

764

509

744

2086

548

568

508

2123

2129

895

1701

1027

878

840

1816

2013

912

1564

767

1525

2048

2090

1522

1786

1128

2051

716

854

2088

630

1523

1227

76

2047

1981

977

706

Max.pET

Rango.de.temperatura


Insolation

PET
Mean.Temperature

2166

784

2012

1367

1608

1103

543

2124

1609

2120

588

1974

1563

1607

2011

873

859

474

376

354

2226

2087

1605

2050

75

1604

1443

1820

547

1779

2049

1653

1700

1738

1697

1562

1818

739

46

563

1405

766

367

1261

1129

541

544

608

1698

467

1651

523

1365

524

2207

526

1292

1406

85

486

413

1743

371

521

302

389

226

1159

502

504

875

1366

525

251

2184

1734

1652

150

205

1742

1257

2219

1689

491

431

323

430

435

1776

2008

1253

2046

449

1777

2223

2199

2227

2236

2220

698

599

264

332

2233

2230

1819

315

312

2198

2215

2157

2122

1603

1735

2185

2224

2156

2218

1737

2202

2203

589

2228

2210

2165

2229

1851

2214

1852

2241

2222

2211

2239

2160

1404

545

1695

2188

2158

1739

2159

1696

1130

2121

1694

919

1736

2085

685

1693

661

1691

2009

2238

2240

1690

684

50

237

1970

1692

1740

1781

613

2083

2084

1741

2206

1780

1649

2212

1160

1646

2216

25

51

2183

660

316

236

311

310

2213

Precipitation
Rainfall

2181

1612

2221

913

989

131

540

1782

663

832

91

342

542

2200

1655

112

2201

1785

1746

937

881

1650

740

182

1327

1483

699

1648

892

84

527

1087

458

337

817

1647

894

839

78

132

519

507

586

897

1088

564

1222

1971

653

700

378

238

334

2182

2186

487

1196

677

390

1068

1143

106

95

60

209

1973

1783

679

2204

652

441

433

1260

303

343

391

1972

501

393

1011

77

344

935

210

831

313

261

366

152

107

49

1256

2217

227

11

1162

511

1067

258

420

1295

816

90

266

288

0.6

124

718

58

2205

492

485

1223

696

87

24

67

567

697

228

877

2010

1784

720

566

96

151

893

607

159

345

641

305

520

1291

100

1328

35

123

1566

970

876

640

469

57

1524

2187

1745

204

126

1565

22

1258

1445

1294

503

815

522

546

858

1444

1226

1744

1330

125

201

127

129

473

208

1699

743

505

1293

490

422

436

846

468

880

1329

234

414

1224

434

639

392

369

938

683

346

478

399

368

400

681

841

899

898

936

68

457

1225

918

456

419

233

257

440

742

37

450

130

98

256

856

375

1484

59

252

678

917

179

455

298

321

36

111

314

857

23

351

719

439

324

47

155

229

10

855

397

411

472

452

470

301

307

488

275

110

353

308

348

506

101

231

489

437

306

329

279

276

328

320

259

156

108

283

451

830

454

327

438

158

352

304

662

88

153

421

89

149

587

277

99

432

322

154

282

326

370

281

109

254

157

181

309

177

178

412

86

398

280

180

1194

203

347

202

416

206

335

253

255

97

325

265

374

417

260

48

350

396

395

394

128

207

372

349

232

0.4

1161

300

874

373

418

0.2

471

299

415

230

0.0

278

453

0.2

1192

1193

0.4

PC2

Luis Cayuela
Analisis multivariante

> biplot(pca1, cex = c(0.01, 1), scale = 0.5, ylim = c(-0.6, 0.6))
> points(x = pca1$x[, 1], y = pca1$x[, 2], cex = clima[, 1]/300,
+
col = "grey")

0.4

PC1

Lo que hemos hecho ha sido, por un lado, representar la relacion de las


variables clim
aticas con los dos primeros componentes del PCA. Pero ademas,
hemos representado en este gr
afico cada una de las celdas de 10 x 10 km con
un tama
no (cex) que es proporcional a su riqueza de especies exoticas. De esta
manera podemos interpretar el significado de los ejes y empezar a vislumbrar
si existe alguna relaci
on entre estos ejes y nuestra variable respuesta. Tanto el
gr
afico como las correlaciones de las variables con los ejes parecen apuntar a
que el primer componente est
a relacionado con la temperatura
(Mean.Temperature, Mean.Jan.Temperature), la evapotranspiracion potencial
(PET, Max.PET) y la duraci
on de la estacion de crecimiento (Growth.Season),
mientras que el segundo componente esta relacionado fundamentalmente con
la evapotranspiraci
on real (AET) y el deficit hdrico (Water.Deficit). Por tanto
podramos decir que el primer componente esta vinculado a la entrada de
energa en el sistema y el segundo al deficit hdrico (ya que esta y la AET estan
correlacionadas negativamente). Ademas, vemos que la riqueza de especies
nativas parece estar asociada positivamente con el eje 1 (entrada de energa en
el sistema).

Vamos a ajustar ahora el modelo estadstico para explicar la riqueza de


especies nativas est
a realmente explicada por estas dos nuevas variables.

Luis Cayuela

Analisis multivariante

> summary(lm.exoticas)
Call:
lm(formula = clima$Alien ~ pca1$x[, 1:2])
Residuals:
Min
1Q
-144.57 -43.12

Median
-7.34

3Q
32.69

Max
365.61

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
155.9568
1.3266 117.562
<2e-16 ***
pca1$x[, 1:2]PC1 29.8974
0.5019 59.567
<2e-16 ***
pca1$x[, 1:2]PC2 -0.3346
0.7722 -0.433
0.665
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 62.83 on 2240 degrees of freedom
Multiple R-squared: 0.613,
Adjusted R-squared: 0.6127
F-statistic: 1774 on 2 and 2240 DF, p-value: < 2.2e-16
Vemos que la primera variable es significativa y positiva y que el modelo
explica cerca del 60 % de la variabilidad de la riqueza de exoticas. Vamos a
revisar los residuos del modelo.

Luis Cayuela

Analisis multivariante

ScaleLocation

100

100

200

1.0
0.0

1885
1902
1800

2.0

Residuals vs Fitted
Standardized residuals

200
0
200

Residuals

400

> par(mfcol = c(2, 2))


> plot(lm.exoticas)

300

1885
1902
1800

100

Fitted values

6
4
2
0
2

Standardized residuals

6
4
2
0
2

Standardized residuals

200

300

Residuals vs Leverage
1885
1800
1902

100

Fitted values

Normal QQ

1885
1902

1872

Cook's distance

0.000

0.002

Theoretical Quantiles

0.004

0.006

Leverage

No parece que el modelo sea muy idoneo. Es claramente heterocedastico y no


lineal. Adem
as, tengamos en cuenta que la variable respuesta es un conteo y,
por tanto, predicciones que no sean enteros o con valores por debajo de 0 (que
son posibles asumiendo una distribucion de errores normal) no tienen sentido.
Probemos un modelo Poisson.
> glm.exoticas <- glm(clima$Alien ~ pca1$x[, 1:2], family = poisson)
> summary(glm.exoticas)
Call:
glm(formula = clima$Alien ~ pca1$x[, 1:2], family = poisson)
Deviance Residuals:
Min
1Q
-12.8684
-3.4042

Median
-0.6294

3Q
2.4196

Max
20.9990

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
4.8574493 0.0020704 2346.14
<2e-16 ***
pca1$x[, 1:2]PC1 0.2581541 0.0008915 289.56
<2e-16 ***
pca1$x[, 1:2]PC2 -0.0303083 0.0010245 -29.59
<2e-16 ***
--10

Luis Cayuela

Analisis multivariante

Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1)


Null deviance: 153463
Residual deviance: 45873
AIC: 60635

on 2242
on 2240

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


Ahora las dos variables son significativas. La primera, relacionada con la
entrada de energa en el sistema, se relaciona positivamente con la riqueza de
nativas. Y la segunda, que es una indicadora del deficit hdrico, lo esta
negativamente. As que a mayor deficit hdrico, menor riqueza de especies
ex
oticas. Vamos a ver si esta vez los residuos son adecuados.
> par(mfcol = c(2, 2))
> plot(glm.exoticas)

3
2
1
0

ScaleLocation

1013

621
536

Std. deviance resid.

10
0
10

Residuals

20

Residuals vs Fitted

2.5

3.5

4.5

5.5

1013

621
536

2.5

3.5

Predicted values

30
20
10
0
10

Std. Pearson resid.

10

20

1013

621
536

0
10

Std. deviance resid.

Normal QQ

4.5

5.5

Predicted values

Residuals vs Leverage

2150

1885

517

Cook's distance

0.000

Theoretical Quantiles

0.004

0.5

0.5

0.008

Leverage

Si vemos los residuos observaremos que el modelo, aunque no es perfecto, es


bastante m
as adecuado que el modelo normal.

11

Luis Cayuela

3.

Analisis multivariante

An
alisis de la varianza multivariado
(MANOVA)

El An
alisis de la Varianza Multivariante (MANOVA) es una extension del
an
alisis de la varianza (ANOVA) que permite cubrir los casos donde hay mas
de una variable dependiente que no pueden ser combinadas de manera simple.
Por tanto, frente al ANOVA o la regresion, en donde tendramos la siguiente
formulaci
on del modelo:
y x1 + x2 + . . . + xn
en el MANOVA el modelo quedara formulado de la siguiente forma:
y1 + y2 + . . . + yk x1 + x2 + . . . + xn
Por lo general, se ha aceptado la terminologa de MANOVA para referirse a
an
alisis que contemplan varias variables respuesta continuas, pero sin prestar
mucha atenci
on a si las variables explicativas son continuas o discretas. En un
sentido estricto, si las variables explicativas fueran continuas tendramos una
regresi
on m
ultiple multivariante, si fueran discretas estaramos ante un caso de
an
alisis de la varianza multifactorial multivariante, y si fueran de ambos tipos
el an
alisis sera del tipo ANCOVA multivariante. Sin embargo, es muy com
un
referirse a cualquiera de ellos como MANOVA, y esta sera la terminologa
usada aqu. El MANOVA, al igual que los modelos lineales, se basa en una
serie de supuestos:
las muestras son independientes entre s;
cada variable tiene una distribuci
on normal;
en conjunto las k variables dependientes tienen la distribuci
on normal

conjunta;
las varianzas de cada variable son iguales al compararlas de tratamiento

a tratamiento;
las correlaciones entre dos variables de un mismo grupo son las mismas

de grupo a grupo.
Estos supuestos son muchas veces difciles de cumplir. Por ello, una alternativa
eficiente al MANOVA es el MANOVA semi-parametrico, que utiliza las
distancias entre cada par de observaciones para obtener una matriz de
distancia sobre la que luego se calcula la significacion de las variables
explicativas con simulaciones de Monte Carlo. Este tipo de enfoque es muy
similar al del escalamiento multidimensional no metrico (NMDS), en tanto que
la partici
on de la varianza se hace utilizando una matriz de distancias, por lo
que ambos metodos se complementan bastante bien.
Hay que considerar que la interpretacion de un MANOVA (ya sea parametrico
o semi-parametrico) es bastante mas compleja que la de un ANOVA o una
12

Luis Cayuela

Analisis multivariante

regresi
on. Por medio de este analisis solo es posible saber si la(s) variables
explicativa(s) tienen un efecto sobre el conjunto de las variables respuesta,
pero difcilmente sabremos c
omo es este efecto a no ser que utilicemos otras
tecnicas complementarias como el NMDS. Por tanto, al realizar un analisis de
este tipo nos fijaremos en la significacion de los coeficientes y, cuando sea
posible, en la variabilidad explicada por cada una de las variables explicativas.
En R hay, por lo menos, dos funciones que nos permiten ajustar un MANOVA.
La funci
on manova() se encuentra dentro del paquete stats y ajusta MANOVAs
parametricos, por lo que es importante evaluar la idoneidad del modelo
mirando los residuos. La funci
on adonis(), dentro del paquete vegan, permite
ajustar MANOVAs semi-parametricos, por lo que la evaluacion de los residuos
del modelo no es necesaria. Nos centraremos en esta u
ltima para el analisis de
comunidades biol
ogicas.

3.1.

Ejemplo: Qu
e variables determinan la composici
on
2
florstica en bosques tropicales montanos?

Se quiere investigar que variables ambientales afectan la composicion florstica


de
arboles en parcelas de 0.1 hectareas muestreadas en distintos tipos de
bosques tropicales en los Altos de Chiapas, Mexico (bosque de pino-encino
(POF), bosque de encino (OF), bosque de pino (PF), bosque nublado (MCF)
y bosque transicional a selva baja caducifolia (TF)). El tipo de bosque es el
resultado de factores ambientales (clima) y el uso humano.
Para este caso de estudio se han seleccionado las 86 especies mas abundantes
sobre un total de 231 en 204 parcelas de 0.1 hectareas. Para cada especie
tenemos su abundancia total en cada parcela. Queremos construir un modelo
en d
onde la composici
on de
arboles quede en funcion por un lado del tipo de
bosque y, por otro, de la productividad (medida a partir del ndice de
vegetaci
on NDVI obtenido de una imagen Landsat del a
no 2000) y la elevacion.
La matriz de parcelas (filas) x especies (columnas) esta disponible en la
siguiente direcci
on http://tinyurl.com/MANOVA-bio. Las variables
ambientales para las parcelas muestreadas (tipo de bosque, productividad,
elevaci
on) est
an disponibles en la siguiente direccion
http://tinyurl.com/MANOVA-env.
Vamos primero a cargar la matriz de parcelas x especies y los datos
ambientales en R.
> bio <- read.table("http://tinyurl.com/MANOVA-bio", header = T,
+
sep = "\t")
> env <- read.table("http://tinyurl.com/MANOVA-env", header = T,
+
sep = "\t")
Ahora vamos a ajustar un MANOVA en donde la composicion de especies
(bio) va a estar en funci
on de las variables que hay en el arreglo de datos env
(Forest type, Productivity, Elevation).
2 Cayuela,

L., Golicher, D.J., Rey Benayas, J.M., Gonz


alez-Espinosa, M. & RamrezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181

13

Luis Cayuela

>
>
>
>

Analisis multivariante

library(vegan)
attach(env)
manova1 <- adonis(bio ~ Forest.type + Productivity + Elevation)
manova1

Call:
adonis(formula = bio ~ Forest.type + Productivity + Elevation)
Df SumsOfSqs MeanSqs
Forest.type
4
14.486 3.6215
Productivity
1
1.019 1.0188
Elevation
1
5.401 5.4013
Residuals
197
57.895 0.2939
Total
203
78.801
--Signif. codes: 0 *** 0.001 **

F.Model
R2 Pr(>F)
12.3231 0.18383 0.001 ***
3.4667 0.01293 0.001 ***
18.3791 0.06854 0.001 ***
0.73470
1.00000
0.01 * 0.05 . 0.1 1

Los resultados muestran que todas las variables son significativas. Las sumas
de cuadrados (SumsOfSqs) nos dicen que cantidad de variabilidad esta
explicada por cada una de las variables y la variabilidad residual (esto es, no
explicada por el modelo). En este ejemplo podemos ver que la composicion de
arboles en bosques tropicales montanos esta explicada fundamentalmente por
el tipo de bosque (14.49/78.80 = 18 %), pero tambien por la productividad
(1.018/78.80 = 1 %) y la elevacion (5.40/78.80 = 7 %). Es decir, que
dependiendo del tipo de bosque vamos a encontrar distintas especies. Pero
adem
as existe un gradiente altitudinal que condiciona en parte la composicion
de estos bosques. Podra ser interesante explorar si este gradiente altitudinal
afecta de manera distinta a los distintos tipos de bosque. Para ello vamos a
incluir la interacci
on entre estas variables en un nuevo modelo.
> manova2 <- adonis(bio ~ Forest.type + Productivity + Elevation +
+
Forest.type:Elevation)
> manova2
Call:
adonis(formula = bio ~ Forest.type + Productivity + Elevation +
Df SumsOfSqs MeanSqs
Forest.type
4
14.486 3.6215
Productivity
1
1.019 1.0188
Elevation
1
5.401 5.4013
Forest.type:Elevation
4
4.323 1.0808
Residuals
193
53.572 0.2776
Total
203
78.801
--Signif. codes: 0 *** 0.001 ** 0.01 *

F.Model
13.0471
3.6704
19.4590
3.8936

R2 Pr(>F)
0.18383 0.001 ***
0.01293 0.001 ***
0.06854 0.001 ***
0.05486 0.001 ***
0.67984
1.00000

0.05 . 0.1 1

Y vemos que, efectivamente, el cambio en la composicion de especies a lo largo


del gradiente altitudinal va a ser distinto seg
un el tipo de bosque (y explica
14

Forest.type:Elevation)

Luis Cayuela

Analisis multivariante

cerca de un 5 % de la variabilidad en la composicion de especies). Esto podra


indicar, por ejemplo, que algunos tipos de bosque no van a sufrir ning
un
cambio en la composici
on de especies a lo largo del gradiente altitudinal y
otros s. Sin embargo, no es posible conocer el sentido de esta interaccion a
partir u
nicamente de los resultados de este analisis. Podramos hacer
MANOVAS individuales para cada uno de los tipos de bosque o podramos
utilizar otras tecnicas multivariantes que nos van a ayudar a interpretar estos
resultados visualmente, como veremos en la siguiente seccion.

4.

Escalamiento multidimensional no m
etrico
(NMDS)

El escalamiento multidimensional no metrico (NMS, MDS, NMDS o NMMDS)


es una tecnica multivariante de interdependencia que trata de representar en
un espacio geometrico de pocas dimensiones las proximidades existentes entre
un conjunto de objetos. El NMDS es un metodo de ordenacion adecuado para
datos que no son normales o que estan en una escala discontinua o arbitraria.
Una ventaja del NMDS frente a otras tecnicas de ordenacion es que, al estar
basada en rangos de distancias, tiende a linealizar la relacion entre las
distancias ambientales y las distancias biologicas (esto es, calculadas a partir
de una matriz de sitios x especies). Una de las desventajas de esta tecnica es la
dificultad para alcanzar una solucion estable u
nica. A pesar de ello, el NMDS
es una tecnica ampliamente utilizada en ecologa para detectar gradientes en
comunidades biol
ogicas.
El NMDS se implementa de la siguiente forma:
1. Se calcula la matriz de disimilaridad X a partir de la matriz de datos de
sitios x especies. Esta matriz nos indica como de iguales son cada par de
sitios utilizando para ello la similaridad entre sus especies. Supongamos
que tenemos tres especies (sp1, sp2, sp3) y tres sitios (A, B, C). El sitio
A tiene sp1 = 3, sp2 = 0 y sp3 = 8. El sitio B tiene sp1 = 3, sp2 = 0 y
sp3 = 6. El sitio C tiene sp1 = 0, sp2 = 5 y sp3 = 1. Por tanto, podemos
calcular una matriz de disimilaridad que nos indique con n
umeros que los
sitios A y B son muy iguales, mientras que los sitios A y C y B y C son
muy distintos entre s. Cuando se trata de datos biologicos la distancia
m
as usada es la distancia de Sorensen (Bray-Curtis) en vez de la
distancia Eucldea.
2. Se asignan los sitios (unidades muestrales) a una configuracion inicial
aleatoria en un espacio k-dimensional (donde k es el n
umero de especies),
aunque en realidad, la ordenacion se va a realizar principalmente sobre
unas pocas dimensiones (2 o 3).
3. Se calculan las distancias sobre este nuevo espacio geometrico y se
calcula una matriz de distancia Y .
4. Se comparan las matrices de distancia X e Y y se mide como son de
parecidas entre ellas (stress).
15

Luis Cayuela

Analisis multivariante

5. A partir de la configuracion inicial, se reasignan los sitios (unidades


muestrales) para reducir las distancias con la matriz X.
6. Se repite este proceso de manera iterativa hasta que se consigue una
soluci
on
optima en d
onde la matriz de distancias Y es muy parecida a la
matriz de distancias X. Esto es, se minimiza el stress.
La ventaja del NMDS es que nos permite, al igual que el PCA, reducir la
dimensionalidad de nuestros datos originales. El resultado de la ordenacion se
puede visualizar en un gr
afico de ordenacion. Posteriormente podemos
relacionar los ejes resultantes de dicha ordenacion con distintas variables
ambientales para determinar de manera indirecta el efecto de estas sobre la
matriz de sitios x especies.
Aunque en ecologa se utiliza tpicamente esta tecnica para analizar datos de
comunidades biol
ogicas (matriz de sitios x especies) tambien se puede aplicar a
otro tipo de datos, como por ejemplo m
ultiples variables fsico-qumicas
medidas en distintos cuerpos de agua (ros, embalses, pantanos). Esta tecnica
se utiliza tambien mucho en otras disciplinas, como la psicologa o la
economa. En R tenemos una implementacion de esta funcion (metaMDS) en el
paquete vegan.

4.1.

Ejemplo: Gradientes de composici


on florstica en
bosques tropicales montanos3

Al igual que en ejemplo anterior, se quiere investigar que variables ambientales


afectan la composici
on florstica de arboles en parcelas de 0.1 hectareas
muestreadas en distintos tipos de bosques tropicales en los Altos de Chiapas,
Mexico. El tipo de bosque es el resultado de factores ambientales (clima) y el
uso humano. Se seleccionaron las 86 especies mas abundantes sobre un total de
231 en 204 parcelas de 0.1 hectareas. Para cada especie tenemos su abundancia
total en cada parcela. Queremos construir un modelo en donde la composicion
de
arboles quede en funci
on por un lado del tipo de bosque y, por otro, de la
productividad (medida a partir del ndice de vegetacion NDVI obtenido de una
imagen Landsat del a
no 2000) y la elevacion.
Los objetivos concretos son:
1. Explorar visualmente c
omo son de similares o distintas las parcelas
muestreadas en funci
on de las especies que contienen.
2. Investigar la relaci
on entre esta ordenacion y las variables ambientales
por medio de correlaciones de dichas variables con los ejes de ordenacion
y el ajuste de superficies de tendencia.
La matriz de parcelas (filas) x especies (columnas) esta disponible en
http://tinyurl.com/MANOVA-bio. Las variables ambientales para las parcelas
3 Cayuela, L., Golicher, D.J., Rey Benayas, J.M., Gonz
alez-Espinosa, M. & RamrezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181

16

Luis Cayuela

Analisis multivariante

muestreadas (tipo de bosque, productividad, elevacion) estan disponibles en


http://tinyurl.com/MANOVA-env.
Al igual que en el caso anterior es necesario cargar la matriz de parcelas x
especies y los datos ambientales en R. Si se ha realizado el ejercicio anterior en
esta misma sesi
on se puede saltar este paso.
> bio <- read.table("http://tinyurl.com/MANOVA-bio", header = T,
+
sep = "\t")
> env <- read.table("http://tinyurl.com/MANOVA-env", header = T,
+
sep = "\t")
Vamos ahora a realizar el escalamiento multidimensional no metrico. Como la
configuraci
on inicial de las parcelas es aleatoria, cada vez que realicemos el
NMDS vamos a tener un resultado ligeramente distinto. Para evitar esto
vamos a utilizar el comando set.seed() que genera unos datos semilla a partir
de los cuales se establece la configuracion inicial de las parcelas en los ejes del
NMDS. De esta manera, cada vez que realicemos el analisis obtendremos el
mismo resultado.

17

Luis Cayuela

Analisis multivariante

> set.seed(0)
> nmds1 <- metaMDS(bio)
Square root transformation
Wisconsin double standardization
Using step-across dissimilarities:
Too long or NA distances: 3643 out of 20706 (17.6%)
Stepping across 20706 dissimilarities...
Connectivity of distance matrix with threshold dissimilarity 1
Data are connected
Run 0 stress 20.58713
Run 1 stress 21.49227
Run 2 stress 22.13124
Run 3 stress 22.2231
Run 4 stress 24.14967
Run 5 stress 21.73649
Run 6 stress 20.77451
Run 7 stress 23.69372
Run 8 stress 20.98569
Run 9 stress 22.35428
Run 10 stress 21.94549
Run 11 stress 21.27711
Run 12 stress 21.64029
Run 13 stress 21.26395
Run 14 stress 22.31659
Run 15 stress 21.74069
Run 16 stress 22.03471
Run 17 stress 21.23971
Run 18 stress 21.90118
Run 19 stress 21.30491
Run 20 stress 21.26796
> plot(nmds1)

++

+ +
++

+
+

NMDS2

+
+ +
+

++
+
+
+

+
++ ++++ ++
+ ++

+
+

+
+


+
++

+
+

+ + +
+++

18
1

++


+
+
+

0
NMDS1

Luis Cayuela

Analisis multivariante

Este gr
afico no es muy informativo. Vamos a personalizarlo para poder obtener
m
as informaci
on sobre los tipos de bosque.

> plot(nmds1, type = "n")


> points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)
+
cex = 1.5)
> legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest",
+
"Pine forest", "Pine-oak forest", "Transitional forest"),
+
pch = c(1:5), col = c(1:5))

NMDS2


Cloud forest

Oak forest

Pine forest
Pineoak forest
Transitional forest
2

NMDS1

Vemos que los distintos tipos de bosque se diferencian bastante bien en cuanto
a la composici
on de especies que los componen. Algunos grupos son mas
compactos, como los bosques transicionales, y otros mas heterogeneos, como
los bosques de niebla (que parece que forman dos subgrupos) y los bosques de
encino y pino-encino. Vamos a insertar en la grafica los vectores de las
variables ambientales utilizando para ello la funcion envfit() del paquete vegan.

19

Luis Cayuela

plot(nmds1, type = "n")


points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)
cex = 1.5)
legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest",
"Pine forest", "Pine-oak forest", "Transitional forest"),
pch = c(1:5), col = c(1:5))
ef <- envfit(nmds1, env, permu = 1000)
plot(ef)

>
>
+
>
+
+
>
>

Analisis multivariante

Forest.typeTF

NMDS2

Forest.typeCF

Forest.typeOF
Forest.typePOF

Productivity

Cloud forest

Oak forest

Pine forest
Pineoak forest
Transitional forest
2

Forest.typePF

Elevation

NMDS1

Vemos los centroides de los distintos tipos de bosque. Tambien observamos que
la elevaci
on est
a relacionada con el eje 2 y la productividad con ambos ejes
marcando un gradiente desde la parte superior derecha de la grafica (menor
productividad) a la parte inferior izquierda (mayor productividad). Sin
embargo, las respuestas multivariantes a variables ambientales rara vez son
lineales. Por ello vamos a utilizar otra tecnica que nos va a permitir ajustar
superficies de tendencia para las variables continuas.

20

Luis Cayuela

>
>
+
>
+
+
>

Analisis multivariante

plot(nmds1, type = "n")


points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)
cex = 1.5)
legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest",
"Pine forest", "Pine-oak forest", "Transitional forest"),
pch = c(1:5), col = c(1:5))
ordisurf(nmds1, env$Productivity, add = T)

Family: gaussian
Link function: identity
Formula:
y ~ s(x1, x2, k = knots)
<environment: 0x95cce1c>
Estimated degrees of freedom:
8.0797 total = 9.079708
GCV score: 0.0126316
> ordisurf(nmds1, env$Elevation, add = T, col = "green")
Family: gaussian
Link function: identity
Formula:
y ~ s(x1, x2, k = knots)
<environment: 0xa7dda38>
Estimated degrees of freedom:
8.7164 total = 9.716417
GCV score: 10561.37

0.5

0.55

1600
0.

0.6

1700


2100

2200

0.9

NMDS2

.9


0
0
20

1800

0.6

1900

0.7

2300

2400

26
00


Cloud forest

0
2

Oak forest 70

2500

0.55

0.
85

0.7

Pine forest
Pineoak forest
Transitional forest

21
2

0
NMDS1

Luis Cayuela

Analisis multivariante

Ahora tenemos una visi


on mucho mas completa de que esta pasando. Vemos
que las zonas de mayor altitud van a determinar la presencia de bosque
nublado, pero no de bosque de pino, como pareca indicar la grafica anterior.
Por otro lado la productividad va a condicionar (en mucha menor medida
como vimos en el ejemplo anterior) la formacion de bosques transicionales y
pinares. Los bosques de encino y pino-encino muestran una heterogeneidad
bastante amplia en cuanto a su respuesta a la productividad y la elevacion y,
finalmente, los bosques de niebla son los que mas productividad tienen (por
algo son bosques siempre-verdes frente al resto -excepto los bosques de pinoque son mixtos caducifolios).

5.

An
alisis de correspondencias can
onico
(CCA)

Que es el an
alisis de correspondencias canonico? El analisis de
correspondencias can
onico (CCA) es una tecnica multivariante que permite
representar en un espacio geometrico de pocas dimensiones las proximidades
existentes entre un conjunto de objetos condicionado por una serie de variables
predictoras. El CCA es una tecnica de ordenacion restringida (constrained
ordination), lo que significa que la ordenacion de los objetos representa
solamente la estructura de los datos que maximiza la relacion con una segunda
matriz de variables predictoras. Normalmente el CCA relaciona dos matrices:
la matriz de variables dependientes (p.e. una matriz de sitios x especies) y la
matriz de variables independientes (p.e. una matriz de variables ambientales).
La relaci
on entre ambas matrices se hace por medio de tecnicas de regresion
multivariante.
Cuando se utiliza CCA es importante tener en cuenta lo siguiente:
1. El CCA incluye la aplicacion de tecnicas de regresion y, por tanto, todas
los supuestos y consideraciones de los modelos lineales han de ser tenidos
en cuenta.
2. A medida que el n
umero de variables ambientales aumenta con respecto
al n
umero de observaciones (muestras), el resultado del CCA se hace
m
as dudoso, independientemente de que las relaciones observadas sean
aparentemente fuertes.
3. Los usuarios de esta tecnica han de tener en cuenta que su interpretacion
no supone una descripci
on de los datos de la matriz de variables
dependientes per se, sino mas bien de la parte de la estructura de los
datos que est
a relacionada con las variables predictoras.
En el CCA, la variabilidad explicada por los ejes de ordenacion esta
representada por el termino inercia (Inertia). Hay una inercia total que
representara la variabilidad total de los datos (como la devianza del modelo
nulo en GLM) y una devianza de la ordenacion restringida (constrained inertia)
que informa de la parte de la variabilidad total explicada por las variables
predictoras en el CCA. Asimismo es interesante ver que proporcion de dicha
22

Luis Cayuela

Analisis multivariante

variabilidad queda explicada por cada uno de los ejes del CCA, teniendo en
cuenta que habr
a tantos ejes como variables predictoras incluyamos en el
modelo, si bien generalmente la mayor parte de la variabilidad va a quedar
resumida en los 2 o 3 primeros ejes.

5.1.

Ejemplo: C
omo se relaciona la estructura de
comunidades de plantas con las variables
ambientales?4

Siguiendo con el ejemplo anterior (ver secciones 3.1 y 4.1) queremos seguir
profundizando en la relaci
on entre las variables ambientales y la composicion
de
arboles en bosques tropicales montanos. Los objetivos especficos de este
caso de estudio son:
1. Investigar cu
al es la relacion entre especies y sitios explicada por
variables ambientales;
2. Visualizar los datos con distintas funciones graficas y entender los
resultados de un CCA.
Los datos son los mismos que hemos utilizado en los ejemplos 3.1 y 4.1.
> cca1 <- cca(bio ~ Forest.type + Productivity + Elevation, data = env)
> cca1
Call: cca(formula = bio ~ Forest.type + Productivity + Elevation, data
= env)
Inertia Proportion Rank
Total
12.7751
1.0000
Constrained
2.2884
0.1791
6
Unconstrained 10.4867
0.8209
85
Inertia is mean squared contingency coefficient
Eigenvalues for constrained axes:
CCA1
CCA2
CCA3
CCA4
CCA5
CCA6
0.73472 0.58627 0.51578 0.24928 0.12219 0.08012
Eigenvalues for unconstrained axes:
CA1
CA2
CA3
CA4
CA5
CA6
CA7
CA8
0.6702 0.5871 0.4999 0.4946 0.4819 0.4276 0.3761 0.3420
(Showed only 8 of all 85 unconstrained eigenvalues)
4 Cayuela, L., Golicher, D.J., Rey Benayas, J.M., Gonz
alez-Espinosa, M. & RamrezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181

23

Luis Cayuela

plot(cca1, type = "n")


points(cca1, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type))
points(cca1, display = "bp", col = "red")
text(cca1, display = "bp")
legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest",
"Pine forest", "Pine-oak forest", "Transitional forest"),
pch = c(1:5), col = c(1:5))

>
>
>
>
>
+
+

Analisis multivariante

Productivity
Elevation
Forest.typeTF
Forest.typeOF
Forest.typePF
Forest.typePOF

CCA2

Cloud forest
Oak forest
Pine forest
Pineoak forest
Transitional forest
6

CCA1

La varianza de la composici
on de especies explicada por las variables
ambientales es de 2.288/12.775 (es decir, un 17.9 %). De esta variabilidad, la
mayor parte est
a explicada por los ejes 1 (0.734/12.775), 2 (0.586/12.775) y 3
(0.515/12.775). En la gr
afica, tambien vemos que el eje 1 del CCA, que esta
relacionado con el tipo de bosque de transicion, nos separa este tipo de bosque
del resto. El eje 2 est
a m
as relacionado con la productividad, la elevacion y el
resto de tipo de bosques. Sera interesante ver otros ejes del CCA para lo cual
podemos hacer representaciones dos a dos del eje 1 con el 3, y del 2 con el 3, o
probar a representar los tres primeros ejes con una grafica tridimensional. El
paquete scatterplot3d y rgl contienen funciones que nos pueden ayudar a esto.

24

Luis Cayuela

>
>
>
>
>
>

Analisis multivariante

library(scatterplot3d)
op <- ordiplot3d(cca1, angle = 25, type = "n")
text(op, "points", col = "grey", pos = 3, cex = 0.6)
text(op, "arrows", col = "blue", pos = 3)
text(op, "centroids", col = "blue", pos = 3)
points(op, "points", col = as.numeric(env$Forest.type))

Elevation
2

Bazom24
Yasht4
Bazom22
Yasht3
Huitep18

Bazom20
Huitep17

TzontA6
TzontA3
TzontA1
TzontA9
Bazom4
Mitzit2
TzontB9
TzontA5
Mitzit3
TzontB10
Bazom8
TzontA8
Barre5
TzontB5
Mitzit1

Barre3Barre1
TzontB7
Yasht5

TzontB4
TzontB1
Barre4
TzontB6
TzontB8
TzontA4
TzontA2

TzontA7
Mitzit5
Bazom2
Yalcuk3

TzontA10
Yalcuk2
Barre10

Mitzit4
Barre9
Bazom21
TzontB2
Bazom3 TzontB3
SAnton5

Mitzit6
Bazom12

Bazom16
Bazom26

SAnton4
SAnton8
Santia8
Chilil2
Bazom17
Bazom19

Bazom25

SAnton9

Santia3
Chilil8
Santia10
Mitzit8
SAnton3
Chilil3
Huitep16

Santia7
Santia2
Mitzit7
Bazom5
Yasht8
Bazom15
Huitep12
Huitep10

Bazom23
Huitep8

SAnton1
Bazom7

Chilil6
Huitep1

Bazom1

Santia5
Yasht9
Naven6
Santia4
Bazom10
Bazom6

Huitep4
SAnton2
Huitep3
Yalcuk9
Bazom11
Santia9

Huitep7
Santia6
Barre6

Yalcuk8
Naven4
Huitep13
Huitep11
Yalcuk4
SAnton6

Huitep14
Bazom18
Naven10
Bazom9
Yasht2

Chilil10

Yalcuk5

Huitep2

Bazom14
Huitep9
Huitep5
Chilil4
Chilil1

Chilil5
Naven9
Yalcuk10
Naven5
Barre7
Yasht6
Naven3

Yasht10
Mitzit9

Huitep15

Yalcuk6

Chilil7

Bazom13

Huitep6
Naven2

Naven1

BVista7
SAnton10

Barre2

Yalcuk7

BVista10
Naven7
Yasht1

Yalcuk1

Mitzit10

Yasht7

BVista6

SAnton7
Santia1

Naven8

Chilil9

SJTunas6


BVista9
SJTunas1

SJTunas9
SJTunas4
BVista2

Cholol1

Barre8
SJTunas8
BVista8
BVista5
Cholol7

BVista1



BVista4
Cruzto2
SJTunas10
SJTunas7
Cruzto8
Cruzto4
SJTunas2
Epalch6
Epalch10

SJTunas5
Cruzto5
SJTunas3
Cruzto7
BVista3

Cholol6

Epalch3
Epalch9
Epalch7
Epalch1
Cruzto10 Cruzto6
Epalch2

Epalch8

Cholol2
Cruzto3
Carid4
Cholol9

Epalch4
Carid8
Cholol5

Cholol3

Cholol4

Cruzto1

Cholol8
Cholol10 Carid10
Carid2

Cruzto9
Carid5
Epalch5
Carid3

Carid1
Carid6

Forest.typePF
Forest.typeTF
Forest.typePOF
Forest.typeCF
Productivity
Forest.typeOF

1
0
1
2

Carid9
Carid7

2
8

CCA2

CCA3

+
+
+

CCA1

Por u
ltimo, podemos utilizar las graficas interactivas del paquete rgl para
representar los resultados del CCA.
> library(rgl)
> ordirgl(cca1, display = "sites")

6.

M
as ejemplos

Se pueden encontrar m
as ejemplos resueltos en
http://curso-r-ceama2009.wikispaces.com/An%C3%A1lisis+multivariante.

7.

Referencias
Zuur, A.F., Ieno, E.N. & Smith, G.M. (2007). Analysing ecological data.

Springer, New York.


25

Luis Cayuela

Analisis multivariante

Crawley, M.J. (2007). The R Book. Wiley.

26

Вам также может понравиться