Вы находитесь на странице: 1из 35

Vistazo general a métodos

de modelamiento
Catherine Graham y Pablo A. Menéndez
con algunas diapositivas de Richard Pearson, A. Town
Peterson, Enrique Martínez and Miguel Nakamura

Richard Pearson
Postdoctoral Research Fellow, American Museum of Natural History

Townsend Peterson
Department of Ecology & Evolutionary Biology, The University of Kansas , Lawrence , Kansas

Enrique Martínez
Instituto de Biología, UNAM, Mexico

Miguel Nakamura
Instituto de Investigación en Matemáticas, Guanajuato, Mexico
Modelos de distribución de
especies
Modelos empíricos que predicen la distribución
espacial de una especie a partir de las
condiciones ambientales en los sitios donde se
sabe que esta presente (o ausente)
- Supuesto: El ambiente del sitio donde ocurre la
especie representa su nicho ecológico
- Son utilizadas una multitud de aproximaciones
estadísticas
Modelamiento
Algunas aproximaciones que se han hecho:

Method(s) Model/software name Species data type


Climatic envelope BIOCLIM Presence-only
Gower Metric DOMAIN Presence-only
Ecological Niche Factor Analysis (ENFA) BIOMAPPER Presence/background
Maximum Entropy MAXENT Presence/background
Genetic algorithm GARP Presence/pseudo-
absence
Regression: Generalized linear model GRASP Presence/absence
(GLM) and Generalized additive model
(GAM)
Artificial Neural Network (ANN) SPECIES Presence/absence
Classification and regression trees (CART), BIOMOD Presence/absence
GLM, GAM and ANN
Boosted decision trees (implemented in R) Presence/absence
Multivariate adaptive regression splines (implemented in R) Presence/absence
(MARS)
Datos de distribución de especies:
solo presencia o presencia/ausencia?

Registro de ‘presencia’
observada
+
+ Registro de ‘ausencia’
observada

Uroplatus sp.
(leaf-tailed gecko)
+

+
+
+
+
Datos de distribución de especies:
solo presencia o presencia/ausencia?

? Registro de ‘presencia’
? observada

? ’
? “pseudo-ausencia’
?
?
? ?
?
? ?
? ?
? ? ?
? ? ??
Uroplatus sp. ?
?
(leaf-tailed gecko) ?
? ?
? ?
? ?
? ?
?? ?
? ?
?
?
Datos de distribución de especies:
solo presencia o presencia/ausencia?

Registro de ‘presencia’
observada
‘Fondo’

Uroplatus sp.
(leaf-tailed gecko)
Datos de distribución de especies

?
+
?
?
?
? ?
? ? ?
? ? ?
? ?
? ? ??
+ ? ?
?
? ?
? ?
? ?
? ?
+ ?? ?
+
+ ? ?
?
+ ?

Presencia/ Solo Presencia/pseudo Presencia/fondo


ausencia presencia ausencia
Cuándo una ausencia es realmente una
ausencia?
Una especie puede considerarse “ausente” en una localidad
por varias razones:

1. La especie no pudo ser detectada, aun estando presente

2. La especie estaba ausente, aun cuando el ambiente es


apropiado para su presencia (e.g. por limitaciones de
dispersión, la especie no ha colonizado el área todavía o
ha desaparecido)

3. El ambiente realmente no es apropiado para la especie

Tenga cuidado cuando use datos de “ausencia”

Tomado de Richard Pearson


Consideraciones generales:
Explicación o predicción?

• Para explicación/entendimiento: una aproximación simple pero lo


suficientemente buena es preferible

• Para predicción: la mejor aproximación posible es preferida.


Algunas aproximaciones, incluyendo redes neuronales artificiales y
algoritmos genéticos pueden dar buenas predicciones pero pueden
no ayudarnos a entender el sistema.

Y = b0 + b1X1 + b2X2 +
... + bkXk
X Y
Ambiente Predicción
O caja negra?

(M. Nakamura)
Consideraciones generales: Complejidad del modelo
Truth
Training sample
Sample model
Test points

Training error

Test error

X (M. Nakamura)
Consideraciones generales: Complejidad del modelo
Truth
Training sample
Complex model
Test points

Training error

Test error

X (M. Nakamura)
High Bias Low Bias
Low Variance High Variance
Prediction Error

Test sample

Training sample

Low High
Model Complexity
Hastie et al. (2001)
Algoritmos usando solo datos
de presencia:

Envoltura climática: BIOCLIM

• Modelo “en caja” simple e intuitivo


• Da igual peso a todas las variables
• No tiene en cuenta interacciones potenciales entre las variables
• Da predicciones binarias (no se requiere de umbral)
• No puede usar variables categóricas
• No permite extrapolaciones

Vea: Nix 1986… o Lindenmayer et al. 1991 J. Biogeog. 18: 371-383.


Arcscript: http://arcscripts.esri.com/details.asp?dbid=13745
Diva GIS: http://diva-gis.org
TRES

DOS

UNO

CERO

CERO
CERO

0 2.5 5 95 97.5 100

percentiles
Algoritmos usando registros de presencia y
datos de fondo:
MAXENT: viene mucho más …
ENFA (Análisis Factorial de Nicho Ecológico)
• Implementación en Biomapper: http://www2.unil.ch/biomapper/
• No puede interpretar datos categóricos (discretos)
Vea: Hirzel et al. 2002 Ecology 83: 2027-2036.

mG − m S
Marginalidad =
1.69σ G

σG
Especialización =
σS
Algoritmos usando registros de presencia y
pseudo ausencias:
GARP (Algoritmo Genético para un conjunto de predicciones)

• Usa un algoritmo genético para producir


reglas basadas, en parte, en envolturas
climáticas y modelos lineales generales.
• Muestrea 1250 localidades de pseudo-
ausencias
• Interfase de usuario amigable
• Ampliamente empleada para tratar una
variedad de preguntas
• Computacionalmente intensivo
• Pobre para interpretar datos categóricos

Vea: Stockwell and Peters 1999 Int. J. Geographical Info. Systems 13: 143-158;
Anderson et al. 2003 Ecological Modelling 162: 211-232
… y artículos de A. Town Peterson and colleagues
http://www.lifemapper.org/desktopgarp/
Algoritmos usando registros de presencia y ausencia:

Regresión: GLM (Modelo Lineal Generalizado) y


GAM (Modelo Aditivo Generalizado)

• Implementados en SPLUS y R por el grupo GRASP


(Generalized Regression Analysis and Spatial Prediction)
• Aproximaciones estadísticas “transparentes”
• GLMs asumen una relación lineal entre la respuesta y las
variables de entrada

Vea Guisan et al. 2002 Ecological Modeling 157: 89-100


Lehman et al. 2002 Ecological Modeling 157: 189-207
http://www.cscf.ch/grasp/
Algoritmos usando registros de presencia y ausencia:
ANN (Redes Neuronales Artificiales)

• Una aproximación del aprendizaje automático


(machine-learning), inspirado en la estructura del
cerebro.
• Teóricamente bueno identificando relaciones no
lineales, y robusto al ruido
• La estructura en red es difícil de interpretar, haciendo
que esta aproximación sea fácilmente una “caja negra”
• Pude adaptarse para interpretar datos categóricos
• Existen varios paquetes de software, aunque
recientemente fue implementado para el modelameinto
de distribuciones en un programa del grupo de la
Universidad de Oxford (modelo SPECIES)

Vea: Pearson et al. 2004 Ecography 27: 285-298


Hilbert and Ostendorf 2001 Ecological Modelling 146: 311-327
Otros algoritmos/modelos (contribuciones de grupos)…

• Distancia de Mahalonobis: presencia-fondo; no


categóricos; extensión de ArcView.
• DOMAIN: distancia bray-curtis, DIVA-GIS
• Aproximaciones de agrupamiento (clustering):
multivariado
• Envoltura difusa (Fuzzy envelope): Svenning & Skov
• WhyWhere: David Stockwell
• Random Forest: muchos árboles de regresión,
sistemas salford
• Aproximaciones Bayesianas
Entonces, cuál es el mejor
método?
Evaluando metodologías alternativas para el
modelamiento de nicho ecológico de
especies y predicción de distribuciones
geográficas

National Center for Ecological Analysis


and Synthesis (NCEAS)

Grupo de Trabajo:
Robert Anderson, Thomas Edwards, Jane Elith, Simon Ferrier,
Catherine Graham, Antoine Guisan, Robert Hijmans, David Hilbert, Falk
Huettman, Chrissy Howell, Bette Loiselle, Antony Lehmann, John
Leathwick, Jin Li, William Michener, Miro Dudik, Craig Moritz, Miguel
Nakamura, Jake Overton, Steven Phillips, Karen Richarson, Ricardo
Scachetti-Pereira, Townsend Peterson, Robert Schapire, Jorge
Soberon, Stephen Williams, Mary Wisz, Nicolas Zimmerman
Descarga gratuita del sitio web de
Ecography
Datos de Museo

• Colectados no sistemáticamente a lo largo


del espacio ambiental y geográfico
• Sesgados y con ruido
• Generalmente solo datos de ocurrencia de
especies (no datos de ausencias)
Marco de Referencia
• Datos de presencia y datos
independientes de presencia/ausencia
para evaluación de los modelos

• Diferentes regiones (6) y varias especies


(20-54 por región)

• Expertos corrieron cada método de


modelamiento
Regiones
• Trópicos Húmedos Australianos (AWT;
aves y plantas)
• Ontario, Canadá (CAN; aves)
• Nueva Gales del Sur (NSW; aves, reptiles,
murciélagos y plantas)
• Nueva Zelanda (NZ, plantas)
• Sur América (SA; plantas, familia
Bignoniaceae)
• Suiza (SWI, árboles)
Método Clase de modelo Datos Software
BIOCLIM De envoltura p DIVA-GIS
DOMAIN Distancia multivariada p DIVA-GIS
LIVES Distancia multivariada p Programa especializado no
difundido
GLM Regresión; modelo lineal pa S-Plus, GRASP add-on
generalizado
GAM Regresión; modelo aditivo pa S-Plus, GRASP add-on
generalizado
MARS Splines de regresión adaptativa pa R, paquete mda más códigos
multivariada nuevos para manejar
respuestas binomiales
MARS. Como mars; usa datos de pa Igual que el anterior
COMM comunidad
DTGARP Conjunto de reglas derivadas de pa Versión revisada de desk-top
OMGARP algoritmos genéticos GARP
BRT Árboles de regresión “boosted” pa R, paquete brt
MAXENT máxima entropía pe Maxent
GDM Modelos de disimilaridad pa Programa especializado no
generalizada; usa datos de difundido; usa Arcview y Splus
comunidad
Estadísticos de Evaluación

Coeficiente de Receiving Operating


Correlación de Pearson Characteristic Curve
(ROCarea)
Ophioscincus truncatus – Nueva Gales del Sur, AU
79 registros para modelamiento
74 presencia / 932 ausencia para evaluación

BIOCLIM GARP GAM


Poa sieberiana – Nueva Gales del sur, AU
53 registros para modelamiento
512 presencia / 797 ausencia para evaluación
Tendencias generales entre
regiones y especies
Resultados regionales
Conclusiones
• Modelos precisos de distribución de
especies pueden generarse con datos de
solo presencia.
• Hay variación en el desempeño de los
algoritmos.
• Algunos métodos parecen arrojar
resultados buenos de manera consistente.
• La elección del modelo ha de depender de
la pregunta, experiencia, etc.
Experimentos Adicionales

• Tamaño de la muestra
• Grano
• Información de fondo
• error
• Sesgo

Вам также может понравиться