Вы находитесь на странице: 1из 20

jANALISIS MULTIVARIADO Y SUS APLICACIONES EN BIOLOGIA.

DISTANCIA Y SIMILITUD

En biología permite ver diferencias o semejanzas que existen entre comunidades tratando a las
especies como variables continuas, discontinuas o de presencia/ausencia. Tratando a los
vectores como transectos.

Algunas medidas de similitud y distancia

Distancias matemáticas.

- Manhatan, Grower (distancia matemática)


- Distancia Euclideana: es una medida básica de distancia
- Mahalanobis:
- Chord: Considera una distancia Euclideana normalizada (puede usarse para
abundancias)
- Correlación: Medida de correlación complementaria a Pearson (1-r)
- Rho (complementaria a Spearman (1-r)

Distancia de similitud geográfica.

- Distancia geográfica

Similitud Comunitaria. (Usadas en investigación de comunidades)

Cualitativos

- Czekanowski, Dice, Sorenssen: Para datos de presencia/ausencia (da más peso a


especies comunes)
- Jacard: Índice de similaridad para datos binarios, presencia/ausencia (da igual peso a
especies comunes)
- Kuklinski, Ochiai: También miden similaridad para datos binarios

Cuantitativos: Numero de individuos, pesos

- Bray curtis: Similaridad para datos de abundancia (datos de organismos marinos)


- Morisita: Es el que tiene mayor aplicalidad, independiente de la talla de la muestra y
diversidad
- Horn: Usa logaritmos
EJEMPLO:

Utilizamos el ejemplo (0), archivo excel.

Paso 01: Pegamos los datos del excel en el past.

Paso 02: Transponemos los datos, es decir los transectos deben estar en filas para poder hacer
el análisis. Edit- transpose
Paso 03: Bloqueamos las celdas y vamos al menú Statistic, opción Similarity and distance
indices.

Aquí tenemos el listado de todos los índices que presenta el programa y que podemos utilizar
de acuerdo al tipo de datos y estudio que queremos realizar.
 Con JACCARD.

Este índice nos indica que existe un 40% de similitud entre las parcelas 1 y 2, un 20% de
similitud entre las parcelas 1 y 3 , 1y 4, en cambio arroja que existe un 100% de similitud entre
las parcelas 3 y 4, ya que las especies son las mismas en ambas parcelas.

 Con MORISITA.

Este índice considera abundancia, por lo tanto las similitudes varían, en el caso de los
transectos 3 y 4 ya no es 1, ya que las abundancias en las especies varían moderadamente

 Distancia Euclideana.

La distancia Euclideana, es la distancia de dos puntos en el espacio, considera a cada parcela


como un punto en el espacio el cual está compuesto de distintas dimensiones (en nuestro caso
serian las especies), la medida de este índice es la distancia matemática en el espacio entre
estos puntos.

GRAFICOS DE DISTANCIA Y SIMILITUD - CLUSTERING.

El Clustering, es un Dendrograma construido a partir del agrupamiento de los puntos según la


similitud y distancia. Utilizando el mismo ejemplo: en el menu Multivar, función Cluster
Analysis.
Distancia Euclideana: Mayor similitud y distancia entre 2 y 4, asemejándose mas a este grupo 1
y por ultimo 3.

En Jaccard, se muestra una similitud casi perfecta entre 3 y 4, no olvidemos que este es un
índice de presencia/ausencia.
Morisita, nos muestra algo diferente, una similaridad que asocia dos grupos marcado 3 y 4, y 1
y 2.

Este análisis nos da como resultado además de grafico un coeficiente llamado “coeficiente de
correlación cophonetico”, y este nos dice que tan bien representa el grafico al conjunto de
datos.

Podemos pedirle al software que haga re muestreo con un número determinado veces, esto
en la opción Boot N, así mismo en cada rama nos dará las probabilidades de ocurrencia de
estas asociaciones:
En este ejemplo le pedimos que nos haga un remuestreo a 100 veces, y nos arroja las
probabilidades: hay un 100%, 97% y 88% de probabilidad que se forme los grupos ahí
observados.

DIVERSIDAD BETA.

Un análisis de distancia y similaridad también nos puede dar a manera de indicios a cerca de la
diversidad beta en un determinado ecosistema o comunidad.

Si tenemos más de un transecto o parcela o muestra (punto) de una referida comunidad,


podemos realizar el análisis de similaridad para poder deducir a cerca de la diversidad beta:

Se dice que habrá una mayor diversidad beta en la comunidad, cuando los índices de
similaridad son más bajos, o de una menor diversidad beta cuando los índices de similaridad
son más altos, ya que la diversidad Beta busca medir el recambio. Existirá un mayor recambio
cuando la similaridad o distancia sea menor.

Para poder medir la diversidad mediante los índices de similaridad y/o distancia tenemos que
tomar solo índices que consideren presencia/ausencia, caso Morisita, Dice,etc

Del análisis del ejemplo anterior tenemos:


La comunidad de plantas Acuáticas (A), presenta una menor similaridad entre los puntos
muestreados dentro de la misma, por consiguiente decimos que da indicios a una mayor
diversidad Beta, todo lo contrario con las comunidades de Gramadal y Juncales-salicorniales,
las cuales presentan una mayor similaridad, por consiguiente son las homogéneos y presentan
una menor diversidad Beta.

ANALISIS EXPLORATORIO MULTIVARIOADO.

Consiste en convertir una nube de puntos en un espacio multidimensional a un espacio


bidimensional, en el cual se pueda ver todas las características de las variables.

I) Análisis de Componentes Principales (ACP): Es un método de ordenación, basado en las


relaciones entre un vector y un eje, usando correlaciones, cuando las variables no son
dimensionalmente homogeneas o Covarianzas, cuando las variables son dimensionalmente
homogeneas,

 Vector= Conjunto de datos (parcela, transecto, muestra)

Estas variables se resumen y dan lugar a dos ejes o componentes principales:

El componente principal 01: Es la dirección del espacio que recoge la mayor parte de la
variabilidad, es una combinación lineal de todas las variables iniciales.

El componente principal 02: Seria incorrelada con la componente 01, y recoge la mayor parte
de la información que queda por recoger y también es una combinación lineal de todas las
variables tomadas inicialmente.

Condiciones:

- Linealidad (que las variables deber ser continuas)


- Debe existir una Distribución Normal multivariada

Que preguntas biologicas podemos responder?

- ¿Cuál es la relación de mis especies en una gradiente?


- ¿Cuáles han sido los principales cambios temporales (a nivel biótico) en mi estación?
- ¿Las especies tienen preferencias por ciertas condiciones?
Primero analizamos los eigenvalue y el porcentaje de variación, para esto tenemos que los que
representan mejor la distribución son los ejes 1 y 2, con un 80 y 18 %, como tenemos datos
homogéneos escogemos la opción (var-covar).

En la parte inferior derecha tenemos al Jolliffe cut-off, es cual es un valor que indica cual es el
eigenvalue mínimo que tenemos que retener, en este caso es 0.59. en este caso como
necesitamos minimamente dos ejes, escogemos el 1 y el 2.

- Los view loadings


Estos nos permiten ver cuánto de cada variable está representado en cada eje, es decir que
potencial explicativo tiene cada eje para cada variable. En este ejemplo, para el eje 1, es la
variable 4 la que se representa más.

- Scre plot.

Este grafico nos sirve para poder reconocer los ejes que nos servirán para el análisis y
generalmente se escogen los ejes que están por encima de la línea roja.

- Scatter diagram.
Este grafico final, nos permite ver componentes, las variables y los transectos, (opciones Row
labels y Biplot), en este ejemplo podemos ver que el transecto 4 se va hacia las variables 4 y 1,
los transectos 2 y3 tres se vienen hacia las variables 1 y 2, el transecto 1 se va hacia las
variables 3 y 4, de esto podemos deducir que el transecto 1 está bastante influenciado por la
variable 4, por ejemplo si la variable 4 seria ph, diríamos que el ph ha jugado un rol importante
en la disposición del transecto 1(ph elevado).

 Las variables determinan la posición de los transectos en el biplot.

II. Análisis de Coordenadas Principales (PCoA): Es un análisis que genera un grafico


bidimensional, donde los puntos se juntan o separan según su similitud. Las distancias se
elevan a un exponente C, (que por defecto es 2). Los valores de C>2, ayudan a evitar el efecto
de arco.

El análisis de coordenadas principales, ubica los puntos en el espacio y estas se separan de


acuerdo a la medida de distancia como la de similitud. Las preguntas biológicas que podemos
responder son:

- ¿Mis transectos son similares de acuerdo a las especies que los componen?
Entonces escogemos en el menú Multivar opción Principal coordinates.

Fijémonos que la matriz también nos dicen el porcentaje explicativo que tienes cada eje.

Luego debemos escoger un índice en función a los datos, en este caso tenemos especies y
transectos, entonces escogemos por ejemplo Morisita (que considere abundancias), por
defecto C = 2.
Aquí podemos ver los datos de ubicación de los transectos, Podemos apreciar cuan parecidos
son los transectos en este caso el 1 y2 y por otro lado el 3 y el 4.

Ahora presentaremos el caso como si 1 y 2 tuvieran las mismas especies:


Aquí podemos apreciar que los transectos 3 y 4 se encuentran en la misma ubicación por ser
casi exactamente similares, al transecto 1 y 2 los diferencia la abundancia,

III. Análisis de correspondencia: Es una de las técnica mas populares para ordenamiento de
muestras en taxa, es conocido también como análisis de promedios recíprocos, la idea es
realizar la mejor representación simultanea, del agrupamiento entre las especies y/o
transectos, es muy útil cuando se tienen unidades muestreales en varias gradientes, y el
objetivo es poner unidades muestreales similares juntas basadas en distancias chi cuadrado,
distancia determinada por distancia Euclideana chi cuadrado.

Que preguntas se puede responder:

- ¿Qué especies caracterizan mi transecto?


- ¿Hay especies comunes entre ellos?
- Después de un análisis cuantitativo, ¿cómo se agrupan las especies?
Aquí se ve en potencial explicativo como también la representación grafica, se tiene un
resultado parecido al análisis de coordenadas con la diferencia que aquí se puede ver no solo
la posición de los transectos, sino también de las especies, entonces así sabemos que especies
caracterizan a un transecto, la ubicación de los transectos están en función a la ubicación de
las especies. Este análisis de correspondencia lo utilizan algunos sofwares para la
determinación de comunidades, en el ejemplo diríamos que las especies de la izquierda
forman una comunidad distinta y las especies de la derecha otra distinta.

El análisis de correspondencia sin tendencia es utilizado para evitar el efecto de arco, como
vemos también se dan similares resultados.
IV. Análisis de Correspondencia Canoníca: Es un análisis que permite también tener como
resultado un grafico, en el cual se pueden detectar patrones de variación en composición de
especies en comunidades, patrones que pueden estar ligados a una variable ambiental, el
resultado se obtiene por medio de regresiones múltiples (variables dependientes= matriz de
sitios x especies; variables independientes=variables ambientales). Debe incluir parámetros
abioticos, las cuales deben seguir una reacción lineal con los ejes (ejes canónicos), como
resultados tenemos: Transectos + especies + variables ambientales en un mismo grafico
(triplot).

La técnica es encontrar una combinación lineal de las variables X(V1=b1x1+b2x2+b3x3...bpxp,


variable ambiental) y otra combinación lineal de las variables Y(U1=a1y1+a2y2+a3y3...aqyq,
variable biológica), de tal manera que U y V sea máxima. Después encuentra otras dos
combinaciones lineales para cada grupo de variable que tenga correlación máxima y así
sucesivamente se encuentran un conjunto de combinaciones lineales para cada grupo de
variables que tienen correlación máxima.

Combinaciones lineales= Variables Canonícas

El análisis de Correspondencia Canónica, incluye la aplicación de técnicas de regresión, a


mayor numero de variables ambientales con respecto al número de observaciones (muestras),
el resultado del CCA se hace más dudoso, independientemente de que las relaciones
observadas sean aparentemente fuertes.

Su interpretación no supone una descripción de los datos de la matriz de especies, sino más
bien de la parte de la estructura de los datos que está relacionada con las variables
medioambientales. NO MUESTRA RELACIONES ENTRE ESPECIES, SINO ENTRE ESTAS Y LAS
VARIABLES AMBIENTALES.

Para saber si el CCA es confiable es necesario hacer un análisis de permutación, que es la


confiabilidad de la regresión múltiple, este análisis nos da: Trace, que es la suma de los
eigenvalue, p Trace, que es la probabilidad de rechazar la hipótesis nula (ho=no hay relación).
En el menu, multivar, escogemos al opción Canonical correspondence,

Este cuadro nos pide el número de variables ambientales que consideraremos en el análisis, en
este ejemplo seria 2.
En el grafico una vez aplicada la opción triplot, podemos ver que la variable v1 esta relacionada
con los transectos 3 y 4, asi mismo que la variable v2, guarda mas relacion con los transectos 1
y 2.

Вам также может понравиться