Вы находитесь на странице: 1из 11

Comparacin de clasificaciones de ortofotografas areas de la ciudad de

Cuenca mediante Mxima Verosimilitud y Random Forest


Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

Comparacin de clasificaciones de ortofotografas areas de la


ciudad de Cuenca mediante Mxima Verosimilitud y Random
Forest
Ortega Luis
e-mail: luis.ortega@ucuenca.ec

Montalvn Paul
e-mail: paul.montalvan@ucuenca.ec

Espejo Juan
e-mail: juan.espejo@ucuenca.ec

Snchez Samuel
e-mail: samuel.sanchez@ucuenca.ec

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

ABSTRACT
In the current Cuenca is very important to distinguish the different types of elements that are part of the
city for its later use; for example, in territory arrangement plans. This is why it's possible to get ortophotos
information to perform the respective semiautomatic classification , based on decicison making algorythms. This
was made with the methods: Random Forest and Maximum Likelihood. With these its possible to obtain a very
detailed representation of the soil coverage due to the fact that its based on the purpose of transforming
cuantitative data into cualitative data, therefore a theme map is created rather than an image. Its possible to say
that the vegetation is predominant and the change between old town structures and surrounding areas is really
noticeable.
RESUMEN
En la actual Cuenca es de gran importancia distinguir los diferentes tipos de elementos que conforman
la ciudad para su posterior uso; como por ejemplo, planes de ordenamiento territorial. Por lo que, se ha
realizado un mosaico de las imgenes de las ortofotos facilitadas, para luego proceder con la clasificacin
semiautomtica respectiva, basados en algoritmos de toma de decisiones. Esto se realiz con los mtodos:
Random Forest y Maximum Likelihood. Con estos se obtiene una representacin muy detallada de la cobertura
del suelo ya que se basa en el propsito de transformar datos cuantitativos en datos cualitativos, por lo tanto se
obtiene un mapa temtico (clases) y no una imagen. Se puede afirmar que predomina la vegetacin y se nota
un cambio muy marcado entre las estructuras del centro histrico y las zonas aledaas al mismo.
INTRODUCCIN
Este artculo da un anlisis de informacin ms prctica y fcil de interpretar en cuanto a los diferentes
espacios urbanos y rurales en la ciudad de Cuenca, con sus respectivos elementos. Esto se logra ya que existe
una alta disponibilidad de datos para la digitalizacin requerida, ya que estos requieren unas metodologas
operativas y que sean susceptibles a tener un alto grado de automatizacin. Por lo que el objetivo de este
anlisis es evaluar los diferentes algoritmos de clasificacin supervisada. Para efectuar la clasificacin, se
utilizaron dos algoritmos: Random Forest que usa rboles de decisiones y Maximum Likelihood que se basa en
mtodos estadsticos; con la realizacin de polgonos de entrenamiento.
MTODO
El algoritmo de Mxima Verosimilitud (Maximum Likelihood) se basa en mtodos estadsticos;
conociendo la media y desviacin tpica que caracteriza una clase podemos suponer una funcin de densidad y
con los valores de un elemento dado estimar la probabilidad de que estos corresponden a cada clase. La clase
con una mayor probabilidad es aquella a la que se asigna el elemento(Olaya, 2011).
Random Forest es un clasificador de conjunto que utiliza rboles de decisin como clasificadores base,
en el que cada clasificador contribuye con un voto para la asignacin de la clase ms frecuente al vector de
entrada. Random Forest incrementa la diversidad de los rboles de decisin hacindolos crecer a partir de
diferentes subconjuntos de datos creados mediante un procedimiento denominado bagging (Breiman,
1996).Bagging es una tcnica diseada para la creacin de datos de entrenamiento que re muestrea
aleatoriamente el conjunto de datos originales con reemplazamiento, es decir, sin eliminar el conjunto de datos
seleccionados de forma previa a la eleccin del siguiente subconjunto (Breiman, 2001)
Primeramente, se procedi a realizar un mosaico de las 40 ortofotos, con el fin de obtener una sola
que contemple la zona urbana y rural de la ciudad de Cuenca, con un total de 2.382.631.264 pxeles con una
resolucin de 30cm x 30 cm cada uno (Fig. 1)

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Fig. 1 Mosaico obtenido de las 40 ortofotografas.

Fig. 2. Bandas del mosaico.

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

En segundo lugar, se definieron las 14 clases que se utilizaron para la clasificacin entre las cuales
estn: 1) csped, 2) arboles, 3) agua, 4) tierra, 5) superficies de hormign, 6) teja caf, 7) metal, 8) teja verde, 9)
teja roja, 10) teja naranja, 11) teja azul, 12) teja amarilla, 13) hormign con sombra, 14) agua con sombra. En la
definicin de estas, por ejemplo, se uni las diferentes superficies de hormign como una sola clase, incluyendo
techos, calles de pavimento hidrulico y asfltico, patios, canchas, etc.
A continuacin se realizaron los polgonos de entrenamiento para cada clase, con un promedio de 48
polgonos para cada una (Fig. 3). La realizacin de los polgonos de entrenamiento se logr en distintos
ordenadores a la vez, con un promedio de 160 polgonos en cada uno con un total de 665. La unin de los
polgonos se realiz con la herramienta MERGE incluida en ArcMap 10.2.1 en Data Management, la cual
permite unir varias entradas de datasets en un solo dataset de salida que conserva las propiedades de los
valores de entrada; en este caso seran los valores de las clases en las columnas de la tabla de atributos. Estos
polgonos tambin fueron utlizados para la clasificacin con Random Forest.

Fig. 3 Polgonos de entrenamiento.


Luego de esto, se procedi a encontrar las firmas espectrales en las zonas de entrenamiento. Una vez
obtenidas estas firmas se realiz la clasificacin supervisada con el mtodo de mxima verosimilitud de acuerdo
a las clases previamente definidas.

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

Posteriormente se establecieron los polgonos de validacin, con un total de 324 con las mismas 14
clases ya definidas. Luego de esto se realiz un proceso de filtracin 6 veces para eliminar el ruido. A
continuacin, en la matriz de confusin se han comparado, la clasificacin con los polgonos de entrenamiento y
la clasificacin con los polgonos de validacin para obtener el ndice de confiabilidad y el coeficiente kappa.
Luego de numerosos ensayos de clasificacin se pudo observar que era necesario dar prioridad a la clase de
techos, clasificndolos por sus diferentes colores como se mencion anteriormente.
Para realizar la clasificacin mediante este mtodo, se utiliz el lenguaje de programacin R, especficamente
sus librerias: Raster, Rgdal y Random Forest.
El cdigo utilizado para la clasificacin fue facilitado por la Dra Daniela Ballari, que lo adapt a partir de uno
previamente
definido
por
la
Universidad
Wageningen
(https://geoscriptingwur.github.io/AdvancedRasterAnalysis/#classifying-raster-data), y a su vez fue modificado ligeramente.
Los criterios de procesamiento fueron:
CRITERIO
ntree
importance

VALOR
500
TRUE

DESCRIPCIN
Numero de Arboles de Decisin
Evaluacin de la importancia de los predictores.

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

RESULTADOS Y DISCUSIONES
Mxima Verosimilitud

Tabla 1: Tabla con el nmero de pixeles, porcentaje y rea en km2 para cada clase con el mtodo de
Mxima Verosimilitud.

Clasificacin
1,200,000,000
1,000,000,000
800,000,000
600,000,000
400,000,000
200,000,000
0

Fig. 4 Histograma de frecuencias para las clases.

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Fig. 5 Detalles de la clasificacin.

Tabla 2 Matriz de confusin por mtodo de Mxima Verosimilitud.

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

En la tabla 2 se comparan las zonas de validacin (lo observado en la realidad) con la imagen
clasificada. Podemos observar que de 1.040.384 pxeles se clasificaron correctamente 981.025, es decir un
ndice de confiabilidad del 94,3% y un coeficiente kappa de 0,92. Con respecto a la exactitud de la clasificacin
se puede observar en la matriz de confusin que la clase mejor clasificada es csped con Ec=8% y Eo=1%,
seguida de metal y rboles; mientras que las peores clasificadas son agua con sombra y hormign con
sombra.
En la Fig. 4 podemos observar que el 45.90% corresponde a csped y reas verdes, lo cual se debe
mayormente a que el sitio de estudio contempla un porcentaje considerable de sitios rurales aledaos a la
ciudad. En la Fig. 5 podemos observar cmo se clasifican correctamente el csped (reas verdes), los rboles,
superficies de hormign que en su mayora representan las calles.
De igual manera para las tejas de los diferentes colores, se ilustra muy claramente su diferenciacin.
Random Forest
Por el nmero excesivo de pixeles en el mosaico, el paquete Random Forest incluido en R no tiene la
capacidad necesaria para realizar la clasificacin por el mtodo de Random Forest , ya que cada pxel
representa una celda de la matriz que se genera dentro de nuestro algoritmo para realizar la clasificacin (ms
de 2000 millones de pxeles), por lo que se opt en disminuir la resolucin de la ortofotografa en cuestin,
definiendo un pxel de 2m x 2m.

Clasificacin
25,000,000
20,000,000
15,000,000
10,000,000
5,000,000
0

Fig. 6: Distribucin de frecuencia para la clasificacin con Random Forest.

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

Tabla 3 Tabla con el nmero de pixeles, porcentaje y rea en km2 para cada clase con el mtodo de
Random Forest.

Tabla 4: Matriz de confusin para la clasificacin con Random Forest.


En la tabla 4 podemos observar que de 153174 pxeles se clasificaron correctamente 151045, es decir un ndice
de confiabilidad del 98.60% y un coeficiente kappa de 0,98, los cuales estan dentro del rango aceptable.
Segn las resultados de la Fig. 7 podemos observar que la banda nmero cuatro (b4) es la que presenta mayor
desigualdad en la clasificacin de pixeles, por lo tanto es la que tiene mayor influencia en la clasificacin
general.

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

Fig. 7: Diagrama de importancia de banda.


Ventajas y desventajas entre Mxima Verosimilitud y Random Forest

DISCUSIN Y CONCLUSIONES
Las tasas de xito en las clasificaciones supervisadas con Mxima Verosimilitud y Random Forest son de 94% y
98%, se puede concluir que ambas son vlidas y utilizables.
Las ortofotografas obtenidas, a pesar de tener solo 4 bandas resultan muy buenas para la clasificacin de
suelos, mediante el mtodo de Mxima Verosimilitud. Con el mtodo Random Forest en R no resultaron muy
eficaces debido a su gran nmero de pixeles, ya que R no admite valores demasiado grandes, y se tuvo que
reducir la resolucin del pixel para poder llevar a cabo la clasificacin.

Comparacin de clasificaciones de ortofotografas areas de la ciudad de


Cuenca mediante Mxima Verosimilitud y Random Forest
Ortega Luis, Montalvn Paul, Espejo Juan, Snchez Samuel

Universidad de Cuenca
Ao:2016
Ciclo Septiembre-Febrero

En las clasificaciones se puede notar claramente el empleo de tejas en el centro histrico de la ciudad, por lo
que podramos tambin encontrar cambios de pocas de acuerdo a los materiales utilizados en las
construcciones.
No se pudo establecer una comparacin significativa entre los dos mtodos ya que se utiliz la misma imagen
pero con diferentes resoluciones para adaptarla a clasificacin en R con Random Forest.
Random Forest resulta una clasificacin muy eficaz como se puede ver en la tabla 4, pero debido a sus
limitaciones en el paquete que ofrece R no se puede trabajar con imgenes muy grandes y de alta resolucin.
En la figura 7 se puede apreciar que la banda ms significativa para esta clasificacin fue la banda 4.
REFERENCIAS
Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123140.
Breiman, L. (2001). Random forests. Machine learning, 45(1), 532.
Olaya, V. (2011). Sistemas de Informacin Geogrfica.

Вам также может понравиться