Вы находитесь на странице: 1из 7

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software

libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

Clasificacin de imgenes de satlite mediante software libre: Nuevas tendencias en algoritmos de Inteligencia Artificial
V. Rodrguez-Galiano1 y M. Chica-Rivas2
1 2

Departamento de Geodinmica, Universidad de Granada Departamento de Anlisis Matemtico. Universidad de Granada

vrgaliano@ugr.es

RESUMEN El seguimiento de las cubiertas del suelo mediante Teledeteccin requiere de la aplicacin de mtodos de clasificacin robustos que permitan la cartografa exacta de las cubiertas del suelo de reas de estudio, en muchos casos muy complejas. En los ltimos aos se han propuesto un gran nmero de metodologas de clasificacin, gran parte de ellas basadas en Inteligencia Artificial. Las ms notables incluyen rboles de Decisin (AD), Redes Neuronales Artificiales (RNA), Mquinas de Vectores Soporte (MVS) y clasificadores de conjunto como Random Forest (RF). Los objetivos de este estudio son estudiar cmo afecta la eleccin del clasificador a la exactitud de los mapas y analizar la significatividad estadstica de las diferencias en los resultados obtenidos por diferentes metodologas de clasificacin. Los diferentes mtodos de clasificacin fueron evaluados cuantitativamente considerando 600.000 combinaciones diferentes de parmetros para la clasificacin de las cubiertas del suelo de la provincia de Granada. Para la clasificacin del rea de estudio se identificaron 14 categoras de cubiertas del suelo diferentes y se usaron dos imgenes Landsat TM5 de primavera y verano as como diferentes variables auxiliares obtenidas a partir de un Modelo Digital del Terreno. Las tcnicas de clasificacin RNA, MVS y RF dieron lugar a mapas de exactitud mayor al 91%. Los AD se comportaron peor que el resto de metodologas (86%). Sin embargo, los resultados de este estudio muestran diferencias importantes en la eficiencia de los clasificadores. RF no slo produjo la cartografa ms exacta sino que, tambin, requiere de una configuracin de parmetros simple. PALABRAS CLAVE Cartografa de las cubiertas del suelo, mtodos de clasificacin digital, Landsat, Inteligencia Artificial, Aprendizaje de mquinas.

ABSTRACT Land cover monitoring using remotely sensed data requires robust classification methods which allow the accurate mapping of complex land cover categories. A number of machine learning classification algorithms have been developed over the past years. The most notable include individual classification trees, artificial neural networks, support vector machines and ensembles of trees such as Random Forest. This paper discusses the limitations and crucial issues related to the application of different upto-date machine learning classifiers: CART classification trees (CT), feed-forward neural networks (ANN), support vector machines (SVM) and Random Forest (RF). This involved the examination of relationships between classification accuracy and algorithm selection, and the analysis of the statistical significance of the differences between the performance of these algorithms.

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

The results of four machine learning methods were quantitatively analyzed for the classification of a Mediterranean area, considering six hundred thousand different parameter settings. Landsat-5 Thematic Mapper data captured in European spring and summer were used with auxiliary variables derived from a Digital Terrain Model to classify fourteen different land categories in the south of Spain. Overall, statistically similar accuracies of over 91% were obtained for ANN, SVM and RF. The CT performed worse than the rest of methodologies (overall accuracy of 86%). However, the findings of this study show important differences in the efficiency of the classifiers, being RF the most accurate classifier with a very simple parametrization. KEY WORDS Land-cover mapping, digital classification methods, Landsat, Artificial Intelligence, Machine learning.

INTRODUCCIN

2
2.1

FUNDAMENTOS
rboles de Decisin

La clasificacin digital de imgenes de satlite requiere de metodologas que sean operativas, interpretables, transparentes y susceptibles de tener un alto grado de automatizacin. En la cartografa de cubiertas del suelo, a partir de datos de teledeteccin, se han usado numerosas metodologas, fundamentalmente paramtricas (mxima probabilidad). Sin embargo, debido a la alta disponibilidad de datos, consecuencia del elevado desarrollo tecnolgico acaecido en los ltimos aos, los algoritmos de aprendizaje de mquinas han surgido como alternativas exactas y eficientes a las tcnicas paramtricas convencionales en la cartografa de cubiertas del suelo a partir de espacios de datos complejos de alta dimensionalidad. La proliferacin en el campo de la teledeteccin de este tipo de mtodos en los ltimos aos se debe a diferentes factores (Mas y Flores, 2008; Mountrakis et al., 2011): a) la habilidad de estas tcnicas para aprender patrones complejos, considerando relaciones no lineales entre las variables explicativas y las variables dependientes (bandas de la imagen y clases temticas); b) la capacidad de generalizacin de estos algoritmos hace posible su aplicacin en bases de datos incompletas o ruidosas; c) permiten la incorporacin en el anlisis de informacin a priori; d) y debido a la ausencia de asunciones sobre los datos usados (ej. normalidad) permiten la integracin de diferentes tipos de datos en el anlisis. Esta ltima caracterstica posibilita la incorporacin de datos de diferentes sensores y de variables auxiliares como la elevacin, pendiente, temperatura, emisividad, textura, as como mapas temticos. El objetivo de este estudio es evaluar la idoneidad de diferentes algoritmos de aprendizaje de mquinas: rboles de Decisin (AD), Redes Neuronales Artificiales de propagacin hacia delante (RNA), Mquinas de Vectores soporte (MVS) y Random Forest (RF), para la clasificacin de las cubiertas del suelo de la provincia de Granada; un rea compleja con un alto nmero de cubiertas o categoras.

Un AD representa un conjunto de condiciones que se organizan de forma jerrquica, y que se aplican sucesivamente desde una raz hasta llegar a un nodo terminal u hoja del rbol (Breiman, 1984; Quinlan, 1993). Los rboles de decisin se representan mediante un grafo con estructura arbrea que ha sido inducido desde un conjunto de datos de entrenamiento. Todo AD comienza con un nodo al que pertenecen todos los casos de la muestra que se quiere clasificar, a este nodo se le denomina nodo raz. Adems del nodo raz, en un AD pueden distinguirse nodos internos y nodos terminales, que tambin se denominan hojas. Los nodos internos se corresponden con una condicin elegida en el conjunto de atributos y cada ramificacin de un nodo interno representa un valor del dominio de la condicin del atributo. Los nodos terminales u hojas contienen una nica etiqueta, que corresponde, en este caso, a la cubierta del suelo. Desde la raz del rbol hasta una determinada hoja, el camino conforma una regla de clasificacin.

2.2

Random Forest

RF es un clasificador de conjunto que utiliza rboles de decisin como clasificadores base, en el que cada clasificador contribuye con un voto para la asignacin de la clase ms frecuente al vector de entrada. RF incrementa la diversidad de los rboles de decisin hacindolos crecer a partir de diferentes subconjuntos de datos creados mediante un procedimiento denominado bagging (Breiman, 1996). Bagging es una tcnica diseada para la creacin de datos de entrenamiento que remuestrea aleatoriamente el conjunto de datos originales con reemplazamiento, es decir, sin eliminar el conjunto de datos seleccionados de forma previa a la eleccin del siguiente subconjunto. Por tanto, algunos datos pueden ser usados ms de una vez en el entrenamiento de los clasificadores individuales. Esta propiedad de RF lo hace menos sensible a ligeras variaciones de los datos

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

de entrada (cambios en el entrenamiento, outliers, ruido), y, al mismo tiempo, incrementa la exactitud de las clasificaciones (Breiman, 2001; Rodriguez-Galiano et al., 2012).

2.3

Redes Neuronales Artificiales

Como en el cerebro, los elementos bsicos de procesamiento de una red neuronal artificial son las neuronas. En una RNA, las neuronas se sitan en capas y estn conectadas de forma que la informacin fluye, desde las unidades de entrada, a travs de las unidades situadas en la capa de entrada o capas ocultas, hasta las unidades en la capa de salida. Las unidades de entrada distribuyen la seal a las unidades ocultas de la segunda capa. Estas unidades suman las entradas considerando diferentes pesos, aaden una constante (el sesgo) y aplican una funcin de activacin al resultado (Venables y Ripley, 2002). Para que la red pueda representar cualquier funcin til, los pesos han de ser ajustados. Para ello, se presentan a la red ejemplos consistentes en pares entrada-salida: un vector de entrada y la correspondiente salida deseada para la red. Por ejemplo, el vector de entrada puede ser los valores de las bandas espectrales de las reas de entrenamiento y el de salida las categoras temticas correspondientes a las diferentes cubiertas del suelo. Entonces, la entrada se propaga a travs de la red como se ha descrito antes y la red produce su propia salida. La salida de la red es comparada con la salida deseada (categora asignada a cada rea de entrenamiento) y posteriormente los pesos de las conexiones son modificados para reducir esta diferencia. Este proceso se lleva a cabo de manera iterativa, minimizando el error total, tpicamente calculado como la suma de los errores al cuadrado, para todos los pares entrada-salida con respecto a los pesos de la red, mediante el uso de mtodos de optimizacin no lineal.

encuentran en la frontera con este hiperplano se les denomina vectores soporte. Estos ejemplos son los ms difciles de clasificar puesto que presentan una menor separabilidad. En el caso ms simple, dos clases en un espacio bidimensional en el que los datos son separables linealmente, el hiperplano ptimo vendra definido por una lnea recta. Sin embargo, los datos de teledeteccin son especialmente complejos; no tienen nicamente dos dimensiones, ni tampoco el objetivo ltimo de la clasificacin suele ser diferenciar nicamente dos clases. Las MVS, en la clasificacin de datos procedentes de satlite, deben tratar con mltiples variables predictoras, y, en ocasiones, tambin con variables auxiliares (modelos digitales del terreno). Por otro lado, la separabilidad entre las categoras puede ser baja, con curvas no lineales de separacin. Cortes y Vapnik (1995), para resolver el problema de la separacin no lineal de las clases, incorporaron una aproximacin basada en un margen blando que permite la comisin de algunos errores. En este caso, para encontrar el hiperplano que cometa el mnimo nmero de errores, se introduce una constante de regularizacin (coste). Esta constante controla la solucin de compromiso entre la complejidad de la MVS y el nmero de ejemplos no separables. Cuando esta ltima aproximacin no es posible, es necesaria la aplicacin de funciones de transformacin no lineales denominadas kernels, que transforman el espacio de entrada en un espacio de Hilbert de mayor dimensionalidad en el que los datos son separables linealmente (Muller et al., 2001).

REA DE ESTUDIO Y DATOS

El rea elegida para este estudio es la provincia de Granada, situada en el sur de Espaa, a orillas del mar Mediterrneo y en plena cordillera Penibtica. Este rea ocupa una superficie de 12.635 km2 y su elevacin oscila entre el nivel del mar, en la Costa Tropical, y los 3.482 m del Mulhacn, en el Parque Nacional de Sierra Nevada. El clima de la provincia de Granada es de tipo mediterrneo, caracterizado 2.4 Mquinas de Vectores Soporte por veranos clidos y secos e inviernos fros y En la ltima dcada las mquinas de vectores hmedos. soporte (MVS) han surgido como una alternativa La temperatura media anual es, en general, a las metodologas descritas previamente para la moderada, y vara entre los 18C de las zonas de clasificacin de datos de teledeteccin costa y los 10C de las zonas montaosas. El (Mountrakis et al., 2011; Pal y Mather, 2003). Las ombroclima vara de seco a semirido (entre 300 MVS fueron introducidas por Vapnik a principios y 500 mm). La accin antrpica ha producido una de los 90 (Boser et al., 1992; Cortes y Vapnik, importante transformacin en las cubiertas del 1995). Las MVS se fundamentan en hacer suelo naturales que se manifiesta predicciones en las que se pueda tener mucha fundamentalmente en la gran extensin de los confianza, aun a riesgo de cometer algunos cultivos (46%), entre los que destacan los errores. Para ello, tratan de encontrar el regados de las proximidades de los ros, los hiperplano ptimo de separacin entre las clases; olivares y los cultivos tropicales e invernaderos de es decir, el plano para el cual la separabilidad la costa. El resto del rea de estudio se entre clases es mxima. A los ejemplos que se caracteriza fundamentalmente por la presencia de

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

formaciones de conferas (18%), matorrales y insesgada de los clasificadores, se efectuaron pastizales (22%) y quercneas (8%). numerosas clasificaciones correspondientes a diferentes combinaciones de los parmetros de Para este estudio se usaron dos escenas ajuste de los algoritmos. Finalmente, para cada Landsat Thematic Mapper 5. Las imgenes uno de ellos, se utiliz la combinacin de fueron adquiridas el 18 de Agosto y el 12 de Abril parmetros que dio lugar al mapa clasificado con de 2004. Las imgenes fueron corregidas mayor exactitud cartogrfica. geomtricamente de forma independiente usando, aproximadamente, 150 puntos de 4.1 Parametrizacin de AD control, lo cual produjo un error cuadrtico medio En este estudio se construyeron modelos de de, aproximadamente, 15 m. Las imgenes, corregidas en valores de reflectividad, fueron rboles de decisin de tipo CART (Breiman, realzadas espectralmente mediante la 1984). Para la induccin de los rboles se transformacin lineal Tasseled Cap o Kauth contemplaron dos tipos de medidas de disimilitud diferente, el ndice Gini y la ganancia de Thomas antes de ser usadas en la clasificacin. informacin (Breiman, 1984; Quinlan, 1993). Con La escena de clasificacin se bas en los el objeto de obtener modelos robustos y mapas de cubiertas del suelo desarrollados en generalizables se evaluaron todos los modelos de 2003 por el gobierno de la Comunidad Autnoma rboles de decisin posibles para profundidades de Andaluca. La complejidad del relieve y la alta de rbol de 2 a 29 y el mnimo nmero de influencia antrpica hacen que, en el rea de observaciones por nodo entre 1 a 50, lo que dio estudio, se puedan diferenciar 14 categoras lugar a 2700 modelos de rboles de decisin temticas a la escala de este estudio (tabla 1). diferentes. Para el entrenamiento y la validacin de las clasificaciones se utilizaron un conjunto de 100 4.2 Parametrizacin de RF reas de entrenamiento y 50 reas de validacin A diferencia de la mayor parte de las para cada categora, obtenidas a partir de muestreos de campo y de ortofotos metodologas basadas en aprendizaje de correspondientes a la fecha de adquisicin de las mquinas, RF slo necesita la definicin de dos parmetros para la generacin de un modelo de imgenes. prediccin: el nmero de rboles de clasificacin (k) y el nmero de variables predictivas (m) que Id. Clase Id. Clase son usadas en cada nodo para hacer crecer los 1 Urbano 8 Quercneas rboles de decisin. Para establecer el valor ptimo de m, se llev a cabo un gran nmero de 2 Chopos 9 C. Herb. Reg. experimentos usando diferentes nmeros de 3 Conferas 10 C. Le. Reg. rboles y de variables de divisin. El rango del nmero de rboles se fij entre 1 y 1000 y el 4 Invernaderos 11 C. Herb. Sec. nmero de variables de divisin de 1 a 9, a intervalos de 1. Esta combinacin de parmetros 5 Matorral 12 S. desnudos dio lugar a 9000 modelos diferentes RF para la 6 Olivar 13 C. Tropicales clasificacin del rea de estudio. 7 Pastizal 14 Agua

4.3

Parametrizacin de RNA

Tabla 1. Cubiertas del suelo clasificadas.

METODOLOGA

Los algoritmos de aprendizaje de mquinas se entrenaron a partir de diferentes variables espectrales y auxiliares. Se utilizaron las variables de la transformacin Kauth Thomas de las imgenes Landsat de primavera y verano, adems de las variables del modelo digital del terreno de la provincia de Granada: elevacin, pendiente y orientacin. En este estudio se han usado diferentes implementaciones de clasificadores, incluidos en distintos paquetes del software libre R 2.10.1 (RProject): rpart, nnet, e1071 y randomForest. Con objeto de realizar una comparacin

Con el objetivo de encontrar una solucin de compromiso entre la exactitud de la red y el poder de generalizacin, se construyeron diferentes modelos de redes neuronales de propagacin hacia delante, usando una funcin de transferencia sigmoidea estndar. Para ello, se entrenaron redes neuronales de arquitecturas diferentes, formadas por una nica capa oculta, cuyo nmero de unidades fue fijado desde 1 hasta 20. Del mismo modo, para optimizar el entrenamiento de la red, el rango de pesos iniciales asignados por la red fue fijado entre el intervalo comprendido entre -1 y 1, con incrementos de 0,02. A partir de estos valores iniciales, se consideraron diferentes valores de decaimiento de los pesos, (desde 0,01 a 0,1 a intervalos de 0,005). El valor ptimo de los pesos

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

fue establecido mediante una funcin de mnimos cuadrados. Esta combinacin de parmetros dio lugar a un total de 15.580 modelos de redes neuronales diferentes.

4.4

Parametrizacin de MVS

Las MVS necesitan del ajuste de un elevado nmero de parmetros para su optimizacin: a) funciones kernels, del tipo lineal, polinomial, sigmoidea y de base radial (RBF), b) coste c) gamma de la funcin kernel, a excepcin del kernel lineal, d) sesgo en la funcin kernel, slo aplicable al kernel polinomial y sigmoideo y, por ltimo, e) grado del polinomio, slo aplicable al kernel polinomial. El valor adecuado de estos parmetros es especfico de la naturaleza de los datos, por lo que es necesaria su optimizacin para obtener modelos generalizables; es decir, que no sobreajusten o subajusten a los datos y sean, por tanto, exactos (Yang, 2011). Para evaluar el impacto en la exactitud cartogrfica de cada uno de los parmetros mencionados en el prrafo anterior se construyeron un conjunto de 621.000 MVS para las diferentes combinaciones de parmetros. En la construccin de las MVS el coste fue fijado entre 0,1 y 100 a intervalos de 0,1 y gamma entre 0,05 y 1 a intervalos de 0,05. En el caso del kernel polinomial se calcularon los modelos considerando las distintas combinaciones de parmetros anteriores para cada uno de los 10 grados posibles del polinomio (nmero de variables +1). El sesgo, que tambin tom valores entre 1 y 10, se aplic a cada uno de los modelos del kernel sigmoideo. Sin embargo, en el caso del kernel polinomial, el sesgo slo se aplic al grado del polinomio para el cual se obtuvieron los mejores resultados derivados del test.

iguales a 0,92 y 0,91 e ndices kappa de 0,91 y 0,90, respectivamente. La clasificacin realizada por el rbol de decisin (AD) tuvo una exactitud cartogrfica significativamente menor que la del resto de metodologas con coeficientes de exactitud global y kappa iguales a 0,86 y 0,85, respectivamente. La tabla 2 muestra los valores del ndice kappa de las cubiertas del rea de estudio. Puede observarse un patrn comn en la clasificacin por los diferentes algoritmos, independientemente de la exactitud relativa de cada metodologa en la clasificacin de cada cubierta, consecuencia de la separabilidad espectral de las categoras. Las cubiertas mejor clasificadas por las diferentes metodologas comparadas fueron los chopos, invernaderos y agua. En concreto, las clasificaciones efectuadas por RF y MVS dieron lugar a valores de kappa iguales a 1, lo cual indica que todas las reas correspondientes a estas categoras fueron clasificadas correctamente. Los regados herbceos clasificados por RF tambin presentaron valores de kappa iguales a 1. Las cubiertas ms difciles de clasificar fueron las de mayor variabilidad intraclase y las que presentan un comportamiento espectral similar, como matorral, pastizal, suelos, quercneas y urbano. As, la clase urbano fue clasificada en algunas ocasiones como suelos y viceversa, ya que ambas cubiertas presentan valores altos de reflectividad. Por otro lado, la alta reflectividad de los suelos del rea de estudio puede enmascarar la respuesta espectral de parches de vegetacin de escasa cobertura como es el caso del olivar y dificultar su clasificacin. Las cubiertas matorral, quercneas y conferas, debido a su alto parecido espectral, tambin fueron clasificadas menos exactamente. De igual forma, las cubiertas con un alto parecido en su comportamiento espectral y estacional, los cultivos herbceos en secano y el pastizal (vegetacin herbcea con un elevado vigor en primavera), tambin fueron confundidos entre s. Id. Clase
1 2 3 4 5 6 7 8 9 10 11 12 13 14

RESULTADOS

La evaluacin de la exactitud se efectu en base a las matrices de confusin, a partir de las cuales se calcularon la exactitud global, exactitudes del usuario y el productor y el ndice kappa general y por categoras (Congalton, 1991; Congalton y Green, 2009). Los resultados obtenidos de la evaluacin de la exactitud cartogrfica pueden considerarse, en general, como muy positivos, teniendo en cuenta la complejidad del rea de estudio y el elevado nmero de categoras. La exactitud global y el ndice kappa de todas las metodologas de clasificacin, a excepcin de AD, fueron superiores a 0,9. La clasificacin generada por RF fue la ms exacta con coeficientes de exactitud global y kappa iguales a 0,92, seguida de las clasificaciones efectuadas con MVS (Radial) y RNA con valores de exactitud global

AD
0,72 0,98 0,70 0,96 0,85 0,83 0,79 0,70 0,91 0,85 0,93 0,72 0,94 0,98

RF
0,87 1,00 0,91 1,00 0,79 0,98 0,83 0,85 1,00 0,85 1,00 0,81 0,98 1,00

RNA
0,85 0,98 0,87 0,96 0,87 0,93 0,85 0,91 1,00 0,89 0,98 0,64 0,89 1,00

MVS
0,93 1,00 0,89 1,00 0,87 0,91 0,85 0,87 0,91 0,89 1,00 0,66 0,96 1,00

Tabla 2. Valores del ndice kappa por categoras.

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

En cuanto a las diferencias en la exactitud de la clasificacin de las cubiertas en relacin a la metodologa de clasificacin utilizada, en trminos generales, RF y MVS fueron los que mejor clasificaron las cubiertas del rea de estudio. Las cubiertas conferas, olivar, suelos y cultivos tropicales fueron clasificadas de forma ms exacta por RF. MVS mejor la clasificacin del resto de metodologas para la cubierta urbano. Sin embargo, las RNA clasificaron de forma ms exacta las quercneas.

La evaluacin de la exactitud normalmente se realiza en base al clculo y comparacin de los coeficientes kappa, y la proporcin de casos correctamente clasificados (exactitud global) derivados de cada mapa. Esta aproximacin asume que las muestras utilizadas para el clculo del ndice kappa (test) son independientes, lo cual en muchos casos no se cumple, puesto que se usa el mismo conjunto test en la evaluacin de la exactitud de cada mapa. En los casos en los que los test no son independientes, la significatividad estadstica de las diferencias en exactitud de dos mapas clasificados puede ser evaluada mediante el test de McNemar (Foody, 2004; Foody, 2009). Este test considera que las diferencias en AGRADECIMIENTOS exactitud son estadsticamente significativas para un nivel de confianza del 5%, es decir, para Este trabajo se ha desarrollado con la valores de Z mayores de 1,96. financiacin del Proyecto GEOSDA CGL201017629 del Ministerio de Economa y De forma complementaria a la comparacin Competitividad y del grupo de investigacin de la exactitud cartogrfica, se ha evaluado la RNM122 de la Junta de Andaluca. significatividad de las diferencias en exactitud de los resultados obtenidos por las diferentes BIBLIOGRAFA metodologas de clasificacin a travs de la aplicacin del test de McNemar. La tabla 3 Boser, B.E., Guyon, I.M., Vapnik, V.N. 1992. A muestra los valores de Z calculados entre los training algorithm for optimal margin resultados de la aplicacin de las diferentes classifier, En Fifth ACM Annual Workshop on metodologas de clasificacin, una vez se Computational Learning, Pittsburgh, PA, seleccionaron los parmetros ptimos relativos a USA,144-152. cada clasificador. Como puede observarse a partir de esta tabla, todos los clasificadores Breiman, L. 1984. Classification and regression trees, Chapman & Hall/CRC. fueron significativamente ms exactos que AD. En trminos generales, los resultados de la Breiman, L. 1996. Bagging predictors, Machine exactitud cartogrfica derivada de RF, RNA y Learning, 24 (2), 123-140. MVS pueden considerarse al mismo nivel. Breiman, L. 2001. Random forests, Machine AD RF RNA MVS Learning, 45 (1), 5-32.
RF RNA MVS 4,96 3,63 4,4 -1,48 0,93 1,48 -0,7 0,93 0,7 --

neuronales tambin consiguieron un alto nivel de exactitud cartogrfica (kappa igual a 0,91), aunque nicamente para una combinacin muy concreta de sus parmetros de ajuste. Por tanto, la exactitud de la cartografa generada, depende, en gran medida, de la configuracin de los parmetros intrnsecos de cada clasificador. Aunque para algunos clasificadores como RNA y MVS se pueden alcanzar niveles elevados de exactitud para una configuracin de parmetros concreta, la dificultad de la estimacin de estos parmetros hace que su aplicacin sea poco operativa. En cuanto a los resultados de las clasificaciones por categoras, este estudio demuestra que la eleccin del clasificador da lugar a diferencias en la exactitud de las clasificaciones en funcin del tipo de cubierta. As, RF y MVS fueron los que mejor clasificaron las cubiertas del rea de estudio. Las cubiertas conferas, olivar, suelos y cultivos tropicales fueron clasificadas de forma ms exacta por RF. MVS mejor la clasificacin del resto de metodologas para las cubiertas urbanas. Por ltimo, las RNA clasificaron de forma ms exacta las quercneas.

Tabla 3. Resultados de la evaluacin de la significatividad estadstica (Z) de las diferencias Foody, G.M. 2004. Thematic Map Comparison: Evaluating the Statistical Significance of en los coeficientes kappa de los mapas temticos Differences in Classification Accuracy, clasificados por los diferentes clasificadores. Photogrammetric Engeenering and Remote Sensing, 70, 627-633. 6 CONCLUSIONES

Cortes, C. y Vapnik, V. 1995. Support-Vector Networks, Machine Learning, 20 (3), 273297.

La mayor exactitud de las clasificaciones fue Foody, G.M. 2009. Classification accuracy comparison: Hypothesis tests and the use of alcanzada por RF y MVS, con valores de kappa confidence intervals in evaluations of iguales a 0,92 en ambos casos. Las redes

XV Congreso Nacional de Tecnologas de la Informacin Geogrfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Clasificacin de imgenes de satlite mediante software libre: nuevas tendencias en algoritmos de Inteligencia Artificial V. Rodrguez-Galiano y M. Chica-Rivas

difference, equivalence and non-inferiority, Quinlan, J.R. 1993. C4.5 Programs for Machine Learning, 1st ed. San Mateo, CA, Morgan Remote Sensing of Environment, 113, 1658Kaurmann. 1663. Mas, J.F. y Flores, J.J. 2008. The application of Rodriguez-Galiano, V.F., Ghimire, B., Rogan, J., Chica-Olmo, M. y Rigol-Snchez, J.P. 2012. artificial neural networks to the analysis of An assessment of the effectiveness of a remotely sensed data, International Journal Random Forest Classifier for land-cover of Remote Sensing, 29 (3), 617-663. classification, ISPRS Journal of Mountrakis, G., Im, J. y Ogole, C. 2011. Support Photogrammetry and Remote Sensing, 67, vector machines in remote sensing: A review, 93-104. ISPRS Journal of Photogrammetry and Venables, W.N. y Ripley, B.D. 2002. Modern Remote Sensing, 66 (3), 247-259. Applied Statistics with S, 4th ed., New York, Muller, K.R., Mika, S., Ratsch, G., Tsuda, K. y USA, Springer. Scholkopf, B. 2001. An introduction to kernelbased learning algorithms, Neural Networks, Yang, X. 2011. Parameterizing Support Vector Machines for Land Cover Classification, IEEE Transactions on, 12 (2), 181-201. Photogrammetric Engeenering and Remote Pal, M. y Mather, P.M. 2003. An assessment of Sensing, 77 (1), 27-37. the effectiveness of decision tree methods for land cover classification, Remote Sensing of Environment, 86 (4), 554-565.