Curso Geodatabase ArcGis93 Indice

NORMAS Y ESTNDARES PARA DATOS GEOESPACIALES
JORGE FALLAS Laboratorio de Teledeteccin y Sistemas de Informacin Geogrfica

Programa Regional en Manejo de Vida Silvestre y Escuela de Ciencias ambientales
Universidad Nacional, Heredia, Costa Rica

jfallas@racsa.co.cr www.una.ac.cr/ambi/telesig
2002
2 INDICE Introduccin............................................................................................................................1 Normas y estndares: Porqu? y Para qu? ..........................................................................2 Qu entendemos por calidad? ................................................................................................2 Estndares: Criterios y procedimientos utilizados para certificar la calidad de los datos ..........2 Qu se debe evaluar y documentar?.......................................................................................3 Exactitud geomtrica horizontal y vertical...............................................................................3 Probabilidad de error circular (CEP)....................................................................................4 Error horizontal en X y Y....................................................................................................5 Error radial..........................................................................................................................6 Cmo obtener el valor de referencia?.....................................................................................8 Limitaciones operacionales del estndar y soluciones prcticas ...........................................8 Estndar planimtrico basado en el procedimiento utilizado para compilar el producto ...........8 Estndares de cartografa analgica de los Estados Unidos de Amrica ...................................8 Mapas con escalas mayores a 1:20.000................................................................................9 Mapas con escalas inferiores a 1:20.000 ..............................................................................9 Exactitud vertical ..................................................................................................................11 Estndares propuestos por el Comit Federal de Datos Geogrficos de los Estados Unidos de Amrica ................................................................................................................................11 Caso 1: Error en ambos ejes es igual (error radial).............................................................12 Caso 2: Error en ambos ejes es diferente (Aproximacin del error estndar circular) .........12 Exactitud vertical ..................................................................................................................13 Comunicar la exactitud del producto .....................................................................................13 Ejemplo ................................................................................................................................14 Verificacin independiente del error del mapa georeferenciado.............................................15 Veracidad en la clasificacin de los atributos ........................................................................19 El estimador Kappa (K): Cuantificacin de la exactitud de clasificaciones multivariadas ......22 Estimacin del tamao de muestra ........................................................................................23 Factores a considerar en la evaluacin de la exactitud de la clasificacin...............................26 Muestreo de campo ............................................................................................................26 Sistema de clasificacin .....................................................................................................26 Auto correlacin espacial de los errores..............................................................................27 Tamao de la muestra ........................................................................................................27 Esquema de muestreo.........................................................................................................28 Diseos de muestreo con ArcView GIS.................................................................................32 Muestreo aleatorio.............................................................................................................32 Muestreo sistemtico.........................................................................................................38 Muestreo en transeptos......................................................................................................39 Consistencia lgica ...............................................................................................................41 Totalidad de informacin ......................................................................................................41 Reporte de los resultados.......................................................................................................41 Errores, estndares y calidad de la informacin : Que hacer?...............................................42 Documentacin de los geodatos ............................................................................................42 Bibliografa ...........................................................................................................................43
1 Introduccin Los Sistemas de Informacin Geogrfica pueden traer grandes beneficios a sus usuarios por su capacidad de manipular informacin georeferenciada en una forma precisa, rpida y sofisticada. Sin embargo, hasta el momento la mayara de los datos que han ingresado a las bases de datos de los SIGs provienen de mapas analgicos (papel). En ausencia de informacin actualizada y de mayor calidad, la tecnologa SIG puede estar promoviendo el uso de dichos datos en aplicaciones que obtenidos y mapeados con dichos requerimientos en mente. Al igual que cualquier otro dato, la informacin espacial tiene diferentes niveles de exactitud dependiendo del instrumento utilizado para obtenerla. Por ejemplo, el sensor ETM+ de Lansat (www.landsat7.usgs.gov) tiene una resolucin de 15m en su modo pancromtico, en tanto que el Spot5 en el mismo modo tiene una resolucin de 5 metros (www.spot.com) y el satlite QuickBird posee una resolucin de 70cm (www.digitalglobe.com). De igual manera la resolucin espacial de un mapa depender de la tecnologa utilizada para producirlo. Por ejemplo, en la mayora de los casos es imposible dibujar una lnea inferior a 0,2mm de grosor y prevenir la deformacin del papel debido a cambios en la humedad relativa del ambiente. Sin embargo, en el dominio digital, estas limitaciones pueden desaparecer al utilizar dgitos con 6 o ms cifras significativas, aun cuando la informacin original no justifique dicha exactitud. Las bases de datos geoespaciales en formato digital no tienen una escala explcita y en la mayora de los casos no se informa a los usuarios de su exactitud. Los errores e inconsistencias de los mapas fuente no eran evidentes antes de que utilizramos computadoras para procesar, analizar y tomar decisiones basados en dicha informacin. Sin embargo, ahora el procesamiento digital a travs de los SIGs ha puesto al descubierto las debilidades de nuestros datos y la necesidad de utilizar normas y estndares para documentar tanto su calidad como la de los productos que obtenemos a partir de ellos. Entre los usuarios de informacin espacial los trminos exactitud, precisin, resolucin, deteccin y escala son utilizados prcticamente en forma intercambiable y normalmente hacen referencia a la calidad o contenido de informacin de los datos. An cuando los trminos estn asociados entre s, no son intercambiables pues se refieren a diferentes propiedades o caractersticas de los datos. La exactitud o fidelidad expresa la diferencia entre el valor de la realidad y la medicin realizada. La precisin expresa el grado de detalle utilizado para realizar la medicin o el grado de repetibilidad entre mediciones sucesivas. La resolucin se refiere al objeto ms pequeo que se puede representar en los datos. La deteccin expresa la capacidad del usuario(a) para distinguir dos objetos en un producto analgico o digital; con frecuencia se asume como dos veces el valor de la resolucin (Fisher, 1991). Finalmente la escala representa la relacin entre el tamao de los objetos en el mundo real y su tamao en un mapa analgico. La resolucin y la escala estn ntimamente relacionadas pues el objeto o elemento ms pequeo que se puede representar estar determinado por la escala a la cual se representa. Por ejemplo, si asumimos que no es posible representar un elemento con un tamao inferior a 0.5mm a la escala del mapa, entonces esto implica que la resolucin efectiva de una mapa a escala 1:10.000 es de 10m y que el rea mnima que puede dibujarse es de 10*10 m o sea 10m2. Como se mencion anteriormente las geobases de datos digitales no tienen una escala explcita y por tanto tiende a pensarse que pueden imprimirse o utilizarse para generar
2 informacin a cualquier escala. Sin embargo, el usuario(a) debe recordar que la misma fue creada utilizando informacin en papel digital y por lo tanto tendr la escala y resolucin inherente de los datos originales. Por ejemplo, si la base de datos se elabor digitando mapas 1:200.000 su escala de automatizacin ser 1:200.000; si por el contrario se deriv del anlisis de imgenes TM su resolucin ser 30metros. El objetivo de todo documento analgico digital es representar la realidad tan fielmente como sea posible. En este sentido el concepto de exactitud puede utilizarse para evaluar la calidad de la informacin contenida en un mapa analgico o digital. Dado que en el pas no existen normas al respecto, en el presente documento se analizan los criterios propuestos por el Grupo de Trabajo en Estndares para Datos Cartogrficos Digitales del Comit Nacional de los Estados Unidos (DCDSTF,1988) y se propone adoptarlos como criterios tcnicos en la elaboracin de bases de datos georeferenciadas. De acuerdo a estos principios el estndar o norma debe documentar cuatro aspectos: exactitud geomtrica, veracidad en la clasificacin, consistencia lgica y totalidad de la informacin. Normas y estndares: Porqu? y Para qu? Las normas y estndares son importantes por las siguientes razones: Ofrecen confiabilidad en los datos generados y utilizados. Facilitan el intercambio de informacin. Aumentan el potencial de comercializar las bases de datos digitales. Evitan la duplicidad y aumentan la eficiencia en la comunidad de usuarios del SIG en el pas. Mejoran la calidad de los productos generados utilizando el SIG. Permiten editar y mantener la calidad de las bases de datos en el futuro. Qu entendemos por calidad? La palabra calidad es un trmino de uso comn tanto en el lenguaje coloquial como en el tcnico; en el presente documento se define como: La calidad de un producto es aquella requerida por el usuario para un determinado uso. En un SIG esta definicin puede operacionalizarse a travs del concepto de exactitud o fidelidad; el cual expresa el grado de similitud o disimilitud del producto (mapa analgico o digital) con respecto al mundo real que representa. En estadstica esto es igual al valor real menos el valor estimado y se conoce como error. Estndares: Criterios y procedimientos utilizados para certificar la calidad de los datos El uso de normas y estndares en un SIG es necesario porque como puede observarse en el cuadro 1, no es posible generar informacin sin errores y por lo tanto se requiere de una escala y un procedimiento para valorar dicho grado de error. Esto nos llevar a evitar errores del pasado tales como por ejemplo asegurar que una base de datos est plagada de errores y por tanto "no sirve.
3 Cuadro 1: Errores comunes en el uso de un Sistema de Informacin Geogrfico. Etapa del proceso Adquisicin de informacin Fuentes de error Errores de campo, errores existentes en los mapas fuente, errores en el anlisis de imgenes derivadas de sensores remotos. Errores de digitalizacin (error de mquina y error humano). Errores de generalizacin en los elementos a digitar (Ej. lmites que aparecen como exactos en el mapa pero que en la realidad son difusos). Precisin numrica inapropiada para los datos en uso. Ej. utilizar precisin simple (7 cifras significativas) Versus doble precisin con 16 cifras significativas. Resolucin espacial no apropiada para representar variabilidad de la superficie en estudio. Propagacin de errores al combinar dos o ms mapas. Errores en la delimitacin de los bordes de los polgonos. Uso inadecuado de las escalas de medicin. Seleccin de escalas inapropiadas para imprimir mapas. Errores asociados al medio utilizado para imprimir los mapas. Errores asociados al equipo utilizado para imprimir mapas. Interpretaciones incorrectas de los datos. Uso inadecuado de los resultados por desconocimiento o falta de formacin de los usuarios. Qu se debe evaluar y documentar? A continuacin se listan los aspectos que se sugiere documentar en toda base de datos Federal (Geographic Data Committee, 1998a): Exactitud geomtrica Veracidad en la clasificacin Consistencia lgica de la base de datos, y Totalidad de la informacin Exactitud geomtrica horizontal y vertical El proceso de automatizacin utilizado para convertir datos analgicos a digitales debe asegurar la integridad de los datos originales o sea que en su paso del formato analgico al digital no se introducen distorsiones significativas con respecto a la calidad del material original. Tambin es importante asegurar que los clculos u operaciones realizadas utilizando dichos datos la
Insumo de los datos
Almacenamiento de los datos
Manipulacin de la informacin
Generacin de productos
Aplicacin de resultados
4 no introducen errores mayores a los de los datos originales como consecuencia de la falta de precisin de la computadora. Bajo las condiciones normales de trabajo de cualquier laboratorio de SIG moderno, el equipo de computo y los perifricos utilizados cumplen con las condiciones estipuladas en el prrafo anterior. Por ejemplo, la resolucin tpica de cualquier mapa (0,5mm) es aproximadamente la resolucin con que un digitador puede ubicar un punto en la mesa digitadora. La mesa en s misma tiene resoluciones en el orden de 0,25mm y por lo tanto nos asegura que no introduce nuevos errores. Por otra parte, los clculos son ejecutados utilizando 7 u 8 decimales (precisin simple) 15 decimales (precisin doble) y por lo tanto es posible resolver diferencias en posicin (X,Y) ms all de las utilizadas en la cartografa contempornea. Utilizando una precisin simple (7 decimales) es posible resolver objetos separados por aproximadamente un metro uno del otro. Dado que el proceso de conversin de material analgico a digital no impone fuertes limitaciones a la exactitud de las geobases de datos digitales (Chen and Finn, 1994), no se discutir este tema en ms detalle. La exactitud geomtrica relativa o precisin es aquel valor que expresa un sesgo en la medicin realizada aun cuando los resultados preservan las relaciones espaciales locales. La exactitud relativa puede expresarse como la desviacin estndar con respecto al promedio del conjunto de puntos evaluados. Esta exactitud relativa no es aceptable para aquellos usuarios que requieren de una exactitud basada en un registro geodsico (Chrisman, 1991). Probabilidad de error circular (CEP) Esta medida de precisin se define como el radio de un crculo en el cual se encontrar el 50% de los valores (Fig.1). Por ejemplo, un valor de CEP de 25 metros indica que de 100 lecturas realizadas con un geoposicionador para un mismo punto solo 50 se encontraran en un radio igual o inferior a 25m. Dado que este nivel de certeza en la posicin de un punto es poco til para la mayora de los uauarios(as) de geodatos, dicha medida se ha transformado en R95 o CEP95; la cual indica que al menos un 95% de las lecturas realizadas con el receptor estarn dentro del radio especificado. Si usted es un usuario(a) de ArcViw GIS puede utilizar la extensin DNR_garmin.avx (www.dnr.state.mn.us).para calcular el CEPs para 50, 90, 95 y 98% de confianza .
Figura 1: Probabilidad de error circular. El 50% de las observaciones se encuentran en el rea indicada por el crculo.
5 Error horizontal en X y Y El error horizontal se determina restando los valores obtenidos para X y Y de los respectivos valores conocidao (Ej. Obtenidos de un mapa de lecturas de un geoposicionador de mayor exactitud) (Fig. 2).
10m
E J e Y Posicin real Error en X= 10m Posicin estimada Error en Y= 10m
Eje X
10m
Figura 2: Estimacin del error horizontal en X y Y. El error en posicionamiento es igual a: Error X (m): Ex= Xreal - Xestimado con el geoposicionador Error Y (m): Ey = Yreal - Yestimado con el geoposiciondor (1) (2)
Si usted dispone de n puntos de muestreo puede estimar la raz cuadrada del error medio cuadrtico (REMC) para su set de datos (en los textos en ingls se utilizan la siglas RMS para designar a dicho valor). Para esto, simplemente eleve al cuadrado cada error, smelos, obtenga el promedio y luego extrigale la raz cuadrada. El intervalo de confianza (IC) para el error en X es igual a: IC: t 1-? /2, n-1 * REMCX /(n)0.5 en donde 1-? es el nivel de confianza y n-1 los grados de libertad. RCEMCX (Error medio de posicionamiento en X) = [suma (Ex)2 / n] 0.5 El intervalo de confianza para el error en Y es igual a: IC: t 1-? /2, n-1 * REMCY /(n)0.5 en donde 1-? es el nivel de confianza y n-1 los grados de libertad. REMCY (Error medio de posicionamiento en Y) = [suma (Ey)2 / n] 0.5 (4) (3)
6 Error radial El error radial es el resultado de combinar el error de posicionamiento tanto en la direccin horizontal (Eje X) como en la vertical (Eje Y). El error en posicionamiento es igual a: Error radial (Exy) = [(error en x)2 + (error en y) 2 ] 0.5 (5)
Por ejemplo, un punto con un error de 10m tanto en X como en Y tendr un error radial de 14.1m (Fig. 3). El desplazamiento entre los puntos puede medirse utilizando el programa ArcView GIS o cualquier otro programa.
10m
E J e Y
Error: 14.1m
Posicin Real Posicin estimada
Eje X
10m
Figura 3 : Estimacin del error radial. La medida de error denominada dos veces la raz del error medio cuadrtico de la distancia (2drms) es la que se utiliza con mayor frecuencia en la actualidad e indica que el error en posicionamiento es igual a dos veces la raz del error radial medio cuadrtico. En este caso el error se define como la distancia entre la posicin real del punto y la posicin estimada el prodcuto. La probabilidad asociada a la estimacin del error depende del grado de elipticidad de la distribucin de los errores. Si se asume que los errores en posicionamiento tienen una distribucin normal dicho error tendr una probabilidad de 95.4% a 98.2%. Si usted dispone de n puntos de muestreo puede estimar la raz del error medio cuadrtico (REMC) para su set de datos. Para esto, simplemente eleve al cuadrado cada error radial, obtenga el promedio y luego extrigale la raz cuadrada. El intervalo de confianza para el error radial es igual a: (6) REMC= [ suma (Exy)2 / n ] 0.5 en donde: Exy representa el error de posicionamiento radial del punto y n el nmero de puntos medidos. Asume una distribucin normal bivariables en el set de datos. La exactitud geomtrica absoluta del producto depender de la resolucin del mapa o de imagen utilizada para crearlo. Es comn aceptar como resolucin mnima un objeto con una dimensin de 0.5mm (Chrisman, 1991). Esto representa, por ejemplo, para un mapa a escala 1:10.000, un objetos cuyo tamao en el terreno es superior o igual a 5m. La figura 4 ilustra la
7 seleccin de 4 puntos bien definidos en un ambiente urbano y el cuadro 2 el clculo de la raz del error medio cuadrtico (REMC). REMC x,y: [Sum {(Xi Xi)2 +(Yi Yi)2 }/n]0.5 (7)
Donde Xi y Yi son las posiciones del objeto en el producto y Xi y Yi su posicin real en la superficie terrestre; n es el nmero de muestras. A continuacin se muestra un ejemplo hipottico para ilustrar el clculo de la raz del error medio cuadrtico. Para el clculo se asume que el evaluador puede identificar las esquinas de las cuadras tanto en el producto digital como en la realidad. Los datos de referencia deben ser ms exactos que los datos digitales a evaluar. El nmero de puntos utilizados (4) es muy limitado para un caso real, recuerde que se recomienda utilizar al menos 20 puntos bien distribuidos en el rea a evaluar.
Figura 4: Seleccin de puntos bien definidos para evaluar la exactitud geomtrica. Cuadro 2: Clculo de la raz del error medio cuadrtico (REMC) para 5 puntos bien definidos. Punto Mapa X (m) Y(m) X (m) Punto 1 512 490 510 Punto 2 250 350 248 Punto 3 130 160 133 Punto 4 450 290 452 Punto 5 640 160 644 1 Tambin se le conoce como error radial Coordenadas GPS Y(m) X (m) 487 2 352 2 163 -3 289 -2 161 -4
Error (m) Y(m) Planimtrico1 3 3.60 -2 2.82 -3 4.24 1 2.23 -1 4.12
REMC x,y = 3.49 m Desviacin estndar del error planimtrico: (SREMC x,y): 0,86 m Para X el REMC es : [Sum (X - X)2 /n]0.5 = 2.72m Para y el REMC es : [Sum (Y - Y)2/n]0.5 = 1.94m Error esperado para un nivel de confianza dado = (Valor de tabla Z * S/Raiz (n) + error promedio
8 Para un nivel de confianza del 95% el valor de Z es 1.96 y el error mximo esperado sera de 4.96 m. Este clculo asume una distribucin normal bivariada y un tamao de muestra igual o superior a 30; de lo contrario debe utilizar un tabla t. de Estudiante. Cmo obtener el valor de referencia? Los estndares propuestos por la Sociedad de Fotogrametra y Sensores Remotos de los Estados Unidos (DCDSTF, 1988) establecen que el error absoluto de aquellas localizaciones utilizadas para evaluar la exactitud de un producto (Ej. mapa) debe ser al menos un tercio de la exactitud esperada del producto a ser evaluado. En la actualidad los Sistemas de Posicionamiento Global por Satlite son utilizados frecuentemente para proveer este valor de referencia; tambin es posible utilizar; las redes geodsicas del pas (mtodo tradicional). Limitaciones operacionales del estndar y soluciones prcticas El estndar asume que los puntos a evaluar estn bien definidos tanto en el mapa como en el terreno (Ej. esquina de una cuadra en un rea urbana). En reas rurales no siempre es posible cumplir con este requisito. Algunas soluciones a esta limitacin son: 1. Asumir que el error calculado para los puntos bien definidos aplica a la totalidad del mapa/producto. 2. El error total ser igual al error mnimo determinado utilizando los puntos bien definidos ms el error de aquellos puntos con dificultades de ubicacin tanto en el mapa como en el terreno. Estndar planimtrico basado en el procedimiento utilizado para compilar el producto A continuacin se presentan tres criterios utilizados para definir la exactitud planimtrica (X,Y) requerida para productos analgicos de diferentes escalas; dada la ausencia de criterios a nivel nacional para datos digitales, el autor sugiere utilizar alguno de ellos para documentar la exactitud de las geobases de datos digitales. En los mapas analgicos, el error en posicionamiento horizontal (X,Y) est asociado a la escala del mapa. Por ejemplo, en comn asumir que la marca ms pequea discernible en un mapa impreso es 0.5mm; o sea 25m para un mapa escala 1:50.000 y 12.5m para un mapa escala 1:25.000. El cuadro 3 ilustra la relacin entre resolucin y deteccin para mapas con escalas entre 1:10.000 y 1:200.000 asumiendo que se requiere de un par de lneas para detectar un elemento en el mapa (Fisher, 1991). Cuadro 3: Resolucin y deteccin de elementos en mapas a diferentes escalas asumiendo una lnea con un ancho mnimo de 0.5mm. Escala mapa 1:10 000 1:25 000 1:50 000 1:200 000 Resolucin (m) 5 12.5 25 100 Deteccin (m) 10 25 50 200
Estndares de cartografa analgica de los Estados Unidos de Amrica Estos estndares fueron emitidos por la Oficina de Presupuesto de los Estados Unidos de Amrica en 1947 y son todava utilizados en dicho pas (Bureau of the Budget, 1947). El
9 estndar considera dos casos; el primero para cartografa con una escala mayor a 1:20.000 y el segundo para cartografa con una escala inferior a 1:20.000. Mapas con escalas mayores a 1:20.000 Para aquellos mapas con una escala mayor a 1:20.000 (Ej. 1:10.000) no ms de un 10% de los puntos evaluados deben exceder un error horizontal de 0,846mm a escala del mapa. Los puntos que se seleccionen para la evaluacin deben estar claramente definidos tanto en el mapa como en el terreno (Ej. esquina de una cuadra). Si aplicramos este estndar a los mapas 1:10.000 de Costa Rica, de 100 puntos seleccionados slo 10 podran tener un error horizontal superior a los 8.46 metros. Mapas con escalas inferiores a 1:20.000 Para mapas con una escala inferior a 1:20.000 (Ej. 1:50.000) un mximo de 10% de los puntos evaluados pueden tener un error superior a 0,508mm a escala del mapa (Fig.5). Para la serie 1:50.000 de Costa Rica esto equivale a 25.4m y para la serie 1:200.000, 101.6m.
Figura 5: Representacin grfica del estndar propuesto en Estados Unidos en 1947 (Bureau of the Budget, 1947). A continuacin se ilustra el uso del estndar con dos grficos. En el primero caso se observa el efecto del error medio en el nmero de observaciones esperadas con un valor superior a 25.4m cuando se mantiene constante la variabilidad del set de datos. La simulacin indica que solo en
10 los primeros tres casos se cumple con el estndar. En el cuarto caso, an cuando el error medio es de 25m, el set de datos contiene 49 observaciones con un error superior a 25.4m. La segunda grfica ilustra el efecto de la variabilidad del set de datos en el nmero de observaciones con un error superior a 25.4m cuando se mantiene constante el error medio. En este caso el error sera superior al establecido cuando el set de datos tiene un coeficiente de variacin igual al 20%.
Figura 6: Relacin entre el error medio (REMC) y el nmero de observaciones esperadas con un valor superior a 25.4m. Se mantiene constante la variabilidad del set de datos.
Figura 7: Nmero de observaciones esperadas con un error superior a 25.4m en funcin de la variabilidad del set de datos. Se mantiene constante el error medio (REMC). La lnea roja indica el valor establecido por el estndar para cartografa escala 1:50.000.
11 Exactitud vertical El estndar propuesto por La Oficina de Presupuesto de los Estados Unidos de Amrica en 1947 y todava utilizados en dicho pas (Bureau of the Budget, 1947) establece que no ms del 10% de las elevaciones evaluados podrn tener un error superior a 0,5 del intervalo de la curva de nivel. Por ejemplo, para los mapas 1:50.000 de Costa Rica con curvas de nivel cada 20 metros, el error permisible sera de 10 metros. No se emiti criterio en cuanto a la exactitud de la posicin horizontal de la curva de nivel ya que es variable y depender de la topografa. Para reas con topografa relativamente plana la ubicacin real de la curva de nivel se encontrar en un rea mayor. Por el contrario, para un rea de topografa muy escarpada la posicin de la curva de nivel deber poseer una mayor exactitud. Dependiendo del equipo y de la tecnologa utilizada para elaborar los mapas topogrficos, la ubicacin de las curvas de nivel en reas muy escarpadas ser menos precisa que aquella ubicada en reas ms planas. Estndar propuesto por la Sociedad de Fotogrametra y Sensores Remotos de los Estados Unidos de Amrica Los estndares sugeridos por dicha sociedad para mapas de gran escala se muestran en el cuadro 4 (ASPRS, 1990; Merchant, 1987). Observe que el estndar asume que la marca ms pequea discernible a escala del mapa es 0.25mm. Cuadro 4: Errores planimtricos mximos permisibles para mapas de escalas 1:100 a 1:20.000. Escala del mapa REMC limitante1 (m) Equivalente mm a escala del mapa 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25
1:50 0.015 1:100 0.025 1:200 0.050 1:500 0.125 1:1000 0.250 1:5000 1.250 1:10000 2.500 1:20000 5.000 Fuente: Merchant, 1987. 1 En este caso el error en X y en Y se determina en forma separada y se compara con el valor del estndar. Ninguno de los errores puede superar dicho valor. Para la exactitud vertical, el estndar establece que la raz del error medio cuadrtico no debe exceder un tercio del intervalo de la curva de nivel del producto evaluado y que para valores puntuales de elevacin dicho valor no debe exceder un sexto del intervalo de la curva de nivel. Estndares propuestos por el Comit Federal de Datos Geogrficos de los Estados Unidos de Amrica El Comit Federal de Datos Geogrficos de los Estados Unidos de Amrica propuso el siguiente estndar para evaluar la exactitud geomtrica o planimtrica de los geodatos (Federal Geographic Data Committee, 1998):
12 Se debe utilizar la raz del error medio cuadrtico (REMC) para estimar el error en posicin del geodato. La evaluacin debe estar basada en el uso de una fuente de mayor exactitud que el material que se evala. La exactitud debe reportarse en unidades de terreno (metros para el caso de Costa Rica) y con un nivel de confianza del 95%. Esto indica que en promedio un 95% de las veces que se evalu la exactitud del producto sta deber tener un error inferior o igual al reportado por el autor de los geodatos. El estndar asume que el error reportado es una sntesis de todas las posibles fuentes de error que pueden afectar al geodato (Ej. errores de compilacin, control geodsico, calculo de coordenadas terrestres, etc.) Se recomienda que se utilice un mnimo de 20 puntos bien definidos para determinar la raz del error medio cuadrtico (REMC). Estos puntos deben estar bien distribuidos en el rea a evaluar. El nivel de confianza del 95% indica que solo un punto puede tener un error superior al especificado por el producto. Si usted no puede identificar 20 puntos bien definidos para realizar la evaluacin puede utilizar los siguientes mtodos para documentar la exactitud geomtrica de los geodatos (ANSI-NCITS, 1998): o Estimacin deductiva o Evidencia interna o Comparar producto con la fuente El clculo del intervalo de confianza para el error (REMC) depende del grado de excentricidad del error en X y en Y. Caso 1: Error en ambos ejes es igual (error radial) El clculo de nivel de confianza asume que los errores tienen una distribucin bivariable normal; que son independientes en la direccin de los ejes X y Y y que adems los datos se encuentran libre de errores sistemticos. Bajo estas circunstancias y para un nivel de confianza del 95% la exactitud es igual a (Greenwalt and Schultz, 1968, citado por Federal Geographic Data Committee, 1998): (8) Exactitud = 2.4477 * REMCx = 2.4477 * REMCy Exactitud = 2.4477 * REMCxy /1.4142 (9) Nota: la expresin REMCxy /1.4142 corresponde al error promedio en X y error en Y. Exactitud 95% = 1.7308 * RMSExy (10) Caso 2: Error en ambos ejes es diferente (Aproximacin del error estndar circular) En la mayora de los casos, el error en X y en Y ser diferente; sin embargo el estndar solo considera el caso en que la razn de la diferencia entre el error ms pequeo y el ms grande (Ya sea en X en Y) se encuentra en el mbito 0.6-1.0. Bajo estas condiciones el error estndar circular para un nivel de confianza de 39.95% puede aproximarse como (Greenwalt and Schultz, 1968, citado por Federal Geographic Data Committee, 1998): (REMCx + REMCy )/2 (11)
13 Dado que los errores tengan una distribucin bivariable normal; sean independientes en la direccin de los ejes X y Y y que adems los datos se encuentran libre de errores sistemticos; la exactitud del producto para un nivel de confianza del 95% puede aproximase utilizando al siguiente ecuacin (Federal Geographic Data Committee, 1998). Exactitud ~ 2.4477 *{(REMCx + REMCy)/2} En donde: REMCx: raz del error medio cuadrtico en X REMCy: raz del error medio cuadrtico en Y (12)
Exactitud vertical El estndar recomendado por el Comit Federal de Datos Geogrficos de los Estados Unidos de Amrica para la exactitud vertical de los geodatos sigue la misma filosofa del estndar utilizado para el error planimtrico; con la diferencia de que en este caso la incertidumbre corresponde al eje Z (Federal Geographic Data Committee, 1998). El estndar le asegura al usuario de los geodatos que la ubicacin real del punto se encuentra a una cantidad de metros un 95% del tiempo. El error medio (REMC) se calcula con la siguiente frmula: REMC z: [S(Z Z)2 /n]0.5 (13)
Donde Z y Z corresponden a la altura del objeto en el producto y en el terreno, respectivamente y n al nmero de puntos evaluados. El estndar parte del supuesto que el material se encuentra libre de errores sistemticos o que estos son mnimos. Dado que la distribucin del error vertical sea normal y que el tamao de muestra sea superior o igual a 30, el intervalo de confianza de 95% para el set de datos es igual a: Exactitud z = 1.960 *REMCz (14)
Comunicar la exactitud del producto El Comit Federal de Datos Geogrficos de los Estados Unidos de Amrica propone utilizar el siguiente procedimiento para reportar el resultado de la evaluacin de la exactitud de los geodatos (Federal Geographic Data Committee, 1998b): Si usted ha evaluado la exactitud vertical y horizontal de sus datos debe reportar el resultado de la siguiente manera: o Los datos evaluados tienen la siguiente exactitud: Horizontal _________metros con una confianza del 95% Vertical ___________ metros con una confianza del 95% Cuando usted no pueda utilizar la metodologa sugerida por el estndar (verificacin independiente de errores) para evaluar la exactitud de su producto pero ha utilizado procedimientos que han demostrado generar productos con un determinado grado de exactitud debe reportar la exactitud del producto de la siguiente manera: o Este producto ha sido compilado utilizando tcnicas de trabajo, procedimientos y equipo que permiten asegurar una exactitud horizontal y vertical de:
14 Horizontal _________metros con una confianza del 95% Vertical ___________ metros con una confianza del 95% Si usted puede evaluar la exactitud horizontal de los datos en forma independiente utilizando una fuente de mayor exactitud y adems puede especificar el error vertical esperado de sus procedimientos de trabajo debe citar la exactitud del producto de la siguiente manera: o Este producto ha sido evaluado y compilado utilizando tcnicas de trabajo, procedimientos y equipo que permiten obtener una exactitud horizontal y vertical de: Exactitud horizontal evaluada _________metros con una confianza del 95% Compilado para un error vertical de______ metros con una confianza del 95% Ejemplo Con el objetivo de aclarar el uso de los estndares a continuacin se presenta un ejemplo de la evaluacin de la exactitud del registro de dos segmentos de la hoja Tilarn 3247 III del IGN-CR publicada en 1982. Los segmentos fueron escaneados en un EpsonPerfection 1250 a una resolucin de 300dpi. Posteriormente fueron registrados utilizando la extensin ImageWarp y Analista Espacial de ArcView GIS. En el proceso de registro se utilizaron 7 puntos de control para el primer segmento y 5 para el segundo y en ambos casos se utiliz una ecuacin de segundo grado. Cuadro 5 : Puntos de control y error para el primer segmento. GCP ID InputX InputY OutputX (m) OutputY(m) Xerror (m) Yerror (m) Error XY (m) _________________________________________________________________________ 009 7.885 -2.125 454000 269000 0.566 -0.058 0.6 010 7.927 -10.757 454000 258000 0.681 -0.070 0.7 011 0.847 -0.542 445000 271000 1.197 -0.123 1.2 012 5.554 -6.832 451000 263000 -2.976 0.307 3.0 013 0.808 -10.755 445000 258000 -1.681 0.173 1.7 014 0.819 -3.684 445000 267000 -4.496 0.463 4.5 015 1.593 -6.827 446000 263000 6.708 -0.691 6.7 _________________________________________________________________________ Total X RMS Error = 3.4m (REMCx) Total Y RMS Error = 0.3m (REMCy) Error radial (REMCxy): 3.4m Estndar recomendado por NSSDA (USA) RCEMC*.1.7305 Nota: Si lo desea puede utilizar el archivo adjunto error_horizontal.xls para el clculo del RCEMC. IC: t 1-? /2, n-1 * REMC/(n)0.5 en donde 1-? es el nivel de confianza y n-1 los grados de libertad. Nota: Observe que los errores individuales en Y son muy pequeos (inferiores a 1m); sin embargo en X existen dos puntos con un error superior a 5 metros. El error radial o planimtrico medio fue de 3.4m; lo cual es un valor aceptable para un mapa original a escala 1:50.000. Una
15 forma de reducir el error de registro es eliminar los puntos con mayor error; sin embargo y a menos que exista un error real en la ubicacin del punto esto no mejora en realidad la exactitud del producto final. Por ejemplo, en el presente caso se pudo eliminar el punto 015 y de esta manera reducir el error radial a 2.2m y si se eliminara adems el punto 014 el error se reduce a 1.4m; sin embargo esto no mejorara la exactitud de la imagen georeferenciada. Para que la exactitud de la nueva imagen se mejorara sera necesario reemplazar dichos puntos por otros puntos en la misma vecindad pero con un error menor. En este caso, el error posiblemente es el resultado del proceso de escaneo (Ej. Los ejes del mapa no estaban orientados paralelos a los ejes del escner la tasa de error del escner no es constante). Si desea mayor informacin sobre el tema de los escneres lo remito al documento Escaneo, georeferenciacin y vectorizacin de material cartogrfico y de fotos areas utilizando ArcView GIS (Fallas, 2001). Cuadro 6 : Puntos de control y error para el segundo segmento. GCPID InputX InputY OutputX (m) OutputY (m) X error (m) Y error (m) Error XY (m) ______________________________________________________________________________ 002 7.653 -2.107 444000 270000 3.366 -1.395 3.6 003 7.790 -10.761 444000 259000 -6.443 2.673 7.0 005 0.635 -6.132 435000 265000 -2.487 1.033 2.7 007 4.569 -6.082 440000 265000 -2.372 0.980 2.6 008 4.643 -11.583 440000 258000 7.934 -3.291 8.6 ______________________________________________________________________________ Total X RMS Error = 5.0m (REMCx) Total Y RMS Error = 2.1m (REMCy) Error radial: 5.5m Nota: Observe que los errores individuales en Y son pequeos aunque mayores que para el segmento anterior; sin embargo los errores en X son aun mayores que para el segmento anterior. El error radial o planimtrico medio fue de 5.5m; lo cual es todava un valor aceptable para un mapa con una escala original de 1:50.000. Verificacin independiente del error del mapa georeferenciado Para la verificacin independiente del error se seleccionaron 41 puntos correspondientes a la intercepcin de la cuadrcula del mapa georeferenciado. Luego se determin las coordenadas planas (Lambert Norte) para cada uno de los puntos y finalmente se calcul la raz del error medio cuadrtico. La figura 8 muestra la ubicacin de los puntos elegidos para la validacin del error de georeferenciacin del mapa escaneado. Los puntos se han distribuido de tal forma que cubran toda el rea a evaluar. Observe que se ha ubicado un mayor nmero de puntos en el extremo inferior izquierdo del segmento uno para verificar que efectivamente el error es superior al resto de la imagen. El error promedio (REMCXY ) para los dos segmentos es de 16.7m; en tanto que para el eje X es de 16.3m y para el eje Y de 3.4m. Si se evalan dichos errores en forma independiente podra concluirse que en promedio son muy pequeos (inferiores a 0.33mm) y si aceptamos que la marca ms pequea que puede distinguirse en un mapa impreso es de 0.5mm (Fisher, 1991); entonces el producto tendra un error promedio inferior al esperado para un mapa 1:50.000. Por otra parte, si aplicamos los estndares mencionados en las secciones previas, el resultado sera el siguiente:
16 1. Estndar propuesto en Estados Unidos en 1947 (Bureau of the Budget, 1947). Este estndar establece que no mas de un 10% de los puntos seleccionados pueden tener un error superior a 0.508mm a escala del mapa; lo que equivale a 25.4m para un mapa 1:50.000. De los 41 puntos elegidos, 5 tienen un error superior a 25.4m y por tanto el mapa georeferenciado no cumplira con el estndar. Para cumplir con el estndar se requiere que un mximo de 4 puntos tengan un error superior a 25.4m. Note sin embargo que en este caso los errores superiores a 25.4m tienden a concentrarse en la esquina inferior izquierda del mapa georeferenciado, por cuanto puede concluirse que el error no se debe a un proceso aleatorio sino ms bien a un error localizado. Bajo estas circunstancias si se elimina dicha seccin del mapa, el resto cumplira con el estndar. En un caso como el analizado, el usuario debe tener mucho cuidado al utilizar el producto georeferenciado; ya que si se aumenta el tamao de la muestra, es posible que producto como un todo cumpla con el estndar; aun cuando una seccin del mismo posea una error superior al especificado por el estndar. Una forma de evitar esta distorsin en el uso del estndar es asegurarse que los errores son similares a lo largo y ancho del mapa. Otra alternativa es evaluar el error para cada uno de los segmentos por separado. Por ejemplo, para el segundo segmento, de los 17 puntos elegidos solo uno sobrepasa el error estipulado por el estndar y por ende cumple con el estndar. Sin embargo, el error de 35m se ubica en el extremo inferior del mapa, lo que podra indicar un error diferencial o localizado atribuible al escner. 2. Estndares propuestos por el Comit Federal de Datos Geogrficos de los Estados Unidos de Amrica Caso 2: Error en ambos ejes es diferente (error forma una elipse). En este caso el error en X y en Y no el mismo y por se aproxim el valor del la exactitud con una confianza de 95% utilizando la formula 12: Exactitud ~ 2.4477 *{(REMCx + REMCy)/2} Exactitud ~ 2.477 * (16.3+3.4)/2 Exactitud ~24.2m Los datos evaluados tienen una exactitud horizontal de 24.2 metros con una confianza del 95%. Bajo este estndar, el autor del producto reporta el valor de exactitud y le corresponde al usuario(a) decidir si dicho producto cumple con su requerimiento de calidad. El comentario realizado en la seccin anterior sobre la distribucin espacial de los errores tambin aplicable a esta seccin. Si aceptamos que la marca ms pequea que puede distinguirse en un mapa impreso es de 0.5mm (Fisher, 1991); entonces el producto tendra un error promedio inferior (0.484mm) al esperado para un mapa 1:50.000. Otra forma de analizar los resultados es determinar cuntos puntos tienen un error superior al especificado en el estndar; en este caso 6 puntos tienen un error superior 24.2m; lo que representa un 14.6% de la muestra. Las figuras 10 y 11 muestran la distribucin espacial de los errores en los ejes X y Y. Es evidente del anlisis de estas figuras que el error en X es mucho mayor que en Y y que es el responsable de que el mapa no cumpla con el estndar (en el primer caso) y de que la exactitud sea de 24.2m en el segundo caso. Si se eliminaran los errores superiores a 30m, el error medio (REMCXY ) sera de 13.7m; el error en X (REMCX) sera de 13.4m y el error en Y (REMCy) sera de 2.9m.
17
Figura 8: Distribucin de puntos de muestreo con sus respectivos errores (m). El color magenta indica error en eje X, el color azul error en eje Y y el color rojo error en XY. Los nmeros en rojo indican puntos de muestreo que sobrepasan el mximo estipulado el estndar.
Figura 9: Distribucin de puntos de muestreo con sus respectivos errores (m). El color magenta indica error en eje X, el color azul error en eje Y y el color rojo error en XY. Los nmeros en rojo indican puntos de muestreo que sobrepasan el mximo estipulado el estndar.
18
Figura 10: Distribucin de los errores en X (Oeste-Este)
Figura 11: Distribucin de los errores en Y (Sur-Norte).
19 La figura 12 muestra la distribucin espacial de los errores; es evidente de la grfica que el valor de los mismos no se distribuye en forma aleatoria; como se esperara si el resultado de los mismos fuese el producto de un proceso aleatorio que afectara por igual a todos los puntos muestreados en el mapa georeferenciado. La conclusin final es que es el comportamiento no aleatorio del error se debe a una combinacin de factores ajenos al mapa original y que estn asociados ms bien al proceso de automatizacin del mismo (Ej. escaneo).
Figura 12: Distribucin de los errores en X y en Y. Veracidad en la clasificacin de los atributos Los atributos son propiedades que poseen un determinado elemento geomtrico del mapa (Ej. lnea, punto, polgono). Por ejemplo, una lnea en el mapa puede representar un ro permanente, una lnea de ferrocarril una carretera. Estas variables se cuantifican a un nivel de medicin nominal (Ej. clases de uso-cobertura del suelo) y de intervalo (Ej. grados de erosin) y por lo tanto el error no puede evaluarse en trminos de la desviacin estndar de la raz del error medio cuadrtico (REMC). Los sistema de clasificacin utilizados deben ser mutuamente excluyente y comprender la totalidad de las categoras presentes en el rea de estudio. Cuando sea posible debe utilizarse un sistema de clasificacin jerrquico. Este sistema permite reagrupar categoras con gran facilidad y a la vez mantener la lgica de la clasificacin. El reagrupar o generalizar clases es una forma de cumplir con un estndar de clasificacin preestablecido. Se deben utilizar indicadores naturales para definir las clases. Por ejemplo, es fcil diferenciar en el terreno entre pasto con arbustos y pasto sin arbustos; sin embargo es ms difcil separar pasto con cobertura de arbustos entre 0-25% y pasto con cobertura de arbustos entre 26 y 50%. Recuerde que para asegurar datos de alta calidad es necesario definir claramente cada una de las categoras antes de iniciar el
20 proceso de clasificacin. Cuanto ms compleja sea el sistema de clasificacin mayor ser el esfuerzo requerido para su verificacin en el campo y mayor ser el nivel de error de la clasificacin. Los estndares cartogrficos de los Estados Unidos no hacen referencia al nivel de veracidad requerido por los atributos representados en el mapa (Fisher, 1991). Por ejemplo, el estndar no requiere que al menos un 90% de las carreteras que aparecen como asfaltadas en el mapa posean realmente dicha caracterstica o que un 85% de los nombres de las localidades sean los correctos. Las categoras clasificadas errneamente pueden ordenarse posteriormente de acuerdo a su grado de disimilitud con respecto a la identidad verdadera de la clase. Por ejemplo, es ms grave clasificar pasto como bosque que bosque secundario temprano como bosque secundario avanzado. Para evaluar la exactitud de una clasificacin es necesario, al igual que en el caso anterior, utilizar una fuente de informacin de mayor exactitud que el material a evaluar. El resultado es presentado como una matriz de confusin. Esta matriz muestra en su diagonal las categoras clasificadas correctamente; en las columnas las categoras deducidas por el autor de la clasificacin y en las filas las clases de referencia (verdad de terreno). El error asociado a cada una de las columnas se denomina error de inclusin o comisin y representa aquellas reas que fueron asignadas a dicha categora sin pertenecer a ella. En las filas se presentan las categoras verdaderas; el error asociado a cada fila se denomina error de exclusin u omisin y representa aquellas reas que no fueron asignadas a dicha categora an cuando pertenecan a ella (Aronoff, 1975; Story y Congalton, 1986). La exactitud del usuario (error de comisin o de inclusin) es importante pues le indica al usuario el error esperado al utilizar el mapa en el campo. El cuadro 7 presenta una matriz de confusin hipottica utilizada en el anlisis de la exactitud de la clasificacin de un mapa temtico. La exactitud global de la clasificacin fue de un 85.9%; la cual puede considerarse como satisfactoria. Si nos interesara analizar con mayor detalle la exactitud con que hemos clasificado a los cultivos, el cuadro indica que el analista acert en un 80%, lo cual puede considerarse nuevamente como satisfactorio. Tanto la exactitud de la clasificacin general (85.9%) como la de los cultivos (80%) nos indican que los atributos o clases del mapa son muy confiables. Sin embargo, si se analiza la exactitud del usuario para la categora cultivos se observa que es de un 86.9%; esto indica que aunque 80% de las reas de cultivos han sido identificadas correctamente, en realidad existe un 86.9% del rea dedicada a cultivos. Este ejemplo nos ilustra la importancia de analizarse tanto la exactitud global del mapa, como la exactitud del analista y del usuario. La exactitud del usuario (error de comisin o de inclusin) es importante pues le indica al usuario el error esperado al utilizar el mapa en el campo. La exactitud global de la clasificacin slo considera los aciertos en diagonal y descarta la informacin suministrada por los errores de comisin y omisin. Esta limitante puede eliminarse utilizando un estadstico multivariado discreto como el ndice de concordancia Kappa o un anlisis normalizado de la matriz de confusin.
21 Cuadro 7 : Matriz de confusin hipottico utilizado para evaluar la exactitud de la clasificacin. Categoras deducidas de la clasificacin Clases de referencia Bosque Cultivo Pasto Urbano Total Bosque 0 1 0 20 19 Cultivo 2 3 0 25 20 Pasto 1 2 1 34 30 Urbano 0 1 2 13 10 Total 22 23 36 11 92 Ex. Usu. 86.4 86.9 83.3 90.9 Err. Com. 13.6 13.1 16.7 9.1 Ex. Prod.: Exactitud del productor Ex: Usu.: Exactitud del usuario Err. Om.: Error de omisin Err. Com. : Error de comisin. Exactitud del Usuario Bosque: 19/22= 86.4% Cultivo: 20/23= 86.9% Pasto: 30/36= 83.3% Urbano 10/11=90.9% Valores % Ex. Prod. Err. Om. 95.0 5.0 80.0 20.0 88.2 11.8 76.9 23.1 Exactitud global (19+20+30+10)/92= 85.9%
Exactitud del Productor 19/20= 95.0% 20/25= 80.0% 30/34= 88.2% 10/13= 76.9%
Bajo el supuesto de una distribucin binomial para cada categora y utilizando una aproximacin normal de la distribucin binomial puede calcularse un intervalo de confianza para cada categora utilizando las siguientes ecuaciones: = (1/n) S xi (15)
en donde : representa la probabilidad (p) de que cada muestra haya sido correctamente clasificada y xi las muestras correctamente clasificadas del total de las observaciones (n). La varianza de p es S2= p(1-p); en donde p es la proporcin de muestras correctamente clasificadas y 1-p denominado q representa la proporcin de muestras clasificadas incorrectamente. Entonces, el intervalo de confianza para p es: Z(1-a/2) * [((p* q)/n)] 0,5 (16)
Por ejemplo, para los datos de la tabla 10, del total de sitios de muestreo (92) solo 79 fueron asignados correctamente (19+20+30+10); lo que representa una exactitud del 85.9%. Aplicando la frmula 12, el error de muestreo para una confianza del 95% sera: Error de muestreo = 1.96 * ((0.859*0.141)/92)0.5 = 0.071 Y por tanto el intervalo de confianza es igual a 85.9% 0.071%; lo que indica que la fiabilidad real promedio esperada para la clasificacin se encuentra entre 85.83% y 86.04%.
22 La tcnica de anlisis anterior es esencialmente descriptiva; por lo que a continuacin se describe el uso del estimador Kappa (K) para evaluar la exactitud de la clasificacin de los atributos en el mapa (Congalton et. al., 1983). El estimador K considera tanto la informacin sobre la concordancia global de la clasificacin como los errores de comisin y omisin. El estimador Kappa (K): Cuantificacin de la exactitud de clasificaciones multivariadas El estimador K incluye tanto informacin sobre la concondancia global de la clasificacin como sobre los errores de omisin y comisin indicados por el producto de los subtotales marginales de las columnas e hileras. El ndice mide la diferencia entre la exactitud de la clasificacin y aquella esperada por razones de azar. _ NSxii - S(xi+ * x+i) K = --------------------------N2 - S (xi+ * x+i) en donde: S indica la sumatoria desde la hilera 1 hasta la n en la matriz; xii indica el nmero de observaciones en hilera i y columna I; xi+ y x+i indican las sumas marginales de la hilera i y la columna I, respectivamente, y N nmero total de observaciones El intervalo de confianza para K puede estimarse utilizando la aproximacin de la varianza para muestras grandes (Bishop et. al. 1975): 1 ?1 (1- 21) 2 (1- ? 1) (2 ? 1 (? 2 - ? 3)) (1- ? 1)2 (? 4-4* ? 22) S( K) = --- - ---------------- + -------------------------------- + --------------------------(1- ? 2)3 (1- ? 2)4 N (1- ? 2)2 donde: xii ? 1 = S -------N sumatoria desde i=1 hasta i=r (filas) (19)
(17)
(18)
xi+ * x+i ? 2 = S ------------N2
sumatoria desde i=1 hasta i=r (filas)
(20)
xii xi+ x+i ? 3 = S ----- (------ + ------) N N N
Sumatoria desde i=1 hasta i=r (filas)
(21)
xij xj+ x+i ? 4 = S ----- (------- + -----) 2 Sumatoria desde i=1 hasta i=r filas) N N N y desde j=1 hasta j=c (columnas)
(22)
23 El promedio y la varianza de K nos permiten realizar las siguientes inferencias estadsticas: 1. Probar por la significancia estadstica de la clasificacin; o sea para un nivel de significancia dado es la clasificacin mejor que una asignacin aleatoria de clases a los polgonos o pixeles de una imagen o mapa?. 2. Dadas dos estimaciones independientes de K Son las dos matrices de clasificacin estadsticamente diferentes a un nivel de significancia dado?. K1 - K2 Z ~ -----------------------(S12 + S22)0,5
,?
(23)
La prueba se realiza bajo el supuesto de que el tamao de la muestra es grande (normalmente N >=30) y de que K es asintticamente normal. EL valor crtico de Z se obtiene de la tabla de distribucin normal estandarizada. Utilizando esta aproximacin normal es posible comparar un conjunto de matrices de confusin y determinar Cul mtodo de clasificacin (Ej. supervisada Versus no supervisada; uso de fotos a color Versus blanco y negro, etc.) es superior o Cul set de datos (Ej. poca seca Versus poca lluviosa) provee una mayor exactitud en la clasificacin?. Cuando la matriz de confusin presenta muchas categoras se requiere de un gran nmero de muestras para evaluar su exactitud. Por ejemplo, para una matriz de 20 columnas por 20 hileras se requieren al menos 400 muestras para obtener al menos una observacin por celda. Dadas las limitaciones de las frmulas estadsticas, recomienda obtener al menos 50 muestras (pixeles) por tipo de cobertura o categora de uso del suelo. Y cuando el rea sea muy grande (superior a 350.000ha) o el nmero de categoras sea superior a 12 el tamao de muestra por categora debe incrementarse a 75 o 100 Congalton (1991). Es vlido aumentar el tamao de la muestra en aquellas reas de mayor variabilidad o de mayor importancia en detrimento de reas menos variables o menos importantes. Estimacin del tamao de muestra El tamao de muestra requerido para un error dado puede estimarse utilizando la aproximacin normal de la distribucin binomial (Snedecor y Cochran, 1980) para calcular el tamao de la muestra. n = Z2 (p*q) / E2 (24)
en donde: p: proporcin esperado de aciertos q: proporcin esperado de errores (100-p) E: error mximo permisible (fraccin) Z: es el valor de la distribucin normal estandarizada para un alfa determinado. Por ejemplo, para un nivel de confianza del 95% (a =0,05) el valor de Z es 1,96. p = (nc / N) (25) en donde nc: nmero de puntos con un error inferior o igual al mximo permitido, y N: nmero total de observaciones
24 La varianza de p es: S2= (p*q) / n en donde q: 1-p, proporcin de desaciertos Por ejemplo para un mapa con un error esperado de 10% (0.1), un error mximo permisible de 5% (0.05) y un nivel de confianza del 95% (Z= 1,96), tenemos que el tamao de la muestra debe ser: n = (1,96)2 * (0.90*0.10) / (0.05)2 = 138 puntos de observacin Una vez realizado el muestreo el intervalo de confianza para p puede calcularse utilizando la siguiente ecuacin: p Z(1-a/2) * ((p*q) / n)) 0,5 (27) (26)
Cuando se desee calcular el lmite de confianza inferior debe utilizarse la siguiente frmula: PI = p - Z(1- a) * ((p*q)/n))0,5 + 1/(2n) en donde p= q= n= proporcin de puntos que cumplen con el estndar proporcin de puntos que no cumplen con el estndar (1-p) tamao de la muestra (28)
El valor 1/(2n) se denomina correccin por continuidad y su uso es recomendado por Snedecor y Cochran (1980) para mejorar la exactitud de la aproximacin normal. El esquema de muestreo utilizado es otro aspecto importante a considerar. El muestreo simple al azar (sin reemplazo), el estratificado al azar y el de conglomerados han brindado resultados satisfactorios (Congalton, 1991). Cuando se utilicen conglomerados dicho autor sugiere una muestra formada por 5 a 25 pixeles por conglomerado. Otra consideracin prctica en el esquema de muestreo es que en la mayora de los casos no es posible realizar el trabajo de campo dos veces. La primera vez para entrenar al clasificador (Ej. fotointrprete o computadora) y la segunda para obtener la informacin necesaria para evaluar la exactitud de la clasificacin. Al igual que para la exactitud horizontal y vertical tampoco existe en Costa Rica un estndar que establezca cul debe ser la exactitud de los atributos indicados en el mapa. Por esta razn y a modo de ejemplo se presentan los cuadros 8 y 9 los cuales resumen los estndares utilizados por el Servicio Geolgico de los Estados Unidos y por el Servicio de Conservacin de Suelos del Departamento de Agricultura de los Estados Unidos para sus mapas de cobertura/ocupacin del suelo y edafolgicos, respectivamente. Para Costa Rica, el decreto No. 23214 del MAG-MIRENEM establece que debe utilizarse la Metodologa para la determinacin de la capacidad de uso de las tierras de Costa Rica (MAGMIRENEM, 1995) en la evaluacin, clasificacin y planificacin de las tierras a nivel nacional. En el anexo 4 de dicha metodologa se presenta el nmero de muestras requeridas y las unidades
25 mnimas mapeables para diferentes tipos de levantamientos. Para beneficio del lector dichos valores se reproducen en el cuadro 10. Al referirse el decreto a la metodologa como un todo puede asumirse que dichos valores representan una norma o estndar que debe cumplir cualquier estudio de capacidad de uso de la tierra realizado en el pas. Cuadro 8 : Estndar utilizado para los mapas de cobertura y ocupacin del suelo por el Servicio Geolgico de los Estados Unidos (Fuente Anderson, 1976). ______________________________________________________________________________ 1. La exactitud en la clasificacin de categoras de uso y cobertura del suelo debe ser de al menos un 85%. 2. Las categoras mapeadas deben tener un nivel de exactitud similar. 3. La exactitud debe mantenerse entre interpretes y periodos de anlisis. ______________________________________________________________________________ Cuadro 9 : Estndar utilizado para los mapas de suelos del Servicio de Conservacin de Suelos del Departamento de Agricultura de los Estados Unidos (SCS 1984, Citado por Fisher, P.F.,1991) ______________________________________________________________________________ 1. Hasta un 25% de los pedones pueden pertenecer a una categora diferente a la especificada en el mapa, siempre y cuando esto no imponga mayores riesgos al manejo de suelo. 2. Hasta un 10% de los pedones pueden pertenecer a una categora diferente a la especificada en el mapa, cuando el error de clasificacin imponga riesgos severos al manejo de suelo. 3. Ninguna categora de suelo debe ocupar ms de un 10% del rea en la unidad mapeada. ______________________________________________________________________________ Cuadro 10: Densidad de muestreo y unidades mnimas mapeables (UMM) para diferentes tipos de levantamientos de capacidad de uso de la tierra. Levantamiento No. Obsev./km2 Esquemtico No definido General 0,2 Reconocimiento 1 Semidetallado 10 Detallado 60 Muy detallado 200 Adaptado de MAG-MINAE, 1995. UMP (ha) 2.500 200 25 4 1 0,25 Escala mapa 1:200.000 o Menor 1:100.000 a 1:200.000 1:50.000 a 1:100.000 1:20.000 a 1:50.000 1: 5.000 a 1:10.000 1: 5.000 o menor
A pesar de existir estndares la gran mayora de los mapas publicados no incluyen informacin al respecto. Esto es vlido tanto para los mapas producidos en pases en vas de desarrollo (Ej. Costa Rica, Uganda, Kenia, Tailandia) como en pases desarrollados (Ej. planos catastrales y mapas en Estados Unidos e Inglaterra) (Fisher, 1991). Los principales factores que impiden el uso de los estndares no son de ndole tcnica sino ms bien de naturaleza econmica y de logstica. La mayora de los proyectos de mapeo disponen de recursos limitados y por lo
26 tanto se da mayor nfasis en cubrir el rea de estudio y en producir el mapa en el tiempo requerido que en la evaluacin de la exactitud del material producido. En ausencia de estndares explcitos en la mayora de los mapas se recurre a convenciones para expresar cualitativamente la incertidumbre asociada a la informacin mapeada. Por ejemplo, en los mapas 1:50.000 de Costa Rica el sistema de drenaje se muestra como lneas continuas de color azul para indicar ros permanentes y como lneas discontinuas para indicar ros intermitentes. Los mapas geolgicos y geomorfolgicos tambin utilizan lneas discontinuas para indicar que no se tiene certeza total sobre la ubicacin del atributo o elemento del paisaje mapeado. Factores a considerar en la evaluacin de la exactitud de la clasificacin La matriz de confusin o el ndice K nos permiten evaluar la exactitud de nuestra clasificacin, sin embargo no nos brindan informacin sobre la calidad y veracidad de la informacin utilizada en el proceso. A continuacin discutimos cinco aspectos que deben considerarse al evaluar la exactitud de la clasificacin (Congalton, 1991): Muestreo de campo Los datos de campo se consideran como el estndar o valor real con el cual comparamos la clasificacin. De esta afirmacin se desprende que si los datos no son de suficiente calidad y resolucin la evaluacin ser sesgada. Por ejemplo, si utilizamos categoras derivadas de fotos areas como informacin real, debemos asegurarnos que la clasificacin realizada a partir de las fotos est libre de errores. En algunos casos tambin es posible utilizar mapas previamente elaborados como material de referencia; e igualmente en este caso la evaluacin depender de la veracidad del autor del mapa. Esta es un rea compleja y que hasta la fecha ha recibido limitada atencin en el pas. Cada evaluacin de exactitud es particular y por lo tanto para asegurar su xito el investigador debe conocer su rea de trabajo y determinar, basado en las limitaciones o facilidades de que disponga, la tcnica de trabajo que le permita obtener la informacin de ms alta calidad, al menor costo y en los plazos requeridos por el proyecto. El detalle con que se colecta la informacin de campo depender del detalle de la clasificacin que se desee verificar. Por ejemplo, para evaluar la exactitud de una clasificacin que distingue entre bosque, pasto, cuerpos de agua y reas urbanas slo es necesario determinar s los polgonos seleccionados en la muestra poseen o no dichas caractersticas. Por el contrario, si deseamos clasificar los bosques por su cobertura de copa es necesario medir dicha variable en una serie de parcelas para determinar un valor medio de cada rea muestreada y posteriormente compararla con el valor indicado en el mapa. Sistema de clasificacin El sistema de clasificacin utilizado para subdividir el rea de estudio en unidades de menor tamao responde a los objetivos del estudio y puede partir de sistemas preestablecidos como el de Anderson et. al (1976), o disearse para responder a las caractersticas del rea de estudio. A continuacin se presentan algunos criterios que deben utilizarse al disear o seleccionar una clave de clasificacin: 1. El sistema de clasificacin debe ser mutuamente excluyente y comprender la totalidad de las categoras de uso y cobertura presentes en el rea de estudio.
27 2. Cuando sea posible debe utilizarse un sistema de clasificacin jerrquico. 3. El sistema jerrquico permite reagrupar categoras con gran facilidad y a la vez mantener la lgica de la clasificacin. El reagrupar o generalizar clases es una forma de cumplir con un estndar de clasificacin preestablecido. Por ejemplo, si no fuera posible separar Jaragua con arbustos de jaragua con vegetacin herbcea, ambas clases se reagruparan como jaragua con arbustos y vegetacin herbcea. 4. Utilizar indicadores naturales para distinguir entre clases. Por ejemplo, es fcil diferenciar en el terreno entre pasto con arbustos y pasto sin arbustos; sin embargo es ms difcil separar pasto con cobertura de arbustos entre 0-25% y pasto con cobertura de arbustos entre 26 y 50%. Finalmente, recordar que antes de iniciar el proceso de clasificacin se debe tener una clara definicin de cada una de las categoras. Cuanto ms compleja sea la clasificacin mayor ser el esfuerzo requerido para su verificacin en el campo y mayor ser el nivel de error de la clasificacin. Auto correlacin espacial de los errores La auto correlacin espacial es equivalente a la auto correlacin en series estadsticas no espaciales (Ej. en la estacin lluviosa es muy probable que un da lluvioso sea seguido por otro da lluvioso). En el caso de una variable de naturaleza espacial la presencia, ausencia o valor esperado de una variable afecta la presencia, ausencia o valor esperado de la misma variable en un rea vecina. Congalton (1988) obtuvo para un rea agrcola, una de pastos y otra de bosques auto correlaciones estadsticamente significativas en el patrn de errores a distancias inferiores o iguales a 30 pixeles (240 metros) para imgenes MSS de Landsat. El patrn de auto correlacin de los errores en el terreno agrcola exhiba grandes bloques a consecuencia del gran tamao de los campos agrcolas; en el caso de los pastos, la mezcla de grandes extensiones de pasto y de pequeas reas de bosques generaron un patrn de errores lineal y finalmente en los bosques el patrn fue el menos compacto y el ms lineal. El patrn lineal es causado por errores de clasificacin en los bordes de las diferentes categoras de uso-cobertura. La implicacin prctica de estos resultados es que la auto correlacin en los errores afectan tanto el tamao de la muestra como el mtodo utilizado para su seleccin. Tamao de la muestra La definicin del tamao de la muestra es un tema clsico en el anlisis estadstico tradicional y es un rea que ha recibido gran atencin en el anlisis de clasificaciones derivadas de sensores remotos. Cada observacin tiene un costo y por lo tanto su nmero debe ser el mnimo que satisfaga los requerimientos estadsticos y a la vez sea econonmicamente viable. Diversos autores (van Genderen and Lock, 1977; Hay, 1979; Hord and Brooner, 1976; Congalton, 1988b) han publicado ecuaciones y guas para la seleccin del tamao de la muestra. La ecuaciones propuestas estn basadas en la distribucin binomial o en la aproximacin normal de la distribucin binomial y se basan en la proporcin de muestras correctamente clasificadas (Ej. pixeles, conglomerados o polgonos) y un error permisible. Cuando la matriz de confusin presenta muchas categoras se requiere de un gran nmero de muestras para evaluar su exactitud. Por ejemplo, para una matriz de 20 columnas por 20 hileras se requieren al menos 400 muestras para obtener al menos una observacin por celda. Las ecuaciones tambin pueden utilizarse para estimar el tamao de muestra requerido para evaluar la exactitud de la clasificacin de una
28 determinada categora. La principal limitante de las ecuaciones es que no fueron diseadas para considerar la confusin entre categoras. Dadas las limitaciones de las frmulas estadsticas, Congalton (1991) recomienda obtener al menos 50 muestras (pixeles) por tipo de cobertura o de uso del suelo. Y cuando el rea es muy grande (Ej. superior a 350000 hectreas) o el nmero de categoras sea superior a 12, el tamao de muestra por categora debe incrementarse a 75 o 100. Dado que el objetivo del tamao de la muestra es reflejar la importancia y complejidad del rea a muestrear es perfectamente vlido aumentar el tamao de la muestra en aquellas reas de mayor variabilidad o de mayor importancia en detrimento de reas menos variables o menos importantes. Por ejemplo, pueden ubicarse menos muestras en plantaciones forestales, cuerpos de agua o pastos(reas menos variables). Esquema de muestreo Una vez determinado el nmero de muestras requerido para lograr un error predeterminado debemos decidir cul esquema de muestreo utilizar para asignar las muestras. Existen mltiples diseos de muestreo que pueden utilizarse para investigar la distribucin espacial de fenmenos naturales y socioeconmicos. Las figuras 13 y 14 y el cuadro 11 ilustran los posibles esquemas disponibles al investigador, entre los cuales tenemos: simple al azar, estratificado, sistemtico, estratificado, sistemtico no alineado, anidado o multifsico (Fig.15) y multifactor (Haggett, Cliff y Frey, 1977). La investigacin realizada por diversos autores (Hord and Brooner, 1976; Ginevan, 1979; Rhode, 1978; Fitzpatrick-Lins, 1991, Congalton, 1988b) indica que el muestreo simple al azar (sin reemplazo) y el estratificado al azar brindan resultados satisfactorios. En general, el muestreo simple al azar tiende a submuestrear aquellas reas pequeas a menos que el tamao de la muestra sea muy grande y por lo tanto es preferible utilizar un muestreo estratificado al azar; o en su defecto seleccionar el nmero de puntos de muestreo por tipo de cobertura en forma independiente. Al seleccionar el esquema de muestreo debemos considerar los supuestos bajo los cuales opera el ndice que se desea evaluar. Por ejemplo, el ndice Kappa asume un modelo de muestreo multivariado y slo el muestreo simple al azar cumple con este supuesto. El efecto de otros esquemas de muestreo sobre la veracidad de los datos es desconocido. Otra consideracin prctica en el esquema de muestreo es que en la mayora de los casos no es posible realizar el trabajo de campo dos veces. La primera vez para entrenar al clasificador (Ej. foto intrprete o computadora) y la segunda para obtener la informacin necesaria para evaluar la exactitud de la clasificacin. Sin embargo, cuando esto sea posible, se puede utilizar en la primer fase un muestreo sistemtico para colectar informacin que pueda utilizarse tanto en la fase de entrenamiento como en la de evaluacin de errores de clasificacin. Una vez elaborado el mapa se realiza una segunda fase de muestreo estratificado al azar para obtener muestras adicionales para cada estrato.
29
Figura 13: Diseos estadsticos para la colecta de datos. Adaptado de Haggett, Cliff y Frey, 1977.
Figura 14: Diseos de muestreo. A. Aleatorio. B. Estratificado al azar. C. Sistemtico. D. Sistemtico estratificado no alineado.
30
Figura 15: Diseo de muestreo anidado. A. rea de muestreo. B. Nivel 1. C. Nivel 2 D. Nivel 3 E. Nivel 4: Muestreo aleatorio en reas seleccionadas en el nivel 3.
Cuadro: 11 : Caractersticas de los diseos de muestreo. Diseo Aleatorio simple Mecanismo de seleccin de la muestra Un grupo de n elementos es seleccionado al azar de entre una poblacin de N puntos definidos por un par de coordenadas. Tiende a subestimar el rea de los atributos poco representados en la poblacin. Es un mtodo de seleccin probabilstica que permite el clculo del error de muestreo. Puede resultar imprctico en reas de difcil acceso. Estratificado con seleccin aleatoria de muestras La poblacin a muestrear es dividida en estratos o segmentos naturales ( Ej. Pasto, bosque, manglar, etc.) y los elementos a muestrear son seleccionados al azar en cada estrato. Es un mtodo muy utilizado para la validacin de clasificacin de imgenes y en general en el muestreo de fenmenos de naturaleza espacial. Es un mtodo de muestreo probabilstico y por lo tanto tambin permite estimar el error asociado al muestreo.
31 Cuadro 11: Caractersticas de los diseos de muestreo. Cont. Diseo Mecanismo de seleccin de la muestra Diseo basado El rea es dividida en estratos basados en una combinacin de los factores en factores relevantes para el patrn de uso de la tierra en el rea de estudio. Un diseo de muestreo simple al azar es utilizado para seleccionar las muestras en cada estrato. Muestreo En este caso el rea a muestrear es dividida en n intersecciones utilizando una sistemtico cuadrcula regular. El origen de la cuadrcula es definida en forma aleatoria. Una vez definido dicho punto se seleccionan las reas a muestrear. Es un mtodo de muestreo no probabilstica y por lo tanto no es posible utilizar la teora estadstica tradicional para calcular el error de muestreo. Cuando la variable de inters muestra una distribucin aleatoria pueden utilizarse las frmulas del muestreo simple al azar para estimar el error de muestreo. En este caso la poblacin es dividida en sub muestras que a su vez se subdividen en otras unidades de muestreo ms pequeas. Una tabla de nmeros al azar es utilizada para seleccionar las unidades a muestrear en cada nivel. Este diseo es til para investigar el efecto de la escala en el fenmeno en estudio; su costo es bajo pero su error de muestreo es alto. Este es un diseo de muestreo compuesto que incluye una subdivisin previa de la poblacin a muestrear y luego la seleccin de muestreas utilizando un diseo de muestreo sistemtico no alineado. El rea se divide en cuadrados o subreas (estratos); luego utilizando una tabla de nmeros al azar se selecciona el primer punto de muestreo para el cuadrado de la esquina inferior izquierda del rea de estudio. Luego se seleccionan los otros puntos a muestrear en los otros cuadrados de la hilera inferior del rea de estudio. Esto se logra manteniendo el eje X constante y seleccionando valores para el eje Y. Una vez completado el muestreo en la hilera inferior se realiza el mismo procedimiento pero para la primer columna. En este caso se mantiene constante el valor del eje Y y se seleccionan valores para el eje X. Una vez definidos los puntos a muestrear tanto en la primer columna como en la primer hilera debe seleccionarse el punto de inicio del cuadrante No.2. Esto se hace utilizando el valor de Y del primer punto seleccionado en la hilera y el valor de X de la columna. El procedimiento se repite hasta completar el rea a muestrear. El diseo ofrece las ventajas del diseo estratificado con la facilidad de trabajo del diseo sistemtico. El diseo sistemtico no alineado elimina los errores derivados de un factor peridico en los datos a muestrear.
Diseo anidado, jerrquico o multifsicos
Estratificado sistemtico no alineado
32 Diseos de muestreo con ArcView GIS Existen varias extensiones que permiten realizar un muestreo aleatorio; sin embargo en esta ocasin he decidido ilustrar el uso de la extensin NR Random Sampling Toolscreada por Timothy N. Loesch del Departamento de Recursos Naturales de Minnesota, USA (www.dnr.state.mn.us, 2002). Al activar la extensin usted observar un nuevo men (Sampling Tools) con las siguientes opciones:
Random Point Sample: Esta opcin permite crear puntos de muestreo al azar para un tema de polgonos. Systematic Point Sample: Esta opcin permite crear un muestreo sistemtico para un tema de polgonos. Transects: Esta opcin permite crear transeptos aleatorios para un tema de polgonos. Muestreo aleatorio Para el muestreo aleatorio usted debe definir los siguientes parmetros: ?? Number of Sample Points: nmero de puntos de muestreo. ?? Point Sample Radius (m): Radio de cada punto ?? Sample Spacing (Min = Radius(2): Espaciado mnimo entre puntos
Una vez definidos estos parmetros el programa crear un tema de puntos aleatorios utilizando como rea de muestreo el polgono activo. Si usted desea realizar un muestreo aleatorio estratificado, primero divida el rea de estudio en estratos y luego utilice la opcin de muestreo aleatorio con los polgonos de cada estrato. A continuacin se ilustra el uso de la extensin en la seleccin de sitios de muestreo para un rea de 5*4Km (2000ha) ubicada al norte del pueblo de Santa Elena, Guanacaste.
33
Figura 16: Distribucin de 100 puntos de muestreo al azar. Extensin dnrsample.avx.
Figura 17: Ubicacin de los 100 puntos de muestreo al azar sobre una imagen del ETM+ de Landsat de junio del 2001. Los polgonos achurados indican el rea de bosque reportada por el estudio del CCT-CIEDES para 1996-97.
34
Figura 18 : Ubicacin de los 100 puntos de muestreo al azar sobre el mapa de cobertura forestal para 1996-97 realizado por el CCT-CIEDES (1998).
Figura 19: Ubicacin de los 100 puntos de muestreo al azar sobre el mapa de uso-cobertura del suelo para 1996-97 realizado por el SINAC (2000).
35
Figura 20: Puntos de muestreo ubicados en bosque en el mapa de uso cobertura del SINAC (2000). El 52% de los puntos corresponde a bosques.
Figura 21: Puntos de muestreo ubicados en pasto en el mapa de uso cobertura del SINAC (2000). El 20% de los puntos corresponde a pasto.
36
Figura 22: Puntos de muestreo ubicados en reas sin datos (nubes, sombras) en el mapa de uso cobertura del SINAC (2000). El 28% de los puntos corresponde a no datos .
Figura 23: Puntos de muestreo ubicados en bosque en el mapa de cobertura forestal del CCTCIEDES (1998). El 91% de los puntos corresponde a bosques.
37
Figura 24 : Puntos de muestreo clasificados como bosque por el autor para una imagen ETM+ de Landsat de junio del 2001. El 81% de los puntos corresponde a bosques.
Figura 25: Coordenadas planas (Lambert Norte) para cada uno de los puntos de muestreo. El usuario(a) puede utilizar dichos valores para navegar hasta los puntos de muestreo en el rea de estudio. Si desea mayor informacin sobre este tema se le remite al documento Navegacin con el geoposicionador: Practica (Fallas, 2001a).
38 Muestreo sistemtico Para el muestreo sistemtico usted debe definir los siguientes parmetros: ?? Spacing X (m): Espaciamiento en el eje X (Oeste-Este) ?? Spacing Y (m): Espaciamiento en el eje Y (Norte-Sur) ?? Minimum distance from polygon Boundary: Distancia mnima que desea dejar como borde (esta rea no ser muestreada). Puede considerarse como el rea bajo el efecto de borde en el rea de estudio. Una vez definidos estos parmetros el programa crear un tema de puntos con un espaciamiento uniforme utilizando como rea de muestreo el polgono activo. Si usted desea realizar un muestreo sistemtico estratificado, primero divida el rea de estudio en estratos y luego utilice la opcin de muestreo sistemtico con los polgonos de cada estrato.
En este caso se configur el programa para que seleccionara puntos con una separacin de 300m por 300m. A continuacin se muestra el diseo de un muestreo sistemtico con una separacin de 500m entre puntos.
Figura 26 : Muestreo sistemtico con una separacin de 500m entre puntos. Total de puntos de muestreo 63.
39 Muestreo en transeptos Para el muestreo por transeptos aleatorios usted debe definir los siguientes parmetros: Min Transect Length: Longitud mnima que puede tener un transepto. Max Transect Length: Longitud mxima que puede tener un transepto. Sample Width: Area a cada lado de la lnea de muestreo; el rea total a muestrear es igual a dos veces el ancho del transepto. Min. Transect Spacing: Distancia mnima entre dos transeptos; el programa utiliza por omisin el valor 2*Radio de muestreo Allow transect Overlap: Transeptos pueden traslaparse.
La intensidad de muestreo puede definirse como un porcentaje del rea como un nmero de transeptos.
Una vez definidos estos parmetros el programa crear un tema de lneas con las caractersticas definidas por el usuario(a) para el rea de muestreo definida por el polgono activo. Si usted desea realizar un muestreo estratificado, primero divida el rea de estudio en estratos y luego utilice la opcin de muestreo por transeptos con los polgonos de cada estrato.
40
Figura 27: Transeptos aleatorios de 30 metros de ancho y de largo entre 100 y 200m con una separacin mnima entre transeptos de 500m.
Figura 28: Transeptos aleatorios de 500m por 60metros de ancho con una separacin mnima de 500m entre transeptos.
41 Consistencia lgica En la seccin anterior se ha discutido los procedimientos utilizados para evaluar la exactitud de los atributos en un mapa temtico. Sin embargo tambin es necesario evaluar su consistencia lgica una vez que se ha incorporado a la base de datos digital (cuadro 12). Las bases de datos en un SIG pueden originarse a partir de informacin digital (Ej. imgenes de satlite) de digitar informacin analgica (Ej. mapas); y por lo tanto es necesario utilizar un procedimiento que detecte errores topolgicos (Ej. polgonos que se traslapan); de atributos (Ej. elementos sin etiquetas) y similares. Por ejemplo, en la cartografa tradicional esta labor la realiza el cartgrafo o un evaluador independiente quien colorea cada polgono o lnea para verificar que no existen errores. En un SIG esta labor la realiza una rutina de computacin basada en la informacin topolgica de cada polgono. Sin embargo siempre es necesario que el responsable de la base de datos realice pruebas independientes para asegurar la consistencia lgica de las capas de datos. Por ejemplo, puede realizarse una prueba de punto en polgono para asegurarse que los ros se encuentren en sus planicies de inundacin o que los manglares se encuentran en reas de costa. Cuadro 12: Evaluacin de la veracidad de los atributos en un sistema analgico y en uno digital. Cartografa analgica Cartografa digital La evaluacin es realizada por el cartgrafo o Labor realizada por una rutina de un evaluador independiente quien colorea computacin basada en la informacin cada polgono o lnea para verificar que no topolgica de cada polgono. existen errores Proceso de impresin de mapas por niveles o Es necesario que el responsable de la base de capas de datos. datos realice pruebas independientes para asegurar la consistencia lgica de las capas de datos. Uso de tcnicas estadsticas de muestreo (Ej. Uso de tcnicas estadsticas de muestreo (Ej. censo, muestras) censo, muestras) Totalidad de informacin La totalidad de informacin es el tercer componente en los estndares para datos cartogrficos digitales propuestos para los Estados Unidos (DCDSTF, 1988). Este componente del estndar verifica que la totalidad de la informacin contenida en el material fuente haya sido incluido en la base de datos digital. Por ejemplo, al digitar un mapa con 100 parcelas, se crear una base de datos con 100 registros, uno por parcela. Para asegurarse que la totalidad de las parcelas han sido registradas puede observarse el nmero de registros totales en la base de datos. Cualquier diferencia entre el nmero de parcelas reales y las reportadas por la base de datos se cataloga como un error. Otro aspecto a evaluar como parte de este componente del estndar es la veracidad de las unidades mnimas mapeables y los anchos mnimos estipulados en la documentacin que acompaa el mapa temtico. Reporte de los resultados Cuando el mapa ha sido evaluado y cumple con los estndares horizontales y verticales debe indicarse en la leyenda del mapa. Si el mapa es evaluado pero no cumple con los estndares debe
42 omitir todo informacin al respecto en la leyenda. En el caso de mapas temticos debe indicarse el valor de Kappa y la matriz de confusin. El principio de Reporte de calidad fue adoptado en 1988 por el Grupo de Trabajo del Comit Nacional de Estndares en Datos Cartogrficos Digitales de los Estados Unidos y fue incluido en los estndares nacionales para el intercambio de datos cartogrficos digitales (DCDSTF, 1988). El concepto de reporte de calidad tambin se encuentra presente en las propuestas de estndares de los Britnicos y los Franceses, entre otros pases (Chrisman, 1991). Errores, estndares y calidad de la informacin : Que hacer? A pesar de los avances logrados en el rea de los SIG's todava el concepto de error no est presente en la mayora de sus usuarios(as) ni en sus bases de datos (Chrisman, 1991). La utilidad de la informacin digital depender cada vez ms de su calidad y por lo tanto es esencial establecer normas y procedimientos que le permitan al usuario determinar s un conjunto de datos cumple con las normas de calidad que requiere su proyecto o uso particular. Los principales factores que impiden el uso de los estndares no son de ndole tcnico sino ms bien de naturaleza econmica, logstica y de cultura de trabajo. Todo usuario(a) de un SIG debe promover el uso de estndares en su institucin y a la vez tratar en la medida de lo posible de adherirse al principio de Reporte de calidad. Documentacin de los geodatos La elaboracin de una geobase de datos digital es una tarea que consume un alto porcentaje del tiempo y de los recursos humanos en cualquier proyecto. Por esta razn su documentacin debe ser tan detallada como sea posible para asegurar su confiabilidad y valor en el futuro. A continuacin se ofrece, a manera de ejemplo, una lista de los aspectos que diversos autores sugieren documentar (Chang, et. al., 1992; Fulton, 1992; Hewitt, et. al. 1992; Wright and Yee, 1992). Tema: Indica el nombre que recibe la capa de datos. Se sugiere elaborar previamente una lista normalizada de capas temticas; esto facilitar la comunicacin tanto entre instituciones como entre usuarios de una misma institucin. Descripcin: Breve descripcin de la capa de datos. Referencia: De dnde se obtuvo la capa de datos? Debe proveerse suficiente informacin para que cualquier otra persona puede tener acceso a los datos originales. Esta es una informacin similar a una ficha bibliogrfica. Fuente de informacin: Indicar persona y direccin de la institucin que puede contactarse para adquirir una copia del dato original. Incluir nmero de telfono, fax, email, etc. Revisin: Cdigo que expresa la ltima fecha en que fue modificado o actualizado la capa de datos. Ubicacin Geogrfica: Descripcin cartogrfica de la localizacin de la capa de datos. Debe en lo posible utilizarse material cartogrfico oficial (Ej. Mapas del Instituto Geogrfico Nacional).
43 Ubicacin del archivo: Ruta completa que indica la ubicacin del archivo en la computadora o servidor. Escala: Indicar la escala resolucin de la capa de datos. Por ejemplo, si los datos provienen de una imagen ETM+ de Lansat se puede citar su resolucin. Exactitud horizontal: Exactitud del sistema de coordenadas (ejes X y Y) utilizado para crear la capa de datos (Ej. 10m, 25m, etc.). El valor depender de la exactitud del material original y del procedimiento (mtodo y caractersticas del equipo) utilizado para ingresar los datos a la geobase de datos (Ej. Digitalizador, barredor, etc). Fecha: Fecha de cada capa de datos (Ej. mapa de uso-cobertura del suelo, marzo 1992); en caso de ser vlida para un periodo indicar fecha inicial y final. Nivel de acceso: Indica grado de acceso de la capa de datos (Ej. restringido, pblico, limitado: requiere autorizacin de administrador de la base de datos, etc.). Palabras claves: Elabore una lista de palabras claves y asigne a cada la capa de datos aquellas que mejor describan su contenido. reas de aplicacin: Indicar lista de reas potenciales en las que se puede utilizar la base de datos. Adems, cada vez que se utilice la capa de datos debe indicarse el rea de aplicacin (Ej. modelos de evaluacin de hbitat para fauna terrestre, modelos hidrolgicos, cartografa, etc.). Limitaciones: Documentar cualquier limitacin aplicable a la capa de datos (Ej. el mapa de uso del suelo fue elaborado con fotos areas sin ortorectificacin). Bases de datos relacionadas: Listar otras bases de datos de inters para el usuario de una determinada la capa de datos o rea de inters (Ej. Base de datos sobre archivos climticos, produccin anual de fincas, tasas de erosin, localizaciones de especies de fauna, etc.). Bibliografa American Society for Photogrammetry and Remote Sensing. 1989. Interim accuracy standards for large scale line maps. Photogrammetric Eng. and Remote Sensing. 55:1038-1040. American Society for Photogrammetry and Remote Sensing (ASPRS). Specifications and Standards Committee. 1990. ASPRS Accuracy Standards for Large-Scale Maps: Photogrammetric Engineering and Remote Sensing, v. 56, no. 7, p. 1068-1070. Anderson, J. R.; Hardy E. E.; Roach J. T. and Witmer, R. E. 1976. A land use and land cover classification system for use with remote sensing data. Professional Paper 964. USGS, Reston. USA. 28pp. ANSI-NCITS, 1998. American National Standards Institute, Information Technology - Spatial Data Transfer Standard (SDTS) (ANSI-NCITS 320:1998): New York, New York.
44 Aronoff, Stan. 1975. The minimum accuracy value as an index of classification accuracy. Photogrammetric Eng. and Remote Sensing. 51(1):99-111. Bishop, Y. Fienberg, S. and Holland, P. 1975. Discrete multivariate analysis-Theory and Practice. MIT Press, Cambridge, MA, 575pp. Brandenberger, A. J. Ghosh, S. K. 1985. The world's topographic and cadastral mapping operation. Photogrammetric Eng. and Remote Sensing. 51(4):437-444. Campbell, J. 1981. Spatial autocorrelation effects upon the accuracy of supervised classification of land cover. Photogrammetric Eng. and Remote Sensing. 47(3):355-363. CCT-CIDES. 1998. Estudio de cobertura forestal actural (1996/97) y cambio de cobertura para el periodo entre 1986/87 y 1996/97 para Costa Rica. Informe final 19p. + 3 anexos. Chang, J. C.; D'Antoni, J. M. and Petterson, C. B. 1992. Geographic information system aplication development for utility infrastructure systems. In. Geographic Information Systems (GIS) and Mapping. Practices and Standards. Johson, A. I., Petterson, C. B. and Furton, J. L. (eds). ASTM STP 1126. American Society for Testing and Materials, Philadelphia. E.U.A. pp.76-84. Cochran, W. G. 1977. Sampling techniques. Third Edition. New York. Willey and Sons. p.51. Cohen, J. 1960. A coefficient of agreement for nominal scales. Educ. Psychol. Measurement 20(1):37-46. Congalton, R. G.1991. A review of assessing the accuracy of classification of remotely sensed data. Remote Sensing of Environ. 37:35-46. Congalton, R. G.1988a. Using spatial autocorrelation analysis to explore errors in maps generated from remotely sensed data. Photogrammetric Eng. and Remote Sensing. 54(5):587592. Congalton, R. G.1988b. A comparison of sampling schemes used in generating error matrices for assessing the accuracy of maps generated from remotely sensed data. Photogrammetric Eng. and Remote Sensing. 54(5):593-600. Congalton, R. G.; Oderwald, R. G.; and Mead, R. A. 1983. Assessing Landsat classification accuracy using discrete multivariate statistical techniques. Photogrammetric Eng. and Remote Sensing. 49(12):1671-1678. Curran, P.J. and Williamson, H.D. 1986. Sample size for ground and remotely sensed data. Remote sensing of Environ. 20(5):31-41. DCDSTF.1988. The proposed standard for digital cartographic data. The American Cartographer 15:9-140.
45 Fallas, Jorge. 2001a. Navegacin con el geoposicionador: Practica. Laboratorio de Teledeteccin y Sistemas de Informacin Geogrfica, Escuela de Ciencias Ambientales y Programa Regional en Manejo de Vida Silvestre. Universidad Nacional. Heredia, Costa Rica. 13p. Fallas, Jorge. 2001b. Escaneo, georeferenciacin y vectorizacin de material cartogrfico y de fotos areas utilizando ArcView GIS. Laboratorio de Teledeteccin y Sistemas de Informacin Geogrfica, Escuela de Ciencias Ambientales y Programa Regional en Manejo de Vida Silvestre. Universidad Nacional. Heredia, Costa Rica. 92p. Federal Geographic Data Committee. 1998a. Part 1, Reporting Methodology, Geospatial Positioning Accuracy Standards, FGDC-STD-0007.1-1998, Washington, D.C. http://fgdc.er.usgs.gov/fgdc.html Federal Geographic Data Committee1998b. Part 3., National Standard for Spatial Data Accuracy, Geospatial Positioning Accuracy Standards, FGDC-STD-007.3-1998: Washington, D.C., 1998. http://fgdc.er.usgs.gov/fgdc.html Federal Geographic Data Committee, Part 1, Reporting Methodology, Geospatial Positioning Accuracy Standards, FGDC-STD-0007.1-1998, Washington, D.C., 1998. http://fgdc.er.usgs.gov/fgdc.html Fisher,P.F. 1991. Spatial data sources and data problems. In. Maguire D. J., Goodchild M. F. and Rhind, M. F.(Eds).Geographic Information Systems: Principles and Applications. Longman, London, pp.175-189. Fitzpatrick-Lins, K. 1981. Comparison of sampling procedures and data analysis for a land-use and land-cover map. Photogrammetric Eng. and Remote Sensing. 47(3):343-351. Ford, G. E. and Zanelli, C. I. 1985. Analysis and quantification of errors in the geometric correction of satellite images. Photogrammetric Eng. and Remote Sensing. 51(11):1725-1734. Fulton, J. L. 1992. Development of spatial data guidelines and standards. Spatial data set documentation to support hydrologic analysis in the U.S. Geological Survey. In. Geographic Information Systems (GIS) and Mapping. Practices and Standards. Johson, A. I., Petterson, C. B. and Furton, J. L. (eds). ASTM STP 1126. American Society for Testing and Materials, Philadelphia. E.U.A. pp.30-37. Ginevan, M. E. 1979.Testing land-use map accuracy: another look. Photogrammetric Eng. and Remote Sensing. 45(10):1371-1377. Greenwalt, C.R. and M. E. Schultz, 1968, Principles and Error Theory and Cartographic Applications, ACIC Technical Report No. 96: St. Louis, Mo., Aeronautical Chart and Information Center, U.S. Air Force, 89 p Hay, A.M. 1979. Sampling designs to test land-use map accuracy. Photogrammetric Eng. and Remote Sensing. 45(4):529-533.
46 Hewitt, M. J. IV; Stone H.F.; and Stomecker, E. T. 1992. Overview of the use of formulation of geographic information systems (GIS) standards within the U.S. Environmental Protection Agency. In.Geographic Information Systems (GIS) and Mapping. Practices and Standards. Hord, R. M. and Brooner,W.1976. Land use map accuracy criteria. Photogrammetric Eng. and Remote Sensing. 42(5):671-677. Hudson, W. and Ramm, C.1987. Correct formulation of the kappa coefficient of agreement. Photogrammetric Eng. and Remote Sensing. 53(4):421-422. Johson, A. I.; Petterson, C. B; and Furton, J. L. (eds). 1992. Geographic Information Systems (GIS) and Mapping. Practices and Standards. ASTM STP 1126. American Society for Testing and Materials, Philadelphia. E.U.A. Kennedy S. 1989. The small number problem and the accuracy of spatial databases. In: Goodchild M. F., Gopal S.(eds.)Accuracy of spatial data databases. Taylor & Francis, London. pp.187-196. Loesch Timothy N.2002. NR Random Sampling Tools. Minnesota Department of Natural Resources. Lafayette Road, Box 11 St. Paul, MN 55155 tim.loesch@dnr.state.mn.us, www.dnr.state.mn.us. MacEachren, A.M. 1985. Accuracy of thematic maps, implications of choropleth symbolization. Cartographica 21(1):38-58. Maffini G., Arno M. Bitterlich W. 1989. Observations and comments on the generation and treatment of error in digital GIS data. In: Goodchild M. F., Gopal S.(eds.)Accuracy of spatial data databases. Taylor & Francis, London. pp.55-67. Merchant, D.C.1987. Spatial accuracy specification for large scale topographic maps. Photogrammetric Eng. and Remote Sensing. 53(7):958-961. Newcomer, J. A. and Szajgin, J. 1984. Accumulation of thematic map error in digital overlay analysis. The American Cartographer 11(1):58-62. Prisley S. P., Gregoire T. G., Smith, J. L. 1989. The mean and variance of area estimates computed in an arc-node geographic information system. Photogrammetric Eng. and Remote Sensing 55 (11):1601-1612. SINAC. 200O. Mapa de uso-cobertura del suelo para la hoja San Jos. Datos Preliminares. Ministerio del Ambiente y Energa. San Jos, Costa Rica. Archivo digital. Rosenfield, G.; Fitzpatrick-Lins, K. 1986. A coefficient of agreement as a measure of thematic classification accuracy. Photogrammetric Eng. and Remote Sensing. 52(2):223-227. Rosenfield, G. H. 1986. Analysis of thematic map classification error matrices. Photogrammetric Eng. and Remote Sensing 52(5):681-686.
47 Rosenfield, G. H. 1982. Sample design for estimating change in land use and land cover. Photogrammetric Eng. and Remote Sensing. 48(5):793-801. Rosenfield, G. H. 1981. Analysis of variance of thematic mapping experiments data. Photogrammetric Eng. and Remote Sensing. 47(12):1685-1692. Rosenfield, G.; Fitzpatrick-Lins, K. and Ling, H.1982. Sampling for thematic map accuracy testing. Photogrammetric Eng. and Remote Sensing. 48(1):131-137. SCS 1984. Technical specifications for line segment digitizing of detailed survey maps. Government Printing Office, Washington, D. C. Shaw, G. and Wheeler, D. 1994. Statistical techniques in geographical analysis. 2nd.Ed. Great Britain, John Willey & Sons. 359p. Snedecor y Cochran. 1980. Statistical methods. 7th. Ed. Iowa. The Iowa University Press. 499p. Story, M. and Congalton, R. 1986. Accuracy assessment: a user's perspective. Photogrammetric Eng. and Remote Sensing. 52(3):397-399. United States National Map Accuracy Standards. 1970. US Bureau of the Budget Release 1204, Appendix, Part 800, chapter1. Versin electrnica http://fgdc.er.usgs.gov/fgdc.html van Genderen, J. L. and Lock, B.F. 1977. Testing land-use map accuracy. Photogrammetric Eng. and Remote Sensing. 43 (9):1135-1137. van Genderen, J. L.; Lock, B.F. and Vass P.A. 1978. Remote sensing: statistical testing of thematic map accuracy. Remote sensing of environment, vol. 7:3-14. Vitek, J.D. Walsh, S. J. and Gregory, M.S. 1984. Accuracy in geographic information systems: an assessment of inherent and operational errors. Proceedings, PECORA IX Symposium, 296302. Walsh, S. J.; Lightfoot, D. R. and Butler, D. R. 1987. Recognition and assessment of error in geographic information systems. Photogrammetric Eng. and Remote Sensing. 53(10):1423-1430. Welch, R.; Jordan, T. R. and Ehlers, M. 1985. Comparative evaluations of the geodetic accuracy and cartographic potential of Landsat-4 and Landsat-5 Thematic Mapper image data. Photogrammetric Eng. and Remote Sensing. 51(11):1799-1812. Wright, R.A. and Yee, M. 1992. Addressing data standards: The Northwest Land Information System Network. In. Geographic Information Systems (GIS) and Mapping. Practices and Standards. Johson, A. I., Petterson, C. B. and Furton, J, l. (eds). ASTM STP 1126. American Society for Testing and Materials, Philadelphia. E.U.A. pp.71-75.

Curso Geodatabase ArcGis93 Indice

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Curso Geodatabase ArcGis93 Indice

Загружено:

Авторское право:

Доступные форматы

NORMAS Y ESTNDARES PARA DATOS GEOESPACIALES

JORGE FALLAS Laboratorio de Teledeteccin y Sistemas de Informacin Geogrfica

Universidad Nacional, Heredia, Costa Rica

Insumo de los datos

Almacenamiento de los datos

Error (m) Y(m) Planimtrico1 3 3.60 -2 2.82 -3 4.24 1 2.23 -1 4.12

Figura 10: Distribucin de los errores en X (Oeste-Este)

Figura 11: Distribucin de los errores en Y (Sur-Norte).

xi+ * x+i ? 2 = S ------------N2

sumatoria desde i=1 hasta i=r (filas)

xii xi+ x+i ? 3 = S ----- (------ + ------) N N N

Sumatoria desde i=1 hasta i=r (filas)

Diseo anidado, jerrquico o multifsicos

Estratificado sistemtico no alineado

Figura 16: Distribucin de 100 puntos de muestreo al azar. Extensin dnrsample.avx.

Вам также может понравиться