Вы находитесь на странице: 1из 36

Anlisis geoestadstico con ArcGIS parte 1.

Estadstica
descriptiva
Antes de abordar en firme, el modulo de geoestadistica que viene con ArcGIS, es
necesario recordar algunos conceptos de estadstica, en particular de estadstica
descriptiva, que son necesarios para realizar un anlisis geoestadstico con el
software.

La estadstica descriptiva, se dedica a los mtodos de recoleccin, descripcin,
visualizacin y resumen de datos originados a partir de los fenmenos de estudio.
Para analizar los datos usualmente se construyen las tablas de frecuencias y se
utilizan: la media, mediana, moda, desviacin estndar, la varianza, coeficiente de
curtosis, coeficiente de sesgo, coeficiente de variacin, cuartiles, deciles y
percentiles. Estos parmetros se agrupan en varias categoras conocidas como
medidas de tendencia central, medidas de dispersin y medidas de forma.

Tablas de Frecuencias
Una forma de presentar ordenadamente un grupo de observaciones, es a travs de
tablas de distribucin de frecuencias. Para construir una tabla de frecuencia se
deben ordenar los datos de menor a mayor e incluir los siguientes parmetros.

Frecuencia Absoluta (ni)
Es el nmero de datos que estn
en un mismo intervalo.
Frecuencia Relativa (fi)
Es la frecuencia absoluta dividida
por el nmero total de datos.
Frecuencia Absoluta
Acumulada (Ni)
Es la suma de las frecuencias
absolutas de todos los valores
inferiores o iguales al valor
considerado. La ltima frecuencia
absoluta acumulada es igual al
nmero de casos.
Frecuencia Relativa
Acumulada (Fi)
Es el resultado de dividir cada
frecuencia absoluta acumulada
por el nmero total de datos.
Numero de clases
Indica el nmero de intervalos en
que se agruparan los datos.
Amplitud de la clase o
intervalo
Se obtiene al dividir por dos, la
diferencia del valor mximo y
mnimo de los datos.
Marca de clase
Es el promedio de la suma del
lmite superior e inferior de cada
intervalo o clase.


En el caso de datos agrupados se debern determinar el nmero de intervalos, la
amplitud de los mismos y la marca de clase, de la siguiente forma:



Distribucin normal
Una distribucin de probabilidad sigue una distribucin normal, cuando la
representacin grfica de su funcin de densidad es una curva positiva continua,
simtrica respecto a la media, de mximo en la media, y que tiene 2 puntos de
inflexin situados a ambos lados de la media y a distancia igual a la desviacin
estndar, es decir de la forma:


Propiedades.
Tiene una nica moda, que coincide con su media y su mediana.
La curva normal es asinttica al eje de abscisas.
Es simtrica con respecto a su media. Segn esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor que la
media, y un 50% de observar un dato menor.
Cuanto mayor sea la desviacin estndar, ms se dispersarn los datos en
torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro
indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio
de la distribucin.
El coeficiente de sesgo es igual a cero (0).
La curtosis es igual a cero (0).
Para la aplicacin de los mtodos geoestadsticos es necesario verificar la funcin
de probabilidad del conjunto de datos se aproximen a un comportamiento normal,
esto lo veremos ms adelante en el anlisis exploratorio de los datos.

Con el fin de que este sea un ejemplo prctico para abordar el anlisis
geoestadistico con ArcGIS, ilustraremos todo los conceptos con un ejemplo a partir
de datos de monitoreo de niveles piezomtricos de agua subterrnea que se
presentan en la tabla siguiente. Para ello se seguirn los siguientes pasos.

1. Organizar los datos de menor a mayor.
2. Calcular la tabla de frecuencia.
3. Realizar el histograma de frecuencias.
4. Calcular los parmetros geoestadstico.

Paso 1. Organizar los datos de menor a mayor
Pozo X Y Nivel Pz

Pozo X Y Nivel Pz
(msnm) (msnm)
1 1.038.638 1.368.620 2,0

28 1.044.694 1.371.405 6,00
2 .034.835 1.344.198 2,1

29 1.041.841 1.363.397 6,1
3 1.039.637 1.368.963 2,2

30 1.040.838 1.356.677 8,0
4 1.039.628 1.368.960 2,2

31 1.044.135 1.364.301 8,07
5 1.042.236 1.377.584 2,44

32 1.046.740 1.377.526 8,08
6 1.039.030 1.370.440 2,49

33 1.046.626 1.374.772 9,02
7 .036.835 1.354.454 2,9

34 1.042.604 1.360.903 9,21
8 1.043.217 1.357.777 2,99

35 1.039.466 1.348.279 10,1
9 1.040.082 1.373.095 3,2

36 1.041.429 1.333.870 10,3
10 1.039.392 1.374.231 3,3

37 1.045.207 1.363.183 10,8
11 1.040.434 1.368.119 3,33

38 1.044.733 1.360.337 11,5
12 1.039.720 1.368.500 3,35

39 1.048.893 1.374.744 11,82
13 1.042.060 1.376.470 3,43

40 1.040.383 1.355.006 12,2
14 1.041.545 1.369.212 3,7

41 1.042.263 1.354.636 12,3
15 1.042.045 1.371.752 3,8

42 1.039.411 1.336.953 12,8
16 1.040.269 1.377.908 3,97

43 1.048.342 1.369.941 14,62
17 1.040.731 1.371.643 4,0

44 1.046.214 1.355.644 14,9
18 1.042.360 1.376.070 4,29

45 1.044.935 1.336.931 16,6
19 1.040.390 1.376.776 4,5

46 1.041.256 1.339.628 18,16
20 1.035.335 1.356.941 4,5

47 1.048.313 1.360.466 19,14
21 1.047.035 1.371.548 4,62

48 1.044.224 1.348.328 24,1
22 1.042.020 1.370.310 4,66

49 1.044.765 1.341.254 24,2
23 1.033.716 1.352.675 5,0

50 1.046.735 1.356.327 25,57
24 1.042.570 1.377.470 5,10

51 1.045.454 1.346.959 27,15
25 1.035.564 1.343.433 5,2

52 1.050.523 1.361.111 30,08
26 1.042.520 1.368.530 5,38

53 1.052.106 1.361.728 35,32
27 1.042.932 1.368.255 5,87




Paso 2. Calcular la tabla de frecuencia.



Luego la tabla de frecuencias queda como la siguiente
No Intervalo Marca de
clase
frecuencia
absoluta
frecuencia
absoluta
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
1 2,0076 - 6,1776 4,0926 29 29 0,55 0,55
2 6,1776 - 10,3476 8,2626 7 36 0,13 0,68
3 10,3476 - 14,5176 12,4326 6 42 0,11 0,79
4 14,5176 - 18,6876 16,6026 4 46 0,08 0,87
5 18,6876 - 22,8576 20,7726 1 47 0,02 0,89
6 22,8576 - 27,0276 24,9426 4 51 0,08 0,96
7 27,0276 - 31,1976 29,1126 1 52 0,02 0,98
8 31,1976 - 35,3676 33,2826 1 53 0,02 1,00

Paso 3. Realizar el histograma de frecuencias.

A partir de la tabla anterior se construye el histograma de frecuencias, el cual nos
da una idea del comportamiento de los datos. Como primer acercamiento, se
observa que los datos estn dispersos, sesgados y la moda, la media y la mediana
son diferentes, por tanto los datos no obedecen a una distribucin normal.



Paso 4. Calcular los parmetros geoestadstico

a. Medidas de tendencia central
Intentan identificar el dato ms representativo de la distribucin del conjunto. Son
las siguientes.

Media. Se le suele llamar promedio, se define como la suma de los valores de
todas las observaciones divididas por el nmero total de datos. Se denota con o
X.

En su clculo intervienen todos los datos, por lo tanto, se ven influenciados por la
variacin de cualquiera de ellos. En particular, es sensible a los valores extremos,
pues estos producen grandes modificaciones.


Para los datos agrupados del ejemplo, tenemos lo siguiente.

No Intervalo Marca de
clase
frecuencia
absoluta
producto
1 2,0076 - 6,1776 4,0926 29 118,685
2 6,1776 - 10,3476 8,2626 7 57,838
3 10,3476 - 14,5176 12,4326 6 74,596
4 14,5176 - 18,6876 16,6026 4 66,410
5 18,6876 - 22,8576 20,7726 1 20,773
6 22,8576 - 27,0276 24,9426 4 99,770
7 27,0276 - 31,1976 29,1126 1 29,113
8 31,1976 - 35,3676 33,2826 1 33,283
Suma 500,468
Media (suma/53) 9,443
Para los datos no agrupados

Pozo NP Pozo NP
1 2,0076 28 6,0000
2 2,1313 29 6,1496
3 2,2000 30 8,0054
4 2,2100 31 8,0724
5 2,4449 32 8,0827
6 2,4946 33 9,0188
7 2,8554 34 9,2078
8 2,9876 35 10,1156
9 3,2347 36 10,2553
10 3,2930 37 10,8373
11 3,3317 38 11,5066
12 3,3506 39 11,8241
13 3,4291 40 12,2268
14 3,6896 41 12,3280
15 3,7990 42 12,8004
16 3,9651 43 14,6244
17 3,9980 44 14,9301
18 4,2921 45 16,6351
19 4,4900 46 18,1630
20 4,5286 47 19,1410
21 4,6227 48 24,0632
22 4,6637 49 24,2354
23 5,0499 50 25,5698
24 5,1009 51 27,1534
25 5,2438 52 30,0800
26 5,3826 53 35,3188
27 5,8690

Suma 497,0104
Media (suma/53) 9,3776

Mediana. Es el valor de la serie de datos que deja la mitad de las observaciones
por debajo de ella y la otra mitad por encima, es decir, divide al conjunto de datos
en dos partes iguales y se denota por Me.

Dado que slo depende del orden de los datos, tiene la ventaja de que no es
sensible a los valores extremos.

En datos agrupados se calcula de la siguiente forma.

1. Calcular: n/2
2. La mediana ser el valor de la variable cuya frecuencia absoluta acumulada
primero iguale o supere a N/2. Este ser el intervalo en el que se encuentra la
mediana.

3. Aplicar la formula sustituyendo los valores correspondientes.



Para datos agrupados, tenemos lo siguiente.

Se calcula n/2 = 53/2 = 26.5, se busca este valor en la columna de la frecuencia
acumulada de la tabla de frecuencia. Si no se encuentra, tomamos el valor
siguiente, el cual es 29, por lo cual el intervalo donde se encuentra la moda es
(2.0076 6.1776].

Fi=29
Fi-1=8
Li= 2.0076
a= 4.17



Para datos no agrupados, tenemos lo siguiente.
Como el nmero de datos de la muestra es impar e igual a 53, la mediana es el
dato que ocupa el puesto 27(divide la muestra en dos partes iguales), el cual
es: Me= 5.8690

Moda. Es el dato que ms veces se repite, es decir, aquel dato o rango que
presenta mayor frecuencia absoluta. Puede haber ms de una moda en una
distribucin. Se denota por Mo.


Para datos agrupados, tenemos lo siguiente.

De los datos agrupados en la tabla de frecuencia, se observa que la mayor
frecuencia absoluta es 29, por lo tanto el intervalo donde est la moda es (2.0076
6.1776].

Li=2.0076
a=4.17
d2=29-7 = 22
d1=29-0 = 29



b. Medidas de dispersin
Las medidas de dispersin indican la mayor o menor concentracin de los datos con
respecto a las medidas de centralizacin. Nos dan una idea sobre la homogeneidad
o que tan agrupado estn los datos.

Desviacin estndar. Indica cunto tienden a alejarse los valores puntuales de la
media. Se suele representar por una S. Una desviacin estndar grande indica que
los puntos estn lejos de la media, y una desviacin pequea indica que los datos
estn agrupados cerca de la media.



Para datos agrupados, tenemos lo siguiente.
No Intervalo Marca de
clase (Xi)
frecuencia
absoluta
(Xi-X)*fi
1 2,0076 - 6,1776 4,0926 29 830,111
2 6,1776 - 10,3476 8,2626 7 9,750
3 10,3476 - 14,5176 12,4326 6 53,634
4 14,5176 - 18,6876 16,6026 4 205,052
5 18,6876 - 22,8576 20,7726 1 128,365
6 22,8576 - 27,0276 24,9426 4 960,977
7 27,0276 - 31,1976 29,1126 1 386,901
8 31,1976 - 35,3676 33,2826 1 568,337
Suma 3143,12
n-1 52
S 7,774

Para datos no agrupados.
Pozo NP (Xi-X) Pozo NP (Xi-X)
1 2,0076 54,3169 28 6,000 11,4082
2 2,1 52,5089 29 6,150 10,4200
3 2,2 51,5179 30 8,005 1,8829
4 2,2 51,3745 31 8,072 1,7035
5 2,44 48,0623 32 8,083 1,6768
6 2,49 47,3757 33 9,019 0,1287
7 2,9 42,5391 34 9,208 0,0288
8 2,99 40,8321 35 10,116 0,5446
9 3,2 37,7352 36 10,255 0,7704
10 3,3 37,0224 37 10,837 2,1307
11 3,33 36,5529 38 11,507 4,5326
12 3,35 36,3247 39 11,824 5,9854
13 3,43 35,3852 40 12,227 8,1179
14 3,7 32,3533 41 12,328 8,7049
15 3,8 31,1208 42 12,800 11,7156
16 3,97 29,2952 43 14,624 27,5289
17 4,0 28,9401 44 14,930 30,8303
18 4,29 25,8628 45 16,635 52,6713
19 4,5 23,8886 46 18,163 77,1833
20 4,5 23,5128 47 19,141 95,3240
21 4,62 22,6091 48 24,063 215,6668
22 4,66 22,2209 49 24,235 220,7542
23 5,0 18,7290 50 25,570 262,1873
24 5,10 18,2902 51 27,153 315,9791
25 5,2 17,0883 52 30,080 428,5894
26 5,38 15,9600 53 35,319 672,9459
27 5,87 12,3103
suma 3.363,14
n-1 52
S 8,042

Varianza. Describe la variabilidad de la distribucin. Es la medida de la desviacin
o dispersin de la distribucin. Se calcula mediante la ecuacin.


Para datos agrupados, tenemos lo siguiente.

S = 7.774 = 60.44

Para datos no agrupados, tenemos lo siguiente.
S = 8.042 = 64.675

Coeficiente de variacin. Mide la representatividad de la media. Valores
extremos del mismo nos llevarn a concluir que la media no es representativa, es
decir, existirn valores entre las observaciones que se separan significativamente
de las dems.



Para datos agrupados, tenemos lo siguiente.
C.V = 7.74/9.443*100 = 82%

Para datos no agrupados, tenemos lo siguiente.
C.V = 8.042/9.3776*100 = 85.8%
c. Medidas de forma
Miden el grado de deformacin respecto a una curva patrn (distribucin normal).

Coeficiente de curtosis. Mide el grado de aplastamiento o apuntamiento de la
grfica de la distribucin de la variable estadstica. Datos concentrados respecto a
la media (desviacin estndar pequea) dar una grafica alargada; si los datos
estn dispersos la grfica ser achatada o aplastada.




Nota: El valor calculado a travs de la herramienta Geostatistical Analyst de ArcGIS
no le resta 3 como aparece en la ecuacin anterior.



Para datos no agrupados tenemos, lo siguiente:
Pozo NP (Xi-X)
4
Pozo NP (Xi-X)
4

1 2,0076 2.950,3256 28 6,000 130,1466
2 2,1 2.757,1808 29 6,150 108,5761
3 2,2 2.654,0983 30 8,005 3,5454
4 2,2 2.639,3382 31 8,072 2,9021
5 2,44 2.309,9875 32 8,083 2,8115
6 2,49 2.244,4559 33 9,019 0,0166
7 2,9 1.809,5744 34 9,208 0,0008
8 2,99 1.667,2604 35 10,116 0,2966
9 3,2 1.423,9469 36 10,255 0,5935
10 3,3 1.370,6549 37 10,837 4,5400
11 3,33 1.336,1150 38 11,507 20,5448
12 3,35 1.319,4859 39 11,824 35,8246
13 3,43 1.252,1157 40 12,227 65,9010
14 3,7 1.046,7389 41 12,328 75,7746
15 3,8 968,5028 42 12,800 137,2543
16 3,97 858,2062 43 14,624 757,8409
17 4,0 837,5292 44 14,930 950,5047
18 4,29 668,8854 45 16,635 2.774,2665
19 4,5 570,6668 46 18,163 5.957,2546
20 4,5 552,8518 47 19,141 9.086,6611
21 4,62 511,1702 48 24,063 46.512,1891
22 4,66 493,7663 49 24,235 48.732,4260
23 5,0 350,7750 50 25,570 68.742,2017
24 5,10 334,5301 51 27,153 99.842,7699
25 5,2 292,0101 52 30,080 183.688,8444
26 5,38 254,7224 53 35,319 452.856,1270
27 5,87 151,5428
suma 954.116,25
n-1 52
S
4
4182,95
K 1,38

Coeficiente de sesgo o asimetra. Evala el grado de distorsin o inclinacin que
adopta la distribucin de los datos respecto a su valor promedio tomado como
centro de gravedad. El coeficiente de simetra de Pearson es:



Si CS = 0, la distribucin es simtrica, en ese caso las desviaciones a la derecha y a
la izquierda de la media se compensan.

Si CS < 0, la distribucin es asimtrica negativa. La mayora de las observaciones
estn a la derecha de la proyeccin de la media.

Si CS > 0 la distribucin es asimtrica positiva. La mayora de las observaciones
estn a la izquierda de la proyeccin de la media.


Para datos no agrupados tenemos, lo siguiente:

Pozo NP (Xi-X)
3
Pozo NP (Xi-X)
3

1 2,0076 -400,3156 28 6,000 -38,5323
2 2,1 -380,4950 29 6,150 -33,6357
3 2,2 -369,7752 30 8,005 -2,5838
4 2,2 -368,2318 31 8,072 -2,2235
5 2,44 -333,2017 32 8,083 -2,1712
6 2,49 -326,0869 33 9,019 -0,0462
7 2,9 -277,4485 34 9,208 -0,0049
8 2,99 -260,9171 35 10,116 0,4019
9 3,2 -231,8037 36 10,255 0,6761
10 3,3 -225,2662 37 10,837 3,1102
11 3,33 -220,9952 38 11,507 9,6500
12 3,35 -218,9291 39 11,824 14,6432
13 3,43 -210,4909 40 12,227 23,1296
14 3,7 -184,0258 41 12,328 25,6828
15 3,8 -173,6104 42 12,800 40,1000
16 3,97 -158,5600 43 14,624 144,4387
17 4,0 -155,6861 44 14,930 171,1850
18 4,29 -131,5267 45 16,635 382,2620
19 4,5 -116,7581 46 18,163 678,0858
20 4,5 -114,0136 47 19,141 930,6861
21 4,62 -107,5039 48 24,063 3.167,1971
22 4,66 -104,7469 49 24,235 3.279,9221
23 5,0 -81,0534 50 25,570 4.245,3899
24 5,10 -78,2215 51 27,153 5.616,7807
25 5,2 -70,6396 52 30,080 8.872,8285
26 5,38 -63,7603 53 35,319 17.457,0231
27 5,87 -43,1918
suma 39.576,74
n-1 52
S
3
520,13
Sesgo 1,46

A continuacin se muestran los resultados obtenidos a travs de las ecuaciones de
datos agrupados y no agrupados, tambin se incluyen los resultados arrojados por
la herramienta Geostatistical Analyst (la cual se ver ms adelante). Se observa
que los resultados obtenidos tanto por las ecuaciones aplicadas a datos no
agrupados y los obtenidos por la herramienta Geostatistical Analyst son similares.
Parmetro
Datos
agrupados
Datos no
agrupados
Mdulo
Geostatistical
analyst de
ArcGIS
Observaciones
Media 9.443 9.3776 9.3776

Mediana 4.6678 5.869 5.869

Moda 4.378

Desviacin
estndar
7.74 8.0421 8.0421

Varianza 60.44 64.675 64.675

Coeficiente
de Variacin
82% 85.8% 85.75%

Curtosis

1.38 1.4709
A la curtosis que
calcula ArcGIS se le
debe restar 3
Sesgo o
asimetra
1.46 1.4773


En el artculo Anlisis geoestadstico con ArcGIS parte 2. Anlisis exploratorio de los
datos veremos el anlisis exploratorio de los datos para despus abordar el tutorial
de la herramienta Geostatistical Analyst.

Anlisis geoestadstico con ArcGIS parte 2. Anlisis
exploratorio de los datos
Segn Matheron (1992), la Geoestadstica es la aplicacin de la teora de las
variables regionalizadas a la estimacin de los depsitos. A su vez una variable
regionalizada, es una variable distribuida en el espacio de forma que presenta una
estructura espacial de correlacin. En fin cuando hablemos de Geoestadstica se
debe pensar en la variable y su relacin espacial.

Ejemplo de variables regionalizadas en hidrogeologa son la trasmisividad y
conductividad hidrulica, la porosidad y el nivel piezomtrico; a este ltimo
hacemos referencia en el presente artculo.

La mayora de los mtodos geoestadsticos slo son ptimos si la variable de
estudio sigue una distribucin normal. Recordemos que la distribucin normal tiene
las siguientes propiedades:

Tiene una nica moda, que coincide con su media y su mediana.
La curva normal es asinttica al eje de abscisas.
Es simtrica con respecto a su media. Segn esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor que la
media, y un 50% de observar un dato menor.
Cuanto mayor sea la desviacin estndar, ms se dispersarn los datos en
torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro
indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio
de la distribucin.
El coeficiente de sesgo es igual a cero (0).
La curtosis es igual a cero (0).
Para determinar si la variable sigue una distribucin se deben aplicar alguna de las
pruebas de normalidad como Prueba X, Kolmogorov, clculo del coeficiente de
asimetra, curtosis, mediana, mediana y la moda y su comparacin de con los de la
distribucin normal.

Si a travs de estas pruebas se concluye que la variable puede ser aceptada o se
aproxima a una distribucin normal, el problema se simplifica y se puede continuar
con el anlisis geoestadstico; de lo contrario, es necesario realizar una
transformacin de los datos que puede ser de raz cuadrada o logartmica (Carrera,
1990) y hacer nuevamente las verificaciones.

Este es un tema extenso y la idea de estos artculos es hacerlos algo prcticos, por
ello al final dejar bibliografa a la cual se puede consultar.

Para resumir, los pasos a seguir en el anlisis exploratorio de los datos son los
siguientes.

1. Organizar los datos de menor a mayor.
2. Calcular la tabla de frecuencia.
3. Realizar el histograma de frecuencias.
4. Calcular los parmetros geoestadstico.
5. Verificacin de la normalidad con respecto a la media, moda y mediana.
6. Verificacin de la normalidad con respecto a la asimetra horizontal (coeficiente de
sesgo).
7. Verificacin de la normalidad con respecto al coeficiente de variacin.
8. Realizacin de la transformacin de los datos, si es necesario.
9. Recalculo de los parmetros estadsticos y comparacin para verificar la
normalidad de los datos.

Los pasos 1 al 4 fueron realizados en el tutorial Mdulo de Geostadstica Analyst
con ArcGIS parte 1. Estadstica descriptiva, aqu se continuar con los pasos
siguientes

Se continua con el ejemplo de los datos del monitoreo de niveles piezomtricos que
se muestran en la siguiente tabla.

Pozo X Y NP
1 1.038.638 1.368.620 2,0076
2 1.034.835 1.344.198 2,1313
3 1.039.637 1.368.963 2,2000
4 1.039.628 1.368.960 2,2100
5 1.042.236 1.377.584 2,4449
6 1.039.030 1.370.440 2,4946
7 1.036.835 1.354.454 2,8554
8 1.043.217 1.357.777 2,9876
9 1.040.082 1.373.095 3,2347
10 1.039.392 1.374.231 3,2930
11 1.040.434 1.368.119 3,3317
12 1.039.720 1.368.500 3,3506
13 1.042.060 1.376.470 3,4291
14 1.041.545 1.369.212 3,6896
15 1.042.045 1.371.752 3,7990
16 1.040.269 1.377.908 3,9651
17 1.040.731 1.371.643 3,9980
18 1.042.360 1.376.070 4,2921
19 1.040.390 1.376.776 4,4900
20 1.035.335 1.356.941 4,5286
21 1.047.035 1.371.548 4,6227
22 1.042.020 1.370.310 4,6637
23 1.033.716 1.352.675 5,0499
24 1.042.570 1.377.470 5,1009
25 1.035.564 1.343.433 5,2438
26 1.042.520 1.368.530 5,3826
27 1.042.932 1.368.255 5,8690
28 1.044.694 1.371.405 6,0000
29 1.041.841 1.363.397 6,1496
30 1.040.838 1.356.677 8,0054
31 1.044.135 1.364.301 8,0724
32 1.046.740 1.377.526 8,0827
33 1.046.626 1.374.772 9,0188
34 1.042.604 1.360.903 9,2078
35 1.039.466 1.348.279 10,1156
36 1.041.429 1.333.870 10,2553
37 1.045.207 1.363.183 10,8373
38 1.044.733 1.360.337 11,5066
39 1.048.893 1.374.744 11,8241
40 1.040.383 1.355.006 12,2268
41 1.042.263 1.354.636 12,3280
42 1.039.411 1.336.953 12,8004
43 1.048.342 1.369.941 14,6244
44 1.046.214 1.355.644 14,9301
45 1.044.935 1.336.931 16,6351
46 1.041.256 1.339.628 18,1630
47 1.048.313 1.360.466 19,1410
48 1.044.224 1.348.328 24,0632
49 1.044.765 1.341.254 24,2354
50 1.046.735 1.356.327 25,5698
51 1.045.454 1.346.959 27,1534
52 1.050.523 1.361.111 30,0800
53 1.052.106 1.361.728 35,3188

Los parmetros estadsticos calculados anteriormente se resumen en la siguiente
tabla.

Parmetro
Datos no
agrupados
Observaciones
Media 9.3776

Mediana 5.869

Moda 4.378
Se tom la moda calculada
a travs de la ecuacin
datos agrupados.
Desviacin
estndar
8.0421

Varianza 64.675

Coeficiente de
Variacin
85.8%

Curtosis 1.38

Sesgo o asimetra 1.46


5. Verificacin de la normalidad con respecto a la media, moda y mediana.

Para que la distribucin sea normal o se aproxime, la media, la moda y la mediana
deben ser similares, se acepta una diferencia de una unidad entre ella.

Para el ejemplo de estudio tenemos.
Media = 9.3776
Mediana = 5.869
Moda = 4.378

Se observa la media, la mediana y la moda son diferentes, por lo cual los datos no
cumplen el criterio de verificacin con respecto a estos parmetros.

6. Verificacin de la normalidad con respecto a la asimetra horizontal
(coeficiente de sesgo).

Como el coeficiente de sesgo permite verificar la normalidad de los datos, en caso
de existir asimetra horizontal, es decir los datos no se ajustan a una distribucin
normal, Wester-Oliver proponen evaluar lo siguiente.

0<|CS|<0.5, se acepta la funcin de distribucin de probabilidad como
normal, se puede aplicar el mtodo geoestadstico a los datos.
0.5<|CS|<1, es necesario realizar una transformacin de datos
(normalizacin) de tipo raz cuadrada.
|CS|>1, es necesario hacer una transformacin de tipo logartmico (ln o log)
En nuestro caso CS = 1.46, valor mayor que 1, por lo tanto es necesario aplicar
una transformacin de tipo logartmico a los datos.

7. Verificacin de la normalidad con respecto al coeficiente de variacin.

Tanto la funcin de distribucin de los datos como la varianza son funciones de la
media la cual es altamente sensible a los valores extremos. En consecuencia se
debe tener conocimiento de la afectacin de estos valores extremos sobre la media,
para ello se calcula el coeficiente de variacin. En todo caso se debe verificar lo
siguiente.

Si CV < 100, no hay problema con los valores extremos de los datos
Si 100<CV<=200, Los efectos causados por los valores extremos de los
datos son tolerables
Si CV>200, se tiene problemas severos con los valores extremos de los
datos.
Esto es importante, pues en caso de que los valores extremos de los datos afecten
a la muestra o a la distribucin de los mismos, se deber analizar si es conveniente
eliminarlos en caso que obedezcan a un error en la medicin o hacer una
transformacin de los datos para reducir su influencia en la muestra.

En nuestro caso CV = 85.8 < 100, lo cual indica que no hay problemas con valores
extremos.

En resumen, la funcin de distribucin de los datos no se asemeja a una
distribucin normal dado que la media, la mediana y la moda son diferentes y
adems el CS>1. De acuerdo a los clculos anteriores, es necesario realizar una
transformacin logartmica (la cual consiste en tomar el dato y sacarle el logaritmo
ya sea en base 10 o logaritmo natural), una vez realizada la transformacin se
vuelven a calcular todos los parmetros para realizar las respectivas verificaciones.

8. Realizacin de la transformacin de los datos, si es necesario.

Transformacin de los datos (ln).
Pozo X Y NP ln
1 1.038.638 1.368.620 2,0076 0,697
2 1.034.835 1.344.198 2,1313 0,757
3 1.039.637 1.368.963 2,2000 0,788
4 1.039.628 1.368.960 2,2100 0,793
5 1.042.236 1.377.584 2,4449 0,894
6 1.039.030 1.370.440 2,4946 0,914
7 1.036.835 1.354.454 2,8554 1,049
8 1.043.217 1.357.777 2,9876 1,094
9 1.040.082 1.373.095 3,2347 1,174
10 1.039.392 1.374.231 3,2930 1,192
11 1.040.434 1.368.119 3,3317 1,203
12 1.039.720 1.368.500 3,3506 1,209
13 1.042.060 1.376.470 3,4291 1,232
14 1.041.545 1.369.212 3,6896 1,306
15 1.042.045 1.371.752 3,7990 1,335
16 1.040.269 1.377.908 3,9651 1,378
17 1.040.731 1.371.643 3,9980 1,386
18 1.042.360 1.376.070 4,2921 1,457
19 1.040.390 1.376.776 4,4900 1,502
20 1.035.335 1.356.941 4,5286 1,510
21 1.047.035 1.371.548 4,6227 1,531
22 1.042.020 1.370.310 4,6637 1,540
23 1.033.716 1.352.675 5,0499 1,619
24 1.042.570 1.377.470 5,1009 1,629
25 1.035.564 1.343.433 5,2438 1,657
26 1.042.520 1.368.530 5,3826 1,683
27 1.042.932 1.368.255 5,8690 1,770
28 1.044.694 1.371.405 6,0000 1,792
29 1.041.841 1.363.397 6,1496 1,816
30 1.040.838 1.356.677 8,0054 2,080
31 1.044.135 1.364.301 8,0724 2,088
32 1.046.740 1.377.526 8,0827 2,090
33 1.046.626 1.374.772 9,0188 2,199
34 1.042.604 1.360.903 9,2078 2,220
35 1.039.466 1.348.279 10,1156 2,314
36 1.041.429 1.333.870 10,2553 2,328
37 1.045.207 1.363.183 10,8373 2,383
38 1.044.733 1.360.337 11,5066 2,443
39 1.048.893 1.374.744 11,8241 2,470
40 1.040.383 1.355.006 12,2268 2,504
41 1.042.263 1.354.636 12,3280 2,512
42 1.039.411 1.336.953 12,8004 2,549
43 1.048.342 1.369.941 14,6244 2,683
44 1.046.214 1.355.644 14,9301 2,703
45 1.044.935 1.336.931 16,6351 2,812
46 1.041.256 1.339.628 18,1630 2,899
47 1.048.313 1.360.466 19,1410 2,952
48 1.044.224 1.348.328 24,0632 3,181
49 1.044.765 1.341.254 24,2354 3,188
50 1.046.735 1.356.327 25,5698 3,241
51 1.045.454 1.346.959 27,1534 3,302
52 1.050.523 1.361.111 30,0800 3,404
53 1.052.106 1.361.728 35,3188 3,564

9. Recalculo de los parmetros estadsticos y comparacin para verificar la
normalidad de los datos.


a. Organizar los datos de menor a mayor.
Ya estn organizados en la tabla anterior

b. Calcular la tabla de frecuencia.

No Intervalo Marca
de clase
frecuencia
absoluta
frecuencia
absoluta
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
1 0,6969 - 1,0569 0,88 7 7 0,13 0,13
2 1,0569 - 1,4153 1,24 10 17 0,19 0,32
3 1,4153 - 1,7737 1,59 10 27 0,19 0,51
4 1,7737 - 2,1321 1,95 5 32 0,09 0,60
5 2,1321 - 2,4905 2,31 7 39 0,13 0,74
6 2,4905 - 2,8489 2,67 6 45 0,11 0,85
7 2,8489 - 3,2073 3,03 4 49 0,08 0,92
8 3,2073 - 3,5657 3,39 4 53 0,08 1,00


c. Realizar el histograma de frecuencias


d. Calcular los parmetros geoestadstico.
Los parmetros estadsticos se realizarn por la metodologa de datos no agrupados
a excepcin de la moda, para ello se utilizar Excel.

Pozo NP ln Media (xi-
media)
2

(xi-
media)
4

(xi-
media)
1 2,0076 0,697 1,92 1,508 2,273 -1,851
2 2,1313 0,757 1,92 1,364 1,862 -1,594
3 2,2000 0,788 1,92 1,291 1,668 -1,468
4 2,2100 0,793 1,92 1,281 1,641 -1,450
5 2,4449 0,894 1,92 1,063 1,129 -1,095
6 2,4946 0,914 1,92 1,022 1,044 -1,033
7 2,8554 1,049 1,92 0,767 0,588 -0,671
8 2,9876 1,094 1,92 0,690 0,475 -0,573
9 3,2347 1,174 1,92 0,564 0,318 -0,423
10 3,2930 1,192 1,92 0,537 0,289 -0,394
11 3,3317 1,203 1,92 0,520 0,271 -0,375
12 3,3506 1,209 1,92 0,512 0,262 -0,367
13 3,4291 1,232 1,92 0,480 0,230 -0,332
14 3,6896 1,306 1,92 0,384 0,147 -0,238
15 3,7990 1,335 1,92 0,348 0,121 -0,205
16 3,9651 1,378 1,92 0,300 0,090 -0,164
17 3,9980 1,386 1,92 0,291 0,084 -0,157
18 4,2921 1,457 1,92 0,219 0,048 -0,103
19 4,4900 1,502 1,92 0,179 0,032 -0,076
20 4,5286 1,510 1,92 0,172 0,029 -0,071
21 4,6227 1,531 1,92 0,155 0,024 -0,061
22 4,6637 1,540 1,92 0,148 0,022 -0,057
23 5,0499 1,619 1,92 0,093 0,009 -0,029
24 5,1009 1,629 1,92 0,087 0,008 -0,026
25 5,2438 1,657 1,92 0,072 0,005 -0,019
26 5,3826 1,683 1,92 0,058 0,003 -0,014
27 5,8690 1,770 1,92 0,024 0,001 -0,004
28 6,0000 1,792 1,92 0,018 0,000 -0,002
29 6,1496 1,816 1,92 0,012 0,000 -0,001
30 8,0054 2,080 1,92 0,024 0,001 0,004
31 8,0724 2,088 1,92 0,027 0,001 0,004
32 8,0827 2,090 1,92 0,027 0,001 0,004
33 9,0188 2,199 1,92 0,075 0,006 0,021
34 9,2078 2,220 1,92 0,087 0,008 0,026
35 10,1156 2,314 1,92 0,152 0,023 0,059
36 10,2553 2,328 1,92 0,162 0,026 0,065
37 10,8373 2,383 1,92 0,210 0,044 0,096
38 11,5066 2,443 1,92 0,268 0,072 0,139
39 11,8241 2,470 1,92 0,297 0,088 0,162
40 12,2268 2,504 1,92 0,335 0,112 0,194
41 12,3280 2,512 1,92 0,345 0,119 0,202
42 12,8004 2,549 1,92 0,390 0,152 0,244
43 14,6244 2,683 1,92 0,574 0,330 0,435
44 14,9301 2,703 1,92 0,606 0,367 0,472
45 16,6351 2,812 1,92 0,786 0,618 0,697
46 18,1630 2,899 1,92 0,950 0,902 0,926
47 19,1410 2,952 1,92 1,055 1,112 1,083
48 24,0632 3,181 1,92 1,577 2,487 1,981
49 24,2354 3,188 1,92 1,595 2,544 2,015
50 25,5698 3,241 1,92 1,733 3,004 2,282
51 27,1534 3,302 1,92 1,895 3,592 2,609
52 30,0800 3,404 1,92 2,187 4,785 3,235
53 35,3188 3,564 1,92 2,688 7,226 4,407

suma 102,02

32,205 40,295 8,510



e. Verificacin de la normalidad con respecto a la media, moda y mediana.
Media = 1.92
Mediana = 1.77
Moda = 1.41

La diferencia entre la media, la mediana y la moda es menor que 1, por lo tanto la
distribucin de los datos cumple con esta condicin.

f. Verificacin de la normalidad con respecto a la asimetra horizontal
(coeficiente de sesgo).

CS = 0.34 se cumple que 0<|CS|<0.5.

g. Verificacin de la normalidad con respecto al coeficiente de variacin.

CV = 41%, se cumple que CV<100

Por tanto la distribucin de los datos se puede aceptar como normal, dado que la
moda, la mediana y la media son similares; CS est entre 0 y 0.5 y
CV<100. Por ello se puede continuar con el anlisis geoestadstico.

La tercera parte de esta triloga que corresponde a la herramienta Geostadistical
Analyst la puedes consultar aqu.


Geostatistical Analyst. Anlisis geoestadstico con ArcGIS
parte 3
Con Geostatistical Analyst es posible explorar la variabilidad de datos, examinar
tendencias globales e investigar la autocorrelacin y la correlacin entre los datos,
de igual forma se pueden crear predicciones y calcular errores de predicciones.

Lo primero que se tiene que hacer para iniciar un anlisis geoestadstico con Arcgis
es el anlisis exploratorio de los datos, lo cual hemos visto en dos artculos
anteriores y por ltimo el anlisis estructural de los datos.


1. Anlisis Exploratorio de los datos (ver artculo)
Paso 1
Lo primero que se debe hacer es crear un shape de puntos a partir de datos de
coordenadas geogrficas o planas.

En este caso utilizar, el shape de puntos donde se tiene datos del monitoreo de
niveles del acufero del golfo de Urab, el cual se denomina Niveles.shp.


Paso 2
Una vez creado o agregado el shape en Arcmap, damos clic en Geostatistical
Analyst, seguido de Explore Data y finalmente en Histogram, tal como se
muestra en la figura.


Aparece la siguiente ventana


En la parte inferior de la ventana,

Bars: Permite elegir el nmero de intervalos, la herramienta automticamente
calcula la longitud de cada intervalo.

Transformation: Permite realizar una transformacin logartmica a los datos en
caso de que estos no sigan una distribucin normal (tal como fue explicado aqu).

Layer: Aqu aparece el nombre del Shape, el cual es Niveles, cuando hay varios
shpe agregados en Arcmap la herramienta elige el primero de la lista.

Attribute: Aqu aparece por defecto el primer campo que tenemos en la tabla de
atributos de nuestro shape en este caso es el campo pozos. Automticamente la
herramienta calcula los parmetros geoestadsticos que se muestran en la parte
superior.

Paso 3
Lo que sigue es seleccionar el atributo con el cual queremos hacer el anlisis
geoestadstico, en este caso es el nivel piezomtrico, para ello damos clic en la
pestaa que est debajo del Attribute y seleccionamos el campo NP (nivel
piezomtrico).


Se observa que inmediatamente cambia la grafica y recalcula los valores de los
parmetros estadsticos mostrados en la parte superior, los cuales son los
siguientes:

Count (numero de datos): 53
Min (dato menor): 2.0076
Max (dato mayor): 35.319
Mean (Media): 9.3776
Std Dev (Desviacin estndar): 8.0421
Skewness (Coeficiente de sesgo o asimetra): 1.4773
Kurtosis (curtosis): 4.4709
Median (Mediana): 5.69

Aqu, la moda se calcula como la marca de clase del intervalo con mayor
frecuencia
Moda = (0.2+0.53)/2 = 0.365.

El coeficiente de variacin se calcula como: CV=S/media*100
CV=8.0421/9.3776*100 = 85.7%

A estos parmetros le aplicamos las condiciones necesarias para verificar si los
datos siguen la distribucin normal. Vemos que la media, la moda y la mediana son
diferentes y su diferencia es mayor a uno, el coeficiente de sesgo es mayor a 1, por
lo cual es necesario realizar una transformacin de los datos, de acuerdo a la
literatura y lo hablado anteriormente se recomienda una transformacin
logartmicapero no los preocupemos estos lo hace ArcGis, simplemente en la
pestaa Transformationseleccionamos Log. En la pestaa Bars colocamos 8
intervalos. El resultado es el siguiente.


Observamos nuevamente los parmetros

Count (numero de datos): 53
Min (dato menor): 0.69694
Max (dato mayor): 3.5644
Mean (Media): 1.9248
Std Dev (Desviacin estndar): 0.78698
Skewness (Coeficiente de sesgo o asimetra): 0.33899
Kurtosis (curtosis): 2.0591
Median (Mediana): 1.7697

El coeficiente de variacin se calcula como: CV=S/media*100
CV=0.78698/1.9248*100 = 40.88%

El coeficiente de variacin mejor y es igual a 40.88%, por lo cual no hay problema
con los valores extremos de los datos.

De lo anterior se concluye que la media y la mediana son similares, su diferencia es
menor a 1 y el coeficiente de sesgo est entre 0 y 0.5, por lo cual la distribucin de
los datos se acepta como normalse sigue con el anlisis geoestadstico.

Paso 4
Despus de haber analizado los parmetros estadsticos y concluir que la
distribucin de los datos se puede tomar como normal, cerramos la ventana del
Histogram y volvemos a dar clic en Geostatistical Analyst, seguido de Explore
Data y finalmente en Trend Analysis, tal como se muestra en la figura.


Se abre la siguiente ventana


Esta ventana nos ayuda a ver qu tendencia siguen los datos para que luego en el
anlisis estrutural le indiquemos a la herramienta que sea removida. En Graph
options, damos clic en Projected Data, Sticks, Input Data Points para que
desaparezcan de la grfica el resultado debe ser el siguiente.


Es importante analizar si los datos manifiestan tendencias direccionales que
permitan establecer correlaciones en esas direcciones, y formular modelos de
comportamiento. La tendencia ms fuerte se tendr sobre aquella direccin en la
que la lnea de tendencia es ms gruesa; para nuestro ejemplo se ve claramente
una fuerte tendencia en la direccin este-oeste (lnea verde) y una dbil tendencia
en la direccin norte-sur (lnea azul).

Con la barra de desplazamiento resaltada en rojo en la figura anterior se empiezan
a desplazar las lneas de tendencias (verde y azul de la misma figura) y se
observa si estas siguen una lnea recta, en caso tal la tendencia es lineal; una curva
con una concavidad, la tendencia es cuadrtica o si es una lnea con ms de una
concavidad, la tendencia ser de orden 3.

Como conclusin del anlisis exploratorio y que se debe tener en cuenta durante la
realizacin del anlisis estructural de los datos, tenemos:
Los datos originales no siguen una distribucin normal, por lo tanto se aplica
una transformacin logartmica.
Es necesario remover una tendencia de segundo orden

2. Anlisis estructural de los datos
Paso 5
Una vez identificada la tendencia de los datos, el siguiente paso es el anlisis
estructural y realizacin del modelo geoestadstico con los datospara ello damos
clic en Geostatistical Analyst, seguido de Geostatistical Winzard, aparece la
una ventana donde debemos rellanar la siguiente informacin.

Medthod: Se debe seleccionar el mtodo con el cual se quieren analizar los datos,
en este caso es Kriging
Input data: el shape al cual se le debe aplicar el anlisis geoestadstico en este
caso es Niveles.
Attibute: El campo con el que se quiere realizar el anlisis geoestadstico. En esta
caso es el nivel piezomtrico (NP).



Damos clic en el bot Next>. Aparece la siguiente ventana, donde rellenamos la
siguiente informacin.
En Geostatistical methods, se selecciona Ordinary Kriging-Prediction
Map.
En Transformation, se selecciona Log, pues ya habamos concluido que es necesario
realizar transformacin logartmica.
En Order of trend removal, se selecciona la opcin Second, pues habamos visto que
los datos siguen una tendencia de segundo orden.

Damos clic en Next>, aparece una ventana que permite concluir si los datos
presentan anisotropa direccional o no la presentan. Si en la grafica aparece un
crculo, no hay anisotropa direccional y si aparece otra cosa como la de la figura,
se concluye que existe anisotropa direccional la cual se debe tener presente, ya
que en la ventana siguiente se le deber indicar a la herramienta este parmetro.


Damos clic en Next>, aparece la siguiente ventana.


En la ventana anterior rellenamos la siguiente informacin

1. Model: 1. Aqu debemos elegir el modelo geoestadstico que deseemos usar
para modelar los datos; para el caso del ejemplo, elegiremos el modelo Spherical.

2. En el paso anterior concluimos que hay anisotropa estructural, por lo tanto,
debemos seleccionar Anisotropy.

3. Damos clic en Show search Direction, se habilitarn inmediatamente las
opciones de ms abajo, las cuales son Angle direction y Bandwidth (lags).


En la grafica anterior vemos que fueron habilitadas Angle direction y Bandwidth
(lags), para seguir se procede de la siguiente forma.

Angle direction: Debemos cambiar el Angulo hasta que las lneas que se muestran
a la izquierda de la figura coincidan con la direccin de la elipse en su parte
superior.

Bandwidth (lags): una vez realizado el paso anterior, los puntos o parte inferior
de las lneas deben cortar a la elipse, para ello se aumenta o disminuye el valor
deBandwidth.

lo dicho anteriormente se resumen en la siguiente imagen.



Despus de dar clic en Next>, se muestra la siguiente ventana.


Volvemos a dar clic en Next>, en la siguiente ventana se muestra:
Un recalculo de los datos en comparacin con los valores medidos para
verificar obtenido.
Clculo de los errores:
Root-Mean-Square: 3.774
Average Standard Error: 4.361
Mean Standardized: -0.04804
Root-Mean-Square Standardized: 0.9609
Un grfico de comparacin de datos medidos y datos calculados, en la que
se puede ver que los datos que ms se alejan de la lnea, son los que mayores
errores presentan en su prediccin.


Damos clic en finish y aparece un resumen del mtodo utilizado.


Damos clic en Ok y aparece el mapa de prediccin de niveles piezomtrico a partir
del mtodo geoestadstico Kriging esfrico.


Pero aun no se termina la ventajas de los mtodos geoestadsticos es que nos
permite realizar un mapa de errores. Para ello en el panel del navegador, damos
clic derecho sobre el mapa creado y elegimos la opcin Create Prediction
Estndar error Map.


El resultado es el siguiente.


En la figura anterior observamos que el mximo error es del 58.16%, el cual es
muy alto. La confiabilidad del modelo se calcula como 100 menos el error mximo,
para el ejemplo: confiabilidad = 100-58.16 = 41.84%. Para aceptar un modelo
geoestadstico es necesario tener una confiabilidad superior al 90%, por lo tanto se
concluye que es necesario mejorar la densidad de las medidas.

En la grfica tambin se observa que los errores mayores en la prediccin se
producen donde existe menos informacin. Para el caso del monitoreo de niveles de
un acufero esto es indicativo que en estos sitios se deben perforar piezmetros o
pozos de monitoreo con el fin de optimizar la red existente.

Para seleccionar el modelo que mejor modela nuestros datos, es necesario
aplicarles cada uno de ellos y escoger el que presente menor Root-Mean-Square,
menorAverage Standard Error, Root-Mean-Square Standardized ms cercano
a uno y mayor porcentaje de confiabilidad.

Como resumen del modelo aplicado tenemos lo siguiente:

Parmetro Valor
Root-Mean-Square 3.774
Average Standard Error 4.361
Root-Mean-Square Standardized 0.9609
Confiabilidad
41.84


Existen otros conceptos que son muy importantes, pero de los cuales no fue posible
mencionar en este artculo: efecto pepita, efecto pepita puro, discontinuidad en el
origen, meseta, anisotropa estructural, anisotropa direccional, variograma y partial
sill, entre otros. Para profundizar en este tema recomiendo revisar la siguiente
bibliografa.
Webster, Richard. Oliver Margaret. 2001. Geostatistics for environmental
scientists.Great Britain. John Wiley & Sons Inc.
Sampe Javier y Jess carrera. 1990. Geoestadistica, aplicaciones a la hidrogeologa
subterrnea. Centro Internacional de mtodos nuricos en Ingeniera. Barcelona

Вам также может понравиться