Вы находитесь на странице: 1из 45

ANLISIS GEOESTADSTICO

Origen de la Geoestadstica
Geoestadstica: definicin y objeto
Datos geogrficos y anlisis estadstico
Conceptos bsicos de Estadstica
Tcnicas bsicas de Estadstica
para el Anlisis
Exploratorio de Datos

Concepcin Gonzlez Garca (2008)

Imagen de la NASA
Origen de la Geoestadstica

Geoestadstica (i)
La Geoestadstica tiene su origen en la bsqueda,
exploracin y evaluacin de yacimientos minerales tiles.

Se ha consolidado y desarrollado en los ltimos 30 aos


como ciencia aplicada casi exclusivamente en el campo
minero.

La gran diversidad de formas en que se presentan los


datos ha llevado a la utilizacin de tcnicas matemticas
y estadsticas para resolver un nico problema: estimar
valores desconocidos a partir de los conocidos, para
l estimacin
la ti i y caracterizacin
t i i de
d llos recursos y
reservas.
Origen de la Geoestadstica

Geoestadstica (ii)

Las investigaciones han buscado los mtodos ms


eficientes que proporcionen la mayor informacin posible
d llos d
de datos di
disponibles.
ibl
Mediante el mejor estimador que minimice la varianza
del error de estimacin (error cuadrtico medio) surge
la Geoestadstica por los trabajos de G. Matheron en la
Escuela Superior de Minas de Pars (1949)

Entre los mtodos ms recientes se pueden citar los


Entre
geomatemticos: El Inverso de la Distancia,
g
Triangulacin, Splines,
p etc.
Origen de la Geoestadstica

Geoestadstica (antecedentes)
Sichel (1947),
(1947) 1949) observ la naturaleza asimtrica de
la distribucin del contenido de oro en las minas
surafricanas,
f , la equipar
q p a una distribucin de
probabilidad lognormal y desarroll las frmulas bsicas
para esta distribucin.

D.G. Krige (1951) desarroll la aplicacin del anlisis de


g
regresin entre muestras
m y bloques
q de mena
m (Mineral
metalfero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).

De la minera,, las tcnicas geoestadsticas,


g , se han
exportado a ms campos como la hidrologa, fsica del
suelo, ciencias de la tierra y ms recientemente a la
gestin
i ambiental
bi l y all procesado
d dde iimgenes
d
de satlite.
li
Geoestadstica :
D fi i i y Obj
Definicin Objeto
t (i)

9La geoestadstica es una rama de la estadstica que trata


f
fenmenos espaciales
i l (J
(Journell & H
Huijbregts,
ijb t 1978)
1978).

9Su inters primordial es la estimacin,


estimacin prediccin y
simulacin de dichos fenmenos (Myers, 1987).

Se reconoce como una rama de la estadstica tradicional,


que parte de la observacin de que la variabilidad o
continuidad
i id d espacial
i ld
de llas variables
i bl didistribuidas
ib id en ell
espacio tienen una estructura particular que se estudia
mediante las depencias entre ellas
ellas.
Geoestadstica :
D fi i i y Obj
Definicin Objeto
t (ii)

> Matheron (1970) denomin a estas variables


dependientes
p entre si, variables regionalizadas, adems
de elaborar su teora. [Journel y Huijbregts (1978), David
(1977) y de Fouquet (1996)].

En resumen, la aplicacin de la teora de los procesos


estocsticos a los problemas de evaluacin de reservas de
distintos tipos de materias primas minerales y en general
a las ciencias naturales en el anlisis de datos distribuidos
espacial y temporalmente dio origen a lo que hoy se
conoce como Geoestadstica.
D t s geogrficos
Datos fi s y anlisis
lisis estadstico
st dsti

Los SIG actuales incluyen


y posibilidades
p de exploracin
p
y anlisis de datos.

Las tcnicas
L i ms
elementales
l l son ded Estadstica
E d i
descriptiva (Anlisis Exploratorio de Datos, EDA).

La Estadstica Descriptiva: para una, dos y hasta 3


variables,
i bl permite
i resumiri conjuntos
j d
de valores
l y
visualizar estructuras de distribuciones de probabilidad.
D t s geogrficos
Datos fi s y anlisis
lisis estadstico
st dsti

Caractersticas de los datos geogrficos:


en un punto,
t adems
d de d sus coordenadas,
d d se di
dispone d
de
informacin multivariante (altitud, precipitacin,
profundidad del suelo
suelo, tipo de vegetacin
vegetacin,))

El denominado Anlisis exploratorio espacial de datos


(ESDA), es una ampliacin y desarrollo del EDA.
El ESDA incluye, junto a tcnicas exploratorias, muchas
ideas tomadas del Anlisis espacial o Estadstica
espacial.
Datos geogrficos y anlisis estadstico

Existen algunas dificultades fundamentales para que las


tcnicas estadsticas convencionales manejen
correctamente datos geogrficos:

El empleo de las Tcnicas clsicas de Inferencia


Estadstica, suponen, en los datos de partida :
> la
l independencia
d d d llas observaciones
de b
> la distribucin en curva de Gauss
(distribucin Normal)

lo cual a menudo no se cumple


p en datos geogrficos.
g g f
Conceptos
p bsicos de Estadstica

Revisin de Tcnicas estadsticas

M t
Muestreo y anlisis
li i Exploratorio
E l t i d de datos
d t
Conceptos de Inferencia Estadstica paramtrica:
Una variable: Estimador, propiedades,
intervalos de confianza y tests de hiptesis.
Dos ms variables: modelos lineales
(regresin, Anlisis de la varianza)

Conceptos de procesos estocsticos (variables


dependientes, medidas de dependencia espacial)
Conceptos
p bsicos de Estadstica

Muestreo y anlisis Exploratorio de datos

Poblacin (Universo) y Muestra.


Muestreo (Obtencin de datos)
Variables y tipos

Antes de comenzar un estudio geoestadstico se deben


discutir todos los elementos que aporten conocimientos
del problema a resolver, fenmeno en estudio,
estud o,
organizacin y verificacin de la informacin disponible y
finalmente realizar el anlisis exploratorio de los datos.
Conceptos
p bsicos de Estadstica

Poblacin estadstica o universo es el conjunto de


referencia sobre el cual van a recaer las observaciones.

Muestra: es el subconjunto de la poblacin en el que se


mide una o ms variables de inters.
inters
-a partir de este subconjunto se obtienen conclusiones
sobre las caractersticas de la poblacin.
p
- la muestra debe ser representativa, en el sentido de que
las conclusiones obtenidas deben servir para el total de la
poblacin.
bl i
Unidad muestral: elementos de la poblacin, no solapados en los que
se mide. Cada elemento de la poblacin
pertenecer
a una y slo
una
unidad muestral.
Estadstica bsica

Tipos de muestras

Muestra probabilstica: se elige mediante ciertas


reglas de manera que la probabilidad de seleccin de
reglas,
cada unidad es conocida de antemano.

Muestra no probabilstica: no se rige por las reglas


matemticas de la probabilidad.

en las muestras probabilsticas es posible calcular la


magnitud del error muestral,
muestral
no es factible hacerlo en el caso de las muestras no
probabilsticas (puntos
p p de fcil acceso, estaciones de
medicin de la calidad del aire en una ciudad)
Estadstica bsica

Mtodos de muestreo

Muestreo aleatorio simple: todos los componentes o


unidades de la p
poblacin tienen la misma
m m probabilidad
p
de ser seleccionados. Es la modalidad ms elemental de m.
probabilistico.

Representacin grfica del muestreo aleatorio simple


Estadstica bsica

Mtodos de muestreo

Muestreo sistemtico:
Se selecciona al azar un punto de partida y un intervalo muestral.
muestral
As si el punto de partida fuera el 11 y el intervalo el 6 se elegiran
el 11, 16, 21, 16 hasta recorrer toda la poblacin.

Representacin grfica del muestreo sistemtico


Estadstica bsica

Mtodos de muestreo

Muestreo estratificado (i):


-la
l poblacin
bl i en estudio
t di se sub-
b divide
di id en estratos
t t o
subpoblaciones que tienen cierta homogeneidad en el
terreno y en cada estrato se realiza un muestreo
aleatorio simple (o sistemtico).
-requisito
requisito principal para aplicar este mtodo de
muestreo: conocimiento previo de informacin que
permita subdividir la poblacin,

Por ejemplo: divisin que se puede realizar con base en la topografa, los
horizontes del suelo,
suelo la mancha del contaminante
contaminante, los cambios de color en
el suelo, el crecimiento irregular de las plantas, etc.
Estadstica bsica

Mtodos de muestreo

Muestreo estratificado (ii):


- garantiza
ti que llos puntos
t d de muestreo
t se encuentren
t
repartidos ms uniformemente en toda la zona en
funcin del tamao del estrato;

- permite conocer de forma independiente las


caractersticas
t ti particulares
ti l d
de cada
d estrato
t t

-recomendable
recomendable para reas mayores de diez hectreas y cuando el
terreno no es homogneo (Mason 1992, Valencia y Hernndez
2002).
Estadstica bsica

Mtodos de muestreo

Esquemas de tipos de muestreo:


a)) aleatorio simple;
mp ;
b) aleatorio estratificado;
c) sistemtico rejilla rectangular;
d) sistemtico rejilla polar
Estadstica bsica

Otros Mtodos de muestreo

Muestreo por conglomerados


En poblaciones
E bl i muy extensas,
t d d la
donde l localizacin
l li i y
medicin de la muestra seleccionada supone grandes
desplazamientos se suelen agrupar las unidades
elementales en conglomerados o unidades primarias
C
Caractersticas
t ti del
d l conglomerado
l d :
> Conjunto de unidades muestrales elementales.
> Heterogeneidad de la variable a medir
> El nmero total de conglomerados en la poblacin es
conocido
Estadstica bsica

Muestreo por conglomerados


C
Caractersticas:
t ti
Divisin previa de la poblacin en conglomerados o reas
convenientes, de las cuales se selecciona un cierto nmero
convenientes
para la muestra
Ventajas:
Ahorro de costes y tiempo al efectuar visitas a las
unidades seleccionadas.
Disminucin de necesidad de desplazamientos al
concentrar unidades elementales.
elementales
Inconvenientes:
Menor precisin
M i i en llas estimaciones,
ti i sobre
b ttodo
d con
conglomerados de gran tamao
Conceptos de Estadstica bsica

Diferencias entre tipos de muestreo

ALEATORIO ESTRATIFICADO CONGLOMERADOS

(Adaptado de Pea, 2001)


Estadstica bsica

Variables y Tipos de variables

Variable: cada una de las caractersticas de los


elementos de una poblacin y que varan de una unidad a
otra.

9Variables cualitativas (o categricas): aquellas que no


tienen medida numrica; se representan
p por
p categoras
o atributos (tipo de suelo, de vegetacin, textura,).

9Variables cuantitativas: las que pueden expresarse


numricamente (temperatura, precipitacin,
profundidad suelo, altitud, pendiente,
p p .)
Estadstica bsica

Variables cuantitativas

Variables discretas: son el resultado de contar y


slo toman valores enteros (nmero de puntos, de
cuadrculas, de pxeles).

Variables continuas: son el resultado de medir, y


pueden contener decimales (temperatura,
(temperatura
profundidad, altura). Se pueden subdividir a voluntad.
Pueden tomar,
tomar entonces,
entonces cualquier valor de un
determinado intervalo
Estadstica bsica

Estadstica Descriptiva

Objetivo: conocer la informacin disponible.

Clculos
Cl l estadsticos
d i o estadstica
d i descriptiva.
d i i
Permiten determinar si la distribucin de los datos es
normal lognormal,
normal, lognormal o si no se ajustan a una distribucin
estadstica conocida. Implica tener conocimiento de:

Nmero de casos: representado por n, es el


nmero de valores muestreados del fenmeno en
estudio los datos representados por xi
estudio, xi, i = 11, . . . , n
n.

Frecuencia de cada xi n de veces que aparece el


mismo valor medido.
Estadstica bsica

Distribuciones de frecuencias

Los valores de cada xi medidos y su frecuencia de


aparicin
p en los n datos se conoce como
m la
distribucin de la variable estudiada.

Valores resumen: Medidas de posicin

Media: Es la media aritmtica de la distribucin,

1 n
xn = n
i =1
xi
Estadstica bsica

Valores resumen: Medidas de posicin

Moda: Es el valor ms frecuente de la distribucin

Mediana: Es el valor para el cual la mitad de los


d t son menores y la
datos l otra
t mitad
it d estn
t por encima
i de
d
este valor.
La mediana es tambin llamada percentil 50

Ordenando los datos en orden ascendente podemos calcular la


mediana
di como.
X(n+1)/2 si n es impar.
M =
(Xn/2 + Xn/2+1)/2 si n es par.
Estadstica bsica

V l
Valores resumen: Medidas
M did ded posicin
i i

Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y


Q3 = percentil 75.

Deciles si los datos se dividen en 10.


De forma general estas medidas se pueden calcular
por: [p(n+1)/100] sima observacin de los datos
ordenados ascendentemente,, donde p es el p percentil
que se desea calcular.
Valores resumen: Medidas de posicin

Interpretacin de los Cuartiles


Se forman cuatro g
grupos
p con igual
g cantidad de datos
Un cuarto de los La mitad de los datos (dos Tres cuartos de los datos
datos toman cuartos) toman valores toman valores iguales o
valores iguales o iguales o inferiores a 3,6
3 6 inferiores a 7,6
inferiores a 2,2
Q2= Me=3,6 Q3=7,6
Q1=2,2
=2 2 Rango Intercuartil
RI=Q3-Q1
xmin=1,1 xmax=9,9

0 1 2 3 4 5 6 7 8 9 10
Escala graduada de la variable en estudio
Estadstica bsica

Valores resumen: Dispersin


Rango de la distribucin: Es la diferencia entre el valor
mximo y el mnimo observados.

Varianza: Describe la variabilidad de la distribucin. Es la


medida de la desviacin o dispersin de la distribucin.

2
n 1 =
1 n

n 1 i=1
=1
(xi x n )
2

Se divide por (n-1) y no por n y se representa por S2 cuando se


calcula con una muestra observada porque proporciona mejor
estimacin
i i de
d la
l varianza
i de
d la
l poblacin.
bl i (estimacin
( i i iinsesgada)
d )
Esto significa que si un experimento fuera repetido muchas veces
se podra esperar que el promedio de los valores as obtenidos
para S2 (valor muestral) igualara a 2.
Estadstica bsica

Valores resumen

Desviacin estndar: Tambin describe dispersin


de la distribucin.
distribucin Es la raz de la medida de
desviacin alrededor de la media,
2n 1
En las mismas unidades de medida que la variable estudiada.

Normal con n-1 pequea

Normal con n-1


n 1 grande
Estadstica bsica

Valores resumen

Error estndar: que se comete al estimar la media


de la variable medida con los n
n observaciones de la
muestra. A mayor tamao muestral menor error,

= 2n 1
n

Coeficiente de variacin: Es una medida de la


variacin relativa de los datos en porcentaje,
porcentaje
n 1
CV % = 100
Xn
Estadstica bsica

Valores resumen: De forma

Coeficiente de asimetra (de Fisher):

Describe
D ib lla simetra
i t d de lla di
distribucin
t ib i relativa
l ti a lla
distribucin normal.

3 = (xi Xn ) 3
1 n 3

n i=1
Estadstica bsica

Valores resumen: De forma

Coeficiente de asimetra (cont):

3 = 0 3 < 0 3 > 0
Asimetra
A i t negativa
ti = mayor concentracin
t i de
d valores
l a la
l
izquierda de la media.
Asimetra positiva = mayor concentracin de valores a la derecha
de la media.
Estadstica bsica

Valores resumen: De forma

Curtosis (o apuntamiento): Describe el grado de


esbeltez de la distribucin,, en relacin a una
distribucin normal,
4 = (x i X n ) 4
1 n 4

n i=1

Eje de
simetra

4 > 3 4 = 3 4 < 3
Estadstica bsica

Grficos estadsticos

Permiten ilustrar y entender las distribuciones de los datos,


identificar datos errados, valores extremos, tendencias en la
variacin de los datos, relaciones entre variables,

Plot of Dimetro vs Copa 1


30
25

Grfico de dispersin
Dimetro
20

(scatterplot X
X-Y)
Y) 15
10
5
0
0 2 4 6 8
Copa 1
Exploracin
p de datos
Grficos estadsticos

Grficos descriptivos para una variable (i)


Histogram
12
10

Histogramas

equency
8
6
4

fre
2
0
0 2 4 6 8
Copa 1

Grficos de cuantiles:
Quantile Plot
1
Percentiles for Copa 1
0,8
proportion
n
1,0% = 1,2 0,6
5,0% = 1,4 0,4
10,0% = 1,6
25,0% = 2,4 0,2

50 0% = 3,2
50,0% 3 2 0
75,0% = 4,3 0 2 4 6 8
90,0% = 5,1 Copa 1
Exploracin
p de datos
Grficos estadsticos

Grficos descriptivos para una variable (ii)

Grfico de cuantiles para verificar el ajuste de los


datos a la distribucin Normal: (Q-Q Normal)
Eje vertical:
Ej ti l: valores
l de
d lla funcin
f n in de
d di
distribucin
t ib in dde lla N
Normal.
m l
Recta: grfico de los valores de la variable con los valores de
probabilidad acumulada de ocurrencia segn la distribucin Normal.
N
Normal
lPProbability
b bilit Pl
Plott

La proximidad de los valores


99,9
99

observados a la recta indica q


que 95

age
80

los datos se pueden considerar percenta 50


20
con distribucin Normal 5
1
0,1
0 2 4 6 8
Copa 1
Exploracin
p de datos
Grficos estadsticos

Grficos descriptivos para una variable (iii)

Grficos de cajas (box-plot)


(box plot)

2 cuartil 50%
2
Box-and-Whisker Plot
Media (mediana)

Anmalo
(outlier)

0 2 4 6 8

mn Copa 1
Mx.
1er cuartil 25%
3er cuartil 75%
Exploracin
p de datos
Grficos estadsticos

Comparacin grfica de la variable silt (sedimento) en


los distintos puntos de muestreo (1 a 4):

Box-and-Whisker Plot

1
on

2
Locatio

15 25 35 45 55
Silt
T
Transformaciones
f i

Para modelos de interpolacin del tipo regresin, las


hiptesis
p requieren,
q , entre otras condiciones:

Normalidad de los datos


Homogeneidad en la varianza
Si en el anlisis exploratorio no se observa simetra en el
histograma y con un contraste de bondad de ajuste
(prueba chi-cuadrado o Kolmogorov-Smirnov)
(p g ) se confirma
la falta de normalidad, se tendr que recurrir a algn
tipo de transformacin normalizante de los datos.
Transformaciones Box-Cox
o de potencia

X 1
0
T(X ) = Y =
ln X =0
=2, Y=X2

=1/2
1/2, Y=X
Y X1/2
Se busca que la variable transformada se
parezca a una distribucin normal

Y X ( ) ~ N ( , 2 )
Ejemplo: X ~ Exp(3)
Rango: [0, 10] pasos de 0.05.
j fue = 3.05
La mejor
Exponencial( 3 ) Tran. Box-Cox con SD min. QQPlot norm.
QQPlot normalizado. Desv. Tipica = 0.364 (lambda = 3.05 , Desv. Tip. = 0.221 )
1.5

1.5
1.0

1.0
X

Y
0.5

0.5
0.0

0.0
-2 -1 0 1 2 -2 -1 0 1 2
Quantiles of Standard Normal Quantiles of Standard Normal

Exponencial( 3 ) Lambda vs. Desv. Tipica.


Histograma (lambda = 3.05 , Desv. Tip. = 0.221 )
40

1.0
0.7
30
3

0
log(SD)

0.5
20
10

0.3
0

0.0 0.5 1.0 1.5 0 2 4 6 8 10

X Lambda
Ejemplo: X ~ Beta(5, 2.5)

Rango: [-10, 10] pasos de 1.


j fue >= 10
La mejor

Beta( 5 , 2.5 ) Tran. Box-Cox con SD min. QQPlot norm.


QQPlot normalizado. Desv. Tipica = 0.165 (lambda = 10 , Desv. Tip. = 0.0138 )
1.0

1.0
0.8

0.8
0.6

0.6
X

Y
0.4

0.4
0.2
2

0.2
2
0.0

0.0
-2 -1 0 1 2 -2 -1 0 1 2

Quantiles
Qua t es oof Sta
Standard
da d Normal
o a Quantiles
Qua t es oof Sta
Standard
da d Normal
o a

Beta( 5 , 2.5 ) Lambda vs. Desv. Tipica.


Histograma (lambda = 10 , Desv. Tip. = 0.0138 )

10^7
25

0^5
20

10
2

10^3
15

log(SD)
10

10^1
5

10^-2
0

0.2 0.4 0.6 0.8 1.0 -10 -5 0 5 10


X Lambda
Ejemplo:
j p X ~ U(0.01,
( , 1))

Rango: [-10, 10] pasos de 0.5.


j ffue >=
L mejor
La > 10

Uniforme( 0.01 , 1 ) Tran. Box-Cox con SD min. QQPlot norm.


QQPlot normalizado. Desv. Tipica = 0.286 (lambda = 10 , Desv. Tip. = 0.0222 )
1.0
0

1.0
0
0.8

0.8
0.6

0.6
X

Y
0.4

0.4
0.2

0.2
0.0

0.0
-2 -1 0 1 2 -2 -1 0 1 2

Quantiles of Standard Normal Quantiles of Standard Normal

Uniforme( 0.01 , 1 ) Lambda vs. Desv. Tipica.


Histograma (lambda = 10 , Desv. Tip. = 0.0222 )
10 12 14

10^7 10^10
log(SD)
8

10^4
6
4

10^1
1
2

10^-2
0

0.0 0.2 0.4 0.6 0.8 1.0 -10 -5 0 5 10

X Lambda
REFERENCIAS - ENLACES WEB

http://descargas.cervantesvirtual.com/servlet/SirveObras/4686017510402683
9600080/006458_8.pdf
_ p
Cap.7: Sistemas de Informacin Geogrfica: Pasado, presente y futuro (tesis
doctoral)

www.geogra.uah.es/~joaquin/curso-quito/SIG-OdelT.pdf
h / j i / it /SIG Od lT df

http://ares.unimet.edu.ve/postgrado/mpi002/Estadistica%20Descriptiva/256,1,
Estadstica Descriptiva

ttp://www.elagrimensor.net/elearning/lecturas/sig-capitulo%206.pdf
Interpolacin
p a partir
p de mapas
p e isolneas ((aplicaciones
p estadsticas a datos
geogrficos, diseos de muestreo.,en regin de Murcia)

http://www.ine.gob.mx/ueajei/publicaciones/libros/459/cap3.html
D d
Diseos de muestreo para suelos.
l Ejemplo
E l de
d sistemtico
en contaminacin
de
d
suelos.

www.monografas
www monografas .com.
com Elementos de Geoestadstica.
Geoestadstica CUADOR GIL,
GIL J.Q.
JQ
Universidad de Pinar del Ro (Cuba).

Вам также может понравиться