Вы находитесь на странице: 1из 29

UNIVERSIDAD NACIONAL DEL ALTIPLANO

ESCUELA PROFESIONAL DE INGENIERIA AGRICOLA

HIDROLOGÍA
APLICADA
ANÁLISIS EXPLORATORIO DE DATOS
INSTRUCTIVO PRÁCTICO

Estación: Huaraya Moho


424.1
400

300

254.4
Data

200

ING. ABNER GUIDO HUISA HUMPIRI 100


71.3 72.5
46.2
27.4
101.6

60.5
27.6
40.3 32.2
32.1 25.2
0

ENE FEB MAR ABR MAY JUN JUL AGO SET OCT NOV DIC
ANALISIS EXPLORATORIO DE
DATOS

ANÁLISIS DE CONSISTENCIA ANÁLISIS EXPLORATORIO DE


DATOS
 Visual
 Cercas
 Doble masa
 Boxplot (Diagrama de Cajas)
 Saltos
 Trend (Tendencia)
 Tendencias
 Vector Regional

El objetivo de estos análisis son la detección y corrección de


posibles errores sistemáticos

¿Es confiable la información


Hidrometeorológica disponible?
ANALISIS EXPLORATORIO DE
DATOS
Inconsistencia es sinónimo de error sistemático y se
presenta como datos atípicos (outliers), saltos y
tendencias, y no homogeneidad es definido como los
cambios de datos originales con el tiempo.

La no homogeneidad e inconsistencia, son los causales del cambio a


que están expuestas las informaciones hidrológicas, por lo cual
su estudio.

La no homogeneidad en una serie de tiempo hidrológica, se


debe a factores humanos (tala indiscriminada de una cuenca,
construcción de estructuras hidráulicas, etc.) o a factores
naturales de gran significancia, como los desastres naturales
(inundaciones, derrumbes, terremotos, huracanes, etc.)
ANALISIS EXPLORATORIO DE
DATOS
Esta inconsistencia y no homogeneidad se pone de manifiesto con la
presencia de datos atípicos, saltos y/o tendencias en las series
hidrológicas (las cuales se muestran en las figuras), afectando las
características estadísticas de dichas series, tales como la media,
desviación estándar y correlación serial.
ANÁLISIS VISUAL GRAFICO
En coordenadas cartesianas se plotea la información hidrológica histórica,
ubicándose en las ordenadas, los valores de la serie y en las abscisas el
tiempo (años , meses , días , etc.).

En estos histogramas se puede reflejar como “picos” muy altos o valores


muy bajos, datos atípicos, saltos y/o tendencias, los mismos que
deberán comprobarse, si son fenómenos naturales que
efectivamente han ocurrido, o si son producto errores
sistemáticos.
Datos atípicos
Histograma Mensual Historico - Cojata Histograma Anual Historica - Cojata
400 1200

350
1000

Precipitacion Total Anual(mm)


300
Precipitacion Total (mm)

800
250

200 600

150
400
100

50 200

0
0
1976
1964
1966
1968
1970
1972
1974

1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
2014
2016

1957 1967 1977 1987 1997 2007 2017


Tiempo(Meses) Tiempo(Años)

¡Verificar si son errores sistemáticos!


Para conocer la causa del fenómeno detectado, se puede analizar de
diversas formas:
1. Cuando se tienen estaciones vecinas, se comparan los gráficos de las
series históricas, y se observa cuál período varía notoriamente uno
con respecto al otro.
2. Cuando se tiene una sola estación, ésta se divide en varios periodos y
se compara con la información de campo obtenida (Bibliografia).
3. Cuando se tienen datos de precipitación y escorrentía(Causa-
Efecto), se comparan los hidrogramas, los cuales deben ser
geométricamente similares en su comportamiento.
La interpretación de estas comparaciones, se efectúa conjuntamente con el
análisis doble masa. C
Aforador Ronquillo: nivel del agua (m) 13:45

Estacion Chamis: precipitacion (mm)


11:00
ANÁLISIS DE CERCAS
Este análisis nos sirve para la identificación de datos atípicos como picos,
utilizando la metodología de Tukey, 1977, y se complementa con el análisis
visual, para su desarrollo el procedimiento es el siguiente:
ANÁLISIS DE CERCAS

Dato atípico
Cerca Externa Superior
Estación: Cojata
400.0

350.0 356.2

300.0

Cerca Interna Superior


Precipitación (mm)

250.0

CI sup
200.0
CE sup
PROM
150.0
Precip.

100.0

Promedio 50.0

0.0
0 100 200 300 400 500 600
Periodo (1964 - 2017)

Datos de PTM
¡Notar que el análisis se realiza a toda la data!
BOXPLOT O DIAGRAMA DE CAJAS
Un diagrama de caja, también conocido como diagrama de caja y bigotes,
es un gráfico que está basado en cuartiles. Es un gráfico que suministra
información sobre los valores mínimo y máximo, los cuartiles Q1, Q2
o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la
distribución. Primero es necesario encontrar la mediana para luego
encontrar los 2 cuartiles restantes. Este análisis se complementa con el
análisis de Cercas y Visual.

¡Notar que el análisis se realiza mes por mes!


BOXPLOT O DIAGRAMA DE CAJAS

Estación: Huaraya Moho


424.1
400

Datos atípicos
300

254.4
Data

200

100 101.6
46.2
71.3 72.5 27.4
60.5
27.6
40.3 32.2
32.1 25.2
0

ENE FEB MAR ABR MAY JUN JUL AGO SET OCT NOV DIC

¡Notar que el análisis se realiza mes por mes!


ANÁLISIS DOBLE MASA
Este análisis se utiliza para obtener periodos dudodos y confiables, los cuales
se analizarán estadísticamente.

El diagrama doble masa se obtiene ploteando en el eje de las abscisas el


acumulado del promedio de acumulados de todas las estaciones, y en el eje
de las ordenadas los acumulados de cada una de las estaciones en estudio,
en términos de caudal y volúmenes.
50000.0

45000.0
Cojata
Huancané

Volumen Acumulado de las Estaciones


40000.0
Huaraya Moho

35000.0
Taraco

30000.0

25000.0

20000.0

15000.0

10000.0

5000.0

0.0
0.0 5000.0 10000.0 15000.0 20000.0 25000.0 30000.0 35000.0 40000.0

¡Escoger una estación modelo! Volumen Promedio Acumulado


Del primer gráfico de doble masas se selecciona una estación modelo
como la estación más confiable, la que presenta el menor número de
quiebres, del gráfico anterior corresponde a la estación C, la cual se usa
como estación base para el nuevo diagrama doble masa, es decir, se
vuelve a construir el diagrama de doble masa colocando en el eje de las
abscisas la estación base y en el de las ordenadas la estación en estudio.
40000.0

Cojata
35000.0
Huancané

Volumen Acumulado de las Estaciones


MODELO
30000.0
Taraco

25000.0

20000.0

15000.0

10000.0

5000.0

0.0
0.0 5000.0 10000.015000.020000.025000.030000.035000.040000.045000.050000.0
Volumen Promedio Acumulado - Huaraya Moho

Determinar el rango de los periodos dudosos y confiables para cada estación en


estudio, la cual se deberá corregir utilizando ciertos criterios estadísticos.
ANÁLISIS ESTADÍSTICO
Después de obtener de los gráficos construidos para el análisis visual, cercas, boxplot y
de los de doble masa, con los períodos de posible corrección, y los períodos de datos
que se mantendrán con sus valores originales, se procede al análisis estadístico de
saltos, tanto en la media como en la desviación estándar.

40000.0

Cojata
35000.0
Huancané
Volumen Acumulado de las Estaciones

MODELO
30000.0
Taraco

25000.0
Periodo
20000.0 Confiable
15000.0

10000.0

5000.0

0.0
0.0 5000.0 10000.0 15000.0 20000.0 25000.0 30000.0 35000.0 40000.0 45000.0 50000.0
Volumen Promedio Acumulado - Huaraya Moho
Periodo Dudoso
Análisis de Saltos
1. Consistencia de la Media
El análisis estadístico consiste en probar, mediante la prueba t (prueba de hipótesis), si los
valores medios
de las submuestras, son estadísticamente iguales o diferentes con una probabilidad
del 95% o con 5% de nivel de significación, de la siguiente manera:

a) Cálculo de la media y de la desviación estándar para las submuestras, según:


b) Cálculo del (tc) calculado según:
c) Cálculo del t tabular tt:
El valor crítico de t se obtiene de la tabla t de Student (tabla A.5), con una
probabilidad al 95%, ó con un nivel de significación del 5%, es decir con α/2 = 0.025
y con grados de libertad y = n1 + n2 - 2.

¡En Excel se utiliza la funcion!


2. Consistencia de la Desviación Estándar
El análisis estadístico consiste en probar, mediante la prueba F, si los valores de las desviaciones
estándar de las submuestras son estadísticamente iguales o diferentes, con un 95% de probabilidad o
con un 5% de nivel de significación, de la siguiente forma:
a) Cálculo de las varianzas de ambos períodos:
c) Cálculo del F tabular (valor crítico de F ó Ft), se obtiene de las tablas F (tabla
A.4) para una probabilidad del 95%, es decir, con un nivel de significación  = 0.05
y grados de libertad:

donde:
G.L.N = granos de libertad del numerador
G.L.D = grados de libertad del denominador
Corrección de los datos
En los casos en que los parámetros media y desviación estándar de las submuestras de las
series de tiempo, resultan estadísticamente iguales, la información original no se corrige, por ser
consistente con 95% de probabilidad, aun cuando en el doble masa se observe pequeños
quiebres. En caso contrario, se corrigen los valores de las submuestras mediante las siguientes
ecuaciones:

La ecuación (8.7), se utiliza cuando se deben corregir los valores de la submuestra


de tamaño n1, y la ecuación (8.8), si se deben corregir la submuestra de tamaño n2.
Análisis de Tendencias
Antes de realizar el análisis de tendencias, se realiza el análisis de saltos y con la serie libre de saltos,
se procede a analizar las tendencias en la media y en la desviación estándar.

1. Tendencia en la Media
La tendencia en la media Tm, puede ser expresada en forma general por la ecuación polinomial:
Los parámetros de regresión de estas ecuaciones, pueden ser estimados por el método
de mínimos cuadrados, o por el método de regresión lineal múltiple.
El cálculo de la tendencia en la media, haciendo uso de la ecuación (8.10), se realiza
mediante el siguiente proceso:
a. Cálculo de los parámetros de la ecuación de simple regresión lineal.
b. Evaluación de la tendencia Tm
Para averiguar si la tendencia es significativa, se analiza el coeficiente de regresión Bm o también el coeficiente
de correlación R.
El análisis de R según el estadístico 1, es como sigue:

1. Cálculo del estadístico t según:

donde:
tc= valor del estadístico t calculado.
n = número total de datos
R = coeficiente de correlación

2. Cálculo de t
El valor crítico de t, se obtiene de la tabla de t de Student (tabla A.5 del apéndice), con 95% de
probabilidad o con un nivel de significación del 5 %, es decir:
c. Corrección de la información:
La tendencia en la media se elimina haciendo uso de la ecuación:
donde Tm es el promedio de la tendencia en la media o promedio de los valores
corregidos de saltos.

2. Tendencia en la desviación estándar


“La tendencia en la desviación estándar, generalmente se presenta en los datos semanales o mensuales,
no así en datos anuales”. Por lo que, cuando se trabajan con datos anuales, no hay necesidad de realizar
el análisis de la tendencia en la desviación estándar.

La tendencia en la desviación estándar Ts, se expresa en forma general por la ecuación polinomial.

Para calcular y probar si la tendencia en la desviación estándar es significativa, se sigue el siguiente proceso:
a. La información ya sin tendencia en la media Yt, se divide en períodos de
datos anuales.
b. Se calcula las desviaciones estándar para cada período de toda la
información:

c. Se calculan los parámetros de la ecuación (8.19), a partir de las


desviaciones estándar anuales y el tiempo t (en años), utilizando las
ecuaciones de la (8.11) a la (8.14), dadas para la tendencia en la media.
d. Se realiza la evaluación de Ts siguiendo el mismo proceso descrito para Tm.

Si en la prueba R resulta significativo, la tendencia en la desviación estándar es


significativa, por lo que se debe eliminar de la serie, aplicando la siguiente ecuación:
donde: Zt = serie sin tendencia en la media ni en la desviación estándar. Las demás variables han sido
definidas en párrafos anteriores.

Para que el proceso preserve la media y la desviación estándar constante. la ecuación toma la forma:

La serie Z es una serie homogénea y consistente al 95% de probabilidad.


MUCHAS GRACIAS

Вам также может понравиться