Академический Документы
Профессиональный Документы
Культура Документы
HIDROLOGÍA
APLICADA
ANÁLISIS EXPLORATORIO DE DATOS
INSTRUCTIVO PRÁCTICO
300
254.4
Data
200
60.5
27.6
40.3 32.2
32.1 25.2
0
ENE FEB MAR ABR MAY JUN JUL AGO SET OCT NOV DIC
ANALISIS EXPLORATORIO DE
DATOS
350
1000
800
250
200 600
150
400
100
50 200
0
0
1976
1964
1966
1968
1970
1972
1974
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
2014
2016
Dato atípico
Cerca Externa Superior
Estación: Cojata
400.0
350.0 356.2
300.0
250.0
CI sup
200.0
CE sup
PROM
150.0
Precip.
100.0
Promedio 50.0
0.0
0 100 200 300 400 500 600
Periodo (1964 - 2017)
Datos de PTM
¡Notar que el análisis se realiza a toda la data!
BOXPLOT O DIAGRAMA DE CAJAS
Un diagrama de caja, también conocido como diagrama de caja y bigotes,
es un gráfico que está basado en cuartiles. Es un gráfico que suministra
información sobre los valores mínimo y máximo, los cuartiles Q1, Q2
o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la
distribución. Primero es necesario encontrar la mediana para luego
encontrar los 2 cuartiles restantes. Este análisis se complementa con el
análisis de Cercas y Visual.
Datos atípicos
300
254.4
Data
200
100 101.6
46.2
71.3 72.5 27.4
60.5
27.6
40.3 32.2
32.1 25.2
0
ENE FEB MAR ABR MAY JUN JUL AGO SET OCT NOV DIC
45000.0
Cojata
Huancané
35000.0
Taraco
30000.0
25000.0
20000.0
15000.0
10000.0
5000.0
0.0
0.0 5000.0 10000.0 15000.0 20000.0 25000.0 30000.0 35000.0 40000.0
Cojata
35000.0
Huancané
25000.0
20000.0
15000.0
10000.0
5000.0
0.0
0.0 5000.0 10000.015000.020000.025000.030000.035000.040000.045000.050000.0
Volumen Promedio Acumulado - Huaraya Moho
40000.0
Cojata
35000.0
Huancané
Volumen Acumulado de las Estaciones
MODELO
30000.0
Taraco
25000.0
Periodo
20000.0 Confiable
15000.0
10000.0
5000.0
0.0
0.0 5000.0 10000.0 15000.0 20000.0 25000.0 30000.0 35000.0 40000.0 45000.0 50000.0
Volumen Promedio Acumulado - Huaraya Moho
Periodo Dudoso
Análisis de Saltos
1. Consistencia de la Media
El análisis estadístico consiste en probar, mediante la prueba t (prueba de hipótesis), si los
valores medios
de las submuestras, son estadísticamente iguales o diferentes con una probabilidad
del 95% o con 5% de nivel de significación, de la siguiente manera:
donde:
G.L.N = granos de libertad del numerador
G.L.D = grados de libertad del denominador
Corrección de los datos
En los casos en que los parámetros media y desviación estándar de las submuestras de las
series de tiempo, resultan estadísticamente iguales, la información original no se corrige, por ser
consistente con 95% de probabilidad, aun cuando en el doble masa se observe pequeños
quiebres. En caso contrario, se corrigen los valores de las submuestras mediante las siguientes
ecuaciones:
1. Tendencia en la Media
La tendencia en la media Tm, puede ser expresada en forma general por la ecuación polinomial:
Los parámetros de regresión de estas ecuaciones, pueden ser estimados por el método
de mínimos cuadrados, o por el método de regresión lineal múltiple.
El cálculo de la tendencia en la media, haciendo uso de la ecuación (8.10), se realiza
mediante el siguiente proceso:
a. Cálculo de los parámetros de la ecuación de simple regresión lineal.
b. Evaluación de la tendencia Tm
Para averiguar si la tendencia es significativa, se analiza el coeficiente de regresión Bm o también el coeficiente
de correlación R.
El análisis de R según el estadístico 1, es como sigue:
donde:
tc= valor del estadístico t calculado.
n = número total de datos
R = coeficiente de correlación
2. Cálculo de t
El valor crítico de t, se obtiene de la tabla de t de Student (tabla A.5 del apéndice), con 95% de
probabilidad o con un nivel de significación del 5 %, es decir:
c. Corrección de la información:
La tendencia en la media se elimina haciendo uso de la ecuación:
donde Tm es el promedio de la tendencia en la media o promedio de los valores
corregidos de saltos.
La tendencia en la desviación estándar Ts, se expresa en forma general por la ecuación polinomial.
Para calcular y probar si la tendencia en la desviación estándar es significativa, se sigue el siguiente proceso:
a. La información ya sin tendencia en la media Yt, se divide en períodos de
datos anuales.
b. Se calcula las desviaciones estándar para cada período de toda la
información:
Para que el proceso preserve la media y la desviación estándar constante. la ecuación toma la forma: