Вы находитесь на странице: 1из 41

Dr.

Waldo Lavado Casimiro


waldo.lavado@gmail.com
COMO PREPARAR LOS DATOS

ANALISIS EXPLORATORIO DE DATOS


COMPLETACION DE DATOS

ANALISIS DE E.G. ANALISIS DE


DOBLE MASA, MVR
CONSISTENCIA

ANALISIS DE AUTOCORRELACION (IND.)


ESTACIONARIEDAD E TENDENCIA
INDEPENDENCIA LINEAL CAMBIOS EN LA MEDIA
TEORA DE LA PROBABILIDAD
FENMENOS ALEATORIOS Y DEFINICIONES

La Estadstica trata del estudio de la realidad entendida a partir de los fenmenos


mostrados. Estos fenmenos son estadsticos cuando se define un procedimiento de
medida segn las componentes que se distingan. El objetivo de la Estadstica es
pues el estudio de fenmenos aleatorios, de su organizacin en modelos definidos
por sus componentes y relaciones existentes y de su coherencia con la realidad.

Los fenmenos aleatorios se caracterizan por (Martn Jadraque):


1. Pudiendo repetirse indefinidamente en condiciones anlogas, presentan
resultados distintos, de manera que no existe regularidad determinista sino
estadstica.

2. En los fenmenos aleatorios no se puede predecir el resultado de cada


experiencia particular, ya que una pequea variacin en las condiciones iniciales da
lugar a resultados completamente distintos

3. Ley del azar: si una cierta experiencia se repite n veces y anotamos el nmero de
veces que aparece cierto resultado, n, se observa que el cociente n/n, frecuencia
relativa, tiende a estabilizarse cuando n crece indefinidamente
Definiciones bsicas:
Universo, poblacin o espacio muestral es un conjunto de valores posibles al
que se dota de estructura algebraica para definir sucesos y probabilidades
asociadas. Se define al cumplir una serie de propiedades comunes. Este
conjunto puede ser finito o infinito.

Suceso: subconjunto del espacio muestral. Es un fenmeno con probabilidad de


ocurrir. El conjunto de todos los sucesos posibles forma el universo de sucesos.
Los sucesos pueden ser elementales (siempre ocurre alguno de ellos y son
mutuamente excluyentes) o compuestos (formados a partir de la unin de los
sencillos)

Suceso seguro: coincidente con el espacio muestral Suceso imposible: no


ocurre nunca La poblacin se estudia a partir de las muestras representativas
cualitativamente y cuantitativamente de la misma. Un conjunto de
observaciones de una variable aleatoria se denomina muestra. Las muestras se
obtienen de una poblacin con propiedades estadsticas constantes, mientras
que en las muestras s cambian. Y a partir de las muestras se realizan
inferencias sobre la poblacin.
Ejemplo: Como fenmeno aleatorio se puede considerar el constituido por los
caudales mximos anuales. Todos los caudales que forman la poblacin se
seleccionan por cumplir esa caracterstica comn, ser un caudal mximo anual.
Un suceso aleatorio sera, por ejemplo, el registro de un ao.
DEFINICIN DE PROBABILIDAD
Definicin de Laplace

Algunos experimentos aleatorios sencillos tienen la propiedad de que todos los


sucesos elementales que lo componen tienen la misma probabilidad de
ocurrencia. En ese caso la distribucin de la probabilidad es uniforme y se dice
que el experimento posee simetra. Un ejemplo tpico sera el caso del
lanzamiento de un dado. Cada uno de los sucesos elementales, es decir, cada
una de las seis caras del dado posee la misma probabilidad de ser el resultado
de uno de los lanzamientos.
En un experimento dotado de simetra y compuesto por n sucesos elementales
(e1, e2, ...,en) la probabilidad de ocurrencia de cada uno de los sucesos
elementales ser igual a la probabilidad total (uno) dividida por el nmero de
sucesos elementales (n):
Ec. 1. Probabilidad de un suceso elemental con simetra

En el caso del ejemplo del dado existen seis sucesos elementales (las seis caras
del dado) y, por lo tanto, la probabilidad de obtener una cara determinada en un
lanzamiento ser:
Es un resumen grfico de los valores producidos por las
variaciones de una determinada caracterstica,
representando la frecuencia con que se presentan distintas
categoras dentro de dicho conjunto.

www.fundibeq.org
Caracteristicas principales:
* SINTESIS: Permite resumir grandes cantidades
de datos.
*ANALISIS: Permite el anlisis de los datos
evidenciando esquemas de comportamiento y
pautas de variacin que son difciles de captar en
una tabla numrica.
* CAPACIDAD DE COMUNICACIN: Permite
comunicar informacin de forma clara y sencilla
sobre situaciones complejas.
www.fundibeq.org
DIAGRAMA DE FLUJO PARA
CONSTRUIR UN HISTOGRAMA

www.fundibeq.org
Paso 1: Preparacin de los datos
Los datos deben ser:
- Objetivos: Basados en hechos, no en opiniones.
-Exactos: Debemos asegurarnos que la variabilidad en el proceso de
recogida
de datos (variabilidad de la medida) no desvirta la variabilidad del
proceso en estudio.
- Completos: Se debe registrar toda la informacin relevante asociada a
cada toma de datos (mquina, hora del da, empleado, etc) en
previsin de los diferentes anlisis que pueden ser necesarios.
- Representativos: Deben reflejar todos los diferentes hechos y
circunstancias que se producen en la realidad.
Paso 2: Determinar los valores extremos de los datos y el recorrido
Identificar en la tabla de datos originales el valor mximo, el valor
mnimo y el recorrido (R = Vmax - Vmin).

www.fundibeq.org
www.fundibeq.org
Paso 3: Definir las "clases" que contendr el Histograma
Clases: Son los intervalos en que se divide la caracterstica
sobre la que se han tomado los datos. El nmero de clases
es igual al de barras del Histograma.
a) Definir el nmero de clases que debe tener el Histograma
segn la tabla siguiente:
Numero recomendado de clases en un histograma

www.fundibeq.org
El minimo para un histograma son 40 datos. Dependiendo del nmero de clases
en que agrupemos los datos perderemos ms o menos informacin tratando
de identificar la pauta de comportamiento. La tabla anterior es un buen
compromiso entre la mxima sencillez de anlisis y la mnima prdida de
informacin.
b) Obtener la amplitud del intervalo de cada clase.
Todas las clases tendrn el mismo intervalo.
No habr solapamiento entre distintas clases.
La amplitud aproximada del intervalo se halla dividiendo el recorrido por el
nmero de clases.
Esta amplitud se redondea posteriormente a un nmero o cifra decimal
conveniente para el manejo de las clases y la graduacin del eje horizontal del
Histograma (1, 2, 5, 10, etc).
En el ejemplo de los paquetes de caf hay 120 datos, necesitamos entonces
aproximadamente 8 clases para el histograma.
Amplitud aproximada de cada clase 15gr./8=1.875 grs.
Amplitud elegida como conveniente en este caso: 2 grs.
www.fundibeq.org
Paso 4: Construir las clases anotando los lmites de cada una de ellas
Los lmites de la primera clase incluirn el valor mnimo de los datos.
Para evitar que algunos datos coincidan con los lmites de los
intervalos, definir stos de forma que tengan una cifra ms detrs de
la coma.

Si, por ejemplo, los datos tienen dos cifras detrs de la coma (3,55; 3,83;3,64;
3,73; 3,78, etc), se definirn las clases hasta la tercera cifra detrs de la coma
(3,545-3,555; 3,555-3,565, etc).

Si se obtiene una clase ms o menos respecto del nmero


recomendado, debido al redondeo posteriormente efectuado, no
existe deterioro ni en la sencillez ni en la informacin.

www.fundibeq.org
www.fundibeq.org
Paso 5: Calcular la frecuencia de clase
Determinar el nmero de datos que estn incluidos en
cada una de las clases (frecuencia de clase).
El recuento se har de la siguiente forma:
Empezar con el primer dato de la lista e identificar la clase
en la cual est incluido. Sealar para dicha clase, un
"palote". Repetir el mismo proceso para cada dato del
conjunto.
Para facilitar el recuento final se dibujan los "palotes" en
grupos de cinco, cuatro verticales y el quinto cruzndolos.
La suma de los "palotes" marcados para cada clase
corresponde a la frecuencia de la misma.
Comprobar que el nmero total de datos es igual a la
suma de las frecuencias de cada clase www.fundibeq.org
www.fundibeq.org
Paso 6: Dibujar y rotular los ejes
El eje vertical representa las frecuencias, por tanto en l se
rotularn nmeros naturales, dependiendo su valor y
escala del nmero de datos que se han tomado.
El eje horizontal representa la magnitud de la
caracterstica medida por los datos. Este eje se divide en
tantos segmentos iguales como clases se hayan definido.
Rotular los lmites de los intervalos de clase.
Rotular el eje con la caracterstica representada y las
unidades de medida empleadas.

www.fundibeq.org
www.fundibeq.org
Dibujar el Histograma
Dibujar las barras verticales correspondientes a cada clase. Su base est
situada en el eje horizontal y su altura corresponder a la frecuencia de la
clase representada.
Paso 8: Rotular el Grfico
Cuando proceda, poner el ttulo, las condiciones en que se han recogido los
datos, los lmites de tolerancia nominales, etc. Estas notas ayudan a los dems
a interpretar el grfico y sirven de recordatorio de la fuente de los datos.

www.fundibeq.org
Uno de los propsitos del anlisis o interpretacin de un Histograma
es identificar y clasificar la pauta de variacin del conjunto de datos
estudiado (valor medio, recorrido, forma) y elaborar una explicacin
admisible y relevante para dicha pauta, que relacione la variacin con
el proceso o fenmeno en estudio.
El resultado de este anlisis es una teora sobre el funcionamiento del
proceso o sobre la causa del problema que se est investigando. Por
ser una teora es necesario confirmarla o rechazarla, recogiendo otros
datos que nos den informacin ms especfica sobre dicha teora.
La experiencia y habilidad del grupo de trabajo en la interpretacin
son fundamentales en la utilizacin de esta herramienta, puesto que
no existen reglas fijas que se puedan utilizar para explicar de forma
precisa las pautas de variacin en cualquier situacin. Los equipos de
trabajo deben profundizar en el conocimiento del proceso en estudio
para utilizar esta herramienta de forma eficaz.

www.fundibeq.org
Forma simtrica con un pico en la mitad del recorrido de los datos.
Es la distribucin natural, habitual para, los datos de gran cantidad de
procesos. Por esta circunstancia se llama Distribucin Normal.
La desviacin respecto a esta forma puede indicar la existencia de problemas o
influencias externas al proceso.
Sin embargo la forma de campana no asegura, por s misma y sin analizar su valor
medio y el recorrido de los datos, que el proceso funcione de forma satisfactoria.

www.fundibeq.org
Un marcado valle en el centro de la distribucin con picos a ambos lados.
Esta forma, generalmente, es la combinacin de dos distribuciones y sugiere
la presencia de dos procesos distintos.
Debern ensayarse varios esquemas de estratificacin para separar los
distintos procesos.

www.fundibeq.org
Una gran parte plana, sin ningn pico y con dos ligeras colas a los lados.
Esta forma puede ser el resultado de varias distribuciones en campana con
sus centros distribuidos uniformemente a lo largo del recorrido de los datos.
Se debern identificar los diferentes procesos que intervienen dentro del
proceso bsico.
Esta distribucin es un caso tpico de departamentos u organizaciones que no
tienen el trabajo bien definido y cada cual lo hace "a su manera".

www.fundibeq.org
Valores altos y bajos se alternan de forma regular.
Esta pauta de variacin es tpica de errores de medicin, errores en la forma
de agrupar los datos para la construccin del Histograma o sesgos
sistemticos de redondeo.
En este caso revisar inicialmente los procesos de recogida de datos y
construccin del Histograma.

www.fundibeq.org
Como en el caso de la distribucin de dos picos, esta forma sugiere la existencia de dos
procesos distintos.
El proceso con el pico pequeo ser una anormalidad o deficiencia que no sucede a
menudo o regularmente.
Se deben analizar las condiciones en que se presenta el pico menor tratando de
estratificar los datos.
Estos picos unidos a distribuciones sesgadas o truncadas indican falta de eficacia en la
eliminacin de elementos defectuosos.
Un pico situado en un extremo de una distribucin regular.
Esta forma se presenta cuando la cola de una distribucin regular se ha cortado y
acumulado en una sola categora en el extremo del recorrido de los datos.
Suele indicar un registro poco cuidadoso o sesgado de los datos.
Ejemplo:
Se ha encargado al empleado responsable de contestar a las reclamaciones de los clientes que
registre, durante un mes, el tiempo que se emplea en dar respuesta a las mismas.
Para este proceso el procedimiento estableca un tiempo mximo de cinco das.
Para evitar reproches, el empleado registraba cinco das en todas aquellas ocasiones en que se
superaba este lmite, por lo que el Histograma correspondiente al tiempo de respuesta mostraba
una "distribucin con un pico en el extremo".
Su forma es asimtrica, con un pico descentrado dentro del recorrido de los datos, las colas descienden: bruscamente en un
lado y suavemente en el otro.
Esta distribucin es tpica de procesos con lmites prcticos a un lado del valor nominal o a datos parciales de un proceso
(distribuciones con parte de los datos suprimidos).
Ejemplo 1:
Al analizar el tiempo en que se tardan en cursar las rdenes de compra una vez recibidas, se observa que un gran porcentaje
lo es en un da y el resto tardan dos, tres y hasta cuatro das debido a diferentes circunstancias.
Al representar el Histograma de los tiempos requeridos para cursar dichas rdenes tendremos una "distribucin truncada".
Ejemplo 2:
Al analizar el dimetro de los ejes de un pedido y construir el Histograma correspondiente, obtenemos una "distribucin
sesgada" cuyos extremos son similares a las tolerancias especficas para dicho dimetro.
Al contactar con los proveedores, estos nos comentan que han realizado una revisin completa del pedido (inspeccin 100%)
para eliminar los ejes con dimetro fuera de tolerancias.
HISTOGRAMAS DE LLUVIAS DIARIAS 1965-2009
(DIAGONAL)

Lavado et al. (2010)


Frecuencia Relativa
En un intervalo de clase:
Fr=Ni/Nt
Donde Ni: Numero de datos en
el intervalo
Nt: numero total de datos
Las frecuencias acumuladas como aquellas que representan el nmero de
casos ocurridos con valor menor que cada uno de los umbrales escogidos. La
traduccin de estas frecuencias al concepto de probabilidades de ocurrencia es
inmediata: LA PROBABILIDAD DE QUE SE RECOJA UN VALOR MENOR A OTRO
DADO COINCIDE CON LA FRECUENCIA ACUMULADA CORRESPONDIENTE
Es una curva que expresa qu porcentaje de tiempo
el caudal es superior a un determinado valor. Para
su obtencin se ordenan todos los datos de caudales
de mayor a menor, y se van calculando los distintos
puntos de la curva. En abscisas se indica el
porcentaje de tiempo en que el caudal ha sido igual
o superior a un determinado valor, y en ordenadas
se indica dicho valor.
El dato de caudal puede expresarse en trminos
absolutos, como porcentaje del mdulo anual, o
como caudal especfico (por unidad de superficie).
El analisis de CD se centra en la frecuencia
acumulada de los valores historicos de caudales
sobre un periodo especifico. Una CD relaciona los
valores de caudales con el PORCENTAJE DE
TIEMPO en el cual los VALORES han sido
IGUALADOS O EXCDEDIDOS.
El uso del porcentaje de tiempo estima un rango
uniforme de 0 a 100. Asi el total de la data es
considerada. Los estiajes son excedidos la mayoria
de tiempo, mientras los picos son excedidos no tan
seguido.
Condiciones Caudales
Picos Humedas Condiciones
promedios Sequias
secas

Aca una CD de intervalo 60 esta asociado a un caudal


de 440 cfs implica que 60% del total de caudal
observado iguala o excede 440 cfs.
RIO INTERMITENTE
PERU: REGIMENES DE CAUDALES
Gauging Alt. Dr.Ar. Q esp.
River Code Lat. Long. -1 -2
station (m a.s.l.)
2
(Km ) (L s Km )

El Tigre Tumbes PQ-1 3.72S 80.47W 40 4802 23.7


El Ciruelo Chira PQ-2 4.30S 80.15W 250 7760 14.8
Pte. acara Piura PQ-3 5.11S 80.17W 119 4765 5.9
Racarumi Chancay-Lambayeque PQ-4 6.63S 79.32W 250 2401 14.2
Batan Zaa PQ-5 6.80S 79.29W 260 681 11.7
Yonan Jequetepeque PQ-6 7.25S 79.10W 428 3354 8.3
Salinar Chicama PQ-7 7.67S 78.97W 350 3651 6.8
Quirihuac Moche PQ-8 8.08S 78.87W 200 1918 4.7
Huacapongo Viru PQ-9 8.38S 78.67W 280 941 4.3
Pte. Carretera Santa PQ-10 8.97S 78.63W 18 11869 16.9
Yanapampa Pativilca PQ-11 10.67S 77.58W 800 4270 10.1
Sayan Huaura PQ-12 11.12S 77.18W 650 2896 10.0
Santo Domingo Chancay-Huaral PQ-13 11.38S 77.05W 697 1881 9.6
Larancocha Chillon PQ-14 11.68S 76.80W 120 1238 4.8
Chosica Rimac PQ-15 11.93S 76.69W 906 2339 13.3
La Capilla Mala PQ-16 12.52S 76.50W 424 2141 7.0
Socsi Caete PQ-17 13.03S 76.20W 330 6003 8.2
Conta San juan PQ-18 13.45S 75.98W 350 3144 3.2
Letrayoc Pisco PQ-19 13.65S 75.72W 720 3107 6.8
Los Molinos Ica PQ-20 13.92S 75.67W 460 2154 0.5
Bella Union Acari PQ-21 15.48S 74.63W 70 4369 3.2
Puente Jaqui Yauca PQ-22 15.48S 74.45W 214 4245 2.1
Pte. Ocoa Ocoa PQ-23 16.42S 73.12W 122 16646 4.3
Huatiapa Majes PQ-24 16.00S 72.47W 699 13651 6.3
Pte. Del Diablo Chili PQ-25 16.41S 71.50W 236 8750 1.5
La Pascana Tambo PQ-26 16.99S 71.64W 281 12884 2.2
Pte. Viejo Locumba PQ-27 17.62S 70.77W 550 3639 0.8
La Tranca Sama PQ-28 17.73S 70.48W 620 1993 1.5
Aguas Calientes Caplina PQ-29 17.85S 70.12W 130 569 1.8
Pte. Ramis Ramis TQ-1 15.26S 69.87W 385 16229 4.7
Pte. Huancane Huancane TQ-2 15.22S 69.79W 386 3714 5.4
Pte. Ilave Ilave TQ-3 16.09S 69.63W 385 8714 4.5
Tabatinga Amazonas AQ-1 4.25S 69.93W 60 890308 42.7
Tamshiyacu Amazonas AQ-2 4.00S 73.16W 105 733596 44.4
San Regis Maraon AQ-3 4.51S 73.95W 80 359910
Borja Maraon AQ-4 4.47S 77.55W 450 115478
Requena Ucayali AQ-5 5.03S 73.83W 200 354316

Lavado et al. (sometido)


REGIMEN ESTACIONAL

AZUL: LLUVIA
NEGRO: CAUDALES
Lavado et al. (sometido)
REGIMEN MULTIANUAL

Lavado et al. (sometido)