Вы находитесь на странице: 1из 33

Brayan Stiven Colorado cc 1026148363

Arturo Emilio Garca cc 1036938074


Andrs Felipe Gonzlez cc 1041203524
1

Regresion Multivariada











Brayan Stiven Colorado Tobon
Arturo Emilio Garcia Hincapie
Andres Felipe Gonzalez correa








Ingry Natalia Gmez Miranda












Universidad de Antioquia
Facultad de Ingenieria
Medellin
2012


Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
2


CONTENIDO


Introduccion..
1. Objetivos 4
2. Planteamiento del problema 5
3. Analisis exploratorio de datos 8
3.1 Variable que describe la altura de la caida de agua a la turbina ..8
3.2 Variable que describe la magnitud de las medidas del caudal..14
3.3 Variable que describe la potencia generada por las centrales
hidroelectricas de america... 19
4. Regresion multiple 25
4.1 Modelo inicial... 25
4.1.1 Multicolinealidad.. 25
4.1.2 Rcuadrado y Rcuadrado(ajustado) . 26
4.1.3 Autocorrelacion 26
4.1.4 Heteroscedasticidad 27
4.1.5 Especificacion del modelo. 28
4.1.6 Normalidad los residuales. 28
4.2 Modelo ajustado. 29
4.2.1 Rcuadrado y Rcuadrado(ajustado). 30
4.2.2 Autocorrelacion.. 30
4.2.3 Heteroscedasticidad.. 31
4.2.4 Especificacion del modelo 31
4.2.5 Normalidad de los residuales.. 32
5 Conclusiones...33








Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
3




INTRODUCCION

En la actualidad el area estadistica ha sido mejor valorada por la sociedad en
general, puesto que ha dejado de ser una herramienta propia de algunos, para
convertirse en un elemento que cualquier persona que quisiera estudiar
situaciones que no tengan respuesta o comportamiento evidente alguno
puediera utilizar, partiendo de la experimentacion constante sobre un suceso o
fenomeno para llegar a resultados que permitan que aquellas situaciones
impredecibles se pueden volver cada vez mas explicativas. Su tarea
fundamental es la recoleccin de datos que se obtiene a partir de
experimentos, con el objetivo de representar la realidad y transformarla,
predecir su futuro o simplemente conocerla.

Realizando una analisis exploratorio y una regresion multiple se busca
caracterizar un suceso, intentando establecer las relaciones que existan entre
determinadas variables independientes, sobre una variable dependiente. En
este caso , explorando un fenomeno en la generacion de electricidad se
buscara establecer el comportamiento de la potencia apartir de la variaciones
de la altura y el caudal.


Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
4

1
OBJETIVOS

Realizar un analisis estadistico sobre un fenomeno por medio de los
software statgraphics y eviews, para llegar a una interpretacion propia
que pueda permitir entender el comportamiento de un fenomeno en
especifico.
Analizar la dependencia de la potencia generada por una central
hidroelectrica apartir de la variaciones de la altura y de la fuerza del
caudal, por medio de una regresion que permita hallar el valor promedio
de la potencia en base a valores conocidos de las variables estudiadas.
Interpretar cada una de las herramientas ofrecidas por los softwares
para obtener de los datos informacion que permitan ajustar el modelo
estadistico.
Lograr la mayor optimizacion en la produccion de energia en futuros
proyectos mediante interpretacion de los resultados finales.























Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
5

2
PLANTEAMIENTO DE PROBLEMA
Grandes centrales hidroelctricas alimentan constantemente la demanda
elctrica. El principio fundamental de esta forma de aprovechamiento hidrulico
de los ros se basa en el hecho de que la velocidad del flujo de estos es
bsicamente constante a lo largo de su cauce, el cual siempre es descendente.
Este hecho revela que la energa potencial no es ntegramente convertida en
cintica como sucede en el caso de una masa en cada libre, la cual se acelera,
sino que sta es invertida en las llamadas prdidas, es decir, la energa
potencial se "pierde" en vencer las fuerzas de friccin con el suelo, en el
transporte de partculas, en formar remolinos, etc. Entonces esta energa
potencial podra ser aprovechada si se pueden evitar las llamadas prdidas y
hacer pasar al agua a travs de una turbina.
La optimizacin de energa y este medio de produccin para ella, sigue siendo
uno de los principales tems que la ingeniera elctrica utiliza actualmente. Por
eso se decidi realizar un estudio estadstico que evalu la influencia de la
altura con la que cae el agua a las turbinas de la central, y de la fuerza del
caudal de agua que pasa por los tneles hasta esta misma; sobra la potencia
generada en total. Para esto se ha tomado en una muestra de 64 represas, la
altura (dm) y el caudal (dm
3
/s), como lo mostramos a continuacin:
Potencia Altura Caudal
2233,53 313,20 373,00
2256,88 358,80 346,10
1990,54 260,10 409,80
3392,54 326,84 267,08
1721,72 302,40 375,50
2692,41 242,20 376,80
2303,70 226,60 293,50
3193,20 368,53 277,18
2438,38 256,95 312,08
2582,97 396,57 284,37
2932,61 670,72 356,09
2864,87 665,88 360,22
2732,75 468,33 433,79
2800,01 461,57 563,23
2837,34 388,21 598,16
2529,25 513,79 589,50
2824,28 345,50 587,30
2571,80 409,10 740,50
2778,42 364,70 706,20
2843,56 457,30 860,80
2823,80 430,60 671,89
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
6

2687,26 678,20 645,60
2677,41 544,67 596,60
2334,20 605,50 793,30
2433,05 492,23 574,46
2327,15 522,81 548,17
1995,65 405,34 563,10
1863,47 472,72 643,12
1989,55 339,42 635,59
2001,43 350,02 811,88
1608,12 269,28 1103,19
2055,64 364,96 1206,34
1783,03 222,95 1153,23
1618,17 282,63 1135,07
1441,48 261,69 1156,39
1933,64 301,40 1124,62
1665,94 175,77 880,09
1693,09 193,66 807,11
1443,09 147,46 960,60
2053,93 247,27 637,29
1374,99 174,24 702,52
1949,05 185,75 845,85
1359,90 158,36 835,06
1555,29 253,85 891,61
1408,39 191,13 873,57
1363,37 193,65 801,75
1280,19 185,19 865,86
1589,71 239,38 842,30
1492,07 232,01 887,30
1465,89 215,93 1019,40
1574,53 185,25 1141,44
1993,23 316,26 1179,29
1799,73 437,07 1100,56
1903,15 377,95 1279,15
2015,16 306,82 1658,06
2382,69 348,83 1521,51
2009,32 369,41 1447,49
1931,39 315,69 1766,49
2160,09 365,71 1713,96
2590,58 410,44 1400,31
2218,01 436,25 1318,49
2455,76 350,09 1588,73
2724,02 425,80 2039,68
3200,14 502,19 2371,14
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
7




En la actual carrera por generacin elctrica en el mundo, actualmente una de los
fuertes recursos que nos ofrecen gran cantidad de energa elctrica son lo ros y
lagos que el planeta existen.


Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
8

3
ANALISIS EXPLORATORIO DE DATOS
3.1. VARIABLE QUE DESCRIBE LA ALTURA DE LA CAIDA DE AGUA A LA
TURBINA (ALTURA)
En la siguiente muestra se puede observar el numero de datos analizados y el
rango en que se mueve la altura de los canales para cada central.

Tabla 3.1.1

Interpretando la tabla 3.1.2 confirmamos el nmero de datos existentes para esta
variable, en la casilla de recuento, seguido podemos encontrar que el promedio de
altura para los canales en las hidroelctricas en amrica es de 348.174 dm, con
una mediana que describe en donde se encuentra el 50% de los datos
observados, de 347,165; Podemos observar la ausencia de la moda, lo que indica
que la frecuencia y los datos no se repiten, lo que quiere decir que se tiene un
comportamiento amodal. Tenemos una altura mxima observada de 678,2 dm y
una mnima de 147,46 dm. Encontramos un sesgo de 0.660713, lo que nos dice
que los datos son asimtricos, por tanto la media la mediana y la moda no
coinciden.

Tabla 3.1.2

A continuacin en la grafica 3.1.1, podemos comprobar que al ser el sesgo
positivo el grafico de densidad suavizada presentara un comportamiento de cola
pesada hacia la derecha, y efectivamente tenemos que la media es mayor que la
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
9

moda y la mediana. Por otra parte, como el coeficiente de curtosis es positivo y no
es muy alejado de 0, podemos observar que la grafica es platicurtica.


Grafica 3.1.1

En la grafica 3.1.2, podemos observar que el bigote izquierdo me indica donde se
encuentra el menor de los datos, y el bigote derecho el mayor de los datos; como
la dispersin de los datos es en su mayora es cercana a un mismo punto,
podemos observar que no hay datos demasiado grandes ni pequeos que se
tengan que ubicar fuera de la caja de bigotes, por tanto no tenemos datos atpicos.
Tambin podemos notar en que la mediana esta descrita por una lnea dentro de
la caja trazada en el segundo cuartil, y que la moda, descrita por una cruz, se
encuentra poco corrida hacia la derecha puesto que esta es mayor que la
mediana.


Grafica 3.1.2

Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
10


Con la intencin de crear un resumen mas compacto para mayor facilidad de
anlisis, se divide en intervalos o celdas el numero de datos para crear una nueva
tabla (Tabla 3.1.3). Estos intervalos estn dados por la raz cuadrada del recuento,
para este caso obtenemos el valor de 8 celdas.


Tabla 3.1.3

La probabilidad de que los datos estn en el mayor intervalo es la mayor
frecuencia dividido la cantidad total de datos, para este caso es de 25%. Como la
desviacin estndar tiene un valor pequeo en comparacin a la media, como
vemos en la tabla 3.1.3, podemos concluir que los datos no se alejan mucho de la
media.

La tabla 3.1.3 la podemos representar grficamente utilizando la casilla de punto
medio y la frecuencia, creando un histograma, ubicando en el eje vertical la escala
de la frecuencia y en el eje horizontal la escala de medicin de los intervalos en
forma de rectngulos, dados en decmetros para la altura de las centrales.
Grafica 3.1.3
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
11


Grafica 3.1.3

Para tener una visin amplia de la distribucin de los datos, podemos analizar la
grafica de dispersin (Grafica 3.1.4), la cual nos deja ver fcilmente la cercana de
los datos entre si, en donde se encuentran la mayor concentracin de estos, si
puede o no existir datos atpicos, entre otros.

Grafica 3.1.4





Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
12

Otra herramienta importante es la de la tabla de los percentiles (Tabla 3.1.4), en la
cual se hacen clculos porcentuales de los datos que estn iguales o por debajo
de cierta altura. De igual forma podemos obtener una grafica, en la cual lo altura
se organizan de menor a mayor en el eje x, y en el eje y la proporcin de los
porcentajes (Grafica 3.1.5).


















Tabla 3.1.4
Grafica 3.1.5
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
13

Por ultimo tenemos el grafico 3.1.6 la cual nos indica el grado de simetra. En este
se puede observar con mayor claridad este comportamiento, es decir, los datos
estn poco relacionados entres si. En la grafica se observa el comportamiento
asimtrico con respecto a la recta de la mediana.



















Grafica 3.1.6
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
14

3.2. VARIABLE QUE DESCRIBE LA MAGNITUD DE LAS MEDIDAS DEL
CAUDAL (Caudal)

En la siguiente muestra se puede observar el numero de datos analizados y el
rango en que se mueve la magnitud de los caudales por cada una de las centrales
en Amrica.



Interpretando la tabla 3.2.2 confirmamos el nmero de datos existentes para esta
variable, en la casilla de recuento, seguido podemos encontrar que el promedio de
la magnitud para cauda uno de los caudales en las hidroelctricas en amrica
tiene un valor de 872,662 dm
3
/s, con una mediana que describe en donde se
encuentra el 50% de los datos observados, de 809,495 dm
3
/s; Nuevamente
observamos que los datos tienen un comportamiento amodal. Tenemos que la
mxima cantidad de fluido que pasa por unidad de tiempo es de 2371,14 dm
3
/s y
una mnima de 267,08 dm
3
/s. Encontramos un sesgo de 1,00873, lo que nos dice
que los datos son asimtricos, por tanto la media la mediana y la moda no
coinciden.




A continuacin en la grafica 3.2.1, podemos comprobar que al ser el sesgo
positivo el grafico de densidad suavizada presentara un comportamiento de cola
Tabla 3.2.1
Tabla 3.2.2
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
15

pesada hacia la derecha, y efectivamente tenemos que la media es mayor que la
moda y la mediana. Por otra parte, como el coeficiente de curtosis es positivo y es
una unidad por encima de cero, podemos observar que la grafica es platicurtica.




En la grafica 3.2.2, podemos observar que el bigote izquierdo me indica donde se
encuentra el menor de los datos, y el bigote derecho el mayor de los datos;
podemos observar que hay datos demasiado grandes los cuales se ubican fuera
de la caja de bigotes, lo cual nos indica la existencia de datos atpicos. Tambin
podemos notar en que la mediana esta descrita por una lnea dentro de la caja
trazada en el segundo cuartil, y que la moda, descrita por una cruz, se encuentra
poco alejada hacia la derecha puesto que esta es mayor que la mediana.







Grfica 3.2.1
Grfica 3.2.2
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
16


Con la intencin de crear un resumen mas compacto para mayor facilidad de
anlisis, se divide en intervalos o celdas el numero de datos para crear una nueva
tabla (Tabla 3.2.3). Estos intervalos estn dados por la raz cuadrada del recuento,
para este caso obtenemos el valor de 8 celdas.




La probabilidad de que los datos estn en el mayor intervalo es la mayor
frecuencia dividido la cantidad total de datos, para este caso de 28,13%. Como la
desviacin estndar tiene un valor pequeo en comparacin a la media, como
vemos en la tabla 3.2.3, podemos concluir que los datos no se alejan mucho de la
media.


La tabla 3.2.3 la podemos representar grficamente utilizando la casilla de punto
medio y la frecuencia, creando un histograma, ubicando en el eje vertical la escala
de la frecuencia y en el eje horizontal la escala de medicin de los intervalos en
forma de rectngulos, dados en dm
3
/s que es la cantidad de fluido que pasa por
unidad de tiempo.
Tabla 3.2.3
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
17











Para tener una visin amplia de la distribucin de los datos, podemos analizar la
grafica de dispersin (Grafica 3.2.4), la cual nos deja ver fcilmente la cercana de
los datos entre si, en donde se encuentran la mayor concentracin de estos; Se
puede observar claramente que a la derecha de esta grafica hay dos datos muy
alejados, lo que ratifica los datos atpicos mencionados en la grafica 3.2.2




Grfica 3.2.3
Grfica 3.2.4
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
18

A continuacin se observa la tabla de percentiles (Tabla 3.2.4), en la cual se
hacen clculos porcentuales de los datos que estn iguales o por debajo de cierta
magnitud del caudal. De igual forma podemos obtener una grafica, en la cual la
magnitud del caudal se organizan de menor a mayor en el eje x, y en el eje y la
proporcin de los porcentajes. (Grafica 3.2.5)




En el grafico 3.1.6 la cual nos indica el grado de simetra. Se observa que los
datos estn poco relacionados entres si. En la grafica se observa el
comportamiento asimtrico con respecto a la recta de la mediana.









Tabla 3.2.4
Grfica 3.2.5
Grfica 3.2.6
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
19


3.3. VARIABLE QUE DESCRIBE LA POTENCIA GENERADA POR LAS
CENTRALES HIDROELECTRICAS DE AMERICA.
En la siguiente muestra se puede observar el numero de datos analizados y el
rango en que se mueve la altura de los canales para cada central.


Interpretando la tabla 1.3T.2 confirmamos el nmero de datos existentes para esta
variable, en la casilla de recuento, seguido podemos encontrar que el promedio de
la potencia generada por las hidroelctricas en el continente Americano, la cual es
de es de 2167,91 w , con una mediana que describe en donde se encuentra el
50% de los datos observados, de 2054,78 w; Nuevamente Podemos observar la
ausencia de la moda, lo que indica que la frecuencia y los datos no se repiten, lo
que quiere decir que se tiene un comportamiento amodal. Tenemos una potencia
mxima observada de 3392,54 w/h y una mnima de 1280,19 w/h. Encontramos
un sesgo de 0.205717, lo que nos dice que los datos son asimtricos, por tanto la
media la mediana y la moda no coinciden.



A continuacin en la grafica 3.3.1, podemos comprobar que al ser el sesgo
positivo el grafico de densidad suavizada presentara un comportamiento de cola
pesada hacia la derecha, y efectivamente tenemos que la media es mayor que la
moda y la mediana. Por otra parte, como el coeficiente de curtosis es negativo la
grafica presenta un comportamiento empinado, es decir, esta es leptocurtica.
Tabla 3.3.1
Tabla 3.3.2
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
20






En la grafica 3.3.2, podemos observar que el bigote izquierdo me indica donde se
encuentra el menor de los datos, y el bigote derecho el mayor de los datos; como
la dispersin de los datos es en su mayora es cercana a un mismo punto,
podemos observar que no hay datos demasiado grandes ni pequeos que se
tengan que ubicar fuera de la caja de bigotes, por tanto no tenemos datos atpicos.
Tambin podemos notar que la mediana esta descrita por una lnea dentro de la
caja trazada en el segundo cuartil y se puede observar que esta se acerca al
primer cuartil, lo que nos indica que la distribucin es sesgada a la izquierda
(asimtrica negativa).
La moda esta representada por la cruz roja, en este caso se observa claramente
que se encuentra alejada hacia la derecha de la mediana, esto nos indica que el
valor que ms se repite no se acerca al elemento central de los datos (los datos se
alejan de la media).

Grafica 1.3.1
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
21








Con la intencin de crear un resumen mas compacto para mayor facilidad de
anlisis, se divide en intervalos o celdas el numero de datos para crear una nueva
tabla (Tabla 3.3.3). Estos intervalos estn dados por la raz cuadrada del recuento,
para este caso obtenemos el valor de 8 celdas.






La probabilidad de que los datos estn en el mayor intervalo es la mayor
frecuencia dividido la cantidad total de datos, para este caso de 21%. Como la
desviacin estndar tiene un valor grande en comparacin a la media, como bien
se indico en la grfica 1.3.2 podemos concluir que los datos se alejan de la media.

Grafica 1.3.2
Tabla 3.3.3
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
22

La tabla 1.3.3 la podemos representar grficamente utilizando la casilla de punto
medio y la frecuencia, creando un histograma, ubicando en el eje vertical la escala
de la frecuencia y en el eje horizontal la escala de medicin de los intervalos en
forma de rectngulos, dados en watts para la potencia generada por las centrales
hidroelctricas en Amrica.






Para tener una visin amplia de la distribucin de los datos, podemos analizar la
grafica de dispersin (Grafica 3.3.4), la cual nos deja ver fcilmente la cercana de
los datos entre si, en donde se encuentran la mayor concentracin de estos, si
puede o no existir datos atpicos, entre otros.
En este caso se observa que los datos estn repartidos casi uniformemente, de
ah que no hayan datos tan cercanos a un solo valor.


Grafica 3.3.3
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
23




Otra herramienta importante es la de la tabla de los percentiles (Tabla 3.3.4), en la
cual se hacen clculos porcentuales de los datos que estn iguales o por debajo
de cierta altura. De igual forma podemos obtener una grafica, en la cual la
potencia se organizan de menor a mayor en el eje x, y en el eje y la proporcin de
los porcentajes (Grafica 3.3.5).





Grafica 3.3.4
Grafica 3.3.5
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
24






Por ultimo tenemos el grafico 3.3.5 la cual nos indica el grado de simetra. En este
se puede observar con mayor claridad este comportamiento, es decir, cmo se
vio en la grafica 3.3.2 se tiene que los datos presenta un comportamiento
asesgado a la izquierda, mas concretamente asimtrico negativo.






Tabla 3.3.4
Grafica 3.3.6
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
25

4
REGRESION MULTIPLE


4.1 Modelo inicial

Inicialmente analizamos los datos sin modificar la ecuacin del modelo de
regresin, para la validacin de supuestos, y se pudo encontrar que el conjunto de
datos presentaba problemas con algunos de los supuestos, como lo vamos a ver a
continuacin.

4.1.1 Multicolinealidad

Para el caso inicial no se presenta, ya que los datos de la variable altura no es
combinacin lineal de algunos o de todos los de la variable caudal. Esto lo
podemos comprobar analizando el valor-p de la tabla 4.1.1, se tiene que es mayor
que 0.5, lo cual indica la ausencia de multicolinealidad.
En caso tal de tener multicolinealidad, lo relacionamos a problemas de muestreo o
especificaciones de modelo, y se puede solucionar reduciendo la dimensin.


Tabla 4.1.1
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
26


4.1.2 R cuadrado y R cuadrado (ajustado)

En este supuesto el modelo presento problemas, ya que el porcentaje en que la
altura y el caudal en las centrales hidroelctricas para explicar la potencia
generada era significativamente bajo. Este resultado lo podemos apreciar en la
tabla 4.1.2, en donde encontramos que el porcentaje no se acerca a un valor
definido esperado que es de mayor o cercano al 70%.

Tabla 4.1.2

4.1.3 Autocorrelacion

La autocorrelacion es cuando los residuales dependen el uno del otro en un
mismo periodo, por tanto las pruebas de hiptesis no son confiables. Entre
algunas causas podemos encontrar efectos sistemticos por variables faltantes o
por forma funcional incorrecta, lo cual genera una falsa especificacin; o
simplemente por la manipulacin de los datos. Para determinar la existencia de
este supuesto, hacemos un anlisis inicial del ajuste de Durbin Watson, dato que
podemos encontrar en la tabla 4.1.2. Si este dato es cercano a 2 no existe
autocorrelacion; si es cercano a 0 o 4 si la hay; y por ultimo si es cercano a o.5 o
1.5, se determina como una indecisin. En este caso nos encontramos en zona de
indecisin por lo cual analizamos el comportamiento sistemtico en la grafica 4.1.1
y concluimos que puede existir autocorrelacion por su aproximada forma de
embudo.
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
27


Grafica 4.1.1

4.1.4 Heterosedasticidad

Este caso se presenta cuando la varianza de los residuales no se mantiene
constante y tras la presencia de esta se puede decir que las pruebas de hiptesis
no son confiables. Se da por caractersticas particulares de las variables,
presencia de valores atpicos, mala especificacin del modelo. Lo podemos
detectar sea identificando un comportamiento no sistemtico en los residuales, o
evaluando los datos por medio de la prueba de White, que define que si el valor p
tiende a cero existe el supuesto de heteroscedasticidad. En nuestro problema nos
damos cuenta que tenemos hetero, puesto que el valor p de la prueba White es
menor que 0.05, como lo podemos observar en la tabla 4.1.3.


Tabla 4.1.3
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
28


4.1.5 Especificacin del modelo

Cuando no encontramos una correcta especificacin del modelo podemos deducir
que existes errores de especificacin, inclusin de variables irrelevantes u omisin
de variables relevantes, que puede ser dadas por mediciones errneas. Podemos
detectarla por medio de la prueba de Reset de Ramsey, la cual nos explica que si
el valor p es menor de 0.05, nos dice que el modelo esta mal especificado (la
ecuacin es inadecuada).

Con respecto al estudio realizado en las hidroelctricas, la ecuacin inicial no
describe correctamente el modelo para la potencia producida en estas, de acuerdo
con la tabla 4.1.4.

Tabla 4.1.4


4.1.6 Normalidad de los residuales

Cuando existe normalidad de residuales espero que los residuales se distribuyan
normalmente con media aproximadamente igual a cero, y la varianza ser
constante. Se realiza su evaluacin con la prueba Jaque-Bera, y se determina que
los residuales no estn distribuidos normalmente si el valor p esta por debajo de
0.05. Analizando las variables de altura y caudal con respecto ala potencia,
encontramos que sus residuales no esta correctamente normalizados, como lo
comprobamos en la tabla 4.1.5.
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
29


Tabla 4.1.5




4.2 Modelo ajustado

Los problemas que anteriormente presentamos, excluyendo la multicolinealidad,
tiene una particularidad comn, y es que su solucin se puede realizar mediante la
transformacin de potencias, la cual consiste en modificar la ecuacin que
describe el fenmeno.
Fenmeno=modelo+residual

Mediante un proceso aleatorio para la modificacin de la ecuacin, en donde
intentamos ajustar el modelo, despus de muchas comparaciones entre distintos
valores para la potencia de las variables, entre un rango de 2 hasta 2, se pudo
concluir que la que mejor ajustaba el modelo es la que presentamos en la figura
4.2.1

Figura 4.2.1

Luego de introducir esta formula, encontramos la solucin y mejor aproximacin
de nuestros, como lo mostraremos a continuacin:
Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
30


4.2.1 R cuadrado y R cuadrado (ajustado)

Aun que se esperaba obtener un porcentaje de r aproximado o superior al 70% en
que la altura y el caudal describieran el comportamiento de la potencia, se logro
llegar a un ajuste mximo del 66.2%, como lo demostramos en la tabla 4.2.1.

Tabla 4.2.1

4.2.2 Autocorrelacin

Despus de ajustado el modelo en su mejor expresin, logramos crear un
resultado aceptable, aunque el Durbin Watson segua estando en zona de
indecisin (Tabla 4.2.1), se logro remover mejor la forma de embudo que se
presentaba anteriormente, y obtener una nueva forma como se ve ene la grafica
4.2.1.

Grafica 4.2.1







Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
31

4.2.3 Heteroscedasticidad

Para este caso, al realizar el ajuste a la formula, se esperaba que la probabilidad
del White fuera mayor a 0.05, lo cual se pudo lograr como se muestra en la tabla
4.2.2.

Tabla 4.2.2



4.2.4 Especificacin del modelo

En este supuesto logramos alcanzar el promedio esperado para la prueba de
Ramsey reset, para que fuera mayor que el 5%. (Tabla 4.2.3)


Tabla 4.2.3


Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
32


4.2.5 Normalidad de los residuos

Para este ltimo supuesto logramos una exitosa probabilidad para la prueba
Jaque-Bera, la cual pudo alcanzar un valor superior a 0.05, demostrado en tabla
4.2.4.

Tabla 4.2.4
























Brayan Stiven Colorado cc 1026148363
Arturo Emilio Garca cc 1036938074
Andrs Felipe Gonzlez cc 1041203524
33









5.

CONCLUSIONES

Una vez realizado todos los anlisis respectivos en los software utilizados
podemos concluir que:

En los factores altura y caudal determinamos evidencia estadsticamente
significativa que nos lleva a determinar que los factores anteriormente
mencionados tienen una gran repercusin en los cambios de la potencia
generada en cada una de las centrales hidroelctricas en el continente
Americano.
Al hacer el anlisis exploratorio de los datos se encontraron deficiencias en
algunos datos analizados, ya sea por manipulacin de los datos o agentes
externos los cuales no permitieron la acertada justificacin del
comportamiento de la variable dependiente (potencia generada) por lo que
fue necesario ajustar el modelo de forma correcta para llegar a uno mas
coherente que se acercara mas a la realidad y que describiera mejor el
fenmeno anteriormente planteado.
Gracias a la evaluacin de cada uno de los supuestos se logro cumplir el
objetivo de optimizar el modelo de generacin de potencia a partir de la
variacin de cada uno de los datos tanto de altura como de caudal para que
en proyectos futuros se pueda generar mas potencia partiendo del modelo
previamente estudiado.

Вам также может понравиться