Академический Документы
Профессиональный Документы
Культура Документы
Prctica 2:
Objetivo:
El objetivo de esta prctica es conocer y aprender a manejar las herramientas que nos
van a permitir decidir si nuestros datos de supervivencia se comportan de acuerdo a
algn modelo estadstico conocido.
El hecho de tener un modelo para los datos ofrece ventajas frente a la estimacin
emprica en que se bas la prctica 1. Podremos conocer de forma ms precisa cul es la
tasa de fallos y la funcin de supervivencia en cualquier momento, ya que
dispondremos de funciones NO escalonadas, al contrario de lo que suceda en los
anlisis de la prctica 1.
Una vez obtenidos los modelos ms adecuados para nuestros datos, se realizarn
simulaciones para continuar con el problema de fiabilidad de sistemas que se propuso
en la primera prctica.
Conceptos bsicos:
Como en la prctica anterior se parte de una muestra de tiempos de vida de un
determinado componente: x1, x2, ..., xn. sta es una muestra aleatoria procedente de un
determinado modelo de probabilidad, es decir, posee una funcin de distribucin F(x) y,
por consiguiente, una funcin de densidad f(x).
Existen numerosos modelos probabilsticos que se emplean para modelizar tiempos de
duracin de componentes. Entre ellos se podran destacar los siguientes:
1. Modelo Exponencial: Depende de un solo parmetro: . Se caracteriza por
tener una tasa de fallo constante (igual a ). En la figura 1 se encuentran las
funciones de densidad de modelos exponenciales para distintos valores del
parmetro (que est representado por la media 1/) y en la figura 2 sus
respectivas tasas de fallo.
2. Modelo Weibull: Depende de dos parmetros: (escala o scale) y (forma
o shape). Dependiendo del valor del parmetro de forma el modelo puede
tener tasa de fallo decreciente (<1), constante (se reduce al modelo
exponencial, =1) y creciente (>1). En la figura 3 se encuentra la funcin
de densidad Weibull para distintos valores de los parmetros y en la figura 4
sus respectivas tasas de fallo.
3. Modelo Gamma: Depende de dos parmetros: (escala o scale) y (forma
o shape). Puede modelizar variables con tasas de fallo cambiantes (crecientes
y decrecientes). En la figura 5 se encuentra la funcin de densidad Gamma
para distintos valores de los parmetros y en la figura 6 sus respectivas tasas
de fallo.
4. Modelo Lognormal: Depende de dos parmetros: (media o mean) y
(desviacin tpica o standard deviation). Puede modelizar variables con tasas
de fallo cambiantes (crecientes y decrecientes). El ejemplo para distintos
Exponential Distribution
Mean
10
15
20
25
0,1
density
0,08
0,06
0,04
0,02
0
0
30
60
90
120
150
x
Figura 1. Funcin de densidad exponencial.
Exponential Distribution
0,12
Mean
10
15
20
25
hazard
0,1
0,08
0,06
0,04
0,02
0
0
30
60
90
120
150
x
Figura 2. Tasa de fallos de la funcin de densidad exponencial.
Weibull Distribution
Shape,Scale
1,1
0,8,2
2,1
5,3
density
0,8
0,6
0,4
0,2
0
0
12
15
18
x
Figura 3. Funcin de densidad Weibull.
Weibull Distribution
Shape,Scale
1,1
0,8,2
2,1
5,3
hazard
15
10
0
0
x
Figura 4. Tasa de fallos de la funcin de densidad Weibull.
Gamma Distribution
Shape,Scale
1,1
2,1
0,5,1
4,0,5
1,5
density
1,2
0,9
0,6
0,3
0
0
10
15
20
25
30
x
Figura 5. Funcin de densidad Gamma.
Gamma Distribution
Shape,Scale
1,1
2,1
0,5,1
4,0,5
2,4
hazard
2
1,6
1,2
0,8
0,4
0
0
10
15
20
25
30
x
Figura 6. Tasa de fallos de la funcin de densidad Gamma.
Lognormal Distribution
Mean,Std. dev
1,1
2,2
5,1
10,2
density
0,8
0,6
0,4
0,2
0
0
12
16
20
x
Figura 7. Funcin de densidad Lognormal.
Lognormal Distribution
Mean,Std. dev
1,1
2,2
5,1
10,2
hazard
1,6
1,2
0,8
0,4
0
0
12
16
20
x
Figura 8. Tasa de fallos de la funcin de densidad Lognormal.
xi
0.7
1.5
2.1
3.5
6.2
F-1(Fn (xi))
F-1(1/5)
F-1(2/5)
F-1(3/5)
F-1(4/5)
F-1(1)
As pues, si los datos se distribuyen segn F(x) se tiene que F-1(1/5) ser prximo a 0.7,
F-1(2/5) ser prximo a 1.5 y as sucesivamente, es decir, en el grfico los puntos
aparecen alineados segn la recta y=x.
Los procedimientos numricos consisten en realizar contrastes de hiptesis sobre los
datos. Por tanto atenderemos al p-valor de los mismos para determinar si existe la
posibilidad de que la muestra se comporte segn un determinado modelo o no. Las
hiptesis de este tipo de contrastes son:
H 1 : f ( x ) no es la densidad de x1 , x2 ,..., xn
Como en todo contraste de hiptesis si se obtienen p-valores bajos existe evidencia en
los datos a favor de la hiptesis alternativa (en este en particular, evidencias que indican
que los datos no tienen esa funcin de densidad). Dos ejemplos clsicos de contrastes
que trabajan estas hiptesis son el de Chi-cuadrado (Chi-square) y KolmogorovSmirnof.
NOTA MUY IMPORTANTE: Si se rechaza la hiptesis nula (los datos ofrecen
evidencia a favor de la alternativa) significa que se tiene una confianza importante en
que los datos no siguen el modelo propuesto. Pero si no se rechaza la hiptesis nula, no
quiere decir que el modelo propuesto sea el que siguen los datos. Es decir, si no se
rechaza la nula quiere decir que el modelo propuesto resulta compatible con los datos,
pero no se puede afirmar con rotundidad que sea se. En STATGRAPHICS, el resultado
del test Chi-cuadrado puede ser diferente segn la versin instalada del programa. Por
tanto, utilizaremos el test de Kolmogorov para realizar estos contrastes.
Datos:
Los datos que se van a analizar se encuentran en el fichero practica 1 fiabilidad.sf.
Nota: Recordar que las cuatro primeras columnas del fichero recogen la duracin de los
cuatro componentes para los que se estudi varios sistemas.
Analysis Summary
Data variable: V1
100 values ranging from 3,68535 to 3215,24
Fitted normal distribution:
mean = 801,838
standard deviation = 742,109
Histogram for V1
frequency
40
30
20
10
0
-200
800
1800
2800
3800
V1
Figura 10. Histograma de V1 con densidad normal.
Tambin se puede observar una incongruencia con la naturaleza de los datos. El lmite
inferior del primer intervalo es 200!! Dado que se dispone de datos de tiempos de
vida, hay que corregir esto en el grfico, hay que cambiar el lmite inferior del grfico.
Esto se hace con el cursor sobre el grfico, presionando el botn derecho y
seleccionando opciones de panel (pane options). Aparece la ventana de la figura 11. La
primera casilla nos muestra el nmero de clases o intervalos del histograma (debe
variarse su valor para ver cmo va cambiando el histograma). La segunda y tercera
casilla nos indica el lmite inferior y superior del grfico. En el lmite inferior ponemos
un cero, para conseguir un grfico ms consistente con los datos.
Histogram for V1
50
frequency
40
30
20
10
0
0
V1
4
(X 1000)
density
5
4
3
2
1
0
0
V1
4
(X 1000)
La curva obtenida sale por defecto muy suavizada. Para que se vea mejor la distribucin
de los datos hay que cambiar el parmetro Interval width (por defecto del 60%) que se
encuentra en Pane options. Si modificamos este valor a 10% obtenemos la densidad de
la figura 14.
Ambas densidades nos muestran de nuevo la falta de ajuste de V1 con la distribucin
normal ya que los datos presentan una clara asimetra (hacia la derecha positiva) y la
distribucin normal es simtrica.
density
8
6
4
2
0
0
V1
4
(X 1000)
Figura 14. Funcin de densidad estimada de V2 con ancho de banda del 10%.
Por ltimo el grfico QQ-plot (figura 15) muestra una vez ms que la distribucin
normal no es adecuada. Los puntos no estn alineados sobre la recta y=x, por lo tanto
debemos cambiar a otra distribucin.
Quantile-Quantile Plot
(X 1000)
4
V1
3
2
1
0
0
Normal distribution
4
(X 1000)
Por ltimo debemos confirmar mediante los contrastes de hiptesis lo que se ha venido
concluyendo con los anlisis grficos: que la normal no es un buen modelo para estos
datos. Antes de pasar a analizar la tabla de dichos contrastes hay que mencionar que
cuando el nmero de observaciones es pequeo (menos de 30 datos) no es
conveniente hacer uso de los contrastes. Los contrastes son tiles para conjuntos de
datos de tamao mayor que 30. En caso contrario la decisin de si nuestros datos
pueden seguir un modelo determinado hay que tomarla de forma grfica
empleando en mayor medida el ltimo grfico mencionado, el QQ-plot.
La siguiente figura (figura 16) muestra la tabla correspondiente al apartado Goodnessof-fit tests o tests de bondad de ajuste. Como se dijo en la parte de conceptos bsicos
hay que analizar los p-valores de los contrastes (valores sombreados en la figura 16).
Debemos probar con otras variables hasta encontrar modelos que puedan describir la
variable V1. Para conseguirlo se presiona el botn derecho y se seleccionan las opciones
de anlisis (Analysis Options). Aparece la ventana de la figura 17. En ella aparecen
numerosos modelos. Entre ellos cabe destacar dos grupos. Distribuciones de variables
discretas y distribuciones de variables continuas (el caso de tiempos de vida). De entre
las continuas, las ms usadas en estudios de fiabilidad son: Exponencial, Gamma,
Weibull, Lognormal y Erlang.
En la prctica anterior se determin que la tasa de fallos de V1 era constante, por lo
tanto la posibilidad de que la exponencial sea un modelo adecuado es alta. Y, por lo
comentado anteriormente, tambin la Weibull y la Gamma son buenas opciones
(recordar que la exponencial es caso particular de ambas). As pues se va a analizar el
a
Recordar que el resultado de este test puede ser diferente segn la versin instalada de
STATGRAPHICS
10
QQ-plot para V1 y estas tres distribuciones (exponencial: figura 18, Weibull: figura 19
y Gamma: figura 20) as como el p-valor para el contraste de Kolmogorov (tabla de la
figura 21).
Quantile-Quantile Plot
V1
(X 1000)
4
V1
(X 1000)
4
2
1
0
0
4
(X 1000)
exponential distribution
Weibull distribution
4
(X 1000)
(X 1000)
4
V1
3
2
1
0
0
gamma distribution
4
(X 1000)
Distribucin
Exponencial
Weibull
Gamma
0.91884
0.98327
0.98560
Figura 22. Tabla con los parmetros y p-valores de los tests para V1.
Grficamente se observan pocas diferencias entre los tres grficos. A pesar de eso si se
observa un mejor comportamiento en el correspondiente a la distribucin exponencial,
11
ya que en los otros dos el punto de ms valor est sensiblemente ms alejado que en
ste. El comportamiento para el resto de puntos es prcticamente igual.
En cuanto a la tabla que contiene las estimaciones de los parmetros y los p-valores se
observa que los tres modelos se ajustan muy bien.
Para la variable V2 tenemos los siguientes resultados para el ajuste a las densidades
exponencial, Weibull, Gamma y lognormal (figuras 23 a 26 respectivamente).
Quantile-Quantile Plot
Quantile-Quantile Plot
10
10
V2
(X 1000)
12
V2
(X 1000)
12
0
0
10
exponential distribution
12
(X 1000)
10
12
(X 1000)
Quantile-Quantile Plot
Quantile-Quantile Plot
(X 1000)
12
10
10
V2
(X 1000)
12
V2
Weibull distribution
0
0
10
gamma distribution
12
(X 1000)
Distribucin
Exponencial
Weibull
Gamma
Lognormal
10
lognormal distribution
12
(X 1000)
0.00544
0.4486
0.1234
0.1446
Figura 27. Tabla con los parmetros y p-valores de los tests para V2.
Grficamente se tienen dos opciones por encima del resto, que son el modelo Weibull y
el modelo Gamma. De entre los dos el mejor es el del modelo Weibull, ya que en el
modelo Gamma el punto de mayor valor est ms alejado y el comportamiento del resto
de los puntos es prcticamente idntico.
En cuanto a los p-valores recogidos en la figura 27 el modelo que ofrece mayor p-valor
es el Weibull, por lo tanto si debemos decir qu modelo es ms parecido a estos datos
elegiramos sin duda a ste.
12
Quantile-Quantile Plot
Quantile-Quantile Plot
V3
(X 10000)
5
V3
(X 10000)
5
2
1
2
1
0
0
5
(X 10000)
Weibull distribution
Distribucin
Weibull
gamma distribution
5
(X 10000)
Gamma
0.95
0.83
Figura 30. Tabla con los parmetros y p-valores de los tests para V3.
Quantile-Quantile Plot
1500
1500
1200
1200
V4
1800
V4
1800
900
900
600
600
300
300
0
0
300
600
900
1200
1500
1800
300
Weibull distribution
Distribucin
Weibull
Erlang
600
900
1200
1500
1800
Erlang distribution
0.94
0.86
Figura 32. Tabla con los parmetros y p-valores de los tests para V4.
13
14
obtenidos por medio de tail areas se pueden rehacer los clculos de fiabilidad de los
sistemas de la prctica 1.
En cuanto a los valores crticos, la forma de obtenerlos es anloga. Cul es el valor de
la variable para el que la supervivencia vale 0.45? Se pide el tiempo de fallo para el que
S(x)=0.45, es decir, para que 1-F(x)=0.45, o lo que es lo mismo, para que F(x)=0.55.
Para el panel de critical values se obtienen sus pane options y se introduce 0.55 en una
de las casillas (figura 35). Obtenindose que F-1(0.55)=640.274.
C1: Weibull(2,750)
C2: Weibull(0.7, 1500)
C3: Exponencial(1000)
C4: Exponencial(1300)
Se van a generar para cada componente una muestra de 5000 observaciones que ser
empleada para simular los tiempos de fallo del primer sistema de la prctica anterior
(figura 36).
15
DESCRIBE
Distributions
Probability Distributions
Aparece una ventana de seleccin de modelo (figura 37). En sta seleccionamos la
opcin Weibull.
Por defecto el anlisis muestra informacin para una Weibull(1,1). As pues, lo primero
que se debe hacer es poner los parmetros de las distribuciones de los componentes C1
y C2. Lo hacemos presionando el botn derecho y seleccionando las opciones de
anlisis (Analysis Options). Se pueden introducir hasta cinco pares de parmetros
distintos. Se rellena la tabla como muestra la figura 38.
En el grfico de la funcin de densidad aparecen ahora dos curvas, una para cada
componente. En este anlisis podemos obtener la tasa de fallos, la funcin de
supervivencia y la de distribucin (en la parte grfica). Si se hace ha de obtenerse una
curva creciente para la tasa de fallos del componente C1 y otra decreciente para el
componente C2 (ver los valores del parmetro de forma).
16
En el nuevo panel del anlisis se informa que se han generado 100 nmeros aleatorios
de las distribuciones que se estn analizando. Pero hay que cambiar el tamao de la
muestra. Eso se hace en pane options (botn derecho). Se introduce 5000 en la nueva
ventana (figura 40).
Tan slo falta guardar estas muestras en nuevas variables, cuyos nombres sern C1 y
C2. Esto se hace presionando el botn
en la figura 41.
El proceso se repite para los componentes C3 y C4. Los aleatorios los guardamos con
esos mismos nombres.
NOTA IMPORTANTE: Se estn generando nmeros aleatorios. Cada vez que se
repita el proceso los nmeros cambian y, por lo tanto, los clculos de fiabilidad
17
tambin lo harn. Pero, al trabajar con muestras de un tamao tan grande, si los
clculos son correctos, las variaciones sern muy pequeas. Igual ocurre con los
siguientes grficos, de forma aproximada han de ser as, pero habr detalles que
varen un poco.
Una vez que se tienen la cuatro nuevas variables (de C1 a C4). Podemos obtener como
se hizo en la prctica 1 los tiempos de fallo de esta muestra de 5000 sistemas que se ha
obtenido. Entonces se puede obtener la tasa de fallos acumulada y saber si el sistema
tiene tasa de fallos creciente, decreciente o constante.
Nota: Recordar que haba que generar nuevas columnas, de nombres: S12, S123 y
S1234; con los siguientes textos:
cumulative hazard
S1234
10
(X 1000)
Quantile-Quantile Plot
(X 1000)
10
S1234
8
6
4
2
0
0
Weibull distribution
10
(X 1000)
18
otras simulaciones se obtendrn otros resultados pero cercanos a este). Debido a que
esta probabilidad es menor que la que se obtuvo en la prctica 1, que fue de 0.92 (con el
primer mtodo, el que se ha usado aqu) y 0.905 (con el segundo mtodo) se concluira
que para montar este sistema, los componentes usados en la prctica anterior se
comportan prcticamente de la misma manera que los simulados aqu.
Autoevaluacin de la prctica:
Se puede dar por superada esta prctica cuando tras su realizacin el alumno sea capaz
de:
19