Вы находитесь на странице: 1из 91

Elegir distribuciones que se ajusten a tus datos

 Datos y visualización: representación gráfica

 Elegir entre la familia de distribuciones: distribuciones discretas y


continuas.

 ¿Qué tan bueno encaja una determinada distribución? Prueba de


hipótesis y bondad de ajuste.
Ajuste de distribuciones a sus datos

 Muchos eventos futuros en el mundo son intrínsecamente inciertos.

o ¿A qué valor se adquirirá una empresa?

o ¿Cuántas unidades de un nuevo teléfono inteligente se


venderán en su presentación?

o ¿Cuántos dividendo pagará una empresa a sus accionistas el


próximo trimestre?

o ¿Una empresa alcanzará su objetivo de crecimiento el próximo


año? De lo contrario, ¿cuánto no alcanzará su objetivo?

 Mientras la incertidumbre en el mundo sea estacionaria (es decir, el


futuro no es fundamentalmente diferente del pasado), podemos usar
datos pasados para modelar las realidades futuras.
¿Cómo modelar la incertidumbre?
 La incertidumbre del mundo real se puede modelar utilizando variables
aleatorias.

 Algunas incertidumbres del mundo real pueden incluir:


o Valores de ganancias de una inversión
o Porcentaje de crecimiento en los ingresos.
o Pedidos de clientes para un nuevo producto.
o Tiempo de servicio (por ejemplo, tiempo para procesar una solicitud de
préstamo).

 La variable aleatoria es una descripción numérica de tales resultados.

 Típicamente, (pero no siempre), una variable aleatoria se denota con una letra
mayúscula como X o Y.

 Las variables aleatorias pueden ser discretas o continuas.

 Podemos caracterizar variables aleatorias por su distribución de probabilidad.


¿Cómo modelar la incertidumbre?(contd…)

 Antes de modelar variables aleatorias usando distribuciones, hacemos la


siguiente pregunta.

 ¿Qué tan importante es modelar la distribución?

 Voy a defender la elección de una distribución correcta utilizando dos


conjuntos de datos de ejemplo.

 Puede encontrarlos en el sitio del curso como


o Dataset1_Template.xlsx
o Dataset2_Template.xlsx

 Generamos histogramas y parámetros descriptivos y los guardamos como


Dataset1_histogram.xlsx y Dataset2_histogram.xlsx
Comprendiendo la incertidumbre

 Una forma de entender y describir la incertidumbre es visualizarlo.

 Generar un histograma es un buen método para visualizar datos.

 Un histograma es una representación gráfica de la distribución de


datos numéricos.

 Por ejemplo, un histograma ayuda a comprender la forma y la


escala de la distribución de la variable aleatoria.

 A medida que avanzamos, examinaremos una familia de


distribuciones y sus parámetros.
Dataset 1 Distribucion

 Ahora podemos examinar los resultados del Dataset 1 con 250


puntos de datos.

Histogram
50 120.00%
45
40 100.00%
35 80.00% Frequency
Frequency

30
25 60.00% Cumulative
20 %
40.00%
15
10 20.00%
5
0 0.00%

 En general, puede ver que los resultados bajos y altos son más
o menos comparables en frecuencia a los resultados de nivel
medio.
Dataset 2 Histograma

 Ahora podemos examinar los resultados del Dataset 1 con 250 puntos
de datos.
- Sin embargo, el histograma se ve bastante diferente.
Histogram
70 120.00%

60 100.00%
50
80.00%
Frequency

40 Frequency
60.00% Cumulative
30 %
40.00%
20

10 20.00%

0 0.00%
0 10 20 30 40
50 60 70 80
90 100 More

Puede ver que las ocurrencias bajas y altas son menos


frecuentes que los resultados en el medio.
El histograma tiene la forma de una curva de "campana".
¿Cómo modelar la incertidumbre?

 Los conjuntos de datos que vimos son diferentes, ¿cómo podemos


modelarlos de manera diferente?

 La incertidumbre del mundo real se puede modelar utilizando variables


aleatorias.

 Típicamente, (pero no siempre), una variable aleatoria se denota con letras


mayúsculas como X o Y.

 Las variables aleatorias pueden ser discretas o continuas.

 Podemos caracterizar variables aleatorias por su distribución de


probabilidad.

 Por visualización, uno podría argumentar que los dos conjuntos de datos
tienen dos distribuciones diferentes.
Variables aleatorias discretas y continuas

 Las variables aleatorias pueden ser discretas (es decir, contables).

o Cantidad de dulces M & M en una caja.


o Número de acciones de una empresa que se vendieron en un día.
o Número de inversores que asistieron a una reunión.
o Número de automóviles que pasan por una estación de peaje en
una hora.

 Las variables aleatorias pueden ser continuas

o La precipitación exacta en una región en particular durante la


temporada del monzón.
o Las alturas de hombres y mujeres que viven en una región.
o Velocidades de vehículos que pasan por un tablero de anuncios.
o Longitud de hilo de tela de una tonelada de algodón.
Describiendo una variable aleatoria

 Una variable aleatoria se describe típicamente por parámetros. Algunos


descriptores:

 Media: representa el valor "promedio" de la variable aleatoria en un número


infinito de repeticiones.

 Desviación estándar: mide el alcance de la "diseminación" de los resultados o


cuán "lejos" puede estar la variable aleatoria de la media.

 Varianza: cuadrado de la desviación estándar.

 Mediana: el valor de la variable aleatoria en "punto medio": el valor de la


variable aleatoria que se encuentra en el medio de, o separa, la mitad superior
de la mitad inferior.

 Modo: el valor más probable que toma una variable aleatoria.


Distribuciones

 En esta sesión, veremos algunas familias de distribuciones que a


menudo se usan para modelar realidades.

 Primero examinamos las distribuciones discretas y luego las


distribuciones continuas.
Una variable aleatoria simple

 Primero, veremos tres ejemplos simples de variables aleatorias, que nos


ayudarán a examinar otros ejemplos realistas.

 Una moneda es lanzada. Verá "cara" o “sello". El resultado es una variable


aleatoria.

 Un equipo juega contra otro equipo opositor levemente más débil. La


probabilidad de ganar del equipo es del 60% (y la probabilidad de perder es del
40%).
o El resultado es una variable aleatoria. Tenga en cuenta algunas similitudes
con el ejemplo del lanzamiento de monedas.
 Una feria "muere es arrojado" en un juego de dados. Los resultados pueden ser
1, 2, 3, 4, 5 o 6.
o La probabilidad de que aparezca "6" = 1/6.
o La probabilidad de que aparezca "1" = 1/6
o Tenga en cuenta que para una muerte justa, estas probabilidades son las
mismas para cualquier resultado
Distribución Bernoulli

 La distribución de Bernoulli tiene solo dos resultados


o Cada resultado que ocurre con cierta probabilidad.

o Las dos probabilidades suman hasta 1.

 Veamos algunos escenarios realistas que se pueden modelar con la distribución de


Bernoulli.

o ¿Una empresa de Europa ingresará al mercado en Asia?

o ¿Un equipo clasificado cuarto en la mitad de la temporada gana la Premier


League inglesa cuando concluya la temporada?

o ¿Comprará una empresa de viajes compartidos su competidor de arranque más


pequeño?

o ¿Qué pasa si el número de resultados es más de dos?


Una distribución con tres resultados

 Supongamos que una empresa entra en un nuevo mercado.

 Los gerentes ven tres posibles "escenarios" para modelar con una
distribución.

 La participación de mercado de la firma el próximo año podría ser "baja",


"mediana" o "alta".

o La probabilidad de una participación de mercado "alta" es del 20%


o La probabilidad de una participación de mercado "mediana" es del
70%
o La probabilidad de una participación de mercado "baja" es del 10%
Tres resultados y distribución de probabilidad

 Por ejemplo, supongamos que tenemos una distribución de probabilidad


para la cuota de mercado futura (basada en estimaciones de expertos).
Solo los siguientes tres resultados son posibles.
o Cuota de mercado D1 = 80% con probabilidad p1 = 0.2
o Cuota de mercado D2 = 50% con probabilidad p2 = 0.7
o Cuota de mercado D3 = 20% con probabilidad p3 = 0.1

 Tenga en cuenta que las probabilidades son


o mayor que cero, y
o ellos suman hasta 1.

 Las distribuciones de probabilidad como esa, descrita por un número de


escenarios distintos con probabilidades adjuntas, se llaman discretas

 Las probabilidades de varios resultados se caracterizan típicamente por


una función de densidad de probabilidad (pdf).
Una representación gráfica de un pdf

Probability of
occurrence
0.8

0.6

0.4

0.2

20 40 60 80 Market Share
Describiendo la distribución: media y desviación
estándar

 Para cualquier distribución de probabilidad, incluida una simple que refleje


tres escenarios de demanda, a menudo se calculan dos descriptores útiles:
la media (también llamada valor esperado) y la desviación estándar

 Para una distribución de probabilidad discreta, la media se define como una


suma de los productos de los valores de escenario y sus probabilidades

 Para nuestra distribución de participación de mercado, la media D¯ = p1D1


+ p2D2 + p3D3 = 0.2 * 80 + 0.7 * 50 + 0.1 * 20 = 53.

 La media, en este caso, refleja la cuota de mercado promedio que


veríamos, si la empresa tuviera la oportunidad de intentar la misma acción
infinitas veces.
Distribución de probabilidad de tres resultados: media

Probability
Mean = 53
0.8

0.6

0.4

0.2

20 40 60 80 Market Share
Describiendo la distribución de probabilidad:
desviación estándar

 La desviación estándar describe, en términos generales, qué tan lejos


están los valores reales de las variables aleatorias de la media, en
promedio. Coloquialmente hablando, describe cómo "repartir" la
distribución está alrededor de su significado.

 La desviación estándar se define como una raíz cuadrada de la suma de


los productos de las probabilidades de los escenarios y los cuadrados de la
diferencia entre el valor del escenario y el valor medio

 Por ejemplo, para la distribución de probabilidad de demanda de tres


escenarios que consideramos, la desviación estándar se calcula como
SD = p1 ∗ D1 — D¯ 2 + p2 ∗ D2 — D¯ 2 + p3 ∗ (D3 — D¯)2
= 0.2 ∗ 80 — 53 2 + 0.7 ∗ 50 — 53 2 + 0.1 ∗20 — 53 2 = 16.16
Distribución de probabilidad de tres resultados:
media y desviación estándar
 La media y la desviación estándar ayudan a respaldar una intuición general
sobre la naturaleza de una variable aleatoria
Probability
Mean = 53
0.8

0.6

0.4

0.2 SD = 16.16

20 40 60 80 Market Share
Resultados Múltiples: pdf
 ¿Qué pasa si tenemos más de tres resultados?
 Supongamos que hay n resultados.
o D1 con probabilidad p1

o D2 con probabilidad p2
o D3 con probabilidad p3
o ......

o Dn con probabilidad pn

y p1 + p2 + p3 + ⋯ + pn = 1

 La función de densidad de probabilidad (pdf) de la variable aleatoria X se


escribe típicamente como

ƒ k= Prob X = Dk =pk
Resultados Múltiples: Función de Distribución
Acumulativa

 Las distribuciones también están descritas por la CDF o la función de


distribución acumulativa.

 CDF tiene el mismo propósito que el pdf y es solo otra forma de describir
la variable aleatoria.

 Representado por letras mayúsculas (y el pdf a menudo se representa


con letras minúsculas).

 La función de distribución acumulativa es la suma de pdfs hasta el punto


de interés.

e.g. F(D3) = Prob X ≤ D3 = p1 + p2 + p3


Multiple Outcomes: Mean and Standard
Deviation

 ¿Qué pasa con la desviación media y estándar de la distribución para n


resultados discretos?

 Media = D¯ = p1D1 + p2D2 + p3D3 + ⋯ + pnDn

 Desviación Estándar=
p1 ∗ D1 — D¯ 2 + p2 ∗ D2 — D¯ 2 + ⋯ + pn ∗ Dn — D¯ 2
Resultados múltiples: ejemplo de dados

 Una suerte está echada. Variable aleatoria X = Número que aparece. Hay
6 resultados posibles para la variable aleatoria X.

 La cara podría mostrar 1 o 2 o 3 o 4 o 5 o 6.

 Todos los resultados tienen la misma probabilidad de ocurrir. (Este es un


dado "justo")

 La función de densidad de probabilidad (pdf):

f n = Prob X = n =1 for n = 1,2,3,4,5,6


6

 Esta distribución de esta variable aleatoria es una distribución


discreta uniforme.
Ejemplo de dados: media y desviación estándar

 Media = D¯ = p1D1 + p2D2 + p3D3 + ⋯ + pnDn

 Mean =(1/6)(1) + (1/6)(2) + (1/6)(3)+ (1/6)(4) +(1/6)(5) +(1/6)(6)


= 3.5

 Desviación Estándar=
p1 ∗ D1 — D¯ 2 + p2 ∗ D2 — D¯ 2 + ⋯ + pn ∗ Dn — D¯ 2

 Desviación Estándar = 1.708


Uniforme Discreto: Distribución acumulativa
Función

 Probabilidad de que la variable aleatoria, X sea menor que n


F n = Prob X ≤ n = p1 + p2 + ⋯ + pn

 CDF da la probabilidad de que el resultado sea menor o igual a algún valor,


de modo que ...
– F(1) = 1/6
– F(2) = 2/6 = 0.333
– F(3) = 3/6 = 0.5
– F(4) = 4/6 = 0.666
– F(5) = 5/6 = 0.833
– F(6) = 1

 La distribución acumulativa siempre toma el valor de 1 en el resultado más


alto.
Una distribución uniforme y discreta

 Consider random variable X with a discrete uniform distribution.

 Discrete uniform distribution is completely described by the total


number of possible outcomes N.
– Suppose, the possible outcomes are numbered by n = 1,2, … , N

 Probability density function

– f n = Prob X=n = 1N ƒor n = 1,2,3, …,N

 Función de distribución acumulativa


– F n = Prob X≤n = nNƒor n = 1,2,3, … ,
N

N 2–1
 Media= (N +1)/2 y Desviación Estandar =
12
Otro ejemplo de variable discreta

 Veamos otro ejemplo.

 Ejemplo: Distribución binomial


Resultados Multiples: Distribución
Binomial

 Supongamos que está decidiendo si invertir en un nuevo medicamento


para curar una dolencia difícil de curar. El medicamento se encuentra
actualmente en la fase de ensayos clínicos.

 Según las pruebas de laboratorio, el nuevo medicamento tiene 60% de


probabilidad de éxito para curar la dolencia de un paciente. Con una
probabilidad del 40%, la droga falla (es decir, no hay ningún efecto).

 El medicamento se prueba en 10 pacientes durante los ensayos clínicos.

 ¿Cuántos éxitos habría allí después de los ensayos clínicos?

 El número de éxitos es una variable aleatoria con 11 resultados posibles:


el número de éxitos puede ser 0, 1, 2, 3, ..., 8, 9 o 10.
Discrete Example: Binomial Distribution

 La variable aleatoria X aquí es Successes Probability


la cantidad de éxitos. 0 0.000105
1 0.001573
 El número de éxitos se 2 0.010617
distribuye "binomialmente".
3 0.042467
4 0.111477
 pdf de la distribución se da a la
derecha. 5 0.200658
6 0.250823
– e.g. f 6 = Prob X= 6 = 7 0.214991
25.08% 8 0.120932
9 0.040311
 Calcule la media y la desviación 10 0.006047
estándar como un ejercicio
(usando la diapositiva titulada Mean = 6
"Resultados múltiples: media y Standard deviation = 1.549
desviación estándar")
Discrete Example: Binomial Distribution

 Aquí está la representación gráfica de pdf de la distribución


binomial (para el ejemplo de ensayos de drogas).

0.3

0.25

0.2
Probabilit

0.15
y

0.1

0.05

0 1 2 3 4 5 6 7 8 9 10

W in s Successes
Discrete Example: Binomial Distribution

 The random variable X is the pdf CDF


number of successes. n Pr[X=n] Pr[X≤ n]
0 0.000105 0.000105
 pdf 1 0.001573 0.001678
– e.g. f 6 = Prob X= 6 2 0.010617 0.012295
= 25.08%
3 0.042467 0.054762

4 0.111477 0.166239
 Cumulative Distribution
Function: 5 0.200658 0.366897

– e.g. F 6 = Prob X≤ 6 6 0.250823 0.617719

= 61.77% 7 0.214991 0.83271

8 0.120932 0.953643
 The probability that there will 9 0.040311 0.993953
be 6 or fewer successes is
10 0.006047 1
61.77%
Binomial Cumulative Distribution Function

 Representación gráfica 1
de la función de 0.9
distribución
0.8
acumulativa de la
0.7
distribución binomial
0.6

CDF
0.5
 Esta es la 0.4
probabilidad de que
0.3
el número de éxitos
0.2
(variable aleatoria)
sea menor o igual 0.1

que n. 0
0 1 2 3 4 5 6 7 8 9 10
Successes
Distribución Binomial

 Considere una variable aleatoria X distribuida según una distribución


binomial.

 La distribución binomial está completamente descrita por el número


total de "ensayos" N y la probabilidad de éxito en cada prueba p
 - Los posibles resultados están numerados por n = 0, 1, 2, 3, ..., N

 Función de densidad de probabilidad

N N!
– f n = Prob X=n = N pn(1 —p)N–n where n =
n N–n !n!
e.g. 4!=1x2x3x4=24.

 Cumulative distribution function


– F n = Prob X≤n = ∑nk=O N pk(1 — p)N–
k k

 Binomial: Mean = Np and Standard Deviation = Np(1 —p)


Distribuciones Continuas

 Ahora echemos un vistazo a las distribuciones


continuas.
Distribuciones de probabilidad discretas vs.
continuas

 Hasta ahora, hemos analizado las distribuciones de probabilidad discretas


con un número contable de resultados o escenarios.

 A veces…
a) la variable aleatoria modelada tiene un gran número de escenarios en
cualquier pequeño intervalo de valores y
b) la probabilidad de que se realice un escenario exacto es muy pequeña

 Piense en ejemplos como el precio de las acciones o la cantidad de lluvia


en una región.

 En tales casos, tiene sentido describir dicha distribución de probabilidad


utilizando grupos de escenarios en lugar de centrarse en escenarios
individuales
Variables Aleatorias Continuas

 Una variable aleatoria X puede tomar cualquier valor en la línea real


continua.

 Podemos describir pdf y CDF como antes ...

 f (x) - función de densidad se refiere a la probabilidad de que la


variable aleatoria X se encuentre en la región infinitesimal alrededor de
x.

 F (x): Función de distribución acumulativa. Esto es acumulativo y se


puede definir como la probabilidad de que la variable aleatoria X sea
menor o igual a x.s

Fx =ƒ ƒ u du
–œ
Variables aleatorias continuas: media y
desviación estándar

 Media o expectativa de la variable aleatoria:

œ
μ=EX = ƒ uƒ u du
–œ

 Varianza de la variable aleatoria:

œ
o2 = E (X —µ)2 = ƒ (u
— µ)2ƒ u du
–œ

 La desviación estándar es la raíz cuadrada de la


varianza.
Distribución continua: Variable aleatoria
X
Distribuciones como esta se llaman continuas
Densidad de probabilidad

Valores of
X
Distribución continua: Variable aleatoria
X

 Distribución continua: Variable aleatoria X

X1 X2

Values of X

El área es igual a la probabilidad de que


la variable aleatoria X tome valores en el
intervalo entre X1 y X2

El área bajo toda la curva es igual a 1


Ejemplo 1: distribución normal

 Uno de los ejemplos más populares de una distribución de probabilidad


continua es la distribución normal
 Permite que la variable aleatoria subyacente tome cualquier valor desde
infinito negativo a infinito positivo, y
 está completamente caracterizado por dos parámetros– media  y
desviación estándar .

Probability Density
Function

Probability

←— ∞→
Values of X

Normal Distribution

Probability σ
density function

Función de densidad de probabilidad para x en línea real


2
1 – (s– µ2)
fx = e 2o
o 2n

 Función de distribución acumulada para cualquier


valor real de xs
F x = ƒ ƒ u du
–œ
Distribución Normal

 Las fórmulas estadísticas (se pueden implementar en Excel) para calcular


el pdf y CDF

– para una variable aleatoria normal X con una media determinada y


una desviación estandar 
2
1 –(x—µ)
 pdf fx = e 2o2 En excel use normdist(x,µ,o,0)
o 2n

s
 CDF F x = ƒ –œ ƒ u du En excel use normdist(x,µ,o,1)
Ejemplo 2: Distribución Uniforme

 Permite que la variable aleatoria subyacente tome cualquier valor entre dos
puntos: un punto mínimo (digamos, a) hasta un punto máximo (por
ejemplo, b) y todos los resultados tienen la misma probabilidad de ocurrir.

 Está completamente caracterizado por dos parámetros: valor mínimo y


máximo.
Ejemplo 2: Distribución Uniforme

Probability density
Function

1
 pdf: f x = (b–a) ƒor a ≤ x ≤ b, and 0 otherwise

0 ƒor x € a
CDF: Fx = {(x — a)/(b — a) ƒor a ≤ x ≤
b
1 ƒor x Σ b
Otras distribuciones continuas

 Nos enfocamos en las dos distribuciones de ejemplo. Sin embargo, muchas


otras distribuciones continuas se utilizan a menudo.

 Distribución exponencial, p. utilizado para modelar los tiempos de


procesamiento de préstamos.

 Distribución beta, p. para modelar los tiempos de finalización del proyecto en


intervalos fijos.

 Distribución gamma, p. para modelar el tiempo entre eventos en riesgo de


seguro.

 Distribución lognormal, p. modelar eventos con bajas probabilidades de valores


grandes.

 ¿Qué distribución se adapta bien? Aprenderemos sobre las pruebas de bondad


de ajuste (para distribuciones normales y uniformes) en la próxima sesión.
Ajustar las distribuciones a los datos

 Hicimos un caso en el que es importante ajustar una distribución


"correcta" visualizando los datos.

 Generamos histogramas para nuestros dos conjuntos de datos.


o Dataset1_histogram.xlsx
o Dataset2_histogram.xlsx

 Ahora, podemos usar esos archivos para probar la bondad del


ajuste.

 Antes de hacerlo, comprendamos el concepto detrás de probar la


bondad del ajuste de una distribución.
Goodness of Fit tests

 After evaluating the histograms and summary statistics (mean,


standard deviation, etc), we can explore distributions that can
provide a good fit.

 Goodness of fit tests provide statistical evidence to test hypotheses


about the nature of distribution that can fit the data.

 Two popular statistical goodness-of-fit tests are


– Chi-Square test (32 test)
– Kolmogorov-Smirnov test.

 Anderson-Darling test is another test that is used less frequently.

 We will focus on the Chi-Square test.


Chi-Square test

 El Chi-Cuadrado prueba la siguiente hipótesis nula contra la


hipótesis alternativa.

 Hipótesis nula: los datos estudiados provienen de una variable


aleatoria que sigue una distribución especificada (por ejemplo,
uniforme o normal).

 Hipótesis alternativa: los datos de muestra no provienen de la


distribución especificada.

 Nota: esta es una prueba unilateral.

 En otras palabras, puede desaprobar que los datos provengan


de una distribución específica, pero no puede probar que
provienen de esa distribución.
Running a Chi-Square Test on Your Data

 We will run the Chi-Square tests on our datasets. However, we will


first look at some thumb rules to run the test.

 Ideally, you should have at least 50 data points.

 Divide your data into n “buckets” with at least 5 observations in each


bucket.

 Every Chi-Square test has “degrees of freedom” = number of


buckets – parameters of specified distribution – 1.

 For example, if you have n=10 buckets and try to fit a normal
distribution with 2 parameters (mean and standard deviation),
– Degrees of freedom = 10 – 2 – 1 = 7.
Chi-Square Test

 For each Chi-Square test with some degree of freedom, you can
reject the null hypothesis with some confidence.
– This could be set at 99%, 95%, etc.

 Chi-Square confidence tables are available at lots of sources.


– For example, see the table at the following online link.
https://www.medcalc.org/manual/chi-square-table.php

 We will explore Chi-Square test on our two-data sets


– Dataset1_histogram.xlsx
– Dataset2_histogram.xlsx
Data Set 1

 The figure below gives the histogram


– pdf in blue bars
– CDF in red curve.

 Given the visualization of the pdf suggests a uniform distribution


– We run a chi-square test for uniform distribution based on calculated
min and max values from the data

Histogram
50 120.00%
45
40 100.00%
35 80.00% Frequency
Frequency

30
25 60.00% Cumulative %
20
40.00%
15
10 20.00%
5
0 0.00%
Data Set 1

 Descriptores para distribución uniforme (2 parámetros).


Valor MIN = 0.09
Valor MAX = 99.87

 Recuerde que nuestra hipótesis nula es que los datos provienen de una
distribución uniforme.

 Grados de libertad = Número de bins - Número de parámetros -1


 = 10 - 2 -1 = 7.

 La prueba Chi-cuadrado arroja un valor de 0.013


 Mirando las tablas (por ejemplo, enlace), para el grado de libertad 7.
 No podemos rechazar la hipótesis nula de que los datos provienen de la
distribución uniforme (con una confianza del 99.5%).
Data Set 2

 La figura a continuación muestra el histograma


o pdf en barras azules
o CDF en curva roja.

 Dada la visualización del pdf, sugiere una distribución normal


 Ejecutamos una prueba de chi-cuadrado para la distribución
normal basada en el promedio calculado y la desviación estándar
de los datosHistogram
70 120.00%

60 100.00%
50
80.00%
Frequency

40 Frequency
60.00% Cumulative %
30
40.00%
20

10 20.00%

0 0.00%
0 10 20 30 40 50 60 70 80 90 100 More
Data Set 2

 Descriptores para distribución Normal (2 parámetros).


o Promedio de la muestra (media de la muestra) = 47.20
o Desviación estándar = 15.78

 Recuerde que nuestra hipótesis nula es que los datos provienen de una
distribución normal.

 Grados de libertad = Número de bins - Número de parámetros -1


 = 10 - 2 - 1 = 7.

 La prueba Chi-cuadrado arroja un valor de 0.8851


 Mirando las tablas (por ejemplo, enlace), para el grado de libertad 7.
 No podemos rechazar la hipótesis nula de que los datos provienen de la
distribución normal (con una confianza del 99,5%).
Goodness of Fit Files

 The tabulated excel files are now reported in

– Dataset1_FIT.xlsx
– Dataset2_FIT.xslx
Kolmogorov-Smirnov test (K-S test)

 For small samples, K-S test is more suitable.

 Basic Idea of K-S test:


– Arrange the data values in ascending order
– Arrange theoretical values similarly (from cumulative distribution
function).
– Find the maximal difference between the data value and its
corresponding theoretical value.
– If this maximal difference value is low, the fit is good.

 Typically, a value of 0.03-0.04 or lower is considered good.


Modeling Using Continuous Distributions

 Depending on size and nature of data, modeling reality using


continuous distributions and choosing the correct distribution can be
a challenging task.

 It is mathematically elegant to use a continuous distribution, but the


approach creates complexities.

 Hence, often simulation is used.


Simulacion:

Conley Fisheries
Esquema General
• Motivar la necesidad de la simulación
• El problema de Conley Fisheries}
• Generadores de números aleatorios
• Muestreo de distribuciones discretas y continuas
• Simulando el problema de Conley Fisheries en
Excel (sin Crystal Ball)
• Analizando los resultados de la simulación ...

6
7
La Necesidad de una Simulación
• Considere el siguiente modelo matemático simple: ganancias =
ingresos totales - costo total
• Si conocemos los datos con certeza (como supuestamente lo
hacemos cuando preparamos estados financieros basados en
datos históricos), el cálculo de los beneficios es trivial ...
• Sin embargo, el cálculo de las ganancias futuras requiere que
consideremos las incertidumbres asociadas con los ingresos y
los costos (es decir, los ingresos y el costo son variables
aleatorias)
• Estas incertidumbres resultan en una gran cantidad de
escenarios de ganancias ...
• El solo hecho de observar una cifra de ganancia única basada
en los valores esperados ignora por completo el hecho de que
los resultados reales pueden desviarse significativamente del
valor esperado de las ganancias.
6
8
La Necesidad de una Simulación
• En general, vemos que las ganancias, P, son una función de dos
variables aleatorias: ingreso total, R y costo total, C:
P = f (R, C)
• Como P es una función de variables aleatorias R y C, entonces P
es también una variable aleatoria.
• Derivar la distribución de probabilidad para funciones de variables
aleatorias es imposible en la mayoría de los casos prácticos.
• Usando la simulación, podemos calcular empíricamente la
distribución de la variable aleatoria de interés generando una gran
cantidad de escenarios para los r.v.s. subyacentes.
• En este caso, podemos generar escenarios para P generando
valores aleatorios de R y C, y luego construir la distribución
empírica de P (tabla de frecuencias / histograma)
• La distribución de probabilidad de P nos da la información
detallada que necesitamos para responder muchas preguntas ...

6
9
Conley Fisheries Inc.: "Un problema con
el barco"

Para el ejemplo de Conley Fisheries, consulte el


Hand out del caso que se entrego en clase.

70
Distribución equivalente para Q
Cantidad (Q en lbs) Probabilidad CDF
0 0.02 0.02
1,000 0.03 0.05
2,000 0.05 0.10
3,000 0.08 0.18
3,500 0.82 1.00
E(Q)= 3240 lbs
Como P y Q son independientes, tenemos que:

E(R)= (3.65 $/lb) (3240 lbs) - 10000 = $1826


*Tenga en cuenta que las unidades de E (R) son $ = ($ /
lb) (lbs)
En la práctica, calcular el valor esperado de una variable
aleatoria simulada no es sencillo ...
CDF= Probailidad Acumulada 71
Procedimiento general para generar valores
aleatorios para un v.a.
i. Genera un valor aleatorio uniforme, v, en el intervalo [0,1]
ii. Use v para calcular un valor aleatorio, x, fGenera un valor
aleatorio uniforme, v, en el intervalo [0,1] o las distribuciones
de probabilidad de interés usando el inverso de la CDF: x =
F-1 (v)
Función de distribución acumulada F (X) de la variable aleatoria X
1.0
F(X)
0.9

0.8

0.7

0.6

0.5
0.4

0.3

0.2

0.1

0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
X

72
Cálculo de un escenario de ganancias
1. Genera un valor aleatorio, q, para la cantidad (r.v. Q)
2. Genera un valor aleatorio, p, para el precio (r.v. P)
3. Calcular las ganancias de Rockport: qp - 10,000 ($)

Para realizar 1 y 2 usamos un generador de números


aleatorios (un uniforme [0,1] r.v.) para:

* Genera un valor aleatorio, v, en el intervalo [0,1]


* Use v para calcular un valor aleatorio, x, para las
distribuciones de probabilidad de interés utilizando el
inverso de la CDF:
x = F-1(v)
73
Generando un valor aleatorio para Q
1. Genere un valor aleatorio, v, en el intervalo [0,1] (por ejemplo,
usando Excel RAND () obtenemos v = 0.0345)

2. Genere un valor aleatorio, d, leyendo la tabla CDF para d al


revés (¡implementar esto en Excel es fácil!):
En este caso, d = 1000 desde F(0)=0.02 < v  0.05=F(1000)

3. Calcule q = min (3500, d) = 1000 lbs.

(¡Importante : Observe que asignamos arbitrariamente el


extremo superior del intervalo si v = F (). En teoría, este es
un evento de probabilidad cero. Sin embargo, esto puede
suceder en la práctica ya que las computadoras tienen
arquitecturas finitas. Entonces, si v = .0500, luego d = 1000,
no el siguiente valor más alto)
74
Leyendo el CDF para Q

1.00

.18
.15

.05
.02
.00
0 1000 2000 3000 3500 cantidad

75
Generando un valor aleatorio para P
1. Genera un valor aleatorio, v, en el intervalo [0,1] (por
ejemplo, usando Excel RAND () obtenemos v = 0.4321)

2. Lea la tabla CDF para Z N (0,1) al revés o utilice Excel


NORMINV (). En este caso z = -0.17103

3. Use la fórmula z para calcular un valor para X N (3.65 $ / lb,


0.20 $ / lb): x =  + z = 3.65 + (-0.17103)(0.20) = 3.62*
4. Calcular P = max (0,x)= 3.62 $/lb

(*Tenga en cuenta que x se puede calcular usando NORMINV


() si damos 3.65 y .20 como argumentos medios y SD en
lugar de 0 y 1, es decir, N [3.65, .20]).

76
Un valor aleatorio para P
Cumulative Distribution Function of the Random Variable P (Price)
1.0
F(P)
0.9

0.8

0.7

0.6

0.5
0.4

0.3

0.2

0.1

0.0

3.25 3.65 4.05 Price

77
Fuera de la vista, fuera de la mente
• Recuerde que las simulaciones son
impulsadas por la comprensión del tomador de
decisiones
• Si no considera las principales fuentes de
incertidumbre, no puede identificar sus
contribuciones
• Si no incluye ramas en su árbol de decisiones
o resultados en las sucursales, no se
considerarán en su decisión

78
Modeling Using Continuous Distributions

¿Cuál es una estimación de P (F> $ 1,375)?


Esta pregunta se puede responder utilizando el método de conteo
desarrollado. La fracción de valores de x1, x2,. ••, x200 en la Tabla
5.10 que son más grandes que $ 1,375 es una estimación de la
probabilidad p para la cual
p = P (F> $ 1,375).
Si contamos el número de valores de X1, x2, ..., x200 en la Tabla que
son más grandes que $ 1,375, obtenemos que 165 de estos 200
valores son más grandes que $ 1,375. Por lo tanto, una estimación
de p = P (F> $ 1,375) es: 165/200 = 0,83.
Por lo tanto, estimamos que hay un 83% de probabilidad de que las
ganancias en Rockport en
cualquier día dado excedería las ganancias de Gloucester. Esto apoya
la estrategia
opción de elegir Rockport sobre Gloucester.
Modeling Using Continuous Distributions

¿Qué es una estimación de P (F <O)?

Recuerde que la fracción de valores de Xi, x2,. ••, x200 en la Tabla 5.10
que son menos de $ 0 es una estimación de la probabilidad p para la
cual p = P (F <$ 0). Si contamos
el número de valores de Xi, x2, •••, x200 en la Tabla 5.10 que son
menores de $ 0, obtenemos 26 de estos 200 valores son menos de $ 0.
Por lo tanto, una estimación de p = P (F <$ 0) es: 26/200 = 0.13.
Por lo tanto, estimamos que hay un 13% de probabilidad de que Conley
Fisheries pierda dinero en cualquier día si eligen vender su captura en
Rockport. Esto muestra que el riesgo de elegir Rockport no es
demasiado grande, pero tampoco es insustancial.
Modeling Using Continuous Distributions

¿Cuál es una estimación del valor esperado de F?


Sabemos que la muestra observada significa x de esta muestra de 200
valores observados es una buena estimación del valor esperado real μ de la
distribución subyacente de F, especialmente cuando el tamaño de la
muestra es grande (y aquí, el tamaño de la muestra es n = 200, que
es bastante grande). Por lo tanto, la media de muestra observada de los
200 valores Xi, x2, •••, x200 en la Tabla 5.10 debería ser una muy buena
estimación del valor esperado μ, del azar variable F. Es sencillo obtener la
media muestral x para la muestra dada en Tabla 5.10. Su valor es
_ = 2,445 + 2,005 + ... +3,614 = $ 17 8 38 /200
Por lo tanto, nuestra estimación de la media de la variable aleatoria F es $
1,768.38. Darse cuenta de este valor es mayor a $ 1,375, que es la
ganancia que Conley Fisheries puede obtener (con certeza) vendiendo su
pescado en Gloucester. Por lo tanto, una estimación del aumento esperado
en los ingresos de la venta en Rockport es de:
$ 393.38 / día = $ 1,768.38 / día - $ 1,375.00 / día.
Modeling Using Continuous Distributions

¿Cuál es una estimación de la desviación estándar de F?


Recordemos de la metodología de muestreo estadístico del Capítulo 4 que
lo observado las desviaciones estándar de la muestra es una buena
estimación de la desviación estándar real u de la variable aleatoria F,
especialmente cuando el tamaño de la muestra es grande. Es sencillo
para obtener la desviación estándar de la muestra observada para la
muestra dada en la Tabla 5.10, como sigue:
Modeling Using Continuous Distributions

y nuestra estimación de la desviación estándar de Fis s = $ 2,672.59. Esta


desviación estándar es bastante grande, lo que confirma la intuición de Clint
Conley de que no es sustancial riesgo involucrado en el uso de Rockport
como el puerto en el que vender su captura diaria.
Modeling Using Continuous Distributions

Estimamos que la forma de la distribución de las ganancias diarias de Rockport


sera como se muestra en la Figura 5.5. La mayoría de los días las ganancias
serán entre $ 0 y $ 4,500
por día. Sin embargo, en algunos días este número podría ser tan bajo como -
$ 10,000.
• Estimamos que la probabilidad es 0.83 que las ganancias diarias en Rockport
sea más grande que en Gloucester en un día cualquiera.
• Estimamos que la probabilidad es 0.13 de que las ganancias diarias en
Rockport ser negativo en cualquier día dado.
• Estimamos que las ganancias diarias esperadas de Rockport son de $
1,768.38. Esto es más alto que las ganancias en Gloucester serían, por $
393.38 / día.
• Estimamos que la desviación estándar de las ganancias diarias en Rockport
es $ 2,672.59.
• El intervalo de confianza del 95% para las ganancias diarias reales esperadas
del uso Rockport excluye $ 1,375. Por lo tanto, tenemos un 95% de confianza
de que lo esperado en utilidades diarios desde Rockport es más alto que desde
Gloucester.
Ejemplo de árbol de fallas
El auto no arranca

Error del Falla del Error del Otro


Batería sistema sistema de sistema de Vandal Todo
de combustible encendido
fallo del
baja -ismo los
arranque motor
demas

Otro fallo Problema


del cinturón
del motor de
seguridad

ignicion Relay de Objeto


Arranque No pesado
sujetado en el
asiento
88
Ejemplo de árbol de fallas
Car won’t start

Falla del Otro


Bateria sistema de Todos
combustible
fallo del
Baja los
motor
demas

89
Resultados
Bateria Sistema Siste Sistema Motor Mis- Otros
Students de ma de de chief
Encendi combu encendi
do stible do
Full 26% 20% 19% 14% 7% 5% 8%

Pruned 43% 31% 12% 14%


(47%)
Car Mech-
anics
Full 41% 11% 10% 25% 5% 3% 6%

Pruned 48% 23% 7% 22%


(45%)
90
Resumen y mirada hacia adelante
• La simulación es útil para comprender el
impacto de la incertidumbre en la distribución
de los resultados esperados
• Afortunadamente, las computadoras pueden ser
de gran ayuda para generar un gran número de
escenarios
• Las computadoras no pueden pensar por sí
mismas; necesitan que les digas en qué pensar
(fuera de la vista, fuera de la mente)
• Prepare el caso Gentle Lentil

91

Вам также может понравиться