Академический Документы
Профессиональный Документы
Культура Документы
Pr
ologo
Este trabajo corresponde a la septima edicion de las notas de clases del curso de
Estadstica impartidas por el autor a los alumnos de la Facultad de Estudios Generales
Letras de la Pontificia Universidad Catolica del Per
u.
En esta edicion se han corregido los errores encontrados y mejorado algunos ejemplos y
ejercicios propuestos. Se han mantenido enumerados los captulos y secciones. Tambien se
trata brevemente de la funcion generadora de momentos. Sin embargo, considero todava
inconcluso el trabajo y continuare la tarea de revision del texto.
Este texto incluye topicos de economa y administracion, como el estudio de la
desigualdad de los ingresos a traves de la curva de Lorenz y el indicador de Gini y
los modelos binomial y de Black-Scholes muy conocidos en el area de finanzas.
Agradezco a mi colega Richard Chavez por su valiosa ayuda y comentarios sobre los
temas de finanzas aqu tratados.
Tambien agradezco a la seccion de Matematicas por las facilidades brindadas para la
elaboracion de este texto, a la Facultad de Estudios Generales Letras por promover este
tipo de trabajos, a la Oficina de Publicaciones para la docencia de nuestra Universidad, a la
doctora Kathia Hanza, ex-directora de estudios de la Facultad de Estudios Generales Letras,
por el apoyo brindado en la primera edicion, y al profesor Luis Vargas por la revision de la
primera version del texto.
Me permito tambien felicitar a ustedes, alumnos, por su madurez demostrada al optar
por esta Universidad, sabiendo de su exigencia y prestigio reconocidos; los invito a que
contribuyan a mantenerlos, como lo han hecho los que los precedieron.
Finalmente, quiero advertir a los alumnos que este texto no debe sustituir a los principales
manuales del tema, ni a las clases, ni a sus propios apuntes, que espero ahora puedan hacer
en mejores condiciones. La lectura de la bibliografa sobre el tema es necesaria y valiosa para
un mejor aprendizaje.
Jose Flores Delgado.
Lima, marzo de 2013.
Indice
1. Probabilidad
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
13
14
15
La regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
21
24
27
2. Variable aleatoria
39
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
42
44
45
46
47
. . . . . . . . . . . . . . . . . . . . . . . . .
49
50
Estadstica
51
52
53
55
77
77
78
80
82
82
83
85
86
87
88
93
95
95
99
99
4. Indicadores de concentraci
on para medir la desigualdad de los ingresos
117
INDICE
5. Estadstica descriptiva
123
6. Correlaci
on y regresi
on lineal
157
Estadstica
Bibliografa
165
1.
Probabilidad
1.1. Introducci
on
El objetivo es cuantificar las posibilidades que tengan ciertos eventos inciertos. Sin duda,
el evento incierto de mayor importancia para la estadstica ocurre cuando se infiere algo a
partir de solo una muestra, en este caso, es importante averiguar la veracidad o el grado de
credibilidad que se le pudiera dar a dicha generalizacion, por eso la probabilidad es de suma
importancia para la estadstica.
Es importante se
nalar que muchas veces se debe tomar una decision en un contexto de
incertidumbre, en estos casos, la probabilidad resulta muy u
til para evaluar los riesgos.
Empezaremos tratando los conceptos basicos, propiedades y uso de la probabilidad; luego
veremos algunos modelos probabilsticos.
Definici
on 1.1. Experimento aleatorio. Es cualquier experimento cuyo resultado no se
puede predecir con certeza antes de realizarlo.
Definici
on 1.2. Espacio muestral asociado a un experimento aleatorio. Es el
conjunto de resultados posibles del experimento. Usualmente se lo denota por S u .
Ejemplo 1.1. Un lote contiene unidades que pueden tener alg
un defecto. Se escogeran dos
unidades al azar y se determinara si estas tienen alg
un defecto. Podemos considerar como
espacio muestral a = { (0; 0), (0; 1), (1; 0), (1; 1) }, con la convencion siguiente: el primer
componente de cada par ordenado representa el estado de la primera unidad y el segundo el
de la otra, ademas 0 significa que la unidad no tiene defectos y 1 que tiene alguno.
Definici
on 1.3. Evento Es cualquier subconjunto del espacio muestral1 . Es decir, salvo el
caso del evento , un evento es cualquier conjunto de resultados del experimento.
Ejemplo 1.2. A continuacion describamos algunos eventos del ejemplo anterior:
a) Ambas unidades estan en el mismo estado: A1 = {(0; 0), (1; 1)}.
Este evento tiene dos resultados, cualquiera de estos lleva a ocurrir este evento.
b) La segunda unidad tiene defectos: A2 = {(0; 1), (1; 1)}.
Nuevamente, este evento tiene dos resultados y cualquiera de estos lleva a ocurrir este
evento.
1
En un curso avanzado de probabilidades, solo los conjuntos que pertenecen a una familia llamada sigmaalgebra son considerados como eventos.
Estadstica
Probabilidad
1.2. Definici
on y propiedades de la probabilidad
Como ya se ha dicho la probabilidad debe procurar reflejar las posibilidades que tienen de
ocurrir los eventos, as, como los eventos provienen de distintos experimentos, existen muchas
formas de asignar una probabilidad. A continuacion veamos cuando una asignacion de
probabilidades a los eventos de un espacio muestral se considera, en efecto, una probabilidad.
La definicion de Kolmogorov establece cuales son las condiciones mnimas que debe satisfacer
toda asignacion o regla de probabilidades a fin de lograr todo un conjunto de propiedades.
Definici
on 1.5. Una probabilidad es una transformacion, P , que asigna a cada evento,
A, de un espacio muestral, , un n
umero real: P (A) y que satisface las tres propiedades
siguientes, llamadas axiomas de probabilidad:
Aj =
j=1
P (Aj )
j=1
#(A)
, para cada evento A de .
#()
Observaci
on 1.1. Esta asignacion es adecuada, pues, al ser cada resultado igualmente
probable de ocurrir, debera tenerse que la probabilidad de un evento sea proporcional al
n
umero de resultados que este tenga (a mayores resultados, mayor probabilidad); la division
entre el n
umero de resultados posibles se hace para estandarizar, es decir, a fin de que toda
probabilidad este entre 0 y 1.
9
Estadstica
Ejemplo 1.5. En el ejemplo 1.1 tenemos que el espacio muestral es finito, pues #() = 4.
Supongamos que cada resultado sea igualmente posible. Por lo tanto, es adecuado asignar
probabilidades de la manera clasica, es decir:
P (A) =
#(A)
, A .
4
#(A1 )
4
2
4
= 12 .
#(A2 )
4
#(A3 )
4
2
4
= 12 .
= 14 .
A continuacion veamos algunas de las demas propiedades que se derivan de las tres
basicas.
Probabilidad
11
P (Ac B) ] (A B c ) = P (Ac B) + P (A B c ) = 0, 29 + 0, 19 = 0, 48
Aqu se ha obtenido P (A B c ) de manera analoga a como se procedio en la parte
anterior para hallar P (Ac B), es decir, usando: P (A) = P (A B) + P (A B c ).
d) La probabilidad de que al menos una de estas personas termine a tiempo su trabajo.
En este caso nos interesa el evento (A B) (al menos una de estas personas termine a
tiempo su trabajo). Para determinarla podemos usar la propiedad 6:
P (A B) = P (A) + P (B) P (A B) = 0, 7 + 0, 8 0, 51 = 0, 99.
Compruebe que P (A B) = P (Ac B) + P (A B c ) + P (A B).
11
Estadstica
A
Ac
Totales
B
P (A B) = 0, 01
P (Ac B)
Bc
P (A B c )
P (Ac B c )
Totales
P (A) = 0, 3
P (Ac ) = 0, 7
P (B) = 0, 2
P (B c ) = 0, 8
Observaci
on 1.3. Tenga siempre presente el uso de las propiedades de la probabilidad. No
use la tabla anterior (u otras graficas) como justificacion para el calculo de probabilidades,
solo use propiedades para este fin.
Propiedad (Regla de la probabilidad total) Sean A1 , . . . , Ak , eventos mutuamente
k
U
excluyentes (esto es, Ai Aj = , i 6= j) y exhaustivos (es decir,
Ai = ). Entonces, para
i=1
todo evento, B, de :
P (B) =
k
X
P (B Ai )
i=1
Esta propiedad es una de las mas importantes en las aplicaciones. Las propiedades que
satisfacen los eventos A1 , . . . , Ak (mutuamente excluyentes y exhaustivos) se resumen
diciendo que estos constituyen una particion de y se puede ilustrar como sigue:
Ejemplo 1.7. Para producir cierto bien se usa solo uno de tres procedimientos principales
existentes (1, 2 y 3) y, opcionalmente, uno secundario (4). La probabilidad de usar el
procedimiento 1 es de 0,6; la probabilidad de usar el procedimiento 1 con el secundario
es igual a 0,24. La probabilidad de usar el procedimiento 2 sin el procedimiento secundario
es de 0,06. La probabilidad de usar el procedimiento 3 es de 0,25; y la probabilidad de usar
el procedimiento secundario con este procedimiento es de 0,16.
Obtengamos la probabilidad de usar el procedimiento secundario:
Consideremos los eventos: Ai , usar el procedimiento i; para i = 1, . . . , 4.
Estos eventos nos permiten expresar los datos dados con las notaciones necesarias para usar
las propiedades de la probabilidad:
A1 ]A2 ]A3 = , es decir, los eventos A1 , A2 y A3 son mutuamente excluyentes y exhaustivos.
P (A1 ) = 0, 6, P (A1 A4 ) = 0, 24, P (A2 Ac4 ) = 0, 06, P (A3 ) = 0, 25 y P (A3 A4 ) = 0, 16.
Para obtener la probabilidad del evento que interesa, es decir de A4 , la descomposicion
A1 ] A2 ] A3 = nos permite expresar A4 = (A4 A1 ) ] (A4 A2 ) ] (A4 A3 ); por lo tanto,
12
Probabilidad
13
P (A B)
P (B)
P (A B)
P (B)
#(AB)
#()
#(B)
#()
#(A B)
#(B)
Por lo que se interpreta como la probabilidad de que ocurra A, cuando el espacio se reduce
al evento B.
13
Estadstica
Observaci
on 1.4. La probabilidad condicional es, en efecto, una probabilidad, pues
satisface:
A1. P (A/ B) 0, para cada A evento de .
A2. P (/ B) = 1.
A3. Para cualesquiera C y D, eventos excluyentes de :
P (C ] D/ B) = P (C/ B) + P (D/ B).
En particular satisface tambien cualquier otra propiedad de la probabilidad:
P1. La probabilidad del evento imposible es nula: P (/ B) = 0.
P2. La probabilidad de cualquier evento A es menor o igual que 1: P (A/ B) 1.
P3. La probabilidad de un evento mas la de su complemento da 1: P (A/ B)+P (Ac / B) = 1.
P4. Si un evento, C, esta incluido dentro de otro, D, entonces, su probabilidad es a lo sumo
igual a la de aquel: P (C/ B) P (D/ B).
P5. Para cualesquiera C y D, eventos de : P (C) = P (C D/ B) + P (C Dc / B).
P6. Para cualesquiera C y D, eventos de :
P (C D/ B) = P (C/ B) + P (D/ B) P (C D/ B).
Propiedad (Regla del producto): para cualesquiera A y B eventos de , se tiene que:
P (A B) = P (B)P (A/ B) = P (A)P (B/ A).
Observaci
on 1.5. Esta regla es sumamente importante, pues permite obtener la
probabilidad que tienen de ocurrir conjuntamente dos eventos, a partir de la de uno de
ellos y la del otro condicional a la ocurrencia del primero.
En general:
P (A1 . . . Ak ) = P (A1 )P (A2 / A1 )P (A3 / A1 A2 ) . . . P (Ak / A1 . . . Ak1 ).
Ejemplo 1.8. Una empresa del pas se encuentra en cierto estado financiero si posee dos
caractersticas, c1 y c2 ; la probabilidad de que posea c1 es de 0,9. Ademas, una de cada cuatro
empresas, que posee la caracterstica c1 , tambien posee la c2 .
Usaremos la regla anterior para calcular la probabilidad de que una de estas empresas,
escogida arbitrariamente, se encuentre en dicho estado financiero:
As, consideremos los eventos A : la empresa presente la caracterstica c1 , y B : presente c2 .
Por los datos: P (A) = 0, 9 y P (B/ A) = 1/4 = 0, 25.
14
Probabilidad
15
k
X
P (B Ai ) =
i=1
k
X
P (Ai )P (B/ Ai )
i=1
Es com
un ilustrar esta regla mediante una tabla de probabilidades:
P (Aj B)
P (Aj )P (B/ Aj )
= k
P
P (B)
P (Ai )P (B/ Ai )
i=1
15
Estadstica
B
Bc
A1
P (B A1 )
P (B c A1 )
A2
P (B A2 )
P (B c A2 )
Totales
16
A3
P (B A3 )
P (B c A3 )
Total
P (B)
P (B c )
1
Probabilidad
17
=
P (B A1 )
+
P (B A2 )
+
P (B A3 )
= P (A1 ) P (B/ A1 ) + P (A2 ) P (B/ A2 ) + P (A3 ) P (B/ A3 )
=
(0,3)(0,01)
+
(0,2)(0,03)
+
(0,5)(0,04)
=
0,029
Las probabilidades de la primera fila del cuadro, o la de cada rama del arbol, pueden ser
completadas usando la regla del producto, P (B Ai ) = P (Ai )P (B/Ai ), as obtenemos:
B
Bc
Totales
A1
A2
A3
P (B A1 ) = 0, 003 P (B A2 ) = 0, 006 P (B A3 ) = 0, 02
P (B c A1 )
P (B c A2 )
P (B c A3 )
P (A1 ) = 0, 3
P (A2 ) = 0, 2
P (A3 ) = 0, 5
Total
P (B) = 0, 029
P (B c )
1
Y:
Estadstica
P (Ai )P (B/Ai )
P (Ai B)
=
, para i = 1, 2 y 3;
P (B)
P (B)
1.5. Independencia
Definici
on 1.6. Dado un espacio muestral , sobre cuyos eventos se tiene definida una regla
de asignacion de probabilidades P, se dice que dos eventos A y B son independientes, si:
P (A/ B) = P (A).
O, equivalentemente, si:
P (B/ A) = P (B).
As, esto significa que el conocimiento de la ocurrencia de uno de los eventos no altera la
probabilidad de que ocurra el otro.
Ejemplo 1.10. En el analisis costo-beneficio de la compra de cierta fabrica se considera,
para simplificar, que solo dos eventos pueden determinar el cierre de la fabrica al cabo del
primer a
no: una demanda muy baja del producto que se fabricara, o que la fabrica se vuelva
anticuada debido a nuevas normas de control ambiental.
En este caso es razonable suponer que los eventos anteriores sean independientes, pues, la
ocurrencia de uno de ellos no altera la probabilidad de ocurrir el otro. Es decir, si denotamos
por A al primer evento, y por B al segundo, es claro que:
P (A/ B) = P (A) y P (B/ A) = P (B).
Supongamos que la probabilidad de que ocurra el primer evento antes mencionado sea 0,1,
y 0,05 la del segundo. Entonces, la probabilidad de que, durante el primer a
no, ocurra una
demanda muy baja y que la fabrica se vuelva anticuada, puede obtenerse a partir de la regla
del producto y el concepto de independencia, as, obtenemos que:
P (A B) = P (A)P (B/A) = P (A)P (B) = 0, 1 0, 05 = 0, 005.
Lo visto en el ejemplo anterior motiva la definicion equivalente siguiente.
Propiedad 1: A y B son eventos independientes si y solo si: P (A B) = P (A)P (B).
Propiedad 2: Si A y B son eventos independientes, tambien lo son:
a) Ac y B; b) A y B c ; y c) Ac y B c .
18
Probabilidad
19
Observaci
on 1.6. As, podemos decir que dos eventos son independientes, si la probabilidad
de que ocurra uno de ellos no se altera aun sabiendo si ocurrio, o si no ocurrio el otro.
La definicion y propiedad anteriores se generalizan para una coleccion de eventos:
Definici
on 1.7. Una coleccion de eventos, {A1 , A2 , . . . }, son independientes, si la
probabilidad de que ocurran simultaneamente cualquier n
umero finito de estos eventos, es
igual al producto de las probabilidades correspondientes.
As, por ejemplo, si se consideran n de tales eventos, digamos, Ai1 , Ai2 , . . . Ain , entonces:
P (Ai1 Ai2 . . . Ain ) = P (Ai1 )P (Ai2 ) . . . P (Ain )
Propiedad 3: Si en una coleccion de eventos independientes, {A1 , A2 , . . . }, se sustituye
cualquiera de los eventos Aij por su complemento Acij , entonces, los eventos que resultan
as seguiran siendo independientes.
Observaci
on 1.7. Entonces, cuando se tiene independencia ocurre la simplificacion siguiente
de la regla del producto general:
P (Ai1 Ai2 . . . Ain ) = P (Ai1 )P (Ai2 / Ai1 )P (Ai3 / Ai1 Ai2 ) . . . P (Ain / Ai1 . . . Ain1 )
Ejemplo 1.11. Los eventos A, B y C son independientes si se cumplen las igualdades
siguientes:
P (AB) = P (A)P (B), P (AC) = P (A)P (C), P (B C) = P (B)P (C) y P (AB C) =
P (A)P (B)P (C).
Ejemplo 1.12. Sea = {1, 2, 3, 4} y los eventos A = {1, 4}, B = {2, 4} y C = {3, 4}.
Si consideremos la probabilidad clasica, tenemos que:
P (A) = P (B) = P (C) = 2/4 = 1/2.
P (A B) = P (A C) = P (B C) = 1/4 (pues A B = A C = B C = {4}).
As: P (A B) = P (A)P (B), P (A C) = P (A)P (C) y P (B C) = P (B)P (C).
Sin embargo, P (A B C) 6= P (A)P (B)P (C). Es decir, estos tres eventos no son
conjuntamente independientes; pero dos cualesquiera de estos s lo son.
Ejemplo 1.13. En el contexto del ejemplo 1.10, consideremos un perodo de 3 a
nos.
Supongamos que, en cada uno de estos a
nos, la probabilidad de que la demanda sea muy
baja se mantenga constante, es decir igual a 0,1, e independientemente de los demas a
nos.
Interesa obtener la probabilidad de los eventos siguientes:
a) En cada uno de estos a
nos la demanda sea muy baja.
b) Por lo menos en uno de los a
nos de este perodo la demanda sea muy baja.
19
Estadstica
c) Solo en un a
no de este perodo la demanda sea muy baja.
d) Solo en dos a
nos de este perodo la demanda sea muy baja.
e) Por lo menos en dos a
nos de este perodo la demanda sea muy baja.
Para obtenerlas definamos los tres eventos siguientes:
Ai : Durante el a
no i la demanda sea muy baja, i = 1, 2, 3.
a) Aqu estamos interesado en el evento A1 A2 A3 .
Por la independencia tenemos que:
P (A1 A2 A3 ) = P (A1 )P (A2 )P (A3 )
= (0, 1)(0, 1)(0, 1)
= (0, 1)3
b) En este caso el evento de interes es A1 A2 A3 , cuyo complemento es Ac1 Ac2 Ac3 . Por
la independencia, resulta mas simple obtener la probabilidad del complemento, en efecto:
P (Ac1 Ac2 Ac3 ) =
=
=
=
Probabilidad
21
1.6. Probabilidad cl
asica y combinatoria
Como fue visto en el ejemplo 1.4, para calcular la probabilidad clasica de un evento se
requiere contar su n
umero de resultados. Existen tecnicas que facilitan el conteo, estas son
parte del llamado analisis combinatorio, a continuacion describiremos brevemente algunas.
Definici
on 1.8. (N
umero combinatorio) Si m y n son dos n
umeros naturales, con m
mayor o igual que n, al n
umero:
m
m!
= C nm =
n
n!(m n)!
se le denomina combinatorio de m en n y nos da el n
umero de subconjuntos (o grupos), de
tama
no n, que se pueden obtener a partir de m elementos.
Por m! entendemos el producto de los primeros m n
umeros naturales, es decir, m! =
1x 2x . . . x m, si m es mayor o igual que 1; y se define 0! como 1.
21
Estadstica
Ejemplo 1.14. Entre 20 empresas, de las cuales 5 son clasificadas del tipo a y las otras
15 del tipo b, se toma una muestra al azar de 4 de estas. Podemos describir el espacio
muestral asociado a este experimento, , como el conjunto de subconjuntos de tama
no 4 que
se pueden determinar con 20 elementos.
De este modo se deduce que tiene:
20!
17 18 19 20
20
20!
=
=
= 4 845 elementos o resultados.
=
4! (20 4)!
4! 16!
1234
4
Si quisieramos ser mas precisos podemos identificar a las empresas por los n
umeros naturales,
por ejemplo, del 1 al 20, donde los primeros 5 identifican a las del tipo a. As:
= { A / A {1, . . . , 20}, #(A) = 4 }.
Note que todo elemento (resultado) A de es un subconjunto (grupo), del conjunto
{1, . . . , 20}, integrado por 4 elementos.
Describamos dos eventos para ilustrar el uso del n
umero combinatorio en el conteo:
a) Seleccionar solo empresas del tipo a:
A1 = { {1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 4, 5}, {1, 3, 4, 5}, {2, 3, 4, 5} }
En este caso el subconjunto elegido, ademas de ser de cuatro elementos, estos deben ser solo
del conjunto {1, 2, 3, 4, 5}, por lo tanto, A1 tiene:
5
5!
=
= 5 resultados o elementos,
4
4! 1!
cualquiera de estos resultados determina la ocurrencia del evento A1 . Es decir, hay 5
posibilidades, entre 4 845, de que ocurra A1 .
b) Seleccionar solo empresas del tipo b. Entonces, el grupo de 4 empresas debe estar integrado
solo por 4 de las seis del tipo b que hay en total, as, este evento, digamos A2 , tiene:
15
15!
12 13 14 15
=
=
= 1 365 resultados o elementos.
4
4! 11!
1234
En este caso hay 1 365 posibilidades, entre 4 845, de que ocurra A2 . As, la probabilidad de
seleccionar solo empresas del tipo b es de 1 365 en 4 845.
A continuacion mostramos algunos de estos resultados:
A2 = { {6, 7, 8, 9}, {6, 7, 8, 10}, . . . . , {6, 7, 8, 20}, . . . . , {17, 18, 19, 20} }.
Definici
on 1.9. (Principio de la multiplicaci
on) Si una primera operacion se puede
llevar a cabo de m formas, y despues de esta una segunda operacion se puede realizar de n
formas, entonces, la operacion de llevar a cabo la primera operacion y luego la segunda, se
puede realizar de m n formas posibles.
22
Probabilidad
23
Ejemplo 1.15. En el mismo ejemplo anterior veamos dos eventos mas para ilustrar las dos
tecnicas vistas del analisis combinatorio:
a) A3 : Seleccionar solo tres empresas del tipo a. Ahora se completa el grupo de modo
que tenga tres empresas del tipo a y solo una del tipo b. Para determinar el n
umero
de resultados que tiene este evento podemos, por ejemplo, describir sus elementos
enumerandolos abreviadamente y como una matriz de m filas y n columnas, de este
modo el producto m n nos dara el n
umero de resultados, veamos:
...
...
.
.
.
.
.
.
.
.
.
.
.
.
{1, 2, 3, 20},
{1, 2, 4, 20},
...
{3, 4, 5, 20}
Notemos que se han listado los resultados anteriores siguiendo un orden adecuado,
como para evitar dejar afuera alguno de ellos. Tambien observemos que en este arreglo
el n
umero de filas y el de columnas lo obtenemos usando el n
umero combinatorio. En
efecto, como una fila es determinada por las tres empresas del tipo a que se hayan
5!
= 10 filas. Similarmente, cada columna es determinada por la
elegido, hay 53 = 3!2!
15!
empresa del tipo b que se haya escogido, as, hay 15
= 15 columnas. Entonces,
= 1!14!
1
el n
umero de casillas que hay en el arreglo anterior es 10 15 = 150 (por el principio
de la multiplicacion), luego, el evento A3 tiene 150 resultados. Por lo tanto, hay 150
posibilidades, entre 4 845, de que ocurra A3 .
b) A4 : Seleccionar dos empresas del tipo a y dos del tipo b.
Ahora tenemos que seleccionar dos empresas del tipo a, lo cual se puede hacer de
5
5!
= 2!3!
= 10 maneras, y seleccionar dos empresas del tipo b, lo cual se puede
2
15
15!
hacer de 2 = 2!13!
= 105 maneras. As, por el principio de la multiplicacion, hay
10 105 = 1 050 posibilidades para seleccionar dos empresas del tipo a y dos del tipo
b. Como lo hicimos con el evento anterior, podemos escoger un orden apropiado que
nos permita listar todas estas posibilidades como un arreglo de filas y columnas:
...
...
.
.
.
.
.
.
.
.
.
.
.
.
5!
15!
En esta lista hay 52 = 2!3!
= 10 filas, cada una contiene 15
= 2!13!
= 105 columnas.
2
As, hay 10 15 = 150 casillas, cada una representa a uno de los resultados que
conducen a la ocurrencia de este evento. Por lo tanto, las posibilidades de que, al
tomar al azar un grupo de 4 empresas, resulten dos del tipo a y dos del tipo b son de
1050 en 4 845.
23
Estadstica
Observaci
on 1.9. El principio de la multiplicacion se generaliza para tres o mas operaciones.
Ejemplo 1.16. En el contexto del ejemplo 1.14, supongamos ahora que en cada una de las
proximas semanas se visitara una empresa distinta y escogida aleatoriamente. Y nos interesa
obtener la probabilidad de que en la primera y cuarta semana se visite a una empresa del
tipo a.
Ahora el espacio muestral no estara integrado por subconjuntos o grupos de tama
no 4, sino
por cuartetos (grupo ordenado de tama
no 4), es decir:
= {(a1 , a2 , a3 , a4 )/ ai {1, . . . , 20}, ai 6= aj , i 6= j, i, j = 1, . . . , 20}
Puesto que la primera empresa que visitar puede ser cualquiera de las 20, la segunda
cualquiera de las 19 restantes, la tercera cualquiera de las 18 restantes, y finalmente la cuarta
empresa por visitar puede ser cualquiera de las 17 restantes; entonces, por el principio de la
multiplicacion, el n
umero de resultados posibles lo podemos obtener mediante el producto
siguiente: #() = 20 x 19 x 18 x 17 = 116 280. Nuestro evento de interes lo podemos denotar
por E y describirlo como:
E = {(a1 , a2 , a3 , a4 ) / a1 , a4 {1, ..., 5}}
La primera empresa que visitar puede ser cualquiera de las 5 del tipo a, la cuarta cualquiera
de las 4 del tipo a restantes, la segunda empresa por visitar puede ser cualquiera de las 18
empresas restantes (entre las del tipo a y b), y la tercera cualquiera de las 17 restantes.
6 120
1
= 116
= 19
.
Entonces tenemos que #(E) = 5x4 18 17 = 6 120. Luego, P (E) = #(E)
#()
280
Observaci
on 1.10. Si m y n son dos n
umeros naturales, con m mayor o igual que n, al
n
umero:
Pnm =
m!
= m(m 1) . . . (m (n 1))
(m n)!
se le denomina n
umero de permutaciones de m en n y nos da el n
umero de n-tuplas (grupos
ordenados de tama
no n) que se pueden obtener a partir de m elementos.
Probabilidad
25
una region. Esta region puede ser un intervalo (por ejemplo de tiempo), un area o un volumen.
En este caso una manera natural de asignar probabilidades a los eventos del espacio muestral
(la region) es la siguiente:
medida de A
P (A) =
medida de
esto para cada evento, A, de .
La medida a la que se refiere la definicion anterior depende de la dimension de la region.
As, en una dimension la medida usual es la longitud, en dos dimensiones el area, y en tres
el volumen. Ahora la probabilidad de un evento es proporcional a su medida.
Ejemplo 1.17. El precio del bien A vara aleatoria y uniformemente entre 100 y 200 soles,
y el precio del bien B vara entre 200 y 300 soles de manera aleatoria y uniformemente para
cualquiera que sea el precio del bien A.
Una persona que desea adquirir una unidad de cada bien dispone de un presupuesto de 450
soles. Se quiere cuantificar el riesgo que corre esta persona de no conseguir su objetivo.
En este caso el espacio muestral puede describirse como:
= { (x; y) R2 / 100 x 200, 200 y 300}
Con la interpretacion siguiente: si (x; y) es un resultado de , quiere decir que el precio del
bien A es x soles y el del bien B es y soles.
La persona desea que su presupuesto de 450 soles alcance, es decir, que ocurra el evento
siguiente: E = { (x; y) / x + y 450} Y lo podemos representar graficamente junto al
espacio muestral como sigue:
Por la condicion del problema, cada resultado se distribuye indistintamente en toda la region
, luego, la asignacion de probabilidades adecuada para cada evento, A, de es
P (A) =
medida de A
a
rea de A
a
rea de A
=
=
.
medida de
a
rea de
1002
25
Estadstica
50x50
2
1002
= 0, 125
Esta probabilidad cuantifica el riesgo que corre la persona, cuando solo dispone de 450 soles
para adquirir una unidad de cada bien.
Definici
on 1.11. Probabilidad frecuencial: Aqu, la probabilidad de un evento es
la frecuencia relativa con la que este ocurre en una gran cantidad de repeticiones del
experimento. Por tal motivo se acostumbra interpretarla como el porcentaje de veces que
suele ocurrir el evento en consideracion.
Ejemplo 1.18. En cierta region se ha observado la distribucion de los ingresos familiares
anuales (en ciertas unidades monetarias) siguiente:
x
0,5
0,75
1,5
2,5
F (x)
0,2
0,4
0,51
0,64
0,75
0,8
0,90
0.99
26
Probabilidad
27
i<j
i<j<k
a) Exprese los datos dados con eventos previamente definidos e identifique una particion
conveniente del espacio muestral.
b) Determine la probabilidad de que un comprador pague con credito proporcionado por
otra entidad.
c) Determine la probabilidad de que un comprador pague con credito proporcionado por
el supermercado y acepte donar.
d) Determine la probabilidad de que un comprador acepte donar.
27
Estadstica
Ejercicio 1.4.
Sean P1 y P2 dos probabilidades definidas para los eventos de .
Para cada evento A de , se define Q(A) de la manera siguiente:
Q(A) =
3
1
P1 (A) + P2 (A) .
4
4
P (A C)
.
P (C)
Probabilidad
29
Ejercicio 1.7.
Si P (A B c C) = 0, 8 y P (A B c C Dc ) = 0, 5.
a) Halle P (A B c C D).
b) Halle P (Ac B C c Dc ).
Ejercicio 1.8.
Como aguas duras se consideran aquellas que requieren cantidades considerables de
jabon para producir espuma y ocasionan incrustaciones en las tuberas de agua caliente,
calentadores y otras unidades en las cuales se incrementa la temperatura del agua.
Las aguas pueden clasificarse, seg
un su dureza, en cuatro tipos: blanda (cuando contiene
maximo 75 mg/L de CaCO3 ), moderadamente dura (cuando contiene entre 75 y 150 mg/L
de CaCO3 ), dura (cuando contiene mas de 150 y hasta 300 mg/L de CaCO3 ) y muy dura
(cuando contiene mas de 300 mg/L de CaCO3 ).
Un administrador, encargado de la comercializacion de cierto jabon que sera vendido en todo
el pas, ha determinado que:
i) La probabilidad de que el jabon sea usado con aguas blandas es de 2/9.
ii) La probabilidad de que el jabon se use con aguas blandas pero no alcance los
resultados deseados es de 1/36.
iii) Dos de cada cinco veces, el jabon se usara con aguas moderadamente duras y
alcanzara los resultados deseados.
iv) El 15 % de las veces, el jabon se usara con aguas duras y alcanzara los resultados
deseados.
v) La probabilidad de que el jabon se use con aguas muy duras es de 0,3.
vi) La probabilidad de que el jabon se use con aguas muy duras y no alcance los
resultados esperados es de 0,2.
a) Exprese los datos dados con eventos previamente definidos e identifique una particion
conveniente del espacio muestral.
b) Cual es la probabilidad de que el jabon alcance los resultados esperados y sea usado
con aguas blandas?
c) Cual es la probabilidad de que el jabon alcance los resultados esperados y sea usado
con aguas muy duras?
d) Cual es la probabilidad de que el jabon alcance los resultados esperados?
29
Estadstica
Ejercicio 1.9.
Un trastorno se manifiesta si, y solo si, se presentan por lo menos dos de tres sntomas: s1 ,
s2 y s3 . La probabilidad de que se presenten los sntomas s1 y s2 es de 0,56. La probabilidad
de que se presenten estos tres sntomas es de 0,504. La probabilidad de que se presenten los
sntomas s1 y s3 pero no s2 es de 0,105. La probabilidad de que se presenten los sntomas s2
y s3 pero no s1 es de 0,117.
a) Exprese los datos dados con eventos previamente definidos e identifique una particion
del espacio muestral.
b) La probabilidad de que se presenten los sntomas s1 y s2 pero no s3
c) La probabilidad de que se presenten los sntomas s1 y s3 .
d) La probabilidad de que se presenten los sntomas s1 y s2 pero no s3
e) Determine la probabilidad de que se manifieste el trastorno.
Ejercicio 1.10.
La probabilidad de ganar en las operaciones financieras 1 y 2 son iguales a 0,3 y 0,4,
respectivamente; y la probabilidad de ganar en ambas es de 0,2. Cual es la probabilidad de
ganar en, por lo menos, una de estas operaciones?
Ejercicio 1.11.
En la produccion de cierto bien se puede usar, por lo menos, uno de tres procedimientos
secundarios (1, 2 y 3), cada uno de estos tiene una probabilidad de 0,55 de ser usado. La
probabilidad de que se usen el procedimiento 1 y 2 durante la produccion es de 0,2. Los
procedimientos 1 y 3 son utilizados durante la produccion, con probabilidad 0,25; lo mismo
ocurre cuando se usan los procedimientos 2 y 3. Ademas, la probabilidad de usar los tres
procedimientos en la produccion es de 0,01.
Considere los eventos Ai : usar el procedimiento secundario i, para i = 1, 2 y 3.
a) Use los eventos Ai , antes definidos, y operaciones de conjuntos para expresar cada uno
de los eventos siguientes:
i) E1 : usar al menos uno de los procedimientos secundarios en la produccion.
ii) E2 : usar uno o dos de los procedimientos secundarios en la produccion.
iii) E3 : usar a lo sumo dos de los procedimientos secundarios en la produccion.
iv) E4 : ninguno de los procedimientos secundarios es usado en la produccion.
b) Determine la probabilidad de los eventos descritos en la parte anterior. Solo use
propiedades de la probabilidad y los resultados de la parte anterior.
30
Probabilidad
31
Ejercicio 1.12.
Una entidad crediticia califica a las empresas de cierto grupo para otorgarles un credito si, y
solo si, estas poseen al menos una de tres caractersticas (s1 , s2 , s3 ). La probabilidad de que
una de estas empresas posea una sola de las caractersticas es de 0,28 y la probabilidad de
que posea solo dos, de 0,67. Considere los eventos Ni : la cantidad de estas caractersticas
que posee una empresa es igual a i, para i = 0, 1, 2, 3.
a) Use los eventos antes definidos para expresar los eventos siguientes:
i) Una empresa de este grupo califique para el credito.
ii) Una empresa de este grupo no califique para el credito o bien califique por tener
las tres caractersticas.
b) Determine el valor de la suma P (N0 ) + P (N1 ) + P (N2 ) + P (N3 ).
c) Determine la probabilidad de que una empresa de este grupo no califique para el credito
o bien califique por tener las tres caractersticas.
d) Suponga que la probabilidad de que una empresa de este grupo califique para el credito
sea de 0,96. Cual sera la probabilidad de que una de las empresas del grupo posea
las tres caractersticas?
Ejercicio 1.13.
La produccion de cierto bien tiene tres procedimientos secundarios, (1, 2 y 3), y la
probabilidad de usar al menos uno se estos es de 0,9. En la produccion se pueden usar
al mismo tiempo dos procedimientos secundarios, 1 y 2, con probabilidad 0,2; 1 y 3, con
probabilidad 0,25, y 2 y 3 tambien con probabilidad 0,25. Por u
ltimo, la probabilidad de
usar los tres procedimientos secundarios en la produccion del bien es 0,01. Determine la
probabilidad de cada uno de los eventos siguientes:
a) Solo se usen los procedimientos secundarios 1 y 2.
Recuerde la propiedad P (A B) = P (A B C) + P (A B C c )
b) Solo se usen los procedimientos secundarios 1 y 3.
c) Solo se usen los procedimientos secundarios 2 y 3.
d) Solo se usen dos de los procedimientos secundarios.
e) Se use solo uno de los procedimientos secundarios.
f) Ninguno de los procedimientos secundarios se use.
g) Se usen, a lo mas, dos de los procedimientos secundarios.
31
Estadstica
Ejercicio 1.14.
Al poner a la venta un producto, el administrador responsable ha determinado que solo
puede presentarse una de las cuatro situaciones de la demanda siguientes: muy desfavorable,
desfavorable, favorable y optima. Tambien ha calculado las probabilidades siguientes:
i) 1/8 de que la demanda sea muy desfavorable.
ii) 1/9 de que la demanda sea muy desfavorable y no se logre los resultados deseados.
iii) 1/4 de que la demanda sea desfavorable.
iv) 0,15 de que la demanda sea desfavorable y se logre los resultados deseados.
v) 1/4 de que la demanda sea favorable.
vi) 0,18 de que la demanda sea favorable y se logre los resultados deseados.
vii) 0,1 de que la demanda sea optima y no se logre los resultados deseados.
a) Exprese los datos dados con eventos previamente definidos.
b) Cual es la probabilidad de que la demanda sea muy desfavorable y se logre los
resultados deseados?
c) Cual es la probabilidad de que la demanda sea optima?
d) Halle la probabilidad de que la demanda sea optima y se logre los resultados deseados.
e) Halle la probabilidad de que se logre los resultados deseados.
Ejercicio 1.15.
La probabilidad de fabricar un artculo defectuoso es de 0,1; y la probabilidad de que un
artculo fabricado defectuosamente sea inservible es de 0,8. Cual es la probabilidad de
fabricar un artculo defectuoso e inservible?
Ejercicio 1.16.
Con el fin de ganar 5 000 soles un inversionista realizara una de tres opciones. La probabilidad
de que se realice la opcion 1 es 0,3. Si se realiza la opcion 1, la probabilidad de ganar 5 000
soles es 0,4. Si se realiza la opcion 2, lo cual ocurre con probabilidad 0,2, la probabilidad de
ganar 5 000 soles es 0,1. Cuando se realiza la opcion 3, la probabilidad de ganar 5 000 soles
es 0,25. Cuantificar la confianza del inversionista en esta situacion.
Ejercicio 1.17.
En el contexto del ejemplo 1.8, suponga ahora que una empresa se encuentra en dicho estado
financiero si tambien posee la caracterstica c3 . Si, ademas de la informacion ya dada, se sabe
que el 75 % de las empresas, que poseen las caractersticas c1 y c2 , tambien presenta la c3 ;
cual es la probabilidad de que una empresa se encuentre en este estado financiero?
32
Probabilidad
33
Ejercicio 1.18.
En la identificacion de una ceramica2 , de cierto lugar arqueologico, esta puede ser preincaica,
con probabilidad 0,3, o bien incaica. Para ayudar a la identificacion de esta ceramica se
observa si posee cierta caracterstica distintiva. Si la ceramica es preincaica, la probabilidad
que que posea la caracterstica distintiva es de 0,6; pero si la ceramica es incaica, la
probabilidad solo es de 0,1.
a) Exprese los datos dados con eventos previamente definidos.
b) Determine la probabilidad de que la ceramica posea la caracterstica distintiva.
c) En la identificacion de una ceramica, se observo que posea la caracterstica distintiva.
Si el arqueologo encargado quiere maximizar su confianza en la identificacion la debe
clasificar como incaica o preincaica?
Ejercicio 1.19.
Estudios acerca de la calidad han determinado que un producto tiene un problema de calidad
cuando presentan los tres defectos siguientes: 1 (mala presentacion), 2 (contenido) y 3 (peso).
La probabilidad de que el producto posea el defecto 1 es 0,05. Una de cada cuatro unidades
del producto que presentan el defecto 1, tambien presentan el defecto 2. Ademas, se sabe
que el 75 % de las unidades del producto, que presentan los defectos 1 y 2, tambien presenta
el defecto 3. Determine la probabilidad de que uno de los artculos del producto presente un
problema de calidad.
Ejercicio 1.20.
Al realizar tres proyectos, c1 , c2 y c3 , un economista estima las probabilidades siguientes:
i) 0,3, de que el desarrollo de c3 no sea exitoso.
ii) 0,8, para el desarrollo exitoso de c2 , si es que c3 resultara exitoso.
iii) 0,1, de que el desarrollo de c1 no sea exitoso, si es que resultaran exitosos c3 y c2 .
El economista obtendra un beneficio si, y solo si, los tres proyectos resultaran exitosos. Halle
la probabilidad de que este economista obtenga un beneficio.
Ejercicio 1.21.
Sean P, Q y R probabilidades tales que para cada evento A de : Q(A) = P (A/B) y
R(A) = Q(A/C). Demuestre que para cada evento A : R(A) = P (A/B C).
2
33
Estadstica
Ejercicio 1.22.
Sean P, Q, R y S probabilidades tales que para cada evento A de : Q(A) = P (A/B),
R(A) = Q(A/C) y S(A) = R(A/D). Demuestre que para cada evento A :
S(A) = P (A/B C D).
Ejercicio 1.23.
Si P (A C/B) = 0, 1, P (A C c /B) = 0, 2, halle P (A/B).
Ejercicio 1.24.
Halle la probabilidad P (A B C D), si se conocen las probabilidades siguientes:
P (A) = 0, 1, P (B c /Ac ) = 0, 8, P (C/Ac B c ) = 0, 3 y P (D/Ac B c C c ) = 0, 4.
Ejercicio 1.25.
Al realizar tres proyectos, c1 , c2 y c3 , un economista estima las probabilidades siguientes:
i) 0,7, para el desarrollo exitoso de c1 ;
ii) 0,8, para el desarrollo exitoso de c2 , si es que c1 resultara exitoso;
iii) 0,6, para el desarrollo exitoso de c2 , si es que c1 no resultara exitoso;
iv) 0,9, para el desarrollo exitoso de c3 , si es que resultaran exitosos c1 y c2 ;
v) 0,75, para el desarrollo exitoso de c3 , si es que resultara exitoso c1 pero no c2 ;
vi) 0,65, para el desarrollo exitoso de c3 , si es que resultara exitoso c2 pero no c1 ;
vii) 0,5, para el desarrollo exitoso de c3 , si es que no resultaran exitosos c1 ni c2 .
El economista obtendra un beneficio si, y solo si, por lo menos dos de los tres proyectos
resultaran exitosos. Cuantifique el riesgo que correra al realizar los proyectos.
Ejercicio 1.26.
Se debe realizar una de dos inversiones. La probabilidad de que se realice la inversion I es
de 0,3. Si se realiza la inversion I, la probabilidad de ganar 5 000 soles es de 0,4. Si se realiza
la inversion II, la probabilidad de ganar 5 000 soles es de 0,1.
a) Cual es la probabilidad de que se realice la inversion I y se gane 5 000 soles?
b) Cual es la probabilidad de que se realice la inversion II y se gane 5 000 soles?
c) Cual es la probabilidad de que se gane 5 000 soles?
d) Si se gano 5 000 soles, cual inversion es la mas probable de haber sido realizada?
34
Probabilidad
35
Ejercicio 1.27.
En el contexto del ejemplo 1.10, suponga un perodo de 4 a
nos y que la probabilidad de
que la demanda sea muy baja se mantenga constante durante este perodo; demas, que
la probabilidad de que la fabrica se vuelva anticuada (por las nuevas normas de control
ambiental) al cabo del a
no i, dado que no se hizo antes, sea 1 (0, 95)i , para i = 2, 3 y 4.
a) Determine la probabilidad de que, al cabo de este perodo, la fabrica no tenga que
cerrarse.
b) Generalice el resultado anterior para un perodo de n a
nos. Puede concluir lo que
ocurrira en el largo plazo?
Ejercicio 1.28.
De los reportes sobre una operacion financiera, se tiene la informacion siguiente:
la probabilidad de ganar menos de 20 mil soles es de 0,35;
el 40 % de las veces se gana entre 20 mil y 40 mil soles;
cuando se gana menos de 20 mil soles, la probabilidad de no lograr la meta es de 0,2;
si se gana entre 20 mil y 40 mil soles, la probabilidad de que se logre la meta es de 0,6;
la probabilidad de ganar mas de 40 mil soles pero no lograr la meta es de 0,01.
a) Halle la probabilidad de que se logre la meta.
b) Si se logro la meta, en cual de los tres rangos mencionados es mas probable que se
encuentre la ganancia en la operacion? Recuerde justificar.
Ejercicio 1.29.
Las inversiones financieras (de resultados inciertos) han sido clasificadas, seg
un el riesgo de
perder, en tres tipos: de riesgo bajo, de riesgo normal y de riesgo alto. Seg
un las estadsticas,
la probabilidad de realizar una inversion de riesgo bajo es de 0,5 y la de realizar una inversion
de riesgo normal es de 0,3. Si la inversion es de riesgo bajo, la probabilidad de perder es de
0,1. La probabilidad de perder en una inversion de riesgo normal es de 0,15. Solo en una de
cada cinco inversiones, de riesgo alto, no se pierde.
a) Exprese los datos dados con eventos previamente definidos.
b) Determine la probabilidad de perder cuando la inversion es de riesgo alto.
c) Determine la probabilidad de perder en una inversion financiera.
d) Si se perdio en la inversion, halle la probabilidad de que haya sido de riesgo bajo.
35
Estadstica
Ejercicio 1.30.
En la produccion de cierto bien se usa solo uno de tres procedimientos principales (1, 2 y
3) y opcionalmente, por lo menos, uno de dos procedimientos secundarios (4 y 5). Si se usa
el procedimiento 1, lo cual ocurre con probabilidad 0,6, cada uno de los procedimientos
secundarios tiene una probabilidad igual a 0,4 de ser usado; en este mismo caso, la
probabilidad de que se usen ambos procedimientos es de 0,2. Si se usa el procedimiento
2, pueden usarse los procedimientos secundarios (4 y 5) de manera independiente cada uno
y con probabilidades 0,2 y 0,3, respectivamente. El procedimiento 3 puede usarse con una
probabilidad de 0,25, en este caso, la probabilidad de usar al menos uno de los procesos
secundarios es 0,85.
a) Cual es la probabilidad de usar al menos uno de los procedimientos secundarios en la
produccion del bien, si se sabe que se ha usado el procedimiento 1?
b) Cual es la probabilidad de usar al menos uno de los procedimientos secundarios en la
produccion del bien y el procedimiento 1?
c) Cual es la probabilidad de usar al menos uno de los procedimientos secundarios?
Ejercicio 1.31.
En un supermercado cada cliente decide, independientemente de los demas, si compra un
artculo en promocion. Se sabe que el 75 % de los clientes suele comprar un artculo en
promocion. Suponga que 4 clientes (1, 2, 3 y 3) ingresan en el supermercado.
Use los eventos: Ai , el cliente i decida comprar un artculo en promocion, para i = 1, 2, 3
y 4, para expresar los eventos que se dan a continuacion y calcular sus probabilidades
correspondientes:
a) Ninguno de los cuatro clientes decida comprar un artculo en promocion.
b) Solo uno de los cuatro clientes decida comprar un artculo en promocion.
c) Solo dos de los cuatro clientes decida comprar un artculo en promocion.
d) Solo tres de los cuatro clientes decida comprar un artculo en promocion.
e) Por lo menos uno, de los cuatro clientes, decida comprar un artculo en promocion.
Ejercicio 1.32.
Halle la probabilidad P (A B C), en cada uno de los casos siguientes:
a) Estos eventos son excluyentes y cada uno tiene una probabilidad de 0,1.
b) Estos eventos son independientes y cada uno tiene una probabilidad de 0,1.
c) P (Ac ) = 0, 3, P (B c /Ac ) = 0, 4 y P (C/Ac B c ) = 0, 8.
36
Probabilidad
37
Ejercicio 1.33.
Al invertir en las operaciones financieras 1, 2, 3, 4 y 5 se puede ganar, independientemente
y con probabilidades iguales a 0,1; 0,2; 0,3; 0,4 y 0,5, respectivamente.
Estadstica
Ejercicio 1.36.
{ A1 , . . . , A5 } es una coleccion de eventos independientes, cada uno tiene una probabilidad
de 0,9. Determine la probabilidad de los eventos siguientes:
(A1 Ac2 ) A3 y A1 A2 (A3 A4 ) A5 .
Ejercicio 1.37.
En una obra hay seis operarios, cada uno puede cometer alg
un error con una probabilidad de
0,05 e independientemente de los demas operarios. Calcular sus respectivas probabilidades:
a) Ninguno de los seis operarios comete un error.
b) Por lo menos uno de los seis operarios comete un error.
c) Solo uno de los seis operarios comete un error.
d) Solo dos de los seis operarios cometen un error.
e) Solo tres de los seis operarios cometen un error.
f) Los seis operarios cometen un error.
g) A lo sumo dos de los operarios cometen un error.
Ejercicio 1.38.
Con fines de auditora sobre 18 empresas aseguradoras que funcionan en nuestro medio (entre
las cuales tenemos a El Pacfico Peruano Suiza, Genarali Per
u y La Positiva) se tomara una
muestra aleatoria de 5 de ellas. Determine la probabilidad de los eventos siguientes:
a) Que la muestra solo tenga una de las tres empresas antes citadas.
b) Que la muestra solo tenga dos de las tres empresas antes citadas.
c) La muestra incluya a las tres empresas mencionadas.
d) Que la muestra incluya al menos una de las tres empresas antes citadas.
Ejercicio 1.39.
En el contexto del ejemplo 1.17:
a) Cual es la probabilidad de que un presupuesto de 350 soles garantice la adquisicion
de una unidad de cada bien?
b) Halle el presupuesto mnimo necesario para garantizar, con una probabilidad mayor o
igual que 0,95, la adquisicion de una unidad de cada bien.
c) Cuantifique el grado de confianza de aseverar que con un presupuesto de 450 soles se
puedan adquirir dos unidades del bien A y una del bien B.
38
2.
Variable aleatoria
2.1. Introducci
on
Si tenemos una variable, X, para la cual desconocemos como asume sus valores, podemos
cuantificar esta incertidumbre asignando probabilidades sobre sus valores, de este modo se
tendra un mejor conocimiento del comportamiento de ella. Esta asignacion debe ser tal que
nos permita obtener la probabilidad de que la variable X asuma valores sobre cualquier
subconjunto, A, de valores posibles, es decir, P (X A). Tambien es posible obtener un
modelo o funcion que nos de tal asignacion de probabilidades que permita una descripcion
de la variable. A continuacion formalizamos un poco mas lo anterior.
Definici
on 2.1. Sea un espacio muestral asociado a un experimento aleatorio. Una
variable aleatoria es una funcion, X, que transforma cada resultado, , del espacio muestral,
en un n
umero real X().
X:
R
7 X()
Observaci
on 2.1. Que interpretacion podemos dar a esta definicion formal? Para
averiguarlo pongamonos en el papel de una persona que recibe u observa los valores de la
variable, para ella estos valores tendran una naturaleza aleatoria, puesto que estos se originan
al transformar los resultados de un experimento aleatorio en n
umeros. El experimento que
da la aleatoriedad resulta, para dicha persona, como una caja negra, pues dicha persona
solo recibe los valores y no observa el experimento mismo, por lo tanto, para tener una
descripcion de ella tendra que hacerlo de manera indirecta y no a traves del experimento
aleatorio mismo.
Ejemplo 2.1. En el contexto del ejemplo 1.14 del captulo anterior, en donde se tienen 20
empresas, de las cuales 5 son clasificadas del tipo a y las otras 15 del tipo b, se toma una
muestra al azar de 4 de estas. Entonces, el espacio muestral asociado a este experimento es:
= { A / A {1, . . . , 20}, #(A) = 4 }
con la interpretacion que las empresas estan identificadas por los n
umeros naturales del 1 al
20 y los primeros 5 identifican a las del tipo a.
39
Estadstica
{1, 2, 3, 6},
{1, 2, 4, 6},
{X = 3} =
...
{3, 4, 5, 6},
...
...
...
En este caso todo resultado, , de este evento tiene la propiedad de ser transformado en el
n
umero 3, es decir, X() = 3, ya que han sido seleccionadas tres de las empresas del tipo a.
Son 53 15
= 10x15 = 150 resultados que se convierten en el valor 3.
1
...
...
.
.
.
.
.
.
.
.
.
.
.
.
...
...
.
.
.
.
.
.
.
.
.
.
.
.
{1, 2, 3, 20},
{1, 2, 4, 20},
...
{3, 4, 5, 20}
Note que todo resultado, , de este evento tiene la propiedad de ser transformado en el
n
umero 1, es decir, X() = 1, pues solo ha sido seleccionada una de las empresas del tipo
a. Son 51 15
= 5 455 = 2 275 resultados que se convierten en el valor 1.
3
40
Variable aleatoria
41
Finalmente:
{X = 0} = { {6, 7, 8, 9}, {6, 7, 8, 10}, . . . . , {6, 7, 8, 20}, . . . . , {17, 18, 19, 20} }.
Todo resultado, , de este evento tiene la propiedad de ser transformado en el n
umero 0,
15
es decir, X() = 0, ya que no han sido seleccionadas empresas del tipo a. Son 4 = 1 365
resultados que se convierten en el valor 0.
Definici
on 2.2. El rango de una variable aleatoria X, es el conjunto de valores posibles que
puede asumir la variable. Se lo denota por RX .
Ejemplo 2.2. En el ejemplo anterior, el rango de la variable aleatoria X es RX =
{0, 1, 2, 3, 4}.
Definici
on 2.3. Se dice que una variable aleatoria es discreta, si su rango es un conjunto
discreto; y continua, si su rango es un conjunto continuo.
Ejemplo 2.3. La variable aleatoria X, del ejemplo 1, es discreta.
Ejemplo 2.4. En el ejemplo 1.17 del tema anterior, en donde el precio del bien A vara
aleatoria y uniformemente entre 100 y 200 soles, y el precio del bien B vara entre 200 y 300
soles, el espacio muestral es: = { (x; y) R2 / 100 x 200, 200 y 300} Con la
interpretacion siguiente: si (x; y) es un resultado de , quiere decir que el precio del bien A
es x soles y el del bien B es y soles.
Consideremos ahora la variable T definida como el precio total para adquirir una unidad de
cada uno de estos productos. Entonces, cada resultado posible, = (x, y), es transformado
por esta variable, T , en el n
umero T ((x, y)) = x + y. As, esta variable solo puede asumir
valores entre 300 y 500, es decir, RT = [300, 500]. Por lo tanto, T es una variable aleatoria
continua. Esto u
ltimo se ilustra en la figura siguiente:
Observaci
on 2.2. Los dos ejemplos anteriores ilustran de manera sencilla el concepto de
variable aleatoria. En la aplicacion practica encontramos variables que se generan de modo
complejo y en estas situaciones usamos un modelo probabilstico para describirlas, esta forma
de hacerlo se describira a continuacion.
41
Estadstica
P (X A) =
f (x), si X es discreta;
xA
f (x)dx,
si X es continua.
j=1
Notese tambien que si en la muestra se consideran solamente los valores no repetidos, digamos
P
x1 , . . . xk , y f r(x1 ), . . . , f r(xk ) sus respectivas frecuencias relativas; entonces, p =
f r(x).
xA
As, en la muestra se usan las frecuencias relativas obtenidas, f r(x), pero para la poblacion
estas frecuencias relativas son reemplazadas por los valores proporcionados por el modelo
probabilstico, f (x).
A continuacion ilustramos graficamente el caso continuo:
42
Variable aleatoria
43
5
1
f (x)
15
3
20
4
5
2
15
2
20
4
5
3
15
1
20
4
5
4
20
4
4x
20
4
, para cualquier x RX = { 0, 1, 2, 3, 4 }.
xA
Veamos como obtener las probabilidades de algunos eventos relacionados con esta variable
X, a partir de su modelo probabilstico f .
x=3
40
20
4
41
20
4
15
(53)(43
)
20
(4)
Observaci
on 2.4. El modelo probabilstico, f , de una variable aleatoria X, puede extenderse
hacia todo n
umero real, definiendola como cero en los casos fuera del rango. Ademas, en el
caso discreto a esta funcion se le llama tambien funcion de probabilidad; y en el caso continuo
funcion de densidad.
43
Estadstica
Ejemplo 2.6. El ingreso en soles, en un sector, se considera una variable aleatoria continua,
X, cuyo modelo probabilstico esta dado por:
si 0 x < 1500
0, 0008x/1500,
f (x) =
0, 002 0, 0008x/1000, si 1500 x 2500
0,
en otro caso
A modo de ejemplo, obtengamos la probabilidad de que un trabajador gane a lo sumo 1000
soles, es decir, P (X 1000). Como X es continua sigue, de la definicion de f, que
Z 1000
Z 1000
0, 0008 x2 .x=1000
0, 0008
x dx =
= 0, 2667
P (X 1000) =
f (x) dx =
1500
1500 2 x=0
0
0
As, el 26, 67 % de los trabajadores de este sector gana a lo mas 1000 soles.
Tambien calculemos la probabilidad de que un trabajador gane 2000 soles o menos, es decir,
la probabilidad P (X 2000). En este conviene usar el complemento:
Z 2500
P (X 2000) = 1 P (X > 2000) = 1
(0, 002 0, 0008x/1000) dx = 1 0, 1 = 0, 9.
2000
Variable aleatoria
45
f (x) = 1.
xRX
f (x)dx = 1.
RX
xf (x); si X es discreta.
xRX X
Z
X = E(X) =
xf (x)dx; si X es continua.
X
RX
Observaci
on 2.6. Resulta, entonces, que en el caso discreto: E(X) =
xP (X = x).
xRX
P
xRX
xf (x) =
4
P
xf (x)
x=0
Estadstica
Observaci
on 2.7. Cuando se registra u observa una gran cantidad de valores de una variable
aleatoria, la media de todos estos es aproximadamente igual a la esperanza de la variable.
Mas formalmente, si para cada n + , X1 , . . . , Xn es una muestra aleatoria de X y
n
= 1 P Xj (la media de la muestra); entonces, un resultado conocido por la Ley Fuerte de
X
j=1
1500
2500
xf (x) dx +
xf (x) dx =
R
xf (x) dx
1500
1500
2500
x(0, 0008x/1500)dx +
=
0
1500
xRX
Z
E(g(X)) =
RX
Observaci
on 2.8. Esta propiedad es muy importante: desde el punto de vista practico, pues,
al establecer que con el modelo probabilstico de una variable aleatoria se puede determinar
el valor esperado de cualquier funcion de esta, entonces no es necesario determinar el modelo
para la variable que es funcion de otra cuyo modelo es conocido; y desde el punto de vista
teorico, pues, permite deducir otras propiedades del valor esperado relacionadas con funciones
de una variable aleatoria, como las que se daran mas adelante.
P
Observe tambien que, en el caso discreto: E(g(X)) =
g(x)P (X = x).
xRX
Ejemplo 2.9. La demanda diaria de un artculo se considera una variable aleatoria discreta,
X, con modelo probabilstico:
2x
f (x) =
, x = 1, 2, 3, 4.
6(x!)
46
Variable aleatoria
47
E g(X) =
g(x)f (x) =
4
X
g(x)f (x) = 2 31 + 10 13 + 10 29 + 10
1
9
22
.
3
x=1
xRX
X
RX
xf (x) =
4
X
xf (x) = 1
1
3
+2
1
3
+3
2
9
+4
1
9
19
.
9
Es decir, en
x=1
promedio, la demanda diaria es de 2,11 unidades. Ademas, en la tabla del ejemplo anterior
se puede apreciar que E(g(X)) 6= g(E(X)).
2.3.2. Otras propiedades del valor esperado
1. El valor esperado de una constante es dicha constante.
2. Para cualesquiera que sean las constantes a y b : E(a + bX) = a + bE(X).
3. Sean g1 , . . . , gn , funciones, y a0 , a1 , . . . , an , constantes; entonces,
E a0 + a1 g1 (X) + . . . + an gn (X) = a0 + a1 E(g1 (X)) + . . . + an E(gn (X)).
Ejemplo 2.11. En el contexto del ejemplo 2.9, suponga que un comerciante compra cada
unidad demandada a 3 soles, y vende cada una a 6 soles; ademas la venta le produce un
costo fijo de 2 soles. As, la utilidad del comerciante es Y = 6X 3X 2 = 3X 2. Por lo
tanto, por la propiedad anterior y el resultado del ejemplo anterior, la utilidad esperada del
) 2 = 13
.
comerciante es E(Y ) = E(3X 2) = 3E(X) 2 = 3( 19
9
3
47
Estadstica
Ejemplo 2.12. Sea X una variable aleatoria tal que E(X m ) = m! , m + ; entonces,
E(1 + 2X 3X 2 + X 3 ) = 1 + 2E(X) 3E(X 2 ) + E(X 3 ) = 1 + 2(1!) 3(2!) + 3! = 3.
Ejemplo 2.13. (Teora de decisiones) Un comerciante debe decidir por cual de tres
proveedores comprar cierto producto. La demanda puede ser excelente, con probabilidad
0, 3, adecuada, con probabilidad 0, 5 o mala con probabilidad 0, 2. Y las utilidades semanales
(en soles) correspondientes dependen del proveedor y del estado de la demanda de los
consumidores, como se muestra a continuacion:
Estado de la demanda
Excelente Adecuada Mala
Proveedor
1
2
3
4000
2800
3100
1900
2850
2900
1800
1900
1200
La variable aleatoria que nos interesa esta asociada a los valores del estado de la demanda,
entonces, definamosla de la manera siguiente:
c) El comerciante enfrentara esta situacion durante muchas semanas, por eso, desde un
principio quiere optar por uno de los proveedores. Cual es la mejor decision?
Por lo observado para el valor esperado, bastara comparar las utilidades esperadas,
E(Ui ), que corresponderan a cada decision posible (proveedor i elegido). As,
48
Variable aleatoria
49
Excelente 2 =
4000
2800
3100
0, 3
Adecuada 3 = Mala
1900
1800
2850
1900
2900
1200
0, 5
0, 2
Resultara:
E(U1 ) =
xRX
E(U2 ) =
xRX
E(U3 ) =
xRX
Por lo tanto, la mejor decision sera optar por el segundo proveedor, ya que con este el
comerciante tendra una mayor utilidad promedio, en este caso de S/. 2 645.
d) Supongamos que el comerciante podra averiguar el estado de la demanda pagando un
precio. En promedio, cual sera el valor maximo que podra pagar?
En la teora de decisiones, este valor se llama el valor esperado de la informacion
perfecta. Lo obtenemos comparando las utilidades esperadas antes obtenidas, bajo
el conocimiento perfecto del estado de la demanda y bajo incertidumbre. As, el
comerciante debera pagar, en promedio, S/. 3 030 S/. 2 645 = S/. 385 como maximo.
= E(X 2 ) 2X
Ejemplo 2.14. Calculemos la desviacion estandar de la variable X del ejemplo 2.1 (con los
datos de los ejemplos 2.5 y 2.7).
49
Estadstica
Primero calculamos E(X 2 ). Para esto basta usar la propiedad que permite obtener el valor
esperado de una funcion de una variable aleatoria discreta, as:
2
E(X ) =
x f (x) =
4
X
x2 f (x)
x=0
xRX
2
3 + 4
20
4
2 + 9
20
4
1 + 16
20
4
15
4
0
20
4
= 3, 1053.
Luego X2 = E(X 2 ) 2X = 3, 1053 12 = 2, 1053; y X = 1,4509. Entonces, en general, los
valores de X no varan demasiado entorno de su media.
Ejemplo 2.15. Calculemos ahora la desviacion estandar de la variable X del ejemplo 6.
Nuevamente calculamos primero E(X 2 ), pero ahora usamos la propiedad que permite obtener
el valor esperado de una funcion de una variable aleatoria continua:
2
E(X ) =
1500
x f (x) dx =
R
2500
x f (x) dx +
X
1500
=
0
x2 f (x) dx
X
1500
0, 0008x
)dx +
x(
1500
2
2500
x2 (0, 002
1500
0,0008x
)dx
1000
Variable aleatoria
51
Observaci
on 2.11. De la desigualdad anterior se deduce que la proporcion de veces con
la cual la variable asume valores que disten de la media, en mas de tres veces la desviacion
estandar, es menor que un noveno. Por tal razon, a los valores que distan de la media, en mas
de tres veces la desviacion estandar, se les puede llamar valores poco frecuentes o inusuales.
2.5. Funci
on de distribuci
on acumulada
Definici
on 2.7. Si X es una variable aleatoria, discreta o continua, se define su funcion de
distribucion acumulada, FX , mediante:
FX (x) = P (X x), para cada x R.
Luego, recordando como se obtienen las probabilidades a traves de la ley o distribucion de
probabilidades de X, f (x), se tiene que:
X
f (y);
si X es discreta.
yx X
Z x
FX (x) =
X
Ejemplo 2.16. En el contexto del ejemplo 2.6, en donde el ingreso en soles, en un sector,
se considera una variable aleatoria continua, X, con densidad:
si 0 x < 1500.
0,0008x/1500,
f (x) =
0,002 0,0008x/1000, si 1500 x 2500.
0,
si x
/ [ 0; 2500 ].
Rx
Z
Si 0 < x 1500 : F (x) = P (X x) =
Z
fX (y) dy =
f (y) dy :
(0, 0008y/1500)dy =
0
8
7 2
x10 x .
3
Si 1500 x 2500 :
Z2500
Z
F (x) = P (X x) = 1 P (X > x) = 1
fX (y) dy= 1
2500
Estadstica
0, si x < 0.
1, si x > 2500.
Ahora veamos dos casos que ilustran como la distribucion acumulada facilita el calculo de
las probabilidades:
a) La probabilidad de que un trabajador gane entre 1000 y 2000 es:
P (1000 X 2000) = F (2000) F (1000)
= 0,002(2000) 4x107 (2000)2 1,5 38 x107 (1000)2
= 0,6333
As, el 63, 33 % de los trabajadores de este sector gana entre entre 1000 y 2000 soles.
b) La probabilidad de que un trabajador gane mas que el ingreso promedio (1333,33) es:
P (X > 1333, 33) = 1 F (1333, 33) = 1 83 x107 x2 = 0, 4741.
Z 1500
Z 2500
Z 2500
0,0008x
0,0020,0008x
f (x)dx =
dx +
dx;
Con la densidad: P (X > 1333, 33) =
1500
100
1333,33
1333,33
1500
Variable aleatoria
53
x:
lm F (y) = F (x) P (X = x)
yx
2.7. T
ecnica del cambio de variable
Sean X e Y dos variables aleatorias, con Y una funcion de X. En algunos casos se puede
deducir el modelo probabilstico de Y a partir del modelo de X, una tecnica para hacerlo se
detalla a continuacion:
a) Si Y es discreta f (y) = P (Y = y). Para hallar esta probabilidad se expresa el evento
Y
Y = y en terminos de X; hecho esto se obtiene la probabilidad con el modelo de X.
b) Cuando Y es continua f (y) = P (Y = y) = 0; as, lo explicado en la parte anterior
Y
no es u
til. En este caso primero se determina la funcion de distribucion acumulada de
Y, a partir de F (y) = P (Y y). Es decir, se expresa el evento Y y en terminos
Y
Estadstica
1
4
= 12 ey/2 , y > 0.
Ejemplo 2.18. Sea X una variable aleatoria positiva, cuya funcion de probabilidad (o
modelo probabilstico) esta dada por fX (x) = x/210, para x = 1, . . . , 20. Sigamos la tecnica
antes descrita, para determinar la funcion de la variable Y = 2X.
Como Y es discreta: fY (y) = P (Y = y).
Ademas, P (Y = y) = P (2X = y) = P (X = y/2) = fX (y/2). As, fY (y) = fX (y/2) = y/420,
para y = 2, 4, . . . , 40.
54
Variable aleatoria
55
Estadstica
Ejercicio 2.4.
El n
umero de automoviles que contaminan el ambiente, cada minuto, es una variable
2 x
aleatoria, X, cuyo modelo probabilstico esta dado por: f (x) = e x!2 , x = 0, 1, . . .
a) Determine la probabilidad de que en un minuto no circulen automoviles que contaminen
el ambiente.
b) Cual es la probabilidad de que en un minuto circulen mas de un automovil
contaminando el ambiente?
Ejercicio 2.5.
Considere los 55 datos siguientes:
1,
2,
3,
4,
5,
6,
7,
8,
9,
10,
2,
3,
4,
5,
6,
7,
8,
9,
10,
4,
5,
6,
7,
8,
9,
10,
4,
5,
6,
7,
8,
9,
10,
4
5,
6,
7,
8,
9,
10,
7,
8,
9,
10,
7,
8,
9,
10,
7
8,
9,
10,
9,
10,
a) Encuentre la proporcion de veces que ocurre cada uno de los valores anteriores y la
media de estos datos e indquelas en la tabla siguiente:
x 1
p
2 3 4 5 6 7 8
9 10
b) Asuma que los valores dados correspondan a una muestra aleatoria de la variable
aleatoria X cuyo modelo probabilstico esta dado por f (x) = x/55. Use este modelo
para completar la tabla siguiente:
x
P (X = x)
1 2 3 4
5 6 7 8 9 10
c) Diga si los resultados obtenidos en las partes anteriores estan en armona. Emplee la
Ley Fuerte de los Grandes N
umeros.
(la media de la muestra de estos 55 datos) y E(X) (el valor esperado de
d) Obtenga X
X); luego, diga si los resultados obtenidos estan en armona con la Ley Fuerte de los
Grandes N
umeros.
56
Variable aleatoria
57
Ejercicio 2.6.
Sea X una variable aleatoria continua que puede tomar cualquier valor y modelo
c
probabilstico dado por f (x) = 1+x
2 .
a) Determine el valor de la constante c.
b) Halle P (X > 0).
c) Demuestre que esta variable aleatoria no tiene valor esperado.
Ejercicio 2.7.
El ahorro de los habitantes de una ciudad (medido en miles de soles) es considerado una
variable aleatoria continua, X, cuyo modelo probabilstico esta determinado por la regla
f (x) = x2 /9, 0 x 3.
a) Seg
un este modelo probabilstico, que porcentaje de los habitantes de esta ciudad
ahorran mas de mil soles?
b) Seg
un este modelo probabilstico, cual es el ahorro promedio de los habitantes de esta
ciudad?
c) Seg
un las autoridades, el consumo de los habitantes de la ciudad, en funcion del ahorro,
esta dado por 1 + 4 X. Si esto es as, halle el consumo promedio.
d) Suponga que las autoridades han estimado un impacto en la economa igual a 1000X 2 .
Si es as, halle el valor esperado de este impacto.
Ejercicio 2.8.
Cierto productor fabrica un bien cuya demanda semanal, en kilogramos, es una variable
aleatoria X con densidad f (x) = 0, 002e0,002x , x > 0. Cada kilogramo producido le cuesta
100 soles y lo vende a 250 soles. Toda cantidad que no logra vender el productor se pierde sin
generar un costo adicional al de su fabricacion. Suponga que en cierta semana el productor
decide fabricar 500 kilogramos.
a) Cual es la probabilidad de satisfacer la demanda?
b) Cual es la probabilidad de que se satisfaga la demanda y al mismo tiempo el productor
gane mas de cincuenta mil soles?
c) Cual es la probabilidad de que la demanda no sea satisfecha?
d) Cual es la probabilidad de que la demanda no sea satisfecha y al mismo tiempo el
productor gane mas de cincuenta mil soles?
e) Cual es la probabilidad de que el productor gane mas de cincuenta mil soles?
57
Estadstica
Ejercicio 2.9.
Sea X una variable aleatoria discreta cuyos valores y probabilidades correspondientes se
muestran en la tabla siguiente:
x
P (X = x)
-2
0
2
1/4 1/2 1/4
a) Halle P (X 6= 0).
b) Determine el valor esperado de X.
c) Determine el valor esperado de X 2 . No debera cumplirse que E(X 2 ) = [ E(X) ]2 ?
d) Determine el valor esperado de 5 + 6X.
Ejercicio 2.10.
Se realizaran cinco inversiones; se sabe que por lo menos una resultara exitosa. Sea X la
variable aleatoria definida como la cantidad de inversiones que resulten exitosas. El modelo
probabilstico de esta variable esta determinado por f (x) = c 2x , x RX , con c una
constante.
a) Determine el rango de la variable aleatoria X.
b) Cual es el valor de la constante c?
c) Halle la probabilidad de que mas de tres inversiones resulten exitosas.
d) Halle la probabilidad de que mas de dos inversiones resulten exitosas.
e) Halle el valor esperado del n
umero de inversiones que resulten exitosas.
f) Cada inversion tiene un costo de 100 soles; si la inversion resulta exitosa se gana 200
soles, pero si no resulta exitosa se pierde 150 soles. Obtenga el valor esperado de de la
utilidad que generara realizar estas cinco inversiones.
g) Halle el valor esperado de la razon existente entre el n
umero de inversiones que no
resulten exitosas y el n
umero de inversiones que resulten exitosas.
Ejercicio 2.11.
Sea X una variable aleatoria que puede asumir cualquier valor positivo y funcion de densidad
dada por f (x) = e x , x > 0, con > 0.
a) Verifique que, en efecto, f determina un modelo probabilstico.
b) Demuestre que P (X > t + h / X > t) = P (X > h), h, t > 0.
58
Variable aleatoria
59
Ejercicio 2.12.
La distribucion de los ingresos, X, de los trabajadores en cierto sector laboral, esta determinada por la funcion de densidad, definida entre 0 y 10000 soles, y cuya grafica se muestra
en la figura siguiente:
Suponga que un impuesto de solidaridad es implantado en este sector: los que ganan menos
de 2000 soles quedan exonerados; los que ganen entre 2000 y 3000 soles pagaran 10 soles, los
que ganen mas de 3000 pero menos de 8000 pagaran 15 soles; y los que ganen mas de 8000
soles pagaran 20 soles.
a) Halle el porcentaje de los trabajadores cuyos ingresos estan entre 2000 y 4000 soles.
b) Que porcentaje de trabajadores tendra sus ingresos gravados con el impuesto?
c) Que porcentaje de trabajadores debera pagar mas de 15 soles?
d) Determine el monto promedio que se pagara por este impuesto. Hagalo con el modelo
de X. Luego, use el modelo probabilstico de la variable aleatoria Y, definida como el
monto pagado por trabajador debido al impuesto.
Ejercicio 2.13.
El tiempo (en a
nos) hasta la ocurrencia de cierto evento catastrofico se considera una variable
aleatoria continua, X, con modelo probabilstico dado por: f (x) = 2 x/25 , 0 x 5.
a) Halle P (1 < X < 2).
b) Cual es la probabilidad de que dicho evento ocurra despues de 2 a
nos?
c) Si ya hace un a
no que no ocurre tal evento, determine la probabilidad de que pasen
mas de 2 a
nos todava.
d) Una persona adquiere una poliza, contra este tipo de evento, que le cuesta mil soles.
El contrato de la poliza estipula que esta vale solo por un a
no y cubre solamente la
primera vez que ocurra el evento, de modo que si el evento ocurre en este perodo la
compa
na aseguradora le pagara una suma indemnizatoria de tres mil soles, pero no lo
volvera hacer si ocurriera nuevamente el evento.
d1 ) Determine la probabilidad de que la aseguradora gane dos mil soles.
d2 ) Determine la utilidad esperada de la aseguradora.
59
Estadstica
Ejercicio 2.14.
En cierta region se tomo una muestra aleatoria de 100 habitantes y se registro, para cada
uno de estos, el ingreso mensual (en miles de soles). Los resultados obtenidos se resumen en
la tabla siguiente:
Ingso. men. (miles de soles)
N
umero de habitantes
[ 0, 1 [ [ 1, 2 [ [ 2, 3 [ [ 3, 4 [ [ 4, 5 ]
6
19
33
31
11
Para realizar inferencias sobre los ingresos en la region entera se decidio considerar al ingreso
mensual (en miles de soles) de sus habitantes como una variable aleatoria continua, X, con
valores en el intervalo [0, 5] y modelo probabilstico dado por
si 0 x 3.
15 x,
1
f (x) =
1 5 x, si 3 < x 5.
0,
en otro caso.
a) Use el modelo considerado para calcular la proporcion de habitantes, en la region
completa, que ganan hasta tres mil soles.
b) Diga si los valores observados (mostrados en la tabla anterior) parecen estar en armona
con el modelo probabilstico considerado. Haga los calculos que considere necesarios,
de modo que pueda sustentar su respuesta con estos y la Ley Fuerte de los Grandes
N
umeros (aplicada a proporciones de muestras).
c) Halle E(X).
d) Interprete el valor obtenido en la parte anterior, seg
un este contexto.
e) Para tomar en cuenta solo los ingresos de quienes ganan hasta tres mil soles, se
considera la funcion siguiente:
(
x, si 0 x 3.
g(x) =
0, si 3 < x.
Use esta funcion y el modelo probabilstico de X para hallar el ingreso promedio
de quienes ganan hasta tres mil soles. Luego calcule que proporcion representa este
promedio obtenido, respecto del ingreso promedio en la region entera (tambien obtenido
con el modelo)
f) Un especialista afirma que el ingreso total de esta region se distribuye desigualmente
entre sus habitantes. Trate de explicar si las proporciones obtenidas en las partes a y
e reflejan esta afirmacion.
g) El gasto en alimentos de los habitantes de esta region esta dado por 1 + 12 X. Determine
el gasto promedio en alimentos en esta region.
60
Variable aleatoria
61
Ejercicio 2.15.
En el contexto del ejercicio 1.27 del captulo de probabilidad, halle el rango, la funcion de
probabilidad, el valor esperado y la desviacion estandar de la variable, X, definida como el
n
umero de a
nos (del perodo considerado) en los que la demanda es muy baja.
Generalizar el ejercicio para un perodo de n a
nos.
Ejercicio 2.16.
Suponga que la proporcion diaria de veces que ciertos comerciantes evaden la entrega de
una boleta de pago es una variable aleatoria con funcion de densidad f (x) = 6x(1 x),
0 x 1. Una muestra aleatoria de 100 comerciantes fue supervisada durante un da y se
registro, para cada uno de estos, la proporcion diaria de evasiones:
Proporci
on de evasiones
N
umero de comerciantes
[ 0, 0,2 [
9
Estadstica
Ejercicio 2.18.
Supongamos que X, la demanda diaria de un artculo, ha sido considerada como una variable
x
aleatoria discreta con modelo probabilstico: f (x) = 61 ( x!2 ), x = 1, 2, 3, 4.
a) Antes de optar por el modelo anterior se tena informacion de la demanda diaria
correspondiente a sesenta das, que se resume por la distribucion de frecuencias
siguiente:
Variable aleatoria
63
Ejercicio 2.20.
El ingreso mensual (en miles de soles) de las familias de cierta region es una variable aleatoria
continua, X, con rango el intervalo [0; 2], y funcion de densidad f (x) = 1 21 x, 0 x 2.
Para tomar en cuenta solo los ingresos de las familias que ganan hasta y miles de soles, con
0 y 2, se considera la funcion g cuya regla de correspondencia es la siguiente:
(
x, si 0 x y;
g(x) =
0, si x > y.
a) Halle h(y) = E(g(X)) : el ingreso promedio de quienes ganan hasta y miles de soles.
h(y)
: la proporcion del ingreso promedio de quienes ganan hasta y
E(X)
miles de soles, respecto al ingreso promedio en la region, 0 y 2.
c) Halle el Coeficiente de Gini: 1 2E (X) .
b) Halle (y) =
d) Bosqueje la Curva de Lorenz, es decir, la formada por los pares (F (x), (x)). Concluya,
comparandola con la situacion de distribucion sin desigualdad.
Ejercicio 2.21.
Para el estudio de la distribucion de los ingresos de cierta region, se decidio considerar al
ingreso mensual (en miles de soles) de las familias (de esta region) como una variable aleatoria
continua, X, con valores en el intervalo [0, 8] y modelo probabilstico determinado por la
1
funcion de distribucion acumulada siguiente: F (x) = 14 x 64
x2 , si 0 x 8.
a) Use solo F para obtener la probabilidad P (2 < X 4).
b) Halle f : el modelo probabilstico de X.
c) Halle E(X) e interpretelo en este contexto.
d) Para tomar en cuenta solo los ingresos de las familias que ganan hasta y miles de soles
(0 y 8), se considera la funcion g, con la regla de correspondencia siguiente:
(
x, si 0 x y,
g(x) =
0, si x > y.
d1 ) Halle h(y) = E(g(X)).
h(y)
d2 ) Se define (y) =
, para 0 y 8. Que representa (y)?
E(X)
d3 ) Obtenga (y) (para 0 y 8).
d4 ) Haga un bosquejo de la Curva de Lorenz, es decir, de la curva formada por los
pares (F (y), (y)). Concluya.
d5 ) Halle el Coeficiente de Gini: 1 2E (X) .
63
Estadstica
Ejercicio 2.22.
Sea X una variable aleatoria continua tal que P (X > 1) = 0, 2. Sea la variable aleatoria Y
tal que Y = 1, si X > 1, e Y = 0, si X 1. Determine el valor esperado de la variable Y.
Ejercicio 2.23.
El n
umero de semanas, X, en las que una inversion es de alto riesgo, durante cierto perodo
c(5)x
, x RX .
de 8 semanas, tiene como modelo probabilstico a la funcion dada por: f (x) =
x!
Tambien se sabe que por lo menos en una semana (de este perodo) la inversion es de alto
riesgo, pero no en todas las semanas sera as.
a) Determine el rango de la variable aleatoria X.
b) Cual es el valor de la constante c?
c) Determine la probabilidad de que en mas de la mitad de las semanas (de este perodo)
la inversion sea de alto riesgo.
d) Determine la probabilidad de que en mas de dos de las semanas (de este perodo) la
inversion sea de alto riesgo.
e) Halle el n
umero promedio de semanas en las que la inversion sera de alto riesgo.
f) Cuando la inversion es de alto riesgo la perdida en la semana es de 400 um; mientras
que cuando no lo es se obtiene una ganancia semanal de 500 um. Obtenga el valor
esperado de la utilidad semanal.
g) Determine el valor esperado de la proporcion existente entre el n
umero de semanas en
las que la inversion es de alto riesgo y el n
umero de semanas en las que no lo es.
Ejercicio 2.24.
Sea X una variable aleatoria con media = 14 y desviacion estandar = 2
a) Halle la media y la varianza de Y = 21 X 6.
b) Halle las constantes a y b para que la transformacion de X : Y = a + bX, tenga una
media de 50 y una desviacion estandar de 10.
c) Use la desigualdad de Chebychev para tener una idea de como es el valor de la
probabilidad: P (6 X 22).
d) Use la desigualdad de Chebychev para tener una idea de como es el valor de la
probabilidad: P (6 X 20).
e) Use la desigualdad de Chebychev para tener una idea de como es el valor de la
probabilidad: P (8 X 22).
64
Variable aleatoria
65
Ejercicio 2.25.
Un psicoterapeuta, que se especializa en problemas de autoestima, ha registrado el tiempo
necesario que necesitan sus pacientes para revertir este problema. As, ha determinado que
esta variable puede considerarse continua, con un rango de valores entre 0, 5 y 4, 5 meses, y
funcion de densidad f (x) = x/10, 0, 5 x 4, 5.
a) Un alumno con problemas de autoestima inicia su terapia un mes antes de sus examenes
finales. Cuan probable es que este tiempo sea suficiente para revertir su problema antes
de dichos examenes?
b) Determine e interprete el valor esperado del tiempo que necesitan los pacientes para
revertir este problema.
c) El costo de la terapia (en soles) puede considerarse como una variable, Y, que depende
del tiempo necesario para revertir este problema, X, como sigue:
400, si 0, 5 X 1.
600, si 1 < X 2.
Y =
1000, si 2 < X 3.
2000, si 3 < X 4, 5.
Determine e interprete el valor esperado del costo de la terapia. Use el modelo
probabilstico de X; y luego el de Y.
Ejercicio 2.26.
La demanda, de cierto producto es una variable aleatoria discreta, X, con valores posibles
entre 0 y 100 unidades y funcion de distribucion acumulada:
FX (x) =
x(x + 1)
, x { 0, 1, . . . , 100 }.
10 100
Estadstica
Ejercicio 2.27.
Tres pacientes inician un tratamiento que durara un mes. Sea X el n
umero de estos pacientes
que estaran curados al cabo del mes. Suponga que el modelo probabilstico para esta variable
1
, x = 0, 1, 2, 3.
esta dado por: f (x) = 27
40 3x
a) Determine el valor esperado del n
umero de pacientes que estaran curados al cabo del
mes.
b) Determine la desviacion estandar del n
umero de pacientes que estaran curados al cabo
del mes.
c) El costo por paciente que se recupere al cabo del mes es de tres unidades monetarias.
Cada paciente que no se recupera al cabo del mes origina un costo adicional de una
unidad monetaria. Ademas, hay un costo fijo de dos unidades monetarias. Halle el valor
esperado y la desviacion estandar del costo total.
Ejercicio 2.28.
Al invertir una cantidad en una operacion financiera se obtiene una tasa de rentabilidad, X,
modelada por la funcion de densidad siguiente:
(
x + c, si 1 x < 0.
f (x) =
d x, si 0 x 1.
con c y d constantes. Ademas, en tres de cada ocho inversiones se gana, pero menos del 50 %
de lo invertido.
a) Determine las constantes c y d.
b) Determine la probabilidad de que la rentabilidad este entre - 0,3 y 0,7.
c) Halle el valore esperado de la rentabilidad.
d) Suponga que al invertir en esta operacion, se quiere que en el peor de los casos se pierda
una fraccion r de lo invertido. Determine el valor r para que lo anterior suceda con una
probabilidad de 0,95. Este valor r se conoce como el valor en riesgo (VaR) que tiene
una confianza del 95 %. Note que si c0 es la cantidad invertida y cf es la cantidad al
c c0
final de la inversion; entonces, X = f
. Si X > 0 : se gana; y si X < 0 : se pierde.
c0
Ejercicio 2.29.
Sea X una variable aleatoria continua, con rango RX = [ 0, 5 ] y modelo probabilstico
dado por: f (x) = 2 x/25 , 0 x 5. Halle E g(X) , si g(x) = 10x, 0 x 2 y
g(x) = 5x, 2 < x 5.
66
Variable aleatoria
67
Ejercicio 2.30.
Una municipalidad verificara si las tiendas de su distrito cumplen una ordenanza dictada
recientemente. Con este fin, se escogera una muestra aleatoria de 20 tiendas.La cantidad de
tiendas, en la muestra que sera seleccionada, que incumplan la ordenanza es una variable
aleatoria, X, cuya funcion de probabilidad esta dada por: f (x) = x/210, x = 0, 1, . . . , 20 .
a) Determine la probabilidad de que por lo menos cinco de las tiendas, en la muestra por
seleccionar, incumplan la ordenanza.
b) Determine e interprete el valor esperado del n
umero de tiendas, en la muestra por
seleccionar, que incumplan la ordenanza.
c) Suponga que inspeccionar cada tienda de la muestra seleccionada costara 500 soles.
Ademas, cada deteccion originara un descuento de 500 soles en el costo, pues esta
cantidad sera pagada por el propietario de la tienda que incumpla la ordenanza; pero
cada tienda seleccionada que cumpla la ordenanza originara un costo adicional de 250
soles, pues el propietario de la tienda recibira un descuento en sus tributos por este
valor. El presupuesto para llevar a cabo este muestreo es de 12 750 soles.
c1 ) Cuantifique la confianza de este presupuesto para poder llevar a cabo el muestreo.
c2 ) Determine e interprete el valor esperado del costo para llevar a cabo el muestreo.
Ejercicio 2.31.
El n
umero de unidades defectuosas, que se pueden encontrar en un lote de artculos,
corresponde a una variable aleatoria X cuya distribucion acumulada es:
0,
si
x<0
0,75, si 0 x < 1
0,85, si 1 x < 2
F (x) =
0,925, si 2 x < 3
0,975, si 3 x < 4
1,
si
x4
a) Use F solamente, sin obtener la funcion de probabilidad asociada f, para obtener las
probabilidades de los eventos siguientes:
i) No encontrar unidades defectuosas en el lote.
ii) Encontrar, como maximo, tres unidades defectuosas en el lote.
iii) Encontrar, por lo menos, una unidad defectuosa, pero maximo tres.
b) Determine el n
umero promedio de unidades defectuosas.
67
Estadstica
Ejercicio 2.32.
El fabricante de cierto producto debe decidir la cantidad tde toneladas que debe fabricar
mensualmente. Por estudios de mercado realizados por el fabricante sobre la demanda para el
mes siguiente, se llego a establecer que la demanda proyectada debe considerarse una variable
aleatoria continua, pudiendo asumir valores entre 0 y 10 toneladas y funcion de densidad
f (x) = x/50, 0 x 10. El costo de fabricacion y el precio de venta proyectados, por
cada tonelada del producto, son 10 mil y 20 mil soles, respectivamente. Ademas el estudio
de mercado le costo al fabricante 50 mil soles y naturalmente debera incluirlo en sus costos.
a) Suponga que el fabricante decidiera producir una cantidad t igual a 8 toneladas, cual
sera la probabilidad de que gane menos de 10 mil soles?
b) Determine el valor, t, que debe producir el fabricante para maximizar su utilidad
esperada.
Ejercicio 2.33.
El estudio de la demanda de un bien para el perodo de los proximos tres a
nos (1, 2 y 3)
determino que esta podra ser muy baja en cualquiera de estos a
nos, de manera independiente
y con una probabilidad de un decimo. Las decisiones que se deben tomar dependen de la
variable aleatoria X, definida como la cantidad de a
nos (de este perodo) en los que la
demanda sera muy baja.
a) Determine la probabilidad de que en los tres a
nos de este perodo la demanda del bien
sea muy baja.
b) Determine la probabilidad de que solo en dos de los a
nos de este perodo la demanda
del bien sea muy baja.
c) Halle RX , el rango de la variable aleatoria X.
d) Determine fX , el modelo probabilstico de la variable X. Sugerencia: considere los
eventos Ai : la demanda sera muy baja en el a
no i; i = 1, 2 y 3.
e) Halle el valor esperado de la cantidad de a
nos (de este perodo) en los que la demanda
sera muy baja.
f) La utilidad de cierta inversion (en miles de soles) es una funcion g(X), con
si x = 0.
1000,
g(x) =
1000 200x, si x = 1 o 2.
1000 400x, si x = 3 o 4.
Determine el valor esperado de esta utilidad.
68
Variable aleatoria
69
Ejercicio 2.34.
En cierta inversion la utilidad generada es una variable aleatoria, X, con valores entre 6,5 y
7,5 miles de soles y funcion de densidad dada por:
f (x) =
57 51(x 7)2
; 6, 5 x 7, 5.
40
10
a) Halle la probabilidad de que esta inversion genere mas de siete mil soles de utilidad.
b) Una persona desea invertir de modo que su utilidad esperada sea de 7 mil soles. Esta
inversion cumple este requerimiento?
c) Determine la probabilidad de que esta inversion genere utilidades superiores a la media.
d) Determine los valores de a y b, de modo que la probabilidad de que la utilidad generada,
X, este en el intervalo [ a , b ] sea igual a 0,95. Si es posible, hagalo de tal forma que la
longitud de este intervalo sea lo mas peque
na posible.
e) Halle e interprete la utilidad esperada.
Ejercicio 2.35.
Se debe decidir cual debe ser el tama
no de un lote, de cierto artculo, que debe ser adquirido.
El tama
no posible del lote puede ser 100, 200 o 400 unidades. Ademas, en cada lote, cada
unidad sin defectos genera una ganancia de 500 soles y cada unidad defectuosa origina una
perdida de 300 soles. Por otra parte, se sabe que la proporcion de unidades defectuosas, por
lote adquirido durante una semana, es una variable aleatoria discreta, X, cuya distribucion
acumulada, F, tiene la grafica siguiente:
Suponga el tama
no del lote que se adquirira sera el mismo para un perodo de muchas
semanas.
a) Si adquieren lotes de 100 unidades, cual sera la utilidad esperada por lote?
b) Si adquieren lotes de 200 unidades, cual sera la utilidad esperada por lote?
c) Si adquieren lotes de 400 unidades, cual sera la utilidad esperada por lote?
d) Cual es el tama
no optimo del lote que se debe adquirir?
69
Estadstica
Ejercicio 2.36.
La proporcion de comerciantes evasores de cierto impuesto es una variable aleatoria continua,
X, cuyo modelo probabilstico esta determinado por la funcion: fX (x) = 2,5 x, 0, 1 < x < 0,9.
La perdida para el fisco (en millones de soles) esta determinada por la variable Y = 10X + 5.
a) Halle la probabilidad de que la proporcion de evasion sea superior a 0,3.
b) Halle la probabilidad de que la perdida del fisco este entre 7 y 9 millones de soles.
c) Determine e interprete el valor esperado de la proporcion de evasion.
d) Determine e interprete la desviacion estandar de la proporcion de evasion.
e) Cual es el valor esperado de la perdida del fisco?
f) Determine, fY , la densidad de Y.
g) Emplee la definicion del valor esperado y el resultado anterior para determinar el valor
esperado pedido en la parte e.
Ejercicio 2.37.
La demanda de cierto bien es descrita por una variable aleatoria continua X, cuya funcion
de distribucion acumulada esta dada por: FX (x) = 1 ex x ex , x > 0. La utilidad de
cierto comerciante (en miles de soles) es una funcion de la demanda: g(X), con g dada por:
(
1, si 0 < x 1.
g(x) =
x, si
x 1.
a) Halle la probabilidad de que la demanda sea mayor que 4.
b) Halle la probabilidad de que la demanda este entre 2 y 5.
c) Halle la probabilidad de que el comerciante gane entre 2 mil y 3 mil soles.
d) Halle la probabilidad de que el comerciante gane entre 500 soles y 3 mil soles.
e) Determine la funcion de densidad de X.
f) Determine e interprete el valor esperado de la demanda.
g) Determine la desviacion estandar de la demanda.
h) Determine el valor esperado de la utilidad.
i) Determine la desviacion estandar de la utilidad.
70
Variable aleatoria
71
Ejercicio 2.38.
La duracion, X (en horas), de un dispositivo electronico tiene una funcion de distribucion
acumulada dada por: FX (x) = 1 e x/3 ; x > 0.
a) Determine la probabilidad de que el dispositivo dure mas de dos horas.
b) Determine la probabilidad de que el dispositivo dure, maximo, una hora.
c) Determine la probabilidad de que el dispositivo dure entre 2 y 4 horas.
d) Determine la media de la duracion y su desviacion estandar.
e) Halle la probabilidad P ( | X X | 2X ).
Ejercicio 2.39.
Sea X es una variable aleatoria discreta con funcion de probabilidad dada por fX (x) =
0, 9 (0, 1)x1 , x N+ . Se define Y = X 1.
a) Determine E(X).
b) Determine, fY , la funcion de probabilidad de Y.
c) Determine E(Y ) con la funcion de probabilidad de X; y luego con la de Y.
Ejercicio 2.40.
Sea X una variable aleatoria continua, positiva, con funcion de distribucion acumulada dada
2
por FX (x) = 1 e4x , x > 0. Sea Y = X 2
a) Halle P (X > 2).
b) Halle P (2 X 4).
c) Determine, fX , la funcion de densidad de X.
d) Determine, FY , la funcion de distribucion acumulada de Y.
e) Determine, fY , la funcion de densidad de Y.
f) Determine E(Y ) con la funcion de densidad de Y ; y luego con la de X.
Ejercicio 2.41.
2
Estadstica
Ejercicio 2.42.
Sea X una variable aleatoria continua tal que E(X m ) =
2m+1
, m > 0.
X+
X2
X 3 ).
Ejercicio 2.43.
Sea X una variable aleatoria con rango RX = R, media 3,5 y desviacion estandar 0,25.
La utilidad que genera una inversion, en funcion de X, esta dada por:
(
100; 2 X 4.
G(X) =
160; X < 2 o X > 4.
a) Si usa la desigualdad de Chebychev que podra concluir acerca de la probabilidad
P (3 X 4) ?
b) Seg
un su conclusion dada anteriormente, que puede concluir acerca de la probabilidad
P (2 X 4) ?
c) Puede asegurarse que la media de estas utilidades sea por lo menos 35?
Ejercicio 2.44.
Sea X una variable aleatoria continua y positiva, con funcion de densidad f (continua) y
funcion de distribucion acumulada F.
a) Si F (x) = 1 e x , x > 0 (con > 0), demuestre que:
P (X > t + h / X > t) = P (X > h), h > 0, t > 0.
b) Si P (X > t + h / X > t) = P (X > h), h, t > 0, demuestre que:
F (x) = 1 e x , x > 0, con = F 0 (0) = f (0).
Sugerencia: exprese las probabilidades anteriores en terminos de F y compruebe que:
F 0 (t) = lim
h0
F (t + h) F (t)
F (h)
= [1 F (t)] lim
= [1 F (t)] F 0 (0) , t > 0.
+
h
h
h0
Ejercicio 2.45.
Si X Pareto(1; ); es decir, f (x) = x(+1) , x > 1, con > 0. Determine E(X) y
X
V (X).
72
Variable aleatoria
73
Ejercicio 2.46.
El n
umero de clientes que llegan a un cajero automatico, hasta el primero que realiza
una transferencia hacia otra cuenta, es una variable aleatoria discreta X cuya funcion de
distribucion acumulada esta dada por F (x) = 1 (0, 6)x , x = 1, 2, . . .
Estadstica
Ejercicio 2.50.
Se dice que una variable aleatoria continua y positiva, X, tiene modelo exponencial con
parametro (con > 0) 1 , si su modelo probabilstico esta dado por
f (x) = e x, x > 0.
X
X G(, ).
Si X G(, ), use la tecnica del cambio de variable (descrita en la seccion 2.7) para hallar
e identificar el modelo probabilstico de Y = 2 X. Incluya los parametros.
Ejercicio 2.52.
Se dice que una variable aleatoria continua y positiva, X, tiene modelo Weibull con
parametros > 0 y > 0, si su modelo probabilstico esta dado por
f (x) = x1 e x , x > 0.
X
74
Variable aleatoria
75
Ejercicio 2.53.
Otro de los modelos probabilsticos importantes para variables aleatorias positivas es el
Weibull generalizado. Este modelo se caracteriza por la distribucion acumulada siguiente:
F (x) = 1 ex
, x > 0;
con > 0, > 0 y > 0. Si X es una variable positiva que tiene este modelo, denotamos
esto por X W g(; ; ).
f (x) =
X
1
2
1
e 2 2 (x) , < x < .
2
Gupta & Kundu(1999). Theory & methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2), 173188.
75
Estadstica
Ejercicio 2.56.
Sea X N (, 2 ), es decir, el modelo dado en el ejercicio 2.55. Use la tecnica del cambio
de variable para hallar el modelo de Y = (X )/. Tenga el cuenta el ejercicio 2.51 para
reconocer el modelo obtenido anteriormente.
Si X N (, 2 ), use la tecnica del cambio de variable (descrita en la seccion 2.7) para
hallar e identificar el modelo probabilstico de Y = a + b X (con a y b > 0). No olvide
dar los parametros.
Ejercicio 2.57.
En la tabla siguiente se muestran algunos valores de la funcion de distribucion acumulada,
F, de una variable aleatoria X :
x
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
F (x)
0,0190
0,0656
0,1429
0,2424
0,3528
0,4634
0,5665
0,6577
0,7350
0,7983
6,0
6,5
7,0
7,5
8,0
8,5
9,0
9,5
10,0
10,5
F (x)
0,8488
0,8882
0,9182
0,9409
0,9576
0,9699
0,9788
0,9851
0,9897
0,9929
76
3.
Estadstica
El promotor visitara a muchos clientes, cada uno de estos puede comprar el producto en
promocion. Cada visita origina un ensayo u oportunidad para observar si ocurre el evento
de interes: que el cliente compre el producto. Entonces, si cada cliente puede comprar el
producto independientemente de los demas y con la misma probabilidad, se tendra un proceso
de Bernoulli.
Ahora veamos los tres modelos que se generan a partir de un proceso de Bernoulli.
X = np y X2 = npq
79
Entre que valores se encontrara el grupo promedio de esta distribucion? Ya sabemos que
este es el grupo de datos que esta entre X X .
Como ya se vio X = 37, 5.
Ademas X2 = npq = (50)(0, 75)(0, 25) = 9, 375, as, X = 3, 0618.
Por lo tanto, los datos dentro del promedio estaran entre 34, 4382 y 40, 5618 o,
equivalentemente, entre 35 y 40. As, cuando se de esta promocion y se ofrezca a 50 clientes
en muchas ocasiones, observaremos con mayor frecuencia que el n
umero de clientes que
compraran este producto estara entre 35 y 40.
Obtengamos otra probabilidad, por ejemplo, la de que, a lo mas, 45 de estos clientes compren
el producto en promocion es P (X 45) y conviene hallarla por el complemento:
P (X > 45)
= f (46) + f (47) + f (48) + f (49) + f (50)
=
50
46
50
47
50
49
50
50
50
48
(0, 75)48 (0, 25)5048
(0, 75)50 (0, 25)5050
= 0,0021.
As, P (X 45) = 1 P (X > 45) = 1 0, 0021 = 0, 9979.
Podemos tambien obtener probabilidades a partir de la distribucion acumulada, pero como
esta no tiene una formula explcita debemos usar la computadora o, como era costumbre
hace alg
un tiempo atras, con tablas.
Si usamos el Excel podemos obtener muy rapidamente probabilidades en este contexto.
Por ejemplo, la probabilidad de que mas de 25, pero a lo sumo 40 clientes compren el
producto:
P (25 < X 40) = f (26) + + f (40) = F (40) F (25) = 0, 8363 0, 0001 = 0, 8362.
Se ha restado la probabilidad acumulada hasta 25 porque deseamos excluir este valor.
O la probabilidad de que compren como mnimo 30, pero a lo sumo 45 clientes es:
P (30 X 45) = f (30) + + f (45) = F (45) F (29) = 0, 9979 0, 0063 = 0, 9916.
Se ha restado la probabilidad acumulada hasta 29 porque debemos incluir el valor 30.
Para terminar, la probabilidad de que por lo menos 35 clientes compren el producto es:
P (X 35) = 1 P (X 34) = 1 F (34) = 1 0, 1631 = 0, 8369.
79
Estadstica
(3.1)
10
10
81
Cuando el modelo probabilstico de una variable aleatoria X es de esta forma, se dice que
X tiene distribuci
on geom
etrica con parametro p. Se denotara esto por X g(p).
Los valores esperados son:
X = 1/p y X2 = q/p2 .
F (x) = P (X x) =
x
X
q j1 p = 1 q x , x = 1, 2, . . .
j=1
Ejemplo 3.4. Continuando con el evento de interes anterior, supongamos que ahora nos
interese la variable X definida como el n
umero de clientes que debe visitar el promotor hasta
el primero que compre el producto. Entonces, como el proceso es de Bernoulli y X puede
verse como el n
umero de ensayos (en la secuencia de visitas) hasta lograr el primer exito, se
tiene que X g(0, 75).
As, la probabilidad de que el primer cliente, que compre el producto, sea el x-esimo que
visite es
P (X = x) = f (x) = (0, 25)x1 (0, 75), x = 1, 2, . . .
El valor esperado de esta variable es X = 1/p = 1/0, 75 = 4/3 = 1, 333, por lo tanto, si
fueran muchas las visitas que haga el promotor y asumimos condiciones similares para cada
una de estas, en promedio en la primera visita el cliente comprara el producto.
En este caso, como la distribucion acumulada tiene una formula explcita, podemos calcular
muchas probabilidades usando dicha formula:
F (x) = P (X x) = 1 q x = 1 (0, 25)x ; x = 1, 2, . . .
Por ejemplo, la probabilidad de que el primer cliente que compre el producto sea por lo
menos el cuarto que visite, pero a lo mas el decimo, es:
P (4 X 10) = F (10) F (3) = (1 (0, 25)10 ) (1 (0, 25)3 ) = 0, 0156.
Propiedad: esta es la u
nica distribucion discreta que satisface la relacion:
P (X > m + n / X > m) = P (X > n), m, n N+ .
Esta propiedad afirma que si ya se han realizado m ensayos sin haber obtenido un exito,
entonces, la probabilidad de que sean necesarios n ensayos adicionales, para lograrlo, es
exactamente igual a la probabilidad que se tena antes de realizar estos m ensayos. Por lo
que se dice que la distribucion no tiene memoria.
81
Estadstica
X = r/p y X2 = rq/p2 .
83
X = y X2 = .
Estadstica
e60 (60)0
= e60 = 8, 8 1027 .
0!
85
X = 1/ y X2 = 1/ 2 .
La distribucion acumulada:
F (x) = P (X x) =
Rx
et dt = 1 ex , x > 0.
Ejemplo 3.8. Nuevamente en el contexto del ejemplo 3.6, tenemos que la variable X,
definida como el tiempo (en minutos) que hay que esperar hasta que pase el primer vehculo
contaminando el ambiente, sigue una distribucion exponencial con parametro = 2, esto
si medimos el tiempo en minutos (recuerdese que la tasa del proceso de llegadas de los
culos
vehculos que contaminan el ambiente es = 2 veh
minuto ). As, su modelo probabilstico
esta determinado por la funcion f (x) = 2e2x , x > 0; y su funcion de distribucion acumulada
es dada por: F (x) = 1 e2x , x > 0. En particular, la probabilidad de que sea necesario
esperar menos de cinco minutos hasta que pase el primer vehculo que contamine el ambiente
es:
P (X < 5) = P (X 5) = F (5) = 1 e2(5) = 0, 99995.
Propiedad: esta es la u
nica distribucion continua que satisface:
P (X > t + h / X > t) = P (X > h), h, t > 0.
Seg
un lo indicado en el caso de la distribucion geometrica, se dice que la distribucion
no tiene memoria. Por ejemplo, si suponemos que la duracion de una computadora tiene
una distribucion exponencial y si tenemos que al cabo de dos a
nos, esta a
un no se ha
malogrado, entonces el riesgo de malograrse dentro del a
no siguiente, sera el mismo que el
correspondiente a cuando esta era nueva. Una interpretacion que se le puede dar a esto, al
parecer increble, es que cuando la computadora falla se debe a causas incidentales.
85
Estadstica
x1 ex
, x > 0,
()
X = / y X2 = / 2 .
Si el parametro es un n
umero natural, la distribucion acumulada tiene la forma siguiente:
F (x) = 1
1 x
X
e (x)j
j!
j=0
, x > 0.
Ejemplo 3.9. Siguiendo con los ejemplos anteriores, si definimos la variable X como el
tiempo (en minutos) que habra que esperar hasta que pase el quinto vehculo contaminando el
ambiente, tenemos que X tiene distribucion gamma con parametros = 5 y = 2. Podemos,
por ejemplo, obtener la probabilidad de que el quinto vehculo que pase contaminando el
ambiente lo haga luego de cuatro minutos:
P (X > 4) = 1 P (X 4) = 1 F (4) = 1 (1
51 2(4)
X
e
(2(4))j
j=0
86
j!
) = 0, 0996.
87
(x)2
1
e 22 , < x < ; con > 0 y R.
2
X = y X2 = 2 .
Observaci
on 3.2.
a) Si = 0 y = 1 : la distribucion se llama normal est
andar.
Es decir, si Z N (0; 1) :
1
f (z) =
e
Z
2
z2
2
, < z < .
b) No hay una formula explcita para la distribucion acumulada; pero existen tablas para
la distribucion normal estandar, as, para poder usarlas previamente se debe pasar
a la forma estandar, como se indica en la segunda de las propiedades que se dan a
continuacion. Sin embargo, debe mencionarse que hoy en da estas tablas estan cayendo
en desuso, la razon es obvia: las computadoras.
87
Estadstica
c) Originalmente esta distribucion fue propuesta por Karl Gauss (1777-1855) para
modelar errores (en el ejemplo siguiente se ilustra esta situacion)
X X
;
X
X X
Z N (0, 1).
X
Por lo tanto:
F (x) = F (
X
xX
X
89
primero FX (22), y tenemos dos formas de obtener esta probabilidad acumulada: con la
computadora, o con una tabla de la distribucion normal estandar.
Si usamos el Excel, solo debemos pedir FX (22) y se obtendra inmediatamente FX (22) =
0, 6554. Por lo tanto, P (X > 22) = 1 FX (22) = 1 0, 6554 = 0, 3446.
Si usamos una tabla de la distribucion normal estandar, como nuestra variable X no es
estandar, previamente debemos estandarizarla seg
un la segunda propiedad de la distribucion
normal:
En este caso Z =
X20
5
FX (22) = FZ
Para hacer un calculo mas, supongamos que en este sector solo los ingresos superiores a 25
u.m. estan sujetos a un impuesto extraordinario; y queremos averiguar, para el sector de
trabajadores que ganan mas de 22 u.m. , cual es el porcentaje que paga este impuesto.
En este caso basta obtener la probabilidad:
P (X > 25/ X > 22) =
1 F (25)
P (X > 25)
0, 1587
P (X > 25 X > 22)
X
=
=
=
= 0, 4604.
P (X > 22)
P (X > 22)
1 F (22)
0, 3446
X
Las probabilidades anteriores se han obtenido usando el programa Excel; pero tambien
pueden obtenerse usando una tabla de la distribucion normal estandar.
F (25) = F
X
2520
5
= F (1) = 0, 8413;
Z
2220
5
= F (0, 4) = 0, 6554.
Z
T N (T ; T2 ), con T =
n
X
Xj y T2 =
j=1
En este caso:
Z=
T T
N (0, 1).
T
89
n
X
X2 .
j
j=1
Estadstica
Observaci
on 3.3. La propiedad anterior requiere las aclaraciones siguientes:
Se dice que las variables aleatorias X1 , . . . , Xn son independientes, cuando para cada Ai ,
conjunto de valores posibles para Xi , se tiene que:
P (X1 A1 . . . Xn An ) = P (X1 A1 ) . . . P (Xn An )
La esperanza de una suma de variables aleatorias es igual a la suma de sus esperanzas, es
n
n
P
P
decir: E
Xj =
E(Xj ).
j=1
j=1
Y cuando las variables son independientes, la varianza de su suma es igual a la suma de sus
n
n
P
P
varianzas, es decir: V ( Xj ) =
V (Xj ).
j=1
j=1
j=1
j=1
Tenemos que estas variables Xj tienen distribucion normal (Xj N (20, 52 )) y son
independientes, entonces podemos aplicar esta propiedad de cerradura respecto de la suma
10
P
Xj , tambien sigue una distribucion normal; pero con una media,
para establecer que T =
j=1
T , igual a la suma de las medias, es decir, T = 200, y una varianza, T2 , igual a la suma
de las varianzas, es decir, T2 = 250.
As, T N (200, 250) y P (190 T 240) = FT (240) FT (190) = 0, 9943 0, 2635 =
0, 7307.
Para calcular las probabilidades anteriores con la distribucion normal estandar debe
considerarse la variable:
T 200
T T
=
.
Z=
T
250
91
b) Deducir la distribucion de X.
|, sea a lo
c) Si n = 4 y = 5, halle la probabilidad de que el error de estimacion, |X
sumo 2 mm .
Soluci
on:
a) Por lo visto en el ejemplo 3.10, cada una de las mediciones X1 , . . . , Xn tiene
distribucion normal, con media y desviacion estandar , ademas estas son
independientes, entonces, por la propiedad anterior de la distribucion normal, la suma
de estas variables, T, tiene distribucion normal con media T = X1 + . . . + Xn = n
y varianza T2 = X2 + . . . + X2 n = n 2 , es decir, T N (n ; n 2 ).
1
n
P
Estadstica
j=1
n
P
j=1
Xj y T2 =
n
P
j=1
aprox.
X2 , es decir, T
j
N (T , T2 ).
suma de las medias, y varianza T2 , igual a la suma de las varianzas, es decir, T = 500 y
2 = 25. Entonces tenemos que T N (500, 25), luego podemos obtener la probabilidad de
interes directamente con el Excel. Es decir: P (T < 510) = FT (510) = 0, 9772.
Observese que, en este caso, para usar la distribucion normal estandar debe considerarse la
variable:
T 500
T T
=
N (0; 1).
Z=
T
5
As, el calculo de la probabilidad que interesa resulta ahora:
FT (510) = P (T 510) = FZ
510500
5
= FZ (2) = 0, 9772.
Ejemplo 3.15. En el contexto del ejemplo anterior, cual sera la probabilidad de que la
media de las utilidades recibidas sea menor o igual a 5,1 u.m.? Ahora se desea averiguar el
100
5, 1), con X
= P Xj /100 = T /100.
valor de la probabilidad P (X
j=1
=
X
T
100
X
X
100
100
100
100
X
X
N (5; 0, 0025).
0, 0025, es decir, X
Para usar la distribucion normal estandar tenemos que: Z =
5, 1) = F (5, 1) = F 5,15 = F (2) = 0, 9772.
P (X
Z
Z
X
0,05
92
X5
0,05
N (0, 1).
As,
93
1
f (x) =
2 2
, x > 0.
x1 e
2
Esto lo denotamos por: X logN (; 2 ).
Las constantes R y 2 > 0, son los parametros del modelo y estos son tambien los
parametros de la distribucion de Ln(X), es decir, se tiene que Ln(X) N (, 2 ).
La grafica de la funcion de densidad es de la forma siguiente:
X = e
(2+ 2 )/2
2+ 2
y X2 = e
(e
1) = 2X (e 1).
Observaci
on 3.5. En general este modelo es u
til para describir datos con valores positivos
y distribucion asimetrica, como suele ocurrir con los ingresos o algunos precios.
En la economa y las finanzas esta distribucion aparece, por ejemplo, cuando el valor de cierta
inversion es el resultado de muchas variaciones ocasionadas por incrementos o reducciones
aleatorias, cada variacion reduce o aumenta el valor actual en una proporcion aleatoria. Esto
se conoce como la Ley de fragmentacion de Kolmogorov. Una explicacion de la validez de
esta ley se muestra en el ejemplo siguiente.
Ejemplo 3.16. En la enesima operacion, de una serie de operaciones financieras, se invierte
el capital acumulado, cuyo valor es Xn unidades monetarias (u.m.). La tasa de rentabilidad
de esta operacion se define como
Rn =
Xn Xn1
,
Xn1
con Xn1 el valor del capital acumulado disponible antes de realizar la operacion.
Sigue inmediatamente que el valor del capital acumulado, Xn , en funcion del capital invertido
(Xn1 ) y la tasa de rentabilidad de esta inversion (Rn ), esta dada por:
Xn = (1 + Rn )Xn1
93
Estadstica
1 2
) t + Xt ], t > 0,
2
(1)
donde: S0 > 0 es el precio inicial del stock; es el valor esperado de la tasa instantanea de
rentabilidad; > 0 es la volatilidad del stock (estos u
ltimos no se consideran aleatorios sino
constantes) y Xt es una variable aleatoria con distribucion normal, de media cero y varianza
t, es decir, Xt N (0, t).
El modelo anterior puede escribirse como:
LnSt = LnS0 + (
1 2
) t + Xt
2
(2)
(3)
Ve
ase Lars Tyge Nielsen (1999), ejemplo 1.7, pag. 13.
94
95
42,795
0,8
Ln(S5 ) 2,795
0,8
N (0, 1).
N M
CxM Cnx
, x = 0, 1, . . . , n.
CnN
Cuando la ley de probabilidad de una variable aleatoria X es as, se dice que tiene una
distribuci
on hipergeom
etrica con parametros N , M y n.
Se denotara esto por: X H(N, M, n).
Observaci
on 3.6. en realidad X asume valores que van, desde el mayor de los valores entre
0 y n (N M ), hasta el menor de los valores de n y M , es decir, no necesariamente entre
0 y n.
n
2
Los valores esperados son: X = np y X
= npq( N
), siendo p =
N 1
M
N
y q = 1 p.
4x
20
4
, para cualquier x RX = { 0, 1, 2, 3, 4 }.
Estadstica
f (x) =
1
, a x b.
ba
X =
(b a)2
a+b
y X2 =
.
2
12
F (x) = P (X x) =
xa
, a x b.
ba
Observaci
on 3.8. Esta distribucion es adecuada para describir a una variable que asuma
sus valores uniforme o indistintamente en un intervalo de extremos finitos.
Propiedad: Sea U una variable aleatoria con distribucion uniforme en el intervalo [0, 1], es
decir, U U [0, 1], y X una variable aleatoria con distribucion acumulada F.
Caso 1: Si X es continua podemos asumir que F es continua sobre RX y suponiendo
que esta sea estrictamente creciente, entonces tendra una inversa F 1 . Definimos para cada
0 u 1 : G(u) = F 1 (u).
Caso 2: Si X es discreta, definimos para cada 0 u 1 : G(u) = min{x RX / F (x) u}
Entonces, en ambos casos, la variable transformada de U, G(U ), tiene la misma distribucion
d
que la de X: G(U ) = X.
Observaci
on 3.9. La propiedad anterior nos dice como transformar una variable aleatoria
con distribucion uniforme en [0, 1], U U [0, 1], en otra que tenga una distribucion deseada.
Esto permite generar valores de una distribucion arbitraria, a partir de valores generados de
una distribucion uniforme y es la tecnica mas conocida en simulacion. Es decir, si u1 , . . . , un
son n valores generados de una distribucion uniforme entre 0 y 1, entonces, los valores
asociados a una variable X, con distribucion con acumulada F, se pueden generar como
sigue.
En el caso que X sea continua, consideraremos:
xj = F 1 (uj ) uj = F (xj ), j = 1, . . . , n.
Y en el caso que X sea discreta:
xj = G(uj ) = min{x RX / F (x) uj }, j = 1, . . . , n.
96
97
Ejemplo 3.19. Simulemos 50 valores de una variable aleatoria, X, con modelo exponencial
con parametro = 1/4.
Para generar, mediante simulacion, 50 valores de X : x1 , . . . , x50 . Primero simulamos 50
valores de una variable aleatoria con distribucion uniforme en [0, 1], U U (0; 1). Por
ejemplo, con una computadora y el Excel obtenemos los n
umeros aleatorios siguientes:
0,674
0,696
0,734
0,070
0,377
0,558
0,926
0,126
0,973
0,661
0,682
0,271
0,732
0,948
0,519
0,914
0,073
0,493
0,592
0,603
0,104
0,817
0,194
0,580
0,504
0,273
0,639
0,470
0,479
0,480
0,854
0,005
0,019
0,832
0,614
0,430
0,947
0,191
0,208
0,213
0,508
0,906
0,870
0,522
0,345
0,089
0,449
0,785
0,524
0,878
4,480
4,761
5,299
0,290
1,891
3,263
10,406
0,537
14,506
4,330
4,582
1,266
5,274
11,861
2,930
9,815
0,305
2,715
3,589
3,691
2,246 2,833
11,770 9,442
0,850 8,168
0,932 2,951
0,956 1,695
0,374
2,382
6,152
2,973
8,429
Si consideramos estos datos generados como una muestra aleatoria de X existe una tecnica
llamada bondad de ajuste para verificar que efectivamente el modelo de esta variable es uno
especificado, en este caso exponencial con parametro = 1/4. A continuacion aplicaremos
esta tecnica que requiere una muestra grande, como lo es en este caso, pero solo en la etapa
descriptiva y no en la de inferencia.
Empezamos por ver como es la distribucion de frecuencias de la muestra generada:
03 36 69 9
26
12
7
5
0, 52 0, 24 0, 14
0, 1
X
frecuencia observada
frecuencia relativa observada
97
Estadstica
Se observa una tendencia decreciente, como ocurre en un una distribucion exponencial; pero
esto -incluso en esta etapa descriptivo- a
un resulta impreciso, pues esta grafica depende del
n
umero de intervalos y ademas solo esta forma del polgono no garantiza que la distribucion
exponencial con el parametro especificado ( = 1/4). Entonces, debemos comparar las
frecuencias observadas (las de los valores obtenidos para X) con las frecuencias esperadas,
seg
un la distribucion supuesta para X (en este caso exp (1/4)). A continuacion expresamos
los valores de estos tipos de frecuencias en la tabla siguiente:
frecuencia
frecuencia
frecuencia
frecuencia
X
observada (oj )
relativa observada (fj )
relativa esperada (pj )
esperada (ei = npj )
03
36
26
12
0, 52
0, 24
0, 5276
0, 2492
26,3817 12, 4618
69 9
7
5
0, 14
0, 1
0, 1177 0, 1054
5,8865 5,2700
Se observa que las frecuencias observadas estan proximas a las esperadas. Por lo tanto, el
modelo especificado parece ajustar a los datos; es decir, la simulacion parece haber sido
adecuada. 0, 24 = 12/50; 0, 2492 = FX (6) FX (3); 12, 4618 = 50 0, 2492.
Tambien se acostumbra ilustrar la conclusion con la llamada grafica de probabilidades, es
decir, la grafica de las frecuencias relativas esperadas (probabilidades esperadas seg
un el
modelo) con las correspondientes a las observadas:
Se observa que las frecuencias observadas estan proximas de las esperadas. Por lo tanto, la
simulacion parece haber sido adecuada; es decir, generado datos seg
un el modelo especificado.
Esto se cumple, pues el metodo para simular lo establece y la cantidad de datos es grande.
98
99
( + ) 1
x
(1 x)1 , 0 x 1.
()()
con > 0 y > 0, los parametros del modelo. Esto lo denotamos por X B(; ).
A continuacion se muestran las graficas tpicas de este modelo, para 6= 1 y 6= 1 :
X =
y X2 =
.
2
+
( + ) ( + + 1)
Observaci
on 3.10. Esta distribucion puede ser generalizada para un intervalo de extremos
arbitrarios, a < b, mediante el cambio de variable Y = a + (b a)X. En este caso la densidad
de Y esta dada por:
fY (y) =
( + )
(y a)1 (b y)1 /(b a)+1 , a y b.
()()
3.8. La funci
on generadora de momentos
Definici
on 3.1. Si X es una variable aleatoria, se define su funcion generadora de momentos
MX : R
R, mediante: MX(t) = E(et X ).
t 7 MX(t)
A continuacion veamos la propiedad principal de la funcion generadora de momentos,
esta explica el nombre que se le da. Aunque la deduciremos para una variable discreta,
similarmente se puede deducir para el caso continuo.
99
Estadstica
Por la propiedad que permite obtener el valor esperado de una funcion de una variable
aleatoria, se tiene que:
MX(t) = E(et X )
X
=
etx fX (x)
xRX
xetx fX (x)
xRX
0
MX (0) =
xfX (x)
xRX
0
Entonces, MX (0) = E(X). Pero se debe observar que no siempre es posible hacer esta
derivacion.
Y al derivar una vez mas respecto de t y evaluar en cero, obtenemos:
X
MX00 (t) =
x2 etx fX (x)
xRX
00
MX (0) =
x2 fX (x)
xRX
Entonces, MX00 (0) = E(X 2 ). Generalizando, tenemos que MX(j) (0) = E(X j ).
2 /2
R. En efecto:
MZ (t) = E(etZ )
Z
z2
1
=
etz e 2 dz
2
Z
z2
1
e tz 2 dz
=
2
Z
1
1
2
e 2 (z 2tz) dz
=
2
Z
1
1
2
2
2
e 2 (z 2tz+t t ) dz
=
2
Z
1
1
2 1 2
e 2 (zt) + 2 t dz
=
2
Z
1
1
2
2
e 2 (zt) dz
= e t /2
2
|
{z
}
2 /2
= et
, t
R.
Propiedad 1.
Si X es una variable aleatoria, con funcion generadora de momentos MX , e Y = a + bX;
entonces:
MY (t) = e a t MX (bt).
100
101
Ejemplo 3.21. Como se vio en el ejemplo anterior, si Z N (0; 1); entonces, MZ (t) =
2
e t /2 , t R.
A partir de este resultado, usaremos la propiedad anterior para determinar la funcion
generadora de una normal con parametros arbitrarios, X N (; 2 ).
As, si X N (; 2 ) :
X = |{z}
a + |{z}
b Z
Z=
X
N (0; 1) X = + Z;
2 t2 /2
MY (t) = e a t MX (bt) :
= e t+
2 t2 /2
; as, MX (t) = e t+
2 t2 /2
, t
R.
Propiedad 2.
La funcion generadora de momentos determina unvocamente el modelo probabilstico.
Ejemplo 3.22. Demostremos la propiedad de cerradura del modelo normal respecto de
la transformacion lineal. Es decir, si X N (X ; X2 ) e Y = a + b X, entonces: Y
N (a + b X ; b2 X2 ).
Para esto, hallaremos la funcion generadora de Y y veremos que esta corresponde a la de
una normal con parametros a + b X ; b2 X2 , as el resultado quedara garantizado por esta
u
ltima propiedad de la funcion generadora.
Como ya hemos visto, si X N (X ; X2 ), su funcion generadora esta dada por:
2 2
MX (t) = e t+ t /2 , t .
Luego, como Y = a+b X, entonces, por la propiedad 1 se puede derivar la funcion generadora
de momentos de Y a partir de la de X :
MY (t) = e a t MX (bt)
2
2
= e a t e btX +X (bt) /2 , bt R
2 2 2
= e at+bX t+b X t /2
2 2
= e (a+b X )t+(bX ) t /2 , t R.
As, la funcion generadora de momentos de Y corresponde a la de una normal con parametros
a + b X ; y b2 X2 ; y como la funcion generadora determine unvocamente el modelo, entonces
se puede afirmar que Y N (a + b X ; b2 X2 ).
Propiedad 3.
Si X1 , . . . , Xn son variables aleatorias independientes, entonces, la funcion generadora de
momentos de la suma es el producto de las correspondientes a estas variables:
M (t)
= M (t) . . . M (t) .
X1 + + Xn
X1
101
Xn
Estadstica
X1 + + Xn N (X1 + + Xn ; X2 + + X2 n ).
1
= M (t)
X1 + + Xn
...
M (t)
X1
=e
=e
MX1 ++Xn (t) = e
Xn
tX + 2 t2 /2
X1
... e
tX + 2
n
Xn
tX + 2 t2 /2 +... +tX + 2
X1
Xn
t2 /2
t2 /2
Xn
)t2 /2
Que era lo que se quera demostrar, es decir, la funcion generadora de momentos de la suma
corresponde a la de una normal con parametros X1 + + Xn y X2 + + X2 n , por lo
1
tanto, este sera el modelo de la suma: N (X1 + + Xn ; X2 + + X2 n ).
1
102
103
Estadstica
Ejercicio 3.3.
Suponga que los usuarios de un sistema de informacion llegan de acuerdo con un proceso de
Poisson con una tasa de 2 usuarios por minuto.
a) Identifique la distribucion de la variable X definida como el n
umero de usuarios
que llegan al sistema en un perodo de cinco minutos. A partir de esta distribucion
determine la probabilidad de que el n
umero de usuarios que llegan al sistema en un
perodo de cinco minutos es por lo menos 6 y maximo 7.
b) Identifique la distribucion de la variable X definida como el tiempo (en minutos) hasta
que llegue el primer usuario del sistema. A partir de esta distribucion determine la
probabilidad de que se deba esperar entre 4 y 12 minutos hasta que llegue el primer
usuario.
c) Identifique la distribucion de la variable X definida como el tiempo (en minutos) hasta
que llegue el tercer usuario del sistema. A partir de esta distribucion determine la
probabilidad de que se espere por lo menos 3 minutos hasta que llegue el tercer usuario.
Ejercicio 3.4.
Una agencia bancaria (que nunca cierra para los clientes) divide su trabajo interno en
perodos. Durante cada perodo se debe realizar cierta operacion de verificacion, esta se
puede realizar mal con una probabilidad de 0,9 e independientemente en cada perodo.
a) Cuan probable es que esta operacion se realice mal despues del quinto perodo?
b) Cada vez que dicha operacion se realice mal se debe registrar algunos datos en una
ficha especial. Al empezar la jornada de trabajo de diez perodos el administrador se
da cuenta que solo dispone de cinco de estas fichas, pero no solicita mas. Determine el
n
umero esperado de fichas que seran usadas durante esta jornada de trabajo.
c) Determine la funcion de probabilidad de la variable aleatoria Y, definida como la
cantidad de perodos de trabajo antes de que se realice mal dicha operacion.
Ejercicio 3.5.
Determine la probabilidad de que por lo menos dos vehculos lleguen a tiempo en cada una
de las situaciones siguientes:
a) hay 20 vehculos en total, ademas, se sabe que cada vehculo puede llegar a tiempo,
independientemente entre ellos y con una probabilidad de 0,6;
b) en un perodo de 2 minutos, ademas, se sabe que los vehculos llegan a tiempo seg
un
un proceso de Poisson con una tasa de 5 vehculos por minuto.
104
105
Ejercicio 3.6.
Un educador ha elaborado una prueba de opcion m
ultiple con 10 preguntas de 5 opciones
cada una. El educador es conciente que algunos alumnos rendiran la prueba simplemente
escogiendo al azar una de las cinco opciones como respuesta y haran esto para cada una de
las preguntas de modo independiente, por tal motivo es necesario penalizar las respuestas
incorrectas. En las cuestiones siguientes solo considere este tipo de alumnos.
Estadstica
Ejercicio 3.8.
En el contexto del modelo binomial de finanzas, descrito en el ejemplo 3.3, determine el valor
esperado del capital acumulado al cabo de 10 operaciones.
n
P
n i ni
Puede ser u
til la formula del binomio de Newton: (a + b)n =
ab .
i
i=0
Ejercicio 3.9.
La ocurrencia de cierto evento catastrofico para la economa ocurre de acuerdo con un proceso
de Poisson con una tasa de uno cada cinco a
nos.
a) Halle la probabilidad de que en una decada no ocurra mas de dos veces este evento.
b) Halle la probabilidad de que en, un perodo de cinco a
nos, ocurra mas de dos veces
este evento catastrofico.
c) Un proyecto debe ejecutarse durante un perodo de diez a
nos. Si este evento no se
presenta durante el perodo de ejecucion del proyecto, el costo es de 200 unidades
monetarias (u.m.); en otro caso este costo se incrementa en 100 u.m. por cada unidad de
tiempo faltante hasta completar la ejecucion del proyecto. Determine el valor esperado
del costo de ejecucion del proyecto.
d) Cuan probable es que pasen mas de 20 a
nos hasta que ocurra tres veces dicho evento?
e) Considerando las proximas 5 decadas, determine la probabilidad de que en por lo menos
dos de estas el evento catastrofico ocurra mas de dos veces. Asuma independencia y
condiciones similares en cada una de las 5 decadas.
Ejercicio 3.10.
Cierto evento imprevisto puede ocurrir durante cada mes, con una probabilidad de 0,1 e
independientemente de otros meses.
a) Al comenzar el mes se inicia la ejecucion de un proyecto que debe tardar 10 meses.
Ademas, el proyecto se concluira en el plazo previsto siempre y cuando el evento
imprevisto no ocurra en mas de 2 meses de este plazo. Cuantifique el riesgo que se
corre al afirmar que la ejecucion se concluira en el plazo previsto.
b) Una persona adquiere una poliza contra este tipo de evento, que regira durante los
cinco meses siguientes. El contrato estipula que si el evento ocurre antes del quinto
mes, entonces, la compa
na aseguradora debe pagarle una suma indemnizatoria de
seis mil soles, pero no volvera hacerlo si ocurriera nuevamente; ademas, la persona solo
hara un u
nico pago de diez mil soles. Determine la utilidad esperada de la aseguradora.
c) Halle la probabilidad de que el evento ocurra por tercera vez despues del quinto mes.
106
107
Ejercicio 3.11.
Los pedidos llegan a cierto supermercado (que atiende las 24 horas del da) seg
un un proceso
de Poisson, con una media de cuatro pedidos por hora.
a) Desde que empezo un da, ha pasado media hora y no ha llegado el primer pedido, halle
la probabilidad de que este pedido tampoco llegue durante la siguiente media hora.
b) Por da el supermercado tiene un costo de 250 soles, siempre y cuando el primer
pedido llegue durante las dos primeras horas del da; pero por cada hora adicional (a
las primeras dos horas del da) que tarde este primer pedido, dicho costo se incrementa
en 50 soles. Determine el costo esperado por da.
Ejercicio 3.12.
Se sabe que la demanda anual de un bien puede ser muy baja en cualquier a
no, de manera
independiente de otros a
nos y con una probabilidad de un decimo.
a) Un comerciante estudia la posibilidad de adquirir grandes cantidades de este bien, en
cada uno de los proximos seis a
nos.
a1 ) El comerciante ha calculado que su inversion sera exitosa si a lo mas en cuatro de
estos seis a
nos la demanda del bien es muy baja. Cuantifique el riesgo que corre.
a2 ) El comerciante ha calculado que, en cada a
no en el que la demanda del bien sea
muy baja perdera 10 u.m. ; pero en cada a
no en el que la demanda no sea muy
baja ganara 30 u.m. Determine e interprete la utilidad esperada del comerciante.
b) Calcule la probabilidad de que el primer a
no en el que la demanda sea muy baja sea
por lo menos el quinto, pero maximo el vigesimo.
Ejercicio 3.13.
Suponga que durante un a
no, en cierto pas, los eventos catastroficos ocurren seg
un un
proceso de Poisson con una tasa de 2 eventos por mes. Ademas, cada evento catastrofico
produce una da
no cuya magnitud es independiente de las correspondientes a otros eventos
catastroficos y con distribucion exponencial. El dise
no de prevencion contra desastresdel
gobierno considero un valor crtico para el da
no ocasionado por una catastrofe cuando esta
es 3,5 veces la media de dicha magnitud. Obtenga la confiabilidad del dise
no prevencion
contra desastresdurante el perodo de un a
no, es decir, la probabilidad de que durante dicho
perodo ninguna de las magnitudes de los da
nos que se produzcan supere el valor crtico2 .
Sugerencia: sean X el n
umero de tales eventos en un a
no e Y, el n
umero de los que su
P
magnitud supera el valor crtico. Se desea hallar P (Y = 0) =
P (X = 0 Y = 0). Note
x=0
107
Estadstica
Ejercicio 3.14.
Una municipalidad verificara si las tiendas de su distrito cumplen una ordenanza dictada
recientemente. Con este fin, se escogera una muestra aleatoria de 20 tiendas del distrito.
Ademas, por experiencia se sabe que el 25 % de estos establecimientos suele incumplir las
ordenanzas nuevas.
a) Identifique un proceso de observacion de Bernoulli en el contexto dado. Debera asumir
la validez de los supuestos necesarios y dar su significado en este contexto.
b) Halle el modelo probabilstico que describe a la variable X, definida como el n
umero
de tiendas, en la muestra por seleccionar, que incumplen la ordenanza.
c) Determine la probabilidad de que por lo menos cinco de las tiendas, en la muestra por
seleccionar, incumplan la ordenanza.
d) Determine e interprete el valor esperado del n
umero de tiendas, en la muestra por
seleccionar, que incumplan la ordenanza.
e) Suponga que inspeccionar cada tienda de la muestra seleccionada costara 500 soles.
Ademas, cada deteccion originara un descuento de 500 soles en el costo, pues esta
cantidad sera pagada por el propietario de la tienda que incumpla la ordenanza; pero
cada tienda seleccionada que cumpla la ordenanza originara un costo adicional de 250
soles, pues el propietario de la tienda recibira un descuento en sus tributos por este
valor. Si el presupuesto para llevar a cabo este muestreo es de 12 750 soles:
e1 ) Cuantifique la confianza de este presupuesto para poder llevar a cabo el muestreo.
e2 ) Determine e interprete el valor esperado del costo para llevar a cabo el muestreo.
Ejercicio 3.15.
Una compa
na alquila un equipo que se puede descomponer durante un mes independientemente de otros meses y con probabilidad 0,2. El equipo se usara 20 meses. Cada mes le
generara un ingreso de 1000 soles (as se descomponga el equipo); ademas cada mes en donde
se descomponga el equipo le significara un egreso de 500 soles por reparacion.
a) Identifique el modelo probabilstico que describe a la variable, X, definida como el
n
umero de meses (entre los 20) en los que el equipo se descompondra.
b) Halle el valor esperado y la desviacion estandar del n
umero de meses en los que se
descompondra el equipo.
c) Determine la utilidad esperada de la compa
na.
d) La compa
na desea ganar, por lo menos, 18 500 soles. Cuantifique el riesgo que correra.
108
109
Ejercicio 3.16.
Los pedidos llegan a una central seg
un un proceso de Poisson con una tasa de tres por
minuto.
Estadstica
Ejercicio 3.21.
Parte del trabajo de un promotor que trabaja en una Administradora de Fondos de Pensiones
(AFP) consistente en visitar a personas que estan afiliadas a una AFP distinta para tratar de
convencerlos de que se cambien a esta AFP. Este promotor, seg
un su experiencia, estima que
la probabilidad de convencer a una persona es de apenas 0,05. El promotor decide evaluar
ciertos riesgos, para esto considerara que este trabajo obedece un proceso de Bernoulli
a) Diga cuales son las dos condiciones que se deben cumplir para que, efectivamente, el
convencer a los afiliados que visite el promotor ocurra seg
un un proceso de Bernoulli.
b) Durante el a
no que termina, la gerencia de la AFP considera que el promotor ha
realizado un buen trabajo; as, le ofrece otorgarle una bonificacion extraordinaria
(por fin de a
no) siempre y cuando convenza a, por lo menos, tres clientes mas. La
dificultad que enfrenta el promotor es que solo dispone de veinte visitas mas; entonces,
antes de tomar una medida distinta a las usadas hasta ahora, decide suponer que las
condiciones mencionadas en la parte anterior se verifican y emplear la teora basica de
modelos probabilsticos para cuantificar su confianza actual en lograr esta bonificacion
extraordinaria. Efect
ue el procedimiento que realizara el promotor y determine el valor
que obtendra.
Ejercicio 3.22.
Ciertas bacterias se presentan en un deposito de agua, conforme un proceso de Poisson con
una tasa de cuatro bacterias por cm3 .
a) Determine la probabilidad de que, en un volumen de cinco cm3 , se encuentren por lo
menos dos bacterias. Debe definir una variable e identificar, justificando, su modelo.
b) Halle la probabilidad de que el volumen de agua que se debe revisar hasta ubicar la
primera bacteria este entre cinco y diez cm3 .
Ejercicio 3.23.
Sea X una variable aleatoria con modelo probabilstico normal, con media X y desviacion
estandar X .
a) Obtenga el valor de la probabilidad P ( | X X | 2X ).
b) Use la tecnica de cambio de variable para demostrar la propiedad de estandarizacion.
c) Use la tecnica de cambio de variable para demostrar la propiedad de cerradura del
modelo normal respecto con respecto a transformaciones lineales.
d) Use la tecnica de cambio de variable, para demostrar que el cuadrado de la variable
estandarizada de X tiene distribucion gamma con parametros = = 21 .
110
111
Ejercicio 3.24.
El precio de una unidad del bien A es una variable aleatoria X con modelo normal de media
30 soles y desviacion estandar 4 soles. El precio de una unidad del bien B es una variable
aleatoria Y con modelo normal de media 20 soles y desviacion estandar 3 soles. Estas dos
variables son independientes.
a) Halle la probabilidad de que el precio de una unidad del bien A sea mayor que 25 soles.
b) Se debe comprar una unidad del bien A y otra del bien B; halle la probabilidad de que
55 soles sean suficientes.
c) Halle la probabilidad de que el precio de una unidad del bien A sea mayor que el de
una del bien B.
d) Halle la probabilidad de que el precio de una unidad del bien A sea mayor que dos del
bien B.
e) Se debe comprar una unidad del bien A y dos del bien B; halle la probabilidad de que
60 soles sean suficientes.
Ejercicio 3.25.
La distribucion de los tiempos necesarios para que las personas se recuperen de la dolencia
A se considera normal con media 14, 5 horas y desviacion estandar 3 horas; mientras que el
tiempo necesario correspondiente a la recuperacion de la dolencia B se considera normal con
media 13, 5 horas y cuarto inferior a partir de 15 horas. Suponiendo que existe independencia
entre ambos tiempos:
a) Determine el porcentaje de personas que se recuperan de la dolencia A despues de 11
horas.
b) Determine la cantidad de horas, t, que debera disminuir el tiempo de recuperacion
de cada persona para reducir en 25 el porcentaje de personas que se recuperan de la
dolencia A despues de 11 horas.
c) Halle la desviacion estandar de los tiempos de recuperacion de la dolencia B.
d) Cual es la probabilidad de que ambos tiempos de recuperacion sean mayores que 11
horas?
e) Cual es la probabilidad de que la media de los tiempos de recuperacion de ambas
dolencias, para una persona, sea mayor que 11 horas?
f) Cual es el porcentaje de personas que se recuperan de la dolencia A en mayor tiempo
que el correspondiente a la dolencia B?
111
Estadstica
Ejercicio 3.26.
En una operacion financiera la tasa de rentabilidad, R, se considera una variable aleatoria
con distribucion normal de media 0,05 y desviacion estandar 0,25.
a) Determine la probabilidad de que la tasa de rentabilidad R, asociada a esta operacion
financiera, sea superior a 0,3.
b) Halle el valor en riesgo (VaR) de un grado de confianza del 95 %. Vea el ejercicio 2.28
c) Determine la probabilidad de que el factor de capitalizacion W = 1 + R, asociado a
esta operacion, sea superior a 1,25.
d) Un inversionista coloca un capital de 10 unidades monetarias (u.m.), en esta operacion
financiera, a fin de ganar por lo menos 5,5 um. Cuantifique el riesgo que afrontara.
e) En el contexto de la parte anterior, determine cual debe ser el monto del capital que
debera colocar el inversionista para que, con una probabilidad de 0,95 o mas, la perdida
no pase de 5,5 u.m.
f) Suponga que se realizan dos operaciones independientes con estas caractersticas, pero
una de 10 u.m. y la otra de 20 u.m.
f1 ) Determine la probabilidad de que, R1 , la rentabilidad de la primera inversion, sea
menor o igual que 0,95.
f2 ) Determine la probabilidad de que, R2 , la rentabilidad de la segunda inversion, sea
mayor que 1,02.
f3 ) Halle la probabilidad que la suma de los capitales finales sea por lo menos 30 u.m.
f) El capital acumulado al cabo de una gran cantidad de estas operaciones tiene
distribucion lognormal con media 60,34 u.m. y desviacion estandar 28,39 u.m.
Determine la probabilidad de que un capital inicial de 20 u.m. genere mas de 50 u.m.
de utilidad.
Ejercicio 3.27.
El modelos probabilstico de Pareto se usa para describir los ingresos, su densidad es de la
forma f (x) = x , x > 0, con > 0 y > 0 los parametros del modelo.
a) Bosqueje, lo mas precisamente posible, la grafica de dicha densidad.
b) Encuentre una formula explcita para la distribucion acumulada.
c) Encuentre formulas explcitas para la media y la desviacion estandar.
d) Determine la probabilidad de que el ingreso de una persona sea superior a la media.
112
113
Ejercicio 3.28.
La distribucion de los salarios en el sector A se considera normal con una media de 1 450
soles y una desviacion estandar de 300 soles. En el sector B la distribucion de los ingresos
es normal con media 1 350 soles; ademas el 25 % de los asalariados gana mas de 1 500 soles.
a) Determine el porcentaje de asalariados, en el sector A, que ganan mas de 1 100 soles.
b) Determine el percentil 75 de la distribucion de los salarios en el sector A.
c) En cual sector los salarios son menos variables?
d) Un promotor de creditos visita a una pareja de asalariados, uno del sector A y el otro
del B, para ofrecerles un credito que requiere un salario conjunto de por lo menos
2 500 soles. Cual es la probabilidad de que esta pareja cumpla el requisito anterior
para poder acceder al credito? Asuma que los salarios son independientes.
e) Se escoge al azar un asalariado de la ciudad A y otro de la B. Determine la probabilidad
de que el de la ciudad A gane mas. Asuma que los salarios son independientes.
f) En el contexto de la parte anterior, determine la probabilidad de que ambos salarios
se diferencien en 200 soles, como maximo.
Ejercicio 3.29.
Se realizaran 100 operaciones financieras, en cada una se invertira 10 u.m. , las tasas
de rentabilidad correspondientes son variables aleatorias con modelos probabilsticos
desconocidos; pero estas son independientes, cada una de las primeras 25 tiene una media
de 0,01, y cada una de las restantes 75 una media de 0,02. Cada tasa tiene una desviacion
estandar de 0,3. Halle la probabilidad de que el capital final este entre 950 y 1100 u.m.
Ejercicio 3.30.
Para el ingreso familiar en una region se considera un modelo lognormal con media 1,65
miles de soles y desviacion estandar 2,16 miles de soles. En la tabla siguiente se muestra
informacion incompleta respecto a estos ingresos:
x
0,5
0,75
1,5
2,5
F (x)
0,2441
0,3868
---
---
---
---
---
0,9812
0,9860
x es un valor del ingreso familiar y F (x) la proporcion de familias con ingresos hasta x.
a) El modelo parece estar en armona con los datos?
b) Complete la tabla dada, a partir del modelo dado.
c) Cual es la proporcion de familias con ingresos superiores a 5 mil soles?
113
Estadstica
Ejercicio 3.31.
El capital acumulado al cabo de una gran cantidad de operaciones financieras tiene una
distribucion lognormal, su media es de 60 u.m. y su desviacion estandar de 28 u.m.
a) Encuentre los parametros de este modelo lognormal.
b) Halle la probabilidad de que un capital inicial de 20 u.m. genere mas de 25 u.m. de
utilidad.
Ejercicio 3.32.
Los ingresos (en miles de soles), de los trabajadores de cierto sector, son explicados por un
modelo lognormal con parametros = 3 y 2 = 1.
a) Determine la probabilidad de que un trabajador gane 55 mil soles o menos.
b) Halle la media y la desviacion estandar de los ingresos en este sector.
Ejercicio 3.33.
Sea X b(n; p).
a) Verifique, calculando, que MX (t) = E(etX ) = (pet + q)n , t
n
P
n i ni
Recuerde que (a + b)n =
ab .
i
R.
i=0
115
Ejercicio 3.35.
Sea X una variable aleatoria con distribucion gamma de parametros y .
a) Demuestre que la funcion generadora de momentos de este modelo esta dada por:
MX (t) =
, t < .
( t)
Estadstica
Ejercicio 3.38.
Sea X una variable aleatoria con distribucion de Pascal con parametros r y p.
a) Deducir la funcion generadora de momentos de X.
b) Si X1 , . . . , Xn es una muestra aleatoria de X, deducir el modelo de X1 + + Xn , a
partir de su funcion generadora de momentos.
c) Use la funcion generadora de X para obtener E(X) y E(X 2 ).
Ejercicio 3.39.
Sea X g(p).
a) Verifique, calculando, que MX (t) = E(etX ) =
Recuerde que si 0 < r < 1 :
P
i=1
ri =
r
1r
pet
1qet
, t < ln q.
116
4.
Indicadores de concentraci
on para medir la
desigualdad de los ingresos
(x) =
Observaci
on 4.1. Si X es el ingreso familiar, sigue de la definicion anterior que (x) puede
interpretarse como la fraccion que representa el ingreso promedio (o total) de las familias con
ingresos inferiores o iguales a x, respecto al ingreso medio (o total) familiar 1 . Para entender
R
esto recuerdese que = E(X) =
yf (y)dy; ademas, si para cada x consideramos g(y) = x,
Rx
1
2
e 2 2 (x) , como se
2
verifica a continuacion:
Z
Z
Z x
1 2
1 x
1
1 x
1
1
1 2 (y)2
(x) =
yf (y) dy =
y
e 2
dy =
( + z) e 2 z dz
2
2
Z x
Z x
1 2
1 1 z2
1
2
e
=
dz +
z e 2 z dz
2
2
Z x
1
2
1 2
1
x
=F ( )+
z e 2 z dz = F (x) e 2 2 (x) , con Z N (0; 1).
Z
2
2
En particular, (x) < F (x), es decir, la fraccion que representa el ingreso total de las familias
con ingresos inferiores o iguales a x (respecto al ingreso total de las familias) siempre es
menor que la proporcion de familias con ingresos inferiores o iguales a x (esto u
ltimo es
la interpretacion de F (x)). Por lo tanto, para completar una proporcion del ingreso total
(empezando con las familias de menores ingresos) siempre se requiere una proporcion menor
de familias. Esta es una de las propiedades que se enuncian a continuacion y que justificaran
la forma de la curva de Lorenz.
1
2
117
Estadstica
Definici
on 4.2. Sea X una variable con densidad f, distribucion acumulada F y media .
Se define la Curva de Lorenz como la grafica de los pares (F (x), (x)), para cada x .
Observaci
on 4.2. La Curva de Lorenz es uno de los metodos mas usados para ilustrar
la desigualdad de la distribucion de los ingresos totales (riqueza) de una poblacion, fue
introducida en 19053 . Como se han interpretado (x) y F (x), esta curva muestra cual es la
proporcion del ingreso acumulado que es obtenida por cada proporcion de la poblacion.
La siguiente grafica muestra una desigualdad en la distribucion de los ingresos, esta es
la curva tpica de Lorenz para una distribucion de ingresos con tendencia central, pero con
presencia de valores grandes concentrados en una proporcion baja de familias, como ocurre,
por ejemplo, en un modelo lognormal4 :
podemos apreciar que para llegar a completar solo el 28 % de los ingresos (empezando por
los de menor valor) se tiene ya el 66 % de la poblacion; que evidencia la distribucion desigual
del ingreso en la poblacion, la mayor parte de este se concentra en una parte muy peque
na
de la poblacion. Observese que inicialmente la diferencia entre (x) y F (x) es nula (si la
proporcion del ingreso acumulado es cero tambien lo es la proporcion de la poblacion), luego
a medida que aumenta (x) esta diferencia aumenta (la desigualdad se hace mayor), pero a
partir de cierto valor disminuye (la desigualdad se hace menor) hasta ser nuevamente nula
(el ingreso total corresponde a la poblacion completa): conforme las dos u
ltimas propiedades.
3
4
118
Indicadores de concentraci
on de los ingresos
119
La lnea de igualdad que se muestra corresponde a una distribucion igual del ingreso entre la
poblacion, es decir, cuando para completar determinada proporcion del ingreso se requiere
la misma proporcion de la poblacion, es decir, si X es constante.
A continuacion comparemos la desigualdad de las distribuciones de los ingresos de dos
poblaciones, R1 y R2 , a partir de sus respectivas graficas de Lorenz.
De las graficas anteriores podemos deducir, entre otras cosas, que para llegar a completar
solo el 28 % de los ingresos (empezando por los de menor valor), en la poblacion R2 se tiene
ya el 66 % de la poblacion; pero en la poblacion R1 se tiene solo el 46 %. En resumen la
distribucion del ingreso en la region R2 es mas desigual.
G=12
(x)f (x)dx
Observaci
on 4.3. El coeficiente de Gini cuantifica el grado de desigualdad del ingreso en
la curva de Lorenz. Cuando no hay desigualdad, este coeficiente es igual a cero, y a medida
que aumenta dicho valor se tendra mayor desigualdad; pero este coeficiente por s mismo
no determina si esta desigualdad se concentra en los valores superiores o inferiores de los
ingresos, es decir, no da una idea de la forma de la curva de la distribucion. Puesto que
R
R
graficamente la integral (x)f (x)dx = (x)dF (x) representa el area debajo de la curva
de Lorenz y por encima del eje horizontal; y el area debajo de la recta de igualdad es
igual a 1/2, entonces, graficamente el valor del coeficiente de Gini es igual al doble del area
comprendida entre la curva de Lorenz y la recta de igualdad. Esto se ilustra a continuacion:
119
Estadstica
, como se verifica a
continuacion:
G = 1 2E (X)
= 1 2E F (X)
1
2
e 2 2 (X)
(vease el ejemplo 4.1)
2
1
2
= 1 2E F (X) + 2 E e 2 2 (X)
2
1
2
2
= 1 2 ( 12 ) + E e 2 2 (X)
( F (X) tiene distribucion uniforme en (0, 1) )
2
1
2
2
=
E e 2 2 (X)
2
Z
1
1
2
2
2
1
=
e 2 2 (x)
e 2 2 (x) dx
2
2
Z
1
2
2
1
=
e 2 (x) dx
2
2
Z
1
2
1
1
(x)2
e 2 (/ 2)2
dx
=
2 2
2 2
|
{z
}
2
1
2 2
= .
Ejemplo 4.3. As, las distribuciones de los ingresos de dos poblaciones, R1 y R2 , son
normales con parametros 1 = 2 = 5, 1 = 1 y 2 = 3, entonces, los coeficientes de
1
3
Gini respectivos son: G1 = = 0, 1128 y G2 = = 0, 3385. La conclusion es que
5
5
la distribucion del ingreso en la poblacion R1 es menos desigual. Lo anterior se ilustra en el
grafico que sigue:
120
Indicadores de concentraci
on de los ingresos
121
Observaci
on 4.4. Un defecto que tiene este coeficiente es que dos distribuciones pueden
tener el mismo coeficiente y, sin embargo, distinto grado de desigualdad.
Definici
on 4.4. Si trabajamos con datos disponibles, en lugar de un modelo, la definicion
formal es la siguiente:
n
n
1 XX
G= 2
| x i xj |
2n X i=1 j=1
121
5.
Estadstica descriptiva
5.1. Qu
e es la Estadstica?
Como es natural, lo primero que debemos precisar es que es la estadstica; en ese sentido,
proponemos las observaciones siguientes. De donde proviene el termino estadstica ?
Desde tiempos muy remotos en la historia de la humanidad, 2300 a
nos antes de Cristo,
encontramos evidencias historicas que demuestran que culturas antiguas, como la china,
la hebrea, la griega (particularmente la ateniense) y la romana, formaron censos (listas,
registros, res
umenes), por razones de estado, por ejemplo, tributarios, alimentarios y
militares. Como puede imaginarse, en aquellos tiempos remotos, el habitante com
un no
estaba interesado en llevar a cabo semejante tarea, es decir, esta generacion de datos
resumidos era una labor o competencia exclusiva del estado; no es ahora difcil imaginar
que de all derive el termino estadstica, en cuanto a su acepcion de censo, lista o incluso
resumen. Para ilustrar mas este significado de estadstica, recordemos las siguientes frases
comunes:
las estadsticas no mienten
las estadsticas demuestran que...
existen las mentiras, las grandes mentiras y las estadsticas
Despues de tratar del origen de la estadstica, veamos ahora el significado actual de esta.
Solo a fines del siglo XVII, en Alemania, es la estadstica considerada como ciencia, gracias
a los trabajos culminantes de Karl Friedrich Gauss. En efecto, hoy en da, la estadstica
es considerada como una ciencia y su caracterstica principal, ya no es solo obtener
res
umenes; sino m
as bien, realizar inferencias a partir de los resultados obtenidos
de una muestra relativamente peque
na de datos. A continuacion damos dos ejemplos
de esto u
ltimo.
Ejemplo 5.1. Cuando estamos en epocas de elecciones, queremos saber las preferencias de
todo el electorado, pero encuestar a todos resulta imposible, por razones de tiempo y dinero.
Entonces, se recurre a tomar adecuadamente una muestra y a partir de los resultados que
se obtienen de ella, inferir lo que ocurrira en general.
Ejemplo 5.2. En el proceso de produccion de un artculo, interesa comprobar si realmente
se ha logrado el nivel de calidad deseado. Evidentemente, usar todas las unidades fabricadas
resulta muy costoso y poco factible. Entonces, nuevamente, se opta por efectuar el control
de la calidad solo para una muestra de unidades (apropiadamente elegida) para evidenciarse
si esta o no satisfecho el nivel deseado.
123
Estadstica
Parece claro que las inferencias que resulten de lo observado, en solo una muestra de la
poblacion de estudio, no tienen que ser necesariamente verdaderas; sino que mas bien estan
acompa
nadas de cierto margen de error y nivel de confianza, es decir, son solo estimaciones
o aproximaciones de lo que realmente ocurre. Es precisamente la b
usqueda de estas medidas
de error y de confianza para las inferencias, que convierten a la estadstica en una ciencia,
pues para ello usa las matematicas y crea su propia teora. El primer resultado cientfico en
ese sentido, data de 1818, en este se estudio la eficiencia de los estimadores estadsticos, lo
que se obtuvo gracias a resultados matematicos, originales de Gauss, sobre teora de los
errores.
A continuacion, empezamos dando algunas definiciones, mas bien conceptos o ideas
basicas.
5.2. Nociones b
asicas
Definici
on 5.1. La estadstica es una ciencia que se ocupa de la recoleccion, presentacion
y analisis de datos. La caracterstica que la distingue es la de hacer generalizaciones o
inferencias, a partir de solo una muestra.
Ejemplo 5.3. Un ejemplo de inferencia estadstica muy conocido es la inferencia sobre las
preferencias electorales. Por ejemplo: basandose en los resultados de una muestra de 1822
electores del pas, se estima que el porcentaje de electores (en todo el pas) a favor del
candidato AT es de 41 %, con un margen de error de 2 % y un nivel de confianza en esta
inferencia del 95 %. En este caso, el margen de error significa que en realidad el verdadero
porcentaje a favor del candidato AT esta entre 41 % 2 % y 41 % + 2 %, es decir, entre
39 % y 43 %. Y el nivel de confianza significa que la metodologa seguida, para estimar dicho
porcentaje, acierta en el 95 % de las veces que es usada con muestras de este tama
no; por
lo tanto, siendo este porcentaje de aciertos tan alto, uno confa en que esta aplicacion de la
metodologa, con la muestra dada, sea uno de los casos en que se acierta en la inferencia.
Clasificaci
on de la estadstica Existen dos grandes ramas en la estadstica: la Estadstica
Descriptiva y la Estadstica Inferencial.
La estadstica descriptiva, como su nombre lo da a entender, no va mas alla de los datos
disponibles, por ejemplo la muestra; y lo que interesa es describir que muestran los datos.
Es la parte mas conocida por la mayora de las personas. Sus labores la encontramos, por
ejemplo, en las tablas y graficas que se acostumbran presentar con el fin de ilustrar ciertos
patrones de tendencia que presenten los datos o, simplemente, para que los resultados sean
mejor entendidos. Se puede decir que se ocupa de la primera etapa en el analisis de los datos:
la descripcion o analisis exploratorio. La estadstica inferencial, en cambio, hace el trabajo
mas importante, es decir, lo que respecta a las inferencias: segunda etapa en el analisis de
los datos.
124
Estadstica descriptiva
125
Observaci
on 5.1. En realidad, en la estadstica inferencial actual, existen dos corrientes
cuyas metodologas se contraponen: La llamada estadstica cl
asica, esta es la que se
acostumbra a ense
nar y la mas conocida; y por otra parte, esta la llamada estadstica
bayesiana en honor a su impulsor Thomas Bayes (1702-1761), esta u
ltima estuvo
demasiado tiempo olvidada, pues requiere de mucho calculo computacional. Con respecto
a fundamentos, la estadstica bayesiana parece ser mas formal, por ejemplo, la inferencia
obtenida con la estadstica clasica, como ya hemos explicado, se basa en la aplicacion de
una tecnica sobre determinada muestra aleatoria disponible, entonces, sucede que en un
alto porcentaje de las veces la tecnica produce un resultado o inferencia acertada, por tal
razon, parece natural que quien la aplica en una muestra en particular, confe en que esa
vez corresponda a uno de los aciertos y no a uno de los desaciertos, salvo, claro esta, que
la persona en cuestion se considere muy desafortunada, es decir, la inferencia estadstica
clasica se sustenta en el llamado principio de la confianza. En contraposicion, para la
estadstica inferencial bayesiana, el grado de credibilidad o de confianza, en una inferencia,
se debe basar solo en la oportunidad en la cual se este aplicando, es decir, en la muestra
disponible sin considerar todas las veces en las cuales se aplica. Entender esta exigencia de
rigor requiere de un espritu filosofico innato en el hombre desde su origen; pero mas alla de
esta discusion, lo importante es que el objetivo basico es hacer inferencias.
Definici
on 5.2. Una variable es cualquier caracterstica de interes.
Definici
on 5.3. Poblaci
on es el conjunto de unidades, personas u objetos, sobre los cuales
interesa observar una o mas caractersticas.
Definici
on 5.4. Una muestra es cualquier conjunto de una poblacion. La muestra se llama
aleatoria, si sus integrantes han sido escogidos al azar.
Definici
on 5.5. Un dato u observaci
on es cualquier medida, resultado de haber observado
una variable en una unidad de alguna poblacion.
Ejemplo 5.4. A continuacion veamos algunos ejemplos de variables, todas referidas a la
poblacion de electores del Per
u:
Preferencia electoral (opcion del elector por determinado candidato o ninguno).
Edad del elector (generalmente en a
nos cumplidos).
Estado socioeconomico del elector.
N
umero de integrantes en la familia del elector.
Sexo del elector.
Grado de instruccion del elector.
Ingresos mensuales del elector.
125
Estadstica
Definici
on 5.6. Las variables se suelen clasificar como cualitativas si tienen caracter no
numerico, y cuantitativas, si representan cantidades. A su vez, las variables cuantitativas,
se subclasifican en discretas, si el conjunto de valores posibles de la variable (denominado
rango) puede ser enumerado, y en continuas, si este conjunto de valores constituye un
intervalo o reunion de intervalos.
Ejemplo 5.5. Veamos como se clasifican las variables dadas en el ejemplo 5.4:
La preferencia electoral es una variable cualitativa, expresa la intencion de votar a favor o
en contra de determinado candidato.
La edad del elector es una variable cuantitativa y por la forma de medirla usualmente, se la
puede considerar discreta; formalmente debera ser continua, pero en la practica se mide en
a
nos cumplidos.
El estado socioeconomico del elector es tambien una variable cualitativa, expresa el grupo o
estrato socioeconomico al que pertenece el elector.
El n
umero de integrantes en la familia del elector es una variable cuantitativa discreta, ya
que representa una cantidad y ademas los valores posibles que podra asumir, se pueden
enumerar.
El sexo del elector es una variable cualitativa.
El grado de instruccion del elector, tambien es una variable cualitativa, pues si bien representa
un grado, esto solo significa mas o menos instruccion, pero no cantidad.
El ingreso mensual es una variable cuantitativa continua, pues representa una cantidad y
sus valores posibles, en teora, constituyen un intervalo.
Estadstica descriptiva
127
Ejemplo 5.6. El sexo de los electores se mide a este nivel de medicion o escala. Una escala
apropiada puede ser, por ejemplo, la siguiente:
0=
femenino; 1 =
masculino.
femenino; b =
masculino.
Para ciertos a y b n
umeros reales, fijados previamente y con la u
nica condicion de que sean
diferentes.
analfabeto;
primaria;
secundaria;
superior
superior
analfabeto;
primaria;
secundaria;
Para ciertos a, b, c y d n
umeros reales, fijados previamente y con la u
nica condicion de que
a < b < c < d.
Estadstica
Ejemplo 5.8. El tiempo en el calendario actual es medido de esta forma. Para ilustrar este
tipo de escala fijemonos en el acontecimiento de tres eventos A, B y C, en el calendario
actual, como se muestra a continuacion:
A.C.
A
100
B
200
300
400
C
500
Es inexacto afirmar que el tiempo transcurrido hasta B sea el doble del transcurrido hasta A,
en efecto, esto puede parecer cierto en esta escala del calendario gregoriano, donde el origen,
al no existir naturalmente, ha sido fijado arbitrariamente, es decir, no significa ausencia de
tiempo transcurrido. Sin embargo, s es cierto que la diferencia entre el tiempo transcurrido
hasta el acontecimiento A y el transcurrido hasta B, es la tercera parte de la correspondiente
diferencia existente entre B y C.
Observaci
on 5.2. Si dos escalas de intervalo son equivalentes, es decir, son u
tiles para medir
la misma caracterstica, la relacion existente entre una medicion, X, cualquiera, obtenida
para un elemento de la poblacion; e Y , la correspondiente medicion en el mismo elemento,
pero con la otra escala es:
Y = a + bX
Siendo a y b constantes independientes del objeto que se mide con ambas escalas. Esto es as,
pues b representa el posible cambio de unidad, por ejemplo de a
nos a siglos, y a representa
el posible cambio de origen.
Estadstica descriptiva
129
5.4. Organizaci
on y tratamiento de datos. Promedios y
percentiles
A fin de poder detectar patrones de tendencia que puedan mostrar los datos disponibles, es
usual organizarlos en una distribucion de frecuencias, agrupandolos en clases y determinando
las frecuencias, es decir, el n
umero o proporcion de datos correspondiente a cada una. Como
veremos a continuacion, el tratamiento depende del tipo de variable, pero vale la pena se
nalar
que no existe una u
nica manera de hacerlo. En todos los casos, suponemos que X es la variable
de la cual se han obtenido los n datos disponibles.
Estadstica
Apreciamos claramente que la mayor parte de los creditos concedidos son de consumo, con un
82,5 % del total de creditos asignados, sigue el tipo de credito comercial y a microempresas
(con el 15 %), y el tipo de credito menos otorgado es el hipotecario con solo un 2,5 %.
Al valor de la variable que se presenta con mayor frecuencia se de denomina moda, entonces,
podemos decir que la moda del tipo de credito otorgado es el tipo de consumo.
2
5
4
4
5
4
5
7
4
4
6
6
4
5
4
4
5
4
5
6
4
3
5
4
4
4
4
5
6
5
5
4
4
2
3
4
4
4
4
1
6
6
3
4
4
5
6
5
5
4
4
3
4
5
4
5
4
4
3
4
7
4
5
Empresas
f
Acumulado
F
10
40
50
20
70
78
80
130
5
4
4
2
4
4
4
4
5
4
5
2
5
4
4
4
6
Estadstica descriptiva
131
=
X
xj
j=1
346
1(1) + 2(4) + ... + 7(2)
=
= 4, 325.
80
80
Las estadsticas mas usadas para determinar un valor promedio son la media aritmetica, la
moda y la mediana. La mediana, me , es el valor que ocupa la posicion central cuando los
datos se ordenan, por lo tanto este valor tiene la propiedad que la mitad de los datos son
menores o iguales que el. En el u
ltimo ejemplo, la mediana es 4, es decir, la mitad de las
empresas tienen 4 sucursales o menos.
El promedio es entonces un valor medio, en el sentido que se parece a muchos de los
datos, as, puede ser usado para representarlos. Sin duda el promedio es la estadstica mas
importante, pues da una idea general de los valores de los datos.
1,39
3,76
2,16
0,96
1,23
1,94
0,75
1,65
2,59
4,75
1,40
1,59
131
0,02
0,47
0,71
2,01
2,41
0,82
3,53
0,92
1,17
3,07
1,16
Estadstica
Obtengamos primero las estadsticas usadas para determinar un promedio, las cuales se
complementaran con los patrones de tendencia que se puedan detectar al organizar los datos
en una distribucion de frecuencias, y mas adelante veremos otras estadsticas que serviran
para cuantificar la variabilidad existente entre los datos y, de este modo, verificar la idoneidad
= (x1 + x2 + . . . + x25 )/25 =
de tales promedios. As, la media aritmetica resulta: X
42, 26/25 = 1, 6904, entonces, seg
un este resultado, el tiempo promedio para efectuar las
transacciones es de 1,6904 min ; sin embargo, esto no es suficiente para garantizar que
realmente este valor sea un buen promedio. Estos datos no tienen una moda, pues no existe
uno que se repita mas. La mediana de estos datos es el que ocupa la posicion central (en
este caso la decimotercera), es decir, 1,4, as, tenemos que el 50 % de los clientes demoro 1,4
min o menos. Este u
ltimo valor tambien puede tomarse como promedio, pero, como ya se
menciono, debe verificarse que realmente cumpla este rol.
Ahora pasemos a la deteccion de los posibles patrones de tendencia, para este fin
construyamos una distribucion de frecuencias con k = 6 intervalos de igual longitud. Los
datos extremos son: x(1) = 0, 02 y x(25) = 4, 75. Luego, el rango es R = 4, 75 0, 02 = 4, 73.
As, la longitud de cada uno de los k = 6 intervalos sera C = 4, 73/6 = C = 0, 78833..., pero
como no sale un valor exacto, es necesario redondear. En este caso, podemos redondear a
2 decimales (pues los datos solo tienen dos decimales, as, no vale la pena considerar mas),
claramente el redondeo debe ser por exceso (hacia arriba), pues de otro modo el mayor
dato quedara fuera. Tomamos C = 0, 79. El primer intervalo comenzara en x(1) = 0, 02 y
terminara en x(1) + C = 0, 02 + 0, 79 = 0, 81, el segundo empezara en 0, 81 y terminara
en 0, 81 + C = 1, 60; y as sucesivamente, hasta haber completado los k = 6 intervalos. Con
estos intervalos se obtiene la tabla, todava incompleta, de la forma siguiente:
Tiempo
Marca
Frecuencia
Ahora, se distribuyen los datos uno por uno. Al final, se habra completado la tabla de
frecuencias siguiente:
Tiempo
Marca
132
Frecuencia
Estadstica descriptiva
133
Las otras partes de la tabla son las siguientes: xj = marca de clase del intervalo j (punto
medio del intervalo j); Fj = frecuencia acumulada hasta el intervalo j; h = f /n y H = F/n.
Con estas completamos la tabla de la distribucion de frecuencias
Distribucion de los tiempos necesarios
Tiempo
(minutos)
Marca
X
Frecuencia
f
Frecuencia
acumulada
Frecuencia
relativa
Frecuencia
acumulada relativa
0, 415
0, 20
0, 20
1, 205
14
0, 36
0, 56
1, 995
19
0, 20
0, 76
2, 785
22
0, 12
0, 88
3, 575
24
0, 08
0,96
4, 365
25
0, 04
1, 00
Distribuci
on de los tiempos para realizar las transacciones. Panel izquierdo: histograma. Panel
derecho: polgono
En cualquiera de estas graficas apreciamos los patrones de tendencia que muestran los datos.
Podemos empezar por mencionar lo evidente, la variacion natural de los datos, es decir, no
todos los clientes necesitan el mismo tiempo, los valores correspondientes estan entre 0,02
y 4,75 min. Tambien se puede apreciar claramente que los tiempos necesarios, para que
los clientes efect
uen sus transacciones, tienden a distribuirse alrededor del intervalo entre
0,81 y 1,6, el cual sobresale en frecuencia y conforme consideramos tiempos con valores que
se alejan de este intervalo, son menos los clientes que necesitan de este tiempo, es decir,
se distingue un patron de centralizacion, como es razonable. Por lo observado, la media y
mediana s cumplen el papel de promedio, y algo mejor la mediana por estar en el intervalo
central. Ademas, existen unos pocos clientes cuyos tiempos necesarios son muy grandes en
comparacion con los otros, es decir, existe una asimetra o sesgo hacia valores altos.
133
Estadstica
Figura 5.1: Ojiva de la distribucion de los tiempos para realizar las transacciones
Esta grafica es de utilidad cuando, por ejemplo, queremos determinar ubicaciones relativas
en la distribucion, como lo ilustra el ejemplo siguiente.
Ejemplo 5.14. Al banco le interesa saber, entre otros detalles, si necesita dar mas
recomendaciones en cuanto al uso del cajero para bienestar de todos los clientes. As, no
solo le interesa que los tiempos necesarios tiendan a centralizarse alrededor de un valor
razonable; sino tambien que no exista un sesgo indicativo de posible malestar en los clientes
que podran estar esperando su turno, por mucho tiempo. En ese sentido, el banco considera
un grupo de clientes crtico, este lo integran aquellos que necesitan de mayores tiempos y
que constituyen la cuarta parte de los clientes. A partir de que tiempo un cliente, de la
muestra, ya es considerado dentro del grupo referido?
Ya hemos hablado sobre el patron de tendencia a la centralizacion. Ahora, para obtener el
valor del tiempo a partir del cual un cliente estara dentro del grupo crtico, basta observar
en la ojiva anterior, el porcentaje acumulado de 75 %, pues, si este grupo de mayores tiempos
constituyen una cuarta parte o 25 %, entonces, las otras tres cuartas partes o 75 % (y cuyos
tiempos correspondientes son inferiores) estan fuera del grupo. As, es claro que el valor
buscado, x, debe ser tal que le corresponda un porcentaje acumulado igual a 75 %, es decir,
H(x) = 0, 75. De aqu la solucion es simple, basta ordenar los datos para descubrir dicho
valor, es decir, 2,16 minutos.
Supongamos ahora que se deseara resolver el problema, pero la poblacion completa de
clientes. Claramente la solucion es compleja, casi inviable, por eso podemos recurrir a una
solucion estadstica, hacer una inferencia a partir de los datos de la muestra disponible,
entonces, el valor obtenido en la muestra es solo una estimacion, es decir, podemos decir, que
2,16 es el tiempo estimado, sin embargo para que esto sea realmente una inferencia estadstica
habra que cuantificar el error de estimacion y el correspondiente nivel de confianza en esta,
esto sera visto posteriormente.
134
Estadstica descriptiva
135
El problema anterior tambien puede resolverse desde un punto de vista probabilstico, para
esto basta obtener un modelo que describa las frecuencias relativas de los tiempos necesarios
mas adelante nos ocuparemos del estudio de modelos de esta naturaleza, podemos
considerar uno muy simple a partir de los datos de la muestra, es decir, una funcion H
cuya grafica corresponde a la ojiva dada anteriormente, as, de all observamos (o incluso
simplemente de la tabla de la distribucion) que el valor buscado, x, esta en el tercer intervalo,
es decir, x ]1, 60; 2, 39], luego, concentrando nuestra atencion en este intervalo, obtenemos:
x = 2,3505. Lo anterior se ilustra a continuacion:
Con esta funcion podemos averiguar, bajo un enfoque probabilstico, todo lo relacionado
con esta variable (el tiempo necesario para realizar las transacciones en el cajero), como por
ejemplo el tiempo promedio necesario, de esto nos ocuparemos en el captulo de probabilidad.
El ejemplo anterior tambien motiva la definicion siguiente.
Definici
on 5.7. Si K es un n
umero entre 0 y 100, el percentil K es el valor de los datos
que tiene la propiedad de que el K % de las observaciones es menor o igual que el. Podemos
denotarlo por PK . As, H(PK ) = k / 100 o, equivalentemente, F (PK ) = nk / 100, siendo n
el n
umero total de observaciones.
Observaci
on 5.4. Notese que el percentil es una medida de posici
on o ubicaci
on
relativa dentro del grupo de observaciones. Un ejemplo muy familiar para todos nosotros
lo encontramos en la universidad cuando se habla del tercio superior o, a veces, hasta del
quinto superior; el primer grupo corresponde a los alumnos con un promedio ponderado
de notas de por lo menos igual al P66,66 ; y el segundo grupo esta integrado por los alumnos
cuyo promedio ponderado de notas sea por lo menos igual al P80 . Estas medidas son de suma
utilidad cuando queremos comparar datos medidos en diferentes unidades.
135
Estadstica
Ejemplo 5.15. Cuando usted, como es de esperarse, termine satisfactoriamente sus estudios
o, haya completado buena parte de ellos, querra empezar a trabajar o, tal vez, querra salir
al extranjero para realizar un pos grado; entonces, tendra que preparar su curriculum vitae,
ademas, probablemente tenga que rendir un examen de suficiencia en el idioma ingles y
tambien le tendran que elaborar algunas cartas de recomendacion. Para lo del ingles, lo
que importara sera su ubicacion relativa o, percentil, dentro de las notas de dicho examen;
mientras que para la carta de recomendacion, sera de suma importancia su percentil dentro
del grupo de notas de los alumnos de la universidad.
Definici
on 5.8. Gr
afica de caja: es una grafica que se obtiene con los percentiles 25, 50
y 75, junto con el menor y mayor valor de los datos. Se obtiene as un buen resumen de los
datos.
A continuacion hagamos la grafica de caja que corresponde a los datos del ejemplo 5.13,
correspondientes a los tiempos necesarios para realizar una transaccion en un cajero
automatico. Las estadsticas necesarias las presentamos en la tabla siguiente:
Tiempo necesario
Mnimo
Maximo
Percentil 25
Percentil 75
Percentil 50
(min)
0,02
4,75
0,92
2,16
1,4
Figura 5.2: Grafica de caja de la distribucion de los tiempos para realizar las transacciones
En esta grafica se puede apreciar que los tiempos necesarios para realizar las transacciones
varan entre 0,02 min y 4,75 min, mientras que el 50 % de las tiempos centrales esta entre
0,92 min y 2,16 min, esto da un rango medio de 2,48 min . Un promedio para estos tiempos
puede ser 1,4 min .
Observaci
on 5.5. Una vez mas destacamos que la distribucion de los datos tiene por
finalidad primordial detectar patrones de tendencia que muestren estos datos y en particular
proponer, a partir de estos patrones, modelos para describir no solo la muestra de datos
disponibles, sino a la poblacion entera de la que provienen estos. Las estadsticas (res
umenes)
de una muestra de datos disponible (media, moda, mediana, etc.) se obtienen directamente
con los propios datos, sin necesidad de la distribucion de frecuencias.
136
Estadstica descriptiva
137
este fin.
4. En el caso de variables cuantitativas, la media aritmetica es el promedio mas usado,
esto se debe a que tiene mejores propiedades y es mas adecuado para la inferencia
estadstica, pues produce generalmente mejores estimaciones. Sin embargo, como
medida del promedio, la principal desventaja de la media es que se ve afectada por
la presencia de asimetra o valores extremos no compensados, desplazandose en esa
direccion. A continuacion se ilustra esto graficamente para el caso de una distribucion
correspondiente a una variable cuantitativa continua con tendencia a la centralizacion:
El ejemplo 5.13 ilustra la situacion de asimetra hacia la derecha, razon por cual la
media resulta un poco mayor que la mediana.
137
Estadstica
5. La media aritmetica es el u
nico punto de equilibrio, compensa los valores de a su
izquierda con los de su derecha. Se cumple que:
n
n
X
X
= 0 y si
(xj X)
(xj x) = 0, entonces, x = X.
j=1
j=1
j=1
| xj M e |
j=1
n
X
| xj x |.
j=1
La propiedad anterior tambien se enuncia diciendo que la mediana es el valor que tiene
la propiedad de minimizar la suma de los valores absolutos de las desviaciones de los
datos respecto a el.
8. Para cualesquiera a y b, que se fijen, si hacemos que cada dato xj , se transforme en:
yj = a + bxj ,
entonces, la media aritmetica resultante de estos datos, as transformados, tambien
satisface dicha relacion, es decir,
Y = a + bX.
Esta propiedad nos dice como vara la media aritmetica ante cambios en la unidad de
medida o del origen de la escala.
Ahora veamos las principales medidas de dispersion, la tendencia natural de los datos a
diferenciarse entre ellos.
Estadstica descriptiva
139
El Rango es la diferencia entre los dos valores mas extremos, es decir, entre el mayor y el
menor de los datos. Lo podemos denotar por R. As, si como ya fue indicado antes, x(1) es
el menor valor y x(n) es el mayor, se tiene que:
R = x(n) x(1)
Claramente es una medida muy imprecisa, como se ilustra en el ejemplo siguiente.
Ejemplo 5.16. Dadas las series de datos siguientes:
= Me = Mo
Datos
R X
Serie 1 : 15 20 20 20 25
10
20
Serie 2 : 195 200 200 200 200 200 200 200 205 10
200
En cual de las series dira usted que los datos estan menos dispersos?
La respuesta es en la segunda, pues puede apreciarse en ella que hay mayor cantidad de
datos parecidos a su promedio. El rango es una medida muy imprecisa. Solo cuando el rango
sea peque
no, tendremos razones para pensar que no haya mucha dispersion.
El rango intercuartil Es la diferencia existente entre los percentiles 75 y 25. Lo podemos
denotar por RI. As:
RI = P75 P25 .
Esta medida refina al rango, pues ya no considera los dos valores mas extremos; sino a los
cuartos superior e inferior, es decir, descarta los datos que queden fuera del intervalo formado
por estos percentiles y se queda solo con el 50 % restante, o sea, el 50 % central.
La desviaci
on est
andar Se la define como una distancia promedio de los datos respecto
a su media. Esto es, si la denotamos por S, tenemos que:
v
uP
u n
2
u (xj X)
t j=1
S=
.
n
En esta formula, la raz cuadrada permite que esta medida se exprese en las mismas unidades
de los datos.
Si no se dividiera por n, se tendra exactamente la distancia euclidiana entre los puntos de
. . . , X),
entonces esta medida es una distancia promedio de los
Rn : (x1 , . . . , xn ) y (X,
datos a su media. Cuanto mas grande sea este valor, mas heterogeneos seran los datos; y
cuanto mas peque
no sea este valor, mas homogeneos lo seran.
Esta estadstica es la medida de dispersion mas usada, por razones similares a las que hacen
de la media la medida de resumen o promedio mas usada, y naturalmente tambien presenta
dificultades cuando existe asimetra.
139
Estadstica
Estadstica descriptiva
141
Como ya hemos visto los datos estan alrededor de 4. Vemos que el rango es 6, mientras
que el rango intercuartil es P75 P25 = 5 4 = 1 este u
ltimo indica que no es muy
grande la dispersion en el n
umero de sucursales, al igual que la desviacion estandar que
es 1,077, si queremos precisar mejor cuan grande son estas medidas de dispersion hay que
compararlas con la magnitud promedio de los datos, as apreciamos que es relativamente
baja la dispersion. Entonces, por lo visto hasta ahora sobre estos datos, concluimos que el
n
umero promedio de sucursales es 4 y es relativamente peque
na la variabilidad.
Ejemplo 5.18. En el ejemplo 5.13 la media, mediana, desviacion estandar y rango
intercuartil son respectivamente 1,6904; 1,4; 1,1289 y 1,24. As, con los patrones de tendencia
observados y las estadsticas anteriores, concluimos que en promedio los clientes tardan 1,4
minutos y la variabilidad promedio es de 1,2 minutos.
S2 =
n
P
2
x2j nX
j=1
x2j
j=1
2.
X
2. Para cualesquiera a y b, que se fijen, si hacemos que cada dato xj , se transforma en:
yj = a + bxj ,
entonces, la varianza resultante de estos datos as transformados satisface:
2
SY2 = b2 SX
Y si b es positivo: SY = bSX .
3. Desigualdad de Chebychev Para cualquier n
umero K > 0, la proporcion de datos
KS y X
+ KS, es por lo menos igual
que caen dentro del intervalo de extremos X
a 1 1 / K 2.
3S y X
+ 3S, se encuentran por lo
Esta propiedad permite establecer que entre X
menos 8/9 de los datos, es decir, el 88,89 % (aproximadamente). De aqu que mientras
mas disten los datos respecto a su media, menos frecuentes seran.
Lo discutido al final tambien motiva, en parte, la definicion siguiente, relacionada con
la ubicacion relativa de un dato respecto a la media de su grupo.
141
Estadstica
xj X
.
SX
As, el dato tipificado, no es mas que su distancia respecto a la media del grupo; pero
expresada en terminos de la desviacion estandar. Especficamente, el signo del dato,
as tipificado, indica si el dato esta por debajo o por encima de la media del grupo; y la
magnitud, en valor absoluto, indica cuan alejado esta en terminos del alejamiento promedio
de los datos (la desviacion estandar). Tambien es claro que al pasar los datos a esta escala,
es decir aplicando tal formula de transformacion, los datos as obtenidos preservan el orden
original.
Ademas de lo mencionado antes, lo mas importante es que al transformar as los datos,
sin que importe cual sea la media y desviacion estandar de los datos originales, los valores
resultantes tienen una media igual a cero y una desviaci
on est
andar igual a 1, de all el
nombre de estandarizados. Esto u
ltimo y el hecho que el orden se preserve al transformar
as los datos, hace que esta transformacion sea de utilidad, por ejemplo, cuando se quiere
comparar dos datos provenientes de grupos con medias muy diferentes, o si corresponden a
mediciones efectuadas en distintas escalas.
Observaci
on 5.6. La forma anterior no es la u
nica utilizada para estandarizar, existen otras
como la puntuaci
on T , para la cual la media es 50 y la desviacion estandar 10, no es difcil
verificar que la formula para este caso es la siguiente:
xj X
10.
T = 50 +
SX
Esta es la formula que se utiliza para estandarizar las notas en nuestra universidad, antes
de obtener el coeficiente de rendimiento estandarizado (CRAEST).
La deduccion de esta formula es la siguiente:
Si X es la variable original, deseamos efectuar una transformacion simple de ella: Y = a+bX,
con b > 0 (para conservar el orden original de los valores de X), de modo que la media y
desviacion estandar resultantes sean 50 y 10, respectivamente. Entonces, por la propiedad 8
de la media y la propiedad 2 de la desviacion estandar, a y b deben satisfacer las ecuaciones
siguientes:
= 50
a + bX
b SX = 10.
10
10
10
10
xj X
entonces, b =
y a = 50
X. As, Y = 50
X+
X = 50 +
10.
SX
SX
SX
SX
SX
142
Estadstica descriptiva
143
Resulta claro que al efectuar esta transformacion el orden de merito de los alumnos en un
determinado curso, establecido por la nota final (x), se mantiene al hacerlo con las notas
estandarizadas (T ), pero con la diferencia que ahora la media es 50 y la desviacion estandar
10, lo que facilita la comparacion del rendimiento de dos alumnos de diferentes facultades.
Tambien se puede notar que si el promedio ponderado de un alumno esta por debajo de la
entonces su CRAEST sera menor que 50; pero si su
media de su facultad (esto es x < X),
entonces su craest
promedio esta por arriba de la media de su facultad (esto es x > X),
sera mayor que 50.
Observaci
on 5.7. En general, si se quiere una media Y = y y una desviacion estandar
SY = sY , la formula de transformacion es:
xj X
sy
Y = y +
SX
63 61 51 77 85 83 63
55 57 73 73 68 73 75
77
73 75 77 77 78 83 85
85
63 65 68 71 72 73 73
Observamos que el menor dato es 51 y el mayor 85. Para cada dato, podemos tomar la cifra
de las decenas como tallo, entonces, la otra sera la hoja. As, por ejemplo, para el dato 51: su
tallo es 5, su hoja 1. Tenemos, entonces, colocamos los tallos en una columna, como sigue:
5
6
7
8
Luego escribimos cada hoja junto a su tallo:
5
6
7
8
1
1
1
3
4
3
2
5
5 7
3 5 8
3 3 5 7 7 8
5
143
Estadstica
195
15
200
20
200
20
200
20
205
20
20
20
20
20
20
25
En ambas series el rango es 10; pero en la segunda hay mayor cantidad de datos parecidos
entre s.
Ejercicio 5.2.
Muestre una serie de datos para los que no exista un promedio o termino medio.
Soluci
on: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, 23.
No existe una estadstica que sirva de termino medio, es decir, los datos no se parecen a un
valor en particular.
Ejercicio 5.3.
En una compa
na la media aritmetica de los sueldos es de S/. 2 500. Se proponen dos
alternativas de aumento, en la primera se propone incrementar a todos los empleados S/.
600; mientras que, en la segunda un aumento del 5 % mas una bonificacion de S/. 200. Cual
de las dos alternativas le representara mas gasto a la compa
na?
Soluci
on: Para responder la pregunta, basta comparar las medias bajo cada alternativa,
pues la media es proporcional a la suma total. Veamos entonces como cambia la media con
cada alternativa:
Seg
un la primera alternativa, cada sueldo xj se transforma en yj = 600 + xj . As, por la
= 600 + 2500 = S/. 3 100.
propiedad 8 de la media, resulta una media Y = 600 + X
Para la segunda alternativa, cada sueldo xj se transforma en tj = xj + 0, 05 xj + 200 =
200 + 1, 05 xj . Nuevamente, por la propiedad anterior, resulta que la media bajo esta
= 200 + (1, 05)2500 = S/. 2 825.
alternativa es T = 200 + 1, 05X
As, la primera alternativa le representara mas gasto a la compa
na.
144
Estadstica descriptiva
145
Ejercicio 5.4.
A fin de tomar diferentes decisiones sobre el tiempo que permanece inactivo un sistema de
informacion durante un da, se le solicita a usted el valor promedio y el tiempo total de
inactividad en un perodo de 60 das. Suponga que solo se tiene la informacion siguiente
sobre los tiempos registrados para cada uno de los das de este perodo:
Mediana = 6 000 s; Media = 8 500 s .
Proporcione lo solicitado. Si fuera el caso, mencione la informacion que se requiera para una
mejor respuesta.
Soluci
on: Sean x1 . . . x60 los tiempos de inactividad correspondientes a los 60 das de este
60
P
= 60 8 500 = 510 000.
perodo. Entonces, el tiempo total de inactividad es
xj = 60 X
j=1
Pero para dar una respuesta apropiada para el tiempo promedio de inactividad, se requiere
mayor informacion. Podramos optar por la mediana, pensando que si este valor difiere de la
media, probablemente se deba a que en algunos das el tiempo de inactividad es muy grande;
pero incluso podra ser que no se pueda encontrar un buen promedio o termino medio para
los tiempos registrados.
Ejercicio 5.5.
A fin de mejorar el rendimiento de los alumnos, en un curso de estadstica, los alumnos fueron
separados en dos grupos, al primero le fue dado un curso con herramientas computacionales
modernas, al segundo un curso tradicional sin las herramientas computacionales. Al cabo
del curso ambos grupos fueron evaluados con una misma prueba, las notas correspondientes
fueron procesados con el Excel, obteniendose las distribuciones de frecuencias siguientes:
Con herramientas computacionales
Notas
Alumnos
9
1
10
4
11
2
12
3
13
10
14
10
15
7
16
8
17
4
18
1
145
Estadstica
Soluci
on:
a) Estadsticas importantes:
Estadstica
Con
Cuenta
50
Media
13,92
Mediana
14
Moda
13 y 14
Desviacion estandar 2,1174
Mnimo
9
Maximo
18
Rango
9
Percentil 75
16
Percentil 25
13
Rango medio
3
Sin
50
11,9
12
11
1,7871
9
16
7
13
11
2
Estadstica descriptiva
147
El rango de variacion medio de las notas fue 3 puntos, cuando se usaron herramientas
computacionales y 2 cuando no se usaron dichas herramientas.
b) Graficas de cajas:
147
Estadstica
B C
5 5
Se puede deducir si una de estas personas es mas tolerante que las otras dos?
148
Estadstica descriptiva
149
Ejercicio 5.4.
A continuacion se presentan tres series de datos y tres afirmaciones:
Serie 1:
Serie 2:
Serie 3:
1, 2,
39, 40,
3, 3,
4, 6,
40, 40,
4, 4,
6,
40,
5,
6, 6,
40, 40,
5, 6,
8, 10, 11.
40, 40, 40, 40,
6, 7, 7, 8,
40,
8,
40,
9,
41, 70.
9.
Afirmacion 1:
El producto de la mediana y el n
umero de datos
no proporciona una buena idea de la suma total de los datos.
Afirmacion 2: No siempre es facil determinar un valor promedio.
Afirmacion 3: El rango es una medida de dispersion muy imprecisa.
Identifique cada afirmacion con la serie de datos que mejor refleje lo sostenido en ella. Para
la eleccion de cada serie debera indicar la razon por la que descarta las otras.
Ejercicio 5.5.
En una clnica, cada una de dos terapias nuevas (A y B) para la rehabilitacion de pacientes
con depresion se aplico en uno de dos grupos de igual n
umero de pacientes (con caractersticas
similares) que adolecan de este problema, obteniendose las estadsticas siguientes sobre las
horas de terapia aplicadas hasta la recuperacion de los pacientes:
Horas de aplicacion
Estadstica
Terapia A Terapia B
Media
66,5
77,0
Mediana
66,5
63,0
Moda
66,5
63,0
Desviacion estandar
15,5
16,5
Percentil 75
86,0
83,0
Percentil 25
47,0
50,0
a) Si los histogramas de cada muestra de datos mostraron una tendencia a la
centralizacion, determine la terapia que, en general, necesito de un menor tiempo de
aplicacion por paciente.
b) Si el gasto para la clnica, por hora de aplicacion, fue el mismo para cada terapia, la
aplicacion de cual de las terapias significo un menor gasto total para la clnica?
c) Si como criterio para decidir cual de las terapias se deba adoptar se impuso la condicion
de que, a lo mas, el 25 % de los pacientes requieran mas de 85 horas, cual de estas dos
terapias, si existe una, decidira adoptar usted?
149
Estadstica
Ejercicio 5.6.
A continuacion se dan cuatro afirmaciones. Estudie la veracidad de cada una de ellas.
Ademas, si una afirmacion es verdadera proporcione una serie de datos que refleje lo que esta
sostiene; y si considera que la afirmacion es falsa muestre una serie que exhiba lo contrario.
i) Con el promedio de una serie de 10 datos se puede tener cierta idea de la suma total
de los datos, pero no necesariamente la suma exacta.
ii) Para obtener un percentil de una serie de datos, obtenidos de una variable cuantitativa
continua, es necesario construir previamente la distribucion de frecuencias y usar la
ojiva de frecuencias acumuladas.
iii) El rango es una medida de dispersion muy imprecisa.
iv) Si una serie de datos tiene una media distinta a la mediana, entonces, necesariamente
existe un patron de tendencia a la centralizacion con sesgo.
Ejercicio 5.7.
A fin de estudiar la eficiencia de cierto programa, usado para la ubicacion de archivos, se
registro el tiempo que demoro el programa para localizar la posicion de memoria de cincuenta
archivos de caractersticas similares. Se obtuvo los resultados siguientes:
[
]
]
]
]
]
]
]
Tiempo (s)
0,000; 0,125
0,125; 0,250
0,250; 0,375
0,375; 0,500
0,500; 0,625
0,625; 0,750
0,750; 0,875
0,875; 1,000
]
]
]
]
]
]
]
]
Frecuencia relativa
0,04
0,12
0,16
0,18
0,18
0,14
0,12
0,06
a) Una hipotesis sostiene que el tiempo necesario para localizar la posicion de memoria
esta, para la mayora de los archivos, alrededor de medio segundo y conforme el tiempo
se aleje de este valor, se encontraran menos archivos que requeriran de tal tiempo.
Considera que los datos evidencian la validez de esta hipotesis? Comente y justifique
con el apoyo de una grafica conveniente.
x2 x3
b) La funcion G(x) = 6( ), 0 x 1, es una de las funciones usadas para modelar
2
3
(aproximar) la frecuencia relativa acumulada hasta x, cuando 0 x 1. Seg
un esta
funcion, cual sera el valor de la frecuencia que corresponde al cuarto intervalo de la
distribucion de estos datos?
150
Estadstica descriptiva
151
Ejercicio 5.8.
Se hizo un muestreo aleatorio de 66 comunidades del pas para averiguar el porcentaje de
carencias basicas de las comunidades. Los datos se muestran a continuacion:
87,4
75,2
82,1
82,3
74,8
77,2
75,5
76,6
78
71,9
74,4
75,4
70,6
86,4
83,6
77,1
74,7
67,5
71
65,4
70,9
77,2
78,3
80,8
70,9
74,8
74,5
71,8
83,7
73
75,4
84,5
77
75,2
76,9
71,7
76
76,8
78,5
75,1
81,7
67,7
66,5
76,4
70,5
70,8
78,6
66,6
72,7
70,4
80,8
79,5
81,8
68,2
75,2
71,7
83,8
71,3
80,9
79,6
71,6
75,9
75,3
79
75,9
72,4
A fin de realizar una descripcion estadstica de estos datos, primero se obtuvieron las
principales estadsticas con el Excel:
Porcentaje de Carencias
Media
75,68
Mediana
75,40
Moda
75,20
Desviacion estandar
4,97
Rango
22,00
Mnimo
65,40
Maximo
87,40
Suma
4994,90
Cuenta
66,00
Mayor (17)
78,60
Menor(17)
71,70
Nivel de confianza (95 %)
1,22
A continuacion, con fines de detectar los posibles patrones de tendencia, se construyo una
distribucion de frecuencias. Para esto primero se uso la regla emprica 2 a la k, la cual
establece que el n
umero de intervalos es el menor entero, k, con la propiedad de que 2 elevado
a la k sea mayor o igual que el n
umero de datos, por lo que se consideraron 7 intervalos de
igual longitud.
Luego, para obtener la tabla de la distribucion de frecuencias correspondiente se uso el
Excel, para esto se proporciono los datos y como rango de clases los lmites derechos de
los intervalos seg
un la secuencia:
Porcentaje
68,55
71,70
74,85
78,00
81,15
84,30
87,45
Estadstica
Frecuencia
relativa
0,09
0,17
0,15
0,30
0,14
0,11
0,05
Frecuencia
acumulada
0,09
0,26
0,41
0,71
0,85
0,95
1,00
En la primera columna de esta tabla se encuentran los lmites derechos de los intervalos y
estos son cerrados.
a) Obtenga las conclusiones.
Debe incluir:
i) Interpretacion de las estadsticas que arroja el Excel y otras que considere
necesarias.
ii) Estudio de los posibles patrones de tendencia que muestran estos datos, con
ilustracion grafica, identificacion e interpretacion de estos en el contexto dado.
iii) Conclusiones que integren los puntos anteriores.
b) En el estudio se considero que una comunidad estaba en extrema pobreza si el
porcentaje de carencias era superior al 70 %.
i) Que porcentaje de comunidades en extrema pobreza hay en esta muestra?
ii) Como es sabido la ojiva muestra la tendencia mostrada por las frecuencias
acumuladas de esta muestra de datos. Considere la ojiva como la grafica de una
funcion modelo para describir, bajo un enfoque probabilstico, el porcentaje de
carencias en las comunidades del pas. Seg
un este modelo, cual sera el porcentaje
de comunidades en el pas que se encuentra en extrema pobreza?
c) Determine en cuanto debera disminuir el porcentaje de carencias de cada comunidad
para que la media de dicho porcentaje sea solo del 55 %. Si se lograra esto, que ocurrira
con la desviacion estandar de dicho porcentaje?
Ejercicio 5.9.
y desviacion estandar S , determine la
Si x1 , . . . , xn es una serie de datos con media X
X
media y desviacion estandar de la serie y1 , . . . , yn , en cada uno de los casos siguientes:
j = 1, . . . , n.
a) yj = 4 + 5(xj X),
j = 1, . . . , n.
b) yj = n(xj X),
+ xn , j = 1, . . . , n.
c) yj = (xj X)
j = 1, . . . , n.
d) yj = 10xj X,
152
Estadstica descriptiva
153
Ejercicio 5.10.
Para comparar la dureza del agua en dos ciudades, A y B, se tomaron muestras de agua y
se medio el contenido de calcio. Los resultados, en miligramos por litro de agua, fueron los
siguientes:
A 250 250 258
B 222 244 250
a) Haga las graficas de caja, de manera que facilite la comparacion del contenido de calcio
entre las muestras de agua de las ciudades. Obtenga las conclusiones.
b) El tercer valor de la muestra de agua en la ciudad A fue 258, el correspondiente a la
B fue 250. Cual de estos valores representa mayor contenido de calcio en su grupo?
Ejercicio 5.11.
En un banco se quiere estudiar la implementacion de una capacitacion a fin de mejorar
la atencion que brindan los empleados. Con esta finalidad se tomaron dos muestras de 50
empleados y se capacito a los de una de estas. Luego se espero a que todos los empleados
hayan atendido 10 clientes y se registro, para cada empleado, el n
umero de clientes que
mostraron su insatisfaccion por la atencion recibida. Los datos fueron procesados con el
Excel obteniendose, entre otros, los resultados siguientes:
Sin la Capacitacion
Insatisfechos
Empleados
1
1
2
4
3
2
4
3
5
10
6
10
7
7
8
8
9
4
10
1
Media
Desviacion estandar
5.92
2.12
Con la Capacitacion
Insatisfechos
Empleados
1
4
2
7
3
12
4
9
5
10
6
3
7
3
8
2
Media
Desviacion estandar
3.9
1.79
Estadstica
Ejercicio 5.12.
A fin de fiscalizar el pago de impuestos de los empleados de cierto sector laboral, se tomo una
muestra aleatoria de 25 empleados, entre los 10 000 que integran este sector.
Los ingresos mensuales de esta muestra (en miles de soles) se procesaron con las herramientas
estadsticas que proporciona el Excel y se obtuvo los resultados siguientes:
Media
Mediana
Desviacion estandar
Cuenta
9,69
9,40
1,15
25
Estadstica descriptiva
155
Ejercicio 5.13.
En un centro de trabajo, al que llega una gran cantidad de clientes por da, los
operarios fueron capacitados, siguiendo un entrenamiento patron, para realizar funciones
del mismo tipo y con gran rapidez. Los tiempos correspondientes hasta que se requiere
un descanso, durante el da de trabajo, se distribuyen siguiendo una patron de tendencia
a la centralizacion, cuya media y percentiles 25, 50 y 75 son 4,6; 2,75; 5,1 y 5,1 horas,
respectivamente. Con el fin de mejorar los tiempos, anteriormente descritos, fue elaborado
un nuevo tipo de entrenamiento para realizar las mismas funciones diarias; y al adiestrar
a los operarios los tiempos correspondientes dieron una media y percentiles 25, 50 y 75 de
4,5; 4,1; 5,4 y 5,5 horas, respectivamente. Ademas la distribucion de frecuencias con este
entrenamiento nuevo es como la representada a continuacion:
Estadstica
Ejercicio 5.14.
Un alumno obtuvo una nota de 14 en el curso A y esta corresponde al percentil 40 de las
notas en el curso. La nota de este alumno en el curso B fue de 13 y esta corresponde al
percentil 60 de las notas en este curso. Determine en cual de los dos cursos el alumno obtuvo
un mejor desempe
no con respecto a los demas alumnos. Suponga que el desempe
no esta dado
por la nota y justifique su respuesta.
Ejercicio 5.15.
En una clnica, cada una de dos terapias nuevas (A y B) para la rehabilitacion de pacientes
con depresion se aplico en uno de dos grupos de igual n
umero de pacientes (con caractersticas
similares) que adolecan de este problema, obteniendose las estadsticas siguientes sobre las
horas de terapia aplicadas hasta la recuperacion de los pacientes:
Horas de aplicacion
Estadstica
Terapia A Terapia B
Media
66,5
77,0
Mediana
66,5
63,0
Moda
66,5
63,0
Desviacion estandar
15,5
16,5
Percentil 75
86,0
83,0
Percentil 25
47,0
50,0
Ademas, los histogramas de cada muestra de datos mostraron una tendencia a la
centralizacion.
a) Si el gasto para la clnica, por hora de aplicacion, fue el mismo para cada terapia, la
aplicacion de cual de las terapias significo un menor gasto total para la clnica?
b) Si como criterio para decidir cual de las terapias se deba adoptar se impuso la condicion
de que, a lo mas, el 25 % de los pacientes requieran mas de 85 horas, cual de estas dos
terapias, si existe una, decidira adoptar usted?
c) Analice en cual de las terapias los tiempos de recuperacion fueron mas homogeneos.
Ejercicio 5.16.
Durante el u
ltimo perodo de doce meses, la rentabilidad mensual de cierta operacion
financiera tuvo una media de 20 % y una desviacion estandar de 5 %. Si un agente invirtio en
cada mes un capital de 500 unidades monetarias, determnese la media y la desviacion
estandar de los capitales finales mensuales en este perodo.
Nota: si x1 , . . . , x12 son las rentabilidades (en porcentaje) de cada uno de estos meses,
x
observe que el capital final al cabo del j-esimo mes es de 500 + 500 100j = 500 + 5xj .
156
6.
Correlaci
on y regresi
on lineal
6.1. Correlaci
on
Basicamente, el analisis de correlacion lineal consiste en averiguar si dos variables X e
Y estan asociadas o correlacionadas de manera lineal. Y el objetivo principal del analisis
de regresion lineal es poder predecir el valor de una de las variables (la que se denomina
dependiente y usualmente se la denota por Y ) a partir de un determinado valor de la
otra (variable independiente), para lo cual se determina la ecuacion del modelo lineal que
relaciona a las dos variables. Para estos fines se dispone de una muestra de n observaciones
conjuntas de ambas variables, digamos (x1 , y1 ), . . . , (xn , yn ); en donde cada par corresponde
a la medicion de X e Y, respectivamente, sobre una misma unidad (sujeto u objeto) de
observacion.
La correlacion se puede detectar facilmente mediante la grafica de los pares dados en un
sistema de coordenadas cartesianas, la que se conoce como Diagrama de dispersion o de
esparcimiento. A continuacion se muestran cuatro ejemplos:
i Y ) es un indicador de
Estos diagramas sugieren que el promedio de los valores (xi X)(y
correlacion lineal, a este se le llama covarianza y se denota por SX,Y . As:
n
P
i Y )
(xi X)(y
i=1
SX,Y =
n
157
Estadstica
Como se aprecia en los graficos anteriores, si los datos tienden a seguir un patron de tendencia
lineal y directa (si una aumenta la otra tambien aumenta), entonces, la covarianza es positiva;
si en cambio la tendencia lineal es inversa (si una aumenta la otra disminuye), la covarianza
es negativa. Pero, este indicador no es tan preciso como lo es el siguiente.
SX,Y
SX SY
Una formula u
til para el calculo de r es la siguiente:
n
P
Y
xj y j n X
j=1
r=s
(
n
P
2 )( P y 2 nY 2 )
x2j nX
j
j=1
j=1
10 15
7 11
12 20 8, 4 13
10 2
7
12 5, 5 8, 6
Correlaci
on y regresi
on lineal
159
Con estos datos haremos un breve analisis de correlacion lineal, grafica y cuantitativamente.
Graficamente, construimos el diagrama de dispersion:
Se observa una fuerte tendencia lineal entre ambas variables, de modo que a mayor n
umero
de trabajos le corresponde un mayor tiempo.
Cuantitativamente, usamos el coeficiente de correlacion entre ambas variables:
n
P
Y
xj y j n X
j=1
r=s
(
n
P
2 )(
x2j nX
j=1
n
P
= 0, 96453
yj2 nY 2 )
j=1
Claramente se aprecia que las variables tienden a relacionarse, pero no de forma lineal, sino
mas bien parece una forma exponencial decreciente como la del tipo se
nalado.
159
Estadstica
Para analizar la validez de este modelo no podemos usar el coeficiente de correlacion, pues no
es lineal. Sin embargo, veamos como, en este caso, es posible transformar el modelo formulado
en uno equivalente y que s sea lineal, de este modo podremos resolver el problema aplicando
la teora al modelo lineal. Para esto basta usar logaritmos, en efecto:
Y = X LnY = Ln + (Ln)X
Es decir, LnY y X estan relacionados linealmente. Para estudiar el modelo transformado en
lineal, con variables LnY y X, usamos el coeficiente de correlacion, al hacerlo obtenemos:
rLnY ; X = 0, 9977. As, como este coeficiente grande, en valor absoluto, se concluye que existe
una fuerte relacion lineal e inversa entre LnY y X. Por lo tanto, tambien es fuertemente
apreciable la formulada: Y = X . A continuacion se muestra la grafica de LnY y X.
6.3. Regresi
on lineal simple
Si ya sabemos que los datos presentan una correlacion lineal, entonces, interesa ahora
determinar cual es la ecuacion de la relacion que los aproxima, es decir, cuales son los valores
de a y b tales que, para la mayora de los datos xj e yj , se tenga que yj sea aproximadamente
igual a a + bxj . El metodo mas conocido es el de los cuadrados mnimos. Bajo este metodo
los valores de a y b son aquellos que minimizan la suma de los cuadrados:
Q(a, b) =
n
X
(yj a bxj )2
j=1
SY
SX
Geometricamente, la recta buscada es la que mejor ajusta a los datos (como muestra la
figura anterior).
160
Correlaci
on y regresi
on lineal
161
Ejemplo 6.3. En el problema formulado en el ejemplo 6.1, ya sabemos que entre el tiempo
de procesamiento, Y, y el correspondiente n
umero de trabajos X, existe una fuerte relacion
lineal, es decir, esperamos que el modelo entre las dos variables sea:
Y = a + bX
Entonces, el paso siguiente sera averiguar los valores a y b que definen dicha relacion.
Estos parametros a y b los podemos estimar usando los datos dados y el metodo de
4,1706
=
= 1, 03033; a = Y bX
los cuadrados mnimos. As: b = r SSXY = 0, 96453 3,90427
10, 832 1, 03033(8, 08) = 2, 50693. Luego, el modelo estimado es: Y = 2, 50693 + 1, 03033X.
En particular, podemos hacer el pronostico de la variable dependiente asociada a un valor
cualquiera dentro del rango de valores registrados de la variable independiente. Por ejemplo,
la estimacion del pronostico, para una cantidad de 8 trabajos, es Y = 2, 50693+1, 03033(8) =
10, 75 minutos.
Ejemplo 6.4. En el contexto del ejemplo6.2, ya sabemos que entre el precio del producto,
Y, y la correspondiente edad, predomina una fuerte relacion del tipo:
Y = X LnY = Ln + (Ln)X
Para efectuar un pronostico, estimamos los parametros del modelo transformado a lineal.
Para esto, usamos las formulas dadas para el modelo lineal Y = a + bX, con Y = LnY ; y
X = X; a = Ln y b = Ln. As, usando los datos dados del ejemplo obtenemos:
b = Ln = rLnY ; X SLnY / SX = 0, 638197, por lo tanto, = 0, 52824.
= LnY (Ln)X
= 4, 483054 (0, 638197)(7) = 8, 95043, por lo
a = Ln = Y bX
tanto, = 7711, 20697.
Entonces, la ecuacion del modelo esperado, la estimamos como: Y = 7711, 20697(0, 52824)X .
As, por ejemplo, el pronostico del precio del producto que tiene cinco a
nos de uso es
5
6.4. An
alisis de varianza para la regresi
on
Veamos como se puede medir el poder explicativo de la variable dependiente (X) sobre
la independiente (Y ), a traves de la regresion planteada. Analizaremos la varianza de Y,
llamada de la regresion, identificando dos fuentes que dan origen a ella.
161
Estadstica
yj = a + bxj = Y + b(xj X)
Y el correspondiente error es:
ej = yj yj = yj Y b(xj X)
Tenemos lo siguiente:
n
P
yj /n = Y .
La media de los valores ajustados es igual a la de los propios valores: Y =
j=1
nSY2
n
X
(yj Y )2
j=1
= nSY2
=
=
n
P
(
yj Y )2
j=1
n
P
(
yj Y )2
j=1
n
P
= b2
2
(xj X)
j=1
2
= n b2 SX
Esta debe medir la variabilidad de la variable Y , es decir, la de los valores que se obtendran
para Y si se usara la regresion lineal obtenida con X. Es claro que si el ajuste es perfecto
(lo cual sucede solo si efectivamente la relacion lineal entre X e Y es exacta), se tendra que
Y = Y y as SY2 = SY2 .
La llamada suma de cuadrados de los errores es:
SCE =
nSe2
=
=
n
X
j=1
n
X
j=1
(ej e)2
2
ej =
n
X
2
(yj Y b(xj X))
j=1
Y debe medir la variabilidad de los errores que se cometen al usar la regresion lineal para
ajustar los valores de Y, as, tambien mide el ajuste de los datos a la recta de regresion.
De las ecuaciones anteriores, se verifica la identidad siguiente llamada descomposici
on de
la varianza:
SCT = SCR + SCE
162
Correlaci
on y regresi
on lineal
163
SCR SCE
+
SCT
SCT
A la proporcion
R2 =
SCR
2
= rX,
Y
SCT
163
Estadstica
164
Referencias bibliogr
aficas
165