Вы находитесь на странице: 1из 142

Estadstica

C esar Beltr an Royo


Actualizado: 21/08/2012
URJC-DEIO C. Beltr an 2

Indice general
1. Descripci on de datos 1
1.1. Sntesis num erica de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3. Mediana, cuartiles y rango . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Sntesis gr aca de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3. Diagrama de caja y bigotes (Box plot) . . . . . . . . . . . . . . . . . . . 12
1.2.4. Series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Datos bivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1. Diagrama de dispersi on (Scatter plot) . . . . . . . . . . . . . . . . . . . 15
1.3.2. Correlaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2. Probabilidad y variables aleatorias 21
2.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2. Variables aleatorias y probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1. Concepto y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.2. Distribuci on binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
I

Indice general
2.3.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.4. Distribuci on de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.1. Concepto y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.4.3. Distribuci on exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4.5. Distribuci on normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4.6. Tipicaci on de una VA normal . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.7. Inversa de la funci on de distribuci on normal . . . . . . . . . . . . . . . . 61
2.4.8. An alisis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.4.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3. Inferencia estadstica 67
3.1. Apartados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2. Denici on intuitiva de poblaci on y muestra . . . . . . . . . . . . . . . . . . . . 67
3.3. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4. Teorema central de lmite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5. Estimaci on puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.1. Estimadores insesgados . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.6. Inferencia sobre la media (varianza conocida) . . . . . . . . . . . . . . . . . . . 77
3.6.1. Hip otesis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.6.2. Intervalo de conanza (varianza conocida) . . . . . . . . . . . . . . . . . 78
3.6.3. Cota de conanza (varianza conocida) . . . . . . . . . . . . . . . . . . . 81
3.6.4. Contraste de hip otesis bilateral para la media (varianza conocida) . . . . 82
3.6.5. Relaci on entre contraste de hip otesis bilateral e intervalo de conanza . . 87
3.6.6. Contraste de hip otesis unilateral para la media (varianza conocida) . . . . 87
3.6.7. P-valor (varianza conocida) . . . . . . . . . . . . . . . . . . . . . . . . 88
3.6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.7. Inferencia sobre la media (varianza desconocida) . . . . . . . . . . . . . . . . . 91
URJC-DEIO C. Beltr an II

Indice general
3.7.1. Contraste de hip otesis sobre la media (varianza desconocida) . . . . . . . 91
3.7.2. P-valor (varianza desconocida) . . . . . . . . . . . . . . . . . . . . . . . 97
3.7.3. Intervalo de conanza (varianza desconocida) . . . . . . . . . . . . . . . 98
3.7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.8. Inferencia sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.8.1. Contraste de hip otesis (proporciones) . . . . . . . . . . . . . . . . . . . 100
3.8.2. Intervalo de conanza (proporciones) . . . . . . . . . . . . . . . . . . . 102
3.8.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4. Regresi on 105
4.1. Apartados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2. Introducci on a los modelos empricos . . . . . . . . . . . . . . . . . . . . . . . 105
4.3. Regresi on lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.3.1. Recta de regresi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.3.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.3. Propiedades del modelo de regresi on . . . . . . . . . . . . . . . . . . . 116
4.3.4. Regresi on y an alisis de varianza (ANOVA) . . . . . . . . . . . . . . . . 117
4.4. Contraste de hip otesis en regresi on lineal . . . . . . . . . . . . . . . . . . . . . 119
4.5. Intervalos en regresi on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.5.1. Intervalos de conanza para
0
y
1
. . . . . . . . . . . . . . . . . . . . . 122
4.5.2. Intervalos de previsi on para Y . . . . . . . . . . . . . . . . . . . . . . . 123
4.5.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.6. Protocolo del modelo de regresi on lineal . . . . . . . . . . . . . . . . . . . . . . 126
4.6.1. Validaci on del modelo de regresi on . . . . . . . . . . . . . . . . . . . . 126
4.7. Correlaci on y regresi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.7.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.8. Regresi on lineal m ultiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.8.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
URJC-DEIO C. Beltr an III

Indice general
URJC-DEIO C. Beltr an IV
Captulo 1
Descripci on de datos
1.1. Sntesis num erica de los datos
El objetivo de esta secci on es aprender a sintetizar la informaci on contenida en los datos mediante
par ametros estadsticos:
Media.
Varianza y desviaci on tpica.
Mediana, cuartiles y rango.
1.1.1. Media
Ejemplo 1 (Juntas sint eticas)
Datos:
Consideramos una proceso de fabricaci on de juntas sint eticas para maquinaria de
alta precisi on destinada a la fabricaci on de microcircuitos.
En el ultimo lote se han fabricado N = 10,000 juntas.
Nos interesa estudiar su resistencia a la tracci on medida en psi (libras por pulgada
cuadrada).
Hemos medido la resistencia de cada junta y hemos obtenido los siguientes valores
D = 1048, 1059, . . . , 1037 psi.
La suma de las 10.000 resistencias es:
10000

i=1
x
i
= 10406700 psi.
1
1.1. S

Intesis num erica de los datos


Objetivo: Calcular la media poblacional de la resistencia a la tracci on de este lote de juntas.
Operaciones 1:
La media poblacional se calcula mediante la formula de la media aritmetica:
=

10000
i=1
x
i
10000
=
10406700
10000
= 1040, 67 psi.
Soluci on: La media poblacional de la resistencia a la tracci on de este lote de juntas es de
1040,67 psi.
General (Poblaci on y media poblacional)
Poblaci on: es el conjunto de elementos sobre el que se realizan las observaciones para
estudiar alguna de sus caracterstica.
Si el conjunto de datos de la poblaci on es nito
D = x
1
, . . . , x
N
,
su media poblacional se calcula mediante la f ormula de la media aritm etica:
=

N
i=1
x
i
N
.
Ejemplo 2 (Juntas sint eticas - continuaci on)
Datos:
En realidad sera demasiado caro medir la resistencia a la tracci on de todas las juntas
del lote (N = 10.000).
Lo que normalmente se hace es analizar solamente una muestra.
Supongamos que hemos extraido una muestra de juntas sint eticas de tama no n = 8 y
hemos medido su resistencia:
D = 1048, 1059, 1047, 1066, 1040, 1070, 1037, 1073 psi
Objetivo: Calcular la media muestral de la resistencia a la tracci on de esta muestra de juntas.
Operaciones 2: La media muestral se calcula mediante la f ormula de la media aritm etica:
x =

8
i=1
x
i
8
=
8440
8
= 1055, 0 psi.
URJC-DEIO C. Beltr an 2
1.1. S

Intesis num erica de los datos


Soluci on:
La media muestral de la resistencia a la tracci on de este lote de juntas es de 1055,0
psi
Notar que es un 1,37 % mayor que la media poblacional (1040,67 psi).
General (Muestra y media muestral)
Muestra:
Normalmente no podremos analizar toda una poblaci on (estadstica) pues suele
tener un gran n umero elementos (incluso innito).
Normalmente analizaremos una muestra, es decir, un subconjunto de de la poblaci on.
Si la muestra es representativa, podremos sacar conclusiones sobre la poblaci on
analizando s olo la muestra.
Cada par ametro poblacional (,
2
, , etc.) ser a estimado (aproximado) por un
par ametro muestral ( x, s
2
, r, etc.).
Los par ametros poblacionales son unicos pero los par ametros muestrales no, pues
dependen de la muestra que tomemos.
Media muestral:
Tanto la media poblacional , como la media muestral x, puede interpretarse como
el centro de gravedad del conjunto de datos de la muestra (ver Fig. 1.1).
La media es por tanto una medida de centralidad.
Dado el conjunto de datos de una muestra
D = x
1
, . . . , x
n
,
su media muestral se calcula mediante la f ormula de la media aritm etica:
x =

n
i=1
x
i
n
.
Figura 1.1: La media puede interpretarse como el centro de gravedad.
URJC-DEIO C. Beltr an 3
1.1. S

Intesis num erica de los datos


1.1.2. Varianza
Ejemplo 3 (Juntas sint eticas - continuaci on)
Datos:
Recordamos la resistencia a la tracci on de la muestra de 8 juntas sint eticas.
D = 1048, 1059, 1047, 1066, 1040, 1070, 1037, 1073 psi.
Objetivo:
Calcular la varianza muestral y la desviaci on tpica muestral de la resistencia a la
tracci on.
Interpretar el valor de la desviaci on tpica en este contexto.
Operaciones 3:
La varianza muestral se calcula mediante la siguiente formula (ver la tabla de la
Figura 1.2).
s
2
=

8
i=1
(x
i
x)
2
8 1
=
1348
7
= 192,57 psi
2
.
La desviacion tpica muestral es la raz cuadrada de la varianza
_
s = 192,57 = 13,9 psi.
La mayora de datos (5 de 8 = 63 %) han cado en el intervalo
[x s, x + s] [1055 14, 1055 + 14] = [1041, 1069] psi.
Todos los datos (8 de 8) han cado en el intervalo
[x 2s, x + 2s] [1055 28, 1055 + 28] = [1027, 1083] psi.
Solucion:
La varianza muestral de la resistencia a la traccion es 192,57 psi
2
.
Su desviacion tpica muestral es de 13,9 psi.
La mayora de datos han cado en el intervalo
[1041, 1069] psi.
URJC-DEIO C. Beltr an 4
1.1. S

Intesis num erica de los datos


Figura 1.2: Tabla para calcular la varianza.
Figura 1.3: Medimos la dispersi on respecto a la media muestral x.
Todos los datos han cado en el intervalo
[1027, 1083] psi.
General (Varianza y desviaci on tpica)
Varianza poblacional
2
:
Es una medida de dispersi on.
Si el conjunto de datos de la poblaci on es nito
D = x
1
, . . . , x
N
,
se calcula mediante la f ormula

2
=

N
i=1
(x
i
)
2
N
.
Esta f ormula calcula el promedio del cuadrado de las desviaciones respecto a la
media poblacional.
URJC-DEIO C. Beltr an 5
1.1. S

Intesis num erica de los datos


Varianza muestral s
2
:
Normalmente no podremos calcular la varianza poblacional por ser la poblaci on
demasiado grande (incluso innita).
La estimaremos (aproximaremos) mediante la varianza muestral:
s
2
=

n
i=1
(x
i
x)
2
n 1
.
F ormula computacional para la varianza muestral:
s
2
=

n
i=1
x
2
i
n 1

_
n
i=1
x
i
_
2
n(n 1)
.
Desviaci on tpica poblacional :
Es una medida de dispersi on.
Corresponde a la raz cuadrada de la varianza poblacional:
=
_
varianza poblacional.
La estimaremos (aproximaremos) mediante la desviaci on tpica muestral s:
s =

varianza muestral.
En muchas aplicaciones de ingeniera:
La mayora de datos (alrededor del 68 %) caen en el intervalo
[ x s, x +s].
Casi todos los datos (alrededor del 95 %) caen en el intervalo
[ x 2s, x + 2s].
1.1.3. Mediana, cuartiles y rango
Ejemplo 4 (Consumo de electricidad)
Datos: Consideramos el consumo de electricidad en KWh durante el ultimo mes de 5 familias.
D = 150, 90, 170, 120, 1000.
Objetivo:
Calcular los cuartiles y el rango para la muestra anterior.
Interpretar los resultados.
URJC-DEIO C. Beltr an 6
1.1. S

Intesis num erica de los datos


Operaciones 4:
Primero tenemos que ordenar los datos de menor a mayor
D = 90
1
, 120
2
, 150
3
, 170
4
, 1000
5
.
El primer cuartil corresponde al dato interpolado en la posicion 1,5:
q
1
= d1
4 (n+1)
= d1
4 (5+1)
= d
1,5
= 105 KWh.
El segundo cuartil (mediana):
q
2
= d2
4 (n+1)
= d2
4 (5+1)
= d
3
= 150 KWh.
El tercer cuartil:
q
3
= d3
4 (n+1)
= d3
4 (5+1)
= d
4,5
= 585 KWh.
El rango:
Rango = d
n
d
1
= d
5
d
1
= 1000 90 = 910 KWh.
Solucion:
q
1
= 105, q
2
= 150 y q
3
= 585 (datos en KWh).
Tenemos aproximadamente:
Un 25 % de las observaciones por debajo de q
1
(en realidad tenemos un
20 %).
Un 50 % de las observaciones por debajo de q
2
(en realidad tenemos un
40 %).
Un 75 % de las observaciones por debajo de q
3
(en realidad tenemos un
80 %).
Notar que x = 306 KWh no es un valor central de la muestra D. Por eso
decimos que la media no es un par ametro robusto.
Sin embargo, q
2
= 150 KWh s es un valor central de la muestra D. Por eso
decimos que la mediana es un par ametro robusto.
General (Mediana, cuartiles y rango)
Cuartiles q
i
:
Para calcularlos:
URJC-DEIO C. Beltr an 7
1.2. S

Intesis gr aca de los datos


Primero tenemos que ordenar los datos de menor a mayor
D = d
1
, d
2
, . . . , d
n
.
q
i
es el dato interpolado en la posici on
i
4
(n + 1) :
q
i
= di
4
(n+1)
i 1, 2, 3.
El segundo cuartil se denomina mediana y es un par ametro robusto de centralidad.
El primer y tercer cuartil son par ametros de dispersi on.
Los cuartiles particionan el conjunto de datos en cuartos (aproximadamente).
Rango:
Es una medida de dispersi on.
Se calcula como la diferencia entre el dato m aximo y el dato mnimo:
Rango = d
n
d
1
.
1.2. Sntesis gr aca de los datos
El objetivo de esta secci on es aprender a sintetizar la informaci on contenida en los datos mediante
gr acos estadsticos:
Histograma.
Diagrama de caja y bigotes.
Serie temporal.
1.2.1. Histograma
Ejemplo 5 (Pelotas de golf)
Datos:
Consideramos una proceso de fabricaci on de pelotas de golf.
Para comprobar que un lote de pelotas de golf cumple con los est andares, una mag-
nitud a estudiar es la distancia recorrida despu es de golpear la pelota con un palo de
golf (bajo ciertas condiciones homog eneas).
Hemos tomado una muestra de 100 pelotas y hemos anotado la distancia recorrida
(yardas) tras ser golpeadas (ver Fig. 1.4).
1 yarda = 0,91 m.
URJC-DEIO C. Beltr an 8
1.2. S

Intesis gr aca de los datos


Figura 1.4: Tabla de las distancias recorridas por las pelotas de golf.
Objetivo: Construir un histograma del conjunto de datos.
Operaciones 5:
Al tener 100 observaciones, podemos disenar el histograma con

100 = 10 interva-
los de clase.
A cada intervalo de clase le corresponde una columna.
La altura de cada columna corresponde a la frecuencia de las observaciones que
caen dentro de su intervalo.
Solucion: Ver Figura 1.5.
Figura 1.5: Histograma de las distancias en yardas alcanzadas por las pelotas de golf.
URJC-DEIO C. Beltr an 9
1.2. S

Intesis gr aca de los datos


General (Histogramas)
Sintetiza de forma gr aca los datos a analizar.
En muchas aplicaciones de ingeniera el correspondiente histograma tiene forma acam-
panada. En ese caso:
La mayora de datos (alrededor del 68 %) caen en el intervalo
[ x s, x +s].
Casi todos los datos (alrededor del 95 %) caen en el intervalo
[ x 2s, x + 2s].
Representaci on de un histograma:
Se divide el rango de valores en intervalos, denominados intervalos de clase o
celdas.
Si es posible, procurar que los intervalos de clase tengan la misma amplitud.
Un buen n umero de clases a tomar es

n.
Se construye la tabla de frecuencias (absoluta, relativa y acumulada) contando los
casos que caen en cada intervalo de clase.
A cada intervalo de clase le corresponde una columna.
La altura de cada columna corresponde a la frecuencia (absoluta o relativa) de las
observaciones que caen dentro de su intervalo.
1.2.2. Diagrama de tallo y hojas
Ejemplo 6 (Aleaci on ligera)
Datos:
Consideramos una proceso de fabricaci on de piezas de una aleaci on ligera de
aluminio-litio destinada a la construcci on de aviones.
Nos interesa estudiar su resistencia a la compresi on medida en psi (libras por pul-
gada cuadrada).
Hemos tomado una muestra de 80 piezas y hemos medido su resistencia a la com-
presi on (ver Tabla 1.1).
Objetivo: Construir un diagrama de tallo y hojas de la anterior muestra.
Operaciones 6:
Seguimos los pasos que se indican en el apartado denominado General.
URJC-DEIO C. Beltran 10
1.2. S

Intesis gr aca de los datos


Tabla 1.1: Resistencia a la compresi on de 80 piezas de aluminio-litio (medida en psi).
105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 0361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1
Soluci on: Ver gura.
General (Construcci on de un diagrama de tallo y hojas)
Los datos deben tener al menos dos dgitos.
Se divide cada observaci on en dos partes: el tallo (uno o m as dgitos de la izquierda) y la
hoja (resto de dgitos)
Se listan los tallos en una columna (de menor a mayor), poniendo los repetidos una sola
vez.
Se escriben las hojas de cada tallo en una segunda columna.
A veces se escribe el n umero de hojas por tallo en una tercera columna (la frecuencia
absoluta)
URJC-DEIO C. Beltr an 11
1.2. S

Intesis gr aca de los datos


1.2.3. Diagrama de caja y bigotes (Box plot)
Ejemplo 7 (Aleaci on ligera - contin ua)
Datos:
Ver ejemplo anterior.
Objetivo: Construir un diagrama de caja y bigotes de los datos de la Tabla 1.1.
Operaciones 7:
Se calculan los cuartiles: q
1
= 143,50, q
2
= 161,50 y q
3
= 181,00.
Rango intercuartlico: RIC = 37,5.
Valores atpicos: 76, 87 y 245.
Valores atpicos extremos: No hay.
Solucion: Ver Figura 1.6
Figura 1.6: Diagrama de caja y bigotes para el ejemplo de la aleaci on ligera.
General (Representaci on de un diagrama de caja y bigotes)
Deben calcularse (ver Fig. 1.7):
Los 3 cuartiles del conjunto de datos.
Rango intercuartlico (RIC), distancia entre q
3
y q
1
.
URJC-DEIO C. Beltr an 12
1.2. S

Intesis gr aca de los datos


Valores tpicos y atpicos (outliers) : Observaciones que caen dentro y fuera, respec-
tivamente, del intervalo
[ q
1
1,5 RIC, q
3
+ 1,5 RIC ].
Valores atpicos extremos : Observaciones fuera del intervalo
[ q
1
3 RIC, q
3
+ 3 RIC ].
Se dibuja una caja entre q
1
y q
3
.
Se dibuja una lnea vertical en la mediana.
Cada bigote se dibujan hasta la observaci on m as extrema tpica.
Los valores atpicos y atpicos extremos se representan por puntos.
El box-plot facilita la comparaci on gr aca de varios conjuntos de datos (ver Fig. 1.8).
Figura 1.7: Representaci on de un diagrama de caja y bigotes.
1.2.4. Series temporales
Ejemplo 8 (Venta de coches)
Datos: En un concesionario, las ventas trimestrales de coches durante tres a nos se muestran
en la Tabla 1.2.
1989 Ventas 1990 Ventas 1991 Ventas
1 17 1 20 1 28
2 20 2 26 2 30
3 14 3 20 3 21
4 7 4 13 4 17
Tabla 1.2: Ventas de coches por trimestres.
URJC-DEIO C. Beltr an 13
1.2. S

Intesis gr aca de los datos


Figura 1.8: Comparaci on de varios conjuntos de datos.
Figura 1.9: Serie temporal de las ventas de coches trimestrales.
Objetivo: Representar estos datos ordenados de forma cronol ogica.
Soluci on: Ver Figura 1.9.
General (Series temporales)
Es un conjunto de datos en el que las observaciones se ordenan de forma cronol ogica.
Para representar una serie temporal el eje horizontal corresponde al tiempo y el eje vertical
corresponde a la magnitud o caracterstica analizada.
La representaci on de una serie temporal es muy util para desvelar patrones temporales
(tendencia, ciclos, etc.).
URJC-DEIO C. Beltr an 14
1.3. Datos bivariantes
Una serie temporal tambi en puede ser util para conrmar que no existe ning un patr on
temporal (Ver Figura 1.10).
Figura 1.10: Serie temporal de los datos del ejemplo de la aleaci on ligera.
1.3. Datos bivariantes
En esta secci on estudiaremos:
El diagrama de dispersi on.
El coeciente de correlaci on.
1.3.1. Diagrama de dispersi on (Scatter plot)
Ejemplo 9 (Placa base)
Datos:
Consideramos un proceso de fabricaci on de semiconductores y placas base.
En ese proceso, cada semiconductor es conectado a una placa base mediante un
cable.
Las variables que se quiere analizar son:
Y = Resistencia de la conexi on (fuerza necesaria para arrancar el semicon-
ductor de la placa base).
X
1
= Longitud del cable que conecta el semiconductor a la placa base.
X
2
= Altura del semiconductor.
URJC-DEIO C. Beltr an 15
1.3. Datos bivariantes
Tabla 1.3: Datos del ejemplo de la placa base.
En la Tabla 1.3 tenemos los datos correspondientes a 25 observaciones de (X
1
, X
2
, Y ).
Objetivo:
Representar los diagramas de dispersi on para los pares de variables (X
1
, Y ) y
(X
2
, Y ).
Analizar la relaci on entre las variables representadas.
Operaciones 9:
En la Figura 1.11 hemos representado los dos diagramas de dispersion.
Podemos observar que hay una fuerte relacion lineal entre las variables
Longitud del cable y Resistencia de la conexion.
Ademas esta relacion es positiva (la pendiente de la recta es positiva).
Sin embargo, hay una debil relacion lineal entre las variables Altura del
semicon-ductor y Resistencia de la conexion.
Solucion: Ver Figura 1.11.
General (Diagrama de dispersi on - scatter plot)
Un diagrama de dispersi on permite representar pares de observaciones correspondientes
a dos variables X e Y .
URJC-DEIO C. Beltr an 16
1.3. Datos bivariantes
Figura 1.11: Diagramas de dispersi on.
Para representar un diagrama de dispersi on necesitamos pues un conjunto de pares de
datos
D = (x
1
, y
1
), . . . , (x
n
, y
n
).
Cada par dar a lugar a un punto en el plano xy.
La nube de puntos resultante se denomina diagrama de dispersi on.
El diagrama de dispersi on permite analizar la existencia o no de relaciones funcionales
entre las variables analizadas (relaci on lineal, cuadr atica, etc.).
1.3.2. Correlaci on
Ejemplo 10 (Placa base - continuaci on)
Datos:
Y = Resistencia de la conexi on (fuerza necesaria para arrancar el semiconductor
de la placa base).
X = Longitud del cable que conecta el semiconductor a la placa base.
El coeciente de correlaci on muestral se calcula mediante la f ormula:
r =
S
xy
_
S
xx
S
yy
,
donde
S
xy
=
n

i=1
x
i
y
i

_
n
i=1
x
i
__
n
i=1
y
i
_
n
S
xx
=
n

i=1
x
2
i

_
n
i=1
x
i
_
2
n
,
S
yy
=
n

i=1
y
2
i

_
n
i=1
y
i
_
2
n
.
URJC-DEIO C. Beltr an 17
1.3. Datos bivariantes
Objetivo:
Calcular la correlaci on muestral entre las variables X Y a partir de los datos de la
tabla 1.3.
Interpretar el resultado.
Operaciones 10:

25
x
i
= 206

25
i=1

25
y
i
= 725,82
i=1
x
i
2
=
2396

25
i=1
y
i
2
= 27179
i=1

25
i=1
x
i
y
i
= 8008,50
S
xx
=

n
i=1
x
i
2

n
i=1
x
i
_
2
n
= 698,56
S
yy
=

n
i=1
y
2
i

_

n
i=1
y
i
_
2
n
= 6106,41
S
xy
=

n
i=1
x
i
y
i

n
i=1
x
i
__

n
i=1
y
i
_
n
= 2027,74
r =

Sxy
SxxSyy
= 0,982
Solucion:
La correlaci on muestral entre las variables X e Y es 0,982.
Existe pues una fuerte relaci on lineal y positiva entre la Longitud del cable y la
Resistencia de la conexi on, tal como ya vimos en el diagrama de dispersi on (ver
Figura 1.11).
General (Coeciente de correlaci on)
Correlaci on poblacional :
Mide la relaci on lineal entre dos variables X e Y.
Si el conjunto de datos de la poblaci on es nito
D = (x
1
, y
1
), . . . , (x
N
, y
N
),
se calcula mediante la f ormula
=

N
i=1
(x
i

x
)(y
i

y
)
_
_

N
i=1
(x
i

x
)
2
__

N
i=1
(y
i

y
)
2
_
.
Correlaci on muestral r :
URJC-DEIO C. Beltr an 18
1.4. Ejercicios
Normalmente no podremos calcular la correlaci on poblacional por ser la poblaci on
demasiado grande (incluso innita).
La estimaremos (aproximaremos) mediante la correlaci on muestral:
r =

n
i=1
(x
i
x)(y
i
y)
_
_

N
i=1
(x
i
x)
2
__

N
i=1
(y
i
y)
2
_
.
F ormula computacional para la correlaci on muestral:
r =
S
xy
_
S
xx
S
yy
,
donde
S
xy
=
n

i=1
x
i
y
i

_
n
i=1
, x
i
__
n
i=1
y
i
_
n
,
S
xx
=
n

i=1
x
2
i

_
n
i=1
x
i
_
2
n
,
S
yy
=
n

i=1
y
2
i

_
n
i=1
y
i
_
2
n
.
Mide la relaci on lineal entre dos variables X e Y .
El valor de r est a en en intervalo [1, 1] y no tiene unidades.
Valores de r cercanos a 0 indican que entre las variables X e Y no hay relaci on
lineal.
Valores de [r[ cercanos a 1 indican que entre las variables X e Y hay relaci on
lineal.
Correlaci on fuerte [r[ [0,8, 1]
Correlaci on moderada [r[ [0,5, 0,8[
Correlaci on d ebil [r[ [0, 0,5[
1.4. Ejercicios
URJC-DEIO C. Beltr an 19
1.4. Ejercicios
URJC-DEIO C. Beltr an 20
Captulo 2
Probabilidad y variables aleatorias
2.1. Introducci on
Ejemplo 11 (Sucesos aleatorios)
Resultado al lanzar una moneda.
Tiempo que tardar e en llegar a la universidad.
N umero de intentos hasta conseguir un objetivo.
etc.
General No podemos dominar lo aleatorio...
Ejemplo 12 (Juego de los dados)
Objetivo: Dise nar una estrategia para el juego de lanzar dos dados
Datos:
Lanzamos dos dados y sumamos los puntos obtenidos
Total Puntos = D
1
+D
2
.
Nuestro objetivo nal es adivinar el total de puntos (apostamos).
Operaciones 12:
Da igual el numero total de puntos por el que
apostemos ? O por el contrario, hay algun numero total
ventajoso ?
21
2.2. Variables aleatorias y probabilidad
Figura 2.1: La variabilidad puede perturbar la red de telefona.
Soluci on: Se deja al lector...
General (Filosofa de este curso)
En general aunque no podremos dominar lo aleatorio, s podremos estudiarlo y dise nar
alguna estrategia ventajosa.
En el ambito de la ingeniera (abilidad, control de calidad, gesti on de embalses, procesos
industriales, etc.) tambi en aparecen fen omenos aleatorios.
No podremos controlar totalmente estos fen omenos aleatorios.
Pero s podremos dise nar estrategias ventajosas para gestionar estos fen omenos.
2.2. Variables aleatorias y probabilidad
El objetivo de esta secci on es:
Introducir de forma intuitiva los conceptos de:
Variable aleatoria (VA).
Probabilidad.
Dar una denici on de probabilidad y algunas de sus propiedades b asicas.
2.2.1. Variables aleatorias
Ejemplo 13 (Red de telefona)
Objetivo: Dise nar la red de telefona interna de una compa na.
URJC-DEIO C. Beltr an 22
2.2. Variables aleatorias y probabilidad
Datos:
Asumimos que cada lnea no puede transportar m as de una conversaci on de forma
simult anea.
La decisi on principal es el n umero de lneas que debe tener el sistema de telefona.
La empresa debe satisfacer sus necesidades al mnimo coste.
La compa na ha estimado que en media las llamadas:
Ocurren cada 5 minutos.
Duran 5 minutos.
Operaciones 13:
Con los datos promedio, una unica lnea sera suficiente.
Sin embargo, las llamadas pueden durar mas de 5 minutos (ver Fig.
2.1). Si definimos la variable aleatoria
X = Duracion de una llamada (minutos).
Antes de cada llamada, solo podemos estimar cuanto va a durar la llamada.
Esti-mamos X.
Despues de cada llamada, hemos observado su duracion exacta. Observamos X.
Un poco de vocabulario: El soporte de X es S = [0, +].
Solucion: El diseno de la red de telefona interna debera tener en cuenta la variabilidad de la
duraci on de las llamada.
General (Variable aleatoria (VA))
Concepto:
Es una variable num erica cuyo valor observado puede variar cada vez que repetimos
un mismo experimento.
A menudo usaremos la letra X para representar una variable aleatoria.
No debemos confundir una variable aleatoria con una variable algebraica (soluci on
de una ecuaci on).
Soporte: Denominamos soporte de una variable aleatoria X al conjunto S de todos los valores
que puede tomar X.
URJC-DEIO C. Beltr an 23
2.2. Variables aleatorias y probabilidad
Tipos:
Variables aleatorias continuas:
Su soporte es un intervalo en R o uni on de intervalos.
Ejemplos: Duraci on de una llamada telef onica, Intensidad de la corriente el ectri-
ca, longitud, presi on, temperatura, tiempo, peso, etc.
Variables aleatorias discretas:
Su soporte es un conjunto discreto, es decir, no contiene intervalos.
Ejemplos: N umero de llamadas a una centralita por minuto, n umero de piezas
defectuosas en un proceso de fabricaci on en cadena, N umero de intentos hasta
alcanzar el exito en un experimento, etc.
2.2.2. Probabilidad
Ejemplo 14 (Red de telefona - Continuaci on I)
Objetivo: C omo podemos cuanticar la variabilidad de la duraci on de las llamadas telef onicas
X?
Datos:
La compa na ha estimado que en media las llamadas:
Ocurren cada 5 minutos.
Duran 5 minutos.
Operaciones 14:
La compana, aunque no puede predecir con exactitud cuanto va a durar cada lla-
mada, sabe que:
(Practicamente) todas las llamadas duran entre 0 y 15 minutos. Escribiremos:
P (X [0, 15]) = 100 %
La mayora de llamadas duran entre 2 y 8 minutos.
P (X [2, 8]) = 80 %.
Otra forma de escribir lo mismo:
P (2 X 8) = 80 %.
URJC-DEIO C. Beltran 24
2.2. Variables aleatorias y probabilidad
Soluci on: Podemos basarnos en el c alculo de probabilidades y lo aplicaremos a la variable
aleatoria X (duraci on de las llamadas).
General (Idea intuitiva de probabilidad)
La probabilidad describe el grado de verosimilitud o posibilidad de un suceso.
Una variable aleatoria X toma valores en R. Para cuanticar el grado de verosimilitud de
esos valores, nos basaremos en el c alculo de probabilidades. Escribiremos:
P(X [a, b]) = P(a X b) = [0, 1].
En las aplicaciones de ingeniera, la probabilidad se usa para representar el riesgo o la
incertidumbre.
Cuanticamos la probabilidad con un n umero del intervalo [0, 1] (en tanto por uno) o
[0 %, 100 %] (en tanto por ciento).
N umeros altos indican una mayor verosimilitud.
Ejemplo 15 (Juego de los dados - Continuaci on I)
Datos:
Lanzamos dos dados y sumamos los puntos obtenidos. Denimos la variable aleato-
ria (VA) X =Suma de los puntos:
X = D
1
+D
2
.
Los posibles valores para X son 2, 3, . . ., 12 (soporte de X).
Regla de Laplace:
Se puede aplicar en los experimentos donde todos sus sucesos elementales tienen
la misma probabilidad de ocurrir (sucesos equiprobables)
En esas condiciones, la probabilidad de un suceso A se puede calcular:
P(A) =
n umero de casos favorables
n umero de casos posibles
.
Objetivo: Calcular P(X = k) para k = 0, 1, 2, 3, . . .
Operaciones 15:
El lanzamiento de dos dados se puede representar por 36 pares de resultados. Por
ejemplo (1, 3). En este caso X = 4.
En total pueden salir 6 6 = 36 pares de resultados.
URJC-DEIO C. Beltran 25
2.2. Variables aleatorias y probabilidad
Tenemos pues 36 sucesos elementales y cada uno de ellos tiene las mismas
posibil-idades de ocurrir (con dados equilibrados).
Aplicando la regla de Laplace tendremos que:
P (X = 0) = P (X = 1) = 0
P (X = 2) = 1/36
P (X = 3) = 2/36
P (X = 4) = 3/36
P (X = 5) = 4/36
P (X = 6) = 5/36
P (X = 7) = 6/36
P (X = 8) = 5/36
.
.
.
P (X = 12) = 1/36 P
(X 13) = 0
Solucion: Descrita en el apartado anterior.
General (Regla de Laplace)
Pierre Simon, Marqu es de Laplace, (Francia, 1749-1827).
Se puede aplicar en los experimentos donde todos los sucesos elementales tienen la misma
probabilidad de ocurrir (sucesos equiprobables) .
En esas condiciones, la probabilidad de un suceso A se puede calcular:
P(A) =
n umero de casos favorables
n umero de casos posibles
.
Ejemplo 16 (Lanzamiento de un unico dado)
Objetivo: Ilustrar algunas deniciones y propiedades del c alculo de probabilidades.
Datos:
URJC-DEIO C. Beltr an 26
2.2. Variables aleatorias y probabilidad
Consideramos el experimento lanzar un dado y su espacio muestral:
E = C
1
, C
2
, C
3
, C
4
, C
5
, C
6
,
donde C
i
signica obtener la cara i.
Consideramos los sucesos:
A = C
1
, C
2
y B = C
2
, C
3
, C
4
.
Operaciones 16: Se cumple que
P (E) = 6/6 = 1.
P (A) = 2/6 [0, 1].
P (B) = 3/6 [0, 1].
La probabilidad de la intersecci
on:
P (A B) = 1/6.
La probabilidad de la union:
P (A B) = P (A) + P (B) P (A B)
4/6 = 2/6 + 3/6 1/6.
La probabilidad del complementario A

:
P (A

) = 4/6
= 1 P (A).
La probabilidad del suceso imposible:
P () = 0.
General (Probabilidad)
Espacio muestral E: Conjunto de todos los resultados posibles de un experimento.
Definicion de probabilidad:
URJC-DEIO C. Beltr an 27
2.2. Variables aleatorias y probabilidad
Denici on de Kolmogorov.
Una funci on de probabilidad es toda funci on
P : E R
que cumple los tres axiomas siguientes:
1. La probabilidad siempre tiene un valor positivo:
P(A) 0 para cualquier suceso A E.
2. Suceso seguro:
P(E) = 1.
3. Probabilidad de la uni on disjunta:
Si A, B E tal que A B = , entonces
P(A B) = P(A) +P(B).
Propiedades: Dados dos sucesos cualesquiera A, B E tenemos las siguientes propiedades.
1. Probabilidad del suceso complementario:
P(A

) = 1 P(A).
2. Probabilidad del suceso imposible:
P() = 0.
3. Probabilidad de la uni on de sucesos:
P(A B) = P(A) +P(B) P(A B).
4. P(A) [0, 1].
2.2.3. Ejercicios
URJC-DEIO C. Beltr an 28
2.3. Variables aleatorias discretas
2.3. Variables aleatorias discretas
Objetivo: En esta secci on estudiaremos la variables aleatorias (VA) discretas, es decir las que
s olo pueden tomar valores en un conjunto discreto (no contiene intervalos).
Apartados: Esta secci on consta de tres bloques:
Concepto y propiedades de las VA discretas.
Distribuci on binomial.
Distribuci on de Poisson.
2.3.1. Concepto y propiedades
Ejemplo 17 (Transmisi on digital)
Datos:
En las transmisiones digitales, hay cierta probabilidad de que un bit (0/1) sea
recibido err oneamente.
Denimos la variable aleatoria
X = N umero de bits recibidos err oneamente en un trasmisi on de 4 bits
Los posibles valores para X son
S = 0, 1, 2, 3, 4.
Supongamos que tenemos el siguiente reparto de probabilidades:
P(X = 0) = 0,6561
P(X = 1) = 0,2916
P(X = 2) = 0,0486
P(X = 3) = 0,0036
P(X = 4) = 0,0001
Objetivo:
1. Calcular la suma de las anteriores probabilidades
2. Representar el reparto de probabilidades de X
Operaciones 17:
1. Se verifica facilmente que las suma es

4
x=0
P (X = x) = 1.
URJC-DEIO C. Beltran 29
2.3. Variables aleatorias discretas
Figura 2.2: Reparto de probabilidades de X.
Figura 2.3: Interpretacion de la funcion de probabilidad.
2. El reparto de probabilidades de X puede verse en la Fig. 2.2.
General (Funcion de masa de probabilidad)
Concepto: Dada una VA discreta con soporte
S = x
1
. . . x
n

la funci on de masa de probabilidad se dene como


f(x
i
) = P(X = x
i
).
A menudo la llamamos simplemente funci on de probabilidad.
Propiedades:
1. La funci on de masa de probabilidad puede interpretarse mediante una vara, donde
repartimos peque nas masas (ver Fig.2.3). Las masas las colocamos en las posiciones
x
i
y la cantidad de masa viene dada por f(x
i
).
URJC-DEIO C. Beltr an 30
2.3. Variables aleatorias discretas
2. La funci on de probabilidad es positiva:
f(x
i
) 0.
3.
n

i=1
f(x
i
) = 1.
Ejemplo 18 (Transmisi on digital - Continuaci on I)
Objetivo: Calcular y representar la funci on de distribuci on.
Datos:
Recordamos la denici on de
X = N umero de bits recibidos err oneamente en una trasmisi on de 4 bits.
F(x), la funci on de distribuci on de X, corresponde a la la probabilidad acumulada
hasta x:
F(x) = P(X x) =

x
i
x
f(x
i
).
En el caso de la transmisi on digital tenemos:
f(0) = 0,6561
f(1) = 0,2916
f(2) = 0,0486
f(3) = 0,0036
f(4) = 0,0001
Operaciones 18: Para calcular F (x) distinguimos dos casos:
Caso 1: x pertenece al soporte, es decir,
x S = 0, 1, 2, 3, 4.
En este caso, tenemos:
F (0) = P (X 0) = 0,6561 F
(1) = P (X 1) = 0,9477 F (2)
= P (X 2) = 0,9963 F (3) =
P (X 3) = 0,9999 F (4) = P
(X 4) = 1,0000.
URJC-DEIO C. Beltran 31
2.3. Variables aleatorias discretas
Figura 2.4: Funcion de distribucion F (x).
Caso 2: x no pertenece al soporte, es decir, x , S.
Por ejemplo 1, 2 , S :
F (1,2) = F (1) = 0,9477.
En general
F (x) = F (x
i
) para cualquier x [x
i
, x
i+1
[.
En la Fig 2.4 tenemos la representacion de F (x) para cualquier valor x R.
Solucion: La funcion de distribucion de X viene dada por
F(x) =
_

_
0,0000 x < 0
0,6561 0 x < 1
0,9477 1 x < 2
0,9963 2 x < 3
0,9999 3 x < 4
1,0000 4 x.
General (Funci on de distribuci on)
Concepto: Dada una VA discreta con soporte
S = x
1
. . . x
n

la funci on de distribuci on se dene como


F(x) = P(X x) =

x
i
x
f(x
i
).
Propiedades:
1. La funci on de distribuci on de X, corresponde a la probabilidad acumulada hasta x.
URJC-DEIO C. Beltr an 32
2.3. Variables aleatorias discretas
2. La funci on de distribuci on es positiva:
F(x) 0.
3. La funci on de distribuci on es lineal a trozos y discontinua en los puntos del soporte.
El salto en x
i
coincide con f(x
i
).
Ejemplo 19 (Transmisi on digital - Continuaci on II)
Objetivo: Calcular la media, la varianza y la desviaci on tpica de X.
Datos:
Recordamos la denici on de
X = N umero de bits transmitidos err oneamente en un trasmisi on de 4 bits.
La funci on de probabilidad de X es:
f(0) = 0,6561
f(1) = 0,2916
f(2) = 0,0486
f(3) = 0,0036
f(4) = 0,0001
La media o esperanza E(X) de una VA discreta se dene como:
= E(X) =
n

i=1
x
i
f(x
i
).
La varianza
2
o V (X) de una VA discreta se dene como:

2
= V (X) = E(X )
2
=
n

i=1
(x
i
)
2
f(x
i
).
La desviaci on estandar =
_
V (X).
Operaciones 19: :
Calculamos la media:
= 0 f(0) + 1 f(1) + 2 f(2)
+ 3 f(3) + 4 f(4)
= 0 0,6561 + 1 0,2916 + 2 0,0486
+ 3 0,0036 + 4 0,0001
= 0.4 bits.
URJC-DEIO C. Beltran 33
2.3. Variables aleatorias discretas
Figura 2.5: Interpretacion de la funcion de probabilidad.
Calculamos la varianza:

2
= (0 0,4)
2
f(0) + (1 0,4)
2
f(1)
+ (2 0,4)
2
f(2) + (3 0,4)
2
f(3)+
(4 0,4)
2
f(4)
= (0 0,4)
2
0,6561 + (1 0,4)
2
0,2916
+ (2 0,4)
2
0,0486 + (3 0,4)
2
0,0036+
(4 0,4)
2
0,0001
= 0.36 bit
2
.
Calculamos la desviacion tpica
=
_
0,36 = 0.6 bit.
Solucion: = 0,4 bits,
2
= 0,36 bits
2
y = 0,6 bits.
General (Media, varianza y desviaci on tpica)
Media:
Es un par ametro de posici on (centralidad).
Puede ser interpretada como el centro de gravedad de la vara de la Fig. 2.1.
Su denici on es:
= E(X) =
n

i=1
x
i
f(x
i
).
URJC-DEIO C. Beltr an 34
2.3. Variables aleatorias discretas
No hay que olvidar las unidades (metros, segundos, etc.)
Varianza:
Es un par ametro de dispersi on.
Su denici on es:

2
= V (X) = E(X )
2
=
n

i=1
(x
i
)
2
f(x
i
).
En general resulta m as conveniente calcular mediante la f ormula equivalente:

2
= V (X) = E(X
2
) [E(X)]
2
=
n

i=1
x
2
i
f(x
i
)
2
.
No hay que olvidar las unidades (metros
2
, segundos
2
, etc.)
Desviaci on tpica:
Es un par ametro de dispersi on.
Su denici on es:
=
_
V (X).
No hay que olvidar las unidades (metros, segundos, etc.)
2.3.2. Distribuci on binomial
Ejemplo 20 (Combinaciones)
Objetivo: Calcular e interpretar
_
10
3
_
.
Operaciones 20:
_
10
3
_
=
10!
3! 7!
=
10 9 8
3!
= 120.
Soluci on:
_
10
3
_
= 120 y representa el n umero de combinaciones de 10 elementos tomados de
3 en 3
C(10, 3) =
_
10
3
_
= 120.
Por ejemplo, n umero de grupos de 3 alumnos que se pueden formar con 10 alumnos.
Ejemplo 21 (Mol ecula t oxica)
Datos:
URJC-DEIO C. Beltr an 35
2.3. Variables aleatorias discretas
En un laboratorio han recogido 4 muestras de aire.
Cada una de estas muestras tiene una probabilidad del 10 % de contener una determi-
nada mol ecula t oxica (muestra contaminada) .
Se asume que las muestras son independientes (composiciones independientes).
Objetivo:
1. Probabilidad de que la primera y segunda muestra est en contaminadas (C) y las otras
dos no (N).
2. Cu antas combinaciones puede haber con dos muestras contaminadas?
3. Probabilidad de que exactamente 2 muestras de las 4 examinadas, est en contami-
nadas.
Operaciones 21:
1. Lo que nos piden es:
P (C y C y N y N) = P (C C N N).
Propiedad: Si A y B son dos sucesos independientes, entonces P (Ocurra A y Ocurra B) =
P (Ocurra A) P (Ocurra B). En notacion matematica:
P (A B) = P (A) P (B).
En nuestro caso:
P (C C N N) = P (C) P (C) P (N) P (N)
= 0,1 0,1 0,9 0,9
= 0,0081.
Para abreviar escribiremos
P (C C N N) = P (CCNN).
2. Pueden haber 6 combinaciones con 2 muestras contaminadas:
C(4, 2) =
_
4
2
_
=
4!
2! 2!
= 6.
URJC-DEIO C. Beltran 36
2.3. Variables aleatorias discretas
3. Definimos la variable aleatoria X :
X = Numero de muestras
contaminadas.
Soporte S = 0, 1, 2, 3, 4.
Lo que nos piden es P (X = 2).
Pueden haber dos muestras contaminadas de 6 formas diferentes (6 combina-
ciones):
X = 2 CCNN, CNCN, CNNC,
NCCN, NCNC, NNCC
Como la probabilidad asociada a cada uno de los 6 casos es la misma tendremos
que (probabilidad de la union de sucesos):
P (X = 2) = 6 P (CCNN)
= 6 0,1
2
0,9
2
= 4,86 %
Veremos que el caso que hemos visto es un caso de distribucion binomial
de parametros n = 4 y p = 0,10.
En este y otros casos similares, podremos aplicar directamente la formula
P (X = 2) =
2
_
4
_
0,1
2
0,9
42
Solucion:
1. Probabilidad de que la primera y segunda muestra est en contaminadas y las otras
dos no = 0.81 %.
2. Pueden haber 6 combinaciones con 2 muestras contaminadas.
3. Probabilidad de que exactamente 2 muestras de las 4 examinadas, est en contami-
nadas = 4.86 %.
General (Distribuci on binomial)
Experimento binomial: Experimento aleatorio que consiste en la repetici on de n pruebas y
que cumple:
URJC-DEIO C. Beltr an 37
2.3. Variables aleatorias discretas
1. Las pruebas son independientes.
2. Cada prueba tiene s olo dos posibles resultados ( exito o fracaso, 1/0).
3. La probabilidad de exito, p, en cada prueba permanece constante.
Variable aleatoria binomial: VA X asociada a un experimento binomial y denida como:
X = N umero de exitos .
Escribiremos
X Bi(n, p).
Funci on de probabilidad binomial:
f(x) =
_
n
x
_
p
x
(1 p)
nx
,
donde
_
n
x
_
=
n!
x!(n x)!
Esperanza y varianza: Si X Bi(n, p), aplicando la f ormula general para y , se obtiene
las siguientes f ormulas particulares para el caso binomial:
= E(X) = np
y

2
= V (X) = n p (1 p).
Variable aleatoria Bernoulli: Es el caso particular de VA binomial donde n=1.
X Ber(p), si y s olo si, X Bi(1, p).
Ejemplo 22 (Experimentos binomiales)
Objetivo: Citar algunos ejemplos de experimentos binomiales.
Soluci on:
1. Lanzar una moneda 10 veces. X = N umero de caras. Distribuci on de X?
2. En un examen tipo test de 20 preguntas, cada pregunta consta de 4 posibles respues-
tas. Suponemos que elegimos nuestra respuestas al azar y que contestamos todas
las preguntas. X = N umero de respuestas acertadas. Distribuci on de X?
3. En un proceso de fabricaci on de botellas de pl astico, una m aquina tiene una tasa
de fallo del 1 %. Analizamos 100 botellas. X = N umero de botellas defectuosas.
Distribuci on de X?.
Ejemplo 23 (Gr acas)
URJC-DEIO C. Beltr an 38
2.3. Variables aleatorias discretas
Figura 2.6: Distribuci on binomial para diferentes valores de n y p.
Objetivo: Representar la gr aca de la funci on de probabilidad de
X Bi(20, 0,5).
Datos: Tenemos que representar
f(x) =
_
20
x
_
0,5
x
0,5
20x
.
Operaciones 23: Primero necesitamos el soporte de X
S = 0, 1, 2, . . . , 20.
Solucion: Ver Fig. 2.6
2.3.3. Ejercicios
2.3.4. Distribuci on de Poisson
Ejemplo 24 (Cable de cobre)
Datos:
En la fabricaci on de cable de cobre se ha observado que este presenta defectos de
fabricaci on de forma aleatoria a lo largo de la longitud del cable.
La tasa de defectos es:
= 2,3 defectos/m.
X = N umero de defectos observados en 1 m de cable.
Se ha observado que si dividimos 1m en subintervalos de 1 mm:
URJC-DEIO C. Beltr an 39
2.3. Variables aleatorias discretas
1. La probabilidad de tener m as de un defecto por subintervalo es cero.
2. La probabilidad de tener un defecto es la misma para todos los subintervalos y
proporcional a la longitud de los subintervalos.
3. Los defectos se producen en cada subintervalo de forma independiente.
En estas condiciones se puede modelizar X como una VA de Poisson con par ametro
= 2,3 :
X Po(2,3).
Propiedad 1: Si X Po(), entonces su funci on de probabilidad es:
f(x) =

x
x!
e

,
para x S = 0, 1, 2, . . . y 0 en otro caso.
Propiedad 2: Sean X e Y variables aleatorias que cuentan el n umero de defectos en
un cable de cobre de longitud L y kL, respectivamente.
Si X Po() entonces Y Po(k).
Objetivo:
1. Probabilidad de tener exactamente 2 defectos en 1 m de cable.
2. Probabilidad de tener exactamente 10 defectos en 5 m de cable.
3. Probabilidad de tener al menos 1 defecto en 2 m de cable.
Operaciones 24:
Objetivo 1:
X := Numero de defectos observados en 1 m de cable.
Dado que X P o(2, 3), entonces:
P (X = 2) = f
X
(2) =
2, 3
2
2!
e
2,3
= 0,265.
Objetivo 2:
Y := Numero de defectos observados en 5 m de
cable. Por la Propiedad 2:
Y P o(5 2,3) = P o(11,5),
entonces
P (Y = 10) = f
Y
(10) =
11,5
10
10!
e
11,5
= 0,113.
URJC-DEIO C. Beltr an 40
2.3. Variables aleatorias discretas
Figura 2.7: En un proceso de Poisson los sucesos ocurren de forma aleatoria.
Objetivo 3:
Z := Numero de defectos observados en 2 m de
cable. Por la Propiedad 2:
Z P o(2 2,3) = P o(4,6),
entonces
P (Z 1) = 1 P (Z = 0) = 1 f
Z
(0)
0!
4,6
0
= 1 e
4,6
=
0,9899
Solucion:
1. La probabilidad de tener exactamente 2 defectos en 1 m de cable es 26,5 %.
2. La probabilidad de tener exactamente 10 defectos en 5 m de cable es 11,3 %.
3. La probabilidad de tener al menos 1 defecto en 2 m de cable es 98,99 %.
General (Distribuci on de Poisson)
Proceso de Poisson:
Ver Fig.2.7.
Consideramos un intervalo (espacial, temporal, etc.) de longitud L en el que contabi-
lizamos ocurrencias (defectos de fabricaci on, llegadas de clientes, etc.)
Un proceso de Poisson es un experimento aleatorio en el que podemos particionar
el anterior intervalo en subintervalos sucientemente peque nos de forma que:
1. La probabilidad de tener m as de una ocurrencia por subintervalo es cero.
2. La probabilidad de tener una ocurrencia es la misma para todos los subintervalos
y proporcional a la longitud de los subintervalos.
3. Las ocurrencias se producen en cada subintervalo de forma independiente.
URJC-DEIO C. Beltr an 41
2.3. Variables aleatorias discretas
Figura 2.8: Funci on de probabilidad de una VA de Poisson.
Variable aleatoria de Poisson: VA X asociada a un proceso de Poisson y denida como:
X = N umero de ocurrencias.
Escribiremos
X Po().
Funci on de probabilidad de Poisson:
f(x) =

x
x!
e

,
para x S = 0, 1, 2, . . . y 0 en otro caso. En la Fig. 2.8 podemos ver representada la
funci on de probabilidad para varias VA de Poisson.
Esperanza y varianza: Si X Po(), aplicando la f ormula general para y , se obtiene las
siguientes f ormulas particulares para el caso de una VA de Poisson:
= E(X) =
y

2
= V (X) = .
Aproximaci on de la binomial por la Poisson: Si
X Bi(n, p)
con n grande y p peque no, entonces
X Po( = np).
Una posible regla para denir grande y peque no es:
n p
20 0.05
100 0.10
URJC-DEIO C. Beltr an 42
2.3. Variables aleatorias discretas
Suma de VA Poisson: Si
Y =
n

i=1
X
i
,
donde X
i
Po(
i
), (i = 1, . . . , n) son VA independientes, entonces
Y Po( =
n

i=1

i
).
Ejemplo 25 (M as procesos de Poisson)
Objetivo: Citar algunos ejemplos de procesos de Poisson.
Soluci on:
1. Aun servidor le llegan en media 150 e-mails/minuto. X =N umero e-mails recibidos
por el servidor en un minuto. Distribuci on de X?
2. Un instrumento de precisi on puede fallar debido a la presencia de partculas contam-
inantes. El instrumento falla una media de 0.1 veces/hora. X = N umero de fallos
por cada jornada de trabajo (10 h). Distribuci on de X?
General (Otras distribuciones discretas)
Adem as de la distribuci on binomial y de la distribuci on de Poisson existen otras distribuciones
discretas relevantes en ingeniera:
Multinomial.
Geom etrica.
Hipergeom etrica.
etc.
2.3.5. Ejercicios
URJC-DEIO C. Beltr an 43
2.4. Variables aleatorias continuas
2.4. Variables aleatorias continuas
Objetivo: Estudiaremos la variables aleatorias (VA) continuas.
Apartados: Esta secci on consta de tres bloques:
Concepto y propiedades de las VA continuas.
Distribuci on de exponencial.
Distribuci on normal.
2.4.1. Concepto y propiedades
General (Tipos de variable aleatoria)
Discretas:
Su soporte es un subconjunto discreto de R, es decir, no contiene intervalos.
Ejemplos: N umero de llamadas telef onicas a una centralita por minuto, n umero
de piezas defectuosas en un proceso de fabricaci on en cadena, n umero de intentos
hasta alcanzar el exito en un experimento, etc.
Continuas:
Su soporte es un intervalo en R o uni on de intervalos.
Para simplicar las explicaciones supondremos un unico intervalo:
S = [a, b].
Ejemplos: Duraci on de una llamada telef onica, intensidad de la corriente el ectrica,
longitud, presi on, temperatura, tiempo, peso, etc.
General (Comparaci on intuitiva)
Topologa:
VA discreta: Los valores del soporte est an espaciados (separados unos de otros).
VA continua: Los valores del soporte est an contiguos.
Aritm etica:
VA discreta: Para calcular probabilidades los valores de f(x) se suman:
P(X 1, 2) = f(1) +f(2) =
2

x=1
f(x).
URJC-DEIO C. Beltr an 44
2.4. Variables aleatorias continuas
VA continua: Para calcular probabilidades los valores de f(x) se integran:
P(X [1, 2]) =
_
2
1
f(x) dx.
Geometra:
VA discreta: Para calcular probabilidades, se suman las alturas de las barras del
diagrama de barras asociado a f(x).
VA continua: Para calcular probabilidades se halla el area que queda por debajo de
la gr aca de f(x).
General (Funci on de densidad de probabilidad)
Concepto:
Consideramos una VA continua con soporte
S = [a, b].
Si X es continua, entonces
P(X = x) = 0,
y por tanto, en el caso continuo, no podemos interpretar la funci on de densidad
como
f(x) = P(X = x).
En cambio, s podemos interpretar la funci on de densidad de probabilidad como
f(x) P(x X x +)
donde > 0 y sucientemente peque no.
En el caso continuo tenemos:
P(x
1
X x
2
) = P(x
1
< X x
2
)
= P(x
1
X < x
2
)
= P(x
1
< X < x
2
).
Propiedades:
1. La funci on de densidad de probabilidad puede interpretarse mediante una vara. Si x
recorre la vara, entonces f(x) representa la densidad de la vara en el punto x. (Fig.
2.9).
2. La funci on de densidad probabilidad es positiva:
f(x) 0.
URJC-DEIO C. Beltr an 45
2.4. Variables aleatorias continuas
Figura 2.9: f(x) representa la densidad de la vara en el punto x.
3.
_
b
a
f(x) dx = 1.
General (Funci on de distribuci on)
Concepto: Dada una VA continua X su funci on de distribuci on se dene como
F(x) = P(X x) =
_
x

f(z) dz,
para cualquier < x < .
Propiedades:
1. La funci on de distribuci on de X, corresponde a la probabilidad acumulada hasta x.
2. La funci on de distribuci on es positiva:
F(x) 0.
3. La probabilidad del intervalo [c, d] :
P(c X d) = P(X d) P(X c)
= F(d) F(c).
General (Media, varianza y desviaci on tpica)
Media:
Es un par ametro de posici on (centralidad).
Puede ser interpretada como el centro de gravedad de la vara de la Fig. 2.9.
URJC-DEIO C. Beltr an 46
2.4. Variables aleatorias continuas
Figura 2.10: representa el centro de gravedad de la vara.
Su denici on es:
= E(X) =
_

xf(x) dx.
No hay que olvidar las unidades (metros, segundos, etc.)
Varianza:
Es un par ametro de dispersi on.
Su denici on es:

2
= V (X) = E[(X )
2
] =
_

(x )
2
f(x) dx.
En general resulta m as conveniente calcular mediante la f ormula equivalente:

2
= V (x) = E(X
2
) [E(X)]
2
=
_

x
2
f(x) dx
2
.
No hay que olvidar las unidades (metros
2
, segundos
2
, etc.)
Desviaci on tpica:
Es un par ametro de dispersi on.
Su denici on es:
=
_
V (X).
No hay que olvidar las unidades (metros, segundos, etc.)
Ejemplo 26 (Fabricaci on de CDs)
Datos:
URJC-DEIO C. Beltr an 47
2.4. Variables aleatorias continuas
Figura 2.11: P(X > 1000) = area bajo la curva.
Consideramos que cada CD contiene una unica pista con informaci on optica (bits).
En cada CD, esta pista puede presentar defectos de fabricaci on.
Denimos la variable aleatoria
X := Distancia desde el comienzo de la pista hasta el primer defecto (en mi-
cr ometros).
Los datos hist oricos permiten modelizar la funci on de densidad de probabilidad de
X como:
f(x) =
1
2000
e
x/2000
,
para x 0 y f(x) = 0 en otro caso.
Objetivo: Dada la variable aleatoria X calcular:
1. La probabilidad de que en un CD el primer defecto est e a m as de 1000 micr ometros
del comienzo de la pista.
2. Su funci on de distribuci on.
3. Su esperanza.
4. Su varianza.
Operaciones 26:
1. Tenemos que calcular
P (X > 1000),
que equivale a calcular el area debajo de la curva f(x) en el intervalo ]1000, +].
Ver Fig. 2.11.
URJC-DEIO C. Beltran 48
2.4. Variables aleatorias continuas
Figura 2.12: Funci on de distribuci on.
P (X > 1000) =
_

1000
f(x) dx
=
_

1000
1
2000
e
x/2000
dx
=
_
e
x/2000

1000
= 0 (e
1/2
)
= e
1/2
= 0,607.
2. La funcion de distribucion corresponde a (Fig. 2.12):
F (x) = P (X x) =
_
x

1
2000
e
z/2000
dz
_
= e
z/2000

x
0
= e
x/2000
+ 1,
para x 0 y F (x) = 0 en otro caso.
3. La media corresponde a
=
_

x
1
2000
e
x/2000
dx
URJC-DEIO C. Beltran 49
2.4. Variables aleatorias continuas
de donde, integrando por partes, se obtiene
= 2000 micrometros.
4. La varianza corresponde a

2
=
_

(x )
2
1
e
x/2000
dx

2000
de donde,
integrando por partes dos veces, se obtiene

2
= 2000
2
micrometros
2
.
Solucion:
1. La probabilidad de que en un CD el primer defecto est e a m as de 1000 micr ometros
es 60.7 %
2. Funci on de distribuci on
F(x) = 1 e
x/2000
.
3. La esperanza es de 2000 micr ometros.
4. La varianza es de 2000
2
micr ometros
2
.
2.4.2. Ejercicios
2.4.3. Distribuci on exponencial
Ejemplo 27 (Cable de cobre - continuaci on I)
Datos:
En la fabricaci on de cable de cobre se ha observado que este presenta defectos de
fabricaci on de forma aleatoria a lo largo de la longitud del cable.
La tasa de defectos es:
= 2.3 defectos/m.
Y = N umero de defectos observados por metro de cable.
Ya vimos que Y Po(2,3).
X = Distancia (m) entre dos defectos consecutivos.
Se puede modelizar X como una VA exponencial, con par ametro = 2,3.
URJC-DEIO C. Beltr an 50
2.4. Variables aleatorias continuas
Figura 2.13: P(X > 0,1).
Denici on: Decimos que una VA tiene una distribuci on exponencial de par ametro
si su funci on de densidad probabilidad es:
f(x) = e
x
,
para x 0 y 0 en otro caso.
Si X tiene una distribuci on exponencial, escribimos
X Exp()
Objetivo: Probabilidad de no tener ning un defecto en los primeros 10 cm de cable.
Operaciones 27:
X = Distancia entre dos defectos consecutivos (m).
Dado que X Exp(2,3), entonces (ver Fig.2.13):
P (X > 0,1) =
_

0,1
2,3e
2,3x
dx
=
_
e
2,3x

0,1
= 0 + e
2,30,1
= 0,7945.
Soluci on: La probabilidad de no tener ning un defecto en los primeros 10 cm de cable es
79.45 %.
URJC-DEIO C. Beltr an 51
2.4. Variables aleatorias continuas
Figura 2.14: Funci on de densidad de probabilidad de varias VA exponenciales.
General (Distribuci on exponencial)
Variable aleatoria exponencial:
VA X asociada a un proceso de Poisson y denida como:
X = Distancia entre dos ocurrencias consecutivas. Escribiremos
X Exp().
Por tanto en un proceso de Poisson tenemos dos VA interrelacionadas: una VA
exponencial X y una VA de Poisson Y , de forma que:
E(Y ) = y E(X) =
1

.
Funci on de densidad de probabilidad exponencial:
f(x) = e
x
.
para x 0 y 0 en otro caso (ver Fig. 2.14).
Funci on de distribuci on de probabilidad exponencial:
F(x) = 1 e
x
.
Esperanza y varianza: Si X Exp(), aplicando la f ormula general para y , se obtienen
las siguientes f ormulas particulares para el caso de una VA exponencial:
= E(X) =
1

2
= V (X) =
1

2
.
URJC-DEIO C. Beltr an 52
2.4. Variables aleatorias continuas
Falta de memoria de la distribuci on exponencial:
El saber que no ha habido ninguna ocurrencia hasta el punto k, no modica las
probabilidades de la pr oxima ocurrencia.
Es decir, si X Exp() :
P(X > x +k [ X > k) = P(X > x).
Ejemplo 28 (Cable de cobre - continuaci on II)
Objetivo:
1. Supongamos que no hemos detectado ning un defecto en los primeros 30 cm. Cal-
cular la probabilidad de no tener ning un defecto en los primeros 40 cm de cable
analizado.
2. Calcula la distancia esperada entre dos defectos consecutivos.
3. Calcula la desviaci on tpica de la distancia entre dos defectos consecutivos.
Datos:
P(X > 0,1) = 0,7945.
Operaciones 28:
1. Objetivo 1: Nos piden calcular
P (X > 0,40 [ X > 0,30)
Por la falta de memoria de una VA exponencial
P (X > 0,40 [ X > 0,30) = P (X > 0,10)
= 0,7945.
2. Objetivo 2:
=
1
2,3
= 0,43m.
3. Objetivo 3:
=
_
1
2,3
2
= 0,43m.
Solucion:
1. 79,45 %.
URJC-DEIO C. Beltr an 53
2.4. Variables aleatorias continuas
Figura 2.15: Probabilidad que X > 13 para una N( = 10, = 2).
2. 0,43 m.
3. 0,43 m.
Ejemplo 29 (M as ejemplos de VA exponencial)
Objetivo: Citar algunos ejemplos de VA exponencial.
Soluci on:
1. A un servidor le llegan en media 150 e-mails/minuto. Y = N umero e-mails recibidos
por el servidor en un minuto.
X = Tiempo transcurrido entre la llegada de dos e-mails consecutivos.
Distribuci on de Y y X?
2. Tiempo transcurrido entre dos averas consecutivas.
3. Distancia entre dos mutaciones consecutivas en el ADN (estructura de doble h elice).
2.4.4. Ejercicios
2.4.5. Distribuci on normal
Ejemplo 30 (Intensidad de corriente)
Datos:
La intensidad de corriente nominal que pasa por un cable el ectrico es de 10 mil-
iamperios.
Denimos la VA
X = Intensidad de corriente medida en el anterior cable (miliamperios)
Suponemos que X es una VA normal con media 10 mA y desviaci on tpica 2 mA.
Escribiremos
X N( = 10, = 2).
URJC-DEIO C. Beltr an 54
2.4. Variables aleatorias continuas
Denici on: Decimos que una VA X tiene una distribuci on normal
X N(, )
si su funci on de densidad de probabilidad es:
f(x) =
1

2
exp
_
1
2
_
x

_
2
_
,
para cualquier x R.
Objetivo: Probabilidad de que al medir la intensidad que pasa por el cable, esta sea superior
a 13 mA.
Operaciones 30:
Lo que nos piden es P (X > 13) (ver Fig.2.15):
P (X > 13) =
_
+
13
1

2
exp
_
1
2
_
x 10
2
_
2
_
dx.
Desafortunadamente, la primitiva de la anterior integral no puede expresarse medi-
ante una formula y debe calcularse mediante metodos numericos o consultando
en una tabla .
General (Distribucion normal)
Distribuci on de probabilidad:
Dada una VAX y su f(x), denominamos distribuci on de probabilidad al par (X, f(x)).
As por ejemplo, podemos hablar de la distribuci on binomial, de la distribuci on de
Poisson, de la distribuci on normal, etc.
Relevancia:
La distribuci on normal es sin duda la distribuci on de probabilidad m as relevante por
sus innumerables aplicaciones en ingeniera, ciencias naturales, ciencias sociales, etc.
Inicialmente, fue estudiada por De Moivre (1733) y por Gauss.
Se la llama tambi en distribuci on Gaussiana.
La distribuci on normal se caracteriza por dos par ametros: la media y la desviaci on tpica
(Ver Fig.2.16):
URJC-DEIO C. Beltr an 55
2.4. Variables aleatorias continuas
Figura 2.16: La distribuci on normal se caracteriza por dos par ametros: y .
Denici on: Decimos que una VA X tiene una distribuci on normal
X N(, )
si su funci on de densidad de probabilidad es:
f(x) =
1

2
exp
_
1
2
_
x

_
2
_
,
donde x R, es nito y > 0.
Esperanza y varianza: Se puede demostrar que si
X N(, )
entonces E(X) = y V (X) =
2
.
Porcentajes notables: (Ver Fig.2.17) Si X N(, ) entonces las observaciones de X estar an
en:
[ , +], en la mayora de los casos (68 %).
[ 2, + 2], en casi todos los casos (95 %).
[ 3, + 3], en pr acticamente todos los casos (99.7 %).
Distribuci on normal est andar:
Una VA normal con = 0 y = 1 se denomina normal estandar, o normal
tipicada.
Usaremos Z para denotar una VA normal estandar.
Adem as, usaremos
(z) = P(Z z)
para denotar la funci on de distribuci on normal estandar.
Para calcular (z) recurriremos a una tabla o a software especializado, pues no
puede calcularse por m etodos elementales de c alculo (ver Fig.2.18).
URJC-DEIO C. Beltr an 56
2.4. Variables aleatorias continuas
Figura 2.17: Intervalos notables de la distribuci on normal.
Figura 2.18: Interpretaci on de la tabla de la VA normal estandar.
Ejemplo 31 (C alculos con la normal estandar)
Datos: Consideramos Z N(0, 1).
Objetivo:
1. P(Z > 1,26)
2. P(Z < 0,86)
3. P(Z > 1,37)
4. P(1,00 < Z < 2,00)
Operaciones 31: Consultando la tabla de la VA normal estandar:
1.
P (Z > 1,26) = 1 P (Z 1,26)
= 1 0,8962 = 0,1038.
URJC-DEIO C. Beltran 57
2.4. Variables aleatorias continuas
I-1 August 2000 MARSSIM, Revision 1
APPENDIX I
STATISTICAL TABLES AND PROCEDURES
I.1 Normal Distribution
Table I.1 Cumulative Normal Distribution Function -(z)
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5674 0.5714 0.5753
0.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.6315 0.8340 0.8365 0.8389
1.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.10 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.20 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.30 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.40 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Negative values of z can be obtained from the relationship -(-z) = 1 - -(z).
URJC-DEIO C. Beltr an 58
2.4. Variables aleatorias continuas
Figura 2.19: Geometra de la tipicaci on.
2.
P (Z < 0,86) = P (Z > 0,86)
= 1 P (Z 0,86)
= 1 0,8051 = 0,1949.
3.
P (Z > 1,37) = P (Z < 1,37)
= 0,9147.
4.
P (1,00 < Z < 2,00) = P (Z < 2,00) P (Z < 1,00)
= 0,9772 0,8413 = 0,1359.
Solucion:
1. P (Z > 1,26) = 10,38 %.
2. P (Z < 0,86) = 19,49 %.
3. P (Z > 1,37) = 91,47 %.
4. P(1,00 < Z < 2,00) = 13,59 %.
URJC-DEIO C. Beltr an 59
2.4. Variables aleatorias continuas
2.4.6. Tipicaci on de una VA normal
Ejemplo 32 (Intensidad de corriente - Continuaci on)
Datos:
En el ejemplo del cable el ectrico, nos habamos quedado en el siguiente c alculo:
P(X > 13)) =
_
+
13
1

2
exp
_
1
2
_
x 10
2
_
2
_
dx.
X N( = 10, = 2).
Propiedad: Consideramos X N(, ) y la siguiente transformaci on lineal de X:
Z :=
X

.
Entonces Z N(0, 1).
Objetivo: Probabilidad de que al medir la intensidad que pasa por el cable, esta sea superior
a 13 mA.
Operaciones 32:
Dado que
[X > 13]
_
X 10
>
13 10
2
_
2
[Z > 1,5]
2
donde Z :=
X10
.
Entonces, usando la tabla de la normal estandar:
P (X > 13) = P (Z > 1,5)
= 1 P (Z 1,5)
= 1 (1,5)
= 1 0,9332 = 0,0668.
Ver Fig.2.19.
URJC-DEIO C. Beltran 60
2.4. Variables aleatorias continuas
Soluci on: La probabilidad de que al medir la intensidad que pasa por el cable, esta sea superior
a 13 mA, es de un 6,68 %.
General (Tipicaci on de una VA normal)
Propiedad: Consideramos X N(, ) y la siguiente transformaci on lineal de X:
Z :=
X

.
Entonces Z N(0, 1).
Tipicaci on: Para hacer los c alculos asociados a una VAX N(, ) primero la tipicaremos
y despu es usaremos la tabla de la normal estandar, es decir:
P(X x) = P
_
X

_
= P(Z z)
= (z),
donde
Z =
X

y z :=
x

,
(x, y son valores conocidos.)
2.4.7. Inversa de la funci on de distribuci on normal
Ejemplo 33 (Fabricaci on de varillas)
Datos:
Consideramos un proceso de fabricaci on de varillas de aluminio.
Se ha observado que que el di ametro X de las varillas fabricadas en el ultimo lote
sigue una distribuci on
N( = 0,25 cm , = 0,0005 cm ).
En un control de calidad se establece que se consideran aceptables las varillas de
di ametro 0,25 0,0008 cm.
Objetivo:
1. Qu e proporci on de varillas podr an ser consideradas como aceptables en ese lote?
2. Calcula las nuevas especicaciones para un control de calidad m as severo que s olo
acepte aproximadamente un 80 % de las varillas.
Operaciones 33:
URJC-DEIO C. Beltr an 61
2.4. Variables aleatorias continuas
1. Consideramos aceptables las varillas cuyo diametro esta en el intervalo [0,2492,
0,2508]. Calcular la proporcion que nos piden equivale a calcular:
P (0,2492 X 0,2508) =
= P
_
0,2492 0,25

X 0,25
0,0005

0,2508 0,25
0,0005
_
0,0005
= P (1,60 Z 1,60)
= (1,60) (1,60)
= (1,60) [1 (1,60)]
= 2 (1,60) 1
= 2 0,9452 1 = 0,8904.
2. Consideraremos aceptables las varillas en el nuevo intervalo
[0,25 x, 0,25 + x],
donde, obviamente, x es desconocido. Ademas, solo queremos aceptar el 80 %
de las varillas, por tanto
0,80 = P (0,25 x X 0,25 + x) =
= P
_
0,25 x 0,25
0,0005

X 0,25
0,0005

0,25 + x 0,25
0,0005
_
= P
_
x
0,0005
Z
x
0,0005
_
Equivalentemente
P
_
Z
x
0,0005
_
= 0,90

_
x
0,0005
_
x
0,0005
x
0,0005
= 0,90
=
1
(0,90)
= 1,285
x 0,0006.
URJC-DEIO C. Beltran 62
2.4. Variables aleatorias continuas
Soluci on:
1. Se aceptar an el 89 % de las varillas.
2. En la nueva especicaci on deben considerarse aceptables las varillas de di ametro
0,25 0,0006 cm.
2.4.8. An alisis de normalidad
En muchas herramientas estadsticas (contrastes de hip otesis, recta de regresi on, etc.) se
supone que los datos provienen de una distribuci on normal (hip otesis de normalidad).
Por tanto, antes de usar las mencionadas herramientas estadsticas tenemos que vericar
la hip otesis de normalidad mediante un an alisis de normalidad.
En esta secci on veremos c omo se realiza un an alisis de normalidad .
Ejemplo 34
Datos:
Ref: Montgomery 3
a
Ed., p agina 76.
Se estudia la variable aleatoria X = Duraci on de un tipo de batera para ordenador
port atil (en minutos).
Se ha observado la siguiente muestra aleatoria de tama no 10:
D = x
1
, . . . , x
n

= 176, 191, 214, 220, 205, 192, 201, 190, 183, 185
Objetivo: Analizar mediante un plot de probabilidad normal si X tiene una distribuci on
normal.
Operaciones 34:
Para realizar el plot de probabilidad normal tenemos que realizar los siguientes pasos:
1. Ordenar de menor a mayor los datos:
D
ordenado
= x
(1)
, . . . , x
(10)
= 176, 183, . . . , 220.
2. Calcular las frecuencias acumuladas estimadas mediante la formula:
F
j
=
j 0,5
10
= (z
j
) para j = 1, . . . , 10.
En nuestro caso tenemos:
0,05 0,15 . . . 0,95.
URJC-DEIO C. Beltr an 63
2.4. Variables aleatorias continuas
Figura 2.20: Plot de probabilidad normal.
3. Calcular los percentiles asociados de la distribucion normal:
z
j
=
1
(F
j
)
En nuestro caso tenemos:
1,64 1,04 . . . 1,64.
4. Representar los puntos ordenados (x
(j)
, z
j
). (Figura 2.20).
5. Representar la recta que une los percentiles 25 y 75 (primer y tercer cuartil).
En ese caso, como los puntos se encuentran aproximadamente sobre la
recta,(Figura 2.20) concluimos que la distribucion normal describe adecuadamente
X.
Solucion: Segun el plot de probabilidad normal realizado, la distribucion normal describe
adecuadamente X.
General (An alisis de normalidad) Dada una muestra aleatoria (MA)
D = x
j
[ j J donde J = 1, . . . , n,
para estudiar si D proviene de una distribuci on normal, podemos usar varios m etodos:
URJC-DEIO C. Beltr an 64
2.4. Variables aleatorias continuas
M etodo del histograma: Cuando la muestra aleatoria tiene un tama no grande, podemos
analizar gr acamente si D proviene de una distribuci on normal, mediante un histograma.
Plot de probabilidad normal:
Cuando la MA tiene un tama no peque no, el m etodo del histograma puede no ser
adecuado.
En ese caso podemos realzar un plot de probabilidad normal, realizando los siguientes
pasos:
1. Ordenar de menor a mayor los datos de la MA:
x
(1)
x
(2)
. . . x
(n)
.
2. Calcular las frecuencias acumuladas estimadas mediante la f ormula:
F
j
=
j 0,5
n
= (z
j
) j J.
3. Calcular los percentiles asociados de la distribuci on normal:
z
j
=
1
(F
j
) j J
4. Representar los puntos ordenados (x
(j)
, z
j
) [ j J.
5. Representar la recta que une los percentiles 25 y 75 (primer y tercer cuartil).
Si los puntos se encuentran aproximadamente sobre la recta concluimos que la
distribuci on normal describe adecuadamente X.
El comando Matlab para realizar el plot de normalidad para el caso normal es: norm-
plot.
Test de bondad de ajuste:
Para analizar de forma m as rigurosa la normalidad de una muestra, se pude realizar
un test de bondad de ajuste.
Para m as detalles, se pude consultar Montgomery, 3
a
Edici on, pag. 189.
Nota: Los tres m etodos descritos se pueden adaptar, evidente, para otras distribuciones de
probabilidad.
General (Otras distribuciones continuas)
Adem as de la distribuci on exponencial y de la distribuci on normal existen otras distribuciones
continuas relevantes en ingeniera:
Lognormal.
Gamma.
Weibull.
etc.
2.4.9. Ejercicios
URJC-DEIO C. Beltr an 65
2.4. Variables aleatorias continuas
URJC-DEIO C. Beltr an 66
Captulo 3
Inferencia estadstica
3.1. Apartados
1. Denici on intuitiva de poblaci on y muestra.
2. Muestras aleatorias.
3. Teorema central de lmite
4. Estimaci on puntual
5. Inferencia sobre la media poblacional (varianza conocida)
6. Inferencia sobre la media poblacional (varianza desconocida)
7. Inferencia sobre proporciones
3.2. Denici on intuitiva de poblaci on y muestra
Ejemplo 35
Datos:
Una f abrica de componentes electr onicos produce resistores (para simplicar, suponemos
que de un s olo tipo).
Los resistores tienen una resistencia cuya media y varianza nominal son = 100
y
2
= 100
2
, respectivamente.
Tenemos una muestra aleatoria de 25 resistores, con la que se han obtenido x =
98,5 y s
2
= 97,3
2
.
Objetivo:
67
3.2. Denici on intuitiva de poblaci on y muestra
Figura 3.1: Relaci on entre poblaci on y muestra.
1. Distingue entre poblaci on de resistores y muestra de resistores.
2. Distingue entre media y varianza poblacional y media y varianza muestral.
Operaciones 35:
1. La poblacion de resistores corresponde al conjunto de todos los resistores
que produce la fabrica.
La muestra de resistores corresponde al subconjunto de los 25 resistores que
hemos tomado y analizado.
2. La media y varianza poblacional son = 100 y
2
= 100
2
, respectiva-
mente.
La media y varianza muestral son x = 98,5 y s
2
= 97,3
2
, respectivamente.
Solucion: (Ver el apartado de operaciones).
General (Poblacion y muestra)
Poblaci on:
Es el conjunto de elementos sobre el que se realizan las observaciones para estudiar
alguna de sus caracterstica.
En muchos casos estudiaremos la variabilidad de alguna magnitud de la poblaci on
(resistencia de los resistores, altura de las personas, peso, etc.)
Para estudiar esa variabilidad usaremos principalmente dos par ametros poblacionales:
la media (punto de referencia) y la varianza
2
(variabilidad propiamente dicha).
Normalmente el valor de los par ametros poblacionales es unico y desconocido.
Muestra:
URJC-DEIO C. Beltr an 68
3.3. Muestras aleatorias
Es un subconjunto de la poblaci on.
Si la muestra es representativa, podremos inferir caractersticas de la poblaci on
analizando s olo la muestra.
Inferir = Extraer conclusiones.
Asociado a cada par ametro poblacional, hay su correspondiente par ametro muestral:
la media muestral

X, la varianza muestral S
2
.
Normalmente el valor de los par ametros muestrales no es unico (depende de la
muestra) y, una vez observada la muestra, es conocido .
Relaci on entre poblaci on y muestra: En la Figura 3.1 puede verse la relaci on entre poblaci on y
muestra.
3.3. Muestras aleatorias
Ejemplo 36
Datos:
Una f abrica de componentes electr onicos produce resistores.
Los resistores tienen una resistencia cuya media y varianza (poblacionales) son
= 100 y
2
= 100
2
, respectivamente.
Seleccionamos al azar 25 resistores.
Suponemos que las resistencias de los resistores son independientes.
Objetivo:
Calcula la esperanza y la varianza de la media muestral

X de la resistencia de los
25 resistores.
Notar que

X es una variable aleatoria.
Operaciones 36:
Definimos las siguientes Variables Aleatorias (VA):
X
i
= Resistencia del resistor i donde i I = 1, . . . , 25.
Sabemos que E[X
i
] = 100 , y V [X
i
] = 100
2
.
Nos piden la esperanza y la varianza de la media de la resistencia de los 25
resistores X

:

X=
X
1
+ . . . + X
25
25
=
1
25
X
1
+ . . . +
1
25
X
25
.
URJC-DEIO C. Beltr an 69
3.3. Muestras aleatorias
Se observa que X

es una combinacion lineal de VAs, por tanto:
E[X

] = E
25
X
1
+ . . . +
1
25
X
25
_
1
_
=
1
25
E[X
1
] + . . . +
1
25
E[X
25
]
=
25 100
25
= 100 .
Ademas, sabemos que las X
i
son VAs independientes. En ese caso se
demuestra que:
V [X

] = V
_
1
25
X
1
+ . . . +
1
25
X
25
_
=
_
1
25
_
2
V [X
1
] + . . . +
_
1
25
_
2
V [X
25
]
=
25 100
25
2
=
100
25

2
Soluci on: La esperanza y la varianza de la media muestral de la resistencia de los 25
resistores son:
E[

X] = 100 y V [

X] =
100
25

2
.
General (Muestra aleatoria)
Combinaci on lineal de Variables Aleatorias (VA): Una VA Y es una combinaci on lineal de
VAs si
Y = c
1
X
1
+. . . +c
n
X
n
,
donde X
1
, . . . , X
n
son VA y c
1
, . . . , c
n
son constantes.
Propiedades de las combinaciones lineales de VAs:
1. La esperanza de una combinaci on lineal de VAs es la combinaci on lineal de las
esperanzas
E[c
1
X
1
+. . . +c
n
X
n
] = c
1
E[X
1
] + . . . +c
n
E[X
n
].
2. La varianza de una combinaci on lineal de VAs independientes es la combinaci on
lineal de las varianzas con coecientes al cuadrado:
V [c
1
X
1
+. . . +c
n
X
n
] = c
2
1
V [X
1
] + . . . +c
2
n
V [X
n
].
URJC-DEIO C. Beltr an 70
3.4. Teorema central de l

Imite
Muestra aleatoria: Matem aticamente, una muestra aleatoria, es un conjunto de variables aleato-
rias
X
1
, . . . , X
n
independientes, e id enticamente distribuidas (i.i.d.).
Media muestral: Dada una muestra aleatoria, su media muestral es la variable aleatoria

X =
X
1
+. . . +X
n
n
.
Teniendo en cuenta que la media muestral es una combinaci on lineal de VAs i.i.d. con
media y varianza
2
se demuestra que:

X
= y
2

X
=

2
n
.
3.4. Teorema central de lmite
Ejemplo 37
Datos:
Contin ua del ejemplo anterior.
Suponemos que las resistencias de los resistores son VA i.i.d. seg un una distribuci on
normal N( = 100 ,
2
= 100
2
).
Objetivo:
1. Calcula la probabilidad de que la media muestral sea menor que 95 .
2. Repite el apartado anterior, pero sin suponer que la muestra aleatoria proviene de una
poblaci on normal.
Operaciones 37:
1. Se puede demostrar que una combinacion lineal de VAs normales
(independi-entes o no) es otra variable aleatoria normal. Por tanto:

X
25
N
_
X
X
= 100 ,
2

=
100
25

2
_
.
URJC-DEIO C. Beltr an 71
3.4. Teorema central de l

Imite
Entonces:
P
_

X< 95
_
= P
_

X
X

X
<
95
X

X
_
= P
_
Z <
95 100

25
_
10/
= P (Z < 2,5)
= 0,0062.
2. Bajo la hipotesis de normalidad sabemos que

X N
_
,

2
n
_
.
Si eliminamos la hipotesis de normalidad el teorema central del lmite nos dice
que

X N
_
,

2
n
_
,
para n suficientemente grande.
Por tanto, dado que en nuestro caso podemos considerar que n = 25 es suficien-
temente grande, este apartado se resolvera igual que el apartado 1.
Solucion:
1. La probabilidad de que la media muestral sea menor que 95 es 0,62 % (bajo la
hip otesis de normalidad).
2. La probabilidad de que la media muestral sea menor que 95 es aproximadamente
0,62 % (no suponemos la hip otesis de normalidad).
General (Teorema central del lmite)
Combinaci on lineal de VA normales: Una combinaci on lineal de VAs normales (independi-
entes o no) es otra variable aleatoria normal.
Media muestral de una poblaci on normal: Dada una muestra aleatoria X
1
, . . . , X
n
de una
poblaci on normal N(,
2
), su media muestral

X tiene una distribuci on normal:

X N
_
,

2
n
_
.
URJC-DEIO C. Beltr an 72
3.4. Teorema central de l

Imite
Teorema central del lmite (TCL): Dada una muestra aleatoria X
1
, . . . , X
n
de una poblaci on
(no necesariamente normal) con media y varianza
2
, su media muestral

X tiene una
distribuci on aproximadamente normal para n grande:

X N
_
,

2
n
_
.
Calidad de la aproximaci on por el TCL: En general, la calidad de la aproximaci on mejora al
aumentar n. Distinguimos 3 casos, seg un el valor de n:
n 4 El TCL produce buenas aproximaciones, s olo si la distribuci on poblacional no se
aleja mucho de la distribuci on normal.
5 n 29 El TCL produce buenas aproximaciones si la distribuci on poblacional es continua,
unimodal y sim etrica.
n 30 El TCL produce buenas aproximaciones en la mayora de casos de inter es pr actico,
independientemente de la distribuci on poblacional.
Ejemplo 38
Datos:
Consideramos
X
i
= Puntuaci on obtenida al lanzar un dado,
donde i I = 1, . . . , n.
X
i
[ i I es una muestra aleatoria (VA i.i.d.).
Consideramos su media muestral

X
n
= Puntuaci on media al lanzar n veces un dado,
Objetivo: Calcular y representar la funci on de probabilidad de la media muestral

X
n
para
n = 1, 2, 3, 5, 10.
Operaciones 38:
En la Figura 3.2 observamos como la distribucion de la media muestral X

n
se aproxima
cada vez m as a una distribuci on normal a medida que n aumenta.
Soluci on: Ver Figura 3.2.
URJC-DEIO C. Beltr an 73
3.4. Teorema central de l

Imite
Figura 3.2: La calidad de la aproximaci on TCL aumenta al aumentar n.
URJC-DEIO C. Beltr an 74
3.5. Estimaci on puntual
3.5. Estimaci on puntual
Ejemplo 39
Datos:
Consideramos una Variable Aleatoria (VA) con media desconocida.
Hemos tomado una muestra aleatoria de X:
M.A. = 25, 30, 29, 31 u.
Objetivo: Estimar la media de X.
Operaciones 39:
Estimamos mediante
x =
25 + 30 + 29 + 31
4
= 28,75 u
Solucion: = 28,75 u.
General
Muestra aleatoria (MA):
Una MA de tama no n es un conjunto de VA
X
1
, . . . , X
n
independientes e id enticamente distribuidas.
Una vez tengamos los datos
x
1
, . . . , x
n
diremos que tenemos una observaci on de la MA.
Estimador puntual:
La media muestral

X =

n
i=1
X
i
n
es un estimador puntual de la media poblacional .
Dada una VA X con par ametro desconocido (theta) y una MA, un estimador pun-
tual de es cualquier funci on de la MA,

= h(X
1
, . . . , X
n
)
que nos ayude a estimar .
URJC-DEIO C. Beltr an 75
3.5. Estimaci on puntual
Notar que un estimador es a su vez una variable aleatoria.
En general, cualquier funci on de la MA

= h(X
1
, . . . , X
n
)
se denomina un estadstico.
Estimaci on puntual:
Una vez hemos observado la MA, la media muestral

X toma un valor concreto x que
llamamos estimaci on puntual de .
Una vez hemos observado la MA, el estimador

toma un valor concreto

que lla-
mamos estimaci on puntual de .
3.5.1. Estimadores insesgados
Ejemplo 40
Datos:
Consideramos la VA X con media desconocida .
Consideramos una muestra aleatoria de X de tama no n:
X
1
, . . . , X
n
.
Consideramos la media muestral

X =

n
i=1
X
i
n
.
Propiedad: La esperanza es un operador lineal
E
_
n

i=1
a
i
X
i
_
=
n

i=1
a
i
E(X
i
).
Objetivo: Calcular E(

X).
Operaciones 40: Dado que el operador esperanza es un operador lineal
E(X

) = E
i=1
X
i
n
=
_
n
_
n
i=1
E(X
i
)
n
= .
Soluci on: E(

X) = .
General
URJC-DEIO C. Beltr an 76
3.6. Inferencia sobre la media (varianza conocida)
Figura 3.3: Distribuci on muestral de dos estimadores insesgados.
Dado una estimador

, l ogicamente una caracterstica deseable es que
E(

) = .
En ese caso decimos que el estimador es insesgado.
La media muestral

X es un estimador insesgado de la media poblacional :
E(

X) = .
La varianza muestral S
2
es un estimador insesgado de la varianza poblacional
2
:
E(S
2
) =
2
,
donde S
2
=

n
i=1
(X
i


X)
2
n1
.
Entre dos estimadores insesgados, elegiremos el de menor varianza (ver Figura 3.3). Para
m as detalles se puede consultar el Montgomery.
3.6. Inferencia sobre la media (varianza conocida)
Veremos los siguientes apartados:
Hip otesis de normalidad.
Intervalo de conanza.
Contraste de hip otesis para la media (varianza conocida).
P-valor.
URJC-DEIO C. Beltr an 77
3.6. Inferencia sobre la media (varianza conocida)
3.6.1. Hip otesis de normalidad
En este curso y en muchas aplicaciones estadsticas supondremos que la media muestral

X tiene una distribuci on normal


N
_
,

2
n
_
,
donde y
2
son la media poblacional y varianza poblacional, respectivamente, y n es el
tama no muestral.
Hay que tener en cuenta que:
Si estamos estudiando una poblaci on normal, entonces,

X hereda la normalidad.
Aunque X no sea normal, si el tama no muestral es grande (n 30), por el
teorema central del lmite podemos suponer que

X tiene una distribuci on aproxi-
madamente normal.
Si X no es normal y el tama no muestral es peque no , ya no podemos asumir la
hip otesis de normalidad. En ese caso podemos recurrir a m etodos no param etricos
(Ver Montgomery, pag. 162).
3.6.2. Intervalo de conanza (varianza conocida)
Ejemplo 41
Datos:
La NASA esta analizando un combustible s olido que quiere utilizar en su transbor-
dador espacial.
En concreto queremos estudiar la variable aleatoia
V C = Velocidad de combusti on (cm/s).
Desconocemos la media de V C.
A partir de una muestra aleatoria de tama no n = 25 hemos obtenido x = 51,3 cm/s.
Por otro lado, sabemos que = 2 cm/s.
Objetivo: Calcula un intervalo de conanza 95 % para la media de la velocidad de combusti on
.
Operaciones 41:
En este contexto, el intervalo pedido lo podemos calcular como:
I
1
= x z

n
, x + z

n
_ _
,
URJC-DEIO C. Beltr an 78
3.6. Inferencia sobre la media (varianza conocida)
Figura 3.4: Percentiles derecho e izquierdo z
/2
de la distribuci on normal.
Figura 3.5: El intervalo de conanza acierta con probabilidad 1 .
donde
1 = nivel confianza = 0,95.
y z
2

es el percentil derecho de nivel /2 de la distribucion normal estandar (ver
Figura 3.4).
Teniendo en cuenta que
2
= 1 nivel confianza = 0,050 z

= z
0,025
= 1,96,
podemos calcular
_
I
1
= 51,3 1,96
2

25
, 51,3 + 1,96
2

25
_
= [50,52, 52,08] cm/s.
Soluci on:
URJC-DEIO C. Beltr an 79
3.6. Inferencia sobre la media (varianza conocida)
Con una conanza del 95 % la media poblacional de la velocidad de combusti on
V C se encuentra en el intervalo
[50,52, 52,08] cm/s.
Signicado de conanza: En realidad est a o no est a en [50,52, 52,08]. Acerta-
mos en un 95 % de las veces al armar que est a en [50,52, 52,08] (ver Figura 3.5).
General (Intervalo de conanza)
La media muestral observada x es una estimaci on puntual de la media poblacional .
Tambi en podemos estimar mediante un intervalo de conanza (1 ) :
I
1
= [lb, ub] ,
donde lb y ub son una cota inferior y una cota superior respectivamente, de la media
poblacional .
El intervalo de conanza (1 ) centrado en x y de radio r viene dado por:
I
1
= [ x r, x +r]
r = z

n
,
donde z

2
es el percentil derecho de nivel /2 de la distribuci on normal estandar (ver
Figura 3.4).
El radio del intervalo aumenta con el nivel de conanza (1 ) deseado.
El radio tambi en aumenta con el nivel de incertidumbre /

n (desviaci on tpica de

X).
Signicado de conanza: En realidad est a o no est a en I
1
. Tenemos una probabili-
dad de 1 de acertar al armar que est a en el intervalo I
1
(ver Figura 3.5).
Ejemplo 42
Datos:
Continuamos con el ejemplo anterior
V C = velocidad de combusti on (cm/s).
= 2 cm/s.
Acabamos de ver que el intervalo de conanza 95 % para es
[50,52, 52,08] = [51,3 0,78, 51,3 + 0,78] cm/s.
Con una conanza del 95 %, el m aximo error E que podramos cometer al estimar
mediante x = 51,3 cm/s es:
E = m ax

[ 51,3 [= 0,78 cm/s.


URJC-DEIO C. Beltr an 80
3.6. Inferencia sobre la media (varianza conocida)
Figura 3.6: Al estimar mediante x cometemos un error.
Sabemos que el error E disminuye al aumentar el tama no de la muestra n.
Objetivo: Calcula el tama no muestral n que necesitamos para conseguir un error m aximo de
1,5 cm/s al estimar (nivel de conanza 0,95).
Operaciones 42:
Se demuestra que en este contexto
n =
_
_
z
/2

E
_
2
_
.
Dado que z
0,050/2
= z
0,025
= 1,96, tenemos que:
n =
1,96 2
1,5
_
_ _
2
_
= 6,83| = 7.
Soluci on: El tama no muestral requerido es n = 7.
General (Tama no muestral n en funci on del error m aximo)
Cuando usamos la media muestral x para estimar cometemos un error e =[ x [.
Sabemos que este error disminuye al aumentar n (pues disminuye la varianza de

X).
Para garantizar que este error no supere cierta cota E, es decir e E, con una conanza
1 , se demuestra que debemos tomar un tama no muestral
n =
_
_
z
/2

E
_
2
_
,
donde x| es el primer n umero entero igual o superior a x (valor entero por exceso).
3.6.3. Cota de conanza (varianza conocida)
General
URJC-DEIO C. Beltr an 81
3.6. Inferencia sobre la media (varianza conocida)
En algunas ocasiones nos interesar a calcular intervalos de conanza para la media donde
uno de los extremos sea innito por la izquierda
I

1
= ] , ub

]
o innito por la derecha
I
+
1
= [lb

, +[.
Estos intervalos se pueden expresar de forma equivalente mediante una cota superior
ub

o mediante una cota inferior


lb

.
Una cota inferior de conanza 1 se calcula mediante la f ormula
lb

= x z

n
.
Una cota superior de conanza 1 se calcula mediante la f ormula
ub

= x +z

n
.
Notar que ahora tomamos el percentil z

en vez de z

2
.
3.6.4. Contraste de hip otesis bilateral para la media (varianza conocida)
Ejemplo 43
Datos:
La NASA est a analizando un combustible s olido que quiere utilizar en su transbor-
dador espacial.
En concreto queremos estudiar la VA
V C = Velocidad de combusti on (cm/s).
Las especicaciones del fabricante del transbordador requieren que se utilicen com-
bustibles con = 50 cm/s.
Desconocemos la media de V C.
Tomamos una MA de tama no n = 25.
Media muestral observada x = 51,3 cm/s.
La desviaci on tpica de V C es conocida: = 2 cm/s.
Objetivo:
URJC-DEIO C. Beltr an 82
3.6. Inferencia sobre la media (varianza conocida)
Dado que x = 51,3 cm/s, podemos armar que este combustible no es apto para el
transbordador?
Dicho de otra manera: Podemos armar que ,= 50 cm/s?
Operaciones 43:
Para resolver esta cuestion podemos plantear el contraste de hipotesis
H
0
: = 50 cm/s.
H
1
: , = 50 cm/s.
y tomar un nivel de significacion arbitrario, por ejemplo, = 0,05.
Una forma sencilla de resolver este contraste es construyendo el intervalo de
confi-anza 95 % asociado (calculado anteriormente):
I
0,95
= [50,52, 52,08] cm/s.
Dado que 50 cm/s no esta en el intervalo de confianza, aceptamos H
1
.
Solucion:
Tenemos evidencia estadstica para decir que la velocidad media de combusti on
es diferente de 50 m/s (para un nivel de signicaci on 0.05).
Por lo tanto, este combustible no es adecuado para el transbordador.
General (Contraste de hip otesis)
Contraste o test de hip otesis:
Es un problema de decisi on estadstico donde se elige entre dos hip otesis alternativas
H
0
(hip otesis nula) y H
1
(hip otesis alternativa).
En esta secci on, nos concentraremos en los contrastes bilaterales como por ejemplo:
H
0
: =
0
.
H
1
: ,=
0
.
Debemos interpretar un contraste bilateral como:
H
0
: es un valor cercano a
0
.
H
1
: es un valor signicativamente alejado de
0
.
URJC-DEIO C. Beltr an 83
3.6. Inferencia sobre la media (varianza conocida)
Pueden plantearse los contrastes unilaterales como por ejemplo:
H
0
: =
0
.
H
1
: >
0
.
Debemos interpretar este contraste unilateral como:
H
0
: no es un valor signicativamente mayor que
0
.
H
1
: es un valor signicativamente mayor que
0
.
Hip otesis fuerte H
1
:
Normalmente colocamos en H
1
la hip otesis fuerte, es decir, la hip otesis que acepta-
mos si y s olo s tenemos fuerte evidencia estadstica.
En el ejemplo del fuel para el transbordador:
H
0
: = 50 cm/s.
H
1
: ,= 50 cm/s.
Por ejemplo, si us aramos un contraste de hip otesis en un juicio:
H
0
: Inocente.
H
1
: Culpable.
Rechazar H
0
equivale a aceptar H
1
: Tenemos fuerte evidencia en contra de H
0
y, por tanto, a
favor de H
1
.
Rechazar H
1
no equivale a aceptar H
0
:
Rechazar H
1
signica solamente que no tenemos suciente evidencia estadstica
para aceptar H
1
.
Si por abuso del lenguaje decimos Aceptamos H
0
, debemos entender que rechaz-
amos H
1
.
En general ser a m as preciso hablar de aceptar o rechazar H
1
, y no de aceptar o
rechazar H
0
.
Resoluci on mediante intervalo de conanza: Para resolver el contraste de hip otesis:
H
0
: =
0
H
1
: ,=
0
,
con un nivel de signicaci on , podemos seguir el siguiente procedimiento:
1. Calcular el intervalo de conanza (1 ) asociado:
I
1
=
_
x z

n
, x +z

n
_
=
_
lb
/2
, ub
/2

URJC-DEIO C. Beltr an 84
3.6. Inferencia sobre la media (varianza conocida)
2. Aceptamos H
1
, si y s olo si,
0
< lb
/2
o
0
> ub
/2
. es decir, si y s olo s,
0
no
est a en el intervalo de conanza.
Ejemplo 44
Objetivo:
Resolver el ejemplo anterior, por el procedimiento general de contraste de hip otesis
(y no por intervalo de conanza).
Podemos armar que ,= 50 cm/s con un nivel de signicaci on = 0,05?
Operaciones 44: Podemos resolver esta cuesti on siguiendo los ocho pasos de un proced-
imiento general de contraste de hipotesis.
1. El parametro de interes es .
2. H
0
: = 50 cm/s.
3. H
1
: , = 50 cm/s.
4. = 0,05.
5. Tipificando x obtenemos el estadstico
z
0
=
x
0
/

n
.
6. El umbral de aceptacion de H
1
nos lo da z
/2
: Dado que z
0,025
= 1,96 tenemos que
aceptamos H
1
si
z
0
, [1,96, 1,96].
7. Usando los datos que tenemos:
z
0
=
51,3 50
2/

25
= 3,25.
8. Dado que z
0
= 3,25 , [1,96, 1,96], aceptamos
H
1
: ,= 50,
con un nivel de significacion 0.05.
URJC-DEIO C. Beltran 85
3.6. Inferencia sobre la media (varianza conocida)
Figura 3.7: Regi on crtica para contraste bilateral o unilateral.
Soluci on: Podemos armar que ,= 50 cm/s con un nivel de signicaci on = 0,05.
General (Procedimiento general de contraste de hip otesis)
Para resolver un contraste de hip otesis bilateral con un nivel de signicaci on , podemos
seguir el siguiente procedimiento general:
1. Determinar el par ametro de inter es: .
2. Determinar la hip otesis nula:
H
0
: =
0
.
3. Determinar la hip otesis alternativa:
H
1
: ,=
0
.
4. Fijar el valor del nivel de signicaci on (a menudo 0.01, 0.05 o 0.10).
5. Determinar el estadstico apropiado:
Z
0
=

X
0
/

n
.
6. Especicar la regi on crtica para el estadstico (regi on donde aceptamos H
1
):
Aceptamos H
1
si y s olo si Z
0
, [z

2
, z

2
] (ver Figura 3.7).
Por lo tanto la regi on crtica es [z

2
, z

2
]
c
En este contexto, z
/2
se denomina valor crtico.
7. A partir de los datos observados (muestra), calcular el valor del estadstico:
z
0
=
x
0
/

n
.
8. Resolver el contraste de hip otesis (aceptar o rechazar H
1
) y responder seg un el con-
texto.
Nota:
La regi on crtica se construye en el espacio estandarizado de Z
0
con el objetivo de
hacer m as eciente el procedimiento de contraste.
Sin embargo, tambi en podramos construir la regi on crtica en el espacio no es-
tandarizado

X (ver Figura 3.8).
URJC-DEIO C. Beltr an 86
3.6. Inferencia sobre la media (varianza conocida)
Figura 3.8: Regi on crtica en el espacio no estandarizado

X.
3.6.5. Relaci on entre contraste de hip otesis bilateral e intervalo de con-
anza
General
Propiedad: Dado el contraste de hip otesis bilateral con nivel de signicaci on
H
0
: =
0
H
1
: ,=
0
,
y el intervalo de conanza (1 ) asociado I
1
, el procedimiento general de contraste
de hip otesis aceptar a H
1
, si y s olo si,
0
est a fuera del intervalo de conanza.
Equivalencia: Por tanto, la resoluci on de un contraste de hip otesis por el procedimiento general
es equivalente a su resoluci on mediante intervalo de conanza (los dos toman la misma
decisi on).
Matiz: Sin embargo, cada m etodo aporta diferente informaci on:
El intervalo de conanza, nos da un rango de valores probables para .
El procedimiento general de contraste de hip otesis, como veremos en la pr oxima
secci on, es el marco adecuado para estudiar los riesgos que corremos al aceptar o
rechazar H
1
, calcular el denominado P-valor, etc.
3.6.6. Contraste de hip otesis unilateral para la media (varianza conocida)
General
En algunas ocasiones nos interesar a plantear el contraste de hip otesis unilateral por la
izquierda
H
0
: =
0
URJC-DEIO C. Beltr an 87
3.6. Inferencia sobre la media (varianza conocida)
H
1
: <
0
,
o unilateral por la derecha
H
0
: =
0
H
1
: >
0
.
El procedimiento para resolver este tipo de contrastes es id entico al caso bilateral, excep-
tuando la regi on crtica.
Dependiendo de la hip otesis alternativa H
1
, tendremos las siguientes regiones crticas
(Ver Figura 3.7):
Aceptamos H
1
: ,=
0
, si y s olo si,
z
0
< z
/2
o z
0
> z
/2
,
Aceptamos H
1
: <
0
, si y s olo si, z
0
< z

.
Aceptamos H
1
: >
0
, si y s olo si, z
0
> z

.
Como alternativa al procedimiento general de contraste, podemos usar intervalos o cotas
de conanza para resolver un contraste de hip otesis:
Aceptamos H
1
: ,=
0
, si y s olo si,

0
< lb
/2
o
0
> ub
/2
,
Aceptamos H
1
: <
0
, si y s olo si, ub

<
0
.
Aceptamos H
1
: >
0
, si y s olo si,
0
< lb

.
3.6.7. P-valor (varianza conocida)
Ejemplo 45
Datos:
Continuamos con el ejemplo anterior
V C = velocidad de combusti on (cm/s).
Tenamos el estadstico observado z
0
= 3,25
Riesgo de tipo I:
P( Aceptar H
1
/ H
1
falsa ).
Objetivo: Calcular el riesgo de tipo I que corremos al jar el valor crtico en z
0
= 3,25.
Operaciones 45:
URJC-DEIO C. Beltr an 88
3.6. Inferencia sobre la media (varianza conocida)
Figura 3.9: P-valor.
Calculamos el riesgo de tipo I:
P ( Aceptar H
1
/ H
1
falsa )
= P (Z
0
, [3,25, 3,25] / = 50)
Si = 50, es decir =
0
, entonces Z
0
tiene una distribucion normal estandar,
y por lo tanto (ver Figura 3.9):
P (Z
0
, [3,25, 3,25] / = 50) = 2
P (Z
0
> 3,25)
= 2[1 (3,25)]
= 0,0012.
Soluci on:
El riesgo de tipo I al jar el valor crtico en z
0
= 3,25 es del 0,12 %.
En este caso diremos que el P-valor asociado a los datos observados es 0,12 %.
General
Riesgos en un contraste de hip otesis:
Riesgo de tipo I:
= P( Error tipo I ) = P( Aceptar H
1
/ H
1
falsa ).
URJC-DEIO C. Beltr an 89
3.6. Inferencia sobre la media (varianza conocida)
Riesgo de tipo II:

= P( Error tipo II ) = P( Rechazar H


1
/ H
1
verdadera ).
Nivel de signicaci on o tama no del contraste :
Dado que normalmente aceptar H
1
es m as grave / importante, queremos evitar o
por lo menos acotar principalmente el riesgo de tipo I.
Al resolver un contraste, el nivel de signicaci on es la cota que impondremos a ,
es decir, queremos que
.
P-valor:
El P-valor asociado a unos datos, es el riesgo de tipo I al jar el valor crtico en z
0
.
Si el P-valor es menor que el nivel de signicaci on, es decir , aceptamos H
1
.
En caso contrario, rechazamos H
1
.
El P-valor es m as informativo que el nivel de signicaci on . As, por ejemplo, en
dos contrastes con = 0,050, podemos aceptar H
1
, teniendo P-valores igual a 0,049
y 0,001, respectivamente.
3.6.8. Ejercicios
URJC-DEIO C. Beltr an 90
3.7. Inferencia sobre la media (varianza desconocida)
3.7. Inferencia sobre la media (varianza desconocida)
A diferencia de la secci on anterior, en esta secci on supondremos que desconocemos la
varianza
2
a la hora de hacer inferencia sobre la media, por supuesto, desconocida.
En algunos casos, tendremos que recurrir a una nueva distribuci on de probabilidad: la
distribuci on t de Student.
Veremos los siguientes apartados, donde supondremos que desconocemos la varianza:
Contraste de hip otesis sobre la media.
P-valor para un contraste t.
Intervalo de conanza para la media.
3.7.1. Contraste de hip otesis sobre la media (varianza desconocida)
General
Dos casos: Dependiendo del tama no muestral n, distinguimos dos casos:
n 30 Si estamos estudiando una VA X normal y adem as conocemos , entonces,
usaremos el estadstico
Z
0
=

X
0
/

n
el cual hereda una distribuci on normal estandar.
Si estamos estudiando una VA X normal, pero desconocemos , entonces
aproximaremos por la varianza muestral
S
2
=

n
i=1
(x
i
x)
2
n 1
.
y usamos el estadstico
Z
0
=

X
0
S/

n
,
el cual tiene una distribuci on aproximadamente normal estandar.
Si estamos estudiando una VA X no normal, entonces por el teorema central
del lmite, podemos suponer en general que

X tiene una distribuci on normal y
usar los estadsticos arriba descritos.
n < 30 Si estamos estudiando una VA X normal y adem as conocemos , entonces,
usaremos el estadstico
Z =

X
0
/

n
el cual hereda una distribuci on normal estandar.
URJC-DEIO C. Beltr an 91
3.7. Inferencia sobre la media (varianza desconocida)
Figura 3.10: Funci on de densidad de una VA t de Student.
Si estamos estudiando una VA X normal, pero desconocemos , entonces,
usaremos el estadstico
T =

X
0
S/

n
el cual tiene una distribuci on t de Student con n 1 grados de libertad.
Si estamos estudiando una VA X no normal, entonces tenemos que recurrir a
m etodos no param etricos (Ver Montgomery, pag. 162).
Intervalos de conanza (casos): La casustica descrita para los contrastes de hip otesis es
tambi en v alida para los intervalos de conanza.
General (Distribuci on t de Student)
X T
k
, se lee, X tiene una distribuci on t de Student con k grados de libertad.
En la Fig. 3.10 tenemos representada la funci on de densidad de probabilidad de una VA
t de Student para varios valores de k.
La gr aca de la funci on de densidad de probabilidad (fdp) de la distribuci on t es parecida
a la gr aca de la fdp de la distribuci on normal, pero con colas m as pesadas.
T

N(0, 1).
La distribuci on de Student fue descrita por William Sealy Gosset (1876-1937), m as cono-
cido por el seud onimo Student.
Se usa para hacer inferencia sobre la media en el caso de tener una poblaci on:
Normal.
Varianza desconocida.
Tama no muestral peque no (n < 30).
Media y varianza: Si X T
k
entonces:
= E(X) = 0 y
2
= V (X) =
k
k 2
.
URJC-DEIO C. Beltr an 92
3.7. Inferencia sobre la media (varianza desconocida)
Funci on de densidad de probabilidad. Si X T
k
entonces:
f(x) =
C
[(x
2
/k) + 1]
(k+1)/2
< x <
donde
C =
1

k
[(k + 1)/2]
[k/2]
y
(k) =
_

0
e
z
z
k1
dz.
Para hacer los c alculos asociados a esta distribuci on normalmente usaremos una tabla.
(Tabla 3.7.1)
Ejemplo 46
Datos:
La compa na Nike subcontrata la fabricaci on de sus palos de golf a una empresa
china.
Ambas compa nas llegan al acuerdo de que el coeciente de restituci on de los palos
ha de tener una media superior a 0.82.
El coeciente de restituci on se dene como
CR =
Velocidad de salida de la bola (m/s)
Velocidad del palo al golpear la bola (m/s)
En concreto queremos estudiar la media de la VA
CR = Coeciente de restituci on (no tiene unidades).
Desconocemos su y su y suponemos que CR N(, )
Las especicaciones de Nike requieren que el CR tenga una media > 0,82.
Se toma una muestra aleatoria de tama no n = 15 de la variable aleatoria CR:
0,8411, 0,8191, . . . , 0,8660.
A partir de estos datos, se ha calculado x = 0,83725 y s = 0,02456.
Objetivo: Con estos datos, puede, la compa na subcontratada, armar que > 0,82 con un
nivel de signicaci on = 0,05?
1. Resolver por el procedimiento general de contraste.
2. Resolver calculando una cota de conanza.
Operaciones 46:
URJC-DEIO C. Beltr an 93
3.7. Inferencia sobre la media (varianza desconocida)
1. Procedimiento general de contraste de hipotesis:
a) El parametro de interes es .
b) H
0
: = 0,82.
c) H
1
: > 0,82.
d) = 0,05.
e) Vamos a usar el siguiente estadstico:
T
0
=

X
0
S/

n
.
f ) Aceptamos H
1
si y solo si
T
0
> t
0,05, 14
= 1,761.
g) El valor observado del estadstico es:
t
0
=
0,83725 0,82
0,02456/

15
= 2,72.
h) Dado que t
0
= 2,72 > 1,761, aceptamos
H
1
: > 0,82
con un nivel de significacion 0.05.
2. Cota de confianza:
Para ver si tenemos evidencia que respalde
H
1
: > 0,82
necesitamos calcular lb

, la cota inferior de de confianza 1 :


lb

= x t
;n1
s

n
= 0,83725 1,761
0,02456

15
= 0, 8261
URJC-DEIO C. Beltran 94
3.7. Inferencia sobre la media (varianza desconocida)
Figura 3.11: Regi on crtica para contraste bilateral o unilateral.
Con una confianza del 95 %, se cumple que
> lb

= 0, 8261.
Por tanto, para un un nivel de confianza del 95 %, podemos aceptar que
H
1
: >
0
= 0, 82.
Soluci on: La compa na subcontratada puede armar que, el coeciente de restituci on medio
es superior a 0,82 con un nivel de signicaci on 0.05.
General (Procedimiento general de contraste de hip otesis)
Dada una muestra aleatoria N(, ) con y desconocidos, tenemos dos casos dependiendo
del tama no muestral:
Caso 1: El tama no muestral es grande (n 30)
En este caso el estadstico
Z
0
=

X
0
S/

n
tiene una distribuci on aproximadamente normal est andar.
Usamos los procedimientos de la secci on anterior que se basan en el estadstico Z
0
.
Caso 2: El tama no muestral es peque no (n < 30):
En este caso el estadstico
T
0
=

X
0
S/

n
tiene una distribuci on t de Student con n 1 grados de libertad.
Usamos los procedimientos de la secci on anterior pero usando el estadstico T
0
en
vez de Z
0
.
URJC-DEIO C. Beltr an 95
3.7. Inferencia sobre la media (varianza desconocida)
TABLA DE LA DISTRIBUCION t-Student con n grados de libertad..
1
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
URJC-DEIO C. Beltr an 96
3.7. Inferencia sobre la media (varianza desconocida)
Figura 3.12: C alculo aproximado del P-valor.
3.7.2. P-valor (varianza desconocida)
Ejemplo 47
Datos:
Continuamos con el ejemplo anterior
CR = Coeciente de restituci on (no tiene unidades).
Tenemos H
0
: = 0,82 y H
1
: > 0,82.
n = 15 observaciones.
Tenamos el estadstico observado t
0
= 2,72
Riesgo de tipo I:
P(Aceptar H
1
/ H
1
falsa).
Objetivo: Calcular el riesgo de tipo I que corremos al jar el valor crtico en t
0
= 2,72.
Operaciones 47:
Calculamos el riesgo de tipo I mediante:
P (Aceptar H
1
/ H
1
falsa)
= P (Aceptar H
1
/ H
0
verdadera)
= P (T
0
> 2,72/ = 0,82)
Si = 0,82, es decir =
0
, entonces T
0
tiene una distribucion t de Student
con 14 grados de libertad.
URJC-DEIO C. Beltr an 97
3.7. Inferencia sobre la media (varianza desconocida)
Consultando la tabla de la distribucion t (ver Figura 3.12):
P (T
0
> 2,72/ = 0,82) 1 0,9925.
Por lo que hacemos la siguiente aproximacion:
P (T
0
> 2,72/ = 0,82) 0,0075.
Soluci on:
El riesgo de tipo I al jar el valor crtico en t
0
= 2,72 es, aproximadamente, del
0.75 %.
Dicho de otra manera, el P-valor asociado a t
0
= 2,72 es 0.75 %.
General (P-valor)
Como ya vimos, el P-valor asociado a unos datos, es el riesgo de tipo I que corremos al
jar el valor crtico en t
0
.
Denici on alternativa: el P-valor asociado a unos datos, es el menor nivel de signicaci on
que nos llevara a aceptar H
1
.
El P-valor corresponde al area de la cola a partir del valor observado del estadstico para
un contraste unilateral o dos veces este area para un contraste bilateral.
Para calcular este area:
Si tenemos un tama no muestral grande (n 30), usaremos la tabla de la distribu-
ci on normal estandar.
Si tenemos un tama no muestral peque no (n < 30), usaremos la tabla de la distribu-
ci on t de Student.
3.7.3. Intervalo de conanza (varianza desconocida)
Ejemplo 48
Datos:
Continuamos con el ejemplo anterior
CR = Coeciente de restituci on (no tiene unidades).
y son desconocidas.
A partir de una muestra aleatoria de tama no n = 15 hemos obtenido x = 0,83725 y
s = 0,02456.
URJC-DEIO C. Beltr an 98
3.8. Inferencia sobre proporciones
Objetivo: Calcula un intervalo de conanza 0.95 para la media del coeciente de restituci on.
Operaciones 48:
Como veremos, en este contexto, el intervalo pedido es:
I
1
=
_
x t
/2, n1

n
, x + t
/2, n1

n
_
,
donde
1 = nivel confianza = 0,95.
Substituyendo los datos y teniendo en cuenta que /2 = 0,050/2 = 0,025:
I
0,95
=
_
0,83725 2,145
0,02456

15
,
0,83725 + 2,145
0,02456

15
_
= [0,82365, 0,85085].
Soluci on: El intervalo de conanza 0.95 para la media del coeciente de restituci on es
I
0,95
= [0,82365, 0,85085].
General (Intervalo de conanza (varianza desconocida))
Podemos estimar mediante un intervalo de conanza I
1
centrado en x y de radio r :
I
1
= [ x r, x +r]
r = t

2
, n1

n
,
donde t

2
, n1
es el percentil derecho de nivel /2 de la distribuci on t de Student.
En la anterior f ormula, si tenemos un tama no muestral grande (n 30), podemos aprox-
imar t
/2, n1
mediante z
/2
.
3.7.4. Ejercicios
3.8. Inferencia sobre proporciones
Veremos los siguientes apartados:
Contraste de hip otesis sobre una proporci on.
Intervalo de conanza para una proporci on.
URJC-DEIO C. Beltr an 99
3.8. Inferencia sobre proporciones
3.8.1. Contraste de hip otesis (proporciones)
Ejemplo 49
Datos:
La compa na Intel fabrica chips para la centralita de control de los motores de la
compa na Ford.
Ambas compa nas llegan al acuerdo de que la proporci on p de chips defectuosos ha
de ser inferior al 5 %.
Nivel de signicaci on = 0,05.
Usaremos la variable aleatoria
Y = 1 si el chip es defectuoso (0 en otro caso).
Y Ber(p),
donde p es la proporci on (desconocida) de chips defectuosos.
Desconocemos la y la de Y , pero sabemos que
= p y
2
= p(1 p).
Se toma una muestra aleatoria Y
1
, . . . , Y
200
:
0, 1, 0, . . . , 0,
donde aparecen 4 chips defectuosos y por tanto
y = 4/200 = 0,02.
Objetivo: Con estos datos, puede la compa na Intel armar que p < 0,05 con un nivel de
signicaci on = 0,05?
Operaciones 49: Podemos resolver esta cuesti on siguiendo los ocho pasos del procedimiento
general de contraste de hipotesis.
1. El parametro de interes es p.
2. H
0
: p = 0,05.
3. H
1
: p < 0,05.
4. = 0,05.
URJC-DEIO C. Beltr an 100
3.8. Inferencia sobre proporciones
5. Vamos a usar el siguiente estadstico:
Z
0
= _
X np
0
N(0, 1),
donde X =

200
i=1
np
0
(1 p
0
)
Y
i
y corresponde al numero de chips defectuosos, n = 200
y p
0
= 0,05.
6. Aceptamos H
1
si z
0
< z
0,05
(= 1,65).
7. Usando los datos que tenemos:
z
0
=
4 200 0,05

200 0,05 0,95


= 1,95.
8. Dado que z
0
= 1,95 < 1,65, aceptamos H
1
: p < 0,05 con un nivel de significaci
on 0.05.
Soluci on: La compa na Intel puede armar que, la proporci on de chips defectuosos p es menor
del 5 % con un nivel de signicaci on 0.05.
General (Estadstico para proporciones)
Para una VA Y con distribuci on Bernoulli de par ametro p se cumple que = p y
2
=
p(1 p).
En este caso, el contraste H
0
: =
0
, con estadstico
Z
0
=

Y
0
_

2
/n
es equivalente al contraste H
0
: p = p
0
, con estadstico
Z
0
=

Y p
0
_
p
0
(1 p
0
)/n
.
Multiplicando por n el numerador y el denominador:
Z
0
=
X np
0
_
np
0
(1 p
0
)
,
donde
X =
n

i=1
Y
i
.
Dado que Y Ber(p), entonces X Bin(n, p) y por lo tanto Z
0
se distribuye aproxi-
madamente como una normal estandar (Z
0
N(0, 1)).
Nota: En esta secci on suponemos un tama no muestral n lo sucientemente grande para
poder aproximar la distribuci on binomial por la distribuci on normal.
URJC-DEIO C. Beltr an 101
3.8. Inferencia sobre proporciones
3.8.2. Intervalo de conanza (proporciones)
Ejemplo 50
Datos:
En un control de calidad la compa na Seat, analiza la producci on de rodamientos
para cig ue nal.
Se trata de estudiar la VA
Y = 1 si la supercie del rodamiento ha quedado defectuosa, es decir, demasiado
rugosa (0 en otro caso).
Y Ber(p),
donde p es la proporci on (desconocida) de rodamientos defectuosos.
Se toma una muestra aleatoria Y
1
, . . . , Y
85
:
0, 1, 0, . . . , 0,
donde aparecen 10 rodamientos defectuosos y por tanto, una estimaci on puntual de
p es:
p = 10/85 = 0,12.
Objetivo: Calcular un intervalo de conanza 95 % para la proporci on de rodamientos defec-
tuosos p.
Operaciones 50:
Se puede ver que, en este contexto, el intervalo pedido es:
I
1
= p z
/2

_
_
p(1 p)

n
, p + z
/2

_
p(1 p)

n
_
,
donde
nivel confianza = 1 .
Substituyendo los datos y teniendo en cuanta que /2 = 0,05/2 = 0,025:
=
I
0,95
_
0,12 1,96

0,12 0,88

85
, 0,12 + 1,96

0,12 0,88

85
_
= [0,05, 0,19].
Soluci on: El intervalo de conanza 95 % para la proporci on de rodamientos defectuosos es
[5 %, 19 %].
URJC-DEIO C. Beltr an 102
3.8. Inferencia sobre proporciones
General (Intervalo de conanza (proporciones))
Podemos estimar la proporci on de piezas defectuosas p mediante un intervalo de con-
anza I
1
centrado en p y de radio r :
I
1
= [ p r, p +r]
r = z

_
p(1 p)

n
,
donde z
/2
es el percentil derecho de nivel /2 de la distribuci on normal estandar.
Ejemplo 51
Datos:
Continuamos con el ejemplo anterior.
Acabamos de ver que el intervalo de conanza 95 % para p es
I
0,95
= [0,05, 0,19] = [0,12 0,07, 0,12 + 0,07]
Con una conanza de 95 %, el m aximo error que podramos cometer al estimar p
mediante p = 0,12 es:
E = m ax
pI
0,95
[ 0,12 p [= 0,07.
Sabemos que el error disminuye al aumentar el tama no muestral n.
Objetivo: Calcula el tama no muestral n que necesitamos para conseguir un error m aximo E
de 0,05 al estimar p, con un nivel de conanza 0,95.
Operaciones 51:
Se demuestra que en este contexto podemos tomar
n =
_
1
4
_
z
/2
E
_
2
_
.
En nuestro caso:
n =
_
0,25
_
1,96
0,05
_
2
_
= 385.
Soluci on: El tama no muestral requerido es de 385 rodamientos.
General (Tama no muestral n en funci on del error m aximo)
URJC-DEIO C. Beltr an 103
3.8. Inferencia sobre proporciones
Cuando usamos la proporci on muestral p para estimar la proporci on poblacional p come-
temos un error e =[ p p [.
Sabemos que este error disminuye al aumentar n.
Para garantizar que este error no supere cierta cota E con una conanza 1 , podemos
tomar un tama no muestral
n =
_
1
4
_
z
/2
E
_
2
_
.
donde x| es el primer n umero entero igual o superior a x (parte enter por exceso).
3.8.3. Ejercicios
URJC-DEIO C. Beltr an 104
Captulo 4
Regresi on
4.1. Apartados
1. Introducci on a los modelos empricos
2. Regresi on lineal simple
3. Contraste de hip otesis en regresi on lineal
4. Intervalos de conanza en regresi on lineal
5. Bondad de ajuste
4.2. Introducci on a los modelos empricos
Ejemplo 52
Datos:
Ref: Montgomery 3
a
Ed., p agina 261.
Consideramos un ejemplo de Fsica: el movimiento uniformemente acelerado.
En este caso, la velocidad te orica v(t) viene dada por:
v(t) = v
0
+a t
Supongamos que estamos estudiando el desplazamiento de una bola met alica por
una rampa.
Los par ametros te oricos del experimento son v
0
= 3 m/s y a = 2 m/s
2
.
105
4.2. Introducci on a los modelos emp

Iricos
Despu es de realizar el experimento obtenemos la siguiente velocidad observada v
t
:
t v(t) v
t
s m/s m/s
0 3 2.5
1 5 5.1
2 7 6.7
3 9 9.2
Objetivo:
1. Representar la gr aca de la funci on v(t).
2. Representar en la misma gr aca los puntos (t, v
t
) (diagrama de dispersi on).
3. Comentarios.
Operaciones 52:
En la Figura 4.1 hemos representado la velocidad teorica v(t) y la velocidad
obser-vada v
t
Conocemos a priori un modelo teorico que describe la velocidad teorica v(t).
La velocidad observada v
t
tienen ligeras perturbaciones respecto a la velocidad
teorica v(t).
Esas perturbaciones no implican que el modelo teorico sea erroneo, pues pueden
ser debidas a:
Errores de medida,
Imperfecciones de la rampa, rugosidad, etc.
Soluci on:
Ejemplo 53
Datos:
Ref: Montgomery 3
a
Ed., p agina 261.
Se quiere analizar el impacto de las autopistas en la contaminaci on de los ros
adyacentes.
Para un conjunto de 20 cuencas hidrogr acas estudiamos las variables:
URJC-DEIO C. Beltr an 106
4.2. Introducci on a los modelos emp

Iricos
Figura 4.1: Velocidad te orica (recta) y velocidad observada.
Tabla 4.1: Concentraci on de sal (mg/l) y supercie asfaltada ( %).
URJC-DEIO C. Beltr an 107
4.2. Introducci on a los modelos emp

Iricos
Figura 4.2: Diagrama de dispersi on.
Figura 4.3: Distribuci on de Y (concentraci on de sal) para un valor dado
de x (supercie asfaltada).
URJC-DEIO C. Beltr an 108
4.2. Introducci on a los modelos emp

Iricos
y = Concentraci on de sal en las aguas superciales de un ro o sus auentes
(cuenca hidrogr aca) (mg/ l).
x = Supercie de la cuenca hidrogr aca cubierta por autopistas o carreteras
(en %).
Los datos recogidos pueden verse en la Tabla 4.1.
Objetivo:
1. Representar el diagrama de dispersi on o nube de puntos (x
i
, y
i
).
2. Analizar cu al podra ser un buen modelo que explique la concentraci on de sal a
partir de la proporci on de supercie asfaltada.
Operaciones 53:
Objetivo 1: En la Figura 4.2 tenemos el diagrama de dispersion.
Objetivo 2: No conocemos, a priori, un modelo teorico y(x) que explique la
con-centracion de sal en funcion de la superficie asfaltada.
Un posible modelo emprico podemos encontrarlo en la Figura 4.3.
La concentracion de sal parece que depende linealmente de la cantidad de
superficie asfaltada:
y(x) =

0
+

1
x.
La anterior recta constituye un modelo emprico del cual desconocemos sus par
amet-ros

0
y

1
.
Veremos que una buena recta es:
y(x) = 2,7 + 17,5 x.
Las perturbaciones respecto al modelo emprico no implican necesariamente que tal
modelo sea erroneo, pues pueden depender de:
Errores de medida.
La eleccion del punto del ro donde medimos la concentracion de sal.
Que haya otros factores que influyan en la concentracion de sal.
URJC-DEIO C. Beltr an 109
4.2. Introducci on a los modelos emp

Iricos
Soluci on: Parece que el modelo de regresi on lineal simple en un buen modelo para explicar la
concentraci on de sal a partir de la proporci on de supercie asfaltada.
General (Modelos en ingeniera)
Modelos te oricos:
La f ormula de la velocidad nal
v(t) = v
0
+a t
es un ejemplo de modelo te orico (lineal).
Est an basados en leyes fsicas, qumicas, etc. que conocemos.
A partir de deducciones te oricas, conocemos a priori las variables y constantes que
intervienen y sus interrelaciones.
Modelos empricos:
La f ormula de la concentraci on de sal
y(x) = 2,7 + 17,5 x.
es un ejemplo de modelo emprico (lineal).
Est an basados en leyes fsicas, qumicas, etc. que desconocemos.
A partir de datos empricos, debemos recomponer las variables y constantes que
intervienen, as como sus interrelaciones.
Uno de los modelos empricos m as usados es el modelo de regresi on lineal simple.
Poblaci on y muestra:
Hay que distinguir los conceptos poblacionales de los conceptos muestrales.
La nube de puntos poblacional (x, Y (x)) [ x [a, b] cumple la ecuaci on
Y (x) =
0
+
1
x +,
donde el error N(0, ).
La nube de puntos muestral o diagrama de dispersi on (x
i
, y
i
)
n
i=1
cumple la
ecuaci on
y
i
=

0
+

1
x
i
+e
i
,
donde e
i
es el error de la observaci on i.
La recta de regresi on poblacional (x,
Y |x
) [ x [a, b] cumple la ecuaci on

Y |x
=
0
+
1
x,
donde
Y |x
= E(Y [ x).
URJC-DEIO C. Beltr an 110
4.3. Regresi on lineal simple
Figura 4.4: Diagrama de dispersi on y recta de regresi on.
La recta de regresi on muestral (x, y(x)) [ x [a, b] cumple la ecuaci on
y(x) =

0
+

1
x.
Notar que nos aparecen 4 ys que no hay que confundir:
Y (x), nube de puntos poblacional.
y
i
, nube de puntos muestral.

Y |x
, recta de regresi on poblacional.
y(x), recta de regresi on muestral.
4.3. Regresi on lineal simple
Recta de regresi on.
Hip otesis y propiedades del modelo.
Regresi on y an alisis de varianza (ANOVA).
4.3.1. Recta de regresi on
Ejemplo 54
Datos:
Ref: Montgomery 3
a
Ed., p agina 268.
Continuamos con el ejemplo anterior.
URJC-DEIO C. Beltr an 111
4.3. Regresi on lineal simple
Asumimos que la concentraci on de sal Y (mg/ l) depende linealmente de la cantidad
de supercie asfaltada x (en %):
Y =
0
+
1
x +,
donde el error N(0, ).
Objetivo:
1. Determinar la recta que mejor se ajuste a la nube de 20 puntos observados (ver
Tabla 4.1):
(0,19, 3,8), . . . , (1,62, 32,7).
2. Estimar la desviaci on tpica .
Operaciones 54:
1. Se puede demostrar que la recta que mejor se ajusta viene dada por la siguiente esti-
macion de (
0
,
1
):

1
=
S
xy
S
xx
=
64,4082
3,67068
= 17,5467,
donde
S
xy
=

20
i=1
(x
i
x)(y
i
y)
S
xx
=

20
x =
(x
i

x)
2
i=1

20
i=1
x
i
20
y =

20
i=1
y
i
20
La mejor estimacion de
0
corresponde a:

0
= y

1
x
= 17,135 17,5467 0,824
= 2,6765
La representacion de esta recta puede verse en la Figura 4.4.
URJC-DEIO C. Beltr an 112
4.3. Regresi on lineal simple
Figura 4.5: Desviaciones de los datos respecto del modelo de regresi on.
2. Una estimacion de
2
se obtiene mediante:

2
=

n
i=1
(y
i
y
i
)
2
n 2
=
57,7
18
= 3,2056
y por tanto
=
_
3,2056 = 1,7904 mg/l.
.
Soluci on:
1. La recta que mejor se ajusta es (ver representaci on en Figura 4.4):
y =

0
+

1
x
y = 2,6765 + 17,5467x
2. Una estimaci on de la desviaci on tpica viene dada por = 1,7904 mg/l.
General
Mnimos cuadrados - problema:
La recta de regresi on corresponde a la recta que mejor se ajusta a la nube de puntos
seg un el criterio de los mnimos cuadrados.
URJC-DEIO C. Beltr an 113
4.3. Regresi on lineal simple
La estimaci on de = (
0
,
1
) por el criterio de los mnimos cuadrados, resuelve el
siguiente problema de optimizaci on:
mn
R
2
L() =
n

i=1
[
i
()]
2
,
donde tenemos los errores

i
() = y
i
y(x
i
)
= y
i

1
x
1
.
La representaci on de estos errores puede verse en la Figura 4.5.
Mnimos cuadrados - optimizaci on:
Se puede demostrar que L() es una funci on convexa.
En ese caso, para encontrar un mnimo es suciente encontrar un

que anule el
gradiente de L:
L(

) = (0, 0).
Mnimos cuadrados - soluci on:
Se puede demostrar que el anterior problema de optimizaci on tiene la siguiente solu-
ci on (

0
,

1
):

1
=
S
xy
S
xx
donde
S
xy
=
n

i=1
(x
i
x)(y
i
y)
S
xx
=
n

i=1
(x
i
x)
2
x =

n
i=1
x
i
n
y =

n
i=1
y
i
n
Una vez calculado

1
, podemos calcular

0
:

0
= y

1
x
Varianza de la recta de regresi on: La varianza asociada a la recta de regresi on
2
, se puede
estimar como:

2
=
SS
E
n 2
,
donde
SS
E
=
n

i=1
e
2
i
=
n

i=1
(y
i
y
i
)
2
es la suma de los errores al cuadrado.
URJC-DEIO C. Beltr an 114
4.3. Regresi on lineal simple
4.3.2. Ejercicios
URJC-DEIO C. Beltr an 115
4.3. Regresi on lineal simple
4.3.3. Propiedades del modelo de regresi on
Ejemplo 55
Datos:
Ref: Montgomery 3
a
Ed., p agina 271.
Continuamos con el ejemplo de la concentraci on de sal.
Asumimos, de momento, que la concentraci on de sal Y (mg/l) depende linealmente
de la proporci on de supercie asfaltada x (en %):
Y =
0
+
1
x +,
donde N(0, ).
Objetivo:
1. Estimar la desviaci on tpica del estadstico

1
, en tanto que estimador de
1
.
2. Estimar la desviaci on tpica del estadstico

0
, en tanto que estimador de
0
.
Operaciones 55:
1.
Una estimacion de la desviacion tpica de

1
se obtiene mediante:
se(

1
) =


2
S
xx
=
_
3,2056
3,67068
= 0,9346.
2.
Analogamente, una estimacion de la desviacion tpica de

0
se obtiene mediante:
se(

0
) =

2
_
1
n
+
x
2
S
xx
_
= 0,8680.
Solucion: Estimamos las desviaciones tpicas de

1
y

0
, por 0.9346 y 0.8680, respectiva-
mente.
General (Propiedades)
Modelo de regresi on: Recordamos que el modelo de regresi on lineal simple tiene la siguiente
expresi on:
Y =
0
+
1
x +,
donde N(0, ).
Propiedades:
1. Los estimadores

0
y

1
son VA y tienen una distribuci on normal.
URJC-DEIO C. Beltr an 116
4.3. Regresi on lineal simple
2. Los estimadores

0
y

1
son insesgados, es decir:
E(

0
) =
0
E(

1
) =
1
.
3. Las varianzas de

0
y

1
son:
V (

0
) =
2
_
1
n
+
x
2
S
xx
_
V (

1
) =

2
S
xx
.
Error estandar: El error estandar (se) corresponde a la estimaci on de la desviaci on tpica de

0
y de

0
. Se puede calcular mediante las f ormulas:
se(

0
) =


2
_
1
n
+
x
2
S
xx
_
se(

1
) =


2
S
xx
.
4.3.4. Regresi on y an alisis de varianza (ANOVA)
Ejemplo 56
Datos:
Ref: Montgomery 3
a
Ed., p agina 272.
Continuamos con el ejemplo de la concentraci on de sal.
En la nube de puntos observamos que a medida que aumenta x aumenta y.
Esta relaci on queda reejada en la recta de regresi on (estimada):
y = 2,6765 + 17,5467x.
Sin embargo, no todos los puntos est an sobre la recta de regresi on.
Es decir, la recta no explica toda la variabilidad de y.
Objetivo: Cuanticar la parte de la variaci on de la concentraci on de sal que es explicada por
el modelo de regresi on.
Operaciones 56: Para ello podemos recurrir al coeciente de determinaci on:
R
2
= 1
SS
E
SS
T
.
URJC-DEIO C. Beltr an 117
4.3. Regresion lineal simple
Dado que
SS
E
SS
T
=

n
i=1
(y
i
y
i
)
2

n
i=1
(y
i
y)
2
=
57,7
1187,9
tenemos que
R
2
= 1 0,0486 = 0,9514.
Solucion: El modelo de regresion explica el 95.14 % de la variacion de la concentraci
on de
sal como funcion de la superficie asfaltada.
General (Regresi on y an alisis de varianza - ANOVA)
An alisis de la varianza:
La variaci on total de una variable respuesta y se descompone en la variaci on
explicada por el modelo de regresi on m as la variaci on no explicada.
Variaci on Total = Variaci on explicada + Variaci on no explicada.
SS
T
= SS
R
+SS
E
n

i=1
(y
i
y)
2
=
n

i=1
( y
i
y)
2
+
n

i=1
(y
i
y
i
)
2
De donde
SS
T
SS
T
=
SS
R
SS
T
+
SS
E
SS
T
1 = R
2
+
SS
E
SS
T
y por tanto
R
2
= 1
SS
E
SS
T
.
Coeciente de determinaci on: Se representa por R
2
y corresponde a la parte de la variaci on
de la variable respuesta Y que es explicada por el modelo de regresi on.
Nota:
Los modelos de regresi on se usan principalmente para interpolaci on.
Es decir, a la hora de predecir nuevas observaciones de la variable respuesta Y para un
determinado valor de la variable explicativa x, deberamos usar s olo valores en el rango
de las xs usadas para construir el modelo.
URJC-DEIO C. Beltr an 118
4.4. Contraste de hip otesis en regresi on lineal
4.4. Contraste de hip otesis en regresi on lineal
Ejemplo 57
Datos: Continuamos con el ejemplo de la concentraci on de sal (Ref: Montgomery 3
a
Ed.,
p agina 275).
Objetivo:
Queremos contrastar estadsticamente si hay relaci on lineal entre la proporci on de
supercie asfaltada y la concentraci on de sal en la supercie de los ros.
Es decir, queremos contrastar si la pendiente
1
de la recta de regresi on es diferente
de cero.
Operaciones 57:
Podemos plantear el siguiente contraste de hipotesis:
H
0
:
1
= 0
H
1
:
1
, = 0
con un nivel de significacion (arbitrario) de = 0,01.
Para resolver este contraste usamos el estadstico T :
t
0
=

1
0
se(

1
)
=

_
1

2
/S
xx
=
17,5467
_
3,2/3,67068
= 18,77.
Dado que n = 20 (observaciones), el valor crtico es:
t

2
;n2
= t
0,005;18
= 2,88.
Y por tanto, considerando que t
0
> t
2

,n2
, aceptamos H
1
.
Solucion:
URJC-DEIO C. Beltran 119
4.4. Contraste de hip otesis en regresi on lineal
Figura 4.6: La hip otesis H
1
:
1
,= 0 es rechazada.
Figura 4.7: La hip otesis H
1
:
1
,= 0 aceptada.
Aceptamos H
1
y por tanto concluimos que la proporci on de supercie asfaltada ex-
plica, por lo menos parcialmente, la concentraci on de sal en la supercie de los ros
(nivel de signicaci on de = 0,01.).
Para concluir que hay relaci on lineal entre las dos variables estudiadas, deberamos
validar el modelo de regresi on, tal como veremos m as tarde.
General (Contrastes en regresi on)
Contraste para la pendiente - geometra:
La recta de regresi on puede tener pendiente nula por dos motivos (ver Figura 4.6):
1. Porque la variable explicativa y la variable explicada son independientes.
2. Porque la variable explicativa y la variable respuesta tienen una relaci on no
lineal.
La recata de regresi on puede tener pendiente no nula por dos motivos (ver Figu-
ra 4.7):
1. Porque la variable explicativa y la variable explicada dependen linealmente.
2. Porque la variable explicativa y la variable respuesta tienen una relaci on no
lineal.
URJC-DEIO C. Beltr an 120
4.4. Contraste de hip otesis en regresi on lineal
Contraste para la pendiente - Test T:
Supongamos que queremos contrastar:
H
0
:
1
=
1,0
H
1
:
1
,=
1,0
.
Para resolver este contraste usamos el estadstico T :
t
0
=

1,0
se(

1
)
=

1,0
_

2
/S
xx
.
Aceptamos H
1
si
[ t
0
[> t

2
,n2
Contraste para la pendiente - pendiente nula:
Un caso importante corresponde a contrastar si la pendiente es nula:
H
0
:
1
= 0
H
1
:
1
,= 0.
Rechazar H
1
indica que no hay relaci on lineal entre la variable explicativa y la
variable explicada (ver Figura 4.6)
Contraste para la ordenada en el origen - Test T:
Supongamos que queremos contrastar:
H
0
:
0
=
0,0
H
1
:
0
,=
0,0
.
Para resolver este contraste usamos el estadstico T :
t
0
=

0,0
se(

0
)
,
donde
se(

0
) =


2
_
1
n
+
x
2
S
xx
_
Aceptamos H
1
si
[ t
0
[> t

2
,n2
URJC-DEIO C. Beltr an 121
4.5. Intervalos en regresi on lineal
4.5. Intervalos en regresi on lineal
Estudiaremos :
Los intervalos de conanza para los par ametros de la recta de regresi on:

0
y
1
.
Los intervalos de previsi on para la variable respuesta:
Y
0
= Y [
x
0
.
4.5.1. Intervalos de conanza para
0
y
1
.
Ejemplo 58
Datos:
Ref: Montgomery 3
a
Ed., p agina 277.
Continuamos con el ejemplo de la concentraci on de sal.
Hemos aceptado que la pendiente es distinta de cero (
1
, = 0).
Objetivo: Calcular un intervalo de conanza 95 % para la pendiente de la recta de regresi on

1
.
Operaciones 58:
IC
0,95
(
1
) = [

1
t
0,025;18
se(

1
) ]
= [ 17,5467 2,101 0, 9346 ]
= [ 15,5831, 19,5103 ].
Soluci on: Un intervalo de conanza 95 % para la pendiente de la recta de regresi on es:
[ 15,58, 19,51 ]
General (Intervalos de conanza)
Intervalo para la pendiente:
Hip otesis: Suponemos que los errores son independientes y siguen una distribuci on
normal.
URJC-DEIO C. Beltr an 122
4.5. Intervalos en regresi on lineal
Bajo esta hip otesis, un intervalo de conanza para la pendiente
1
puede calcularse
como:
IC
1
(
1
) =
_

1
t

2
;n2
se(

1
)
_
donde
se(

1
) =


2
S
xx
.
Intervalo para la ordenada en el origen:
Similarmente al caso anterior, un intervalo de conanza para la ordenada en el origen

0
puede calcularse como:
IC
1
(
0
) =
_

0
t

2
;n2
se(

0
)
_
donde
se(

0
) =


2
_
1
n
+
x
2
S
xx
_
4.5.2. Intervalos de previsi on para Y
Ejemplo 59
Datos:
Ref: Montgomery 3
a
Ed., p agina 281.
Continuamos con el ejemplo de la concentraci on de sal.
Objetivo: Calcular un intervalo de predicci on al 95 % para la concentraci on de sal Y en una
cuenca hidrogr aca con un 1.25 % de supercie cubierta por carreteras:
IP
0,95
(Y [
x=1,25
).
Operaciones 59:
Podemos usar el siguiente intervalo de prediccion:
IP
1
(Y
0
) =
_
y
0
t

2
; n2
se(Y
0
Y

0
)
_
,
donde
Y
0
= Y [
x
0
Y

0
=

0
+

1
x
0
se(Y
0
Y

0
) =
2
_
1 +
1
n
+
(x
0
x)
2
S
xx
_
URJC-DEIO C. Beltr an 123
4.5. Intervalos en regresion lineal
Dado que x
0
= 1,25, tenemos que el centro del intervalo viene dado:
y
0
= 2,6765 + 17,5467 1,25 = 24,61.
Por otro lado = 0,05 y n = 20, por lo que el correspondiente percentil es:
t
0,025;18
= 2,101.
El radio del intervalo es proporcional a:

se(Y
0
Y

0
) = 3,2
_
1 +
1
20
+
(1, 25 0,824)
2
3,67068
_
= 1,8757
Con lo que podemos concluir:
IP
0,95
(Y [
x=1,25
) = [ 24,61 2,101 1,8757 ]
= [ 20,66, 28,55 ]
Soluci on: Con una conanza del 95 %, la concentraci on de sal en una cuenca hidrogr aca con
un 1.25 % de supercie cubierta por carreteras estar a en el intervalo de predicci on:
IP
0,95
(Y [
x=1,25
) = [ 20,66, 28,55 ] mg/l.
General (Predicci on de nuevas observaciones)
Predicci on: Una aplicaci on importante de los modelos de regresi on es la predicci on de nuevas
o futuras observaciones Y correspondientes a un valor concreto x
0
de la variable explica-
tiva.
Predicci on puntual: Una predicci on (estimaci on) puntual de Y en x
0
se puede obtener mediante
y
0
, que se calcula mediante la recta de regresi on:
y
0
=

0
+

1
x
0
,
Predicci on por intervalo: Una predicci on (estimaci on) de Y en x
0
por intervalo de predicci on
(1 ) se puede obtener mediante:
IP
1
(Y
0
) =
_
y
0
t

2
; n2
se(Y
0


Y
0
)
_
,
donde
Y
0
= Y [
x
0

Y
0
=

0
+

1
x
0
se(Y
0


Y
0
) =


2
_
1 +
1
n
+
(x
0
x)
2
S
xx
_
URJC-DEIO C. Beltr an 124
4.5. Intervalos en regresi on lineal
Figura 4.8: Franja de predicci on (conanza 95 %), marcada con
Franja de predicci on: Si calculamos el anterior intervalo de predicci on para cada valor de x
0
,
obtenemos una franja de predicci on (Figura 4.8).
4.5.3. Ejercicios
URJC-DEIO C. Beltr an 125
4.6. Protocolo del modelo de regresi on lineal
4.6. Protocolo del modelo de regresi on lineal
General (Protocolo del modelo de regresi on lineal simple)
De cara usar el modelo de regresi on lineal simple en inferencia estadstica, seguiremos los sigu-
ientes pasos:
1. Recopilar una muestra de pares de datos de las variables de inter es:
D = (x
1
, y
1
), . . . , (x
n
, y
n
),
2. Representar el diagrama de dispersi on de D.
3. Validar el modelo de regresi on lineal simple (desarrollado en las secciones siguientes).
4. Usar las herramientas de inferencia m as adecuadas para cada situaci on:
a) Recta de regresi on.
b) Contrastes de hip otesis.
c) Intervalos de conanza.
d) Intervalos de predicci on.
4.6.1. Validaci on del modelo de regresi on
Ejemplo 60
Datos:
Ref: Montgomery 3
a
Ed., p agina 282.
Continuamos con el ejemplo de la concentraci on de sal.
Objetivo: Vericar si el modelo de regresi on lineal es adecuado para este caso (validaci on del
modelo).
Operaciones 60:
Para validar el modelo, debemos analizar los errores (analisis de errores o an
alisis de residuos):
e
i
= y
i
y
i
con i = 1, . . . , 20.
En nuestro caso tenemos:
2,210 0,591 . . . 0,598.
URJC-DEIO C. Beltr an 126
4.6. Protocolo del modelo de regresi on lineal
Figura 4.9: Plot de los residuos versus los valores estimados de y.
Figura 4.10: Plot de probabilidad normal de los residuos e
i
.
En primer lugar, verificamos graficamente si estos errores son independientes,
con media cero y varianza constante.
Observando la Figura 4.9 podemos aceptar las hipotesis de errores
independientes, con media cero y varianza constante.
En segundo lugar, verificamos si los residuos tienen una distribucion normal.
Para ello representamos el plot de probabilidad normal correspondiente.
Observando la Figura 4.10 podemos aceptar las hipotesis de normalidad.
Solucion: Podemos aceptar que se cumplen las hipotesis del modelo de regresion
lineal:
errores independientes, normales, con media cero y varianza constante.
General (Validaci on del modelo de regresi on)
URJC-DEIO C. Beltr an 127
4.7. Correlaci on y regresi on
Figura 4.11: Algunos patrones de los residuos e
i
: (a) satisfactorio, (b)
embudo, (c) doble arco, (d) no lineal ((b), (c) y (d) no son satisfactorios).
Hip otesis: El modelo de regresi on lineal presupone que los errores
i
, con i = 1, . . . , n, son
variables aleatorias:
Independientes.
Con distribuci on normal.
Media cero.
Varianza constante.
Es decir, las siguientes variables aleatorias son independienes

i
N(0,
2
) con i = 1, . . . , n.
Validaci on del modelo:
Para validar el modelo, debemos analizar los errores observados:
e
i
= y
i
y
i
con i = 1, . . . , n.
En primer lugar, realizamos un an alisis de los residuos: vericamos gr acamente si
estos errores son independientes, con media cero y varianza constante.
Algunos patrones tpicos del comportamiento de los errores puede verse en la Figu-
ra 4.11
En segundo lugar, realizamos un an alisis de normalidad.
4.7. Correlaci on y regresi on
General
Coeciente de correlaci on muestral r:
Se calcula mediante la f ormula:
r =
S
xy
_
S
xx
S
yy
URJC-DEIO C. Beltr an 128
4.7. Correlaci on y regresi on
Mide la dependencia lineal entre dos variables X e Y .
El valor de r est a en en intervalo [1, 1] y no tiene unidades.
Valores de r cercanos a 0 indican que entre las variables X e Y no hay depen-
dencia lineal.
Valores de [r[ cercanos a 1 indican que las variables X e Y hay dependencia
lineal.
Para m as detalles ver la Secci on 1.3.2.
Correlaci on y regresi on:
r corresponde a la la raz cuadrada del coeciente de determinaci on R
2
, toman-
do como signo de r el signo de la pendiente de la recta de regresi on.
4.7.1. Ejercicios
URJC-DEIO C. Beltr an 129
4.8. Regresi on lineal m ultiple
Figura 4.12: Placa base.
4.8. Regresi on lineal m ultiple
Ejemplo 61
Datos:
Ref: Montgomery 3
a
Ed., p agina 12.
Consideramos una planta de fabricaci on de semiconductores y placas base.
En esta planta, cada semiconductor es conectado a una placa base mediante un cable.
Las variables que se quiere estudiar son:
Y = Resistencia de la conexi on (fuerza necesaria para arrancar el semicon-
ductor de la placa base).
x
1
= Longitud del cable que conecta el semiconductor a la placa base.
x
2
= Altura del semiconductor.
En la Tabla 4.2 tenemos los datos correspondientes a 25 observaciones de (Y, x
1
, x
2
).
Objetivo: Construir un modelo de regresi on lineal m ultiple para explicar la resistencia de la
conexi on Y a partir de la longitud del cable de conexi on x
1
y de la altura del semiconductor
x
2
.
Operaciones 61:
En primer lugar representamos los diagramas de dispersion de cada variable
ex-plicativa (Figura 4.13).
URJC-DEIO C. Beltr an 130
4.8. Regresi on lineal m ultiple
Tabla 4.2: Datos del ejemplo de la placa base.
Figura 4.13: Diagramas de dispersi on.
URJC-DEIO C. Beltr an 131
4.8. Regresi on lineal m ultiple
Figura 4.14: Plano de regresion.
El modelo de regresion que estamos buscando es:
Resistencia =
0
+
1
Longitud +
2
Altura
Y =
0
+
1
x
1
+
2
x
2
Se puede ver que el modelo de regresion estimado viene dado por (Montgomery,
3
a
Ed., pagina 288):
y = 2,2638 + 2,7443 x
1
+ 0,0125 x
2
.
Esta ecuacion corresponde al denominado plano de regresion.
La representacion del plano de regresion puede verse en la Figura 4.14
Este plano intenta aproximar la nube de puntos representado en la Figura 4.15
Soluci on: El modelo de regresi on lineal m ultiple que explica la resistencia de la conexi on Y
a partir de la longitud del cable de conexi on x
1
y de la altura del semiconductor x
2
, viene
dado por:
y = 2,2638 + 2,7443 x
1
+ 0,0125 x
2
.
General
Regresi on lineal m ultiple:
Generaliza el modelo de regresi on lineal simple al caso de dos o m as variables
independientes.
Por simplicidad, nos centraremos en el caso de s olo dos variables independientes.
Los resultados que exponemos en esta secci on pueden ser f acilmente adaptados para
el caso de m as de dos variables independientes.
URJC-DEIO C. Beltr an 132
4.8. Regresi on lineal m ultiple
Figura 4.15: Diagrama de dispersi on (tridimensional).
El modelo de regresi on lineal m ultiple para dos variables independientes es:
Y =
0
+
1
x
1
+
2
x
2
+,
donde N(0, ).
Mnimos cuadrados - problema:
La el plano de regresi on corresponde al plano que mejor se ajusta a la nube de
puntos seg un el criterio de los mnimos cuadrados.
La estimaci on de = (
0
,
1
,
2
) por el criterio de los mnimos cuadrados, resuelve
el siguiente problema de optimizaci on:
mn
R
3
L() =
n

i=1
[
i
()]
2
,
donde tenemos los errores o residuos.

i
() = y
i
y(x
i
)
= y
i

1
x
1

2
x
2
.
Mnimos cuadrados - optimizaci on:
Se puede demostrar que L() es una funci on convexa.
En ese caso, para encontrar un mnimo es suciente encontrar un

que anule el
gradiente de L:
L(

) = (0, 0, 0),
el cual corresponde a un sistema lineal de tres ecuaciones con tres inc ognitas.
Para m as detalles puede consultarse Montgomery, 3
a
edici on, pag. 287.
Mnimos cuadrados - software:
En regresi on lineal m ultiple normalmente se requiere efectuar c alculos tediosos.
Por ese motivo se recurre a menudo a software especializado.
URJC-DEIO C. Beltr an 133
4.8. Regresi on lineal m ultiple
En el caso de Matlab, podemos usar los siguientes comandos: regress, regstats,
scatter, plot, etc.
Ejemplo 62
Datos:
Ref: Montgomery 3
a
Ed., p agina 290.
Continuamos con el fabricante de semiconductores y placas base (ejemplo anteri-
or).
Objetivo:
1. Estima la desviaci on tpica del modelo de regresi on m ultiple.
2. Calcula el coeciente de determinaci on m ultiple:
a) Para el caso de usar las dos variables explicativas:
R
2
(x
1
, x
2
)
b) Para el caso de usar s olo la variables explicativa x
1
:
R
2
(x
1
)
c) Vale la pena incorporar la segunda variable explicativa (x
2
, altura del semi-
conductor) al modelo de regresi on?
Operaciones 62:
1. La varianza asociada al plano de regresion
2
, se puede estimar como:

2
=
SS
E
n 3
=
115,2
(25 3)
= 5,2
Por tanto estimamos la desviacion tpica como
=
_
5,2 = 2,28
2. Veamos ahora los coeficientes de determinacion multiple:
a)
El coeficiente de determinacion multiple asociado a las variables x
1
, x
2
corre-sponde a:
R
2
(x
1
, x
2
) = 1
SS
E
SS
T
= 1
115,2
6105,9
= 0,981,
URJC-DEIO C. Beltr an 134
4.8. Regresi on lineal m ultiple
es decir, el modelo de regresion basado el las variables x
1
, x
2
, explica
aproxi-madamente el 98.1 % de la variabilidad observada en la resistencia del
cable de conexion.
b) Analogamente se puede calcular el coeficiente de determinacion asociado a
la variable x
1
:
R
2
(x
1
) = 0,964
es decir, el modelo de regresion basado el la variable x
1
, explica
aproximada-mente el 96.4 % de la variabilidad observada en la resistencia
del cable de conexion.
Soluci on:
1. La desviaci on tpica estimada es 2,28.
2. a) El coeciente de determinaci on m ultiple es 98.1 % para el caso de usar dos
variables explicativas (x
1
, x
2
).
b) El coeciente de determinaci on m ultiple es 96.4 % para el caso de usar una
unica variable explicativa (x
1
).
c) Dado que al a nadir la variable explicativa x
2
(altura del semiconductor) s olo
aumentamos en un 1.7 % la variabilidad explicada, dependiendo de la situaci on,
valdr a la pena o no incorporar la variable x
2
al modelo de regresi on.
General
Varianza del plano de regresi on: La varianza asociada al plano de regresi on
2
, se puede
estimar como:

2
=
SS
E
n 3
,
donde
SS
E
=
n

i=1
e
2
i
=
n

i=1
(y
i
y
i
)
2
es la suma de los errores al cuadrado.
Coeciente de determinaci on m ultiple:
Es id entico al coeciente de determinaci on usado en regresi on lineal simple.
R
2
= 1
SS
E
SS
T
.
Como ya vimos, se representa por R
2
y corresponde a la parte de la variaci on de la
variable respuesta Y explicada por el modelo de regresi on.
URJC-DEIO C. Beltr an 135
4.8. Regresi on lineal m ultiple
4.8.1. Ejercicios
URJC-DEIO C. Beltr an 136

Вам также может понравиться