Вы находитесь на странице: 1из 23

Contenido Apunte de Probabilidades y estadsticas: Distribucin de la media de un muestreo. Teorema del lmite central. Ejemplos.

DISTRIBUCION DE LA MEDIA DE UN MUESTREO


Sea X1, X2, ..., Xn una muestra aleatoria de una distribucin con valor medio y desviacin estndar . Entonces: 1. E(X) = x = 2. V(X) = x = /n y x = /n Adems, con T0 = X1 + X2 + ... + Xn (la muestra total), E(T0) = n., V(T0) = n. , y .T0 = n..

N: nmero de muestras. n: nmero de muestras en el subconjunto extrado del conjunto madre de N muestras. x = x x = /n x = /n A medida que aumentan las muestras, la variabilidad disminuye. Sea X1, X2, ..., Xn una muestra aleatoria de una distribucin normal con valor medio y desviacin estndar . Entonces, para cualquier n, X est normalmente distribuida (con media y desviacin estndar /n), como es T0(con media n. desviacin estndar n.).

TEOREMA DEL LIMITE CENTRAL


Teorema: Sea X1, X2, ..., Xn una muestra aleatoria de una distribucin con media y varianza . Entonces, si n es suficientemente grande, X tiene aproximadamente una distribucin normal con x = y x = /n, y T0 tiene tambin aproximadamente una distribucin normal con T0 = n., T0 = n. . Cuanto mas grande sea el valor de n, mejor ser la aproximacin. El Teorema del Lmite Central garantiza una distribucin normal cuando n es suficientemente grande Si n > 30, se puede usar el TLC. Si la distribucin madre es normal, la distribucin de la media muestral tambin es normal, independientemente del tamao. x N(x; x) x N(x; x) Ejemplo 1: Si se sabe que la dureza Rockwell de pernos de cierto tipo tiene un valor medio de 50 y desviacin estndar de 1,5. a) Si la distribucin es normal, cul es la probabilidad de que la dureza muestral media para una muestra aleatoria de 9 pernos sea por lo menos 52? b) Cul es la probabilidad (aproximada) de que la dureza muestral media para una muestra aleatoria de 40 pernos sea al menos 52? x = 50 = 1,5 x N(50; 1,5) a) n=9 x = 52 x N(50; 1,5.9) z = (x - )/(/n)

La probabilidad de que la media muestral sea superior a 52 es:

P(x 52) =

P(z 4) = 0

Con el valor de z obtenido de tablas: P(z1 z z2) = (z)

P(x1 x x2) =

Tener en cuenta que los valores para: (z) = P(z z1) b) n = 40 Con el valor de z obtenido de tablas:

P(x 52) =

P(z 8,4327) = 0

INTERVALO DE CONFIANZA 1) Para la media de una poblacin normal: Li/s = x z/2./n


Tener en cuenta que una confianza del 95% significa: /2 = 0,95 p=1-q p = x/n

2) Para la media X :
Li/s = x t(n - 1)(1 - /2).S/n t(,v) se busca en tabla

3) Para la varianza S:

X(,v) se busca en tabla

4) Para el desvo estndar S:

5) Para muestras grandes: Un intervalo de confianza 100(1 - )% para la proporcin p de una poblacin, de muestras grandes, es: p z/2p.q/n

Dnde p = x/n, n tamao muestral, x es el nmero observado de xitos, y q = 1 - p. Este intervalo se puede emplear siempre que n.p 5 y n.q 5. Ejemplo: El gerente financiero de una gran cadena de tiendas seleccion una muestra aleatoria de 200 de sus clientes que utilizan tarjetas de crdito, y encontr que 136 haban incurrido en cargos por intereses durante el ao anterior debido a falta de pago de sus saldos.

a) Calcule un intervalo de confianza de 95% para la verdadera proporcin de clientes que utilizan tarjetas de crdito, quienes han incurrido en cargos por intereses durante el ao anterior. b) Si la longitud deseada del intervalo de 90% es 0,05, qu tamao muestral es necesario para asegurar esto? c) Calcule el intervalo de confianza de 82% para la verdadera proporcin.

n = 200 x = 136 a) Para 1 - /2 = 0,95 p = x/n p = 136/200 = 0,68 p = 1 - q q = 1 - p q = 1 - 0,68 = 0,32 Li/s = p z(1 - /2).p.q/n Li/s = 0,68 z( 0,95).0,68.0,32/200 De tabla z(0,95) = 1,645 Li/s = 0,68 1,645.0,33 Li/s = 0,68 0,054

(0,626; 0,734)
b) n = [z(1 - /2) .p.q]/L n = 1,645 .0,5.0,5/(0,25 ) Sin sondeo previo tomar p = q = 0,5

n = 10,82 clientes
c) Para el 82% Li/s = p z(1 - /2).p.q/n = 0,82 1 - = 0,18 /2 = 0,09 1 - /2 = 0,91 De tabla e interpolando z(1 - /2) = 1,3425 Li/s = 0,68 z(0,91).0,68.0,32/200 De tabla z(0,91) = 1,645 Li/s = 0,68 1,3425.0,33 Li/s = 0,68 0,0443 Contenido Apunte de Probabilidades y estadsticas: Variable aleatoria discreta. Variable aleatoria continua. Esperanza. Variancia de una variable aleatoria. Teorema de Bayes.

VARIABLE ALEATORIA
Dado un experimento aleatorio y su correspondiente espacio muestral se denomina variable aleatoria a la funcin que asigna a cada elemento del espacio muestral un nmero real. X: S R/X(s) x Ejemplo: Si se define la variable aleatoria X = nmero de caras obtenidas al arrojar dos monedas

Qu valores puede tomar x? X(SS) = 0 X(CS) = X(SC) = 1 X(CC) = 2 Se denomina recorrido Rx al conjunto de valores que puede tomar la variable.

VARIABLE ALEATORIA DISCRETA


Una variable aleatoria es discreta cuando toma un nmero contable de valores.Entonces entre dos valores consecutivos de una variable aleatoria discreta no hay ningn nmero que pertenezca al recorrido de la variable Rx = {X1;X2;...,Xn,...} donde cada Xi es un valor de la v.a. En general , estos valores no sern igualmente probables, sino que cada X tendr asignada una probabilidad. Luego, para caracterizar una variable aleatoria discreta es necesario conocer su recorrido y la probabilidad de cada elemento del recorrido Sigamos con el ejemplo X = Cantidad de caras al tirar dos monedas P(X = 0) = P(SS) = P(X = 1) = P(SC;CS) = P(X = 2) = P(CC) =

Funcin de distribucin de probanilidad

Propiedades 1) P(Xi) 0 Xi 2) P(xi) = 1

VARIABLE ALEATORIA CONTINUA


Una variable es continua en un intervalo cuando puede tomar cualquier valor perteneciente al intervalo. En general definiremos variables aleatorias continuas cuando las experiencias consistan en medir peso, altura, longitud, tiempo, temperatura, etc. En este caso se define (en lugar de la funcin de distribucin) una funcin de densidad de probabilidad que tiene las siguientes propiedades

1) f(x) 0 X R 2) f(x).dx = 1 f(x).dx

3) a < b P(a x b) =

ESPERANZA DE UNA VARIABLE ALEATORIA


La esperanza es un parmetro de la distribucin. Es una medida de tendencia central. Si X es discreta:

= E(X) =
Si X es continua

xi.p(xi)

= E(X) = x.f(x).dx
La esperanza E(x) no es un resultado que esperararamos cuando X se observa slo una vez. Pero si observramos un gran nmero de observaciones independientes de X el promedio de esos resultados estar cerca de E(x).

Ejemplo:
En una operacin comercial se puede obtener una utilidad de $1000 o sufrir una prdida de $500. Si la probabilidad de una utilidad es de 0,6, demuestre que la utilidad esperada en dicha operacin es de $400. Primero definimos la variable aleatoria X = utilidad en operacin comercial = E(X) = xi.p(xi)

E(X) = 1000*0,6+(-500)*0,4 E(X) = 400

PROPIEDADES DE LA ESPERANZA
Sean X e Y variables aleatorias y c una constante perteneciente a los reales: 1) E (c ) = c 2) E (X+c ) = E(X) + c 3) E (cX) = c E(X) 4) E (X+Y) = E(X) + E(Y) 5) E (X-Y) = E(X) - E(Y) 6) Si X e Y son independientes E (XY) = E(X) * E(Y)

VARIANCIA DE UNA VARIABLE ALEATORIA


La variancia es un parmetro de la distribucin. Es una medida de dispersin de los valores de x alrededor de E(X)

Var(X) = = E(X - ) Var(X) = = E(X - [E(X)]) PROPIEDADES DE LA VARIANCIA


Sean X e Y variables aleatorias y c una constante perteneciente a los reales: 1) V (c ) = 0 2) V (X + c ) = V(X) 3) V (cX) = c2 V(X) 4) Si X e Y son independientes V (X + Y) = V(X) + V(Y) 5) Si X e Y son independientes V (X - Y) = V(X) + V(Y)

TEOREMA DE Bayes

REPASANDO CONCEPTOS DE CONTEO

Permutaciones: Algunos arreglos de r objetos seleccionados de n posibles objetos.


n.Pr = n! / (n - r)

Nota: El orden de los arreglos es importante en las permutaciones.

Combinaciones: El nmero de formas de elegir r objetos de un grupo de n objetos sin considerar el orden.
n.Cr = n! / r!.(n - r)

Distribuciones Discretas y Continuas Binomial y Normal La Distribucin Binomial

Llamaremos experimento dicotmico a un experimento aleatorio cuyos resultados posibles son slo dos, o nos interesa
considerarlos como dos. Por ejemplo:

1) Lanzar una moneda y observar si sale cara o cruz. 2) Sacar una carta de una baraja y observar si es una figura o no lo es. 3) Elegir una ficha de un domin y observar si el total de sus puntos es un nmero par o impar. En este tipo de experiencias a uno de los dos resultados posibles se le suele llamar "xito" y a su contrario "fracaso". A la
probabilidad del suceso llamado xito se la suele representar por p y a la de su contrario por q. Se verifica, claro est, quep+q = 1 (Por qu?) . En los ejemplos anteriores podramos considerar:

1) xito = "cara", fracaso = "cruz" y, si la moneda no est trucada, p = q = 1/2. 2) xito = "figura", fracaso = "no figura" y, en una baraja espaola, p = 12/40 y q = 28/40. 3) xito = "suma par", fracaso = "suma impar" Cunto valdran p y q? Un experimento binomial consiste en repetir una cierta cantidad de veces, y siempre en las mismas condiciones, un
experimento dicotmico. Llamaremos "tirada" a cada una de las veces que repetimos el experimento dicotmico. Por ejemplo, son experimento binomiales:

1) Lanzar una misma moneda repetidas veces y observar el nmero de caras (xitos) obtenidas. 2) Sacar, con reemplazamiento, varias cartas de una misma baraja y observar el nmero de figuras (xitos) obtenidas. 3) Extraer, con reemplazamiento, varias fichas de un domin y observar la cantidad de veces que obtenemos una en la que el
nmero total de puntos que aparece es par.

Vamos a representar por B(n,p) a una binomial con n tiradas y probabilidad de xito igual a p. Puede interesar conocer cual es la probabilidad que de las n pruebas, salgan exactamente x0 casos favorables a A; o bien
calcular la probabilidad que los casos A sean entre x1 y x2, ambos menores que n. Conceptualmente puede decirse que x es una variable aleatoria discreta que toma valores entre 0 (puede no aparecer nunca el suceso) y n (puede aparecer siempre) . Es decir que el campo de definicin de la variable es: 0 x n.

Bajo estas condiciones Bernoulli desarroll la distribucin de probabilidad denominada Binomial, cuya expresin matemtica,
P(x) , est dada por:

P(x) = C n,x.px.qn - x
Donde: x es la variable aleatoria que vara entre 0 y n. n y p son los datos o parmetros (*) de la distribucin Binomial.

C n,x =
(Nmero combinatorio)

n! n!.(n - x) !

Ejemplo de Binomial
De los pinos integrantes de un extenso bosque, un 20 % se encuentra afectado por un hongo parsito. Si se seleccionan al azar 4 pinos, calcular la probabilidad que los afectados por el hongo sean: a) Exactamente 2 b) Ms de uno Respuesta: Anlisis de las caractersticas del problema: Se realizan 4 observaciones al azar (n = 4 es un dato) Ante cada observacin, los pinos pueden estar A = afectado (por el hongo) ; = no afectado. Es decir dos resultados posibles en cada prueba. No se tienen elementos para decir que la probabilidad de que cada pino observado vare de uno a otro, es decir: p = 0,2 probabilidad de que cada uno de los pinos est afectado. Ser entonces: q = 0,8 probabilidad de pino no afectado.

Las preguntas planteadas se refieren a la cantidad de pinos que resultarn estar afectados (x = variable). Se dan exactamente las condiciones exigidas para utilizar la Distribucin Binomial, y para calcular la probabilidades pedidas, es posible aplicar su funcin. a) P(x = 2) = C4,2.0,2.0,8(4 - 2) = 6.0,04.0,64 = 0,1536 b) P(x>1) = C4,x.0,2x.0,84 - x Sumatoria desde x = 2 hasta 4. P(x>1) = 0,1536 + 4.0,008.0,8 + 1.0,0016.1 = 0,1536 + 0,0256 + 0,0016 = 0,1808 Tambin se podra haber calculado como: 1 - P(x < 2).

La Distribucin Normal
A lo largo de la historia, matemticos como De Moivre, Gauss o Galton se sorprendieron por la frecuencia con la que aparece la llamada curva Normal o de Gauss en estudios estadsticos tan aparentemente distintos como la distribucin de alturas de un grupo de personas, la resistencia de un tipo determinado de piezas, el nmero total de caras que obtenemos al lanzar reiteradamente una moneda, y muchos otros. La curva normal, como cualquier otra curva de probabilidad, verifica que:

el rea total que limita con el eje de abscisas es igual a 1. la probabilidad de la variable X tome valores entre a y b coincide con el rea limitada por la curva, el eje OX y las rectas x = a y
x = b.

la probabilidad de que X tome un valor concreto es igual a 0. Por qu? No existe una nica curva normal; su grfica, como vas a observar en la siguiente escena, depende de su media, y de su
desviacin tpica.

Normal

Distribuciones de probabilidad normales La distribucin de probabilidad normal (D.P.N.) se considera como la distribucin de probabilidad ms importante. Hay una
cantidad ilimitada de variables aleatorias continuas que tienen una distribucin normal o aproximadamente normal. La D.P.N. tiene una variable aleatoria continua y usa dos funciones: una para determinar las ordenadas (valores de y) de la grfica que representa la distribucin, y otra para determinar probabilidades. La siguiente frmula expresa la ordenada que corresponde a cada abscisa y de denomina funcin de distribucin de probabilidad normal:

para toda x real. Cuando se traza una grfica de tales puntos, aparece la curva normal (en forma de campana) como se muestra en el siguiente
grfico:

La probabilidad asociada con el intervalo a x b est dada por:

P(a x b) = La Distribucin Normal Estandard

f(x).dx

Hay un nmero ilimitado de distribuciones de probabilidad normal, aunque afortunadamente todas estn relacionadas con una
distribucin, la distribucin normal Estandard.

Propiedades de la Distribucin Normal Standard El rea total bajo la curva normal es igual a 1. La distribucin tiene forma de campana y es simtrica; se extiende en ambas direcciones y el eje x es su asntota. Tiene media igual a 0 y desviacin standard igual a 1. La media divide el rea en dos mitades. Casi toda el rea est entre z = -3 y z = +3.
Ejemplo:
En una granja modelo de la Provincia de Entre Ros, en un momento determinado de su desarrollo, los cerdos que producen tienen en cuanto a su peso, una distribucin Normal con un promedio de 75 kg. y un desvo estndar de 6 kg. Es decir: x ~ N (75 , 6) a variable Normal Estndar ser: z = (x - )/ = (x - 75)/6 Donde: z ~ N (0,1) Con esa informacin calcular: P( - k < x < + k.) = P(- k. < x - < k.) = P(- k < (x - )/ < k) = Dndole valores a k se tiene: Para k = 1 P(|z| < 1) = P(-1 < z < 1) = F(1) - F(-1) = 0.84134 - 0.15866 = 0,68268 El 68 % de los cerdos tendrn pesos comprendidos entre un desvo estndar en ms y en menos de la media (es decir entre 69 y 81 kg.) ( ) Para k = 2 P(|z| < 2) = P(-2 < z < 2) = F(2) - F(-2) = 0.97725 - 0.02275 = 0,9545 El 95 % de los cerdos tendrn pesos comprendidos entre dos desvos estndar en ms y en menos de la media (es decir entre 63 y 87 kg.) ( 2.) Para k = 3 P(|z| < 3) = P(-3 < z < 3) = F(3) - F(-3) = 0.99865 - 0.00135 = 0,9973 Casi el 100% (99.73%) de los cerdos tendrn pesos entre tres desvos estndar en ms y en menos de la media (es decir 57 y 93 kg.) ( 3.) b) P(x > 72) = P (z > (x - 75) /6 = -0.50) = 1 - F(-0.50) = 1 - 0.19146 = 0,80854 El 81 % de los cerdos tendrn pesos superiores a 72 kg. c) P (69 < x < 87) = P (-1 < z < 2) = F(2) - F(-1) = 0.97725 - 0.15866 = 0,81859 El 82 % de los cerdos tendrn pesos comprendidos entre 69 y 87 kg. d) De 20 cerdos elegidos aleatoriamente, cuntos se esperan que pesen ms de 81 kg.? = 20. P(x > 81) = 20 . P (z > 1) = 20.[1 - F(1)] = 20.(1 - 0,84134) = 20.0,15866 = 3,1732 cerdos Se espera que tres (o cuatro) cerdos tengan pesos superiores a 81 kg. e) Cul es el peso que es superado por el 10 % de los cerdos?: Con las Tablas que se dispone para este Curso, se tienen algunos valores: P (x > x0) = ~ 0,10 P (z > z0) = ~ 0,10 z0 = 1,28; o bien P (z z0) = ~ 1 - 0,10 F (z0) = ~ 0,90 no disponible en las Tablas. Si z = (x - ) / x = z . + ; y para x0 ser: x0 = 1,28 . 6 + 75 = 82,68 kg. El peso de los cerdos que es superado por el 10 % de ellos es 82,68 kg. f) Determinar el valor de peso que supera al 5 % de los cerdos: P (x < x0) = P (z < z0) = 0,05; de donde surge que z0 es un valor negativo y simtrico a: P (z > z0) = 0,05; z0 = 1,645 y ser:

z0 = - 1,645 x0 = - 1,645.6 + 75 = 65,03 kg.

Anlisis de Regresin y Correlacin Introduccin


Muchas veces las decisiones se basan en la relacin entre dos o ms variables.Ejemplos Dosis de fertilizantes aplicadas y rendimiento del cultivo. La relacin entre la radiacin que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observados en dichas parcelas. Relacin entre tamao de un lote de produccin y horas -hombres utilizadas para realizarlo. Distinguiremos entre relaciones funcionales y relaciones estadsticas

Relacin funcional entre dos variables


Una relacin funcional se expresa mediante una funcin matemtica. Si X es la variable independiente e Y es la variable dependiente, una relacin funcional tiene la forma: Y=f(X)

Ejemplo 1 Parcela
1 2 3

Dosis
75 25 130

Rendimiento(kg/h)
150 50 260

Figura 1 Relacin funcional perfecta entre dosis y rendimientos

Nota: Las observaciones caen exactamente sobre la lnea de relacin funcional

Relacin estadstica entre dos variables


A diferencia de la relacin funcional, no es una relacin perfecta, las observaciones no caen exactamente sobre la curva de relacin entre las variables

Ejemplo 2 Lote de productos


1 2 3 4 5

Tamao del lote


30 20 60 80 40

Horas hombre
73 50 128 170 87

Figura 2 Relacin estadstica entre tamao del lote y horas hombre

Nota: La mayor parte de los punto no caen directamente sobre la lnea de relacin estadstica. Esta dispersin de punto alrededor de la lnea representa la variacin aleatoria

Figura 3 Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen satelital

Nota: se trata de un terreno rugoso donde varan notablemente las condiciones de observacin del sensor, para corregir errores geomtricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la relacin estadstica es de tipo curvilnea.

Conceptos bsicos
Anlisis de Regresin: Es un procedimiento estadstico que estudia la relacin funcional entre variables.Con el objeto de predecir una en funcin de la/s otra/s. Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas para medir la intensidad de la relacin entre dos variables Diagrama de Dispersin: Es un grfico que muestra la intensidad y el sentido de la relacin entre dos variables de inters. Variable dependiente (respuesta, predicha, endgena): es la variable que se desea predecir o estimar Variables independientes (predictoras, explicativas exgenas). Son las variables que proveen las bases para estimar. Regresin simple: interviene una sola variable independiente Regresin mltiple: intervienen dos o ms variables independientes. Regresin lineal: la funcin es una combinacin lineal de los parmetros. Regresin no lineal: la funcin que relaciona los parmetros no es una combinacin lineal

Grfico de dispersin
Los diagramas de dispersin no slo muestran la relacin existente entre variables, sino tambin resaltan las observaciones individuales que se desvan de la relacin general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

Grfico de dispersin entre Bandas

Coeficiente de correlacin lineal


El Coeficiente de Correlacin (r) requiere variables medidas en escala de intervalos o de proporciones - Vara entre -1 y 1. - Valores de -1 1 indican correlacin perfecta. - Valor igual a 0 indica ausencia de correlacin. - Valores negativos indican una relacin lineal inversa y valores positivos indican una relacin lineal directa

Correlacin Negativa Perfecta

Correlacin Positiva Perfecta

Ausencia de Correlacin

Correlacin Fuerte y Positiva

Frmula para el coeficente de correlacin (r) Pearson

Modelos de Regresin
Un modelo de regresin, es una manera de expresar dos ingredientes esenciales de una relacin estadstica: - Una tendencia de la variable dependiente Y a variar conjuntamente con la variacin de la o las X de una manera sistemtica - Una dispersin de las observaciones alrededor de la curva de relacin estadstica Estas dos caractersticas estn implcitas en un modelo de regresin, postulando que: - En la poblacin de observaciones asociadas con el proceso que fue muestreado, hay una distribucin de probabilidades de Y para cada nivel de X. - Las medias de estas distribuciones varan de manera sistemtica al variar X.

Representacin grfica del modelo de Regresin Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Anlisis de Regresin

Objetivo: determinar la ecuacin de regresin para predecir los valores de la variable dependiente (Y) en base a la o las
variables independientes (X).

Procedimiento: seleccionar una muestra a partir de la poblacin, listar pares de datos para cada observacin; dibujar un
diagrama de puntos para dar una imagen visual de la relacin; determinar la ecuacin de regresin.

Supuestos de Regresin Lineal Clsica

Cada error est normalmente distribuido con:


- Esperanza de los errores igual a 0 - Variancia de los errores igual a una constante . - Covariancia de los errores nulas para todo i

Proceso de estimacin de la regresin lineal simple Modelo de regresin


y = 0+ 1x +

Datos de la muestra

Ecuacin de regresin
E(y) = 0+ 1x

Parmetros desconocidos
0.1

x x1 x2 . . . xn
y = b0+b1x

y y1 y2 . . . yn

b0 y b1

Ecuacin estimada de regresin Estadsticos de la muestra


b0.b1

proporcionan estimados
0 y 1

Lneas posibles de regresin en la regresin lineal simple


Seccin A

Relacin lineal positiva

Seccin C

No hay relacin

Seccin B

Relacin lineal negativa

Estimacin de la ecuacin de Regresin Simple


Y = a + b.X, donde: - Y es el valor estimado de Y para distintos X. - a es la interseccin o el valor estimado de Y cuando X=0 - b es la pendiente de la lnea, o el cambio promedio de Y para cada cambio en una unidad de X - el principio de mnimos cuadrados es usado para obtener a y b:

a = (Y)/n - b.(X)/n

Mnimos cuadrados - Supuestos


El modelo de regresin es lineal en los parmetros. Los valores de X son fijos en muestreo repetido. El valor medio de la perturbacin i es igual a cero. Homocedasticidad o igual variancia de i. No autocorrelacin entre las perturbaciones. La covariancia entre i y Xi es cero. El nmero de observaciones n debe ser mayor que el nmero de parmetros a estimar. Variabilidad en los valores de X. El modelo de regresin est correctamente especificado. No hay relaciones lineales perfectas entre las explicativas.

Estimacin de la variancia de los trminos del error ()


Debe ser estimada por varios motivos Para tener una indicacin de la variabilidad de las distribuciones de probabilidad de Y. Para realizar inferencias con respecto a la funcin de regresin y la prediccin de Y. La lgica del desarrollo de un estimador de para el modelo de regresin es la misma que cuando se muestrea una sola poblacin La variancia de cada observacin Yi es ,la misma que la de cada trmino del error Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviacin de una observacin Yi debe ser calculada con respecto a su propia media estimada Yi.

Yi - i = ei
Por tanto, las desviaciones son los residuales Y la suma de cuadrados es:

La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parmetros. Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de

Anlisis de Variancia en el anlisis de regresin


El enfoque desde el anlisis de variancia se basa en la particin de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y. La variacin de los Yi se mide convencionalmente en trminos de las desviaciones

(Yi - Yi)
La medida de la variacin total SC tot, es la suma de las desviaciones al cuadrado

(Yi - Yi)

Desarrollo formal de la particin


Consideremos la desviacin

(Yi - Yi)
Podemos descomponerla en

(Yi - Y) = (i - Y) T R

(Yi - i) E

(T): desviacin total (R): es la desviacin del valor ajustado por la regresin con respecto a la media general (E): es la desviacin de la observacin con respecto a la lnea de regresin Si consideremos todas las observaciones y elevamos al cuadrado para que los desvos no se anulen

(Yi - Y)

(i - Y)

(Yi - i)

SC tot

SC reg

SCer

(SC tot): Suma de cuadrados total (SC reg): Suma de cuadrados de la regresin (SCer): Suma de cuadrados del error Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del anlisis de variancia.

Coeficiente de Determinacin
Coeficiente de Determinacin, R2 - es la proporcin de la variacin total en la variable dependiente Y que es explicada o contabilizada por la variacin en la variable independiente X. - El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y varia entre 0 y 1.

Clculo del R a travs de la siguiente frmula R = [(c - Y)]/[(o - Y)] Inferencia en Regresin
Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parmetros de regresin (prueba de hiptesis e intervalos de confianza), ya que los estimadores de 0 y 1 pueden cambiar su valor si cambia la muestra. Por lo tanto debemos conocer la distribucin de los estimadores para poder realizar prueba de hiptesis e intervalos de confianza

Ejemplo
Se desean comparar los rendimientos predichos a partir de la informacin obtenida por 3 sensores sobre los rendimientos reales por parcelas de lotes de maz. Los rendimientos (Y) y el los rindes predichos de 4 sensores se presentan a continuacin

Qu sensor refleja mejor el rendimiento de esa zona?

Descripcin Grfica y cuantitativa de la relacin entre cada sensor y el rendimiento

Y = 338.71*X - 4.87 R = 0.32

Y = 155.37*X - 13.25 R = 0.57

Y = -1004.34*X +112.24 R = 0.44

CALCULO DE PROBABILIDADES

La expansin del cultivo de soja en la Argentina es objeto de una fuerte controversia entre quienes aprecian las ventajas
econmicas actuales de dicha expansin y quienes alertan sobre problemas de contaminacin ambiental, de empobrecimiento cultural y de fragilidad de la economa asociados con ella. En parte, los problemas mencionados son caractersticos delmonocultivo y ya han ocurrido en regiones donde el cultivo hegemnico era otro.

Nuestro problema ser encontrar una manera para evaluar en qu medida la adopcin del cultivo de soja est asociada con la
prctica del monocultivo a partir de los datos de una encuesta en la cual se registran los cultivos realizados en los diferentes establecimientos agrcolas de un rea determinada. Para ello utilizaremos las herramientas conceptuales y metodolgicas que la estadstica provee para realizar una evaluacin de este tipo.

Problema (datos ficticios)


En un estudio de la actividad agrcola en un partido de la Pampa Ondulada se registraron los cultivos estivales de cosecha realizados en la ltima campaa en 100 establecimientos elegidos al azar dentro del partido. La planilla que llevaban los encuestadores permita registrar las siguientes opciones: Maz, Girasol, Sorgo, Soja, Crtamo. Entre los resultados de la encuesta se encontr que en 90 de los 100 establecimientos relevados se haba cultivado soja y que, en 40 de ellos, la soja era el nico cultivo estival; adems, 2 establecimientos realizaron otro tipo de monocultura (datos ficticios).

Identificar la poblacin bajo estudio. Identificar la muestra. Detallar las 31 diferentes posibilidades para la lista de los cultivos realizados en un establecimiento (los 31 eventos simples que
componen el espacio muestral).

Indicar cules eventos simples componen los siguientes eventos compuestos: "en el establecimiento se cultiv soja" "en el establecimiento de cultiv maz y girasol" "el establecimiento realiz un nico cultivo estival" "en el establecimiento se realizaron ms de 3 cultivos diferentes"
DEFINICIONES

Probabilidad: Es un valor comprendido entre 0 y 1, incluidos estos dos valores, que describe la posibilidad de ocurrencia de un
evento.

Experimento: Cualquier proceso que produce un resultado. Determinstico: Ante la repeticin del mismo se obtiene siempre el mismo resultado. Aleatorio: Repitiendo el experimento en idnticas condiciones se obtienen distintos resultados. Punto muestral Resultado: Es un resultado particular de un experimento. Evento: Es una coleccin de uno o mas resultados de un experimento.
DEFINICIONES EVENTO O SUCESO ALEATORIO

Evento o Suceso Aleatorio: Es una coleccin de uno o mas resultados de un experimento.

E1 = Sacar un 5 al tirar un dado E2 = Sacar un nmero par al tirar un dado. E3 = Sacar un nmero menor que 7 al tirar un dado = EVENTO CIERTO E4 = Sacar un nmero mayor que 6 al tirar un dado = EVENTO IMPOSIBLE
DEFINICIONES SUCESOS COMPUESTOS

Sucesos mutuamente excluyentes: Dos sucesos A y B son mutuamente excluyentes cuando la ocurrencia de uno de ellos impide la ocurrencia del otro. P(AB) = P(AyB) = P(AB) = 0 Sucesos colectivamente exhaustivos Dos sucesos A y B son colectivamente exhaustivos cuando al menos uno de ellos deba ocurrir siempre que se realiza el
experimento.

Dicho en otras palabras, deber cumplirse que la suma de las probabilidades de todos los sucesos deber ser igual a 1.
DEFINICIONES ESPACIO MUESTRAL

Espacio muestral: Es el conjunto de todos los posibles resultados de un experimento. Suele representarse con la letra S. Puede visualizarse a travs de Listas
- Conjunto de posibles resultados al tirar un dado = {1;2;3;4;5;6}

Diagramas de arbol
- Conjunto de posibles resultados al tirar dos monedas

C C S C S S Tablas rejilla
- Conjunto de posibles resultados al tirar un dado rojo y uno azul 61 31 41 51 2 6 12 2 32 42 52 2 11 13 23 33 43 53 63 14 24 34 44 54 64 15 25 35 45 55 65 16 2 36 46 56 6 6 6 21

Conjuntos (Diagramas de Venn)


- Se pretende representar a las mujeres, a los universitarios pero es necesario tener en cuenta que existen mujeres universitarias.

Tablas de doble entrada


- Cuando se tienen dos o mas variables con dos o mas categoras cada una, por ejemplo hombres y mujeres, Ingenieros Agrnomos y Licenciados en Economa y Administracin Agraria.

Ingenieros Agrnomos M H 40 60 100

Licenciados en Economa y Administracin 25 65 30 90 55 155

Recordemos cuales son los totales marginales y el gran total.

DEFINICIONES DE PROBABILIDAD

DEFINICION CLASICA

Se basa en que todos los resultados son igualmente probables o equiprobables. Mutuamente excluyentes Colectivamente exhaustivos
Nmero de resultados Probabilidad de un evento favorables = Nmero de resultados posibles DEFINICION FRECUENCIAL

Cuando los resultados no son equiprobables la probabilidad de ocurrencia de un evento se determina por observacin del
nmero de veces que eventos similares ocurrieron en el pasado. (frecuencia relativa)

Nmero de veces que el evento ocurri en el Probabilidad de un evento pasado = Nmero de observaciones

Ejemplo:
Sea el experimento de estudiar una droga que cura cierta enfermedad en vacunos enfermos. Se aplic a 1000 vacunos y se curaron 700.

El espacio muestral ser S = {curado; no curado} Consideremos el evento de que el vacuno se cure. Probabilidad de curado = 700/1000 = 0,7
DEFINICION SUBJETIVA

Cuando no se tienen datos para ningn tipo de clculo, ni posibilidad de efectuar repetidamente el experimento, se recurre a un
experto, quien de acuerdo a su buen saber y entender estimar la probabilidad.

Ejemplos:

Calcular la probabilidad de que un tenista gane un campeonato Calcular la probabilidad de que un club de futbol salga campen Calcular la probabilidad de que el precio de las acciones de una compaa se incremente en dos aos.
AXIOMAS DE PROBABILIDADES

Independientemente de que definicin de probabilidad utilicemos, siempre se debern cumplir los siguientes tres axiomas.
Axiomas:

Axioma 1: La probabilidad de un evento existe y es un nmero mayor o igual a cero


0 P(A)

Axioma 2: La probabilidad de todo el espacio muestral es 1.


P(S) = 1

Axioma 3: Si dos eventos A y B son mutuamente excluyentes


P(AB) = P(A) + P(B)

CONSECUENCIAS DE LOS AXIOMAS DE PROBABILIDADES


P() = 0 Si = suceso complementario de A es decir = S - A, ser P() = 1 - P(A) Si A1A2, entonces P(A1) P(A2) " A se cumple que P(A) 1

REGLA GENERAL DE LA SUMA

Si A y B son dos sucesos no mutuamente excluyentes, luego la probabilidad de la unin entre ambos est dada por la siguiente
frmula. P(A B) = P(A) + P(B) - P(A B)

B Ay B A

Si A y B son dos sucesos mutuamente excluyentes, se cumple:


P(A B) = P(A) + P(B)

Ejemplo:
Un experimento genera un espacio muestral que contiene ocho sucesos E1,...,E8 con p(Ei) = 1/8, i = 1,...,8. Los sucesos A y B se definen as: A = {E1,E4,E6} B = {E3,E4,E5,E6,E7} Encuentre:

(a) P(A) (b) P() (c) P(A B)

a) P(A) = 3/8 (b) P() = 5/8 (c) P(A U B) = P(A) + P(B) - P(AB) P(A U B) = 3/8 + 5/8 - 2/8 = 6/8 = 0,75 resultado que es muy fcil verificar visualmente en el diagrama.

INDEPENDENCIA

Dos eventos A y B son independientes cuando se cumple que la probabilidad conjunta es igual al producto de las
probabilidades marginales.

P(A B) = P(A)*P(B) PROBABILIDAD CONDICIONAL

Probabilidad Condicional es la probabilidad de ocurrencia de un evento en particular, dado que otro evento ha ocurrido. La
probabilidad condicional de el evento A dado que el evento B ha ocurrido se escribe P(A|B).

REGLA GENERAL DEL PRODUCTO

Dados dos eventos A y B la probabilidad conjunta de que ambos sucedan se calcula segn la siguiente frmula:
P(A B) = P(A)*P(B|A) = P(B A) = P(B)*P(A|B)

Si los eventos A y B son independientes la probabilidad conjunta de que ambos sucedan se calcula segn la siguiente frmula:
P(A B) = P(B A) = P(A)*P(B) = P(B)*P(A)

Ejemplo:
Un experimento genera un espacio muestral que contiene ocho sucesos E1,...,E8 con p(Ei) = 1/8, i = 1,...,8. Los sucesos A y B se definen as: A = {E1,E4,E6} B = {E3,E4,E5,E6,E7} Resolver: (a) Son los sucesos A y B mutuamente excluyentes? Por qu? (b) Son los sucesos A y B independientes? Por qu? (c) P(AB) (d) P(A/B)

(a) No, porque AB 0 (b) No, porque P(A)*P(B) P(AB) 3/8 * 5/8 2/8 (c) P(AB) = 2/8 = 0,25 (d) P(A/B) = P(AB) / P(B) = (2/8) / (5/8) = 2/5 Esto puede verse en el diagrama, ya que saber que B ocurri, reduce nuestro espacio muestral a los cinco elementos de B. Y de ellos, slo dos pertenecen a A.

PROBLEMAS A RESOLVER
1) Dos candidatos a los consejos de administracin A y B, compiten por el control de una corporacin. Las probabilidades de ganar de estos candidatos son 0,7 y 0,3, respectivamente. Si gana A, la probabilidad de introducir un nuevo producto es 0,8; si gana B, la correspondiente probabilidad es 0,4. Demuestre que, antes de las elecciones, la probabilidad de que sea introducido un nuevo producto es 0,68. Sugerencias: Recordar probabilidad condicional y probabilidad conjunta Considerar todo el espacio muestral Datos: P(A) = 0,7 P(N/A) = 0,8 P(B) = 0,3 P(N/B) = 0,4

Solucin: P(N) = P(NA) + P(NB) P(N) = P(N/A)*P(A) + P(N/B)*P(B) P(N) = 0,8*0,7 + 0,4*0,3 = 0,68 2) El 34% de los rboles de un bosque tienen ms de 15 aos. El 54% son de la variedad A. De los de la variedad A, el 7% tiene ms de 15 aos. Si se elige un rbol al azar, a) Cul es la probabilidad de que tenga ms de 15 aos y sea de la variedad A? b) Cul es la probabilidad de que teniendo menos de 15 aos, sea de la variedad A? Sugerencias: Recordar probabilidad condicional y probabilidad conjunta Considerar tablas de contingencia

+15 -15 A 0,0378 0,5022 0,54 A 0,3022 0,1578 0,46 0,34 0,66 1
Solucin: a) P(+15 A) = P(+15/A)*P(A) = 0,07*0,54 = 0,0378 b) P(A/-15) = P(A-15) / P(-15) = 0,5022 / 0,66 = 0,76 3) El 70% del ganado es inyectado con una vacuna para combatir una enfermedad grave. La probabilidad de recuperarse de la enfermedad es 1 en 20 si no ha habido tratamiento y de 1 en 5 si hubo tratamiento. Si un animal infectada se recupera, cul es la probabilidad de que haya recibido la vacuna preventiva? Sugerencias: Recordar probabilidad condicional y probabilidad conjunta Regla del producto. Datos: P( I ) = 0,7 P( R / I ) = 0,2 P( ) = 0,3 P( R / ) = 0,05 Incgnita: P( I /R )

Вам также может понравиться