Академический Документы
Профессиональный Документы
Культура Документы
y x
Indice general
1. Introduccin o 2. Estad stica 2.1. 5 7 7 7 8 8 11 11 11 11 15 16 16 17 18 21 23 24 25 27 27 28 28 33 33 36 37 38 38 38 38 39 43 44 48 48 49 u es la estad e stica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Prctica uno: Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . a a 2.1.2. Prctica dos: Clasicacin de la estad a o stica. . . . . . . . . . . . . . . . . . . . . . .
2.2.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. Estad stica descriptiva 3.1. Para datos agrupados en clases . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Variables aleatorias discretas y continuas . . . . . . . . . . . . . . . . 3.1.2. Clases y sus caracter sticas . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Resumen de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Medidas de tendencia central y medidas de dispersin . . . . . . . . . . . . . o 3.3.1. Media y desviacin media para datos agrupados . . . . . . . . . . . . o 3.4. Mediana y cuantiles para datos agrupados . . . . . . . . . . . . . . . . . . . . 3.5. La moda para datos agrupados y su interpretacin geomtrica . . . . . . . . . o e 3.6. Desviacin estndar para datos agrupados . . . . . . . . . . . . . . . . . . . . o a 3.7. Ejercicios de evaluacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.8. Glosario de Trminos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 3.9. Frmulas de tendencia central y de distribucin . . . . . . . . . . . . . . . . o o 3.10. Prcticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.10.1. Prctica tres: Clasicacin de datos. . . . . . . . . . . . . . . . . . . . a o 3.10.2. Prctica cuatro: Estad a stica descriptiva. . . . . . . . . . . . . . . . . . 3.10.3. Prctica cinco: Medidas de tendencia central y medidas de dispersin. a o 4. Probabilidad 4.1. 4.2. 4.3.
Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Probabilidad bsica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Anlisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Probabilidad condicional e independencia . . . . . . . . . . . . . . . . . . . . . . . . . . Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funciones de densidad y de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . o Esperanza, varianza, momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1. 4.3.2. 4.3.3. 4.3.4. Ordenaciones con Factoriales . . . Permutaciones . Combinaciones . repeticin o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
INDICE GENERAL
1 Introduccin o
Text
2 Estad stica
2.1.
Qu es la estad e stica?
La estad stica implica informacin, n meros y grcas para resumir esta informacin, y su interpretao u a o cin. El trmino estad o e stica posee varios signicados para personas para diferentes entornos e intereses. El terreno de la estad stica puede dividirse a grandes rasgos en dos areas: estad stica descriptiva y estad stica inferencial. La estad stica descriptiva es lo que piensa la mayor de las personas al escuchar a la palabra estadstica . La estad stica descriptiva incluye la recoleccin, presentacin y descricin de dao o o tos muestrales. El trmino estad e stica inferencial se reere a la tcnica de interpretacin de los valores e o resultantes de las tcnicas descriptivas y a la toma de decisiones y obtencin de conclusiones sobre la e o poblacin. o La estad stica es ms que slo n meros: son los datos, lo que hace con los datos, lo que se aprende de a o u los datos y las conclusiones resultantes. Se utilizar la siguiente denicin: a o Denicin 2.1 o Estadstica: Ciencia de recolectar, describir e interpretar datos.
Los usos de la estad stica son ilimitados. Es mucho ms dicil mencionar un campo en que nose utilice a la estad stica que uno en el sta sea parte integral. A continuacin se presentan algunos ejemplos de cmo e o o y dnde se utiliza la esta o stica: En educacin se utiliza a menudo estad o stica descriptiva para mostrar el comportamiento de los resultados de los exmenes aplicados a los alumnos. a En la ciencia es necesario recolectar y analizar los datos que se obtienen de los experimentos. En informtica la estad a stica busca como acumular y optimizar la informacin extra de los datos, o da como recolectar los datos para maximizar la informacin y como hacer inferencias de los mismos o para extender nuestro conocimiento. Por otro lado, la Ciencia de Computacin, nos dice cmo o o calcular y procesar de manera ptima los datos, cmo medir el costo asociado al procesamiento de o o la informacin, cmo la informacin y el conocimiento pueden ser utilmente representados y como o o o comprender los l mites de lo que puede ser calculado.
Ejercicios . . .
2.1.1. Prctica uno: Conceptos bsicos a a
OBJETIVO: El estudiante explicar lo que es la estad a stica y su utilidad en los sistemas de informacin. o 1. ACTIVIDAD: Los alumnos presentarn ejemplos mediante recortes o art a culos de situaciones reales del uso de la estad stica en las tecnolog de informacin, por ejemplo encuestas que realizan: as o peridicos, revistas, empresas, programas de televisin. o o 2. ACTIVIDAD: Mediante el anlisis de sus presentaciones contestar preguntas acerca de: a Qu se pretende por ejemplo al presentar al medio tiempo las estad e sticas de ftbol? u Cmo se obtuvieron eso datos? o Es posible cuanticar los datos? Meta: Induccin a la importancia de los datos, que existe una forma de recopilarlos, que es o necesario ordenarlos para su mayor comprensin. o 7
2.2.
Para comenzar a estudiar estad stica primero es necesario denir algunos trminos bsicos. e a Poblacin: Es la coleccin, o conjunto, de individuos, objetos o eventos cuyas propiedades sern analizadas. o o a Hay dos tipos de de poblaciones: nitas e innitas. Cuado es (o puede ser) posible enumerar sicamente los elementos que pertenecen a una poblacin, se dice que la poblacin es nita. Cuando los elementos de o o una poblacin son ilimitados, latpoblacin es innita. Es dif estudiar grandes poblaciones por tanto se o o cil acostumbra seleccionar una muestra y estudiar los datos de sta. e Muestra: Es un subconjunto de la poblacin. o Una muestra consta de los individuos, objetos o medidas seleccionados de la poblacin por el recolector o de la muestra. Variable (o variable respuesta): Caracter stica de inters sobre cada elemento individual de una poblacin e o o muestra. La edad de un estudiante que ingresa a la universidad, el color de su cabello, su estatura y su peso son cuatro variables. Dato: Valor de la variable asociada a un elemento de una poblacin o muestra. Este valor puede ser un o nmero, una palabra o un s u mbolo Por ejemplo Juan Prez ingres a la universidad a la edad de 23 a os, su cabello es caf, mide e o n e 1.80 y pesa 83 kg. Estas cuatro piezas de datos son los valores de las cuatro variables aplicadas a Juan Prez. e Datos: Conjunto de valores recolectados para la variable de cada uno de los elementos que pertenecen a la muestra. El conjunto de 25 estudiantes es un ejemplo de un conjunto de datos. Experimento: Actividad planeada cuyos resultados producen un conjunto de datos. El experimento incluye las actividades para seleccionar los elementos y obtener los valores de los datos. Parmetro: Valor numrico que resume todos los datos de una poblacin. a e o Para todo parmetro estiste una estadstica muestral correspondiente. La estad a stica describe a la muestra de la misma manera en que el parmetro describe a la poblacin. a o Estad stico: Valor numrico que resume todos los datos de la muestra. e
2.2.
Ejemplo 1 Un estudiante de TIC est interesado en determinar algo sobre el valor de promedio en pesos de las a Lap Top que pertenecen al cuerpo docente de nuestra universidad cada uno de los trminos recientemente e descritos puede identicarse en esta situacin. o 1. La poblacin es la coleccin de todas las computadoras que pertenecen a todos los profesores que o o pertenecen a la UTXJ. 2. Una muestra es cualquier subconjunto de esa poblacin. Por ejemplo, una muestra ser las Laps o an que pertenecen a los maestros del area de mantenimiento industrial. 3. La variable es el valor en pesos de cada computadora individual. 4. Un dato podr ser el valor en pesos de una computadora en particular. La computadora del maestro a Richi, por ejemplo, est valuada en $25,000.00. a 5. Los datos ser el conjunto de valores que corresponden a la muestra obtenida (9400, 8700, 15950...) an 6. El experimento ser los mtodos aplicados para seleccionar las computadoras que integren la an e muestra y determinar el valor de cada computadora de la muestra. Podr efectuarse preguntando a a cada miembro de la carrera de mantenimiento industrial, o de otras formas. 7. El parmetro sobre el que se est buscando informacin es el valor promedio de todas las Laps de a a o la poblacin. o 8. El estadstico que se encontrar es el valor promedio de todas las computadoras de la muestra. a NOTA: Si se toma una segunda muestra, quiz el conjunto de personas seleccionadas diferente, por a ejemplo la carrera de Mecatrnica, y entonces para el estad o stico promedio se anticipar un valor diferente. a Sin embargo, el valor promedio de todas las computadoras de los maestros de toda la universidad no cambiar a. El valor de los parmetros es jo, mientras que el de los estad a sticos var a. Bsicamente hay dos tipos de variables: 1) variables que obtienen informacin cualtitativa y 2) variables a o que obtienen informacin cuantitativa. o Variable cualitativa, de atributos o categrica: Variable que clasica o describe un elemento de una poo blacin. o Una muestra de cuatro clientes de una empresa distribuidora de telfonos porttiles fue cuestionada e a en cuanto a la marca, el color y nivel de satisfaccin respecto a la atencin en la distribuidora. Las o o tres variables son ejemplos de variables cu alitativas. Variable cuantitativa o numrica : Variable que cuantica un elemento de una poblacin. e o El costo total de los componentes de una computadora de escritorio, la cantidad de cable que se necesita para la creacin de una red de computadoras; son algunos ejemplos de variables cuantitativas. o Cada uno de estos tipos de variables (cualitativas y cuantitativas) Figura 2.1 pueden subdividirse a n u ms. a Cuando alguna persona hispanohablante aprende el idioma ingls, siempre llega un momento en que e le ensean que el trmino ingls para la expresin cuntos? ( cuntas?) depende de que se trate de n e e o a o a cosas que se pueden contar o de cosas que no se pueden contar sino medir. En estad stica se hace la misma distincin cuando se hace referencia a magnitudes variables: si se trata de magnitudes que se pueden o contar (aunque pudieran quizs ser innitas), se llaman variables discretas. En cambio, si las magnitudes a no se pueden contar, sino que se miden en algn tipo de unidades (cent u metros, litros, gramos, unidades de
10
Nominal
Cualitativa o de atributos
Ordinal
Variable
Discreta
Cuantitativa o numrica
Continua
dinero, unidades de tiempo, etc.), entonces se llaman variables continuas. Ejemplos de variables aleatorias discretas sern: el n mero de huevos que pone cierta gallina cada semana, el n mero de veces que una a u u moneda cae en guila al lanzarse quince veces al aire, el nmero de reos que se escapan cada mes de las a u prisiones de Mxico, el nmero de votantes que manifestarn preferencia por cierto partido pol e u a tico en una casilla electoral, el n mero de hijos que tiene una seora cualquiera que lleve 20 a os de casada, etc. u n n Por otra parte, ejemplos de variables aleatorias continuas son: el tiempo que tarda una persona en cobrar un cheque desde que llega a la sucursal del banco hasta que se lo pagan, la cantidad exacta de sangre que bombea el corazn de un adulto en un latido, la estatura exacta de un soldado elegido al azar, o la cantidad exacta de dinero que re ne cada ao el gobierno de un pa (de impuestos y otros ingresos) u n s para ejercer su presupuesto, entre otras.
12
variable discreta (por ejemplo, el numero de veces que sale aguila en diez lanzamientos de una moneda), se puede usar una variacion continua cticia para X y tomar, por ejemplo el intervalo de variacion continua [1.5, 3.5) como aproximacion del conjunto 2 x 3, esto es, que salgan dos o tres aguilas, o bien tomar el intervalo continuo [1.5, 2.5) como sustituto del valor x = 2. Este tipo de aproximacion (que se llama correccion por continuidad) puede parecer extrano por el momento, pero mas adelante veremos que tiene muchas ventajas, ya que permite que algunas variables discretas se manejen con distribuciones continuas a las que se aproximan. L mites reales de clase. Casi siempre ocurre que las clases se establecen de tal manera que quedan algunos huecos (o vac os) entre dos intervalos adyacentes. En tales casos, los intervalos se alargan articialmente para abarcar tambin la mitad de los huecos que quedan a sendos lados y producir una variacin e o continua de principio a n. Los extremos de las clases alargadas articialmente de esta manera se llaman l mites reales de clase y el intervalo de variacin terica entre los l o o mites reales de clase se llama intervalo ampliado. Por convencin, los intervalos ampliados se toman cerrados por la izquierda y abiertos por la o derecha. El l mite real izquierdo se acostumbra llamar lmite real inferior, mientras que el derecho se llama mites reales inferior y lmite real superior. Usualmente se emplea la notacin xL y xU para denotar los l o superior, respectivamente. Marcas de clase. Se llaman as a los puntos medios de cada uno de los intervalos. No importa si se consideran los intervalos originales o los intervalos ampliados, la localizacin de cada marca de clase o ser la misma. La razn de establecer marcas de clase estriba en que no se pueden efectuar operaciones a o aritmticas con intervalos, por lo que cada marca de clase se toma como representativa de su intervalo, y es e precisamente ese supuesto el que se traducir en una peque a inexactitud de las estimaciones resultantes. a n La notacin para la marca de clase de la i-sima clase es xi . o e Amplitud o anchura de una clase. Se llama as a la distancia entre los l mites reales de clase. La forma ms sencilla de calcular la amplitud de una clase consiste en restar el l a mite real superior (derecho) menos el l mite real inferior (izquierdo). En la mayor de los ejemplos prcticos, los datos se organizan de tal modo que todos los intervalos, a a excepto quizs el ultimo, tienen la misma amplitud. Sin embargo, eso no es esencial. Puede haber casos a en los que las amplitudes de los diferentes intervalos var en. En los ejemplos que expondremos en esta leccin usaremos hojas de clculo de Excel para realizar las o a operaciones con rapidez. Es cierto que existen algunos programas comerciales ms efectivos que el Excel a para el manejo estad stico de datos, sin embargo la obtencin de tales programas generalmente implica o un desembolso adicional por parte del estudiante, amn de que hay que invertir tiempo para aprender a e usarlos. El software ms popular y usual para el manejo de datos estad a sticos es el programa conocido como MINITAB. Al parecer existe una versin gratuita de 30 d que se puede bajar del Internet, pero o as despus de ese tiempo hay que comprarlo. Otro programa muy apreciado para el manejo de datos es el e SPSS (Statistical Package for the Social Sciences). Si el estudiante ya tiene algunos de esos programas instalados y adems sabe usarlos, ser fabuloso; no obstante, estas lecciones estn enfocadas en principio a a a para estudiantes que slo se ayudan con el Excel, que es el programa ms conocido y que forma parte del o a Oce instalado en cualquier computadora.
13
Ejemplo Supngase que se ha agrupado en clases el n mero de horas semanales que los ni os ven la o u n televisin (incluyendo video casetes y DVD), para una muestra aleatoria de 300 ni os, con los siguientes o n resultados:
Horas semanales de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48
frecuencia 44 96 74 48 21 12 5
Para trabajar con estos datos, primero hay que determinar las amplitudes de las clases, las marcas de clase y anotar toda esta informacin en una hoja de clculo de Excel, junto con las frecuencias respectivas: o a
amplitud de clase
marca de clase
frecuencia
[-0.5, 6.5) [6.5, 13.5) [13.5, 20.5) [20.5, 27.5) [27.5, 34.5) [34.5, 41.5) [41.5, 48.5)
7 7 7 7 7 7 7
3 10 17 24 31 38 45
44 96 74 48 21 12 5
Antes de proseguir con el anlisis estad a stico de estos datos conviene tener una representacin grca o a de los mismos, con objeto de visualizar de qu forma es la distribucin de frecuencias. Existen muchos e o tipos de representaciones grcas para datos estad a sticos aislados o agrupados, pero el ms util y comn a u es el llamado histograma, el cual denimos a continuacin. o
Histograma. Es una representacin grca de una distribucin de frecuencias relativas para datos o a o aislados o agrupados, en forma de barras rectangulares, cuyas alturas correspondientes son las respectivas frecuencias (o frecuencias relativas) y cuyas bases son iguales a las clases ampliadas. Para distribuciones de frecuencias relativas a observaciones aisladas o para distribuciones de probabilidad de variables aleatorias discretas, conviene tomar bases unitarias en cada rectngulo, a efecto de que el a a rea de cada rectngulo (base por altura) sea exactamente igual a la frecuencia relativa o a la probabilidad a correspondiente. De esta forma, vemos que el concepto de rea viene siendo un sinnimo de probabilidad a o acumulada en un intervalo. Este mismo concepto se mantiene para variables aleatorias continuas, de tal suerte que la probabilidad de un intervalo de variacin de la variable queda representada por un tramo o de area bajo la curva de densidad de probabilidad.
Pol gono de frecuencias. Es un grco de trozos de la frecuencia de clase con relacin a la marca a o de clase, Puede obtenerse conectando los puntos medios de las partes superiores de los rectngulos del a histograma ver gura 3.1
14
El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos originales se pierden en el proceso de agrupamiento. Es relativamente fcil dibujar un histograma a mano, con papel, a lpiz, colores y regla, pero tambin se puede dibujar con casi cualquier software de estad a e stica, incluyendo al programa Excel que no es propiamente un software de estad stica. En el men herramientas del Excel u viene la opcin de histograma, aunque a veces los dibujos deben ser retocados para darle las preferencias o del usuario. No es necesario que los rectngulos de un histograma queden unidos o adyacentes, pero s es a deseable, porque as tienen mejor aspecto. El pol gono de frecuencias para datos agrupados en clases, o para datos aislados, se dibuja como sigue: Se marcan en un papel varios puntos de la forma (xi , ni ), esto es, (marca de clase, frecuencia) y se unen con segmentos adyacentes usando una regla. Veamos cmo se o representar en forma de histograma las frecuencias de la muestra de 300 ni os, en donde se trataba de an n ver el n mero de horas semanales que miraban la televisin ver gura: 3.3 u o
Se puede apreciar que esta distribucin de frecuencias tiene sesgo positivo. o En la siguiente grca vemos el pol a gono de frecuencias superpuesto al histograma:
15
Figura 3.3: Pol gono de frecuencias(horas semanales que los ni os miran televisin) n o
16
x1 x2 i
(3.1)
x1 = valor unitario siguiente despus del valor ms grande de los datos. e a a n x2 = valor ms peque o de los datos. i = n mero total de intervalos. u Para organizar datos sin procesar, escoje el nmero de clases entre las cuales vas a dividir los datos (por u lo general, entre seis y quince clases) y despus utiliza la ecuacin (5.1) para determinar el ancho de los e o intervalos de clase de igual tama o. Esta frmula utiliza el valor ms alto siguiente de las mismas unidades n o a debido a que mide el intervalo entre el primer valor de una clase y el primer valor de la siguiente.
n Hacemos las operaciones en las siguientes tablas. Recuerde que para usar el valor absoluto en Excel, la sintaxis es ABS( ), y para el producto se usa el asterisco *. clases de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48 l mites reales xi [-0.5, 6.5) 3 [6.5, 13.5) 10 [13.5, 20.5) 17 [20.5, 27.5) 24 [27.5, 34.5) 31 [34.5, 41.5) 38 [41.5, 48.5) 48 TOTAL fi 44 96 74 48 21 12 5 n=300 xi f i 132 960 1258 1152 651 456 225 xi f i = 4834
x=
3.4. MEDIANA Y CUANTILES PARA DATOS AGRUPADOS clase: i 1a 2a 3a 4a 5a 6a 7a marca: xi 3 10 17 24 31 38 45 TOTALES xi x f i n frec: f i 44 96 74 48 21 12 5 n=300 xi x 13.1133333 6.11333333 0.88666667 7.88666667 14.8866667 21.8866667 28.8866667 93.66 xi x f i 576.98667 586.88000 65.61333 378.56000 312.62000 262.64000 144.43333 2327.73333
17
dm = d1 =
Como el 50 % de las observaciones es igual a 150, la mediana debe ubicarse en la tercera clase, cuyo l mite real inferior es 13.5. Luego: me = 13.5 + ? 7 74
10 74
7 = 14.446.
18
Esto se interpreta diciendo que el 50 % de los ni os de la muestra ven la televisin de 0 hasta 14.446 n o horas a la semana. Usemos ahora el mismo procedimiento para hallar el tercer cuartil Q3 : Como el 75 % del total de datos es 225, viendo la tabla de frecuencias acumuladas se aprecia que el tercer cuartil queda ubicado en la cuarta clase, cuyo l mite real inferior es 20.35. Luego:
Q3 = 20.25 +
. Interpretamos esto diciendo que el 75 % de los ni os de la muestra ven la televisin desde cero hasta n o 21.854 horas a la semana. (tambin se puede decir que 25 % de los ni os de la muestra ven la televisin e n o 21.854 horas a la semana o ms). a Calculemos ahora el noveno decil, es decir, D9 : Claramente, el 90 % de los datos es 270, por lo que el noveno decil se halla en la quinta clase, cuyo l mite real inferior es 27.5. Entonces:
D9 = 27.5 +
. Lo que quiere decir que slo el 10 % del total de ni os de la muestra ven televisin ms de 30.16 6 o n o a horas a la semana. Calculemos ahora el percentil P96 . El 96 % de 300 es 288, por tanto el noveno decil est en la sexta a clase, cuyo l mite real inferior es 34.5. Entonces tenemos:
P96 = 34.5 +
Lo que implica que 4 % de los ni os de la muestra ven televisin ese nmero de horas a la semana o n o u ms. a
19
Figura 3.4:
La moda es alg n punto de la clase modal, no necesariamente la marca de clase. Abajo veremos cmo u o denirla y calcularla.
Recurdese que la media de una muestra es un estad e stico muy sensible a la presencia de puntajes extremos, llamados puntajes aberrantes, mientras que la mediana no lo es, y tampoco lo es la moda. En estos casos, ninguna de estas medidas es totalmente satisfactoria como medida de tendencia central. Para datos aislados, una alternativa es una media ajustada (trimmed mean), la cual se afecta menos por los puntajes aberrantes que la media, y a n no tiene la insensibilidad de la mediana. Para datos aislados, una u media ajustada se encuentra ordenando las observaciones de menor a mayor, borrando un cierto n mero u de medidas en ambos extremos y promediando las medidas restantes; al porcentaje de valores borrados en cada extremo de la lista se le llama porcentaje de ajuste. En las competencias ol mpicas de clavados o gimnasia, siempre se toma una media ajustada de las calicaciones de los jueces, borrando la ms alta y a la ms baja. a
Para datos agrupados en clases no existe tal cosa como media ajustada, sin embargo, la moda es de mucho mayor utilidad prctica que para el caso de datos aislados. a
La interpretacin geomtrica de la moda para datos agrupados se aprecia en la siguiente gura: 3.5 o e
En la gura se han dibujado la clase modal y las dos clases adyacentes a ella. Los segmentos RT y QS unen, respectivamente, los vrtices ms altos del rectngulo correspondiente a la clase modal (la ms e a a a alta) con los vrtices ms cercanos de los dos rectngulos adyacentes. La proyeccin del punto P en el eje e a a o x es mo y es ese punto precisamente el que se dene como la moda.
20
Figura 3.5: En principio, obsrvese que los tringulos PQR y PST son semejantes, ya que tienen sus ngulos e a a respectivamente iguales. De la semejanza de dichos tringulos se sigue la proporcionalidad de sus lados, a es decir: PF EP = RQ ST Por otra parte, L1 y U1 son, respectivamente, los l mites reales inferior y superior de la clase modal, cuya anchura es c. Si mo es la abscisa que corresponde a la proyeccin del punto P, entonces o mo L1 U1 mo = 1 2 donde 1 y 2 simbolizan los excesos de frecuencia de la clase modal respecto a las clases anterior y posterior, respectivamente. Si despejamos mo de la relacin anterior, se obtiene: o mo = 1 U1 + 2 L1 1 + 2
Apliquemos esta frmula en el ejemplo que se expuso antes, para una muestra de 300 ni os: o n
3.6. DESVIACION ESTANDAR PARA DATOS AGRUPADOS horas semanales que un nio ve n TV de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48 l mites reales de clase [-0.5, 6.5) [6.5, 13.5) [13.5, 20.5) [20.5, 27.5) [27.5, 34.5) [34.5, 41.5) [41.5, 48.5) frecuencia
21
44 96 74 48 21 12 5
La clase modal es, evidentemente, la segunda. Tenemos 1 = 96 44 = 52; 2 = 96 74 = 22; ademas, 1 + 2 = 74 (fue solo una casualidad que coincidiera con la frecuencia de la tercera clase). Por tanto, la moda es mo = 6.5 + 52 7 = 11.419. 74
Por tanto, la desviacin estndar, aproximada a tres d o a gitos decimales es s = 9.793. Existe otra frmula alternativa y equivalente para el clculo de la desviacin estndar: o a o a s= xi2 f i n xi f i n
2
xi2 f i x2 n
Es muy fcil comprobar que esta frmula proviene de la conocida igualdad para la varianza poblacional a o de una distribucin de frecuencias relativas cualquiera: o varianza poblacional: 2 = (xi x)2 pi = xi2 pi x2
f
donde pi es la probabilidad (o frecuencia relativa) de xi . Para datos agrupados, pi = ni . Esta igualdad se demuestra fcilmente si se desarrolla (xi x)2 en la suma del miembro izquierdo. a
22
Ntese tambin que para datos aislados existe una varianza muestral y otra poblacional, que se difeo e rencian porque en el denominador de la primera aparece n 1, mientras que en el de la segunda es n. Para datos agrupados no existe tal diferencia. Observacin importante: La imprecisin que se introduce en el manejo estad o o stico de datos agrupados en clases al tomar una marca de clase como representativa del intervalo, hace que algunas de las leyes fundamentales de la estad stica no sean aplicables a datos agrupados. Por ejemplo, para variables aisladas ya sea discretas o continuas, se puede demostrar con todo rigor que la mediana es el parmetro que a minimiza el error absoluto medio. Para datos agrupados en clases, la validez de esa ley deja de ser aplicable. Ilustraremos este detalle con nuestro mismo ejemplo del n mero de horas semanales que los ni os miran u n la televisin. Abrimos una hoja de clculo de Excel y planteamos las operaciones que se indican: o a xi 3 10 17 24 31 38 45 TOTALES fi 44 96 74 48 21 12 5 N = 300
i pi = 300 0.1466667 0.3200000 0.2466667 0.1600000 0.0700000 0.0400000 0.0166667 1.0000000
Las sumas inferiores de las tres ultimas columnas son, respectivamente, la desviacin promedio de la o media (desviacin media), la desviacin promedio de la mediana y la desviacin promedio de la moda. o o o Como podemos apreciar, la desviacin promedio de la media result menor que la desviacin promedio o o o de la mediana, lo cual ser imposible para valores aislados de una variable aleatoria discreta o continua, a ya que en tales casos se demuestra que la mediana es el parmetro que minimiza el error absoluto medio. a Existen otras medidas de dispersin menos usuales, adems de la varianza, la desviacin estndar y las o a o a tres desviaciones promedio. Por ejemplo, el rango semiintercuartil Q es la distancia media entre el primer cuartil y el tercero, esto es: Q3 Q1 2 El rango semiintercuartil se usa como una estimacin rpida y aproximada de los valores l o a mites de la variable que abarcan a menudo entre un 50 % y hasta un 70 % de las frecuencias relativas de toda la muestra (dependiendo de que la distribucin sea simtrica o sesgada). Para el ejemplo que se examin o e o en esta seccin, el siguiente cuadro es un comparativo de las cinco medidas de dispersin ms usuales o o a (en orden de importancia). Se excluye la varianza porque sta no se expresa en las mismas unidades. Se e indican asimismo los s mbolos empleados : Q= desviacin estndar (o desviacin t o a o pica) desviacin media (desviacin promedio de la media) o o desviacin promedio de la mediana o desviacin promedio de la moda o Rango semiintercuartil s d1 d2 d3 Q 9.79322 7.75911 7.87027 8.07207 6.54687
23
48 166 104 44
22 10 4 2
En una sola hoja de clculo de Excel calcule la media, la desviacin media, la varianza, y la desviacin a o o estndar. [Sugerencia: En la primera columna anote las marcas de clase, en la segunda las frecuencias, a en la tercera las frecuencias relativas, etc.]. (cuatro puntos) 4. Para los datos del ejercicio 3, calcule a) la mediana, b) el cuartil Q1 , c) el cuartil Q3 , d) el rango semiintercuartil Q, e) el percentil P87 y f) d una interpretacin del percentil P87 . (seis puntos) e o 5. Para los mismos datos del ejercicio 3, calcule a) la moda, b) la desviacin media de la mediana y c) o la desviacin media de la moda. (tres puntos) o
24
25
X (3.2) N La media aritmtica de la poblacin es igual a la suma de los valores de todos los elementos de la poblacin e o o (X) dividida entre el n mero total de elementos que componene la poblacin (N ). u o = x (3.3) n Para calcular la media aritmtica de la muestra, sume los valores de todos los elementos de la muestra e (x) y divida el resultado entre el n mero total de elementos contenidos en la muestra (n) u x= x= (f x) n (3.4)
Para encontrar la , calcule los puntos medios (n) de cada clase de la muestra. Luego multiplique cada punto medio por la frecuencia (f ) de observaciones de cada clase, sume () todos estos productos y divida la suma entre el n mero total de observaciones de la muestra (n). u (u f ) (3.5) n Esta frmula nos permite calcular la media aritmtica de la muestra para datos agrupados mediante el o e uso de de cdigos, esto con el n de evitarnos trabajar con puntos medios muy grandes o inconvenientes. o Asigne estos cdigos (u) de la manera siguiente: asigne el valor de cero al punto medio (denotado con x0 ), o enteros positivos consecutivos a los puntos medios mayores a x0 y enteros consecutivos negativos a los puntos medios menores. Luego multiplique el cdigo asignado a cada clase (u) por la frecuencia (f ) de las o observaciones de cada clase y sume () todos los productos. Divida el resultado entre el nmero total de u observaciones de la muestra (n), multiplique por el ancho numrico del intervalo de clase (w) y sume el e valor del punto medio correspondiente al cdigo cero (x0 ). o x = x0 + w (w x) (3.6) w e La media pesada, xw , es un promedio que toma en cuenta qu tan importante es cada valor con respecto al total. Podemos calcular este promedio multiplicando el peso, o proporcin, de cada elemento (w) por el o momento correspondiente (x), sumando el resultado de todos esos productos () y dividiendo esta cantidad entre la suma de todos los pesos (w). xw = M.G. =
n
(3.7)
La media geomtrica o M.G. es adecuada siempre que necesitemos medir la tasa promedio de cambio (tasa e de crecimiento) en un cierto periodo. En esta ecuacin, n es igual al nmero de valores x que aparecen en o u el problema. Mediana = n+1 esimo t ermino del arreglo de datos 2 (3.8)
en donde n= nmero de elementos del ordenamiento de datos u La mediana es un solo valor que mide el elemento central del conjunto de datos. La mitad de las observaciones quedan por arriba de la mediana y la otra mitad por debajo. Si el conjunto de datos contiene un n mero impar de observaciones, el elemento de enmedio es la mediana. Para un n mero par de elementos, u u
26
la mediana es el promedio de las dos observaciones de un medio. Utilice esta ecuacin cuando los datos o no etn agrupados. a (n+1) 2 (F + 1 w + L m= m fm (3.9)
Esta frmula nos permite encontrar la mediana de la muestra de datos agrupados. En ella, n es igual al o n mero total de observaciones de la distribucin; F es la suma de todas las frecuencias de clase hasta la u o clase mediana, sin incluir esta ultima; f m es la frecuencia de las observaciones de la clase mediana; w es el ancho de intervalos de clase, y Lm es el l mite inferior del intervalo de la clase mediana. Mo = LMo + d1 w d1 + d2 (3.10)
La moda es el valor que con ms frecuencia se repite en el conjunto de datos. Para hallar la moda de datos a agrupados (denotada con Mo), utilice esta frmula y tome a LMo igual al l o mite inferior de la clase modal; a d1 como la frecuencia de la clase modal menos la frecuencia de la clase que est inmediatamente debajo de ella; d2 igual a la frecuencia de la clase modal menos la frecuencia de la clase que est inmediatamente a por encima de ella; y w como el ancho del intervalo de la clase modal. Alcance = xmax xmin (3.11)
El alcance es la diferencia entre el valor ms alto xmax y ms bajo xmin de una distribucin de frecuencias. a a o Alcance intercuartil = Q3 Q1 (3.12)
El alcance intercuartil mide aproximadamente qu tan lejos de la mediana debemos desplazarnos a ambos e lados antes de que podamos incluir una mitad de los valores delconjunto de datos. Para calcular este alcance, divida los datos en cuatro partes iguales. Los cuartiles (Q) son los valores ms altos de cada una a de esas cuatro partes. El alcance intercuartil es la diferencia entre los valores del primer y el tercer cuartil (Q1 y Q3 ). 2 = (X )2 X 2 = 2 N N
(X)2 N
(3.13)
Esta frmula nos permite calcular la varianza de la poblacin, una medida de la distancia cuadrada o o promedio entre la media y cada observacin de la poblacin. La expresin de en medio, o o o 2.
X 2 N
es la
La ultima expresin, o es matemticamente equivalente a la denicin, pero, a a o denicin de o menudo, es mucho ms conveniente de usar, debido a que nos libera del clculo de las desviciones de la a a media. = 2 = (X )2 = N X 2 2 N (3.14)
La desviacin estndar de la poblacin, , es la ra cuadrada de la varianza de la poblacin. Es un o a o z o parmetro ms util que la varianza, debido a que se expresa en las mismas unidades que los datos (mientras a a que las unidades de la varianza son el cuadrado de las unidades de los datos). La desviacin estndar es o a siempre la ra cuadrada positiva de la varianza. z Resultado est andar de la poblaci on = x (3.15)
El resultado estndar de una observacin es eln mero de desviaciones estndar que la observacin est a o u a o a separada hacia abajo o hacia arriba de la media de la distribucin. El resultado estndar nos permite o a hacer comparaciones entre los elementos de la distribucin que dieren por ordenes de magnitud o en las o unidades empleadas. Utilice la ecuacin 3-14 para encontrar el resultado estndar de una observacin de o a o una poblacin. o
3.10. PRACTICAS
27
f (X )2 f X 2 = 2 (3.16) N N Esta frmula, en cualquiera de sus formas, nos permite calcular la varianza de los datos ya agrupados o en una distribucin de frecuencias. En sta, f representa la frecuencia de la clase y X es el punto medio. o e 2 = f (X )2 f X 2 = 2 (3.17) N N Tome la ra cuadrada de la varianza y obtendr la desviacin estndar utilizando datos agrupados. z a o a x2 nx 2 (x x)2 = (3.18) n1 n1 n1 Para calcular la varianza de la muestra, utilice la misma frmula de la ecuacin 3-12, sustituyendo con o o x y N con n 1. s2 = nx 2 (x x)2 x2 = (3.19) n1 n1 n1 La desviacin estndar es la ra cuadrada de la varianza de la muestra. Es parecida a la ecuacin 3-13, o a z o slo que est sustituida por la media de la muestra x y N se cambia por n 1. o a xx s Utilice esta ecuacin para encontrar el resultado estndar de una observacin en una muestra o a o Resultado est andar de la ecuaci on = Coef iciente de variaci on de la poblaci on = (100) (3.20) s = s2 = = 2 =
(3.21)
El coeciente de variacin es una medida relativa de la dispersin que nos permite comparar dos distrio o buciones. Relaciona la desviacin estndar como porcentaje de la media. o a
3.10. Prcticas a
3.10.1. Prctica tres: Clasicacin de datos. a o
OBJETIVO: Que el alumno sea capaz de aplicar los conceptos bsicos de la clasicacin de datos. a o ACTIVIDAD: Resolver los ejercicios siguientes: 1. Establecer cules de estos datos son discretos y cules continuos: a a a. Temperaturas medidas en un laboratorio cada media hora. b. Ingresos anuales de los profesores de educacin media. o c. Longitudes de 100 tornillos producidos en una empresa. d. N mero de estudiantes en un aula de la UTXJ. u Soluciones: continuo, continuo, continuo, discreto. 2. Clasicar cada una de las siguientes variables: a. Distancia diaria recorrida por cada estudiante para ir de su casa a la universidad. b. Tiempo que requiere un estudiante para responder a un examen. c. Llamadas que llegan a la central telefnica de la UTXJ en un d o a. d. Preferencia por cierta marca de refresco.
28
CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA e. Color del cabello de las estudiantes que toman el curso de estad stica en el cuatrimestre. f. N mero de acciones vendidas en un d en la Bolsa Mexicana de Valores. u a g. Vida media de los tubos de televisin producidos por una fbrica. o a Soluciones: cuantitativa-continua, cuantitativa-continua, cuantitativa-discreta, cualitativa-discreta, cualitativa-discreta, cuantitativa-discreta, cuantitativa-continua. 3. Se ha hecho un estudio para determinar la preferencia de una marca especial de detergente por parte de las amas de casa. Entre las 50 amas de casa entrevistadas, 30 dijeron que prefer esta marca. an a. Qu constituye la muestra?. e a. Qu constituye la poblacin? e o c. Cul es la proporcin, dentro de la muestra, de las amas de casa que preeren la marca del a o detergente? Soluciones: el conjunto de respuestas que dieron las 50 amas de casa., el conjunto formado por las posibles respuestas de las amas de casa., 0.6. 4. En una esta, el 50 % de los invitados son hombres. De todos los hombres de la esta, el 40 % son calvos y de ellos el 50 % habla ingls. Si 4 calvos hablan ingls. Cuntas mujeres hay en la esta? e e a Solucin: 20 mujeres. o
3.10. PRACTICAS
29
2. Los datos adjuntos representan el promedio de millas por galn diario por 5 d para los carros A o as y B, en condiciones similares: A 20 25 30 15 35 B 15 27 25 23 35 a) Encuentre la media y el rango de millas por galn para cada carro. o b) Cul carro parece haber logrado un rendimiento ms consistente, si la consistencia se determina a a examinando las varianzas?
Solucin: a) Ambos carros tienen el mismo rango (R = 20).Ambos carros tiene la misma media o ,(x = 25 millas por galn). b)El carro B es ms consistente. o a 3. Con los datos obtenidos en la prctica n mero cinco aplicar las frmulas de media mediana y moda a u o por el mtodo de datos agrupados. Adems, calcular e interpretar la amplitud total, desviacin e a o media, varianza y desviacin estndar. o a ACTIVIDAD: Para jar el conocimiento de una manera ms eciente se propone la realizacin de a o los ejercicios siguientes utilizando Excel:
4. La tabla muestra una distribucin de frecuencias de la duracin de 400 tubos de radio comprobados o o en la Ferretera Villa Jurez. a Duracin (horas) o [300-400) [400-500) [500-600) [600-700) [700-800) [800-900) [900-1000) [1000-1100) [1100-1200) N mero de tubos u 14 46 58 76 68 62 48 22 6
Completar la tabla para luego determinar: a) L mite superior de la quinta clase. b) L mite inferior de la octava clase. c) Marca de clase de la sptima clase. e d) Tama o del intervalo de clase. n e) Frecuencia de la cuarta clase. f) Frecuencia relativa de la sexta clase. g) Porcentaje de tubos cuya duracin es menor a las 600 horas. o h) Porcentaje de tubos cuya duracin es mayor o igual a 900 horas. o i) Porcentaje de tubos cuya duracin es al menos de 500 horas pero menor de 1000 horas. o j) Construir un histograma y un pol gono de frecuencias. k) Construir un histograma y un pol gono de frecuencias relativas. l) Construir una ojiva porcentual.
30
CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA m) Estimar el porcentaje de tubos con duraciones de menos de 560 horas. Estimar el porcentaje de tubos con duraciones de 970 o ms horas. a o) Estimar el porcentaje de tubos con duraciones entre 620 y 890 horas. 5. En la ocina de la revista de divulagcin universitaria de la UTXJ, el tiempo que se tardan en o imprimir la primera plana fue registrado durante 50 d A continuacin se transcriben los datos, as. o aproximados a dcimas de minuto: e 20.8 25.3 23.7 21.3 19.7 22.8 20.7 20.3 21.5 24.2 21.9 22.5 23.6 23.1 23.8 22.0 21.2 19.0 19.9 20.7 20.7 23.8 25.1 24.2 23.8 20.9 23.3 25.0 24.1 24.3 25.0 20.9 19.5 19.8 21.1 22.2 22.9 24.1 23.9 20.9 22.8 23.5 24.2 22.8 21.6 20.1 19.5 21.8 23.9 22.7
a) Construya con los datos una tabla de distribucin de frecuencia, usando intervalos de 0.8 o minutos. b) Construya un pol gono de frecuencias. c) Construya una ojiva. d) Por medio de la ojiva estime que porcentaje de las veces la primera plana del peridico puede o imprimirse en menos de 24 minutos. Solucin: aproximadamente un 75.5 %. o 6. En Beverage Digest se informa que, con base en las ventas de 1998, las 5 marcas de refrescos que ms se vendieron fueron Coke Classic, Diet Coke, Dr. Pepper, Pepsi Cola y Sprite. La lista siguiente a proviene de una muestra de 50 compras de esas marcas: Coke Classic Diet Coke Pepsi Cola Pepsi Cola Coke Classic Dr.Pepper Pepsi Cola Dr.Pepper Coke Classic Coke Classic Dr.Pepper Coke Classic Diet Coke Coke Classic Coke Classic Sprite Pepsi Cola Pepsi Cola Coke Classic Diet Coke Sprite Diet Coke Coke Classic Diet Coke Coke Classic Sprite Coke Classic Diet Coke Pepsi Cola Pepsi Cola Coke Classic Coke Classic Coke Classic Coke Classic Pepsi Cola Coke Classic Dr.Pepper Dr.Pepper Pepsi Cola Sprite Pepsi Cola Pepsi Cola Diet Coke Coke Classic Coke Classic Sprite Coke Classic Pepsi Cola Diet Coke Pepsi Cola
a) Construir la tabla de distribucin de frecuencias. o b) Construir una grca de barras y un diagrama de pastel. a c) Qu porcentaje de las ventas tienen Pepsi Cola y Coke Classic?. e Solucin: 26 % y 38 %. o 7. La siguiente tabla representa la edad de los empleados que trabajan en la empresa de Crnicos a Ta-Kin: Edad [22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50) N de Empleados 12 29 27 19 16 10 7
3.10. PRACTICAS Calcular: a) Edad ms frecuente. a b) La edad que se encuentra justo en el 50 % de la distribucin. o c) La edad m nima del 40 % entre los mayores. d) Porcentaje entre 28 y 40 a os. n e) Porcentaje entre x s. f) Calcule la curtosis e interprete. g) Calcule el coeciente de asimetr e interprete. a Solucin: a) 29.58 b) 32.81 c) 34.84 d) 57.09 e) 64.18 % g) 0.47. o
31
32
4 Probabilidad
4.1.
Introduccin o
La teora de la probabilidad es la parte de las matemticas que se encarga del estudio de los fenmenos a o o experimentos aleatorios. Un experimento aleatorio es aquel experimento que cuando se le repite bajo las mismas condiciones iniciales, el resultado que se obtiene no es siempre el mismo. El ejemplo ms sencillo a y cotidiano de un experimento aleatorio es el lanzar una moneda o un dado. En principio no sabemos cul ser el resultado del experimento aleatorio, as que cuando menos conviene agrupar en un conjunto a a a todos los resultados posibles. El el espacio muestral de un experimento aleatorio es el conjunto de todos los posibles resultados del experimento, se le denota por la letra griega (omega). Un evento es cualquier subconjunto del espacio muestral. Denotaremos a los eventos por las letras A, B, C,...,Z Por ejemplo, si el experimento aleatorio consiste en lanzar un dado y observar el nmero que aparece u en la cara superior entonces claramente = {1, 2, 3, 4, 5, 6} . Y como ejemplo de evento podemos escribir A = {2, 4, 6} que corresponde al evento de obtener un n meu ro par como resultado. Cualquier subconjunto de es entonces un evento. Dado que estaremos trabajando con conjuntos, recordaremos a continuacin algunas operaciones entre conjuntos y algunas propiedades o que nos sern de utilidad en el estudio de la probabilidad y la estad a stica. Suponemos entonces que es nuestro conjunto universal y cualquier elemento de de lo denotaremos por (omega min scula). El u conjunto vac lo denotaremos por . Otros s o mbolos usuales son los de pertenencia () o no pertenencia ( ) de un conjunto en otro. Si A es un conjunto, denotamos la cardinalidad o n mero de elementos del u conjunto A como #A. a o Sean A y B dos subconjuntos cualesquiera de . Recordemos las operaciones bsicas de unin, interseccin, diferencia y complemento respectivamente y mediante diagramas de Venn se ilustran grcamente, o a A B = { : A B}, o A B
33
34
A B = { : A y B}, A B
B},
A},
Figura 4.4: Ac :Conjunto complemento de A, coleccin de elementos fuera del conjunto A o Cuando los conjuntos se expresan en palabras, la operacin unin se lee A o B y la interseccin, AB, o o o se lee A y B. El complemento, Ac , se interpreta como la coleccin de aquellos elementos que estn fuera o a de A.
4.1.
INTRODUCCION
35
Recordemos tambin que la operacin diferencia simtrica entre dos conjuntos A y B, es denotada por e o e AB y denida como sigue AB = (A B) (B A) En la gura 4.5 ilustramos grcamente la diferencia simtrica entre los conjuntos A y B. a e A B
Figura 4.5: AB:Diferencia simtrica de A y B e Decimos que dos conjuntos A y B son ajenos (o disjuntos) si y solo si A B = . Anlogamente decimos a que n conjuntos A1 , A2 , . . . , An son ajenos (o mutuamente ajenos) si Ai Aj = para cualquiera valores de los ndices i, j = 1, 2, . . . , n, con i distinto de j. Es fcil demostrar que el conjunto vac y que el conjunto universal satisfacen las siguientes a o propiedades elementales A = A, A = , A = , Las operaciones unin e interseccin son asociativas, esto es, o o A (B C) = (A B) C A (B C) = (A B) C y tambin distributivas, e A (B C) = (A B) (A C), A (B C) = (A B) (A C), Recordemos adems las leyes de Morgan, a (A B)c = Ac Bc , (A B)c = Ac Bc , Estas igualdades pueden extenderse a colecciones nitas e innitas e incluso arbitrarias de conjuntos. El conjunto potencia de , denotado por 2 , es aquel conjunto cuyos elementos son todos los subconjuntos posibles de . Por ejemplo, si = {a, b, c} entonces el conjunto 2 consta de 8 elementos, A = A, A Ac = , A Ac = ,
36
2 = {, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, } No es dif ver que #(2 ) = 2# . Parael ejemplo anterior. #(2 ) = 2# = 23 = 8. De este hecho proviene cil la notacin usada para el conjunto potencia, 2 . o Finalmente recordemos que el producto Cartesiano de dos conjuntos A y B, denotado por A B, se dene como la coleccin de todas las parejas ordenadas (a, b) en donde a es cualquier elemento de A y b o es cualquier elemento de B. En s mbolos, A B = {(a, b) : a A, b B}. En general los conjuntos A B y B A son diferentes pues (a, b) (b, a), sin embargo ambos tienen la misma cardinalidad, esto es, #(A B) = #(B A). Ms a n, si #A = n y #B = m entonces #(A B) = n m. a u Y ms generalmente a #(A1 A2 An ) = #A1 #A2 . . . #An Estamos interesados en calcular probabilidades en los diferentes eventos, i.e. subconjuntos de , que resultan al estudiar experimentos aleatorios. En la siguiente seccin estudiaremos algunas formas de denir o matemticamente la probabilidad de un evento cualquiera. a .
4.2.
Probabilidad bsica a
La probabilidad de un evento A es un n mero real que denotaremos por P(A), y representa una medida u de la frecuencia con la que se observa la ocurrencia del evento A cuando se efect a el experimento aleatorio u en cuestin. Tenemos al menos cuatro deniciones de probabilidad que explicamos a continuacin o o a Denicin 4.1 Probabilidad clsica: Sea A un subconjunto de un espacio muestral de cardinalidad nita. o Denimos P(A) como sigue. #A # Claramente la denicin anterior es slo vlida para espacios muestrales nitos pues necesitamos o o a # < . Adems el espacio debe ser equiprobable pues para calcular P(A) unicamente necesitamos a contar cuantos elementos tiene A respecto del total , sin importar exactamente qu elementos sean. e Por lo tanto, esta denicin de probabilidad presupone que todos los elementos de son igualmente o probables. Este ser el caso de un dado equilibrado. a P(A) = Denicin 4.2 Probabilidad frecuentista: Supongamos que realizamos n veces el experimento aleatorio en o cuestin. Denotemos por nA el nmero de ocurrencias del evento A en las n realizaciones del experimento. o u Denimos entonces P(A) como sigue n P(A) = lm A n n En este caso, debemos hacer notar que no es humanamente posible llevar a cabo una innidad de veces el experimento aleatorio para encontrar P(A). Esta limitacin hace que esta denicin de probabilidad no o o sea enteramente formal. Denicin 4.3 Probabilidad subjetiva: En este caso la probabilidad de un evento depende del observador, o es decir, segn lo que el observador conozca del objeto. u a o a o Denicin 4.4 Probabilidad axiomtica: En la denicin axiomtica de la probabilidad no se establece cmo o se calculan las probabilidades sino unicamente se proponen las reglas que la probabilidad debe satisfacer.
4.3.
ANALISIS COMBINATORIO
37
Los siguientes son tres postulados o axiomas establecidos por A. N. Kolmogorov en 1933. AXIOMAS DE LA PROBABILIDAD 1. P(A) 0. 2. P() = 1 3. P(A B) = P(A) + P(B) cuando A B =
No es dif vericar que nuestra deniciones anteriores de probabilidad satisfacen estos tres axiomas. cil De hecho, stos axiomas que le pedimos a la probabilidad han sido tomadas directamente de las deniciones e anteriores. Como consecuencia de estos postulados es posible demostrar que la probabilidad cumple, entre otras, con las siguientes propiedades.
ALGUNAS PROPIEDADES DE LA PROBABILIDAD: a) P(Ac ) = 1 P(A). b) P() = 0. c) Si A B entonces P(A) P(B). d) 0 P(A) 1. e) P(A B) = P(A) + P(B) P(A B). f) P(ABC) = P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)
4.3.
Anlisis combinatorio a
Es muy frecuente que en un experimento aleatorio el espacio muestral sea un conjunto nito y cada elemento de tenga la misma probabilidad de ocurrir, es decir, el espacio es equiprobable. En estos #A casos hemos denido la probabilidad clsica de un evento A como sigue: P(A) = # . a Para poder aplicar esta denicin necesitamos saber contar cuantos elementos tiene un conjunto A. o Cuando podemos poner en una lista todos los elementos de A entonces es fcil conocer la cardinalidad de a A. Sin embargo, es com n enfrentar situaciones en donde es tedioso y tardado escribir cada elemento de u A cuando unicamente nos interesa conocer #A. En esta seccin estudiaremos algunas tcnicas de conteo o e que nos ayudarna a calcular #A en ciertos casos. a El principio de multiplicacin que enunciamos a continuacin es la base de muchos clculos en tcnicas o o a e de conteo. o Denicin 4.5 Principio de multiplicacin: Si un procedimiento puede efectuar de n formas distintas y o un segundo procedimiento puede realizarse de m formas diferentes, entonces el total de formas que puede efectuarse el primer procedimento seguido del segundo es nm. Por ejemplo, un experimento aleatorio consiste en seleccionar un dado y despus selecionar al azar una e letra del alfabeto. Cul es la cardinalidad del correspondiente espacio muestral? Solucin. El experimento a o de lanzar un dado tiene 6 resultados posibles y consideremos que tenemos un alfabeto de 26 letras. El correspondiente espacio muestral tiene entonces cardinalidad 6 26 = 156. Vamos a considerar a continuacin diferentes esquemas y contextos en donde es posible encontrar una o frmula matatemtica para ciertos problemas de conteo. o a
38
4.3.2. Factoriales
La pregunta bsica acerca del total de formas en que podemos poner orden lineal (uno detrs de otro) a a n objetos distintos tiene como respuesta el factorial de n, denotado por n! y denido como sigue n! = n(n 1)(n 2) . . . (3)(2)(1) . Tambin se le conoce como las permutaciones de n objetos y se usa la notacin P(n) = n!. Por ejemplo, si e o deseamos conocer el total de formas distintas en que podemos colocar una enciclopedia de 5 vol menes en u un librero, la respuesta es claramente 5! = 54321 = 120. El razonamiento es el siguiente: Cualquiera de los 5 libros puede ser colocado al principio, quedan cuatro libros por colocar en la segunda posicin, o restan entonces tres posibles para la tercera posicin, y as sucesivamente. Por el pricipio multiplicativo o la respuesta es entonces el producto de estos n meros. Denimos 0! = 1. u
4.3.3. Permutaciones
A veces no queremos ordenar todos los n objetos de un conjunto sino unicamente k de ellos (k n). La respuesta al total de arreglos lineales que podemos obtener de este modo es el n mero: (n)(n 1)(n u 2) (n k + 1). Primeramente debemos observar que hay k factores en la expresin anterior. El primer o factor es debido a que tenemos cualesquiera de los n objetos para ser colocado en primera posicin, para o la segunda posicin tenemos ahora n 1 objetos, para la tercera n 2 objetos, etc. Este razonamiento o termina al escoger el k-simo objeto para cual tenemos unicamente nk +1 posibilidades. Nuevamente por e el principio multiplicativo, la respuesta es el producto indicado. La respuesta encontrada puede escribirse como sigue: P(n, k) = y se lee permutaciones de n en k. n! (n k)!
4.3.4. Combinaciones
Supongamos ahora que nos interesa el orden en que se escogen k objetos de un conjuntode n objetos (k n), entonces en la expresin encontrada antes n!/(n k)!, cada arreglo esta siendo contado k! veces o siendo que es el mismo pues el orden no importa. Para obtener arreglos en donde el orden no importa debemos entonces dividir por k!. La respuesta a la que llegamos se llama combinaciones de n en k que se denota y dene como sigue n n! = k!(n k)! k Tambin se le conoce como coeciente binomial de n en k. e Si ahora tenemos n objetos no necesariamente distintos, por ejemplo, supongamos que tenemos k1 objetos de un primer tipo, k2 objetos de un segundo tipo, y asi sucesivamente, hasta km objetos del tipo m, en donde k1 + k2 + . . . + km = n, entonces estos n objetos pueden todos ordenanarse uno detrs de otro a de tantas formas distintas como se indica el asi llamado coeciente multinomial,
4.4.
39
4.4.
Sean A y B dos eventos en donde P(B) > 0. Denimos la probabilidad condicional del evento A dado el evento B como sigue P(A|B) =
El evento B representa informacin adiconal acerca del experimento aleatorio. En general, cuando o encontramos la expresin P(A|B) estaremos suponiendo impl o citamente que P(B) > 0. Por ejemplo, consideremos el experimento de lanzar un dado equilibrado. Claramente el espacio muestral = {1, 2, 3, 4, 5, 6} es equiprobable. Sean los eventos A = {2} y {2, 4, 6} = Cae par. Entonces P(A) = 1/6 mientras que P(A|B) = 1/3. Obervamos entonces que conocer la informacin de la ocurrencia de vento B, o ha afectado la probabilidad del evento A. Decimos tambin que dos eventos A y B son independientes si sucede que e P(A B) = P(A)P(B) . Ms generalmente, los eventos A1 , A2 , . . . , An son independientes si se satisfacen todas las condiciones, a siguientes,
= = =
P(Ai )P(Aj ) i,j distintos P(Ai )P(Aj )P(Ak ) i,j, k distintos P(A1 )P(A2 ) . . . P(n).
Antes de enunciar el siguiente resultado recordemos el concepto de particin de un conjunto. Una o particin nita de un conjunto es una coleccin B1 , B2 , . . . , Bn de subconjuntos de tal que cada o o o, o ndices i y j distintos, conjunto Bi es distinto del vac la coleccin es disjunta dos a dos, esto es, para Bi Bj 0, y adems la unin de toda la coleccin produce el total , es decir, B1 B2 Bn = . en a o o la gura 4.6 mostramos una posible particin de . o
Bi
Bj
40
Denicin 4.6 o
P(A|Bi )P(Bi )
i=1
A = A = A
i=1
Bi =
i=1
A Bi ,
P(A) = P(
i=1
A Bi ) =
i=1
P(A Bi ) =
i=1
P(A|Bi )P(Bi ),
o Observemos que cuando tenemos la particin = B Bc , entonces la frmula del teorema de probabio lidad total se reduce a la expresin sencilla: o P(A) = P(A|B)P(B) + P(A|Bc )P(Bc ) . Consideremos el siguiente ejemplo de aplicacin del terorema de probabilidad total: o Ejemplo 2 Supongamos que tenemos dos cajas: una con tres bolas de color rojo y 7 de color negro, la otra con 6 rojas y 6 negras. Si se eleige una caja al azar y despus se saca una bola, cul es la probabilidad de que e a sea de color rojo? Solucin. El experimento aleatorio consiste entonces en escoger una caja al azar y despus escoger una o e bola de la caja escogida. Es claro entonces que el espacio muestral puede escribirse como sigue = {(C1 , R), (C1 , N ), (C2 , R), (C2 , N ), } en donde C1 y C2 denotan los eventos en donde las cajas uno y dos fueron escogidas, respectivamente, R y N denotan los eventos en doinde una bola roja y negra fueren escogidas respectivamente. Nos piden calcular la probabilidad de R. Es fcil calcular la probabilidad de R cuando sabemos cul caja fue escogida. a a Podemos entonces condicionar sobre el resultado de escoger alguna de las dos cajas, y entonces por el teorema de probabilidad total tenemos que P(R) = = = P(R|C1 )P(C1 ) + P(R|C2 )P(C2 ) 6 1 3 1 + 10 2 12 2 2 . 5
Observe que la particin de consta de dos elementos: {(C1 , R), (C1 , N )} y {(C2 , R), (C2 , N )}. o
4.4.
41
Como un segundo ejemplo del uso del teorema de probabilidad total, supongamos que en una poblacin o humana de 50 % hombres y 50 % mujeres, el 4 % de hombres son daltnicos y el 1 % de la mujeres son o daltnicas. Una persona es elegida al azar, Cul es la probabilidad de que sea daltnica? Solucin. o a o o Sean los eventos = La persona escogida es mujer. = La persona escogida es hombre. = La persona escogida es daltnica. o
M H D
Deseamos calcular P(D). Por el teorema de probabilidad total, P(D) = = = P(D|M)P(M) + P(D|H)P(H) 1 4 1 1 + 100 2 100 2 1 . 40
Otro resultado interesante acerca de la probabilidad condicinal es el famoso teorema de Bayes. Este resultado fu publicado por primera vez en 1763, dos a os despus de la muerte de su creador, el matemtico e n e a y telogo ingls Thomas Bayes. o e
Denicin 4.7 o
Teorema de Bayes:
y sea A un evento tal que P(A) > 0. Entonces para cada j = 1, 2, . . . , n P(Bj |A) = P(A|Bj )P(Bj ) n i=1 P(A|Bi )P(Bi )
Demostracin. Por la denicin de probabilidad condicional y el teorema de probabilidad total tenemos o o que P(Bj |A) = P(A Bj ) P(A) = P(A|Bj )P(Bj ) P(A) = P(A|Bj )P(Bj ) . n i=1 P(A|Bi )P(Bi )
Nuevamente observamos que en el caso en el que la particin de consta de slo dos elementos: B y o o Bc , entonces el teorema de Bayes, para el evento B, adquiere la forma simple P(B|A) = P(A|B)P(B) P(A|B)P(B) + P(A|Bc )P(Bc )
Ilustraremos el uso de esta frmula mediante un, o Ejemplo 3 En una fbrica hay dos mquinas, que denotaremos por A y B. La mquina A realiza el 60 % de a a a la producin total y la mquina B el 40 %. De su produccin, la mquina A produce 3 % de material o a o a defectuoso, la B el 5 %. Se ha encontrado un material defectuoso, cul es la probabilidad de que este a material defectuoso provenga de la mquina B? a Solucin Sean los eventos o
42
A B D
Nos preguntan P(B|D) y observamos que la informacin que tenemos es P(D|B). Por el teorema de o Bayes tenemos entonces que P(B|D) = = = P(D|B)P(B) P(D|A)P(A) + P(D|B)P(B)
3 100
40 100
10 . 19
Consideremos otro ejemplo, Ejemplo 4 En un laboratorio se descubri una prueba para detectar SIDA. o Denamos los eventos S N = El paciente tiene SIDA. = La prueba resulta negativa.
Se conoce que P(N c |S) = 0.95, P(N |S c ) = 0.96 y P(S) = 0.01. Nos preguntamos si efectivamente la prueba es tan buena como parece. Calcularemos P(S|N y P(S|N c ) usando el teorema de Bayes. Solucin o P(S|N ) = = P(N |S)P(S) P(N |S)P(S) + P(N |S c )P(S c ) 0.05 0.01 0.05 0.01 + 0.96 0.99
= 0.000526 Esta probabilidad es demasiado peque a. Por otro lado, n P(S|N c ) = = = P(N c |S)P(S) P(N c |S)P(S) + P(N c |S c )P(S c ) 0.95 0.01 0.95 0.01 + 0.04 0.99 0.193
43
Dado un experimento aleatorio con espacio muestral una variable aleatoria es una transformacin o X del espacio de resultados al conjunto de n mero reales, esto es X : R. Escribiremos simplemente u v.a. para variable aleatoria. Supongamos entonces que efectuamos el experimento aleatorio una vez y obtenemos un resultado en . Al transformar este resultado con la v.a. X obtenemos un n mero u real X() = x. Y podemos entonces suponer que los posibles resultados del experimento aleatorio son los diferentes nmeros reales x que la funcin v.a. en X puede tomar. Ilustramos de manera grca el concepto u o a de variable aleatoria en la gura 4.7.
.
X(w)
Figura 4.7: Una variable aleatoria es una funcin de en R. o Debemos hacer aqu varias observaciones. Primeramente seguiremos la notacin convencional de usar o la letra may scula X para una v.a. Es importante notar que X denota una v.a., es decir, una funcin de u o en R, y x denota un n mero real. Veamos unos ejemplos sencillos. u Ejemplo 5 Supongamos que un experimento aleatorio consiste en lanzar al aire una moneda y observar la cara superior una vez que la moneda cae. Denotemos por Sol y Aguila los dos lados de la moneda. Entonces = {Sol, Aguila} Y podemos denir la variable aleatoria X : R como sigue XCara = XCruz = 0 1
De modo podemos suponer entonces qu el experimento aleatorio tiene dos valores numricos posibles: e 0 y 1. Observe que los n meros 0 y 1 son en realidad arbitrarios bien pudimos haber escogido otro par u de n meros reales. Podemos tambin denir otra variable aleatoria Y : R de la siguiente forma u e Y (Cara) = Y (Cruz) = 2 En este caso la v.a. Y toma un valor, el n mero 2. Cualquier resultado del experimento aleatorio u produce, a travs de la funcin Y , El n mero 2. Decimos entonces es la v.a. constante 2. Veamos otro e o u ejemplo. Ejemplo 6 Consideremos el experimeto aleatorio de lanzar un dardo en un tablero circular de radio uno.
44
CAP ITULO 4. PROBABILIDAD El espacio muestral o conjunto de posibles resultados del experimento se puede escribir como sigue = {(x, y) : x2 + y 2 Podemos denir varias variables aleatorias = = = = 1}
x, (proyeccin sobre el eje horizontal). o y, (proyeccin sobre el eje vertical). o x2 + y 2 , (distancia la centro del circulo). |x| + |y| . xy.
Z(x, y) =
Observe cmo cada uno de estos ejemplos es una funcin de en R. o o Ahora, si nos jamos en el conjunto de valores que una v.a. pude tomar podemos clasicar las variables en dos tipos: discretas y continuas. Decimos que una v.a. es discreta cuando el conjuto de valores que sta v.a. toma es un conjunto discreto, i.e. un conjunto nito o numerable. Por ejemplo, el conjunto e {0, 1, 2, . . . , n} es un conjunto discreto porque es nito, lo mismo N pues aunque es innito, es numerable y por lo tanto discreto. Por otra parte, decimos que una v.a. es continua cuando X toma por lo menos todos los valores dentro un intervalo (a, b) de R. Esta clasicacin de variables aleatorias no es completa pues o existen v.a.s que no son de ninguno de los dos tipos mencionados. En este curso unicamente estudiaremos variables discretas o continuas. Usaremos tambin la siguiente notacin: Si A es un subconjunto de R entonces e o (X A) = { : X() A}. Por ejemplo, si consideramos nuevamente el ejemplo anterior de la moneda, tenemos que (X [1, )) (X [0, 1)) (X [2, 4)) = = = {Cruz}. {Cruz}. . {Cruz}. . .
(X = 1) = 1 (X ) = 2 (X 0) =
Ahora vamos a asociar a cada variable aleatoria dos funciones que son equivalentes en cierto sentido una con otra y que nos dan informacin de las caracter o sticas de la v.a.
4.6.
Sea X una v.a. discreta que toms los valores x1 , x2 , . . . con probabilidades respectivas P(X = x1 ), P(X = x2 ), . . . . Denimos la funcion de densidad de la v.a. X, que denotemos por f X (x) : R P, como sigue P(X = x) si x1 , x2 , . . . f X (x) = 0 otro caso Por ejemplo,
4.6.
45
Ejemplo 7 Consideremos la variable aleatoria discreta X que toma ciertos valores x1 , x2 y x3 , con probabilidades 0.3, 0.5 y 0.2 respectivamente. Entonces la funcin de densidad de X est dada por o a 0.3 si x = x1 0.5 si x = x 2 f X (x) = 0.2 si x = x3 0 otro caso La grca de f X (x) aparece en la gura 4.8. a
fX (x) 0.5
0.3 0.2
x1
x2
x3
Figura 4.8: Grca de la funcin de densidad de una v.a. discreta. a o Tambin denimos la funcin de distribucin de X, que denotaremos por FX (x) : R [0, 1], como sigue e o o FX (x) = P(X x). A esta funcin se le conoce como funcin de acumulacin de probabilidad. Para nuestro ejemplo anterior o o o tenemos que la funcin de distribucin de X es o o 0 si x < x1 , 0.3 si x < x x , 2 2 f X (x) = 0.8 si x2 < x x3 , 1 si x x . 3 La grca de FX (x) aparece en la gura 4.9. a Sea X una v.a. continua. Decimos que f X (x) : R R es la funcin de densidad de X si para cualquier o intervalo (a, b) R, P(X (a, b)) =
a b
f X (x)dx.
f X (x) =
1 ba
0.3
x1
x2
x3
Figura 4.9: Grca de la funcin de distribucin de una v.a. discreta. a o o es una funcin de densidad de una v.a. continua cuya grca aparece en la gura 4.10. Y denimos la o a funcin de distribucin de X, que denotaremos por FX (x) : R [0, 1], exactamente como antes, es decir, o o para todo x R, FX (x) = P(X x)
fX (x)
1 ba
Figura 4.10: Grca de la funcin de densidad de una v.a. continua. a o Para nuestro ejemplo anterior tenemos que la funcin de distribucin de la v.a. continua X es o o 0 si x < a FX (x) = xa si x [a, b] ba 1 otro caso cuya grca aparece en la gura 4.11 a En el caso continuo tenemos que para toda x en R, FX (x) = P(X x)
x
f X (u)du,
4.6.
47
FX (x) 1
d F (x). dx X Es claro que toda funcin de densidad f X de una v.a.continua X satisface las siguientes dos propiedades. o fX =
= 1.
Ms an, toda funcin f (x) : R R que satisfaga las dos propiedades anteriores se llamar funcin de a u o a o densidad. Es fcil de escribir las dos propiedades equivalentes para v.a. discretas o funciones de densidad a que toman un conjunto discreto de valores. Como un ejemplo, resolvamos el siguiente ejercicio. Ejemplo 8 Determina el valor de la constante c que hace que la siguiente funcin sea de densidad. o (a) cx si x = 0, 1, 2, 3. f X (x) = 0 otro caso (b) c|x| si x [1, 1], f X (x) = 0 otro caso
SOLUCION. Para el inciso (a) tenemos que X es una v.a. discreta que toma los valores 0, 1, 2y 3, con probabilidades 0, c, 2c, y 3c respectivamente. Como la suma de estas probabilidades debe ser uno, obtenemos entonces la ecuacin c + 2c + 3c = 1. De aqu obtenemos c = 1 . Este es el valor de c que hace o 6 que f X (x) sea no negativa y sume uno, es decir, una funcin de densidad. o En el inciso (b) tenemos un ejemplo de una v.a. continua que toma valores en el intervalo [1, 1].
48
1= .
c|x|dx = 2
cxdx = c
Por lo tanto, cuando tomamos c = 1 la funcin del inciso (b) resulta ser una funcin de densidad pues o o ahora cumple con ser no negativa e integrar uno. Por otro lado, es posible demostrar que toda funcin de distribicin FX (x) satisface las siguientes o o propiedades.
PROPIEDADES DE LA FUNCION DE DISTRIBUCION FX (x): 1. 0 FX (x) 1. 2. Si x1 x2 entonces FX (x1 ) FX (x2 ). 3. Si x1 x2 entonces P(X (x1 ]) = FX (x2 ) FX (x1 ). 4. lm FX (x) = 1.
x
5. lm FX (x) = 0.
x
4.7.
Estudiaremos a continuacin algunas caracter o sticas nemricas asociadas a las variables aleatorias. e
4.7.1. Esperanza
Primeramente denimos la esperanza de X, denotada por E(X), como sigue E(X) =
x xf X (x) xf (x)d(x) X
si X es discreta. si X es continua.
La esperanza de una v.a. es entonces un n mero que indica el promedio ponderado de los diferentes u valores que puede tomar v.a.. A la esperanza se le conoce tambin con los nombres de: media, valor e esperado, valor promedio: y en general se usa la letra griega (mu) para denotar a la esperanza. La integral o suma arriba mencionados pueden no existir y en ese caso decimos que la v.a. no tiene esperanza nita. Ejemplo 9 Supongamos que se nos pide calcular la esperanza de la v.a. discreta X con densidad x -1 0 1 2 1 4 1 2 f X (x) 8 8 8 8 Solucin. Esto es demasiado fcil pues siguiendo nuestra denicin de esperanza para v.a. discretas . o a o tenemos que E(X) =
x
4.7.
49
Ejemplo 10 Suponemos que deseamos calcular E(X) cuando X es una v.a. continua con densidad 2x si x [0, 1] f X (x) = 0 otro caso. Solucin. Esto tambin es fcil pues siguiendo nuestra denicin de esperanza tenemos que o e a o E(X) =
xf X (x)dx =
1 0
x(2x)dx =
2 3 2 x = 3 3
0
PROPIEDADES DE LA ESPERANZA: (a) E(c) = c, (c =constante). (b) E(cX) = cE(X). (c) E(X + Y ) = E(X) + E(Y ). El siguiente resultado es muy importante: Sea X una v.a. continua y g : R R una funcin tal que o g(X) es una v.a. con esperanza nita, entonces E[g(X)] =
g(x)f X (x)dx.
Ejemplo 11 2 Calcule E(Y ) con Y = e x y X la v.a. continua del ejemplo anterior Solucin. Como X es una v.a. continua tenemos que o E(Y ) = E(e x ) =
2
e x f X (x) =
1 0
e x (2x)d(x) = e 1
4.7.2. Varianza
Vamos ahora a denir otra caracter stica numrica asociada a las variables aleatorias llamada varianza. e Denimos la varianza de X, denotada por V ar(X), como sigue V ar(X) = E[(X E(X)2 )] [x E(X)]2 f X (x) [x E(X)]2 f X (x)dx si X es discreta.
si X es continua.
La varianza es una medida del grado de dispersin de los diferentes valores tomados por la v.a. Se le o denota regularmente por la letra 2 (sigma cuadrada). Nuevamente la correspondiente suma o integral puede no existir y en ese caso decimos que la v.a. no tiene varianza nita. Observemos que para calcular V ar(X) necesitamos conocer primero E(X). Veamos algunos ejemplos sencillos.
0
4 8
1
1 8
2
2 8
Solucin. Recordemos primeramente que E(X) = 1 . Aplicando nuestra denicin de varianza tenemos o o 2 entonces que V ar(X) =
x
= =
1 1 + 0 8 2
4 1 + 1 8 2
1 1 + 2 8 2
2 8
Bibliograf a
[1] test reference
51