Академический Документы
Профессиональный Документы
Культура Документы
Estadı́stica descriptiva
Contenido
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Estadı́stica y sus aplicaciones . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Términos comúnmente usados en estadı́stica . . . . . . . . . . . 6
1.1.3 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . . . . 7
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . . . . 10
1.2.2 Organización de datos de acuerdo a escalas de medidas . . . . . 11
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . . . . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas . . . . 33
1.3.1 Medidas de tendencia central o de centralización . . . . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . . . . 43
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . . . . 45
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Copyright © 2017. Universidad del Norte. All rights reserved.
☞ Empleo de la estadı́stica
La directora de producción de una empresa debe informar a su superior
sobre el número de dı́as promedio que los empleados de la empresa se ausen-
tan del trabajo. Sin embargo, la planta emplea más de dos mil trabajadores,
y la directora de producción no tiene tiempo de revisar los registros persona-
les de cada empleado. Como asistente, usted debe decidir cómo puede ella
obtener la información necesaria. ¿Qué consejo podrı́a darle?
1.1 Introducción
En la vida diaria, los diversos fenómenos de orden económico, social, polı́tico, educacional, e
incluso biológico, aparecen, se transforman y finalmente desaparecen. Para tan abundante
y complejo material es preciso tener un registro ordenado y continuo, a fin de conseguir
en un momento dado los datos necesarios para un estudio de lo que ha sucedido, sucede
o puede suceder. Para ello se requiere contar con un método, con un conjunto de reglas o
principios, que nos permita la observación, el ordenamiento, la cuantificación y el análisis
de dichos fenómenos.
2. Según una segunda acepción, es la ciencia que, utilizando como instrumento las
matemáticas y el cálculo de probabilidades, estudia las leyes de comportamiento de
aquellos fenómenos que no están sometidos a las leyes fı́sicas y basándose en ellas
predice e infiere resultados. En este caso se la denomina estadı́stica matemática.
1.1. Introducción
Probabilidad básica
Tablas y y distribuciones de Análisis de series
gráficas probabilidad de tiempo
Medidas
estadísticas
Distribuciones Pruebas de
muestrales y hipótesis
estimación
En la figura 1.1 se presenta un esquema general de las rutas que sugerimos tomar desde la
perspectiva de estas tres razones para aprender estadı́stica. En este esquema se observa que
para tener en cuenta la primera razón se abordan los métodos referentes a la recopilación,
descripción y presentación de la información (que corresponde al capı́tulo 1 de este texto).
Para la segunda razón necesitaremos desarrollar los conceptos de distribuciones muestrales,
estimación y pruebas de hipótesis. Debido a que estos temas no hacen parte de los objetivos
de este texto, sólo se desarrollarán los conceptos básicos de probabilidad (capı́tulo 2) y
algunas distribuciones (capı́tulos 3, 4 y 5), temas que sirven como base para desarrollar
lo expresado en la segunda razón. Para la tercera razón sugerimos realizar el enfoque al
análisis de regresión, modelado y análisis de series de tiempo que proporcionan métodos
para hacer pronósticos (temas que tampoco tratamos en este texto).
En esta sección presentaremos ejemplos que ilustran algunas de las aplicaciones de la es-
tadı́stica en la ingenierı́a, en la administración y en la economı́a.
Ingenierı́a
Contabilidad
Finanzas
Los asesores financieros recurren a una gama de información estadı́stica para guiarse en sus
recomendaciones de inversión. En el caso de las acciones, revisan una variedad de datos
financieros, que incluyen relaciones de precio a rendimiento y los dividendos. Al comparar
la información de determinadas acciones con la correspondiente acerca de promedios del
mercado accionario, un asesor financiero puede comenzar a sacar conclusiones sobre si esas
acciones están sobre o subevaluadas.
Copyright © 2017. Universidad del Norte. All rights reserved.
Economı́a
Con frecuencia se pide a los economistas su pronóstico acerca del futuro de la economı́a o
de alguno de sus aspectos. Estos recurren a diversas informaciones estadı́sticas para elabo-
rarlo. Ası́, para pronosticar las tasas de inflación usan indicadores como el ı́ndice de precios
al productor, la tasa de desempleo y la ocupación de la capacidad de producción. Muchas
veces, esos indicadores estadı́sticos se introducen en modelos computarizados de pronóstico,
cuyo resultado son predicciones sobre las tasas de inflación.
1
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen las observaciones.
1.1. Introducción
Mercadotecnia
Los escáners en las cajas de los almacenes al detalle se emplean para reunir datos que tienen
muchas aplicaciones de investigación de mercados.
Producción
La mayor parte del análisis estadı́stico se realiza utilizando una biblioteca de programas
estadı́sticos. El usuario introduce los datos y luego selecciona los tipos de análisis y la
presentación de los resultados que le interesan. Los paquetes estadı́sticos están disponibles
para grandes sistemas de cómputo y para computadores personales. Entre los paquetes más
utilizados están SAS (Statistical Analysis System), SPSS (Statistical Package for Social
Sciencies), Statgraphics e, inclusive, Excel. En la sección 1.6 explicaremos cómo utilizar
Statgraphics en la estadı́stica y en la 1.7, cómo emplear la calculadora para hacer cálculos
estadı́sticos.
Definición 1.1.1 Una población es el conjunto total de objetos que son de interés para
Copyright © 2017. Universidad del Norte. All rights reserved.
un problema dado. Los objetos pueden ser personas, animales, producto fabricados, etc.
Cada uno de ellos recibe el nombre de elemento o individuo .
Ejemplo 1.1.2 Todos los niños nacidos en determinado año pueden constituir una población. Si
el director de una gran empresa manufacturera desea estudiar la producción de todas las plantas
de propiedad de la firma, entonces la producción de todas estas plantas es la población.
Ejemplo 1.1.4 Si todos los niños nacidos en determinado año constituyen una población, en-
tonces los niños nacidos en febrero pueden constituir una muestra.
Definición 1.1.5 Los datos u observaciones son números o denominaciones que po-
demos asignar a un individuo o elemento de la población.
Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta “¿Usted
fuma?”, el tipo de sangre, el salario mensual de un trabajador, etc.
Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa es
un ejemplo de parámetro, si todos los trabajadores se consideran como una población.
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada sección de la
empresa (viendo a los trabajadores de ésta como una muestra de todos los trabajadores de esta
empresa) es un ejemplo de estadı́stico.
Definición 1.1.11 Un censo (palabra derivada del latı́n censere, que significa “valuar o
tasar”) es la enumeración completa de la población.
Ejemplo 1.1.12 Según el censo llevado a cabo por el dane (Departamento Administrativo Na-
cional de Estadı́stica), en 1993 Colombia tenı́a 33.109.840 habitantes, de los cuales 16.296.539
eran hombres y 16.813.301 mujeres.
Copyright © 2017. Universidad del Norte. All rights reserved.
1.1. Introducción
En general, la estadı́stica descriptiva tiene como función el manejo de los datos recopilados
en cuanto se refiere a su ordenación y presentación, para poner en evidencia ciertas carac-
terı́sticas en la forma que sea más objetiva y útil. En este sentido, investiga los métodos
y procedimientos y establece reglas para que el manejo de los datos sea más eficiente y
para que la información entregada resulte confiable, y exprese correctamente ciertos con-
tenidos en un lenguaje que permita que cualquier persona los comprenda y pueda establecer
comparaciones.
(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en algunos
productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporción de colombianos encuestados que están a favor de
determinado candidato polı́tico.
Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas dadas
anteriormente, requieren estadı́stica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el porcentaje
de estudiantes que fuman.
(b) Con base en una encuesta de opinión, a un polı́tico le gustarı́a calcular la opción que tiene
de ser reelegido en las próximas elecciones.
Definición 1.1.17 Las técnicas y métodos utilizados por la ciencia estadı́stica, tanto en su
parte descriptiva como en la parte inferencial, son los llamados métodos estadı́sticos.
Copyright © 2017. Universidad del Norte. All rights reserved.
2. Una revista publica datos sobre la clasificación de las 300 corporaciones industriales más
grandes de un paı́s, en términos de ventas y utilidades. En la tabla 1.1 se muestran datos
acerca de una muestra de estas 300 compañı́as.
3. Una empresa desea probar la eficacia de un nuevo comercial de televisión. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales en
cierta ciudad. Tres dı́as después, una empresa de investigación de mercado lleva a cabo una
encuesta telefónica para obtener información sobre la frecuencia de recuerdos (procentaje de
los telespectadores que recuerdan haber visto el comercial) y las impresiones del comercial.
Copyright © 2017. Universidad del Norte. All rights reserved.
4. El candidato a alcalde de un pueblo pequeño quiere determinar si debe hacer una campaña
más fuerte contra su oponente. Para ello entrevistará a 300 de los 1.700 votantes registrados.
Si los resultados indican que tiene 35% más votos que su oponente, no intensificará sus
esfuerzos de campaña contra éste.
1.1. Introducción
5. Se estableció que el costo promedio de los textos escolares en un colegio pequeño durante
el último año fue de $ 354.400, con base en una inscripción de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadı́stica encuestó a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el último año, y se concluyó que
fue de $ 399.700.
Como se ilustra en la figura 1.2, existen dos tipos de datos: categóricos (o cualitativos) y
numéricos (cuantitativos).
Numéricas
Los datos también se pueden clasificar según la escala de medición o el procedimiento que los
generó. Cuatro tipos de escalas de medición usados en estadı́stica son las escalas nominal,
ordinal, de intervalo y de razón.
Un dato nominal se crea cuando se utilizan nombres para establecer categorı́as con la
condición de que cada dato pertenezca única y exclusivamente a una de estas categorı́as.
Existen escalas nominales tanto para los datos numéricos como categóricos. Una escala
nominal para datos numéricos asigna números a las categorı́as. Por ejemplo, entre los
datos numéricos que son nominales se incluyen los números en las camisetas deportivas, los
números telefónicos, etc.
Una escala nominal para datos categóricos es un agrupamiento no ordenado de los datos
en categorı́as discretas, donde cada dato puede incluirse solamente en uno de los grupos.
Por ejemplo, los datos nominales que son cualitativos incluyen el género, la raza, el tipo de
sangre y la religión.
Los datos medidos en una escala nominal ordenada de alguna manera se denominan datos
ordinales. Una escala ordinal coloca las medidas en categorı́as, cada una de las cuales
indica un nivel distinto respecto a un atributo que se está midiendo. La lista de datos
ordinales comprende:
No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codifiquemos las letras a como 4, b como 3, c como 2 y d como 1,
esto no quiere decir que con a el estudiante sabe el doble que un estudiante con c. Todo
lo que podemos decir es que la calificación A es mejor o de un grado superior a la de C, ya
que una escala ordinal no admite unidad de distancia.
Los datos medidos en una escala ordinal para los cuales pueden clasificarse las distancias
entre valores se llaman datos de intervalos. La distancia entre dos valores es importante
y los datos de intervalo son numéricos por necesidad; una escala de intervalo no siempre
tiene un punto cero (es decir, un punto que indique la ausencia de lo que se quiere medir).
La lista de datos de intervalo comprenden:
2. Temperaturas Celsius. Una temperatura Celsius de 80◦ es 40◦ más caliente que una de
40◦ , pero no es correcto decir que 80◦ es el doble de caliente que 40◦ . Nótese también
que una temperatura de 0 no implica que la energı́a interna del sistema sea igual a
cero. El punto cero en la escala de temperatura Celsius fue escogido arbitrariamente
como el punto de congelación e indica que está presente algo de calor.
Los datos medidos en una escala de intervalo con un punto cero que significa “ninguno” se
llaman datos de razón. Con datos medidos en una escala de razón podemos determi-
nar cuántas veces es mayor una medida que otra. Las escalas de razón incluyen salarios,
unidades de producción, peso, altura, etc. El dinero nos da una buena ilustración. Si usted
tiene cero pesos, entonces no tiene dinero. El peso es otro ejemplo. Si la aguja marca cero
en la escala, entonces hay una completa ausencia de peso (sin importar si se utiliza distintas
escalas de razón, como kilogramos, gramos o libras). Las escalas de razón también incluyen
escalas, como, por ejemplo, pies, libras, centı́metros, etc., usadas comúnmente para medir
unidades. Los resultados de contar objetos también son datos de razón, como, por ejemplo,
diez peras es el doble de cinco.
Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro sólo aparece una vez (por
lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el 7 tiene
frecuencia f = 3, etc.
Existen dos tipos generales de tablas para reportar datos usando frecuencias: tablas de
frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se mencionan
simplemente como tablas de frecuencia.2
Son aquellas en donde aparecen básicamente dos informaciones: los datos y sus correspon-
dientes frecuencias. Los datos que organizados en tablas de frecuencias no agrupadas se
denominan usualmente datos no agrupados.
Dato 3 4 5 6 7
Frecuencia 2 1 2 3 4
Copyright © 2017. Universidad del Norte. All rights reserved.
2
En vez del término “tablas de frecuencia” se utiliza a menudo “distribución de frecuencias”.
Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y 15-19
son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los datos de
tiempo de auditorı́as de fin de año.
Las clases de frecuencias agrupadas poseen lo que se llama lı́mites de clase. Conside-
remos la tabla 1.2. En la clase 10-14, a 10 se le llama lı́mite inferior de clase y a
14, lı́mite superior de clase. La distancia entre cualquiera de dos lı́mites superiores
consecutivos o entre cualquiera de dos lı́mites inferiores consecutivos es llamada amplitud
de clase. La amplitud de cada clase en la tabla 1.2 es 5.
Cada clase en una tabla de frecuencia tiene lı́mites de clases teóricos llamados lı́mites
reales de clase o frontera de clase (término que utilizaremos en el texto). Al
lı́mite superior teórico se le llama frontera superior de clase (o lı́mite real supe-
rior de clase) y al lı́mite inferior teórico de clase se le llama frontera inferior de
clase (o lı́mite real inferior de clase). En general, para una clase dada, cualquier
frontera se calcula de la siguiente manera:
lı́mite inf. de la clase dada + lı́mite sup. de la clase anterior
Frontera inferior =
2
Copyright © 2017. Universidad del Norte. All rights reserved.
Observemos que la frontera inferior de una clase siempre coincide con la frontera superior
de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior para la
tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la frontera
superior para esa misma clase es 24,5 (que es la misma frontera inferior de la quinta clase).
Todas estas fronteras aparecen ya calculadas en la segunda columna de la tabla 1.3.
El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la fórmula
frontera inferior de clase + frontera superior de clase
Marca de clase =
2
Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los siguientes
comentarios:
3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar exac-
tamente en una sola clase, no en dos al mismo tiempo.
5. Mientras menos clases escojamos será más fácil el trabajo, pero se perderá más in-
formación. Debido a que no hay un acuerdo general entre los estadı́sticos acerca del
número de clases que debe usarse y dado que la elección es arbitraria, para nuestros
fines, escogeremos entre 5 y 20. Una sugerencia útil para el número de clases es la
regla de Sturges.
6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y menor.
8. El dato menor debe caer en la primera clase. Por esta razón, el lı́mite inferior de
la primera clase debe estar en, o un poco antes de, el dato menor. Ası́ que pode-
mos establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias
agrupadas, empezando siempre la primera clase con la frontera inferior, teniendo en
cuenta que el lı́mite inferior coincide con el dato menor. Cuando hacemos esto, el
valor mı́nimo que puede tomar la amplitud de clase se determina redondeando a w al
siguiente valor entero.
Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de frecuen-
cias agrupadas considerando los siguientes datos:
Copyright © 2017. Universidad del Norte. All rights reserved.
14 21 23 21 16 19 22 25 16 16 24 24 25 19
16 19 18 19 21 12 16 17 18 23 25 20 23 16
20 19 24 28 15 22 24 20 22 24 22 20
SOLUCIÓN:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12, entonces
el rango es R = 28 − 12 = 16.
Paso 2. El ejemplo no nos dice con cuántas clases debemos construir la tabla de frecuencias agru-
padas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar la regla
donde ≈ significa “aproximadamente igual que”. Observemos que con la otra regla se obtiene
√
el mismo resultado porque c = 40 = 6, 324 ≈ 6.
Como la unidad de precisión para los datos es 1, escogemos el mı́nimo entero mayor que
2,666 como el valor de la amplitud. En este caso, el mı́nimo entero mayor que 2,666 es 3.
Por lo tanto, w = 3.
Paso 4. A continuación se construye la primera clase con un ancho de w = 3. Para ello, primero,
tenemos que encontrar las fronteras inferior y superior de esta clase. Como la unidad de
medida es 1 (porque todos los datos son enteros) y como el “punto medio” de cada unidad
de medida es
Unidad de medida 1
Punto medio de cada unidad de medida = = = 0, 5
2 2
entonces, en este caso, la frontera inferior de la primera clase la hallaremos ası́:
Front. inf. de primera clase = dato menor − punto medio de unidad de medida
= 12 − 0, 5 = 11, 5
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la
Copyright © 2017. Universidad del Norte. All rights reserved.
frontera inferior de la clase siguiente coincide con la frontera superior de la clase anterior
y que la amplitud del intervalo es w = 3. De esta forma, las seis clases resultan ser las
siguientes:
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta. Si
uno de los datos cae en una clase, anotamos una marca (|) en la columna correspondiente a
esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para los 40 datos dados.
Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una distribu-
ción de frecuencias considerando los siguientes datos:
8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5
SOLUCIÓN:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces el rango es:
R = 15, 8 − 6, 0 = 9, 8
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5 clases,
porque el número de clase es:
R 9, 8
w = = = 1, 96
c 5
Paso 4. Como la unidad de medida es 0,1 (por tener los datos un sólo lugar decimal) y como el
“punto medio” de cada unidad de medida es:
Unidad de medida 0, 1
Punto medio de cada unidad de medida = = = 0, 05
2 2
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la
frontera inferior de la clase precedente coincide con la frontera superior de la clase anterior
y que la amplitud del intervalo es w = 2. De esta forma, las seis clases resultan ser las
siguientes:
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta. Si
uno de los datos cae en una clase, anotamos una marca (|) en la columna correspondiente a
esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20 datos dados.
Además, allı́ también aparecen las marcas de clase X correspondientes a cada clase. Por
ejemplo, la primera marca de clase se calcula ası́:
6, 0 + 7, 9
X= = 6, 95
2
Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.
Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una distribución
de frecuencias considerando los siguientes datos:
SOLUCIÓN:
√
Observemos que con la otra regla se obtiene c = 25 = 5. Es decir, podemos construir la
tabla con 5 o con 6 clases. Escogeremos c = 6.
Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como como
el “punto medio” de cada unidad de medida es:
Unidad de medida 0, 01
Punto medio de cada unidad de medida = = = 0, 005
2 2
y la frontera superior:
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la
frontera inferior de la clase precedente coincide con la frontera superior de la clase anterior y
que la amplitud del intervalo es w = 11. De esta forma, las seis clases son como se muestran
en la tabla 1.6. Allı́ también aparecen las marcas de clase correspondientes a cada clase.
Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias acu-
muladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.
Tabla 1.7: Tabla de frecuencias para las datos del ejemplo 1.2.5.
Clase Frec. Frec. rel. Frec. acum. Frec. rel. acum.
11,5 - 14,5 2 2/40 = 0,05 ≈ 5% 2 2/40 = 0,05
14,5 - 17,5 8 8/40 = 0,20 ≈ 20% 10 (= 8+2) 10/40 = 0,25
17,5 - 20,5 11 11/40 = 0,275 ≈ 27,5% 21 (= 11+10) 21/40 = 0,525
20,5 - 23,5 10 10/40 = 0,25 ≈ 25% 31 (= 21+10) 31/40 = 0,775
23,5 - 26,5 8 8/40 = 0,20 ≈ 20% 39 (= 8+31) 39/40 = 0,975
26,5 - 29,5 1 1/40 = 0,025 ≈ 2,5% 40 (= 1+39) 40/ 40 = 1,0
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y mu-
jeres que se muestran en la tabla 1.8. La información que sigue, entre otras, puede leerse fácilmente
de la tabla:
Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes: el diagrama
circular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigotes,
el histograma, el polı́gono (de frecuencia o de frecuencias relativas), la ojiva (o polı́gono
de frecuencias acumuladas o polı́gono de frecuencias relativas acumuladas) y el diagrama
de tallo y hojas. Explicaremos cada uno de ellos, con excepción del diagrama de caja y
bigotes, que será explicado en la sección 1.5.
Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de marca A,
B, C, D y E que se vendieron en una tienda:
Copyright © 2017. Universidad del Norte. All rights reserved.
Esta información se puede presentar a través de un diagrama circular como el que se muestra
en la figura 1.3. Para trazarlo se dibuja primero un cı́rculo. A continuación, con las frecuencias
relativas, se divide el cı́rculo en sectores o partes que corresponden a la frecuencia relativa de cada
clase. Por ejemplo, como hay 360 grados en un cı́rculo, y como el refresco A tiene 0,38 de frecuencia
relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8 grados.
Se efectúan cálculos semejantes para las demás clases, y se obtiene el diagrama de la figura 1.3.
Los valores numéricos que se ven para cada sector pueden ser frecuencias, frecuencias relativas o
porcentajes.
Pictogramas o pictógrafos
Ejemplo 1.2.12 El siguiente pictograma representa una información sobre las casas construidas
en algunos años por una firma constructora. En él se incluyen las siguientes convenciones: Δ
significa 1.000 casas construidas y Λ, 500 casas.
2002 ΔΔΔΔΔΛ
2003 ΔΔΔΔΔΔΔ
Fácilmente se puede interpretar con base en el diagrama que en el 2000 la firma construyó 5.000
casas y en el 2002, 5.500 casas.
Diagrama de barras
Es una representación gráfica en la que cada una de las modalidades del aspecto de interés
se representa mediante una barra. En este gráfico se suelen disponer los datos en el primer
cuadrante de unos ejes coordenados, y se levanta sobre el eje de las abscisas una barra
para cada modalidad del dato observado. La altura de la barra ha de ser proporcional a
la frecuencia absoluta o relativa, que se representa en el eje de las ordenadas. Este tipo de
diagramas se utilizan tanto para datos categóricos como numéricos.
Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo 1.2.11.
20
Frecuencia
16
Frecuencia
12
0
A B C D E
Refrescos
Refresco
Figura 1.4: Diagrama de barras para la compra de refrescos
Histogramas
Los histogramas son una forma de representación gráfica de una distribución de frecuen-
cia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o relativas
acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos frecuencias
absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias relativas,
histogramas de frecuencias relativas, etc. Los histogramas pueden construirse para dis-
tribuciones de frecuencias agrupadas y no agrupadas.
cada frecuencia por una barra cuya área sea proporcional a ella. Tı́picamente, el ancho de
cada barra se escoge como 1, y ası́ el área de la barra es igual a la frecuencia (absoluta,
relativa, acumulada o relativa acumulada) del dato.
Es importante señalar que aquı́ los datos pueden ser categóricos o núméricos y que éstos
se colocan en el eje horizontal, y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas), en el eje vertical del diagrama.
Para construir un histograma para datos medidos en una escala de intervalo o en una escala
de razón, se acostumbra seguir dos pasos:
• Se construye una gráfica de barras usando las fronteras de clase para colocar barras, y
las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas) para indicar
las alturas de las barras.
Tabla 1.9: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6
Clase Frecuencia Frecuencia acumulada Frecuencia relativa
5,95 - 7,95 4 4 0,2
7,95 - 9,95 2 6 0,1
9,95 - 11,95 8 14 0,4
11,95 - 13,95 3 17 0,15
13,95 - 15,95 3 20 0,15
Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son como
se ve en la figura 1.5:
%)
40 20
(en %)
acum.
Frec. acum.
rel. (en
16
30
12
Copyright © 2017. Universidad del Norte. All rights reserved.
Frec.rel.
20
Frec.
8
Frec.
10
4
0 0
5,95 7,95 9,95 11,95 13,95 15,95 5,95 7,95 9,95 11,95 13,95 15,95
Fronteras
Fronteras Fronteras
Fronteras
Polı́gonos
Estos gráficos se utilizan para representar series cronológicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan fre-
cuencias absolutas, se denomina polı́gono de frecuencias, y si se utilizan frecuencias relativas,
polı́gono de frecuencias relativas.
Ejemplo 1.2.16 Construya un polı́gono de frecuencia para los datos del ejemplo 1.2.6.
SOLUCIÓN:
Consideremos la tabla 1.5, la cual corresponde a la tabla de frecuencias agrupadas para los 20
datos del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora construimos el polı́gono
con frecuencias absolutas mostrada en la figura 1.6.
8
Frecuencias
6
Frecuencias
0
4,95 6,95 8,95 10,95 12,95 14,95 16,95
Marcas de
Marcas declase
clase
Figura 1.6: Polı́gono de frecuencias para los datos del ejemplo 1.2.6
Las marcas de clase se colocan en el eje horizontal y las frecuencias en el eje vertical. Notemos
que el polı́gono se “baja” en ambos extremos, colocando el primero y el último punto en puntos
del eje horizontal que distan w = 2 de las marcas de clase más cercanas.
Copyright © 2017. Universidad del Norte. All rights reserved.
Ojivas
Ejemplo 1.2.17 La figura 1.7 representa una ojiva con frecuencias acumuladas para los datos
del ejemplo 1.2.6. Para su construcción consideramos la tabla 1.9.
Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas
siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadas siempre
sobre el eje vertical). Después unimos los puntos consecutivos por segmentos de recta (observe
que la frecuencia acumulada para la frontera inferior de la primera clase es el número 0).
20
acum.
Frec. acum.16
12
Frec.
0
5,95 7,95 9,95 11,95 13,95 15,95
Fronteras superiores
Fronteras superiores
Figura 1.7: Ojiva para los datos del ejemplo 1.2.6
El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos
originales se pierden en el proceso de agrupamiento. Para solucionar esta limitación puede
usarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por el
estadı́stico John Tukey y ofrecen una forma novedosa y rápida de presentar información
numérica: si un numeral tiene dos o más dı́gitos, entonces se puede descomponer en un tallo
y una hoja. Un tallo es el primer dı́gito o parte del numeral, mientras que una hoja está
formada por el o los dı́gitos restantes. Por ejemplo, el numeral 534 se puede descomponer
en dos formas:
5 | 34 53 | 4
↑ ↑ ↑ ↑
Copyright © 2017. Universidad del Norte. All rights reserved.
La presentación gráfica de datos es muy fácil de realizar usando tallos y hojas; cada dato
aporta una hoja de algún tallo.
Ejemplo 1.2.18 Los datos de abajo muestran el número de anuncios radiofónicos de 30 segundos
pagados el año pasado por cada uno de los 45 miembros de una empresa. Organice los datos en un
diagrama de tallo y hojas y determine la forma que toma este diagrama. ¿Alrededor de qué valores
tiende a acumularse el número de anuncios? ¿Cuál es el menor número de anuncios pagados por
un comerciante? ¿El mayor número pagado?
SOLUCIÓN:
En el conjunto de datos observamos que el menor número de anuncios pagados es 88. De manera
que el valor del primer tallo será 8. El número más grande es 156. Entonces, los valores de los
tallos empezarán en 8 e irán hasta 15. El primer número en los datos es 96, que tendrá como
tallo 9 y como hoja 6. Moviéndose por el renglón superior, el segundo valor es 93 y el tercero 88.
Después de tomar los tres primeros valores del conjunto de datos, su diagrama es:
8 8
9 6 3
10
11
12
13
14
15
Después de organizar todos los datos, el diagrama de tallo y hojas resultante será:
8 8 9
9 6 3 5 6 4 4 7
10 8 7 3 4 6 3
11 7 3 2 7 2 1 9 8 3
12 7 5 7 0 5 5 0 4
13 9 5 2 9 4 6 8
14 8 2 3
15 6 5 5
Lo que solemos hacer es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama final quedará ası́:
8 8 9
Copyright © 2017. Universidad del Norte. All rights reserved.
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Del diagrama de tallos y hojas se pueden sacar varias conclusiones, como, entre otras, las siguientes:
• Puede observarse, por ejemplo, que hay tres comerciantes que compraron más de 150 co-
merciales.
• Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y 8, entre 120 y 129.
• También podemos decir que dentro del grupo de 120 a 129, el número de anuncios comprados
se repartió uniformemente.
• Dos comerciantes compraron 120; uno, 124; tres, 125 y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un rectángulo
para representar la “cantidad de hojas” de cada tallo. Al hacerlo obtenemos la siguiente repre-
sentación:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Si giramos la página 90 grados en el sentido de las manecillas del reloj, obtenemos una imagen de
los datos que se parece mucho a la de un histograma con clases de 80 a 90, 90 a 100, 100 a 110,
etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma información que un histograma,
tiene dos ventajas principales:
7. Diga la clase de gráficas que son apropiadas para datos (a) cualitativos, (b) cuantitativos y
(c) nominales.
(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualitativos.
(b) Identifique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de razón.
(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadı́stica.
¿Será más fácil interpretar esos resultados que los que se obtendrı́an si los 20 estudiantes
evaluaran a su maestro mediante una opinión escrita de respuesta libre? Explique.
10. Los siguientes datos representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre:
29 89 77 72 39 47 64 84 88 57 28 63 38
42 36 72 69 68 41 52 39 84 45 52 72
11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la gasolina
extra en una cierta ciudad a lo largo de un año en particular:
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasificó a los estudiantes de un programa universitario de acuerdo con el semestre que
cursan y sus preferencias deportivas. Los resultados están registrados en la siguiente tabla:
13. Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de 25
residentes de un pequeño pueblo:
(b) ¿Qué porcentaje pagó más de 22.000 pesos pero menos de 27.000 pesos?
15. Los datos que se indican a continuación representan el costo (en miles de pesos) de la
energı́a eléctrica durante un determinado mes del año para una muestra aleatoria de 50
apartamentos en cierta ciudad importante:
128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130
16. Se les pidió a 20 personas que identificaran su preferencia religiosa. Los resultados son:
C P P J J A J C P P C J J C P P A P C J
donde C denota católico; P, protestante; J, judı́o y A, ateo. Construya una tabla de fre-
cuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de barras,
uno circular y un pictograma.
17. Los siguientes datos presentan los porcentajes de rentabilidad de las acciones de 25 empresas:
(a) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones mayor
Copyright © 2017. Universidad del Norte. All rights reserved.
que 34,25%?
(b) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Según un estudio reciente, en cierto paı́s mueren cada año 40.000 mujeres a causa del cáncer
de mama y 85.000 por diabetes. Dibuje un diagrama de barras y un pictograma que repre-
sente esta información.
19. En 1986 se produjeron 50,2 nacimientos por cada mil mujeres con edad entre 15 y 19 años.
En 1991, el número de nacimiento fue de 62,1 por cada mil mujeres de la misma edad.
Dibuje un diagrama de barras que represente esta información.
20. De las pelı́culas que están en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% pelı́culas de acción, otro 6% de ciencia ficción, el 10% policiacas y el 4%
de terror. Construya un diagrama circular que represente esta información.
21. La siguiente tabla se refiere a los usos más comunes citados en una encuesta realizada
a usuarios de computadores de pequeñas y medianas empresas. Construya un diagrama
circular para representar esta información:
22. Un reporte sobre galletas reportó las siguientes calificaciones para varias marcas:
32 53 50 65 45 40 56 44 62 32
Integral
30 40 50 56 30 22 56 68 41
47 40 34 62 52 62 53 75 42
No integral
75 80 47 56 62 50 34 42 36
Construya una presentación comparativa de tallo y hoja, ponga en una lista los tallos (en el
centro de la página), las hojas integrales a la derecha y las hojas no integrales a la izquierda.
Describa las similitudes y diferencias para los dos tipos.
observó una clara tendencia de agrupación en el vecindario de los valores más frecuentes,
lo cual hace que las gráficas representativas adquieran formas especiales. Por lo general,
la mayor densidad de frecuencia está en la parte central de las gráficas; de aquı́ deriva el
nombre de medidas de tendencia central que se da a la media, la mediana, la moda,
el rango medio, la media geométrica, la media armónica y la media cuadrática. En esta
sección estudiaremos estas medidas de tendencia central.
Media
Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en año de principiantes
de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media aritmética de estos
datos es:
18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21
x = = 19
10
Dato x1 x2 ... xn
Frecuencia f1 f2 ... fn
Ejemplo 1.3.4 La media aritmética de los datos del ejemplo 1.3.2 la podemos calcular con ayuda
de la llamada media aritmética ponderada. Para ello, organizamos estos datos en una tabla de
frecuencias no agrupadas, tal como
Dato 18 19 20 21
Frecuencia 4 3 2 1
Luego, aplicamos la definición 1.3.3 y hallamos la media de los datos de la siguiente manera:
Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de
una distribución. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.
Copyright © 2017. Universidad del Norte. All rights reserved.
Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmética, por eso tienen
menor importancia teórica que aquélla. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmética,
que promedia todos los valores igualando en un justo reparto todas las observaciones, es
decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan los
Mediana
Definición 1.3.5 Para datos medidos en al menos una escala de intervalo, la mediana
es el puntaje medio ordenado.
Para determinar la mediana de n datos, hay que realizar los siguientes pasos:
• Ordene los datos de menor a mayor con ayuda de un diagrama de tallo y hojas ordenado.
• El valor de la mediana dependerá del hecho de que n sea par o impar:
Ejemplo 1.3.7 El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 12 (9 + 11) = 10,
puesto que ya los datos están ordenados, el número de datos es 8 (par), el 9 y el 11 son los dos
datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.
Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de frecuen-
cias:
Dato 0 1 2 3 4
Frecuencia 10 10 8 4 8
Copyright © 2017. Universidad del Norte. All rights reserved.
SOLUCIÓN:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la mediana
es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran en la tabla
1.10:
Como el total de datos es n = 40 (par), entonces la mediana es el promedio de las medidas que
están en las posiciones n2 = 20 y n2 + 1 = 21. Para encontrar la mediana recomendamos contar los
datos en dirección de la medida menor a la mayor. En la tabla es fácil ver que el dato en lugar 20
es 1 y que el dato en la posición 21 es 2. Por tanto, la mediana es:
dato en la posición 20 + dato en la posición 21 1+2
Mediana = = = 1, 5
2 2
Tabla 1.10: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8
Dato Frecuencia Frecuencia acumulada
0 10 10
1 10 20
2 8 28
3 4 32
4 8 40
El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas. Una
ventaja consiste en que la mediana no se ve afectada por valores extremos al final de la
distribución. Su desventaja reside en que no es fácilmente determinable si el conjunto
de datos es grande, puesto que las medidas deben ordenarse primero y ponerse en orden
numérico de menor a mayor o al contrario.
Moda
Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato con
mayor frecuencia.
Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco más popular es el A (es decir,
la moda es el refresco A), puesto que es el que más se compra.
• La moda tiene varias desventajas como medida de tendencia central: una de ellas
consiste en que para un cierto conjunto de datos no puede haber moda. Esta situación
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja reside en
que la moda puede existir pero no ser única.
Rango medio
Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 está dado
por
27 + 45
Rango medio = = 36
2
Con cierta frecuencia, el rango medio se utiliza como una medida de resumen tanto para
análisis financiero como para reportes metereológicos, porque puede proporcionar una me-
dida adecuada, rápida y sencilla que caracteriza a todo el conjunto de datos. A pesar de
estas ventajas y de su sencillez, el rango medio se debe utilizar con cuidado. Como sólo
incluye la observación más pequeña y la más grande en un conjunto de datos, el rango
medio es una medida modificada de tendencia central si está presente un valor extremo.
En estas situaciones, el rango medio no es apropiado.
Copyright © 2017. Universidad del Norte. All rights reserved.
Media geométrica
La media geométrica es útil para encontrar los cambios procentuales en una serie de
números positivos, inclusive, para encontrar el promedio de proporciones, ı́ndices, o tasas
de crecimiento. Tiene mucha aplicación en el comercio y en la economı́a porque nos interesa
encontrar el cambio porcentual en las ventas, salarios o datos económicos, tales como el
producto nacional bruto.
La media geométrica siempre será menor que la media aritmética, salvo en el extraño caso en el que todos
los incrementos porcentuales sean iguales. Si esto último sucede, las dos medias serán iguales.
SOLUCIÓN:
La media aritmética para estos porcentajes es:
48% + 34%
x = = 41%
2
y la media geométrica: √
G = 48% · 34% = 40, 4%
G = · = 0, 0208 · 0, 0294 = 0, 0247
48% 34%
Debido a que
1
= 0, 02439 = 0, 0251 = x
x
y, en cambio,
1 1
= = 0, 0247 = G
G 40, 4%
Debido a que x1 = x y a que G1 = G , podemos afirmar que la media geométrica es mejor que la
media artimética para promediar porcentajes y proporciones.
Ejemplo 1.3.17 El director ejecutivo de una empresa desea determinar la tasa de crecimiento
promedio en los ingresos con base en las cifras dadas en la tabla 1.11. Si la tasa de creciemiento
promedio es menor que el promedio industrial del 10%, se comenzará una nueva campaña publi-
citaria.
SOLUCIÓN:
Primero es necesario determinar el porcentaje que los ingresos de cada año representan respecto
de los obtenidos el año anterior. En otras palabras, ¿qué porcentaje del ingreso de 1992 es el
ingreso en 1993? Esto se encuentra dividiendo los ingresos de 1992 entre los de 1993. El resultado
1,10 revela que los ingresos de 1993 son 110% de los ingresos de 1992. También se calculan los
porcentajes para los tres años restantes. Tomando la media geométrica de estos porcentajes da:
Media geométrica = [(1, 10)(1, 2)(0, 91)(1, 3)]1/4 = 1, 1179
Ya que 80.805 dólares excede los 78.000 que la empresa en realidad ganó, el incremento del 12,75%
es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geométrica del 11,79%,
se obtiene:
50.000 dólares × 1, 1179 = 55.895 dólares
55.895 dólares × 1, 1179 = 62.485 dólares
62.485 dólares × 1, 1179 = 69.852 dólares
69.852 dólares × 1, 1179 = 78.088 ≈ 78.000 dólares
Esto da un valor de 78.088 dólares, lo que está mucho más cerca al ingreso real de 78.000 dólares.
Como interpretación final podemos decir lo siguiente: La media geométrica representa el cambio
promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio de la industria
del 10%, la nueva campaña publicitaria no se llevará a cabo.
Dato 1 3 4 6
Frecuencia 3 2 3 5
Media armónica
f1 + f2 + · · · + fn
Media armónica = f1
x1
+ xf22 + · · · + xfnn
Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro años arroz a distintos pre-
Copyright © 2017. Universidad del Norte. All rights reserved.
cios:
Halle el costo promedio del arroz durante estos cuatro años, suponiendo que
(a) El número promedio de kilos consumidos al año por el ama de casa es constante.
SOLUCIÓN:
Aquı́ nos piden calcular el cociente:
Costo total
T := Costo promedio =
Cantidad total comprada
(a) Si K representa al número de kilos consumidos cada año, entonces el costo promedio T será:
(b) Ahora, sea D la cantidad de dinero gastado por año. Entonces, en este caso, el costo promedio
T será:
4D
T = D D D D
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
4 $4
= 1 1 1 1 = = $ 1.449, 27 por kilogramo,
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
0, 00276
Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad me-
dia de 60 kilómetros por hora y regresa (por la misma vı́a) a una velocidad media de 120 kilómetros
por hora. Halle su velocidad media en el viaje completo.
SOLUCIÓN:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que recorre
el auto de Cartagena a Barranquilla). Entonces,
Copyright © 2017. Universidad del Norte. All rights reserved.
D
Tiempo para ir de Barranquilla a Cartagena =
60km/h
D
Tiempo para ir de Cartagena a Barranquilla =
120km/h
Por consiguiente,
distancia total 2D
Velocidad media del viaje total = = D D
tiempo total 60km/h + 120km/h
2D
= D D
= 80km/h
60km/h + 120km/h
que corresponde3 a la media armónica de 60 km/h y 120 km/h. Notemos que hubiéramos estado
tentado a calcular la media aritmética de 60 km/h y 120 km/h, obteniendo 45 km/h, lo cual es
incorrecto.
Definición 1.3.22 Una medida de colocación o de posición relativa para una dis-
tribución de frecuencias es aquel valor para el cual una porción especı́fica de la distribución
queda en o debajo de él.
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posición relativa.
Percentiles
Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante que tengamos
en cuenta los siguientes pasos:
• Ordenemos los datos de manera ascendente.
• Calculemos un ı́ndice i a través de la fórmula i = np/100, siendo p el percentil de interés y n, la
cantidad de datos.
• Decidamos de acuerdo a uno de los dos casos:
Ejemplo 1.3.24 Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil de
los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados en una
empresa:
2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380
SOLUCIÓN:
Como primer paso fundamental debemos ordenar los datos de manera ascendente (preferiblemente
3
Si las distancias recorridas no son iguales, se llega a una media armónica ponderada, en donde las
ponderaciones o pesos son las distancias.
2, 210 2, 255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550 2, 630 2, 825
(a) Para determinar el 85-ésimo punto percentil, calculemos el ı́ndice i = np/100, con p = 85 y
n = 12. Al reemplazar obtenemos que i = 10, 2. En este caso, como i = 10, 2 no es entero,
entonces redondeamos a 11. Por lo tanto, el lugar del 85-ésimo percentil es el lugar 11. En
nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el 85% de los empleados
de la empresa ganan $2.630.000 o menos de este valor y que el 15% de estos empleados ganan
$2.630.000 o más que este valor.
(b) En este caso, p = 50. Con ello y con n = 12 obtenemos que i = 6 (que es un número entero).
Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo (2,420), o
sea, 2,405. Observemos que este valor coincide con la mediana del conjunto de datos. En
conclusión, podemos decir que el 50% de los empleados tienen un salario menor o igual (o
mayor o igual) que $2.405.000.
Cuartiles
Como veremos en la siguiente definición, los cuartiles son casos particulares de los per-
centiles.
Definición 1.3.25 Los cuartiles son las medidas de posición relativa correspondiente a
un conjunto ordenado de datos divididos en cuatro partes (iguales) y se definen ası́:
Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
Copyright © 2017. Universidad del Norte. All rights reserved.
SOLUCIÓN:
Como Q2 coincide con la mediana, entonces Q2 = 2, 405. Calculando los percentiles como en el
ejemplo 1.3.24 podemos verificar que
2, 350 + 2, 380 2, 450 + 2, 550
Q1 = = 2, 365 y Q3 = = 2, 500
2 2
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa que el
25% de los empleados gana al menos $2.365.000 o el 75% gana más de este salario, y el valor del
tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o el 25% gana más
de este salario.
Deciles
Al igual que los cuartiles, los deciles también son casos particulares de los percentiles.
Definición 1.3.27 Los deciles son las medidas de posición relativa correspondiente a
un conjunto de datos (ordenado ascendentemente) que está dividido en diez partes, de tal
forma que cada parte contiene aproximadamente 10% de las medidas.
Los datos que se presentan en la tabla 1.12 muestran los salarios anuales de siete supervisores
de ventas de una empresa y los de siete de otra empresa. Observemos que ambos conjuntos
de datos tienen la misma media (33.500 dólares) y la misma mediana (33.800 dólares).
Tabla 1.12: Salarios anuales (en dólares) de la plantilla de supervisores de ventas de dos
empresa
Empresa 1 34.500 30.700 32.900 36.000 34.100 33.800 32.500
Empresa 2 34.000 27.500 31.600 39.700 35.300 33.800 31.700
Figura 1.9: Dispersión de los salarios anuales de los empleados de dos empresas (compárese
con los datos de la tabla 1.12)
Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar en la
figura 1.9. Evidentemente que los datos del segundo conjunto están mucho más dispersos
que los del primero. Una medida de centralización casi nunca es suficiente por sı́ sola
para analizar adecuadamente las caracterı́sticas de un conjunto de datos. Por lo general,
necesitaremos, además, una medida de la dispersión o variación de los datos. Entre las
que analizaremos se encuentran el rango o recorrido, el rango intercuartil, la desviación, la
varianza, la desviación estándar y el coeficiente de variación.
Rango o recorrido
Es la medida de dispersión más simple. Esta medida ya ha sido explicada en algunos ejem-
plos de las secciones anteriores.
Su ventaja consiste en que es fácil de calcular y su desventaja reside en que considera sólo dos de
la gran cantidad de datos que hay en un conjunto (de datos) e ignora el resto.
Ejemplo 1.3.29 El rango R del conjunto de datos del ejemplo 1.3.24 es:
Rango intercuartil
Una medida de dispersión que elimina la influencia de los valores extremos de los datos es
el rango intercuartil.
R.I = Q3 − Q1
El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los datos y a
la derecha el 25% superior.
Ejemplo 1.3.31 Halle el rango intercuartil del conjunto de datos de la empresa 1 de la tabla 1.12.
SOLUCIÓN:
Para estos datos, el primer cuartil es 32.500 dólares y el tercero 34.500 dólares. Por lo tanto,
Desviación
Ejemplo 1.3.33 Calcule la desviación de los puntajes para los datos siguientes, que representen
el número de defectos encontrados por un inspector de automóviles en una lı́nea de ensamblaje
en los últimos cinco automóviles producidos: 1, 4, 6, 6 y 8.
SOLUCIÓN:
Podemos determinar que la media muestral es x = 5. Las desviaciones de los valores las presen-
tamos en la tabla siguiente:
x x−x
1 1-5 = -4
4 4-5 = -1
6 6-5 = 1
6 6-5 = 1
8 8-5 = 3
Copyright © 2017. Universidad del Norte. All rights reserved.
Una propiedad importante que podemos resaltar con respecto la desviación de un dato es
la siguiente:
Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjunto de
números x1 , . . . , xn es igual a cero. Esto es, (x1 − x) + · · · + (xn − x) = 0.
La desviación de los valores puede usarse para describir la dispersión de una distribución
dada de datos cuantitativos. Recordemos que la desviación de un valor representa la dife-
rencia entre un dato y la media del conjunto de datos del cual proviene. En consecuencia,
podrı́amos pensar que el promedio de todas las desviaciones de los valores proporciona una
medida de la dispersión de todos los valores, pero eso no ocurre, pues ya se ha dicho en el
teorema 1.3.34 que la suma de todas las desviaciones de los valores es 0.
Aunque el rango es una medida de dispersión total y el rango intercuartil es una medida
de la dispersión de la media, ninguna de estas medidas de variación toma en cuenta cómo
se distribuyen o se agrupan las observaciones. Dos medidas de uso común que sı́ toman
en cuenta la distribución de los valores de los datos son la varianza y su raı́z cuadrada, la
desviación estándar o tı́pica. Estas medidas evalúan la manera en que fluctúan los valores
respecto a la media.
Ejemplo 1.3.37 Encuentre la varianza y desviación de los datos 62, 80, 83, 72 y 73 si éstos
constituyen una población.
SOLUCIÓN:
La media de estos datos es μ = 74. Por lo tanto, la varianza poblacional está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
σ2 = = = 53, 2
5 5
√
La desviación estándar de estos datos es σ = 53, 2 = 7, 29.
Al igual que la varianza poblacional, la varianza muestral la podemos calcular de otra ma-
nera como se ilustra en el siguiente
Ejemplo 1.3.40 Encuentre la varianza y desviación estándar de los datos del ejemplo 1.3.37 si
éstos constituyen una muestra de una población.
Copyright © 2017. Universidad del Norte. All rights reserved.
SOLUCIÓN:
Nuevamente, x = 74. Por lo tanto, la varianza muestral está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
s2 = = = 66, 5
5−1 4
√
y la desviación muestral por s = 66, 5 = 8, 15. Observemos cómo cambia el valor de la varianza
(y, por consiguiente, también la desviación muestral) al considerar los datos como una muestra o
como una población.
Desviación media
Ejemplo 1.3.42 Para la población 2, 2, 4, 5 y 2 de las edades (en años) de cinco casas, la media
es x = 3, con lo que la desviación media es DM = 6/5 = 1, 2 años. Ası́, la edad de cada casa
difiere de la media de la población en un promedio de 1,2 años.
Si la varianza se usa por sı́ misma como medida descriptiva de la dispersión, es difı́cil
interpretarla, porque las unidades de la varianza son el cuadrado de las unidades de me-
dida. En otras palabras, la desviación estándar se mide con las mismas unidades que las de
los datos originales. Por esta razón, la desviación estándar se compara con más facilidad
con el promedio y otros estadı́sticos que tienen las mismas unidades que los datos originales.
La varianza y la desviación estándar tienen una limitación seria: pueden verse afectadas
en presencia de valores extremos, pues ambas dependen de la media, que se modifica por
las medidas extremas. Cuando en un conjunto de datos están presentes valores extremos y
Ejemplo 1.3.44 Dados los siguientes datos de una población, hallar la media, varianza y desviación
estándar.
Dato 28 31 34 37 40 43 46
Frecuencia 1 10 14 33 14 7 3
SOLUCIÓN:
Primero construimos la tabla 1.13, que nos ayudará en los cálculos:
28 1 28 -9 81 81
31 10 310 -6 36 360
34 14 476 -3 9 126
37 33 1.221 0 0 0
40 14 560 3 9 126
43 7 301 6 36 252
46 3 138 9 81 243
Sumas 82 3.034 1.188
Además,
f (x − μ)2 1.188
σ 2
= = = 14, 4878
f 82
√
y de esta forma σ = 14, 4878 = 3, 806.
Hasta ahora hemos visto que la varianza y la desviación estándar son muy útiles para com-
parar la dispersión de dos poblaciones. Pero también podemos interpretar la desviación
de una única población. Concretamente, puede usarse esta cantidad para estimar el por-
centaje de valores de la población que se encontrarán a menos de una distancia especı́fica de
la media. Para construir tales estimaciones utilizaremos dos reglas: la regla de Tchebychev
(válida para cualquier población) y la empı́rica.
Para ver cómo funciona la regla de Tchebychev en la práctica, hemos construido la siguiente
tabla:
población se encuentran a una distancia de la media menor que 1,5 veces de la desviación
tı́pica. O, dicho de otra forma, dentro del intervalo [μ − 1, 5σ; μ + 1, 5σ] encontramos por
lo menos el 55, 6% de los valores de la población. Esta situación se ilustra en la figura 1.10.
Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.12(a), que tenı́a una media
de 33.000 dólares y una desviación estándar de 1.554 dólares. La regla de Tchebychev nos dice
que, para esta población, al menos el 55% de los salarios deben estar a una distancia de la media
menor que (1,5)(1.554)=2.331 dólares. En otras palabras, dentro del intervalo que va desde 31.169
a 35.831 dólares están por lo menos el 55,6% de los salarios. Analogamente, dentro del intervalo
que va desde 30.392 a 36.608 dólares se encuentran por lo menos el 75% de los salarios.
0,7
0,6
0,5 Por lo menos 55,6%
de los datos están
0,4 en el rango de la
1s sombreada
región
0,3
0,2
0,1
0
0 1
μ - 1,5s μ 2 μ + 1,5s
3 4 5
2, 54 2, 55 2, 50 2, 60 2, 51 2, 52 2, 70 2, 40 2, 36 2, 53 2, 54 2, 52 2, 51 2, 55
Si el inspector decide excluir los clavos que están fuera del intervalo x ± 2s, ¿cuál es el porcentaje
de clavos excluidos? ¿Se verifica la regla de Tchebychev?
SOLUCIÓN:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que están fuera del intervalo
x ± 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese intervalo (los de
longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla de Tchebychev afirma
que por lo menos el 75% de los clavos deberán estar en el intervalo x ± 2s, es decir, a lo más el
25% estarán fuera de dicho intervalo, lo cual verifica la regla de Tchebychev.
Teorema 1.3.48 (Regla empı́rica) Para las poblaciones que tengan forma acampanada,
aproximadamente el 68% de los valores de la población se encuentran a una distancia de la
media menor que una desviación estándar, y aproximadamente el 95% están a una distancia
de la media menor que dos veces la desviación tı́pica (compárese con la figura 1.11).
Ejemplo 1.3.49 Supongamos que tenemos una población de salarios que tienen forma acam-
panada con una media de 33.500 dólares y una desviación estándar de 1.554 dólares. La regla
empı́rica estimarı́a que aproximadamente el 68% de los salarios estarán dentro del intervalo que
va desde 31.946 a 35.054 dólares y que aproximadamente el 95% estará dentro del intervalo que
va desde 30.392 a 36.608 dólares.
Para comparar las dispersiones de dos o más conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estándar respectivas, puesto que estos coe-
ficientes de dispersión vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en números sin
unidades de medidas. Una medida que cumple perfectamente con este cometido es el lla-
mado coeficiente de variación de Pearson.
Observemos que al dividir la desviación estándar por la media aritmética se elimina la in-
fluencia de la escala de medida, convirtiéndose ası́ el coeficiente de variación en una medida
útil para comparar conjuntos de datos con diferentes unidades de medida. El inconveniente
de este coeficiente radica en que deja de ser utilizable cuando la media es igual a cero.
Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galón diario por
cinco dı́as para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeficiente de variación e
interprete su respuesta.
SOLUCIÓN:
La media y desviación estándar de millas por galón están dadas por x = 25 y s = 7, 9 respectiva-
mente. Por tanto, el coeficiente de variación de estos datos es:
s
7, 9
CV = · 100% = · 100% = 31, 6%
x 25
Por consiguiente, el tamaño relativo de la “dispersión media alrededor de la media” con relación
a la media es 31,6%.
Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se com-
para la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes unidades
de medidas. Esto se muestra en el siguiente ejemplo.
Ejemplo 1.3.52 El gerente de operaciones de un servicio de paqueterı́a desea adquirir una nueva
flota de autos. Cuando los paquetes se guardan con eficiencia en el interior de los autos (durante la
Copyright © 2017. Universidad del Norte. All rights reserved.
preparación de las entregas), se deben considerar dos restricciones principales: el peso (en libras)
y el volumen (en pies cúbicos) de cada paquete. Ahora, en una muestra de 200 paquetes, el peso
promedio es 26 libras, con una desviación estándar de 3,9 libras. Además, el volumen promedio
de cada paquete es 8,8 pies cúbicos, con una desviación estándar de 2,2 pies cúbicos. ¿Cómo se
puede comparar la variación del peso y del volumen?
SOLUCIÓN:
Como las unidades de medida difieren para las restricciones de peso y volumen, si el gerente
de operaciones desea comparar las fluctuaciones en estas medidas, debe considerar la variabi-
lidad relativa en ambos tipos de medidas. Para el peso, el coeficiente de variación es CV =
(3, 9/26)100% = 15%; para el volumen, el coeficiente de variación es CV = (2, 2/8, 8)100% = 25%.
Entonces, con relación a la media, el volumen de un paquete es mucho más variable que su peso
porque el coeficiente de variación del peso es menor que el del volumen.
El coeficiente de variación es muy útil cuando se comparan dos o más conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparación directa
de las desviaciones estándar respectivas no ayuda mucho. Esto se ilustra en el siguiente
Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compañı́as A
o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compañı́as ofrece dividendos
a sus clientes y ambas tienen igual clasificación (según varios servicios de inversión) en términos
de crecimiento potencial, el posible inversionista quizás considere la volatilidad (variabilidad) de
ambas acciones para ayudar en la decisión de inversión. En los últimos meses, el precio promedio
de las acciones en la compañı́a A fue de 50 dólares, con una desviación estándar de 10 dólares.
Además, durante el mismo periodo, el precio promedio de las acciones en la compañı́a B fue de
12 dólares, con una desviación estándar de 4 dólares. ¿Cómo puede determinar el inversionista
cuáles acciones son más variables?
SOLUCIÓN:
En términos de la desviación estándar, el precio de las acciones de A parece más volátil que el de
las acciones de B. Sin embargo, como los precios promedio por acción de las dos compañı́as son
tan diferentes, serı́a conveniente que el inversionista potencial considere la variabilidad en precio
respecto al promedio a fin de examinar la volatilidad/estabilidad de ambas acciones.
Una vez iniciado el análisis estadı́stico de sintetización de la información, para lo cual hemos
estudiado las medidas de tendencia central, de posición relativa y de dispersión de un con-
junto de datos, necesitamos conocer más sobre el comportamiento de tales datos. Para ello
estudiaremos las medidas de forma, las cuales nos proporcionan información sobre cómo se
distribuyen los datos.
Simetrı́a y asimetrı́a
Ahora consideremos los siguientes comentarios para el caso en que la distribución de fre-
cuencias tiene una sola moda::
En este tipo de distribuciones, los datos se encuentran repartidos a lo largo del re-
corrido, de forma que todas las medidas de tendencia central están justo en el centro
del conjunto de datos.
En este caso, la mayor frecuencia de los datos se concentra en el lado izquierdo. Por
lo tanto, observamos una cola larga hacia la izquierda de la distribución.
• Para distribuciones que tengan más de una moda, la media es igual a la mediana si y
Copyright © 2017. Universidad del Norte. All rights reserved.
Medidas de asimetrı́a
• Los datos en la figura 1.13(a) son simétricos. Por esta razón, el coeficiente de sesgo
es cero.
• Los datos de la figura 1.13(b) están sesgados a la derecha. Por lo tanto, el coeficiente
de sesgo es positivo.
Ahora bien, por diversas razones, el coeficiente de asimetrı́a de Pearson tan sólo es aplicable
El siguiente teorema fue encontrado empı́ricamente por Pearson. Allı́ se puede observar
claramente una relación empı́rica entre la media, la mediana y la moda.4
Teorema 1.3.57 Para distribuciones campanoides (es decir, con forma de campana), uni-
modales y moderadamente asimétricas se cumple aproximadamente la relación empı́rica
4
Téngase en cuenta que en las distribuciones moderadamente asimétricas, la mediana siempre se sitúa
entre la media y la moda.
una distribución es necesario definir previamente una distribución tipo, que vamos a tomar
como modelo de referencia. Esta distribución es la normal, que sólo estudiaremos en la
sección 4.4. Por esta razón, aplazaremos nuestro estudio de la curtosis de una distribución
para más adelante, una vez que hayamos introducido la distribución normal.
25. Veintiún personas en un salón de clase tienen altura promedio de 168 centı́metros. Si al
salón entra una persona adicional, entonces ¿cuál es la altura que debe tener esta persona
para que la altura promedio se incremente en un centı́metro?
26. Una empresa de servicio eléctrico de una ciudad le realiza la lectura del contador de luz a
un usuario, y se obtienen los siguientes datos:
Fecha Lectura
27 de agosto 00553 Kwh
30 de agosto 00571 Kwh
4 de septiembre 00605 Kwh
El recibo de pago le llegó al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,
pero la empresa no dejó constancia de lectura, hecho que motivó el reclamo del usuario,
quien alegó que le estaban cobrando de más. ¿Tiene la razón el usuario? Explique.
Copyright © 2017. Universidad del Norte. All rights reserved.
27. Un piloto A de la Fórmula 1 ganó 60 carreras de las 152 en las cuales participó, mientras
que otro piloto B ganó 52 carreras de las 115 en las que participó. ¿Cuál de los dos es mejor
piloto? Explique su respuesta.
28. El peso medio de los 45 productos de una determinada empresa es de 215 libras. Si ninguno
de los productos pesa menos de 170 libras, ¿cuántos de ellos, como máximo, pueden pesar
250 libras?
29. Un elevador de un edificio de oficinas está diseñado para soportar una carga máxima de
1.000 kilogramos. ¿Está sobrecargado si lleva a nueve mujeres con un peso medio de 61,5
kilogramos y cinco hombres de 87 kilogramos? ¿Por qué?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen de
ventas durante el perı́odo de Navidad y se comparan con las obtenidas en el mismo perı́odo
del año anterior. Los porcentajes de incrementos de ventas en dólares de los diez estableci-
mientos fueron:
10,2 3,1 5,9 7,0 3,7 2,9 6,8 7,3 8,2 4,3
31. Los neumáticos de cierta marca tiene una duración de vida con media de 29.000 kilómetros
y desviación tı́pica de 3.000 kilómetros.
(a) Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menos el
75% de los tiempos de vida de los neumáticos de esta marca.
(b) Usando la regla impı́rica y suponiendo que la población tiene forma acampanada, en-
contrar un intervalo en el cual se estime que se encuentra aproximadamente el 95% de
los tiempos de vida de los neumáticos de esta marca.
32. Se ha estimado que la media de la cantidad de dinero que gastan en ropa las mujeres
colombianas es de 500.000 pesos, mientras que para los hombres la media es de 350.000
pesos. Dibuje un diagrama de barras que represente esta información.
33. Considere las siguientes observaciones de resistencia al corte (en megapascales) de una unión
pegada de cierta manera:
73,7 36,6 109,9 4,4 33,1 66,7 30,0 81,5 22,2 40,4 16,4
Determine el valor de la media y mediana muestrales. ¿Por qué la mediana es tan diferente
de la media?
34. Los valores de presión sanguı́nea se reportan a veces a los 5 mm Hg más cercanos (100,
105, 110, etc.). Suponga que los valores reales de presión sanguı́nea para nueve individuos
seleccionados al azar son:
35. La propagación de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en años recientes. Los datos que aparecen a continuación constan de
tiempo de propagación (horas de vuelo/104 ) para llegar a un tamaño de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
36. Una manifestación interesante de la variación surge cuando se efectúan los análisis de emisión
de gases en los vehı́culos automotores. Los requisitos de costo y tiempo del procedimiento
federal de prueba (PFT) en cierto pais evitan la difusión de su uso en los programas de
inspección vehicular. Como resultado, muchas agencias han desarrollado análisis menos
costosos y más rápidos con la esperanza de reproducir los resultados. Según un artı́culo
de una prestigiosa revista, se dice que la aceptación del PFT como patrón de excelencia
ha conducido a la creencia de que las mediciones repetidas en el mismo vehı́culo darán
resultados idénticos (o casi). Los autores del artı́culo aplicaron el PFT a siete vehı́culos
caracterizados como “grandes emisores”. Los resultados de uno de esos vehı́culos son los
siguientes:
(a) Calcule las desviaciones estándar muestrales de las observaciones de HC y CO. ¿Parece
justificada la creencia general?
(b) Compare los coeficientes de variación de cada conjunto de datos para determinar cuáles
presentan mayor o menor variación.
50 55 61 60 71 73 53 54 67 67
54 77 72 76 81 83 87 44 48 67
38. Un taller de mecánica acepta una orden por 10.000 ruedas de 2 pulgadas de diámetro. Las
especificaciones de tamaño del producto podrán ser mantenidas sólo si el diámetro medio
es de 2 pulgadas y la desviación estándar es muy pequeña. En este caso, ¿cuál es el margen
de tolerancia permitido para la desviación estándar?
39. Un profesor cuenta el examen final de un curso como el triple de cada uno de los tres
exámenes de una hora. ¿Cuál es la calificación promedio de un estudiante que obtuvo las
calificaciones 72, 86 y 80 en los tres exámenes de una hora y 90 en el examen final?
40. Millones de habitantes de un cierto paı́s se levantan cada mañana y trabajan en sus propias
casas. Se sugiere que el uso creciente de computadoras es una de las razones por las que
las personas pueden trabajar en empresas caseras. A continuación vemos una muestra de
datos sobre las edades de esas personas:
57 31 30 41 22 58 24 50 29 52
37 32 44 49 29 44 40 46 29 31
41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400
millas, en condiciones de tránsito en ciudad y en el campo; de lo anterior se obtuvieron los
siguientes datos en millas por galón:
43. Una profesora borra accidentalmente la calificación de uno de sus seis estudiantes; las cinco
calificaciones restantes son 3,8; 4,3; 2,2; 4,5 y 3,3; y la media de las seis calificaciones es 3,5.
Encuentre la calificación que borró la profesora.
44. En un esfuerzo por reducir su consumo de cigarillo, un trabajador de oficina registra los
números siguientes de cigarillos fumados durante un periodo de 21 dı́as:
5 6 5 8 4 0 2 3 7 5 6 4 5 3 6 7 1 2 3 0 3
¿Qué la medida de tendencia central le servirá mejor para su propósito? ¿Cuál es su valor
numérico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores:
46. Una maestra hizo un examen con el mismo grado de dificultad en cada uno de sus tres
grupos. Con los resultados determinó las tres medianas y las promedió para estimar el
punto central de su habilidad profesional. ¿Puede engañarse al hacer esto? Diga por qué.
47. Suponga que una muestra tiene media 26 y desviación estándar 3,1.
(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 18 - 34?
48. Suponga que una muestra tiene media 542 y desviación estándar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de José y el de Mariela:
(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
Copyright © 2017. Universidad del Norte. All rights reserved.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros respectiva-
mente.
(c) ¿Qué auto tuvo un desempeño más consistente, si la consistencia se mide con la va-
rianza?
(d) Encuentre el coeficiente de variación para cada carro y comente al respecto.
50. Una gran lecherı́a vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviación estándar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registró el
porcentaje grasa en cada uno. Los resultados se anotan a continuación:
1,97 1,80 2,05 2,23 1,65 1,86 1,85 2,25 2,01 1,90
2,14 1,93 2,08 2,17 1,91 1,93 2,02 2,09 2,04 2,07
Ejemplo 1.4.1 Los datos siguientes representan el número de personas que han entrado a un
establecimiento diariamente durante un periodo de 25 dı́as:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
√
Los datos han sido agrupados en la tabla de frecuencias agrupadas 1.14 usando la fórmula c = n
para el número de clases.
Copyright © 2017. Universidad del Norte. All rights reserved.
(a) Calcule la media x del número de personas que entran por dı́a.
(b) Calcule la media aproximada xa del número de personas que entran por dı́a.
SOLUCIÓN:
(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase es el
punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su frecuencia
correspondiente, como se muestra en la tabla 1.15.
el cual es sólo un valor aproximado para la media de las 25 medidas muestrales originales. La
aproximación se considera buena comparada con el valor exacto x = 42, 40, obtenido en la
parte (a).
n/2 − F
Mediana = Lmed + ·w
fmed
en donde
Es decir,
25 − 10
Mediana = 69, 5 + · 10 = 77, 83
18
Una desventaja de usar la moda con una distribución de frecuencia agrupada radica en que
el valor de la moda a menudo depende del agrupamiento arbitrario de los datos. La clase
que contiene al mayor número de datos suele denominarse clase modal o moda cruda.
Da
Moda = Lmod + ·w
Db + Da
en donde
• Lmod es la frontera inferior de la clase modal (por ejemplo, de la tabla 1.16, tenemos
que Lmod = 69, 5)
• w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla 1.16,
w = 10).
11
Moda = 69, 5 + · 10 = 75, 97
6 + 11
Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es:
14, 5 + 69, 5
Rango promedio = = 42
2
Supongamos que queremos encontrar el sexagésimo punto percentil de los datos que pre-
sentamos en la tabla 1.16. Para ello, primero debemos hallar la clase del sexagésimo punto
percentil de la distribución de frecuencias. En general, la clase del p-ésimo punto
percentil es la mı́nima clase cuya frecuencia acumulada es mayor o igual a p%n, siendo
n el número total de datos. Como n = 50 y p = 60, entonces necesitamos localizar la
primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o más. En este caso,
la cuarta clase es la clase donde se encuentra el sexagésimo punto percentil de los datos
porque tiene una frecuencia acumulada de 40. Entonces, el sexagésimo punto percentil
puede determinarse como
p%n − F
p-ésimo punto percentil = Lp + ·w
fp
en donde
• Lp es la frontera inferior de la clase del p-ésimo punto percentil (de la tabla, es 79,5)
• fp es la frecuencia de la clase del p-ésimo punto percentil (en este caso, fp = 12)
• w es la amplitud del intervalo de clase de la clase del p-ésimo punto percentil (w = 10).
Es decir,
30 − 28
Sexagésimo punto percentil = 79, 5 + · 10 ≈ 81, 16
12
Las marcas de clase se usan tı́picamente para representar medidas que caen en las clases
de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o la desviación
estándar aproximadas de los datos. Al hacer esto usamos las fórmulas análogas para cal-
cular la varianza y la desviación estándar, para el caso de distribuciones de frecuencias no
agrupadas.
Ejemplo 1.4.3 Calcularemos la varianza y desviación estándar de los datos agrupados que se
muestran en la tabla 1.17. Como antes, primero debemos encontrar las marcas de clase m, y con
ello completamos la tabla 1.17, siendo μa la media poblacional aproximada de los datos.
(a) A partir de la agrupación de datos usada para construir el histograma, estime la media,
la mediana, la desviación tı́pica y el rango intercuartil de los porcentajes de rentabilidad.
(b) Calcule directamente la media y la desviación tı́pica a partir de las 25 observaciones y
compárelas con las obtenidas en el apartado (a).
52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen:
53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron más
largos de lo habitual. La siguiente tabla resume la distribución de los tiempos de espera
para una muestra de 24 pacientes que visitaron el centro de salud durante este perı́odo:
54. Se dispone de la siguiente información acerca de las rentas familiares (en millones de pesos)
en los hogares de cierta ciudad:
Copyright © 2017. Universidad del Norte. All rights reserved.
55. Las ayudas concedidas, en miles de euros, por cierto gobierno a 60 proyectos empresariales
innovadores, se presentan en la siguiente tabla:
56. A continuación se presentan algunas medidas estadı́sticas (mediana, primero y tercer cuartil)
y una tabla de frecuencia agrupada, para las edades de un grupo de personas que hay en
una sala de concierto. Con base en estos datos responda las preguntas que aparecen abajo.
Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.
(a) ¿Cuál era el número exacto de personas que habı́a en la sala del concierto?
(b) ¿Cuál es la media aproximada de las personas que asistieron al concierto?
(c) ¿Qué edad tienen el 77,5% de las personas?
(d) ¿Qué porcentaje de personas tienen una edad entre 11,5 y 20,5? ¿Mayor que 23,5?
(e) ¿Cuántas personas tienen una edad entre 17,5 y 20,5? ¿Mayor que 14,5?
(f) ¿Qué interpretación tiene el valor de la mediana y el de los cuartiles?
Una vez que hemos estudiado las cuatro propiedades más importantes de los datos numéricos
(tendencia central, posición relativa, dispersión y forma), es importante identificar y des-
cribir las caracterı́sticas principales de los datos en forma resumida. Un enfoque a este
análisis exploratorio de datos5 consiste en desarrollar un resumen de cinco números
y construir un diagrama de caja y bigotes.
5
En general, las técnicas del análisis exploratorio de datos consisten en operaciones aritméticas
sencillas y representaciones fáciles de trazar, que pueden emplearse para resumir con rapidez los datos.
Muchos autores consideran el diagrama de tallo y hoja como técnica del análisis exploratorio de datos.
Con base en el resumen de cinco números se pueden obtener, entre otras, dos medidas
de tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribución. Si la dis-
tribución es simétrica, la relación entre las diversas medidas nos la da el siguiente teorema:
• La mediana y el rango medio son iguales. (Estas medidas son iguales a la media de
los datos.)
Por otra parte, si se trata de distribuciones no simétricas, la relación de las diversas medidas
se expresan en el siguiente teorema:
Ejemplo 1.5.4 Utilice el resumen de cinco números para estudiar la forma de la distribución de
los datos del ejemplo 1.3.24.
SOLUCIÓN:
En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana 2,405 y el tercer cuartil
De los teoremas 1.5.2 y 1.5.3 se puede afirmar que los salarios están sesgados a la derecha, porque
la distancia del valor mı́nimo a Q1 (es decir, 0,155) es bastante menor que la distancia de Q3
al valor máximo (es decir, 0,325). Además, si se compara la mediana (2,405) y el rango medio
(2,5175), se observa que el rango medio se mueve debido al valor extremo 2,825, y es, por tanto,
la más grande de estas medidas de resumen (compárese con la figura 1.14).
2
Frecuencias
Frecuencias
0
2,210
2,350
2,390
2,440
2,550
2,825
Salarios
2,255
2,380
2,420
2,450
2,630
Salarios
Figura 1.14: Diagrama de barras para los datos del ejemplo 1.5.4
Mediana
Valor atípico
(moderado)
1,5 R.I 1,5 R.I
+ + +
Primer
2200
2,200 2,400 Tercer 2600
2400 2,600 2800
2,800 3000
3,000
cuartil cuartil
Salarios mensuales
Figura 1.15: Diagrama de caja y bigotes
Esta herramienta de análisis exploratorio de datos permite estudiar la simetrı́a de los datos,
detectar los valores atı́picos y vislumbrar un ajuste de los datos a una distribución de
frecuencias determinada. El diagrama de caja y bigotes divide los datos en cuatro áreas de
igual frecuencia, una caja central dividida en dos áreas por una lı́nea vertical y otras dos
áreas representadas por dos segmentos horizontales (bigotes) que parten del centro de cada
lado de la caja. La caja central encierra el 50% de los datos. En el interior de caja central
se acostumbra a representar la media con un signo más y se dibuja la mediana como una
lı́nea vertical en el interior de la caja (compárese con la figura 1.15). Si esta lı́nea está en el
centro de la caja, no hay asimetrı́a en los datos. Los lados verticales están situados en los
cuartiles inferior y superior de los datos. Partiendo del centro de cada lado vertical de la
caja se dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo
en cuenta lo siguiente:
Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del bigote
derecho, se les denomina valores atı́picos.
Definición 1.5.5 Todo valor que está más alejado del 1,5R.I del cuarto más cercano se
dice que es atı́pico. Un valor atı́pico es extremo si está a más de 3R.I del cuarto más
cercano, y es moderado en otro caso.
En el diagrama de caja, los valores atı́picos moderados se representan mediante un pequeño cuadrado, y
los extremos, con un pequeño cuadrado con un signo más en su interior.
Un valor atı́pico puede ser un elemento para el cual se haya anotado su valor en forma
errónea. Si es ası́, puede corregirse antes de proseguir con el análisis. También, un valor
Copyright © 2017. Universidad del Norte. All rights reserved.
atı́pico puede ser uno que por error se incluyó en el conjunto de datos y, en estos casos, debe
eliminarse. Por último, puede ser tan sólo un elemento poco común que se haya anotado en
forma correcta y que sı́ pertenece al conjunto de datos. En estos casos ese elemento debe
mantenerse.
Ejemplo 1.5.6 Construya un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCIÓN:
Tenemos que el rango intercuartil es R.I = 2, 500 − 2, 365 = 0, 135, de donde se obtiene que la
longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
Valor atípico
(moderado)
1,5 R.I 1,5 R.I
+
0,2025 0,2025
Media
2,1625
2200 2,365
2400 2,5002600
2,7025 2800
2,825 3000
Salarios mensuales
Salarios mensuales
Figura 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4
La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar que hay
un valor atı́pico (el valor 2,825) porque éste se encuentra por fuera de los bigotes. Debido a que
Q3 + 3R.I = 2, 905, este valor atı́pico es moderado, porque 2,825 es menor que 2,905. Además,
podemos afirmar que la distribución de frecuencias está sesgada a la derecha, porque el área del
rectángulo a la izquierda de la mediana es menor que el del rectángulo a la derecha de la mediana.
Esto también se puede concluir al tener en cuenta que media es mayor que la mediana.
Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en un examen
de matemáticas para quince estudiantes de primer curso de primaria, quince de segundo y quince
de tercero. En el diagrama puede apreciarse que no hay valores atı́picos en ninguno de los tres
grupos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificaciones
tienen una variabilidad considerablemente mayor que la de los otros grupos. Otro hecho que llama
la atención es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primer curso.
Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres conjuntos de datos
están sesgadas a la izquierda.
Primero
Segundo
Tercero
40 50 60 70 80 90 100
Calificaciones
Calificaciones
Figura 1.17: Diagrama de caja y bigotes de las calificaciones en un examen
166 342 426 492 562 298 264 631 451 1.049 317 545 512
58. Los siguientes datos muestran las yardas acumuladas durante la temporada de fútbol ame-
ricano colegial para una muestra de 20 receptores:
451 1.023 852 809 596 744 652 576 1.112 971
1.278 820 511 907 1.251 941 975 400 711 1.174
Haga el resumen de cinco números, trace un diagrama de caja e indentifique en él el o los
valores atı́picos.
59. Los siguientes datos representan los rendimientos porcentuales anuales en cuentas de mer-
cado de dinero de una muestra de 15 bancos comerciales en el área metropolitana de una
Copyright © 2017. Universidad del Norte. All rights reserved.
60. Una de las metas de toda administración es ganar lo más posible en relación con el capital
invertido en la empresa. Una medida del éxito en alcanzarla es el retorno sobre la aportación,
que es la relación de la ganancia neta entre el valor de las acciones. A continuación se
muestran los porcentajes de ganancia sobre las acciones para 25 empresas:
Haga el resumen de cinco números, trace un diagrama de caja y bigotes y determine si hay
valores atı́picos. ¿Cómo podrı́a un analista financiero usar esta información?
61. Una revista publica regularmente las clasificaciones de funcionamiento y de calidad para
muchos productos de consumo. Se publicaron calificaciones generales de una muestra de 16
televisores de precio intermedio en esta revista. Las marcas y las calificaciones aparecen en
la tabla siguiente:
62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte público
y el automóvil. A continuación vemos unas muestras de tiempos de cada modo. Las cifras
son minutos:
Transporte público 25 29 32 41 34 28 29 32 37 33
Automóvil 30 31 32 35 33 29 31 33 32 34
(a) Calcule la media y la desviación estándar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), ¿qué modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, ¿se
respalda la conclusión del inciso (b)?
En esta sección trabajaremos con los datos que aparecen en el archivo calles.sf3. Este
contiene las variables longitud, anchura y nombre, que son la longitud, anchura y el
nombre de 112 calles del antiguo casco de Madrid (España). Utilizando este archivo y con
ayuda de Statgraphics realizaremos un análisis de la variable longitud. Al abrir el archivo
calles.sf3 sale la ventana de hojas de cálculos que mostramos en la figura 1.18. El acceso a
todas las opciones analı́ticas y gráficas que necesitamos en cualquier práctica la realizamos
de la misma manera:
Copyright © 2017. Universidad del Norte. All rights reserved.
• Con el ratón se elige la variable deseada (que en nuestro caso será la variable lon-
gitud), aparecerá resaltada, y a continuación pulsamos el botón Data, aparece el
nombre de dicha variable como variable activa. Dicha ventana tiene la opción or-
denar (sort) las variables alfabéticamente. Los botones que aparecen en la parte
inferior permiten realizar el análisis, cancelar el análisis, transformar los datos y con-
sultar la ayuda. Pulsamos la opción OK para realizar el análisis y aparece la llamada
ventana del análisis, que da informaciones estadı́sticas acerca del conjunto de datos
con el que estamos trabajando (véase la figura 1.19).
Los ı́conos principales que hay en la barra de herramientas de esta ventana son los cuatro
de la izquierda (los restantes los activamos en algunas opciones gráficas):
este ı́cono.
• El cuarto ı́cono (Save results, ı́cono de salvar resultados) permite salvar los resultados
del análisis para tratarlos posteriormente o para imprimirlos.
Opciones numéricas
• Percentiles
Permite el cálculo simultáneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el botón derecho del ratón y elegimos
Pane options, introducimos los percentiles que deseemos calcular.
que están a la izquierda de cada tallo son la frecuencia absoluta acumulada de los
tallos, donde dicha frecuencia se comienza a contar tanto por arriba como por abajo,
a excepción de valor que aparece entre paréntesis, que corresponde al tallo donde
se encuentra la mediana. Si, estando situados sobre esta opción, pulsamos el botón
derecho del ratón y elegimos Pane options, obtenemos la ventana de diálogo Stem-
and-Leaf Display Options, cuyo campo Flag Outliers (Valores Anómalos) permite
marcar valores atı́picos en el diagrama. Como podemos observar, el diagrama de tallo
y hojas de la variable longitud presenta cuatro valores atı́picos.
Opciones gráficas
– Direction (Dirección)
Podemos elegir Vertical u Horizontal para orientar el diagrama en el sentido que
deseemos.
– Features (Aspectos)
Esta opción permite señalar o no en el gráfico la media (Mean Marker ), los
Copyright © 2017. Universidad del Norte. All rights reserved.
6
Recordemos que los polı́gonos acumulados o acumulados relativos son las llamadas ojivas.
– En los campos Number of Classes, Lower Limit y Upper Limit podemos definir
el número de clases deseado, el lı́mite inferior de la primera clase y el lı́mite
superior de la última clase respectivamente.
– El campo counts permite seleccionar frecuencias relativas (Relative) y acumu-
ladas (Cumulative).
– El campo Hold (Mantener ) permite mantener la escala actual para los gráficos
siguientes.
– El histograma de frecuencias absolutas lo obtenemos señalando el botón His-
togram del campo Plot Type y dejando en blanco los dos botones del campo
Counts; el de frecuencias relativas, señalando el botón Histogram del campo
Plot Type y el botón Relative del campo Counts; el de frecuencias acumuladas,
señalando el botón Histogram del campo Plot Type y el botón Cumulative del
campo Counts; el de frecuencias acumuladas, señalando el botón Histogram del
campo Plot Type y los botones Cumulative y Relative del campo Counts.
– El polı́gono de frecuencias absolutas lo obtenemos señalando el botón Polygon
del campo Plot Type y dejando en blanco los dos botones del campo Counts; el
de frecuencias relativas, señalando el botón Polygon del campo Plot Type y el
botón Relative del campo Counts.
– La ojiva de frecuencias acumuladas la obtenemos señalando el botón Polygon
del campo Plot Type y el botón Cumulative Relative del campo Counts; la de
frecuencias acumuladas relativas, señalando el botón Polygon del campo Plot
Type y los botones Relative y Cumulative del campo Counts.
izquierda. Es recomendable modificar el número de clases del histograma, para ası́ observar
las variaciones que se producen en éste.
Si deseamos obtener una distribución simétrica y con probable desaparición de ciertos va-
lores atı́picos, recomendamos realizar una transformación.
Las cuatro transformaciones más habituales para resolver este tipo de problemas son: lo-
garitmo, raı́z cuadrada, inversa y cuadrado.
Para trabajar con la variable transformada es suficiente con escribir en lugar del nombre
de la variable la transformación adecuada. Por ejemplo, si quisiéramos trabajar con el
logaritmo de la variable, escribimos LOG(longitud) en vez de longitud. Otro método
para escribir la transformación adecuada es desde la opción de One Variable Analysis;
en la parte inferior de la ventana activar el botón Transform, lo que nos permite acceder
a los diferentes operadores (Operators), entre los que se encuentran las transformaciones
Copyright © 2017. Universidad del Norte. All rights reserved.
antes mencionadas. De las estas transformaciones, la que ofrece una distribución más
simétrica es el logaritmo. A continuación presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caracterı́sticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).
Repetimos todo el análisis realizado para la variable longitud, pero ahora con la variable
transformada (LOG(longitud)). Como consecuencia de la transformación realizada obte-
Para obtener diagramas de cajas múltiples para dos o más conjuntos de datos, una alter-
nativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample Com-
parison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta última opción mencionar
los datos que queremos comparar).
(a) Obtenga la media y la mediana, la moda, el primero y tercer cuartil, el segundo y octavo
decil, los percentiles 35, 66, 81 y 93, el sesgo y el coeficiente de variación. Interprete
cada uno de sus resultados.
(b) Forme la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la última frontera superior sea 40. Con base en ella, responda las
siguientes preguntas:
i. ¿Cuántas calles tienen un ancho entre 5 y 25 kilómetros?
ii. ¿Qué porcentaje de calles tienen un ancho entre 10 y 30 kilómetros?
Copyright © 2017. Universidad del Norte. All rights reserved.
7
La presencia de este valor atı́pico la podemos explicar acudiendo a razones históricas. Por ejemplo, la
calle Atocha está ubicada entre la Plaza de Santa Cruz y el Paseo del Prado,que data de 1589, al igual que
las calles de su entorno. Una explicación de su carácter peculiar (atı́pico) es su función como unión entre
Madrid capital y el Hospital General (inicialmente en la periferia).
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la última frontera superior
sea 40) construir los histogramas de frecuencias absolutas y de frecuencias absolutas
acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las ojivas de fre-
cuencias acumuladas y de frecuencias relativas acumulada. A partir de estos gráficos
responda las siguientes preguntas:
i. ¿Aproximadamente cuántas calles tienen un ancho mayor que 16,9 kilómetros?
ii. ¿Aproximadamente cuántas calles tienen un ancho menor que 12,5 kilómetros?
iii. ¿Qué porcentaje aproximado de calles tienen un ancho mayor que 7,7 kilómetros?
iv. ¿Qué porcentaje aproximado de calles tienen un ancho menor que 13,8 kilómetros?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Existen valores atı́picos? ¿Cuántos? ¿Cuáles?
(f) ¿Existe alguna transformación que mejora la simetrı́a? ¿Y la presencia de valores
atı́picos? Indique en caso positivo la transformación seleccionada.
64. En el archivo de datos autos.sf3 mostramos las distancias recorridas (dadas en millas por
galón) de 154 modelos de automóviles sacados al mercado entre los años 1978 y 1982 por
diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses (origen=3).
También aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida, y con
base en él responda las siguientes preguntas: ¿Entre cuáles valores varı́a la distancia
recorrida? ¿Cuánto recorre el 50% central de los autos? ¿Hay valores atı́picos? ¿Es
simétrica o asimétrica la distribución de los datos? En caso de ser asimétrica, ¿es
asimétrica a la izquierda o a la derecha? ¿Cuáles son los valores de la media y de la
mediana?
(b) Estudie el grado de simetrı́a de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadı́sticas (media, mediana, moda, sesgo, etc.).
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un histograma con 13 clases. ¿Porqué este histograma resulta más
adecuado que el que construyó con 5 clases?
iv. Construyendo un gráfico de simetrı́a con la opción graphical options . . . symmetry
Copyright © 2017. Universidad del Norte. All rights reserved.
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos de
cada uno de los cinco años.
i. Analice gráfica y numéricamente cada uno de estos conjuntos.
ii. Utilizando la opción Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de ca-
jas (múltiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los años. ¿Qué se observa? ¿Conoce alguna razón que pueda explicar lo que
resulta de los análisis numéricos y de la observación de los diagramas de cajas?
(d) Ahora construya el diagrama de caja múltiple de la distancia recorrida de los automó-
viles según su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas responda las preguntas formuladas
en la parte (a).
ii. Compare entre sı́ los distintos diagramas y responda las siguientes preguntas:
¿Dónde es más fuerte la asimetrı́a? ¿Dónde es menor? ¿Dónde no existe? ¿Varı́a
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja múltiple de la potencia de los automóviles según su
origen y responda las preguntas formuladas en el inciso anterior.
65. Se han medido los diámetros (en milı́metros) de 50 tornillos y se han obtenido los resultados
que mostramos en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primero y tercer cuartil, el sexto y séptimo decil y los
percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Forme la tabla de frecuencias con 6 clases para los datos, y con base en ella responda
las siguientes preguntas:
i. ¿Cuántos tornillos tienen un diámetro entre 29 y 32 milı́metros?
ii. ¿Qué porcentaje de tornillos tienen un diámetro entre 30 y 34 milı́metros?
iii. ¿Cuántos tornillos tienen un diámetro mayor que 32 milı́metros?
iv. ¿Qué porcentaje de tornillos tienen un diámetro mayor que 34 milı́metros?
v. ¿Cuántos tornillos tienen un diámetro menor que 31 milı́metros?
vi. ¿Qué porcentaje de tornillos tienen un diámetro menor que 33 milı́metros?
(c) Con 6 clases construir los histogramas de frecuencias absolutas y de frecuencias abso-
lutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las ojivas de
frecuencias acumuladas y de frecuencias relativas acumulada. Con base en estos gráficos
responda las siguientes preguntas:
i. ¿Aproximadamente cuántos tornillos tienen un diámetro mayor que 34,4 milı́metros?
ii. ¿Aproximadamente cuántos tornillos tienen un diámetro menor que 32,2 milı́metros?
iii. ¿Qué porcentaje aproximado de tornillos tienen un diámetro mayor que 31,6 milı́-
metros?
iv. ¿Cuántos tornillos tienen un diámetro menor que 32,8 milı́metros?
Copyright © 2017. Universidad del Norte. All rights reserved.
66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos) de
70 estudiantes universitarios durante un determinado año.
(a) Obtenga la media y la mediana, la moda, el primero y tercer cuartil, el segundo y octavo
decil, los percentiles 33, 67, 84 y 93, el sesgo y el coeficiente de variación. Interprete
cada uno de sus resultados.
(b) Forme la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la última frontera superior sea $ 1.400.000. Con base en ella responda
las siguientes preguntas:
67. En el archivo de datos doscientos.sf3 proporcionamos las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), ası́ como el nombre del atleta y la fecha en que se consiguió la marca.
(a) Obtenga la media y la mediana, la moda, el primero y tercer cuartil, el segundo y octavo
decil, los percentiles 42, 53, 76 y 89, el sesgo y el coeficiente de variación. Interprete
cada uno de sus resultados.
Copyright © 2017. Universidad del Norte. All rights reserved.
(b) Forme la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 19,2 segundos y la última frontera superior sea 20,2 segundos. Con base en
ella responda las siguientes preguntas:
i. ¿Cuántos atletas han recorrido entre 19,325 y 19,7 segundos?
ii. ¿Qué porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?
iii. ¿Cuántos atletas han recorrido más de 19,7 segundos?
iv. ¿Qué porcentaje de atletas han recorrido más de 19,45 segundos?
v. ¿Cuántos atletas han recorrido menos de 19,95 segundos?
vi. ¿Qué porcentaje de atletas han recorrido menos de 19,825 segundos?
(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la última frontera
superior sea 20,2 segundos) construya los histogramas de frecuencias absolutas y de
frecuencias absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas
y las ojivas de frecuencias acumuladas y de frecuencias relativas acumuladas. A partir
de estos gráficos responda las siguientes preguntas:
i. ¿Aproximadamente cuántos atletas han recorrido más de 19,818 segundos?
ii. ¿Qué porcentaje aproximado de atletas han recorrido más de 19,845 segundos?
iii. ¿Qué porcentaje aproximado de atletas han recorrido más de 19,782 segundos?
iv. ¿Aproximadamente cuántos atletas han recorrido menos de 20,03 segundos?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Se detecta algo peculiar en la distribución de estos datos?
(f) ¿Se detecta algún valor potencialmente atı́pico? ¿Cuál es?
68. En el archivo de datos gemelos.sf3 mostramos los resultados de tests de inteligencia rea-
lizados a parejas de gemelos monozigóticos. Los gemelos monozigóticos se forman por la
división en dos de un mismo óvulo ya fecundado y, por tanto, tienen la misma carga genética.
Al mismo tiempo, por razones obvias, es muy frecuente que compartan el entorno vital y es
difı́cil separar ambos factores. En el conjunto de datos, los de la columna A corresponden
al gemelo criado por sus padres naturales, los de la columna B al criado por un familiar u
otra persona. Mediante la opción Compare . . . Two Samples . . . Two Sample Comparison
. . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:
(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algún valor
Copyright © 2017. Universidad del Norte. All rights reserved.
atı́pico.
(b) Proponga, razonando la respuesta, un valor para la densidad de la Tierra.
70. En 1893 Lord Rayleigh investigó la densidad del nitrógeno empleando en su obtención dis-
tintas fuentes. Previamente habı́a comprobado la gran diferencia existente entre la densidad
del nitrógeno producido tras la eliminación del oxı́geno del aire y el nitrógeno producido
por la descomposición de ciertos compuestos quı́micos. Los datos del archivo Rayleigh.sf3
muestran esta diferencia de forma clara. Esto llevó a Lord Rayleigh a investigar detenida-
mente la composición del aire libre de oxı́geno y al descubrimiento de un nuevo elemento
gaseoso, el argón.
(a) Analice numérica y gráficamente estos datos. Preste especial atención a los diagramas
de tallo y hojas y al diagrama de cajas. ¿Hay alguna peculiaridad de la población de
pesos que se manifieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos con base aire y
los obtenidos con base en compuestos quı́micos del nitrógeno. ¿Qué se observa?
71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generación de energı́a o de extracción de ésta es el disparo del reactor. Esta medida
consiste en la detención del proceso de fusión mediante la inserción en el núcleo del reactor
de venenos neutrónicos. El número de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivo
de datos disparos.sf3 proporcionamos, para dos años diferentes (1984 y 1993), el número
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamérica.
Cálculos estadı́sticos
Para realizar cálculos estadı́sticos en la calculadora, tenga en cuenta los siguientes comen-
Copyright © 2017. Universidad del Norte. All rights reserved.
tarios:
• Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar cálculos
estadı́sticos con ayuda de las funciones estadı́sticas que hay incorporadas en la calcu-
ladora.
• El ingreso de datos comienza siempre con shift clr 1 = para borrar la memoria
de estadı́sticas.
• Los datos ingresados los usamos para calcular los valores para n (el total de datos),
2
x (la suma de todos los datos), x (la suma de los cuadrados de los datos), x (la
media), σn (la desviación estándar poblacional) y σn−1 (la desviación estándar mues-
tral), que pueden llamarse usando las operaciones de tecla indicados a continuación:
Ejemplo 1.7.1 Calcule n, x, x2 , x, σn y σn−1 para los datos siguientes: 55, 54, 51, 55, 53,
53, 54 y 52.
SOLUCIÓN:
2
Suma de los cuadrados de los valores x = 22.805 shift s-sum 1 =
Suma de valores x = 427 shift s-sum 2 =
Número de datos n = 8 shift s-sum 3 =
Media aritmética x = 53, 375 shift s-var 1 =
Desviación estándar poblacional σn = 1, 316956719 shift s-var 2 =
Desviación estándar muestral σn−1 = 1, 407885953 shift s-var 3 =
Copyright © 2017. Universidad del Norte. All rights reserved.
• También puede ingresar múltiples entradas del mismo dato usando shift ; . Por
ejemplo, para ingresar el dato 110 diez veces presiones 110 shift ; 10 dt .
• Mientras ingresa datos o después de completar el ingreso de datos, puede usar las
teclas
y ∇ para ir visualizando a través de los datos que ha ingresado. Si ingresa
múltiples ingresos del mismo dato usando shift ; para especificar la frecuencia de
datos (número de ı́temes de datos) como se describe anteriormente, pasando a través
de los datos muetra el ı́tem de dato y una pantalla separada para la frecuencia de
datos (freq).
• Los datos visualizados pueden editarse, si ası́ lo desea. Ingrese el valor nuevo y presione
la tecla = para reemplazar el valor antiguo por el valor nuevo. Esto también significa
que si desea realizar alguna otra operación (cálculo, llamada de resultados de cálculos
estadı́sticos, etc.), siempre deberá presionar primero la tecla ac para salir de la
presentación de datos.
21 22 27 36 22 29 22 23 22 28 36 33
73. Los porcentajes de rentabilidad de los fondos de inversión de diez grandes empresas fueron:
Copyright © 2017. Universidad del Norte. All rights reserved.
17,6 26,6 15,6 12,4 22,9 25,0 22,4 18,5 27,9 11,6
74. Directamente de la calculadora, halle la media y la desviación tı́pica de los datos del ejercicio
45.
75. Sea dada la siguiente tabla de frecuencias. Halle la media y la desviación tı́pica directamente
de la calculadora.
Dato 5,0 2,5 3,2 2,0
Frecuencia 8 2 6 3
✍ Ejercicios complementarios
76. Diga si la afirmación dada es verdadera o falsa. Justifique siempre su respuesta. En caso
que sea falsa, dé un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviación estándar de un conjunto de datos es 0, entonces los datos son iguales.
(c) El valor de la desviación estándar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviación estándar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces el ingreso total es de
$ 10.000.000.
(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0, entonces
la media del grupo total de 37 calificaciones es 2,5.
(h) Existen datos con desviación estándar negativa.
(i) En una distribución simétrica, la media, la mediana y la moda son iguales.
(j) En una distribución positivamente sesgada, la mediana es mayor que la media.
(k) La desviación estándar está dada por las mismas unidades que la media.
(l) Toda información numérica proporciona datos cuantitativos.
(m) Toda información no numérica ofrece datos cuantitativos.
(n) Cuando todos los datos son categóricos, la moda es la única medida de tendencia central
que se puede utilizar.
(o) Si el primer cuartil en el primer examen de estadı́stica fue de 3,0, entonces este valor
indica que el 25% de los estudiantes ganaron el examen.
(p) Si x es un dato de una muestra y s2 es la varianza de esa muestra, entonces la expresión
x − s2 carece de sentido.
(q) Si un conjunto de datos no es asimétrico, entonces su coeficiente de sesgo es 1.
77. Un determinado reporte presenta las siguientes observaciones de resistencia de vigas (los
Copyright © 2017. Universidad del Norte. All rights reserved.
6,8 7,0 7,6 6,8 5,9 7,2 7,3 6,3 8,1 11,6 9,0 11,8 10,7 11,3
6,5 7,0 6,3 7,9 8,2 8,7 7,8 9,7 7,7 9,7 7,8 7,7 7,4
(a) Construya un diagrama comparativo de tallo y hojas de los datos. ¿Cuál parece ser
un valor representativo de la resistencia? ¿Parecen estar las observaciones muy concen-
tradas cerca del valor representativo o sólo están dispersas?
(b) ¿Parece ser razonablemente simétrico el diagrama respecto a un valor representativo o
describirı́a su forma de otra manera?
78. El reporte del ejercicio 77 también presenta las siguientes observaciones de resistencia de
cilindros:
9,2 6,6 8,3 7,0 8,3 6,1 5,8 7,8 7,1 7,2
9,8 9,7 14,1 12,6 11,2 7,8 8,1 7,4 8,5 8,9
(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuación conteste las preguntas de la parte (b) a (d) de aquel ejercicio,
sobre las observaciones con cilindros.
(b) ¿En qué aspectos se parecen los dos lados del diagrama? ¿Hay diferencias obvias entre
las observaciones para vigas y para cilindros?
79. Según un diario, en Colombia la donación y disponibilidad de sangre es muy baja, tomando
en cuenta que la captación anual es tan sólo de 485 mil unidades, lo que equivale al 1 por
ciento de la población. ¿Cuál es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dólares. Si el multicentro tiene 190 mil metros cuadrados, ¿cuál es el precio
promedio por metro cuadrado? ¿Cuánto recibirá aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al año,
¿cuánto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectuó una encuesta para estudiar sus suscriptores en ciertos paı́ses. Una de
las preguntas pedı́a el valor del portafolio del suscriptor (acciones, bonos, fondos hipoteca-
rios y certificados de depósitos). La siguiente distribución de frecuencias porcentuales fue
preparada con las respuestas:
40.000 - 90.000 10
90.000 - 240.000 18
240.000 - 490.000 5
490.000 - 990.000 13
990.000 y más 20
(a) ¿Qué porcentaje de suscriptores tienen inversiones menores que 90.000 dólares?
(b) ¿Qué porcentajes de suscriptores tienen inversiones en el intervalo de 40.000 a 490.000
dólares?
(c) ¿Qué porcentajes de suscriptores tienen inversiones de 490.000 dólares o más?
83. De todos los anuncios de bebidas alcohólicas en vallas publicitarias, el 60% son de cerveza,
el 30% de licores con alto contenido de alcohol, el 6% sobre vino, y el 4% restante de
bebidas con bajo contenido de alcohol. Construya un diagrama de barras y uno de pastel
que represente esta información.
84. Una sucursal bancaria localizada en la zona comercial de una ciudad desarrolló un proceso
para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a 1:00 p.m.
Se registró el tiempo de espera en minutos (definido como el tiempo desde que el cliente
se forma en la cola hasta que lo atienden) para todos los clientes que asisten a esta hora
durante una semana. Se seleccionó una muestra aleatoria de 15 clientes y los resultados
fueron:
(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
(b) ¿Están los datos sesgados? Si es ası́, ¿cómo?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuánto tiempo tendrá
que esperar. Y él mismo se responde: “es casi seguro que no tendré que esperar más de
cinco minutos”. Evalúe esta afirmación según los resultados obtenidos en el inciso (a).
85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norte-
americana tiene una media de 300 dólares y una desviación tı́pica de 65 dólares. Halle un
intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b) 80% de
estos valores.
86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipo
universitario de pista (tiempos en minutos):
Copyright © 2017. Universidad del Norte. All rights reserved.
Después de ver esta muestra de tiempos, uno de los entrenadores comentó que los corredores
de cuarto de milla corrı́an con más consistencia. Emplee la desviación estándar y el coe-
ficiente de variación para resumir la variabilidad de los datos. ¿El coeficiente de variación
indica que es cierta la afirmación del entrenador?
87. La máxima temperatura registrada durante el verano en una ciudad europea durante los
últimos 8 años son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 ◦ C. ¿Se puede considerar la última
temperatura como fuera de lo normal? Justifique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es la
misma, y también lo son sus desviaciones tı́picas. Si (a) n = 2, (b) n = 3, ¿son necesaria-
mente iguales los valores numéricos de los datos de las dos poblaciones?
90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es decir,
supongamos que se agrega una constante c a cada xi en una muestra, y se obtiene yi = xi +c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales más la constante. Es decir, y = x + c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales más la constante. Es decir,
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la desviación
estándar de los datos originales. Es decir,
91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada xi en una muestra, y se obtiene
yi = kxi .
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
Copyright © 2017. Universidad del Norte. All rights reserved.
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la desviación
estándar de los datos originales multiplicada por el valor absoluto de la constante . Es
decir,
Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reacción quı́mica dio una media mues-
tral de 87, 3◦ C y una desviacón estándar muestral de 1, 04◦ C. ¿Cuál son la media y
desviación estándar muestrales medidas en ◦ F ? (Sugerencia: F = 95 C + 32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviación estándar de
7, ¿cuál es la desviación estándar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.
i. Si se suma 5 décimas a cada calificación, ¿cuál es la media del nuevo conjunto?
ii. Si cada calificación se multiplica por 1,5 puntos, ¿cuál será la media?
93. El propietario de una pequeña empresa gana un sueldo de 3.910 euros mensuales. Los
salarios de los empleados aparecen a continuación:
(a) ¿Cuál es el salario medio de todos los que trabajan en la empresa, incluyendo al propie-
tario? ¿Cuál es la desviación estándar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, ¿cómo varı́a la media? ¿Y la
desviación estándar?
(c) Si se aumenta sólo el sueldo del dueño en 600 euros, ¿qué ocurre con la media?
(d) Halle la mediana. ¿Cómo varı́a la mediana si se aumentan todos los sueldos en 300
euros? ¿Y si sólo se aumenta el salario del director en 1.200 euros?
buena, muy buena, excelente. Una de las preguntas es: En comparación con otros cursos
que has estudiado, ¿cuál es la calidad general de éste? En una muestra de 60 alumnos
que terminaron un curso de estadı́stica durante un determinado semestre de cierto año se
obtuvieron las respuestas que se presentan a continuación (para facilitar el procesamiento
de los resultados del cuestionario en el computador, se usó una escala numérica en la que
1 = mala, 2 = regular, 3 = buena, 4 = muy buena, 5 = excelente):
5 2 4 5 4 4 3 3 4 4 5 1 5 4 3 5 4 5 4 3
2 5 4 2 4 4 4 4 5 5 4 4 4 5 1 5 3 3 4 3
3 4 5 4 3 5 4 5 5 3 4 5 5 2 4 5 3 4 4 3
96. Una de las principales atracciones turı́sticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamérica) es el géiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duración). Ambas variables se dan en minutos. Estudie numérica y gráficamentre ambas
variables. ¿Se observa alguna peculiaridad en ellas?
97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dı́gitos del número π. Analice
numérica y gráficamente este conjunto de datos.
98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en dı́as) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron más de 1.000 vı́ctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de marzo
de 1977. Estudie numérica y gráficamente estos datos.
Copyright © 2017. Universidad del Norte. All rights reserved.
Contenido
99
☞ Empleo de la estadı́stica
En una encuesta hecha a estudiantes de nuevo ingreso a la universidad
se encontró que, entre todos los estudiantes admitidos, el 55% no tienen
problemas de ningún tipo, el 25% sienten que fueron mal orientados en
cuanto a la carrera elegida y el 20% tienen problemas de tipo económico. La
misma encuesta muestra que de los que no tienen ningún tipo de problema
solamente el 1% no regresa al segundo semestre; que la probabilidad de que
los que fueron mal orientados no continúen en el segundo semestre es de
0,7 y la probabilidad de que los que tienen problemas económicos continúen
es de 0,05. Si se elige al azar un alumno del segundo semestre, ¿cuál es la
probabilidad de que él sea uno de los que a pesar de no estar en la carrera
de su vocación haya continuado?
La validez de la mayorı́a de las teorı́as cientı́ficas está basada, en gran parte, en que los
experimentos, sobre los cuales se fundamentan las teorı́as, suministran esencialmente el
mismo resultado cuando estos experimentos se repiten. Este tipo de experimentos se lla-
man determinı́sticos.
Sin embargo, hay experimentos cuyos resultados no son predecibles con certeza si las condi-
ciones de los experimentos se mantienen constante. Estos se llaman experimentos aleatorios
o estocásticos.
Ejemplos familiares de estos experimentos son los juegos de suerte, como dados, lanzamiento
de monedas o juegos de cartas. Sin embargo, hay otros tipos de ejemplos de experimentos
aleatorios, como los siguientes:
(2) Una máquina de coser alarga a veces una puntada sin un motivo claro.
(3) La duración de vida de las personas que viven bajo condiciones semejantes varı́a y no
se puede predecir.
El primer paso para analizar un determinado experimento consiste en definir con cuidado los
resultados experimentales. Cuando hayamos definido todos los resultados posibles, habre-
mos identificado el llamado espacio muestral del experimento.
Copyright © 2017. Universidad del Norte. All rights reserved.
El espacio muestral se simbolizará con la letra griega Ω (leı́da “omega”) y los eventos con las letras
mayúsculas A, B, C, etc. “El evento A ha sucedido” significa que el resultado observado del experimento
está en A.
• Los posibles resultados son cara (C) o sello (S). Por tanto, Ω = {C, S}.
• {C} =“la moneda señala cara” es un evento elemental.
• “La primera moneda muestra sello” = {(S, S), (S, C)} es un evento.
Ω = {(C, C), (C, S), (S, C), (S, S)} = {C, S} × {C, S}
• Se observa el número de lanzamientos que muestran sello (S) antes de que aparezca
una cara. Por tanto, Ω = {0, 1, 2, . . . , ∞}.
• En este caso, “{3} = C aparece por primera vez en el cuarto lanzamiento” es un evento
elemental y “{∞}” es el evento elemental de que la moneda nunca muestre a C.
• “C aparece no antes del séptimo lanzamiento” = {6, 7, 8, . . . , ∞} es un evento.
Copyright © 2017. Universidad del Norte. All rights reserved.
Ası́, por ejemplo, un resultado básico perteneciente a A estará dentro del cı́rculo corres-
pondiente. El área sombreada donde se cruzan las dos figuras es A ∩ B. Claramente, un
resultado básico estará en A ∩ B si y sólo si está tanto en A como en B. De esta manera, al
lanzar un dado, los resultados 3 y 5 pertenecen a los dos eventos A =“se obtiene un número
impar” y B =“se obtiene por lo menos 3”.
Es posible que los eventos A y B no tengan resultados en común, en cuyo caso las figuras no
se cruzarán como en la parte (b) de la figura 2.1. Tales eventos se dice que son mutuamente
excluyentes (o disyuntos). Por ejemplo, si al lanzar un dado, los eventos A =“se obtiene
un número par” y B =“se obtiene un número impar” son mutuamente excluyentes.
De manera más general, decimos que n eventos A1 , A2 , . . . , An de un espacio muestral Ω son mu-
tuamente excluyentes si todo par de estos eventos es mutuamente excluyente.
Cuando se consideran varios eventos conjuntamente, otra posibilidad de interés es que por
lo menos uno de ellos ocurra. Esto sucederá si el resultado del experimento pertenece al
menos a uno de los eventos. El conjunto de resultados pertenecientes por lo menos a uno
de los eventos se denomina unión. Por ejemplo, en el experimento del lanzamiento de un
dado, los resultados 2, 4, 5 y 6 pertenecen por lo menos a uno de los eventos A =“se obtiene
un número par” o B =“se obtiene por lo menos 4”.
De manera más general, dado n eventos A1 , A2 , . . . , An de un espacio muestral Ω, su unión A1 ∪A2 ∪· · ·∪An
es el conjunto de todos los resultados posibles de Ω que pertenecen por lo menos a uno de estos n eventos.
Ahora, cuando se consideran dos eventos conjuntamente, otra situación que interesa es
que uno de ellos ocurra pero el otro no. Esto ocurre cuando el resultado del experimento
pertenece a uno de ellos pero no al otro. El conjunto de resultados que pertenecen a un
evento pero no a otro otro se denomina diferencia entre ambos eventos. Por ejemplo, los
resultados 2 y 4 pertenecen al evento A =“se obtiene un número par estrictamente menor
que 6” pero no al evento B =“se obtiene por lo menos 5”.
Un caso de especial interés lo constituye una colección de varios eventos cuya unión es la
totalidad del espacio muestral Ω. Dado que todo resultado pertenece a Ω, se deduce que
todo resultado de un experimento aleatorio estará al menos en una clase de estas colec-
ciones de eventos. Estos eventos se denominan colectivamente exhaustivos. Por ejemplo, si
se lanza un dado, los sucesos “el resultado es por lo menos 3” y el resultado es a lo más
6” son colectivamente exhaustivos (al menos uno de estos eventos debe ocurrir). Pero, si
adicionalmente estas colecciones de eventos son mutuamente excluyentes, entonces se dice
que estos eventos forman una partición de Ω.
(b) Decimos que estos n eventos forman una partición de Ω si ellos son colectivamente
exhaustivos y mutuamente excluyentes.
Una representación gráfica de esta situación se observa en la figura 2.3b. Observemos que
todos los eventos elementales forman una partición del espacio muestral correspondiente.
Copyright © 2017. Universidad del Norte. All rights reserved.
• A, C y D no son colectivamente exhaustivos (y, por tanto, tampoco forman una partición
de Ω) porque 1 ∈ A ∪ C ∪ D.
Ejemplo 2.1.13 Se lanza un dado. Sea A el evento “se obtiene un número impar” y B el evento
“se obtiene por lo menos 3”. Entonces,
• La intersección de A y B es el evento
• La unión de A y B es el evento
• La diferencia de A y B es el evento
• La diferencia de B y A es el evento
Observemos también que los eventos A y A son mutuamente excluyentes, dado que su intersección
es el conjunto vacı́o, y colectivamente exhaustivos, dado que su unión es el espacio muestral Ω.
En otras palabras, A y A forman una partición de Ω.
A continuación presentamos algunas de las propiedades básicas que debemos tener en cuenta
cuando trabajamos con eventos.
(d) A ∩ ∅ = ∅ (e) A ∪ ∅ = A (f ) A ∩ A = ∅
Presentamos ahora dos resultados más que incluyen uniones e intersecciones. Serán em-
pleados más adelante para desarrollar algunas reglas de probabilidad.
Ejemplo 2.1.16 Consideremos el lanzamiento de un dado. Verificaremos los dos resultados que
se presentan en el teorema 2.1.15.
(a) Sean A = {1, 3, 5} y B = {3, 4, 5, 6}. Entonces, los eventos A ∩ B = {3, 5} y A ∩ B = {4, 6}
son mutuamente excluyentes y su unión es B (ver figura 2.6a). De esta forma queda verificada
la parte (a) del teorema.
(b) Sean B = {3, 4, 5, 6}, A1 = {1, 3}, A2 = {2, 4, 6} y A3 = {5}. Observemos que los eventos A1 ,
A2 y A3 forman una partición de Ω. ¿Por qué? Ahora, claramente podemos observar que los
eventos A1 ∩ B = {3}, A2 ∩ B = {4, 6} y A3 ∩ B = {5} son mutuamente excluyentes y su
unión es B (ver figura 2.6b), verificándose, de esta manera, la parte (b) del teorema.
lo constituye el hecho de que algunas preguntas que nos gustarı́a hacer son tan delicadas que
muchas personas se negarán a contestarlas o darán una respuesta falsa. Una manera de atacar
este problema es utilizar el método de la respuesta aleatorizada1 . Esta técnica consiste
en acompañar la pregunta delicada con otra pregunta normal. Por ejemplo, podrı́amos tener el
siguiente par de preguntas:
1
Ver, por ejemplo, M. D. Geurts, “Using a randomized response research design to eliminate nonresponse
biases in business research”, Journal of Academy of Marketing Science, 8 (1980), 83-90.
(b) ¿Ha realizado una compra por catálogo en los últimos doce meses?
A los encuestados se les pide que lancen una moneda y que contesten a la pregunta (a) si se
obtiene “cara” y a la (b) en otro caso. Dado que el encuestador no puede saber a qué pregunta se
contesta, se espera que se obtengan de esta manera respuestas verdaderas. Para las preguntas que
acompañan a la de interés, el investigador cuenta ya con información sobre la población sujeta a
estudio. De este modo, en nuestro ejemplo, el investigador sabe qué proporción de la población
realizó una compra por catálogo en los últimos doce meses.
(c) ¿Cuántos elementos hay en el espacio muestral correspondientes a una selección que
incluye a A y a B?
(d) ¿Cuántos elementos hay en el espacio muestral correspondientes a una selección que
incluye a A o a B?
(b) Describa el evento E de que un técnico tarde tres minutos o menos para realizar la
tarea.
(c) Describa el evento F de que un técnico tarde más de tres minutos para realizar la tarea.
6. Una familia formada por Juana, Pedro y Jorge asisten a una clı́nica que siempre tiene un
médico en cada una de las oficinas 1, 2 y 3. Durante cierta semana, cada miembro de la
familia visita una vez la clı́nica y se le asigna al azar un médico: el experimento consiste en
registrar el número de la oficina asignada a cada miembro de la familia. Un resultado de
(3, 2, 2) es: para Juana la oficina 3; Pedro, oficina 2, y Jorge, oficina 2.
Liste los elementos de los conjuntos que corresponden a los siguientes eventos: (a) A ∪ D;
(b) B ∩ C; (c) D; (d) (D ∩ A) ∪ C; (e) Ω ∩ B; (f) B ∩ C ∩ D.
8. Señale la región de la figura de abajo que representa a cada evento: (a) A ∪ B ∪ C, (b)
A ∩ B ∩ C, (c) A ∩ B ∩ C, (d) A ∩ B ∩ C, (e) A ∩ B ∩ C, (f) (A ∪ B) ∩ C, (g) A ∪ (B ∩ C),
(h) A ∪ B ∪ C.
9. Sean Ω el evento de todos los turistas que visitaron a Barranquilla durante un fin de semana,
y A, B y C los eventos formados por los turistas que visitaron el Museo Romántico, el
Zoológico y Bocas de Cenizas respectivamente. Exprese con palabras las regiones indicadas
a continuación teniendo en cuenta la figura de abajo: (a) Región 1, (b) Regiones 1 y 4
juntas, (c) Regiones 4, 5, 7 y 8 juntas, (d) Regiones 5, 6 y 7.
A B
Copyright © 2017. Universidad del Norte. All rights reserved.
7 3 6
1
4 2
5 8
C
10. En una encuesta realizada en un colegio de la ciudad a un total de 150 alumnos se encontró:
54 estudian álgebra; 89, inglés; 80, ciencias naturales; 60, ciencias naturales e inglés; 10, sólo
álgebra; 20, álgebra y ciencias naturales; 15, las tres materias simultáneamente. Determine
el número de alumnos que conforman los siguientes eventos:
11. Una universidad realiza tres tipos de pruebas a 100 aspirantes y obtiene los siguientes
resultados: 2 fracasaron en las tres pruebas; 7, en la primera y en la segunda; 8, en la
segunda y en la tercera; 10, en la primera y en la tercera; 25, en la primera; 30, en la
segunda; 25, en la tercera. Determine el número de aspirantes que conforman los siguientes
eventos:
(a) Por lo menos el futbolista ha jugado en uno de los tres equipos mencionados.
(b) El futbolista ha jugado en los tres equipos mencionados anteriormente.
(c) El futbolista ha jugado en el Real Madrid y no en el Milan.
(d) El futbolista sólo ha jugado en el Bayern de Munich.
(e) El futbolista ha jugado exactamente en uno de los tres equipos mencionados.
Copyright © 2017. Universidad del Norte. All rights reserved.
• calcular de cuántas formas podemos sentar 10 personas, una al lado de la otra para
una foto;
• o determinar cuántos números de tres cifras se pueden formar con los dı́gitos del 1 al
9 si no se pueden repetir los dı́gitos,
Antes de comenzar a introducir los conceptos y propiedades básicas que caracterizan a cada
una de las técnicas mencionadas anteriormente, consideraremos importante enfatizar que
muchos experimentos aleatorios pueden describirse por medio de los llamados modelos de
urnas, los cuales se caracterizan por los siguientes dos hechos:
1. En una urna hay bolas distinguibles (por ejemplo, numeradas), no distinguibles (por
ejemplo, rojas) o mixtas. Estas bolas se consideran como una población.
2. De esta urna se quiere sacar una o más bolas, al mismo tiempo o no, reemplazando o no
las bolas seleccionadas antes de seleccionar nuevamente otra(s) bola(s) y observando
el orden o no de las bolas extraı́das. Las bolas extraı́das se consideran como una
muestra. Para obtener estas muestras, podemos distinguir los siguientes casos:
2
Concepto que veremos más adelante.
3
Por una tupla ordenada se entiende una expresión, por ejemplo, de la forma (a, b, c, d, e, . . . , z), en
donde el orden de estas letras es importante. Por ejemplo, para el caso de tener sólo dos letras, a y b, no
Los cuatro casos se pueden combinar: las bolas se seleccionan con o sin reemplazo
y con o sin orden. Inclusive, podemos identificar otros tipos de modelo de urna con
base en las situaciones anteriores, como, por ejemplo,
Nuestra primera regla es tratar de enumerar todos los elementos de un espacio muestral
y luego contarlos. Esta técnica es adecuada cuando el número de resultados posibles no
es muy grande. Para ilustrar esto consideremos los siguientes ejemplos. Observe que a la
mayorı́a de ellos los hemos identificados con un modelo de urna.4
Ejemplo 2.2.1 (Selección con reemplazo y con orden) Una urna contiene 4 fichas: una
azul, una verde, una roja y una negra. ¿Cuáles son las distintas maneras de seleccionar dos
fichas con reemplazo?
SOLUCIÓN:
Abreviaremos el color de las fichas con su correspondiente letra inicial: A, V, R y N. Como la
selección es con reemplazo, entonces se selecciona un ficha y se vuelve a introducir en la urna antes
de seleccionar la segunda. Por lo tanto, los elementos del espacio muestral son:
AA, VA, AR, RA, AN, NA, VR, RN,
VN, NV, RN, NR, AA, VV, RR, NN
En este ejemplo, el orden es importante, por eso aparecen AV y VA como dos elementos distintos
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.2.2 (Selección sin reemplazo y sin orden) ¿De cuántas maneras se puede armar
un grupo de 2 de entre 4 personas (digamos Marta, Juliana, Manuel y Luis)?
es lo mismo (a, b) que (b, a). A la tupla con dos elementos se le llama par ordenado; a la de tres elementos,
tripleta ordenada, etc.
4
A los que no hemos identificado con un modelo de urna, significa que el ejemplo no se puede clasificar
directamente como uno de los modelos de urna descritos anteriormente. En realidad, hay otros tipos de
modelos de urna.
SOLUCIÓN:
En esta situación, el orden no interesa (por eso no se utilizan paréntesis al identificar cada se-
lección del grupo). Es como si colocáramos los nombres de estas cuatro personas en una bolsa y
sacáramos dos de ellas al mismo tiempo. Observe que, en este caso, da lo mismo la posibilidad
“Marta, Juliana” que “Juliana, Marta” (por eso, sin orden). Además, la posibilidad de obtener
un grupo conformado por “Marta, Juliana” no existe (por eso, sin reemplazo).
Al tener en cuenta lo anterior encontramos que los posibles grupos de dos personas que se pueden
escoger son:
Es decir, en total hay 6 maneras posibles de seleccionar un grupo de 2 personas, sabiendo que hay
4 disponibles.
Ejemplo 2.2.3 (Selección sin reemplazo y con orden) ¿De cuántas maneras se pueden sen-
tar Gabriela, Jeniffer, Alberto y Hernán en un sofá que sólo tiene disponible dos puestos?
SOLUCIÓN:
En este ejemplo, el orden es importante, porque no es lo mismo, por ejemplo, que Gabriela se
siente en el primer puesto y Jeniffer en el segundo que lo contrario. Por eso utilizaremos parejas
ordenadas para enumerar los posibles resultados. Ahora, es obvio que Gabriela no puede aparecer
sentada en el primer puesto y en el segundo puesto al mismo tiempo (por eso, sin reemplazo). Es
decir, no existe la posibilidad que aparezca el resultado (Gabriela, Gabriela).
Con lo anterior, fácilmente podemos determinar que las posibles maneras en que se sienten dos
personas en el sofá son:
Es decir, en total hay 12 maneras posibles de que dos de las cuatro personas se sienten en el sofá
Copyright © 2017. Universidad del Norte. All rights reserved.
de dos puestos.
Ejemplo 2.2.4 (Selección con reemplazo y con orden) ¿De cuántas formas pueden acomodarse
3 libros iguales de matemáticas (M) y 2 libros iguales de fı́sica (F) en un estante que tiene sólo 5
puestos disponibles?
SOLUCIÓN:
Como los libros, digamos, de matemáticas son iguales, entonces no importa el orden en que se
coloquen en el estante (por eso, sin orden). Además, los libros de matemáticas están repetidos
(por eso, con reemplazo). Igual sucede con los de fı́sica. Las posibles organizaciones de los 5 libros
en el estante son:
Ejemplo 2.2.5 (Partición de un espacio muestral) Supongamos que se dispone de una habitación
triple y de una habitación sencilla. ¿De cuántas maneras diferentes pueden acomodarse cuatro
personas (digamos, Margarita, Diana, Rodrigo y Felipe) en dichas habitaciones?
SOLUCIÓN:
En este ejemplo, se debe dividir a las cuatros personas en grupos de dos (por eso, una partición),
donde un grupo tendrá 3 personas (que son las que dormirán en la habitación triple) y el otro
grupo, 1 persona (que dormirá en la habitación sencilla). Por otra parte, la pareja (Margarita-
Rodrigo-Diana, Felipe) significa que las 3 primeras personas dormirán en la habitación triple y la
última, en la sencilla.
Teniendo en cuenta lo anterior, las posibles reparticiones de las cuatro personas son:
Es decir, en total hay 4 maneras posibles de repartir a 3 personas en una habitación triple y 1 en
la sencilla.
Ejemplo 2.2.6 Una joven tiene tres blusas (de marcas A, B y C), dos faldas (de colores azul
y roja) y dos pares de zapatos (de cuero y plástico). Utilizando estas siete prendas de vestir,
¿cuántos juegos de ropa diferentes podrı́a ponerse?
SOLUCIÓN:
Como podemos ver, los posibles juegos de ropa que la joven podı́a ponerse son los siguientes:
(A, azul, cuero), (A, azul, plástico), (A, rojo, cuero), (A, rojo, plástico)
(B, azul, cuero), (B, azul, plástico), (B, rojo, cuero), (B, rojo, plástico)
(C, azul, cuero), (C, azul, plástico), (C, rojo, cuero), (C, rojo, plástico)
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.2.7 (Selección sin reemplazo y con orden) ¿De cuántas formas distintas se pueden
organizar las letras A, B, C?
SOLUCIÓN:
El diagrama de árbol correspondiente a esta situación se presenta en la figura 2.7. Como puede
verse, las diferentes posibilidades se pueden enumerar teniendo en cuenta las últimas ramas del
diagrama. Allı́ vemos que hay en total seis ramas. Es decir, hay 6 maneras diferentes de organizar
las letras dadas.
uno de los posibles resultados de los dos primeros experimentos hay n3 posibles resultados
del tercer experimento y si . . ., entonces hay un total de n1 · n2 · · · nr posibles resultados de
los r experimentos.
Para resolver cualquier problema de conteo, sugerimos realizar siempre los siguientes pasos:
• Primer paso:
Determine cuántos eventos hay en el problema, y si es necesario identifique cada uno de ellos.
• Segundo paso:
Calcule de cuántas formas puede ocurrir cada uno de estos eventos.
• Tercer paso:
Por último aplique el teorema fundamental del conteo (teorema 2.2.8).
Ejemplo 2.2.9 Un dado se lanza dos veces. Determine el número de formas en que podemos
obtener los números del dado en los dos lanzamientos.
SOLUCIÓN:
Como los dos dados no están relacionados en forma alguna cuando los lanzamos y como cada uno
puede caer de seis formas distintas, el número total de formas en que pueden caer, uno después
del otro, es 6 · 6 = 36, por el teorema fundamental del conteo (teorema 2.2.8), que son:
Ω = (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6),
(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),
(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),
(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6),
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)
Ejemplo 2.2.10 Para el ejemplo 2.2.6 pueden ocurrir tres eventos, uno después del otro: Escoger
una de las 3 blusas, escoger una de las 2 faldas y escoger uno de los dos pares de zapatos. El
primer evento puede ocurrir de 3 formas; el segundo, de 2 formas, y el tercero, de 2 formas. Por
tanto, por el teorema fundamental del conteo (teorema 2.2.8), los cuatros eventos, uno seguido
del otro, pueden ocurrir en 3 · 2 · 2 = 12 maneras distintas.
Ejemplo 2.2.11 (Selección sin reemplazo y con orden) En la situación del ejemplo 2.2.7
hay tres eventos que debemos considerar: el de escoger la letra A, el de escoger la B y el de
escoger la C. Por otra parte, para la primera posición hay 3 posibilidades de escoger la primera
letra. Si se selecciona una, en la segunda posición habrá dos posibilidades, y si selecciona otra,
en la última habrá una posibilidad. Por tanto, por el teorema fundamental del conteo (teorema
2.2.8), el total de formas para organizar las tres letras es 3 · 2 · 1 = 6, como se obtuvo en el ejemplo
2.2.7.
Ejemplo 2.2.12 (Selección sin reemplazo y con orden) Hay cuatro facturas diferentes que
un gerente quiere ordenar, de izquierda a derecha, en cuatro lugares distintos de su escritorio. ¿De
cuántas maneras puede él hacerlo?
Copyright © 2017. Universidad del Norte. All rights reserved.
SOLUCIÓN:
Hay dos formas de analizar este ejemplo: como un problema de colocación y como un problema
de selección.
• Un problema de colocación
Los cuatro eventos son:
C = De los dos espacios aún vacı́os, uno será para la tercera factura.
D = La última factura va en el único lugar disponible.
• Un problema de selección
Los cuatro eventos son:
Ejemplo 2.2.13 (Selección sin reemplazo y con orden) Considere la situación del ejemplo
2.2.3. El primer puesto hay 4 maneras de que se siente una persona. Sentada una allı́, quedarán
disponibles 3 personas para el segundo puesto. Por tanto, por el teorema fundamental del conteo
(teorema 2.2.8) hay 12 = 4 · 3 maneras posibles de que dos de las cuatro personas se sienten en el
sofá de dos puestos.
Sin embargo, hay situaciones en las que no se puede aplicar (o no se puede aplicar fácilmente)
el teorema fundamental del conteo (teorema 2.2.8), en especial cuando el orden no importa.
Algunos ejemplos son los siguientes:
el teorema fundamental del conteo (teorema 2.2.8) no es aplicable (directamente). En los dos
Copyright © 2017. Universidad del Norte. All rights reserved.
primeros casos porque no importa el orden, y en el tercero, por la estructura del modelo de urna.
Ejemplo 2.2.15 Cinco empresas de transporte terrestre tienen servicio diario entre Barranqui-
lla y Bogotá. Tres empresas de aviación tienen vuelo diario entre Barranquilla y Bogotá. En
consecuencia, hay 5 + 3 maneras de ir de Barranquilla a Bogotá en avión o en bus.
En el ejemplo anterior vemos que no es posible aplicar el teorema fundamental del conteo
(teorema 2.2.8). Para resolver este tipo de problemas es importante considerar el siguiente
teorema:
Ejemplo 2.2.17 En el lanzamiento de dos dados, ¿de cuántas formas se puede obtener que la
suma de los números sea un siete o un ocho?
SOLUCIÓN:
Sean A y B los eventos “obtener un siete” y “obtener un ocho” respectivamente. Entonces, A ∪ B
será el evento “obtener un siete o un ocho”. Debido a que
A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} y B = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}
Ejemplo 2.2.18 Consideremos el experimento de lanzar una moneda al aire tres veces. ¿De
cuántas formas se puede obtener una, dos o tres caras?
SOLUCIÓN:
Sean A, B y D los eventos “obtener una cara ” y “obtener dos caras”, “obtener tres caras”
respectivamente. Entonces, A ∪ B ∪ D será el evento “obtener una, dos o tres caras”. Como
A = {(C, S, S), (S, C, S), (S, S, C)}, B = {(S, C, C), (C, S, C), (C, C, S)} y D = {(C, C, C)}
2.2.6 Permutación
Es importante tener en cuenta que toda permutación se puede identificar como una muestra selec-
cionada sin o con reemplazo, pero siempre con orden.
AB AC AD BA BC BD CA CB CD DA DB DC
Ejemplo 2.2.22 (Permutaciones de 4 letras si hay letras iguales, con reemplazo) CAC
es un ejemplo de una permutación de las letras A, C y C. En total hay 3 permutaciones de estas
letras: ACC, CAC y CCA.
• Permutaciones circulares.
El sı́mbolo “!” se conoce con el nombre de factorial. Cuando escribamos, por ejemplo, 5! leere-
mos “5 factorial”. Algunos valores factoriales son los siguientes:
1! = 1, 2! = 2 · 1 = 2, 3! = 3 · 2 · 1 = 6, 4! = 4 · 3 · 2 · 1 = 24, etc.
Ejemplo 2.2.25 (Permutaciones de 8 objetos, sin reemplazo) Suponga que una empresa
dispone de ocho máquinas atornilladoras y de ocho espacios en el área de producción. ¿De cuántas
maneras diferentes se pueden acomodar estas ocho máquinas en los ocho espacios disponibles?
SOLUCIÓN:
Podemos aplicar directamente el teorema 2.2.23, puesto que tenemos un total de n = 8 objetos
que queremos ordenar entre sı́. Es decir, hay 8! = 40.320 maneras de ordenar las ocho máquinas
en los ocho espacios disponibles.
SOLUCIÓN:
(a) Los libros de matemáticas pueden ordenarse de 4! formas, los de fı́sica de 6! formas, los de
quı́mica de 2! formas y los tres grupos de 3! formas. Por consiguiente,
(b) Considerar los cuatro libros de matemáticas como un solo libro. Entonces, se tienen 9 libros
que pueden ordenarse de 9! formas. En todos estos casos, los libros de matemáticas están
juntos, pero pueden ordenarse de 4! formas. Por consiguiente,
Copyright © 2017. Universidad del Norte. All rights reserved.
Hay situaciones en las que podemos hallar las permutaciones de n objetos distintos tomándolos
de k en k, como se ilustró en el ejemplo 2.2.21. Para calcular el número de permutaciones
de este tipo, podemos tener en cuenta el siguiente teorema:
Las permutaciones de este tipo también se pueden considerar como muestras seleccionadas sin reemplazo.
Además, obsérvese que cuando k = n, este resultado coincide siempre con el del teorema 2.2.23.
SOLUCIÓN:
Por el teorema 2.2.28, el número de formas en que se pueden sentar 8 alumnos en una oficina con
8!
5 sillas es igual a (8−5)! = 6.720.
SOLUCIÓN:
Nuevamente, por el teorema 2.2.28, esto se puede hacer de 5!
(5−3)! = 60 formas.
SOLUCIÓN:
Por el teorema 2.2.28, el número total de mediciones es 4!
(4−4)! = 24.
Copyright © 2017. Universidad del Norte. All rights reserved.
Permutaciones circulares
Ejemplo 2.2.33 (Permutación circular) Sabemos que si queremos sentar a Greyci, Jeniffer,
Brian y Humberto, una al lado de la otra en fila, el número de arreglos que podemos hacer es
4! = 24. Ahora bien, si los queremos sentar alrededor de una mesa circular, ¿de cuántas maneras
lo podemos hacer?
SOLUCIÓN:
Al considerar a una persona en un lugar fijo (digamos Greyci) y acomodar a las otras tres personas
en 3! formas diferentes, se encuentra que hay 6 arreglos distintos alrededor de la mesa circular
(compárese con la figura 2.8).
Ejemplo 2.2.35 (Permutación circular) ¿De cuántas formas pueden sentarse Greyci, Jenif-
fer, Brian y Humberto alrededor de una mesa circular si Greyci y Humberto no deben estar una
al lado de la otra?
Copyright © 2017. Universidad del Norte. All rights reserved.
SOLUCIÓN:
Considérense las dos personas que no deben ir juntas como una sola.
Por lo tanto, hay 3 personas para sentarse en la mesa circular, que lo pueden hacer de 2! formas.
Pero las dos personas consideradas como una sola se pueden ordenar de 2! maneras. Por consi-
guiente, el número de permutaciones de 3 personas alrededor de una mesa circular, si dos de ellas
pueden estar juntas, es 2! 2! = 4, que son las “mesas no sombreadas” de la figura 2.9. Entonces,
el número total de formas en que Greyci, Jeniffer, Brian y Humberto pueden sentarse alrededor
de una mesa circular, si Greyci y Humberto no deben estar una al lado de la otra, es 4 − 2 = 2
formas, que corresponden a las “mesas sombreadas” de la figura 2.9.
Figura 2.9: Las mesas sombreadas son las permutaciones en que Greyci, Jeniffer, Brian y
Humberto se pueden organizar si Greyci y Humberto no deben estar juntas
Veamos otra aplicación del teorema fundamental del conteo (teorema 2.2.8).
SOLUCIÓN:
Al primer niño le podemos servir uno de los 2 sabores, al segundo también le podemos servir de los
2 sabores, y al tercero también uno de los 2 sabores. Por consiguiente, por el teorema fundamental
del conteo (teorema 2.2.8), hay 2 · 2 · 2 = 23 = 8 maneras diferentes de servir un helado a los 3
niños. Estas posibilidades son las siguientes:
en donde, por ejemplo, la tripleta (fresa, mango, mango) significa que el primer niño pidió un
helado de fresa, el segundo, de mango, y el tercero, de mango.
Este ejemplo se puede categorizar como un modelo de urna en el que las muestras son
seleccionadas con orden y con reemplazo. En este tipo de situaciones se están considerando
aquellas permutaciones con repetición de n objetos distintos tomándolos de k en k, y en
donde k es cualquier número natural. Aplicando el teorema fundamental del conteo (teo-
rema 2.2.8) obtenemos el siguiente teorema:
Las permutaciones de este tipo se pueden considerar como muestras seleccionadas con reemplazo.
SOLUCIÓN:
Por el teorema 2.2.37, hay 32 = 9 números de dos cifras con repetición y son 55, 52, 53, 25, 22,
23, 35, 32 y 33.
Ejemplo 2.2.39 (Permutaciones de 4 en 4, k>n, con reemplazo) ¿De cuántas formas pode-
mos contestar un examen con 10 preguntas de selección múltiple si cada pregunta tiene 4 posibi-
lidades de respuesta?
SOLUCIÓN:
Por el teorema 2.2.37, hay 410 = 1.048.576 formas de responder las 10 preguntas si cada una de
ellas tiene cuatro posibilidades de respuesta.
SOLUCIÓN:
En cada uno de los 5 anillos pueden ponerse los 5 dı́gitos. Ası́ que, por el teorema 2.2.37 con
n = k = 5, hay 55 = 3.125 posibilidades de escoger una clave. Pero como una de estas 3.125 es la
correcta, el número máximo de intentos incorrectos es 3.124.
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.2.42 (Permutación con 7 grupos de objetos iguales) ¿Cuántas palabras distin-
tas se pueden formar con las letras de la palabra “estadı́stica”? (También cuentan palabras sin
sentido como, por ejemplo, “setadı́stica”).
SOLUCIÓN:
Obsérvese que en la palabra “estadı́stica” hay n = 11 letras, distribuidas ası́: 1 “e”, 2 “s”, 2 “t”, 2
“a”, 1 “d”, 2 “i” y 1 “c”. Por tanto, aplicando el teorema 2.2.41, se concluye que podemos formar
11!
= 2.494.800
1! 2! 2! 2! 1! 2! 1!
palabras distintas con las letras de la palabra mencionada anteriormente.
Ejemplo 2.2.43 (Permutación con 2 grupos de objetos iguales) ¿Cuántas señales diferen-
tes se pueden hacer con 5 banderas de las cuales 2 son azules y 3, rojas?
SOLUCIÓN:
De acuerdo al teorema 2.2.41, hay 5!
2! 3! = 10 señales que se pueden hacer.
n n!
=
n1 , n2 , . . . , nk n1 ! n2 ! · · · nk !
No importa el orden de los objetos dentro de cada celda.
5
En el ejemplo 2.2.5 se han considerado 2 celdas: las habitaciones triple y sencilla.
Capı́tulo 2. Conceptos básicos de la probabilidad
Ejemplo 2.2.45 (Partición en 3 celdas) Doce estudiantes van a viajar en carros distintos a
cierta ciudad. Si 3 de ellos van en un carro, 4 en otro carro y 5 en el otro, ¿de cuántas maneras
se pueden acomodar si cualquiera puede conducir?
SOLUCIÓN:
Por el teorema 2.2.44, hay
12 12!
= = 27.720
3, 4, 5 3! 4! 5!
formas en que los 12 estudiantes se pueden acomodar en los tres carros, viajando 3, 4 y 5 estu-
diantes en carros distintos.
2.2.7 Combinación
Ejemplo 2.2.47 (Combinaciones tomadas de 2 en 2, sin repetición) Todas las posibles com-
binaciones de las n = 5 letras A, B, C, D y E, tomadas de dos en dos (o sea, k = 2) sin repetición
son:
Es decir, en total hay 10 posibles formas de escoger dos letras de un total de 5, cuando el orden
no importa y la selección es sin repetición. Obsérvese que, en este caso, da lo mismo escoger AB
y BA (es decir, no importa el orden).
Copyright © 2017. Universidad del Norte. All rights reserved.
Es decir, en total hay 15 posibles formas de escoger dos letras, de un total de 5, cuando el orden
no importa y la selección es con repetición.
Ejemplo 2.2.49 (Diferentes problemas con combinaciones) Otros casos en los que se pre-
sentan problemas con combinaciones son los siguientes:
(a) En una caja hay n = 5 fichas numeradas y se sacan k = 3 fichas, una detrás de otra, sin
reponer y sin importar el orden.
(c) Repartir k = 7 fichas iguales no numeradas sobre n = 9 puestos numerados, de tal forma que
en cada puesto haya a lo más una ficha.
n n! n
:= , siendo := 1
k k!(n − k)! 0
n n+k−1 (n + k − 1)! n
:= = , siendo := 1
k r k k!(n − 1)! 0
Los números nk se conocen con el nombre de coeficiente binomial porque aparecen como coeficientes
de ak bn−k , con 0 ≤ k ≤ n, en el desarrollo binomial de (a + b)n como se muestra a continuación:
n
n k n−k
(a + b)n = a b , para todo a, b ∈ R.
k
k=0
SOLUCIÓN:
Por el teorema 2.2.50, esto se puede hacer de 54 = 5 maneras.
Debido a que las combinaciones con repetición son poco usuales en la práctica, de ahora en
adelante todas las combinaciones que se seleccionen serán sin repetición.
SOLUCIÓN:
(a) 2 matemáticos, de un total de 5, pueden elegirse de 52 = 10 maneras. Ahora, 3 fı́sicos de
un total de 7 pueden elegirse de 73 = 35 maneras. Por consiguiente,
(b) 2 matemáticos, de un total de 5, pueden elegirse de 52 = 10 maneras. Ahora, 2 fı́sicos
6
restantes, de un total de 6, pueden elegirse de 2 = 15 maneras. Por consiguiente,
(c) 2 matemáticos, de un total de 3, pueden elegirse de 32 = 3 maneras. Ahora, 3 fı́sicos, de
7
un total de 7, pueden elegirse de 3 = 35 maneras. Por consiguiente,
14. En un estudio médico, los pacientes se clasifican de acuerdo a su peso (liviano, normal, pe-
sado) y estatura (medio bajo, bajo, alto y medio alto). Enumere las diferentes posibilidades
en las que un paciente se puede clasificar. ¿Cuántas posibilidades hay?
15. Si un experimento consiste en lanzar un dado, luego, lanzar una moneda y después es-
coger al azar una letra de nuestro alfabeto, ¿cuántos elementos tiene el espacio muestral
correspondiente? (Suponga que nuestro alfabeto tiene 27 letras).
18. En un determinado almacén, ciertas lámparas se venden en cuatro estilos diferentes, con
cada estilo disponible en cinco colores diferentes. Si el almacén desea mostrar lámparas que
muestren la totalidad de los diversos estilos y colores, ¿cuántas lámparas diferentes tendrı́a
que mostrar?
19. ¿De cuántas maneras diferentes se puede responder un cuestionario de falso-verdadero que
tiene 10 preguntas?
20. Un medicamento para problemas renales es fabricado por seis laboratorios diferentes en
forma de jarabe, tabletas, cápsulas o inyección, todas de concentración alta o baja. ¿De
cuántas maneras diferentes puede un doctor recetar el medicamento a un paciente que tenga
problemas renales?
Copyright © 2017. Universidad del Norte. All rights reserved.
22. En un concurso nacional de canto, los seis finalistas son 3 hombres y 3 mujeres. Encuentre
el número de ordenamientos posibles al final del concurso para (a) los seis finalistas, (b) las
tres primeras posiciones.
23. Una persona ha visto un accidente de tránsito cuyo culpable huyó. A pesar de esto le dice
a la Policı́a que la placa del carro en el que viajaba el culpable tenı́a tres letras (de las
cuales las dos primeras eran C y A) y tres dı́gitos (de los cuales el último era 0). Encuentre
el número máximo de placas de carro que la Policı́a debe verificar bajo cada una de las
siguientes condiciones (nuestro alfabeto tiene 27 letras):
(a) Las tres letras son diferentes y los tres dı́gitos también.
(b) Las tres letras son diferentes y los dos dı́gitos que faltan son diferentes entre sı́.
(c) La letra que hace falta es diferente de la A y los dı́gitos que hacen falta son diferentes
e impares.
24. La mayor accionista de una determinada empresa decide que en el futuro se divida el pre-
supuesto de publicidad entre tres agencias. Seis son las agencias que están siendo conside-
radas para este trabajo. ¿Cuántas son las posibles elecciones de tres agencias?
25. Supongamos que se quieren formar números de tres dı́gitos con los dı́gitos 0, 2, 4, 5, 7, 8 y
9.
26. ¿De cuántas maneras se pueden parquear siete carros, de modelos distintos, en una calle si
hay tres zonas disponibles en un lado de la calle y cuatro en el lado opuesto?
27. ¿De cuántas maneras pueden sentarse tres hombres y tres mujeres en una fila con seis puestos
si se deben alternar?
28. ¿Cuáles y cuántas son las muestras ordenadas, con reemplazo, de tamaño dos de la población
Copyright © 2017. Universidad del Norte. All rights reserved.
29. Tres parejas de casados han comprado boletas para el cine y se sientan en una fila formada
por seis asientos. Supongamos que se sientan al azar. Determine el número de formas
diferentes en que se pueden sentar teniendo en cuenta cada una de las siguientes situaciones:
30. ¿De cuántas maneras se pueden llenar las 11 posiciones inciales de un equipo de fútbol con
17 jugadores que pueden jugar en cualesquiera de las posiciones?
31. ¿De cuántas maneras se pueden sembrar seis árboles diferentes en un cı́rculo si (a) no hay
restricción alguna, (b) hay dos en especial que deben estar juntos, (c) hay dos en especial
que no deben estar juntos?
32. ¿Cuántas palabras diferentes se pueden formar con la palabra “Barranquilla” (las palabras
no necesariamente deben tener sentido) si (a) no hay restricción alguna, (b) la primera letra
debe ser una “q” y la última una “a”.
33. ¿De cuántas maneras se pueden permutar tres focos rojos, cuatro bolas blancas y dos fichas
amarillas si los objetos del mismo tipo (a) se pueden distinguir, (b) no se pueden distinguir.
34. Catorce personas deciden ir a ver un partido de fútbol en cuatro carros que llevan dos, tres,
cuatro y cinco personas respectivamente. ¿De cuántas maneras es posible transportar a las
catorce personas hasta el estadio si cualquiera puede conducir?
36. ¿De cuántas maneras se pueden repartir dos contratos a tres empresas, A, B y C, si cada
empresa puede tener 0, 1 o 2 contratos? Descrı́balas.
Copyright © 2017. Universidad del Norte. All rights reserved.
37. Si una prueba de opción múltiple consiste en cuatro preguntas cada una con tres respuestas
posibles, de las que sólo una es correcta.
(a) ¿De cuántas maneras diferentes puede elegir un estudiante una respuesta a cada pre-
gunta?
(b) ¿De cuántas maneras puede escoger un estudiante una respuesta a cada pregunta y
tener todas las respuestas incorrectas?
(c) ¿De cuántas maneras puede escoger un estudiante una respuesta a cada pregunta y
tener por lo menos una respuesta correcta?
38. Las placas para autos en Barranquilla antes tenı́an dos letras y cuatro números. El sistema
de nomenclatura cambió y ahora son de tres letras y tres números. Con el sistema actual,
¿aumentó o disminuyó el número de placas que se pueden emitir? ¿En qué porcentaje?
(a) La probabilidad de cualquier evento debe ser siempre mayor o igual que cero, es decir,
P (A) ≥ 0, para todo A ∈ F.
La serie que aparece en (c) existe (converge) porque el primer axioma asegura que P (An ) ≥ 0 y el segundo,
que
∞
P( An ) ≤ P (Ω) = 1
n=1
Es decir,
∞
∞
P (An ) = P An ≤ 1 < ∞
n=1 n=1
Es importante enfatizar que el conjunto F, mencionado en la definición anterior, debe estar construido de
tal manera que cumpla las siguientes propiedades:
El axioma (a) refleja la noción intuitiva de que la probabilidad de que ocurra cualquier
evento A debe ser por lo menos 0, ası́ que las probabilidades negativas no se permiten. El
axioma (b) señala que la probabilidad máxima posible de 1 se asigna al espacio muestral
Ω. El axioma (c) formaliza la idea de que si deseamos la probabilidad de que ocurra por
lo menos uno de varios eventos y no pueden ocurrir dos de estos eventos simultáneamente,
entonces la probabilidad de que ocurra al menos uno es la suma de las probabilidades de
los eventos individuales.
(a) P (∅) = 0
(d) 0 ≤ P (A) ≤ 1
(e) P (A) = P (A ∩ B) + P (A ∩ B)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Copyright © 2017. Universidad del Norte. All rights reserved.
P (A∪B ∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B ∩C)+P (A∩B ∩C)
La demostración del teorema anterior no está dentro del propósito de este libro.
Ejemplo 2.3.3 Sean A, B y C eventos tales que P (A) = 0, 50, P (B) = 0, 26, P (C) = 0, 55,
P (A ∩ B) = 0, 15, P (A ∩ C) = 0, 25, P (B ∩ C) = 0, 15 y P (A ∩ B ∩ C) = 0, 05. Calcule las
siguientes probabilidades: (a) P (A ∪ B), (b) P (A ∩ C), (c) P (A ∪ C) y (d) P (A ∪ B ∪ C).
SOLUCIÓN:
(a) Teniendo en cuenta el teorema de adición para 2 eventos (véase la parte (f) del teorema 2.3.2),
se tiene que
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 50 + 0, 26 − 0, 15 = 0, 61
P (A ∩ C) = P (A) − P (A ∩ C) = 0, 50 − 0, 25 = 0, 25
(c) Teniendo en cuenta la parte (c) del teorema 2.3.2, las leyes de de Morgan (compárese con el
teorema 2.1.14(i)) y la parte (b) de este ejercicio, se tiene
P (A ∪ C) = 1 − P (A ∪ C) = 1 − P (A ∩ C) = 1 − 0, 25 = 0, 75
(d) Teniendo en cuenta el teorema de adición para 3 eventos (véase la parte (g) del teorema 2.3.2),
se tiene que
Alternativamente, las respuestas encontradas en los ejercicios (a)-(d) pueden ser obtenidas con
ayuda de las probabilidades que aparecen en el siguiente diagrama de Venn:
Copyright © 2017. Universidad del Norte. All rights reserved.
algún evento en el pasado y estima la probabilidad de que el evento ocurra nuevamente con
base en estos datos históricos. En este método juega papel fundamental el concepto de
frecuencia relativa para estimar las probabilidades.
Si continuamos calculando esta frecuencia relativa para cada cierto número de ensayos, a
medida que aumentamos n, las frecuencias relativas correspondientes serán más estables,
es decir, tienden a ser casi las mismas. En este caso, decimos que el experimento muestra
regularidad estadı́stica o estabilidad en las frecuencias relativas. Esto se ilustra en los
siguientes dos ejemplos:
Ejemplo 2.3.5 Considere la tabla 2.1, en donde se muestran datos tomados al lanzar una moneda
1.000 veces. En un total de 1.000 lanzamientos, 508 veces la moneda mostró cara, es decir, la
frecuencia relativa es aproximadamente 0,5, que es la probabilidad de obtener una cara.
Ejemplo 2.3.6 La tabla 2.2 muestra experimentos hechos por tres investigadores. Obsérvese que
en cada una de las investigaciones, la frecuencia relativa del número de caras es aproximadamente
0,5, que es la probabilidad de obtener una cara.
Cuando se usa la definición empı́rica, es importante tener en cuenta los siguientes aspectos:
• La probabilidad obtenida de esta manera es únicamente una estimación del valor real.
Probabilidad clásica
Se pueden encontrar diversos ejemplos en los que se asocian la misma probabilidad a cada
evento elemental. En este caso se habla de un experimento laplaciano o clásico, es
decir, un experimento que tiene finitos resultados, que suceden con la misma probabilidad.
A este tipo de experimentos pertenecen algunos juegos de azar, como por ejemplo, dados,
juegos de cartas, ruletas; también modelos de la fı́sica, en los cuales se puede describir la
distribución de una partı́cula cualquiera, o modelos de la génetica.
Aquı́, el sı́mbolo “≈” significa “aproximadamente igual a” y, por ejemplo, P (1) = 0, 166 se
lee: “la probabilidad de obtener un 1 es 0,166”, la cual se interpreta de la siguiente manera:
De cada 1.000 lanzamientos de un dado, el número 1 aparecerá 166 veces aproximadamente.
O también ası́: si el número de lanzamientos de un dado es grande, entonces en el 16,6%
(que resulta de multiplicar 0,166 por 100) aparecerá el número 1 del dado. Las otras
probabilidades las interpretamos análogamente.
A de Ω tenemos:
Número de elementos de A
P (A) = (2.2)
Número de elementos de Ω
Ejemplo 2.3.11 Dos dados no falsos se lanzan. Halle la probabilidad de (a) que la suma de los
números sea un 7, (b) que la suma sea por lo menos un 11, (c) que la suma sea a lo más un 2, (d)
obtener un doble, (e) no obtener doble.
SOLUCIÓN:
Como ya vimos en el ejemplo 2.2.1, el espacio muestral correspondiente Ω contiene 36 resultados.
Además, cada uno de ellos ocurre con la misma probabilidad.
(a) Sea A el evento de obtener un 7 al lanzar los dos dados. Entonces, A es el conjunto
A = (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)
O sea que A tiene 6 elementos. Por consiguiente, aplicando (2.2) se obtiene que la proba-
bilidad de obtener un 7 es:
6 1
P (A) = = ≈ 0, 166
36 6
(b) Sea B el evento de obtener por lo menos un 11, es decir, B es el evento de obtener una suma
mayor o igual que 11. Debido a que
B = (5, 6), (6, 5), (6, 6)
entonces
3 1
P (B) = = ≈ 0, 0833
36 12
(c) Sea C el evento de obtener a lo más un 2 o, lo que es equivalente, de obtener una suma
menor o igual que 2. En este caso, C = (1, 1) y, con ello,
1
P (C) = ≈ 0, 027
36
Por lo tanto,
6
P (D) = ≈ 0, 166
36
(e) Sea E el evento de obtener ningún doble. Observe: D es el complemento de E, es decir,
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.3.12 Una organización de caridad vende 1.000 billetes de loterı́a. Hay diez primeros
premios y cien premios de consolación, todos los cuales deben ser distribuidos. El proceso de
selección de los ganadores es tal que, al principio, cada boleto tiene las mismas posibilidades
de ganar un primer premio y cada uno tiene las mismas posibilidades de ganar un premio de
consolación. Ningún boleto puede ganar más de un premio.
SOLUCIÓN:
(a) De entre los 1.000 billetes, 10 ganarán primeros premios, 100 ganarán premios de consolación y
890 no ganarán premio alguno. Nuestro único billete puede ser considerado como uno elegido
entre los 1.000. Sea A el suceso “el billete elegido gana un primer premio”. Dado que son
1.000 resultados igualmente probables, 10 de los cuales corresponden al suceso A, tenemos
que
10
P (A) = = 0, 01
1.000
(b) De modo similar, para el suceso B, “el billete elegido gana un premio de consolación”, se
deduce que
100
P (B) = = 0, 10
1.000
(c) Ahora bien, el suceso “el billete gana algún premio” es sencillamente la unión de los sucesos A
y B. Además, dado que sólo se permite un premio por billete, estos sucesos son mutuamente
excluyentes. Por tanto, la probabilidad requerida es:
P (A ∪ B) = P (A) + P (B) = 0, 01 + 0, 10 = 0, 11
Ejemplo 2.3.13 En la primera época del desarrollo de un yacimiento de petróleo, una empresa
estimó en 0,1 la probabilidad de que las reservas económicamente recuperables excedieran los 2.000
millones de barriles. La probabilidad de que las reservas excediesen los 1.000 millones de barriles
se estimó en 0,5. Dada esta información, ¿cuál es la probabilidad estimada de que las reservas se
encuentren entre 1.000 y 2.000 millones de barriles?
SOLUCIÓN:
Sea A el evento “las reservas exceden los 2.000 millones de barriles” y B el evento “las reservas se
encuentran entre 1.000 y 2.000 millones de barriles”. Estos eventos son mutuamente excluyentes
y su unión, A ∪ B, es el evento “las reservas exceden los 1.000 millones de barriles”. Por tanto,
tenemos que
P (A) = 0, 1 y P (A ∪ B) = 0, 5
Copyright © 2017. Universidad del Norte. All rights reserved.
Entonces, dado que A y B son mutuamente excluyentes, se obtiene que (compárese con la
figura 2.11)
P (B) = P (A ∪ B) − P (A) = 0, 5 − 0, 1 = 0, 4
(a) todos los libros de matemáticas son diferentes y los libros de fı́sica también;
(b) todos los libros de matemáticas son diferentes y todos los libros de fı́sica son iguales;
(c) todos los libros de matemáticas son diferentes y 3 de los libros de fı́sica iguales.
SOLUCIÓN:
Sean Ω el espacio muestral correspondiente y A el evento “3 libros determinados de matemáticas
están juntos”. Nos piden calcular P (A).
(a) En este caso, los elementos de Ω son las distintas permutaciones de los 6 + 4 = 10 libros. Por
el teorema 2.2.23, los 10 libros pueden ordenarse entre sı́ de 10! formas. Es decir, Ω tiene en
total 10! elementos.
Ahora, supongamos que los 3 libros determinados de matemáticas se reemplazan por 1. Ası́,
tenemos en total de 8 libros que pueden ordenarse entre sı́ de 8! formas. Como los tres libros
se pueden ordenar entre sı́ de 3! formas, entonces hay 8! 3! formas de ordenar los 10 libros,
con la condición de que 3 libros determinados estén juntos.
Número de elementos de A 8! 3!
P (A) = = ≈ 0, 0666
Copyright © 2017. Universidad del Norte. All rights reserved.
(b) En este caso, por el teorema 2.2.41, Ω tiene en total 10! 4! = 151.200 elementos. Supongamos
que los 3 libros determinados de matemáticas se reemplazan por 1. Ası́, tenemos en total de
8 libros que, por el teorema 2.2.41, pueden ordenarse entre sı́ de 8!
4! = 1.680 formas. Como los
tres libros se pueden ordenar entre sı́ de 3! = 6 formas, entonces hay 1.680 · 6 = 10.080 formas
de ordenar los 10 libros, con la condición de que 3 libros determinados de matemáticas estén
juntos y sabiendo que los de fı́sica son todos iguales. Con lo anterior,
(c) En este caso, por el teorema 2.2.41, Ω tiene en total 10! 3! = 604.800 elementos. Supongamos
que los 3 libros determinados de matemáticas se reemplazan por 1. Ası́, tenemos en total de
8 libros que, por el teorema 2.2.41, pueden ordenarse entre sı́ de 8!
3! = 6.720 formas. Como los
tres libros se pueden ordenar entre sı́ de 3! = 6 formas, entonces hay 6.720 · 6 = 40.320 formas
de ordenar los 10 libros, con la condición de que 3 libros determinados de matemáticas estén
juntos y sabiendo que hay 3 fı́sica que son iguales. Por consiguiente,
Con respecto a los resultados obtenidos podemos concluir que si todos los libros de matemáticas
son diferentes, entonces sin importar si los de fı́sica son iguales o no, la probabilidad de que 3
libros determinados de matemáticas estén juntos es aproximadamente 0,0666.
Ejemplo 2.3.15 Un director de personal tiene ocho candidatos para cubrir cuatro puestos. De
éstos, cinco son hombres y tres mujeres. Si, de hecho, toda combinación de candidatos tiene las
mismas probabilidades de ser elegido, ¿cuál es la probabilidad de que ninguna mujer sea con-
tratada?
SOLUCIÓN:
Primero, el número total de combinaciones posibles de los ocho candidatos tomadas de cuatro en
cuatro es 84 = 70. Ahora bien, para que ninguna mujer sea contratada, los candidatos selecciona-
dos han de ser cuatro de los cincos hombres. El número de tales combinaciones es 54 = 5. Por
tanto, si al principio cada una de las 70 combinaciones posibles fuese igualmente probable, la pro-
babilidad de escoger una de las cinco combinaciones que incluyen sólo hombres es 5/70 = 0, 071.
Ejemplo 2.3.16 Una caja de doce lapiceros tiene dos defectuosos. Se extraen tres lapiceros sin
reemplazo. ¿Cuál es la probabilidad de que dos salgan defectuosos?
SOLUCIÓN:
Sean Ω el espacio muestral correspondiente y A el evento “de los tres lapiceros seleccionados,
dos están defectuosos”. Entonces, el número de elementos que tiene Ω será 12 = 220 y el
102 3
número de elementos que tiene A es 1 2 = 10. Por consiguiente, la probabilidad pedida es
10
P (A) = 220 = 0, 045.
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.3.17 Una caja contiene 8 fichas rojas, 3 blancas y 9 azules. Si se extraen 3 fichas sin
reemplazo y sin orden, determinar la probabilidad de que (a) las 3 fichas sean blancas, (b) 2 sean
rojas y 1 blanca, (c) al menos 1 sea blanca y (d) se extraiga una de cada color.
SOLUCIÓN:
Sea Ω el espacio muestral correspondiente a esta situación. En este caso, sus elementos son las
distintas combinaciones de 8 + 3 + 9 = 20 fichas tomadas de 3 en 3 (ya que se sacan cada vez 3
fichas sin reemplazo). Por el teorema 2.2.50, las 3 fichas se pueden escoger, de un total de 20, de
20
3 = 1.140 formas. Es decir, Ω tiene en total 1.140 elementos.
3
(a) Sea A el evento “sacar 3 fichas de 3 blancas”. O sea, A tiene 3 = 1 elemento. Entonces,
Número de elementos de A 1
P (A) = = = 0, 000877
Número de elementos de Ω 1.140
(b) Sea A el evento “las 3 fichas sacadas son 2 rojas y 1 blanca”. Ahora, 2 fichas, de un total
de 8 rojas, se pueden seleccionar de 82 = 28 maneras, y 1 ficha, de un total de 3 blancas,
se puede seleccionar de 31 = 3 maneras. Por lo tanto, A tiene 82 31 = 84 elementos.
Entonces,
Número de elementos de A 84
P (A) = = = 0, 074
Número de elementos de Ω 1.140
(c) Sea A el evento “por lo menos 1 de las 3 fichas sacadas es blanca”. Esto quiere decir que A,
el complemento de A, es el evento “de las tres bolas ninguna es blanca”. Ahora, si ninguna
es blanca, entonces 3 fichas, de un total de 8 + 9 = 17 (entre rojas y azules), se pueden
seleccionar de 17
3 = 680 maneras. Por lo tanto, A tiene 680 elementos. Entonces,
(d) Sea A el evento “las 3 fichas sacadas son una de cada color”. Ahora, 1 ficha, de un total de
8 rojas, se puede seleccionar de 81 = 8 maneras, 1 ficha, de un total de 3 blancas, se puede
3
seleccionar de 1 = 3 maneras, y 1 ficha, de un total de 9 azules, se puede seleccionar de
9 839
1 = 9 maneras. Por lo tanto, A tiene 1 1 1 = 216 elementos. Entonces,
Existen muchos eventos de interés cuyas probabilidades de ocurrencia no las podemos cal-
cular de acuerdo con los métodos axiomático, clásico y de frecuencia relativa (empı́rica),
sino que se basan en el “grado de creencia” acerca de que tenga o no lugar un determinado
Copyright © 2017. Universidad del Norte. All rights reserved.
Sin embargo, poca gente se muestra renuente a concederles probabilidades a los eventos
anteriores. Inclusive, con mucha frecuencia oı́mos decir que hay un 20% de posibilidades
de que llueva mañana, que el Junior gane, etc. Aquella probabilidad que nos permite asig-
narles probabilidades a eventos tales como éstos se denomina probabilidad subjetiva.
Ejemplo 2.3.19 (a) Si afirmamos que la probabilidad de que salga cara al lanzar una moneda
es 1/2, lo que tenemos en mente es que la moneda no parece estar trucada y que resultará
igualmente probable que salga cara o cruz. Al enunciar esta probabilidad subjetiva, no esta-
mos pensando necesariamente en términos de la experimentación repetida, sino que estamos
interesado por un único lanzamiento de la moneda. Nuestra evaluación de la probabilidad
subjetiva implica que considerarı́amos justa una apuesta que consistiese en pagar 5.000 pesos
si saliera cruz y recibir 5.000 pesos si saliera cara. Si fueramos a recibir más de 5.000 pesos si
del lanzamiento resultase una cara, considerarı́amos favorable la apuesta.
(b) De modo similar, si creemos que la probabilidad de que un caballo gane una determinada
carrera es 0,4, estamos dando nuestra opinión personal de que existe una posibilidad de 40
entre 100 de que gane. Dada esta creencia, considerarı́amos justa una apuesta en la que
perdiésemos dos dólares si el caballo no ganase y tres dólares en caso contrario.
Copyright © 2017. Universidad del Norte. All rights reserved.
Debemos insistir en que las probabilidades subjetivas son personales; no se requiere que
diferentes individuos consideren que el mismo evento debe tener lugar con las mismas
probabilidades, como se explica a través de las situaciones del siguiente ejemplo:
Ejemplo 2.3.20 (a) En el ejemplo del lanzamiento de una moneda, la mayorı́a de la gente lle-
garı́a a la conclusión de que la probabilidad apropiada para el resultado “cara” es 1/2. Sin
embargo, un individuo con más información sobre la moneda en cuestión podrı́a creer otra
cosa.
(b) En el ejemplo de las carreras de caballos, es probable que dos apostadores cuenten con diferen-
tes probabilidades subjetivas. Por ejemplo, pueden no tener la misma información, e incluso
aunque la tuvieran, podrı́an interpretarla de distinta forma.
(c) Es obvio que los inversionistas individuales no cuentan con las mismas opiniones sobre el
probable futuro comportamiento de la bolsa. Sus probabilidades subjetivas deben ser vistas
como dependientes del conocimiento que tienen y su manera de interpretarlo.
1 P (A)
Oportunidades en contra de A = =
Oportunidades a favor de A P (A)
n
Si las oportunidades en favor de A son iguales a m , entonces diremos que las oportunidades
son de n a m (lo cual escribiremos n : m) a favor de A.
Obsérvese que las oportunidades en contra de A son precisamente las oportunidades a favor de
A.
Ejemplo 2.3.22 Supongamos que la probabilidad de que un boxeador favorito gane una pelea
es 1/3. ¿Cuáles son las oportunidades a favor de ganar?
SOLUCIÓN:
Sea A el evento “el boxeador gana”. Entonces, las oportunidades a favor de ganar son:
P (A) 1/3 1
= =
P (A) 2/3 2
Copyright © 2017. Universidad del Norte. All rights reserved.
Es decir, las oportunidades son de 1 : 2 a favor de que el boxeador gane la pelea. Esto significa
que de cada 1 + 2 = 3 personas, 1 afirma que el boxeador ganará la pelea, y 2, que perderá.
El siguiente teorema nos muestra una forma de calcular la probabilidad de un evento dado
con base en el conocimiento de las oportunidades en favor o en contra del evento:
Ejemplo 2.3.24 Si las oportunidades son de 5:3 en contra de que la Selección Colombia pierda
el partido de fútbol, ¿cuál es la probabilidad de que (a) pierda, (b) gane?
SOLUCIÓN:
Sea A el evento de que la Selección Colombia pierda el partido. Por tanto, por el teorema 2.3.23,
P (A) = 5+3 5
= 58 = 0, 625. Por consiguiente, P (A) = 1 − P (A) = 38 = 0, 375. Es decir, de 1.000
personas, 625 dirán que Colombia perderá el partido y el resto, que son 375, dirá que Colombia
lo ganará.
Ejemplo 2.3.25 Para un partido entre Junior de Barranquilla y Unión de Santa Marta, le ofrecen
a Mario las siguientes apuestas:
Tarifa : $15.000.
Ganancia : $30.000 si Junior gana y Mario apuesta por Junior.
$20.000 si Unión gana y Mario apuesta por Unión.
El juego Junior vs Unión sigue hasta que haya un ganador. Mario acepta esta apuesta, pero no
puede decidirse si apuesta a Junior o a Unión. Determine su probabilidad subjetiva.
SOLUCIÓN:
La probabilidad subjetiva de Mario la determinamos como sigue: “Mario no puede decidirse”
significa que
30 P (“Junior gana”) = 20 P (“Unión gana”).
40. Se estimó que un 28% de los estudiantes de último curso de un campus universitario estaban
seriamente preocupados por sus posibilidades de encontrar trabajo, el 35% por sus notas y
el 20% por ambas cosas. ¿Cuál es la probabilidad de que un estudiante de último curso,
elegido al azar en el campus, esté seriamente preocupado por al menos una de las dos cosas?
41. Un jefe de cierta compañı́a recibe un determinado artı́culo en paquetes de 100. Un estudio ha
indicado las probabilidades, que figuran en la tabla adjunta, correspondientes a los artı́culos
defectuosos de un paquete:
(a) ¿Cuál es la probabilidad de que haya dos o más artı́culos defectuosos en un paquete?
(b) ¿Cuál es la probabilidad de que haya por lo menos un artı́culo defectuoso en un paquete?
42. Si los cumpleaños ocurren con la misma probabilidad en cualquiera de los 365 dı́as del año
(se ignoran años bisiestos y el hecho de que las tasas de natalidad no son uniformes durante
el año).
(a) Calcule la probabilidad de que no haya dos personas, en un grupo de 3 personas, con
el mismo dı́a de cumpleaños?
(b) Calcule la misma probabilidad de la parte (a) para el caso en que haya n personas en
vez de 3.
43. Si tres de veinte llantas están defectuosas y se seleccionan cuatro de éstas al azar para una
supervisión, ¿cuál es la probabilidad de que se incluya una de las llantas defectuosas?
44. Un dado se lanza dos veces. Encuentre la probabilidad de obtener (a) un 5 o un 7, (b) a lo
más un 9, (c) una suma impar y (d) un múltiplo de 4.
45. Una urna tiene seis bolas verdes, cinco rojas y cuatro blancas (cada bola es de un solo
color). Si se extrae una bola, calcule la probabilidad de que ésta sea (a) no verde, (b) no
roja, (c) roja y verde, (d) blanca o roja. Compare el resultado de (d) con el obtenido en
(a). Interprete siempre sus respuestas.
46. Se lanzan dos dados. Calcule la probabilidad de que la suma de los números obtenidos sea
(a) 13, (b) a lo sumo 3, (c) por lo menos 4, (d) 5 o 6, (e) 5 y 6. Interprete siempre sus
resultados.
47. Una caja contiene dos bolas negras, tres blancas y cuatro rojas. Se seleccionan dos bolas,
Copyright © 2017. Universidad del Norte. All rights reserved.
(a) ¿Cuál es la probabilidad de que la primera bola sea negra y la segunda blanca?
(b) ¿Cuál es la probabilidad de obtener una bola negra y una blanca?
(c) Repita los incisos anteriores si la selección es con reemplazo.
48. En una comunidad, el 30% de las personas son fumadoras, 55% son bebedoras y 20% tanto
fumadoras como bebedoras. Calcule la probabilidad de que una persona elegida al azar
(a) fume pero no beba, (b) ni fume ni beba, (c) fume o no beba. Interprete siempre sus
resultados.
49. Una entidad educativa ha propuesto tres proyectos para la mejora de la educación en cierta
región del paı́s. Para i = 1, 2, 3, sea Ai el evento que representa al evento “el proyecto i fue
aceptado”. Supongamos que
Exprese verbalmente cada uno de los siguientes eventos y determine la probabilidad de que
ocurra cada uno de ellos:
50. Una caja contiene diez bombillas, cuatro de las cuales están defectuosas. Si se seleccionan
aleatoriamente y sin reemplazo cuatro bombillas de la caja, ¿cuál es la probabilidad de que
el grupo contenga (a) dos (b) al menos dos bombillas defectuosas?
51. Una caja contiene cuatro focos rojos, cinco blancos y seis amarillos. Si se seleccionan uno
por uno, en orden aleatorio, ¿cuál es la probabilidad de que al menos se seleccionen dos
focos para obtener uno amarillo?
52. Una caja contiene diez tornillos, de los cuales tres están defectuosos. Se extraen tres tornillos
sin reemplazo. Calcule la probabilidad de que los tres tornillos no estén defectuosos.
53. Para un control de calidad se seleccionan aleatoriamente dos ventiladores, sin reemplazo,
de un lote. Si uno de los dos ventiladores está defectuoso, todo el lote será rechazado. Si
una muestra de 200 ventiladores tiene cinco defectuosos, calcule la probabilidad de que la
muestra sea rechazada.
54. Una biblioteca tiene cinco ejemplares (digamos, matemática, fı́sica, quı́mica, biologı́a y
estadı́stica), de los cuales hay dos ejemplares (digamos, matemática y fı́sica) que son de
primera edición, y el resto, de segunda edición. Serán seleccionados al azar dos ejemplares
para ser puestos en reserva durante 3 horas. ¿Cuál es la probabilidad de que
55. Se escoge un número comprendido entre 0 y 999. ¿Cuál es la probabilidad de que el dı́gito
central sea mayor que los otros dos?
56. En el menú del dı́a, un restaurante vegetariano ofrece una ensalada especial que contiene
tres tipos de verduras distintas que son las preferidas por ciertos habitantes de una ciudad:
Espárrago (A), brócoli (B) y coliflor (C). A continuación aparece el porcentaje de clientes
del restaurante que pide determinada(s) verdura(s):
en donde, por ejemplo, el evento A o C significa que por lo menos una de las opciones A o
C fue solicitada. Calcule las probabilidades de los siguientes eventos:
(a) El siguiente cliente pide, por lo menos, una de las tres opciones.
(b) El siguiente cliente no pide ninguna de las tres opciones.
(c) El siguiente comprador sólo pide la opción A y ninguna de las otras dos opciones.
(d) El siguiente cliente pide exactamente una de las tres opciones.
57. Supongamos que un determinado árbol puede tener tres tipos de enfermedades: Hojitis (H),
tallitis (T) y frutitis (F). Suponga que
58. Una persona desea comprar un computador. De alguna manera, logra conseguir una lista
de las direcciones de 15 personas que quieren vender sus computadores. Pero la persona
tiene tiempo para ir sólo a cuatro direcciones de la lista.
(a) ¿En cuántas formas podrı́an escogerse las cuatro direcciones si se considera el orden de
visita?
(b) ¿En cuántas formas podrı́an escogerse las cuatro direcciones si el orden no importa?
(c) Si en siete direcciones los computadores son nuevos y en ocho ya han sido vendidos
Copyright © 2017. Universidad del Norte. All rights reserved.
previamente, y las cuatro direcciones por visitar se escogen al azar y sin orden, ¿cuál es
la probabilidad de que en las cuatro direcciones donde vaya la persona los computadores
sean nuevos?
59. Al poco tiempo de ponerse a funcionar, algunos computadores fabricados por ciertas compañı́as
presentan problemas con el funcionamiento de un determinado programa (digamos, Futbol-
net) que viene previamente instalado. Suponga que una pequeña empresa tiene 30 de estos
computadores y que ha habido problemas con el funcionamiento del Futbolnet en 7 de ellos.
(a) ¿Cuántas formas hay de seleccionar una muestra de 10 computadores de los 30 para
una revisión completa?
(b) ¿En cuántas formas puede una muestra de 10 computadores contener exactamente 3
con problemas en el funcionamiento del Futbolnet?
(c) Si se escoge al azar una muestra de 10 computadores, ¿cuál es la probabilidad de que
exactamente 3 de los 10 tengan problemas con el funcionamiento del Futbolnet?
(d) Si se escoge al azar una muestra de 10 computadores, ¿cuál es la probabilidad de que
al menos 6 de los seleccionados tengan problemas con el funcionamiento del Futbolnet?
60. En cierta bodega, una caja contiene ocho clavos de 1 pulgada, seis de 1 pulgada y media y
cinco de 2 pulgadas. Suponga que se seleccionan cuatro clavos al azar, sin reemplazo y sin
orden.
(a) ¿Cuál es la probabilidad de que exactamente tres de los clavos seleccionados sean de 2
pulgadas?
(b) ¿Cuál es la probabilidad de que los cuatro clavos seleccionados sean del mismo tamaño?
(c) ¿Cuál es la probabilidad de que entre los cuatro clavos seleccionados hallan dos de una
pulgada?
(a) Los libros de cada tipo son todos diferentes entre sı́.
(b) Los libros de quı́mica son iguales entre sı́, pero los de matemáticas son todos diferentes.
(c) Hay 2 libros de quı́mica que son iguales, pero todos los de matemáticas son iguales entre
sı́.
(d) A excepción de los de estadı́stica, los libros de cada tipo son todos iguales entre sı́.
(a) Un fabricante que planea introducir una nueva marca puede poner a prueba el producto a
través de su venta en una serie reducida de almacenes particularmente escogidos. Es probable
que el fabricante confı́e mucho más en el éxito de la nueva marca en el mercado si el producto
resulta bien acogido en el test inicial que en caso contrario. El análisis de la empresa corres-
pondiente a la probabilidad de un elevado número de ventas estará, por tanto, condicionada
por el resultado de mercado.
(b) En un barrio hay personas que saben nadar, otras que saben manejar bicicletas, y otras,
ambas cosas. Se selecciona una persona al azar y deseamos la probabilidad de que la persona
sepa nadar dado que sabe manejar bicicleta.
Por tanto, en ambas situaciones tenemos que estar interesados en la ocurrencia de un determinado
evento, dada la ocurrencia de otro.
Ejemplo 2.4.2 Supongamos que en una empresa hay 100 empleados, de los cuales 30 son mujeres
y 70 hombres. Supongamos, además, que hay 21 mujeres y 33 hombres que fuman (compárese
con la tabla 2.3).
(c) Si del grupo de las 30 mujeres se saca un individuo, determinar la probabilidad de que fume.
SOLUCIÓN:
30
(a) La probabilidad de que sea mujer es P (M ) = 100 .
(c) La probabilidad de que una mujer fume de un total de 30 la simbolizaremos por P (F/M ) y
es igual a
21 21/100 P (F ∩ M )
P (F/M ) = = =
30 30/100 P (M )
∩M )
Es decir, P (F/M ) = P P(F(M ) , que es la forma como se calcula la llamada probabilidad condi-
cional de un evento F , sabiendo que ya ha ocurrido M .
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.4.4 Una persona lanza una moneda tres veces, ¿cuál es la probabilidad de obtener 3
caras dado que salió por lo menos una cara?
SOLUCIÓN:
Los posibles resultados que se pueden obtener al lanzar la moneda tres veces son:
(C, C, C), (C, C, S), (C, S, C), (C, S, S), (S, C, C), (S, C, S), (S, S, C), (S, S, S)
Sean A y B los eventos “salió por lo menos una cara” y “obtener 3 caras” respectivamente.
Entonces, B = {(C, C, C)} y
A = {(C, C, C), (C, C, S), (C, S, C), (C, S, S), (S, C, C), (S, C, S), (S, S, C)}
Debido a que A ∩ B = {(C, C, C)}, entonces la probabilidad de obtener 3 caras sabiendo que salió
una cara es igual a
P (A ∩ B) 1/8 1
P (B/A) = = =
P (A) 7/8 7
Ejemplo 2.4.6 Supongamos que una caja tiene diez bolas, de las cuales tres están defectuosas.
Se sacan dos bolas, una detrás de la otra y sin reemplazo. ¿Cuál es la probabilidad de sacar una
bola defectuosa seguida de otra defectuosa?
SOLUCIÓN:
Sean A el evento “la primera bola sacada está defectuosa” y B el evento “la segunda bola sacada
está defectuosa”. Nos piden calcular P (A ∩ B). Debido a que tres de las diez bolas están defectu-
3
osas, se tiene que P (A) = 10 . Ahora, como ya se ha sacado 1 bola defectuosa de la caja, quedan
en total 9 bolas disponibles, de entre las cuales hay ahora 2 defectuosas. Por tanto, P (B/A) = 29 .
Copyright © 2017. Universidad del Norte. All rights reserved.
La regla de multiplicación es más útil cuando el experimento consta de varias etapas suce-
sivas.
Como podemos observar claramente, en este teorema hemos considerando que A1 es el evento que sucede
primero, luego A2 , posteriormente A3 , y ası́ sucesivamente hasta que sucede el último evento, que en nuestro
caso es An .
• Si n = 2, se tiene que
• Si n = 3, se tiene que
• Si n = 4, se tiene que
Ejemplo 2.4.8 Una caja contiene 6 fichas rojas, 4 blancas y 5 azules. Halle la probabilidad de
que se extraigan en el orden roja, blanca y azul si las fichas (a) se reemplazan, (b) no se reemplazan.
SOLUCIÓN:
Hay tres eventos que debemos considerar para el problema:
Nos piden calcular P (R ∩ B ∩ A). Al aplicar el teorema general de multiplicación (teorema 2.4.7)
Copyright © 2017. Universidad del Norte. All rights reserved.
6 4 5 4
P (R ∩ B ∩ A) = · · = = 0, 044
15 14 13 91
Los teoremas de multiplicación son útiles al resolver muchos problemas en los que el resul-
tado final de un experimento depende de los resultados de varias etapas intermedias. Ahora
presentaremos otro resultado importante, llamado teorema de la probabilidad total, que nos
será útil para presentar el llamado teorema o regla de Bayes.
• Si n = 2, se tiene que
• Si n = 3, se tiene que
• Si n = 4, se tiene que
Podemos hacer dos comentarios acerca del teorema de la probabilidad total (teorema 2.4.9):
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.4.10 La caja I contiene 3 fichas rojas y 2 azules, en tanto que la caja II contiene
2 fichas rojas y 8 azules. Se lanza una moneda no falsa de tal forma que si cae cara, entonces
se saca una ficha de la caja I y, por el contrario, si cae sello, se saca una ficha de la caja II.
Supongamos que quien lanza la moneda no revela si resulta cara o sello (de tal forma que la caja
de la cual se sacó una ficha no se revela). Determine la probabilidad de haber sacado una ficha roja.
SOLUCIÓN:
Sea R el evento “sacar una ficha roja” y supongamos que I y II son los eventos “escoger la caja
I” y “escoger la caja II” respectivamente. Nos piden calcular P (R). En la figura 2.12 podemos
observar claramente estos eventos (obsérvese que el evento R corresponde a la región sombreada).
Ahora, en la caja I hay en total 3 + 2 = 5 fichas, y en la caja II, 2 + 8 = 10. Puesto que
una ficha roja se puede sacar de cualquiera de las cajas, entonces la probabildiad de sacar una
ficha roja de la caja I es P (R/I) = 35 y la de sacar una ficha roja de la caja II es P (R/II) = 10
2
= 15 .
Además, si C y S son los eventos “resultar cara” y “resultar sello”, respectivamente, entonces
la probabilidad de escoger la caja I es P (I) = P (C) = 12 y la de escoger la caja II es P (II) =
P (S) = 12 .
Por consiguiente, por el teorema de la probabilidad total (teorema 2.4.9) con n = 2, se obtiene
que
3 1 1 1 2
P (R) = P (R/I) P (I) + P (R/II) P (II) = · + · = = 0, 4
5 2 5 2 5
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.4.11 Un editor envı́a propaganda de un libro de estadı́stica al 70% de aquellos pro-
fesores que están a cargo de esa materia. El 40% de aquellos que recibieron la propaganda se
decidieron a utilizar el libro, inclusive, el 20% de los que no recibieron la propaganda también
utilizarán el libro. ¿Cuál es la probabilidad de utilizar el libro?
SOLUCIÓN:
Consideremos los eventos “recibe la propaganda” y “no recibe la propaganda”. Entonces, tenemos
que P (“recibe”)= 0, 70 y P (“no recibe”)= 1 − 0, 70 = 0, 30. Además,
Nos piden calcular P (“utiliza el libro”). Esta la podemos calcular con ayuda del teorema de la
probabilidad total (teorema 2.4.9) de la siguiente manera:
Los cálculos y las probabilidades anteriores se pueden observar claramente en el diagrama de árbol
de la figura 2.13. Junto a cada una de las cuatro ramas del diagrama aparecen probabilidades
(que llamaremos “totales”) que fueron calculadas con aplicación del teorema de multiplicación
(véase el teorema 2.4.5) y al final del diagrama aparece la probabilidad calculada que corresponde
a sumar sólo las probabilidades totales en donde aparece el evento “utiliza el libro”.
• Si n = 2, se tiene que
P (B/Ak ) P (Ak )
P (Ak /B) = P (B/A1 ) P (A1 ) + P (B/A2 ) P (A2 )
• Si n = 3, se tiene que
P (B/Ak ) P (Ak )
P (Ak /B) = P (B/A1 ) P (A1 ) + P (B/A2 ) P (A2 ) + P (B/A3 ) P (A3 )
• Si n = 4, se tiene que
P (B/Ak ) P (Ak )
P (Ak /B) = P (B/A1 ) P (A1 ) + P (B/A2 ) P (A2 ) + P (B/A3 ) P (A3 ) + P (B/A4 ) P (A4 )
A continuación se presenta el siguiente análogo quı́mico del teorema de Bayes: En k recipientes están
contenidas soluciones de la misma sal con diferentes concentraciones. El volumen total de la solución es
1 litro. Si P (Ak ) es el volumen de la solución en el n-ésimo recipiente y P (B/Ak ) es la concentración de
sal en el n-ésimo recipiente, entonces la fórmula que aparece en el teorema 2.4.12 nos permite calcular qué
porcentaje de la cantidad total de sal está en el k-ésimo recipiente.
Ejemplo 2.4.13 Considere la situación del ejemplo 2.4.10. Determine la probabilidad de haber
escogido la caja I (es decir, que el resultado de la moneda sea cara).
SOLUCIÓN:
Sean R, I y II eventos definidos como en el ejemplo 2.4.10. Aquı́ nos piden calcular P (I/R)
(compárese con la figura 2.14). Del ejemplo 2.4.10, tenemos que P (R/I) = 53 , P (R/II) = 15 ,
P (I) = P (II) = 12 .
Copyright © 2017. Universidad del Norte. All rights reserved.
Por consiguiente, por el teorema de Bayes (teorema 2.4.12) con n = 2, se obtiene que
P (R/I) P (I) 3
5 · 12 3
P (I/R) = = = = 0, 75
P (R/I) P (I) + P (R/II) P (II) 3
5 · 1
2 + 15 · 1
2
4
De este modo, dada la información de que se ha sacado un ficha roja, la probabilidad de haber
escogido la caja I se ve modificada, pasando de P (I) = 0, 5 (a priori) a P (I/R) = 0, 75 (a
posteriori).
Ejemplo 2.4.14 En cierta ciudad, aproximadamente el 10% de los habitantes está afectado por
una rara enfermedad, para la cual se ha desarrollado una prueba de diagnóstico. A través de esta
prueba se ha determinado que el 85% de los individuos que padecen la enfermedad presentan un
resultado positivo, mientras que el 20% de los individuos sin la enfermedad muestran un resultado
positivo. Supongamos que se hace una prueba en un individuo seleccionado al azar.
SOLUCIÓN:
Analizando las situaciones del problema, podemos identificar los siguientes eventos:
Junto a cada una de las cuatro ramas del diagrama aparecen probabilidades (que ya hemos llamado
“totales”) que fueron calculadas con aplicación del teorema de multiplicación (véase el teorema
2.4.5). Todas estas probabilidades se pueden identificar fácilmente en el diagrama de árbol de la
Copyright © 2017. Universidad del Norte. All rights reserved.
figura 2.15.
En (a) nos piden calcular P (B) y P (B). Para calcular la probabilidad de que ocurra B, aplicaremos
el teorema de la probabilidad total con n = 2 (véase el teorema 2.4.9). De igual manera, también
aplicaremos este mismo teorema para calcular la probabilidad de que ocurra B. Esto lo haremos
de la siguiente manera:
• Sumando las dos probabilidades totales ubicadas en las ramas correspondiente a un resultado
positivo, obtenemos:
Figura 2.15: Diagrama de árbol para los datos del ejemplo 2.4.13
• Sumando las dos probabilidades totales ubicadas en las ramas correspondiente a un resultado
negativo, obtenemos:
Para calcular las probabilidades pedidas en (b)-(d) aplicaremos el teorema de Bayes con n = 2
(teorema 2.4.12) de la siguiente manera:
P (A ∩ B) 0, 015
P (A/B) = = = 0, 0204
P (B) 0, 735
P (A ∩ B) 0, 18
P (A/B) = = = 0, 6792
P (B) 0, 265
P (A ∩ B) 0, 72
P (A/B) = = = 0, 979
P (B) 0, 735
Obsérvese que para C = B o C = B se cumple que P (A/C) = 1−P (A/C), propiedad que siempre
se cumple para todo par de eventos A y C de un espacio muestral.
Ejemplo 2.4.15 Un analista de bolsa examina las perspectivas de las acciones de un gran número
de compañı́as. Cuando se investigó el comportamiento de estas acciones un año antes, se descubrió
que el 15% experimentó un crecimiento superior al de la media, el 40% inferior y el 45% restante
se mantuvo alrededor de la media. El 30% de los valores que crecieron por encima de la media
fueron clasificados como “buenas adquisiciones” por el analista, al igual que el 15% de las que
crecieron alrededor de la media y el 20% de las que tuvieron un crecimiento inferior. ¿Cuál es
la probabilidad de que un valor clasificado como “buena adquisición” por el analista crezca por
encima de la media del mercado?
SOLUCIÓN:
Definiendo los eventos
tenemos las probabilidades P (A1 ) = 0, 15, P (A2 ) = 0, 40, P (A3 ) = 0, 35 y las probabilidades
condicionales P (B/A1 ) = 0, 30, P (B/A2 ) = 0, 15, P (B/A3 ) = 0, 20. Necesita calcular la probabi-
lidad de que un valor crezca por encima de la media, dado que fue considerado “buena adquisición”
por el analista. Es decir, buscamos la probabilidad condicional P (A1 /B), la cual se deduce ha-
ciendo uso del teorema de Bayes (teorema 2.4.12) de la siguiente manera:
P (B/A1 )P (A1 )
P (A1 /B) =
P (B/A1 )P (A1 ) + P (B/A2 )P (A2 ) + P (B/A3 )P (A3 )
(0, 30)(0, 25)
= = 0, 3658
(0, 30)(0, 25) + (0, 15)(0, 40) + (0, 20)(0, 35)
Ejemplo 2.4.16 Por un canal de comunicaciones afectado por ruido se transmite uno de dos
comandos de control en forma de palabras de código 11111 y 00000. Esto se transmite con pro-
babilidad a priori de 0,7 y 0,3 respectivamente. Por causa del ruido, la probabilidad de recepción
correcta de cada uno de los sı́mbolos disminuye a 0,6. Se supone que las palabras de código
Copyright © 2017. Universidad del Norte. All rights reserved.
SOLUCIÓN:
Consideremos los siguientes eventos:
Por consiguiente, P (H1 ) = 0, 7 y P (H2 ) = 0, 3. Para poder saber cuál fue la palabra de código
transmitida, calcularemos P (H1 /A) y P (H2 /A) y decidiremos nuestra respuesta teniendo la pro-
babilidad de mayor valor. Ahora,
De manera análoga, encontramos que P (H2 /A) = 0, 22. Por consiguiente, como P (H1 /A) = 0, 78
es mayor que P (H2 /A) = 0, 22, podemos afirmar que la palabra de código transmitida fue 11111.
63. La siguiente tabla recoge las proporciones de adultos en cierta ciudad, clasificadas en aquellos
que fuma o no fuman y aquellos que tienen problemas de salud:
Copyright © 2017. Universidad del Norte. All rights reserved.
(a) ¿Cuál es la probabilidad de que un adulto de esta población elegido al azar tenga
problemas de salud?
(b) ¿Cuál es la probabilidad de que un adulto de esta población elegido fume?
(c) ¿Cuál es la probabilidad de que un adulto de esta población elegido al azar que no fume
tenga problemas de salud?
64. La probabilidad de que Eduardo vea cierto programa de televisión es 0,4 y la probabilidad
de que su esposa Ana vea el programa es 0,5. La probabilidad de Eduardo vea el programa
sabiendo que Ana lo hace es 0,7. Encuentre la probabilidad de que
65. En cierta bodega, una caja contiene ocho clavos de 1 pulgada, seis de 1 pulgada y media
y cinco de 2 pulgadas. Suponga que se seleccionan tres clavos al azar, sin reemplazo y sin
orden.
(a) Si se ve que al menos uno de ellos es de 1 pulgada, ¿cuál es la probabilidad de que los
tres sean de 1 pulgada?
(b) Si al menos uno de los tres seleccionados no es de 2 pulgadas, ¿cuál es la probabilidad
de que los tres clavos tengan el mismo tamaño?
66. Una billetera tiene cinco billetes de $10.000 y siete de $20.000, y una segunda billetera
guarda ocho billetes de $10.000 y cuatro de $20.000. Se escoge al azar un billete de la
primera billetera y se coloca en la segunda. Después se selecciona un billete de la segunda
billetera y se coloca en la primera. ¿Cuál es la probabilidad de que se seleccione un billete
de $10.000 de la primera billetera y uno de $10.000 de la segunda?
67. Tres parejas de casados han comprado boletas para el cine y se sientan en una fila formada
por seis asientos. Supongamos que se sientan al azar.
(a) Utilice la regla de multiplicación para calcular la probabilidad de que una pareja (diga-
mos, José y Carmen) se siente junta en el extremo izquierdo y que otra pareja (digamos,
Jorge y Nubia) se siente junta en el medio.
(b) Sabiendo que Jorge y Nubia ya se han sentado juntos en el medio, ¿cuál es la proba-
bilidad de que los otros dos esposos (digamos, José, Ricardo) se sienten junto a sus
respectivas esposas (Carmen y Ana respectivamente).
(c) Sabiendo que Jorge y Nubia ya se han sentado juntos, ¿cuál es la probabilidad de que
todos los esposos se sienten junto a sus esposas?
Copyright © 2017. Universidad del Norte. All rights reserved.
68. Una entidad educativa ha propuesto tres proyectos para la mejora de la educación en cierta
región del paı́s. Para i = 1, 2, 3, sea Ai el evento que representa al evento “el proyecto i fue
aceptado”. Supongamos que
Determine las siguientes probabilidades y exprese verbalmente cada uno de los eventos cuya
probabilidad ha sido calculada:
70. En cierto batallón, 35% de los soldados reclutados son de estrato 1 y el resto, de estrato
2. De los soldados reclutados del estrato 1, el 85% no son hijos únicos, mientras que el
25% de los del estrato 2 lo son. Supongamos que se selecciona un soldado al azar para una
entrevista.
(a) Si es hijo único, ¿cuál es la probabilidad de que sea del estrato 1? ¿Del estrato 2?
(b) Si no es hijo único, ¿cuál es la probabilidad de que provenga del estrato 1? ¿Del estrato
2?
71. En cierta empresa, 31% de los empleados son europeos, 42% asiáticos y 27% latinoame-
ricanos. De los empleados europeos, 34% son mujeres; de los asiáticos, 42%, y de los
latinoamericanos, 72%.
(a) ¿Cuál es la probabilidad de que un empleado seleccionado al azar sea una (mujer)
europea? ¿(Hombre) asiático?
(b) ¿Cuál es la probabilidad de que un empleado seleccionado al azar sea una mujer? ¿Hom-
bre?
(c) Si un empleado seleccionado al azar es una mujer, ¿cuál es la probabilidad de que sea
Copyright © 2017. Universidad del Norte. All rights reserved.
72. Una empresa fabrica computadores, cuyo disco duro tiene capacidad de 20 GB y otros de 30
GB. En el mes anterior, 35% de los computadores vendidos fueron los que tienen disco duro
de 20 GB. De los compradores de computadores con disco duro de 20 GB, 45% compran
los que tienen memoria RAM de 356 MB, mientras que el 30% de los compradores de
computadores con disco duro de 30 GB también lo hacen ası́. Si sabemos que un comprador
seleccionado al azar ha comprado un computador con memoria RAM de 356 MB, ¿cuál es
la probabilidad de que tenga un computador con disco duro de 30 GB?
74. Una prestigiosa universidad de Barranquilla utiliza tres hoteles locales para proporcionar
hospedaje nocturno a sus profesores invitados. Supongamos que a 25% de los profesores
se les asignan habitaciones en el Hotel Las Nieves, al 45% en el Hotel El Mar y al 30% en
el Hotel San Felipe. Si hay una decorado especial en 3% de la habitaciones del Hotel Las
Nieves, 5% del Hotel El Mar y en 8%de las habitaciones del Hotel San Felipe, ¿cuál es la
probabilidad de que
75. Para clientes que compran una estufa especial en un almacén electrodoméstico considere los
siguientes eventos:
Supongamos que sean dadas las siguientes probabilidades: P (A) = 0.30, P (B/A) = 0, 75,
P (B/A) = 0, 89, P (C/A ∩ B) = 0, 90, P (C/A ∩ B) = 0, 55, P (C/A ∩ B) = 0, 62 y P (C/A ∩
B) = 0, 40.
Copyright © 2017. Universidad del Norte. All rights reserved.
(a) Construya un diagrama de árbol colocando cada evento en niveles diferentes y encima
de cada una de él, las probabilidades correspondientes.
(b) ¿Cuál es la probabilidad de que la estufa comprada sea colombiana, de gas y con 6
fogones?
(c) ¿Cuál es la probabilidad de que la estufa comprada sea de gas y con 6 fogones?
(d) ¿Cuál es la probabilidad de que la estufa comprada no sea de 6 fogones?
(e) ¿Cuál es la probabilidad de que la estufa comprada sea colombiana sabiendo que es de
gas y con 6 fogones?
76. Una emisora de bonos municipales tiene tres categorı́as de clasificación (A, B y C). Suponga
que el año pasado, de los bonos municipales que se emitieron en cierto paı́s, 70% tuvieron
clasificación A, 20% clasificación B y 10% clasificación C. De los bonos municipales con
clasificación A, 50% fueron emitidos en ciudades, 40% en suburbios y 10% en áreas rurales.
De los bonos municipales con clasificación B, 60% fueron emitidos en ciudades, 20% en
suburbios y 20% en áreas rurales. De los bonos municipales con clasificación C, 90% fueron
emitidos en ciudades, 5% en suburbios y 5% en áreas rurales.
(a) ¿Qué proporción de bonos municipales emiten las ciudades? ¿Los suburbios? ¿Las áreas
rurales?
(b) Si una ciudad emitiera un nuevo bono municipal, ¿cuál serı́a la probabilidad de que
tuviera clasificación A?
77. Se les preguntó a los suscriptores de un periódico local si leı́an regularmente, ocasionalmen-
te o nunca la sección de deportes y, también, si habı́an practicado fútbol durante el año
anterior. La proporciones obtenidas en la encuesta figuran en la siguiente tabla:
(a) ¿Cuál es la probabilidad de que un suscriptor elegido al azar nunca lea la sección de
deportes?
(b) ¿Cuál es la probabilidad de que un suscriptor elegido al azar haya jugado fútbol durante
el año pasado?
(c) ¿Cuál es la probabilidad de que un suscriptor que nunca lea la sección de deportes haya
jugado fútbol durante el año pasado?
(d) ¿Cuál es la probabilidad de que un suscriptor que ha jugado fútbol durante el año
pasado nunca lea la sección de deportes?
(e) ¿Cuál es la probabilidad de que un suscriptor que no lea regularmente la sección de
deportes haya jugado fútbol durante el año pasado?
2.5 Independencia
Copyright © 2017. Universidad del Norte. All rights reserved.
En general, el concepto de que dos eventos A y B sean independientes significa que el suceso
de uno de los dos eventos no tiene ninguna influencia sobre la probabilidad de que suceda
el otro evento. Por consiguiente, podemos formular la siguiente definición:
2.5. Independencia
Ejemplo 2.5.2 Considere lanzar un dado no falso y defina los eventos A = {2, 4, 6}, B = {1, 2, 3}
y C = {1, 2, 3, 4}. Entonces, tenemos
1 1 1
P (A) = , P (A/B) = y P (A/C) =
2 3 2
Lo anterior nos muestra que los eventos A y B son dependientes, mientras que los eventos A y C
son independientes.
Ejemplo 2.5.3 Las probabilidades de que llueva o nieve en una ciudad determinada el dı́a de
Navidad, el dı́a de año nuevo o en ambos dı́as son P (C) = 0, 60, P (N ) = 0, 60 y P (C ∩ N ) = 0, 42
respectivamente. Verifique si los eventos N y C son independientes.
SOLUCIÓN:
Por la definición de probabilidad condicional, tenemos que
P (C ∩ N ) 0, 42
P (N/C) = = = 0, 70
P (C) 0, 60
Ya que P (N/C) = 0, 70 no es igual que P (N ) = 0, 60, encontramos que los eventos N y C no son
independientes. Es decir, son dependientes.
En el caso en que los eventos A y B sean independientes, encontramos con ayuda del
teorema de multiplicación (teorema 2.4.5) el siguiente resultado especial: P (A ∩ B) =
P (A/B) P (B) = P (A)P (B). Por tanto, podemos formular el siguiente teorema:
P (A ∩ B) = P (A)P (B)
Algunos autores definen “independencia” de acuerdo a este teorema, puesto que ası́ no excluyen el caso en
que uno de los eventos sea vacı́o.
Copyright © 2017. Universidad del Norte. All rights reserved.
Ejemplo 2.5.5 Considere lanzar un dado no falso y defina los eventos A = {2, 4, 6}, B = {1, 3, 5}.
Entonces, A ∩ B = ∅ y
1
P (A) = P (B) = y P (A ∩ B) = P (∅) = 0
2
Ejemplo 2.5.6 La tabla de abajo contiene los resultados obtenidos al analizar 84 muestras de
aire con la finalidad de detectar dos moléculas raras. Sean A y B los eventos “todas las muestras
de aire contienen la molécula 1” y “todas las muestras contienen la molécula 2” respectivamente.
Entonces,
36 3 28 1 12 1
P (A) = = , P (B) = = y P (A ∩ B) = =
84 7 84 3 84 7
Ejemplo 2.5.8 Considere lanzar un dado no falso y defina los eventos A = {2, 4, 6} y B =
{1, 2, 3, 4}. Verifique las cuatros proposiciones equivalentes del teorema 2.5.7.
SOLUCIÓN:
Debido a que, adicionalmente, A = {1, 3, 5} y B = {5, 6} tenemos:
1 2 1 1
P (A) = , P (B) = , P (A) = , P (B) =
2 3 2 3
Ahora, como
se concluye que
2.5. Independencia
Ejemplo 2.5.9 Se sabe que 30% de las lavadoras de cierta compañı́a requieren servicio cuando
están todavı́a en garantı́a, mientras que sólo 10% de las secadoras necesitan ese servicio. Si alguien
compra una lavadora y una secadora fabricadas por esta companı́a, ¿cuál es la probabilidad de
que ninguna de las dos máquinas necesite servicio dentro de la garantı́a? Suponga que las dos
máquinas funcionan de manera independiente.
SOLUCIÓN:
Señalemos como A el evento “la lavadora necesita servicio de garantı́a” y B, el evento “la secadora
necesita servicio de garantı́a”. Entonces, P (A) = 0, 30 y P (B) = 0, 10. Nos piden calcular
P (A ∩ B). Como las dos máquinas funcionan de manera independiente, entonces los eventos A y
B son independientes. Con esto y con el teorema 2.5.7 (en este teorema, si se cumple la proposición
(a), entonces también debe cumplirse (d)), los eventos A y B también son independientes. Por
consiguiente,
6
El caso n = 2 ya se ilustró en el teorema 2.5.4.
Ejemplo 2.5.11 Supongamos que un dado se lanza dos veces y consideremos los eventos A :=“primer
lanzamiento es un 2”, B :=“segundo lanzamiento es un 5” y C :=“la suma de ambos lanzamientos
es 7”. Demuestre que (a) A y B son independientes, (b) B y C son independientes, (c) A y C son
independientes y (d) A, B y C no son independientes.
Este ejemplo demuestra también que A, B y C son independientes dos a dos, pero no completamente
independientes.
SOLUCIÓN:
(a) Debido a que A y B tienen 6 elementos, tenemos que P (A) = P (B) = 16 y, por consiguiente,
que
1 1 1
P (A ∩ B) = P escoger (2,5) = = · = P (A) P (B)
36 6 6
6
es decir, C tiene 6 elementos. Por consiguiente, P (C) = 36 = 16 . Ahora, debido a que
B ∩ C = {(2, 5)}, es claro ver que B ∩ C tiene un elemento. Por lo tanto,
Copyright © 2017. Universidad del Norte. All rights reserved.
Número de elementos de B ∩ C 1 1 1
P (B ∩ C) = = = = · = P (B) P (C)
Número de elementos de Ω 36 6 6
1 1
P (A ∩ B ∩ C) = P (2, 5) = = = P (A) P (B) P (C)
36 63
2.5. Independencia
79. En su sistema de funcionamiento, una represa tiene cuatro puertas de seguridad idénticas.
La probabilidad de que una puerta en particular se abra cuando sea necesario es 0,97. Si
las puertas funcionan independientemente, calcule la probabilidad de que (a) al menos una
puerta se abra, (b) al menos una puerta no se abra.
80. La probabilidad de que Jeniffer cometa un error al marcar una pregunta de un examen de
opción múltiple es 0,2. Supongamos que hay 7 preguntas marcadas independientemente.
(a) ¿Cuál es la probabilidad de que Jeniffer no cometa error al marcar las 7 preguntas?
(b) ¿Cuál es la probabilidad de que Jeniffer cometa por lo menos un error al marcar las 7
preguntas?
81. Una costura en un chaleco antibalas necesita 10 puntos de seguridad. La costura tendrá
que volverse a realizar si cualquiera de los puntos de segudidad quedó débil. Suponga que
los puntos de seguridad están débiles independientemente unos de otros, cada uno con la
misma probabilidad.
(a) Si 20% de todas las costuras necesitan volver a efectuarse, ¿cuál es la probabilidad de
que un punto de seguridad esté defectuoso?
(b) ¿Qué tan pequeña debe ser la probabilidad de un punto de seguridad débil para asegurar
que sólo el 5% de todas las costuras necesiten volver a ejecutarse?
82. Una empresa de venta por correos considera tres posibles errores al enviarse un pedido:
83. En cierta ciudad, el 70% de todas las personas examinadas en cierto consultorio odontológico
no tienen caries. Si se supone que personas sucesivas tienen o no tienen caries (por supuesto,
independientemente una de otra), calcule la probabilidad de los siguientes eventos: