Вы находитесь на странице: 1из 522

Estadística descriptiva

y
probabilidades
Estadística descriptiva
y
probabilidades

Juan Camilo Sosa Martínez


Luis Eduardo Ospina Forero

Emilio Pablo Berdugo Camacho

Universidad Externado de Colombia


Departamento de Matemáticas
Bogotá, D.C.
2.012
Dedicatoria

Juan Camilo:

A mi querida familia: Elsi, Nani y Gonza.

A mi querida Yenny Paola y su hermoso Pollito.

A mis queridos Maestros.

Sin su Amor y su Apoyo este libro jamás hubiera sido posible.

Luis Eduardo:

Con mucho amor para las mujeres mas importantes en mi vida: Lolita,
Leito, Marcela y Alejandra.

Emilio Pablo:

A mis antiguos y futuros estudiantes.


Estadística descriptiva y probabilidades
© Juan Camilo Sosa Martínez
Docente investigador
Departamento de Matemáticas
Universidad Externado de Colombia

© Luis Eduardo Ospina Forero


Estudiante de maestría en Ciencias-Estadística
Facultad de Ciencias
Departamento de Estadística
Universidad Nacional de Colombia

© Emilio Pablo Berdugo Camacho


Docente catedrático
Departamento de Estadística
Universidad Nacional de Colombia
Juan Camilo Sosa Martínez
Estadístico, egresado de Maestría en Ciencias-Estadística de la Universidad Nacional de Colombia
con trabajo de tesis distinguido con Mención Laureada, interesado primordialmente en la docencia
y la investigación. Es autor de artículos publicados en la Revista Colombiana de Estadística y ha
sido expositor en eventos nacionales e internacionales de estadística. En la Universidad Externado de
Colombia ha colaborado con las Facultades de Administración de Empresas, Finanzas, Gobierno y
Relaciones Internacionales, Contaduría Pública, Economía y Administración de Empresas Turísticas
y Hoteleras; y en la Universidad Nacional de Colombia, con las Facultades de Ciencias, Ciencias
Humanas, Ingeniaría y Odontología. Sus principales intereses en investigación están orientados hacia el
modelamiento estadístico, especícamente el análisis de datos longitudinales, la estadística matemática
y la pedagogía encaminada a la formación de pensamiento estadístico. Actualmente es miembro del
grupo de estadística aplicada en investigación experimental, industria y biotecnología y desempeña
su labor investigativa como estudiante de doctorado en la Universidad de California, Santa Cruz
(University of California, Santa Cruz ).

Luis Eduardo Ospina Forero


Estadístico egresado de la Universidad Nacional de Colombia e interesado principalmente en el mo-
delamiento de variables latentes y modelamiento de redes nancieras y biológicas, actualmente esta
realizando estudios de doctorado en estadística en la Universidad de Oxford (University of Oxford,
United Kingdom ). Anteriormente fue miembro del grupo de investigación en Bioestadística en la Uni-
versidad nacional de Colombia, en el cual publicó varios proyectos en ponencias nacionales e interna-
cionales y revistas indexadas sobre la inferencia funcional de genes mediante métodos de clasicación.
Los campos en los que actualmente se encuentra investigando son la extensión de modelos de teoría
de respuesta al ítem para el modelamiento del riesgo, la predicción funcional de genes mediante datos
y la interacción de los anteriores bajo la perspectiva de redes.

Emilio Pablo Berdugo Camacho


Licenciado en Matemáticas y Física de la Universidad del Atlántico (Barranquilla), Magister en
Ciencias-Estadística de Universidad Nacional de Colombia. Ha trabajado en el ejercicio de la docencia
en la Universidad Nacional de Colombia, la Universidad Autónoma de Colombia y la Universidad San-
to Tomás orientando cursos en los programas de Ingeniería, Física, Biología, Sicología, Trabajo Social,
Enfermería, Economía, Administración, Contaduría, Cultura Física, especializaciones en Estadística
y Gerencia Empresarial y Maestría en Didácticas de las Ciencias entre otros. Sus intereses académicos
se orientan hacía la pedagogía y la didáctica de la Estadística y la Física, así como los modelos de
para el análisis de datos longitudinales.
Agradecimientos

Declaro mi profundo agradecimiento a la Universidad Externado de Colombia, por acogerme como


docenteinvestigador durante todos estos años; a todos los integrantes del Departamento de Mate-
máticas de la Universidad Externado de Colombia, pues de algún modo u otro han contribuido en
mi formación académica y personal. En especial, al Profesor Jorge Arias y a la Doctora Luz Mary
Huérfano, por sus valiosos comentarios y aportes; y a la Profesora Sandra Ivón Castillo Lemus y Clara
Inés Ramírez Montegro por su constante entrega, motivación y apoyo.

También resalto mi innita gratitud a mis maestros y mis colegas. Particularmente, al Profesor Luis
Guillermo Díaz Monroy y al Profesor Luis Alberto López Pérez, profesores de la Universidad Nacional
de Colombia, quienes sirvieron como evaluadores de este libro y lo enriquecieron en gran medida; y
a los co-autores de este libro, Luis Eduardo Ospina Forero y Emilio Pablo Berdugo Camacho, sin
quienes este libro no hubiera sido posible.

Finalmente, maniesto que este libro no hubiera sido posible sin la colaboración de todos los que
alguna vez fueron mis estudiantes, cuyas criticas hicieron de este libro lo que es hoy. Este libro es para
Ustedes y todos los que en algún momento quieran estudiar la Realidad.

A todos Ustedes, ½innitas gracias!

Juan Camilo Sosa Martínez


juan.sosa@externado.edu.co
jcsosam1983@gmail.com
Departamento de Matemáticas
Universidad Externado de Colombia
2013

6
Resumen

Este libro de texto es el resultado de dos años extensivos de investigación en la Universidad Externado
de Colombia, y no ha sido presentado previamente en esta Universidad u otras. Este libro contiene los
resultados obtenidos en investigaciones llevadas a cabo en el Departamento de Matemáticas, durante
el período comprendido entre julio de 2010 y diciembre de 2012, como resultado de la orientación
repetida de cursos de estadística en diversas facultades de la Universidad.

Este libro está dirigido a todos aquellos que se quieran adentrar en el estudio de la realidad tal
como es por medio de los métodos estadísticos clásicos. Este texto fue concebido primordial mente
para estudiantes de pregrado de Administración, Economía, Finanzas y otras carreras anes, que de
alguna forma necesiten apropiarse los conceptos indispensables para adquirir seguridad y destreza en
la aprehensión de los fundamentos que sustentan los métodos estadísticos y sus aplicaciones, que se
estudian en variados espacios académicos anes.

Así, se quiere dotar al lector de elementos que le permitan entender, analizar y hacer una evalua-
ción crítica de documentos y publicaciones especializados, relacionados con la toma de decisiones;
familiarizar al interesado con los conceptos básicos de probabilidad y las distribuciones probabilísti-
cas más comunes; y por último, presentar aplicaciones de la estadística descriptiva y de teoría de la
probabilidad en casos prácticos.

La primera parte del libro, está dedicada a todas las medidas y técnicas estadísticas relacionadas con
la descripción de la información, con el n de hacer un diagnostico de alguna realidad que se quiera
conocer para que pueda ser entendida y/o intervenida concienzudamente. Si este es el caso, el lector
deberá tener ciertos conceptos básicos de álgebra y aritmética, que se presentan con cierto detalle en
el apéndice A. En esta primera parte del texto, se ofrecen herramientas indispensables para describir
conjuntos de datos en los que se quiera precisar su tendencia (capítulos 2 y 3), su variabilidad (capítulo
4), su distribución (capítulo 5) y la relación que puedan tener con otras variables relacionadas (capitulo
6).

7
8

Una vez se tengan las herramientas descriptivas y se quiera profundizar en una realidad con mayor
detenimiento por medio de un modelo formal, en la segunda parte del libro se presentan todos los
métodos fundamentales para tratar variables con ciertos diseños asumidos por el investigador. Para
esto es necesario que el lector tenga los conatos básicos del cálculo diferencial y del cálculo integral, que
en cualquier caso, de olvido o desconociendo, se presentan en el apéndice C. Por tal motivo, se presentan
todas las herramientas necesarias para abordar con precisión el estudio de las características de una
variable asociadas con la incertidumbre de ciertos eventos (capítulo 7), los parámetros de tendencia y
variabilidad (capítulo 8), los posibles modelos probabilísticos que enmarquen sus rasgos (capítulos 9
y 10) y las posibles relaciones con otras variables (capítulo 11).
Contenido

Figuras xvi

Tablas xx

I Estadística descriptiva 1

1. Elementos generales 1

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Formas del saber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3. ¾Qué es estadística? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4. Clasicación de la estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.5. Algunos términos importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.6. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.7. Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.8. La investigación estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

i
ii CONTENIDO

1.9. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2. Tablas y grácas estadísticas 18

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.1. Tablas para variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.2. Tablas para variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3. Grácas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.1. Grácos para variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.2. Grácos para variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.3. Sobre los grácos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.4. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3. Medidas de tendencia central y de posición 41

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2. Medidas estadísticas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2.1. La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2.2. La media aritmética ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2.3. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.4. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2.5. La media geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50


CONTENIDO iii

3.2.6. La media armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.3. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3.1. El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3.2. Los percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.3. Los cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.4. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4. Medidas de dispersión 64

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2. El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.3. El rango intercuartílico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.4. Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.5. La desviación de un dato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.6. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.7. La desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.8. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.9. Teorema de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.10. El Coeciente de variación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.11. Otras medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.12. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.13. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
iv CONTENIDO

5. Medidas de forma 91

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.2. Medidas de asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.2.1. Inspección de las medidas de tendencia central . . . . . . . . . . . . . . . . . . 92

5.2.2. El coeciente de asimetría de Pearson . . . . . . . . . . . . . . . . . . . . . . . 94

5.2.3. El coeciente de asimetría de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 95

5.2.4. El índice de asimetría de Yule-Bowley . . . . . . . . . . . . . . . . . . . . . . . 98

5.3. Medidas de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.4. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6. Medidas descriptivas para dos variables 104

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.2. Tablas de doble entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.3. Perles o distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.4. Grácas para dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.5. Medidas de asociación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

6.5.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6.5.2. Coeciente de correlación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . 119

6.5.3. Coeciente de correlación de Spearman . . . . . . . . . . . . . . . . . . . . . . 122

6.5.4. Coeciente de correlación de Kendall . . . . . . . . . . . . . . . . . . . . . . . . 123

6.5.5. Coeciente de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125


CONTENIDO v

6.6. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

6.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

II Probabilidades 138

7. Fundamentos de probabilidad 139

7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

7.2. Experimentos determinísticos y experimentos aleatorios . . . . . . . . . . . . . . . . . 139

7.3. Espacios muestrales y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

7.4. Operaciones con eventos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

7.5. Asignación de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

7.5.1. Método frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

7.5.2. Método clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

7.5.3. Método subjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

7.6. Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

7.7. Métodos de Conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

7.7.1. Enumeración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

7.7.2. Diagramas de árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

7.7.3. Principio fundamental del conteo . . . . . . . . . . . . . . . . . . . . . . . . . . 157

7.7.4. Principio de la adición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

7.7.5. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

7.7.6. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165


vi CONTENIDO

7.8. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

7.9. Teorema de la multiplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

7.10. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

7.11. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.12. Independencia estadística de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.13. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

7.14. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

8. Variables aleatorias 185

8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

8.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

8.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

8.4. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

8.5. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

8.6. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

8.7. Algunas desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

8.8. Función generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

8.9. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

8.9.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

8.9.2. Distribuciones de funciones de v.a. . . . . . . . . . . . . . . . . . . . . . . . . . 239

8.10. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

8.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242


CONTENIDO vii

9. Distribuciones discretas 254

9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

9.2. Distribución uniforme discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

9.3. Distribución de Bernoulli y binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

9.4. Distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

9.5. Distribución geométrica y binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . 270

9.6. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274

9.7. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280

9.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

10.Distribuciones continuas 285

10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

10.2. Distribución uniforme continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

10.3. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291

10.3.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291

10.3.2. La distribución normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . 293

10.3.3. Uso de la tabla de la distribución normal estándar . . . . . . . . . . . . . . . . 295

10.3.4. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

10.3.5. Aproximación de la distribución binomial . . . . . . . . . . . . . . . . . . . . . 300

10.3.6. Distribuciones relacionadas con la distribución normal . . . . . . . . . . . . . . 302

10.4. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

10.5. Distribución gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306


viii CONTENIDO

10.6. Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309

10.7. Otras distribuciones probabilísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312

10.8. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

10.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

11.Distribuciones de probabilidad multivariadas


(Emilio Pablo Berdugo Camacho) 320

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320

11.2. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321

11.3. Distribuciones conjuntas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 322

11.3.1. Vector de componentes discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 323

11.3.2. Distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329

11.3.3. Vector de componentes continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 330

11.3.4. Distribución normal bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

11.4. Otras distribuciones relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

11.4.1. Distribuciones de probabilidad marginales . . . . . . . . . . . . . . . . . . . . . 338

11.4.2. Distribuciones de probabilidad condicionales . . . . . . . . . . . . . . . . . . . 340

11.4.3. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . 342

11.5. Combinaciones lineales de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . 345

11.5.1. Matriz de covarianzas y matriz de correlaciones . . . . . . . . . . . . . . . . . . 346

11.5.2. Valor esperado varianza para una combinación lineal de variables aleatorias . . 350

11.6. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352


CONTENIDO ix

11.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

A. Elementos básicos de matemáticas 354

A.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354

A.2. Operaciones aritméticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354

A.3. Exponentes y radicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357

A.4. Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359

A.5. Razones, fracciones y porcentajes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360

A.6. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362

A.7. Factorización de polinomios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363

A.8. Ecuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371

A.9. Logaritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

A.10.Sumatorias y productorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

A.11.Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

B. Elementos básicos de conjuntos 398

B.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398

B.2. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398

B.3. Operaciones entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402

B.4. Conjuntos numéricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

B.5. Funciones y conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409

B.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410


x CONTENIDO

C. Elementos básicos de cálculo 412

C.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412

C.2. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412

C.3. Límites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420

C.4. Derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427

C.5. Integrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438

C.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452

D. Tablas estadísticas 458

D.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

D.2. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

D.3. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461

D.4. Distribución normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462

D.5. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463

D.6. Distribución Ji-cuadrado de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466

D.7. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469

D.7.1. Tabla para 1 − α = 0.90 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469

D.7.2. Tabla para 1 − α = 0.95 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471

D.7.3. Tabla para 1 − α = 0.975 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473

D.7.4. Tabla para 1 − α = 0.99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475

Referencias 478
Figuras

1.1. Pierre-Simon Laplace (1749-1827). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1. Ejemplo de un diagrama de barras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2. Ejemplo de un diagrama de sectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3. Grácos diferencial (a) e integral (b) de los datos de la tabla 2.10. . . . . . . . . . . . . . . . . . 29

2.4. Ejemplo de un polígono de frecuencias (a) y de un polígono de frecuencias acumulado (b). . . . . . 30

2.5. Ejemplo de un polígono de frecuencias suavizado. . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6. Ejemplo de un pictograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.7. Ejemplo de un cartograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.8. Ejemplo de una serie de tiempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1. Algunas formas de una distribución de frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2. Augustin Louis Cauchy (17891857). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1. Ejemplo de un diagrama de caja y bigotes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

xi
xii FIGURAS

4.2. Diagrama de caja y bigotes de los datos de la tabla 2.8. . . . . . . . . . . . . . . . . . . . . . . 70

4.3. Pafnuty Chebyshev (1821-1894). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.4. Karl Pearson (1857-1936). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.5. Diagrama de caja y bigotes de los datos de la tabla 4.4. . . . . . . . . . . . . . . . . . . . . . . 86

5.1. Algunas distribuciones de frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.2. Histograma (a) y diagrama de caja y bigotes (b) asociados con los datos de la tabla 2.9. . . . . . . 94

5.3. Ronald Fisher (1890-1962). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4. Gráco de la distribución normal con media 0 y varianza 1. . . . . . . . . . . . . . . . . . . . . 100

5.5. Ejemplos de algunas distribuciones simétricas con distintos grados de apuntamiento. . . . . . . . . 101

6.1. Gráco de barras tridimensional de las frecuencias relativas del ejemplo 6.2.2. . . . . . . . . . . . 110

6.2. Gráco de barras de las frecuencias relativas del ejemplo 6.2.2. . . . . . . . . . . . . . . . . . . . 111

6.3. Dispersograma del peso frente a la edad de los 25 niños. . . . . . . . . . . . . . . . . . . . . . . 112

6.4. Ejemplos de diagramas de dispersión en los que se evidencia una relación cuadrática (a), cúbica (b),

exponencial (c) y logarítmica (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6.5. Ejemplos de diagramas de dispersión en los que no se evidencia directamente una relación entre a las

variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6.6. Ejemplos de nubes de puntos de un par de variables con relación directa (a), relación inversa (b) y

covarianza nula (c y d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.7. Ejemplos de nubes de puntos con su respectivo coeciente de correlación. . . . . . . . . . . . . . . 121

6.8. Corrado Gini (1884-1965). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

6.9. Cartograma cartograma donde se evidencian los valores del coeciente de Gini a nivel mundial . . . . 127

6.10. Ejemplo de la curva de Lorenz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129


FIGURAS xiii

6.11. Curva de Lorenz asociada con la repartición de las cuentas del ejemplo 6.5.6. . . . . . . . . . . . . 130

7.1. Diagrama de Venn del ejemplo 7.6.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

7.2. Ejemplo de un diagrama de árbol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

7.3. Thomas Bayes (1702-1761). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

8.1. Gráco de la f.m.p. (a) y de la f.d.a. (b) de la variable del ejemplo 8.1.1. . . . . . . . . . . . . . . 188

8.2. Gráco de la f.d.a. de la variable del ejemplo 8.2.5. . . . . . . . . . . . . . . . . . . . . . . . . 197

8.3. Ejemplo de gráco de una función de densidad de una v.a.c. X. . . . . . . . . . . . . . . . . . . 199

8.4. Ejemplo de una f.d.a. de una v.a.c. X. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

8.5. Gráco de la f.d.p. de la variable del ejemplo 8.3.2. . . . . . . . . . . . . . . . . . . . . . . . . 206

8.6. Gráco de la f.d.p. de la variable del ejemplo 8.5.2. . . . . . . . . . . . . . . . . . . . . . . . . 218

8.7. Gráco de la f.d.p. de la variable del ejemplo 8.7.2. . . . . . . . . . . . . . . . . . . . . . . . . 230

9.1. Gráco de la f.m.p. (a) y de la f.d.a. (b) de una variable con distribución uniforme discreta de parámetro

n = 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

9.2. Jakob Bernoulli (1654-1705). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

9.3. Gráco de la f.m.p. (a) y de la f.d.a. (b) de una variable con distribución binomial de parámetros

n = 10 y π = 0.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

9.4. Gráco de la f.m.p. (a) y de la f.d.a. (b) de una variable con distribución binomial de parámetros n=5
y π = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

9.5. Grácos de la f.m.p. de una distribución binomial de parámetros n = 10 y π = 0.25, n = 10 y π = 0.50,


y n = 10 y π = 0.75. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

9.6. Gráco de la f.m.p. (a) y de la f.d.a. (b) de una variable con distribución hipergeométrica de parámetros

n = 4, M = 3 y N = 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
xiv FIGURAS

9.7. Gráco de la f.m.p. (a) y de la f.d.a. (b) de una variable con distribución binomial negativa de pará-

metros r=3 y π = 0.03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

9.8. Siméon Denis Poisson (1781-1840). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

9.9. Gráco de la f.m.p. (a) y de la f.d.a. (b) de una variable con distribución de Poisson de parámetro λ = 5. 277

9.10. Grácos de la f.m.p. de una distribución de Poisson de parámetros λ = 2, λ = 5 y λ = 10. . . . . . . 278

10.1. Gráco de la f.d.p. (a) y de la f.d.a. (b) de una variable con distribución uniforme continua sobre el
intervalo a = −3 y b = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

10.2. Gráco de la f.d.p.de una variable con distribución normal. . . . . . . . . . . . . . . . . . . . . 291

10.3. Johann Carl Friedrich Gauss (1777-1855). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292

10.4. Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución normal para diferentes
valores de los parámetros µ y σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

10.5. Ilustración gráca del cálculo de probabilidades bajo la distribución normal. . . . . . . . . . . . . 295

10.6. Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución exponencial para
diferentes valores del parámetro λ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

10.7. Gráco de la f.d.p. (a) y de la f.d.a. (b) de una variable con distribución exponencial de parámetro
1
λ= 16
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305

10.8. Algunas grácas de la f.d.p. de la distribución gamma para diferentes valores de los parámetros α y β . 307

10.9. Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución beta para diferentes
valores de los parámetros α y β. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

10.10.Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución de Weibull para


diferentes valores de los parámetros α y β. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312

10.11.Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución de Cauchy para


diferentes valores de los parámetros α y β. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

10.12.Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución de Laplace para


diferentes valores de los parámetros α y β. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
FIGURAS xv

10.13.Algunos ejemplos de la f.d.p. (izquierda) y de la f.d.a. (derecha) de la distribución lognormal cuando


el parámetro µ=0 para diferentes valores del parámetro σ. . . . . . . . . . . . . . . . . . . . . 315

11.1. Función másica de probabilidad conjunta de las variables asociadas con los resultados de dos dados
distinguibles y balanceados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324

11.2. Función másica de probabilidad conjunta estimada para las variables género y nivel educativo . . . . 325

11.3. Función de distribución acumulada conjunta para dos variables discretas. . . . . . . . . . . . . . . 326

11.4. Función de distribución acumulada conjunta de las variables asociadas con los resultados de dos dados
distinguibles y balanceados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

11.5. Ejemplo de una función de densidad conjunta de un vector aleatorio bidimensional. . . . . . . . . . 332

11.6. Soporte de la función de densidad conjunta y región de integración de la probabilidad pedida del del
ejemplo 11.3.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

11.7. Función de densidad conjunta de las variables asociadas a los tiempos de respuesta en un servidor de
computadoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334

11.8. Función de distribución acumulada conjunta para las variables asociadas a los tiempos de respuesta en
un servidor de computadoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

11.9. Función de densidad conjunta y función de distribución acumulada conjunta de la distribución normal
bivariada de parámetros µX = µY = ρXY = 0 y σX = σY = 1. . . . . . . . . . . . . . . . . . . 337

11.10.Región de integración asociada con el evento |X − Y | ≤ 10 del ejemplo 11.4.7. . . . . . . . . . . . 345

A.1. Leonhard Euler (1707-1783). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379

B.1. Diagrama de Venn que ilustra un caso en el que A ⊆ B. . . . . . . . . . . . . . . . . . . . . . . 400

B.2. Diagrama de Venn asociado con un par de conjuntos disjuntos. . . . . . . . . . . . . . . . . . . 403

B.3. Diagramas de Venn para las operaciones entre conjuntos. De izquierda a derecha y de arriba a abajo:
A ∪ B , A ∩ B , A − B , B − A, A4B y AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405

C.1. Grácas de las funciones de la tabla C.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414


xvi FIGURAS

C.2. Grácas de las funciones del ejemplo C.2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415

C.3. Grácas de las funciones del ejemplo C.2.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418

C.4. Guillaume François de L'Hôpital (1661-1704). . . . . . . . . . . . . . . . . . . . . . . . . . . . 437

C.5. Bernhard Riemann (1826-1866). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440


Tablas

2.1. Formato general de una distribución de frecuencias. . . . . . . . . . . . . . . . . . . . . . 20

2.2. Datos asociados con una encuesta de opinión acerca de una medida económica. 1=A favor; 0=En

contra; 3=No Sabe/No Responde (NS/NR). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3. Distribución de frecuencias de los datos de la tabla 2.2. . . . . . . . . . . . . . . . . . . . . . . 21

2.4. Datos asociados con el nivel educativo de algunos empleados de una empresa. B= Bachillerato; P=

Pregrado; M= Maestría; D= Doctorado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.5. Distribución de frecuencias de los datos de la tabla 2.4. . . . . . . . . . . . . . . . . . . . . . . 22

2.6. Datos asociados con la clasicación con respecto al tamaño y a la afectividad de un grupo de perros.

Peq= Pequeño; Med= Mediano; Gra= Grande. . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.7. Tabla a dos vías de clasicación de los datos de la tabla 2.6. . . . . . . . . . . . . . . . . . . . . 23

2.8. Datos asociados con las ganancias en un día determinado de una muestra de empresas de una ciudad. 24

2.9. Distribución de frecuencias de los datos de la tabla 2.8. . . . . . . . . . . . . . . . . . . . . . . 25

2.10. Clasicación de un grupo de familias por el número de hijos. . . . . . . . . . . . . . . . . . . . . 28

2.11. Distribución de frecuencias de los datos de la tabla 2.10. . . . . . . . . . . . . . . . . . . . . . . 28

2.12. Datos asociados con el número de clientes de un almacén atendidos en los últimos 20 días. . . . . . 32

xvii
xviii TABLAS

2.13. Ejemplo de un diagrama de tallo y hojas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1. Cálculos del ejemplo 3.2.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2. Datos asociados con las calicaciones de un estudiante. . . . . . . . . . . . . . . . . . . . . . . 46

3.3. Datos asociados con el número de hijos de una muestra de empleados de una empresa. . . . . . . . 48

3.4. Datos asociados con las velocidades de tres vehículos. . . . . . . . . . . . . . . . . . . . . . . . 53

3.5. Datos asociados con los puntajes de una muestra de 20 empresas en relación a la calidad de sus servicios. 55

3.6. Rango del conjunto de datos de la tabla 3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.1. Datos asociados con los salarios anuales de una muestra de supervisores de ventas de dos empresas. . 64

4.2. Cálculos del ejemplo 4.6.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.3. Algunos valores asociados con el teorema de Chebyshev. . . . . . . . . . . . . . . . . . . . . . . 81

4.4. Datos asociados con una muestra de ventas diarias (en millones de pesos) de una empresa. . . . . . 85

5.1. Cálculos de los ejemplos 5.2.3 y 5.3.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.1. Ejemplo de una tabla de doble entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.2. Tabla de contingencia asociado con el género (X ) y el nivel educativo (Y ) de una muestra de personas

de una empresa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.3. Tabla de contingencia de frecuencias relativas del ejemplo 6.2.2 . . . . . . . . . . . . . . . . . . 107

6.4. Perles la de la muestra del ejemplo 6.2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.5. Perles columna de la muestra del ejemplo 6.2.2. . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.6. Tabla de observaciones de una muestra correspondiente a un conjunto de datos bivariado. . . . . . . 110

6.7. Datos asociados con el peso y la edad de un grupo de 25 niños. . . . . . . . . . . . . . . . . . . 110


TABLAS xix

6.8. Datos asociados con la posición y el puntaje de los competidores del ejemplo 6.5.4. . . . . . . . . . 123

6.9. Datos asociados con las concordancias y discordancias del estudio de mercadeo del ejemplo 6.5.5. . . 125

6.10. Datos asociados con el número de contratos que un gerente reparte entre sus empleados. . . . . . . 127

6.11. Cálculos del ejemplo 6.5.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

6.12. Datos asociados con los ingresos de una muestra de empresas de un sector económico particular. . . 128

6.13. Frecuencias acumuladas asociadas con la curva de Lorenz del ejemplo 6.5.6. . . . . . . . . . 130

6.14. Datos asociados con una muestra de utilidades de las acciones X y Y. . . . . . . . . . . . . . . . 132

6.15. Datos asociados con los salarios de una muestra de empleados de una empresa. . . . . . . . . . . . 133

6.16. Datos asociados con las ventas y gastos de una empresa determinada. . . . . . . . . . . . . . . . 133

6.17. Datos asociados con las calicaciones de las asignaturas A y B de una muestra de alumnos. . . . . . 134

6.18. Datos asociados con la tasa media de crecimiento del PIB y del empleo para 25 países de la OCDE
para el periodo 1988-1997. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6.19. Datos asociados con los ingresos, el género y la preferencia de una medida económica del Gobierno
Nacional de una muestra de empleados de una compañía. . . . . . . . . . . . . . . . . . . . . . 137

7.1. Datos asociados con la clasicación de los empleados de una corporación según el género y el ingreso. 167

7.2. Datos asociados con la clasicación con respecto al asenso y al modo de trabado de un grupo de

empleados de una empresa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

8.1. Datos asociados con el puntaje de las empresas constructoras participantes en la licitación. . . . . . 237

8.2. Datos asociados con los valores obtenidos para el número de proteínas producidaspor un determinado

gen ante diferentes estímulos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

9.1. Probabilidades asociadas con los valores de una v.a. con distribución hipergeométrica de parámetros

n = 10, M = 500 y N = 1, 000, su respectiva aproximación por medio de la distribución binomial de

parámetros n = 10 y π = 0.5, y la diferencia correspondiente. . . . . . . . . . . . . . . . . . . . 270


xx TABLAS

9.2. Probabilidades asociadas con los valores de una v.a. con distribución binomial de parámetros n = 400
y π = 0.005, su respectiva aproximación por medio de la distribución de Poisson de parámetros λ = 2,
y la diferencia correspondiente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280

11.1. Valores de la función de distribución acumulada conjunta de las variables asociadas con los resultados
de dos dados distinguibles y balanceados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

C.1. Dominio, rango y clasicación de algunas funciones. . . . . . . . . . . . . . . . . . . . . . . . . 413


Nomenclatura

X Vector aleatorio.

x Valor observado de X.

p Dimensión de un vector aleatorio.

f.d.a. Función de distribución acumulada.

f.d.p. Función de densidad de probabilidad.

f.g.m. Función generadora de momentos.

f.m.p. Función másica de probabilidad.

v.a. Variable aleatoria.

v.a.c. Variable aleatoria. continua.

v.a.d. Variable aleatoria discreta.

(a, b) Intervalo abierto de a a b.

(a, b] Intervalo semiabierto a la izquierda de a a b.

+∞ Más innito.

− Diferencia.

−∞ Menos innito.

< Menor que.

= Igual a.

> Mayor que.

[a, b) Intervalo semiabierto a la derecha de a a b.

xxi
xxii TABLAS

[a, b] Intervalo cerrado de a a b.

#A Cardinal del conjunto A.

≈ Aproximadamente igual a.

X̄ Media muestral de X.

x̄ Media muestral observada de X.


n

r n combinado r.

 Final de una demostración.

R Matriz de correlaciones.

µ̆X Moda poblacional de la variable X.

x̆ Moda muestral observada de la variable X.

∩ Intersección.

◦ Compuesta de funciones.

cos(x) Coseno de x.

cot(x) Cotangente de x.

csc(x) Cosecante de x.

∪ Unión.

≡ Equivalente a.

∃ Existe.

∀ Para todo.

d
dx Derivada respecto a x.

Γ(x) Función gamma.

≥ Mayor o igual que.

∈ Pertenece a.
R
Integral.

⇔ Si y solo si.

≤ Menor o igual que.

ln(x) Logaritmo natural de x.

log(x) Logaritmo en base 10 de x.


TABLAS xxiii

C Conjunto de la números complejos.

Corr[X, Y ] Correlación entre X y Y.

Cov[X, Y ] Covarianza entre X y Y.

E[X] Valor esperado de X.

I Conjunto de la números irracionales.

N Conjunto de la números naturales.

P(A) Probabilidad de A.

Q Conjunto de la números racionales.

R Conjunto de la números reales.

R+ Conjunto de los números reales positivos.

Var[X] Varianza de X.

Z Conjunto de la números enteros.

PA Partes del conjunto A.

S Soporte de una función.

máx A Valor máximo del conjunto A.

mı́n A Valor mínimo del conjunto A.

µj j -ésimo momento de X alrededor de la media.

µ0j j -ésimo momento de X.

µX Media poblacional de X.

6= No es igual a.

@ No existe.


/ No pertenece a.

* No está contenido en.

Ω Espacio muestral.

ω Punto muestral.

Φ Conjunto vacío.

Φ(x; µ, σ 2 ) Función de distribución acumulada de una variable aleatoria con distribución normal de
parámetros µ y σ2 .
xxiv TABLAS

φ(x; µ, σ 2 ) Función de densidad de probabilidad de una variable aleatoria con distribución normal de
parámetros µ y σ2 .

Φ(z) Función de distribución acumulada de una variable aleatoria con distribución normal estándar.

φ(z) Función de densidad de probabilidad de una variable aleatoria con distribución normal están-
dar.

π Número de pi o probabilidad de éxito.

πp Percentil p de una población.

± Más o menos
Q
Productoria.

ρXY Coeciente de correlación de Pearson poblacional entre X y Y.

⇒ Entonces.

→ Tiende a.

sec(x) Secante de x.

Σ Matriz de covarianzas.

2
σX Varianza poblacional de X.

σX Desviación estándar poblacional de X.

σxy Covarianza poblacional de (X, Y ).

sin(x) Seno de x.
√n
x Raíz n-ésima de x.

x Raíz cuadrada de x.

 Final de un ejemplo.

⊂ Es un subconjunto propio de.

⊆ Contenido en.

⊆ Está contenido en.


P
Sumatoria.

tan(x) Tangente de x.

τxy Coeciente de correlación de Kendall observado entre X y Y.

sgn(x) Signo de x.

µ̃X Mediana poblacional de X.


TABLAS xxv

x̃ Mediana muestral observada de X.

4 Diferencia simétrica.

AF
dX Valor observado del coeciente de asimetría de Fisher muestral de X.

AG
dX Valor observado del coeciente de apuntamiento de Fisher de X.

AP
dX Valor observado del coeciente de asimetría de Pearson muestral de X.

AS
cX Valor observado del índice de asimetría de Yule-Bowley muestral de X.

CV
dx Coeciente de variación muestral observado de X.

AC Complemento del conjunto A.

B(α, β) Distribución beta de parámetros α y β.

B(x) Función beta.

Ber(π) Distribución Bernoulli de parámetro π.

Bin(n) Distribución binomial de parámetros n y π.

BN (r, π) Distribución binomial negativa de parámetros r y π.

Ckn Número de combinaciones de un conjunto de n elementos distintos tomados de k en k.

CVX Coeciente de variación poblacional de X.

Dx Desviación media observada de X.

DMx Desviación mediana observada de X.

dx Diferencial de x.

e Número de Euler.

Exp(λ) Distribución exponencial de parámetro λ.

f 0 (x) Derivada de f de x.

f (x) Función de x.

Fi Frecuencia relativa acumulada de la i-ésima clase.

fi Frecuencia relativa de la i-ésima clase.

fn (A) Frecuencia relativa de A.

FX (x) Función de distribución acumulada de X.

fX (x) Función de masa de probabilidad o función de densidad de probabilidad de X.

f•j Frecuencia relativa marginal de la j -ésima columna.


xxvi TABLAS

fi• Frecuencia relativa marginal de la i-ésima la.

fij Frecuencia relativa conjunta de la ij -ésima categoría.

fX|Y Distribución de probabilidad condicional de X dado que Y = y.

FXY (x, y) Función de distribución acumulada conjunta de X y Y.

fXY (x, y) Función de probabilidad conjunta de X y Y.

G(α, β) Distribución gamma de parámetros α y β.

G(r, π) Distribución geométrica de parámetro π.

Hg(n, M, N ) Distribución hipergeométrica de parámetros n, M y N.

IA Función indicadora de A.

Li Límite inferior de un intervalo.

Ls Límite superior de un intervalo.

mX (t) Función generadora de momentos de X.

M N (n, π1 , π2 , . . . , πp ) Distribución multinomial de parámetros n, π1 , π2 , . . . , πp .

N Tamaño de una población nita.

n Tamaño de una muestra.

N (µ, σ 2 ) Distribución normal de parámetros µ y σ2 .

Ni Frecuencia absoluta acumulada de la i-ésima clase.

ni Frecuencia absoluta de la i-ésima clase.

n•j Frecuencia absoluta marginal de la j -ésima columna.

ni• Frecuencia absoluta marginal de la i-ésima la.

nij Frecuencia absoluta conjunta de la ij -ésima categoría.

N B(µX , µY , σX , σY , ρXY ) Distribución normal bivariada de parámetros µX , µY , σX , σY , ρXY .

P Partición.

P (λ) Distribución de Poisson de parámetro λ.

Pkn Número de permutaciones de un conjunto de n elementos distintos tomados de k en k.

pp Percentil p de una muestra.

RX Rango de X.

Rx Rango observado de X.
TABLAS xxvii

rxy Coeciente de correlación de Pearson muestral observado entre X y Y.

RIx Rango intercuartílico observado de X.

rsxy Coeciente de correlación de Spearman observado entre X y Y.


2
SX Varianza muestral o cuasi-varianza de X.

Sx2 Varianza muestral o cuasi-varianza observada de X.

SX Desviación estándar muestral de X.

Sx Desviación estándar muestral observada de X.

Sxy Covarianza muestral observada de (X, Y ).

U (n) Distribución uniforme de parámetro n.

U [a, b] Distribución uniforme continua sobre el intervalo [a, b].

wi Ponderación de X asociado con el i-ésimo individuo, clase o marca de clase.

X Variable aleatoria X.

xi Valor de X asociado con el i-ésimo individuo, clase o marca de clase.

X(i) Estadístico de orden asociado con la i-ésima posición de una muestra aleatoria.

x(i) Valor observado del i-ésimo estadístico de orden.

zα Percentil α de la distribución normal estándar.


Parte I

Estadística descriptiva

1
Capı́tulo 1
Elementos generales

1.1. Introducción

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de
1
involucrarse en la mayoría de las áreas del conocimiento. La estadística es una ciencia auxiliar para
todas las ramas del saber, y su utilidad es evidente teniendo en cuenta que la mayoría de los quehaceres
y las decisiones en cualquier disciplina involucran cierto grado de incertidumbre o incerteza.

Los críticos de la estadística arman que a través de la estadística es posible mostrar o comprobar casi
cualquier cosa; esta es una concepción ligera y profana que se deriva de la ignorancia de la disciplina
estadística, dado que en estos casos se desconoce la teoría subyacente y la forma adecuada de interpre-
tar los resultados que permiten obtener conclusiones acertadas y precisas. Así, algunos investigadores
tendenciosos han abusado de la estadística, elaborando investigaciones de intención, teniendo previa-
mente los resultados que les interesa mostrar a personas ingenuas y no conocedoras de las técnicas
estadísticas. Otros, por ignorancia o negligencia, también abusan de la estadística utilizando métodos
no apropiados o razonamientos erróneos que conducen al fracaso de sus investigaciones.

Sólo adentrándose en un mundo especíco como en las ciencias sociales, la economía y la adminis-
tración, por ejemplo, es posible percibir que la estadística es una herramienta que permite dar luz y
obtener resultados, y por tanto benecios, en cualquier tipo de estudio teórico o aplicado, cuyos mo-
vimientos y relaciones, por su variabilidad intrínseca, no puedan ser abordados desde la perspectiva

1 La ciencia es el conjunto de conocimientos obtenidos mediante la observación y el razonamiento, sistemáticamente


estructurados y de los que se deducen principios y leyes generales (Real Academia Española 2012a). Surge de la obtención
del conocimiento mediante la observación de patrones regulares, de razonamientos y de experimentación en ámbitos
especícos, a partir de los cuales se generan preguntas, se construyen hipótesis, se deducen principios y se elaboran leyes
generales y esquemas metódicamente organizados (Wikipedia 2012b).

1
2 CAPÍTULO 1. ELEMENTOS GENERALES

de las leyes deterministas .


2
Pierre-Simon Laplace 3
, quien contribuyó enormemente al desarrollo
de la teoría de probabilidades armó: Podemos mirar el estado presente del universo como el efecto
del pasado y la causa de su futuro. Se podría condensar un intelecto que en cualquier momento dado
sabría todas las fuerzas que animan la naturaleza y las posiciones de los seres que la componen; si
este intelecto fuera lo sucientemente vasto para someter los datos al análisis, podría condensar en
una simple fórmula el movimiento de los grandes cuerpos del universo y del átomo más ligero; para
tal intelecto nada podría ser incierto y el futuro así como el pasado estarían frente sus a ojos.

Figura 1.1: Pierre-Simon Laplace (1749-1827).

1.2. Formas del saber

Los seres humanos poseen mayores o menores conocimientos, según el modo y el grado de participa-
ción en la cultura; pero de cualquier forma las formas y tipos de conocimientos generan dos modos
principales del saber que son el saber cotidiano y el saber cientíco . Se sabe de manera natural
por el solo hecho de vivir, y se sabe cientícamente cuando existe una disposición de conocer y de
indagar en lo desconocido con los procedimientos pertinentes.

El saber cotidiano es el conocimiento que se adquiere en la experiencia cotidiana, y trata de conocimien-


tos levemente conectados y arraigados entre si; sin embargo, pueden ser conocimientos superciales
constituidos por una yuxtaposición de casos y hechos. Es el modo espontáneo de conocer que se carac-
teriza por ser supercial y se conforma con lo aparente, puesto que está apoyado solo en la evidencia

2 Teoría que supone que la evolución de los fenómenos naturales está completamente determinada por las condiciones
iniciales (Real Academia Española 2012c).
3 Fotografía tomada de la página web http://www.educared.org/global/premiointernacional/finalistas/710/
biograf/Blaplace.html.
1.3. ¾QUÉ ES ESTADÍSTICA? 3

inmediata de lo que pasa, por lo que únicamente percibe la supercie de una realidad. Además, este
saber cotidiano no es sistemático, tanto en el proceso de adquisición y vinculación de la información,
como en el modo de establecer cánones de validación de la información; se limita a percibir lo inmedia-
to a través de experiencias, vivencias, estados de ánimo y emociones de la vida diaria, permaneciendo
en el nivel de la certeza sensorial.

De otra parte, se entiende por conocimiento cientíco, al conjunto de conocimientos racionales, ciertos
o probables, que obtenidos de manera metódica y vericados empíricamente, se sistematizan orgáni-
camente, cuyos contenidos son susceptibles de ser transmitidos.

El saber cientíco es racional, puesto que exige el uso de la razón y de una serie de elementos fun-
damentales como deniciones, proposiciones e hipótesis. Es cierto o probable, porque se trata con
verdades parciales, sujetas a corrección cuando nuevas experiencias demuestran la necesidad de recti-
cación. En la ciencia no existe la certeza absoluta . El conocimiento cientíco es metódico, ya
que no se obtiene al azar, sino mediante reglas lógicas, que acompañadas de procedimientos técnicos
se organizan según convenciones establecidas. También requiere la confrontación con la realidad y la
sistematización orgánica, porque no se trata de conocimientos inconexos sino de un saber ordenado
lógicamente, constituyendo un sistema de generalizaciones y principios que relacionan los hechos entre
si, deduciendo leyes y teorías. Además, los conocimientos de una ciencia deben ser transmisibles por
medio de un lenguaje que le sea propio y que debe responder a todas las exigencias de claridad y
precisión.

1.3. ¾Qué es estadística?

Para denir la estadística se debe precisar cada una de las técnicas que se emplean en los diferentes
campos en los que interviene. La denición dada en seguida permite apreciar la relación entre la
4
estadística y el método cientíco .

Denición 1.3.1. La estadística es la ciencia que se ocupa de los mé-


todos y las técnicas para recoger, clasicar, resumir y analizar conjuntos
de datos; así como de realizar inferencias a partir de ellos, con la nalidad
de tomar decisiones racionales en situaciones que impliquen incerteza.

Nota. Los datos asociados con una realidad determinada pueden provenir de muchas fuentes como
registros históricos, diseños experimentales o muestras.

4 El método cientíco es el camino a seguir mediante una serie de operaciones, reglas y procedimientos jados
de antemano de manera voluntaria y reexiva, para alcanzar un determinado n que puede ser material o conceptual
(Pérez 2004, p. 188).
4 CAPÍTULO 1. ELEMENTOS GENERALES

1.4. Clasicación de la estadística

La estadística se divide en dos grandes ramas de estudio que son la estadística descriptiva, cuando
los resultados del análisis no pretenden ir más allá del conjunto de datos observado, y la estadística
inferencial, cuando el objetivo del estudio es obtener conclusiones para un conjunto de datos más
amplio a partir de uno de menor tamaño. Estas dos ramas no son independientes, por el contrario,
son complementarias, y juntas proporcionan suciente información sobre la realidad, para que, quien
tenga poder de decisión, pueda tomar las medidas necesarias con el mayor grado de certeza posible.

Denición 1.4.1. La estadística descriptiva describe y representa


un grupo de datos utilizando métodos numéricos y grácos que resumen
y presentan la información contenida en ellos.

La estadística descriptiva evidencia tal cual es una situación y muestra lo que hay ; permite explicar
las observaciones que se hagan sobre un evento, fenómeno o problema de investigación, evidenciando
propiamente la forma en que los hechos ocurrieron o se manifestaron.

Denición 1.4.2. La estadística inferencial apoyándose en el cálcu-


lo de probabilidades y a partir de un conjunto de datos menor, permi-
te efectuar estimaciones, predicciones u otras generalizaciones sobre un
conjunto de datos mayor.

La estadística inferencial toma lugar cuando a partir de los resultados obtenidos de un conjunto
de datos dado se obtienen conclusiones acerca de un conjunto de datos más amplio. Es decir, las
conclusiones que se obtienen de los datos en estudio, rebasan los límites de los mismos. Generalmente,
el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, y para
probar hipótesis y teorías.

1.5. Algunos términos importantes


5
El objeto de estudio de la estadística son los fenómenos colectivos , donde el comportamiento de
6
una serie de características está afectado por la aleatoriedad intrínseca de la naturaleza de los fe-

5 También se puede tratar de un fenómeno individual repetido a través del tiempo (detalles en la sección 1.6). Éste
se puede entender como un fenómeno colectivo al considerar las ocasiones de medición como los elementos unitarios.
6 La aleatoriedad es una característica asociada a todo proceso cuyo resultado no es previsible, mas que en razón
de la intervención del azar, y por ende no se puede determinar en ningún caso antes de que éste se produzca.
1.5. ALGUNOS TÉRMINOS IMPORTANTES 5

nómenos en cuestión. A continuación se presentan algunos términos empleados frecuentemente en la


investigación de tales fenómenos.

Denición 1.5.1. Los individuos o elementos son los entes que se


quieren investigar. Así, una población , colectivo , o universo , se reere
al conjunto de todos los individuos o mediciones que satisfacen ciertas
características propias de la investigación.

Nota. La denición 1.5.1 no se reere únicamente a los seres vivos; una población puede estar consti-
tuida por los habitantes de un país o por los peces de un estanque, así como por los establecimientos
comerciales de un barrio o las viviendas de una ciudad.

Llevando a cabo una investigación se deben tener en cuenta algunas características esenciales al deli-
mitar la población en estudio, a saber, la homogeneidad, el tiempo, la cantidad y el espacio.

La homogeneidad se reere a que todos los miembros de la población tengan en común las caracte-
rísticas que se vayan a considerar en la investigación. Por ejemplo, si se investiga la incidencia de la
drogadicción en mujeres adolescentes, hay que denir precisamente el rango de edad de las jóvenes de
interés, de forma tal que todas las mujeres consideradas sean de la edad requerida.

El tiempo se reere al período donde se ubicaría eventualmente la población de interés. Determinar si


el estudio corresponde a la observación de los elementos en un momento determinado, o si corresponde
al seguimiento de los individuos a lo largo del tiempo.

La cantidad se reere al tamaño de la población. La falta de recursos como tiempo, dinero, espacio y
materiales puede limitar la extensión de la población que se quiere investigar. Por ejemplo, si se quiere
estudiar la preferencia de los colombianos frente a un producto determinado, no es necesario tener
en cuenta todas las personas económicamente activas del país, sino aquellos individuos que tengan
participación en el mercado del producto en cuestión.

El espacio se reere al lugar donde se localiza la población de interés. También, la falta de recursos
puede obligar al investigador a limitar el estudio a un conjunto de elementos más especíco. Siguiendo
el ejemplo anterior, puede que dicho producto se ofrezca principalmente en zonas particulares de las
ciudades intermedias.

Una población puede ser, según su tamaño, de dos tipos, a saber, nita o innita. Una población
nita es aquella donde el número de elementos que la conforma es nito. De otra parte, una población
innita es aquella donde el número de elementos que la forma es innito, o es tan grande que se puede
considerar innito. Por ejemplo, si se realiza un estudio sobre los productos que hay en el mercado,
hay tantos y de tantas calidades que esta población se puede considerar como innita.
6 CAPÍTULO 1. ELEMENTOS GENERALES

Denición 1.5.2. Se denomina muestra a un subconjunto de indivi-


duos o mediciones de una población.

Nota. La cantidad de individuos de una muestra se simboliza con n, mientras que la cantidad de
elementos que constituyen una población nita se representa con N.

Se distinguen dos tipos de muestras. La clasicación de una muestra depende de cuán representativa
sea de la población, lo que se identica por el método de obtención de la misma. Se tienen las
muestras obtenidas a partir de procesos de muestreo no probabilístico y de muestreo probabilístico.
Las muestras no probabilísticas se caracterizan porque el diseño muestral
7
correspondiente se
realiza en forma subjetiva, arbitraria, según el criterio del investigador o del entrevistador de campo.
En el muestreo no probabilístico no existe una oportunidad real de que un elemento en particular de
la población sea seleccionado y por lo tanto no es posible calcular la conabilidad de las inferencias
asociadas. De otra parte, las muestras probabilísticas se fundamentan en el chance que tiene cada
elemento de la población en hacer parte de la muestra. En estas muestras, dadas ciertas condiciones de
conabilidad, error máximo admisible y tamaño poblacional, se deja al azar el diseño de la muestra.
El muestreo probabilístico permite medir la conabilidad de los procesos de inferencia y el error
de muestreo que está asociado intrínsecamente en el proceso (Soto 2001, p.31-33). El muestreo es
indispensable para el investigador ya que en la mayoría de aplicaciones no es conveniente o posible
medir a todos los miembros de una población, esto es, realizar un censo . En tales casos, se requiere
una muestra representativa de la población con el propósito de obtener conclusiones válidas acerca de
todo el colectivo en estudio.

El tamaño de la muestra depende de la precisión con que el investigador desee llevar a cabo el estudio; se
debe usar una muestra tan grande como sea posible teniendo en cuenta los recursos disponibles. Cuanto
más grande sea el tamaño de muestra, mayor será la posibilidad de que la muestra sea representativa
de la población.

Denición 1.5.3. Se llama parámetro a una función denida sobre los


valores de una característica medible de una población. Similarmente,
se denomina estadístico (observado) a una función denida sobre los
valores de una característica medible de una muestra.

Nota. El concepto de parámetro y estadístico son casi idénticos. La única diferencia radica en el
conjunto de datos donde cada cual es calculado; mientras un estadístico se calcula utilizando los datos
de una muestra, un parámetro se calcula utilizando los datos de una población.

Ejemplo 1.5.1. El promedio muestral y el promedio poblacional de una población nita son ejemplos
de un estadístico y de un parámetro respectivamente. Suponga que X representa una característica

7 El diseño muestral comprende todos los aspectos relacionados con la obtención de una muestra respecto a la
características objeto de estudio, como los objetivos de la investigación, la estructura de la población y los recursos
disponibles (humanos, nancieros, materiales, de disponibilidad de tiempo, etc.).
1.6. VARIABLES 7

medible de interés (detalles en la sección 1.6 y 3.2) y que xi representa el valor de X asociado con el
i-ésimo individuo; así, el promedio muestral observado de X, denotado con x̄, se dene como:

n
x1 + x2 + . . . + xn 1X
x̄ = = xi
n n i=1

Análogamente, se dene el valor del promedio poblacional de X, denotado por µX , como:

N
x1 + x2 + . . . + xN 1 X
µX = = xi
N N i=1


Nota. Las expresiones dadas el ejemplo 1.5.1 son casi idénticas, pero la diferencia salta a la vista: en
la primera fórmula, se tiene la información de una muestra; mientras que en la segunda expresión, se
tiene la información de una población.

1.6. Variables

Las variables constituyen la materia prima de toda investigación estadística. En una investigación lo
primero que se debe hacer es delimitar la cuestión a investigar, lo que permite evidenciar las variables
preponderantes del estudio.

Denición 1.6.1. Una variable es una característica observable o me-


dible de un individuo, que se describe acorde a una escala de medición
bien denida. Cada rasgo, aspecto o característica de una población cons-
tituye una variable.

Algunos ejemplos de variables son la edad, el género, la raza, la nacionalidad, la estatura, el peso, el
ingreso, el número de nacimientos, la tasa de suicidios, el producto interno bruto, entre otras.

Nota. Las variables como la inteligencia, el gusto, el miedo y la vocación, por ejemplo, no son variables
observables. Tales características se denominan variables latentes . ¾Cómo realizar estudios que
involucren este tipo de variables? Generalmente se emplean variables auxiliares que reejen el atributo
que se quiere investigar, como los coecientes de inteligencia y las escalas de valores o anidad, por
ejemplo.

Las variables se pueden clasicar según su naturaleza como variables cualitativas o cuantitativas.

Las variables cualitativas son aquellas que se expresan en forma verbal como categorías o atributos.
El género, la raza, la aliación política, la nacionalidad y la profesión son ejemplos de variables
cualitativas.
8 CAPÍTULO 1. ELEMENTOS GENERALES

Las variables cuantitativas son aquellas que varían en términos de cantidad y se registran o expresan
en forma numérica. La edad, el peso, la estatura, la temperatura y el salario son ejemplos de variables
cuantitativas. A su vez, estas variables se clasican como sigue:

• Variables discretas : no admiten siempre un valor intermedio entre dos valores cualesquiera de
la variable. Por ejemplo, el número de hijos de una persona es una variable cuantitativa discreta.

• Variables continuas : siempre admiten un valor intermedio entre dos valores cualesquiera de
la variable. Por ejemplo, el salario de un empleado medido en millones de pesos es una variable
cuantitativa continua.

En ocasiones, por simplicidad, conviene expresar las variables cuantitativas como variables cualitativas.
Por ejemplo, las calicaciones de los estudiantes pueden ser categorizadas y expresadas como una
variable cualitativa. Así, el investigador puede utilizar una escala numérica de 0 a 5 para observar las
calicaciones de los estudiantes, y por comodidad expresar las observaciones por medio de categorías
acorde a un rango especíco de valores en el que la calicación del estudiante se encuentre, como por
ejemplo deciente, regular, bueno y excelente.

De otra parte, las variables tanto cualitativas como cuantitativas, también pueden ser clasicadas
como variables transversales o longitudinales . Las primeras son aquellas en las que el momento
de recolección de la información es el mismo para todos los individuos, o simplemente no es objeto de
estudio; mientras que las variables longitudinales son observadas repetidamente a través del tiempo.

Ejemplo 1.6.1. Una empresa de consultoría está creando un par de formularios para dos clientes
que necesitan información sobre un grupo particular de compañías que les son de interés. El primer
formulario indaga sobre el estado actual de las empresas de exportación respecto al año pasado, y
necesita establecer de éstas: el porcentaje de aumento de sus ventas respecto al año pasado, la cantidad
de clientes nuevos que tiene este año, el número de empleados que maneja y los grupos industriales
a los que exporta. De otro lado, el segundo formulario busca conocer los sectores industriales que se
encuentran en crecimiento constante y su posible horizonte nanciero. Para esto requiere establecer de
las industrias: el sector en el que se encuentra, el porcentaje de aumento en la producción y la cantidad
de clientes nuevos respecto al mes anterior. Clasicar las variables de interés. ¾Cuál formulario es
necesario diligenciar más de una vez?

Solución:

Para el primer formulario, el porcentaje de aumento de sus ventas respecto al año pasado es una
variable cuantitativa continua, ya que este valor puede ser cualquier número real. La cantidad de
clientes nuevos que tiene este año es una variable cuantitativa discreta, dado que si se tienen 10 u 11
clientes nuevos no es posible tener 10.5, por ejemplo. El número de empleados que maneja también
es una variable cuantitativa discreta, siguiendo el mismo razonamiento de la variable anterior. Por
último, los grupos industriales a los que exporta es una variable cualitativa, puesto que está asociada
con un número nito de valores cualitativos, a saber, industrial, comercial y de servicios.

En relación con el segundo formulario, el sector en el que se encuentra es una variable cualitativa como
1.7. MEDICIÓN 9

la última variable del formulario anterior. Además, el porcentaje de aumento en la producción y la


cantidad de clientes nuevos respecto al mes anterior son variables cuantitativas, continua y discreta
respectivamente, tal y como se explicó para el primer formulario.

De otra parte, lo que se debe determinar en cuanto al diligenciamiento de los formularios es el objetivo
de cada uno, es decir, la razón de ser de cada cual. El primer formulario pretende responder a una
cuestión puntual referida a una comparación entre la actualidad y un tiempo pasado, mientras que el
segundo está diseñado para conocer una tendencia con el propósito de conjeturar sobre una situación
futura. Luego, lo más adecuado es que el primer formulario sea diligenciado una sola vez en el tiempo
para realizar dicha comparación (estudio transversal), mientras que el segundo formulario requiere
que sea diligenciado varias veces para establecer la tendencia del crecimiento en el tiempo (estudio
longitudinal). Por ende las variables del primer formulario son variables transversales y las del segundo
son variables longitudinales. 
Nota. Un mismo formulario puede contener variables transversales y longitudinales.

1.7. Medición

Cuando se habla de estadísticas o de métodos estadísticos se está inmerso necesariamente en el campo


de la medición. Se quiere obtener información precisa del objeto en relación a las características de
interés, que al ser medibles, deben procurar información concisa y concreta del fenómeno investigado.
Toda información que pueda ser obtenida con estas características se le considera real y verdadera,
y por tanto se le adjudica validez. Por consiguiente, la medición es fundamental para que los juicios
sean acertados y validos.

Denición 1.7.1. La medición es un proceso mediante el cual se asig-


nan valores cuantitativos o cualitativos a los atributos de los elementos
objeto de estudio, de acuerdo a unas reglas claramente preestablecidas.

Cuando se trata de objetos físicos el proceso de medición es directo, porque es cuestión de seguir
cuidadosamente unas reglas acordadas de antemano expresadas mediante una escala determinada.
Por ejemplo, es fácil tomar la estatura de una persona, dado que no hay dicultades en asignar un
número a la distancia que hay desde la planta de los pies hasta la coronilla del individuo de acuerdo
con la escala de una cinta métrica.

Denición 1.7.2. Una escala de medición es un esquema especíco


para asignar símbolos o números con el objeto de designar los valores de
una variable.
10 CAPÍTULO 1. ELEMENTOS GENERALES

La taxonomía más conocida sobre las escalas de medición la presenta Stevens (1951) quien las clasica
en nominales, ordinales, de intervalos y de razón:

La escala nominal es aquella donde se clasican los individuos en categorías distintas. Consiste en
agrupar los individuos de acuerdo a alguna cualidad que los hagan propios de una categoría determi-
nada.

Es posible utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas.
Los números solo se utilizan con el propósito de etiquetar una determinada categoría. Por ejemplo, en
algunas encuestas se asigna el número 1 al género masculino y el número 2 al género femenino, con el
propósito de facilitar el almacenamiento y manejo de la información, pero ello no quiere decir que el
género masculino tenga mayor o menor valor que el género femenino.

Los números utilizados para efectos de identicación en una escala nominal, nunca se utilizan para
llevar a cabo procedimientos aritméticos. Su única función es identicar. De hecho, la medición en
una escala nominal es limitada porque solo permite efectuar una clasicación, mas no establecer la
magnitud de lo que se clasica.

La escala ordinal es aquella donde se clasican las unidades de observación en una posición con
relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan
números es solo para indicar el orden de las posiciones de lo que se está identicando. Por ejemplo,
una junta directiva se encuentra analizando tres diferentes alternativas A, B y C para una campaña
de mercadeo, y deciden que la alternativa A es la mejor y que la B es la peor; así, se han ordenado
las alternativas de acuerdo a la conveniencia para la campaña, pero no es posible evidenciar que tan
conveniente es la alternativa A respecto a las otras dos alternativas.

Con una escala ordinal tampoco se deben llevar a cabo las operaciones aritméticas. La diferencia
que pueda haber entre los elementos observados, no está constituida por unidades absolutas que se
puedan utilizar para determinar la distancia entre los objetos medidos. Por ejemplo, en una carrera
en la que no ha sido tomado el tiempo de los competidores, es posible establecer quién llegó primero,
y quién llegó segundo, pero no es posible establecer la diferencia entre los tiempos de llagada de los
competidores.

La escala de intervalo es aquella donde se ordenan los elementos según la magnitud del atributo que
representan y se proveen intervalos iguales entre las unidades de medida. No posee un cero absoluto,
dado que es establecido por convención de forma arbitraria por los expertos en el área de estudio; el 0
no implica la ausencia del atributo. Por ejemplo, la escala de medida de la inteligencia posee un valor
0, pero éste no indica que un ser humano no tenga inteligencia. Análogamente, si la temperatura de
un objeto es 0 grados centígrados, no es cierto que dicho elemento carezca de temperatura, ya que la
designación del valor 0 es arbitraria y convencional.

Una diferencia de cierta magnitud en una escala de intervalo signica lo mismo para todas las posibles
diferencias con esa misma magnitud. Por ejemplo, la diferencia en la temperatura entre 1 ‰ ‰y 2 es
equivalente a la diferencia entre 101‰ y 102 ‰ .
1.8. LA INVESTIGACIÓN ESTADÍSTICA 11

Por último, la escala de razón es aquella donde el punto 0 no es arbitrario y corresponde a una
total ausencia de la característica observada. Por ejemplo, la escala de medición de una regla de 10
centímetros es de razón, la cual está dividida en 10 unidades cada una de igual magnitud a partir de
un punto 0 absoluto y verdadero.

Algunas variables con las que se utiliza este tipo de escala se reeren a la ejecución de tareas motoras
y a los de aspectos siológicos. Dos ejemplos clásicos de la escala de razón son las medidas empleadas
para cuanticar la estatura y el peso de una persona. Además, dado el carácter absoluto del 0, la
razón entre los valores involucrados en esta escala de medida hace sentido.

1.8. La investigación estadística

En esta sección se señala el esquema de una investigación estadística, de la cual se hará énfasis en los
tópicos que se consideran de mayor relevancia e interés para el lector. El esquema de una investigación
estadística es el siguiente:

i. Planteamiento del problema.

ii. Introducción y justicación.

iii. Preguntas de investigación y/o formulación de las hipótesis.

iv. Objetivos.

v. Fundamentación teórica y de referencia.

vi. Población, muestra y medición.

vii. Diseño de la investigación.

viii. Presentación y publicación

ix. Cronograma y presupuesto.

x. Bibliografía.

Nota. Este es apenas un esquema de una investigación estadística y no es lineal e irreversible.

Planteamiento del problema

¾Qué realidad interesa investigar?

En una investigación es absolutamente necesario establecer qué y por qué se quiere estudiar algo.
Para ello, se debe lograr una delimitación clara, concreta e inteligible del problema que se quiere
12 CAPÍTULO 1. ELEMENTOS GENERALES

abordar, con el propósito de evidenciar su accesibilidad y solubilidad, de forma tal que por medio de
una revisión bibliográca responsable sea posible conocer el estado del arte, los resultados obtenidos
en investigaciones similares y corroborar las proposiciones básicas concebidas inicialmente.

Introducción y justicación

¾Qué se sabe de la realidad que interesa investigar? ¾Por qué interesa investigar esta realidad?

Antes de realizar cualquier investigación es obligatorio identicar qué se sabe acerca de la realizad
que se quiere examinar, con el propósito de establecer un punto de partida propio y real para el
estudio. Esto permite contextualizar e involucrar a todos los agentes de quienes pueda depender en
alguna medida la investigación. Por lo mismo es muy importante justicar apropiadamente por qué
es menester investigar tal realizad. De aquí depende que sea interesante y conveniente para todos los
actores involucrados, pues de ello depende muchas veces la consecución de los recursos.

Preguntas de investigación y/o formulación de las hipótesis

¾Qué particularidades interesan de los hechos objeto de estudio?

Una hipótesis es una explicación provisional de los hechos objeto de estudio y su formulación depende
del conocimiento que el investigador posea sobre la población investigada. Una hipótesis estadística
debe ser susceptible de prueba, esto es, se debe poder docimar o juzgar para su aceptación ó rechazo.

Objetivos

¾Qué se quiere encontrar en el fenómeno objeto de estudio? ¾Qué se espera que suceda con la inter-
vención?

Luego de establecer los hechos objeto de estudio, se debe presupuestar hasta dónde se quiere llegar
con la investigación; en otras palabras, se debe jar cuáles son los objetivos de la investigación.
Éstos se deben plantear de tal forma que no haya lugar a confusiones o ambigüedades. Además, es
recomendable diferenciar los objetivos a corto, mediano y largo plazo, así como los objetivos generales
y los especícos.

Fundamentación teórica y de referencia

¾En qué se apoya el investigador para estudiar esta realidad?


1.8. LA INVESTIGACIÓN ESTADÍSTICA 13

Se debe evidenciar todo el bagaje teórico que dirige la investigación, describiendo completamente el
sustento teórico del problema y las evidencias de todo tipo que se encuentren alrededor del mismo.
En la fundamentación también se denen los términos más relevantes del estudio, ilustrando sus
principales rasgos y características.

Población, muestra y medición

¾Quiénes forman parte de la realidad que se estudia? ¾De ellos, quiénes serán los informantes? ¾Qué
y cómo se quiere medir?

La unidad de observación , entendida como cada elemento de la población estudiada, debe ser
denida previamente, de tal forma que se destaquen todas sus características; pues, al n de cuentas,
es sobre las unidades de observación que se hace la medición. Una unidad de observación puede
estar constituida por un elemento (unidad de observación simple) o por varios elementos (unidad de
observación compleja).

De otra parte, el criterio sobre el proceso de medición debe ser previamente denido y unicado. Por
ejemplo, si se trata de medidas de longitud, volumen o peso, se debe establecer bajo qué unidad de
medida se tomarán las observaciones, ya sea en metros, pulgadas, libras, kilogramos, etc. Así mismo,
se deben detallar las condiciones bajo las cuales se ha de efectuar la toma de la información.

En variadas circunstancias, estudiar todos y cada uno de los elementos que conforman la población no
es aconsejable, ya sea porque los recursos económicos y humanos son limitados, la homogeneidad de sus
elementos no justica un censo, o tal vez porque puede ser necesario destruir la unidad de observación.
Por tales motivos se recurre al análisis de los elementos de una muestra con el n de hacer inferencias
respecto a la población. La muestra en cuestión debe ser representativa de la población, esto es, sus
elementos deben ser escogidos de manera aleatoria de tal forma que reejen las características propias
de todos los individuos que conforman el colectivo en estudio.

Diseño de la investigación

¾Cómo se desarrolla la investigación? ¾Cómo se organiza la investigación?

En esta etapa se presenta el panorama metodológico completo que evidencia la forma en que se
organiza todo el proceso de investigación y los aspectos metodológicos esenciales que guían el trabajo
del investigador. En esta fase es de suma importancia la claridad y la precisión para dar cuenta del
posicionamiento del investigador en el mapa metodológico de la investigación cientíca. Dentro del
panorama metodológico se deben contemplar de manera particular los siguientes aspectos: recolección,
crítica, clasicación y ordenación, y análisis de la información.
14 CAPÍTULO 1. ELEMENTOS GENERALES

Una de las etapas más importantes de la investigación es la recolección de la información, que ha de


8
partir a menos que se tenga experiencia con muestras análogas de una o varias muestras piloto en
las que se pondrán a prueba los instrumentos de medición y se obtendrá una idea preliminar de la
variabilidad de la población, con el n de calcular el tamaño exacto de la muestra que conduzca a una
estimación de los parámetros con la precisión deseada.

Establecer las fuentes de información, así como la complejidad del instrumento de medición, son
decisiones que se han de tomar teniendo en cuenta todos los factores involucrados en la observación
de los elementos objeto de estudio. Se debe, entonces, descubrir dónde está la información, cómo y a
qué costo se puede conseguir.

Después de reunir la información pertinente, se necesita la depuración de los datos recogidos. Para
hacer la crítica de la información, es fundamental el conocimiento de la población por parte de quien
depura, para que sea posible detectar, por ejemplo, falsedades en las respuestas, incomprensión a las
preguntas, o respuestas al margen de todas las posibles causas de nulidad de una pregunta. Una vez
separado el material de desecho de la información debidamente depurada se procede a establecer las
clasicaciones respectivas, y con la ayuda de hojas de trabajo, se ordenan las respuestas y se preparan
los modelos de tabulación de las variables que intervienen en la investigación. Los avances tecnológicos
hacen que estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.

La estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones de primera
mano en aseveraciones cuya conabilidad puede ser evaluada en la toma de decisiones. Esta es la fase
de cálculo de los estadísticos, el ajuste de los modelos y la prueba de las hipótesis estadísticas, con el
n de establecer y redactar las conclusiones denitivas.

Presentación y publicación

La información adquiere más claridad cuando se presenta en una forma adecuada. Los cuadros, las
tablas y los grácos facilitan el análisis, pero se debe tener especial cuidado con las variables que se
van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y grácos
redundantes que, antes que claridad, creen confusión. Además, la elección de los medios para mostrar
los resultados, se debe hacer no solo en función de las variables de interés, sino del lector a quien va
dirigido el informe.

8 Una muestra piloto es un subconjunto de objetos de estudio que no son necesariamente seleccionados bajo el rigor
teórico de una muestra probabilística. Una muestra piloto permite realizar una descripción preliminar del fenómeno
de estudio y probar varios pasos metodológicos de la investigación, con el n de realizar correcciones y examinar los
supuestos teóricos de las etapas posteriores.
1.9. COMENTARIOS 15

1.9. Comentarios

En este capítulo se presentan algunos conceptos básicos de estadística, con el propósito de alentar su
estudio y esclarecer las concepciones falsas que se tengan al respecto; como creer que la estadística
únicamente trata con los porcentajes y las frecuencias que aparecen continuamente en los periódicos.
Así, en este capítulo y en los siguientes, se muestra una concepción real de la estadística descriptiva
por medio de sus aplicaciones, dado que es una herramienta de gran utilidad, que requiere un uso
adecuado e inteligente.

Es indispensable tener claras las premisas y los fundamentos de la estadística, para que posteriormente
se entiendan los conceptos que se presentan, se apliquen los métodos de manera correcta, y se analicen
los resultados obtenidos objetivamente, con el n de no cometer errores astronómicos como, por
ejemplo, establecer que tomar café produce cáncer, conclusión que eventualmente podría surgir de
un estudio cuyos pacientes son en su mayoría fumadores.

Por último, se resalta la importancia de una investigación cientíca como herramienta de estudio, dado
que a través de las hipótesis, los protocolos y/o las metodologías desarrolladas en una investigación de
tales características, es posible obtener conclusiones válidas sobre un tema de interés, con el propósito
de tomar decisiones conscientes en situaciones que impliquen incertidumbre.

1.10. Ejercicios
1.1 Clasicar se según su naturaleza y establecer la escala de medición de las siguientes variables:

a. Estrato socio-económico. j. Edad en años cumplidos.

b. Género. k. Categoría de un hotel.

c. Número de errores.
l. Opinión.
d. Filiación política.
m. Profesión.
e. Calicación de una prueba.
n. Número de hermanos.
f. Nivel educativo.
ñ. Ingresos mensuales.
g. Estatura.

h. Temperatura. o. Utilidades anuales.

i. Clasicación étnica. p. Tiempo requerido para ejecutar una tarea.

1.2 Proponer una posible unidad de observación para cada variable del numeral anterior.

1.3 Un investigador educativo quiere evaluar la efectividad de un nuevo método para enseñar a leer a
estudiantes sordos. El aprovechamiento al nal del periodo de enseñanza se mide con la puntuación
del estudiante en una prueba de lectura.

a. ¾Cuál es la variable de estudio? ¾Qué tipo de variable de es? ¾Cuál es la escala de medición?
16 CAPÍTULO 1. ELEMENTOS GENERALES

b. ¾Cuál es la unidad de observación?

c. Identicar la población de interés para el investigador.

1.4 Una empresa tuvo el año pasado algunas ventas de gran importancia. Los datos correspondientes
(en millones de pesos) se muestran en la siguiente tabla:

100,224.95 103,534.54 80,479.93 97,141.20 88,540.67


97,788.97 104,677.53 96,922.26 111,849.34 97,658.20
83,544.03 85,503.09 113,221.35 108,896.68 111,106.26
92,809.99 95,635.89 109,069.38 101,072.17 105,795.74

a. Calcular la venta promedio.

b. Calcular la media muestral de cada una de las muestras conformadas por las siguientes obser-
vaciones: {10; 15}, {1; 2; 5; 10; 13} y {1; 4; 7; 9; 12; 15; 19; 20}. Las observaciones están ordenadas
por las.

c. ¾Qué puede concluir de los valores obtenidos en el numeral anterior?

1.5 Haciendo un estudio sobre la intención de voto en una población conformada por 5 millones de
votantes, de los cuales 2,900,000 son mujeres, se elige una muestra formada por 3,000 personas.
¾Cuántas mujeres y cuántos hombres deberá haber en la muestra elegida guardando las propor-
ciones dadas en la población?

1.6 ¾Cuáles son las principales diferencias entre la estadística descriptiva y la estadística inferencial?

1.7 ¾Las siguientes poblaciones son nitas o innitas? ¾Por qué?

a. Artículos elaborados por una fábrica determinada.

b. Lotes de artículos elaborados por una fábrica determinada el año pasado.

c. Bacterias que se encuentran en un pozo.

d. Empresas nacionales cuyas utilidades superan un millón de dólares anuales.

e. Posibles causas de la mala alimentación en una población determinada.

f. Epidemias reportadas en el mundo el año pasado.

1.8 Dada las motivaciones actuales que se tienen sobre el estudio del ser humano y sus interacciones
con el sexo opuesto, un centro de investigación decidió estudiar a tres grupos de personas de
manera independiente. El primero está conformado por 15 hombres y 15 mujeres, el segundo por
20 hombres y 10 mujeres, y el tercero por 10 hombres y 20 mujeres. El objetivo del estudio es
detectar los comportamientos que se encuentran solamente en uno de los grupos, es decir, aquellos
comportamientos que no se tengan en más de uno de ellos. ¾Este estudio haría uso de la estadística
descriptiva o de la estadística inferencial? ¾Por qué?

1.9 En los siguientes casos identicar la población, la muestra, la unidad de observación, la variable
de interés y si la medición es cuantitativa o cualitativa:
1.10. EJERCICIOS 17

a. Varias veces durante el día un ingeniero de control de calidad de una fábrica, seleccionada
aleatoriamente algunos artículos producidos, los examina y registra el número de imperfecciones
que encuentra en cada artículo.

b. Durante una auditoria, cierta cantidad de cuentas de una rma fueron seleccionadas aleatoria-
mente y examinadas en busca del número de errores.

c. Un examen de inteligencia es aplicado a un grupo de niños que reciben educación especial.


Todos los niños cursan el segundo grado y han sido escogidos para recibir un nuevo programa
de instrucción impartido en una escuela del distrito. El examen debe ser aplicado antes y
después de que reciban la instrucción.

d. Un gerente desea conocer si aquellos empleados que reciben 25 días de vacaciones son más
productivos durante el año que aquellos que reciben solo 15 días. El gerente selecciona una
muestra de 40 trabajadores y registra su rendimiento.

1.10 En los siguientes casos distinguir las muestras aleatorias de las que no lo son:

a. Un fabricante necesita tener la certeza de que menos del 2 % de los artículos de un embarque
son defectuosos, de modo que prueba cierta cantidad de ellos tomados de los que vienen arriba
de un cargamento.

b. El Ministerio de Salud desea saber si una tienda particular reúne los requisitos del código
sanitario. Para ello decide visitar la tienda el quinto día de cada mes.

c. La rectoría de una universidad desea establecer la proporción de estudiantes activos que están de
acuerdo con una reforma del reglamento estudiantil, por lo que contrata a un grupo de personas
para indagar sobre tal cuestión a los estudiantes que logren contactar un día determinado en
la plaza central de la institución.

1.11 Establecer las diferencias entre:

a. Parámetro y estadístico.

b. Población y muestra.

c. Muestro probabilístico y muestreo no probabilístico.

1.12 Enumerar los siguientes términos en el orden adecuado: conocimiento, datos e información. Jus-
ticar.

1.13 Identicar tres tópicos actuales relacionados con la política, la economía y las ciencias sociales,
de los cuales se requiera algún tipo de información. Describir la información que se necesita para
investigar cada tópico.

1.14 Describir tres técnicas reconocidas del muestro no probabilístico.

1.15 Realizar el esqueleto de una investigación cientíca para un tema que le sea de particular interés,
en el cual haga mención de los puntos más importantes de una investigación estadística.
Capı́tulo 2
Tablas y grácas estadísticas

2.1. Introducción

Una de las primeras etapas en el análisis estadístico es la exploración de los datos, en la cual se resume
la información de las variables de manera compacta y precisa. Con este n se generan tablas y grácas
que evidencien claramente el comportamiento de las variables de manera individual y conjunta. Sin
1
embargo, una de las aplicaciones que mayor relevancia tiene este tipo de análisis es la depuración de
la información, puesto que la mayoría de anomalías se reejan de manera particular dentro del análisis
exploratorio de los datos. Por ello es que la mayoría de tales análisis enfatizan el estudio univariado
de los datos, es decir, de una sola variable a la vez.

La depuración de la información no es la única utilidad que tiene la exploración de los datos, ya


que también permite evidenciar tendencias de los individuos investigados y clasicar tales unidades de
acuerdo a los parámetros de homogeneidad establecidos, o estudiar la interacción entre varias variables
de interés.

Nota. Algunas anomalías de los datos pueden ser: datos faltantes, pérdidas de formato, errores de
digitación, valores no probables y no respuesta, por ejemplo.

1 La depuración es el proceso mediante el cual se realiza una inspección en busca de anomalías dentro de la estructura
de datos que posteriormente son eliminadas y/o corregidas.

18
2.2. TABLAS ESTADÍSTICAS 19

2.2. Tablas estadísticas

Considere un conjunto de n individuos asociado con una variable cuyas modalidades o valores han
sido agrupados en k clases o categorías denotadas con C1 , C2 , . . . , Ck . Para cada una de las k clases
se denen las siguientes magnitudes:

Denición 2.2.1. La frecuencia absoluta de la clase Ci , denotada con ni , es la


cantidad de observaciones que hacen parte de la i-ésima categoría para i = 1, . . . , k .

Denición 2.2.2. La frecuencia relativa de la clase Ci , denotada con fi , es la propor-


ción de la frecuencia absoluta de la i-ésima categoría respecto al total de observaciones,
esto es,
ni
fi =
n
para i = 1, . . . , k .

Nota. Multiplicado por 100 % la fórmula de la denición 2.2.2, fi representa el porcentaje de individuos
comprendidos en la clase correspondiente.

Denición 2.2.3. La frecuencia absoluta acumulada de la clase Ci , denotada con


Ni , es la cantidad de individuos cuya modalidad es inferior o igual a la i-ésima categoría,
es decir,
i
X
Ni = nj
j=1

para i = 1, . . . , k .

Denición 2.2.4. La frecuencia relativa acumulada de la clase Ci , denotada con


Fi , es la proporción de individuos respecto al total de observaciones cuya modalidad es
inferior o igual a la i-ésima categoría, es decir,

Ni
Fi =
n
para i = 1, . . . , k .
20 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Nota. Las frecuencias acumuladas se calculan para variables medidas en una escala al menos de tipo
ordinal; aunque también se pueden calcular para variables nominales, su interpretación es de cuidado,
de acuerdo al orden arbitrario de las clases establecido previamente.

Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuen-
cias correspondientes. Una tabla con tales características sirve para presentar de forma ordenada la
distribución de los datos. Su forma general se presenta en la tabla 2.1.

Proposición 2.2.1. En una distribución de frecuencias de una categoría con k clases se cumplen las
siguientes propiedades:

i. iii.
k
X i
X
fi = 1 Fi = fk
i=1 k=1

ii. iv.
Nk = n Fk = 1

La demostración se deja como ejercicio para el lector.

Ci ni fi Ni Fi
C1 n1 f1 N1 F1
C2 n2 f2 N2 F2
. . . . .
. . . . .
. . . . .
Ck nk fk n 1
Total n 1 N.A. N.A.

Tabla 2.1: Formato general de una distribución de frecuencias.

2.2.1. Tablas para variables cualitativas

A continuación se presentan algunos ejemplos relacionados con el resumen de la información asociada


con variables cualitativas. En la construcción de las tablas estadísticas correspondientes se debe tener
en cuenta la escala de medición para establecer si es pertinente emplear las frecuencias acumuladas.

Ejemplo 2.2.1. Considerar el conjunto de datos de la tabla 2.2 asociados con una encuesta de opinión
acerca de una medida económica. Elaborar la tabla de frecuencias correspondiente.

Solución:

La variable opinión, es una variable cualitativa nominal que toma los valores A favor, En contra
y NS/NR, de tal forma que el número de clases es k = 3. La tabla 2.3 corresponde a la distribución
de frecuencias requerida.
2.2. TABLAS ESTADÍSTICAS 21

1 0 0 1 1 3 1 3 1 3
0 0 0 3 0 0 0 1 1 0
1 0 0 0 0 0 1 1

Tabla 2.2: Datos asociados con una encuesta de opinión acerca de una medida económica. 1=A favor; 0=En contra;
3=No Sabe/No Responde (NS/NR).

Ci ni fi
A favor 10 35.7 %
En contra 14 50.0 %
NS/NR 4 14.3 %
Total 28 100 %

Tabla 2.3: Distribución de frecuencias de los datos de la tabla 2.2.

Como la escala de medición de la variable opinión es nominal entonces no hacen sentido las frecuen-
cias acumuladas. 
Ejemplo 2.2.2. Considerar el conjunto de datos de la tabla 2.4 asociados con el nivel educativo de
algunos empleados de una empresa. Elaborar la tabla de frecuencias correspondiente.

B D M B B P B M B B
B P B M B B M B M B
B B B B B B P B B B
B M B P B B M B B B
D B M B P B B B P P

Tabla 2.4: Datos asociados con el nivel educativo de algunos empleados de una empresa. B= Bachillerato; P= Pregrado;
M= Maestría; D= Doctorado.

Solución:

La variable nivel educativo, es una variable cualitativa ordinal que toma los valores Bachillerato,
Pregrado, Maestría y Doctorado, por lo que el número de categorías es k = 4. La tabla 2.5
corresponde a la distribución de frecuencias requerida.

Como la escala de medición de la variable nivel educativo es ordinal entonces hacen sentido las
frecuencias acumuladas. 

Otro tipo de tablas para variables cualitativas son generadas a partir de dos o más variables cualita-
tivas, denominadas tablas de clasicación a p vías, donde p es el número de variables cualitativas que
se estén considerando. En el ejemplo 2.2.3 se presenta una tabla a dos vías de clasicación.
22 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Ci ni fi Ni Fi
Bachillerato 33 66.0 % 33 66.0 %
Pregrado 7 14.0 % 40 80.0 %
Maestría 8 16.0 % 48 96.0 %
Doctorado 2 4.0 % 50 100 %
Total 50 100 % N.A. N.A.

Tabla 2.5: Distribución de frecuencias de los datos de la tabla 2.4.

Ejemplo 2.2.3. Un estudio sobre el comportamiento de diferentes razas de perros generó la clasi-
cación que se presenta en la tabla 2.6 respecto a su tamaño (T ) y su afectividad (A).

Raza T A Raza T A
bass Peq Baja galg Gra Baja
beau Gra Alta gasc Gra Baja
boxe Med Alta labr Med Alta
buld Peq Alta masa Gra Alta
bulm Gra Baja mast Gra Baja
cani Peq Alta peki Peq Alta
chih Peq Alta podb Med Alta
cock Med Alta podf Gra Baja
coll Gra Alta poin Gra Baja
dalm Med Alta sett Gra Baja
dobe Gra Baja stbe Gra Baja
dogo Gra Baja teck Peq Alta
foxh Gra Baja tern Gra Baja
foxt Peq Alta

Tabla 2.6: Datos asociados con la clasicación con respecto al tamaño y a la afectividad de un grupo de perros. Peq=
Pequeño; Med= Mediano; Gra= Grande.

Con el propósito de empezar una campaña de mercadeo con esta clasicación, interesa conocer el
porcentaje de razas que son grandes y afectivas, y también el porcentaje de razas que son pequeñas y
afectivas. Para tal n se genera la tabla 2.7 a dos vías de clasicación con las variables en cuestión.

De esta tabla se concluye que las razas de perros cuyos tamaños son grandes, en su mayoría son poco
afectivas, mientras que las razas de perros cuyo tamaño es pequeño frecuentemente son muy afectivas,
por lo que en la campaña se considerará un enfoque publicitario en las razas de perros pequeños. 
2.2. TABLAS ESTADÍSTICAS 23

T \A Alta Baja Total


Grande 11.1 % 44.4 % 55.5 %
Mediano 18.5 % 0.0 % 18.5 %
Pequeño 22.2 % 3.7 % 25.9 %
Total 51.8 % 48.1 % 1.00 %

Tabla 2.7: Tabla a dos vías de clasicación de los datos de la tabla 2.6.

2.2.2. Tablas para variables cuantitativas

Cuando una variable es cuantitativa de razón, no se dispone directamente de un conjunto de k clases


para elaborar la tabla de distribución de frecuencias. El siguiente es un procedimiento que permite
crear las categorías para este tipo de variables:

1. Seleccionar el número de categorías k. Para tal n se distinguen tres alternativas:

i. Elegir arbitrariamente k tal que5 ≤ k ≤ 16.



ii. Elegir k mediante la fórmula k ≈ n.
iii. Elegir k mediante la fórmula k ≈ 1 + 3.3 log(n). Esta fórmula se conoce como la regla de
Sturges (Sturges 1926).

Nota. Los resultados de estas fórmulas generalmente no coinciden, así que el usuario decidirá a
conveniencia cuantas clases utilizar.

2. Obtener el mínimo y el máximo de los valores que de la variable. Si X es la variable de interés


entonces el mínimo y el máximo de X se denotan con xmı́n y xmáx respectivamente.

3. Calcular el rango o recorrido de X. El rango se simboliza con RX y su fórmula es:

RX = xmáx − xmı́n

4. Calcular la amplitud de las categorías. La amplitud se denota con a y por facilidad conviene
que sea igual para todas las clases. La fórmula de la amplitud es:

RX
a= (2.1)
k

5. Establecer las categorías de la siguiente manera:

• C1 = {x : l0 ≤ x < l1 } donde l0 = xmı́n y l1 = l0 + a.


• C2 = {x : l1 ≤ x < l2 } donde l2 = l1 + a .
.
.
.

• Ci = {x : li−1 ≤ x < li } donde li = li−1 + a.


24 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

.
.
.

• Ck = {x : lk−1 ≤ x ≤ lk } donde lk = lk−1 + a = xmáx .

Ejemplo 2.2.4. Considerar el conjunto de datos de la tabla 2.8 asociados con las ganancias (en
millones de pesos) en un día determinado de una muestra de empresas de una ciudad. Elaborar la
distribución de frecuencias correspondiente.

103.1 82.1 106.2 100.9 91.8 96.1 126.9


119.8 93.1 86.8 75.2 93.0 82.3 94.8
64.2 105.3 108.0 86.3 81.8 138.1 92.5
66.3 66.6 142.2 96.5 74.8 95.4 100.1
81.9 112.0 116.8 103.2 66.1 60.4 78.7

Tabla 2.8: Datos asociados con las ganancias en un día determinado de una muestra de empresas de una ciudad.

Solución:

La variable ganancias es una variable cuantitativa de razón. Es claro que esta variable no está dada
en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:


1. Se opta por trabajar con k = 6 clases dado que 35 = 5.916 ≈ 6 y 1 + 3.3 log10 (35) = 6.095 ≈ 6.

2. xmı́n = 60.4 y xmáx = 142.2.

3. RX = xmáx − xmı́n = 142.2 − 60.4 = 81.8.

4. a = 81.8/6 = 13.63.

5. Las clases resultantes son:

• C1 = {x : l0 ≤ x < l1 } donde l0 = 60.40 y l1 = 60.40 + 13.63 = 74.03.


• C2 = {x : l1 ≤ x < l2 } donde l2 = 74.03 + 13.63 = 87.67.
• C3 = {x : l2 ≤ x < l3 } donde l3 = 87.67 + 13.63 = 101.30.
• C4 = {x : l3 ≤ x < l4 } donde l4 = 101.30 + 13.63 = 114.93.
• C5 = {x : l4 ≤ x < l5 } donde l5 = 114.93 + 13.63 = 128.57.
• C6 = {x : l5 ≤ x ≤ l6 } donde l6 = 128.57 + 13.63 = 142.20.

Lo que sigue es enumerar la cantidad de datos en cada categoría, y así obtener la distribución de
frecuencias requerida (tabla 2.9).

Dado que las ganancias están medidas en una escala de razón hacen sentido las frecuencias acumuladas.

2.3. GRÁFICAS ESTADÍSTICAS 25

Ci ni fi Ni Fi
[60.40; 74.03) 5 14.3 % 5 14.3 %
[74.03; 87.67) 9 25.7 % 14 40.0 %
[87.67; 101.30) 10 28.6 % 24 68.6 %
[101.30; 114.93) 6 17.1 % 30 85.7 %
[114.93; 128.57) 3 8.6 % 33 94.3 %
[128.57; 142.20] 2 5.7 % 35 100 %
Total 35 100 % N.A N.A

Tabla 2.9: Distribución de frecuencias de los datos de la tabla 2.8.

2.3. Grácas estadísticas

En la estadística descriptiva se utilizan grácas de diversos tipos dependiendo de las características en


estudio. Entre ellos se destacan los siguientes: diagramas de barras, diagramas de sectores, pictogramas,
diagramas de tallo y hojas, histogramas y polígonos de frecuencias. Es una buena costumbre elaborar
una gráca para cada distribución de frecuencias que tenga lugar.

2.3.1. Grácos para variables cualitativas

Diagrama de barras

Un diagrama de barras es una representación gráca en la que cada una de las modalidades de la
variable de interés se representa mediante una barra. En este gráco se disponen los datos en el
primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas (eje x) una barra
para cada modalidad de la variable. La altura de la barra debe ser proporcional a la frecuencia absoluta
o relativa que se representa en el eje de las ordenadas (eje y ).
Nota. Estos diagramas se utilizan tanto para variables cualitativas como cuantitativas discretas cuando
la cantidad de categorías lo permite.

Ejemplo 2.3.1. En la gura 2.1 se muestra un diagrama de barras en el que se representa el estado
civil de una muestra de personas de una localidad. 

Diagrama de sectores

En el diagrama de sectores se divide un círculo en tantas porciones como categorías tenga la variable,
de modo que a cada clase le corresponda un sector del círculo proporcional a su frecuencia absoluta o
26 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Figura 2.1: Ejemplo de un diagrama de barras.

relativa. El arco de cada porción se puede calcular usando la siguiente regla de tres:

n −→ 360o
ni −→ vi

lo que da como resultado


ni × 360o
vi =
n
donde vi es el ángulo asociado con el sector circular de la i-ésima categoría para i = 1, . . . , k .

Ejemplo 2.3.2. En la gura 2.2 se presenta un diagrama de sectores relacionado con la clasicación
de una muestra de empresas de una ciudad. 

Nota. En algunas situaciones es de interés comparar dos conjuntos de datos. En tales casos es acon-
sejable el uso de las frecuencias relativas en los grácos para efectuar directamente la comparación.
Además, si los grácos usan los ejes coordenados, se debe procurar que éstos tengan la misma escala
de medida.
2.3. GRÁFICAS ESTADÍSTICAS 27

Figura 2.2: Ejemplo de un diagrama de sectores.

2.3.2. Grácos para variables cuantitativas

Para las variables cuantitativas, se consideran dos tipos de grácos en función del uso de las frecuencias
absolutas o relativas, a saber, diagramas diferenciales y diagramas integrales.

Denición 2.3.1. Un diagrama diferencial es un gráco donde se


representan las frecuencias absolutas o relativas. Mientras que un dia-
gramas integral es un gráco en el que se representan las frecuencias
absolutas o relativas acumuladas.

Nota. Dado que los diagramas integrales se construyen a partir de las frecuencias acumuladas, éstos
dan lugar a grácos crecientes.

Como se ha visto, hay dos tipos de variables cuantitativas: discretas y continúas. A continuación se
muestran algunas representaciones grácas para cada una de ellas.
28 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Grácos para variables cuantitativas discretas

Cuando se trabaja con una variable cuantitativa discreta, se utiliza como diagrama diferencial un
diagrama de barras. Se recomienda que las barras sean estrechas para evidenciar que los valores que
toma la variable son discretos. El diagrama integral tiene, dada la naturaleza de la variable, forma de
escalera.

Ejemplo 2.3.3. Para la información dada en la tabla 2.10 elaborar los diagramas diferencial e integral
correspondientes.

Número de hijos 1 2 3 4
Frecuencia 1 3 5 3

Tabla 2.10: Clasicación de un grupo de familias por el número de hijos.

Solución:

En primer lugar, se debe obtener la distribución de frecuencias del número de hijos. Tal distribución
se presenta en la tabla 2.11. Con las frecuencias relativas se realizan los diagramas requeridos. Los
grácos utilizando las frecuencias absolutas son idénticos salvo por un cambio de escala en el eje de
las ordenadas.

Se observa que el gráco integral es creciente y que los saltos corresponden a la magnitud de las
barras del gráco diferencial. En la gura 2.3 se presentan estos grácos. 

Ci ni fi Ni Fi
1 1 0.083 1 0.083
2 3 0.250 4 0.333
3 5 0.416 9 0.750
4 3 0.250 12 1
Total 12 1 N.A. N.A.

Tabla 2.11: Distribución de frecuencias de los datos de la tabla 2.10.

Grácos para variables cuantitativas continuas

Histogramas y polígonos de frecuencias

Cuando las variables son cuantitativas continuas se utilizan los histogramas y los polígonos de fre-
cuencias. Un histograma se construye a partir de la distribución de la frecuencias asociando a cada
categoría un rectángulo que tiene a cada intervalo como base. El criterio para calcular la altura de
2.3. GRÁFICAS ESTADÍSTICAS 29

Figura 2.3: Grácos diferencial (a) e integral (b) de los datos de la tabla 2.10.

cada rectángulo es mantener la proporcionalidad entre la frecuencia de cada intervalo y el área del
mismo.

Una vez se ha elaborado el histograma, el polígono de frecuencias consiste en unir mediante líneas
rectas los puntos superiores de cada rectángulo localizados en los puntos medios de cada intervalo.
Tales cantidades se denominan marcas de clase y están dadas por

li−1 + li
xi =
2
donde xi denota la marca de clase, y li−1 y li son el límite inferior y superior respectivamente de
i-ésimo intervalo para i = 1, . . . , k .

Un polígono de frecuencias acumulado u ojiva es un diagrama integral para una variable cuan-
titativa continua, y se obtiene de la misma forma que un polígono de frecuencias corriente, pero en
lugar de dibujar el polígono sobre el histograma, se representa sobre el diagrama de barras de las
frecuencias acumuladas.

Ejemplo 2.3.4. En la gura 2.4 se presenta un ejemplo de un polígono de frecuencias y un polígono


de frecuencias acumulado. 

Nota. Con el propósito de facilitar la lectura de los histogramas y de representar la información con
mayor precisión, es costumbre suavizar los polígonos de frecuencias como se ilustra en la gura 2.5.
30 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Figura 2.4: Ejemplo de un polígono de frecuencias (a) y de un polígono de frecuencias acumulado (b).

Figura 2.5: Ejemplo de un polígono de frecuencias suavizado.


2.3. GRÁFICAS ESTADÍSTICAS 31

Pictogramas

Un pictograma expresa con dibujos alusivos al tema de estudio las frecuencias de las modalidades de
la variable. Estos grácos se hacen representando a diferentes escalas un mismo dibujo. El escalamiento
de los dibujos debe ser de tal forma que el tamaño de cada uno de ellos sea proporcional a la frecuencia
absoluta o relativa de la modalidad que representa. Este tipo de grácos suele usarse en los medios de
comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una
explicación compleja.

Ejemplo 2.3.5. En la gura 2.6 se presenta un pictograma


2
en el que se evidencia el número de
hectáreas de trigo cultivadas entre 1992 y 1997. 

Figura 2.6: Ejemplo de un pictograma.

Cartogramas

Los cartogramas se utilizan cuando los datos disponibles hacen referencia a diferentes zonas geográ-
cas, de forma tal que los diferentes valores de la variable se indican con diferentes colores y tramas
sobre la zona correspondiente de acuerdo con el carácter que representan.

Ejemplo 2.3.6. En la gura 2.7 se presenta un cartograma


3
en el que se evidencia la urbanización
en el mundo atendiendo a la industrialización. 

Diagrama de tallos y hojas

Similar a un histograma, un diagrama de tallos y hojas es una forma adicional de representar


las frecuencias asociadas con una variable cuantitativa, donde las clases conforman los tallos y las
frecuencias correspondientes al interior de cada tallo son las hojas . Una forma de elaborar el diagrama
si los datos son números de dos cifras, por ejemplo, consiste en escoger cada tallo como el primer dígito

2 Gráca tomada de la página web http://profematesnoemi.blogspot.com/2011/04/


ejemplos-de-pictogramas-estadisticos.html.
3 Gráca tomada de la página web http://www.ceibal.edu.uy/contenidos/areas_conocimiento/mat/estadistica/
cartograma.html.
32 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Figura 2.7: Ejemplo de un cartograma.

de los datos y cada hoja como el último dígito; de tal forma que si el dato es 42 entonces el tallo es
4 y la hoja es 2. El diagrama usa una representación en dos columnas; en la primera se ordenan los
valores de los tallos, y en la segunda, separada por una línea vertical de la primera, se colocan dentro
los valores de cada hoja ordenados ascendentemente sin importar que haya valores repetidos.

Nota. Cuando los datos son números muy grandes es necesario aproximarlos a cantidades cercanas a
cientos, dependiendo de las diferencias que se presenten.

44 45 50 62 45 51 44 50 58 44
49 62 61 53 56 56 60 54 55 47

Tabla 2.12: Datos asociados con el número de clientes de un almacén atendidos en los últimos 20 días.

Ejemplo 2.3.7. Un almacén reconocido con una capacidad máxima de atención de 60 clientes está
considerando contratar más personal, puesto que en los últimos días se ha visto corta de empleados
para atender a la clientela. Para vericar esto se realiza un diagrama de tallos y hojas con la información
de la tabla 2.12 correspondiente al número de clientes atendidos en los últimos 20 días.

Una vez realizado este diagrama de tallo y hojas (tabla 2.13), el almacén decide no contratar más
personal, puesto que la capacidad de atención a sido superada únicamente en 3 ocasiones. 

Diagramas de líneas
2.4. COMENTARIOS 33

Tallo | hojas
4 | 4445579
5 | 001345668
6 | 0122

Tabla 2.13: Ejemplo de un diagrama de tallo y hojas.

Los diagramas de líneas son grácos diseñados especialmente para representar una estructura
especial de datos longitudinales (detalles en la sección 1.6) denominada serie de tiempo. Este tipo
de datos surge cuando un mismo individuo es observado en diferentes ocasiones momentos con el
propósito de analizar la evolución de la variable de estudio a través del tiempo y de realizar pronósticos
con base en la tendencia observada. En estos diagramas la variable de estudio se presenta en el eje
y, mientras que los tiempos de medición correspondientes se muestran en el eje x, de tal forma que
se unen mediante líneas rectas las observaciones registradas. Ejemplos clásicos de las series de tiempo
son las series económicas.

Ejemplo 2.3.8. En la gura 2.8 se presenta un ejemplo de una serie de tiempo correspondiente al
4
precio nal (en miles de pesos) del galón de gasolina corriente en Bogotá .

2.3.3. Sobre los grácos

Cuando se elabora un gráco hay que tener en mente su objetivo primordial: dar a entender de
manera clara y sencilla el comportamiento de una o varias variables e identicar fácilmente cualquier
fenómeno de interés, como la concentración de los valores de una variable en alguna clase, la existencia
categorías sin propósito, la presencia de datos atípicos, etc. Por tal motivo, se debe tener especial
atención en las partes que conforman los grácos, como el título principal, el título de los ejes, el
color, el tamaño y la escala, ya que se puede desviar la atención del gráco cuando éste es muy
estrambótico o colorido, o dicultar la lectura cuando se desconoce el signicado de los ejes, por
ejemplo.

2.4. Comentarios

En este capítulo se abordan las formas básicas de resumir variables cualitativas y cuantitativas por
medio de tablas y grácas. Las tablas permiten evidenciar cómo se comportan las variables respecto a

4 Datos tomados de la página web http://www.unalmed.edu.co/~ndgirald/programas/R/curso%20series/ejemplo.


gasolina.bogota.r.
34 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Figura 2.8: Ejemplo de una serie de tiempo.

los grupos o categorías que ellas mismas denen con relación a la información que se tiene, dependiendo
de las especicaciones del problema y de las necesidades del investigador.

De otro lado, es de suma importancia la representación gráca si se quiere evidenciar la información


que se encuentra almacenada en las bases de datos, puesto que tales representaciones hacen más fácil
asimilar y mostrar las características de las variables de interés. Para estos casos los grácos también
son de mucha utilidad, ya que al ser de fácil interpretación, es posible utilizarlos para comparar varios
fenómenos a la vez de manera descriptiva.

2.5. Ejercicios
2.1. Los datos que aparecen a continuación corresponden a los porcentajes de rentabilidad de las
acciones de una muestra de 25 empresas.
2.5. EJERCICIOS 35

30.8 20.3 24.0 29.6 19.4 38.0 24.5 21.5 25.6


30.8 32.9 30.3 39.5 13.3 28.0 19.9 24.6 32.3
30.7 20.3 24.7 18.7 36.8 31.2 50.9

a. Elaborar una tabla de frecuencias de cinco clases, el histograma y la ojiva correspondiente.


Comentar los resultados.

b. Responder:

i. ¾Qué porcentaje de acciones tienen el porcentaje de rentabilidad mayor que 28.34 %?

ii. ¾Cuántas acciones tienen el porcentaje de rentabilidad entre 35.86 % y 43.38 %?

iii. ¾Qué porcentaje de acciones tienen el porcentaje de rentabilidad entre 43.38 % y 50.90 %?

iv. ¾Cuántas acciones tienen el porcentaje de rentabilidad menor que 28.34 % o mayor que
43.38 %?

2.2. Los datos que se presentan a continuación corresponden a las cuentas telefónicas mensuales (en
miles de pesos) de una muestra de residentes de un sector de una ciudad:

21.48 21.15 25.12 23.47 27.81 19.80 36.05 28.50 26.66


20.35 30.22 25.49 20.80 23.83 25.35 23.48 25.81 21.07
22.98 27.24 30.16 21.36 20.91 27.36 26.98 33.54 20.24
28.52 27.34 31.87 21.63 22.30 21.22 27.36 23.39 23.96
22.58 25.87 27.29 29.80 17.13 34.55 24.09 22.21 30.23
26.83 30.96 33.38 20.77 19.98 35.87 22.02

a. Elaborar la tabla de frecuencias.

b. ¾Cuáles son las categorías o clases de cuentas que ocurrieron con menor frecuencia?

c. Realizar un gráco con el cual se pueda discutir la siguiente armación: hay concentración de
los montos de las cuentas telefónicas.

2.3. Se ha realizado una encuesta a 600 personas que se encuentran en un centro comercial sobre
el tipo de almacén que más frecuentan dándoles a escoger algunas opciones que guran en un
formulario. Se han obtenido los siguientes porcentajes: calzado, 10 %; vestimenta, 18 %; artículos
deportivos, 12 %; artículos decorativos, 4 % y alimentación, 26 %. Hacer la tabla de las frecuencias
y el gráco correspondiente. ¾Como podría utilizar esta información el administrador del centro
comercial?

2.4. Para decidir sobre el número de mostradores de servicio necesarios para las tiendas que se construi-
rán en el futuro, una cadena de supermercados desea obtener información acerca de la duración
(en minutos) requerida para atender a sus clientes. Para encontrar la distribución de tiempos de
servicios a clientes se registró la siguiente información correspondiente a 70 clientes:

a. Construir un diagrama de tallos y hojas.

b. Realizar un histograma de frecuencias relativas.


36 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

4.6 1.3 0.2 0.7 0.7 1.3 0.7 0.2 2.3 3.7 6.6 2.5
0.6 2.1 0.7 0.6 1.6 1.3 0.4 0.6 3.2 3.1 4.4 0.6
0.5 1.2 0.9 1.9 1.6 1.3 3.0 0.1 0.7 0.0 0.8 0.1
1.2 3.0 3.5 2.2 0.1 0.1 5.8 1.7 0.8 1.7 1.3 2.5
7.0 4.0 1.0 2.6 0.2 0.3 0.1 0.2 0.9 7.8 2.9 0.1
1.9 4.9 2.1 2.1 0.9 0.2 6.8 0.4 6.3 2.2

c. Comparar los grácos de los incisos anteriores. ¾Muestran estos diagramas la misma informa-
ción?

d. ¾Qué fracciones de los tiempos de servicio son menores o iguales a un minuto? ¾Y entre uno
y dos minutos? ¾Cuáles son los tiempos de servicio mínimo y máximo?

e. Describir la distribución de los datos.

2.5. La gerencia de una empresa mencionó en su informe anual las siguientes cifras en miles de millones
de pesos correspondientes a las ventas netas y el costo de producción desde 2000.

Año 2000 2001 2002 2003 2004 2005


Ventas 13.66423 16.04312 13.87701 15.69092 15.36861 15.64851
Costo 9.56496 11.23018 9.71390 10.98364 10.75802 10.95395
Año 2006 2007 2008 2009 2010 2011
Ventas 14.56017 14.13358 15.86530 14.49018 14.24122 16.34574
Costo 10.19211 9.893505 11.10571 10.14312 9.96885 10.05345

a. Calcular y representar anualmente la utilidad neta entendida como la diferencia entre las
ventas y el costo de producción.

b. Calcular y representar el cambio porcentual de la utilidad neta respecto al año inmediatamente


anterior.

c. ¾En que año se logró la utilidad máxima? ¾Y la utilidad mínima? ¾Cuáles fueron estas utili-
dades? ¾En qué periodo se presentó el mayor cambio en las utilidades? ¾Y el menor? ¾Cuál
fue la magnitud de estos cambios?

2.6. El valor de una variable cuantitativa se mide una vez al año durante un periodo de 10 años. A
continuación se presentan los resultados obtenidos:

Año 1 2 3 4 5 6 7 8 9 10
Medición 61.5 62.3 60.7 59.8 58.0 58.2 57.5 57.5 56.1 56.0

a. Realizar un diagrama de líneas.

b. Describir las mediciones a partir de la gráca obtenida en el numeral anterior.


2.5. EJERCICIOS 37

2.7. ¾Qué es un diagrama de Pareto? ¾Cuáles son sus características? ¾Cómo se utiliza? ¾Para que
sirve?

Utilizando un diagrama de Pareto, analizar las pérdidas por rechazos en una fábrica de papel,
teniendo en cuenta que se han detectado los conceptos que se muestran en la siguiente tabla, en
5
la que se indican los costes asociados (en miles de Euros) a cada concepto .

Concepto Perdida anual


Paralización del trabajo por avería de la máquina A 3.7
Paralización del trabajo por avería de la máquina B 52.2
Paralización del trabajo por avería de la máquina C 7.8
Paralización del trabajo por avería de la máquina D 1.9
Reclamaciones de clientes 2.8
Lotes sobrantes 6.7
Papel inutilizado durante su utilización 87.6
Inspecciones suplementarias 7.1
Coste excesivo del material 4.2
Costes elevados de vericación 0.7

2.8. Calcular los datos que faltan en la siguiente tabla y elaborar el gráco diferencial e integral
correspondientes.

Ci ni fi Ni
[0; 10) 60 f1 60
[10; 20) n2 0.4 N2
[20; 30) 30 f3 170
[30; 100) n4 0.1 N4
[100; 200] n5 f5 200
Total n N.A.

2.9. En la siguiente tabla se muestran las cifras (en millones de USD) relacionadas con películas
6
más taquilleras de los últimos años . Los datos corresponden a la taquilla en Estados Unidos, la
recaudación mundial, el presupuesto y el año de estreno.

5 Datos tomados de la página web http://www.jomaneliga.es/PDF/Administrativo/Calidad/Diagrama_de_Pareto.


pdf.
6 Datos tomados de la página web http://www.boxofficemojo.com/alltime/world/.
38 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

# Película Distribuidor Taquilla Recaudación Presupuesto Año


1 Avatar 20th Century 760.5 (27.3 %) 2,782.2 387.0 2009
Fox
2 Titanic Paramount Pic- 658.6 (30.1 %) 2,185.3 200.0 1997
tures
3 Los vengadores Marvel Studios / 600.0 (41.3 %) 1,436.2 220.0 2012
Paramount Pic-
tures / Walt Dis-
ney Pictures
4 Harry Potter y Warner Bros 381.0 (28.7 %) 1,328.4 250.0 2011
las reliquias de la
muerte  Parte 2
5 Transformers: el Paramount Pic- 352.3 (31.4 %) 1,123.7 195.0 2011
lado oscuro de la tures / Dream-
luna Works
6 El Señor de New Line Cine- 377.8 (33.7 %) 1,119.9 94.0 2003
los Anillos: el ma
retorno del rey
7 Piratas del cari- Walt Disney Pic- 423.3 (40 %) 1,066.1 225.0 2006
be: el cofre del tures
hombre muerto
8 Toy Story 3 Walt Disney Pic- 415.0 (39 %) 1,063.1 200.0 2010
tures / Pixar
9 Piratas del ca- Walt Disney Pic- 241.0 (23.2 %) 1,043.8 250.0 2011
ribe: en mareas tures
misteriosas
10 Guerra de las ga- 20th Century 474.5 (46.2 %) 1,027.0 115.0 1999
laxias: la amena- Fox
za fantasma
11 Alicia en el país Walt Disney Pic- 334.1 (33.6 %) 1,024.2 200.0 2010
de las maravillas tures
12 Batman: el caba- Warner Bros 533.3 (53 %) 1,001.9 185.0 2008
llero de la noche

a. Representar separadamente la información relacionada con el distribuidor y el año de estreno.


Comentar los resultados obtenidos.

b. Calcular la taquilla fuera de los Estados Unidos y la utilidad neta entendida como la diferencia
entre la recaudación y el presupuesto.

c. Realizar un histograma de frecuencias relativas para la utilidad neta de las películas y con ésta
describir la distribución de las ganancias de los distribuidores.

2.10. A continuación se muestra la distribución del consumo anual (en puntos porcentuales) de un país
y de una de sus ciudades principales. Realizar un diagramas de sectores y de barras en cada caso y
2.5. EJERCICIOS 39

comentar los resultados obtenidos. ¾Cuáles grácos deben ser publicados? ¾Cuáles sectores tienen
mayor consumo? ¾Cuáles sectores tienen el menor consumo?

Categoría País Ciudad


Comida 12.8 13.6
Bebidas alcohólicas 0.9 1.1
Hogar 34.4 33.6
Prendas de vestir y servicios 3.5 4.9
Transporte 15.8 16.3
Salud 6.5 6.1
Entretenimiento 5.3 6.3
Cuidado personal y servicios 1.2 1.6
Lectura 0.2 0.2
Educación 2.2 0.6
Productos de tabaco 0.8 0.8
Varios 1.7 1.5
Donaciones 3.5 3.4
Seguros y pensiones 11.2 10.0

2.11. ¾Qué es un diagrama de puntos? ¾Cuáles son sus características? ¾Cómo se utiliza? ¾Para que
sirve? Mostrar una aplicación al respecto.

2.12. A continuación se presenta un conjunto de datos asociados con a la preferencia que tienen los
individuos en relación con la marca de vehículos según su punto de fabricación. En este formulario
se tuvieron en cuenta la zona de procedencia de los vehículos (1=Asia; 2=Europa; 3=Estados
Unidos), el género (0=Masculino; 1= Femenino) y la edad (en años cumplidos) de los individuos
que respondían el formulario.

a. Clasicar las variables.

b. Realizar un diagrama de barras para cada variable.

c. Elaborar una tabla a tres vías de clasicación con las frecuencias relativas tomando como
clases para la edad los siguientes intervalos: 26-30 años, 31-35 años y 36-40 años.

d. Comentar los resultados obtenidos.


40 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS

Marca Género Edad Marca Género Edad


2 0 36 2 1 32
3 1 36 2 1 32
2 1 32 2 0 32
1 1 36 3 0 33
1 0 32 3 1 35
1 0 29 3 1 34
3 0 35 3 0 32
2 0 32 3 1 32
2 0 32 3 0 36
2 0 32 1 1 29
3 1 36 1 1 32
2 0 34 1 1 32
2 1 32 2 1 36
2 0 32 2 1 34
2 0 33 2 0 32
2 1 29 3 0 32
2 1 36 1 1 30
2 0 36 2 1 32
3 1 33 3 1 33
3 1 34 3 1 38
2 0 33 3 1 34
2 1 32 3 1 33
2 1 32 3 1 28
3 1 36 3 1 33
1 0 32 2 1 32
Capı́tulo 3
Medidas de tendencia central y de posición

3.1. Introducción

Cuando se realiza un análisis descriptivo de las variables de estudio que permita descubrir las anoma-
lías, estructuras, frecuencias y demás características relevantes de la información, se da un paso más
allá en el análisis pues se indaga ahora por las propiedades de la distribución de los datos. Con las
medidas estadísticas de tendencia central se quiere estudiar si los datos parecen estar agrupados en
uno o más grupos y que cantidades podrían ser representantes de tales grupos, o por el contrario, si
los datos se encuentran dispersos entre sí.

3.2. Medidas estadísticas de tendencia central

En el capítulo 2 se ha hecho referencia a la clasicación, ordenación y presentación de datos, limitando


el análisis de la información a la interpretación de las distribuciones de frecuencias. Otra perspectiva
del análisis estadístico se apoya en cantidades que resuman apropiadamente la información.

Al inspeccionar la información mediante la representación gráca se evidencia la distribución de los


datos en cuanto a la frecuencia con que se presentan los valores; por ejemplo, algunos valores son
más frecuentes que otros o tienen frecuencias muy bajas y se encuentran más alejados de los demás.
De este modo se puede observar una tendencia de los datos a agruparse alrededor de los valores más
frecuentes, haciendo que las grácas adquieran formas especiales (algunos ejemplos en la gura 3.1).
De aquí surge la necesidad de las medidas de tendencia central. Tales medidas son de gran importancia
en el análisis de la información, sin embargo, su interpretación no debe se hacer separadamente de las

41
42 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

medidas estadísticas de dispersión (capítulo 4), ya que la calidad de las medidas de tendencia central
está asociada intrínsecamente con el grado de concentración de la información.

Figura 3.1: Algunas formas de una distribución de frecuencias.

3.2.1. La media aritmética


1
La media aritmética o el promedio de un conjunto de realizaciones de una variable se calcula como
la suma de todas las observaciones del conjunto dividiendo después entre la cantidad de datos del
conjunto. Esta medida le otorga a todas las observaciones la misma importancia relativa dentro del
conjunto de datos.

1 Una realización de una variable se reere explícitamente al valor observado de esta variable obtenido a partir de
la medición concreta de un individuo particular objeto de estudio.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 43

Denición 3.2.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X. La media aritmética (o simplemente media) de este
conjunto de datos, denotada con x̄, está dada por:

n
1X
x̄ = xi .
n i=1

Nota. Lamedia muestral observada de una variable X se simboliza con x̄, mientras que la media
2

poblacional se denota con µX . Así, cuando se dispone de una población nita, se tiene que
N
1 X
µX = xi
N i=1

donde N es el tamaño de la población. Además, la media se calcula para variables medidas en una
escala de intervalo o de razón.

Cuando los datos de una muestra están agrupados en una distribución de frecuencias, la media arit-
mética se calcula con la fórmula
Pk
ni xi
x̄ = Pi=1
k
i=1 ni
o con la fórmula
k
X
x̄ = fi xi
i=1

donde k es el número de clases, ni es la frecuencia absoluta, fi es la frecuencia relativa y xi es la clase


o la marca de clase de la i-ésima categoría para i = 1, . . . , k . La demostración de la equivalencia entre
estas dos fórmulas se deja como ejercicio para el lector.

Ejemplo 3.2.1. Calcular el promedio de los datos de la tabla 2.9.

Solución:

Para calcular el promedio requerido primero se deben calcular las marcas de clase, es decir, calcular
para cada categoría
li−1 + li
xi =
2
donde li−1 y li son los límites inferior y superior de la i-ésima clase respectivamente para i = 1, . . . , 6.
Una vez calculadas las marcas de clase, se calcula el valor promedio de las ganancias aplicando la
fórmula del promedio para datos agrupados.

En la tabla 3.1 se presentan los cálculos pertinentes y los resultados obtenidos.

2 La media muestral X̄ = 1 Pn
Xi corresponde a la variable promedio de la muestra cuyos valores dependen
n i=1 Pn
1
de la muestra recogida; mientras que la media muestral observada x̄ = n i=1 xi compete a un valor especíco de la
variable X̄ calculada a partir de los datos de una muestra determinada.
44 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

Clase xi ni ni xi
[60.40 ; 74.03) 67.22 5 336.08
[74.03 ; 87.67) 80.85 9 727.65
[87.67 ; 101.30) 94.48 10 944.83
[101.30 ; 114.93) 108.12 6 648.70
[114.93 ; 128.57) 121.75 3 365.25
[128.57 ; 142.20] 135.38 2 270.77
Total N.A. 35.0 3293.28

Tabla 3.1: Cálculos del ejemplo 3.2.1.

Como Pn
ni xi 3293.3
Pi=1
n = = 94.09
i=1 ni 35
entonces el valor promedio de las ganancias de las empresas es 94.09 millones. 

A continuación se presentan algunas propiedades de la media aritmética:

Proposición 3.2.1. Sea X una variable y a, b números reales. Entonces se tiene que:

i. Si X=a entonces X̄ = a.

ii. Si Y = aX + b entonces Ȳ = aX̄ + b.


3
iii. Si X y Y son variables conmensurables y W = aX + bY entonces W̄ = aX̄ + bȲ .

La demostración se deja como ejercicio para el lector.

Nota. El tercer numeral de la proposición 3.2.1 se puede generalizar a la siguiente propiedad: si


Pm
a1 , a2 , . . . , am son m números reales, X1 , X2 , . . . , Xm son m variables conmensurables y W = i=1 ai Xi
Pm
entonces W̄ = i=1 ai X̄i .

Ejemplo 3.2.2. Una compañía vende un promedio mensual de $47,700,000. La compañía paga men-
sualmente al Estado un impuesto igual al 17 % sobre las ventas. La utilidad de la compañía se calcula
teniendo en cuenta que quincenalmente paga $12,000,000 correspondientes a gastos jos de funciona-
miento además del impuesto sobre las ventas. Calcular la utilidad mensual promedio de la compañía.

Solución:

En esta situación x̄ = $47, 700, 000 donde X representa la venta mensual de la empresa. Como la
compañía paga mensualmente al Estado un impuesto igual al 17 % sobre las ventas y además gasta

3 Se dice que X y Y son variables conmensurables cuando existe una unidad común de medida en términos de la
cual tanto X como Y se pueden medir.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 45

$12,000,000 quincenales correspondientes a gastos jos de funcionamiento entonces se concluye que

Y = (X − 0.17X) − (2 · 12, 000, 000) = 0.83X − 24, 000, 000

donde Y denota la utilidad mensual de la compañía. En consecuencia,

Ȳ = 0.83X̄ − 24, 000, 000

y por lo tanto ȳ = (0.83)(47, 700, 000) − 24, 000, 000 = 15, 591, 000 es la utilidad mensual promedio de
la empresa. 

Proposición 3.2.2. Si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una variable X entonces:

n
X n
X
xi = nx̄ y (xi − x̄) = 0.
i=1 i=1

La demostración se deja como ejercicio para el lector.

Nota. Las propiedades de la media poblacional son análogas.

Ejemplo 3.2.3. De 500 estudiantes cuya estatura promedio es 1.57 metros, 150 son mujeres. Si la
estatura promedio de las mujeres es 1.52 metros, ¾cuál es la estatura promedio de los hombres?

Solución:

En este caso n = 500 (total de individuos en la muestra), n1 = 150 (total de mujeres) y n2 =


500 − 150 = 350 (total de hombres). Además, el promedio general es x̄ = 1.57 y el promedio de las
mujeres es x̄1 = 1.52. Sea x̄2 es el promedio de los hombres. Luego,

P500
i=1 xi
x̄ =
500
n1 x̄1 + n2 x̄2
1.57 =
500
(150)(1.52) + 350(x̄2 )
1.57 =
500

y por lo tanto
(1.57)(500) − (150)(1.52)
x̄2 = = 1.59
350
De este modo el promedio de los hombres es 1.59 metros. 

Las siguientes son algunas observaciones acerca de la media aritmética:

• Es de uso cotidiano.
46 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

• Tiene propiedades aritméticas directas y sencillas de aplicar.

4
• Es sensible a datos atípicos .

• Corresponde a uno de los valores menos frecuentes del conjunto de datos cuando la distribución
de los datos tiene forma de  U (distribución (a) de la gura 3.1).

3.2.2. La media aritmética ponderada

Se ha visto que la media aritmética se calcula con base en la magnitud de los datos, otorgándoles
igual importancia  ponderación o peso a cada uno de ellos: 1/n para un conjunto de datos con n
elementos. Sin embargo, en algunas ocasiones la importancia relativa de los valores de la variable no
es la misma en todos los casos, por lo que los datos son ponderados de tal forma que esta importancia
se vea reejada en las estadísticas asociadas.

Denición 3.2.2. La media aritmética ponderada es un promedio


que tiene en cuenta la importancia relativa de cada uno de los datos. La
fórmula de la media aritmética ponderada es
P
w i xi
x̄ = Pi
i wi

donde wi es la ponderación y xi es el dato, la clase o la marca de clase


correspondiente.

Nota. El límite superior de las sumatorias de la fórmula anterior depende de si se dispone de datos
agrupados o no agrupados.

Ejemplo 3.2.4. Las calicaciones de un estudiante están conformadas de acuerdo a la información


que se presenta en la tabla 3.2. Calcular la calicación promedio del estudiante.

Actividad Calicación Valor


Examen 4.5 40 %
Trabajo 1.0 10 %
Investigación 3.5 50 %

Tabla 3.2: Datos asociados con las calicaciones de un estudiante.

Solución:
4 Los datos atípicos (outliers en inglés) son datos muy grandes o muy pequeños comparados con el grueso del
conjunto de datos. Son observaciones con un comportamiento extraño porque toman valores que no se esperan (detalles
en la sección 4.4).
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 47

Se observa que las actividades académicas no tienen el mismo peso en la evaluación de la asignatura.
Por lo tanto, siguiendo la fórmula del promedio ponderado se obtiene que

(4.5)(0.4) + (1.0)(0.10) + (3.5)(0.50)


x̄ = = 3.65.
0.40 + 0.10 + 0.5
Luego, el estudiante aprueba la asignatura con 3.42. 

3.2.3. La mediana

Otra medida de tendencia central es la mediana, la cual no se basa en la magnitud de los valores,
como la media aritmética, sino en la posición central que ocupa en el conjunto de datos ordenado
ascendentemente, dividiendo la información en dos partes iguales.

Denición 3.2.3. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X. La mediana de este conjunto de datos, denotada con
x̃, se calcula como sigue:

x n+1 si n es impar
( )
x̃ = x n 2 +x n +1
(
 2 ) (2 )
2 si n es par

donde x(i) es la observación que ocupa la i-ésima posición del conjunto


de datos ordenado ascendentemente para i = 1, . . . , n.

Nota. Lamediana muestral observada de una variable X se simboliza con x̃, mientras que la
5

mediana poblacional se denota con µ̃X . Además, la mediana se calcula para variables medidas en
al menos una escala ordinal.

6
Así, para determinar la mediana de un conjunto de n datos brutos , se realiza el siguiente procedi-
miento:

i. Ordenar los datos ascendentemente.

ii. Calcular el valor de la mediada dependiendo de si n es par ó impar:

• Si n es impar, entonces, la mediana es el dato en el centro del conjunto de valores, es decir,


n+1
el dato que se encuentra en la posición
2 .
• Si n es par, entonces, la mediana es la media de los dos datos que ocupan las posiciones
n n
centrales, esto es, el promedio de los datos que se encuentran en las posiciones
2 y 2 + 1.
5 El lector ya está familiarizado con la diferencia entre un estadístico y su realización.
6 Los datos brutos son datos sin agrupar o alguna otra modicación.
48 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

Ejemplo 3.2.5. Los datos de la tabla 3.3 corresponden al número de hijos de una muestra de em-
pleados de una empresa. Calcular e interpretar la mediana.

Solución:

El tamaño de la muestra es n=40. Ahora, debido a que el total de datos es par y que los datos de
la tabla están organizados ascendentemente, se tiene que la mediana es el valor ubicado entre las
n n
observaciones de las posiciones
2 = 20 y
2 + 1 = 21. Por lo tanto la mediana es

1+1
x̃ = = 1.
2
Este valor indica que la mitad de los empleados no tienen hijos o tienen uno solo.

¾De qué otra manera se puede interpretar la mediana en este caso? 

Número de hijos 0 1 2 3 4 Total


Frecuencia 12 12 6 4 6 40

Tabla 3.3: Datos asociados con el número de hijos de una muestra de empleados de una empresa.

Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo de la mediana
es como sigue:
(0.5)n − Ni−1
x̃ = li−1 + (li − li−1 )
ni
donde i = mı́n{j : Nj > (0.5)n} es el número de la primera clase cuya frecuencia absoluta acumulada
es superior a (0.5)n.

Ejemplo 3.2.6. Calcular e interpretar la mediana de los datos del ejemplo 2.9.

Solución:

Se observa que las ganancias se encuentran organizadas en una tabla de frecuencias. En este caso i es
el número del primer intervalo cuya frecuencia absoluta acumulada es superior a (0.5)n = (0.5)(35) =
17.5; este intervalo es el número 3. Así, se obtiene que:

17.5 − (5 + 9)
x̃ = 87.67 + (101.30 − 87.67) = 92.44.
10
Entonces la mitad de las empresas tiene ganancias inferiores a 92.44 millones. Además, parece que
el valor de la ganancia mediana (92.44 millones) y el valor de la ganancia promedio (94.09 millones)
7
no dieren signicativamente . Esto sugiere que no hay ganancias atípicas que inuyan de manera
importante en la distribución de los datos. Es decir, la distribución de las ganancias de las empresas
parece ser simétrica con respecto a 94.09 millones. 
7 Para comprobar este hecho formalmente es necesario docimar una hipótesis estadística.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 49

Las siguientes son algunas observaciones acerca de la mediana:

8
• No se ve afectada por datos atípicos, es decir, es robusta frente a observaciones extremas, ya
que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello, el
uso de la mediana es adecuado cuando la distribución de los datos no es simétrica.

• No tiene propiedades aritméticas directas y sencillas de aplicar como la media aritmética.

3.2.4. La moda

La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia) en un conjunto de
datos. Una distribución de datos puede tener una moda unimodal, dos modas bimodal o varias
modas multimodal. Asimismo, puede ocurrir que la distribución de los datos no tenga moda.

Denición 3.2.4. Se llama moda a cualquier valor que maximice la


distribución de frecuencias de un conjunto de datos.

Nota. La moda muestral observada de una variable X se simboliza con x̆, mientras que la moda
poblacional se denota con µ̆X . Además, la moda se calcula para variables medidas en cualquier tipo
de escala.

Ejemplo 3.2.7. Calcular e interpretar la moda de los datos del ejemplo 3.2.5.

Solución:

Aquí se trata de un conjunto de datos bimodal debido a que hay dos valores de la variable que
maximizan la distribución de frecuencias. Estos valores de la variable son el valor 0 y el valor 1,
ambos con frecuencia absoluta igual a 12, lo que quiere decir que lo más frecuente para este grupo de
empleados es que no tengan hijos o tengan uno solo. 

Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo de la moda es
como sigue:
ni − ni−1
x̆ = li−1 + (li − li−1 )
(ni − ni−1 ) + (ni − ni+1 )
donde i ∈ {j : nj ≥ nl , ∀l = 1, . . . , k} es el número de un intervalo cuya frecuencia absoluta es la
mayor y k es el número de categorías.
8 Una medida se llama robusta si su magnitud no se altera notoriamente cuando hay cambios drásticos en la
estructura general del conjunto de datos donde es calculada.
50 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

Ejemplo 3.2.8. Calcular e interpretar la moda de los datos del ejemplo 2.9.

Solución:

Se observa que las ganancias se encuentran organizadas en una tabla de frecuencia. En este caso i es
el número del intervalo cuya frecuencia absoluta es la mayor; este intervalo es el número 3. Así, se
obtiene que:
10 − 9
x̆ = 87.67 + (101.30 − 87.67) = 90.39.
(10 − 9) + (10 − 6)
La moda sugiere que las ganancias que aparecen con mayor frecuencia se encuentran alrededor de
93.39 millones y pertenecen al intervalo donde se encuentra tal ganancia modal. 

Las siguientes son algunas observaciones acerca de la moda:

• Puede no ser única.

• No tiene propiedades aritméticas directas y fáciles de aplicar como la media aritmética.

3.2.5. La media geométrica

Una medida originada a partir de la geometría es la media geométrica, la cual hace parte de las
medias pitagóricas : la media aritmética, la media geométrica y la media armónica.

Denición 3.2.5. Sea x1 , x2 . . . , xn un conjunto de n realizaciones de


una variable X . La media geométrica de este conjunto de datos, de-
notada con Gx , se calcula como la raíz n-ésima de la productoria de los
valores del conjunto de datos, es decir:

v
u n
uY
n
Gx = t xi .
i=1

Nota. La media geométrica se calcula sobre un conjunto de datos cuyos valores sean números no
9
negativos, usualmente porcentajes y tasas .

Una forma de saber cómo y cuándo se debe usar la media geométrica es teniendo en cuenta lo siguiente:
si el total se obtiene de una productoria de valores, ¾cuál es el valor que al reemplazarlo en todas las

9 Una tasa se reere a la relación entre dos magnitudes asociada con la relación entre la cantidad y la frecuencia de
un fenómeno. Son ejemplos la tasa de inación, la tasa de desempleo y la tasas de natalidad (Real Academia Española
2012d).
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 51

observaciones daría como resultado el mismo total? Es decir, la media geométrica se usa cuando el
total corresponde al producto de diferentes observaciones, mientras que la media aritmética se utiliza
cuando el total es obtenido mediante la adición de las observaciones.

Ejemplo 3.2.9. Se tiene un activo en la banca que genera ganancias del 30 % en el primer año, 20 %
en el segundo y 60 % en el tercero. ¾Cuál es la ganancia promedio?

Solución:

Lo primero que se debe observar es que el promedio requerido no es el promedio aritmético, pues lo
que se tiene no es una adición de capital en cada año, sino una multiplicación del mismo. En el primer
año se multiplica por 1.3, en el segundo por 1.2 y en el tercero por 1.6; y así, la ganancia que se obtiene
al nal de los tres años está multiplicada por estas tres cantidades. Luego, la ganancia promedio se
obtiene mediante:
p
3

3
Gx = (1.3)(1.2)(1.6) = 2.496 = 1.356.
En consecuencia, la ganancia promedio del activo es 35.6 %. 
Nota. En ejemplo 3.2.9 la media aritmética y la media geométrica dieren notablemente.

A continuación se presenta una propiedad de la media geométrica:

Proposición 3.2.3. Sea x1 , x2 . . . , xn un conjunto de n realizaciones de una variable X. Entonces


se tiene que:
log(x) = log(Gx )
esto es,
v 
n u n
1 X u
n
Y
log(xi ) = log  t xi  .
n i=1 i=1

La demostración se deja como ejercicio para el lector.

Ejemplo 3.2.10. Comprobar el resultado de la proposición 3.2.3 con la información del ejemplo 3.2.9.

Solución:

El promedio de los logaritmos de los datos es:

log(1.3) + log(1.2) + log(1.6) 0.114 + 0.079 + 0.204


log(x) = = = 0.132
3 3
que es igual al logaritmo de la media geométrica log (Gx ) = log(1.356) = 0.132. 

A continuación se presenta sin demostración una proposición que establece la relación entre la mag-
nitudes de la media geométrica y de la media aritmética de un conjunto de observaciones positivas.
Esta proposición fue presentada por Augustin Louis Cauchy 10
en el siglo XIX y es como sigue:

10 Fotografía tomada de la página web http://www.saintpol.fr/genealogie/thematiques/cauchy.html.


52 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

Proposición 3.2.4. Si x1 , x2 , . . . , xn es un conjunto de n números reales positivos entonces se satis-


face que
v
u n n
uY 1X
n
t xi ≤ xi ,
i=1
n i=1

es decir, la media geométrica no supera la media aritmética de un conjunto de observaciones positivas.

Figura 3.2: Augustin Louis Cauchy (17891857).

Las siguientes son algunas observaciones acerca de la media geométrica:

• Es menos sensible a datos atípicos que la media aritmética.

• Es igual a 0 si algún valor del conjunto de datos es nulo.

• En algunos casos no está denida para conjuntos de datos que tengan valores negativos.

3.2.6. La media armónica

La media armónica última de las medias pitagóricas se enfoca en el promedio de medidas de razón.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 53

Denición 3.2.6. Sea x1 , x2 . . . , xn un conjunto de n realizaciones de


una variable X. La media armónica de este conjunto de datos, deno-
tada con Hx , se calcula como el inverso de la media aritmética de los
inversos de los datos, es decir:

n
Hx = Pn 1 .
i=1 xi

En variadas ocasiones esta medida de tendencia central no ha sido bien implementada, ya que existe
una confusión generalizada a la hora de decidir si usar la media aritmética o la media armónica como
medida de resumen.

Ejemplo 3.2.11. Se dispone de la información dada en la tabla 3.4 acerca de tres autos y sus
velocidades. Calcular la razón promedio de las velocidades.

Auto Velocidad (km/h)


A 10
B 20
C 30

Tabla 3.4: Datos asociados con las velocidades de tres vehículos.

Solución:

La media aritmética se utiliza cuando los denominadores se mantienen constantes, esto es, cuando el
tiempo es constante; mientras que la media armónica se emplea cuando el tiempo no es constante.
Por ello, solo con esta información no es posible decidir cuál de las dos medias es la correcta, así que
se consideran los siguientes escenarios:

1. Todos los autos viajan un periodo de 24 horas.

2. Todos los autos recorren una distancia de 30 kilómetros.

Luego, en el escenario 1, el tiempo total es(3)(24) = 72 horas y la cantidad de kilómetros recorridos es


240 + 480 + 720 = 1440; así, la velocidad promedio es 1440/72 = 20 kilómetros por hora. De otro lado,
en el escenario 2, se recorren 90 kilómetros y se emplean 1 + 1.5 + 3 = 5.5 horas, luego la velocidad
promedio es: 90/5.5 = 16.36 kilómetros por hora.

En otras palabras se puede decir que en el escenario 1, al mantenerse constante el tiempo de trabajo,
se mantiene jo el denominador de la razón y por tanto se debe usar la media aritmética:

10 + 20 + 30
x̄ = = 20
3
54 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

Además, en el escenario 2, al mantenerse constante la distancia recorrida, se mantiene jo el numerador


de la razón y por tanto se debe usar la media armónica:

3
Hx = 1 1 1 = 16.363
10 + 20 + 30

Se observa que son los mismos resultados obtenidos con el razonamiento inicial. 

A continuación se presenta una propiedad de la media armónica:

Proposición 3.2.5. Sea x1 , x2 . . . , xn un conjunto de n realizaciones de una variable X. Entonces


se tiene que:

1 1
=
x Hx
esto es,
n
X 1 1
= .
x Pn n
i=1 i
1
i=1 xi

La demostración se deja como ejercicio para el lector.

Ejemplo 3.2.12. Comprobar el resultado de la proposición 3.2.5 con la información del ejemplo
3.2.11.

Solución:

El promedio de los inversos de los datos es:

1 1 1
1 10 + 20 + 30 0.100 + 0.050 + 0.033
= = = 0.061
x 3 3
1 1
que es igual al inverso de la media armónica
Hx = 16.363 = 0.061. 

Las siguientes son algunas observaciones acerca de la media armónica:

• No está denida cuando en el conjunto de datos alguno de los valores es nulo o en el caso de que
la suma de sus inversos sea igual a 0.

• Se garantiza su existencia si todos los datos del conjunto son positivos ó negativos.

• Resulta poco afectada por la existencia de valores grandes en el conjunto de datos; mientras
que es sensible a los valores cercanos a 0.
3.3. MEDIDAS DE POSICIÓN 55

3.3. Medidas de posición

Las medidas de posición permiten conocer otros puntos característicos de la distribución de los datos
diferentes a las medidas de tendencia central, que permiten dividir la información a conveniencia.
A continuación se presentan las medidas de posición de uso frecuente en estadística: el rango y los
percentiles.

3.3.1. El rango

En este ámbito, el rango de un conjunto de observaciones corresponde a los valores que describen la
posición en la que se encuentra cada valor del conjunto de datos ordenado ascendentemente.

Denición 3.3.1. El rango de un conjunto de datos se reere a cualquier


dispositivo que establece la posición de cada observación del conjunto de
datos ordenado ascendentemente.

Nota. No se debe confundir el rango de un conjunto de datos denido en esta sección con el rango de-
11
nido en la sección 2.2.2 para elaborar histogramas. De otro lado, cuando haya empates la asignación
del rango varía según el objetivo de la misma. En unos casos se asigna la posición de manera aleato-
ria entre los individuos empatados y en otros se asigna el promedio de las posiciones que tomarían,
eventualmente.

52 56 50 41 50 62 55 46 62 48
46 62 53 55 43 42 47 50 42 65

Tabla 3.5: Datos asociados con los puntajes de una muestra de 20 empresas en relación a la calidad de sus servicios.

Ejemplo 3.3.1. Los datos de la tabla 3.5 corresponden a los puntajes de una muestra de 20 empresas
en relación a la calidad de sus servicios. Encontrar el rango del conjunto de datos.

Solución:

Lo primero que se debe hacer es ordenar los datos ascendentemente sin perder su identicación. Una
vez hecho esto, es claro que los valores 41 y 65 son el mínimo y el máximo de dicho conjunto de datos
y que hay solo una empresa con cada uno de estos valores, en este caso los individuos 7 y 20; por lo
tanto la posición que tendrán estos individuos en el rango es 1 y 20 respectivamente.

Para asignar la segunda posición se debe observar que hay dos individuos con el siguiente valor más
bajo (42), luego a estas empresas (individuos 12 y 18) se les puede asignar aleatoriamente las posiciones

11 Un empate ocurre cuando dos individuos tienen el mismo valor de la variable.


56 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

2 y 3, o también se les puede asignar una posición promedio, esto es:

2+3
= 2.5.
2
De esta manera el valor en el rango de los individuos 12 y 18 es 2.5 para ambos. Siguiendo con este
procedimiento se obtiene el rango que se presenta en la tabla 3.6. 

12.0 16.0 10.0 1.0 10.0 18.0 14.5 5.5 18.0 8.0
5.5 18.0 13.0 14.5 4.0 2.5 7.0 10.0 2.5 20.0

Tabla 3.6: Rango del conjunto de datos de la tabla 3.5 .

3.3.2. Los percentiles

Los percentiles son valores que se caracterizan por superar cierto porcentaje de observaciones del
conjunto de datos. Los percentiles son medidas de posición usadas constantemente para describir los
de datos en relación a una posición de interés.

Denición 3.3.2. El p-ésimo (punto) percentil es un valor tal que por


lo menos un p% de los datos tienen máximo dicho valor y al menos un
(100 − p) % de los datos tienen este valor o uno mayor.

Nota. El percentil p de una muestra se denota con pp y el de una población con πp .

Un percentil es un valor que acumula un porcentaje especíco de los datos. Se disponen principal-
mente de los percentiles como medidas de posición, y asociados a éstos como casos particulares se
tienen los cuartiles (percentiles 25, 50 y 75), por ejemplo.

Dependiendo de cómo estén dispuestos los datos (brutos o agrupados) el cálculo de los percentiles se
hará de una manera u otra. Si los datos no están agrupados, para calcular el p-ésimo percentil de un
conjunto de n datos se deben seguir los siguientes pasos:

1. Ordenar los datos ascendentemente.

2. Calcular el índice i a través de la fórmula

i = np/100

donde p el percentil de interés y n el tamaño de la muestra.

3. Calcular el percentil de acuerdo a uno de los siguientes casos:


3.3. MEDIDAS DE POSICIÓN 57

• i no es entero, se redondea al entero siguiente. Este valor aproximado de i indica


Si el índice
la posición delp-ésimo percentil.
• Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en las
posiciones i y i + 1.

Ejemplo 3.3.2. Calcular e interpretar el decil 6 (percentil 60) para los datos del ejemplo 3.3.

Solución:

Como se trata de un conjunto de datos discretos organizados en una tabla de frecuencias, el percentil
60 se calcula siguiendo los siguientes pasos:

1. Los datos ya están organizados ascendentemente en la tabla.

2. Calcular el índice i a través de la fórmula

i = np/100 = (40)(60)/100 = 24.

3. Como i es entero, el percentil 60 es el promedio de los valores de los datos ubicados en las
1+2
posiciones 24 y 25. En consecuencia, el percentil 60 es p60 = 2 = 1.5.

Este valor indica que el 60 % de los empleados tienen dos hijos o menos. ¾De qué otra manera se puede
interpretar el percentil 60 en este caso? 

Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo del p-ésimo
percentil es como sigue:
(p %)n − Ni−1
pp = li−1 + (li − li−1 ) (3.1)
ni
donde i = mı́n{j : Nj > (p %)n} es el número de la primera clase cuya frecuencia absoluta acumulada
es superior a (p %)n.
Nota. La fórmula anterior es casi la misma fórmula para calcular la mediana, solamente que en lugar
de escribir (0.5)n se escribe (p %)n. De hecho, la mediana es un caso particular de un percentil: es el
percentil 50, es decir, el percentil calculado cuando p = 50.
Ejemplo 3.3.3. Calcular e interpretar el decil 8 (percentil 80) para los datos del ejemplo 3.2.1.

Solución:

Se observa que las ganancias se encuentran organizadas en una tabla de frecuencias. En este caso i es
número del primer intervalo cuya frecuencia absoluta acumulada es superior a (0.80)n = (0.80)(35) =
28.0; este intervalo es el número 4. Así, se obtiene que:

(0.80)(35) − 24
p80 = 101.3 + (13.6) = 110.4.
6
Entonces se tiene que el 80 % de las empresas tiene ganancias inferiores a 110.4 millones. ¾De qué otra
manera se puede interpretar el percentil 80 en este caso? 
58 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

3.3.3. Los cuartiles

Los tres cuartiles son un caso particular de percentiles. Éstos dividen el conjunto de datos en cuatro
partes con el mismo porcentaje de datos. Los cuartiles están dispuestos de la siguiente forma: el
primer cuartil, simbolizado con q1 , es el percentil 25; el segundo cuartil q2 , es el percentil 50, es decir,
la mediana; y el tercer cuartil q3 , es el percentil 75. Así,
q1 = p25 , q2 = p50 y q3 = p75 .
Una aplicación de los cuartiles en estadística consiste en realizar un gráco que describe adecuadamente
la forma de la distribución de un conjunto de datos; tal diagrama también sirve para detectar datos
atípicos. Este gráco es denominado diagrama de caja , boxplot en inglés, y es materia de estudio
en la sección 4.4.

Ejemplo 3.3.4. Calcular e interpretar los cuartiles del ejemplo 2.9.

Solución:

Aquí, los índices i, j y k corresponden a los números de los intervalos cuya frecuencia absoluta acu-
mulada es superior a (0.25)(35) = 8.75, (0.5)(35) = 17.50 y (0.75)(35) = 26.25 respectivamente. De
esta manera los cuartiles que se obtienen para este conjunto de datos son:

(0.25)(35) − 5
q1 = 74.03 + (13.63) = 79.71,
9
(0.50)(35) − 14
q2 = 87.67 + (13.63) = 92.44,
10
(0.75)(35) − 24
q3 = 101.30 + (13.63) = 106.41.
6
Con esto se puede decir que el 50 % de las ganancias se encuentra entre 79.71 y 106.41 millones, y que
el 25 % de las empresas con menores utilidades tienen ganancias inferiores a 79.6 millones, así como
el 25 % de las empresas con mayores utilidades tienen ganancias superiores a 106.41 millones. 

3.4. Comentarios

Como parte de una revisión inicial de los datos, las medidas de tendencia central y de posición son
las primeras en proveer información sobre el comportamiento de los datos, como alrededor de cuáles
valores se concentran, cuáles valores son los más frecuentes y cómo se encuentran ordenados. A pesar
de que estas medidas son de cálculo e interpretación simple, tiende a haber un mal uso de las mismas,
ya sea a la hora de calcularlas o de interpretarlas, ya que fácilmente se puede utilizar el promedio
aritmético como medida de tendencia central cuando en realidad se debe usar la media geométrica, por
ejemplo; y aunque en algunos casos las diferencias no sean grandes numéricamente, éstas sí pueden
traer consecuencias graves dependiendo del contexto de las cifras. Errores tan simples como estos se
cometen día a día y por esto es que en este capítulo se enfatiza el uso adecuado de tales medidas.
3.5. EJERCICIOS 59

3.5. Ejercicios
3.1. Una compañía de mercadeo tiene dentro de su sta a 24 profesionales que realizan tareas por fuera
de la empresa con mucha frecuencia. A la gerente de esta empresa le tiene preocupada la falta
de puntualidad de sus trabajadores ya que ha recibido varias quejas en los últimos meses y cree
que esto puede dañar la reputación de la empresa. Los datos de la siguiente tabla corresponden
a la tardanza (en minutos) en llegar a las citas de trabajo de algunos empleados, clasicada por
el género:

Mujeres 6.3 10.0 9.2 7.3 4.1 6.4 9.8 8.4 5.2 0.4 5.0 0.6
Hombres 5.1 4.4 0.9 3.2 5.9 6.2 1.4 3.9 0.1 4.2 8.3 7.3

a. Calcular e interpretar la media, la mediana y la moda de la tardanza de los empleados.

b. El gerente tiene la sospecha de que algún género es más incumplido que otro. ¾Qué es posible
sugerir con base en la media, la media y la moda?

c. Si la tardanza en llegar a las citas de trabajo de las mujeres aumenta (o disminuye) x %,


calcular el valor de x de tal forma que el tiempo promedio de retraso de las mujeres coincida
con el de los hombres.

3.2. ¾Cuando es aconsejable utilizar la media geométrica? ¾Y cuando la media armónica?

3.3. El precio de una acción (Y ) se modica multiplicativamente según los cambios mensuales en la
tasa de cambio del Euro (T C ) según la siguiente regla:

(
y = 1.3 si T C ≥ 3, 000;
y = 0.9 si T C < 3, 000.

Acorde a las variaciones de la tasa de cambio para los 12 meses de la siguiente tabla, si el valor
inicial de una acción es 4, 250, calcular para ésta la valorización (o depreciación) promedio y el
valor al nal del periodo.

Si se tiene la misma inquietud anterior, ahora por semestre, ¾qué valores se obtendrían?

Mes 1 2 3 4 5 6
Semestre 1 3,148 3,087 3,210 2,956 3,215 3,053
Semestre 2 2,999 3,106 3,202 3,157 3,285 3,111

3.4. Calcular e interpretar la razón media del número de actividades por hora con la que los traba-
jadores de una fábrica realizan sus actividades (procesos de manufactura). En la siguiente tabla
se presentan los tiempos (en horas) en los que los trabajadores realizan 20 actividades, las cuales
conforman la cadena de producción.
60 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

42.20 45.70 34.60 40.20 48.90 43.80 46.00 39.50 57.80 37.20
56.40 40.30 46.90 41.70 27.20 51.70 37.90 39.60 59.00 39.00

3.5. Veintiuna personas en un salón de clase tienen una altura promedio de 168 centímetros. Si al
salón entra una persona adicional, entonces, ¾cuál es la altura que debe tener esta persona para
que la altura promedio se incremente un centímetro?

3.6. El siguiente conjunto de datos corresponde al origen y la estadía de los visitantes hospedados en
hoteles de categoría I a IV de un sector turístico determinado. Calcular la media aritmética del
número de visitantes por nacionalidad.

Categoría Nacionales ( %) Visitantes (#)


I 75.3 253,175
II 84.7 140,810
III 71.8 47,900
IV 88.0 21,372

3.7. Una empresa de manufacturación de productos químicos tiene una producción diaria de smog
3 3 3
de 110 cm en el ala A, de 80 cm en el ala B y de 149 cm en el ala C. Por otra parte el
Gobierno, decide crear una política en la cual la producción promedio máxima admisible de smog
por una empresa de químicos sea de 112.1 cm3 por día. Si la compañía mantiene una actividad de
3
producción de smog que culmina en 80 mts en cada ala, entonces se puede decir que la empresa
cumple con el requerimiento. Calcular e interpretar el valor promedio de la producción de smog
por día.

3.8. Con la información dada en la siguiente tabla, calcular la calicación de un estudiante en la


última unidad de una asignatura considerando que quiere aprobar la materia con 3.1.

Unidad Valor ( %) Calicación


I 20 3.7
II 25 2.4
III 20 3.0
IV 15 3.2
V

3.9. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de una variable X . La media potencial de


grado α de este conjunto de datos, denotada con x̄α , está dada por:

n
! α1
1X α
x̄α = x
n i=1 i

donde α es un número real. Demostrar que x̄1 = x̄ y que x̄−1 = Hx .


3.5. EJERCICIOS 61

3.10. Un grupo de 200 estudiantes, cuya estatura promedio es de 160.96 centímetros se divide en dos
grupos, uno con una estatura promedio de 163.4 centímetros y otro con una de 157.3 centímetros.
¾Cuántos estudiantes en cada grupo?

3.11. A continuación se presentan los salarios mensuales en miles de pesos, pagados por una empresa
estatal a su personal. En la empresa se presenta un conicto laboral. El gerente propone un
aumento del 2 % para cada uno de los empleados y la junta directiva propone un aumento de 5
mil pesos quincenales para cada empleado.

Salario 300 400 500 600 700


Frecuencia 10 16 35 26 13

a. Con base en el promedio, ¾qué es más ventajoso para el Estado y qué para cada grupo de
empleados?

b. Para cada propuesta, calcular el salario a partir del cual se encuentra el 10 % de los empleados
mejor pagos de la compañía.

c. Ambas partes reconsideran sus propuestas. El gerente ahora propone un aumento de 5 %.


Calcular el valor del aumento quincenal que debe proponer la junta directiva para que en
promedio ésta sea superior a la propuesta del gerente por $10,000 mensuales.

3.12. Una de las metas de toda administración pública o privada es ganar lo más posible en relación
con el capital invertido en la empresa. Una medida del éxito en alcanzarla es el retorno sobre
la aportación, que es la relación de la ganancia neta entre el valor de las acciones. Los datos
presentados a continuación corresponden a los porcentajes de ganancia sobre las acciones para
una muestra de empresas gubernamentales del país.

# Aportación Frecuencia
1 2.0 - 5.0 4
2 5.0 - 8.0 7
3 8.0 - 11.0 11
4 11.0 - 14.0 16
5 14.0 - 17.0 21
6 17.0 - 20.0 14
7 20.0 - 23.0 9
8 23.0 - 26.0 4

a. Completar la tabla de frecuencias y representar grácamente la distribución.

b. Calcular e interpretar la media, la mediana y la moda.

c. Describir la distribución de los porcentajes de ganancia a partir de los resultados obtenidos en


el numeral anterior.

d. Calcular e interpretar los cuartiles.


62 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

3.13. Demostrar que si el producto de dos números positivos es igual a 1 entonces la suma de los mismos
no es menor que 2. Generalizar esta proposición.

3.14. Escribir la fórmula de la media geométrica y de la media armónica cuando los datos están agru-
pados en una tabla de frecuencias.

3.15. La cantidad de viajeros por hora de cada estación de una empresa de transporte en un día
determinado es como sigue:

Estación 1 2 3 4 5
Viajeros por hora 13,050 8,545 10,453 12,093 9,448

Calcular el promedio de viajeros por hora de las estaciones de la empresa.

3.16. La media aritmética de los salarios quincenales de los empleados de una empresa fue $360,000. El
promedio de los salarios de los hombres y de las mujeres fue respectivamente $370,000 y $340,000.
Determinar el porcentaje de hombres y mujeres de la compañía.

3.17. La siguiente tabla contiene los salarios quincenales (en miles de pesos) de una muestra de traba-
jadores:

Salario 550 600 700 800 3,000


Frecuencia 8 6 7 5 4

a. Completar la tabla de frecuencias.

b. Determinar e interpretar la moda, la media, la mediana y el rango.

c. Calcular e interpretar los cuartiles.

d. Rehacer los numerales anteriores teniendo en cuenta que todos los empleados reciben un sub-
sidio mensual de transporte de $50, 000.

3.18. Para ocupar un puesto de trabajo vacante, la gerencia de una compañía realiza diferentes pruebas
a los aspirantes, cada una de ellas con una importancia determinada. Los resultados de las pruebas
de los dos mejores aspirantes son los siguientes:

Prueba Importancia Aspirante 1 Aspirante 2


Cultura general 1 9 7
Contabilidad 3 6 5
Idiomas 6 7 10
Informática 2 10 4

a. ¾Qué aspirante obtendrá el puesto de trabajo?


3.5. EJERCICIOS 63

b. Si un tercer aspirante obtiene las mismas notas del aspirante número 2 excepto en informática,
¾cuánto debe ser la calicación de este nuevo aspirante para obtener la misma calicación
promedio del aspirante 1?

3.19. Una entidad nanciera ha comprado dólares estadounidenses a diferentes precios (en pesos) du-
rante una semana de acuerdo a la siguiente tabla:

Pesos por dólar 1,851 1,840 1,841 1,847 1,842 1,856 1,843
Frecuencia 64 55 75 34 56 76 45

Calcular el promedio de pesos por dólar al nal de la semana.

3.20. Una agencia ha asignado un grupo de cinco empleados para completar un servicio de excursión
para un grupo de turistas. Las razones de eciencia (en minutos por turista) se dan a continuación.

Empleado Efectividad
A 10
B 8
C 15
D 12
E 9

Encontrar el promedio de efectividad de los empleados.

3.21. Un capital de $100,000,000 se coloca al 4 % el primero de enero de 2000. Si el interés se capitaliza


anualmente los días primero de enero, calcular el promedio del dinero invertido entre el 31 de
diciembre de 2000 y el 31 de diciembre de 2011.

3.22. Demostrar que si X es una variable y a es un número real positivo entonces se tiene que:

i. Si X=a entonces GX = a y HX = a.
ii. Si Y = aX entonces GY = aGX y HY = aHX .

¾Por qué a debe ser un número real positivo?

3.23. Un curso tiene 35 hombres con una edad media de 17.5 años y 15 mujeres que en promedio son
22 % más jóvenes que los hombres. ¾Cuál es la edad media del curso?

3.24. Se sabe que ninguna de las sucursales de una empresa comercial tiene más de 9 empleados o
menos de 7. La mayoría tiene 8 trabajadores, pero el 25 % tiene 9 funcionarios y una de cada 10
sucursales tiene 7 empleados. ¾Cuál es el promedio de empleados por sucursal?

3.25. ¾Qué es la media recortada? ¾Cuáles son sus características? ¾Cómo se utiliza? ¾Para que sirve?
Mostrar una aplicación al respecto.
Capı́tulo 4
Medidas de dispersión

4.1. Introducción

En el análisis de la información no bastan las medidas de tendencia central y de posición, ya que


describir un fenómeno solo con estas medidas puede llevar a conclusiones erróneas que no son eles a
la realidad, dado que pueden existir datos atípicos (detalles en la sección 4.4) que no se ajustan a la
descripción, por ejemplo.

Si dos conjuntos de datos tienen la misma media aritmética, no implica que la distribución de las
observaciones en ambos casos sea exactamente la misma, puesto que el grado de homogeneidad de
la información puede ser diferente. Por ejemplo, considere los datos que se presentan en la tabla 4.1
asociados con los salarios anuales (en millones de pesos) de una muestra de supervisores de ventas de
dos empresas. Se observa que ambos conjuntos de datos tienen la misma media (33.5 millones de pesos)
y la misma mediana (34.0 millones de pesos), por lo que si se limita el estudio de las observaciones
únicamente a estas medidas de tendencia central no es posible diferenciar la distribución de los salarios
de las dos compañías. Mas sin embargo, estas dos distribuciones son diferentes: los salarios de los
supervisores de la segunda empresa son más heterogéneos que los de la primera.

Empresa 1 34.5 30.7 32.9 36.0 34.1 34.0 32.3


Empresa 2 34.0 27.5 31.6 39.7 35.3 34.7 31.7

Tabla 4.1: Datos asociados con los salarios anuales de una muestra de supervisores de ventas de dos empresas.

En consecuencia, una medida de tendencia central por sí sola no es suciente para describir comple-
tamente la tendencia de un conjunto de datos; siempre es necesaria una medida que cuantique la

64
4.2. EL RANGO 65

variabilidad de los datos con respecto a tal medida de resumen.

4.2. El rango

El rango es una medida de dispersión empleada en la sección 2.4 para construir histogramas. Es una
medida que está asociada con la amplitud del conjunto de datos.

Denición 4.2.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X . El rango observado de este conjunto de datos, denotado
con Rx , se calcula como la diferencia entre el valor máximo y el valor
mínimo del conjunto de datos. Es decir:

Rx = xmáx − xmı́n

donde xmı́n y xmáx son respectivamente el valor mínimo y máximo de las


n observaciones.

Nota. No se debe confundir el rango de un conjunto de datos denido en esta sección con el rango
denido en la sección 3.3.1 utilizado para describir la posición en la que se encuentra cada valor del
conjunto de datos ordenado ascendentemente.

Ejemplo 4.2.1. Teniendo en cuenta los datos de la tabla 4.1, calcular e interpretar el rango para
cada empresa.

Solución:

El rango de la empresa 1 es

Rx = xmáx − xmı́n = 36.0 − 30.7 = 5.3,

mientras que el rango de la empresa 2 es

Rx = xmáx − xmı́n = 39.7 − 27.5 = 12.2.

Se observa que el recorrido de los salarios de la segunda empresa es mayor que el recorrido de los
salarios de la primera en 6.9 millones de pesos. 

Las siguientes son algunas observaciones acerca del rango:

• Está dado en las mismas unidades de la variable de estudio.


66 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

• Es sensible a valores extremos.

• No da razón de la dispersión de los datos respecto a un valor particular o a una medida de


tendencia central.

4.3. El rango intercuartílico

El rango intercuartílico es una medida de dispersión que no está inuenciada por los valores extremos
de los datos como sí lo está el rango. En el rango intercuartílico se concentran el 50 % de las observa-
ciones que no hacen parte del 25 % de los valores más bajos ni del 25 % de los valores más altos del
conjunto de datos.

Denición 4.3.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X. El rango intercuartílico observado de este conjunto
de datos, denotado con RIx , se calcula como la diferencia entre el tercer
y primer cuartil del conjunto de datos. Es decir:

RIx = q3 − q1

donde q1 y q3 son respectivamente el primer y tercer cuartil de las n


observaciones.

Ejemplo 4.3.1. Teniendo en cuenta los datos de la tabla 4.1, calcular e interpretar el rango inter-
cuartílico para cada empresa.

Solución:

El rango intercuartílico de la empresa 1 es

RIx = q3 − q1 = 34.30 − 32.60 = 1.70,

mientras que el rango intercuartílico de la empresa 2 es

RIx = q3 − q1 = 35.00 − 31.65 = 3.35.

Se observa que el recorrido del 50 % de los salarios intermedios de la segunda empresa es mayor que
el mismo recorrido de los salarios de la primera en 1.65 millones de pesos. Aunque todavía hay una
diferencia clara, no es tan notoria como sí lo es con el rango, lo que sugiere la presencia de sueldos
considerablemente superiores de la primera empresa comparados con los de la segunda. 

Las siguientes son algunas observaciones acerca del rango intercuartílico:


4.4. DIAGRAMA DE CAJA Y BIGOTES 67

• Está dado en las mismas unidades de la variable de estudio.

• Es una medida robusta poco inuenciable frente a valores extremos.

• No da razón de la dispersión de los datos respecto a un valor particular o a una medida de


tendencia central.

El rango intercuartílico se utiliza para construir un diagrama usado frecuentemente en estadística,


denominado diagrama de caja, extremadamente útil para describir la distribución de un conjunto de
datos.

4.4. Diagrama de caja y bigotes

El diagrama de caja y bigotes (boxplot en inglés) es una representación gráca que sirve para
identicar algunas características fundamentales de la distribución de un conjunto de datos, tales
como la localización, la dispersión, la simetría y la detección de datos atípicos. En este diagrama se
representan los tres cuartiles y los datos atípicos de los datos con base en un rectángulo alineado
vertical u horizontalmente. La construcción vertical de este gráco asociado con las observaciones de
una variable X es como sigue:

i. Obtener los cuartiles q1 , q2 y q3 del conjunto de datos.

ii. Dibujar un rectángulo paralelo al eje y tal que su lado mayor inicie en q1 y termine q3 . El ancho
de la caja no es de relativa importancia pero debe ser menor que el largo del rectángulo.

iii. Trazar los segmentos de la caja hasta los limites

Li = máx{xmı́n , q1 − (1.5)RIx } y Ls = mı́n{xmáx , q3 + (1.5)RIx }

donde RIx es el rango intercuartilico. Por lo tanto estos segmentos se extienden de Li a q1 y de


q3 a Ls . Tales líneas, denominadas bigotes , se dibujan de manera centrada respecto al ancho de
la caja.

iv. Señalar y resaltar los valores que se encuentran por fuera del intervalo [Li , Ls ].

v. Trazar una línea horizontal dentro de la caja a la altura de q2 .

En resumen, una gráca de este tipo está constituida por una caja rectangular cuyo lado mayor
representa el rango intercuartílico. Este rectángulo está dividido por un segmento transversal que
indica donde se localiza la mediana y por lo tanto evidencia su relación con los demás cuartiles. Las
líneas que sobresalen de la caja tienen un límite de prolongación, de modo que cualquier dato que
no se encuentre dentro de este rango es marcado e identicado individualmente. En la gura 4.1 se
presenta un ejemplo de un diagrama de caja.
68 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

Figura 4.1: Ejemplo de un diagrama de caja y bigotes.

Denición 4.4.1. Todo dato de una variable X que está más aleja-
do de (1.5)RIx del cuartil más cercano se dice que es un dato atípico
(outlier en inglés). Un dato atípico se denomina extremo si está ubica-
do a una distancia mayor de (3.0)RIx del cuartil más cercano y se llama
moderado en otro caso.

Ejemplo 4.4.1. Hacer un diagrama de caja y bigotes para los datos de la tabla 2.9. Describir la
distribución de las observaciones de acuerdo con el gráco obtenido.

Solución:
4.5. LA DESVIACIÓN DE UN DATO 69

La construcción del diagrama es como sigue:

i. Obtener los cuartiles de las ganancias: q1 =81.85, q2 = 93.10 y q3 = 104.25.

ii. Dibujar un rectángulo paralelo al eje y tal que su lado mayor inicie en 81.85 y termine en el valor
104.25.

iii. Trazar los bigotes de la caja hasta Li = 60.40 y Ls = 137.85. Por ende estos segmentos se
extienden de 81.85 a 60.4 y de 104.25 a 137.85.

iv. Señalar y resaltar los valores que se encuentren por fuera del intervalo [60.40,137.85]. Estas ob-
servaciones son 138.1 y 142.2.

v. Trazar una línea horizontal dentro de la caja a la altura de 93.10.

La distribución de las ganancias parece ser simétrica alrededor de la mediana, esto es, el reparto de las
utilidades aparenta ser equilibrado o semejante en torno a 93.1 millones de pesos diarios dado que la
caja esta divida en dos partes iguales por la ganancia mediana y los bigotes tienen aproximadamente
la misma extensión. Se presentan apenas un par de observaciones atípicas correspondientes a dos
empresas con ganancias diarias superiores a todas las demás con una diferencia notoria, pero según
parece no inuencian en gran medida la distribución de las utilidades puesto que la ganancia promedio
(94.09 millones de pesos) no diere marcadamente de la ganancia mediana. 

4.5. La desviación de un dato

A continuación se presenta la desviación de un dato como punto de referencia para la construcción de


medidas de dispersión con respecto a la media aritmética.

Denición 4.5.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones


de una variable X. La desviación de la i-ésima observación para
i = 1, . . . , n, denotada con di , está dada por:

di = xi − x̄

donde x̄ es el promedio observado del conjunto de datos.

Nota. Una desviación positiva (di > 0) indica que el dato es mayor que el promedio, mientras que
una desviación negativa (di < 0) señala que el dato es menor que la media. Una desviación igual a 0
quiere decir que el dato es exactamente igual al promedio. Además, en la proposición 3.2.2 se muestra
Pn
que si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una variable X entonces i=1 (xi − x̄) = 0,
Pn
esto es, i=1 di = 0.
70 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

Figura 4.2: Diagrama de caja y bigotes de los datos de la tabla 2.8.

Las desviaciones de las observaciones se utiliza para estudiar la dispersión de la distribución de un


conjunto de datos cuantitativos. Teniendo en cuenta que la desviación de una observación representa
la diferencia entre un dato y la media del conjunto de datos de la cual ésta proviene, se podría pensar
que el promedio de todas las desviaciones proporciona una medida de la dispersión de todos los datos
con respecto al promedio, pero esto no ocurre porque la suma de todas las desviaciones siempre es
igual 0. Este hecho motiva la siguiente medida de dispersión.
4.6. LA VARIANZA 71

4.6. La varianza

Aunque el rango es una medida asociada con la extensión de todo conjunto de datos y el rango inter-
cuartílico es una medida relacionada con la amplitud correspondiente al 50 % de los datos intermedios,
ninguna de estas medidas de dispersión tiene en cuenta cómo se distribuyen las observaciones de la
variable de estudio respecto a alguna medida de tendencia central, como el promedio, por ejemplo.
Una medida de uso común que sí toma en cuenta tal repartición de los datos respecto a la media
aritmética es la varianza. Esta medida evalúa la manera en que uctúan los valores de una variable
respecto al promedio.

Denición 4.6.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X . La varianza muestral de este conjunto de datos, de-
notada con Sx2 , está dada por:
n
1 X
Sx2 = (xi − x̄)2
n − 1 i=1

donde x̄ es el promedio observado del conjunto de datos.

Nota. La varianza muestral se dene como el promedio de los cuadrados de las desviaciones de
1 2 2
los datos de la muestra . La varianza muestral observada de una variable X se simboliza con Sx ,
mientras que la varianza poblacional 2
se denota con σX . Así, cuando se dispone de una población
nita, se tiene que
N
2 1 X
σX = (xi − µX )2
N i=1
donde N es el tamaño de la población. Esta denición únicamente hace sentido cuando se tiene una
población nita. Además, como con otros estadísticos, la notación de la varianza incluye un subíndice
para enfatizar la variable sobre la cual se calcula.

Nota. La denición de la varianza poblacional (parámetro) y de la varianza muestral (estadístico)


es casi idéntica salvo que en la muestral se resta 1 en el denominador del cociente. La razón de esta
diferencia se justica fácilmente dentro del marco conceptual de la estadística inferencial.

Cuando los datos de una muestra están agrupados en una distribución de frecuencias la varianza
muestral se calcula con la fórmula

k
1 X
Sx2 = ni (xi − x̄)2
n − 1 i=1
1 En este libro la varianza muestral, la cuasi-varianza y la varianza corregida son sinónimos.
2 Como con cualquier otro estadístico, la varianza muestral S 2 = 1 Pn (X − X̄)2 corresponde a la variable
X n−1 i=1 i
varianza de la muestra cuyos valores dependen de la muestra recogida; mientras que la varianza muestral observada
1 Pn
Sx2 = n−1
2
i=1 (xi − x̄) compete a un valor especíco de la variable
2
SX calculada a partir de los datos de una muestra
determinada.
72 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

donde k es el número de clases, ni es la frecuencia absoluta y xi es la clase o marca de clase de la


i-ésima categoría para i = 1, . . . , k .

La varianza evidencia la dispersión (variabilidad) de la distribución de un conjunto de datos respecto


al promedio. Cuanto más pequeño es el valor de la varianza, es menor la dispersión de los datos o
son más homogéneos respecto a la media. En consecuencia, si la varianza es un valor pequeño
implica que los datos están poco dispersos respecto al promedio; en tanto que si la varianza es un
valor grande sucede lo contrario. En otras palabras, cuanto más pequeño es el valor de la varianza,
la media es una cantidad más representativa del conjunto de datos.

Aunque la varianza está asociada directamente con la variación de un conjunto de datos, su interpre-
tación se puede complicar debido a que está dada en unidades cuadráticas (unidades de medición
elevadas al cuadrado). Tal aspecto se debe tener en cuenta en la interpretación para describir correc-
tamente la realidad estudiada.

Nota. El valor mínimo que puede asumir la varianza es el valor 0, caso en el que todos los datos son
iguales al promedio.

Ejemplo 4.6.1. Calcular e interpretar la varianza de los siguientes datos asumiendo que éstos cons-
tituyen una población.

i 1 2 3 4 5
xi 62 80 83 72 73

Solución:

En este caso N =5 y además la media poblacional de estos datos es

N
1 X 62 + 80 + . . . + 73
µX = xi = = 74.
N i=1 5

Por lo tanto, la varianza poblacional es:

N
2 1 X (62 − 74)2 + (80 − 74)2 + . . . + (73 − 74)2
σX = (xi − µX )2 = = 53.2.
N i=1 5

3
Este valor, 53.2, parece ser un valor grande, por lo que para este conjunto de datos se tiene una alta
dispersión con respecto al promedio, es decir, los datos parecen no estar agrupados respecto a 74. 

Ejemplo 4.6.2. Calcular el varianza de los datos de la tabla 2.9.

Solución:
3 Se utiliza la expresión parece ser porque no hay un punto de comparación para establecer cuando una cantidad
es pequeña o grande. Por tal motivo se debe recurrir a medidas que den cuenta de cómo realizar esta calicación de
manera apropiada de acuerdo a ciertos estándares de precisión (detalles en la sección 4.10).
4.6. LA VARIANZA 73

Para calcular la varianza primero se deben calcular las respectivas marcas de clase como en el ejemplo
3.2.1. Una vez calculadas las marcas de clase, se calcula la varianza de las ganancias aplicando la
fórmula para datos agrupados. En la tabla 4.2 se presentan los cálculos pertinentes.

Clase xi ni ni xi ni (xi − x̄)2


[60.4; 74.0) 67.22 5 336.08 3,611.90
[74.0; 87.7) 80.85 9 727.65 1,578.59
[87.7; 101.3) 94.48 10 944.83 1.52
[101.3; 114.9) 108.12 6 648.70 1,179.84
[114.9; 128.6) 121.75 3 365.25 2,294.59
[128.6; 142.2] 135.38 2 270.77 3,409.65
Total N.A. 35.00 3293.28 12,076.65

Tabla 4.2: Cálculos del ejemplo 4.6.2.

Así, la magnitud de la varianza muestral de las ganancias es igual a

k
1 X 12, 076.65
Sx2 = ni (xi − x̄)2 = = 355.18.
n − 1 i=1 35 − 1

Considerando el valor 355.18 millones de pesos cuadrados como alto, se concluye que las ganancias
están muy dispersas respecto a la ganancia promedio que corresponde a 94.09 millones de pesos. 

Nota. En el ejemplo 4.6.2 las unidades de la varianza son unidades cuadráticas y la interpretación de
la misma se hace sin tener en cuenta algún punto de referencia considerándola simplemente como un
valor grande.

A continuación se presentan algunas propiedades de la varianza muestral:

Proposición 4.6.1. Sea X una variable y a, b números reales. Entonces se tiene que:

2
i. Si X=a entonces SX = 0.

ii. Si Y = aX + b entonces SY2 = a2 SX


2
.

Demostración:

i. Si X=a entonces X̄ = a y por lo tanto:

n n
2 1 X 1 X
SX = (Xi − X̄)2 = (a − a)2 = 0.
n − 1 i=1 n − 1 i=1
74 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

ii. Si Y = aX + b entonces se sigue que:

n
1 X
SY2 = (Yi − Ȳ )2
n − 1 i=1
n
1 X
= ((aXi + b) − (aX̄ + b))2
n − 1 i=1
n
1 X
= (aXi + b − aX̄ − b)2
n − 1 i=1
n
1 X
= (aXi − aX̄)2
n − 1 i=1
n
1 X
= (a(Xi − X̄))2
n − 1 i=1
n
1 X 2
= a (Xi − X̄)2
n − 1 i=1
n
1 X
= a2 (Xi − X̄)2
n − 1 i=1
= a2 SX
2
.

Ejemplo 4.6.3. Los siguientes datos están asociados con los salarios quincenales (en miles de pesos)
de una muestra de empleados de una compañía. Los empleados piden un reajuste quincenal de 15 %
sobre su salario, pero el Estado ofrece un reajuste de 18 % más una bonicación mensual de cuarenta
mil pesos. Calcular el promedio y la varianza para las dos propuestas.

230 310 240 280 200 230 280 250 200

Solución:

Primero se debe calcular el promedio y la varianza de los salarios quincenales de los empleados (X ),
de donde
n n
1X 1 X
x̄ = xi = 246.66 y Sx2 = (xi − x̄)2 = 1, 400.
n i=1 n − 1 i=1

Sea Y1 el salario quincenal de los empleados (en miles de pesos) ajustado con la propuesta que ellos
mismos han dado. Este reajuste consiste en un aumento quincenal de 15 % y en consecuencia

Y1 = 1.15X,
4.6. LA VARIANZA 75

lo que implica un salario quincenal promedio de

ȳ1 = 1.15x̄ = (1.15)(246.66) = 283.66

con una varianza de


Sy21 = 1.152 Sx2 = 1.152 (1, 400) = 1, 851.50.


De otra parte, el Estado ofrece un reajuste de 18 % más una bonicación mensual de cuarenta mil
pesos, esto es, veinte mil pesos quincenales. Si Y2 denota el salario quincenal (en miles de pesos)
ajustado con la propuesta del Estado entonces se obtiene que

Y2 = 1.18X + 20

lo que implica un salario promedio de

ȳ2 = 1.18x̄ + 20 = (1.18)(246.66) + 20 = 311.06

con una varianza de


Sy22 = 1.182 Sx2 = 1.182 (1, 400) = 1949.36.


Por lo tanto la propuesta que aparentemente tiene más dispersión con respecto al salario quincenal
promedio es la propuesta del Estado. 

Ejemplo 4.6.4. Calcular la varianza de la utilidad mensual de la compañía del ejemplo 3.2.2 teniendo
en cuenta que la varianza de la venta mensual es $2 273,500.

Solución:

Dado que la utilidad mensual (Y ) de la compañía es una variable dada por:

Y = 0.83X − 24, 000, 000

donde X representa la venta mensual de la empresa, se obtiene que

Sy2 = 0.832 Sx2 = 0.832 (273, 500) = 188, 414.15.




Proposición 4.6.2. Si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una variable X entonces:

n
X n
X
(xi − x̄)2 = x2i − nx̄2 .
i=1 i=1

Demostración:

n
X n
X
(xi − x̄)2 = (x2i − 2xi x̄ + x̄2 )
i=1 i=1
76 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

n
X n
X n
X
= x2i − 2xi x̄ + x̄2
i=1 i=1 i=1
n
X n
X
= x2i − 2x̄ xi + nx̄2
i=1 i=1
n
X
= x2i − 2x̄(nx̄) + nx̄2
i=1
n
X
= x2i − 2nx̄2 + nx̄2
i=1
n
X
= x2i − nx̄2 .
i=1


Nota. En virtud de la proposición 4.6.2 se tiene que una forma alternativa para calcular la varianza
muestral observada de una variable X es:

n
!
1 X
Sx2 = x2i − nx̄ 2
.
n−1 i=1

Ejemplo 4.6.5. El cálculo de Sx2 en el ejemplo 4.6.3 también se puede lograr como sigue:

n
!
1 X 1
Sx2 x2i 2
558, 800 − (9) 246, 662 = 1, 400.

= − nx̄ =
n−1 i=1
9−1

Las siguientes son algunas observaciones acerca de la varianza:

• La relación entre la varianza y la dispersión de un conjunto de datos es directa.

• Está dada en unidades cuadráticas.

• Es sensible a datos atípicos.

• Es un valor no negativo.

Nota. Si X y Y son variables conmensurables, a, b números reales y W = aX + bY entonces

2
SW 6= a2 SX
2
+ b2 SY2 .

¾El lector puede dar un ejemplo que rectique este hecho?


4.7. LA DESVIACIÓN ESTÁNDAR 77

4.7. La desviación estándar

La interpretación de la varianza no es directa porque está expresada en unidades cuadráticas. Por


ejemplo, si la variable de interés está medida en pesos, la varianza estará dada en pesos al cuadrado.
Este aspecto diculta la interpretación porque relacionar valores en unidades cuadráticas con valores
en unidades lineales (unidades sin elevar al cuadrado) puede llevar a conclusiones erróneas cuando
no se da a la varianza una calicación adecuada en las unidades reales; por tal motivo en los ejemplos
de la sección anterior se utiliza la palabra aparentemente para resaltar este hecho. La siguiente
medida de dispersión resuelve este inconveniente.

Denición 4.7.1. La desviación estándar o desviación típica se


dene como la raíz cuadrada positiva de la varianza.

Nota. De acuerdo con la denición 4.7.1, si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una


variable X entonces la desviación estándar muestral observada de X , denotada con Sx , está dada
por:
v
u n
u 1 X
Sx = t (xi − x̄)2 .
n − 1 i=1

Similarmente, si se dispone de una población nita de tamaño N, entonces la desviación estándar


poblacional de X, denotada con σX , está dada por:
v
u
u1 X N
σX =t (xi − µX )2 .
N i=1

4
Se observa que Sx es la realización de un estadístico , mientas que σX es una parámetro.

Nota. Las unidades de la desviación estándar son las mismas unidades de la variable de estudio. Por
ello, la interpretación de esta medida es inmediata y comparable con los valores de la variable.

Ejemplo 4.7.1. Calcular la desviación estándar de la utilidad mensual de la compañía del ejemplo
4.6.4.

Solución:

Como Sy2 = 374, 394.15 se sigue que la desviación estándar de la utilidad mensual es $611,870 dado
que
q p
Sy = Sy2 = 374, 394.15 = 611.87.

4 Corresponde
q Pn
2 = 1
a un valor especíco de la variable SX n−1 i=1 (Xi − X̄)2 calculada a partir de los datos de

una muestra determinada.


78 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

Las siguientes son algunas observaciones acerca de la desviación estándar:

• La relación entre la desviación estándar y la dispersión de un conjunto de datos es directa.

• Está dada en unidades lineales.

• Es sensible a datos atípicos.

• Es un valor no negativo.

4.8. Estandarización

En seguida se presenta una metodología para comparar magnitudes que en principio no lo son, con el
propósito de investigar una variable de interés en escenarios disímiles.

Denición 4.8.1. Se denomina estandarización o tipicación al


proceso de restar de una variable la media y luego dividir por la desvia-
ción típica.

Nota. De este modo, si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una variable X entonces


cuando se realiza este proceso se obtiene una nueva variable, denotada con Z, cuyas observaciones
está dadas por
xi − x̄
zi =
Sx
para i = 1, 2, . . . , n. Cuando se trata con una población se sigue que

X − µX
Z= .
σX
La variable Z se denomina variable estandarizada o variable tipicada .

5
Una variable estandarizada es una variable adimensional y permite hacer comparaciones entre magni-
tudes que en principio no son comparables. Esto se aplica al caso en que se quiera comparar individuos
semejantes de poblaciones diferentes. Por ejemplo, si se quiere comparar el nivel académico de dos
estudiantes de diferentes universidades para otorgar una beca de estudios, en principio será injusto
concederla directamente al que posea una nota media más elevada, ya que la dicultad para conse-
guir una buena calicación puede ser mucho mayor en un centro que en el otro, lo que limita las
posibilidades de uno de los estudiantes y favorece al otro. En este caso, se aconseja comparar las
calicaciones tipicadas de ambos estudiantes por medio del promedio y desviación típica de las notas
correspondientes de los alumnos de cada universidad.

5 Se dice que una variable es adimensional cuando no tiene unidades de medición.


4.9. TEOREMA DE CHEBYSHEV 79

Proposición 4.8.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de una variable X y Z una


variable estandarizada cuyas observaciones están dadas por

xi − x̄
zi =
Sx
para i = 1, 2, . . . , n. Entonces se tiene que

z̄ = 0 y Sz2 = 1.

La demostración queda como ejercicio para el lector.

Ejemplo 4.8.1. Teniendo en cuenta los datos de la tabla 4.1, estandarizar las observaciones de cada
empresa. Comentar los resultados obtenidos.

Solución:

En este caso se tiene que

x̄1 = 33.500, x̄2 = 1.708, Sx1 = 33.500 y Sx2 = 3.791

donde x̄i y Sxi son respectivamente la media muestral y la desviación estándar muestral de los salarios
de los supervisores de la i-ésima empresa para i = 1, 2. En la siguiente tabla se presentan los salarios
estandarizados de cada empresa:

Empresa 1 0.585 −1.639 −0.351 1.463 0.351 0.292 −0.702


Empresa 2 0.131 −1.582 −0.501 1.635 0.474 0.316 −0.474

Por ejemplo, se observa que el individuo 1 de la primera empresa es denitivamente mejor pago en
su contexto que el individuo 1 de la segunda compañía a pesar de que tienen salarios muy próximos,
dado que el puntaje estandarizado del primer individuo es superior que el mismo puntaje del otro
empleado. Tal comparación solo se puede realizar eliminando el efecto de la escala en las observaciones
asociadas. Además, se observa que la media y la desviación estándar de los salarios estandarizados de
cada empresa son 1 y 0 respectivamente. 

4.9. Teorema de Chebyshev

El matemático ruso Pafnuty Chebyshev 6


cuyo trabajo generó grandes avances en la probabilidad y
la estadística, se distingue por un teorema muy popular bautizado con su mismo nombre, en la cual se
evidencia la relación de la proporción de observaciones en un rango dado con la media y la desviación
estándar de la población correspondiente.

6 Fotografía tomada de la página web http://mimosa.pntic.mec.es/jgomez53/matema/conocer/chebyshev.htm.


80 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

Figura 4.3: Pafnuty Chebyshev (1821-1894).

Teorema 4.9.1. Para cualquier población con media µX y desviación estándar σX , por lo menos
el100(1 − 1/k 2 ) % de las observaciones de la variable X se encuentran a una distancia de la media
menor que kσX , para cualquier número k ≥ 1. De otra forma, dentro del intervalo que va de µX −kσX
2
a µX + kσX se encuentra por lo menos el 100(1 − 1/k ) % de los datos de la población.

teorema de Chebys-
La formulación matemática y la demostración del teorema 4.9.1 conocido como
hev o desigualdad de Chebyshev  se presenta en la sección 8.7 con la noción de probabilidad.
Ejemplo 4.9.1. Determinar un intervalo que contenga al menos 95 % de las observaciones de una
población con media 26 y desviación estándar 3.

Solución:

En este caso se tiene que

100 1 − 1/k 2 % = 95 %


1
1 − 2 = 0.95
k
1
= 0.05
k2 r
1
k=
0.05
k = 4.472.
4.10. EL COEFICIENTE DE VARIACIÓN DE PEARSON 81

Por lo tanto un intervalo que contiene por lo menos el 95 % de las observaciones de esta población es
aquel que va de 26 − (4.472)(3) = 12.583 a 26 + (4.472)(3) = 39.416. 

La tabla 4.3 proporciona algunos valores de k y los porcentajes correspondientes. Por ejemplo, de
acuerdo con el teorema de Chebyshev, al menos el 55.6 % de los datos de la población se encuentran a
una distancia de la media menor que 1.5 veces la desviación estándar. O, dicho de otra forma, dentro
del intervalo que va de µX − (1.5)σX hasta µX + (1.5)σX , sin importar el valor de µX y de σX , se
encuentra por lo menos el 55.6 % de los datos de la población.

Ejemplo 4.9.2. Considerar los datos de la primera empresa de la tabla 4.1. Estos datos tienen
una media de 33.500 con una desviación estándar de 1.708 ambas cantidades dadas en millones
de pesos. Asumiendo que estos datos conforman las observaciones de una población, el teorema de
Chebyshev asegura que al menos 55.6 % de los salarios se encuentran a una distancia de la media
menor que (1.5)(1.708)=2.561 millones de pesos. En otras palabras, dentro del intervalo que va de
30.938 a 36.062 millones de pesos están por lo menos el 55.6 % de los salarios. Análogamente, dentro
del intervalo que va de 27.523 a 39.477 millones de pesos se encuentra por lo menos el 75.0 % de los
salarios de los supervisores de la empresa. 

k 1.5 2.0 2.5 3.0 3.5 4.0


100(1 − 1/k 2 ) % 55.6 % 75.0 % 84.0 % 88.9 % 91.8 % 93.7 %

Tabla 4.3: Algunos valores asociados con el teorema de Chebyshev.

La ventaja del teorema de Chebyshev es que se puede aplicar a cualquier población. Pero, en con-
trapartida, tiene un inconveniente importante. Para muchas poblaciones, el porcentaje de valores que
se encuentran en un intervalo determinado es mucho mayor que el mínimo asegurado por el teorema.
Para poblaciones con distribuciones que tengan forma acampanada (ver la distribución (d) de la gu-
ra 3.1), es posible establecer una regla empírica que proporcione valores ables, como sigue: para
poblaciones con una distribución de frecuencias que tenga forma de campana, aproximadamente el
68 % de los valores de la población se encuentran a una distancia de la media menor que una desvia-
ción estándar, y aproximadamente el 95 % están a una distancia de la media menor que dos veces la
desviación estándar.

4.10. El Coeciente de variación de Pearson

Analizando la variabilidad de un conjunto de datos con respecto a la media, la desviación estándar es


una medida óptima que reeja tal característica. A diferencia de la varianza, la desviación estándar
está dada en las unidades originales de la variable de estudio y por ello su interpretación es directa:
cuanto más pequeña es la magnitud de la desviación estándar, menor es la dispersión del conjunto
de datos con respecto al promedio. Pero aún la palabra pequeña no tiene un signicado preciso.
¾Cuando la desviación estándar se considera estadísticamente como un valor pequeño?
82 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

De otra parte, para comparar la dispersión de dos o más conjuntos de datos no es adecuado confrontar
simplemente las varianzas o las desviaciones estándar, puesto que tales medidas están inuenciadas
por la escala de medida de los datos. Es necesario, por lo tanto, eliminar tal inuencia generada por
las unidades de medida. El coeciente de variación de Pearson, en honor al matemático británico Karl
Pearson 7
, es una medida relativa
8
de dispersión que permite solucionar estas inquietudes.

Figura 4.4: Karl Pearson (1857-1936).

Denición 4.10.1. El coeciente de variación de Pearson (o sim-


plemente coeciente de variación) se dene que como el valor absoluto
del cociente entre la desviación estándar y la media del conjunto de datos
correspondiente.

Nota. De acuerdo con la denición 4.10.1, si se dispone de la información de una muestra asociada con
una variable X entonces el valor observado del coeciente de variación muestral de X , denotado
con CV
d x, está dado por
Sx
CV x =
d

donde |a| es el valor absoluto de a. Similarmente, el coeciente de variación poblacional de una
variable X , denotado con CVX , está dado por

σX
CVX =
.
µX
7 Fotografía tomada de la página web http://www.apprendre-math.info/history/photos/Pearson.jpeg.
8 Una medida relativa es aquella medida que dene su valor en relación a otra cantidad.
4.10. EL COEFICIENTE DE VARIACIÓN DE PEARSON 83

Como se ha visto, para establecer el tamaño relativo de la desviación estándar se utiliza el promedio,
comparando la magnitud de la dispersión de la variable con la media del conjunto de datos, de tal
forma que la apreciación correspondiente es relativa al valor del promedio. Además, como se trata de
un cociente, las unidades del numerador y del denominador se cancelan y en consecuencia el coeciente
de variación es una medida adimensional, lo que quiere decir que carece de unidades de medición. Por
ello, se acostumbra expresar el coeciente en porcentaje y dependiendo del valor que tome se dice que
si el coeciente de correlación:

• Está entre 0 % y 5 % entonces la dispersión del conjunto de datos es mínima.

• Está entre 5 % y 15 % entonces la dispersión del conjunto de datos es moderada.

• Es superior a 15 % entonces la dispersión del conjunto de datos es alta.

Ejemplo 4.10.1. Un inversionista potencial piensa adquirir acciones en una de dos compañías A o
B listadas en la bolsa de valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas
tienen igual clasicación en términos de crecimiento potencial como lo aseguran varios servicios de
inversión el posible inversionista quizás considere la volatilidad (variabilidad) de ambas acciones para
tomar una decisión en cuanto a la inversión. En los últimos meses, el precio promedio de las acciones
en la compañía A fue de USD 50 con una desviación estándar de USD 10. Además, durante el mismo
periodo, el precio promedio de las acciones en la compañía B fue de USD 12 con una desviación
estándar de USD 4. ¾Cómo puede determinar el inversionista cuáles acciones son más variables?

Solución:

En términos de la desviación estándar, el precio de las acciones de la compañía A parece más volátil
que el de las acciones de la compañía B. Sin embargo, como los precios promedio por acción de las dos
compañías son tan diferentes, será conveniente que el inversionista potencial considere la variabilidad
del precio con respecto al promedio a n de examinar la volatilidadestabilidad de ambas acciones. Si
X denota el precio (en dólares) de las acciones en el periodo de tiempo examinado, para la compañía
A, el coeciente de variación es d x = |(10/50)100 %| = 20.0 %; mientras
CV que para la compañía B,
el coeciente de variación es d x = |(4/12)100 %| = 33.3 %. Entonces, en
CV relación con la media, el
precio de las acciones de la compañía B es mucho más variable que el de las acciones de la compañía
A. 
Nota. El coeciente de variación sirve para comparar la variabilidad de dos conjuntos de datos respecto
a la media, mientras que si se quiere comparar a dos individuos de cada uno de estos conjuntos, es
necesario utilizar los valores estandarizados.

Las siguientes son algunas observaciones acerca del coeciente de variación:

• La relación entre el coeciente de variación y la dispersión de un conjunto de datos es directa.

• Es una medida adimensional.

• Es sensible a valores atípicos.


84 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

• Es un valor no negativo.

• Si el promedio es igual a 0 entonces el coeciente de variación no está denido.

4.11. Otras medidas de dispersión

A continuación se presentan algunas medidas de dispersión basadas en el valor absoluto cuya magnitud
depende del posicionamiento de los datos respecto a la media y la mediana.

La desviación media es una medida que captura las desviaciones absolutas de los datos respecto a la
media. Esta medida también se denomina desviación absoluta.

Denición 4.11.1. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones


de una variable X. La desviación media de este conjunto de datos,
denotada con Dx , está dada por:

n
1X
Dx = |xi − x̄|
n i=1

donde x̄ es el promedio observado del conjunto de datos.

La desviación mediana es similar a la desviación media, pero ahora las desviaciones se calculan respecto
a la mediana del conjunto de datos.

Denición 4.11.2. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X . La desviación mediana de este conjunto de datos,
denotada con DMX , está dada por:

n
1X
DMx = |xi − x̃|
n i=1

donde x̃ es la mediana observada del conjunto de datos.

Nota. Las unidades en las que están dadas tanto la desviación media como desviación mediana son
unidades lineales. Además, de ser requeridos, los parámetros correspondientes se denen análogamente.

Ejemplo 4.11.1. Considerar los datos de la tabla 4.4 asociados con una muestra de ventas diarias
(en millones de pesos) de una empresa con 30 sucursales en el país. Si esta empresa tiene un contrato
con una compañía de contaduría que asegura que sus ingresos diarios no tienen una dispersión mayor
4.11. OTRAS MEDIDAS DE DISPERSIÓN 85

a $2,000,000, ¾qué se podría concluir al realizar una comparación de la desviación media, la desviación
mediana, la desviación estándar y el rango intercuartílico junto con un diagrama de caja y bigotes?

7.00 11.85 14.17 7.84 6.05 12.01 10.28 13.08 14.57 6.10
7.73 9.91 8.18 10.59 7.63 7.02 8.88 13.88 10.55 13.42
11.23 9.20 8.92 9.84 8.93 9.86 9.40 7.82 10.24 9.74

Tabla 4.4: Datos asociados con una muestra de ventas diarias (en millones de pesos) de una empresa.

Solución:

Teniendo en cuenta que la media y la mediana de las ventas diarias (X ) de las 30 sucursales de la
empresa son respectivamente 9.86 y 9.79 millones de pesos, se obtienen los resultados que se presentan
en seguida y el diagrama de caja y bigotes de la gura 4.5.

Medida Dx DMx RIx Sx


Dispersión 1.84 1.83 3.13 2.35

Teniendo en cuenta que las medidas toman posiciones opuestas respecto a la dispersión mencionada
en el contrato, la inspección del diagrama de caja toma un papel decisivo. Éste muestra que no
hay evidencia de datos atípicos, por lo que la desviación estándar no se encuentra inada por
observaciones extremas. Además, el rango intercuartílico, que es una medida robusta frente a los
observaciones atípicas, también muestra un fallo negativo respecto a la dispersión establecida en el
contrato. Así, se puede concluir que la dispersión encontrada en la muestra excede efectivamente lo
estipulado. 

A continuación se presenta sin demostración una proposición que relaciona las magnitudes de algunas
medidas de dispersión:

Proposición 4.11.1. Si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una variable X entonces


se tiene que
0 ≤ DMx ≤ Dx ≤ Sx y 0 ≤ Dx ≤ Rx /2
donde Sx y Rx son respectivamente la desviación estándar muestral y el rango de la variable X.

Las siguientes son algunas observaciones acerca de la desviación media y la desviación mediana:

• La relación entre la desviación media y la dispersión de un conjunto de datos es directa. Esto


mismo sucede con la desviación mediana.

• La desviación media y la desviación mediana son valores no negativos.


86 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

Figura 4.5: Diagrama de caja y bigotes de los datos de la tabla 4.4.

• La desviación media es sensible a datos atípicos, mientras que la desviación mediana es más
robusta frente a este tipo de observaciones.

4.12. Comentarios

Como es costumbre en el inicio de todo tipo de estudio, lo primero que se hace es la exploración
y la descripción de la información para conocer el material del cual se dispone y cómo se puede
emplear. En este capítulo se muestra cómo analizar más detalladamente la información disponible
para conocer un elemento fundamental de ésta: su dispersión. La variabilidad de un conjunto de datos
se explora a través de diferentes medidas que dan cuenta de la homogeneidad o heterogeneidad de
las observaciones respecto a las medidas de tendencia central.

Este paso descriptivo cobra especial importancia a medida que una investigación avanza puesto que
4.13. EJERCICIOS 87

las decisiones que se tomen posteriormente se verán inuenciadas por la dispersión de las variables
de estudio y la precisión de las medidas de los estadísticos calculados. Inclusive, en la vida cotidiana,
el conocimiento de la variabilidad es tenido en cuenta aún en los procesos más simples, como en la
planeación de cronogramas y la realización de reuniones.

También se enseña una de las mejores formas grácas de resumir toda la información proporcionada
por las medidas de localización y de dispersión, por medio de un solo gráco, denominado diagrama de
caja y bigotes. Éste permite describir y analizar a profundidad la posición y la forma de la distribución
de un conjunto de datos cuantitativos.

4.13. Ejercicios
4.1. Demostrar que si X es una variable y a, b son números reales entonces se tiene que:

i. Si X=a entonces SX = 0.
ii. Si Y = aX + b entonces SY = |a|SX .

4.2. Demostrar que si X es una variable y a es un número real entonces se tiene que:

i. Si X=a y a 6= 0 entonces CV
d X = 0.
ii. Si Y = aX entonces CV
dX = CV
dY .
iii. Si Y =X +a y a≥0 entonces d Y ≤ CV
CV dX .

4.3. Establecer la escala de medición requerida para cada medida de dispersión presentada en este
capítulo.

4.4. Con la información del ejercicio 3.11, calcular, interpretar y comparar el coeciente de variación
de cada propuesta. ¾Qué es más ventajoso para el Estado y qué para cada grupo de empleados?

4.5. Sean X y Y dos variables tales que:

10
X 10
X 10
X 10
X
xi = 110, yi = 60, x2i = 3156 y yi2 = 1138.
i=1 i=1 i=1 i=1

Para cada variable calcular el coeciente de variación. Interpretar y comparar los resultados
obtenidos.

4.6. Con la información del ejercicio 3.12, calcular e interpretar el coeciente de variación.

4.7. Una compañía evalúa la eciencia del transporte público y privado que utilizan sus empleados
para ir a trabajar diariamente. En la siguiente tabla se presenta un par de muestras asociadas
con el tiempo (en minutos) de cada modo de transporte. Calcular el promedio y la desviación
estándar en cada caso. Con base en los resultados obtenidos, ¾qué modo de transporte se debe
preferir?
88 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

Particular 14 15 17 14 10 16 17 16 13 15
Público 20 19 18 15 14 14 13 21 22 10

4.8. Con la información del ejercicio 3.17, calcular las medidas de dispersión y realizar un diagrama
de caja y bigotes. Con base en los resultados obtenidos, ¾qué se puede asegurar acerca de la
situación salarial de los empleados?

4.9. Sea µX la media poblacional de una variable X y x1 , x2 , . . . , xn un conjunto de n realizaciones


de X . Demostrar que
n
X
(xi − µ)2 = (n − 1)Sx2 + (x̄ − µ)2
i=1

y
n n
1 XX
Sx2 = (xi − xj )2 .
n − 1 i=1 j=1

donde x̄ y Sx2 son respectivamente la media y la varianza observada de X.

4.10. En un estudio de tiempos llevado a cabo en una planta manufacturera, el tiempo (en minutos)
requerido para completar cierta operación se mide para un grupo de trabajadores. Se encuentra
que la media y la desviación estándar son 12.8 y 1.7 minutos respectivamente. Describir los datos
de la muestra utilizando la regla empírica. ¾Qué es necesario suponer sobre la distribución de los
tiempos para que el uso de la regla empírica sea adecuado? ¾Esta descripción coincide con la que
sugiere la desigualdad de Chebyshev?

4.11. Los siguientes datos corresponden al tiempo (en horas) utilizado para preparar un examen de
conocimiento y las calicaciones correspondientes (en una escala de 0 a 5) de una muestra de
aspirantes a un cargo especíco de una compañía. El jefe de personal de la empresa asegura que
el tiempo requerido para tener buenos resultados en la prueba es cercano a 8 horas. Teniendo en
cuenta las medidas de dispersión y un diagrama de caja y bigotes, ¾qué se puede asegurar acerca
de lo que sugiere el funcionario?

Tiempo 03 36 69 912 1215


Frecuencia 2 6 7 4 1
Calicación 01 12 23 34 45
Frecuencia 1 4 11 3 1

4.12. Con el propósito de estudiar la relación entre la inteligencia y los ingresos se tomaron dos muestras,
una de ellas conformada por individuos de cociente intelectual (CI ) inferior a 95 y otra conformada
por los demás; de cada persona se observó el salario mensual familiar (en salarios mínimos). Para
cada grupo calcular las medidas de dispersión y realizar un diagrama de caja y bigotes. ¾Los
resultados sugieren que las personas más inteligentes tienen mayores ingresos?
4.13. EJERCICIOS 89

Salario 12 23 34 45 56 67


Frecuencia (CI < 95) 15 35 40 30 25 15
Frecuencia (CI ≥ 95) 19 26 35 40 52 28

4.13. Demostrar que cuando los datos de una muestra están agrupados en una distribución de frecuen-
cias, la varianza se calcula con la fórmula

k
!
1 X
2
ni xi − nx̄
n−1 i=1

donde k es el número de clases, ni es la frecuencia absoluta y xi es la clase o la marca de clase


de la i-ésima categoría para i = 1, . . . , k .

4.14. Con la información del ejemplo 4.6.3, calcular, interpretar y comparar el coeciente de variación
para cada propuesta.

4.15. Considerar una población que consta del número de profesores en cada una de las universidad
pequeñas de una ciudad. El número de profesores por universidad tiene un promedio de 175 y
una desviación de estándar de 15.

a. Usar le teorema de Chebyshev para describir el porcentaje de universidades que tienen entre
145 y 205 profesores.

b. Si la distribución del número de profesores tiene forma acampanada, ¾qué fracción de las
universidades tiene mas de 190 profesores?

4.16. Se analizaron en el primer semestre de 2006 los gastos de una empresa de construcción y se
obtuvo un promedio de 174 millones de dólares y una desviación típica de 9 millones de dólares.
Se determinó luego que los contadores de esta empresa habían prescindido de 3 millones de
dólares en los gastos por un error de apreciación. Corrigiendo las medidas enunciadas, obtenga el
coeciente de variación de los gastos de esta empresa.

4.17. Los siguientes datos representan las puntuaciones de ambivalencia social para un grupo de per-
sonas, según los resultados de una prueba psicológica. Se observa que cuanto más alta se la
puntuación, mas fuete es la ambivalencia.

9 13 12 14 15 11 10 4 10
8 19 13 11 17 9 11 14 12

a. Calcular e interpretar el coeciente de variación.

b. Si la gerencia de la empresa a la que pertenecen las personas observadas le asegura al Ministerio


de Salud que la variabilidad de la ambivalencia es 2.5, lo que sugiere una estabilidad razonable
en el estado psicológico de los trabajadores, ¾qué se podría concluir al realizar una comparación
de la desviación media, la desviación mediana, la desviación estándar y el rango intercuartílico
junto con un diagrama de caja y bigotes?
90 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN

c. Debido a un error en el instrumento de medición, la puntuación de los empleados requiere


un reajuste de la forma aX + b donde X es el puntaje de la ambivalencia de los empleados.
Calcular a y b de forma tal la puntuación promedio de ambivalencia disminuya a 10 con un
coeciente de variación de 5 %. ¾Qué indican estos valores?

d. ¾Qué fracción de las puntuaciones está efectivamente a dos desviaciones estándar del promedio
de la muestra? ¾Qué indican la desigualdad de Chebyshev y la regla empírica al respecto? Con
los resultados obtenidos, ¾cómo se puede describir la distribución de las puntuaciones?

4.18. En cierta región la distribución de predios por extensión tiene una media de 35.4 hectáreas y una
desviación típica de 19.33 hectáreas, mientras que la distribución por canon de arrendamiento
tiene una media de $245,750 y una desviación de $7,470. ¾Cual de las dos distribuciones tiene
mayor variabilidad? ¾Por qué?

4.19. Con la información del ejemplo 4.6.4, calcular e interpretar el coeciente de variación de las
utilidades.
Capı́tulo 5
Medidas de forma

5.1. Introducción

Una vez iniciada la síntesis y la descripción de la información, por medio de las medidas de tendencia
central, de posición y de dispersión, es necesario conocer más sobre la distribución de los datos, como la
1
forma y el sesgo . Para ello están concebidas las medidas de forma, las cuales proporcionan información
relacionada con la conguración y el arreglo de las observaciones de interés.

En primer lugar, se quiere saber si los datos se distribuyen de forma simétrica respecto al promedio
2
aritmético , o si bien la gráca que representa la distribución de frecuencias tiene una forma diferente.
Si la distribución de los datos es simétrica, se quiere investigar el grado de apuntamiento de la curva,
es decir, si la gráca es apuntada larga y estrecha o por el contrario aplanada corta y achatada,
y con ello estudiar la dispersión y las frecuencias de las observaciones alrededor del promedio. Este
apuntamiento se mide por medio de una comparación con una distribución de datos que se considera
normal (detalles en la sección 10.3).

1 En este contexto, el término sesgo hace referencia a la desviación de una forma respecto a una determinada de
antemano.
2 Como eje de simetría se considera una recta paralela al eje y que pasa por la media de la distribución de frecuencias.
Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda del promedio
(Wikipedia 2012a).

91
92 CAPÍTULO 5. MEDIDAS DE FORMA

5.2. Medidas de asimetría

Para establecer si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué
valor es simétrica. Un buen candidato para ello es el promedio aritmético del conjunto de datos.

Denición 5.2.1. Se dice que una distribución de frecuencias es simé-


trica con respecto a la media cuando lo es su representación gráca, es
decir, cuando los datos equidistantes a la media tienen frecuencias igua-
les. Una distribución de frecuencias que no es simétrica, se denomina
asimétrica .

Nota. En la denición 5.2.1, la asimetría puede ser a la derecha asimetría positiva o a la izquierda
asimetría negativa si la representación gráca está más estirada hacia la derecha o la izquierda
respectivamente.

En la gura 5.1 se presentan tres ejemplos de distribuciones de frecuencias representadas con histo-
3
gramas y polígonos de frecuencias suavizados  simétricos y asimétricos (con sesgo). En lo que sigue
se consideran algunos factores y medidas que indican y cuantican el sesgo de una distribución de
datos con respecto al promedio. Las medidas de asimetría o coecientes de sesgo tienen como nalidad
establecer el grado de simetría (o asimetría) que presenta una distribución de forma objetiva y precisa.

5.2.1. Inspección de las medidas de tendencia central

Calculando las medidas de tendencia central (considerando conjuntos de datos unimodales) es posible
identicar la simetría o asimetría de una distribución mediante los siguientes casos:

• En una distribución simétrica (gráco (b) de la gura 5.1), la media, la media y la moda siempre
coinciden. Es decir, se cumple la relación:

M edia = M ediana = M oda.

En este tipo de distribuciones, los datos se encuentran repartidos a lo largo del recorrido de
forma que todas las medidas de tendencia central están justo en el centro del conjunto de datos.

• Si la distribución es asimétrica a la izquierda (gráco (a) de la gura 5.1), el orden en que


aparecen es media-mediana-moda. Es decir, se cumple la relación:

M edia < M ediana < M oda.


3A groso modo, un polígono de frecuencias suavizado se reere a la representación gráca de una distribución
de frecuencias en la que no se realzan las barras del histograma, sino la forma curvilínea del polígono de frecuencias
correspondiente.
5.2. MEDIDAS DE ASIMETRÍA 93

• Si la distribución es asimétrica a la derecha (gráco (c) de la gura 5.1) entonces el orden en


que aparecen las medidas de tendencia central es moda-mediana-media. Es decir, se cumple la
relación:
M oda < M ediana < M edia.

Nota. La representación gráca de una distribución simétrica no tiene que se acampanada necesaria-
mente; una distribución simétrica puede tener forma de  U como en la distribución (a) de la gura
3.1), aunque en este caso la distribución es bimodal.

Figura 5.1: Algunas distribuciones de frecuencias.

Ejemplo 5.2.1. Inspeccionar las medidas de tendencia central de los datos de la tabla 2.9.

Solución:

Como se observa en los ejemplos 3.2.1, 3.2.6 y 3.2.8, en este caso se tiene que

x̄ = 94.09, x̃ = 92.44 y x̆ = 90.39

donde X denota las ganancias diarias de una muestra de empresas. Como x̆ < x̄ < x̃, la inspección de
las medidas de tendencia central sugiere que la distribución de estas ganancias es sesgada positivamente
o a la derecha; esto indica que hay algunas compañías con utilidades considerablemente superiores a
las ganancias de las demás. Sin embargo, la magnitud de las medidas de tendencia central no diere
en gran medida, por lo que el sesgo de la distribución es ligero y apenas notorio (como se establece
objetivamente en los ejemplos 5.2.2, 5.2.3 y 5.2.4) y por lo tanto las utilidades aparentemente superiores
son poco inuyentes.

En la gura 5.2 se muestra un histograma y un diagrama de caja y bigotes asociados con las ganancias
de las compañías objeto de estudio. En el histograma se observa la simetría aproximada y el ligero
sesgo positivo de la distribución de las utilidades, como también la proximidad de las medidas de
tendencia central que están señaladas en la mitad de la gura (a) con líneas verticales punteadas
94 CAPÍTULO 5. MEDIDAS DE FORMA

que casi coinciden. De otra parte, en el diagrama de caja y bigotes se observa la simetría de la
distribución de las ganancias dado que la extensión de los bigotes es la misma y la caja esta partida
en dos partes iguales por la utilidad mediana; en este diagrama también se observa el ligero sesgo
positivo de la distribución de las ganancias debido a un par de observaciones señaladas a la derecha
correspondientes a las utilidades de dos empresas sobresalientes en relación con las utilidades de las
demás.

En consecuencia, la distribución de las ganancias diarias de las empresas se puede considerar aproxi-
madamente simétrica y así las utilidades diarias de las empresas están equilibradas razonablemente
alrededor de la ganancia promedio (94.09 millones). 

Figura 5.2: Histograma (a) y diagrama de caja y bigotes (b) asociados con los datos de la tabla 2.9.

5.2.2. El coeciente de asimetría de Pearson

Cuando un conjunto de datos es unimodal, la siguiente medida es útil para establecer el sesgo de la
distribución de la variable de estudio:

Denición 5.2.2. El coeciente de asimetría de Pearson se cal-


cula como la diferencia entre la media aritmética y la mediana dividida
por la desviación estándar del conjunto de datos.
5.2. MEDIDAS DE ASIMETRÍA 95

Nota. De acuerdo con la denición 5.2.2, si se dispone de la información de una muestra asociada con
una variable X entonces el valor observado del coeciente de asimetría de Pearson muestral
de X, denotado con AP
dX , está dado por

d X = x̄ − x̆
AP
Sx
donde x̄, x̆ y Sx son respectivamente los valores observados del promedio, la moda y la desviación
estándar de la muestra. La denición del coeciente de asimetría de Pearson poblacional es análoga.

En cuanto a la interpretación, dada una variable X,


AP
d X = 0, se dice que la distribución
cuando
de X es simétrica; cuando AP
d X < 0, se dice que la distribución de X es sesgada negativamente o a
la izquierda; y cuando AP
d X > 0, se dice que la distribución de X es sesgada positivamente o a la
derecha.

Nota. Como se ha visto, para calcular el coeciente de asimetría de Pearson se requiere que la dis-
tribución de los datos sea unimodal. Además, este coeciente se trata de una medida estadística
adimensional, es decir, que no tiene unidades de referencia.

Ejemplo 5.2.2. Calcular e interpretar el coeciente de asimetría de Pearson de los datos de la tabla
2.9.

Solución:

Como se evidencia en los ejemplos 5.2.1 y 4.6.2, en este caso se tiene que
√ x̄ = 94.09, x̆ = 90.39 y
Sx = 355.18 = 18.85. En consecuencia, el valor observado del coeciente de asimetría de Pearson es

d X = x̄ − x̆ = 94.09 − 90.39 = 0.19.


AP
Sx 18.85
Como el valor del coeciente es un número positivo que corresponde a una magnitud que en relación
con los valores de la variable y las medidas de tendencia central no diere de 0, se conrma la simetría
aproximada de la distribución de las ganancias de las empresas, tal y como se estableció en el ejemplo
5.2.1. 

Las siguientes son algunas observaciones acerca del coeciente de asimetría de Pearson:

• Es de uso restringido dado que se aplica únicamente a distribuciones unimodales.

• No tiene propiedades aritméticas directas y sencillas de aplicar.

• Es una medida adimensional.

5.2.3. El coeciente de asimetría de Fisher

El coeciente de asimetría de Pearson solo aplica a distribuciones de forma aproximadamente acam-


panada y unimodales. Para distribuciones de otro tipo se puede utilizar, entre otros, el denominado
96 CAPÍTULO 5. MEDIDAS DE FORMA

coeciente de asimetría de Fisher, denominado así en honor a Ronald Fisher 4


.

Denición 5.2.3. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X. El coeciente de asimetría de Fisher de este con-
junto de datos, denotado con AF
dX , está dado por:

n
1 X
AF
dX = (xi − x̄)3
nSx3 i=1

donde x̄ y Sx son respectivamente los valores observados del promedio y


la desviación estándar de la muestra.

Nota. El coeciente de asimetría de la denición 5.2.3 corresponde al valor observado del coeciente
de asimetría de Fisher muestral . Este coeciente es una medida adimensional y por ende se
puede expresar en porcentaje al igual que el coeciente de asimetría de Pearson y su interpretación es
análoga. De otra parte, cuando se tiene una población nita, la denición del coeciente de asimetría
de Fisher poblacional es análoga.

Cuando los datos de una muestra están agrupados en una distribución de frecuencias el coeciente de
asimetría de Fisher muestral se calcula con la fórmula

k
1 X
AF
dX = ni (xi − x̄)3
nSx3 i=1

donde k es el número de clases, ni es la frecuencia absoluta y xi es la clase o marca de clase de la


i-ésima categoría para i = 1, . . . , k .
Ejemplo 5.2.3. Calcular e interpretar el coeciente de asimetría de Fisher de los datos de la tabla
2.9.

Solución:

Para calcular este coeciente primero se deben calcular las respectivas marcas de clase como en el
ejemplo 3.2.1. Una vez calculadas las marcas de clase, se calcula el coeciente de asimetría de Fisher
de las ganancias aplicando la fórmula para datos agrupados. En la tabla 5.1 se presentan los cálculos
pertinentes. Además, como en el ejemplo 5.2.2, se tiene que Sx = 18.85.

Así, la magnitud del coeciente de asimetría de Fisher de las ganancias es igual a

k
1 X 102, 803.76
AF
dX = ni (xi − x̄)3 = = 0.44.
nSx3 i=1 (35)(18.853 )

Aunque el valor de este coeciente no coincide con el del ejemplo 5.2.2, su interpretación es análoga
y la conclusión acerca de la distribución de las ganancias es idéntica. 
4 Fotografía tomada de la página web http://trailblazing.royalsociety.org/?p=6&eventIdInfoTab=120.
5.2. MEDIDAS DE ASIMETRÍA 97

Clase xi ni ni (xi − x̄)3 ni (xi − x̄)3


[60.4; 74.0) 67.22 5 −97, 077.66 2,609,170.16
[74.0; 87.7) 80.85 9 −20, 906.50 276,881.67
[87.7; 101.3) 94.48 10 0.59 0.23
[101.3; 114.9) 108.12 6 16,544.77 232,004.97
[114.9; 128.6) 121.75 3 63,459.75 1,755,054.82
[128.6; 142.2] 135.38 2 140,782.81 5,812,855.04
Total N.A. 35.00 102,803.76 10,685,966.89

Tabla 5.1: Cálculos de los ejemplos 5.2.3 y 5.3.1.

Las siguientes son algunas observaciones acerca del coeciente de asimetría de Fisher:

• Se utiliza para cualquier tipo de distribuciones.

• Tiene propiedades aritméticas directas y sencillas de aplicar.

• Es una medida adimensional.

• Es sensible a datos atípicos.

Figura 5.3: Ronald Fisher (1890-1962).


98 CAPÍTULO 5. MEDIDAS DE FORMA

5.2.4. El índice de asimetría de Yule-Bowley

Si una distribución de frecuencias es simétrica, es claro que la distancia que hay entre el tercer cuartil
y la mediana debe ser la misma que la que hay entre la mediana y el primer cuartil, esto es

q3 − q2 = q2 − q1 .

Similarmente, una pista para saber si una distribución de frecuencias es sesgada positivamente es que
se cumpla que
q3 − q2 > q2 − q1 ,
y por analogía, si la distribución es sesgada negativamente entonces se sigue que

q3 − q2 < q2 − q1 .

Teniendo en cuenta las relaciones entre los cuartiles, con el propósito de obtener una medida adimen-
sional que cuantique el sesgo de una distribución de frecuencias, se dene el siguiente índice:

Denición 5.2.4. Dadas las observaciones de una muestra de una va-


riable X , el valor observado del índice de asimetría de Yule-Bowley
de este conjunto de datos, denotado con AS
c X, está dado por:

c X = (q3 − q2 ) − (q2 − q1 )
AS
q3 − q1
donde q1 , q2 y q3 son los cuartiles de las observaciones.

Nota. La interpretación del índice de asimetría de Yule-Bowley es análoga a la de los otros coecientes
de asimetría, pero en este caso se tiene que −1 ≤ AS
c X ≤ 1.

Ejemplo 5.2.4. Calcular e interpretar el coeciente de asimetría de Yule-Bowley de los datos de la


tabla 2.9.

Solución:

Como se muestra en el ejemplo 3.3.4, en este caso se sigue que

q1 = 79.71, q2 = 92.44, y q3 = 106.41.

Así, la magnitud del coeciente de asimetría de Yule-Bowley de las ganancias es igual a

c X = (q3 − q2 ) − (q2 − q1 ) = (106.41 − 92.44) − (92.44 − 79.71) = 0.05.


AS
q3 − q1 106.41 − 79.71
Aunque el valor de este coeciente no coincide con los de los ejemplos 5.2.2 y 5.2.3, su interpretación
es análoga y la conclusión acerca de la distribución de las ganancias es idéntica. 
5.3. MEDIDAS DE APUNTAMIENTO 99

Las siguientes son algunas observaciones acerca del coeciente de asimetría de Yule-Bowley:

• Únicamente toma valores entre −1 y 1.

• No tiene propiedades aritméticas directas y sencillas de aplicar.

• Es una medida adimensional.

• No es sensible a datos atípicos.

Nota. Cuando se investiga la simetría de una distribución de frecuencias se recomienda utilizar las
tres medidas de asimetría con el propósito de contrastar la información que proporcionan y describir
precisamente la forma correspondiente.

5.3. Medidas de apuntamiento

Las medidas de apuntamiento también denominadas medidas de curtosis o de concentración central


estudian la concentración de frecuencias de una distribución en torno al promedio. A mayor o menor
concentración de frecuencias alrededor de la media en la región central de las observaciones, se obtiene
una distribución más o menos apuntada. Por esta razón, las medidas de curtosis se aplican a dis-
tribuciones de frecuencias campaniformes, es decir, distribuciones unimodales simétricas o con ligera
asimetría.

Para investigar el apuntamiento de una distribución de frecuencias es necesario denir previamente una
distribución que se va a tomar como punto de referencia. Esta distribución se denomina distribución
normal.

Denición 5.3.1. La distribución normal corresponde a una distri-


bución de frecuencias cuyo polígono de frecuencias de una variable X
con media µX y desviación σX corresponde a la función

2
1

x−µX
−1
fX (x) = √ e 2 σX

2πσX
donde π es el número pi y e es el número de Euler.

Nota. La denición 5.3.1 es apenas una denición preliminar de la distribución normal. En la gura 5.4
se presenta una ejemplo de la distribución normal. Esta distribución se estudia detalladamente en la
sección 10.3.2 y es el punto de referencia para decidir si una distribución de frecuencias es apuntada
o aplanada.

A continuación se presenta una medida para cuanticar el grado de apuntamiento de una distribución
de frecuencias dada:
100 CAPÍTULO 5. MEDIDAS DE FORMA

Figura 5.4: Gráco de la distribución normal con media 0 y varianza 1.

Denición 5.3.2. Sea x1 , x2 , . . . , xn un conjunto de n realizaciones de


una variable X. El valor observado del coeciente de apuntamiento
de Fisher de este conjunto de datos, denotado con AG
dX , está dada
por:
n
1 X
AG
dX = (xi − x̄)4 − 3.
nSx4 i=1
donde x̄ y Sx son respectivamente los valores observados del promedio y
la desviación estándar de la muestra.

coeciente
Nota. La magnitud del coeciente de la denición 5.3.2 corresponde al valor observado del
de apuntamiento de Fisher muestral . Este coeciente también se llama curtosis y es una medida
adimensional al igual que los otros coecientes. Además, cuando se tiene una población nita, la
denición del coeciente de apuntamiento de Fisher poblacional es análoga.

Cuando los datos de una muestra están agrupados en una distribución de frecuencias el coeciente de
5.3. MEDIDAS DE APUNTAMIENTO 101

apuntamiento de Fisher muestral se calcula con la fórmula

k
1 X
AG
dX = ni (xi − x̄)4 − 3
nSx4 i=1

donde k es el número de clases, ni es la frecuencia absoluta y xi es la clase o marca de clase de la


i-ésima categoría para i = 1, . . . , k .

De otra parte, para la distribución normal estándar se tiene que la curtosis es exactamente igual a 0.
De este modo, trabajando con datos muestrales de una variable X, se clasican las distribuciones de
frecuencias como:

• Leptocúrtica : cuando AG
d X > 0, es decir, cuando la distribución de frecuencias es más apuntada
que la normal.

• Mesocúrtica : cuando AG
d X = 0, es decir, cuando la distribución de frecuencias es tan apuntada
como la normal.

• Platicúrtica : cuando AG
d X < 0, es decir, cuando la distribución de frecuencias es menos apun-
tada que la normal.

En la gura 5.5 se muestra un ejemplo de algunas distribuciones simétricas con distintos grados de
apuntamiento. En la gura (a) las observaciones se encuentran altamente dispersas en torno a la
media y están asociadas con una distribución más aplanada que la normal, mientras que en la gura
(c) los valores de la variable están mucho más concentrados alrededor del promedio y conforman
una distribución mucho más apuntada que la normal. Por último, la gura (b) corresponde a una
distribución intermedia que sí corresponde a una distribución catalogada como normal.

Figura 5.5: Ejemplos de algunas distribuciones simétricas con distintos grados de apuntamiento.
102 CAPÍTULO 5. MEDIDAS DE FORMA

Ejemplo 5.3.1. Calcular e interpretar el coeciente de apuntamiento de Fisher de los datos de la


tabla 2.9.

Solución:

En los ejemplos 5.2.2, 5.2.3 y 5.2.4 se establece que la distribución de las ganancias de las empresas
objeto de estudio es aproximadamente normal. Por lo tanto es de interés calcular el grado de apunta-
miento de esta distribución con el propósito de establecer si puede ser catalogada como normal.

Para calcular el coeciente requerido primero se deben calcular las respectivas marcas de clase como
en el ejemplo 3.2.1. Una vez calculadas las marcas de clase, se calcula la curtosis de las utilidades
aplicando la fórmula para datos agrupados. En la tabla 5.1 se presentan los cálculos pertinentes.
Además, como en el ejemplo 5.2.2, se tiene que Sx = 18.85.

Así, la magnitud del coeciente de apuntamiento de Fisher de las ganancias es igual a

k
1 X 10, 685, 966.89
AG
dX = ni (xi − x̄)4 − 3 = − 3 = −0.58.
nSx4 i=1 (35)(18.854 )

Dado que el valor de la curtosis es negativo se sigue que la distribución de las ganancias es platicúrtica,
esto es, más aplanada que la normal. Sin embargo, examinando el valor del coeciente a la luz de los
valores de la variable y de las medidas de tendencia central, se concluye que su magnitud no es
considerable y que la distribución de las utilidades de las empresas se puede catalogar como normal.


5.4. Comentarios

Tener conocimiento sobre la forma de una distribución permite realizar descripciones conables so-
bre el comportamiento de las observaciones de una variable de interés. Dependiendo de la forma de
la distribución de frecuencias de un conjunto de datos es posible establecer la acomodación de las
observaciones alrededor del promedio, precisar aún más su grado de homogeneidad y catalogar si se
pueden catalogar o no como normales. Estas características están relacionadas intrínsecamente con la
cantidad de información que una muestra puede aportar respecto al comportamiento de la población
de la cual proviene: cuando la distribución de la población es heterogénea y diere signicativamente
de la normal, las muestras de tamaño pequeño pueden no captar todos los aspectos relacionados
con la población. De otro lado, cuando una población es homogénea y clasicada como normal, una
muestra de tamaño pequeño puede ser suciente para obtener información conable acerca de los
rasgos objeto de estudio de la población.

El conocimiento sobre la asimetría de la distribución también es de utilidad práctica. Evidenciar la


dirección en la que se encuentra la fuente de sesgo es fundamental porque así es posible detectar las
observaciones que se encuentran agrupadas en alguno de los extremos de la distribución que no hacen
5.5. EJERCICIOS 103

parte del grueso de la información.

Con lo que se ha estudiado hasta ahora, se ha mostrado cómo describir un conjunto de datos de
una variable a través de grácas y de medidas estadísticas. Las grácas evidencian de forma sencilla
el comportamiento de los datos, mientras que las medidas estadísticas evidencian de forma precisa y
objetiva las características de la distribución de las observaciones que se han intuido con los diagramas.
En el siguiente capítulo se extienden estas prácticas a casos donde se tenga en cuenta más de una
variable a la vez y se quiera investigar la relación entre éstas.

5.5. Ejercicios
5.1. Demostrar que si X es una variable y a, b son números reales entonces se tiene que:

i. Si X=a entonces AF
dX yAG
d X no están denidos.
ii. Si Y = aX + b entonces AF
d Y = sgn(a)AF
d X donde sgn(x) denota el signo de x.
iii. Si Y = aX + b entonces AG
d Y = AG
dX .

5.2. Escribir las versiones poblacionales de las medidas estadísticas presentadas en este capítulo.

5.3. Establecer la escala de medición requerida para cada medida de dispersión presentada en este
capítulo.

5.4. Con la información del ejercicio 3.12:

a. Inspeccionar las medidas de tendencia central.

b. Calcular e interpretar las medidas de asimetría.

c. Realizar un histograma y un diagrama de caja y bigotes.

d. Con base en los resultados obtenidos en los incisos anteriores, ¾qué se puede establecer acerca
de la forma de la distribución de la variable de estudio?

e. Si es menester, calcular e interpretar el coeciente de apuntamiento de Fisher.

5.5. Rehacer los incisos del ejercicio 5.4 con la información del ejercicio 3.17.

5.6. Rehacer los incisos del ejercicio 5.4 con la información del ejercicio 4.12.
Capı́tulo 6
Medidas descriptivas para dos variables

6.1. Introducción

Muchos estudios, prácticos y teóricos, indagan directa o indirectamente por el vínculo que tienen las
variables entre sí. Por ejemplo, puede ser de interés especicar la relación entre fumar y el cáncer de
pulmón, o la actividad física y el peso corporal, o el estrato socioeconómico y el patrimonio. Con el
propósito de investigar el nexo entre dos variables, se quiere describir el comportamiento del conjunto
de datos correspondiente mediante grácas que evidencien la interacción entre las características objeto
de estudio, y a través de medidas estadísticas que den cuenta de la asociación entre las variables de
interés.

6.2. Tablas de doble entrada

En este escenario se dispone de un conjunto de n individuos, cada uno de ellos observado en dos
atributos que en adelante se representan mediante X y Y . Se supone que la variable X tiene k
categorías, es decir, X asume los valores x1 , x2 , . . . , xk , y que la variable Y tiene p categorías, es decir,
Y asume los valores y1 , y2 , . . . , yp . Las categorías de las variables están dadas naturalmente cuando
las variables son cualitativas, o se pueden construir por medio de intervalos cuando las variables son
cuantitativas.

Con el propósito de reunir en una sola estructura toda la información disponible, se elabora una tabla
de frecuencias conformada por k×p casillas o categorías, denotadas con Cij , para i = 1, . . . , k y
j = 1, . . . , p, organizadas de tal forma que se tengan k las y p columnas con las categorías de las

104
6.2. TABLAS DE DOBLE ENTRADA 105

variables X y Y respectivamente. Tal estructura se denomina tabla de doble entrada 1


.

Nota. La letra i se utiliza como elemento genérico de las categorías de la variable X de las las, es
decir, i es un valor que varía entre 1 y k, y j se utiliza como elemento genérico de las categorías de la
variable Y de las columnas, esto es, j es un valor que varía entre 1 y p.

Denición 6.2.1. La frecuencia absoluta conjunta de la clase Cij ,


denotada con nij , es la cantidad de observaciones que hacen parte de la
i-ésima la y la j -ésima columna para i = 1, . . . , k y j = 1, . . . , p.

Denición 6.2.2. La frecuencia relativa conjunta de la clase Cij ,


denotada con fij , es la proporción de la frecuencia absoluta conjunta de
la ij -ésima categoría respecto a la cantidad total de observaciones, esto
es,
nij
fij =
n
para i = 1, . . . , k y j = 1, . . . , p.

Nota. Multiplicado por 100 % la fórmula de la denición 6.2.2, fij representa el porcentaje de indivi-
duos comprendidos en la categoría correspondiente.

Denición 6.2.3. La frecuencia absoluta marginal de la la i, de-


notada con ni• , es el total de observaciones de la i-ésima categoría de
la variable de las las para i = 1, . . . , k . Así mismo, la frecuencia ab-
soluta marginal de la columna j , denotada con n•j , es el total de
observaciones de la j -ésima categoría de la variable de las columnas para
j = 1, . . . , p.

Nota. Es claro que a partir de la denición 6.2.3 se tiene que

p
X
ni• = ni1 + ni2 + . . . + nip = nij para i = 1, . . . , k ,
j=1

y además
k
X
n•j = n1j + n2j + . . . + nkj = nij para j = 1, . . . , p.
i=1

1 Esta conguración también se denomina tabla de contingencia o tabla de clasicación


106 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Denición 6.2.4. La frecuencia relativa marginal de la la i, deno-


tada con fi• , es la proporción de observaciones de la i-ésima categoría de
la variable de las las respecto al total de observaciones para i = 1, . . . , k .
Así mismo, la frecuencia relativa marginal de la columna j , deno-
tada con f•j , es la proporción de observaciones de la j -ésima categoría
de la variable de las columnas respecto al total de observaciones para
j = 1, . . . , p.

Nota. Es claro que a partir de la denición 6.2.4 se tiene que

ni•
fi• = para i = 1, . . . , k ,
n
y además
n•j
f•j = para j = 1, . . . , p.
n
Ejemplo 6.2.1. En la tabla 6.1 se presenta un ejemplo en el que se tiene de una tabla de doble
entrada con las frecuencias absolutas y relativas de una variable X de las las con k niveles y una
variable Y p niveles. Por ejemplo, n23 representa la frecuencia absoluta conjunta
de las columnas con
de la categoría 2 de la variable X y de la categoría 3 de la variable Y , mientras que f•1 simboliza la
frecuencia relativa marginal de la categoría 1 de la variable Y . 

X \Y y1 y2 ··· yp Total
x1 n11 \ f11 n12 \ f11 ··· n1p \ f1p n1• \ f1•
x2 n21 \ f21 n22 \ f22 ··· n2p \ f2p n2• \ f2•
. . . . . .
. . . . . .
. . . . . .
xk nk1 \ fk1 nk2 \ fk2 ··· nkp \ fkp nk• \ fk•
Total n•1 \ f•1 n•2 \ f•2 ... n•p \ f•p n\1

Tabla 6.1: Ejemplo de una tabla de doble entrada.

Proposición 6.2.1. En una tabla de doble entrada de k×p se cumplen las siguientes propiedades:

i. iii.
p
k X k p p
X
X X X
nij = ni• = n•j = n. fi• = fij para i = 1, . . . , k .
i=1 j=1 i=1 j=1 j=1

ii. iv.
X p
k X k
X p
X k
X
fij = fi• = f•j = 1. f•j = fij para j = 1, . . . , p.
i=1 j=1 i=1 j=1 i=1

La demostración se deja como ejercicio para el lector.


6.3. PERFILES O DISTRIBUCIONES CONDICIONADAS 107

X \Y Bachillerato Pregrado Posgrado Total


Hombre 4 9 12 25
Mujer 12 7 2 21
Total 16 16 14 46

Tabla 6.2: Tabla de contingencia asociado con el género (X ) y el nivel educativo (Y ) de una muestra de personas de
una empresa.

Ejemplo 6.2.2. La tabla 6.2 corresponde a una tabla de contingencia en la que se estudia la variable
género (X ) y nivel educativo (Y ) de una muestra de personas de una empresa. Obtener las frecuencias
relativas conjuntas y marginales correspondientes.

Solución:

En este caso se tiene que

k = 2, p = 3, n1• = 25, n2• = 21, n•1 = 16, n•2 = 16, n•3 = 14 y n = 46.

En la tabla 6.3 se presentan las frecuencias relativas correspondientes que han sido calculadas con
respecto al tamaño de la muestra, es decir, con respecto a n = 46, usando las fórmulas

nij ni• n•j


fij = , fi• = y f•j =
46 46 46
donde nij es la frecuencia absoluta conjunta de la ij -ésima categoría para i = 1, 2 y j = 1, 2, 3.

Por ejemplo, se observa que el porcentaje de empleados que son hombres es 54.3 %, el porcentaje
de empleados que tienen estudios de posgrado es 30.4 % y que el porcentaje de empleados que son
hombres y tienen bachillerato es 48.7 %. 

X \Y Bachillerato Pregrado Posgrado Total


Hombre 8.7 % 19.6 % 26.1 % 54.3 %
Mujer 26.1 % 15.2 % 4.3 % 45.7 %
Total 34.8 % 34.8 % 30.4 % 100.0 %

Tabla 6.3: Tabla de contingencia de frecuencias relativas del ejemplo 6.2.2

6.3. Perles o distribuciones condicionadas

Los perles o distribuciones condicionadas corresponden a tablas bidimensionales en las que interesa
investigar el comportamiento de una variable dado un valor especíco de la otra. En el caso bidimen-
sional se destacan los perles la y los perles columna.
108 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Denición 6.3.1. Los perles la están asociados con una tabla de
doble entrada en la que se calculan las frecuencias relativas conjuntas
respecto a los totales de las las correspondientes. Análogamente, los
perles columna están asociados con una tabla de doble entrada en la
que se calculan las frecuencias relativas conjuntas respecto a los totales
de las columnas correspondientes.

Nota. A partir de la denición 6.3.1, dada una tabla de contingencia de k ×p, se tiene que la frecuencia
relativa de la ij -ésima categoría de una tabla de perles la, denotada con fij|i• , está dada por:
nij
fij|i• = ,
ni•
mientras que la frecuencia relativa de la ij -ésima categoría de una tabla de perles columna, denotada
con fij|•j , se está dada por:
nij
fij|•j =
n•j
para i = 1, . . . , k y j = 1, . . . , p.
Proposición 6.3.1. En una tabla de perles la o columna de k×p se cumplen las siguientes
propiedades:

i. iii.

fij fij
fij|i• = para i = 1, . . . , k y j = 1, . . . , p. fij|i• = para i = 1, . . . , k y j = 1, . . . , p.
fi• fi•

ii. iv.
p
X k
X
fij|i• = 1 para i = 1, . . . , k . fij|•j = 1 para j = 1, . . . , p.
j=1 i=1

La demostración se deja como ejercicio para el lector.

Ejemplo 6.3.1. Elaborar los perles la y los perles columna de la muestra para la tabla bidimen-
sional del ejemplo 6.2.2.

Solución:

Los perles la y los perles columna de la muestra se presentan respectivamente en las tablas 6.4 y
6.5. Las frecuencias relativas de estas tablas se calcularon con las fórmulas
nij nij
fij|i• = y fij|•j =
ni• n•j
para i = 1, 2 y j = 1, 2, 3.

Por ejemplo, se observa que de los hombres, tiene posgrado el 48.0 % (tabla 6.4), mientras que de los
individuos con posgrado, es hombre el 85.7 % (tabla 6.5). 
6.4. GRÁFICAS PARA DOS VARIABLES 109

X \Y Bachillerato Pregrado Posgrado Total


Hombre 16.0 % 36.0 % 48.0 % 100.0 %
Mujer 57.1 % 33.3 % 9.5 % 100.0 %
Total 34.8 % 34.8 % 30.4 % 100.0 %

Tabla 6.4: Perles la de la muestra del ejemplo 6.2.2.

X \Y Bachillerato Pregrado Posgrado Total


Hombre 25.0 % 56.3 % 85.7 % 54.3 %
Mujer 75.0 % 43.8 % 14.3 % 45.7 %
Total 100.0 % 100.0 % 100.0 % 100.0 %

Tabla 6.5: Perles columna de la muestra del ejemplo 6.2.2.

Nota. Al interpretar las frecuencias relativas de los perles es indispensable jarse cuál es el grupo de
individuos de referencia.

6.4. Grácas para dos variables

Es costumbre presentar al lado de cada tabla de contingencia una gráca que permita evidenciar
fácilmente el comportamiento de los valores presentados en la misma. A continuación se presentan
una serie de ejemplos en los que se ilustra la información contenida en tablas bidimensionales corrientes
y tablas de perles.

Ejemplo 6.4.1. En las guras 6.1 y 6.2 se presentan dos grácos de barras de las frecuencias relativas
del género frente al nivel educativo del ejemplo 6.2.2. 

Cuando se trabaja con dos variables cuantitativas, es costumbre denominar a la variable X repre-
sentada en el eje x variable independiente y a la variable Y representada en el eje y variable
dependiente . Las observaciones que resultan de la medición de las variables X y Y sobre cada indivi-
duo de un grupo especíco se considera como un conjunto de realizaciones de la variable bidimensional
(X, Y ) y se denomina conjunto de datos bivariados . Así, la observación de las variables sobre el i-
ésimo individuo de una muestra de tamaño n se representa mediante la dupla (xi , yi ) para i = 1, . . . , n.
Por último, también es costumbre mostrar las observaciones de una muestra correspondiente a un con-
junto de datos bivariado mediante una tabla horizontal (o vertical) como se ilustra en la tabla 6.6.

Ejemplo 6.4.2. En un grupo de 25 niños se miden las cantidades antropométricas de peso (en
kilogramos) y edad (en años cumplidos), obteniéndose los resultados que se presentan en la tabla 6.7.
2
Elaborar una gráca cartesiana del peso (Y ) frente a la edad (X ) con este conjunto de datos.

2 Una gráca cartesiana donde las abscisas y las ordenadas corresponden respectivamente a los valores observados de
110 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Figura 6.1: Gráco de barras tridimensional de las frecuencias relativas del ejemplo 6.2.2.

Variable X x1 x2 ··· xn
Variable Y y1 y2 ··· yn

Tabla 6.6: Tabla de observaciones de una muestra correspondiente a un conjunto de datos bivariado.

Edad 12.3 13.2 12.5 13.1 12.9 13.1 12.4 12.9 13.2 12.3 12.4 13.0 12.5
Peso 39.5 41.0 39.7 40.8 40.7 41.3 39.2 40.4 41.2 38.8 39.4 40.2 39.7
Edad 12.6 12.8 12.9 12.5 13.1 13.0 12.7 12.2 13.3 12.4 12.3 12.6
Peso 39.8 40.0 40.3 39.6 41.1 41.3 40.3 39.4 41.1 39.9 39.6 40.2

Tabla 6.7: Datos asociados con el peso y la edad de un grupo de 25 niños.

Solución:

En la gura 6.3 se muestra el diagrama de dispersión del peso frente a la edad de los ocho niños.
Se observa que la relación entre las variables es directa y aparentemente fuerte. En las secciones
posteriores se estudian algunas medidas para cuanticar este hecho. 

un par de variables se denomina diagrama de dispersión , dispersograma o nube de puntos . Este tipo de grácas
se utiliza cuando las variables objeto de estudio son cuantitativas.
6.5. MEDIDAS DE ASOCIACIÓN 111

Figura 6.2: Gráco de barras de las frecuencias relativas del ejemplo 6.2.2.

Es importante resaltar que las nubes de puntos apenas sugieren cómo es la relación entre un par de
variables cuantitativas, mas no tienen la última palabra al respecto. En algunos escenarios esta señal
es lo sucientemente clara como se evidencia en la gura 6.3 donde la relación es lineal. En estos
casos es posible establecer sin problemas el tipo de relación funcional entre las variables de estudio,
ya sea lineal, cuadrática, cúbica, logarítmica o exponencial, por ejemplo (gura 6.4). Sin embargo,
algunas ocasiones no es posible determinar fácilmente esta relación de manera precisa. Un par de
ejemplos al respecto se ilustran en los diagramas de dispersión (a) y (b) de la gura 6.5, donde solo se
puede evidenciar una región en la cual la densidad de puntos es mayor, lo que señala la presencia de
combinaciones de valores de las variables que son más frecuentes que otros, pero no es claro identicar
una relación particular. Así mismo, se pueden dar situaciones en las que no sea posible evidenciar una
relación entre las variables de estadio, ya que hay diagramas de dispersión como el (c) de la gura 6.5,
donde no es posible establecer directamente un vinculo entre las variables, aunque esto no signica
necesariamente que tal relación no exista.

6.5. Medidas de asociación

A continuación se mencionan algunas medidas de uso común para describir y cuanticar objetivamente
la posible relación existente entre dos variables cuantitativas. Entro otras medidas de asociación se
112 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Figura 6.3: Dispersograma del peso frente a la edad de los 25 niños.

destacan la covarianza y los coecientes de correlación.

6.5.1. Covarianza

La covarianza es una medida de asociación entre dos variables cuantitativas que permite establecer
el modo de la relación lineal entre las características objeto de estudio. Esta medida mesura la
variabilidad conjunta de un par de variables y sirve como insumo para constituir otras medidas de
asociación.

Denición 6.5.1. Sea (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) un conjunto de n


realizaciones de una variable bidimensional (X, Y ). La covarianza de
este conjunto de datos, denotado con Sxy , está dada por:

n
1 X
Sxy = (xi − x̄)(yi − ȳ)
n − 1 i=1
6.5. MEDIDAS DE ASOCIACIÓN 113

Figura 6.4: Ejemplos de diagramas de dispersión en los que se evidencia una relación cuadrática (a), cúbica (b),
exponencial (c) y logarítmica (d).

Nota. La covarianza muestral observada de una variable bidimensional (X, Y ) se simboliza con
Sxy , mientras que lacovarianza poblacional se denota con σXY . Así, cuando se dispone de una
población nita, se tiene que
N
1 X
σxy = (xi − µX )(yi − µY )
N i=1

donde N es el tamaño de la población. Se resalta el hecho de que la covarianza es una medida expresada
con unidades mixtas (unidades de la variable independiente multiplicadas por las unidades de la
variable dependiente) de asociación que describe la variabilidad conjunta de dos variables cuantitativas.

Considerar una nube de puntos conformada por una muestra de n realizaciones de la variable bidi-
mensional (X, Y ) cuyo centro es el punto (x̄, ȳ). La representación de (xi − x̄, yi − ȳ) para i = 1, . . . , n
resulta en una traslación de la nube de puntos original al origen (0, 0). De esta forma, el diagrama de
dispersión queda dividido en cuatro cuadrantes como se observa en las nubes de puntos de la gura
6.6. Los datos bivariados que se encuentran en el primer y tercer cuadrante contribuyen positivamente
114 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Figura 6.5: Ejemplos de diagramas de dispersión en los que no se evidencia directamente una relación entre a las
variables.

al valor de la covarianza, mientras que los datos bivariados que se encuentran en el segundo y cuarto
cuadrante lo hacen negativamente. De este modo:

• Si hay mayoría de puntos en el tercer y primer cuadrante entonces se tiene que Sxy > 0,
lo que quiere decir que la variable dependiente tiende a aumentar cuando lo hace la variable
independiente (relación directa).

• Si hay mayoría de puntos en el segundo y cuarto cuadrante entonces se tiene que Sxy < 0,
lo que quiere decir que la variable dependiente tiende a disminuir cuando lo hace la variable
independiente (relación inversa).

• Si los puntos se reparten equitativamente alrededor de (x̄, ȳ) entonces se tiene que Sxy = 0.

Nota. Cuando los puntos se reparten de modo más o menos homogéneo entre los cuadrantes primero
y tercero, y segundo y cuarto, se tiene que la covarianza de las variables es aproximadamente igual
a 0. Esto no quiere decir de ningún modo que no exista ninguna relación entre las dos variables; de
hecho este nexo puede existir como se aprecia en el diagrama de dispersión (d) de la gura 6.6.

Ejemplo 6.5.1. Calcular e interpretar la covarianza entre la edad y el peso con el conjunto de datos
bivariado del ejemplo 6.4.2.

Solución:

Para obtener la covarianza entre la edad y el peso primero se deben calcular los promedios de estas
variables. En este caso se tiene que x̄ = 12.728 y ȳ = 40.180. Luego de calcular los respectivos
promedios, se procede a calcular las diferencias y los productos, de tal forma que la covarianza entre
6.5. MEDIDAS DE ASOCIACIÓN 115

Figura 6.6: Ejemplos de nubes de puntos de un par de variables con relación directa (a), relación inversa (b) y
covarianza nula (c y d).

la edad y el peso es

n
1 X
Sxy = (xi − x̄)(yi − ȳ)
n − 1 i=1
1
= ((12.3 − 12.728)(39.5 − 40.180) + . . . + (12.6 − 12.728)(40.2 − 40.180))
25 − 1
= 0.226.

Dado que la covarianza entre la edad y el peso es positiva entonces la relación entre las dos variables
es directa como se aprecia en la gura 6.3. Las las unidades de la covarianza son unidades mixtas que
en este caso corresponden a años × kilogramo. 

A continuación se presentan algunas propiedades de la covarianza:


116 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Proposición 6.5.1. Sea (X, Y ) una variable bidimensional y a, b, c y d números reales. Entonces se
tiene que:

i. SXY = SY X .
2
ii. SXX = SX .

iii. Si V = aX + b y W = cY + d entonces SV W = acSXY .

Demostración:

i.
n n
1 X 1 X
SXY = (Xi − X̄)(Yi − Ȳ ) = (Yi − Ȳ )(Xi − X̄) = SY X .
n − 1 i=1 n − 1 i=1

ii.
n n
1 X 1 X
SXY = (Xi − X̄)(Xi − X̄) = (Xi − X̄)2 = SX
2
.
n − 1 i=1 n − 1 i=1

iii. Si V = aX + b y W = cY + d entonces se sigue que:

n
1 X
SV W = (Vi − V̄ )(Wi − W̄ )
n − 1 i=1
n
1 X
= ((aXi + b) − (aX̄ + b))((cYi + d) − (cȲ + d))
n − 1 i=1
n
1 X
= (aXi + b − aX̄ − b)(cYi + d − cȲ − d)
n − 1 i=1
n
1 X
= a(Xi − X̄)c(Yi − Ȳ )
n − 1 i=1
n
1 X
= ac(Xi − X̄)(Yi − Ȳ )
n − 1 i=1
n
1 X
= ac (Xi − X̄)(Yi − Ȳ )
n − 1 i=1
= acSXY .

Ejemplo 6.5.2. La covarianza entre los costos de producción (C ) y las utilidades (U ) de una compañía
es 5.61. El presidente de la empresa está implementando una política de calidad para que los costos
disminuyan 1 % y las utilidades aumenten 5 %. ¾Con esta política de calidad la covarianza entre
6.5. MEDIDAS DE ASOCIACIÓN 117

los costos de producción y las utilidades aumenta o disminuye? Si el incremento porcentual de las
utilidades es 10 %, ¾en cuántos puntos porcentuales deben disminuir los costos de producción bajo la
política de calidad para que la covarianza entre las variables alcance las 6 unidades mixtas?

Solución:

Si SV W denota la covarianza entre los costos de producción y las utilidades bajo la política de calidad
entonces
V = C − 0.01C = 0.99C y W = U + 0.05U = 1.05U.
En consecuencia,
SV W = (0.99)(1.05)SXY = (1.0395)(5.61) = 5.831
y por lo tanto con está política la covarianza entre las variables aumenta.

De otra parte, sea x el decremento porcentual de los costos de producción para que la covarianza bajo
la política de calidad sea igual a 6 unidades mixtas. Entonces se sigue que

(1 − x)(1.10)(5.61) = 6.

Despejando x de esta ecuación se obtiene que x = 0.0277 y por lo tanto la decremento porcentual de
los costos de producción debe ser de 2.77 %. 

Proposición 6.5.2. Si (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) es un conjunto de n realizaciones de una variable


bidimensional (X, Y ) entonces:

n
X n
X
(xi − x̄)(yi − ȳ) = xi yi − nx̄ȳ.
i=1 i=1

Demostración:

n
X n
X
(xi − x̄)(yi − ȳ) = (xi yi − ȳxi − x̄yi + x̄ȳ)
i=1 i=1
n
X n
X n
X n
X
= xi yi − ȳxi − x̄yi + x̄ȳ
i=1 i=1 i=1 i=1
Xn n
X n
X
= xi yi − ȳ xi − x̄ yi + nx̄ȳ
i=1 i=1 i=1
Xn
= xi yi − ȳ(nx̄) − x̄(nȳ) + nx̄ȳ
i=1
Xn
= xi yi − nx̄ȳ − nx̄ȳ + nx̄ȳ
i=1
118 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

n
X
= xi yi − nx̄ȳ.
i=1

En el sección ?? se señala que la varianza de una suma de dos variables no coincide con la suma de
las varianzas de las variables. En la siguiente proposición se establece a qué corresponde la varianza
de esta suma.

Proposición 6.5.3. Si X y Y son variables conmensurables y W =X +Y entonces

2 2
SW = SX + SY2 + 2SXY .

Demostración:

n
2 1 X
SW = (Wi − W̄ )2
n − 1 i=1
n
1 X
= (Xi + Yi − (X̄ + Ȳ ))2
n − 1 i=1
n
1 X
= (Xi + Yi − X̄ − Ȳ )2
n − 1 i=1
n
1 X
= ((Xi − X̄) + (Yi − Ȳ ))2
n − 1 i=1
n
1 X
(Xi − X̄)2 + 2(Xi − X̄)(Yi − Ȳ ) + (Yi − Ȳ )2

=
n − 1 i=1
n n n
!
1 X X X
= (Xi − X̄)2 + 2(Xi − X̄)(Yi − Ȳ ) + (Yi − Ȳ )2
n−1 i=1 i=1 i=1
n n n
!
1 X
2
X
2
X
= (Xi − X̄) + (Yi − Ȳ ) + 2 (Xi − X̄)(Yi − Ȳ )
n−1 i=1 i=1 i=1
n n n
1 X 1 X 1 X
= (Xi − X̄)2 + (Yi − Ȳ )2 + 2 (Xi − X̄)(Yi − Ȳ )
n−1 i=1
n−1 i=1
n − 1 i=1
2
= SX + SY2 + 2SXY .

A continuación se presenta una expresión que generaliza la identidad de la proposición 6.5.3:


6.5. MEDIDAS DE ASOCIACIÓN 119

Proposición 6.5.4.
Pm
Si X1 , . . . , Xm son m variables conmensurables y W = i=1 Xi entonces
m
X m X
X m
2 2
SW = SX i
+2 SXi Xj .
i=1 i=1 j=1
1≤i<j≤m

La demostración se deja como ejercicio para el lector.

Las siguientes son algunas observaciones acerca de la covarianza:

• Es de uso cotidiano.

• Tiene propiedades aritméticas directas y sencillas de aplicar.

• Es sensible a datos atípicos.

• Está dada en unidades mixtas.

6.5.2. Coeciente de correlación de Pearson

La covarianza es una medida de variabilidad conjunta que indica la forma en la que dos variables
cuantitativas continuas están relacionadas linealmente. Una covarianza grande indica que hay una
relación de tipo lineal entre las dos variables. Pero, ¾qué signica que la covarianza sea grande?
¾Cómo se puede calicar la magnitud de la covarianza? De hecho, la magnitud de la covarianza
depende de la escala de medida que se utiliza. Por esta razón, es difícil, en casos concretos, establecer
a simple vista, si la covarianza es grande o no (Blanco 2004).

La covarianza está dada en unidades mixtas de medición, lo que motiva denir una medida de la
relación entre dos variables cuantitativas, que no se vea afectada por los cambios de unidad de
medida, es decir, que sea adimensional. Una forma de conseguir esto es dividir la covarianza por el
producto de las desviaciones estándar de cada variable.

Denición 6.5.2. El coeciente de correlación de Pearson (o sim-


plemente coeciente de correlación) entre dos variables se dene como el
cociente entre la covarianza y el producto de las desviaciones estándar
de las variables del conjunto de datos bivariado correspondiente.

Nota. De acuerdo con la denición 6.5.2, si se dispone de la información de una muestra asociada con
una variable bidimensional (X, Y ) entonces el valor observado del coeciente de correlación de
Pearson muestral entre X y Y , denotado con rxy , está dado por

Sxy
rxy = .
Sx Sy
120 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Similarmente, el coeciente de correlación de Pearson poblacional entre X y Y, denotado con


ρXY , está dado por
σXY
ρXY = .
σX σY

El coeciente de correlación está ligado directamente con el grado de la asociación lineal de las
variables. De hecho, el coeciente de correlación únicamente mesura la fortaleza de la relación lineal
entre dos variables cuantitativas continuas. Además, al igual que la covarianza, con el coeciente de
correlación también es posible identicar si la relación entre las variables es directa o inversa, pues los
signos del coeciente y de la covarianza son iguales.

Al igual que el índice de Yule-Bowley, el coeciente de correlación siempre toma valores entre −1 y
1. De esta forma, a medida que el coeciente se acerca a 0, la relación lineal entre las variables se
debilita, y en caso contrario, a medida que el coeciente se acerca a −1 o 1, la relación lineal entre las
variables se fortalece de manera inversa o directa respectivamente. De este modo si el valor absoluto
del coeciente:

• Es igual a 1 entonces la relación lineal entre las variables es perfecta.

• Está entre 0.9 y 1 entonces la correlación entre las variables es alta o fuerte.

• Está entre 0.7 y 0.9 entonces la relación entre las variables es moderada.

• Está entre 0.5 y 0.7 entonces la relación lineal entre las variables aceptable.

• Está entre 0 y 0.5 entonces la relación lineal entre las variables reducida o mínima.

• Es igual a entonces no existe una relación lineal entre las variables.

En la gura 6.7 se presentan algunos ejemplos de nubes de puntos con diferentes grados de correlación.

Ejemplo 6.5.3. Calcular el coeciente de correlación entre la edad y el peso de los datos del ejemplo
6.4.2.

Solución:

Para calcular el coeciente de correlación de Pearson entre la edad y el peso se necesita obtener
previamente las desviaciones estándar correspondientes. En este caso se tiene que Sx = 0.339 y
Sy = 0.724. Así, el coeciente de correlación es

Sxy 0.226
rxy = = = 0.920.
Sx Sy (0.339)(0.724)

Este coeciente indica que la relación lineal entre la edad y el peso de los niños es directa y además
fuerte. 
6.5. MEDIDAS DE ASOCIACIÓN 121

Figura 6.7: Ejemplos de nubes de puntos con su respectivo coeciente de correlación.

Las siguientes son algunas observaciones acerca del coeciente de correlación de Pearson:

• Es de uso cotidiano.

• Únicamente toma valores entre −1 y 1.

• Tiene propiedades aritméticas directas y sencillas de aplicar.

• Es sensible a datos atípicos.

• Es una medida adimensional.


122 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

6.5.3. Coeciente de correlación de Spearman

El coeciente de correlación de Spearman tiene la misma intensión del coeciente de correlación de


Pearson, solo que en este caso el coeciente se calcula sobre el rango (detalles en la sección 3.3.1) de
las variables de interés. Esta es una medida de asociación ventajosa para los casos donde se tienen
variables cuantitativas discretas o variables mesuradas en una escala al menos de tipo ordinal, ya que
el coeciente de correlación de Pearson se dene para variables cuantitativas continuas.

Denición 6.5.3. Sea (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) un conjunto de n


realizaciones de una variable bidimensional (X, Y ). El coeciente de
correlación de Spearman de este conjunto de datos, denotado con
rsxy , está dada por:

Pn
¯ (ỹi − ỹ)
(x̃i − ỹ) ¯
rsxy = Pn i=1 ¯ Pn ¯
( i=1 (x̃i − x̃)) ( i=1 (ỹi − ỹ))

donde x̃i y ỹi son respectivamente los rangos de xi y yi del i-ésimo


individuo para i = 1, . . . , n.

Nota. El coeciente de correlación de Spearman no es más que el coeciente de correlación de Pearson


aplicado a los rangos de las variables y su interpretación es análoga.

Ejemplo 6.5.4. Uno de los competidores se dio cuenta de que las posiciones en las que los individuos
se encontraban habían sido asignadas para favorecer a algunos, siendo los más favorecidos los que
se encontraban en las últimas posiciones. Mediante la asociación entre las posiciones y el puntaje
obtenido que se presentan en la tabla 6.8 colaborar la armación del competidor.

Solución:

En la tabla 6.8 se presentan los rangos de la posición (X ) y el puntaje (Y ) de los competidores. En


consecuencia, se tiene que el coeciente de correlación de Spearman es

−1.105
rsxy = = −0.032.
(5.916)(5.891)

Por lo tanto se concluye que las posiciones no se encontraban favorecidas, o en el caso de que lo
hubieran estado, no se vio reejado en el resultado del torneo. 

Las siguientes son algunas observaciones del coeciente de correlación de Spearman:

• Se calcula para variables mesuradas en una escala al menos de tipo ordinal.

• Únicamente toma valores entre −1 y 1.


6.5. MEDIDAS DE ASOCIACIÓN 123

• Es más robusta a datos atípicos en comparación con el coeciente de correlación de Pearson.

• Es una medida adimensional.

# Posición Puntaje Rango de Pos. Rango de Pun.


1 1.00 52.00 1.00 12.00
2 2.00 46.00 2.00 5.50
3 3.00 56.00 3.00 16.00
4 4.00 62.00 4.00 18.00
5 5.00 50.00 5.00 10.00
6 6.00 53.00 6.00 13.00
7 7.00 41.00 7.00 1.00
8 8.00 55.00 8.00 14.50
9 9.00 50.00 9.00 10.00
10 10.00 43.00 10.00 4.00
11 11.00 62.00 11.00 18.00
12 12.00 42.00 12.00 2.50
13 13.00 55.00 13.00 14.50
14 14.00 47.00 14.00 7.00
15 15.00 46.00 15.00 5.50
16 16.00 50.00 16.00 10.00
17 17.00 62.00 17.00 18.00
18 18.00 42.00 18.00 2.50
19 19.00 48.00 19.00 8.00
20 20.00 65.00 20.00 20.00

Tabla 6.8: Datos asociados con la posición y el puntaje de los competidores del ejemplo 6.5.4.

6.5.4. Coeciente de correlación de Kendall

De manera más general, a continuación se desarrolla una medida de asociación para variables mesu-
radas en una escala ordinal, la cual se basa en los rangos de las variables, al igual que el coeciente
de correlación de Spearman.
124 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Denición 6.5.4. (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) un conjunto de n


Sea
realizaciones de una variable bidimensional (X, Y ). El coeciente de
correlación de Kendall de este conjunto de datos, denotado con τxy ,
está dada por:
C −D
τ= 1
2 n(n− 1)
donde C representa el número de concordancias y D el número de
discordancias .

Nota. En la denición 6.5.4, se dice que hay una concordancia entre el par (xi , yi ) y (xj , yj ), si xi < xj
y yi < yj , o, si xi > xj y yi > yj ; además se dice que hay una discordancia si xi < xj y yi > yj , o,
xi > xj y yi < yj para i, j = 1, . . . , n con i 6= j .
Nota. El coeciente de correlación de Kendall así denido se debe usar en los casos donde no hay
empates para que sea posible denir las concordancias y las discordancias. Como los otros coecientes
de correlación, el valor de este coeciente se siempre se encuentra entre −1 y 1, y su interpretación es
análoga.

Ejemplo 6.5.5. En un estudio de mercadeo se quiere establecer si hay una asociación entre el por-
3
centaje de contenido de un insumo de un producto y una medida de complacencia escalada entre uno
y diez. En dicho estudio se obtuvo la información una muestra de consumidores que se presenta en la
tabla 6.9. Calcular e interpretar el coeciente de correlación de Kendall.

Solución:

Para encontrar el coeciente de correlación de Kendall entre el porcentaje de contenido (X ) y la medida


de complacencia (Y ), lo primero que se debe hacer es calcular las concordancias (C) y discordancias
(D) de cada par de parejas. En las columnas 3 a 6 de la tabla 6.9 se presentan las concordancias y
discordancias de todos los datos bivariados con las parejas (x1 , y1 ) y (x2 , y2 ). Una vez se realizo este
proceso para todas las parejas, se tiene que el número de concordancias es C = 18 y que el número
de discordancias es D = 10, y por lo tanto

18 − 10 8
τxy = 1 = = 0.286.
2 (8)(7)
28

Este valor del coeciente indica que las variables sí están correlacionadas positivamente pero no de una
forma contundente, y por lo tanto el porcentaje de contenido del insumo y la medida de complacencia
no están asociadas inequívocamente, y en consecuencia se deben tener en cuenta otras variables con
el propósito de investigar el nivel de complacencia del producto. 

Las observaciones del coeciente de correlación de Kendall son análogas a las del coeciente de corre-
lación de Spearman.

3 Satisfacción, placer y contento que resulta de algo (Real Academia Española 2012b).
6.5. MEDIDAS DE ASOCIACIÓN 125

# Cont. Calif. C (0.10,1.00) D (0.10,1.00) C (0.15,4.00) D (0.15,4.00) ...


1 0.10 1.00 − − − − ...
2 0.15 4.00 1 0 − − ...
3 0.20 7.00 1 0 1 0 ...
4 0.25 9.00 1 0 1 0 ...
5 0.30 3.00 1 0 1 1 ...
6 0.35 2.00 1 0 1 1 ...
7 0.40 5.00 1 0 1 0 ...
8 0.45 8.00 1 0 1 0 ...

Tabla 6.9: Datos asociados con las concordancias y discordancias del estudio de mercadeo del ejemplo 6.5.5.

6.5.5. Coeciente de Gini

El coeciente de Gini mas que una medida de asociación es una medida de la desigualdad ideada por
el italiano Corrado Gini 4
. Normalmente se utiliza para medir la desigualdad de la repartición de la
riqueza, pero se puede utilizar para medir la distribución de cualquier variable.

Denición 6.5.5. Sea X una variable cuantitativa dada en una distri-


bución de frecuencias con k categorías. El coeciente de Gini de este
conjunto de datos, denotado con Gx , se dene como

k
X
Gx = 1 − fi (Ui−1 + Ui )
i=1

donde Pj
ni xi
Uj = Pki=1 para j = 1, . . . , k ,
i=1 ni xi
ni es la frecuencia absoluta, fi es la frecuencia relativa y xi es la clase o
la marca de clase de la i-ésima categoría para i = 1, . . . , k . Además, se
dene U0 = 0.

Nota. Cuando las observaciones de una variable X no están agrupados en una tabla de frecuencias
se tiene que ni = 1 y fi = 1/n para i = 1, . . . , n donde n es el numero de datos que se tienen a
disposición. En este caso es fundamental ordenar los datos ascendentemente para que la fórmula del
coeciente haga sentido.

El coeciente de Gini es un número comprendido entre 0 y 1, usualmente expresado en porcentaje


(cuando es expresado de esta forma se conoce como índice). El valor 0 corresponde a un caso donde

4 Fotografía tomada de la página web http://www.metronjournal.it/storia/ginibio.htm.


126 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Figura 6.8: Corrado Gini (1884-1965).

hay perfecta igualdad en la distribución de la variable todos los individuos tienen la misma cantidad
de riqueza y el valor 1 corresponde a un caso donde hay perfecta discrepancia en la repartición un
individuo posee toda la riqueza y los demás nada.

En la práctica, tratándose de la riqueza de los países, los valores del coeciente varían desde aproxi-
madamente 0.2, para países históricamente igualitarios como Bulgaria, Hungría, la república Checa y
Eslovaca y Polonia, hasta 0.6 para países centro y suramericanos donde las elites poderosas dominan
la economía. La evolución del coeciente Gini es particularmente útil en la medida que revela tenden-
cias. Muestra la evolución hacia una igualdad mayor en Cuba desde 1953 hasta 1986 (0.55 a 0.22) y el
crecimiento de la desigualdad en los Estados Unidos en las últimas tres décadas durante las cuales el
coeciente de Gini pasó de 0.35 en los setenta a 0.40 actualmente (½y aún está subiendo!). La mayoría
de los países europeos y Canadá están ubicados alrededor de 0.30, Japón y algunos países asiáticos
llegan a 0.40, mientras que la mayoría de los países africanos exceden 0.45. En la gura 6.9 se presenta
5
un cartograma donde se evidencian los valores del coeciente de Gini a nivel mundial.

Ejemplo 6.5.6. Calcular el Coeciente de Gini para el conjunto de datos de la tabla 6.10 corres-
pondiente al número de cuentas que un gerente reparte entre sus empleados. Calcular e interpretar el
coeciente de Gini.

Solución:

A en la tabla 6.11 se presentan los cálculos necesarios para obtener el coeciente de Gini del número de
cuentas (X ). En este caso, debido a la ausencia de intervalos, las marcas de clase xi corresponden a las
mismas categorías del número de cuentas. Se calculan las frecuencias relativas como de costumbre y los
productos ni xi que corresponden al total de cuentas repartidas entre los empleados que recibieron un

5 Gráca tomada de la página web http://en.wikipedia.org/wiki/Image:World_Map_Gini_coefficient_with_


legend_2.png?uselang=es.
6.5. MEDIDAS DE ASOCIACIÓN 127

Figura 6.9: Cartograma cartograma donde se evidencian los valores del coeciente de Gini a nivel mundial .

xi ni
1 2
2 2
4 1
Total 5

Tabla 6.10: Datos asociados con el número de contratos que un gerente reparte entre sus empleados.

P4
monto de cuentas determinado; además resulta que el total de cuentas repartidas es i=1 ni xi = 10.
También se calcula Ui para cada categoría como el acumulado de la columna precedente conformada
n x
por los P i i . Finalmente, en la última columna se presentan los términos involucrados en la fórmula
ni x i
del coeciente, obteniéndose que

k
X
Gx = 1 − fi (Ui−1 + Ui ) = 1 − 0.72 = 0.28.
i=1

Este valor del coeciente de Gini indica que la repartición de las cuentas aunque no fue absolutamente
igualitaria, no es desigual, situación que tiende a la equidad en la repartición de la carga laboral entre
los empleados. 

Ejemplo 6.5.7. La Gobernación de una ciudad arma que las empresas de un determinado sector
128 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

ni xi
xi ni fi ni xi P
ni xi Ui fi (Ui−1 + Ui )
1 2 0.4 2 0.2 0.2 0.08
2 2 0.4 4 0.4 0.6 0.32
4 1 0.2 4 0.4 1 0.32
Total 5 1 10 1 N.A. 0.72

Tabla 6.11: Cálculos del ejemplo 6.5.6.

económico se encuentran equilibradas respecto a los ingresos que devengan. Por tal motivo los entes
de control del Estado aseguran que no es necesario ofrecer estímulos ni subsidios para las compañías
de dicho sector. Una de las empresas que no está de acuerdo con la posición del Gobierno obtiene una
muestra de los ingresos (en millones) de diez empresas del sector como se observa en la tabla 6.12.
Con base en el coeciente de Gini, ¾el Gobierno debe reconsiderar su posición?

1240 840 2000 1456 973 907 1490 789 1423 600

Tabla 6.12: Datos asociados con los ingresos de una muestra de empresas de un sector económico particular.

Solución:

Para calcular el coeciente de Gini de los ingresos (X ), primero se ordenan los datos ascendentemente
y en seguida calcular los valores de Ui para i = 1, . . . , 10 obteniéndose los siguientes resultados:

0.009 0.079 0.154 0.235 0.322 0.432 0.559 0.689 0.822 1.000

En consecuencia, se sigue que

(2)(4.301) − 1
Gx = 1 − = 0.239.
10
Este valor del coeciente de Gini indica que no se trata de una situación de equidad perfecta, aunque
ciertamente no es una situación de desigualdad apremiante, por lo que la posición del Gobierno es
acertada y las objeciones de la empresa no tienen fundamento. 

La curva de Lorenz es una representación gráca que se utiliza frecuentemente para plasmar la
distribución relativa de una variable en un dominio determinado. El dominio puede ser el conjunto
de hogares o personas de una región o país y la variable cuya distribución se estudia puede ser el
ingreso de los hogares o las personas, por ejemplo. La curva se traza considerando en el eje horizontal
el porcentaje acumulado de individuos del dominio en cuestión y en el eje vertical el porcentaje
acumulado de la variable de interés. Cada punto de la curva se lee como el porcentaje acumulado de
los individuos involucrados en la investigación. La curva parte del origen (0, 0) y termina en el punto
(1, 1) y de esta forma, si la variable estuviera distribuida de manera perfectamente equitativa, la curva
coincidiría con la línea de 45 grados que pasa por el origen; y si existiera desigualdad perfecta, la
curva coincidiría con el eje horizontal hasta el punto (1, 0) donde saltaría al punto (1, 1). En general,
la curva se encuentra en una situación intermedia entre estos dos extremos. En resumen, tratando
6.5. MEDIDAS DE ASOCIACIÓN 129

con la riqueza, lo que se ha hecho es un gráco de líneas correspondiente a la cantidad de riqueza


acumulada frente a la cantidad de individuos acumulado para ese monto de riqueza.

Si la curva de Lorenz se encuentra siempre por encima de otra y, por lo tanto, está más cerca de
la línea de 45 grados, se puede establecer sin ambigüedad que la primera distribución exhibe menor
grado desigualdad que la segunda. Esta comparación gráca entre distribuciones de distintos dominios
geográcos o temporales es la principal utilidad de la curva de Lorenz. En la gura 6.10 se presenta
un ejemplo de la curva de Lorenz.

Figura 6.10: Ejemplo de la curva de Lorenz.

Ejemplo 6.5.8. Representar la curva de Lorenz correspondiente para los datos del ejemplo 6.5.6.

Solución:

Para obtener la curva de Lorenz del ejemplo 6.5.6 donde el coeciente de Gini es de 0.28 revelando un
caso de aparente igualdad en la repartición de las cuentas, se deben gracar los valores de tabla 6.13
que se muestra a continuación:

Para gracar la curva de Lorenz se debe representar en el plano cartesiano la unión de los puntos
dados en la tabla 6.13, es decir, la unión de los puntos (0, 0), (0.4, 0.8), (0.8, 0.6) y (1, 1). En el eje x
130 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Fi Ui Igualdad
0 0 0
0.4 0.2 0.4
0.8 0.6 0.8
1 1 1

Tabla 6.13: Frecuencias acumuladas asociadas con la curva de Lorenz del ejemplo 6.5.6.

se ubican las frecuencias relativas acumuladas Fi , referidas al porcentaje acumulado de individuos, en


este caso empleados, y en el eje y se ubican el porcentaje acumulado de la riqueza Ui que indica el
porcentaje de bienes repartidos, en este caso cuentas. En la gráca también se presenta la línea de
igualdad que es el punto de referencia para la comparación con la curva obtenida. En caso de equidad,
por ejemplo, si se ha acumulado el 40 % de los empleados también se tiene acumulado el 40 % de las
cuentas repartidas. En la gura 6.11 se presenta el gráco correspondiente que conrma lo que sugiere
el coeciente de Gini, esto es, un caso en el que la repartición de las cuentas es más bien igualitaria.

Figura 6.11: Curva de Lorenz asociada con la repartición de las cuentas del ejemplo 6.5.6.
6.6. COMENTARIOS 131

6.6. Comentarios

En este capítulo se da hace introducción al análisis conjunto de dos variables, puesto que muchos
estudios prácticos y teóricos, indagan directa o indirectamente por la relación que tienen las variables
entre sí. La relación entre dos variables puede ser lineal o no lineal, algo que se olvida y menosprecia
frecuentemente, y por lo tanto las medidas que se utilicen deben corresponder apropiadamente al tipo
de relación que se investiga.

Además, uno de los elementos más importantes en este contexto es entender e interpretar las relaciones
de las variables a través de tablas cruzadas y de los coecientes de correlación, que se deben aplicar
prudentemente dependiendo del tipo escala de medida en que estén dadas las variables de estudio.

Por último, se estudian una medida y un gráco cuyo propósito es inspeccionar la forma en que
se distribuye o reparte una variable entre los individuos asociados. Esta medida es de gran utilidad
práctica y se emplea usualmente para estudiar la repartición de la riqueza entre las personas de una
población determinada.

6.7. Ejercicios
6.1 Considerar la siguiente información:

10
X 10
X 10
X 10
X 10
X
xi = 110, yi = 60, x2i = 3156, yi2 = 1, 138 y xi yi = 1, 868.
i=1 i=1 i=1 i=1 i=1

a. ¾Cuál es el tamaño de la muestra?

b. Calcular el promedio de X y Y.
c. Calcular la varianza de X y Y.
d. Calcular la desviación típica de X y Y.
e. Calcular e interpretar la covarianza entre X y Y.
f. Calcular e interpretar el coeciente de correlación de Pearson entre X y Y.
g. Calcular e interpretar nuevamente el coeciente de correlación de Pearson si para todos los
individuos de la muestra la variable X aumenta en 5 % y la variable Y aumenta en 3 %.

1
6.2 Sean X y Y dos variables tales que rxy = 2, Sx2 = 1 y Sy2 = 2. Calcular
2
Sw donde W = X − 2Y .

6.3 Sea (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) un conjunto de n realizaciones de una variable bidimensional
(X, Y ). Una fórmula alternativa para calcular el coeciente de correlación de Spearman es
n
6 X
rsxy = 1 − 2
(x̃i − ỹi )2i
n(n − 1) i=1

donde x̃i y ỹi son respectivamente los rangos de xi y yi del i-ésimo individuo para i = 1, . . . , n.
132 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

Corroborar que esta fórmula del coeciente de correlación de Spearman coincide con la fórmula
dada en la denición 6.5.3 utilizando los datos del ejemplo 6.5.4.

6.4 Calcular el coeciente de correlación de Spearman y de Kendall utilizando los datos del ejemplo
6.4.2. Interpretar y comparar los resultados obtenidos.

6.5 Se sabe que hay una relación entre la utilidad de las acciones X y Y. La tabla 6.14 corresponde
a una muestra de los benecios asociados con estas acciones. Realizar un gráco de dispersión y
calcular las medidas de asociación a que haya lugar entre las variables. ¾Qué se puede decir del
nexo entre las utilidades de las acciones?

# X Y # X Y
1 1253.81 91.73 21 2193.91 -66.97
2 2264.64 -18.00 22 1958.28 -125.78
3 1567.86 182.91 23 1994.85 -141.20
4 1299.00 145.70 24 2694.94 47.25
5 2389.47 48.43 25 1445.50 214.17
6 2592.27 60.64 26 2083.25 -122.08
7 2462.54 90.10 27 2642.54 55.99
8 2311.34 -14.58 28 1386.89 215.28
9 2128.80 -107.84 29 2143.09 -88.31
10 3312.81 -13.98 30 1814.38 -57.72
11 1939.12 -120.26 31 1770.48 -15.84
12 3136.20 -51.42 32 3278.51 -31.73
13 2329.68 19.92 33 2498.77 78.84
14 1883.61 -119.30 34 3196.21 -31.06
15 1277.64 96.02 35 2252.69 -36.40
16 2893.56 -15.71 36 2946.31 -37.71
17 3045.40 -49.74 37 1886.00 -88.03
18 2060.51 -124.28 38 1848.70 -59.02
19 2378.64 58.66 39 2499.54 74.20
20 2511.22 68.92 40 1960.95 -130.21

Tabla 6.14: Datos asociados con una muestra de utilidades de las acciones X y Y.

6.6 La junta directiva de una empresa dice tener una estructura horizontal, lo cual se podría ver
reejado mediante la equidad salarial. Con base en la información de la tabla 6.15, ¾qué indican
el coeciente de Gini y la curva de Lorenz acerca de la aseveración de la junta directiva?

6.7 Una empresa ha trabajado hasta ahora con la hipótesis de que las ventas de un período dependen
linealmente de los gastos de publicidad efectuados en el período anterior. En este momento, soli-
citan la realización de un análisis que ponga de maniesto si la hipótesis, hasta ahora mantenida,
se puede seguir sosteniendo con los datos que suministran. Las cifras se muestran en la tabla 6.16
y están dadas en miles de millones de pesos.
6.7. EJERCICIOS 133

Salario Frecuencia
1,485,000 1
1,689,000 1
1,714,000 1
1,751,000 1
1,916,000 1
1,942,000 1
1,943,000 1
1,966,000 1
1,990,000 1
2,047,000 1
2,115,000 1
2,191,000 1
2,242,000 1
2,661,000 1
2,727,000 1

Tabla 6.15: Datos asociados con los salarios de una muestra de empleados de una empresa.

Año Gasto Venta


1987 21 17
1988 22 19
1989 25 20
1990 26 21
1991 27 23
1992 29 24
1993 30 26

Tabla 6.16: Datos asociados con las ventas y gastos de una empresa determinada.

a. ¾Se incrementarán las ventas del período siguiente al aumentar los gastos en publicidad del
período actual?

b. ¾Es adecuado suponer que el ajuste entre estas variables es efectivamente lineal teniendo en
cuenta los valores de las variables?

6.8 Las calicaciones que se presentan en la tabla 6.17 corresponden a las notas de 25 alumnos en las
asignaturas A y B.

a. Obtener la tabla de frecuencias conjunta.

b. ¾Qué proporción de alumnos obtienen más de cinco en ambas asignaturas? ¾Qué proporción
de alumnos obtienen más de un cinco en A? ¾Y en B?

c. Representar grácamente la situación.

d. Hallar e interpretar el coeciente de correlación correspondiente.


134 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

# A B # A B
1 4 3 14 8 7
2 5 5 15 8 7
3 5 5 16 8 8
4 5 6 17 8 8
5 6 7 18 8 8
6 6 7 19 8 8
7 7 7 20 9 8
8 7 7 21 9 8
9 7 7 22 9 8
10 7 7 23 9 10
11 7 8 24 9 10
12 7 8 25 10 10
13 7 8

Tabla 6.17: Datos asociados con las calicaciones de las asignaturas A y B de una muestra de alumnos.

6.9 Demostrar que si (X, Y ) es una variable bidimensional y a, b, c y d son números reales entonces
se tiene que:

i. rXY = rY X .
ii. rXX = 1.
iii. Si V = aX + b y W = cY + d entonces rV W = sgn(a)sgn(c)rXY donde sgn(x) denota el signo
de x.

iv. |rXY | = 1 si y solo si aX + bY = 0 donde a y b no son simultáneamente 0.

2 2
6.10 Si en una distribución bidimensional se tiene que Sx+y = 10.3 y Sx−y = 8.1, calcular la covarianza
entre 2X − 1 y 4Y + 2.
Pm
6.11 Demostrar que si X1 , . . . , Xm son m variables conmensurables y W = i=1 Xi entonces

m
X m X
X m
2 2
SW = SX i
+ SXi Xj .
i=1 i=1 j=1
i6=j

6.12 En la tabla 6.18 se presentan los datos correspondientes a la tasa media de crecimiento del PIB y
del empleo para 25 países de la OCDE para el periodo 1988-1997.

a. Hacer un diagrama de dispersión de la tasa media de crecimiento del PIB frente a la tasa media
de crecimiento del empleo.

b. Calcular e interpretar la covarianza entre la tasa media de crecimiento del PIB y la tasa media
de crecimiento del empleo.

c. Calcular e interpretar el coeciente de correlación de Pearson entre la tasa media de crecimiento


del PIB y la tasa media de crecimiento del empleo.
6.7. EJERCICIOS 135

País Empleo PIB Empleo PIB


Australia 1.68 3.04
Corea 2.57 7.73
Austria 0.65 2.55
Luxemburgo 3.02 5.64
Bélgica 0.34 2.16
Holanda 1.88 2.86
Canadá 1.17 2.03
Nueva Zelanda 0.91 2.01
Dinamarca 0.02 2.02
Noruega 0.36 2.98
Finlandia -1.06 1.78
Portugal 0.33 2.79
Francia 0.28 2.08
España 0.89 2.60
Alemania 0.08 2.71
Suecia -0.94 1.17
Grecia 0.87 2.08
Suiza 0.79 1.15
Islandia -0.13 1.54
Turquía 2.02 4.18
Irlanda 2.16 6.40
Reino Unido 0.66 1.97
Italia -0.30 1.68
USA 1.53 2.46
Japón 1.06 2.81

Tabla 6.18: Datos asociados con la tasa media de crecimiento del PIB y del empleo para 25 países de la OCDE para
el periodo 1988-1997.

6.13 En la tabla 6.19 se presenta un conjunto de datos asociado con el ingreso (en millones de pesos),
el género y la preferencia de una medida económica del Gobierno Nacional de una muestra de
empleados de una compañía. Para hombres y mujeres separadamente:

a. Realizar un histograma y calcular la media, la mediana y la moda de los cuartiles de la variable


ingresos.

b. Realizar un diagrama de caja y calcular la desviación estándar, la desviación media y la des-


viación mediana de la variable ingresos.

c. Calcular el coeciente de asimetría de Pearson, el coeciente de asimetría de Fisher y el índice


de asimetría de Yule-Bowley de la variable ingresos.

d. Calcular el coeciente de apuntamiento de Fisher de la variable ingresos.

e. Estandarizar la variable ingresos. ¾Hay observaciones atípicas? ¾Si las hay, cuáles son?

f. Interpretar, comentar y comparar los resultados obtenidos en los incisos anteriores.

6.14 Con la información del ejercicio 6.13:


136 CAPÍTULO 6. MEDIDAS DESCRIPTIVAS PARA DOS VARIABLES

a. Construir la variable salario con los siguientes valores:

• BAJO: 1 salario mínimo o menos.

• MEDIO: entre 1 y 2 salarios mínimos.

• ALTO: 2 salarios mínimos o más.

Hacer la tabla de contingencia bidimensional de frecuencias relativas de salario frente a prefe-


rencia. Hacer el gráco correspondiente.

b. Hacer la tabla de perles la y el gráco correspondiente.

c. Hacer la tabla de perles columna y el gráco correspondiente.

d. Interpretar y comentar los resultados obtenidos en los incisos anteriores.


6.7. EJERCICIOS 137

Ingresos Género Preferencia Ingresos Género Preferencia


2.405 Mujer A favor 0.979 Mujer A favor
0.407 Hombre A favor 2.131 Mujer A favor
0.827 Mujer En contra 1.545 Mujer A favor
2.281 Mujer A favor 2.375 Mujer A favor
0.020 Mujer A favor 3.267 Hombre En contra
0.031 Mujer A favor 2.870 Hombre En contra
1.629 Mujer A favor 2.697 Hombre A favor
2.000 Mujer En contra 0.898 Hombre A favor
2.555 Mujer A favor 2.629 Mujer NS/NR
0.013 Mujer A favor 0.880 Mujer En contra
1.197 Mujer NS/NR 3.409 Hombre A favor
0.200 Mujer A favor 1.272 Mujer A favor
3.369 Mujer A favor 2.042 Hombre En contra
1.167 Hombre A favor 0.711 Mujer En contra
4.422 Hombre A favor 1.816 Mujer A favor
1.553 Mujer A favor 0.216 Mujer A favor
1.353 Mujer A favor 0.392 Mujer A favor
5.421 Mujer En contra 0.763 Mujer En contra
0.484 Hombre A favor 0.637 Hombre A favor
0.402 Mujer A favor 1.962 Mujer A favor
0.461 Mujer A favor 0.804 Mujer A favor
2.405 Mujer A favor 0.919 Mujer A favor
2.167 Mujer A favor 0.524 Mujer A favor
2.560 Mujer A favor 1.227 Mujer En contra
1.472 Hombre A favor 1.445 Mujer En contra
1.381 Mujer A favor 1.411 Hombre A favor
3.031 Hombre En contra 2.627 Mujer En contra
2.604 Mujer En contra 1.074 Mujer A favor
1.628 Mujer A favor 1.834 Mujer A favor
1.783 Mujer En contra 1.319 Mujer NS/NR
0.080 Mujer A favor 0.918 Mujer A favor
0.442 Mujer A favor 0.111 Mujer A favor
0.131 Hombre A favor 0.827 Mujer A favor
2.517 Mujer A favor 3.082 Mujer A favor
1.616 Mujer En contra 1.904 Mujer En contra
1.754 Hombre A favor 2.931 Mujer A favor
3.438 Hombre A favor 1.897 Mujer NS/NR
0.535 Mujer A favor 2.815 Hombre A favor
1.473 Hombre A favor 0.592 Hombre A favor
0.434 Mujer A favor 0.823 Mujer NS/NR

Tabla 6.19: Datos asociados con los ingresos, el género y la preferencia de una medida económica del Gobierno Nacional
de una muestra de empleados de una compañía.
Parte II

Probabilidades

138
Capı́tulo 7
Fundamentos de probabilidad

7.1. Introducción

Si el propósito central del investigador es describir los resultados de un experimento concreto, las
técnicas presentadas en las secciones anteriores se pueden considerar sucientes. No obstante, si se
quiere utilizar la información obtenida para extraer conclusiones generales sobre los objetos de un
conjunto de datos mayor que comparten las mismas propiedades de los datos iniciales, entonces estas
técnicas constituyen solo el principio del análisis y se debe recurrir a los métodos de la inferencia
estadística , los cuales implican el uso apropiado de la teoría de la probabilidad.

7.2. Experimentos determinísticos y experimentos aleatorios

La teoría de la probabilidad se desenvuelve en medio de los diversos resultados y los posibles sucesos
(eventos) que se pueden obtener cuando se realiza un experimento (cualquier acción o proceso que
genera observaciones o datos directa o indirectamente). El término experimento se utiliza en la teoría
de la probabilidad para describir virtualmente cualquier acción o proceso que genera un conjunto de
datos.

Denición 7.2.1. Un experimento determinístico es cualquier ex-


perimento que, al repetirse bajo las mismas condiciones, genera siempre
el mismo resultado.

139
140 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Ejemplo 7.2.1. El siguiente experimento corresponde a un experimento determinístico. Considerar


un objeto de cualquier masa partiendo de un estado inicial de reposo y dejado caer al vacío desde lo

alto de una torre. Éste llega siempre al suelo con la misma velocidad, a saber, v= 2gh, donde v es
la velocidad del cuerpo al llegar al suelo, g es la aceleración de la gravedad y h es la altura de la torre.
Se supone que no existe rozamiento con el aire. 

Sin embargo, hay experimentos cuyos resultados no son determinados si las condiciones se mantienen
constantes. Tales experimentos se denominan experimentos aleatorios.

Denición 7.2.2. Un experimento aleatorio o estocástico es cual-


quier experimento que satisface las siguientes condiciones:

• Todos los posibles resultados del experimento son conocidos antes


de ejecutarlo.

• El resultado de cualquier ejecución del experimento no se puede


conocer de antemano.

Ejemplo 7.2.2. Ejemplos comunes de experimentos aleatorios, son los juegos de azar que están
relacionados con las cartas y los lanzamientos de dados o monedas. Sin embargo, hay otros tipos de
ejemplos de experimentos aleatorios como los siguientes:

1. Seleccionar aleatoriamente una ciudad de un país y registrar para ésta el número de empresas
de servicios.

2. Seleccionar aleatoriamente tres propuestas de ley del Congreso y registrar si fueron o no apro-
badas.

3. Seleccionar aleatoriamente una empresa de una ciudad y registrar su actividad.

¾Puede el lector identicar las características de un experimento aleatorio en estos ejemplos? 

7.3. Espacios muestrales y eventos

El primer paso para analizar un experimento aleatorio consiste en denir cuidadosamente los resultados
experimentales. Cuando se denen todos los posibles resultados de un experimento estocástico, se
identica el denominado espacio muestral del experimento.
7.3. ESPACIOS MUESTRALES Y EVENTOS 141

Denición 7.3.1. El conjunto de todos los posibles resultados de un


experimento aleatorio se llama espacio muestral (o de resultados) y se
Ω. Los elementos del espacio muestral se denominan puntos
denota con
muestrales y se simbolizan con ω1 , ω2 , . . .

Ejemplo 7.3.1. Considerar las siguientes situaciones:

• Se instala una computadora nueva en un banco. La computadora controla todas las transfe-
rencias bancarias guardando el valor exacto de cada transacción, mas sin embargo no registra
transacciones menores a un millón ni mayores a cien millones. Se dene el experimento aleatorio
como los valores que registra la computadora.

• Una fábrica que elabora diferentes clases de un artículo determinado tiene un método para la
identicación de las unidades terminadas que fue concebido para diferenciarlas y clasicarlas
por categorías. Se dene el experimento aleatorio como la extracción y la clasicación de los
artículos entre todos los fabricados hasta el día de ayer.

¾Cuál es el espacio muestral en cada caso? ¾Cuál es la diferencia entre estos dos espacios muestrales?

Solución:

En la primera situación el espacio muestral es el conjunto de todos los valores que se encuentren entre
1 millón y 100 millones, ya que el resultado del experimento es el valor de la transacción que registra
la computadora.

Para el segundo experimento el espacio muestral es el conjunto de todas las identicaciones de los
artículos que se han producido hasta el día de ayer.

La diferencia más importante entre estos dos espacios muestrales radica en su tamaño, ya que el
primero tiene un número innito de posibles resultados mientras que el segundo tiene un número
nito de resultados. 

Denición 7.3.2. Cualquier subconjunto del espacio muestral se llama


evento o suceso aleatorio .

Nota. Los eventos aleatorios usualmente se simbolizan con letras mayúsculas como A, B o C , por
ejemplo. Además, si A es un evento y el resultado observado del experimento aleatorio es un elemento
de A signica que el evento A ha sucedido. Cuando un evento tiene un solo elemento se denomina
evento elemental o simple .
142 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Denición 7.3.3. En particular, Φ y Ω son eventos aleatorios, esto


es, subconjuntos de Ω. El conjunto Φ es denominado evento imposible ,
que nunca sucede, y el conjunto Ω se llama evento seguro , que siempre
sucede.

Ejemplo 7.3.2. Considerar el experimento aleatorio lanzar un dado corriente una vez. En este caso
se tiene que:

• El espacio muestral del experimento es Ω = {1, 2, 3, 4, 5, 6}.


• Los puntos muestrales son ω1 = 1, ω2 = 2, ω3 = 3, ω4 = 4, ω5 = 5 y ω6 = 6.
• Algunos eventos del experimento son:

a. A: el resultado del lanzamiento es un número par, es decir, A = {2, 4, 6}.


b. B : el resultado del lanzamiento es superior a 2, es decir, B = {3, 4, 5, 6}.
c. C : el resultado del lanzamiento no es 1 ni 6, es decir, C = {2, 3, 4, 5}.
d. D: el resultado del lanzamiento es 7, es decir, D = Φ.
• El evento imposible es Φ y el evento seguro es Ω = {1, 2, 3, 4, 5, 6}.


Ejemplo 7.3.3. Obtener el espacio muestral del experimento aleatorio que consiste en seleccionar
aleatoriamente tres leyes del Congreso y registrar si fueron o no aprobadas.

Solución:

En este caso el espacio muestral del experimento aleatorio es

Ω = {(s, s, s), (n, s, s), (s, n, s), (s, s, n), (n, n, s), (n, s, n), (s, n, n), (n, n, n)}.
donde s signica que sí ha sido aprobada la ley y n que no ha sido aprobada la ley. 
Ejemplo 7.3.4. Obtener el espacio muestral de cada experimento del ejemplo 7.3.1.

Solución:

En la primera situación el espacio muestral es el conjunto de todos los valores que se encuentren entre
1 millón y 100 millones. Esto corresponde a

Ω = {x : 1, 000, 000 ≤ x ≤ 100, 000, 000}.


De otra parte, el espacio muestral en la segunda situación es el conjunto de todas las identicaciones
de los artículos que se han producidos hasta el día de ayer. Esto es

Ω = {Id1 , Id2 , . . . , Idn }


donde Idi es la i-ésima identicación en la que es posible clasicar el artículo para i = 1, . . . , n. 
7.4. OPERACIONES CON EVENTOS ALEATORIOS 143

7.4. Operaciones con eventos aleatorios

El cálculo de las probabilidades está relacionado intrínsecamente con el manejo de los eventos alea-
torios. Manejar apropiadamente las operaciones entre conjuntos es de fundamental importancia para
desarrollar y aplicar el cálculo de las probabilidades en los escenarios teóricos y de aplicación. En el
apéndice B se presentan algunos detalles al respecto.

Denición 7.4.1. Sean A y B dos eventos aleatorios del espacio mues-


tral Ω. Se denomina evento intersección de A y B , denotado con A∩B ,
al evento conformado por todos los puntos muestrales que pertenecen a
A y a B simultáneamente. Esto es:

A ∩ B = {ω ∈ Ω : ω ∈ A y ω ∈ B}.

Denición 7.4.2. Sean A y B dos eventos aleatorios del espacio mues-


tral Ω. Se denomina evento unión de A y B, denotado con A ∪ B, al
evento conformado por todos los puntos muestrales que pertenecen a A,
a B o ambos simultáneamente. Esto es:

A ∪ B = {ω ∈ Ω : ω ∈ A o ω ∈ B}.

Denición 7.4.3. Sean A y B dos eventos aleatorios del espacio mues-


tralΩ. Se denomina evento diferencia entre A y B, denotado con
A − B , al conjunto conformado por todos los puntos muestrales que
pertenecen a A pero no pertenecen a B. Esto es:

A − B = {ω ∈ Ω : ω ∈ A y ω∈
/ B}.

Denición 7.4.4. Sea A un evento aleatorio de un espacio muestral


Ω. El evento complemento de A, denotado con AC , es el conjunto
conformado por todos los puntos muestrales que no pertenecen a A. Es
decir:
AC = {ω ∈ Ω : ω ∈
/ A}.
144 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Ejemplo 7.4.1. Se lanza un dado corriente una vez. Considerar A como al evento el resultado
obtenido es un número impar y B como al evento el resultado obtenido es al menos 3. Entonces, en
este caso se sigue que:

• El espacio muestral y los eventos A y B son respectivamente Ω = {1, 2, 3, 4, 5, 6}, A = {1, 3, 5}


y B = {3, 4, 5, 6}.

• Los eventos complementarios de los eventos A y B son respectivamente AC : el resultado obtenido
C C
es un número par y B : el resultado obtenido es a lo más 2, es decir, A = {2, 4, 6} y
B C = {1, 2}.

• La intersección de A y B es el evento A ∩ B : el resultado obtenido es un número impar distinto


de 1, se decir, A ∩ B = {3, 5}.

• La unión de A y B es el evento A ∪ B : el resultado obtenido es un número distinto de 2, es


decir, A ∪ B = {1, 3, 4, 5, 6}.

• La diferencia entre A y B es el evento A − B: el resultado obtenido es el número 1, es decir,


A − B = {1}.

• La diferencia entre B y A es el evento B − A: el resultado obtenido es un número par distinto


de 2, es decir, B − A = {4, 6}.

Denición 7.4.5. Sean A y B dos eventos aleatorios de un espacio


muestral Ω. Si los eventos A y B no tienen en común ningún punto
muestral entonces se denominan mutuamente excluyentes o disjun-
tos , esto es, los eventos A y B son mutuamente excluyentes si
A ∩ B = Φ.

Denición 7.4.6. Sean A1 , A2 , . . . , An eventos aleatorios no vacíos de


un espacio muestral Ω.

• Si A1 ∪ A2 ∪ . . . ∪ An = Ω entonces estos n eventos se denominan


eventos colectivamente exhaustivos .
• Si A1 , A2 , . . . , An son eventos colectivamente exhaustivos y además
son mutuamente excluyentes dos a dos entonces estos n eventos
conforman una partición de Ω.
7.4. OPERACIONES CON EVENTOS ALEATORIOS 145

Nota. Sea A un evento aleatorio de un espacio muestral Ω. Se observa que los eventos A y AC son
C
mutuamente excluyentes, dado que A ∩ A = Φ, y además son colectivamente exhaustivos, puesto que
A ∪ AC = Ω. En otras palabras, A y AC conforman una partición de Ω.

Un instrumento útil para abordar las operaciones entre eventos aleatorios son los diagramas de Venn.
En la guras B.2 y B.3 se muestra una representación gráca de los conceptos presentados anterior-
mente.

Ejemplo 7.4.2. Sea Ω = {1, 2, 3, 4, 5, 6} el espacio muestral asociado con el experimento del ejemplo
7.4.1. Se consideran los eventos A = {2, 6}, B = {1, 4}, C = {3, 5} y D = {2, 3, 4, 5}. En este caso se
tiene que:

• A, B y C conforman una partición de Ω porque son eventos no vacíos tales que A ∪ B ∪ C = Ω,


A ∩ B = Φ, A ∩ C = Φ y B ∩ C = Φ.
• A, B y D son colectivamente exhaustivos porque A ∪ B ∪ D = Ω, pero no conforman una
partición de Ω porque B ∩ D 6= Φ.
• A, C y D no son colectivamente exhaustivos y por lo tanto tampoco conforman una partición
de Ω porque A ∪ C ∪ D 6= Ω.


Ejemplo 7.4.3. La junta directiva de una empresa productora de alimentos quiere lanzar un nue-
vo producto en una ciudad. Para esto la empresa realiza un estudio de mercadeo en el cual se pide
establecer: ¾Cuál es la población de referencia (Ω)? ¾Cuáles son los posibles consumidores del pro-
ducto (A)? Si el producto fue diseñado para personas entre los 11 y 30 años, ¾cuál es la población
objetivo (B )? ¾Cuál es la población objetivo si se quiere que ésta tenga la posibilidad de comprar el
producto (C )? ¾Qué población hay que tener en cuenta para realizar las campañas publicitarias (D )?
Con los conjuntos de individuos establecidos anteriormente, ¾es posible obtener una partición de los
consumidores del producto?

Solución:

Es necesario tener en cuenta que el producto se va a distribuir por toda la ciudad, luego la población
de referencia es
Ω = {Los individuos que transitan por la ciudad}.

Sin embargo, no todos los individuos que transitan por la ciudad son consumidores potenciales del
producto, ya que los recién nacidos no pueden ingerir alimentos sólidos en sus primeros meses de vida.
Por lo tanto, el conjunto que reúne los posibles consumidores del producto es

A = Ω − {Los recién nacidos que transitan por la ciudad}.

De otra parte, si el producto fue diseñado para personas entre los 11 y 30 años, como se establece una
condición particular para la población objetivo entonces se tiene que ésta es igual a

B = {Las personas que transitan por la ciudad que tienen entre 11 y 30 años de edad}.
146 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Ahora, teniendo en cuenta que no todos los consumidores potenciales tienen la capacidad de comprar
el producto en primera instancia, se sigue que

C = {Las personas que tienen uso libre de capital para la adquisición de productos alimentarios}

y en consecuencia la población que se debe tener en cuenta para realizar las campañas publicitarias es
D = B ∩ C . Ahora, para establecer si los conjuntos B , C y D conforman una partición de A, basta ver
que no se cumple al menos una de las condiciones necesarias para tener una partición. Por ejemplo,
se observa que B ∩ C 6= Φ y por lo tanto B, C y D no conforman una partición de A. 

A continuación se presentan algunas propiedades relacionadas con las operaciones entre eventos que
son de uso común en el cálculo de probabilidades. Estas propiedades también se estudian con cierto
detalle en el apéndice B.

Proposición 7.4.1. Sean A, B y C eventos aleatorios de un espacio muestral Ω. Entonces se cumplen


las siguientes leyes:

i. Leyes conmutativas: v. Leyes de la diferencia:


a. A ∪ B = B ∪ A. a. A − B = A ∩ BC .
b. A ∩ B = B ∩ A. b. A − B = A − (A ∩ B).
ii. Leyes asociativas: c. A − B = (A ∪ B) − B .
a. A ∪ (B ∪ C) = (A ∪ B) ∪ C = A ∪ B ∪ C . d. A − (B − C) = (A − B) ∪ (A − C).
b. A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B ∩ C . e. A − (B ∪ C) = (A − B) ∩ (A − C).

iii. Leyes distributivas: f. (A − B) ∪ (A ∩ B) = A.


g. (A − B) ∩ (A ∩ B) = Φ.
a. A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C).
b. A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C). vi. Leyes de De-Morgan:
c. (A ∪ B) − C = (A − C) ∪ (B − C).
a. (A ∪ B)C = AC ∩ B C .
iv. Leyes complementarias: b. (A ∩ B)C = AC ∪ B C .
A ∪ AC = Ω.
a.
vii. Leyes de idempotencia:
b. A ∩ AC = Φ.
c. A ∪ Ω = Ω. a. A ∪ A = A.

d. A ∩ Ω = A. b. A ∩ A = A.
e. A ∪ Φ = A. viii. Ley involutiva:
C
f. A ∩ Φ = Φ. AC = A.

La demostración se deja como ejercicio para el lector.

Ejemplo 7.4.4. Un laboratorio produce entre otros un bio-tejido para reforzar la piel del cuello,
patas y abdomen, de un conjunto particular de animales, entre los cuales se encuentran los porcinos,
7.4. OPERACIONES CON EVENTOS ALEATORIOS 147

ovinos y los bovinos. El laboratorio quiere recoger los tejidos producidos para bovinos o porcinos pero
que sean refuerzo únicamente para el cuello. Al nal del día se entregan al laboratorio los tejidos que
refuerzan los tejidos para porcinos, ovinos y bovinos en tres bolsas diferentes. ¾Es posible obtener los
productos que quiere el laboratorio de estas tres bolsas? De ser posible, ¾cómo se obtendrían?

Solución:

Lo que busca el laboratorio es un conjunto de tejidos proveniente de la operación A ∩ (B ∪ C),


donde A es el lugar de refuerzo del bio-tejido que corresponde al cuello, mientras que B y C son
respectivamente los tejidos que corresponden a los bovinos y a los porcinos. Por lo tanto, teniendo en
cuenta la disposición de los tejidos de las tres bolsas, para obtener los tejidos especícos que necesita
el laboratorio de las tres bolsas, se debe realizar la operación (A ∩ B) ∪ (A ∩ C). 

Ejemplo 7.4.5. Con la información del ejemplo 7.4.2, vericar que (A ∪ B)C = AC ∩ B C y que
C C C
(A ∩ B) = A ∪ B .

Solución:

En el primer caso, se observa que A ∪ B = {1, 2, 4, 6} y en consecuencia (A ∩ B)C = {3, 5}. Como
A = {1, 3, 4, 5} y B = {2, 3, 5, 6} entonces AC ∩ B C = {3, 5}, lo que comprueba la primera
C C
C C
igualdad. De otra parte, se tiene que A ∩ B = Φ y por lo tanto (A ∩ B) = Ω. Como A = {1, 3, 4, 5}
C C C
y B = {2, 3, 5, 6} entonces A ∪ B = Ω, lo que vericada la segunda igualdad. 

Proposición 7.4.2. Sean A1 , A2 , . . . , An , A y B eventos aleatorios no vacíos de un espacio muestral


Ω. Entonces, se satisfacen las siguientes propiedades:

i. Los eventos A∩B y AC ∩ B conforman una partición de B.

ii. Si los eventos A1 , A2 , . . . , An conforman una partición de Ω entonces los eventos A1 ∩ B, A2 ∩


B, . . . , An ∩ B conforman una partición de B.

La demostración se deja como ejercicio para el lector.

Ejemplo 7.4.6. Considerar el espacio muestral del ejemplo 7.4.2. Se observa que:

• Sean los eventos A = {1, 3, 5} y B = {3, 4, 5, 6}. Entonces, los eventos A ∩ B = {3, 5} y
AC ∩ B = {4, 6} conforman una partición de B.

• Sean los eventosA1 = {1, 3}, A2 = {2, 4, 6}, A3 = {5} y B = {3, 4, 5, 6}. Los eventos A1 , A2 y
A3 conforman una partición de Ω. Ahora, se tiene que los eventos A1 ∩ B = {3}, A2 ∩ B = {4, 6}
y A3 ∩ B = {5} conforman una partición de B .


148 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

7.5. Asignación de probabilidades

Antes de señalar cómo se utilizan las probabilidades, es necesario conocer de donde provienen y cómo
se calculan. A continuación se presentan tres formas de calcular o estimar la probabilidad de un evento,
a saber, mediante los siguientes métodos: frecuentista, clásico y subjetivo. Estos métodos no son de
ninguna forma una denición de probabilidad, son apenas algunas formas de asignar probabilidades.

Denición 7.5.1. La probabilidad de un evento aleatorio A, deno-


tada con P(A), es una medida de la incertidumbre relacionada con la
posibilidad de la ocurrencia del evento A.

La denición axiomática de probabilidad está fuera de los intereses de este libro.

7.5.1. Método frecuentista

Este método se basa en el concepto de frecuencia relativa (detalles en la sección 2.2) asociada con
la ocurrencia de un evento cuando se repite un experimento aleatorio un gran número de veces. Este
método se utiliza cuando los eventos se observan empíricamente, estimando la probabilidad de que
un evento particular ocurra por medio la frecuencia relativa constituida con base en la información
histórica.

Denición 7.5.2. Se supone que un experimento aleatorio se repite n


veces y que un evento A asociado con estos experimentos ocurre exac-
tamente k veces. Entonces, la frecuencia relativa de A, denotada con
fn (A), se dene como la proporción entre la cantidad de veces que ocurre
el evento A y el número total de repeticiones del experimento aleatorio.
Esto es:
k
fn (A) = .
n

Nota. Si se calcula esta frecuencia relativa cada cierto número de ensayos, a medida que aumenta el
número de repeticiones del experimento aleatorio, las frecuencias relativas correspondientes son más
estables, es decir, tienden a ser casi las mismas. En este caso, se dice que el experimento muestra
regularidad estadística (estabilidad en las frecuencias relativas).

La mayoría de los experimentos aleatorios de importancia práctica tienen regularidad. Por esto es
posible establecer que la frecuencia relativa de un evento A correspondiente a un gran número de
7.5. ASIGNACIÓN DE PROBABILIDADES 149

repeticiones de un experimento aleatorio es aproximadamente igual a la probabilidad del evento A, es


decir
P(A) = lı́m fn (A).
n→∞

Denición 7.5.3. Sea A un evento asociado con un experimento alea-


torio. La probabilidad empírica es igual a la frecuencia relativa de A
al efectuar el experimento tantas veces como sea posible.

Nota. Cuando se usa la denición empírica de probabilidad, es importante tener en cuenta los sigui-
entes aspectos:

• La probabilidad obtenida de esta manera es únicamente una estimación del valor real.

• Cuanto mayor sea el número de experimentos, tanto mejor será la estimación de la probabilidad.

• La validez de esta estimación depende de que las condiciones en que se realiza el experimento
sean idénticas.

Ejemplo 7.5.1. Considerar las siguientes situaciones:

a. Una máquina produce 100 tubos de ensayo cada 5 minutos. Esta máquina empieza su funciona-
miento a las 8:00 a.m. y termina a las 8:00 p.m., hora en la que se toma una muestra de tamaño
n del lote y se revisa el número de tubos de ensayo defectuosos. Si el número de tubos defectuosos
es mayor que una cantidad predeterminada por el departamento de control de calidad entonces
la producción del día se puede distribuir, de otra manera no es posible. Teniendo en cuenta que
no hay cambios en el programa de producción de un día a otro: ¾Cual es la probabilidad de que
la producción de un día no se pueda distribuir? ¾Es correcto estimar la probabilidad mediante la
frecuencia relativa?

b. Un complejo de ocinas se jacta de tener uno de los mejores controles de seguridad. Se quiere
corroborar lo anterior estimando la probabilidad de que una persona que no trabaje en la ocina
pueda pasar sin tener que anunciarse en recepción. ¾Cómo se calcula esta probabilidad? ¾Es correcto
estimar la probabilidad mediante la frecuencia relativa?

Solución:

En la situación a. si se toman los registros de producción durante cierto número de días entonces se
puede calcular la probabilidad de que la producción de un día no se pueda distribuir mediante:

No. de días en los que la producción no se pudo distribuir


.
No. de días en los que se tomaron los registros

Además, es correcto estimar esta probabilidad mediante el método frecuentista porque se considera
que no hay cambios en el programa de producción de un día a otro.
150 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

En la situación b. si se toman los registros de seguridad de un periodo determinado de tiempo entonces


se puede calcular la probabilidad de que una persona que no trabaje en la ocina pueda pasar sin
tener que anunciarse en recepción como sigue:

No. de personas que ingresaron al complejo sin tener que anunciarse y que no trabajan allí
.
No. de personas que entraron al complejo sin trabajar en él

En este caso, es correcto calcular esta probabilidad por medio de la frecuencia relativa siempre y
cuando las condiciones de seguridad no varíen drásticamente de un día a otro. 

7.5.2. Método clásico

Es posible identicar diversos casos en los que se asocie la misma probabilidad a cada evento elemental
de un experimento aleatorio. En tales escenarios, se habla de experimentos laplacianos o clási-
cos , donde se tienen nitos resultados que suceden con la misma probabilidad (eventos elementales
equiprobables). Los juegos de azar hacen parte de este tipo de experimentos.

Denición 7.5.4. Ω 6= Φ un espacio muestral nito asociado con un


Sea
A un evento aleatorio incluido en Ω. Se dene la
experimento laplaciano y
probabilidad clásica de A, denotada con P(A), como el cociente entre
el número de puntos muestrales de A y el número de puntos muestrales
de Ω. Esto es:
#A
P(A) =
#Ω
donde # es el número de elementos de un conjunto dado.

Nota. Es importante recalcar que este método para calcular probabilidades es útil siempre y cuando
todos los puntos muestrales sean equiprobables y el espacio muestral sea contable, de lo contrario,
las probabilidades obtenidas no son conables. En este caso no se realiza ninguna aproximación de la
probabilidad, ya que en este caso se emplea toda la información del espacio muestral.

Ejemplo 7.5.2. Un joven se vio obligado a cambiar de país por lo cual está buscando un colegio
en el cual pueda continuar con sus estudios, sin embargo el único criterio que tiene en cuenta para
seleccionar la institución educativa es que la proporción de mujeres sea por lo menos del 70 %. Este
joven realizó un pequeño cálculo de probabilidades para determinar la repuesta de sus padres frente
a su propuesta: si las posibles respuestas de los padres son sí y no (el espacio muestral -pensaba
el joven-) entonces la probabilidad de que aceptaran la propuesta empleando el método de asignación
clásico de probabilidades es 1/2. Para aumentar sus posibilidades el joven dio a sus padres varias
propuestas de colegios. La respuesta de los padres del joven fue negativa para cada una de ellas.
Discutir el motivo por el cual el joven no pudo obtener al menos un sí de sus padres para alguno de
los colegios que propuso.

Solución:
7.5. ASIGNACIÓN DE PROBABILIDADES 151

Lo primero que se debe tener en cuenta es que el joven no tomó en cuenta los criterios que tenían
sus padres frente al tipo de colegio al cual querían que su hijo ingresara. Ellos estaban considerando
que su hijo se distraería tanto con sus compañeras que decidieron que cualquier colegio que no fuera
masculino no sería la primera ni la segunda opción. Es decir, los eventos simples en este caso no eran
equiprobables. 
Ejemplo 7.5.3. Un laboratorio obtiene muestras de sangre de sus pacientes para realizar una variedad
de pruebas, dentro de las cuales se encuentra una que emplea el conteo de células CD4. El laboratorio
quiere determinar la probabilidad de que al seleccionar una célula de la muestra corresponda a una
tipo CD4. ¾Cómo se calcula esta probabilidad mediante el método clásico? Asumir que el método de
selección de la célula no marca la diferencia.

Solución:

En este caso primero se dene el espacio muestral, que corresponde a cada una de las células que se
encuentran dentro de la muestra de sangre (no los tipos de célula). Luego, la probabilidad deseada
viene dada por:
No. de células tipo CD4 en la muestra de sangre
.
No. de células en la muestra de sangre

Se observa que este método sugiere que todas las células en la muestra tienen la misma posibilidad de
ser escogidas. 

7.5.3. Método subjetivo

Existen algunos eventos cuyas probabilidades no se deben calcular por medio del método frecuentista
o clásico, sino que se estiman mediante el grado de credibilidad basándose en experiencias pasadas.
Aquel mecanismo que permite asignar probabilidades de esta forma se denomina método subjetivo.

Denición 7.5.5. La probabilidad subjetiva se dene como la proba-


bilidad que expresa un grado de creencia individual sobre la posibilidad
de que un evento ocurra.

Nota. La probabilidad subjetiva no depende del tratamiento matemático ni de la noción de experimen-


tos repetibles. La magnitud de la probabilidad que una persona experimentada asigna subjetivamente
a un evento depende del grado de crédito que esa persona le dé a la ocurrencia del evento. Esa es
la razón por la que es posible asignarle probabilidades a eventos que solo se presentan una vez, co-
mo por ejemplo, el evento de ganar una determinada competencia atlética. A diferencia del método
frecuentista, la probabilidad subjetiva no depende de la repetición de un experimento.

Ejemplo 7.5.4. Un par de amigos que siempre se han cubierto la espalda cuando sus novias no
sabían donde andaban, se vieron perjudicados por el conocimiento subjetivo de la probabilidad de que
su amigo les cubriera la espalda aun cuando no alcanzara a avisarle, que estimaban como del 100 %.
152 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

La novia de uno de ellos, sospechando del apoyo mutuo que tenían decidió llamar al amigo de su novio
a preguntarle si sabía en donde se encontraba y con quién; el amigo respondió que se encontraba con
él, lo cual conrmó la sospecha que ya tenía la novia porque tenía a su novio muy callado al lado de
ella. Comentar cómo se involucró la asignación subjetiva de probabilidades en la situación anterior.

Solución:

Sólo hay que notar que para este par de amigos esta clase de situaciones eran muy comunes, por
lo que cuando alguna de estas situaciones ocurría (novia llamando a preguntar por su novio) ellos
asumían con probabilidad 1 que se trataba de una situación real, en la que su amigo necesitaba que
lo cubrieran. Luego, el método subjetivo se ve reejado en el grado de credibilidad que los amigos le
dan a una situación basados en lo que han hecho en el pasado, esto es, su experiencia cubriéndose la
espalda. 

7.6. Propiedades de la probabilidad

Cuando se trabaja con probabilidades, sin importar cual sea la forma en que se asignen, siempre se
deben satisfacer las condiciones que se presentan a continuación, pues formalmente son ellas las que
denen propiamente una medida de probabilidad.

Denición 7.6.1. SeaΩ un espacio muestral no vacío y A1 , A2 , . . . even-


tos aleatorios mutuamente excluyentes incluidos en Ω. Se dice que P(·)
es una medida de probabilidad sobre Ω si se satisfacen las siguientes
propiedades:

i. P(A) ≥ 0 para cualquier evento aleatorio A incluido en Ω.

ii. P(Ω) = 1.

iii. P(A1 ∪ A2 ∪ . . .) = P(A1 ) + P(A2 ) + . . ..

Nota. La parte iii. de la denición 7.6.1 se puede escribir como


∞ ∞
!
[ X
P Ai = P(Ai )
i=1 i=1

donde A1 , A2 , . . . eventos aleatorios mutuamente excluyentes.

La proposición que se presenta a continuación resume las propiedades más importantes de una medida
de probabilidad que son de uso frecuente en el cálculo de probabilidades:

Proposición 7.6.1. Sea Ω un espacio muestral no vacío, A y B eventos aleatorios incluidos en Ω y


P(.) una medida de probabilidad sobre Ω. Entonces se satisface que:
7.6. PROPIEDADES DE LA PROBABILIDAD 153

i. P(Φ) = 0.

ii. Si A∩B =Φ P(A ∪ B) = P(A) + P(B).


entonces

iii. P(A) = P(A ∩ B) + P A ∩ B C .

iv. Si A1 , A2 . . . , An son eventos mutuamente excluyentes dos a dos (Ai ∩ Aj = Φ para todo i 6= j )
Sn Pn
entonces P ( i=1 Ai ) = i=1 P(Ai ).

v. P AC = 1 − P(A).

vi. P(A − B) = P(A) − P(A ∩ B).

vii. Si A⊆B entonces P(A) ≤ P(B) y P(B − A) = P(B) − P(A).

Demostración:

i. P(Ω) = P(Ω ∪ Φ ∪ Φ . . .) = P(Ω) + P(Φ) + P(Φ) + . . .=1. Como P(Φ) ≥ 0 entonces P(Φ) = 0.

ii. P(A ∪ B) = P(A ∪ B ∪ Φ ∪ Φ ∪ . . .) = P(A) + P(B) + P(Φ) + P(Φ) + . . . = P(A) + P(B).


  
iii. P(A) = P(A ∩ Ω) = P A ∩ B ∪ B C = P (A ∩ B) ∪ A ∩ B C = P(A ∩ B) + P A ∩ B C .

iv. P(A1 ∪ A2 ∪ . . . ∪ An ) = P(A1 ∪ A2 ∪ . . . ∪ An ∪ Φ ∪ Φ ∪ . . .) = P(A1 ) + P(A2 ) + . . . + P(An ) +


P(Φ) + P(Φ) + . . . = P(A1 ) + P(A2 ) + . . . + P(An ).
  
v. P(Ω) = P A ∪ AC = P(A) + P AC = 1. En consecuencia P AC = 1 − P(A).

vi. P(A) = P((A − B) ∪ (A ∩ B)) = P(A − B) + P(A ∩ B). Como P(A) = P(A − B) + P(A ∩ B) entonces
P(A − B) = P(A) − P(A ∩ B).
  
vii. P(B) = P(B ∩ Ω) = P B ∩ A ∪ AC = P (B ∩ A) ∪ B ∩ AC = P(B ∩ A) + P B ∩ AC .
Como P(B) = P(A) + P(B − A) entonces P(A) ≤ P(B) y P(B − A) = P(B) − P(A).

Proposición 7.6.2. Sea Ω un espacio muestral no vacío y A, B y C eventos aleatorios incluidos en


Ω. Entonces se satisface que:

i. P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

ii. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).

Demostración:
154 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

i.

P(A ∪ B) = P ((A − B) ∪ (A ∩ B) ∪ (B − A))


= P(A − B) + P(A ∩ B) + P(B − A)
= P(A − B) + P(A ∩ B) + P(B − A) + P(A ∩ B) − P(A ∩ B)
= (P(A − B) + P(A ∩ B)) + (P(B − A) + P(A ∩ B)) − P(A ∩ B)
= P((A − B) ∪ (A ∩ B)) + P((B − A) ∪ P(A ∩ B)) − P(A ∩ B)
= P(A) + P(B) − P(A ∩ B).

ii.

P(A ∪ B ∪ C) = P((A ∪ B) ∪ C)
= P(A ∪ B) + P(C) − P((A ∪ B) ∩ C)
= P(A) + P(B) − P(A ∩ B) + P(C) − P((A ∩ C) ∪ (B ∩ C))
= P(A) + P(B) + P(C) − P(A ∩ B)
− [P(A ∩ C) + P(B ∩ C) − P((A ∩ C) ∩ (B ∩ C))]
= P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).

Ejemplo 7.6.1. Sean A, B y C eventos tales que P(A) = 0.50, P(B) = 0.26, P(C) = 0.55, P(A ∪ B) =
0.61, P(A ∩ C) = 0.25, P(B ∩ C) = 0.15 y P(A ∩ B ∩C) = 0.05. Con
 base en esta información, calcular
C C
las siguientes probabilidades: P(A ∪ B), P A ∩ C , P A ∪ C y P(A ∪ B ∪ C).

Solución:

Aplicando la proposición 7.6.2 se obtiene que

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.50 + 0.26 − 0.15 = 0.61.


C

Empleando la proposición 7.6.1 se sigue que P(A) = P(A ∩ C) + P A ∩ C de donde

P A ∩ C C = P(A) − P(A ∩ C) = 0.50 − 0.25 = 0.25.




Por otra parte, utilizando las leyes de Morgan se concluye que

 C 
P AC ∪ C = 1 − P AC ∪ C = 1 − P A ∩ C C = 1 − 0.25 = 0.75.
 

Por último, aplicando nuevamente la proposición 7.6.2 se tiene que

P(A ∪ B ∪ C) = 0.50 + 0.26 + 0.55 − 0.15 − 0.25 − 0.15 + 0.05 = 0.81.

Estas probabilidades se pueden recticar con el diagrama de Venn que se ilustra en la gura 7.1. 
7.7. MÉTODOS DE CONTEO 155

Figura 7.1: Diagrama de Venn del ejemplo 7.6.1.

7.7. Métodos de Conteo

A pesar de la complejidad de muchos procedimientos avanzados, proporcionados por la tecnología


moderna, el simple proceso de contar resultados de un experimento aleatorio continúa jugando un
papel importante en problemas prácticos de la vida cotidiana. En algunas circunstancias la tarea no
resulta tarea fácil si no se desarrollan técnicas especiales de conteo. Debido a que, frecuentemente,
es necesario determinar cantidades como estas para poder calcular probabilidades, entonces, se hace
obligatorio estudiar algunas técnicas.

7.7.1. Enumeración

La primera regla se basa en tratar de enumerar todos los elementos de un espacio muestral y luego
contar los elementos pertenecientes a un evento de interés. Esta técnica es adecuada cuando el número
de resultados posibles no es muy grande.

La forma en que pueden resultar todos los elementos de un espacio muestral depende de si se consideran
o no el orden y el reemplazamiento entre las competentes que conforman los puntos muestrales. A
continuación se presentan algunos ejemplos para ilustrar estas características.

Ejemplo 7.7.1. (Selección con reemplazo y con orden) Una empresa tiene cuatro propuestas de
inversión en la Bolsa de Valores aviación (A), ganado (G), redes sociales (R) y nutrición (N ) y
quiere entregar un par de estas propuestas a cada asociado. Se debe tener en cuenta que existe la
posibilidad de entregar una misma propuesta varias veces y que la forma de ejecutar las propuestas
es en serie una tras otra, esto es, primero se debe ejecutar una propuesta y una vez terminada la
siguiente. La empresa quiere determinar cuántos asociados necesita para analizar todas las posibles
alternativas de inversión.
156 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Solución:

Se quiere determinar cuántas son las distintas maneras de seleccionar las dos propuestas teniendo en
cuenta que cada asociado tendrá a su cargo el análisis de solo un par de estas propuestas. En este
caso la selección de las propuestas se hace con reemplazo y con orden, ya que se puede examinar una
misma propuesta varias veces y el análisis de un par de propuestas diferentes varía dependiendo de
cual se ejecute primero. Como la selección es con reemplazo, entonces, se selecciona una propuesta y
se vuelve a introducir en el folder de posibilidades antes de seleccionar la segunda. Por lo tanto, el
espacio muestral es:

Ω = {(A, A), (A, V ), (A, R), (A, N ), (V, V ), (V, A), (V, R), (V, N ),
(R, R), (R, A), (R, V ), (R, N ), (N, N ), (N, A), (N, R), (N, V )}.

Por lo tanto, se necesitan 16 asociados para analizar todas las posibles alternativas de inversión. 

Ejemplo 7.7.2. (Selección con reemplazo y sin orden) Si en el ejemplo 7.7.1 el orden en el que se
ejecutan las propuestas no marca la diferencia, ¾cuántos asociados son necesarios para analizar todas
las posibles alternativas de inversión?

Solución:

Esta situación solo diere de la anterior en cuanto a que ahora evaluar el par las propuestas {A; V } y
{V ; A} es equivalente. Por tanto el espacio muestral correspondiente se ve reducido a:

Ω = {{A, A}, {A, V }, {A, R}, {A, N }, {V, V }, {V, R}, {V, N }, {R, R}, {R, N }, {N, N }}.

En consecuencia, si el orden en el que se ejecutan las propuestas no marca la diferencia entonces se


necesitan 10 asociados para analizar todas las posibles alternativas de inversión. 

Ejemplo 7.7.3. (Selección sin reemplazo y con orden) Un grupo de congresistas necesita aprobar
cuatro proyectos de ley denotados con P1 , P2 , P3 y P4 . En un día los congresistas pueden votar dos
proyectos, pero saben que dependiendo de cuáles sean y el orden en el que se presenten, tienen una
mayor o menor posibilidad de que sean aprobados. A este grupo de congresistas les interesa saber de
cuántas formas se pueden presentar los dos proyectos de ley en un día y cuáles son las posibilidades.

Solución:

En esta situación el orden sí es importante dado que el primer proyecto en evaluarse puede interferir
con la aprobación del segundo, pero el reemplazamiento no tiene lugar porque una vez un proyecto
sea votado no tiene sentido volverlo a votar el mismo día, así que el espacio muestral está dado por:

Ω = {(P1 , P2 ), (P1 , P3 ), (P1 , P4 ), (P2 , P1 ), (P2 , P3 ), (P2 , P4 ),


(P3 , P1 ), (P3 , P2 ), (P3 , P4 ), (P4 , P1 ), (P4 , P2 ), (P4 , P3 )}.

Luego, hay 12 posibilidades para presentar los proyectos de ley. 


7.7. MÉTODOS DE CONTEO 157

Ejemplo 7.7.4. (Selección sin reemplazo y sin orden) Si en el ejemplo 7.7.3 el orden en el que se
votan los proyectos de ley en realidad no interere con la evaluación de los mismos, ¾de cuántas formas
se pueden presentar los dos proyectos de ley en un día?

Solución:

En comparación con el caso anterior, aquí se deja de tener en cuenta el orden en el que se presenten
las propuestas, por lo que las posibles parejas de proyectos de ley son:

Ω = {{P 1, P 2}, {P 1, P 3}, {P 1, P 4}, {P 2, P 3}, {P 2, P 4}, {P 3, P 4}}.

Por consiguiente, si el orden en el que se votan los proyectos no interere con la evaluación de los
mismos entonces solo hay 6 posibilidades para presentar proyectos de ley. 

7.7.2. Diagramas de árbol

Cuando el número de posibles formas de ejecutar un proceso no es muy grande, se recomienda utilizar
una representación gráca conocida como diagrama de árbol para evidenciar todas las posibilidades
asociadas. Un diagrama de árbol consta de una serie de ramas que corresponden a cada una de las
formas en que se puede realizar las operaciones de un proceso determinado.

Ejemplo 7.7.5. La unidad administrativa de una empresa tiene dos instancias de clasicación de
documentos que al parecer le están generando retrasos ya que alguna de las instancias es más eciente
que la otra. La empresa ha decidido determinar donde está el problema y para ello quiere listar todas
las variantes del proceso de clasicación. En la primera etapa los documentos llegan a la ocina y se
clasican en tres temas (bancarrota, fusiones y pleitos). Una vez clasicados por tema se envían a
las dependencias correspondientes donde se vuelven a clasicar pero esta vez por valor (alto, medio y
bajo). ¾De cuántas formas distintas puede procesar un documento esta unidad administrativa?

Solución:

El diagrama de árbol correspondiente a esta situación se presenta en la gura 7.2. Como se observa en
este diagrama, las diferentes posibilidades se pueden enumerar teniendo en cuenta las últimas ramas
del gráco. Se nota que hay en total nueve maneras diferentes de procesar los documentos. 

7.7.3. Principio fundamental del conteo

El principip fundamental del conteo asegura que si una colección de k experimentos pueden
ocurrir de n1 , n2 , . . . , nk maneras distintas, entonces el número de posibles resultados de los k experi-
Qk
mentos realizados en el orden indicado es i=1 ni = n1 × n2 × . . . × nk .
158 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Bajo

Pleitos Medio

Alto

Bajo

Fusiones Medio

Alto

Bajo

Bancarrota Medio

Alto

Figura 7.2: Ejemplo de un diagrama de árbol.

Ejemplo 7.7.6. Una empresa de modistería está a punto de sacar al mercado su nueva colección:
Siempre perfecta, siempre distinta. La idea característica de esta colección es que cualquier empresaria
que se encuentre corta de tiempo pueda escoger cualquier prenda blusa, falda, zapatos, bolso y
pañoleta de su vestier sin tener que pensar en que las prendas combinen, ya que todas las prendas de
la colección combinan entre sí. Esta empresa está interesada en saber si con tres modelos de blusas,
dos modelos de faldas, cuatro modelos de zapatos, tres modelos de bolso y un solo modelo de pañoleta,
es posible obtener más de 100 conjuntos.

Solución:

Como la selección de cada tipo de prenda es un experimento entonces se pueden obtener

3 × 2 × 4 × 3 × 1 = 72

posibles conjuntos y por consiguiente no es posible obtener más de 100 conjuntos como quería la
empresa. 
Ejemplo 7.7.7. Un dado corriente se lanza dos veces. Determinar el número de formas en que se
pueden obtener los posibles resultados en los dos lanzamientos.
7.7. MÉTODOS DE CONTEO 159

Solución:

Como los dos lanzamientos no están relacionados de forma alguna cuando se ejecutan y como el
dado puede caer de seis formas distintas, entonces el número total de posibles resultados en los dos
lanzamientos es 6 × 6 = 36. 
Ejemplo 7.7.8. Considerar el ejemplo 7.7.5 donde se clasican los documentos que arriban a la unidad
administrativa de una empresa. Calcular nuevamente el número de formas en la que un documento
puede ser procesado, teniendo en cuenta que también hay una instancia en la que el proceso puede
terminar de cuatro formas posibles: victoria, conciliación, derrota y suspendido.

Solución:

Los experimentos que se consideran corresponden a las tres etapas del proceso de clasicación de los
documentos, que pueden ocurrir respectivamente de 3, 3 y 4 formas diferentes. Entonces el número
total de formas en las que se puede procesar un documento es 3 × 3 × 4 = 36. 
Ejemplo 7.7.9. Una fábrica de zapatos se caracteriza por la variedad de productos que tiene. Esto se
debe principalmente a que al diseñar una nueva forma para sus zapatos siempre se obtienen al menos
30 variantes respecto al diseño nal aunque todos tengan la misma forma. Uno de los directores se
pregunta si aún con dos máquinas en reparación se pueden cumplir con el mínimo de 30 variantes
por diseño. Las máquinas con las que se dispone para trabajar en serie son: pintura con 7 variantes,
supercie con 2 variantes, guras 1 variante y accesorios con 2 variantes. ¾Qué respuesta se le daría
al director respecto al mínimo de variantes que se debe cumplir?

Solución:

Teniendo en cuenta que cada uno de los objetivos de las máquinas son los experimentos de interés, se
sigue que los posibles resultados de las respectivas variantes son 7, 2, 1 y 2. Por ende, la cantidad de
variantes por diseño que se pueden obtener en el producto nal es 7 × 2 × 1 × 2 = 28, cifra que no
cubre la cantidad mínima de variantes deseada. 

7.7.4. Principio de la adición

El principio de la adición asegura que si los eventos aleatorios A1 , A2 , . . . , Ak son mutuamente


Sk
excluyentes y si éstos ocurren de n1 , n2 , . . . , nk formas diferentes, entonces, el evento i=1 Ai = A1 ∪
Pk
A2 ∪ . . . ∪ Ak ocurre de i=1 ni = n1 + n2 + . . . + nk maneras distintas.

Ejemplo 7.7.10. En el lanzamiento de dos dados corrientes, ¾cuántos resultados corresponden a


lanzamientos donde la suma de los números obtenidos es siete u ocho?

Solución:

Sean A1 y A2 los eventos la suma de los números obtenidos es siete y la suma de los números
160 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

obtenidos es ocho respectivamente. En esta situación se tiene que A1 y A2 ocurren de 6 y 5 formas


distintas respectivamente dado que

A1 = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} y A2 = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}.
Como A1 y A2 son mutuamente excluyentes entonces el evento A1 ∪ A2 que corresponde a la suma
de los números obtenidos es siete u ocho puede ocurrir de 6 + 5 = 11 maneras distintas. 
Ejemplo 7.7.11. Se considera el experimento que consiste en lanzar una moneda corriente al aire
tres veces. ¾De cuántas formas se pueden obtener una, dos o tres caras?

Solución:

Sean A1 , A2 y A2 los eventos se obtiene una cara en los tres lanzamientos, se obtienen dos caras
en los tres lanzamientos y se obtienen tres caras en los tres lanzamientos respectivamente. En esta
situación se tiene que A1 , A2 y A3 ocurren de 3, 3 y 1 formas posibles respectivamente dado que

A = {(c, s, s), (s, c, s), (s, s, c)}, B = {(s, c, c), (c, s, c), (c, c, s)} y D = {(c, c, c)}
donde c y s denotan cara A1 , A2 y A3 son mutuamente excluyentes
y sello respectivamente. Como
dos a dos entonces el evento A1 ∪ A2 ∪ A3 que corresponde a se obtienen una, dos o tres caras en los
tres lanzamientos puede ocurrir de 3 + 3 + 1 = 7 maneras diferentes. 

7.7.5. Permutaciones

Como se ha mencionado anteriormente, la cantidad de posibilidades en que un experimento o proceso


puede resultar se ve afectada por el orden en que se listen las componentes de los puntos muestrales.

Denición 7.7.1. Una permutación es un arreglo ordenado de una


cantidad nita de objetos distintos.

Nota. Es importante tener en cuenta que toda permutación se puede identicar como una muestra
seleccionada con o sin reemplazo, pero siempre teniendo en cuenta el orden de los elementos que la
componen.

Ejemplo 7.7.12. Un experimento donde prima el orden en el que se ejecutan los procesos que lo
componen es aquel que se realiza cuando una persona se viste. Allí se evidencia claramente la diferencia
en el resultado del experimento cuando se cambia el orden de ejecución de los procesos, ya que no es
lo mismo ponerse primero la ropa interior y luego los pantalones, a ponerse primero los pantalones y
luego la ropa interior, por ejemplo. 
Ejemplo 7.7.13. El arreglo (a, c) es un ejemplo de una permutación de las letras a, b, c y d, pero
tomando solamente dos de ellas a la vez. Hay un total de 12 permutaciones de estas cuatro letras
tomándolas de 2 en 2. Estas permutaciones son (a, b), (a, c), (a, d), (b, a), (b, c), (b, d), (c, a), (c, b),
(c, d), (d, a), (d, b) y (d, c). 
7.7. MÉTODOS DE CONTEO 161

El número total de permutaciones de un conjunto de objetos se puede calcular a través del teorema
fundamental del conteo. Pero para algunas situaciones especiales hay fórmulas que permiten calcular
la cantidad de permutaciones sin tener que aplicar directamente este teorema.

Permutaciones de n objetos distintos sin repetición tomados todos a la vez

El número de permutaciones de un conjunto de n elementos distintos sin repetición tomados todos a


la vez es igual a n! donde ! n (detalles en la sección A.4). Esta fórmula se deriva
denota el factorial de
del teorema fundamental del conteo como sigue: el primer elemento se puede seleccionar de n formas,
en seguida, el segundo elemento se puede seleccionar de n − 1 formas dado que el primer elemento ya
ha sido seleccionado, y así sucesivamente hasta llegar al último elemento que solo se puede seleccionar
de una forma porque ya han sido seleccionados los n−1 objetos precedentes.

Ejemplo 7.7.14. Un joven prepara café con leche todas las mañanas llenando el 80 % de la tasa con
café, el 18 % con leche y el 2 % restante con azúcar. Si el muchacho en una de sus parrandas acaba
con el suministro de alcohol del lugar, a la mañana siguiente o cuando se logre levantar intenta
hacer un café con leche. Teniendo en cuenta su estado, ¾de cuántas formas puede prepararse el café
utilizando cada ingrediente una sola vez y manteniendo constantes los porcentajes de preparación?
¾Cuál es la probabilidad de que se prepare el café con leche como de costumbre asumiendo que todos
los ingredientes se utilizan una sola vez y que tienen la misma posibilidad de ser seleccionados?

Solución:

Como solo hay tres ingredientes entonces el número de formas diferentes en las que se puede prepa-
rar el café con leche manteniendo la proporción de los ingredientes es 3! = 6 y por consiguiente la
probabilidad de que se prepare el café con leche como de costumbre es de 0.16667. 
Ejemplo 7.7.15. Se le pide a un consumidor que ordene, por orden de preferencia, el sabor de cinco
cosechas de vino. Si al consumidor le es indiferente cualquiera de estas cinco cosechas entonces el
número de arreglos diferentes que resultan es 5! = 120. 

Permutaciones de n objetos distintos sin repetición tomados de k en k

El número de permutaciones de un conjunto de n elementos distintos sin repetición tomados de k en


k es igual a
n!
Pkn =
(n − k)!
donde k es un número entero positivo tal que k ≤ n. Cuando se observa la similitud entre este caso
y el anterior, se hace evidente que esta fórmula se deriva fácilmente de la anterior ya que no se están
teniendo en cuenta las posibilidades que generan los elementos que no son seleccionados.

Ejemplo 7.7.16. Siguiendo con el ejemplo 7.7.13, el número de permutaciones de las letras a, b, c y
4!
d, tomadas de dos en dos, es igual a P24 = (4−2)! = 12. 
162 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Ejemplo 7.7.17. ¾Cuántos números de tres cifras sin repetir dígitos se pueden formar con los números
2, 4, 5, 7 y 8?

Solución:

Como interesan los números de tres cifras sin repetir dígitos formados con los números 2, 4, 5, 7 y 8,
5!
entonces se pueden obtener P35 = (5−3)! = 60 números diferentes. 
Ejemplo 7.7.18. Una sección de maquinaria determinada que consta de cuatro piezas puede ser
ensamblada poniendo las competentes en cualquier orden. Se quiere estudiar el tiempo de armado
para esta sección de maquinaria midiendo el tiempo que requiere cada una de las acomodaciones
resultantes al tomar las piezas en distinto orden. ¾Cuántas de estas mediciones habrá que hacer?

Solución:

Como hay cuatro piezas diferentes y se requiere el armado de todas ellas, entonces el número total de
4!
mediciones es P44 = (4−4)! = 24. 

Permutaciones de n objetos distintos con repetición tomados de k en k

El número de permutaciones de un conjunto de n elementos distintos con repetición tomados de k en k


es igual a nk donde k es un número entero positivo. La cantidad de permutaciones de este tipo también
se deduce por medio del principio fundamental del conteo. Como la primera selección se puede realizar
de n maneras distintas y el experimento se realiza con reemplazamiento (el elemento elegido se devuelve
al saco de posibilidades), entonces la segunda selección se vuelve a realizar considerandon elementos.
y Continuando de esta manera hasta la k -ésima extracción se obtiene la fórmula correspondiente.

Ejemplo 7.7.19. Una rma consultora cobra 700 USD por cada caso que atiende. Esta empresa suele
adquirir siete casos por temporada. Una vez se tienen los siete casos, la compañía examina todas las
posibles permutaciones de cuatro casos con repetición para revisarlas cuantas veces sea necesario y así
determinar cual de todas ellas es la más rentable. Recientemente ha llegado una cantidad nunca antes
vista de consultas, 11 en total, y emplearon el personal de costumbre para estudiar las permutaciones
de cuatro casos. En la tarde, el grupo encargado de inspeccionar las permutaciones se quejó diciendo
que ellos no tenían la capacidad para realizar el trabajo con la misma cantidad de miembros y en los
lapsos de tiempo en que deben entregar sus resultados. ¾Se justica la posición de los trabajadores?

Solución:

Lo primero que se debe tener en cuenta es que usualmente los trabajadores están a acostumbrados
74 = 2, 401 posibilidades de casos, pero con los 11 asesorías los empleados deben estudiar
a analizar
4
11 = 14, 641 posibilidades, que corresponde aproximadamente a seis veces más de lo que están
acostumbrados a analizar, luego, a pesar de que la diferencia entre 7 y 11 no es muy grande, sí lo es
la diferencia en el trabajo que esto representa, por lo cual los trabajadores sí tienen razón en hacer la
queja. 
7.7. MÉTODOS DE CONTEO 163

Ejemplo 7.7.20. ¾Cuántos números de dos cifras se pueden formar usando los dígitos 2, 3 y 5 si se
permiten dígitos repetidos?

Solución:

Como hay tres elementos disponibles para formar los números de dos cifras y además se permite la
repetición de dígitos, entonces se tienen 32 = 9 posibilidades, a saber, 55, 52, 53, 25, 22, 23, 35, 32 y
33. 
Ejemplo 7.7.21. ¾De cuántas formas es posible contestar un examen con diez preguntas de selección
múltiple donde cada pregunta tiene cuatro alternativas de respuesta?

Solución:

Como se tienen cuatro opciones de respuesta para cada una de las diez preguntas, se sigue que hay
410 = 1, 048, 576 formas de responder el examen. 
Ejemplo 7.7.22. Un ladrón quiere abrir una caja fuerte. Observa que para abrirla debe manipular
un dispositivo de seguridad formado por cinco anillos que están marcados con los dígitos 1, 2, 3, 4
y 5, pero no sabe la combinación correcta. ¾Cuál es la mayor cantidad de intentos incorrectos que el
ladrón puede realizar antes de encontrar la combinación correcta?

Solución:

En cada uno de los cinco anillos se pueden utilizar los 5 dígitos. Por lo tanto, hay 55 = 3, 125
posibilidades de escoger una clave. Pero como una de estas 3,125 es la correcta, entonces la mayor
cantidad de intentos incorrectos que el ladrón puede realizar antes de encontrar la combinación correcta
es 3,124. 

Permutaciones circulares

El número de permutaciones de un conjunto de n elementos distintos acomodados en un círculo de


n posiciones es (n − 1)!. Se evidencia que en los arreglos circulares la noción de principio se pierde
porque la primera posición no está denida. Este lugar se debe establecer arbitrariamente en cualquier
posición del arreglo y por tal motivo el número total de permutaciones se reduce en comparación con
los arreglos que no son circulares.

Ejemplo 7.7.23. Si interesa ubicar a cuatro personas una al lado de la otra en una la, el número
total de arreglos es 4! = 60. Ahora bien, si se deben sentar alrededor de una mesa redonda, ¾de cuántas
maneras es posible hacerlo?

Solución:

En una mesa redonda no se tiene un comienzo o un nal a diferencia del escenario en el que las
164 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

personas se sientan en una la. Este hecho hace que se pierda un nivel en el número de arreglos.
Como se acomoda a una persona en un lugar jo y luego se ubican a las otras tres personas, entonces
se obtienen (4 − 1)! = 6 arreglos diferentes en los que se pueden sentar las cuatro personas en una
mesa redonda. 

Ejemplo 7.7.24. ¾De cuántas formas se pueden sentar cuatro personas alrededor de una mesa redonda
si dos de ellas no deben estar una al lado de la otra?

Solución:

Hay 3! = 6 formas de acomodar a cuatro personas en una mesa redonda. Ahora, hay 2! maneras en las
(3 − 1)!2! es la cantidad total de
que dos personas se pueden sentar una al lado de la otra, por lo que
formas en las que estas dos personas se pueden ubicar juntas en una mesa redonda. En consecuencia,
se tiene que
3! − (3 − 1)!2! = 3! − 2!2! = 2
es el número de arreglos requerido. 

Permutaciones de n objetos repartidos en varias categorías

El número de permutaciones de un conjunto de n objetos repartidos en varias categorías es igual a


 
n1 n!
=
n1 , n2 , . . . , nk n1 !n2 ! . . . nk !

donde ni es la cantidad de elementos del i-ésimo tipo para i = 1, . . . , k con n1 + n2 + . . . + nk = n. La


fórmula anterior se obtiene teniendo en cuenta que los elementos de la i-ésima categoría no se pueden
diferenciar entre sí, por lo que hay ni ! permutaciones de estos elementos que hacen alusión al mismo
arreglo puesto que pertenecen a la misma categoría. Por consiguiente, es necesario descontar todas
las permutaciones repetidas de los elementos de cada categoría que se encuentran enumeradas en la
cantidad n!.

Ejemplo 7.7.25. ¾Cuántas palabras distintas con o sin sentido se pueden formar con las letras de
la palabra estadística?

Solución:

En la palabra estadística hay n = 11 letras, distribuidas así: 1 e, 2 s, 2 t, 2 a, 1 d, 2 i y 1
c. Por lo tanto, se concluye que es posible formar
 
11 11!
= = 2, 494, 800
1, 2, 2, 2, 1, 2, 1 1! × 2! × 2! × 2! × 1! × 2! × 1!

palabras distintas con las letras de la palabra estadística. 

Ejemplo 7.7.26. En una clase de biología molecular tienen la siguiente secuencia de ADN:
7.7. MÉTODOS DE CONTEO 165

ATGCAAATCCATCCCG

Para que los alumnos de la clase comprendan porque es necesario el uso de métodos computacionales
intensivos se les pregunta: ¾cuántas posibles secuencias del mismo tamaño que la anterior es posible
encontrar usando las mismas bases nitrogenadas que se tienen en el ejemplo?

Solución:

En este caso la cantidad de tipos o categorías es 4, a saber A, T, G y C, de las cuales se tienen 5 A,
3 T, 2 G y 6 C bases nitrogenadas. Por lo tanto, la cantidad total de posibles secuencias está
dada por:
16!
= 20, 180, 160.
5!3!2!6!


Ejemplo 7.7.27. Un grupo de investigación de agronomía está interesado en analizar un nuevo


procedimiento para la adecuación del suelo, que consiste en aplicar en el suelo las sustancias A, G,
W y J en un orden especíco. Para realizar el experimento los integrantes del grupo tienen pensado
el uso de un lote, pero necesitan determinar el número de parcelas en que se debe dividir. ¾Cuántas
parcelas se deben obtener si las sustancias se deben aplicar 2, 1, 3 y 3 veces respectivamente?

Solución:

Como es necesario tener en consideración el orden en el cual se esparcen las sustancias en el suelo y
cada sustancia se puede considerar como una categoría diferente entonces la cantidad de parcelas que
se necesitan es
9!
= 5, 040.
2!1!3!3!


7.7.6. Combinaciones

Cuando se trata con permutaciones de objetos, el orden de selección o de colocación es fundamental.


Hay ocasiones en las que no interesa considerar conjuntos de objetos ordenados. Cuando esto ocurre,
el arreglo se denomina combinación.

Denición 7.7.2. Una selección de k objetos de un conjunto de n ob-


jetos distintos, sin importar el orden en que los k objetos sean escogidos,
se llama combinación .
166 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Ejemplo 7.7.28. Todas las posibles combinaciones de las letras a, b, c, d y e, tomadas de dos en dos
son {a, b}, {a, c}, {a, d}, {a, e}, {b, c}, {b, d}, {b, e}, {c, d}, {c, e} y {d, e}. Es decir, en total hay 10
posibles formas de escoger dos letras de un total de cinco, cuando el orden no importa y la selección
se hace sin reemplazamiento. Se observa que las combinaciones {a, b} y {b, a} coinciden dado que el
orden de los elementos no marca la diferencia. 

El número de combinaciones de un conjunto de n elementos distintos sin repetición tomados de k en


k es igual a
 
n n!
=
k (n − k)!k!

donde k es un número entero positivo tal que k ≤ n. Esta fórmula se obtiene considerando que el
número total de permutaciones de un conjunto de n elementos distintos sin repetición tomados de k
n!
en k es igual a
(n−k)! y que en las combinaciones el orden de los elementos no es de interés, por lo que
solo interesa tener 1 sola de las k! posibles permutaciones de los k objetos.

Ejemplo 7.7.29. Un abogado se encuentra en aprietos para defender a su cliente, ya que a pesar
de tener siete posibles argumentos, todos carecen de carácter probatorio y además solo puede utilizar
tres de ellos en el juicio. Si, de todas las posibles combinaciones únicamente hay ocho que lo pueden
llevar a ganar el caso, ¾cuál es la probabilidad de que escogiera una de estas posibilidades de manera
aleatoria?

Solución:

Como el total de combinaciones de tres argumentos de siete posibles viene dado por

 
7 7!
= = 35,
3 (7 − 3)!3!

entonces la probabilidad de que se escoja una de las posibilidades que lo pueden llevar a la victoria es
8/35 = 0.22857. ¾Cuál es el método de asignación de probabilidades se utilizó en este caso? ¾Qué es
necesario suponer para emplearlo? 

7.8. Probabilidad condicional

Hay situaciones en las que interesa la probabilidad de un evento A, teniendo en cuenta que otro
evento B ha ocurrido. Así, la cuestión principal es cuanticar el chance de ocurrencia de un evento
dependiendo de la ocurrencia de otro(s) suceso(s). Tales probabilidades se denominan probabilidades
condicionales.
7.8. PROBABILIDAD CONDICIONAL 167

Denición 7.8.1. Sea Ω un espacio muestral no vacío y A y B dos


eventos aleatorios incluidos en Ω. La probabilidad condicional o a
posteriori de A dado B, denotada con P(A|B), se dene como

P(A ∩ B)
P(A|B) =
P(B)

siempre que P(B) > 0.

Ejemplo 7.8.1. Los 700 empleados de una corporación, se clasican por género y por el monto de su
salario dependiendo de si ganan menos de o más de $20,000 diarios, como se muestra en la tabla 7.1.

< 20, 000 (L) ≥ 20, 000 (G) Total


Mujeres (M ) 210 80 290
Hombres (H ) 105 305 410
Total 315 385 700

Tabla 7.1: Datos asociados con la clasicación de los empleados de una corporación según el género y el ingreso.

Si un empleado de la corporación es seleccionado aleatoriamente, encuentre la probabilidad de que el


empleado a. gane al menos $20,000, dado que es hombre y b. sea hombre, dado que gana al menos
$20,000.

Solución:

a. La probabilidad de que un empleado gane al menos $20,000, dado que es hombre es igual a:

305
P(G ∩ H) 700 305
P(G|H) = = 410 = = 74.39 %.
P(H) 700
410

b. La probabilidad de que el empleado sea hombre, dado que gana $20,000 ó más es igual a:

305
P(H ∩ G) 700 305
P(H|G) = = 385 = = 79.22 %.
P(G) 700
385

Proposición 7.8.1. Sea Ω un espacio muestral no vacío y A, B , C , A1 , A2 , . . . , An , . . . eventos


aleatorios incluidos en Ω con P(A) > 0. Entonces se satisfacen las siguientes propiedades:

i. P(B|A) > 0.
168 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

ii. P(Ω|A) = 1 y P(A|A) = 1.

iii. P(A1 ∪ A2 ∪ . . . |A) = P(A1 |A) + P(A2 |A) + . . . siempre que A1 , A2 , . . . sean eventos mutuamente
excluyentes.

iv. P(B|Ω) = P(B).

v. P(B|A) = 0 siempre que A y B sean eventos excluyentes.

vi. P(B|A) = P(A ∩ B|A).

vii. P(B ∩ C|A) = P(B|A ∩ C)P(C|A) siempre que P(A ∩ C) > 0.

Nota. Las propiedades i., ii. y iii. de la proposición 7.8.1 indican que P(·|A1 ) es una medida de
probabilidad sobre Ω. Además, la propiedad iii. se puede escribir como


[
! ∞
X

P Ai A = P(Ai |A)
i=1 i=1

donde A1 , A2 , . . . eventos aleatorios mutuamente excluyentes.

Ejemplo 7.8.2. Calcular P(A ∪ B|C) utilizando la información de la gura 7.1 del ejemplo 7.6.1.

Solución:

Como los eventos A y B no son excluyentes, entonces se hace necesario reescribir esta unión como
A ∪ B = (A − B) ∪ B . Teniendo en cuenta que P(·|C) es una medida de probabilidad, se sigue que

P(A ∪ B|C) = P((A − B) ∪ B|C)


= P((A − B)|C) + P(B|C)
P((A − B) ∩ C) P(B ∩ C)
= +
P(C) P(C)
0.20 0.15
= +
0.55 0.55
= 0.63636.

7.9. Teorema de la multiplicación

De los resultados de la proposición 7.8.1 e incluso de la denición 7.8.1, surge la necesidad de establecer
cómo se puede expresar la probabilidad de la intersección de dos eventos o más eventos a través de la
probabilidad a posteriori.
7.9. TEOREMA DE LA MULTIPLICACIÓN 169

Teorema 7.9.1. Sea Ω un espacio muestral no vacío y A y B dos eventos aleatorios incluidos en Ω.
Entonces se satisface que

P(A ∩ B) = P(A|B)P(B)

donde P(A) > 0.

La demostración queda como ejercicio para el lector.

Nota. El teorema 7.9.1 se conoce como teorema de la multiplicación . La fórmula que este teorema
sostiene es equivalente a P(A ∩ B) = P(B|A)P(A) donde P(B) > 0. Este hecho se sigue fácilmente
intercambiando A por B y B por A en la fórmula del teorema.

Ejemplo 7.9.1. Una caja tiene diez artículos, de los cuales tres son defectuosos. Se extraen dos
elementos, uno tras otro y sin reemplazo. ¾Cuál es la probabilidad de extraer un artículo defectuoso
seguido de otro defectuoso?

Solución:

Sea A el evento el primer artículo extraído es defectuoso y B el evento el segundo artículo extraído
es defectuoso. Se pide calcular P(A ∩ B).
Debido a que tres de los diez artículos son defectuosos, se tiene que P(A) = 3/10. Como ya se ha
extraído un artículo defectuoso de la caja, entonces quedan en total nueve objetos disponibles, entre
los cuales, hay ahora dos defectuosos. Por lo tanto, P(B|A) = 2/9 y también

3 2
P(A ∩ B) = P(A)P(B|A) = × = 0.06666.
10 9
En consecuencia, la probabilidad de extraer un artículo defectuoso seguido de otro defectuoso es
0.06666. 

En seguida se presenta un ejemplo tomado de Hogg, McKean & Craig (2005, p. 26) en el que se
ilustran varios aspectos de la probabilidad condicional:

Ejemplo 7.9.2. Se quiere investigar el porcentaje de niños abusados en cierta población. Los eventos
de interés son: el niño fue abusado (A), y su complemento, el niño no fue abusado (N = AC ). Para los
propósitos de este ejemplo, se asume que P(A) = 0.01 y, por lo tanto, P(N ) = 0.99. La clasicación
sobre si el niño fue o no abusado está basada en el dictamen médico de un doctor. Algunas veces
los doctores clasican un niño que sí fue abusado como si éste no hubiera sido abusado (ND ), y
otras veces los doctores clasican un niño que no fue abusado como si éste sí hubiera sido abusado
(AD ). Las probabilidades de estos errores de clasicación son P(ND |A) = 0.04 y P(AD |N ) = 0.05; y
además, las probabilidades de que los doctores tomen las decisiones acertadas son P(AD |A) = 0.96 y
P(ND |N ) = 0.95. Se quiere determinar la probabilidad de que un niño tomado al azar sea clasicado
por un doctor como abusado.

Solución:
170 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Como un niño puede ser clasicado por un doctor como abusado en dos eventualidades, a saber,
A ∩ AD o N ∩ AD , entonces se tiene que

P(AD ) = P((A ∩ AD ) ∪ (N ∩ AD ))
= P(A ∩ AD ) + P(N ∩ AD )
= P(AD |A)P(A) + P(AD |N )P(N )
= (0.96)(0.01) + (0.05)(0.99)
= 0.0591

que corresponde a una cifra considerable comparada con la probabilidad de que un niño haya sido
abusado. Además, la probabilidad de que un niño haya sido abusado dado que el doctor lo clasico
como abusado es
P(A ∩ AD ) (0.96)(0.01)
P(A|AD ) = = = 0.1624
P(AD ) 0.0591
que es baja. De la misma manera, la probabilidad de que un niño no haya sido abusado dado que
el doctor lo clasico como abusado es 0.8376. La razón por la cual se tiene estas probabilidades tan
desconcertantes, es porque la probabilidad de los errores de los doctores son muy altos en comparación
con la fracción de la población que fue abusada. Una investigación como esta puede resultar en un
mejor entrenamiento de los doctores para clasicar niños que han sido abusados. 
Proposición 7.9.2. Sea Ω un espacio muestral no vacío y A1 , A2 , . . . , An eventos aleatorios incluidos
en Ω. Entonces se satisface que

P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) . . . P(An |A1 ∩ A2 ∩ . . . ∩ An−1 )

donde P(A1 ∩ A2 ∩ . . . ∩ An−1 ) > 0.

La demostración se deja como ejercicio para el lector.

Ejemplo 7.9.3. Un corredor de bolsa está seguro de tener la fórmula para obtener grandes dividendos
basado en los siguientes eventos: inversiones de alto riesgo (R), inversiones con un capital inicial
de dos millones de dólares (C ) y inversiones con ganancias mayores al 184 % (G). El inversionista
cree que la probabilidad de obtener ganancias mayores al 184 % es mayor a 0.7 si previamente se hace
una inversión de dos millones de dólares y se intenta una inversión de alto riesgo. Esta premisa la
obtuvo basándose en las siguientes probabilidades: P(R) = 0.25, P(C|R) = 0.05 y P(R ∩ C ∩ G) = 0.01.
Comprobar lo que asegura el corredor de bolsa.

Solución:

Se debe comprobar si efectivamente se cumple que P(G|R ∩ C) > 0.7. Siguiendo la proposición 7.9.2
se obtiene que P(R ∩ C ∩ G) = P(R)P(C|R)P(G|R ∩ C) de donde

P(R ∩ C ∩ G) 0.01
P(G|R ∩ C) = = = 0.8.
P(R)P(C|R) (0.25)(0.05)
Por lo tanto, la propuesta del inversionista es correcta. 
7.10. TEOREMA DE LA PROBABILIDAD TOTAL 171

7.10. Teorema de la probabilidad total

A continuación se presenta un resultado que se utiliza frecuentemente para calcular probabilidades


con base en información parcial relacionada con el chance de la ocurrencia de otros eventos de interés.
Este teorema se conoce como teorema de la probabilidad total .
Teorema 7.10.1. Sea E1 , E2 , . . . , En una partición de espacio muestral Ω vacío tal que la proba-
bilidad de cada uno de los eventos asociados es distinta de 0 y conocida. También sea A un evento
aleatorio del que se conocen las probabilidades condicionales P(A|E1 ), P(A|E2 ), . . . , P(A|En ). Entonces
la probabilidad del suceso A está dada por:

n
X
P(A) = P(Ei )P(A|Ei ).
i=1

Demostración:

Como E1 , E2 , . . . , En es una partición de Ω, entonces se tiene que

A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ . . . ∪ (A ∩ En ).

Así, se obtiene que

P(A) = P((A ∩ E1 ) ∪ (A ∩ E2 ) ∪ . . . ∪ (A ∩ En ))
= P(A ∩ E1 ) + P(A ∩ E2 ) + . . . + P(A ∩ En )
= P(E1 )P(A|E1 ) + P(E2 )P(A|E2 ) + . . . + P(En )P(A|En )
Xn
= P(Ei )P(A|Ei )
i=1


Ejemplo 7.10.1. Una compañía dedicada al transporte público emplea tres líneas de una ciudad, de
forma que el 60 % de los autobuses cubre el servicio de la primera línea, el 30 % cubre la segunda y el
10 % cubre el servicio de la tercera línea. Se sabe que la probabilidad de que, diariamente, un autobús
se averíe en cada línea es del 2 %, 4 % y 1 % respectivamente. Determinar la probabilidad de que, en
un día, un autobús sufra una avería.

Solución:

Sea Ei el evento el autobús cubre el servicio de la línea i con i = 1, 2, 3, del tal forma que, E1 es el
evento el autobús cubre el servicio de la línea 1, por ejemplo. Sea A el evento el autobús sufre una
avería. De acuerdo con el teorema de la probabilidad total y teniendo en cuenta las probabilidades
dadas se tiene que

3
X
P(A) = P(Ei )P(A|Ei )
i=1
172 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

= P(E1 )P(A|E1 ) + P(E2 )P(A|E2 ) + P(E3 )P(A|E3 )


= (0.6)(0.02) + (0.3)(0.04) + (0.1)(0.01)
= 0.025.

Por consiguiente, la probabilidad de que, en un día, un autobús sufra una avería es 0.025. 

Ejemplo 7.10.2. Una empresa elabora sus productos en cuatro fábricas, a saber, fábrica 1, fábrica
2, fábrica 3 y fábrica 4. El porcentaje de producción total que se elabora en cada fábrica es del 40 %,
30 %, 20 % y 10 % respectivamente, y además el porcentaje de envasado incorrecto en cada fábrica es
del 1 %, 2 %, 7 % y 4 %. Tomando un producto de la empresa al azar, ¾cuál es la probabilidad de que
se encuentre envasado de forma incorrecta?

Solución:

Sea A el evento el producto está envasado defectuosamente y Fi el evento el envase proviene de la
fábrica i con i = 1, 2, 3, 4. Cada producto puede provenir de cada una de las cuatro fábricas. Según
el teorema de la probabilidad total y teniendo en cuenta las probabilidades dadas se obtiene que

4
X
P(A) = P(Fi )P(A|Fi )
i=1
= P(F1 )P(A|F1 ) + P(F2 )P(A|F2 ) + P(F3 )P(A|F3 ) + P(F4 )P(A|F4 )
= (0.4)(0.01) + (0.3)(0.02) + (0.2)(0.07) + (0.1)(0.04)
= 0.028.

En consecuencia, la probabilidad de que un producto de la empresa seleccionado al azar se encuentre


envasado de forma incorrecta es 0.028. 

Ejemplo 7.10.3. Un grupo de investigadores tienen cinco estanques en los que mantienen a diferentes
grupos de tortugas de la misma especie con las mismas características pero que provienen de diferente
madre. El grupo está interesado en conocer el comportamiento de las tortugas cuando cambia su
ambiente inicial (estanque y tortugas compañeras) al transferirlas a otro ambiente diferente; las
probabilidades de que una tortuga fuera colocada en un estanque particular eran P(E1 ) = 0.3, P(E2 ) =
0.2, P(E3 ) = 0.15, P(E4 ) = 0.15 y P(E5 ) = 0.2 donde Ei es el evento una tortuga es colocada en
el estanque i con i = 1, 2, 3, 4, 5. Cuando empezaron a realizar el experimento se dieron cuenta que
las tortugas se estaban muriendo en unos estanques más que en otros y mediante registros históricos
determinaron que la proporción de muertes de tortugas, de similares condiciones a las de la actual
investigación, eran de 4 %, 3 %, 5 % ,1 % y 7 % respectivamente. Los investigadores quieren conocer cuál
es la probabilidad de que una tortuga de su investigación muera, para comparar si el comportamiento
evidenciado por sus colegas es anormal.

Solución:

Como los estanques crean una partición de la población se pude encontrar la probabilidad de que una
tortuga de la investigación muera (F ) con base en la proporción de las muertes que se tienen en cada
7.11. TEOREMA DE BAYES 173

estanque, esto es:

5
X
P(F ) = P(Ei )P(F |Ei )
i=1
= P(E1 )P(F |E1 ) + P(E2 )P(F |E2 ) + P(E3 )P(F |E3 ) + P(E4 )P(F |E4 ) + P(E5 )P(F |E5 )
= (0.3)(0.04) + (0.2)(0.03) + (0.15)(0.05) + (0.15)(0.01) + (0.2)(0.07)
= 0.041.
Luego, la probabilidad de que una tortuga de la investigación muera es de 0.041 que en realidad no
es una situación que esté fuera de lo normal. 

7.11. Teorema de Bayes

El teorema de Bayes 1
es una técnica muy popular para calcular probabilidades condicionales y
es la base de la teoría estadística bayesiana en donde a partir de un conjunto de probabilidades
llamadas a priori o sin corregir, se calcula un conjunto de probabilidades a posteriori o corregida, que
corresponden a una modicación de las primeras ante la evidencia de que un determinado suceso ha
ocurrido.

Figura 7.3: Thomas Bayes (1702-1761).

Teorema 7.11.1. Sea E1 , E2 , . . . , En una partición de espacio muestral Ω vacío tal que la proba-
bilidad de cada uno de los eventos asociados es distinta de 0 y conocida. También sea A un evento
aleatorio del que se conocen las probabilidades condicionales P(A|E1 ), P(A|E2 ), . . . , P(A|En ). Entonces
la probabilidad del suceso Ej dado el evento A está dada por:

P(Ej )P(A|Ej )
P(Ej |A) = Pn
i=1 P(Ei )P(A|Ei )
1 Fotografía tomada de la página web http://www.ugr.es/~eaznar/fotos_bayes.htm.
174 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

para cada j = 1, . . . , n.

Demostración:

Haciendo uso de la probabilidad condicional y del teorema de la probabilidad total se tiene que para
un j dado se satisface que

P(Ej ∩ A)
P(Ej |A) =
P(A)
P(Ej ∩ A)
= Pn
i=1 P(Ei )P(A|Ei )
P(Ej )P(A|Ej )
= Pn
i=1 P(Ei )P(A|Ei )

para cada j = 1, . . . , n. 

Ejemplo 7.11.1. Con la información del ejemplo 7.10.1, calcular la probabilidad de que un autobús
que sufrió una avería haya recorrido la primera línea.

Solución:

Según el teorema de Bayes y teniendo en cuenta las probabilidades dadas se tiene que:

P(E1 )P(A|E1 )
P(E1 |A) = P3
i=1 P(Ei )P(A|Ei )
P(E1 )P(A|E1 )
=
P(E1 )P(A|E1 ) + P(E2 )P(A|E2 ) + P(E3 )P(A|E3 )
(0.6)(0.02)
=
(0.6)(0.02) + (0.3)(0.04) + (0.1)(0.01)
= 0.08955.

En consecuencia, la probabilidad de que un autobús que sufrió una avería haya recorrido la primera
línea es 0.08955.. 

Ejemplo 7.11.2. Con la información del ejemplo 7.10.2, calcular la probabilidad de que un producto
envasado de forma incorrecta provenga de la primera fábrica.

Solución:

Según el teorema de Bayes y teniendo en cuenta las probabilidades dadas se tiene que:

P(F1 )P(A|F1 )
P(F1 |A) = P4
i=1 P(Fi )P(A|Fi )
P(F1 )P(A|F1 )
=
P(F1 )P(A|F1 ) + P(F2 )P(A|F2 ) + P(F3 )P(A|F3 ) + P(F4 )P(A|F4 )
7.12. INDEPENDENCIA ESTADÍSTICA DE EVENTOS 175

(0.4)(0.01)
=
(0.4)(0.01) + (0.3)(0.02) + (0.2)(0.07) + (0.1)(0.04)
= 0.14285.

Por lo tanto, la probabilidad de que un producto envasado de forma incorrecta provenga de la primera
fábrica es 0.14285. 
Ejemplo 7.11.3. Continuando con el ejemplo 7.10.3, cierta mañana los investigadores encuentran
una tortuga muerta fuera de los estanques pero necesitan saber de cual estanque es más probable que
haya provenido para mantener el registro de las muertes de la investigación. ¾Cómo se puede resolver
este problema?

Solución:

Se busca el estanque j tal que P(Ej |F ) sea máxima paraj = 1, 2, 3, 4, 5. Por consiguiente, se deben
encontrar primero todas las probabilidades de la forma P(Ej |F ) con j = 1, 2, . . . , 5. Así, se tiene que
P(E1 )P(F |E1 )
P(E1 |F ) = P5
i=1 P(Ei )P(F |Ei )
(0.3)(0.04)
=
(0.3)(0.04) + (0.2)(0.03) + (0.15)(0.05) + (0.15)(0.01) + (0.2)(0.07)
= 0.2926829.

De forma similar se obtienen las demás probabilidades, de forma que:

P(E2 |F ) = 0.14634, P(E3 |F ) = 0.18292, P(E4 |F ) = 0.03658 y P(E5 |F ) = 0.34146.

Luego, lo más probable es que la tortuga provenga del quinto estanque. 

7.12. Independencia estadística de eventos

De acuerdo con el teorema 7.9.1, es posible expresar la probabilidad conjunta de dos eventos de
probabilidad no nula como el producto entre la probabilidad de uno de ellos y la probabilidad del otro
sabiendo que ha ocurrido el primero. Si entre dos sucesos no existe ninguna relación cabe esperar que
la expresión sabiendo que no aporte ninguna información.

Denición 7.12.1. Dos eventos aleatoriosA y B incluidos en un espacio


muestral Ω no vacío se llaman independientes si y solo si P(A|B) =
P(A). Los eventos A y B se llaman dependientes en cualquier otro caso.

Nota. A partir de la denición 7.12.1 se observa que el evento A es independiente del evento B si la
probabilidad de A no se ve modicada por la ocurrencia o no ocurrencia de B.
176 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

Ejemplo 7.12.1. Se extrae una carta de una baraja de naipe inglés y luego se devuelve. ¾Son inde-
pendientes los eventos la carta es As (A) y la carta es trébol (B )?

Solución:

Como
4 1
P(A) = =
52 13
y
1
P(A ∩ B) 52 1
P(A|B) = = 13 = .
P(B) 52
13
entonces los eventos A y B son independientes. 

Las siguientes son consecuencias de la denición 7.12.1:

Proposición 7.12.1. Si los eventos A y B incluidos en un espacio muestral Ω son independientes


entonces son equivalentes las siguientes expresiones:

i. P(B|A) = P(B).

ii. P(A ∩ B) = P(A)P(B).

iii. AC y B son eventos independientes.

iv. A y BC son eventos independientes.

v. AC y BC son eventos independientes.

La demostración se deja como ejercicio para el lector.

Ejemplo 7.12.2. Dado que en el ejemplo 7.12.1 se obtuvo que los eventos A y B son independientes
C
entonces en virtud de la proposición 7.12.1 se tiene que la carta no es As (A ) y la carta es
trébol (B ) son eventos independientes, la carta es As (A) y la carta no es trébol (B ) son eventos
C C
independientes y la carta no es As (A ) y la carta no es trébol (B ) son eventos independientes.
Además, se satisface que P(B) = P(B|A) y que P(A ∩ B) = P(A)P(B). 

Ejemplo 7.12.3. Un hospital tiene dos ambulancias que trabajan de forma independiente. La pro-
babilidad de que una ambulancia especíca esté disponible cuando se le necesite es 0.94. ¾Cuál es la
probabilidad de que ninguna esté disponible cuando se les necesite? ¾Cuál es la probabilidad de que
por lo menos una ambulancia esté disponible cuando se le necesite?

Solución:

Se dene el evento A como la ambulancia 1 trabaja correctamente y el evento B como la ambulancia
2 trabaja correctamente. Así, el evento ninguna de las dos ambulancias están disponibles está dado
7.13. COMENTARIOS 177

por AC ∩ B C , de tal forma que

P AC ∩ B C = P AC P B C = (1 − 0.94)(1 − 0.94) = (0.06)2 = 0.0036.


  

A∪B
De otro lado, el evento por lo menos una ambulancia está disponible está dado por y además

P(A ∪ B) = 1 − P (A ∪ B)C = 1 − P AC ∩ B C = 1 − 0.0036 = 0.9964. %


 

Por lo tanto, la probabilidad de que ninguna esté disponible cuando se les necesite es 0.0036 y la
probabilidad de que por lo menos una ambulancia esté disponible cuando se le necesite es 0.9964. 
Ejemplo 7.12.4. En una empresa nanciera un par de empleados discutían sobre los méritos que
se deben realizar para obtener un ascenso. Uno de ellos armaba que había que tener un trabajo
sobresaliente para que lo ascendieran mientras que el otro argumentaba que solo era necesario ser
condescendiente con su jefe para lograr el ascenso y que por tal motivo él no lo había logrado. ¾A
cuál de los empleados se le daría la razón teniendo en cuenta la información de la tabla 7.2?

Solución:

Como la discusión entre los empleados se puede resolver estableciendo si un empleado es ascendido
(A) es independiente de un empleado tiene un trabajo sobresaliente (S ) o de un empleado es
condescendiente con su jefe (C ), entonces para los empleados que tienen un trabajo sobresaliente

10 15 5
P(S)P(A) = 6= P(A ∩ D) =
40 40 40
y en consecuencia ser ascendido no es independiente de ser un trabajador sobresaliente; mientras que
para los empleados que son condescendientes

30 15 10
P(C)P(A) = 6= P(A ∩ C) =
40 40 40
y por lo tanto ser condescendiente no es independiente de ser ascendido. Entonces el primer empleado
es quien tiene la razón. 

Sobresaliente Condescendiente Total


Mantiene 5 20 25
Ascenso 5 10 15
Total 10 30 40

Tabla 7.2: Datos asociados con la clasicación con respecto al asenso y al modo de trabado de un grupo de empleados
de una empresa.

7.13. Comentarios

Uno de los conceptos más importantes en la estadística es la probabilidad, que a su vez se fundamenta
en la teoría de conjuntos, aquella que permite el estudio de un todo (abstracto) por medio de sus
178 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

partes y sus elementos. Una vez se avanza en esta teoría, es posible construir sobre ésta una medida
de incertidumbre respecto al chance de ocurrencia de un evento o suceso, denominada probabilidad.

Para la asignación de probabilidades se presentan algunos procedimientos, desde el método subjeti-


vo, que consiste en una asignación personal de la posible ocurrencia de un suceso, hasta el método
frecuentista, donde se calculan las probabilidades respectivas con base en la frecuencia relativa de su
ocurrencia en una serie de repeticiones de un experimento. El lector no debe subestimar la construc-
ción teórica de la probabilidad, ya que una vez se interiorizan los conceptos relacionados, trasladarlos
a cualquier caso aplicado es muy útil, posible y no muy complejo.

Además, en este capítulo se muestran algunas de las reglas más usuales para el cálculo de probabilida-
des como el teorema de la probabilidad total y el teorema de Bayes. Por último, se presentan algunas
aplicaciones de la probabilidad cuando dos eventos se relacionan entre sí y cuando son independientes.

7.14. Ejercicios
7.1 Una entidad educativa ha propuesto tres proyectos para la mejora de la educación en cierta región
del país. Parai = 1, 2, 3, se dene Ai como el evento que representa el proyecto i fue aceptado.
Se sabe que P(A1 ) = 0.30, P(A2 ) = 0.22, P(A3 ) = 0.35, P(A1 ∩ A2 ) = 0.08, P(A1 ∩ A3 ) = 0.09,
P(A2 ∩ A3 ) = 0.06, P(A1 ∩ A2 ∩ A3 ) = 0.02. Expresar verbalmente y determinar la probabilidad
de que ocurra cada uno de los siguientes eventos:

a. A1 ∪ A2 .
b. AC C
1 ∩ A2 .
c. A1 ∪ A2 ∪ A3 .
d. AC C C
1 ∩ A2 ∩ A3 .
e. AC C
1 ∩ A2 ∩ A3 .

f. AC C
1 ∩ A2 ∪ A3 .

7.2 La tabla que se muestra a continuación muestra la proporción de adultos de áreas no metropoli-
tanas, clasicados como lectores o no lectores de un periódico y si votaron o no en las elecciones
pasadas.

Votaron Lectores No lectores


Sí 0.63 0.13
No 0.14 0.10

a. Calcular la probabilidad de que un individuo escogido al azar:

1. Ejerza su derecho al voto.

2. Lea el periódico.

3. Ejerza su derecho al voto y lea el periódico.

4. Ejerza su derecho al voto o lea el periódico.


7.14. EJERCICIOS 179

5. Lea el periódico pero no ejerza su derecho al voto.

6. No ejerza su derecho al voto y no lea el periódico.

7. No ejerza su derecho al voto si este era uno de los lectores.

b. ¾Cuáles eventos son independientes? ¾Por qué?

c. ¾Cuáles eventos son excluyentes? ¾Por qué?

7.3 Se selecciona una muestra de 570 encuestados en una ciudad para obtener información acerca del
comportamiento de los consumidores frecuentes de prendas de vestir. Entre las preguntas estaba:
¾Disfruta usted comprando ropa? De 270 hombres, 165 respondieron que sí, y de 300 mujeres, 224
también respondieron armativamente.

a. Si el participante elegido es mujer, ¾cuál es la probabilidad de que no disfrute comprando ropa?

b. Si el participante elegido disfruta comprando la ropa, ¾cuál es la probabilidad de que sea


hombre?

7.4 Sea Ω = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} el espacio muestral correspondiente a un experimento aleatorio


dado y
A = {0, 1, 2, 3}, B = {4, 5, 6, 7}, C = {2, 4, 6} y D = {1, 8, 9}.
eventos incluidos en Ω. Listar los elementos de los conjuntos que corresponden a los siguientes
eventos:

a. (AC ∪ D)C .
b. B ∩ CC .
c. (DC ∩ A)C ∪ C .
d. (ΩC ∩ B)C .
e. B ∩ C ∩ DC .

7.5 Señalar la región del diagrama de Venn que representa cada uno de los siguientes eventos:

C
a. AC ∩ B ∩ C C .
C
b. AC ∩ B C − C C .
c. ((A ∪ B)C ∩ C)C .
d. A − (B ∩ C)C .
e. (A ∪ B ∪ C)C .

7.6 Los estudiantes de un curso de estadística se clasican como estudiantes de administración, eco-
nomía o ingeniería; como repitente o no repitente y también como hombre o mujer. Encuentre el
número total de clasicaciones posibles para los estudiantes de este curso.

7.7 Siete personas se quieren organizar en una la.

a. ¾De cuántas maneras diferentes pueden hacerlo?

b. ¾De cuántas maneras diferentes pueden hacerlo si una de ellas no debe estar al comienzo de la
la?
180 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

7.8 ¾De cuántas maneras se pueden sentar seis magistrados en una mesa redonda si:

a. no hay ninguna restricción?

b. hay dos en especial que deben estar juntos?

c. hay dos en especial que no deben estar juntos?

7.9 Una caja contiene siete chas rojas, seis blancas y cuatro azules. ¾Cuántas selecciones de tres
chas se pueden formar si:

a. las tres deben ser rojas?

b. ninguna puede ser blanca?

c. las tres deben ser del mismo color?

d. las tres son de colores diferentes?

7.10 Un director de personal tiene ocho candidatos para cubrir cuatro puestos. De éstos, cinco son
hombres y tres mujeres. Si, de hecho, toda combinación de candidatos tiene la misma probabilidad
de ser elegido que cualquier otra, ¾cuál es la probabilidad de que ninguna mujer sea contratada?

7.11 En una bodega, una caja contiene ocho clavos de 1 pulgada, seis de 1 pulgada y media y cinco de
2 pulgadas. Suponga que se seleccionan cuatro clavos al azar, sin reemplazo y sin orden. ¾Cuál es
la probabilidad de que

a. exactamente tres de los clavos seleccionados sean de 2 pulgadas?

b. los cuatro clavos seleccionados sean del mismo tamaño?

c. entre los clavos seleccionados hallan dos de una pulgada?

7.12 ¾Cuántos números de tres cifras se pueden formar con los dígitos 0, 1, 2, 3, 4, 5 y 6 si pueden
haber repeticiones? ¾Cuántos son pares? ¾Cuántos son mayores que 330?

7.13 Un comité de doce personas será elegido entre diez hombres y diez mujeres. ¾De cuántas formas
se puede hacer la selección si:

a. no hay restricciones?

b. debe de haber seis hombres y seis mujeres?

c. debe de haber un número par de mujeres?

d. debe de haber más mujeres que hombres?

e. debe de haber al menos ocho hombres?

7.14 ¾De cuántas formas diferentes pueden contestarse nueve preguntas de verdadero o falso?

7.15 Un estudiante debe responder siete de diez preguntas de un examen. ¾De cuántas formas puede
hacer su selección si

a. no hay restricciones?

b. debe contestar las dos primeras preguntas?

c. debe contestar al menos cuatro de las primeras seis preguntas?


7.14. EJERCICIOS 181

7.16 ¾De cuántas formas es posible distribuir 12 libros diferentes entre cuatro niños de modo que

a. cada niño reciba tres libros?

b. los dos niños mayores reciban cuatro libros cada uno y los dos menores reciban dos libros cada
uno?

7.17 Demostrar que Pnn = n! donde n es un número entero positivo.

7.18 Demostrar el teorema 7.9.1.

7.19 Demostrar la proposición 7.8.1.

7.20 Calcular P(A ∪ B|C) con la información del ejemplo 7.8.2 utilizando la denición de probabilidad
condicional y la información de la gura 7.1.

7.21 Se ha realizado un estudio para un hipermercado donde se clasican los clientes en aquellos
que visitan el establecimiento de una manera frecuente u ocasional y en aquellos que adquieren
regularmente, ocasionalmente o nunca productos alimenticios. La siguiente tabla presenta las
proporciones correspondientes:

Regular Ocasional Nunca


Visita frecuente 0.19 0.08 0.12
Visita ocasional 0.06 0.07 0.48

a. ¾Cuál es la probabilidad de que un cliente no sea cliente frecuente?

b. ¾Cuál es la probabilidad de que un cliente frecuente adquiera regularmente productos alimen-


ticios?

c. ¾Son independientes los sucesos nunca compra productos alimenticios y visita el hipermer-
cado frecuentemente?

d. ¾Los eventos clientes no ocasionales, clientes que no compran regularmente productos alimen-
ticios y clientes frecuentes y que compran regularmente productos alimenticios conforman
una partición del espacio muestral? ¾Por qué?

7.22 De un estudio realizado en una universidad, se sabe que el 35 % de los estudiantes hacen deporte
por lo menos una vez a la semana y que el 40 % de los estudiantes tienen una nota media superior
a 4.0. Además, el 30 % de los que hacen deporte por lo menos una vez a la semana tienen una
nota media superior a 4.0.

a. ¾Cuál es la probabilidad de que un estudiante elegido al azar haga deporte por lo menos una
vez a la semana y tenga una nota media superior a 4.0?

b. ¾Cuál es la probabilidad de que un estudiante elegido al azar, que tiene una nota media superior
a 4.0, haga deporte por lo menos una vez a la semana?

c. ¾Cuál es la probabilidad de que un estudiante elegido al azar haga deporte por lo menos una
vez a la semana o tenga una nota media superior a 4.0?

d. ¾Cuál es la probabilidad de que un estudiante elegido al azar, que no tiene una nota media
superior a 4.0, no haga deporte por lo menos una vez a la semana?
182 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

e. ¾Son independientes los eventos hace deporte por lo menos una vez a la semana y tiene una
nota media superior a 4.0? ¾Son mutuamente excluyentes?

7.23 Un analista de bolsa examina las perspectivas de las acciones de un gran número de compañías.
Cuando se investigó el comportamiento de estas acciones un año antes, se descubrió que el 15 %
experimentaron un crecimiento superior al de la media, el 40 % inferior y el 45 % restante se
mantuvieron alrededor de la media. El 30 % de los valores que crecieron por encima de la media
fueron clasicados como buenas adquisiciones por el analista, al igual que el 15 % de las que
crecieron alrededor de la media y el 20 % de las que tuvieron un crecimiento inferior. ¾Cuál es la
probabilidad de que un valor clasicado como buena adquisición por el analista crezca por encima
de la media del mercado?

7.24 Ejercicio tomado de Blanco (2004, p. 42). Se tiene una población que se desarrolla de la siguiente
manera: una partícula inicial, que constituye la 0-ésima generación, tiene 0, 1 o 2 hijas con pro-
babilidades 1/6, 2/3 y 1/6 respectivamente. Luego de reproducirse la partícula muere. Las hijas
se reproducen independientemente unas de otras e independientemente de la historia familiar, de
la misma manera que la partícula original. La primera generación está compuesta por las hijas
de la partícula inicial, la segunda por las nietas y así sucesivamente. Dado que en la segunda
generación hay una partícula, ¾a qué es igual la probabilidad de que en la primera haya habido
dos partículas? ¾Cuál es la probabilidad de que en la segunda generación haya por lo menos una
partícula?

7.25 Los clientes acostumbran evaluar en forma preliminar el diseño de los productos. En el pasado,
95 % de los productos de gran éxito recibieron críticas favorables, 60 % de los productos con un
éxito moderado recibieron críticas favorables y 10 % de los productos sin mucho éxito recibieron
críticas favorables. Además, 40 % de los productos han sido de gran éxito, 35 % han sido de éxito
moderado y 25 % han sido productos sin mucho éxito.

a. ¾Cuál es la probabilidad de que un producto obtenga una crítica favorable?

b. Si un producto nuevo obtiene una crítica favorable, ¾cuál es la probabilidad de que será un
producto de gran éxito?

c. Si un producto no consigue una crítica favorable, ¾cuál es la probabilidad de que sea un producto
de gran éxito?

7.26 Ejercicio tomado de Blanco (2004, p. 43). La probabilidad de que en un parto gemelar ambos
bebés sean de género masculino es de 0.32, en tanto que la probabilidad de que sean ambos de
género femenino es de 0.28. ¾A qué es igual la probabilidad de que en un parto gemelar, el segundo
niño en nacer sea de género masculino dado que el primero en nacer es de género masculino? Se
supone que es tan probable que el primer niño en nacer sea de género femenino como de género
masculino.

7.27 Una empresa de venta por correos considera tres posibles errores al enviarse un pedido: el artículo
enviado no es el solicitado (A), el artículo se extravía (B ) y el artículo sufre desperfectos en el
transporte (C ). Se sabe que el suceso
A es independiente de los sucesos B y C y que los sucesos B
y C son mutuamente excluyentes. Las probabilidades de los sucesos son P(A) = 3 %, P(B) = 2 %
y P(C) = 5 %. Para un pedido escogido al azar, calcular la probabilidad de que por lo menos uno
de estos errores ocurra.
7.14. EJERCICIOS 183

7.28 Una editorial quiere decidir si va a publicar un libro de estadística para administración. El análisis
de los libros que se publicaron anteriormente indica que 10 % fueron grandes éxitos, 20 % tuvieron
éxito modesto, 40 % lograron recuperar los gastos de inversión y 30 % fueron un fracaso. Sin em-
bargo, antes de tomar una decisión, se va a realizar un dictamen del libro. En el pasado, 99 % de
los grandes éxitos obtuvieron dictámenes favorables, 70 % de los éxitos modesto obtuvieron dic-
támenes favorables, 40 % de los títulos que alcanzaron a recuperar gastos de inversión obtuvieron
dictámenes favorables y 20 % de los fracasos fueron sometidos a esta clase de dictámenes. ¾Qué
proporción de libros de texto reciben dictámenes favorables?

7.29 Tres plantas, A, B y C, fabrican el 50 %, 30 % y 20 % de los objetos de una empresa respectiva-


mente. Además, los porcentajes de producción defectuosa de estas plantas en el mismo orden son
del 3 %, 4 % y 5 %.

a. Si se selecciona un objeto al azar, ¾qué probabilidad tiene de salir defectuoso?

b. Si un objeto resulta ser defectuoso, ¾cuál es la probabilidad de que se haya producido en la


planta A? ¾Y en la planta B? ¾Y en la planta C?

7.30 Sean AyB dos sucesos tales que la probabilidad de B es el doble que la de A; que la probabilidad
de su unión es el doble que la de su intersección; y que la probabilidad de su intersección es de
0.1. Se pide calcular la probabilidad de A. ¾Qué suceso es más probable que ocurra sabiendo que
ya ha ocurrido el otro?

7.31 Una empresa que debe decidir si adquiere un determinado paquete de acciones, solicita un informe
a tres asesores nancieros para que se pronuncien de forma favorable o desfavorable a la compra.
Por experiencias anteriores en operaciones similares, se sabe que los tres asesores tienen actitudes
ante el riesgo diferente e independiente. Esta situación se reeja en las probabilidades de aconsejar
la compra de este tipo de operaciones que son respectivamente 0.8, 0.5 y 0.3. Con esta información
se pide calcular la probabilidad de que

a. al menos uno de ellos aconseje la compra.

b. ninguno de ellos aconseje adquirir el paquete de acciones.

7.32 Una empresa de trabajo temporal ha realizado un amplio estudio sobre los tipos de empleo solici-
tados por los estudiantes de bachillerato, de formación técnica y universitarios. El informe clasica
estos solicitantes de empleo como calicados o no para los trabajos que solicitan, y de los datos
se desprende que solo el 25 % estaban calicados para el trabajo que solicitaban, de los cuales, un
20 % eran estudiantes universitarios, un 30 % tenían formación técnica y un 50 % eran bachilleres.
La situación entre los no calicados es diferente: un 40 % de ellos era estudiante universitario, otro
40 % estudiaban técnica y solo un 20 % se encontraba en bachillerato.

a. ¾Qué porcentaje de estos estudiantes se encontraban en bachillerato y estaban calicados para


los empleos que solicitaban?

b. ¾Cuál es la probabilidad de que uno de estos estudiantes que solicitaba empleo estudiara for-
mación técnica?

c. Entre los estudiantes universitarios que solicitaron empleo, ¾qué porcentaje no estaba calicado
para los puestos de trabajo que solicitaban?
184 CAPÍTULO 7. FUNDAMENTOS DE PROBABILIDAD

7.33 Sean A y B dos eventos independientes tales que P(A) = P(B) = 0.05. Calcular:

a. P(A ∩ B).
b. P(A ∪ B).

c. P AC ∩ B C .

d. P AC ∪ B C
.

e. P(A|B).

f. P AC |B C .

7.34 Sean A1 , A2 , A3 y A4 eventos aleatorios incluidos en un espacio muestral Ω no vacío. Obtener


una fórmula general para calcular P(A1 ∪ A2 ∪ A3 ∪ A4 ).
Capı́tulo 8
Variables aleatorias

8.1. Introducción

Para el desarrollo de técnicas estadísticas más avanzadas, es conveniente relacionar directamente los
resultados de un experimento aleatorio con números reales, ya que con tal asociación el análisis de las
características de interés es más profundo y productivo.

Las variables aleatorias y sus distribuciones de probabilidad se pueden considerar como una generali-
zación del concepto frecuentista de probabilidad. Se introducen como el modelo matemático ideal al
que se aproximan las distribuciones de frecuencias que se obtendrían como resultado de una repetición
indenida de ensayos de un experimento aleatorio.

Las variables aleatorias se clasican de acuerdo a la numerabilidad de los valores que pueden asumir.
Se estudian las variables aleatorias discretas, que solo pueden adoptar un número nito o una innidad
enumerable de valores, y las variables aleatorias continuas, que surgen cuando se investigan variables
cuyos valores están asociados con una escala continua de medición.

Normalmente, los posibles resultados de un experimento aleatorio (Ω) no son valores numéricos. Por
ejemplo, considere el experimento aleatorio que consiste en lanzar de forma ordenada tres monedas al
aire, con el propósito de estudiar el número de caras (c) y sellos (s) que se obtienen. De esta forma,
el espacio muestral asociado a este experimento es:

Ω = {(c, c, c), (c, c, s), (c, s, c), (c, s, s), (s, c, c), (s, c, s), (s, s, c), (s, s, s)}.

Puede resultar más sencillo utilizar valores numéricos en lugar de trabajar directamente con los ele-
mentos de un espacio muestral como el anterior. Así, es preferible identicar los puntos muestrales

185
186 CAPÍTULO 8. VARIABLES ALEATORIAS

{(c, s, s), (s, c, s), (s, s, c)} con el valor numérico 1, pues éste representa el número de caras obtenidas
cuando se ejecuta el experimento.

Denición 8.1.1. Una v.a. X (abreviado con v.a. X) es una regla o


función que asigna un único número real a cada resultado del espacio
muestral Ω de un experimento aleatorio dado. En símbolos, una v.a. X
es una función de la forma

X : Ω −→ R : ω 7−→ X(ω)

donde R el conjunto de los números reales.

Nota. Las v.a.'s se simbolizan, generalmente, con las letras mayúsculas X, Y y Z. Se utiliza su
correspondiente letra minúscula (x, y, z en este caso) para designar sus posibles valores. Así, por
ejemplo, si X representa la v.a. número de caras obtenido que pueden resultar al lanzar una moneda
tres veces consecutivas, entonces, sus valores son x = 0, 1, 2, 3.
Nota. Como se presenta en Resnick (1998, p. 74) y Gut (2005, p. 25), en la denición formal de una
v.a. se habla de funciones medibles . Este concepto no se presenta en este libro ya que hace parte de
tópicos más avanzados fuera de su alcance.

Ejemplo 8.1.1. Teniendo en cuenta el experimento aleatorio que consiste en lanzar de modo ordenado
tres monedas al aire, se dene la v. a. X como el número de caras obtenido al nal de los tres
lanzamientos. Se obtiene que la v.a. X es una función del espacio muestral

Ω = {(c, c, c), (c, c, s), (c, s, c), (c, s, s), (s, c, c), (s, c, s), (s, s, c), (s, s, s)}

con valores en el subconjunto de números reales {0, 1, 2, 3}. Estos valores se obtienen evaluando X
en cada uno de los puntos muestrales como sigue: X((c, c, c)) = 3, X((c, c, s)) = 2, X((c, s, c)) = 2,
X((s, c, c)) = 2, X((s, s, c)) = 1, X((s, c, s)) = 1, X((c, s, s)) = 1 y X((s, s, s)) = 0. 

Anteriormente se ha hecho la distinción entre dos tipos datos numéricos: los discretos y los continuos;
esta misma distinción también se hace con las v.a.'s. Así, en función de los valores que tome la variable,
ésta se puede clasicar como discreta o continua del siguiente modo:

Denición 8.1.2. Una v.a. discreta (abreviado con v.a.d.) es aquella


v.a. que solo puede tomar un número nito o innito numerable de valo-
res. De otra parte, una v.a. continua (abreviado con v.a.c.) es aquella
v.a. que siempre puede tomar un valor intermedio entre cualquier par de
valores dados de la variable.

Nota. De la denición 8.1.2 se sigue que el conjunto de valores de una v.a.c. es un conjunto innito
no numerable.
8.1. INTRODUCCIÓN 187

Denición 8.1.3. Sea X una v.a. bien sea discreta o continua. Se dene
el rango de X , denotado con RX , como el conjunto de todos los posibles
valores que puede asumir X. Esto es:

RX = {x ∈ R : x = X(w) para algún w ∈ Ω}

donde Ω es el espacio muestral dominio de la v.a. X.

Ejemplo 8.1.2. Considerar las siguientes situaciones:

a. Algunos estudiantes de ingeniería ambiental están interesados en conocer la anidad que tienen
las personas hacia la ora y fauna que se encuentra dentro y a los alrededores de la ciudad. Para
esto realizaron una muestra piloto con un cuestionario en el cual se preguntaba: ¾le molestaría
tener que clasicar las basuras de su casa?. Registrando la información en una base de datos,
los estudiantes solo guardan los números del 10 al 13, haciendo alusión a las respuestas mucho,
poco, nada y me es indiferente respectivamente.

b. Una empresa minera está empleando una máquina que permite conocer la densidad del suelo (en
kg/m3 ) a un kilómetro de profundidad. Con esta información, algunos especialistas establecen una
medida continua de riesgo que se encuentra entre 0 (riesgo nulo) y 10 (riesgo total), la cual emplean
para decidir si es segura la extracción del material.

En cada caso, ¾cuál es el experimento aleatorio y cómo está denida la v.a. X de interés?

Solución:

En el primer escenario, el experimento es la respuesta a la pregunta ¾le molestaría tener que clasicar
las basuras en su casa?; por consiguiente el espacio muestral es

Ω = {mucho, poco, nada, me es indiferente},

y la v.a. X se dene como

X(mucho) = 10, X(poco) = 11, X(nada) = 12 y X(me es indiferente) = 12.

En el segundo caso, el experimento aleatorio es el valor de la densidad en un punto geográco, por lo


que el espacio muestral está dado por el conjunto de todas las posibles densidades δ , es decir R+ , y la
v.a. de interés se dene como X(δ) = Riesgo asociado a la densidad δ , donde X(δ) es un valor que
se encuentra entre 0 y 10. 
Nota. En el segundo escenario del ejemplo 8.1.2 también se puede denir otra v.a. dada por X(δ) = δ .
En este caso no se utiliza esta variable porque no está asociada directamente con la medida de riesgo
de interés.

En las secciones siguientes se estudian los conceptos más importantes relacionados con las v.a.'s,
diferenciando entre v.a.d.'s y v.a.c.'s.
188 CAPÍTULO 8. VARIABLES ALEATORIAS

8.2. Variables aleatorias discretas

Para una v.a.d. X, la probabilidad de que X tome cualquiera de sus valores, se modela a través de
una función denominada función másica de probabilidad (o simplemente función de probabilidad o de
masa). Esta función establece la probabilidad de cada valor que toma la v.a. X.

Denición 8.2.1. Sea X una v.a.d. que toma los valores x1 , x2 , . . .


(nitos o innitos enumerables). Una función fX : R −→ [0, 1] es una
función másica de probabilidad (abreviado con f.m.p.) de X si y
solo si (
P(X = x), si x = x1 , x2 , . . .;
fX (x) =
0, en otro caso.

donde X = x es el evento constituido por todos los elementos en el


espacio muestral cuyo valor a través de X es igual a x, es decir:

X = x = {w ∈ Ω : X(w) = x}.

Nota. Si x no es uno de los valores que toma la v.a. X entonces fX (x) = 0. Así, la representación gráca
de la función de probabilidad se realiza mediante un diagrama de barras análogo al de distribución de
frecuencias relativas para variables discretas (detalles en la sección 2.3.2).

Figura 8.1: Gráco de la f.m.p. (a) y de la f.d.a. (b) de la variable del ejemplo 8.1.1.
8.2. VARIABLES ALEATORIAS DISCRETAS 189

Ejemplo 8.2.1. Continuando con el ejemplo 8.1.1 se tiene que la f.m.p. de la variable número de
caras abstenido es:

1
fX (0) = P(X = 0) = P((s, s, s)) = = 0.125,
8
3
fX (1) = P(X = 1) = P({(c, s, s), (s, c, s), (s, s, c)}) = = 0.375,
8
3
fX (2) = P(X = 2) = P({(s, c, c), (c, c, s), (c, s, c)}) = = 0.375, y
8
1
fX (3) = P(X = 3) = P((c, c, c)) = = 0.125.
8

Concretamente, esta función está dada por:



0.125,
 si x = 0, 3;
fX (x) = 0.375, si x = 1, 2;

0, en otro caso.

Además, se observa que:

i. fX (0) = 0.125 > 0, fX (1) = 0.375 > 0, fX (2) = 0.375 > 0 y fX (3) = 0.125 > 0, y que
P4
ii. k=1 fX (xk ) = fX (0) + fX (1) + fX (2) + fX (3) = 0.125 + 0.375 + 0.375 + 0.125 = 1 donde x1 = 0,
x2 = 1, x3 = 2 y x4 = 3.

En la gura 8.1 se presenta el gráco de la f.m.p de la variable X. 


Proposición 8.2.1. Sea fX una f.m.p. de una v.a.d. X que asume los valores x1 , x2 , . . . denida
sobre un espacio muestral Ω no vacío. Entonces se satisface que:

i. f (xk ) > 0 para todo valor xk de X.


P
ii. k f (xk ) = 1.

Demostración:

i. Como toda medida de probabilidad es mayor o igual a 0, se sigue que P(X = x) ≥ 0 y por lo
tanto fX (x) ≥ 0 para todo x ∈ R.
ii. Sea RX el rango de X, es decir, RX = {x ∈ R : x = X(w) para algún w ∈ Ω} = {x1 , x2 , . . .}. En
consecuencia, se tiene que
X X
f (xk ) = P(X = xk )
k k
190 CAPÍTULO 8. VARIABLES ALEATORIAS

X
= P({w ∈ Ω : X(w) = xk })
k
!
[
=P {w ∈ Ω : X(w) = xk }
k
= P({w ∈ Ω : X(w) = xk para algún xk ∈ RX })
= P(Ω)
= 1.

Ejemplo 8.2.2. Un laboratorio debe sostenerse a través de los servicios que ofrece a la comunidad.
La cantidad de servicios que presta mensualmente sin tener ninguna ganancia es a lo más siete. Se ha
visto que en un mes se pueden ofrecer hasta 15 servicios en las siguientes proporciones 0 %, 1 %, 3 %,
2 %, 3 %, 5 %, 6 %, 7 %, 6 %, 9 %, 10 %, 20 %, 25 %, 1 %, 1 % y 1 %. El laboratorio quiere determinar
la probabilidad de que, en un mes, no logre sostenerse.

Solución:

Estas proporciones son las probabilidades de que la variable X =cantidad de servicios ofrecidos en el
mes asuma los valores 0, 1, 2, . . . , 15. X asuma del 0 al 7. Esto es:
Se pide la probabilidad de que la

7
X
P(X ≤ 7) = P(X = i)
i=0
= P(X = 0) + P(X = 1) + P(X = 2) + . . . + P(X = 7)
= 0 + 0.01 + 0.03 + 0.02 + 0.03 + 0.05 + 0.06 + 0.07
= 0.27.

Luego, la probabilidad de que en un mes dado el laboratorio no logre sostenerse es de 0.27, por lo que
tendrá que acudir a otras fuentes de nanciación con una probabilidad relativamente alta. 

Como en el ejemplo 8.2.2, es natural que en la práctica interese la probabilidad de que una v.a.d. tome
algún valor menor o igual a un límite establecido de antemano, ya que hay varios eventos importantes
cuya probabilidad se calcula de esta manera. Por tal motivo es útil denir una función que de cuenta
de esta probabilidad acumulada. Esta función se denomina función de distribución acumulada (o
simplemente función de distribución) y se dene como sigue:
8.2. VARIABLES ALEATORIAS DISCRETAS 191

Denición 8.2.2. Sea X una v.a.d. que sume los valores x1 , x2 , . . . (ni-
tos o innitos enumerables). La función de distribución acumulada
(abreviado con f.d.a.) de X es la función FX : R −→ [0, 1] denida por

FX (x) = P(X ≤ x)

para cualquier número real x.

Nota. Si la v.a.d X tiene f.m.p. fX entonces

X
FX (x) = fX (t)
t≤x

donde la suma de la fórmula anterior recorre todos los valores de X que son menores o iguales a t.
También se observa que la f.d.a. está denida para cualquier número real.

Ejemplo 8.2.3. Volviendo al ejemplo 8.1.1, se tiene que la f.d.a. evaluada en los valores que asume
X es:

1
FX (0) = P(X ≤ 0) = fX (0) = = 0.125,
8
1 3 4 1
FX (1) = P(X ≤ 1) = fX (0) + fX (1) = + = = = 0.5,
8 8 8 2
1 3 3 7
FX (2) = P(X ≤ 2) = fX (0) + fX (1) + fX (2) = + + = = 0.875, y
8 8 8 8
1 3 3 1 8
FX (3) = P(X ≤ 3) = fX (0) + fX (1) + fX (2) + fX (3) = + + + = = 1.
8 8 8 8 8

Concretamente, la f.d.a correspondiente a la v.a.d X está dada por:



 0, si x < 0;
 1
8, si 0 ≤ x < 1;



4
FX (x) = 8, si 1 ≤ x < 2;

7,

si 2 ≤ x < 3;
8


1, 3 ≤ x.

si

Además, se observa que:

i. Por ejemplo, si x = 2.7 entonces

X
FX (2.7) = fX (t) = fX (0) + fX (1) + fX (2) = 0.875.
t≤2.7
192 CAPÍTULO 8. VARIABLES ALEATORIAS

ii. Si x≤0 entonces FX (x) = 0; y si x≥3 entonces FX (x) = 1.

En la gura 8.1 se presenta el gráco de la f.m.p de la variable X. 

Proposición 8.2.2. Sea FX una f.d.a. de una v.a.d. X denida sobre un espacio muestral Ω no
vacío. Entonces se satisface que:

i. Si x es un número real entonces 0 ≤ FX (x) ≤ 1.

ii. Si x es un número real entonces

P(X > x) = 1 − FX (x) y P(X ≥ x) = 1 − FX (x− ).

donde x− representa el máximo valor que puede asumir X estrictamente menor que x.

iii. Si x es un valor que puede asumir X entonces

fX (x) = FX (x) − FX (x− ).

iv. Si a y b son números reales tales que a≤b entonces FX (a) ≤ FX (b), es decir, FX es una función
creciente; y además se tiene que

P(a ≤ X ≤ b) = FX (b) − FX (a− ) y P(a < X < b) = FX (b− ) − FX (a).

Demostración:

i. Si x es un número real entonces


X
FX (x) = P(X ≤ x) = P(X = xk ).
xk ≤x
P
Como k P(X = xk ) = 1 y además para toda xk se tiene que P(X = xk ) ≥ 0, entonces

X X
0≤ P(X = xk ) ≤ P(X = xk ) = 1.
xk ≤x k

En consecuencia, se sigue que 0 ≤ FX (x) ≤ 1.

ii. Primero, se observa que

P(X > x) = 1 − P (X > x)C




= 1 − P {w ∈ Ω : X(w) > x}C




= 1 − P ({w ∈ Ω : X(w) ≤ x})


= 1 − P(X ≤ x)
= 1 − FX (x).
8.2. VARIABLES ALEATORIAS DISCRETAS 193

De manera similar, se tiene que

P(X ≥ x) = 1 − P (X ≥ x)C


= 1 − P {w ∈ Ω : X(w) ≥ x}C


= 1 − P ({w ∈ Ω : X(w) < x})


= 1 − P {w ∈ Ω : X(w) ≤ x− }


= 1 − P(X ≤ x− )
= 1 − FX (x− )

donde x− representa el máximo valor que puede asumir X estrictamente menor que x.

iii. Si xk es un valor que asume X entonces x−


k = xk−1 donde k es un número entero tal que k > 1.
Por lo tanto, se sigue que

fX (xk ) = P(X = xk )
k
X k−1
X
= P(X = xi ) − P(X = xi )
i=1 i=1
= P(X ≤ xk ) − P(X ≤ xk−1 )
= FX (xk ) − FX (xk−1 )
= F (xk ) − F (x−
k ).

Trivialmente, si k=1 se obtiene que

fX (x1 ) = P(X = x1 ) = P(X ≤ x1 ) − 0 = FX (x1 ) − FX (x−


1 ).

iv. Si a y b son números reales tales que a≤b entonces FX (a) = P(X ≤ a) ≤ P(X ≤ b) =≤ FX (b),
es decir, FX es una función no decreciente. Ahora, si xq es el mayor valor que asume X tal que
xq ≤ b entonces FX (xq ) = FX (b), en efecto:

FX (xq ) = P(X ≤ xq ) = P(X ≤ xq ) + 0 = P(X ≤ xq ) + P(xq < X ≤ b) = P(X ≤ b) = FX (b).

Sea xl = a− tal que l ≤ q donde x− el máximo valor que puede asumir X estrictamente menor
que x. Así, se observa que
X
P(a ≤ X ≤ b) = P(X = xk )
xk :a≤xk ≤b
X q
= P(X = xk )
k=l+1
q
X l
X
= P(X = xk ) − P(X = xk )
k=1 k=1
= FX (xq ) − FX (xl )
= FX (b) − FX (a− ).
194 CAPÍTULO 8. VARIABLES ALEATORIAS

Además, dado que b− = xq−1 se tiene que

P(a < X < b) = P(a ≤ X ≤ b) − P(X = a) − P(X = b)


q
X l
X
= P(X = xk ) − P(X = b) − P(X = xk ) − P(X = a)
k=1 k=1
q
! l
!
X X
= P(X = xk ) − P(X = b) − P(X = xk ) + P(X = a)
k=1 k=1
q−1
X l+1
X
= P(X = xk ) − P(X = xk )
k=1 k=1
= FX (xq−1 ) − FX (xl+1 )
= FX (b− ) − FX (a).


Ejemplo 8.2.4. Continuando con el ejemplo 8.2.2, el laboratorio quiere determinar:

a. ¾Cuál es la probabilidad de que en un mes se tengan por lo menos la cantidad de servicios sucientes
para el sostenimiento del laboratorio?

b. Como en muchos meses han tenido que prestar un gran número de servicios, ¾cuál es la probabilidad
de que no presten menos de 13 servicios en un mes?

c. Si mensualmente se quieren tener entre 8 y 12 servicios prestados inclusive, ¾cuál es la probabilidad


asociada con este requerimiento?

Solución:

a. La probabilidad de que al mes se presten de 8 servicios en adelante es

P(X ≥ 8) = 1 − FX (7) = 1 − 0.27 = 0.73.

b. La probabilidad de que el laboratorio no preste menos de 13 servicios está dada por:

P (X < 13)C = P(X ≥ 13)




= 1 − F (12)
= 1 − 0.97
= 0.03.

c. Por último, para determinar la probabilidad de que se tengan entre 8 y 12 servicios prestados
inclusive, se debe calcular

P(8 ≤ X ≤ 12) = FX (12) − FX (8− )


8.2. VARIABLES ALEATORIAS DISCRETAS 195

= FX (12) − FX (7)
= 0.97 − 0.27
= 0.70.

Como con cualquier otra variable, en variadas ocasiones es de interés encontrar un valor que acumule
cierta proporción de la información. En seguida se generaliza el concepto de percentil para v.a.d.'s:

Denición 8.2.3. Sea X una v.a.d. con f.d.a. FX y p un número real tal
que 0 ≤ p ≤ 100. El percentil p de la distribución de X , denotado con
πp , es el valor más pequeño de X que satisface la siguiente desigualdad:
p
≤ FX (πp ).
100

Nota. En la denición 8.2.3 se emplea una desigualdad ya que para algunos percentiles no se tiene un
p
valor de la variable tal que
100 = FX (πp ). Por esta razón un solo valor de la variable puede ser a la
vez más de un percentil.

Ejemplo 8.2.5. La junta directiva de un hospital quiere mejorar su atención en el horario nocturno de
los pacientes que necesitan de atención quirúrgica inmediata. Para esto, se quiere analizar la variable
X dada por número de pacientes que requieren de atención quirúrgica inmediata reportados entre las
19:00 y las 5:00. El analista encargado asegura que la f.m.p. de X es
(
7x e−7
fX (x) = x! , si x = 0, 1, 2, . . .;
0, en otro caso.

Se pide:

a. Calcular el valor de µ̃X tal que P(X ≤ µ̃X ) = (X ≥ µ̃X ).

b. Sabiendo que entre las 19:00 y las 5:00 el hospital solo tiene la capacidad de operar en 5 quirófanos,
determinar el porcentaje de jornadas nocturnas en las que se puede atender a todos los pacientes
que lleguen en la noche.

c. Obtener el rango en que se encuentra el número de pacientes que el hospital debe atender en el
50 % de las noches consideradas como más comunes.

d. Gracar la f.d.a. de X.

Solución:
196 CAPÍTULO 8. VARIABLES ALEATORIAS

a. El valor µ̃X que se quiere precisar es el percentil 50, es decir, la mediana. Como X es una v.a.d
entonces µ̃X es el valor más pequeño de X que satisface la desigualdad

µ̃X x −7
X 7 e
0.5 ≤ FX (µ̃X ) = .
x=0
x!

Ahora, evaluando en los valores de 0, 1, 2, . . . se tiene que

0.5 > P(X ≤ 0) = 0.0009,


0.5 > P(X ≤ 1) = 0.0072,
0.5 > P(X ≤ 2) = 0.0296,
0.5 > P(X ≤ 3) = 0.0817,
.
.
.

0.5 > P(X ≤ 6) = 0.4497,


0.5 ≤ P(X ≤ 7) = 0.5987.

En consecuencia, se obtiene que µ̃X = 7


b. Para encontrar el porcentaje de noches en las que el hospital puede atender a todos sus pacientes
entre las 19:00 y las 5:00, basta con calcular

5
X 7x e−7
P(X ≤ 5) = = 0.3007,
x=0
x!

y por lo tanto solo en el 30 % de las noches el hospital puede atender a todos los pacientes que
llegan en la jornada nocturna.

c. El rango en que se encuentra el número de pacientes que el hospital debe atender en el 50 % de


las noches consideradas como más comunes, es aquel rango de valores que va desde el percentil 25
(π25 ) al percentil (π75 ) de la variable X. Como antes, estos percentiles se calculan por inspección
de donde π25 = 7 y π75 = 9. Por consiguiente, se tiene que en aproximadamente el 50 % de las
noches consideradas como más comunes el hospital tendrá que atender a un número de pacientes
que oscila entre 7 y 8, aunque de forma exacta este porcentaje corresponde al 52.98 %.

d. Por último, en la gura 8.2 se muestra la gráca de la f.d.a. de la variable X.

8.3. Variables aleatorias continuas

Cuando la variable objeto de estudio es continua, no hace sentido hacer una suma de las probabilidades
de cada uno de los términos en el sentido de las variables discretas, ya que el conjunto de valores
8.3. VARIABLES ALEATORIAS CONTINUAS 197

Figura 8.2: Gráco de la f.d.a. de la variable del ejemplo 8.2.5.

que toma una variable continua es no numerable. En este caso, se generalizan de modo natural los
R P
conceptos, empleando la integral ( ) en lugar de la suma ( ).

La f.m.p. de una v.a.d. esta asociada con la probabilidad de que la variable tome un valor especíco.
Este concepto no es relevante en el caso de una v.a.c., ya que, como se verá más adelante, en este
caso la probabilidad de obtener un valor especíco es exactamente 0. Sin embargo, se puede construir
una función análoga para una variable continua, llamada función de densidad de probabilidad, que
permite investigar detalladamente la estructura probabilística de la variable de interés.
198 CAPÍTULO 8. VARIABLES ALEATORIAS

Denición 8.3.1. Una función fX : R −→ [0, ∞) se dice que es una


función de densidad de probabilidad (abreviado con f.d.p.) de una
v.a.c. X si satisface las siguientes condiciones:

i. fX (x) ≥ 0 para todo x ∈ R.

ii. Para cualquier par de números reales a y b tales que a ≤ b, se tiene


que
Z b
P(a ≤ X ≤ b) = fX (x)dx.
a

iii. El área bajo toda la gráca de fX es 1, esto es:

Z +∞
f (x) dx = 1.
−∞

Nota. En algunas ocasiones, la condición ii. de la denición 8.3.1 se reemplaza por


Z xmáx
fX (x)dx = 1
xmı́n

donde xmı́n y xmáx son respectivamente el valor máximo y mínimo de la variable X. En la gura 8.3
se presenta un ejemplo de una gráca de una f.d.p. de una v.a.c. X.
Nota. Una v.a.c. que satisface las condiciones de la denición 8.3.1 también se denomina v.a. abso-
lutamente continua.

Al igual que en el caso discreto, hay situaciones en las cuales se quiere calcular la probabilidad de
que el valor observado de una v.a.c. X sea menor o igual que algún número real dado. Como antes,
escribiendo FX (x) = P(X ≤ x) para cada número real x, se dice que FX es la función de distribución
acumulada (o simplemente función de distribución) de la variable X.

Denición 8.3.2. La función de distribución acumulada de una


v.a.c. X con función de densidad es fX , es la función FX : R −→ [0, 1]
denida por
FX (x) = P(X ≤ x)
para todo número real x.

Nota. Si la v.a.c X tiene f.d.p. fX entonces


Z x
FX (x) = fX (t)dt.
−∞

En algunas ocasiones, la integral de la fórmula anterior se reemplaza por la integral


Z x
FX (x) = fX (t)dt
xmı́n
8.3. VARIABLES ALEATORIAS CONTINUAS 199

Figura 8.3: Ejemplo de gráco de una función de densidad de una v.a.c. X.

para los casos en los que el valor mínimo de la variable exista.

La denición 8.3.2 establece que la f.d.a. de la variable X corresponde a la probabilidad de que X


tome un valor en el intervalo (−∞, x]. Esta probabilidad corresponde al área bajo la gráca de la
f.d.p. de X. En la gura 8.4 se presenta un ejemplo de una f.d.a. de una v.a.c. X.
Proposición 8.3.1. Si FX es una f.d.a. de una v.a.c. X entonces se satisfacen las siguientes propie-
dades:

i. Si x es un número real entonces 0 ≤ FX (x) ≤ 1 y además

lı́m FX (x) = 0 y lı́m FX (x) = 1.


x→−∞ x→∞

ii. Si x es un número real entonces


P(X = x) = 0
y
P(X ≥ x) = P(X > x) = 1 − FX (x).

iii. Si a y b son dos números reales tales que a≤b entonces FX (a) ≤ FX (b), es decir F es creciente;
y además se tiene que

P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a < X < b) = FX (b) − FX (a).
200 CAPÍTULO 8. VARIABLES ALEATORIAS

iv. Si fX es la f.d.p. de X entonces

d 0
fX (x) = FX (x) = FX (x)
dx
0
donde FX (x) es la derivada de FX (x) respecto a x.

Demostración:

i. Sea x un número real. Entonces se sigue que:

Z t Z x Z ∞ Z ∞
FX (x) = P(X ≤ x) = fX (t)dt ≤ fX (t)dt + fX (t)dt = fX (t)dt = 1.
−∞ −∞ x −∞

Como para todo x se tiene que P(X = x) ≥ 0 entonces 0 ≤ FX (t) ≤ 1.


Si g es una antiderivada de fX entonces
Z x 
lı́m FX (x) = lı́m fX (t)dt
x→−∞ x→−∞ −∞
 x 
= lı́m g(t)

x→−∞ −∞
 
= lı́m g(x) − lı́m g(b)
x→−∞ b→−∞

= lı́m g(x) − lı́m g(b)


x→−∞ b→−∞

= lı́m g(x) − lı́m g(x)


x→−∞ x→−∞

= 0.

y también
Z x 
lı́m FX (x) = lı́m fX (t)dt
x→∞ x→∞ −∞
Z ∞
= fX (t)dt
−∞
= 1.

ii. Si g es una antiderivada de fX entonces


Z x x
P(X = x) = fX (t)dt = g(t) = g(x) − g(x) = 0

x x

y por lo tanto

P(X ≥ x) = P(X > x; X = x)


= P(X > x) + P(X = x)
8.3. VARIABLES ALEATORIAS CONTINUAS 201

= P(X > x) + 0
= P(X > x)
= 1 − P (X > x)C


= 1 − P {w ∈ Ω : X(w) > x}C




= 1 − P ({w ∈ Ω : X(w) ≤ x})


= 1 − P(X ≤ x)
= 1 − FX (x).

iii. Si a y b son dos números reales tales que a≤b entonces

FX (a) = P(X ≤ a) ≤ P(X ≤ b) = FX (b)

es decir FX es una función no decreciente, en efecto:

FX (a) = P(X ≤ a)
Z a
= fX (x)dx
−∞
Z a Z b
≤ fX (x)dx + fX (x)dx
−∞ a
Z b
= fX (x)dx
−∞
= P(X ≤ b)
= FX (b).

Dado que P(X = x) para cualquier número real x, se comprueba que

P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X < b) = P(a < X ≤ b)

y además

FX (b) − FX (a) = P(X ≤ b) − P(X ≤ a)


= (P(X < a) + P(a ≤ X ≤ b)) − P(X ≤ a)
= P(a ≤ X ≤ b).
Rx
iv. Como FX (x) = −∞
fX (t)dt, entonces siguiendo el teorema fundamental del cálculo (detalles en
la proposición C.5.2) se obtiene directamente que

d 0
fX (x) = FX (x) = FX (x)
dx
0
donde FX (x) es la derivada de FX (x) respecto a x.


202 CAPÍTULO 8. VARIABLES ALEATORIAS

Figura 8.4: Ejemplo de una f.d.a. de una v.a.c. X.

Nota. Más detalles acerca de la demostración del numeral iv. de la proposición 8.3.1 se pueden en-
contrar en Rudin (1976, p. 133).

Ejemplo 8.3.1. Sea X la v.a. que representa el tiempo (en minutos) que tarda un empleado en
realizar una tarea. Para el caso especíco de una empresa de consultoría determinada, la f.d.p. de la
variable X es: (
ke−x , si x > 0;
fX (x) =
0, si x ≤ 0.
Se pide:

a. Calcular el valor de k.

b. Comprobar que fX es una f.d.p. auténtica.

c. Hallar FX (x).
0
d. Comprobar que FX (x) = fX (x).

e. Calcular la probabilidad de que un empleado gaste:

1. hasta 5 minutos en realizar la tarea.

2. al menos 5 minutos en realizar la tarea.


8.3. VARIABLES ALEATORIAS CONTINUAS 203

3. entre 2 y 5 minutos en realizar la tarea.

4. exactamente 5 minutos en realizar la tarea.

Solución:

R∞
a. Como fX es una función de densidad de probabilidad entonces se cumple que
−∞
fX (x)dx = 1.
Luego, se sigue que

Z ∞ Z 0 Z ∞
fX (x)dx = 0dx + ke−x dx
−∞ −∞ 0
Z ∞
−x
=0+k e dx
0
∞ 
= k −e−x 0
 
= k lı́m −e−x − (−e−0 )

x→∞
= k(0 − (−1))
= k.
R∞
En virtud de que
−∞
fX (x)dx = k , se concluye que k=1 y por lo tanto

(
e−x , si x > 0;
fX (x) =
0, si x ≤ 0.

b. Toda función de densidad debe ser tal que fX (x) ≥ 0 para todo número real x, y en efecto, en este
caso para todas lasx < 0 se tiene que fX (x) = 0 y para todas las x ≥ 0 se tiene que fX (x) = e−x > 0
−x
dado que el valor de e siempre es positivo sin importar el valor del exponente. Además, si fX es
R∞
una función de densidad se debe satisfacer que
−∞ X
f (x)dx = 1, como se muestra en seguida:
Z ∞ Z 0 Z ∞
fX (x) dx = 0dx + e−x dx
−∞ −∞ 0
Z ∞
= e−x dx
0

= −e−x 0
= lı́m −e−x − (−e−0 )

x→∞
= 0 − (−1)
=1

c. Si x≤0 entonces fX (x) = 0 y por consiguiente


Z x Z x
FX (x) = fX (t)dt = 0dt = 0.
−∞ −∞
204 CAPÍTULO 8. VARIABLES ALEATORIAS

Ahora, si x>0 entonces la función de distribución de X está dada por:

Z x
FX (x) = fX (t) dt
−∞
Z x
= e−t dt
0
x
= −e−t 0
= −e−x − (−e−0 )
= 1 − e−x

En consecuencia, se obtiene que la f.d.a. de X es:


(
1 − e−x , si x > 0;
FX (x) =
0, si x ≤ 0.

d. La derivada de la función de distribución es la función de densidad, en efecto, si x≤0 entonces


0
FX (x) = 0 y por lo tanto FX (x) = 0; y si x>0 entonces

0 d
1 − e−x

FX (x) =
dx
d d −x 
= (1) − e
dx dx
−x

=0− e (−1)
= 0 + e−x
= e−x .

Así,
(
0 e−x , si x > 0;
FX (x) =
0, si x ≤ 0.

e. La probabilidad de que un empleado gaste hasta 5 minutos en realizar la tarea es

P(X ≤ 5) = FX (5) = 1 − e−5 = 1 − 0.00674 = 0.99326

f. A continuación se calculan las probabilidades requeridas:

1. La probabilidad de que un empleado gaste al menos 5 minutos en realizar la tarea es

P(X ≥ 5) = 1 − FX (5)
= 1 − (1 − e−5 )
= 1 − 1 + e−5
= e−5
= 0.00674.
8.3. VARIABLES ALEATORIAS CONTINUAS 205

2. La probabilidad de que un empleado gaste entre 2 y 5 minutos en realizar la tarea es

P(2 ≤ X ≤ 5) = FX (5) − FX (2)


= 1 − e−5 − 1 − e−2
 

= e−2 − e−5
= 0.12860.

3. La probabilidad de que un empleado gaste exactamente 5 minutos en realizar la tarea es

P(X = 5) = FX (5) − FX (5) = 0.

Queda como ejercicio para el lector justicar que lı́mx→∞ (e−x ) = 0. 


Ejemplo 8.3.2. En un cultivo de células se coloca alimento en diferentes lugares de manera azarosa
para que las células puedan alimentarse. Las células en el cultivo no se comunican entre si, por lo que
si una célula encuentra alimento es indiferente a que las demás lo hagan. Para estudiar la variable
X dada por el tiempo (en minutos) en el que una célula encuentra el alimento se ha propuesto la
función de distribución
1 − e−x/5 ,

si x > 0;
FX (x) =
0, si x ≤ 0.

Con esta propuesta se quiere:

a. Hallar la probabilidad de que una célula se demore más de 5 minutos en encontrar el alimento.

b. Encontrar la función de densidad de X (esto permite analizar qué tiempos son los más ocurrentes).

c. Realizar una gráca de la función obtenida en el numeral anterior.

Solución:

a. Como se ha propuesto la f.d.a. de X entonces la probabilidad que se busca está dada por:
 
P(X > 5) = 1 − FX (5) = 1 − 1 − e−5/5 = 0 + e−1 = 0.3678,

y por lo tanto se entiende que es más probable que la próxima célula en encontrar el alimento se
demore menos de 5 minutos.

b. Para encontrar la f.d.p. de X fX como se muestra a continuación:


basta con encontrar la derivada de

0 d     1
FX (x) = 1 − e−x/5 = −e−x/5 (−1/5) = e−x/5 .
dx 5
0
Ahora, como la derivada de FX parax ≤ 0 es FX (x) = 0, entonces la f.d.p. de X está dada por:
 1 −x/5
fX (x) = 5e , si x > 0;
0, si x ≤ 0.
206 CAPÍTULO 8. VARIABLES ALEATORIAS

c. Con fX es posible inspeccionar el comportamiento de la variable mediante el gráco que se muestra


en la gura 8.5.

Figura 8.5: Gráco de la f.d.p. de la variable del ejemplo 8.3.2.

A continuación se presenta la denición de percentil cuando se trata con variables continuas, del mismo
en que se generaliza el concepto de percentil para v.a.d.'s.

Denición 8.3.3. Sea X una v.a.c. con f.d.a. FX y p un número real


tal que 0 ≤ p ≤ 100. El percentil p de la distribución de X, denotado
con πp , es un valor de X tal que

p
= FX (πp ).
100

Nota. El percentil p de una variable continua X con 0 ≤ p ≤ 100, corresponde al valor del eje de
medición de X tal que el p% del área bajo la gráca de la f.d.p. de X está a la izquierda de πp y el
(100 − p) % está a la derecha. Como antes, el percentil 50 se denomina mediana y se simboliza con
8.3. VARIABLES ALEATORIAS CONTINUAS 207

µ̃X . Esto es, la mitad del área bajo la gráca de la f.d.p. de X está a la izquierda de µ̃X y la otra
mitad a la derecha de µ̃X . De otra parte, como
Z πp
FX (πp ) = fX (x)dx,
−∞
R πp
en la denición 8.3.3 se acostumbra intercambiar por
xmı́n
f (x)dx cuando xmı́n exista.

Ejemplo 8.3.3. Con la información del ejemplo 8.3.1, calcular e interpretar el percentil 95.

Solución:

Para calcular el percentil 95 (π95 ) se sigue la fórmula

95
= FX (π95 )
100 Z
π95
0.95 = e−x dx
0
0.95 = 1 − e−π95
0.95 − 1 = −e−π95
−0.05 = −e−π95
ln(0.05) = ln(e−π95 )
ln(0.05) = −π95 .

En consecuencia, el percentil 95 es π95 = − ln(0.05) = 2.995. Entonces, se dice que el 5 % de los


trabajadores se demoran más de 2.995 minutos realizando la tarea. 

Ejemplo 8.3.4. En el caso del ejemplo 8.3.2, se quiere determinar un valor que separe las células
que tuvieron un lapso de tiempo menor en encontrar el alimento de las células que tuvieron un lapso
de tiempo mayor. Este valor debe ser tal que el 50 % de las células se encuentre en cada uno de los
grupos.

Solución:

Como se necesita un valor tal que el 50 % de las células se encuentre en cada uno de los grupos,
entonces se está buscando la mediana de la variable (µ̃X ). Este valor se obtiene mediante el siguiente
procedimiento:

50
FX (µ̃X ) =
100
1 − e−µ̃X /5 = 0.5
1 − 0.5 = e−µ̃X /5
ln(0.5) = −µ̃X /5
−5 ln(0.5) = −µ̃X .
208 CAPÍTULO 8. VARIABLES ALEATORIAS

Luego, el valor de interés es µ̃X = 3.4657 minutos, ya que el 50 % de las células encuentran alimento
antes de que transcurran 3.4657 minutos. 

8.4. Valor esperado

Sobre la distribución de una variable se acostumbra registrar algunas características de interés tales
como la localización, la dispersión, el apuntamiento y la simetría, las cuales se estudian de manera
descriptiva en los capítulos de la Parte I de este libro. Aquí se generalizan estas características por
medio de ciertas cantidades denominadas parámetros , que son objeto de estudio cuando se investiga
el comportamiento de una variable. Enseguida se denen algunos parámetros de uso frecuente, empe-
zando por el valor esperado (esperanza o media), medida que formaliza el concepto de promedio que
se presenta en la sección 3.2.1.

Denición 8.4.1. Sea X una v.a. con f.m.p. fX para el caso discreto o
con f.d.p. fX para el caso continuo. El valor esperado de X , denotado
con E[X], se dene como

 P
E[X] = R ∞k xk fX (xk ), si X es una v.a.d.;

−∞
xfX (x)dx, si X es una v.a.c..

En general, si g : R −→ R es una función entonces se tiene que el valor


esperado de g(X), denotado con E[g(X)], se dene como

 P
E[g(X)] = R ∞k g(xk )fX (xk ), si X es una v.a.d.;

−∞
g(x)fX (x)dx, si X es una v.a.c..

Nota. El valor esperado de una v.a. X también se simboliza con µX . Además, se observa que la
denición de E[X] es equivalente a la denición de E[g(X)] cuando g(x) = x.
Nota. Es posible que el valor esperado de una v.a. no exista. Esto sucede cuando la sumatoria o la
integral correspondiente diverge.

Ejemplo 8.4.1. Se lanza un dado corriente una vez. Sea X la v.a. que denota el resultado obtenido
en el lanzamiento. Como X es una v.a.d. entonces es claro que:

X
E[X] = xk fX (xk )
k
6
X 1
= x
x=1
6
     
1 2 1
= 1· + 2· + ... + 6 ·
6 6 6
8.4. VALOR ESPERADO 209

21
= .
6
Entonces el valor esperado del resultado obtenido es 3.5. 

Ejemplo 8.4.2. Sea X una variable con f.d.p. dada por:

(
e−3 3x
fX (x) = x! , si x = 0, 1, 2, . . .;
0, en otro caso.

Calcular el valor esperado de X.

Solución:

Como X es una v.a.d. entonces se tiene que

X
E[X] = xk fX (xk )
k

X e−3 3x
= x
x=1
x!

X 3x
= e−3 x
x=1
x!

X 3x
= e−3
x=1
(x − 1)!

X 3y+1
= e−3
y=0
y!

−3
X 3y
= 3e
y=0
y!
= 3e−3 e3
= 3.

En consecuencia, el valor esperado de X es 3. 

Nota. En la solución del ejemplo 8.4.2 se debe recordar que


X xi
= ex .
i=0
i!

Ejemplo 8.4.3. Se dispone de un capital de $100,000 para una inversión de un año. El inversionista
está considerando dos opciones: colocar el dinero en el mercado de valores, lo que le garantiza un
ingreso anual jo del 15 %, o un plan de inversión cuya ganancia anual se puede considerar como una
v.a. cuyos valores dependen de las condiciones económicas que prevalezcan. Con base en la historia
pasada del segundo plan, un analista ha determinado los posibles valores de la ganancia (en miles) X
210 CAPÍTULO 8. VARIABLES ALEATORIAS

y calculado sus probabilidades, como se muestra a continuación:



 0.05, si x = 5;



 0.10, si x = 10;
0.35, si x = 15;

fX (x) =

 0.30, si x = 20;
0.20, si x = 25, 30;





0, en otro caso.

Con base en la ganancia esperada, ¾cuál de los dos planes se debe seleccionar?

Solución:

Si se escoge el primer plan, colocar el dinero en el mercado de valores, la ganancia anual que produce
$100,000 es de $15.000, dado que el ingreso anual es jo y su valor es del 15 %. Para el segundo plan,
sea X la v.a. que representa la ganancia anual (en miles) del inversionista. El valor medio de X es

X
E [X] = xk fX (xk )
k
= (5)(0.05) + (10)(0.10) + . . . + (30)(0.20)
= 23.5.

De acuerdo con lo anterior, el segundo plan es una elección mucho mejor puesto que ofrece una ganancia
esperada de $23,500. Sin embargo, se debe tener cautela en este punto, debido a que $23,500 es apenas
el valor esperado y el inversionista no tiene ninguna garantía de que variabilidad de la ganancia anual
sea mínima.

Ejemplo 8.4.4. La v.a. que representa la proporción de accidentes automovilísticos fatales en una
ciudad, tiene la siguiente f.d.p.:

42x(1 − x)5 ,

si 0 < x ≤ 1;
fX (x) =
0, en otro caso.

Calcular e interpretar el valor esperado de X.

Solución:

Como X es una v.a.c. entonces se sigue que

Z ∞
E[X] = xfX (x)dx
−∞
Z 1
= xfX (x)dx
0
Z 1
x 42x(1 − x)5 dx

=
0
8.4. VALOR ESPERADO 211

Z 1
= 42 x2 (1 − x)5 dx
0
Z 1
= 42 x2 (−x5 + 5x4 − 10x3 + 10x2 − 5x + 1)dx
0
Z 1
= 42 (−x7 + 5x6 − 10x5 + 10x4 − 5x3 + x2 )dx
0
 
1 8 5 7 10 6 10 5 5 4 1 3 1
= 42 − x + x − x + x − x + x
8 7 6 5 4 3 0
 
1 5 10 10 5 1
= 42 − + − + − +
8 7 6 5 4 3
1
=
4
Por lo tanto, la proporción media de accidentes automovilísticos fatales es esta ciudad es 25 %. 
Ejemplo 8.4.5. Una variable X tiene la siguiente f.d.p.:

2e−2x ,

si x>0;
fX (x) =
0, si x ≤ 0.
Calcular el valor esperado de X.

Solución:

Como X es una v.a.c. entonces se tiene que


Z ∞ Z ∞
E[X] = xfX (x)dx = 2xe−2x dx.
−∞ 0

Integrando por partes, haciendo u=x y dv = 2e−2x dx, se obtiene que v = −e−2x y du = dx. Por
consiguiente
Z
E[X] = µX = uv − vdu
Z ∞
 ∞
= x −e−2x − −e−2x dx
0 0
∞ Z ∞
−2x
= −xe + e−2x dx
0 0
e−2x ∞
  

lı́m −xe−2x − −0e−0 +

=
−2 0

x→∞
1 
lı́m e−2x − e−0

= (0 − 0) −
2 n→∞
1
= − (0 − 1)
2
1
=
2
Esto es, el valor esperado de X es 0.5. 
212 CAPÍTULO 8. VARIABLES ALEATORIAS

Nota. Queda como ejercicio para el lector justicar detalladamente que

lı́m xe−2x = 0 lı́m e−2x = 0.


 
y
x→∞ x→∞

Nota. Se puede demostrar que si X es una v.a.c. entonces una fórmula alternativa para calcular el
valor esperado de X es
Z ∞ Z ∞
E [X] = (1 − FX (x))dx − FX (−x)dx
0 0

donde FX es la f.d.a. de X.

A continuación se presentan las propiedades del valor esperado:

Proposición 8.4.1. Sea X una v.a. y a, b números reales. Entonces se tiene que:

i. E[a] = a.

ii. E [aX + b] = aE[X] + b.

iii. Si a1 , a2 . . . , an son n números reales y X1 , X2 , . . . , Xn son n v.a.'s conmensurables entonces

n
" # n
X X
E ai Xi = ai E[Xi ]
i=1 i=1

A continuación presenta la demostración para el caso continuo ya que la prueba es análoga para el
caso discreto.

Demostración:

Si fX denota la f.d.p. de una v.a.c. X entonces:

i. Empleando la denición del valor esperado se obtiene que

Z ∞ Z ∞
E [a] = afX (x)dx = a fX (x)dx = a(1) = a
−∞ −∞

y por lo tanto E [a] = a.

ii. Utilizando nuevamente la denición del valor esperado, la propiedad i. y desarrollando se tiene
que

Z ∞
E [aX + b] = (ax + b)fX (x)dx
−∞
Z ∞
= (axfX (x) + bfX (x))dx
−∞
8.4. VALOR ESPERADO 213

Z ∞ Z ∞
= axfX (x)dx + bfX (x)dx
−∞ −∞
Z ∞
= axfX (x)dx + b
−∞
Z ∞
=a xfX (x)dx + E [b]
−∞
= aE [X] + b

de donde E [aX + b] = aE [X] + b.

iii. Aunque la demostración de esta propiedad requiere de conceptos más avanzados, se invita al lector
a ver la demostración de esta propiedad en Hogg, McKean & Craig (2005).

Se deja como ejercicio para el lector la demostración en el caso discreto.

Nota. Dadas las v.a. X, Y y los números reales a y b, de la proposición 8.4.1 se desprende la siguiente
identidad para el caso en que n = 2.

E [aX + bY ] = aE [X] + bE [Y ]

Ejemplo 8.4.6. Una empresa de productos bio-sintéticos está utilizando cierto tipo de reactivos
para aumentar o disminuir la cantidad de proteínas que tienen en un cultivo, de tal manera que
agregar q mililitros de reactivos implica que la población sea ahora de tamaño qP , donde P es el
tamaño de la población inicial. Además de la aplicación de estos reactivos, añaden una cantidad ja
de proteínas ligeramente diferentes para que el conjunto nal de proteínas tenga un balance adecuado
de las cualidades que proporcionan los grupos de proteínas. Si se sabe que la variable número de
individuos en el cultivo inicial de proteínas (X ) tiene una f.m.p. fX con media µX = 3 × 104 entonces
se quiere saber cual debería ser la cantidad en mililitros de reactivos que se deben aplicar para que
la razón esperada entre el número total de proteínas nal y el número agregado de proteínas sea
ligeramente diferente de 2.9, si se agregan 430, 000 de estas últimas proteínas.

Solución:

Lo primero que se debe notar es que la cantidad de interés es

 
qX + 430, 000
E [Y ] = E
430, 000

donde q es la cantidad en mililitros de los reactivos a incorporar en el primer cultivo de proteínas,


430,000 es la cantidad de las proteínas modicadas que se incorporan luego de que el reactivo se haya
consumido y Y es la razón entre el número total de proteínas nal y el número agregado de proteínas.
214 CAPÍTULO 8. VARIABLES ALEATORIAS

Ahora, como el interrogante se encuentra en la cantidad q en relación a la razón esperada entre los
dos grupos de proteínas, se plantea que E [Y ] = 2.9 de donde
 
qX + 430, 000
E = 2.9
430, 000
 
q
E X + 1 = 2.9
430, 000
q
E [X] + 1 = 2.9.
430, 000
Así, despejando para q se obtiene que

430000
q = (2.9 − 1)
E [X]
430000
q = 1.9
3 × 104
q = 27.23333.

Luego, es necesario aumentar la población inicial a aproximadamente 27 veces la población inicial, ya


que es necesario aplicar 27.23 mililitros de reactivo para que la razón esperada entre el número total
de proteínas nal y el numero agregado de las proteínas sea ligeramente diferente sea de 2.9. 

Ejemplo 8.4.7. Un par de empresas de construcción tienen pensado realizar una fusión con el n de
aumentar sus ingresos medios, pensando en que la fusión creará un aumento de los ingresos de cada
una de ellas y por ende de los ingresos totales. Según el historial de cada una de las empresas sus
ingresos medios son 1.3 billones y 1.6 billones respectivamente. Los factores en los cuales se quiere que
aumenten los ingresos para cada una de las compañías son de 1.13 y 1.44 respectivamente. Al cabo
de un año las empresas se dieron cuenta que la ganancia media de la fusión fue de 2.84 billones, cifra
menor a lo que se tenía pensado previamente. A pesar de que efectivamente lograron aumentar las
ganancias según los factores que se propusieron, la primera empresa decide cancelar la fusión. ¾Por
qué?

Solución:

Según el planteamiento inicial que tenían las empresas, estas esperaban una ganancia media de la
fusión dada por:
E [1.13X + 1.44Y ]
donde X son las ganancias de la primera empresa y Y las ganancias de la segunda empresa. Por
lo que la ganancia esperada una vez establecida la fusión es de

E [1.13X + 1.44Y ] = 1.13E [X] + 1.44E [Y ] = 1.13 × 1.3 + 1.44 × 1.6 = 3.773.

Ahora, si la primera empresa al darse cuenta que la ganancia media de la fusión fue menor a lo que se
tenía pensado previamente, a pesar de que si se obtuvieron los factores de aumento, se podría pensar
que la segunda empresa mintió sobre su ganancia media dado que

E [1.13X + 1.44Y ] = 2.84


8.5. MOMENTOS 215

1.13E [X] + 1.44E [Y ] = 2.84


2.84 − (1.13)(1.3)
E [Y ] =
1.44
E [Y ] = 0.9521.

La primera canceló la fusión porque esta cantidad es mucho menor de la que la segunda empresa
reportó al momento de hacer la fusión de las compañías. 

8.5. Momentos

Las siguientes dos deniciones son parte fundamental de otras medidas características de las v.a.'s;
por tal razón es esencial que se manejen de forma apropiada y ecaz.

Denición 8.5.1. Sea X una v.a. con f.m.p. fX para el caso discreto
o con f.d.p. fX para el caso continuo. El j -ésimo momento de X para
j = 1, 2, . . ., denotado con µ0j , está dado por

 P j
µ0j = R ∞k xkjfX (xk ), si X es una v.a.d.;

−∞
x fX (x)dx, si X es una v.a.c..

Nota. La denición del j -ésimo momento de una v.a. X es un caso particular de E[g(X)] cuando
g(x) = x . Además, se observa que el segundo momento de una v.a. X se simboliza con µ02 y está dado
j
2
por E[X ], esto es:
 P 2
0
µ2 = R ∞k xk2fX (xk ), si X es una v.a.d.;

−∞
x fX (x)dx, si X es una v.a.c..

El segundo momento es de uso frecuente en las medidas que describen de dispersión de una variable.

La importancia de los momentos de una distribución radica en la relación que tienen éstos con las
medidas básicas para describir v.a.'s, como la media, la varianza y las medidas de forma, entre otras.
En particular el segundo momento de una v.a. es de gran importancia en la teoría estadística básica
y avanzada.

Ejemplo 8.5.1. Sea X una v.a.c. con f.d.p. dada por:



2x, 0 < x < 1;
fX (x) =
0, en otro caso.

Calcular el segundo momento de X.

Solución:
216 CAPÍTULO 8. VARIABLES ALEATORIAS

Se pide calcular el segundo momento de X, es decir, µ02 = E[X 2 ]. Como X es una v.a.c. entonces se
obtiene que
Z ∞
E[X 2 ] = x2 fX (x)dx
−∞
Z 1
= x2 (2x)dx
0
Z 1
=2 x3 dx
0
x4 1
=

2 0

1 4
= (1 − 04 )
2
1
= .
2
Por lo tanto el segundo momento de X es 0.5. 

Denición 8.5.2. Sea X una v.a. con f.m.p. fX para el caso discreto
o con f.d.p. fX para el caso continuo. El j -ésimo momento centrado
alrededor de la media de X para j = 1, 2, . . ., denotado con µj , está
dado por

j
 P
µj = R ∞k (xk − µX )j fX (xk ), si X es una v.a.d.;

−∞
(x − µX ) fX (x)dx, si X es una v.a.c..

donde µX es el valor esperado de X.

Nota. Como antes, la denición del j -ésimo momento centrado alrededor de la media de una v.a. X
es un caso particular de E[g(x)] cuando g(x) = (x − µX )j .
Ejemplo 8.5.2. Un departamento de ciencias forenses se encuentra ante un caso en el cual los
individuos han muerto debido a diferentes concentraciones de cianuro. En el departamento se hacen
mediciones de estos niveles en cada cuerpo, lo que dene una v.a.c. que asumen tiene la f.d.p. dada
por:
 1 3
fX (x) = 5,184 x , si 0 < x < 12;
0, en otro caso.

Si en las mediciones que se han realizado se han dado cuenta que los niveles entre 8 y 12 son los más
frecuentes, ¾la función de densidad propuesta es aceptable? Además, también se quiere determinar
si la concentración en los niveles se está agrupando de manera consistente. Por tal motivo se pide
calcular la medida  
E (X − µX )4
ξX = −3
(E [(X − µX )2 ])2
que se espera de como resultado un valor mayor a 3, para así conrmar que los valores tienen una alta
densidad alrededor de la media. Discutir el resultado de esta medida.
8.5. MOMENTOS 217

Solución:

La f.d.p. para concentraciones entre 0 y 12 se puede observar en la gura 8.6, donde se aprecia la alta
frecuencia de los niveles de cianuro entre 8 y 12, luego bajo esta perspectiva, es una f.d.p. aceptable.

Para realizar el cálculo de la medida requerida, primero se obtienen las cantidades

µX = E [X]
Z ∞
= xfX (x)dx
−∞
Z 12
1
= x x3 dx
0 5, 184
Z 12
1
= x4 dx
5, 184 0
1 12
= x5

(5)(5, 184) 0
1
= (125 − 05 )
25, 920
= 9.6,

Z ∞
E (X − µX )2 = (x − µX )2 fX (x)dx
 
−∞
Z 12
1
= (x − 9.6)2 x3 dx
0 5, 184
Z 12
1
= (x − 9.6)2 x3 dx
5, 184 0
Z 12
1 2
= x2 − (2)(9.6)x + 9.62 x3 dx
5, 184 0
Z 12
1
x5 − 19.2x4 + 92.16x3 dx

=
5, 1840
12 !
1 x6 x5 x4
= − 19.2 + 92.16
5, 184 6 5 4 0
 6 5
124

1 12 12
= − 19.2 + 92.16
5, 184 6 5 4
= 3.84

y
Z ∞
E (X − µX )4 = (x − µX )4 fX (x)dx
 
−∞
Z 12
1
= (x − µX )4 x3 dx
0 5, 184
218 CAPÍTULO 8. VARIABLES ALEATORIAS

Z 12
1
x4 − 4x3 µX + 6x2 µ2X − 4xµ3X + µ4X x3 dx

=
5, 184 0
Z 12
1
x7 − 4µX x6 + 6µ2X x5 − 4µ3X x4 + µ4X x3 dx

=
5, 184 0
!
4 12
1 x8 x7 2 x
6
3 x
5
4 x
= − 4µX + 6µX − 4µX + µX
5, 184 8 7 6 5 4 0
!
4 12
1 128 127 12 6
12 5
12
= − 4µX + 6µ2X − 4µ3X + µ4X
5, 184 8 7 6 5 4 0
= 54.51.

Luego, la cantidad por la que se indaga es:

 
E (X − µX )4 54.51
ξX = 2 2
−3= − 3 = 0.6964.
(E [(X − µX ) ]) 3.842

Por lo tanto, según lo sugerido en el ejercicio esta medida por ser mayor a 0 arma la alta densidad
de los niveles de cianuro alrededor del nivel promedio. 

0.30

0.25

0.20
f(x)

0.15

0.10

0.05

0.00

0 2 4 6 8 10 12

Figura 8.6: Gráco de la f.d.p. de la variable del ejemplo 8.5.2.


8.6. VARIANZA 219

8.6. Varianza

En el capitulo 4 se introducen algunas medidas descriptivas que dan cuenta de la dispersión de una
variable. En esta sección se dene de manera formal y se profundizan los conceptos de varianza,
desviación estándar y coeciente de variación de una v.a. a través de su distribución probabilística.

Denición 8.6.1. Sea X una v.a. con f.m.p. fX para el caso discreto o con f.d.p.
fX para el caso continuo. Se dene la varianza de X, denotada con Var[X], como
el segundo momento centrado alrededor de la medida de X, esto es:

2
 P
VarX = R ∞k (xk − µX )2 fX (xk ), si X es una v.a.d.;

−∞
(x − µX ) fX (x)dx, si X es una v.a.c..

donde µX es el valor esperado de X.

2
Nota. El valor esperado de una v.a. X también se simboliza con σX . Además, se observa que la
denición de Var[X] es equivalente a la denición de E[g(X)] cuando g(x) = (x − µX )2 , es decir, a
µ2 .

La siguiente proposición establece una forma alternativa para calcular la varianza de una variable.
Esta nueva expresión de la varianza que utiliza el segundo momento de la variable puede resultar más
sencilla en muchos casos.

Proposición 8.6.1. 2
 
Si X es una v.a. entonces se satisface que Var [X] = E X 2 − (E [X]) .

A continuación presenta la demostración para el caso continuo ya que la prueba es análoga para el
caso discreto.

Demostración:

Asumiendo que X es una v.a.c. con f.d.p. fX , empleando la denición de varianza se sigue que
Z ∞
Var [X] = (x − µX )2 fX (x)dx
−∞
Z ∞
x2 − 2xµX + µ2X fX (x)dx

=
−∞
Z ∞
x2 fX (x) − 2xµX fX (x) + µ2X fX (x) dx

=
−∞
Z ∞ Z ∞ Z ∞
= x2 fX (x)dx − 2xµX fX (x)dx + µ2X fX (x)dx
−∞ −∞ −∞
Z ∞ Z ∞
= E X 2 − 2µX xfX (x)dx + µ2X
 
fX (x)dx
−∞ −∞
220 CAPÍTULO 8. VARIABLES ALEATORIAS

= E X 2 − 2µX µX + µ2x (1)


 

= E X 2 − 2µ2X + µ2x
 

= E X 2 − µ2X .
 

Se deja como ejercicio para el lector la demostración en el caso discreto. Sin embargo, a continuación
se una prueba general más simple empleando las propiedades del valor esperado:

Var [X] = E (X − µX )2
 

= E X 2 − 2XµX + µ2X
 

= E X 2 − E [2XµX ] + E µ2X
   

= E X 2 − 2µX E [X] + µ2X


 

= E X 2 − 2µX µX + µ2X
 

= E X 2 − µ2X .
 

Una vez se tienen denidas de manera formal la esperanza µX y la varianza σ2 de una v.a. X, varias
medidas descriptivas mencionadas en capítulos anteriores se formalizan también cuando se calculan
empleando los conceptos formales de media y varianza.

De esta forma, si X es una v.a. con media µX y varianza


2
σX entonces la desviación estándar o
desviación típica de X, denotada con σX se dene como

q
σX = 2 .
σX

Además, el coeciente de variación de Pearson (o simplemente coeciente de variación), deno-


tado con CVX , está dado por
σX
CVX = .
µX
Se recomienda al lector consultar el capítulo 4 para revisar los detalles relacionados con la interpreta-
ción de estas medidas de dispersión.

Ejemplo 8.6.1. Calcular e interpretar el coeciente de variación de la v.a. del ejemplo 8.4.5.

Solución:

Haciendo nuevamente integración por partes se obtiene que

Z ∞
E X2 = x2 fX (x)dx
 
−∞
Z ∞
x2 2e−2x dx

=
Z0 ∞
= 2x2 e−2x dx
0
8.6. VARIANZA 221

1
= .
2

Así, se sigue que

 2
 2 2 1 1 1
Var [X] = E X − µX = − =
2 2 4

y por lo tanto la desviación estándar de X es σX = 0.25 = 0.5. Luego, el coeciente de variación de
X es
σX 0.5
CVX = = = 100 %
µX 0.5
y en consecuencia la dispersión de la variable X es alta con respecto al valor medio. 

Nota. Queda como ejercicio para el lector justicar detalladamente que


Z ∞
2x2 e−2x dx = 1/2.
0

Ejemplo 8.6.2. Calcular e interpretar el coeciente de variación de la v.a. del ejemplo 8.4.1.

Solución:
 
Primero se calcula E X2 y se obtiene que

  X 2
E X2 = xk fX (xk )
k
6
X 1
= x2
x=1
6
1 1 1
= (0 · ) + (12 · ) + . . . + (62 · )
6 6 6
91
= .
6
Por lo tanto, la varianza de X está dada por:

 2
91 21 35
Var [X] = E X 2 − µ2X =
 
− = .
6 6 12

Luego, el coeciente de variación de X es

σX 35


CVX = = 12 = 83.3 %.
µX 21
6

Este coeciente indica que los valores del resultado obtenido en el lanzamiento tienen un alto grado
de heterogeneidad con respecto al valor esperado del lanzamiento. Este hecho se puede anticipar dado
que se tiene un experimento donde todos los resultados son equiprobables. 
222 CAPÍTULO 8. VARIABLES ALEATORIAS

Ejemplo 8.6.3. Calcular e interpretar el coeciente de variación de la v.a. del ejemplo 8.4.2.

Solución:

En este caso se tiene que

  X 2
E X2 = xk fX (xk )
k

X e−3 3x
= x2
x=1
x!

X 3x
= e−3 x2
x=1
x!

X 3x
= e−3 x
x=1
(x − 1)!

X 3y+1
= e−3 (y + 1)
y=0
y!
∞ ∞
( )
y+1 y+1
X 3 X 3
= e−3 y +
y=0
y! y=0
y!
(∞ ∞
)
X 3y+1 X 3y
−3
=e y +3
y=1
y! y=0
y!
( ∞ )
X 3y
= e−3 3 y + 3e3
y=1
y!
= e−3 3e3 E [X] + 3e3


= e−3 9e3 + 3e3




= 12.
Por lo tanto, se obtiene que

Var [X] = E X 2 − µ2X = 12 − 32 = 3


 

y por consiguiente el coeciente de variación de X es



σX 3
CVX = = = 57.7 %.
µX 3
Este valor del coeciente indica que la dispersión de la variable es alta con respecto al valor medio.

Nota. Queda como ejercicio para el lector justicar detalladamente que



X 3y
y = e3 E [X] .
y=1
y!
8.6. VARIANZA 223

Ejemplo 8.6.4. Calcular e interpretar el coeciente de variación de la v.a. del ejemplo 8.5.1.

Solución:

En este caso se tiene que

Var [X] = E X 2 − µ2X = 0.5 − 0.52 = 0.25


 

dado que
Z ∞
E X2 = x2 fX (x)dx
 
−∞
Z1
= x2 (2x)dx
0
Z 1
= 2x3 dx
0
4 1
x
=
2 0

1
= (1 − 0)
2
= 0.5.

En consecuencia, el coeciente de variación de X es



σX 0.25 0.5
CVX = = = = 100 %.
µX 0.5 0.5

Este valor del coeciente indica que la dispersión de la variable es alta con respecto al valor medio.

A continuación se presentan las propiedades de la varianza:

Proposición 8.6.2. Sea X una v.a. y a, b números reales. Entonces se tiene que:

i. Var [X] ≥ 0.

ii. Var [a] = 0.

iii. Var [aX + b] = a2 Var [X].

A continuación se presenta la demostración en el caso continuo ya que la prueba es análoga en el caso


discreto.

Demostración:

Si fX denota la f.d.p. de una v.a.c. X entonces:


224 CAPÍTULO 8. VARIABLES ALEATORIAS

i. Dado que fX (x) ≥ 0 y (x − µX )2 ≥ 0 entonces


Z ∞
Var [X] = (x − µX )2 fX (x)dx ≥ 0.
−∞

  2
ii. Con facilidad se deduce que Var [a] = E a2 − (E [a]) = a2 − a2 = 0.

iii. Se ve ahora que


Z ∞
Var [aX + b] = ((aX + b) − µaX+b )2 fX (x)dx
−∞
Z ∞
= ((aX + b) − E [aX + b])2 fX (x)dx
−∞
Z ∞
= ((aX + b) − aE [X] − E [b])2 fX (x)dx
−∞
Z ∞
= (aX − aE [X] + b − E [b])2 fX (x)dx
−∞
Z ∞
= (a(X − E [X]) + b − b)2 fX (x)dx
−∞
Z ∞
= (a(X − E [X]))2 fX (x)dx
−∞
Z ∞
= a2 (X − E [X])2 fX (x)dx
−∞
Z ∞
2
=a (X − µX )2 fX (x)dx
−∞
= a2 Var [X] .

Ejemplo 8.6.5. Continuando con el ejemplo 8.4.6, dado que los productos bio-sintéticos de la com-
pañía requieren de altos niveles de precisión, es necesario observar constantemente la variación de sus
componentes, en particular de los componentes bióticos. Por esta razón se quiere comparar analizar
la dispersión del número de proteínas en el cultivo nal respecto al número de proteínas en el cultivo
inicial, teniendo en cuenta que la varianza del número de individuos en el cultivo inicial de proteínas
2
es σX = 19, 600, 000.

Solución:

Se dene la variable Z = 27.33X + 430, 000 correspondiente al número de proteínas en el cultivo


nal teniendo en cuenta la razón que debe haber entre el número de proteínas nal y el número de
2
proteínas modicadas (detalles en el ejemplo 8.4.6). Como σX = 19, 600, 000 y µX = 3 × 104 son el
valor esperado y varianza de la v.a. X =número de proteínas en el cultivo inicial, entonces la media
y la varianza de Z están dadas por

µZ = E [27.33X + 430, 000] = 27.33E [X] + 430, 000 = 27.33 × 3 × 104 + 430, 000 = 1, 249, 900
8.7. ALGUNAS DESIGUALDADES 225

2
= Var [27.33X + 430000] = 27.332 Var [X] = 27.332 (19, 600, 000) = 14, 639, 806, 440.
 
σZ

Luego, los coecientes de variación de X y Z son respectivamente



σX
CVX = = 19, 600, 000 = 14.76 %
µX 3 × 104
y √
σZ 14, 639, 806, 440
CVZ = = = 9.68 %.
µZ 1, 249, 900
Por lo tanto, la dispersión del número de proteínas en un cultivo nal es menos disperso respecto al
valor medio que el número de proteínas en un cultivo inicial. Así, ambos cultivos poseen una dispersión
intermedia respecto al número de proteínas esperado, por lo que el uso de estos cultivos de proteínas
en los productos bio-sintéticos no presenta grandes variaciones. 
Ejemplo 8.6.6. Continuando con el ejemplo 8.4.7, ante la decisión tan drástica que toma la primera
empresa, la segunda empresa decide tomar una acción legal en la que da como pruebas documentos en
los cuales se encuentra la información sobre las ganancias de las dos empresas, los factores de aumento
(información dada en la primera parte del ejemplo), las desviaciones estándar de las variables X y Y
y además las pruebas de que las ganancias de una empresa son independientes de la otra. Teniendo
en cuenta que σX = 0.1324 y σY = 0.5800, ¾la primera empresa debería seguir con la fusión a la luz
de esta información?

Solución:

Entendiendo la pregunta desde un punto de vista económico y haciendo uso de los coecientes de
variación de las variables, se sigue que

σX 0.1324
CVX =
= = 10.2 %
µX 1.3
y
σY 0.5800
CVY = = = 36.2 %.
µY 1.6
Con esta evidencia, se concluye que la decisión que tomó la primera empresa cancelando la fusión es
correcta, ya que de continuar podría sacricar la regularidad de sus ganancias dada la volatilidad de
las ganancias de la segunda compañía. 

8.7. Algunas desigualdades

Una vez introducido el concepto de probabilidad, media y varianza de manera formal, se puede for-
malizar también la idea presentada en la sección 4.9 sobre la desigualdad de Chebyshev, por medio
de los siguientes teoremas:
226 CAPÍTULO 8. VARIABLES ALEATORIAS

Teorema 8.7.1. Sea X una v.a. tal que el valor esperado y la varianza de X existen y g(X) una
función no negativa. Si E [g(X)] existe entonces para cualquier número real positivo c se tiene que

E [g(X)]
P(g(X) ≥ c) ≤
c

Demostración:

Sea Ac = {x ∈ R : g(x) ≥ c}. Si X es una v.a.c. con f.d.p. fX entonces


Z
E [g(X)] = g(x)fX (x)dx
R
Z
= g(x)fX (x)dx
Ac ∪AC
c
Z Z
= g(x)fX (x)dx + g(x)fX (x)dx
Ac AC
c
Z
≥ g(x)fX (x)dx
Ac

dado que g(X) es una función no negativa. Ahora, como g(x) ≥ c para todo número real x en Ac ,
entonces
Z Z Z
g(x)fX (x)dx ≥ cfX (x)dx = c fX (x)dx = cP(X ∈ Ac ) = cP(g(X) ≥ c)
Ac Ac Ac

y por lo tanto
E [g(X)]
≥ P(g(X) ≥ c).
c

De otra parte, si X es una v.a.d. con f.m.p. fX entonces


X
E [g(X)] = g(x)fX (x)
RX
X
= g(x)fX (x)
Ac ∪AC
c
X X
= g(x)fX (x) + g(x)fX (x)
Ac AC
c
X
≥ g(x)fX (x)
Ac

dado que g(X) es una función no negativa. Ahora, como g(x) ≥ c para todo número real x en Ac ,
entonces X X X
g(x)fX (x) ≥ cfX (x) = c fX (x) = cP(X ∈ Ac ) = cP(g(X) ≥ c)
Ac Ac Ac
y por lo tanto
E [g(X)]
≥ P(g(X) ≥ c).
c

8.7. ALGUNAS DESIGUALDADES 227

Nota. El teorema 8.7.1 se conoce como teorema de Markov .


Teorema 8.7.2. Sea X una v.a. tal que el valor esperado y la varianza de X existen. Entonces

1
P(|X − µX | < kσX ) ≥ 1 −
k2
o equivalentemente
1
P(|X − µX | ≥ kσX ) ≤
k2
donde k es un número real positivo.

Demostración:

Haciendo g(X) = (X − µX )2 y c = k 2 σX
2
en el teorema 8.7.1 se obtiene que

 
 E (X − µX )2
P (X − µX )2 ≥ k 2 σX
2
≤ 2
k 2 σX
 
y dado que E (X − µX )2 = σX
2
entonces

1
P((X − µX )2 ≥ k 2 σX
2
)≤ .
k2
Como el evento (X − µX )2 ≥ k 2 σX
2
= |X − µX | < kσX y además k > 0, se concluye que

1
P(|X − µX | ≥ kσX ) ≤
k2
de donde
1
P(|X − µX | < kσX ) ≥ 1 − ,
k2

Nota. El teorema 8.7.2 se conoce como teorema de Chebyshev o desigualdad de Chebyshev.
Ejemplo 8.7.1. Dada una v.a. X con valor esperado µX y varianza
2
σX se quiere obtener un valor a
tal que
P(µX − a < X < µX + a) ≥ 0.75.
2
Además, si σX =1 y a = 3, se pide hallar una cota inferior para

P(µX − 3 < X < µX + 3).

Solución:

Usando la desigualdad de Chebyshev y tomando a = kσX se obtiene que

1
0.75 = 1 −
k2
228 CAPÍTULO 8. VARIABLES ALEATORIAS

1
= 0.25
k2
1
|k| = √
0.25
|k| = 2.

Como k>0 entonces k=2 y a = 2σX . De esta manera, se concluye que

P(µX − 2σX < X < µX + 2σX ) ≥ 0.75.


2
Por otro lado, si σX =1 y a=3 entonces k=3 se sigue que

P(µX − 3 < X < µX + 3) = P(|X − µX | < 3) ≥ 1 − 1/32 = 0.8889.

Ejemplo 8.7.2. Una compañía dedicada al mercado bursátil sabe que para cualquier día la variable
X que representa la ganancia (en miles de millones) del día sigue la f.d.p. dada por:

 1 4
3,410 x , si −3 < x < 7;
fX (x) =
0, en otro caso.

Teniendo en cuenta que los valores negativos de la variable representan pérdidas, se quiere determinar:

a. La ganancia esperada y la varianza en un día cualquiera.

b. Una cota para la probabilidad de que las ganancias se encuentren a una distancia menor de la
media de tres veces la desviación estándar.

c. La probabilidad exacta sobre el numeral anterior y comparar los resultados obtenidos.

d. Un gráco de la función de densidad sobre el rango de la variable.

Solución:

a. El valor esperado de X es

Z ∞ Z 7 7
1 1 1
E [X] = xfX (x)dx = x x4 = x6 = (76 − (−3)6 ) = 5.7145

−∞ −3 3, 410 (6)(3, 410) −3 40, 460
y

Z ∞ Z 7 7
1 1 1
E X2 = 2
x2 x4 = x7 = (77 − (−3)7 ) = 34.5927
 
x fX (x)dx =

−∞ −3 3, 410 (7)(3, 410) −3 23, 870

de donde
Var [X] = 34.59279 − (5.714565)2 = 1.9365.
8.8. FUNCIÓN GENERADORA DE MOMENTOS 229

b. Por medio del teorema de Chebyshev y el ejemplo 8.7.1 se tiene que

P(|X − µX | < 3σX ) ≥ 0.8889.

Se observa que la distancia a la media puede ser por valores de menor o mayor magnitud, por lo
cual tiene sentido el valor absoluto de la diferencia para denotar la distancia.

c. Para calcular la probabilidad exacta basta con calcular la siguiente probabilidad:

P(|X − µX | < 3σX ) = P(µX − 3σX < X < µX + 3σX ) = P(5.714 − 4.174 < X < 5.714 + 4.174).

Como

Z 7 7
1 1
P(1.539 < X < 9.888) = P(1.539 < X < 7) = x4 = x5 = 0.9849

1.539 3, 410 (5)(3, 410) 1.539

entonces calculando la probabilidad de manera exacta se tiene que siempre será mayor o igual
que la cota obtenida mediante el teorema de Chebyshev y esta probabilidad puede estar alejada
signicativamente de la cota propuesta, por lo que es necesario ser prudentes con el uso de esta
cota.

d. Por último, la gráca de la f.d.p. de X sobre el rango de X se presenta en la gura. 8.7

8.8. Función generadora de momentos

Como se ha visto, el valor esperado es de uso frecuente, tanto para denir los momentos de una v.a.,
como para denir la varianza, entre otros parámetros. En esta sección se introduce una versión especial
del valor esperado que permite calcular con facilidad todos los momentos de una v.a. e identicar su
distribución probabilística.

Denición 8.8.1. Sea X una v.a. con f.m.p. fX para el caso discreto o
con f.d.p. fX para el caso continuo. La función generadora de mo-
mentos (abreviado con f.g.m.) de X , denotada con mX (t), se dene
como
mX (t) = E etX
 
 
donde t ∈ (−h, h) con h>0 un valor jo para el que E etX existe.
230 CAPÍTULO 8. VARIABLES ALEATORIAS

0.7

0.6

0.5

0.4
f(x)

0.3

0.2

0.1

0.0

−2 0 2 4 6

Figura 8.7: Gráco de la f.d.p. de la variable del ejemplo 8.7.2.

Nota. La denición de la f.g.m. de una v.a. X es equivalente a la denición de E [g(X)] cuando


tx
g(x) = e . Por consiguiente, si X es una v.a. con f.m.p. fX para el caso discreto o con f.d.p. fX para
el caso continuo, se tiene que

 P txk
E etX = R ∞k e tx fX (xk ), si X es una v.a.d.;
 
−∞
e fX (x)dx, si X es una v.a.c..

La función generadora de momentos se vuelve una herramienta muy útil para calcular los momentos
de una v.a. al igual que para identicar su distribución probabilística, ya que hay una relación 1-1
entre la f.g.m. y la función de distribución. Sin embargo, se debe tener en cuenta que la f.g.m. no
siempre existe así como el valor esperado.

Teorema 8.8.1.
 tX 
existe para t ∈ (−h, h) con h > 0. Entonces
 Xk  una v.a. tal que E e
Sea el
k -ésimo momento E X de X para k = 1, 2, . . ., se puede calcular como la k -ésima derivada de la
f.g.m. evaluada en 0, esto es:
(k)
E X k = mX (0)
 

(k) dk
donde mX (t) = dtk
mX (t).
8.8. FUNCIÓN GENERADORA DE MOMENTOS 231

Demostración:

Si X es una v.a.d. con f.m.p. fX entonces la función generadora de momentos de X está dada por:
 X tx
mX (t) = E etX =

e fX (x).
x

Luego, entendiendo a mX (t) como una función de valor real se tiene que

dk dk X tx X dk X
k
mX (t) = k e fX (x) = k
etx fX (x) = xk etx fX (x)
dt dt x dt
k k

Evaluando en t=0 se tiene que

dk X
k 0x
X
xk fX (x) = E X k .
 
m (t) = x e f (x) =

X X
dtk

t=0
RX x

Por último, si X es una v.a.c. con f.d.p. fX entonces la función generadora de momentos de X está
dada por:
Z ∞
mX (t) = E etX = etx fX (x)dx.
 
−∞
1
Luego, entendiendo mX (t) como una función de valor real y bajo un resultado del análisis real se
tiene que
∞ ∞
dk dk dk tx
Z Z
tx
mX (t) = e fX (x)dx = e fX (x)dx.
dtk dtk −∞ −∞ dtk
Evaluando en t=0 se tiene que

Z ∞ Z ∞
dk
k 0x
xk fX (x)dx = E xk .
 
m (t) = x e f (x)dx =

k X X
dt

t=0 −∞ −∞


Ejemplo 8.8.1. Una entidad bancaria está evaluando el servicio que presta en su página web. Uno
de los principales puntos de evaluación es la capacidad de la página para la ejecución de transacciones
virtuales. El número máximo de transacciones por minuto de la página web de esta entidad es 10. Una
variable de interés es el tiempo (en minutos) restante para la siguiente operación nanciera cuya
f.d.p. está dada por:
2e−2x ,

si x > 0;
fX (x) =
0, si x ≤ 0.

Se quiere encontrar la f.g.m. y los dos primeros momentos de la variable para calcular el coeciente
de variación y analizarlos respecto al número máximo de transacciones por minuto.

Solución:
1 El lector ávido puede encontrar en Rudin (1976, p. 236) las condiciones bajo las cuales se puede hacer el intercambio
entre integral y derivada.
232 CAPÍTULO 8. VARIABLES ALEATORIAS

Como
Z ∞
E etX = etX fX (x)dx
 
−∞
Z ∞
etx 2e−2x dx

=
Z0 ∞
= 2etx−2x dx
0
Z ∞
= 2e−x(2−t) dx
0

2 − t −x(2−t)
Z
= 2 e dx
0 2 −t
Z ∞
2
= (2 − t)e−x(2−t) dx
2−t 0
2  −x(2−t) ∞ 
= −e
2−t

0
2
= (0 − (−1))
2−t
2
= .
2−t
2
Luego, mX (t) = 2−t para t < 2, en particular para −2 < t < 2. Ahora, como

(1) 2 (2) 4
mX (t) = y mX (t) =
(2 − t)2 (2 − t)3
entonces los primeros dos momentos de la v.a. X son

(1) 2 1 (2) 4 1
mX (0) = 2
= y mX (0) = 3
= .
(2 − 0) 2 (2 − 0) 2
En consecuencia, el coeciente de variación es


σX 0.5 − 0.52
CVX = = = 100 %.
µX 0.5

Así, se espera que la página web reciba una nueva transacción cada medio minuto, lo que está dentro
de las capacidades de la página. Sin embargo, dada la alta dispersión respecto al valor medio, se
aconseja optimizar los procesos informáticos para garantizar la eciencia del servicio. 
Nota. Queda como ejercicio para el lector justicar detalladamente que

(1) 2 4
mX (t) = y m(2)
x (t) = .
(2 − t)2 (2 − t)3

Proposición 8.8.2.
 
Sea X una v.a. tal que E etX existe para t ∈ (−h, h) con h > 0. Si a, b son
número reales y Y = aX + b entonces

mY (t) = ebt mX (at).


8.8. FUNCIÓN GENERADORA DE MOMENTOS 233

Demostración:

Empleando la denición de la f.g.m. se tiene que

mY (t) = E eyt
 
h i
= E e(aX+b)t
= E eaXt+bt
 

= E eaXt ebt
 
h i
= ebt E e(aX)t
= ebt mX (at).


Ejemplo 8.8.2. Continuando con el ejemplo 8.8.1, con el transcurrir de los meses la entidad se ha
dado cuenta que el tiempo para que se realice la siguiente transacción a disminuido al 10 % de lo
que era anteriormente. Se quiere determinar los cambios que hubo en la media y en la dispersión de
la variable.

Solución:

Como el tiempo para que se realice la siguiente transacción a disminuido al 10 % de lo que era
anteriormente, entonces la variable objeto de estudio es Y = 0.1X . Como ya se tiene la f.g.m. de X,
basta utilizar la proposición 8.8.2 para obtener mY (t). De esta forma se obtiene que

2
mY (t) = m0.1X (t) = mX (0.1t) = .
2 − 0.1t
2
Como mx (t) = 2−t existe para −2 < t < 2, entonces mY (t) existe para −2 < 0.1t < 2, es decir, para
−20 < t < 20. Ahora, calculando los momentos se sigue que

(1) 2(0.1) (2) 4(0.1)2


mY (t) = y mY (t) = .
(2 − 0.1t)2 (2 − 0.1t)3
Por lo tanto, los momentos de Y son

(1) 2(0.1) 1 (2) 4(0.1)2 1


mY (0) = = y mY (0) = = .
(2 − (0.1)(0))2 20 (2 − (0.1)(0))3 200
En consecuencia, el coeciente de variación de Y es

σY 0.005 − 0.052
CVY = = = 100 %.
µY 0.05

Luego, se espera que la página web ahora reciba una nueva transacción cada 0.05 minuto, lo cual
se encuentra dentro del valor que la entidad bancaria puede manejar. Sin embargo, el coeciente de
variación continúa reejando una alta dispersión respecto al valor medio, lo que indica que todavía
debe haber un control persistente sobre la eciencia de los procesos de la página. 
234 CAPÍTULO 8. VARIABLES ALEATORIAS

Ejemplo 8.8.3. Un tejido producido sintéticamente necesita de ciertos niveles de precisión en la


cantidad de polietileno utilizado en su fabricación. En la producción hay desviaciones en la cantidad
de polietileno usado; estas desviaciones siguen el comportamiento de una v.a.d. con f.d.p. dada por:

2 1
fX (x) = I{−0.5,0.5} (x) + I{−0.1,0.1} (x)
5 10
donde 
1, si x ∈ A;
IA (x) =
0, en otro caso.

para cualquier conjunto A. La función IA se denomina función indicadora del conjunto A.

Se quiere determinar si la frecuencia en los errores de la cantidad de polietileno se encuentra estable, o


por el contrario, es más frecuente encontrar errores en la cantidad de polietileno debido a aplicaciones
menores o mayores a la cantidad óptima. Para indagar por esta inquietud se sabe que la medida
 
E (X − µX )3
ψX =
(E [(X − µX )2 ])3/2
da una respuesta concreta respecto a la frecuencia de los errores de la cantidad de polietileno, ya que
si ψX = 0 entonces la frecuencia con la que se da un exceso en la cantidad de polietileno es igual a la
que se obtiene cuando hay un décit en la cantidad establecida, pero si ψX > 0 o ψX < 0 entonces
hay una mayor frecuencia en los excesos o en el décit según sea el caso.

Además, se estableció que una de las máquinas del proceso ha aumentado las desviaciones en la
cantidad de polietileno en 0.33 unidades. Si antes de tener este cambio esta máquina seguía el mismo
comportamiento de la variable X, ¾cuál es el desvío esperado en la cantidad de polietileno aplicado?

Solución:

Para calcular ψX primero se calculaµX = E [X] mediante la f.g.m. de X como sigue:


 tX 
mX (t) = E e
 
X 2 1
= etx I{−0.5,0.5} (x) + I{−0.1,0.1} (x)
x
5 10
X 2 X 1
= etx I{−0.5,0.5} (x) + etx I{−0.1,0.1} (x)
x
5 x
10
2 t(−0.5) 2 t(0.5) 1 1
= e + e + et(−0.1) + et(0.1)
5 5 10 10
2 −0.5t 0.5t
 1 −0.1t 0.1t

= e +e + e +e
5 10
Ahora,
(1) 2 1
0.5e0.5t − 0.5e−0.5t + 0.1e0.1t − 0.1e−0.1t .
 
mX (t) =
5 10
Luego, µX está dada por:

(1) 2 1
µX = mX (0) = (0.5 − 0.5) + (0.1 − 0.1) = 0.
5 10
8.8. FUNCIÓN GENERADORA DE MOMENTOS 235

Por consiguiente, la fórmula de ψX para inspeccionar la tendencia de los niveles de polietileno se puede
reescribir como  
E X3
ψX =
(E [X 2 ])3/2
y en consecuencia se puede obtener ψX por medio de la f.g.m. calculando el segundo y tercer momento,
como sigue:
(2) 2 1
0.52 e0.5t + 0.52 e−0.5t + 0.12 e0.1t + 0.12 e−0.1t
 
mX (t) =
5 10
de donde
(2) 2 1
E X 2 = mX (0) = 2 0.52 + 2 0.12 = 0.102,
 
5 10
y para el tercer momento

(3) 2 1
0.53 e0.5t − 0.53 e−0.5t + 0.13 e0.1t − 0.13 e−0.1t
 
mX (t) =
5 10
de donde
(3) 2 1
E X 3 = mX (0) = 0.53 − 0.53 + 0.13 − 0.13 = 0.
   
5 10
Por lo que,
0
ψX = = 0.
(0.102)3/2
Entonces, se puede decir que la frecuencia con la que se da un exceso en la cantidad de polietileno es
igual a la que se obtiene cuando hay un décit respecto a la cantidad óptima de polietileno.

Ahora, para saber la desviación esperada para la máquina con variaciones se considera la variable
Y = X +0.33. Utilizando la f.g.m. de X se obtiene este valor esperado como se muestra a continuación:

mY (t) = mX+0.33 (t)


= e0.33t mX (t)
 
2 −0.5t 1 −0.1t
= e0.33t + e0.5t + + e0.1t
 
e e
5 10
2 0.33t −0.5t 1
+ e0.5t + e0.33t e−0.1t + e0.1t
 
= e e
5 10
2  (0.33−0.5)t (0.33+0.5)t
 1  (0.33−0.1)t 
= e +e + e + e(0.33+0.1)t
5 10
y

(1) 2 
mY (t) = (0.33 − 0.5)e(0.33−0.5)t + (0.33 + 0.5)e(0.33+0.5)t
5
1  
+ (0.33 − 0.1)e(0.33−0.1)t + (0.33 + 0.1)e(0.33+0.1)t
10
de donde

(1) 2 1
µY = mY (0) = ((0.33 − 0.5) + (0.33 + 0.5)) + ((0.33 − 0.1) + (0.33 + 0.1)) = 0.33.
5 10
Así, se concluye que el cambio en la máquina implica que la media de la desviación en la cantidad de
polietileno aplicado por la máquina sea de 0.33, lo que quiere decir que la máquina está generando
productos con un valor esperado de polietileno mayor al óptimo. 
236 CAPÍTULO 8. VARIABLES ALEATORIAS

A continuación se presenta sin demostración un teorema que facilita relacionar de forma directa la
f.g.m. de una v.a. con su distribución probabilística:

Teorema 8.8.3. Sean X y Y v.a.'s cuyas f.g.m.'s existen. Si para todo t se tiene que mX (t) = mY (t)
entonces X y Y tienen la misma distribución probabilística.

Nota. El teorema 8.8.3 permite identicar fácilmente la distribución de una v.a. dada por medio de su
f.g.m., lo que quiere decir que a través de esta función es posible precisar completamente la distribución
probabilística de una variable.

8.9. Funciones de variables aleatorias

8.9.1. Generalidades

A partir del concepto de v.a. (denición 8.1.1) se puede generar otro tipo de variables aleatorias
mediante la composición o la función de variables, lo cual es de gran utilidad para explorar diversas
características que únicamente se obtienen por medio de transformaciones.

Teorema 8.9.1. Sean X y Y dos v.a.'s tales que X:Ω→R y Y : R → R. Entonces se tiene que:

i. cX , 1/X y |X| son v.a.'s donde c es un número real.

ii. X +Y, X −Y y XY son v.a.'s.

iii. Y ◦X es una v.a. donde Y ◦ X : Ω → R : w 7−→ (Y ◦ X)(w) = Y (X(w)).

La demostración se puede consultar en Gut (2005, p. 28).

Ejemplo 8.9.1. Una empresa abrió licitaciones para un proyecto de renovación de laboratorios, la
cual emplea la siguiente ecuación para obtener los puntajes de las empresas que se presentan a la
licitación y de esta forma se pueda adjudicar el contrato:

X1 + 0.5X2 − 3X3
Y =
10
donde X1 , X2 y X3 son respectivamente las v.a.'s que representan los años cumplidos de experiencia,
la cantidad de personal en la empresa y los los años de retraso en la entrega de obras anteriores.

¾Se puede considerar a Y como una v.a.?

Solución:

Puesto que X1 , X2 y X3 son v.a.'s, en virtud del teorema 8.9.1 se tiene que Y1 = 0.5X , Y2 = 3X3 son
v.a.'s, y por lo tanto Y3 = Y1 − Y2 y Y4 = X1 + Y3 también son v.a.'s. Finalmente, Y = Y104 también
es una v.a.. 
8.9. FUNCIONES DE VARIABLES ALEATORIAS 237

Ejemplo 8.9.2. En la tabla 8.1 se presentan los puntajes de las empresas que se presentaron a la
licitación del ejemplo 8.9.1.

Empresa X1 X2 X3 Y Z ◦Y
Constructora A 10 24 1.2 18.4 0
Constructora B 9 19 0.5 17.0 0
Constructora C 11 20 0.3 20.1 1
Constructora D 15 34 3.7 20.9 1

Tabla 8.1: Datos asociados con el puntaje de las empresas constructoras participantes en la licitación.

Para determinar qué empresas pasan a la siguiente etapa se tiene un nivel de corte, el cual está dado
por la v.a. Z como sigue:

Z : R → R : z 7−→ Z(z) = I{x∈R:x>19.5} (z)

donde IA es la función indicadora del conjunto A.

¾Cuál es la v.a. que muestra que una constructora pasa a la siguiente etapa? ¾Cuáles empresas pasan
el corte?

Solución:

El espacio muestral de la variable Y es Ω = N × N × (R+ ∪ {0}), dado que las primeras dos variables
solamente asumen valores de los número enteros positivos, mientras que la última variable puede
asumir cualquier valor de los números reales positivos. Así, el puntaje de una empresa depende de los
valores que la compañía tome en las variables de estudio.

Una vez obtenido el valor de la variable Y para una empresa determinada, tiene sentido evaluar si
ésta pasa o no el corte con base en el valor registrado. Es decir, la v.a. (Z ◦ Y )(w) = Z(Y (w)) para
cada w ∈Ω es la v.a. de interés. Como se observa en la tabla 8.1, las empresas que pasan el corte
están representadas por el valor 1 en la v.a. Z ◦Y. 
Teorema 8.9.2. Si X : Ω → R es una v.a. y f : R → R es una función continua de valor real
entonces f (X) también es una v.a..

La demostración se puede consultar Gut (2005, p. 28).

Ejemplo 8.9.3. Una de las transformaciones más conocidas y empleadas en la estadística se denomina
estandarización, proceso mediante el cual se obtiene una v.a. con esperado igual a 0 y varianza igual
2
a 1. De modo que si X es una v.a. tal que E [X] = µX y Var [X] = σX entonces

X − µX
Z=
σX
es una nueva v.a. tal que E [Z] = 0 y Var [Z] = 1. Justicar.
238 CAPÍTULO 8. VARIABLES ALEATORIAS

Solución:

Se sabe que la función


x − µX
g : R → R : x 7−→ g(x) =
σX
es una función continua. Luego, por el teorema 8.9.2, se tiene que g(X) también es una v.a., por lo
que hace sentido calcular el valor esperado y la varianza de g(X). Además, aplicando las propiedades
del valor esperado y de la varianza, se sigue que
 
X − µX 1
E [Z] = E = (E [X] − µX ) = 0
σX σX
y
2
 
X − µX 1 σX
Var [Z] = Var = 2 Var [X] = 2 = 1.
σX σX σX
Otra forma de comprobar que Z es una v.a. es empleando el teorema 8.9.1. 
Ejemplo 8.9.4. Un laboratorio se encuentra realizando un experimento que tiene como objetivo
conocer sobre la expresión genética de un grupo de genes en un organismo al verse estimulado por
diferentes condiciones físicas y químicas, como luz, temperatura, humedad, pH y concentraciones
de otro tipo de sustancias. La forma en que analizan la expresión de cada gen se realiza mediante
un método indirecto que mide en realidad la cantidad de proteínas que produce el gen ante un
determinado estimulo.

Para un gen particular se han encontrado los resultados dados en la tabla 8.2. ¾Cuáles dicultades
puede tener la v.a. X dada por el número de proteínas para determinar bajo qué escenarios la
expresión génica es mayor? Dar una posible solución.

Estimulo X log(X)
pH 100 4.60517
Humedad 45,677 10.72935
Salinidad 137,893,332 18.74199
% de luz 1,245 7.12689

Tabla 8.2: Datos asociados con los valores obtenidos para el número de proteínas producidas por un determinado
gen ante diferentes estímulos.

Solución:

La dicultad para determinar bajo que escenarios la expresión génica es mayor se puede pensar como
la gran variación que tienen los valores de la variable, ya que, la diferencia entre pH y salinidad es de
más de 10 veces la cantidad obtenida en el pH, más sin embargo estas dos cantidades son más de 20
veces menores que los valores obtenidos en humedad y salinidad. Por lo tanto, directamente con estas
cantidades es complicado analizar bajo que estímulos hay una mayor expresión genética.

Una posible solución consiste en estandarizar las variables, sin embargo, como se observa en el ejemplo
8.9.3, puede que la estandarización elimine información relevante para el análisis o no logre resolver
8.9. FUNCIONES DE VARIABLES ALEATORIAS 239

el problema. Por lo tanto, otra posible alternativa es el uso de la función logaritmo, la cual reduce
la distancia entre las cantidades transformadas como se observa en la tabla 8.2, y además como la
función logaritmo es una función continua sobre los números reales positivos, entonces log(X) también
es una v.a., y por tal motivo es posible analizar estadísticamente la expresión genética a través de esta
transformación. 

8.9.2. Distribuciones de funciones de v.a.

Asumiendo que se tiene una transformación g(X) de una v.a. X , la cantidad Y = g(X) también puede
ser una v.a. según sean las especicaciones de g(X). Por consiguiente, si Y es una v.a. entonces hace
sentido preguntarse por la distribución probabilística de Y . A continuación se presentan un par de
alternativas para deducir la distribución de una función de una v.a. X :

i. Si X es una v.a.d. con f.m.p. fX y Y = g(X) entonces RY = {g(x) : x ∈ RX } y por lo tanto la


f.m.p. de Y es
fY (y) = P(Y = y) = P(g(X) = y) = P(X ∈ g −1 (y))
donde g −1 (y) = {x ∈ RX : g(x) = y}. Se observa que si g es una función uno-a-uno (detalles en
la sección C.2) entonces
fY (y) = fX (g −1 (y)).

ii. Si X es una v.a.c. con f.d.p. fX y Y = g(X) entonces se utiliza el siguiente teorema:

Teorema 8.9.3. Sea X una v.a.c. con f.d.p. fX y Y = g(X) una función diferenciable de X
uno-a-uno sobre RX . Si X = g −1 (Y ) denota la función inversa de g(X) entonces la f.d.p. de Y
está dada por:
dx
fY (y) = fX (g −1 (y))

dy
dx d −1
donde dy = dy g (y) .

Demostración:
Como g(X) es invertible y continua, entonces g(X) es monótona
creciente o monótona decreciente.
Si g(X) que es monótona creciente entonces dx dy = dx y además
dy

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(X ≤ g −1 (y)) = FX (g −1 (y))

de donde

d d d dx
fY (y) = FY (y) = FX (g −1 (y)) = fX (g −1 (y)) g −1 (y) = fX (g −1 (y)) .

dy dy dy dy
dx
Ahora, si g(X) es monótona decreciente entonces − dx
dy = dy
y además

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(X > g −1 (y)) = 1 − FX (g −1 (y))


240 CAPÍTULO 8. VARIABLES ALEATORIAS

de donde

d d d dx
fY (y) = FY (y) = (1 − FX (g −1 (y))) = −fX (g −1 (y)) g −1 (y) = fX (g −1 (y)) .

dy dy dy dy
Así, se obtiene la igualdad en cualquiera de los dos casos. 
Ejemplo 8.9.5. Con la información del ejemplo 8.2.2, se quiere una variable Y que divida en tres
escenarios el sostenimiento del laboratorio como sigue:

Y = 1 × I{0,1,...,7} (X) + 2 × I{8,9,10} (X) + 3 × I{11,12,...,15} (X).


De esta manera, 1 equivale a no auto-sostenimiento, 2 a equilibrio y 3 a éxito. Se pide encontrar la
f.m.p. de Y.

Solución:

Puesto que

P(Y = 1) = P(X ∈ {0, 1, . . . , 7})


= P(X = 0; X = 1; . . . ; X = 7)
7
X
= P(X = x)
x=0
= 0.0 + 0.01 + 0.03 + 0.02 + 0.03 + 0.05 + 0.06 + 0.07
= 0.27,
P(Y = 2) = P(X ∈ {8, 9, 10})
= P(X = 8; X = 9; X = 10)
10
X
= P(X = x)
x=8
= 0.06 + 0.09 + 0.10
= 0.25,
P(Y = 3) = P(X ∈ {11, 12, . . . , 15})
= P(X = 11; X = 12; . . . ; X = 15)
15
X
= P(X = x)
x=11
= 0.2 + 0.25 + 0.01 + 0.01 + 0.01
= 0.48,
entonces la f.m.p. de Y está dada por:


 0.27, si y = 0;
0.25, si y = 1;

fY (y) =
 0.48,
 si y = 2;
0,

en otro caso.
8.10. COMENTARIOS 241

Ejemplo 8.9.6. Continuando con el ejemplo 8.5.2, el departamento de ciencias forenses tiene la
hipótesis de que este envenenamiento proviene del suministro de agua potable, lo cual los tiene un
tanto preocupados ya que últimamente las concentraciones que han encontrado son mucho mayores;
de hecho han planteado que en este momento la nueva variable que mide la concentración de esta
sustancia es Y = X 2. ¾Cuál es la probabilidad de que encuentren niveles de cianuro mayores a 2 en el
suministro de agua potable?

Solución:

Dado que se quiere establecer P(Y > 2), se necesita la f.d.p. de Y y dado que X es una v.a.c. y
Y = X2 es una transformación continua, uno-a-uno e invertible en RX entonces por el teorema 8.9.3

para valores de Y = X2 tales que 0< y < 12 se tiene que

√ d √
fY (y) = fX ( y) y
dy
√ 1

= fX ( y) 1/2
2y
1 √ 3 1
= ( y) 1/2
5, 184 2y
3/2
1 y
=
2 × 5, 184 y 1/2
1
= y 3/2−1/2
10, 368
1
= y
10, 368
de donde  1
fY (y) = 10,368 y si 0 < y < 144;
0, en otro caso.

Ahora, como el rango de X es RX = {x : 0 < x < 12} entonces el rango de Y es RY = {y : 0 < y <
144}, y por lo tanto

144
y2 1442 − 22
Z 144
1
P(Y > 2) = ydy = = = 0.999807.

10, 368 (2)(10, 368) 2 20, 736

2

8.10. Comentarios

El término modelamiento es uno de los más empleados en la disciplina estadística, porque hace
referencia a la asunción de que un fenómeno particular tiene un comportamiento descrito por algún
242 CAPÍTULO 8. VARIABLES ALEATORIAS

constructo matemático o estadístico determinado. Un ejemplo muy sencillo, pero a la vez muy ilus-
trativo es el modelamiento del resultado del lanzamiento de un dado, el cual es modelado mediante
una v.a. que sigue una distribución donde todos los resultados son igualmente probables (detalles
en la sección 9.2). Este capítulo introduce las primeras nociones involucradas con el modelamiento,
partiendo de los fundamentos de las variables aleatorias, hasta la formalización de los conceptos de
media y varianza, entre otros.

Así, en este capítulo se hace énfasis en el concepto de variables aleatoria, las diferencias entre las
variables discretas y continuas, las distribuciones probabilísticas (de masa, de densidad y acumuladas)
y la función generadora de momentos. Estos aspectos teóricos son de vital importancia para aquellos
que deseen hacer un buen uso de la estadística y comprender modelos más interesantes y sosticados.

8.11. Ejercicios
8.1 Identicar si las siguientes v.a.'s son discretas o continuas:

a. El número de transistores defectuosos en un lote de 1000 transistores.

b. El número de robos ocurridos en un almacén en un determinado período de tiempo.

c. El tiempo requerido por un bus de una ruta determinada para realizar un trayecto dado.

d. El número de pólizas de seguros vendidas en un determinado mes por un agente de seguros.

e. El tiempo de vida de un artículo.


2
f. El punto de fatiga (en kg por cm ), de un cable de acero de 1.5 cm de diámetro.

g. El tiempo que dura un semáforo, de una determinada esquina en la ciudad, en cambiar de rojo
a verde.

h. La cantidad de gasolina consumida por un vehículo en un trayecto dado.

i. El ingreso de las empresas de un sector económico determinado.

j. La proporción de individuos de una ciudad a favor de una medida económica.

8.2 Tres personas tienen entrevistas programadas para empleo durante vacaciones. En cada caso, el
resultado de la entrevista será que les ofrezcan empleo o no. Los resultados experimentales se
denen en función de los resultados de las tres entrevistas.

a. Hacer una lista de los resultados experimentales.

b. ¾La v.a. dada por la cantidad de ofertas hechas es una v.a. discreta o continua?

c. Indicar el valor de esta variable para cada uno de los puntos muestrales.

8.3 Justicar cada una de las igualdades de la demostración de la proposición 8.2.2.

8.4 ¾Por qué el porcentaje exacto de noches en el numeral c. del ejercicio 8.2.5 es igual a 82 %?

8.5 Demostrar que


lı́m e−x = 0

x→∞
.
8.11. EJERCICIOS 243

8.6 Una empresa, que atiende pedidos por correo, tiene cinco líneas telefónicas. Sea X la v.a. que
representa el número de líneas en uso en un momento especíco. La f.d.p. de X está dada en la
siguiente tabla:

x 0 1 2 3 4 5
fX (x) 0.20 0.25 0.10 0.15 0.09 fX (x6 )

a. Calcular x6 .
b. Determinar y representar la f.d.a. de X y con esta calcular la probabilidad de cada uno de los
siguientes eventos:

1. A: a lo sumo 2 líneas están en uso.


2. B : menos de 4 líneas están en uso.
3. C : por lo menos 3 líneas están en uso.
4. D: entre 2 y 4 (ambos inclusive) líneas están en uso.

5. E : entre 2 y 5 (ambos inclusive) líneas no están en uso.

6. F : por lo menos 3 líneas no están en uso.

8.7 Una empresa de electrodomésticos ofrece a sus clientes diferentes opciones para el pago de sus
cuotas. Para un cliente seleccionado al azar, sea X la v.a. que representa el número de meses
entre pagos sucesivos. La f.d.a. de X es



 0.00, si x < 1;




 0.39, si 1 ≤ x < 4;

0.53, si 4 ≤ x < 6;
FX (x) =


 0.69, si 6≤x<8




 0.80, si 8 ≤ x < 12;

1.00, si 12 ≤ x.

a. Determinar la f.m.p. de X.
b. Calcular la probabilidad de que el número de meses entre pagos sucesivos:

1. sea estrictamente mayor que 4, pero menor o igual que 12.

2. sea estrictamente menor 4 ó mayor o igual que 8.

3. esté entre 4 y 8 meses (ambos inclusive).

4. sea mayor o igual que 8.

8.8 Determinar y justicar si las siguientes funciones son posibles ejemplos de funciones de densidad
de una v.a.c. X:

a. b.

( (
x
2, si 0 ≤ x ≤ 2; 5, si 0 ≤ x ≤ 2;
fX (x) = fX (x) =
0, en otro caso. 0, en otro caso.
244 CAPÍTULO 8. VARIABLES ALEATORIAS

c. ( d. (
e−x , si x > 0; −ex , si x > 0;
fX (x) = fX (x) =
0, en otro caso. 0, en otro caso.

8.9 Considerar la siguiente f.d.p. de una v.a.c. X:


( √
k x + 1, si 0 < x < 1;
fX (x) =
0, en otro caso.

Determinar el valor de k.

8.10 Considerar la v.a. X que representa las utilidades diarias (en millones de pesos) de una empresa
que pertenece a un sector económico determinado. La f.d.p. de X está dada por:

( 1 2
xe− 2 x , si x > 0;
fX (x) =
0, en otro caso.

a. Vericar que fX es una f.d.p. autentica.

b. Encontrar la f.d.a. de X.
c. ¾Cuál es la probabilidad de que las ganancias

1. sean de a lo sumo de 2 millones de pesos?

2. estén entre 1 y 2 millones de pesos?

3. no superen los 3 millones y medio de pesos?

8.11 La función de distribución de una v.a. X está dada por:

FX (x) = (1 − (1 + x)e−x )I(0,∞) (x)

a. ¾Cuál es el rango de X?
b. ¾La variable es discreta o continua?

c. Con la función de distribución calcular:

1. P(X < 2).


2. P(1 < X < 3).
3. P(X > 4).
d. Encontrar una expresión para la f.d.p. de X.
e. Calcular el valor esperado de X.

8.12 La duración en horas que un empleado tarda en hacer una tarea determinada es una v.a. X con
f.d.a. dada por:
( 1
1 − e− 20 x , si x > 0;
FX (x) =
0, en otro caso.

a. Hallar la f.d.p. de X.
8.11. EJERCICIOS 245

b. Calcular la probabilidad de que la duración del empleado haciendo la tarea exceda las 50 horas.

c. Determinar una fórmula general para calcular un percentil p de esta distribución.

d. Calcular e interpretar el percentil 90.

8.13 Un distribuidor de computadores, vende tres modelos diferentes de computadores con capacidad
de 200 GB, 250 GB y 300 GB del disco duro. Sea X la v.a. que representa a la cantidad de
espacio del disco duro de un computador comprado por el siguiente cliente. La f.m.p. de X está
dada por:

x 200 250 300


fX (x) 0.29 0.31 x3

a. Calcular x3 .
b. Calcular e interpretar E[X] y CVX .
c. Si el precio de un computador con capacidad X GB de disco duro es Y = 15X − 3, calcular e
interpretar E[Y ] y CVY .
d. Mientras la capacidad nominal de un computador es X, la capacidad real es Z = X2 − X.
Calcular e interpretar E[Z] y CVZ .

8.14 Sea X es una v.a. y a es un número real. Demostrar que si:

a. Y = aX entonces CVX = CVY .


b. Y =X +a y a≥0 entonces CVX ≥ CVY .
c. Y =X +a y a≤0 entonces CVX ≤ CVY .

8.15 Una empresa compra varios computadores último modelo al nal de cada año. El número exacto
depende de la frecuencia de reparaciones en el año anterior. Sea X la v.a. que representa el número
de computadores último modelo que la empresa compra al nal cada año. La f.m.p. de X está
dada por:

x 0 1 2 3
fX (x) 1/4 3/16 1/4 x4

a. Calcular el x4 .
b. Calcular e interpretar E[X] y CVX .
c. Si el costo del modelo que se desea permanece jo a $2,830,451 a lo largo de este año y se
2
obtiene un descuento de $100,000X en cualquier compra, ¾cuánto espera gastar esta empresa
en nuevos computadores al nal de este año?

8.16 Una compañía fabrica paquetes de minas para portaminas. El número de minas por paquete
varía, como se indica en la tabla de abajo. El costo (en pesos) de fabricar un paquete de minas es
2X + 1, 000, donde X es el número de minas por paquete. El ingreso por la venta de un paquete,
independientemente del número de minas que contenga, es de $3,000. Si el benecio se dene como
la diferencia entre el ingreso y el costo, hallar e interpretar la media y el coeciente de variación
del benecio por paquete.
246 CAPÍTULO 8. VARIABLES ALEATORIAS

Número de minas 7 8 9 10 11 12 13
Porcentaje 0.21 0.29 0.03 0.20 0.10 0.04 0.13

  2
8.17 Demostrar que si X es una v.a. entonces E X 2 ≥ (E [X]) .

8.18 Si la utilidad diaria (en millones de pesos) de un distribuidor de computadores se puede ver
como una v.a. X cuya f.d.p. está dada por:

(
2(3−x)
5 , si 0 < x < 1;
fX (x) =
0, en otro caso.

a. Hallar e interpretar el valor esperado y el coeciente de variación de la utilidad por computador.

b. ¾Cuál es la ganancia media por computador del distribuidor si la ganancia en cada uno está
dado por 2X 2 + 2X + 1?

8.19 Un vendedor recibe un salario anual de $12,000,000, más un 5 % del valor de las ventas que
realiza. Las ventas anuales pueden representarse mediante una v.a. con media $20,000,000 de
pesos y desviación típica de $2,000,000. Hallar la media y el coeciente de variación del ingreso
anual de este vendedor.

8.20 Sea X una v.a. denida por la f.d.a. dada por



 0, si x < −2;
0.4, si −2 ≤ x < 0.5;

FX (x) =

 0.8, si 0.5 ≤ x < 3;
1, x ≥ 3.

si

a. Hallar la f.m.p. de X.
b. Calcular E[X] y CVX .

8.21 Sea X una v.a. que representa las utilidades diarias (en millones de pesos) de una empresa. Esta
variable tiene f.d.p. dada por:


 0.1, si −1 ≤ x ≤ 0;
fX (x) = kx + 0.2, si 0 < x ≤ 1;
0,

en otro caso.

a. Determinar el valor de k.
b. Hallar la f.d.a. de X.
c. ¾Cuál es la probabilidad de que en un día determinado esta empresa tenga

1. ganancias?

2. pérdidas?

3. ganancias superiores a $500,000?

4. pérdidas superiores a un $1,000,000?

d. Calcular e interpretar P(0 ≤ X ≤ 0.5) y P(X > 0.5|X > 0.1).


8.11. EJERCICIOS 247

e. Calcular e interpretar E[X] y CVX .


f. Si las utilidades aumentan 8.5 % calcular e interpretar nuevamente el valor esperado y el coe-
ciente de variación.

8.22 La cantidad aleatoria de dinero ahorrado por una persona en un mes tiene la siguiente f.d.a.:


 0, si x < 0;
x

 2,

 si 0 ≤ x < 1;
1
FX (x) = 2, si 1 ≤ x < 2;
x
 4, 2 ≤ x < 4;


 si
x ≥ 4.

1, si

donde la v.a. X está expresada en cientos de dólares.

a. Calcular la función de probabilidad de X.


b. Determinar la probabilidad de que, en un mes la cantidad de dinero ahorrado sea

1. superior a 200 dólares.

2. inferior a 450 dólares.

3. superior a 50 dólares y menor ó igual a 250 dólares.

c. Calcular el ahorro mensual medio y el coeciente de variación correspondiente.

d. Calcular nuevamente el ahorro mensual medio y el coeciente de variación si el ahorro mensual


aumenta 100 dólares.

8.23 La demanda X, expresada en toneladas, de un determinado producto es una v.a. cuya f.d.p. es:

x

k, si 2 ≤ x ≤ 4;
fX (x) =
0, en otro caso.

a. Determinar el valor de k.
b. Calcular e interpretar la media y la mediana de X.
c. Calcular e interpretar el coeciente de variación de X.
d. El fabricante del producto sabe que cada kilo vendido reporta un benecio de 12 dólares, y
cada kilo que queda sin vender supone una pérdida de 6 dólares. Es por tanto, importante
para él establecer cuál es la cantidad a fabricar. Si el criterio para establecer dicha cantidad es
maximizar la ganancia esperada, determinar cuál es la fabricación óptima.

8.24 Una caja contiene 8 artículos, de los cuales 3 son defectuosos. Se selecciona un artículo de la caja
y se prueba. Si éste sale defectuoso se selecciona y se prueba otro artículo, hasta que se escoja
uno que no sea defectuoso. Hallar el número esperado de artículos seleccionados.

8.25 Sea X una v.a. cuya f.d.a. está dada por:



 0, si x ≤ 0;
FX (x) = x3 , si 0 < x < 1;
1, x ≥ 1.

si

Se pide:
248 CAPÍTULO 8. VARIABLES ALEATORIAS

a. La f.d.p. de X.
b. El valor esperado de X y el coeciente de variación de X.
c. La mediana de X.
d. El coeciente de variación de 1.2X + 1.

8.26 El tiempo (en días) que tarda un administrador en hacer una auditoría su puede modelar con la
f.d.p. dada por:
fX (x) = k(x + 1)I(2,4) (x)

a. Determinar el valor de la constante k.


b. Encontrar la f.d.a. de X.
c. Con la f.d.a. calcular la probabilidad de que el administrador tarde:

1. más de 3 días en hacer la auditoria.

2. a lo más 2.5 días en hacer la auditoria.

3. entre 3 y 3.5 días en hacer la auditoria.

d. Calcular e interpretar E [X] y CVX .


e. Teniendo en cuenta que si hay retrasos logísticos el tiempo que tarda un administrador en
hacer la auditoria aumenta en 1.5 días, calcular nuevamente el valor esperado y el coeciente
de variación. Comparar los resultados con los obtenidos en el numeral anterior.

8.27 Teniendo en cuenta que


 
E (X − µX )4
ξX = −3
(E [(X − µX )2 ])2
es una medida de apuntamiento de la distribución de X y que
h i
2
= E (X − E [X])3 /(E (X − E [X]) )3/2
 
ψX

es una medida de simetría de la distribución de X, se pide calcular e interpretar E [X], CVX , ξX


y ψ para cada una de las siguientes densidades

a. b. c.

k
fX (x) = kxex I(−100<x<0) (x). fX (x) = k log(x)I(1<x<17) (x). fX (x) = I(−51<x<−17) (x).
x

No olvidar calcular el valor de k en cada caso.

8.28 Sea X una v.a. que representa el tiempo (en horas) que tarda un empleado en ejecutar una labor
administrativa cuya f.d.p. está dada por:

k(x2 + 1),

si 0 < x < 3;
fX (x) =
0, en otro caso.

Se pide:
8.11. EJERCICIOS 249

a. Determinar el valor de k.
b. Hallar la f.d.a. de X.
c. Calcular e interpretar E[X] y CVX .
d. Hallar e interpretar la probabilidad de que X esté comprendida entre 1 y 2.

e. Calcular e interpretar P(X < 1), P(X < 2|X > 1) y P(|X − µX | ≥ 2σX ).

8.29 Con objeto de establecer un plan de producción, una empresa ha estimado que la demanda alea-
toria de sus potenciales clientes se comportará semanalmente de acuerdo con la f.d.p.dada por:

3
− 2x2 ),

8 (4x si 0 ≤ x ≤ 2;
fX (x) =
0, en otro caso.

donde la v.a. X está expresada en millones de unidades. ¾Qué cantidad c deberá tener dispuesta
a la venta, al comienzo de cada semana, para poder satisfacer la demanda en dicho periodo con
una probabilidad de 0.5?

8.30 La duración en horas que un empleado tarda en hacer una tarea es una v.a.c. X cuya f.d.p. está
dada por:
100

fX (x) = x2 , x > 100;
0, en otro caso.

Se pide:

a. Calcular la f.d.a. de X.
b. Calcular e interpretar las siguientes probabilidades:

1. P(X > 110).


2. P(120 < X ≤ 150).
3. P(X ≤ 180).
c. Calcular e interpretar la probabilidad de que un empleado tarde menos de 200 horas si se sabe
que este trabajador durará haciendo la tarea más de 150 horas.

d. Hallar e interpretar E[X] y CVX .


e. Calcular e interpretar los cuartiles.

8.31 Con objeto de establecer un plan de producción, una empresa ha estimado que la demanda alea-
toria de sus potenciales clientes se comportará semanalmente con arreglo a la ley de probabilidad
denida por la función de densidad

3
− 2x2 ),

8 (4x si 0 ≤ x ≤ 2;
fX (x) =
0, en otro caso.

donde X viene expresada en millones de unidades. ¾Qué cantidad C deberá tener dispuesta a la
venta, al comienzo de cada semana, para poder satisfacer la demanda en dicho periodo con una
probabilidad de 0.5?
250 CAPÍTULO 8. VARIABLES ALEATORIAS

8.32 El tiempo de vida (en cientos de horas) de un artículo es una v.a. con f.d.a. dada por:


0, si x < 0;
FX (x) = 2
1 − e−x , si x ≥ 0.

Se pide:

a. Obtener la f.d.p. de X.
b. Calcular la probabilidad de que un determinado artículo dure más de 200 horas.

c. Calcular e interpretar E[X] y CVX .

8.33 Sea una v.a. X, que tiene como f.d.p.:

x+6

k , si −6 ≤ x ≤ 4;
fX (x) =
0, en otro caso.

a. Determinar el valor de k.
b. Hallar la f.d.a. de X.
c. Calcular e interpretar E[X] y CVX .
d. Hallar c si P(c < x < c + 1) = 0.09.

8.34 Sea X una v.a. que mide el precio de los productos vendidos en una tienda en decenas de miles
de pesos. La f.d.p. es
kxk−1 ,

si 0 < x < 1;
fX (x) =
0, en otro caso.

a. Determinar el valor de k.
b. Encontrar la f.d.a. de X.
c. Calcular e interpretar P(0.3 < X < 0.8).
d. Calcular e interpretar E[X] y CVX .
e. Calcular la mediana de X.

8.35 Una v.a. X tiene la siguiente f.d.p.

1

 49 (7
+ x), si −7 ≤ x ≤ 0;
fX (x) = k(7 − x), si 0 < x ≤ 7;
0,

en otro caso.

Determinar el valor de k.

8.36 Una v.a. X tiene como f.d.p. la función


1 − mx, si 2 ≤ x ≤ 4;
fX (x) =
0, en otro caso.

Se pide:
8.11. EJERCICIOS 251

a. Determinar el valor de m.
b. Calcular la f.d.a. de X.
c. Calcular e interpretar E[X] y CVX .
d. Calcular e interpretar los cuartiles.

8.37 Se tiene una v.a. denida como en el ejemplo 8.2.5. Ahora el interés es la v.a. Y = 2X + 1. Se
pide:

a. La f.d.p. de Y.
b. Calcular E[Y ] con base en fY .
c. Calcular E[Y ] con base en E[X].

8.38 Teniendo en cuenta la v.a. X denida en el ejemplo 8.1.1, si se realizan apuestas alrededor de los
resultados de la variable X , obteniendo las siguientes ganancias: 5,000 si X toma el valor 1, 3,000
si toma el valor 2, 500 si toma el valor 3 y 0 si toma el valor 0. Determinar:

a. La f.m.p. de las ganancias.

b. La ganancia esperada y la varianza de las ganancias.

c. La f.g.m. de X.
d. La f.g.m. de las ganancias.

8.39 Para estudiar la variable X que representa el tiempo (en minutos) en el que una célula encuentra
el alimento (como en el ejemplo 8.3.2) se ha propuesto la siguiente f.d.a. dada por:

FX (x) = 1 − e−x/5 I(0,∞) (x).

Se tiene la hipótesis que el tiempo en el que una célula encuentra el alimento esta relacionado con
el tamaño de la célula mediante una relación directa denida por Y = 0.15X + 0.8.

a. Determinar la f.d.p. de Y.
b. Calcular e interpretar E [X] y CVX .
c. Encontrar la f.g.m. de X, si existe.

d. Calcular por medio de la f.g.m. el primer y segundo momento de X.


e. Comparar los resultados con los obtenidos en numerales anteriores.

f. Realizar una gráca de la f.g.m. de X y de su primera y segunda derivada.

8.40 La v.a. que representa la proporción de accidentes automovilísticos fatales en una ciudad (como
en el ejemplo ??), tiene la f.d.p. dada por:
42x(1 − x)5 ,

si 0 < x ≤ 1;
fX (x) =
0, en otro caso.

a. Calcular e interpretar E [X] y CVX .


b. Calcular e interpretar µ̃X y µ̆X .
252 CAPÍTULO 8. VARIABLES ALEATORIAS

c. Calcule P(|X − 0.25| ≤ 0.1).


d. Obtener una cota para la probabilidad de encontrar proporciones de accidentes que disten en
0.1 de la proporción de accidentes esperada, empleando la media y la varianza de la proporción
de accidentes.

8.41 Se está trabajando con la hipótesis de que el ritmo cardíaco (en latidos por minuto (lpm)) de las
personas sin problemas cardíacos sigue la f.d.p. dada por:

fX (x) = k(110 − X)2 I[0,200] (x).

Se cree que el ritmo cardíaco de las personas que sufren de taquicardia se relacionan con un nivel
estable en el ritmo cardíaco bajo la relación 2(X − 10). Se quiere determinar:

a. El valor de k.
b. La probabilidad de que una persona sin problemas cardíacos tenga su ritmo cardíaco:

1) entre 80 y 140 lpm.

2) abajo de 60 lpm.

3) arriba de 200 lpm.

4) La probabilidad de que una persona sin problemas cardíacos tenga su ritmo cardíaco a lo
más a 30 lpm del ritmo cardíaco esperado de una persona sin problemas cardíacos.

c. Una cota para la probabilidad de que una persona sin problemas cardíacos tenga su ritmo
cardíaco a lo mas a 30 lpm del ritmo cardíaco esperado de una persona sin problemas cardíacos.

8.42 Un laboratorio está tratando de replicar el ambiente de los bosques tropicales. Para esto deben
simular varias de las condiciones climáticas que allí se presentan como por ejemplo la pluviosidad.
En particular, para esta característica están manejando el siguiente sistema probabilístico:

fX (x) = k|30 − X|I[1,90] (x).

Con esta información se quiere:

a. El valor de k.
b. El valor esperado y el coeciente de variación de la pluviosidad.
2
c. La mediana y la moda de la pluviosidad.

d. La f.g.m. de la pluviosidad, si existe.

e. Una cota para la probabilidad de que la pluviosidad se encuentre máximo a 7 unidades de la


pluviosidad esperada.

f. La probabilidad exacta del numeral anterior.

Además, para simular la temperatura, utilizan la siguiente relación:

T = 50 − P/2.

donde T es la temperatura y P la pluviosidad. Calcular nuevamente lo numerales anteriores para


la temperatura.

2 Sea X una v.a. con f.m.p. fX si X es discreta o con f.d.p. fX si X es continua. Una moda de X (si existe), denotada
con µ̆X , es el número real que maximiza globalmente fX .
8.11. EJERCICIOS 253

8.43 La concentración (en porcentaje) de endornas producidas por cierto organismo se rige por la
f.d.p. dada por:
1
fX (x) = (0.005120709)e 2,000 x I[15,200] (x)
Se quiere determinar:

a. La media y el coeciente de variación de la concentración de endornas.

b. La mediana y la moda de la concentración de endornas.

c. Una cota para la probabilidad de que la concentración de endornas sea mayor a 150. Suge-
rencia : emplear el teorema 8.7.1.

d. Una cota para la probabilidad de que la concentración de endornas se encuentre a una distancia
de la media no menor a 30.

e. La probabilidad exacta de los dos numerales anteriores.

8.44 Determinar la f.g.m. de la v.a. X con f.d.p. dada por:



1 − |x|, si −1 < x < 1;
fX (x) =
0, en otro caso.

8.45 Sea X una v.a.d. con f.m.p. dada por:

k

fX (x) = 4x , si x = 1, 2, 3, . . .;
0, en otro caso.

Hallar el valor de k.
8.46 Demostrar que si f y g son f.d.p. y λ es una número real tal que 0 < λ < 1 entonces λf + (1 − λ)g
también es una f.d.p..

8.47 Sea X una v.a. y a y b números reales. Establecer si cada expresión es falsa o verdadera y justicar.
a. Var[X] ≥ 0.
b. Var[aX] = a2 V ar[X].
c. Var[X + b] = V ar[X].
8.48 En una investigación se considera la variable X que representa el porcentaje de reactivo disuelto
en la tierra. Se desconoce la distribución probabilística de X , lo cual representa un inconveniente
para el aval comercial de la investigación, ya que se debe garantizar que los valores de X no van
a distar en más de 13.5 puntos porcentuales de la media, con una probabilidad de 0.975. Lo único
2
que se puede asegurar de la variable es que µX = 0.5 y que σX = 8.4. ¾Qué se puede decir acerca
del aval comercial de la investigación?

8.49 Calcular el valor de k para que la siguiente función sea una f.d.p.:

x2 , 0 < x2 < k ;

si
f (x) =
0, en otro caso.

¾Cuál es la media, la varianza y función generadora de momentos de una variable con esta distri-
bución?
Capı́tulo 9
Distribuciones discretas

9.1. Introducción

Se ha visto en el capítulo 8 el concepto de v.a. distinguiendo dos tipos: discretas y continuas. A


continuación se estudian algunas distribuciones probabilísticas de uso común que son de especial
importancia porque representan los modelos teóricos de los fenómenos aleatorios más frecuentes.

Como se sabe, la distribución probabilística de una v.a.d. X está denida si se conoce su f.m.p. fX (·)
o su f.d.a. FX (·). Además, cuando se tiene la distribución probabilística de X , es posible determinar el
valor esperado, la varianza y la f.g.m., que permiten obtener las medidas estadísticas que caracterizan
la variable de estudio.

9.2. Distribución uniforme discreta

La distribución uniforme discreta tiene lugar cuando el rango de una v.a. es un conjunto nito cuyos
valores son equiprobables.

254
9.2. DISTRIBUCIÓN UNIFORME DISCRETA 255

Denición 9.2.1. Se dice que una v.a.d. X que asume los valores
x1 , x2 , . . . , xn tiene una distribución uniforme discreta de paráme-
tro n si la f.m.p. de X está dada por:

 1
fX (x; n) = n , si x = x1 , x2 , . . . , xn ;
0, en otro caso.

donde n es un número entero positivo.

Nota. Cuando una v.a. X tiene distribución uniforme discreta de parámetro n se escribe X ∼ U (n).
1
Es claro que caso todos los valores de del rango de X tienen la misma probabilidad, a saber,
n.

Proposición 9.2.1. Si X es una v.a. tal que X ∼ U (n) entonces:

n2 −1
n+1 1