You are on page 1of 161

Ernesto Sánchez • Santiago Inzunsa • Greivin Ramírez

PROBABILIDAD

Sánchez • Inzunsa • Ramírez


Y ESTADÍSTICA

El aprendizaje despliega las alas de la libertad


PROBABILIDAD
Probabilidad y Estadística II proporciona al estudiante los co-
nocimientos necesarios para el cálculo de probabilidades y el
análisis descriptivo de datos de dos variables, como un funda-
Y ESTADÍSTICA
mento para comprender diversos fenómenos que se presen-
tan en la economía, administración, en las ciencias sociales,
experimentales y en general en cualquier actividad humana.

PROBABILIDAD Y ESTADÍSTICA II
Está totalmente apegado tanto en forma como en conte-
nido, al programa actualizado mediante la reforma curricular
del Bachillerato General.
Este libro se desarrolla con un enfoque constructivista y
un atractivo diseño enriquecido con las siguientes secciones:

• En contacto con tus conocimientos: establece un puen-


te entre los conocimientos que posee el alumno y los
que va a adquirir.
• Una ventana al conocimiento: novedosas lecturas o blo-

II
ques informativos relacionados con el contenido desa-
rrollado en cada unidad.
• Evaluación formativa: aparece estratégicamente a lo
largo del texto para confirmar que el alumno vaya asimi-
lando los nuevos conocimientos.
• Evaluación sumativa: contiene diversos reactivos ca-
paces de demostrar si el estudiante logró aprender el
tema.
• Ampliando el conocimiento: incluye un glosario y biblio-
grafía sugerida.

Esperamos que este libro sea una herramienta nove-


dosa, interactiva y útil para desarrollar en los estudiantes la
capacidad de análisis al interpretar datos de diversos fenó-
menos y situaciones que se presentan en la vida cotidiana y
profesional.
B a c h i l l erat o G e n era l
Patria

ISBN 978-607-438-029-3

www.editorialpatria.com.mx
Ernesto Alonso Sánchez Sánchez
Santiago Inzunsa Cazares
Greivin Ramírez Arce

PRIMERA EDICIÓN EBOOK


MÉXICO, 2014

GRUPO EDITORIAL PATRIA


info editorialpatria.com.mx

www.editorialpatria.com.mx

Dirección editorial: Javier Enrique Callejas


Coordinación editorial: Alma Sámano Castillo
Diseño de interiores: Juan Castro (Trocas)
Diseño de portada: Juan Bernardo Rosado Solís
Imágenes: Jupiter Images Unlimited

Revisión Técnica:
M.F. Ricardo Robles Reyes

Probabilidad y Estadística II
para DGB

Derechos reservados:
©2014, Ernesto Alonso Sánchez Sánchez, Santiago Inzunsa Cazares,
Greivin Ramírez Arce
©2014, GRUPO EDITORIAL PATRIA, S.A. de C.V.
Renacimiento 180, Col. San Juan Tlihuaca,
Delegación Azcapotzalco, Código Postal. 02400, México, D.F.

Miembro de la Cámara Nacional de la Industria Editorial Mexicana


Registro núm. 43

ISBN ebook: 978-607-744-034-5

Queda prohibida la reproducción o transmisión total o parcial del contenido de la presente


obra en cualesquiera formas, sean electrónicas o mecánicas, sin el consentimiento previo y por
escrito del editor.

Impreso en México
Printed in Mexico

Primera edición ebook: 2014


DEDICATORIA

Dedico esta obra a mi querida esposa Verónica


y a mis hijas Luciana y Paulina,
por su apoyo y comprensión.

iii
PRESENTACIÓN

Estimados profesores y estudiantes:


El propósito de esta obra es apoyar al docente en la tarea de proporcionar a sus estudiantes las
herramientas iniciales, teóricas y prácticas, de la probabilidad y la estadística, así como mostrar
la forma de aplicarlas en el conocimiento del mundo en que vivimos. El alumno encontrará
aquí los conceptos básicos que prescribe el programa y que se presentan en contextos signi-
ficativos.
El estudio de la estadística es fundamental para ser un ciudadano consciente y crítico, y
un profesional informado y responsable. La sociedad actual se caracteriza por generar grandes
cantidades de información cuantitativa y la estadística se presenta como la responsable de pro-
cesarla, darle credibilidad y comunicarla. Los profesionales y los ciudadanos en general deben
ser capaces de entender algunos de los procesos del manejo de la información y evaluar, con
base en la evidencia (datos), la fuerza de las afirmaciones que de ella se desprenden. No obs-
tante, aún falta mucho para que la mayoría de los ciudadanos, incluyendo los profesionales,
actúen de manera inteligente frente a la información estadística, ya sea porque no la entienden
o porque la aceptan acríticamente. En el presente libro, se pretende atacar esta deficiencia.
Su enfoque didáctico ofrece una oportunidad para que los estudiantes desarrollen un pen-
samiento estadístico y obtengan los conocimientos necesarios para usar las técnicas propias de
la materia. Entre sus características principales es la de formular problemas de interés para el
alumno y sugerir soluciones obtenidas a partir de la recolección y el análisis de datos reales.
Este segundo volumen se encuentra dividido en cuatro unidades que son:
1. Probabilidad conjunta
2. Distribución de probabilidad de variables aleatorias discretas
3. Distribución de probabilidad de variables aleatorias continuas
4. Análisis de datos de dos variables
En ellas se incluyen problemas estadísticos y de probabilidad en diversos escenarios. La expo-
sición se complementa con tres secciones que enriquecen el contenido básico, a saber:
• En contacto con tus conocimientos,
• Una ventana al conocimiento y
• La estadística y tu comunidad.
Se proponen también diferentes tipos de ejercicios, problemas y pequeñas investigaciones
para que el estudiante los realice y consolide así sus conocimientos.
Esperamos que la presente obra sea útil para los alumnos y estaremos atentos a cualquier
crítica y sugerencia para mejorarla.

Los autores

v
CONTENIDO

UNIDAD 1 PROBABILIDAD CONJUNTA................................................................ 2


1.1 Definición de probabilidad conjunta ............................................................. 6
1.2 Eventos mutuamente excluyentes ................................................................. 8
1.2.1 Regla de la adición ................................................................................ 8
1.3 Eventos independientes ............................................................................... 11
1.4 Probabilidad condicional ............................................................................. 13
1.4.1 Fórmula de la probabilidad condicional ............................................. 14
1.4.2 Regla del producto .............................................................................. 18
1.4.3 Probabilidad total................................................................................ 21
1.4.4 Teorema de Bayes (versión simple)..................................................... 25

UNIDAD 2 DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES


ALEATORIAS DISCRETAS .........................................................32
2.1 Distribución de probabilidad de una variable aleatoria discreta .................. 34
2.1.1 Variable aleatoria discreta ................................................................... 35
2.1.2 Representación de una distribución de probabilidad ......................... 36
2.2 Distribución de probabilidad binominal ..................................................... 50
2.2.1 Experimento de probabilidad binomial............................................... 50
2.2.2 Función de probabilidad binominal .................................................... 52
2.2.3 Media y desviación estándar de la distribución
de probabilidad binomial ..................................................................... 65

UNIDAD 3 DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES


ALEATORIAS CONTINUAS .......................................................76
3.1 Distribución de probabilidad de una variable aleatoria continua ................ 78
3.1.1. Distribución de probabilidad normal ................................................ 82
3.2 Distribución de probabilidad normal estandarizada.................................... 87

UNIDAD 4 ANÁLISIS DE DATOS DE DOS VARIABLES ............................106


4.1 Representación de datos de dos variables .................................................. 108
4.2 Correlación lineal ...................................................................................... 129
4.3 Regresión lineal ......................................................................................... 133

ANEXO ...................................................................................................145
Tabla 1 Valores de la distribución de probabilidad binomial P(X 5 x) ......... 145
Tabla 2 Para un valor dado de Z, la probabilidad tabulada
corresponde a P(Z # z). .................................................................... 151
Tabla 3 Para un valor dado de z, la probabilidad tabulada
corresponde a P(Z # z). .................................................................... 152

1
Probabilidad conjunta
Contenido

Tema 1
1.1 DEFINICIÓN DE PROBABILIDAD
CONJUNTA

Tema 2
1.2 EVENTOS MUTUAMENTE
EXCLUYENTES

Tema 3
1.3 EVENTOS INDEPENDIENTES
Tema 4
1.4 PROBABILIDAD CONDICIONAL

Objetivo
El estudiante resolverá proble-
mas de probabilidad condicional
en diversas situaciones entre las
que se distinguirán aquellas que
sean significativas en el ámbito
escolar y personal. Para ello,
aprenderá a identificar y aplicar
las operaciones de eventos
(complementación, unión y con-
junción) y a calcular sus proba-
bilidades utilizando la regla de la
probabilidad del complemento,
regla de la adición (o suma) y la
regla de la multiplicación para
eventos dependientes e inde-
pendientes; además, entenderá y
aplicará el teorema de Bayes. Se
fomentará el trabajo colaborativo
y una actitud positiva hacia la
materia y sus compañeros.
Unidad 1
i e n t o s
En contacto con

tu s c o n o c i m
• Imagina una situación en la que esperas que ocurran dos eventos
simultáneamente. Por ejemplo, considera los dos eventos siguientes:
“tener dinero para invitar a alguien al cine” y “que ese alguien acepte ir
al cine con uno”. ¿Qué es más fácil: que ocurra uno de los eventos o que
ocurran ambos?

• Sean A y B dos eventos de una experiencia aleatoria. ¿En cuál de los


siguientes incisos hay una afirmación cierta?
a) P (A y B ) < P (A )
b ) P (A y B ) > P (A )
c) No se puede decir la relación de orden entre P (A y B ) y P (A ), ya que
depende de la identidad de A y B.

• ¿Qué es más probable?


a) “Que una madre con ojos azules tenga una hija con ojos azules”.
b) “Que una hija con ojos azules tenga una madre con ojos azules”.
c) “Ambos eventos son igualmente probables”.

Después de responder intuitivamente, elabora un modelo de población con


madres e hijas (por ejemplo, utiliza tarjetas de una misma forma que repre-
senten madres y otras que representen hijas) en el que algunas madres ten-
gan ojos azules y otras ojos negros; lo mismo debe suceder con las hijas. Haz
parejas de madres e hijas de diversas maneras y en cada caso responde las
preguntas formuladas.
¿Te sorprende el resultado? Vuelve a responder las preguntas y argumenta
tu respuesta.
_______________________________________________________
_______________________________________________________
_______________________________________________________
_______________________________________________________
_______________________________________________________
PROBABILIDAD Y ESTADÍSTICA II

INTRODUCCIÓN
Una buena parte del cálculo de probabilidades consiste en encontrar la probabilidad
de eventos combinados a partir de otros más simples cuyas probabilidades se conocen.
Por ejemplo, se puede conocer la probabilidad de dos eventos y querer calcular la pro-
babilidad de que ocurran ambos, es decir, de la probabilidad conjunta. En ocasiones
se puede tener control sobre un evento pero no sobre otro y entonces cabe preguntarse
por la probabilidad de que ocurra éste dado que ocurrirá aquél. Algunas relaciones en-
tre eventos se definirán en este capítulo y se encontrarán maneras de calcular su proba-
bilidad, estos procedimientos darán origen a los conceptos de probabilidad conjunta,
eventos mutuamente excluyentes, eventos independientes, probabilidad condicional,
regla del producto, probabilidad total y teorema de Bayes.
Los conceptos anteriores, por un lado, son la base para el desarrollo de la teoría
de probabilidades y, por otro, tienen diversas aplicaciones en situaciones de incerti-
dumbre. En la sección de “Ventana al conocimiento” se han incluido dos ejemplos de
contextos en los que se presentan los conceptos estudiados en esta Unidad, a saber,
una relacionada con los datos sobre la mortalidad por hipertensión arterial y otra rela-
cionada con las leyes de la herencia descubiertas por Mendel. Muchos ejemplos como
los mencionados podrán ser investigados por los estudiantes si entienden las ideas aquí
expuestas.

Una ventana al conocimiento


CASI 8 MILLONES DE PERSONAS MUEREN AL AÑO POR HIPERTENSIÓN
El 80% de los casos ocurre en los países en vías de desarrollo según la investigación realizada por la
Sociedad Internacional de Hipertensión

LONDRES (Télam).2Cerca de ocho millones de personas en el mundo mueren


cada año por hipertensión y 80% de estas muertes ocurre en los países en vías
de desarrollo, informó la revista médica The Lancet. Una nueva investigación
publicada por dicho medio señaló que 4 de cada 5 muertes por hipertensión
ocurren en los países en desarrollo. El estudio realizado por la Sociedad Inter-
nacional de Hipertensión, se llevó a cabo en la Universidad de Auckland, Nueva
Zelanda. Se trata de uno de los primeros estudios que investigan a nivel mundial
la extensión y distribución de la carga de esta enfermedad cardiovascular. La
hipertensión es un trastorno caracterizado por presión sanguínea crónicamente
alta y si no se lo controla puede conducir a derrames cerebrales, insuficiencia
cardiaca o infartos.
Para la investigación, los científicos compararon las tasas de la enfermedad
según edades, sexo y regiones del mundo en el año 2001. Encontraron que la
hipertensión había causado 7 600 000 muertes prematuras (13.5% del total glo-
bal) y 92 millones de discapacidades. Según los autores del estudio, 54% de

4
PROBABILIDAD CONJUNTA

los accidentes cerebro-vasculares y 47% de las enfermedades cardiacas en el


mundo se debieron a hipertensión. Más de la mitad de estas enfermedades
ocurrieron en personas con una presión sistólica de 140 mmHg y de entre
45 y 69 años de edad. La investigación reveló que 80% de las muertes por
hipertensión ocurrió en los países de bajos y medianos ingresos.
Mientras que en los países ricos hubo 1390 000 muertes, la cifra alcanzó
6 220 000 en los países en vías de desarrollo. Aunque la hipertensión pue-
de causar dolores de cabeza, mareos y problemas de visión, la mayoría de
la gente no presenta ningún síntoma en absoluto y por eso se la llama “el
asesino invisible”.
Según Stephen MacMahon, uno de los autores del estudio, la tasa de la
enfermedad es cinco veces más grande en los países de bajos y medianos
ingresos que en los países ricos. “Y sin embargo, en esas regiones sólo tienen
acceso a menos de 10% de los recursos globales para tratamientos”, agregó.
Según la Organización Mundial de la Salud, unos 17 millones de personas,
30% de la población mundial, mueren cada año por algún tipo de enferme-
dad cardiovascular.
Y la hipertensión 2junto con otros factores de riesgo como el sobrepeso,
la obesidad, el tabaquismo y la inactividad física2 son responsables de hasta
90% de estas muertes.

Presión sanguínea
La presión sanguínea está determinada por la cantidad de sangre bombeada por el corazón y por el tamaño y condición
de las arterias. Cuando se toma se presentan dos lecturas 2la presión sistólica y la diastólica2 que se miden en milí-
metros de mercurio (mmHg). La primera se refiere a la fuerza de la sangre expulsada del corazón cuando éste late para
bombear alrededor del cuerpo, y la diastólica es la presión cuando el corazón se está llenando de nuevo con sangre en
preparación para el siguiente latido. Para la mayoría de la gente es deseable una presión sanguínea de menos de 130/85
mmHg.

5
PROBABILIDAD Y ESTADÍSTICA II

¿Cuál es la probabilidad de muerte por hipertensión arterial?

Entre los habitantes de países en desarrollo, ¿cuál es la probabilidad de muerte por hipertensión arterial?

Fuente: http://www.lanueva.com/edicion_impresa/nota/5/05/2008/855123.html
[Tomado de: http://www.taringa.net/posts/info/ 1206171/Estadisticas-sobre-Hipertension-Arterial.html]

1.1 DEFINICIÓN DE PROBABILIDAD CONJUNTA


Dada una experiencia aleatoria con espacio muestral V y dos eventos A y B, se define
un nuevo evento llamado conjunción de A y B, que se denota con A > B, de la si-
guiente manera: A > B ocurre siempre que ocurra A y ocurra B; es decir, que ocurran
ambos simultáneamente.
A la probabilidad de A > B, que se simboliza P(A > B), se le llama probabilidad
conjunta de A y B.
Si el espacio muestral es equiprobable, la probabilidad conjunta se calcula me-
diante la ecuación:
P(A > B) 5 (Cardinalidad de A y B) / Cardinalidad de V

Ejemplos
a) En el lanzamiento de un dado, sea A el evento “ocurre un número par” y B el
evento “ocurre un número mayor que 3”. ¿Cuál es la probabilidad conjunta de
A y B?
Solución: Ω
El espacio muestral es V 5 {1, 2, 3
3, 4, 5, 6}
Los eventos A y B son: A 5 {2, 2 4 6 5
4, 6} y B 5 {4, 5, 6}; de donde
A > B 5 {4, 6}; entonces: P(A >
B)52/6 1

Gráfica 1.1

6
PROBABILIDAD CONJUNTA

b) En el título y subtítulo del artículo sobre la hipertensión se identifican los even-


tos: “muerte por hipertensión” y “pertenecer a un país en desarrollo”. Conviene
representarlos así:
H: muerte por hipertensión
D: pertenecer a un país en desarrollo
El evento conjunto de esos eventos es:
H > D: “muerte por hipertensión de alguien que pertenece a un país en
desarrollo”.
La experiencia aleatoria que subyace en el artículo se puede pensar así: “tomar
a un ciudadano del mundo y observarlo durante el año en estudio”. Uno de los
eventos definidos se pregunta si muere o no de hipertensión; otro, si pertenece
a un país en desarrollo.
La probabilidad del evento H > D se calcula con el cociente de las muertes por
hipertensión en los países en desarrollo (6 220 000) entre el número de perso-
nas en el mundo durante el año del estudio. Aunque el artículo no informa cuál
es la población mundial, ofrece datos para estimarla, cuando afirma:
Según la Organización Mundial de la Salud, unos 17 millones de personas,
30% de la población mundial, mueren cada año por algún tipo de enfermedad
cardiovascular.
Entonces la población mundial debe ser aproximadamente de 56.7 millones de
personas. Sustituyendo tenemos:

6 220 000
P(H > D) 5 ≅ 0.11
56700 000
Así, la probabilidad de que alguien de un país en desarrollo muera por hiper-
tensión durante un año determinado sería aproximadamente de
11%; un porcentaje muy grande. Esta información debe llevar-
nos a tener más cuidado con esta enfermedad.

NOTA: Para el problema 3 que sigue, considera que una cade-


na es una secuencia de águilas o soles; por ejemplo, la
secuencia de cuatro volados representados por AASA
está formada por tres cadenas, a saber: AA, S, A, cuyas
longitudes son respectivamente 2, 1, 1.

7
PROBABILIDAD Y ESTADÍSTICA II

Evaluación formativa
1. Con base en el primer párrafo del artículo sobre hipertensión, aproximadamente ¿cuántas muertes por
esta enfermedad ocurren cada año en los países en desarrollo?
2. ¿Cuál es la probabilidad de que durante un año alguien en el mundo muera por hipertensión arterial?
3. Se lanza una moneda cuatro veces y se observan dos variables: a) el número de “soles” que ocurren y
b) la longitud de la cadena más larga
¿Cuál es la probabilidad de que se obtengan dos soles y de que la cadena más larga sea 2?
4. Se lanzan dos dados, uno rojo y otro azul, y se observan los resultados. Sea A el evento “que la suma sea
6, 7 u 8” y B el evento “que el resultado del dado rojo sea 1, 2 o 3”. ¿Cuál es la probabilidad de A y B?

1.2 EVENTOS MUTUAMENTE EXCLUYENTES


Dada una experiencia aleatoria con espacio muestral V, se dice que dos eventos A y
B (que pertenecen a V) son mutuamente excluyentes si no pueden ocurrir simul-
táneamente; es decir, si ocurre A no ocurre B y a la inversa, si ocurre B no ocurre A.

Ejemplos
a) Decir que dos eventos son mutuamente excluyentes equivale a decir que su
conjunción es vacía, lo cual se simboliza de la siguiente manera: A > B 5 Φ,
donde Φ representa el evento imposible (conjunto vacío). Al representar dos
eventos en un diagrama de Venn se deben ver separados, esto indica que no
tienen elementos en común, como en el siguiente diagrama:

A B

Gráfica 1.2

b) Se lanza un dado. Los eventos “ocurre 2 o 4” y “ocurre un número impar” son


mutuamente excluyentes, ya que si después de lanzar el dado ocurrió 2, en-
tonces no ocurrió número impar; si ocurrió 4 tampoco ocurrió número impar,
etcétera.

1.2.1 Regla de la adición


Cuando dos eventos son mutuamente excluyentes, la probabilidad de la unión es la
suma de las probabilidades, es decir:
P(A < B) 5 P(A) 1 P(B)
Si los eventos no son mutuamente excluyentes, se tiene la ecuación:
P(A < B) 5 P(A) 1 P(B) 2 P(A > B)

8
PROBABILIDAD CONJUNTA

Una ventana al conocimiento


Para ver esta propiedad considera lo siguiente:
Primero definimos la diferencia entre dos conjuntos de la A B
siguiente forma (A 2 B) 5 “Los elementos que están en A y
que no están en B”; en un diagrama de Venn este conjunto se
representa como en la página 1.6: A2B
Entonces se tienen las siguientes igualdades:
A 5 (A 2 B) < (A > B), donde los eventos (A 2 B) y (A >
B) son ajenos.
B 5 (B 2 A) < (A > B), donde los eventos (B 2 A) y (A > B) son ajenos.
A < B 5 (A 2 B) < (B 2 A) < (A > B), donde los eventos (A 2 B), (B 2 A), (A > B) son mutuamente excluyentes.
Por tanto, al sacar la probabilidad a ambos miembros de cada una de las anteriores igualdades y al aplicar la regla de que
para eventos ajenos la probabilidad de una suma es la suma de las probabilidades se tiene:
P(A) 5 P(A 2 B) 1 P(A > B) (1)
P(B) 5 P(B 2 A) 1 P(A > B) (2)
P(A<B) 5 P(A 2 B) 1 P(B 2 A) 1 P(A > B) (3)
Por lo tanto, sumando (1) y (2) y restando (3) se obtiene:
P(A) 1 P(B) 2 P(A < B) 5 P(A > B)
de donde P(A<B) 5 P(A) 1 P(B) 2 P(A > B).

Evaluación formativa
1. En una población de personas adultas se han considerado tres valores de la variable “estado civil” y se
encuentran en los porcentajes siguientes: solteros (50%), casados (30%) y divorciados (20%).
¿Son los eventos “ser soltero” y “ser divorciado” mutuamente excluyentes?

¿Cuál es la probabilidad de que alguien de esa población sea soltero o divorciado?

2. Se lanza un dado y es A el evento “el número de la cara que ocurre es un número par” y B el evento “el
número de la cara que ocurre es un número primo”. ¿Son los eventos mutuamente excluyentes? ¿Cuál
es la probabilidad de que al menos uno de ellos ocurra?
3. En una experiencia aleatoria se tienen dos eventos A y B con P(A ) 5 1/3;
P(B ) 5 1/4; P (A < B) 5 1/2. Hallar P(A > B).
4. Si se tienen tres eventos A, B, C de una experiencia aleatoria, se puede
definir el evento “que ocurra al menos uno de los tres eventos”; y se
simboliza así: A < B < C. Hay una fórmula para la probabilidad de
A < B < C en términos de las siguientes probabilidades:
P (A ), P (B), P(C ), P (A > B), P(A > C ), P(B > C ) y P(A > B > C )
Investiga cuál es esa fórmula.

9
PROBABILIDAD Y ESTADÍSTICA II

Una ventana al conocimiento


Leyes de Mendel (1865)
• Primera ley o Principio de la uniformidad: “Cuando se cruzan dos individuos de raza pura, los híbridos resultantes
son todos iguales entre sí.” El cruce de dos individuos homocigotas, uno dominante (AA) y otro recesivo (aa), origina
sólo individuos heterocigotas, es decir, los individuos de la primera generación filial son uniformes entre ellos (Aa).
• Segunda ley o Principio de la segregación: “Ciertos individuos son capaces de transmitir un carácter aunque en ellos
no se manifieste.” El cruce de dos individuos de la F1 (Aa) dará origen a una segunda generación filial en la cual reapa-
rece el fenotipo “a”, a pesar de que todos los individuos de la F1 eran de fenotipo “A”. Esto hace presumir a Mendel que
el carácter “a” no había desaparecido, sino que sólo había sido “opacado” por el carácter “A”, pero que al reproducirse
un individuo, cada carácter segrega por separado.
• Tercera ley o Principio de la transmisión independiente: Esta ley hace referencia al cruce polihíbrido (monohíbri-
do: cuando se considera un carácter; polihíbrido: cuando se consideran dos o más
caracteres). Mendel trabajó este cruce en guisantes, en los cuales las características
que él observaba (color de la semilla y rugosidad de su superficie) se encontraban
en cromosomas separados. De esta manera, observó que los caracteres se transmi-
tían independientemente unos de otros. Esta ley, sin embargo, deja de cumplirse
cuando existe linkage (dos genes estan en loci muy cercanos y no se separan en la
meiosis).

NOTA: Algunos autores obvian la Primera Ley de Mendel, y por tanto llaman Primera Ley al Principio de la segregación
y Segunda Ley al Principio de la transmisión independiente (para estos mismos autores, no existe una Tercera Ley).

Experimentos de Mendel
Mendel inició sus experimentos eligiendo dos plantas de guisantes que diferían en un carácter, cruzó una variedad de planta
que producía semillas amarillas con otra que producía semillas verdes, estas plantas forman la generación parental (P).
Como resultado de este cruce se produjeron plantas que producían nada más que semillas amarillas; repitió los cruces
con otras plantas de guisante que diferían en otros caracteres y el resultado era el mismo: se producía un carácter de los
dos en la generación filial. Al carácter que aparecía le llamó Dominante y al que no, recesivo. En este caso el color ama-
rillo es dominante frente al color verde.
Las plantas obtenidas de la generación parental se denominan primera generación filial (F1).
Mendel dejó que se autofecundaran las plantas de la primera generación filial y obtuvo la segunda generación filial
(F2) compuesta por plantas que producían semillas amarillas y plantas que producían semillas verdes en una proporción
3:1 (3 de semillas amarillas y 1 de semillas verdes). Repitió el experimento con otros caracteres diferenciados y obtuvo
resultados similares en una proporción 3:1.
De esta experiencia sacó la primera y segunda leyes.
Más adelante, Mendel decidió comprobar si estas leyes funcionaban en plantas diferenciadas en dos o más caracteres, eligió
como generación parental plantas de semillas amarillas y lisas y plantas de semillas verdes y rugosas.
Las cruzó y obtuvo la primera generación filial compuesta por plantas de semillas amarillas y lisas, la primera ley se cumplía:
en la F1 aparecían los caracteres dominantes (amarillos y lisos) y no los recesivos (verde y rugosos).
Obtuvo la segunda generación filial autofecundando la primera generación filial y obtuvo semillas de todos los estilos po-
sibles, plantas que producían semillas amarillas y lisas, amarillas y rugosas, verdes y lisas y verdes y rugosas, las contó y probó
con otras variedades y se obtenían en una proporción 9:3:3:1 (9 plantas de semillas amarillas y lisas, 3 de semillas amarillas y
rugosas, 3 de semillas verdes y lisas y una planta de semillas verdes y rugosas).
De esta experiencia dedujo la Tercera Ley de Mendel.
[Tomado de: http://es.wikipedia.org/wiki/Gregor_Mendel]

10
PROBABILIDAD CONJUNTA

1.3 EVENTOS INDEPENDIENTES


Dado un experimento aleatorio con espacio muestral V, se dice
que dos eventos A y B (que pertenecen a V) son independientes si
la ocurrencia de A no modifica la probabilidad de la ocurrencia de
B y a la inversa, la ocurrencia de B no modifica la probabilidad
de la ocurrencia de A.
Ejemplo
Se lanza un dado. Sea A el evento “ocurre número par” y B el even-
to “ocurre un número múltiplo de 3”. ¿Son independientes A y B?
Para que se entienda la expresión de que “la ocurrencia de A no
modifica la probabilidad de la ocurrencia de B” piensa de la si-
guiente manera:
Juan y Pablo juegan a los dados. Juan gana si ocurre el evento B.
Pablo lanza el dado y cae en un lugar en el que Juan no puede
ver el resultado, pero Pablo sí lo ve. Juan le pregunta a Pablo:
¿qué ocurrió? Pablo le responde: “ocurrió el evento B”. Como
Juan no sabe si ocurrió o no el evento A, sigue en incertidumbre,
pero ahora sabe que el resultado es “un múltiplo de 3” (evento
B); con esta información se pregunta: ¿tengo más, menos o igual
probabilidad de que “ocurra un número par” (evento A)?
Para responder esta pregunta se debe hacer el siguiente análisis:
Como ocurrió el evento B, se sabe que el resultado es 3 o 6 (múl-
tiplos de 3). Entonces la probabilidad de que ocurra el evento
A 5 “sale un número par”, con la información de que ocurrió
el evento B, es 1/2. Esto se escribe así: P(A | B) 5 1/2 y se lee “la
probabilidad de A dado que B ocurre es igual a un medio”.
Pero la probabilidad original de que ocurra el evento A es exac-
tamente 3 sobre 6, que es igual a 1/2. Como la ocurrencia del
evento B no modificó la probabilidad de ocurrir del evento A, A
y B son independientes.
Si la probabilidad del evento B es diferente de cero, la condición
de independencia se puede reformular así:
A y B son independientes si P(A | B) 5 P(A)

Evaluación formativa
1. En sus experimentos sobre las leyes de la herencia, Mendel empleó el cruzamiento de plantas con
diferentes caracteres para observar los de las plantas descendientes. Propuso fijarse en las semillas
de plantas, por ejemplo chícharos o guisantes, y observar dos variables: forma y color de la semilla.

11
PROBABILIDAD Y ESTADÍSTICA II

La forma puede tomar dos valores: liso y rugoso. El color también puede tomar dos valores: amarillo y
verde.
Una primera observación es:
a ) Que el evento “la semilla de un descendiente es rugosa” es mutuamente excluyente del evento “la
semilla de un descendiente es lisa”.
b ) El evento “la semilla de un descendiente es amarilla” es mutuamente excluyente del evento
“la semilla de un descendiente es verde”.

Una de sus conclusiones afirma que la forma de la semilla es independiente de su color; es decir,
a ) El evento “un descendiente tiene forma rugosa” es independiente del evento “un descendiente
tiene semilla color amarilla”.
b ) El evento “un descendiente tiene forma lisa” es independiente del evento “un descendiente tiene
semilla color amarilla”.
c ) El evento “un descendiente tiene forma rugosa” es independiente del evento “un descendiente
tiene semilla color verde”.
d ) El evento “un descendiente tiene forma lisa” es independiente del evento “un descendiente tiene
semilla color verde”.
En un experimento cruzó plantas con ambos tipos de semilla y a los descendientes los autofecundó
para obtener una segunda generación, de la cual resultaron 556 semillas: 315 lisas y amarillas; 108
lisas y verdes.

Si se sabe que las características son independientes, ¿cuántas semillas “rugosas y amarillas” y cuántas
“rugosas y verdes” se esperan?
Utiliza la siguiente notación:
A: semilla color amarilla
V: semilla color verde
L: semilla lisa
R: semilla rugosa
2. El tirador A pega 80% de las veces a una zona del blanco. El
tirador B pega 90% de las veces en la misma zona del blan-
co. Cuando ambos tiradores disparan hacia el mismo blanco,
¿cuál es la probabilidad de que los dos disparos peguen en el
blanco?

3. La fabricación de un producto pasa por dos procesos: uno reali-


zado por una máquina A y otro por una máquina B. Hay 5% de
probabilidad de que la máquina A produzca un defecto y 3% de
que la máquina B lo produzca. Si se desecha un producto cuando
tiene defectos de ambos procesos, ¿cuál es la probabilidad de
desechar un producto?

12
PROBABILIDAD CONJUNTA

1.4 PROBABILIDAD CONDICIONAL


El valor de una tirada
El nacimiento de la probabilidad se asocia con el nombre de Pascal.
Varios historiadores (Todhunter, 1865; Hald, 1990) narran que el
Caballero de Méré (un hombre culto aficionado a los casinos) le
propuso varios problemas de juegos de azar a Pascal, que a su vez
los discutió por correspondencia con Fermat en 1654. El plantea-
miento de uno de ellos no aparece en las cartas que aún se conser-
van, pero gracias a la respuesta que da Fermat a Pascal se infiere
que debe ser semejante al siguiente:
Una apuesta se juega entre dos personas de la manera siguiente:
uno de ellos va a arrojar el dado ocho veces y si obtiene al me-
nos una vez la cara marcada con el seis se lleva la apuesta, en
caso contrario se la lleva su oponente. Si el primer jugador re-
nuncia de antemano a su cuarta tirada, ¿qué parte de la apuesta
se le debe retribuir? O, en otros términos, ¿cuál es el valor de
esa cuarta tirada?
Esta forma de preguntar es muy diferente del modo en que ahora
se formulan en probabilidad. Sin embargo, es interesante observar que la pregunta se
refiere al valor de una tirada para la persona que arroja los dados. El valor que se quiere
encontrar es la medida de un evento. El evento en cuestión es ganar todo el juego exac-
tamente en la cuarta tirada, es decir, “obtener un 6 exactamente en la cuarta tirada y no
antes”.
El pago que recibiría el jugador es lo que se llamó el valor de la cuarta tirada. La
solución de Fermat es la siguiente:
Si tengo que obtener al menos un seis en ocho lanzamientos; y si, después de hechas
las apuestas, coincidimos que no haré el primer lanzamiento, entonces, de acuerdo
[con] mi teoría, debo tomar en compensación 1/6 de la suma total por este primer
lanzamiento.
Una manera de entender el significado de “tomar en compensación” una cantidad
por “no hacer el primer lanzamiento” es imaginar que el primer jugador vende su
primera tirada. ¿Cuánto tiene que pagar el segundo jugador por esa tirada? La res-
puesta es 1/6 de la apuesta que está en juego. Fermat continúa:
Si además coincidimos que no haré el segundo lanzamiento, debo en compensa-
ción obtener una sexta parte del resto que viene a ser 5/36.
La idea aquí es calcular el valor de las dos primeras tiradas. Es curiosa la manera en que
la calcula Fermat como 1/6 del resto. Como en la primera tirada se había quitado de la
apuesta 1/6, quedan 5/6. Fermat dice que el valor de esta segunda tirada es 1/6 de lo que
queda, es decir, 1/6 por 5/6, que es igual a 5/36.

13
PROBABILIDAD Y ESTADÍSTICA II

Si, después de esto, coincidimos en que no hago el tercer lanzamiento, debo


tener, de indemnización, un sexto de la cantidad restante, es decir, debo obtener
25/216 del total.
Lo que queda de la apuesta original después de “la venta” de las dos primeras tiradas
es: 5/6 2 5/36 5 30/36 25/36 5 25/36; una sexta parte de esto es 25/216.
Y después de que coincidimos, nuevamente, que no haré el
cuarto lanzamiento, debo otra vez tener un sexto de lo que
es dejado, que es 125/1296 del total, y coincido con usted en
que éste es el valor del cuarto lanzamiento, suponiendo que
uno ya se ha arreglado sobre los lanzamientos previos.
Fermat percibió que el valor de la cuarta tirada está relacionado con los valores de las
tres tiradas previas; en particular, si ocurriera el 6 en algunas de las tres primeras, la
cuarta pierde valor, pues la apuesta sería tomada por el primer jugador. Si no ocurriera
el 6 en ninguna de las tres primeras tiradas, el valor de la cuarta sería 1/6. Al leer la
respuesta de Fermat a Pascal se deduce que este último no había distinguido bien
la diferencia entre el valor de la tirada al principio del juego y el valor de la cuarta
tirada una vez transcurridos los tres primeros resultados. Al final, concordaron que
el procedimiento de Fermat era la solución correcta.

Evaluación formativa
Pedro gira una ruleta, como la de la gráfica 1.3, cuatro veces y gana si la flecha señala rojo al menos una
vez. ¿Cuál es el valor de su tercera tirada?

Gráfica 1.3

1.4.1 Fórmula de la probabilidad condicional


El problema general de este capítulo es: ¿cómo se modifica la probabilidad de un
evento si se puede contar con la información de que otro evento ocurre?
La diferencia entre Fermat y Pascal sobre cómo considerar el valor de la cuarta
jugada lo ilustra: Fermat estableció el valor de la cuarta jugada al principio del juego;
mientras que, al parecer, Pascal pensó en el valor de la cuarta jugada una vez realiza-
das las tres primeras, pero llegaba al mismo resultado: 125/1296. Fermat notó que el
valor de la cuarta tirada, una vez realizadas las tres primeras, en las cuales no salió 6,
debe ser simplemente 1/6; ésta es una probabilidad condicional.

14
PROBABILIDAD CONJUNTA

Definición. Sean A y B dos eventos de una experiencia aleatoria, de modo que


P(A) . 0; la probabilidad condicional de B dado que A ocurre,
que se simboliza con la expresión P(B | A), se define como:
P(A > B)
P(B | A) 5
P(A)

Con un diagrama de Venn se puede representar el concepto de probabilidad con-


dicional. Grafiquemos dos eventos A y B en un diagrama:

Ω
A B

Gráfica 1.4

Suponer que el evento A ha ocurrido significa reducir el espacio muestral al even-


to A, que ahora iluminamos en el diagrama:

Ω
A B

Gráfica 1.5

En este nuevo espacio muestral el evento B queda reducido a la intersección


A > B:

Ω5A B5A y B

Gráfica 1.6

15
PROBABILIDAD Y ESTADÍSTICA II

por ello la probabilidad de B es simplemente el cociente entre la probabilidad de la


intersección y la probabilidad de A.

Ejemplos
1. Dos personas juegan a lanzar un dado dos veces sucesivas. El primer jugador gana
si la suma de los puntos de las caras es mayor que o igual a 7. En otro caso,
gana el segundo jugador.
a) ¿Cuál es la probabilidad de que gane el primer jugador?
b) Si se realiza el primer lanzamiento y sale la cara con 3 puntos, ¿cuál es la
probabilidad de que el primer jugador gane?

Solución:
a) Hay que tener en cuenta el espacio muestral del lanzamiento de dos dados:

(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)

(1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)

(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)

(1, 4), (2, 4), (3, 4), (4, 4), (5, 4), (6, 4)

(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)

(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)

El evento G “la suma es mayor o igual a 7” está formado por los elementos de la
parte sombreada del espacio muestral que se presenta en seguida:

(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)

(1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)

(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)

(1, 4), (2, 4), (3, 4), (4, 4), (5, 4), (6, 4)

(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)

(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)

De donde la probabilidad de que gane el primer jugador es: P(G) 5 21/36


57/12.
b) Si al lanzar el primer dado ocurre el 3, el espacio muestral se reduce a la
parte sombreada que se presenta a continuación:

16
PROBABILIDAD CONJUNTA

(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)

(1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)

(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)

(1, 4), (2, 4), (3, 4), (4, 4), (5, 4), (6, 4)

(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)

(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)

De este nuevo espacio muestral, G gana si ocurre (3, 4), (3, 5) o (3, 6); es decir,
con probabilidad 3/6 5 1/2.
Si llamamos T al evento “ocurre en el primer dado la cara tres”, se tiene:
P(G | T ) 5 1/2
Observaciones: G > T es el evento “mayor que o igual a 7 y el primer dado cae
3”; hay tres elementos que lo cumplen, de donde: P(G > T)5 3/3651/12.
Además, como P(T) 5 6/36 5 1/6, al aplicar la fórmula de probabilidad con-
dicional se tiene:
P(G | T ) 5 P(G > T)/P(T) 5 (1/12) / (1/6) 5 6/12 5 1/2
Noten que el que haya ocurrido 3 en el primer lanzamiento no fue lo mejor
para el primer jugador, pues su probabilidad original de ganar era 7/12, pero
después del primer lanzamiento en el que ocurrió 3, su probabilidad de ganar
disminuye a 1/2.
2. Mediante estadísticas es posible calcular la probabilidad de que una persona
tomada al azar de una población padezca de presión alta; sería el cociente de las
personas que sufren de presión alta entre el total de la población. Sin embargo,
dicha probabilidad puede aumentar o disminuir si se considera cierta informa-
ción. Por ejemplo, si se observa sólo a los mayores de 60 años, la probabilidad
de presión alta para este grupo no será la misma que para toda la población.
Si se denota con A el evento de tener la presión alta, P(A) será la probabilidad
de que una persona al azar tenga presión alta. Si se denota con E el evento de
“ser mayor de 60 años”, P( A | E) será la probabilidad de que una persona tenga
presión alta dado que tiene más de 60 años.
Para calcular esta probabilidad bastaría saber el número de personas que tienen
presión alta de entre los mayores de 60 años y dividirlo entre el número de
personas mayores de 60 años;

# de personas con presión alta y mayorres de 60


P( A | E ) 5
# de personas mayores de 60 años

17
PROBABILIDAD Y ESTADÍSTICA II

Al dividir el numerador y el denominador entre el total de la población se en-


cuentra una expresión más cómoda en términos de probabilidades:
# de personas con presión alta y mayorees de 60
Total de la población P(A
A > E)
P( A | E ) 5 5
# de personas mayores de 60 años P(E )
Total de la población
Hemos visto que hay eventos que son mutuamente excluyentes, esto significa
que si ocurre uno no puede ocurrir el otro y viceversa.

Evaluación formativa
1. En los estudios socioeconómicos se suelen clasificar las familias en diferentes niveles de acuerdo con
algunas variables, como “posesión de auto” o “posesión de computadora”, entre otras. Ver por ejemplo:
http://www.amai.org/pdfs/revista-amai/revista-amai-articulo-20050427_132827.pdf

Cierto estudio arroja que en una ciudad 40% de las familias


tiene auto, 50% computadora y 35% auto y computadora. Si
se elige una familia al azar de esa ciudad, responde:
a ) ¿Cuál es la probabilidad de que alguien que tenga auto
tenga computadora?
b ) ¿Cuál es la probabilidad de que alguien que tenga compu-
tadora tenga auto?
2. Una moneda bien balanceada se lanza tres veces. ¿Cuál es
la probabilidad de obtener tres águilas dado que al menos
ocurrieron dos águilas?
3. Se elige en forma aleatoria un número del 1 al 21. ¿Cuál es
la probabilidad de que sea divisible entre 3 dado que no
es divisible entre 2?

1.4.2 Regla del producto


Con base en la fórmula de la probabilidad condicional:
P(A > B)
P(B | A) 5
P(A)
Por simple despeje, se puede obtener la fórmula para la conjunción de dos
eventos:
P(A > B) 5 P(A) 3 P(B | A)
Se lee: “La probabilidad conjunta de A y B es igual a la probabilidad de A por la
probabilidad condicional de B dado que ocurrió A”.

18
PROBABILIDAD CONJUNTA

Un ejemplo ilustrará cómo se utiliza esta fórmula.


Una urna tiene 10 bolas negras y 5 bolas blancas.
Se extraen sucesivamente y sin reemplazo dos bolas
de la urna. ¿Cuál es la probabilidad de que las dos
sean blancas?
Sea B1 el evento de que en la primera extracción se
obtenga bola blanca: P(B1) 5 5/15 5 1/3.
Sea B2 el evento de que en la segunda extracción
se obtenga bola blanca. En lugar de calcular la pro-
babilidad de B2, es más fácil calcular la probabilidad
condicional de B2 dado que ocurre B1. Esta probabi-
lidad es 4/14, pues del evento B1 se deduce que a la
urna original se le sacó una bola blanca y quedan 4
blancas de un total de 14.
El evento de que ambas bolas sean blancas es: B1
> B2, entonces, por la regla del producto se tiene:
P(B1 > B2) 5 P(B1) × P(B2 | B1) 5 5/15 3 4/14
En el ejemplo anterior, P(B2 | B1) no se calculó mediante la fórmula, sino observando
la situación de la urna después de haber ocurrido B1. De haber intentado calcular B2
mediante la fórmula se hubiera caído en un círculo vicioso, se necesitaría P(B1 > B2)
lo cual precisamente se quería calcular.
La regla del producto puede representarse en un diagrama como el que aparece
abajo. Al final de cada rama aparece un evento y sobre la rama la probabilidad del
evento dado que ocurrió el evento al comienzo de la rama. Las dos primeras ramas no
tienen eventos al comienzo, pero sí las siguientes. Para obtener la probabilidad con-
junta de dos eventos basta multiplicar las probabilidades de las ramas que los juntan.
En el extremo derecho aparecen las probabilidades de P(A > B1), P(Ac > B1), P(A >
B2), P(Ac > B2), respectivamente:

P(A | B1) A P(B1)P(A | B1)


B1
P(Ac | B1) Ac P(B1)P(Ac | B1)
P(B1)

P(B2)
P(A | B2) A P(B2)P(A | B2)
B2
P(Ac | B2) Ac P(B2)P(Ac | B2)

Gráfica 1.7

19
PROBABILIDAD Y ESTADÍSTICA II

Ejemplo
Una caja A contiene tres bolas numeradas del 1 al
3 y otra caja B contiene 4 bolas numeradas del 1
al 4. Si al lanzar un dado cae la cara con 6 puntos,
se elige la caja A y de ella se saca una bola al azar.
Si el dado no cae con la cara de 6 puntos, se elige
la caja B y de ella se saca una bola al azar. ¿Cuál
es la probabilidad de elegir la caja A y obtener una
bola con número par?, ¿y cuál es la probabilidad
de elegir la caja A y obtener impar?, ¿cuál es la pro-
babilidad de elegir la caja B y obtener par?, ¿cuál la
de elegir la caja B y obtener impar?
Con el diagrama se puede representar el proble-
ma de la siguiente forma:

1 1
Par 3
1 6 3
3
3
2 1
2
Caja A
1 3 1 2
Impar 3
6 6 3

5 5 1
Par 3
6 1 6 2
1 2 2
4 3
1
Caja B
2 5 1
Impar 3
Gráfica 1.8 6 2

En la columna de la derecha aparecen las expresiones de las probabilidades soli-


citadas, de donde:
La probabilidad de elegir la primera urna y obtener par es: 1/18.
La probabilidad de elegir la primera urna y obtener impar es: 2/1851/9
La probabilidad de elegir la segunda urna y obtener par es: 5/12
La probabilidad de elegir la segunda urna y obtener impar es: 5/12

20
PROBABILIDAD CONJUNTA

Evaluación formativa
1. De los estudiantes de una escuela de bachillerato,
1/3 son hombres y 2/3 son mujeres. Una encuesta
reveló que 1/5 de los hombres y 2/7 de las mujeres
elegirán una carrera en la opción de ciencias. Si se
elige un estudiante al azar, ¿cuál es la probabilidad
de que sea hombre y quiera estudiar una carrera en
la opción de ciencias? ¿Cuál es la probabilidad de
que sea mujer y no elija una carrera en la opción
de ciencias?
2. Si P(E ) 5 1/4, P (F | E ) 5 1/2 y P (E | F ) 5 1/3, calcula P (F ).

3. La probabilidad de sobrevivir a una operación es 0.9. Si se supera la operación, la probabilidad de no


recobrar la salud es de 0.2. ¿Cuál es la probabilidad de sobrevivir a la operación y recobrar la salud?

4. Una caja A contiene 10 bolas numeradas del 1 al 10 y otra caja B contiene 20 bolas numeradas del
1 al 20. Si se lanza un dado y cae una cara con 1
o 2 puntos, se elige la caja A y de ella se saca una
bola al azar. Si la cara del dado no es la de 1 o 2
puntos, entonces se elige la caja B y de ella se saca
una bola al azar. ¿Cuál es la probabilidad de elegir
la caja A y obtener un múltiplo de 3?, ¿y cuál la de
elegir la caja A y obtener impar? ¿Cuál es la proba-
bilidad de elegir la caja B y obtener un múltiplo de
3?, ¿y cuál la de elegir la caja B y obtener impar?

1.4.3 Probabilidad total


En una experiencia aleatoria con espacio muestral V, un par de eventos B1 y B2 for-
man una partición del espacio muestral si se cumple lo siguiente:

a) B1 > B2 5 Φ
b) B1 < B2 5 V
Una partición B1 y B2 se puede representar en un diagrama de Venn como sigue:

B1 B2
Gráfica 1.9

21
PROBABILIDAD Y ESTADÍSTICA II

Cualquier evento en ese espacio muestral se puede dividir en dos partes: una
perteneciente a B1 y otra a B2, esta idea se expresa simbólicamente de la siguiente
manera.
Sea A un evento de V y B1 y B2 una partición, entonces A se puede expresar así:
A 5 (A > B1) < (A > B2) (1)
Donde los eventos (A > B1) y (A > B2) no tienen elementos en común.
Lo anterior se puede representar en un diagrama de Venn como el que aparece a
continuación, donde la elipse representa el evento A, el cual está dividido en dos par-
tes: una dentro de B1, que se representa por A > B1; otra dentro de B2 que se representa
por A > B2:

A y B1 A y B2

B1 B2

Gráfica 1.10

Con base en la expresión: A 5 (A > B1) < (A > B2) se tiene lo siguiente:

P(A) 5 P(A > B1) 1 P(A > B2)

Por la regla del producto P(A > B1) 5 P(B1) P(A | B1) y
P(A > B2) 5 P(B2) P(A | B2) y se tiene:
P(A) 5 P(B1) P(A | B1) 1 P(B2) P(A | B2) (2)

La expresión (2) es la fórmula de la probabilidad total.

Ejemplos
1. La probabilidad de que un alumno estudie para una prueba es
0.7 (y de que no estudie es 0.3). Si estudia, pasa la prueba con
probabilidad de 0.8; si no estudia, pasa con probabilidad 0.4.
¿Cuál es la probabilidad de que el estudiante pase la prueba?

22
PROBABILIDAD CONJUNTA

Definamos los siguientes eventos:


A 5 “el estudiante pasa la prueba”.
B1 5 “el estudiante estudia para la prueba”.
B2 5 “el estudiante no estudia para la prueba”.
Obsérvese que B1 y B2 son una partición del espacio muestral.
Se tiene que: P(A | B1) 5 0.8; P(A | B2) 5 0.4; P(B1) 5 0.7; P(B2) 5 0.3
Entonces:
P(A) 5 (0.7)(0.8) 1 (0.3)(0.4) 5 0.68
2. Sean U1 y U2 dos urnas. U1 contiene 20 bolas negras y 10 azules; mientras que
U2 contiene 5 bolas negras y 15 azules.

U1 U2

Gráfica 1.11

Si se lanza un dado, puede suceder lo siguiente:


Si cae {1, 2}, de la urna 1 se extrae una bola al azar.
Si cae {3, 4, 5, 6}, de la urna 2 se extrae una bola al azar.
¿Cuál es la probabilidad de que la bola sea negra?
Sea B1 el evento “elegir la urna U1” y B2 el evento “elegir la urna U2”. B1 y B2
forman una partición. Sea A el evento sacar una bola negra.
Entonces:

1 2 20 2 5 1
P(B1) 5 ; P(B2) 5 ; P(A |B1) 5 5 ; P(A|B2) 5 5
3 3 30 3 15 3

Por la fórmula de la probabilidad total:


P(A) 5 P(B1) P(A |B1) 1 P(B2) P(A|B2) 5
(1/3)(2/3) 1 (2/3)(1/3) 5 2/9 1 2/9 5 4/9
3. La fórmula de la probabilidad total también se puede obtener del árbol que se
diseñó en la sección anterior; sólo que ahora debe entenderse que la probabili-

23
PROBABILIDAD Y ESTADÍSTICA II

dad del evento A es la suma de la probabilidad de las trayectorias que llevan al


evento:
P(A | B1) A
B1
P(B1) P(Ac | B1) Ac P(B1) P(A | B1) 1 P(B2) P(A | B2)

P(B2) P(A | B2) A


B2
P(Ac | B2) Ac

Gráfica 1.12

Por ejemplo, el problema 1 de esta sección se representa como sigue en el árbol:

0.8 Pasar
Estudiar
0.7 0.2 No pasar (0.7)(0.8) 1 (0.3)(0.4) 5 0.68

0.3 0.4 Pasar


No estudiar
0.6 No pasar
Gráfica 1.13

Problemas
1. De los estudiantes de una escuela de bachillerato, 1/3 son hombres y 2/3 son
mujeres. Una encuesta reveló que 1/5 de los hombres y 2/7 de las mujeres ele-
girán una carrera en la opción de ciencias. ¿Cuál es la probabilidad de que una
persona elegida al azar escoja una carrera en la opción de ciencias?
2. La urna A tiene tres bolas blancas y una negra. La urna B tiene tres bolas negras
y una blanca. Si al lanzar un dado cae una cara con un número de puntos múl-
tiplo de 3, se elige la urna A y de ella se saca una bola al azar. En otro caso, se
elige la urna B y de ella se saca una bola al azar. ¿Cuál es la probabilidad de que
la bola extraída sea blanca?
3. En una fábrica hay dos máquinas A y B. La máquina A hace 40% de la pro-
ducción, de la cual 2% son artículos defectuosos. La máquina B realiza 60%
de la producción, de la cual 1% son artículos defectuosos. Si se elige al azar un
objeto producido en la fábrica, ¿cuál es la probabilidad de que sea defectuoso?

24
PROBABILIDAD CONJUNTA

Aprender a ser con la probabilidad y la estadística


Una mujer de 40 años se practicó una mastografía y el resultado fue positivo. Esto significa que tiene
cáncer de mama.
Aunque un examen para detectar cáncer resulte positivo, no siempre es verdad. Esto se debe a que en
todos los instrumentos hay un grado de incertidumbre.
Se estima que una mujer que se realizó mamogramas anuales entre los 40 y 49 años de edad tiene una
probabilidad de 30% de obtener un resultado falso positivo en algún punto durante esa década y aproxi-
madamente una probabilidad de 7 a 8% de realizar una biopsia de mamas dentro de ese periodo. Se estima
una probabilidad de 25% de tener un mamograma falso positivo en mujeres de 50 años o mayores.
http://www.radiologyinfo.org/sp/info.cfm?pg=mammo&bhcp=1
Definir los eventos A, B, C, . . .
A = Una mujer obtuvo diagnóstico positivo al hacerse un mamograma.
B = Una mujer se realizó un mamograma anual durante sus 40 y 49 años.
C = Una mujer es mayor de 50 años.
Haz lo siguiente:
1. Interpreta e indica la probabilidad de P(A/B) y P(A/C).
2. Averigua en internet el significado de un mamograma.
3. Investiga en internet lo que es el cáncer de próstata.
4. Consigue datos similares a los citados al inicio de esta sección acerca de mamografías.

1.4.4 Teorema de Bayes (versión simple)


Ya hemos visto que en una experiencia aleatoria con espacio muestral V, si se tiene
una partición B1, B2 y un evento cualquiera A, la probabilidad de A se puede expresar
como:
P(A) 5 P(B1) P(A | B1) 1 P(B2) P(A | B2) (3)
Ahora supongamos que se está interesado en la probabilidad condicional “de un
evento de la partición, digamos B1, dado que ocurre A”, es decir, en P(B1| A); por
definición:
P(B1 > A)
P(B1 | A) 5
P(A)

Entonces, si se sustituye P(B1 > A) por P(B1)P(A | B1) y P(A) por la expresión (3)
se obtiene:
P(B1) P(A | B1)
P(B1 | A) 5 (4)
[P(B1) P(A | B1) 1 P(B2) P(A | B2)]

25
PROBABILIDAD Y ESTADÍSTICA II

A la expresión (4) se le llama fórmula de Bayes.


Aunque el teorema de Bayes tiene una forma más compleja, pues en lugar de una
partición de dos eventos B1, B2 se puede formular para una partición de muchos even-
tos, aquí nos conformaremos con esta versión simple con la convicción de que si al es-
tudiante le queda clara ésta, le será fácil comprender y aplicar la versión más general.

Ejemplos
1. En una compañía de seguros, 30% de los agentes de ventas son hombres y 70%
mujeres. Se sabe que 10% de los agentes hombres y 15% de los agentes mujeres
padecen estrés. Se elige una persona al azar de la población y se detecta que
tiene estrés. ¿Cuál es la probabilidad de que sea una mujer?
B1 5 “ser hombre”
B2 5 “ser mujer”
E 5 “tener estrés”
Se quiere saber P(B2 | E); entonces, por la fórmula de Bayes:
P(B2 | E) 5 P(B2) P(E | B2) /[P(B1) P(E | B1) 1 P(B2) P(E | B2)] (5)
Por el enunciado del problema se sabe que:
P(B1) 5 0.3; P(B2) 50.7; P(E | B1) 5 0.1; P(E | B2) 5 0.15
Entonces:
(0.7 )(0.15) 0.105 7
P(B2 E ) 5 5 5 5 0.777
(0.3)(0.1) 1 (0.7 )(0.15) 0.137 9
2. Los elementos del teorema de Bayes también se pueden ver en un diagrama de
árbol, aunque hay que visualizar más operaciones de las que se pueden repre-
sentar directamente en él:

P(A | B1) A P(B1) P(A | B1)


B1
P(B1) P(Ac | B1) Ac P(B1) P(Ac | B1)

P(B1)P(A | B1)
P(B1 | A) 5
P(B1)P(A | B1) 1 P(B2)P(A | B2)
P(B2) P(A | B2) A P(B2) P(A | B2)
B2
P(Ac | B2) Ac P(B2) P(Ac | B2)

Gráfica 1.14

26
PROBABILIDAD CONJUNTA

Evaluación formativa
1. De los estudiantes de una escuela de bachillerato, 1/3 son hombres y 2/3 son mujeres. Una encuesta
reveló que 1/5 de los hombres y 2/7 de las mujeres elegirán una carrera en la opción de ciencias. Se
elige un estudiante al azar y resultó que va a escoger una carrera en la opción de ciencias. ¿Cuál es la
probabilidad de que sea mujer?
2. En una fábrica hay dos máquinas A y B. La máquina A hace 40% de la producción, de la cual 2% son
artículos defectuosos. La máquina B realiza 60% de la producción, de la cual 1% son artículos defectuosos.
Se elige al azar un objeto producido en la fábrica y resulta defectuoso. ¿Cuál es la probabilidad de que
provenga de la máquina A?
3. Una urna A contiene 10 bolas numeradas del 1 al 10 y otra caja B contiene 20 bolas numeradas del 1 al
20. Si al lanzar un dado cae una cara con 1 o 2 puntos, se elige la caja A y de ella se saca una bola al azar.
Si la cara del dado que sale no es la de 1 o 2 puntos, se elige la caja B y de ella se saca una bola al
azar. Al realizar el experimento se obtuvo una bola que es múltiplo de 3. ¿Cuál es la probabilidad de
que el dado haya caído con la cara 1 o 2?

RESUMEN
Dada una experiencia aleatoria con espacio muestral Ω y dos eventos A y B, se define
un nuevo evento llamado la conjunción de A y B, que se denota con AyB, de la
siguiente manera: AyB ocurre siempre que se den A y B; es decir, ambos simultánea-
mente. A la probabilidad de AyB, que se simboliza así: P(AyB), se le llama probabili-
dad conjunta de A y B.
Se dice que dos eventos A y B son mutuamente excluyentes si no pueden ocurrir
al mismo tiempo, es decir, si ocurre A no ocurre B y a la inversa, si ocurre B no ocurre
A. Esto significa que los eventos no tienen elementos en común, es decir, que AyB 5
Φ. En este caso: P(AxB) 5 P(A) 1 P(B). Si dos eventos A y B no son mutuamente
excluyentes, entonces la fórmula de la unión de dos eventos toma la forma: P(AxB)
5 P(A) 1 P(B) 2 P(AyB).
Sean A y B dos eventos de una experiencia aleatoria, de modo que P(A) . 0; la
probabilidad condicional de B dado que A ocurre, que se simboliza con la expresión
P(B | A), se define como:
P(B | A) 5 P(AyB) / P(A).
Teniendo en cuenta la fórmula anterior, se deduce que:
P(AyB) 5 P(A) 3 P(B | A)
Se lee “La probabilidad conjunta de A y B es igual a la probabilidad de A por la pro-
babilidad condicional de B dado que ocurrió A”.
Se dice que dos eventos A y B pertenecientes a Ω son independientes si la ocurren-
cia de A no modifica la probabilidad de la ocurrencia de B y a la inversa, la ocurrencia
de B no modifica la probabilidad de la ocurrencia de A. Esto significa que P(B | A) 5
P(B) y P(A | B) = P(A). Más en general, A y B son independientes si P(AyB) 5 P(A)
3 P(B).

27
PROBABILIDAD Y ESTADÍSTICA II

En una experiencia aleatoria con espacio muestral Ω, un par de eventos B1 y B2 for-


man una partición del espacio muestral si cumplen dos condiciones:
a) B1 y B2 5 Φ
b) B1 x B2 5 Ω
Dado un evento cualquiera A y una partición B1 y B2, la formula de la probabilidad
total es:
P(A) 5 P(B1) P(A | B1) 1 P(B2) P(A | B2)

El caso más simple de la fórmula de Bayes está dada por:

P(B1 | A) 5 P(B1) P(A | B1) / [P(B1) P(A | B1) 1 P(B2) P(A | B2)]

28
PROBABILIDAD CONJUNTA
E V A L U A C I Ó N S U M A T I V A

1. Se lanza un dado. Considera los eventos A 5 {1, 2} y B 5 {5, 6} y contesta:

a ) Los eventos A y B son mutuamente excluyentes.

b ) Los eventos A y B son independientes.

Argumenta tu respuesta.

2. Se lanza un dado. Define el evento C: “Un número par”, y el evento D: “Un número múltiplo de 3”. Es
decir, C 5 {2, 4, 6} y D 5 {3, 6}. Responde:

a ) Los eventos A y B son mutuamente excluyentes.

b ) Los eventos A y B son independientes.

Argumenta tu respuesta.

3. Se lanzan tres monedas bien equilibradas. Para calcular la probabilidad de que salgan todas águilas, tres
estudiantes razonan así:

Juan: La probabilidad de obtener águila en una primera moneda es 1/2, la probabilidad de obtener águila
en una segunda moneda es 1/2 y la de obtener águila en la tercera es 1/2; luego la probabilidad es (1/2)
(1/2) (1/2) 5 1/8.

Pedro: La probabilidad de obtener águila en una primera moneda es 1/2; la probabilidad de obtener águila
en una segunda moneda es 1/2 y la de obtener águila en la tercera es 1/2, luego la probabilidad es 1/2.

Pablo: Hay ocho arreglos en los que pueden caer las tres monedas: AAA, AAS, ASA, SAA, ASS, SAS, SSA,
SSS. De ellos sólo uno es favorable a “salgan todas águilas”, de donde la probabilidad es 1/8.

¿Qué razonamiento(s) es(son) correcto(s) y por qué?

4. Sean A y B eventos tales que: P (A) 5 1/3, P(B) 5 1/4, P (A x B) 5 1/2. Calcula P (A | B) y P (B | A).

5. En una urna hay nueve bolas numeradas del 1 al 9. Se saca una bola y se observa que es impar, ¿Cuál es
la probabilidad de que sea múltiplo de 3?

6. En una población 30% de las mujeres y 60% de los hombres votarán por el candidato A. mientras que
70% de las mujeres y 40% de los hombres votaran por el candidato B. En esa población hay 55% de
hombres y 45% de mujeres, de los cuales se elige una persona al azar.

a) ¿Cuál es la probabilidad de que esa persona vote por el candidato A?

b) Si la persona votara por el candidato A, ¿cuál es la probabilidad de que sea mujer?

29
PROBABILIDAD Y ESTADÍSTICA II

30
AMPLIANDO EL CONOCIMIENTO

G losario
Identifica los siguientes términos en el texto de la unidad y escribe su significado.
Eventos dependientes.

Eventos independientes.

Eventos mutuamente excluyentes.

Probabilidad conjunta.

Teorema de Bayes.

B I B L I O G R A F Í A
HOEL, Paul. Estadística elemental, Compañía Editorial Continental, México, 1976.
LIPSCHUTZ, Seymour y Lipson, Marc. Probabilidad [Serie Schaum], McGraw-Hill, México, 2001.

31
Distribución de probabilidad de variables
Contenido

Tema 1
2.1 DISTRIBUCIÓN DE PROBABILIDAD
DE UNA VARIABLE ALEATORIA
DISCRETA

Tema 2
2.2 DISTRIBUCIÓN DE PROBABILIDAD
BINOMINAL

Objetivo
El estudiante resolverá problemas
de probabilidad con base en el
concepto de distribución de pro-
babilidad de variables aleatorias
discretas. Aprenderá a distin-
guir cuándo en una situación se
presenta una variable aleatoria
y cómo obtener su distribución
en casos sencillos. Identificará
variables que siguen un mo-
delo binominal y será capaz de
calcular su medida y desviación
estándar y apoyarse en tablas para
encontrar valores específicos y
evitar cálculos. Se fomentará el
trabajo colaborativo y una actitud
positiva hacia la materia y sus
compañeros.
aleatorias discretas Unidad 2
i e n t o s
En contacto con

tu s c o n o c i m
• ¿Qué entiendes por variable?
• ¿Qué significa para ti una variable aleatoria?
• ¿Qué entiendes por distribución de probabilidad?
• ¿Qué entiendes por distribución de probabilidad binomial?
• ¿Cuál sería el valor de la probabilidad si sumamos las probabilidades de
todos los posibles valores de una variable aleatoria discreta?
• ¿Qué es el valor esperado de una variable aleatoria?
• Imagina una experiencia aleatoria e identifica una variable en el espacio
muestral de dicho experimento. Describe todos los posibles valores que
puede tomar la variable aleatoria.
• Identifica algunas experiencias aleatorias donde sólo pueden suceder
dos casos posibles.
• Si lanzas una moneda al aire 10 veces, ¿qué es más probable que
ocurra?
a) 5 águilas y 5 soles.
b) 3 águilas y 7 soles.
c) 4 águilas y 6 soles.
• Una máquina expendedora de goma de mascar
contiene chicles en forma cónica (esfera), entre
los 40% son rojos, 30% verdes y 30% azules. Si
se obtienen 20 chicles mediante el mecanismo
aleatorio de la máquina, ¿cuántos chicles rojos
esperas tener en total?
a) 8 rojos
b) 4 rojos
c) No tengo la menor idea de la cantidad de chicles
rojos que puedan salir.
Es una verdad cierta que, cuando no está en nuestra mano determinar lo que es verdad,
debemos seguir lo que es más probable.
René Descartes
PROBABILIDAD Y ESTADÍSTICA II

INTRODUCCIÓN
Las distribuciones de probabilidad constituyen un tema en el que confluyen tanto
conceptos de estadística como de probabilidad. De hecho, son un puente que conecta
estas dos importantes áreas, y son la puerta de entrada a la inferencia estadística. En
estadística se estudian distribuciones de datos, que se descri-
ben mediante medidas de tendencia central y variabilidad.
Sin embargo, en las aplicaciones más frecuentes de la esta-
dística los datos son tomados de muestras de una población
o de experimentos aleatorizados, por lo que están sujetos a
incertidumbre. Se requiere, por lo tanto, establecer medidas
probabilísticas de confiabilidad para hacer generalizaciones
y obtener conclusiones válidas. Las distribuciones de proba-
bilidad desempeñan un papel muy importante para lo ante-
rior, ya que permiten conocer todos los valores posibles de
una variable aleatoria y sus respectivas probabilidades.
Anteriormente habíamos estudiado la probabilidad de eventos aislados o com-
puestos, definidos en un espacio muestral asociado a un experimento aleatorio. Las
distribuciones de probabilidad constituyen otro importante aspecto del estudio de la
probabilidad, ya que nos interesan todos los posibles eventos que se presentan en un
fenómeno aleatorio y sus respectivas probabilidades en forma de distribución.
Con frecuencia el estudio de la probabilidad se ve como un aspecto separado de la
estadística, sin embargo, en esta unidad veremos que existen importantes conexiones
entre diversas situaciones cotidianas con la probabilidad y la estadística. Abordaremos
situaciones que provienen de un contexto estadístico y les daremos una interpretación
tomando en cuenta conceptos de probabilidad, tal es el caso de las frecuencias relati-
vas de valores o intervalos de valores de una variable estadística, que a partir de ciertas
condiciones puede considerarse como una variable aleatoria.

2.1 DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE


ALEATORIA DISCRETA
La distribución de los datos que provienen de una varia-
ble estadística nos permite identificar qué valores toma
y con qué frecuencia se presenta cada valor. Los datos
también pueden derivarse de la observación de un fe-
nómeno o experimento aleatorio. En este caso particu-
lar, la variable recibe el nombre de variable aleatoria, y
la distribución de datos se conoce como distribución de
probabilidad.

34
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

2.1.1 Variable aleatoria discreta


Una variable aleatoria es aquella cuyos valores provienen de la observación de un fenóme-
no o experimento aleatorio. Generalmente, las variables aleatorias se representan con
las últimas letras mayúsculas del alfabeto (X, Y, Z), y sus posibles valores se repre-
sentan con minúsculas (x, y, z).

Ejemplo
Consideremos el experimento aleatorio en el que se lanza
una moneda un par de veces, y en el cual nos interesa la
variable aleatoria “número de águilas” que pueden caer. El
espacio muestral del experimento está dado por AA, AS, SA,
SS, por lo que la variable aleatoria X 5 “número de águilas”,
puede tomar los siguientes valores:
X 5 0, cuando el resultado es SS
X 5 1, cuando el resultado es AS o SA
X 5 2, cuando el resultado es AA
Obsérvese que los eventos del espacio muestral se transfor-
maron a valores numéricos (0, 1, 2) al definir una variable
aleatoria.
Otros ejemplos de variables aleatorias son los siguientes:
• Cantidad de artículos defectuosos en un lote que se exa-
mina para control de calidad.
• Cantidad de usuarios en un sitio de internet durante de-
terminado día.
• Nivel de azúcar en la sangre en una muestra de pacientes
diabéticos.
• Calificaciones de estudiantes de preparatoria que presen-
taron su examen para ingresar a licenciatura.
• Cantidad de puntos con los que cierra la Bolsa Mexicana
de Valores cada día de operaciones.
• Número de goles que anota un equipo de futbol en un par-
tido de la temporada.
Como puede verse, todas las variables están asociadas a fenómenos en los que no se
puede predecir el resultado, por eso se les denomina aleatorias. No obstante, como
veremos después, es factible determinar sus posibles valores y sus frecuencias o
probabilidades de ocurrencia, conforme se observan en forma repetida un gran
número de veces o cuando se dispone de un espacio muestral bien definido.

35
PROBABILIDAD Y ESTADÍSTICA II

Las variables aleatorias pueden ser discretas o continuas:


a) Una variable aleatoria discreta puede tomar un número finito o infinito con-
table de valores. Por lo general estas variables se asocian a procesos de contar,
por lo que pueden tomar valores como 0, 1, 2, 3, . . . Por ejemplo: el número de
hijos por familia, la cantidad de bacterias por unidad de área en un alimento,
los años de vida de un ser humano, etcétera.
b) Una variable aleatoria continua puede tomar cualquier valor entre un interva-
lo dado, por tal motivo es común que se expresen mediante rangos de valores.
Por lo común estas variables se asocian a procesos de medir. Por ejemplo: la
temperatura de una ciudad durante el día, el peso de una muestra de personas
sujetas a un tratamiento dietético, la calificación de un examen.
En esta unidad abordaremos sólo las variables aleatorias discretas y sus distribu-
ciones de probabilidad, y en la siguiente las variables aleatorias continuas.
Como las variables aleatorias están asociadas a un fenómeno o experimento alea-
torio, es factible determinar las frecuencias o probabilidades con las que ocurre
cada posible resultado, lo cual da lugar a una distribución de probabilidad.

2.1.2 Representación de una distribución de probabilidad


Una distribución de probabilidad se puede representar a través de una tabla, una
gráfica o una fórmula.
Por ejemplo, para el caso del lanzamiento de dos monedas en forma simultánea
antes mencionado, y en el cual X representa el número de águilas, se tienen las si-
guientes probabilidades:
P(X 5 0) 5 1/4
P(X 5 1) 5 2/4
P(X) 0.5 P(X 5 2) 5 1/4
Expresados en forma tabular, tanto los valores
0.4
de la variable como sus respectivas probabilida-
des, se tiene la siguiente distribución de proba-
0.3 bilidad:

0.2
X 0 1 2
0.1 P(X) 0.25 0.50 0.25

Los resultados anteriores también pueden ser


0 1 2 3 expresados en forma (gráfica 2.1).
Número de águilas

Gráfica 2.1

36
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

El ejemplo anterior corresponde a una variable aleatoria discreta. Las distribucio-


nes que se generan con este tipo de variables se denominan distribuciones discre-
tas de probabilidad.
Una distribución de probabilidad de una variable discreta debe satisfacer las si-
guientes condiciones:
1. Para cada valor de la variable, la probabilidad cae entre 0 y 1.
2. La suma de las probabilidades para todos los valores de la variable es igual a 1.

Ejemplo
Consideremos ahora un caso muy común cuando hablamos de probabilidad. Se
trata de un dado de 6 caras que es lanzado al aire. Sea X 5 “el número de puntos
de la cara que cae hacia arriba”. Sabemos que la variable aleatoria X puede tomar
1
los valores 1, 2, 3, 4, 5, 6, con probabilidad p ( x) 5 para cada valor.
6
Una tabla y una gráfica de la distribución anterior se muestran a continuación:

x 1 2 3 4 5 6
P(x) 1/6 1/6 1/6 1/6 1/6 1/6

P(X) 0.20

0.15

0.10

0.05

X
1 2 3 4 5 6
Gráfica 2.2

Un caso similar al anterior, pero con sólo dos barras con pro-
1
babilidad P( x) 5 , se presenta cuando se lanza una moneda
2
equilibrada al aire. Este tipo de distribuciones se denominan
distribuciones discretas uniformes.

37
PROBABILIDAD Y ESTADÍSTICA II

Ejemplo
Una pareja que acaba de contraer matrimonio desea saber sus probabilidades de
tener tres hijos, entre los cuales exista al menos un hombre. Para simplificar el
problema consideremos igualmente probable que esta pareja tenga tanto un hijo de
sexo femenino como uno del sexo masculino.
El espacio muestral de este fenómeno aleatorio está conformado de la siguiente
manera: HHH, HHM, HMH, HMM, MMM, MHM, MHH, MMH.
Definamos por X la variable aleatoria “número de hombres a tener en una fa-
milia de tres hijos”, por lo que X 5 1 cuando el resultado es un hombre en la
familia de tres hijos. Entonces, los posibles valores de X serán 0, 1, 2 y 3. Sin
embargo, según los eventos del espacio muestral no todos tienen la misma pro-
babilidad de ocurrir:
Tabla 2.1

Valores de la Probabilidad
Eventos
variable X P(X)
0 MMM 1/8 5 0.125
1 HMM, MHM, MMH 3/8 5 0.375
2 HHM, HMH, MHH, 3/8 5 0.375
3 HHH 1/8 5 0.125
Suma 1.000

Una gráfica de la distribución de probabilidad, también conocida como histogra-


ma de probabilidad, se muestra a continuación:
Área 5 1
P(X) 0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05

21 0 1 2 3 4
Número de hombres

Gráfica 2.3

38
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Obsérvese que tanto la representación tabular como la gráfica nos muestran todos
los posibles valores de la variable X 5 “número de hombres a tener en una familia
de tres hijos”, así como sus respectivas probabilidades.
En un histograma de probabilidad, las alturas de los rectángulos o barras son
proporcionales a las probabilidades respectivas; por tanto, si se toman las bases con
un ancho unitario se tiene que el área del histograma es igual a 1, sin duda una impor-
tante propiedad de las distribuciones de probabilidad.
Un hecho que conviene resaltar es que cuando se sabe la
distribución de probabilidad de una variable aleatoria, se
conocen todos sus posibles valores y sus respectivas pro-
babilidades; en otras palabras, con ello se conoce por com-
pleto el comportamiento probabilístico del fenómeno.
Analicemos un hecho más en el contexto de este mismo
ejemplo. Supongamos que estudiamos una gran canti-
dad de familias que tuvieron tres hijos y anotamos en
cada caso el número de hijos de sexo masculino. Si la distribución de probabilidad
que obtuvimos representa adecuadamente la situación antes descrita, la distribu-
ción de frecuencias con los resultados de la observación debe ser muy similar a la
que obtuvimos a través de los cálculos.
También podemos utilizar un programa estadístico o una hoja de cálculo para
simular la situación anterior. En este caso utilizamos esta última opción.

P(X) 0.40
0.35
0.30
0.25 Distribución empírica
Distribución teórica
0.20
0.15
0.10
0.05
X
0 1 2 3
Número de hombres

Gráfica 2.4

La gráfica continua representa la distribución teórica o exacta de probabilidades,


y el histograma, la distribución empírica obtenida del recuento de 1 000 observa-
ciones simuladas en un software estadístico. A medida que se incremente el número
de observaciones, la distribución empírica se acercará cada vez más a la distribución
teórica.

39
PROBABILIDAD Y ESTADÍSTICA II

La siguiente gráfica muestra lo anterior para una simulación de 5 000 casos.

P(X) 0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05

21 0 1 2 3 4
Número de hombres
Gráfica 2.5

En los dos ejemplos anteriores se abordaron situaciones en las que la variable alea-
toria fue definida sobre un espacio muestral de un experimento aleatorio. Sin em-
bargo, existe una diversidad de fenómenos aleatorios en los que es imposible definir
con facilidad el espacio muestral. En tales casos se obtienen distribuciones empíricas
de probabilidad, que a medida que se construyen sobre un gran número de observa-
ciones suelen ser bastante precisas. Veamos a continuación algunos de ellos.

Ejemplo
De acuerdo con cifras del II Conteo de Población y Vivienda 2005, realizado en
México por el INEGI, se tiene la siguiente distribución de edades para los mexi-
canos:
Tabla 2.2
Distribución por edad para los mexicanos en 2005.

Edad (años) Porcentaje Frecuencia relativa


0-14 31.5 0.315
15-59 60.2 0.602
60 y más 8.3 0.083
Suma 100 1
Fuente: http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/censos/
conteo/2005.

La anterior es una tabla estadística con datos sobre la distribución de edades de los
mexicanos al año 2005. Consideremos una situación aleatoria el hecho de preguntar

40
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

a cada mexicano su edad. Algo similar a extraer persona por persona de una urna
gigantesca donde se encuentran los nombres de todos los mexicanos y preguntar
su edad.
La variable edad se ha dividido en tres categorías lo que la convierte en una varia-
ble discreta y sus frecuencias relativas pueden ser consideradas como probabilida-
des. De esta manera, al seleccionar al azar un mexicano de un listado completo, el
resultado más probable será una persona con una edad entre 15 y 59 años inclusi-
ve. Una representación gráfica de la distribución se muestra a continuación:

P(X) 0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 X
0-14 15-59 60 o más
Edad
Gráfica 2.6

Ejemplo
Aquí se trata de una distribución de frecuencias con las edades de los conductores
que participan en accidentes en nuestro país. Los datos fueron tomados de miles
de expedientes y son de utilidad para las compañías de seguros.

41
PROBABILIDAD Y ESTADÍSTICA II

6.1% se ignora Radiografía de los accidentes


Durante 2006 los siniestros automovilísticos fueron
la principal causa de muerte en México
Por tipo 1.64% caída de
de sexo 23.40% los pasajeros en
En lo que mujeres 1.93% volcaduras transporte público
corresponde
al sexo de los
involucrados 70.59%
hombres Por tipo de 19.44%
accidente atropellados
En 2005 se registraron
Por edad 21 mil 718 accidentes
Porcentaje de los accidentados de tránsito 79.99%
18.0%
choques
17.5% 16.4%

12.6%
10.2%
9.1%
6.7%
4.7%
1.70% 2.8% 3.0% 1.09%
1.08% 1.01% 0.9% 0.5%
0.3% 0.1% 0.05% 0.02%
1 a 5 5 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 66 a 70 71 a 75 76 a 80 81 a 85 86 a 90 91 a 95 96 a 100

Fuente: Periódico Noroeste de Culiacán (31/01/2007). www.noroeste.com.mx

Gráfica 2.7

Este caso representa la manera en que una distribución de frecuencias obtenidas


de la observación de un fenómeno puede ser interpretada como una distribución de
probabilidad empírica. Las edades a las que es más probable tener un accidente osci-
lan entre 21 y 35 años de edad.

Ejemplo
En este caso se trata de los goles que dos equipos del futbol mexicano: Club
América y Cruz Azul obtuvieron en cada partido del torneo de apertura 2007 y
clausura 2008.

42
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Tabla 2.3

América Cruz Azul América Cruz Azul


Fecha Fecha
2007-2008 2007-2008 2007-2008 2007-2008

1 0 0 0 1 10 2 2 2 2
2 6 1 1 0 11 1 0 2 2
3 1 2 1 4 12 0 0 1 2
4 4 2 3 0 13 2 1 1 2
5 1 0 3 1 14 2 2 2 2
6 2 0 4 1 15 1 0 1 2
7 0 0 1 4 16 1 0 1 1
8 1 0 0 0 17 1 1 2 0
9 1 1 2 3

Nombremos X a la variable aleatoria que representa el número de goles en cada


partido. Se considerarán los 34 partidos realizados en ambos torneos (17 en cada
uno). Un concentrado de los valores de X para cada equipo nos proporciona la
distribución de frecuencias y probabilidades para los posibles valores de la varia-
ble aleatoria:
Tabla 2.4

X = Número
América Cruz Azul
de goles
0 12 0.35 6 0.18
1 12 0.35 11 0.32
2 8 0.24 11 0.32
3 0 0 3 0.09
4 1 0.03 3 0.09
5 0 0 0 0
6 1 0.03 0 0
Total 34 1.00 34 1.00

Una gráfica con la distribución de probabilidad de X para ambos equipos se mues-


tra a continuación:

43
PROBABILIDAD Y ESTADÍSTICA II

Distribución del equipo Cruz Azul Distribución del equipo América


P(X) 0.35 P(X) 0.35
0.3 0.3

0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05
0.05
0 X
1 2 3 4 5 6
0 X
1 2 3 4 5 6
Goles
Goles

Gráfica 2.8

Ejemplo
En el contexto del problema anterior consideremos las probabilidades acumula-
das para el equipo Cruz Azul (tabla 2.5).

Tabla 2.5

Número Probabilidad Probabilidad acumulada


Frecuencia
de goles P(X 5 x) P(X # x)

0 6 0.18 0.18
1 11 0.32 0.50
2 11 0.32 0.82
3 3 0.09 0.91
4 3 0.09 1.00
Total 34 1.00

¿Cuál es la probabilidad de que en un partido el equipo Cruz Azul anote a lo más


un gol?
P(X # 1) 5 P(X 5 0) 1 P(X 5 1) 5 0.50

¿Cuál es la probabilidad de que anote 3 o más goles?

P(X $ 3) 5 1 2 P(X , 3) 5 1 2 0.82 5 0.18

44
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Una gráfica de la distribución acumulada de probabilidad se


muestra a continuación: Evaluación formativa
Investiga dos tipos de situaciones rea-
P(X) 1.2
les en las que puedes describir las va-
1 riables aleatorias, tanto discretas como
continuas; mencionan cómo pueden
0.8
variar o complementarse entre sí. Ar-
gumenta tus ejemplos con elementos
teóricos. Coméntalos durante la clase
0.6 para retroalimentar tus ejemplos.
Menciona un caso de la vida cotidiana
0.4 en el que se reflejen tus respuestas,
explícalo resaltando la importancia
0.2 que tiene conocer su funcionalidad.
.
Si la distribución de probabilidad es
0 X
0 1 2 3 4 exacta y se obtiene a partir de los
resultados posibles en el espacio
Goles
muestral se denomina:
Gráfica 2.9 .
Por su parte, si la distribución se
Como vemos, no sólo es importante conocer los valores de las obtiene de la observación de un fe-
probabilidades P(X) para valores individuales de la variable nómeno aleatorio una gran cantidad
aleatoria, sino también la probabilidad P(X # x) de que sea de veces, la distribución se denomina
menor o igual a un valor de la variable aleatoria. A la distribu- .
ción que acumula las probabilidades de una variable aleatoria
X se le denomina comúnmente función de distribución de la
variable aleatoria.

Recuerda:
Una distribución discreta de probabilidad está constituida por todos los valores posibles que puede
tomar la variable aleatoria con sus respectivas probabilidades.
Una distribución de probabilidad puede representarse mediante:
a) Una tabla
b) Una gráfica
c) Una fórmula
En una distribución discreta de probabilidad siempre se debe cumplir lo siguiente:
1. Para cada valor de la variable, la probabilidad cae entre 0 y 1. Esto es 0 # P(X) # 1.
2. La suma de las probabilidades para todos los valores de la variable es igual a 1. Por tanto, el área
del histograma de probabilidad es igual a 1. Es decir, SP(X) 5 1.

2.1.3 Media y desviación estándar de una variable aleatoria discreta


De la misma forma que las distribuciones de datos, las distribuciones de probabilidad pueden ser
descritas por medidas de tendencia central y de variabilidad, las más comunes son la media y la des-

45
PROBABILIDAD Y ESTADÍSTICA II

viación estándar respectivamente. A continuación analizamos


cómo determinar la media y la desviación estándar de una dis-
tribución de probabilidad de una variable aleatoria discreta.
Para fijar ideas consideremos el ejemplo del lanzamiento de
dos monedas al aire que antes abordamos, en el que nos inte-
resamos por la variable aleatoria “X 5 número de águilas” y
cuya distribución de probabilidad en forma tabular y gráfica se
muestra a continuación:

X 0 1 2
P(X) 0.25 0.50 0.25

P(X) 0.5

0.4

0.3

0.2

0.1

0 1 2 3
Número de águilas

Gráfica 2.10

Un análisis de la gráfica anterior nos muestra que la media de águilas debe ser
igual a 1, dado que es el punto de equilibrio de la distribución.
Una interpretación frecuencial de las probabilidades anteriores nos señala lo si-
guiente: si repetimos el experimento un gran número de veces en condiciones simi-
lares, se espera que 25% de las veces aparezcan 0 águilas, 50% de las veces aparezca
1 águila, y 25% de las veces aparezcan 2 águilas.
Para obtener el valor promedio (media aritmética) del número de águilas que se
espera caigan al lanzar dos monedas, se pueden multiplicar los posibles valores de la
variable por la probabilidad que tienen de aparecer. Para este caso tenemos que:

m 5 0(0.25) 1 1(0.50) 1 2(0.25) 5 1

En forma más concreta, si lanzamos las dos monedas un millón de veces, se-
gún el enfoque frecuencial de la probabilidad se espera que aparezcan en promedio
250 000 veces 0 águilas, 500 000 veces 1 águila y 250 000 veces 2 águilas.

46
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

0(250 000 ) 11(500 000 ) 1 2(250 000 )


m5 51
1000 000
A la media de una variable aleatoria se le conoce también como valor esperado,
y es el valor de la variable aleatoria que se espera ocurra en promedio después de
repetir una gran cantidad de veces un experimento aleatorio. Por lo tanto, el valor es-
perado del número de águilas en una gran cantidad de repeticiones del experimento
lanzar dos monedas al aire es de 1.
Generalizando:
La media o valor esperado de una distribución de probabilidad para una variable
aleatoria discreta X se obtiene de sumar los productos que resultan de multiplicar los
valores posibles de la variable por sus respectivas probabilidades. Esto es:
n
m 5 E(( x) 5 ∑ x i P( x i )
i51

Donde:
m 5 E(X): Se denomina valor esperado de la variable aleatoria X.
Xi: Representa los valores de la variable aleatoria.
P(Xi): Es la probabilidad de cada valor de la variable aleatoria.
El concepto de valor esperado es ampliamente utilizado en la toma de decisiones
de cualquier ámbito de la actividad humana.
Por su parte, la desviación estándar de la distribución de probabilidad de una
variable aleatoria discreta está definida por la siguiente expresión:
n
σ5 ∑( x i
2 m) 2P ( x i )
i51

Ejemplo
Determinar el valor esperado del número de goles por partido del equipo de fut-
bol Cruz Azul, con base en los resultados de dos torneos (apertura 2007 y clau-
sura 2008).
Tabla 2.6

X 5 Número de goles Probabilidad


por partido P(X)
0 0.18
1 0.32
2 0.32
3 0.09
4 0.09
Total 1.00

47
PROBABILIDAD Y ESTADÍSTICA II

m 5 E(X) 5 0(0.18) 1 1(0.32) 1 2(0.32) 1 3(0.09) 1 4(0.09) 5 1.59

σ 5 ( 0 2 1. 59)2 0. 18 1 (1 2 1. 59)2 0.32 1 ( 2 21.59)2 0. 32 1( 3 21.59)2 0.09 1 ( 4 21.59)2 0.09

σ 51.15
P(X)
0.30

0.25

0.20

0.15

0.10

0.05

X
-1 0 1 2 3 4 5
Número de goles
μ = 1.59 σ = 1.15

Gráfica 2.11

En la gráfica se observa que el promedio de goles por partido es igual al resultado


encontrado: m 5 1.59.
Una aplicación del concepto de valor esperado de una variable aleatoria discreta
ocurre en los juegos de azar y la lotería. Es importante que quien
Evaluación formativa participe en un juego de esta naturaleza conozca el valor esperado
que tiene de ganar.
Representa mediante una problemá-
tica que hayas experimentado, ya sea
en tu contexto escolar, familiar, social, Ejemplo
cultural o personal el valor promedio
de una variable aleatoria después de Recientemente han cobrado auge en la televisión mexicana los
haber repetido una gran cantidad llamados “telejuegos”. Éstos consisten en que el público marca
de veces un experimento aleatorio. un teléfono para participar y si su llamada es seleccionada tiene
Argumenta la situación elegida con la oportunidad de elegir al azar una de varias opciones con pre-
elementos teóricos que has visto du- mios ocultos. Supongamos que se tienen 10 premios, entre los
rante las clases.
cuales hay cinco de $20 000 pesos, tres de $50 000 pesos, uno
de $100 000 y una camioneta con valor de $250 000 pesos.
Para la empresa es de vital importancia conocer la cantidad
Permite calcular la dispersión de los promedio que debe desembolsar en cada juego para pagar los
valores que toma una variable alea-
toria.
premios. Esto constituye una variable aleatoria, pues el premio
puede ser diferente de un juego a otro. Llamemos X a la variable
aleatoria “cantidad de dinero que hay que pagar en premios cada vez
que se realiza el juego”.

48
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Tenemos que P(xi) 5 1/10 para cada opción del tablero, pues
son 10 y cada una con la misma probabilidad de ser elegida. La
distribución de probabilidad será la siguiente:

X 20 000 50 000 100 000 250 000


P(X) 5/10 3/10 1/10 1/10

Sustituyamos en la expresión del valor esperado:

⎛ 5⎞ ⎛ 3⎞ ⎛1⎞ ⎛1⎞
E( X ) 5 20 000 ⎜ ⎟ 1 50 000 ⎜ ⎟ 1 100 000 ⎜ ⎟ 1 250 000 ⎜ ⎟
⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠
5 $10 000 1 $15000 1 $10 000 1 $25000 5 $60 000
El valor esperado o promedio de dinero que la empresa espera
pagar por juego es de $60 000. Desde luego, el ingreso por las
llamadas debe superar dicha cantidad para que no haya pér-
didas. En ocasiones a la empresa le tocará pagar $250 000 de
premio (en promedio 1 de cada 10 veces), pero la mayoría de las
veces (en promedio 5 de cada 10) pagará $20 000, por lo que el valor promedio o
esperado a pagar será de $60 000.

Una ventana al conocimiento


Desde su origen, la estadística ha tenido aplicaciones en el campo de la demografía. Un ejemplo de ello es la siguiente
gráfica que muestra la distribución de hogares por número de miembros en México en el periodo 1976-1997. Los
datos del eje horizontal representan número de miembros por hogar y los del eje vertical, las frecuencias expresadas
en porcentaje. Si convertimos estos porcentajes a frecuencias relativas (dividiendo entre 100), la distribución se puede
considerar como una distribución de probabilidad.

25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Fuente: El perfil sociodemográfico de los hogares en México 1976-1997.


Consejo Nacional de Población. http://www.conapo.gob.mx/publicaciones/CuaTec/pdf/hogares.pdf

49
PROBABILIDAD Y ESTADÍSTICA II

En este caso la variable aleatoria sería el número de miembros por hogar. Los valores que toma la variable van de 1 a
15. Se observa que en los últimos años la media o valor esperado se ha movido hacia la izquierda y son poco comunes
las familias numerosas. Actualmente la media se encuentra alrededor de cuatro miembros por familia. En términos de
probabilidad significa que si seleccionamos familias mexicanas al azar, el valor esperado será una de cuatro miembros.

2.2 DISTRIBUCIÓN DE PROBABILIDAD BINOMINAL


Existen muchos experimentos aleatorios con estructuras similares que generan va-
riables aleatorias con la misma distribución de probabilidad. Por tanto, se puede
generar un modelo de probabilidad único que permita calcular probabilidades para
todos los problemas que caen en una misma categoría, y que pertenecen a un rango
amplio de contextos y situaciones. Entre las distribuciones discretas de probabilidad
más conocidas que permiten resolver una diversidad de problemas que involucran la
probabilidad, está la distribución binominal.

2.2.1 Experimento de probabilidad binominal


Muchos experimentos aleatorios pueden generar uno de dos resultados posibles; por
ejemplo, en el lanzamiento de una moneda puede resultar águila o sol, cada artículo
que sale de una línea de producción puede ser defectuoso o no, una persona al ha-
cerse un estudio puede estar enferma o sana, al presentar un examen un estudiante
puede acreditar o reprobar, cada persona entrevistada sobre una elección puede estar
a favor o en contra de cierto candidato. A éstos se les conoce como experimentos
binominales.
En cada una de las situaciones anteriores seleccionamos una muestra de n objetos
de una población finita y verificamos si cada objeto seleccionado posee una carac-
terística de interés (por ejemplo, cae águila, está defectuoso, se encuentra enferma,
aprueba el examen, está a favor del candidato), entonces contamos el total de objetos
muestreados que poseen la característica en la muestra seleccionada y este número
lo representamos mediante X; nos interesa conocer la probabilidad de que asuma un
determinado valor, es decir, P(X 5 X).

Características de un experimento binomial


1. El experimento consta de n pruebas o repeticiones idénticas.
2. Cada prueba tiene dos resultados posibles: uno denominado éxito (E) y el otro
fracaso (F).
3. La probabilidad de éxito en una sola prueba es p y la probabilidad de fracaso es
su complemento 1 2 p.
4. Las pruebas son independientes, es decir, el resultado de una no influye en el
resultado de la otra.
La variable aleatoria de interés X, es el número y proporción de éxitos observados en las
n pruebas.

50
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Si se cumplen todas las condiciones señaladas decimos que X


tiene distribución binomial de probabilidad, con parámetros n
y P. Lo anterior se acostumbra expresar simbólicamente de la si-
guiente manera: X , Binomial (n, p).
Por ejemplo, un ingeniero industrial puede estar interesado en
conocer la proporción de artículos defectuosos en un lote de pro-
ducción; el investigador de mercados, en la proporción de personas
en una muestra que prefieren un artículo determinado; el biólogo
marino, en la proporción de ejemplares de una especie marina que
cumplen determinada talla en un muestreo; el investigador social,
en la proporción de personas que votarían por un candidato.
Todos los casos anteriores son experimentos de tipo binomial,
cuando las muestras se seleccionan de poblaciones grandes. Ge-
neralmente se considera que la población es grande respecto a la
muestra, cuando ésta es 10% menor al tamaño de la primera.

Ejemplo
Un examen de opción múltiple contiene 10 preguntas, cada una con cuatro op-
ciones, de las cuales sólo una es correcta. Un estudiante presentará el examen y
desconoce el tema, por lo que decide respoder al azar. Sea X “el número de respues-
tas correctas que el estudiante obtuvo en el examen”. Determinar si el experimento
puede considerarse binomial.
1. El examen consta de 10 reactivos, es decir 10 pruebas
idénticas, pues se considera que cada pregunta es una
prueba o repetición del mismo experimento.
2. Cada pregunta tiene dos resultados posibles: contesta co-
rrectamente (éxito) y no contesta correctamente (fracaso).
3. La probabilidad de éxito en cada pregunta es de 0.25,
mientras que la de fracaso es de 0.75, dado que sólo una
es correcta y hay tres incorrectas. Es decir, la probabilidad
de éxito permanece constante de un ensayo a otro.
4. Las preguntas son independientes ya que no tienen relación entre ellas.
5. La variable aleatoria de interés es X, “el número de respuestas correctas en el exa-
men”, la cual puede variar de 0 a 10.
Podemos concluir que el examen anterior es un experimento binomial con n = 20,
p = 0.25, los cuales se conocen como parámetros de la distribución.

Ejemplo
Consideremos ahora el caso de una escuela con 300 estudiantes de la cual se va
a seleccionar una muestra aleatoria de 50 alumnos para saber si están de acuerdo

51
PROBABILIDAD Y ESTADÍSTICA II

con que el director de la escuela sea reelegido para el siguiente


periodo. Esto puede visualizarse como un experimento aleato-
rio en el que se seleccionará un alumno y se le preguntará si está
de acuerdo, ante lo que puede responder SÍ o NO.
1. El experimento consta de 50 ensayos, uno por cada alumno
seleccionado.
2. Cada ensayo tiene dos resultados posibles: SÍ (éxito) o NO
(fracaso).
3. La probabilidad de éxito (SÍ) no es constante de una persona a otra, porque cada
vez existen menos individuos en la muestra, ya que se entrevista a una persona
una sola vez. Es decir, no existe reemplazo.
4. Los ensayos no son independientes, pues la probabilidad de éxito no es cons-
tante de una selección a otra.
5. La variable aleatoria de interés es X, “el número de alumnos que responden que SÍ
están de acuerdo en la reelección del director” y puede variar de 0 a 50.
Como puede verse, la situación anterior no cumple con dos condiciones de un
experimento binomial: que la probabilidad de éxito en cada ensayo sea constante
y que los ensayos sean independientes.
Debemos ser observadores del cumplimiento de las condiciones de un experi-
mento binomial para aplicar la fórmula de la distribución binomial en el cálculo
de probabilidades.

Recuerda:
Las condiciones de independencia y probabilidad constante de un ensayo a otro en un experi-
mento binomial se cumplen cuando:
1. Existe reemplazo en los elementos de la muestra.
2. Cuando la relación entre el tamaño de la muestra no exceda 10% del tamaño de la población.
n
Esto es: , 0.10 .
N

2.2.2 Función de probabilidad binominal


La distribución de probabilidad binomial, como las demás distribuciones, puede re-
presentarse mediante una expresión simbólica (fórmula), una gráfica o una tabla. A
continuación deduciremos la fórmula de la distribución de probabilidad binomial.
Como ya señalamos, un experimento binomial puede presentar uno de dos resul-
tados posibles: uno llamado éxito (E) y el otro llamado fracaso (F). Pensemos en que
el experimento se realizó n veces y se obtuvo el siguiente resultado:
EFFEEFEF...FEEF

52
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Por facilidad, acomodemos los resultados de la siguiente manera:

EEEEEE...EEFFFF...FFF

x éxitos n 2 x fracasos
Sabemos que la probabilidad de éxito es p y la de fracaso es q, entonces la probabi-
lidad de que suceda el resultado anterior es el producto de sus probabilidades, dado
que los eventos son independientes.
p p p p p . . . p p p p p q q q q q q . . . q q q 5 pxqn – x
Pero no olvidemos que q 5 1 2 p, por lo que la expresión queda en función sólo
de p. Esto es:
px(1 2 p)n–x
La probabilidad anterior corresponde a una combinación de resultados (éxitos
y fracasos). Sin embargo, se tienen muchas combinaciones de posibles resultados,
entonces habrá que multiplicar dicho valor por el total de combinaciones posibles
con x éxitos en n pruebas.
Finalmente, la expresión queda de la siguiente manera:

⎛ n⎞ n!
p( x ) 5 ⎜ ⎟ p x (1 2 p )n2x o p( x ) 5 p x q n2 x
⎝ x⎠ x !(n 2 x )!

Un experimento binomial consta de n ensayos o pruebas idénticas, donde la probabilidad de éxito


en cada ensayo es p. La probabilidad de obtener x éxitos en los n ensayos está determinada por:

⎛ n⎞
p( x ) 5 ⎜ ⎟ p x q n2x , x 5 0, 1, 2, 3 . . . , n y 0 # p # 1 , q 5 1 2 p
⎝ x⎠

Decimos entonces que la variable aleatoria X tiene distribución de probabilidad binomial.

Algunas observaciones importantes respecto a la fórmula o modelo de distribución


de probabilidad binomial:
1. La expresión anterior es una función de probabilidad, es decir, al tomar valores X
se obtienen valores para P(x).
2. Los valores que puede tomar X son 0, 1, 2, 3, 4, . . . pues se trata de una variable
discreta.
3. La fórmula o modelo contiene dos parámetros: n y p, que determinan los valores
de las probabilidades obtenidas y, por tanto, la forma de la distribución.
4. La suma de las probabilidades de todos los posibles valores de la variable aleatoria
es igual a 1. En otras palabras, si se dibuja el histograma de probabilidades el área es
igual a 1.

53
PROBABILIDAD Y ESTADÍSTICA II

Efecto de los parámetros n y p en la forma de la distribución binomial


Veamos a continuación tres distintas distribuciones de probabilidad para diferentes
valores de los parámetros n y p.

P(X) 0.40 P(X) 0.35


0.35 0.30
Frecuencia relativa de X

Frecuencia relativa de X
0.30 0.25
0.25 0.20
0.20
0.25
0.25
0.10
0.10
0.05 0.05

X X
0 1 2 3 4 5 6 -1 0 1 2 3 4 5 6

n 5 10 p 5 0.7 n 5 10 p 5 0.5
Gráfica 2.12

P(X) 0.40
0.35
Frecuencia relativa de X

0.30
0.25
0.20

0.15
0.10
0.05

X
0 1 2 3 4 5 6

n 5 10 p 5 0.3
Gráfica 2.13

Obsérvese que cuando p 5 0.5, la distribución es simétrica, mientras que en los


otros casos es sesgada: a la derecha si p 5 0.3 y a la izquierda si p 5 0.7. Cuando
los valores de p son mayores que 0.5 son más probables los valores grandes de la
variable, es decir, hay más probabilidad de tener un mayor número de éxitos en una
muestra o una serie repetida de observaciones y viceversa.

Cálculo de probabilidades de experimentos binomiales


Existen diversos mecanismos que se pueden utilizar en el cálculo de probabilidades
binomiales:

54
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

a) Fórmula de la distribución binomial


b) Tablas de probabilidad
c) Programas estadísticos u hojas de cálculo

Ejemplo
En una industria de productos eléctricos, como parte
de una prueba de control de calidad, se ha selecciona-
do un lote de 300 fusibles eléctricos, del cual se sabe
que contiene 5% de defectuosos. Se toma una muestra
de cinco fusibles para verificar su estado. Determine la
probabilidad de que:
1. Un fusible sea defectuoso
2. Dos fusibles sean defectuosos
3. Al menos uno sea defectuoso
4. Los cinco sean defectuosos
Denominaremos X la variable aleatoria “número de fusibles defectuosos en la
muestra”. Por tanto, X puede tomar los valores 0, 1, 2, 3, 4, 5.
Los parámetros de la distribución son el tamaño de la muestra (n 5 5) y la probabili-
dad de éxito en cada prueba o ensayo, en este caso la probabilidad de seleccionar un
fusible defectuoso en cada extracción (p 5 0.05). Al sustituir los valores que puede
tomar la variable aleatoria y los valores de los parámetros se tiene lo siguiente:

⎛ n⎞
p( X 5 x ) 5 ⎜ ⎟ p x q n2x
⎝ x⎠
⎛ 5⎞
p( x 5 0) 5 ⎜ ⎟ (0.05)0 (0.95)5 5 0.7738
⎝ 0⎠
⎛ 5⎞
p( x 5 1) 5 ⎜ ⎟ (0.05)1 (0.95)4 5 0.2036
⎝ 1⎠
⎛ 5⎞
p( x 5 2) 5 ⎜ ⎟ (0.05)2 (0.95)3 5 0.0214
⎝ 2⎠
⎛ 5⎞
p( x 5 3) 5 ⎜ ⎟ (0.05)3 (0.95)2 5 0.0011
⎝ 3⎠
⎛ 5⎞
p( x 5 4 ) 5 ⎜ ⎟ (0.05)4 (0.95)1 5 0.000029
⎝ 4⎠
⎛ 5⎞
p( x 5 5) 5 ⎜ ⎟ (0.05)5 (0.95)0 5 0.00000031
⎝ 5⎠

55
PROBABILIDAD Y ESTADÍSTICA II

La distribución de probabilidad se puede expresar mediante una tabla de valores,


a partir de la cual se puede construir su gráfica.
Tabla 2.7
P(X) 0.8
X P( X )
0.7
0 0.7737 0.6

1 0.2036 0.5

0.4
2 0.0214
0.3
3 0.0012 0.2
4 0.000029 0.1

5 0.00000031 X
0 1 2 3 4 5
Número de fusibles defectuosos
Gráfica 2.14

Uso de tablas de probabilidad binomial


Como puede observarse, el cálculo de probabilidades con la fórmula de la distribu-
ción binomial es un proceso que puede volverse tedioso, por eso con frecuencia se
recurre a tablas de probabilidad, donde ya está resuelta una diversidad de casos de
n, p, x.
Por ejemplo, para el caso anterior se tiene n 5 4 y p 5 0.05. En la tabla 1 que se
encuentra en el apartado Anexos buscamos dichos valores.
Tabla 2.8

n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60

5 0 0.951 0.774 0.590 0.444 0.328 0.237 0.168 0.116 0.078 0.031 0.010
1 0.048 0.204 0.328 0.392 0.410 0.396 0.360 0.312 0.259 0.156 0.077
2 0.001 0.021 0.073 0.138 0.205 0.264 0.309 0.336 0.346 0.313 0.230
3 0.001 0.008 0.024 0.051 0.088 0.132 0.181 0.230 0.313 0.346
4 0.002 0.006 0.015 0.028 0.049 0.077 0.156 0.259
5 0.001 0.002 0.005 0.010 0.031 0.078

P(X 5 0) 5 0.774
P(X 5 1) 5 0.204
P(X 5 2) 5 0.021
P(X 5 3) 5 0.001

56
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Es importante aclarar que las probabilidades para x 5 4 y x 5 5 se omitieron en la


tabla porque sus valores son muy pequeños, pero casi iguales a cero, y sólo se están
considerando tres decimales. En los cálculos con la fórmula se puede observar que
P(X 5 4) 5 0.000029 y P(X 5 5) 5 0.00000031.
La tabla 1 de los anexos proporciona probabilidades para valores individuales de
la variable, pero cuando se desean valores acumulados del tipo P(X # x) se suman
las probabilidades. Por ejemplo, P(X # 1) 5 0.774 1 0.204 5 0.978.
También se pueden calcular probabilidades de valores del tipo P(X $ x), para este
caso se aplica la propiedad del complemento, esto es P(X $ x) 5 1 2 P(X , x). Por
ejemplo, determinar P(X $ 1) 5 1 2 P(X , 1) 5 1 2 0.774 5 0.226.

Ejemplo
Un estudiante no se ha preparado para un examen que contiene 20 preguntas de
falso y verdadero, así que decide contestar al azar. ¿Qué probabilidad hay de que
apruebe el examen si para ello debe contestar correctamente al menos 60% de las
preguntas?

Determinemos primero el valor de los parámetros n y p. Para aprobar el exa-


men se requiere contestar al menos 12 preguntas de manera correcta (60% de
20), entonces x 5 12, y cada pregunta tiene una probabilidad p 5 0.5 de ser
contestada correctamente, dado que el examen es de falso y verdadero. Además
n 5 20. Entonces:
⎛ n⎞
P( X 5 x) 5 ⎜ ⎟ p x q n2x
⎝ x⎠
⎛ 20⎞
P( X 512) 5 ⎜ ⎟ 0.51220.58 5 0.120
⎝ 12 ⎠

El valor anterior corresponde sólo al valor de x 5 12, sin embargo es necesario


determinar ahora el resto de los valores mayores que 12. Si se utiliza la fórmula
este proceso se vuelve tedioso, por lo cual emplearemos la tabla 1 de probabilidad
binomial. Entramos a la tabla con n 5 20, p 5 0.50.

57
PROBABILIDAD Y ESTADÍSTICA II

Tabla 2.9

n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60

20 0 0.818 0.358 0.122 0.039 0.012 0.003 0.001

1 0.165 0.377 0.270 0.137 0.058 0.021 0.007 0.002

2 0.016 0.189 0.285 0.229 0.137 0.067 0.028 0.010 0.003

3 0.001 0.060 0.190 0.243 0.205 0.134 0.072 0.032 0.012 0.001

4 0.013 0.090 0.182 0.218 0.190 0.130 0.074 0.035 0.005

5 0.002 0.032 0.103 0.175 0.202 0.179 0.127 0.075 0.015 0.001

6 0.009 0.045 0.109 0.169 0.192 0.171 0.124 0.037 0.005

7 0.002 0.016 0.055 0.112 0.164 0.184 0.166 0.074 0.015

8 0.005 0.022 0.061 0.114 0.161 0.180 0.120 0.035

9 0.001 0.007 0.027 0.065 0.116 0.160 0.160 0.071

10 0.002 0.010 0.031 0.069 0.117 0.176 0.117

11 0.003 0.012 0.034 0.071 0.160 0.160

12 0.001 0.004 0.014 0.035 0.120 0.180

13 0.001 0.004 0.015 0.074 0.166

14 0.001 0.005 0.037 0.124

15 0.001 0.015 0.075

16 0.005 0.035

17 0.001 0.012

18 0.003

19

P(X $ 12) 5 0.120 1 0.074 1 0.037 1 0.015 1 0.005 1 0.001 5 0.252

Por consiguiente se espera que 252 personas de cada 1 000 aprueben el examen en
estas condiciones, aproximadamente la cuarta parte.

Ejemplo
Una tienda departamental ha determinado, con base en sus registros, que la pro-
babilidad de que una persona que entra a su página web compre en línea un
artículo es de 0.20. Si el sitio tiene 10 personas en cierto momento:

58
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

a) Determina los posibles valores que puede tomar la variable


X que representa el número de personas que compran un
artículo en la muestra de tamaño 10 que ha sido seleccio-
nada.
b) ¿Cuál es la probabilidad de que ninguna de las personas
compre un artículo?
c) ¿Cuál es la probabilidad de que por lo menos dos perso-
nas compren un artículo?
d) ¿Cuál es la probabilidad de que a lo más tres personas
compren un artículo?

Solución a):
Los posibles valores de X son 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10.

Solución b):
n 5 10, p 5 0.20, X 5 0
Con las tablas se tiene que P(X 50) 5 0.107

Solución c):
n 5 10, p 5 0.20, X $ 2
Con las tablas se tiene
P(X $ 2) 5 1 2 P(X , 2) 5 1 2 0.107 2 0.268 5 0.624

Solución d):
n 5 10, p 5 0.20, X # 3
P(X # 3) 5 0.107 1 0.268 1 0.302 5 0.897

Cálculo de probabilidades con Excel


La hoja de cálculo Excel dispone de una fórmula denominada DISTR.BINOM que
permite calcular probabilidades de un experimento binomial. En realidad, la fórmula
está programada para que al introducir los valores de los parámetros de la distribución
binomial y un valor específico de la variable aleatoria se despliegue el valor de la pro-
babilidad en una determinada celda. Se tiene la opción de desplegar la probabilidad
para un único valor de la variable o bien la probabilidad acumulada para los valores
menores o iguales que él. La sintaxis de la función es DISTR.BINOM (número de éxi-
tos, número de ensayos, probabilidad de éxito, acumulado).
Pasos para utilizar la fórmula DISTR.BINOM en el cálculo de probabilidades:
1. Abrir una hoja de Excel y seleccionar la celda donde se colocará el valor de
la función.

59
PROBABILIDAD Y ESTADÍSTICA II

2. Seleccionar del menú de fórmulas la opción Más funciones/Estadísticas/DIS-


TR.BINOM

60
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Se introducen los valores solicitados en la ventana anterior y se presiona aceptar.


Si se desean probabilidades acumuladas, en el último parámetro debe introducirse
la opción VERDADERO; si sólo se desea la probabilidad para el valor especificado de
éxitos se introduce la opción FALSO.

Ejemplo
Consideremos el ejemplo de los productos eléctricos antes resuelto mediante la
fórmula de la distribución binomial. En este caso, se tiene que un lote contiene
5% de fusibles defectuosos, de los cuales se toma una muestra de cinco para veri-
ficar su estado. Determina la probabilidad de que:
a) Dos fusibles sean defectuosos
b) Más de dos sean defectuosos
c) Al menos dos sean defectuosos

61
PROBABILIDAD Y ESTADÍSTICA II

Solución a):
n 5 5, p 5 0.05, X 5 2

62
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Solución b):
n 5 5, p 5 0.05, X # 2

63
PROBABILIDAD Y ESTADÍSTICA II

Solución c):
n 5 5, p 5 0.05, X $ 2

En este caso primero calculamos P(X # 1). P(X $ 2) 5 1 2 P(X # 2). Posterior-
mente calculamos la probabilidad del complemento de la siguiente manera:
P( X $ 2) 51 2 P( X # 1)

64
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

2.2.3 Media y desviación estándar de la distribución


de probabilidad binomial
Como antes señalamos, una variable aleatoria discreta tiene como media o valor
esperado:
n
m 5 ∑ xi P ( xi )
i51

Para el caso de la distribución binomial, la media o valor esperado está en función


de sus parámetros y se determina mediante la fórmula:
m 5 np
La varianza y la desviación estándar también están en función de los parámetros n
y p, y se determinan con las siguientes expresiones:
s 2 5 np(1 2 p)

s5 np(1 2 p)

Ejemplo
En un estudio realizado en México en 2007 sobre la opinión que tienen los mexi-
canos sobre el aborto y los anticonceptivos se encontró que 67% de las mujeres
aprueba el uso de la píldora del día siguiente como método anticonceptivo (Fuen-
te: www.consulta.com.mx). Supongamos que una asociación no gubernamental
considera que el porcentaje está sobrestimado. Para ello pro-
porciona como evidencia que en una muestra aleatoria de 20
mujeres al azar sólo 10 están a favor.
Si consideramos a X como la variable que representa el número
de mujeres en la muestra que están de acuerdo con la píldora del
día siguiente como método anticonceptivo:
a) Determina el valor esperado de mujeres en una muestra de
20 que están de acuerdo.
b) Determina la desviación estándar de X.
c) ¿Cuál es la probabilidad de que en una muestra de tamaño
20, 10 mujeres o menos estén de acuerdo, considerando que
67% de la población de mujeres está a favor del método anti-
conceptivo?
Solución a):
m 5 np 5 20( 0. 67)) 513. 4

Se espera que en una muestra de 20 mujeres, entre 13 y 14 estén de acuerdo con


el método anticonceptivo.

65
PROBABILIDAD Y ESTADÍSTICA II

Solución b):
s5 np(1 2 p) 5 20( 0. 67 )( 0.33) 5 2.10
Solución c):
n 5 20, p 5 0.67, X # 10

Hagamos el cálculo con Excel:

66
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Como puede verse, la probabilidad de que 10 mujeres o quizá menos estén a favor
de la píldora en una muestra de 20, es de tan solo P(X # 10) 5 0.086.
La distribución completa de probabilidad calculada con Excel se muestra a con-
tinuación:

Gráfica 2.15

Distribución de probabilidad de X
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

67
PROBABILIDAD Y ESTADÍSTICA II

LA ESTADÍSTICA Y TU COMUNIDAD

SE AMPARAN CONTRA EL ALCOHOLÍMETRO

La Subsecretaría del Sistema Penitenciario reveló que desde septiembre de 2003, cuando se
puso en marcha el plan en el marco del Programa Conduce sin alcohol, 23 mil 150 automovi-
listas fueron aprehendidos tras haber dado positivo en la prueba del alcoholímetro.

Sin embargo, la subsecretaría precisó que 7,798 detenidos por este concepto, es decir, tres
de cada 10 conductores que dieron positivo en la prueba, tramitaron un amparo con el que
obtuvieron su libertad sin cumplir con la sanción correspondiente.

La situación anterior puede ser considerada como un experimento binominal y, por lo tanto,
se pueden calcular algunas probabilidades de interés mediante la distribución de probabilidad
binominal. Veamos:

Al ser detenido un conductor y aplicarle la prueba del alcoholímetro con resultado positivo,
existen dos resultados posibles: “que se ampare”, que puede ser considerado como éxito, y
“que no se ampare”, que puede ser considerado como fracaso.

Supóngase que en un punto de revisión de la ciudad se detienen durante una revisión noc-
turna a 60 conductores que dieron positivo a la prueba del alcoholímetro. La variable aleatoria
de interés se puede denominar mediante X 5 Número de detenidos que dieron positivo en la
prueba y se ampararán. Los parámetros de la distribución en este caso serían n 5 80 (tamaño
de la muestra) y p 5 0.30 (probabilidad de que un detenido que da positivo en la prueba se
amparará contra la sanción).

Nos podemos plantear y responder algunas preguntas como las siguientes: ¿Cuál es la canti-
dad de personas detenidas que dieron positivo en la prueba y que se espera se amparen para
no pagar la multa?, ¿qué probabilidad existe de que todos los detenidos que dieron positivo
a la prueba paguen la multa?, ¿cuál es la probabilidad de que al menos 80% de los detenidos
paguen la multa?

Ejemplos como el anterior nos muestran la gran aplicación que tiene la estadística en la comu-
nidad y que incluso aparecen a diario en los diferentes medios de comunicación.

Periódico Excélsior. 27 de octubre de 2008.


http://www.exonline.com.mx/diario/home

68
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

RESUMEN
En estadística, la distribución de los datos que provienen de una variable permite
identificar sus valores con sus respectivas frecuencias. Sin embargo, cuando los da-
tos resultan de la observación de fenómenos aleatorios, las variables se denominan
variables aleatorias.
Las variables aleatorias pueden ser discretas o continuas. Una variable aleatoria
discreta es aquella que puede tomar un número finito o infinito contable de valores,
mientras que una variable aleatoria continua puede tomar cualquier valor entre
un intervalo dado. Por lo general, las variables aleatorias discretas están asociadas a
procesos de contar y las variables aleatorias continuas, a procesos de medir.
Aunque no se puede predecir con certeza un determinado valor de una variable
aleatoria, es factible determinar sus valores posibles y sus probabilidades de ocurren-
cia, lo cual da origen a una distribución de probabilidad. Es decir, una distribución
de probabilidad queda determinada por el conjunto de valores que puede tomar una
variable aleatoria y sus respectivas probabilidades.
Una distribución de probabilidad puede representarse mediante una tabla (repre-
sentación tabular), un histograma (representación gráfica) y una fórmula (represen-
tación simbólica). A su vez, una distribución de probabilidad puede describirse por
su centro y su dispersión. El centro lo representa la media aritmética, más común-
mente conocida como valor esperado en el ámbito de los experimentos aleatorios;
por su parte, la dispersión se obtiene a través de la desviación estándar.
El significado de valor esperado de una variable aleatoria es el valor que en
promedio se espera que suceda una vez que el experimento aleatorio se observa gran
cantidad de veces, y representa un concepto importante en la toma de decisiones
donde existe incertidumbre.
Existen diversas distribuciones de probabilidad para variables aleatorias discretas.
Una de las más conocidas es la distribución binomial de probabilidad. Ésta per-
mite conocer la probabilidad que en una serie de pruebas, ensayos u observaciones
de un experimento binomial, se presente una cierta cantidad de éxitos, entendidos
como la característica que nos interesa observar en los posibles resultados del expe-
rimento.
Para calcular las probabilidades de ciertos valores de una variable aleatoria con
distribución binomial se puede utilizar la fórmula o modelo matemático, tablas de
probabilidad que contienen una diversidad de casos resueltos o algún programa es-
tadístico u hoja de cálculo. Los resultados son equivalentes, pues en todos los casos
se resuelve el modelo matemático o fórmula de la distribución binomial.

69
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS
E V A L U A C I Ó N S U M A T I V A

Lee cuidadosamente cada situación que se te presenta y contesta lo que se te pide.


1. Un profesor está investigando cuánto tiempo tardan en resolver sus alumnos un problema de estadística para
una prueba de admisión en la que el tiempo límite de 10 preguntas es de 1 hora. Después de haberla aplicado
a una gran cantidad de alumnos, obtuvo los siguientes resultados:

X 5 6 7 8 9
P (X) 0.10 0.20 1.20 0.25 0.15

donde X es el tiempo en minutos y P (X ) la probabilidad.


a ) Identifica el valor erróneo en las probabilidades y explica por qué.
b ) Determina el valor esperado de tiempo que tardarían en responder dicho problema los alumnos a quienes
sea aplicado dicho examen.
2. Enuncia todas las condiciones que debe cumplir un experimento para que sea considerado binomial.
3. Asigna los parámetros correspondientes a las siguientes distribuciones binomiales:
a ) n 5 8, p 5 0.5
b ) n 5 8, p 5 0.1
c ) n 5 6, p 5 0.8

P(X) P(X)
0.30 0.40
0.25 0.35
0.30
0.20
0.25
0.15 0.20
0.15
0.10
0.10
0.05 0.05
X X
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8

Gráfica 2.16 Gráfica 2.17

P(X)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
X
0 1 2 3 4 5 6 Gráfica 2.18

71
PROBABILIDAD Y ESTADÍSTICA II

4. Sea X una variable aleatoria con distribución binomial con parámetros n 5 10 y p 5 0.7. Determina mediante
las tablas de probabilidad binomial, la fórmula y Excel las siguientes probabilidades:
a ) P(X 5 5)
b ) P(X . 5)
c ) P(X # 3)
d ) P(1 # X # 6)
e ) Construye la gráfica de la distribución de probabilidad.
5. Con la información del caso anterior determina:
a ) El valor esperado de X.
b ) La desviación estándar de X.
c ) Supongamos que la información anterior se refiere a una muestra de 10 personas seleccionadas de una gran
población en la que 70% está a favor de una ley ecológica. Interpreta en este contexto el valor esperado que
obtuviste en el primer inciso.
6. La siguiente tabla representa una distribución de probabilidad binomial para una variable aleatoria X con
parámetros n 5 12 y p 5 0.5.

X 0 1 2 3 4 5 6 7 8 9 10 11 12

P (X ) 0.000 0.003 0.016 0.054 0.121 0.193 0.226 0.193 0.121 0.054 0.016 0.003 0.000

a ) Construye la gráfica de la distribución de probabilidad.


b ) Considera que X representa las respuestas correctas a un examen de matemáticas con alto grado de dificultad
que se ha aplicado durante muchos años a miles de estudiantes. ¿Cuál sería la calificación promedio que se
esperaría obtener?
c ) Determina la proporción de estudiantes que se espera aprueben el examen; es decir, que tengan 7 o más
respuestas correctas.
7. En una encuesta realizada en México por la empresa Consulta Mitofsky en el año 2007 sobre el uso de métodos
anticonceptivos, se encontró que 95% de los hombres está de acuerdo con el uso de los preservativos. Si se
selecciona una muestra de 30 hombres, ¿cuál es la probabilidad de que?:
a ) todos estén de acuerdo con el uso del preservativo?
b ) la mitad esté a favor del uso del preservativo?
c ) veinte estén de acuerdo con el uso del preservativo?
d ) ¿cuál es el valor esperado de hombres que están de acuerdo en una muestra de tamaño 30?
e ) si en una muestra de tamaño 30 sólo 10 están a favor del uso de preservativos, ¿sospecharías que es falso
que 95% de los hombres está de acuerdo?, ¿o cuál sería tu interpretación?

72
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS DISCRETAS

Mapa conceptual

VARIABLES
ALEATORIAS

Variables discretas Variables continuas

Distribuciones de
probabilidad discretas
Distribuciones de
probabilidad continuas

Distribución de
probabilidad binomial

Parámetros
n, p

Cálculo de probabilidades
Fórmula

⎛ n⎞
p( X 5 x ) 5 ⎜ ⎟ p x (1 2 p )n2x
⎝ x⎠

Valor esperado
m 5 np
Desviación estándar

s5 np(1 2 p)

73
PROBABILIDADAYMESTADÍSTICA
P L I A NIID O EL CONOCIMIENTO

G l osario
Identifica los siguientes términos en el texto de la unidad y escribe su significado.
Distribución de probabilidad binomial.

Distribución de probabilidad.

Distribución discreta uniforme.

Distribución empírica de probabilidad.

Distribución teórica de probabilidad.

Experimento binomial.

Histograma de probabilidad.

Valor esperado de una variable aleatoria.

Variable aleatoria.

Variable aleatoria continua.

Variable aleatoria discreta.

74
A M P DLISTRIBUCIÓN
I A N D ODE EPROBABILIDAD
L C O NDEO VARIABLES
C I M I EALEATORIAS
N T O DISCRETAS

B I B L I O G R A F Í A
LÓPEZ, Paulo Alfonso. Probabilidad y estadística, Conceptos, modelos y aplicaciones en Excel, Pren-
tice Hall, Colombia, 2000.
MARIAN, Piotr, & Velasco, Gabriel. Problemario de Probabilidad, Math Learning Thomson, México,
2001.
MOORE, S. David. Estadística aplicada básica, Antoni Bosch, Editor, España, 1995.
TRIOLA, Mario F. Estadística, Pearson Addison Wesley, México, 2006.
WILLIAM, Mendenhall, Beaver Robert, & Beaver Barbara. Introducción a la probabilidad y estadística,
Math Learning, México, 2002.

75
Distribución de probabilidad de variables
Contenido

Tema 1
3.1 DISTRIBUCIÓN DE PROBABILIDAD
DE VARIABLES ALEATORIAS
CONTINUAS

Tema 2
3.2 DISTRIBUCIÓN DE PROBABILIDAD
NORMAL ESTANDARIZADA

Objetivo
El estudiante resolverá proble-
mas de probabilidad con base
en el concepto de distribución
de probabilidad de variables
aleatorias continuas. Aprenderá
a distinguir cuándo en una si-
tuación se presenta una variable
aleatoria continua e identificará
si sigue una distribución pre-
viamente estudiada. Identificará
variables que cumplen con un
modelo normal y será capaz de
utilizar su medida y desviación
estándar para, apoyado en tablas,
encontrar valores específicos. Se
fomentará el trabajo colaborativo
y una actitud positiva hacia la
materia y compañeros.
aleatorias continuas Unidad 3
i e n t o s
En contacto con

tu s c o n o c i m
• Identifica algunas experiencias aleatorias que involucren variables alea-
torias continuas.
_____________________________________________________
_____________________________________________________
_____________________________________________________
_____________________________________________________
_____________________________________________________

• Supón que se tiene la distribución de probabilidad de tener un accidente


según la edad del conductor. ¿En cuál de los tres intervalos de edad
que se proporcionan crees que exista mayor probabilidad de tener un
accidente?
a ) 18-35 años.
b ) 36-50 años.
c ) 51 años en adelante.
• Identifica los parámetros de los cuales depende la distribución normal y
describe su efecto en su comportamiento.
_____________________________________________________
_____________________________________________________
_____________________________________________________
_____________________________________________________
_____________________________________________________

Es extraordinario que una ciencia que empezó con la importancia de un juego se haya
elevado a los más importantes objetos del conocimiento humano.
Pierre Simón de Laplace
PROBABILIDAD Y ESTADÍSTICA II

INTRODUCCIÓN
La distribución normal es una de las más importantes en estadística. También es co-
nocida como distribución Gaussiana o incluso como Campana de Gauss, en honor
al matemático Carl Friedrich Gauss (1777-1855) quien en 1823 publicó su expre-
sión matemática. Sin embargo, es digno mencionar el mérito de Abraham de Moivre
(1667-1754), quien en 1733 publicó un folleto en el que aparece por primera vez la
curva de la distribución de errores, ahora conocida como distribución Gaussiana.
La importancia de la distribución normal radica en que mu-
chos fenómenos de interés para el ser humano tienen un com-
portamiento como el descrito por la distribución. Ejemplos de
ello son los diversos caracteres morfológicos de personas, ani-
males y plantas, como la estatura, el peso y longitudes de algu-
nas partes del cuerpo; caracteres psicológicos como el coeficiente
intelectual; variables relacionadas con la salud como el nivel de
colesterol, la presión arterial; los puntajes de pruebas estandari-
zadas para evaluar conocimiento y habilidades de las personas,
entre otros. Además, muchos métodos estadísticos se basan en la
suposición de normalidad para generar estimaciones confiables.
Tradicionalmente, el estudio de la distribución normal en el
bachillerato se centra en el cálculo de probabilidades mediante
tablas de probabilidad. En esta unidad utilizaremos además
de tablas, la hoja de cálculo Excel, ejemplos basados en situa-
ciones reales, y haremos un uso extensivo de las representaciones gráficas para dar
mayor sentido a los cálculos realizados.
El nombre de normal que adopta la distribución muchas veces causa confusión.
En estadística es sólo un nombre y no tiene relación con el sig-
nificado que damos usualmente a la normalidad.

3.1 DISTRIBUCIÓN DE PROBABILIDAD DE


UNA VARIABLE ALEATORIA CONTINUA
En la unidad anterior estudiamos las variables aleatorias dis-
cretas y las distribuciones de probabilidad discretas, en particular
la distribución binomial. Ahora abordaremos las variables alea-
torias continuas y la distribución de probabilidad más conocida
para este tipo de variables, como es el caso de la distribución
normal.
Una variable aleatoria continua puede tomar cualquier valor
entero o fraccionario entre un intervalo dado. Por ejemplo, la es-
tatura de una persona puede tomar valores como 128 cm, 129.3
cm, 130.23 cm, o hasta donde la precisión del instrumento de
medida lo permita.
En teoría no existe restricción para tomar un valor dado de
un intervalo, a diferencia de las variables discretas, que sólo

78
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

toman valores enteros; por ello, es común que en las variables continuas nos in-
teresemos en probabilidades de intervalos de valores, más que en valores aislados.
Por ejemplo, ¿cuál es la probabilidad de que una persona seleccionada al azar
tenga una estatura entre 128.4 cm y 150.2 cm? ¿cuál es la probabilidad de que su
estatura sea menor a 140 cm?

Ejemplos de variables aleatorias continuas son los siguientes:


• La temperatura y el peso de una persona.
• El nivel de azúcar en la sangre de una persona.
• El tiempo que dura una llamada telefónica.
• La velocidad de un automóvil al pasar por un cierto punto de una carretera.
• El tiempo de vida o duración de un dispositivo eléctrico.
• El volumen de una bebida gaseosa al salir de la línea de llenado o producción.
Las variables aleatorias continuas, al tomar cualquier valor numérico entre un in-
tervalo dado, dan lugar a distribuciones de probabilidad continuas; por lo cual la
gráfica de este tipo de distribuciones es una curva suave, siempre que se tomen gran
cantidad de observaciones.

79
PROBABILIDAD Y ESTADÍSTICA II

La gráfica 3.1 muestra una distribución de probabilidad con diversos valores de


la variable aleatoria, que oscilan aproximadamente entre 15 y 28. Sin embargo, si el
proceso de medición de la variable contempla una mayor cantidad de datos, el histo-
grama tenderá hacia una curva suavizada como la que se muestra en la gráfica 3.2.
En las distribuciones anteriores nos podría interesar determinar la probabilidad
de que X tome valores entre 21 y 23 inclusive, lo cual se puede saber calculando el
área sombreada.

X
14 16 18 20 22 24 26 28
Gráfica 3.1 Histograma de probabilidad.

Probabilidad

X
14 16 18 20 22 24 26 28 30
Gráfica 3.2 Histograma de probabilidad y curva suavizada.

De esta manera, una distribución de probabilidad para una variable continua está
determinada por una curva que permite conocer la probabilidad de un rango o inter-
valo de valores para una variable aleatoria X.

80
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

La curva suave que describe el comportamiento de una variable aleatoria continua


recibe el nombre de curva de densidad, o en términos más formales función de
densidad de probabilidad.
Dos observaciones importantes respecto a las curvas anteriores:
a) Cada intervalo que se defina tiene una probabilidad de ocurrencia entre 0 y 1,
y esta última está determinada como el área correspondiente bajo la curva.
b) El área total bajo el histograma o la curva suavizada es igual a 1.
A continuación se describen tres posibles opciones en el cálculo de probabilidades
como áreas bajo una curva de densidad. Considérese a X una variable aleatoria con-
tinua:

P(X)
P(X)

a b X b X
P(a # X # b) P(X # b)
Gráfica 3.3

P(X)

a X
P(X $ a)
Gráfica 3.4

81
PROBABILIDAD Y ESTADÍSTICA II

Recuerda:
La distribución de una variable aleatoria continua es descrita por una curva suave denominada
curva de densidad.
Las probabilidades son representadas por áreas bajo la curva de densidad.
El área bajo la curva es igual a 1.

3.1.1. Distribución de probabilidad normal


En el grupo de distribuciones de probabilidad para variables continuas sobresale por
su importancia la distribución normal, también conocida como distribución Gaussia-
na o incluso como campana de Gauss, quien en 1823 publicó su expresión matemá-
tica, la cual se muestra a continuación:
( x2m) 2
1 2
f ( x) 5 e 2 s2
2` , x , `
s 2p
La distribución normal depende de los parámetros m y s, que representan la media
y la desviación estándar, respectivamente. La expresión matemática de la distribución
normal es complicada para calcular probabilidades, sin embargo, en este curso utiliza-
remos recursos adicionales como las tablas de probabilidad y la hoja de cálculo Excel
para el cálculo de probabilidades.
Cuando una variable aleatoria X tiene distribución normal, se acostumbra simbo-
lizarlo así: X , Normal(m, s) o simplemente X , N(m, s). Por ejemplo, una variable
aleatoria X que tiene distribución normal con media m 5 100 y s 5 5, se puede repre-
sentar como X , N(100, 5). La gráfica correspondiente se muestra a continuación:

X
85 90 95 100 105 110 115 120
m

X , N(100, 5)
Gráfica 3.5

Importancia de la distribución normal


La importancia de la distribución normal se debe principalmente a que muchos fe-
nómenos físicos, biológicos y psicológicos se pueden modelar de manera adecuada

82
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

a través de ella. Además, en el desarrollo de los métodos de inferencia estadística, la


distribución normal ocupa un lugar fundamental, ya que las distribuciones muestra-
les de diversos estadísticos de interés (por ejemplo, la media y la proporción), que son
la base para la estimación y verificación de hipótesis, tienden a ser aproximadamente
normales para tamaños de muestras moderados, aun cuando la población de la que
provienen las muestras no sean normales.
Para ejemplificar lo anterior consideremos los datos analizados por Quetelet (1796-
1874), científico belga con fuertes inclinaciones hacia la estadística que, interesado
en la teoría del hombre medio, fue el primero en aplicar la distribución normal a datos
humanos. Analizando datos sobre las medidas del tórax de más de 5 000 soldados
escoceses, observó que había mucha variabilidad en sus longitudes y concluyó que las
medidas tenían una distribución muy aproximada a la normal con media del tórax de
39.8 pulgadas y desviación estándar de 2.05 pulgadas. Un histograma con la distribu-
ción de las medidas se muestra a continuación:

P(X) 0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
X
32 34 36 38 40 42 44 46 48
Gráfica 3.6 Distribución de la longitud del tórax de los soldados escoceses (en pulgadas).

Obsérvese el buen ajuste entre el histograma con los datos de los soldados y la dis-
tribución normal con m 5 39.8 y s 5 2.05. La distribución nos permite ver que la
mayoría tenían una longitud de tórax entre 36 y 44 pulgadas. Pocos soldados tenían
una longitud de tórax fuera de este rango.
Otro importante ejemplo de aplicación de la distribución normal son los puntajes
obtenidos en pruebas estandarizadas para evaluar ciertos conocimientos y habilida-
des. En México, las pruebas de este tipo más conocidas son las que aplica el Centro
Nacional para la Evaluación de la Educación Superior (CENEVAL).
Para el EXANI-I que se aplicó a los aspirantes a ingresar al nivel preparatoria en
el año 2007, los puntajes de la prueba tienen una distribución normal con media
m 5 933 y una desviación estándar s 5 97. Una representación gráfica de la dis-
tribución se muestra a continuación:

83
PROBABILIDAD Y ESTADÍSTICA II

Distribución nacional de puntaje en Indice CENEVAL del EXANI-1 en 2007 Distribución nacional por puntaje en índice CENEVAL del EXANI-1 en 2007
Quintil 3

Quintil 2 Quintil 4

983 983
Media

948 1000
948 1000 Quintil 1 Quintil 5

802 1070
802 1070

700
715
730
750
775
794
813
831
860
869
888
906
925
944
963
981
1000
1015
1030
1056
1076
1084
1113
1131
1150
1169
1188
1206
1225
1244
1263
1281
1300
700
715
730
750
775
794
813
831
860
869
888
906
925
944
963
981
1000
1015
1030
1056
1076
1084
1113
1131
1150
1169
1188
1206
1225
1244
1263
1281
1300

Índice CENEVAL
Índice CENEVAL Distribución nacional Quintiles del global Media global

Puntajes obtenidos por 669 009 estudiantes aspirantes a preparatoria en México en 2007.
Fuente: http://www.ceneval.edu.mx/portalceneval/docs/500/CaractEXANI-I_07.pdf

Una breve mirada a la distribución nos revela algunos resultados importantes:


1. Los puntajes variaron de los 700 a los 1 300 puntos
2. Son pocos los estudiantes que obtienen puntajes muy altos, pero también son
pocos los que logran puntajes muy bajos.
3. La mayoría obtuvo puntajes en el intervalo de 813 a 1 188.
Sin duda, el conocimiento de dichos puntajes y la forma en que se distribuyen es una
herramienta para la toma de decisiones educativas.

Propiedades de la distribución de probabilidad normal


P(X) Los parámetros m y s determinan el
0.14 comportamiento de la distribución
s=3 normal, es decir, cuando varían los
0.12
parámetros también lo hace la dis-
0.10 tribución. Veamos a continuación
0.08
cómo influye la variación de los
s=5 parámetros en el comportamiento
0.06 de la distribución normal.
0.04 a) Se mantiene fija la media y va-
ría la desviación estándar.
0.02
s=8
X
80 85 90 95 100 105 110 115 120 Gráfica 3.7

84
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

En la figura anterior se observa que al incrementarse la desviación estándar, la


distribución normal se expande cada vez más y viceversa.
b) Se mantiene fija la desviación estándar y varía la media.

P(X)
0.10
m = 105
0.08
m = 100 m = 110
0.06

0.04

0.02

X
85 90 95 100 105 110 115 120 125

Gráfica 3.8

En la figura anterior se ve que al variar la media, las distribuciones sufren un


efecto de traslación.

P(X) m = 10 s = 1
0.40

0.35

0.30 m = 8 σ = 1.5
0.25

0.20

0.15
m = 12 s = 0.5
0.10

0.05
X
4 6 8 10 12 14 16 18

Gráfica 3.9

Como puede verse, la expresión matemática de la distribución normal genera


una familia de curvas. Para un valor particular de los parámetros m y s se obtiene una
curva.
1. La distribución normal es simétrica, por lo cual la mitad de las observaciones
o datos están por debajo de la media y la otra mitad se encuentran por encima
de la media.

85
PROBABILIDAD Y ESTADÍSTICA II

50% 50%

Media = Mediana = Moda


Gráfica 3.10

2. La media, la mediana y la moda de los datos de la distribución coinciden.


3. La distribución se extiende en forma asintótica sobre el eje horizontal.
4. Para cualquier distribución se pueden conocer las proporciones de datos o
probabilidades, en función del número de desviaciones estándar, que se en-
cuentran representadas en el eje horizontal. En general se cumple lo siguiente:
m 6 s 5 68%
m 6 2s 5 95%
m 6 3s 5 99.7%
Esto significa que entre una desviación estándar alrededor de la media se encuentra
68% de los datos, a dos desviaciones estándar se encuentra 95% de los datos, y entre
tres desviaciones estándar está 99.7% de los datos.
68% 95%

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

m2s m1s m 2 2s m 1 2s

86
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

99.7%

-3 -2 -1 0 1 2 3
m 2 3s m 1 3s
Gráfica 3.11

Para ilustrar lo anterior consideremos el ejemplo de los soldados escoceses en el


cual m 5 39.8 y s 5 2.05.
1. El 68% de los soldados tenía una longitud de tórax entre 39.8 6 2.05 pulgadas,
es decir, entre 37.75 y 41.85 pulgadas.
2. El 95% de los soldados tenía una longitud de tórax entre 39.8 6 2(2.05) pul-
gadas, esto es, entre 35.7 y 43.9 pulgadas.

3.2 DISTRIBUCIÓN DE PROBABILIDAD NORMAL


ESTANDARIZADA
La expresión matemática de la distribución normal está en función de los parámetros
m y s, por lo cual para cada valor de ambos parámetros se tiene una distribución di-
ferente. En el caso particular de que m 5 0 y s 5 1, la distribución recibe el nombre
de distribución normal estándar o distribución normal estandarizada. Ésta es
muy importante en el cálculo de probabilidades, es la que viene resuelta en las tablas
de probabilidad.
Cualquier distribución deberá ser transformada a la forma estan-
darizada para poder utilizar las tablas de probabilidad, lo cual se
conoce como proceso de estandarización. Para diferenciar la dis-
tribución de datos reales de la distribución estandarizada, la prime-
ra se representa con la variable aleatoria X, mientras que la segunda
se representa con la letra z.
La expresión que permite convertir una distribución normal
cualquiera a la distribución normal estándar es la siguiente:
x2m
z5
s
Donde:
m: es la media de la población
s: es la desviación estándar de la población
x: representa un valor particular de la variable aleatoria X

87
PROBABILIDAD Y ESTADÍSTICA II

El valor de z obtenido para un valor particular de x, representa un valor que está


tan lejos de cero como x está respecto a M; medido además en desviaciones estandar.
Con base en lo anterior, recuerda que una de las propiedades de la distribución
normal consiste en que 99.7% de los datos u observaciones cae entre tres desvia-
ciones estándar alrededor de la media, por lo cual la extensión de seis desviaciones
estándar (tres a cada lado de la media) cubren casi la totalidad de los datos u obser-
vaciones. Obsérvese la gráfica 3.12 donde prácticamente desde 23 hasta 3 se cubre
la totalidad de la distribución.

-3 -2 -1 0 1 2 3
6s
Gráfica 3.12
Ejemplo
Las estaturas de jóvenes mexicanos tienen una distribución aproximadamente
normal con m 5 170 cm y s 5 4 cm, convertirla a su forma estándar. Considére-
se una estatura x 5 176 cm.
x 2 m 176 2170
z5 5 51.5
s 4
El resultado anterior significa que z 5 1.5 en la distribución normal estándar (Z)
equivale a x 5 176 en la distribución real (X), además que x 5 176 se encuentra
a 1.5 desviaciones estándar de la media. Como sabemos, después de tres desvia-
ciones de la media existe poca área bajo la curva; esto significa que muy pocos
jóvenes tendrán una estatura mayor a 182 cm. Lo anterior se puede observar en
las siguientes gráficas donde se muestran ambas distribuciones.
El proceso de estandarización se requiere para calcular probabilidades mediante
tablas de probabilidad. Cuando se utiliza un programa estadístico, no es necesa-
rio la tabla ya que tiene adicionada la fórmula de la distribución normal, sólo se
requiere introducir los valores de los parámetros.

88
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

P(X)
0.10

0.08

0.06

0.04

0.02

X
155 160 165 170 175 180 185

m 5 170 s54 x 5 176


Gráfica 3.13

P(X)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
Z
-3 -2 -1 0 1 2 3

m50 s51 z 5 1.5


Gráfica 3.14

Cálculo de probabilidades con la distribución normal


El cálculo de probabilidades en una distribución normal puede realizarse mediante:
1. La expresión matemática (fórmula)
2. Tablas de probabilidad estandarizadas
3. Un programa de cómputo estadístico
Dada la complejidad de la expresión matemática, ésta se utiliza poco para el cálculo
de probabilidades, en su lugar se utilizan con mayor frecuencia las tablas y los pro-
gramas de cómputo.

89
PROBABILIDAD Y ESTADÍSTICA II

Uso de tablas para cálculo de probabilidades


En las tablas de probabilidad se ha resuelto, para una gran cantidad de casos, la distri-
bución normal estandarizada, la cual, como ya señalamos, tiene m 5 0 y s 5 1. Para
utilizar las tablas es necesario transformar la distribución de interés a la distribución
normal estándar. Veamos un ejemplo.

Ejemplo
Uno de los métodos más conocidos para medir el coeficiente de inteligencia (CI)
de las personas es la prueba Stanford-Binet. En ésta los puntajes obtenidos tienen
una distribución normal con media m 5 100 y desviación estándar s 5 16. Si se
selecciona al azar una persona que va a aplicar la prueba:

a) ¿Cuál será la probabilidad de que tenga un CI menor a 100?

b) ¿Cuál será la probabilidad de que obtenga un CI mayor a 110?

En ambos casos se requiere calcular el área bajo la curva delimitada por los valores
especificados, la cual representa la probabilidad solicitada. Para calcular el área se
requiere estandarizar la distribución N(100,16) a la distribución estándar N(0,1).

P(X , 100) X P(X . 110)

X
40 60 80 100 120 140 160

Gráfica 3.15

Solución a:
x 2 m 100 2100
z5 5 50
s 16

Con el valor de z 5 0 entramos a la tabla 2 (distribución normal estandarizada)


que viene al final del libro, y la probabilidad que le corresponde es P(X , 100) 5
P(Z , 0) 5 0.5.

90
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

P(Z , 0)

0.5

Z
-3 -2 -1 0 1 2 3
Gráfica 3.16
Solución b):
x 2 m 110 2 100
z5 5 5 0.62
s 16
Con el valor de z obtenido, buscamos en la tabla 2 de la sección Anexos y obtenemos
P(X , 110) 5 P(Z , 0.62) 5 0.732.

91
PROBABILIDAD Y ESTADÍSTICA II

P(Z , 0.62)

0.732

Z
-3 -2 -1 0 1 2 3
Gráfica 3.17

La tabla de probabilidad normal proporciona valores acumulados de izquierda a


derecha. Sin embargo, como en este inciso se requiere calcular una probabilidad
de cola derecha P(Z . 0.62), será necesario calcular el área complementaria. Sabe-
mos que el área total es igual a 1, entonces P(Z . 0.62) 5 1 2 0.732 2 0.268.

P(Z . 0.62)

0.268

Z
-3 -2 -1 0 1 2 3

Gráfica 3.18

En resumen, cuando en la distribución se solicita probabilidad de cola izquierda,


las tablas de probabilidad proporcionan el valor directamente; sin embargo, cuan-
do se requiere una probabilidad de cola derecha, primero se calcula el área de la
cola izquierda y luego se resta de 1 el área encontrada.

92
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

Cola izquierda Cola derecha


P(Z , a) 5 p P(Z . a) 5 1 2 p

-3 -2 -1 0 1 2 3
a
Gráfica 3.19

Uso de Excel para cálculo de probabilidades


Otra forma de calcular probabilidades es a través de un programa de cómputo estadís-
tico o una hoja de cálculo como Excel. En este caso explicaremos el uso de Excel.
1. En la hoja de cálculo Excel selecciona un celda cualquiera, posteriormente del
menú selecciona fórmulas y elige la siguiente trayectoria: fórmulas>más funcio-
nes> estadísticas>distr.norm

2. La fórmula DISTR.NORM permite calcular probabilidades de una distribución


normal. Para nuestro caso se requiere introducir los valores siguientes: x 5 100,

93
PROBABILIDAD Y ESTADÍSTICA II

Media 5 100, Desv_estándar 5 16, Acum 5 verdadero, como se muestra en la


siguiente ventana:

Una vez introducidos los valores presiona Aceptar y el programa coloca el resultado
obtenido en la celda seleccionada. En este caso es 0.5, es decir, P(X , 100) 5 0.5.
Recuerda que en el inciso b) del problema anterior se pide una probabilidad de
cola derecha. Para ello se procede de la misma manera que ya se hizo, considerando
que al final se debe realizar en otra celda la resta respecto a 1, al igual que lo hicimos
con las tablas de probabilidad.
En este caso se introducen los valores x 5 110, Media 5 100, Desv_estándar 5 16,
Acum 5 verdadero, como se muestra en la siguiente ventana:

94
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

Una vez obtenido el resultado, en otra celda se introduce la fórmula que involucra
la resta, con el resultado definitivo.

P(X . 110) 5 1 2 0.734 5 0.266

Ejemplo
La siguiente gráfica muestra la distribución de los puntajes obtenidos por 331
estudiantes que presentaron el examen EXANI I del CENEVAL para ingresar a la
Facultad de Informática de la Universidad Autónoma de Sinaloa en el año 2007.
Los puntajes van desde 800 hasta 1 200 y tienen m 5 972 y s 5 76.

Frecuencias
40
35
30
25
20
15
10
5

800 900 1000 1100 1200


Puntaje 2007

Gráfica 3.20

a) Determina si los datos anteriores tienen una distribución normal.

95
PROBABILIDAD Y ESTADÍSTICA II

Una de las propiedades de la distribución normal señala que las proporciones de


datos entre 1, 2 y 3 desviaciones estándar respectivamente, es la siguiente:
m 6 s 5 68%
m 6 2s 5 95%
m 6 3s 5 99.7%
Por tanto, si los puntajes del examen tienen una distribución normal deben cum-
plir con lo anterior. Para el primer intervalo tenemos:
m 6 s 5 972 6 76 lo que define el intervalo: (896, 1 048)
Es decir, 68% de los estudiantes debió lograr un puntaje en el examen entre 896 y
1 048. Una revisión de los datos señala que 226 de los 331 estudiantes obtuvieron
puntajes en este rango, lo que representa 68.2%.
Para el segundo y tercer intervalo se tiene lo siguiente:
m 6 2s 5 972 6 2(76) lo que define el intervalo: (820, 1 124)
310 de 331 estudiantes, es decir, 93.7% de ellos obtuvieron un puntaje en este
rango.
m 6 s 5 972 6 3(76) lo que define el intervalo: (774, 1 200)
329 de 331 estudiantes, es decir, 99.4% de ellos obtuvieron un puntaje en este
rango.
De acuerdo con lo anterior, podemos decir que los datos tienen una distribución
muy aproximada a la normal. Un ajuste entre los datos (distribución empírica) y
la distribución teórica se muestra a continuación:
P(X)
0.006

0.005

0.004

0.003

0.002

0.001

X
800 900 1000 1100 1200
Puntaje 2007

Gráfica 3.21

96
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

Seguramente conforme más estudiantes presentan el examen, el histograma va ad-


quiriendo una forma más suavizada hasta coincidir con la distribución teórica.
b) Si el EXANI I se aplica a nivel nacional, ¿qué proporción de estudiantes se
espera que tengan un puntaje entre 900 y 1 100 puntos?
Aun cuando no tenemos datos de los puntajes obtenidos por estudiantes de otras
facultades, podemos asumir que se distribuyen en forma aproximadamente nor-
mal con media m 5 972 y desviación estándar s 5 76. Al estandarizar la distri-
bución se tiene lo siguiente:

x 2 m 900 2 972 x 2 m 1100 2 972


z5 5 520.95 z5 5 51.68
s 76 s 76
P(X) P(X)
0.006 0.40

0.005 0.35
0.30
0.004
0.25
0.003 0.20
0.15
0.002
0.10
0.001 0.05
0.000 X 0.00 Z
800 900 1000 1100 1200 -3 -2 -1 0 1 2 3
Distribución de datos reales Distribución estandarizada
Gráfica 3.22 Gráfica 3.23

Utilicemos las tablas de probabilidad.


Primero calculamos el área acumulada para z 5 1.68, lo que equivale a calcular
P(Z , 1.68) 5 0.953.
Ahora calculamos el área acumulada para z 5 20.95, lo que equivale a calcular
P(Z , 20.95) 5 0.171.
Ahora restamos las áreas y obtenemos el área solicitada, lo que equivale a calcular:
P(20.95 , Z , 1.68) 5 0.953 2 0.171 5 0.782.
Es decir, se espera que a nivel nacional 78% de los estudiantes obtengan un pun-
taje entre 900 y 1 100 en el EXANI I para ingresar a facultades de informática.

97
PROBABILIDAD Y ESTADÍSTICA II

Aprende a ser con la probabilidad y la estadística


Se realizó un estudio comparativo con futbolistas universitarios mexi-
canos y profesionales sudamericanos sobre ciertas características antro-
pométricas como edad, estatura, peso, porcentaje de grasa entre otras
[Revista Internacional de Medicina y Ciencias de la Actividad Física y
el Deporte. vol. 6 (21) http://cdeporte.rediris.es/revista/revista21/artfut-
bol21.htm.]. Para la estatura se estimaron los parámetros:
Estatura futbolistas universitarios: m 5 172.03 cm s 5 5.51 cm
Estatura futbolistas sudamericanos: m 5 177.70 cm s 5 5.74 cm
a) ¿Qué proporción de futbolistas sudamericanos tiene una estatura
mayor a 180 cm?
b) ¿Cuál es la proporción de futbolistas universitarios cuya estatura es
mayor a 180 cm?
c) Supongamos que un equipo profesional de futbol niega toda posi-
bilidad de que un jugador con una estatura menor a 165 cm ingre-
se a sus filas. ¿Qué proporción de universitarios y sudamericanos
estarían en esa condición?
Una gráfica de ambas distribuciones se muestra a continuación:

P(X)

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00 X
155 160 165 170 175 180 185 190 195

Gráfica 3.24

98
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

LA ESTADÍSTICA Y TU COMUNIDAD

Hemos mencionado con anterioridad que la distribución normal tiene aplicaciones muy impor-
tantes en el diseño de exámenes estandarizados, como es el caso de los exámenes que aplica
el Centro Nacional de la Evaluación para la Educación Superior A. C. (CENEVAL).
Por ejemplo, el EXANI I, que es el Examen Nacional de Ingreso a la Educación Media Superior
en México, fue aplicado a 669 009 estudiantes en 2007. Los puntajes se distribuyeron en for-
ma aproximadamente normal con una media de 982 puntos y una desviación estándar de 97
puntos en lo global. Hubo diferencias en cuanto a las áreas de evaluación, al género y por el
tipo de bachillerato, como se muestra en la siguiente tabla:
Los resultados mostrados corresponden a la población total que respondió el Examen Nacional
de Ingreso a la Educación Media Superior, EXANI I en el año 2007. Las estadísticas únicamente
reflejan el desempeño de aquellos sustentantes que respondieron el instrumento mencionado
elaborado por el Ceneval.

http://www.ceneval.edu.mx/portalceneval/index.php?q=docs.desp&ndf=450

99
PROBABILIDAD Y ESTADÍSTICA II

RESUMEN
Una variable aleatoria continua puede tomar cualquier valor entre un intervalo dado.
Tal es el caso de la estatura y el peso de las personas o animales, la velocidad de un
vehículo, el tiempo de vida de un dispositivo. En teoría no existe restricción para tomar
un valor dado de un intervalo, a diferencia de las variables discretas, que sólo toman
valores enteros. Por esto, es común que en las variables continuas nos interesemos en
probabilidades de intervalos de valores, más que en valores aislados.
De esta manera, una distribución de probabilidad para una variable continua está
determinada por una curva que permite conocer la probabilidad de un rango o inter-
valo de valores para una variable aleatoria X. La curva suave que describe el compor-
tamiento de una variable aleatoria continua recibe el nombre de curva de densidad,
y también función de densidad de probabilidad.
En una función de densidad de probabilidad cada intervalo que se defina tiene
una probabilidad de ocurrencia entre 0 y 1, y esta última está determinada como el
área correspondiente bajo la curva. El área bajo toda la curva es igual a 1.
La distribución de probabilidad para variables continuas más conocida es la dis-
tribución normal, también denominada distribución Gaussiana o campana de
Gauss, en honor al matemático Carl Friedrich Gauss (1777-1855) quien en 1823
publicó su expresión matemática, la cual depende de dos parámetros m y s, que
representan la media y la desviación estándar, respectivamente. Para cada valor de
dichos parámetros se obtiene una distribución diferente. En que, para el caso par-
ticular en que m 5 0 y s 5 1, se denomina distribución normal estándar. Ésta es
muy importante para el cálculo de probabilidades, es la que viene resuelta en las
tablas de probabilidad; además, permite comparar en valores estandarizados dos
distribuciones normales cualquiera.
La importancia de la distribución normal se debe principalmente a que muchos fe-
nómenos físicos, biológicos y psicológicos se pueden modelar de manera adecuada a
través de ella. Por ejemplo, se ha encontrado que caracteres morfológicos de personas
y animales como estatura, peso y medidas de partes del cuerpo, caracteres psicológi-
cos como el coeficiente de inteligencia y puntajes de exámenes estandarizados, tienen
distribuciones muy aproximadas a la normal.
Los parámetros m y s determinan el comportamiento de la distribución normal.
En general, al incrementarse la desviación estándar, la distribución normal se expan-
de cada vez más y viceversa; por su parte, al variar la media, las distribuciones sufren
un efecto de traslación.
Entre las propiedades de la distribución normal se tiene que es simétrica respecto
a la media; la media, la mediana y la moda coinciden; la distribución se extiende en
forma asintótica sobre el eje horizontal. Entre una desviación estándar alrededor de la
media se encuentran 68% de los datos, a dos desviaciones estándar se encuentran 95%
de los datos, y entre tres desviaciones estándar se encuentran 99.7% de los datos.
El cálculo de probabilidades en una distribución normal se realiza mediante tablas
de probabilidad de la normal estandarizada y con programas de cómputo estadístico,
como Excel. Para utilizar las tablas de probabilidad primero se estandariza la distri-

100
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

bución de datos reales y después se buscan los valores en la tabla. Los valores que
aparecen en las tablas son acumulados de izquierda a derecha por lo cual, cuando
se requiere calcular un área intermedia o una cola derecha debe hacerse una resta
de áreas.
Por su parte, en Excel se selecciona una celda cualquiera y se inserta la fórmula
DISTR.NORM que requiere introducir los parámetros de la distribución y el valor
que determina el límite del área de probabilidad.

101
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS
E V A L U A C I Ó N S U M A T I V A

1. Dada la distribución normal estandarizada determinar las probabilidades correspondientes a los valores de Z
indicados con ayuda de las tablas de probabilidad:
a ) P(Z , 1)
b ) P(21.5 , Z , 1)
c ) P(Z . 2)
d ) P(Z . 22)
2. El peso (X) de los individuos de una población se distribuye de manera normal con media m 5 85 kg y s 5 10
kg. Convertir la distribución a su forma estandarizada y calcular las siguientes probabilidades mediante tablas
de probabilidad y con la fórmula DISTR.NORM de Excel.
a ) P(X . 100)
b ) P(85 , X , 110)
c ) P(X , 60)
3. Los puntajes del examen nacional de ingreso a preparatoria (EXANI I) de CENEVAL en el apartado de matemáticas
en 2007 tuvieron una distribución aproximadamente normal con m 5 990 y s 5 138. Determina:
a ) El rango de calificaciones obtenidas considerando seis desviaciones estándar, tres por debajo de la media y
tres por encima de la media, con lo cual se cubre a 99.7% de los estudiantes.
b ) La proporción de estudiantes que obtuvieron un puntaje mayor o igual a 1 200.
c ) La proporción de estudiantes cuyo puntaje fue menor a 800.
d ) Si una universidad decide seleccionar sólo a quienes tuvieron un puntaje igual o mayor a 1 266, ¿qué
porcentaje de estudiantes aceptaría?
4. Considérese a X como una variable aleatoria con distribución normal con m 5 200 y s 5 20. Utilizando sólo
las propiedades de la distribución normal determina los límites de X entre los cuales se encuentra comprendido
el 68%, el 95% y el 99.7% de los datos respectivamente.
5. Dada la gráfica de la siguiente distribución normal determina en forma aproximada el valor de la media y la
desviación estándar con sólo visualizar su centro y su variabilidad.

P(X)
0.040
0.035
0.030
0.025
0.020
0.015
0.010
0.005
0.000 X
80 90 100 110 120 130 140 150 160

Gráfica 3.25

103
PROBABILIDAD Y ESTADÍSTICA II

6. Dadas las siguientes distribuciones y los siguientes valores de parámetros, coloca sobre ellas los parámetros
que les corresponden.
m 5 13 m 5 13 m 5 10
s 5 1.5 s52 s51

0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
000
8 10 12 14 16 18

Gráfica 3.26

7. Un estudio realizado con futbolistas universitarios mexicanos y profesionales sudamericanos sobre ciertas
características antropométricas como edad, estatura, peso, porcentaje de grasa entre otras (Revista Internacional
de Medicina y Ciencias de la Actividad Física y el Deporte. Vol. 6 (21) http://cdeporte.rediris.es/revista/revista21/
artfutbol21.htm) arrojó para una muestra de 21 deportistas mexicanos los siguientes valores:
Circunferencia de muslo: m 5 55.06 cm s 5 3.20 cm
Peso: m 5 67.84 kg s 5 5.82 kg
Si los valores de dichas variables se distribuyen de forma aproximadamente normal, utilizando tablas de
probabilidad y Excel, determinar:
a ) La proporción de futbolistas universitarios que tienen una circunferencia de muslo superior a los 65 cm.
b ) La proporción de futbolistas universitarios cuyo peso es menor a los 62 kg.
c ) Si un equipo profesional de futbol requiere que sus futbolistas tengan un peso entre 65 y 70 kg, ¿qué
porcentaje de futbolistas universitarios podrían ser aceptados?

104
A M PDLISTRIBUCIÓN
I A N D ODE PROBABILIDAD
E L C O NDEOVARIABLES
C I M I EALEATORIAS
N T O CONTINUAS

G losario
Identifica los siguientes términos en el texto de la unidad y escribe su significado.
Distribución de probabilidad normal.

Distribución normal estándar.

Función de densidad de probabilidad.

Histograma de probabilidad.

Parámetros de la distribución normal.

Variable aleatoria continua.

B I B L I O G R A F Í A
LÓPEZ, Paulo Alfonso. Probabilidad y estadística, Conceptos, modelos y aplicaciones en Excel, Pren-
tice Hall, Colombia, 2000.
MARIAN, Piotr, & Velasco, Gabriel. Problemario de Probabilidad, Math Learning Thomson, México,
2001.
MOORE, S. David. Estadística aplicada básica, Antoni Bosch Editor, España, 1995.
TRIOLA, Mario F. Estadística, Pearson Addison Wesley, México, 2006.
WILLIAM, Mendenhall, Robert Beaver, & Barbara Beaver. Introducción a la probabilidad y estadística,
Math Learning, México, 2002.

105
Análisis de datos de dos variables
Contenido

Tema 1
4.1 REPRESENTACIÓN DE DATOS DE
DOS VARIABLES

Tema 2
4.2 CORRELACIÓN LINEAL
Tema 3
4.3 REGRESIÓN LINEAL

Objetivo
El estudiante resolverá proble-
mas que involucren el comporta-
miento de datos de dos variables
en diversas situaciones entre las
que se distinguirán aquellas que
sean significativas en el ámbito
escolar y personal. Para esto,
aprenderá a representar los datos
en tablas y diagramas de disper-
sión, así como calcular e inter-
pretar el coeficiente de correla-
ción lineal y la recta de mínimos
cuadrados. Utilizará esos con-
ceptos para hacer predicciones y
análisis de regresión. Se fomen-
tará el trabajo colaborativo y una
actitud positiva hacia la materia
y a sus compañeros.
Unidad 4
i e n t o s
En contacto con

tu s c o n o c i m
El fumador y el cáncer de pulmón
¿Cuándo fue el primer vínculo mostrado entre el fumador
y el cáncer de pulmón?
En 1950 en Londres, Inglaterra, los médicos estadísticos Austin Bradford Hill y Richard Doll (en Agresti y
Franklin, 2007) condujeron uno de los primeros estudios. En 20 hospitales, coincidieron en seleccionar
709 pacientes diagnosticados con cáncer de pulmón con 709 pacientes que no lo tenían dentro del
mismo hospital y en condiciones muy similares: del mismo género y en el mismo intervalo de edad.
Todos los pacientes fueron interrogados acerca de su conducta de fumador. Un fumador se definió
como una persona que había fumado al menos un cigarro al día por alrededor de un año. La tabla
muestra los resultados que se obtuvieron en las investigaciones de las conductas del fumador de los
pacientes. Los 709 en la primera columna de la tabla 4.1 fueron pacientes con cáncer pulmonar. Los
709 de control en la segunda columna fueron los pacientes sin cáncer pulmonar.
Tabla 4.1 Número de fumadores con cáncer.

Pacientes con cáncer Pacientes control sin cáncer


Fumadores Total
de pulmón de pulmón

Sí 688 650 1 338


No 21 59 80
Total 709 709 1 418

1. ¿Cuáles variables y de qué tipo intervienen en el estudio?


2. ¿Cuál es la variable respuesta y cuál la variable explicativa?
3. Representa los datos de la tabla anterior con una gráfica
conveniente según el tipo de variables.
4. Calcula las proporciones de fumadores para los pacientes que
tienen cáncer de pulmón con las proporciones de los pacientes
control.
5. En este estudio, ¿cuál fue la probabilidad de tener cáncer de
pulmón dado que el paciente no era fumador?
PROBABILIDAD Y ESTADÍSTICA II

INTRODUCCIÓN
En esta unidad nos concentraremos en la organización y la presentación de los datos
de dos variables. Además de establecer la relación que existe entre éstas.
El propósito es que conozcas los principios básicos para organizar un conjunto
de datos de dos variables, ya sea mediante una tabla y/o algunas representaciones
gráficas.
Una vez hecha la representación, deberá analizarse el comportamiento de los da-
tos y qué tan fuerte es la relación (si existe) entre las variables, por lo que se estudia-
rán dos aspectos fundamentales:
a) qué tanta correlación hay entre las variables y
b) determinar el modelo algebraico que mejor ajusta los datos para hacer inferen-
cias sobre otros elementos.

4.1 REPRESENTACIÓN DE DATOS DE DOS VARIABLES


Hasta el momento, en la mayoría de los análisis que hemos hecho, nos enfocamos
en los datos de una variable; sin embargo, ahora nos orientaremos al estudio de pro-
blemas con dos variables (se puede inclusive estudiar la relación entre más de dos
variables). El propósito principal del análisis con dos variables es investigar si existe
una asociación y describir su naturaleza.
Una asociación entre dos variables existe si un valor particular para una variable es
más probable que ocurra para ciertos valores de la otra. Se presentarán métodos para
estudiar si existe o no asociación entre variables, y qué tan fuerte es.
Para determinar esa asociación primero debemos distinguir entre la variable res-
puesta y la variable explicativa. La que queremos predecir o explicar es la llamada
variable respuesta y la denotaremos con Y. Las otras variables llamadas explicativas,
son de interés sólo en tanto que puedan ayudarnos a entender, ex-
plicar o predecir el comportamiento de la variable respuesta Y.
Así, examinaremos cómo los resultados de la variable respuesta
son explicados por los valores de la variable explicativa. Por lo ge-
neral se usa el eje y para representar la variable respuesta y el eje x
para la variable explicativa.

Ejemplos
1. En un estudio de contaminación del aire, el nivel de dióxido
de carbono en la atmósfera del país puede ser una variable
respuesta, y la variable explicativa podría ser la cantidad de
gasolina por automóvil, la producción total de desechos do-
mésticos o la cantidad de uso de energía. Así, se podría espe-
rar que a mayor gasto de gasolina, los índices de dióxido en la
atmósfera aumenten.

108
ANÁLISIS DE DATOS DE DOS VARIABLES

2. En un estudio de salud, la variable res-


puesta es si una persona está viva después
de 50 años, y la variable explicativa es si
ha fumado o no. En estudios como éste se
puede determinar si la muerte de perso-
nas de mediana edad ha sido provocada
por el consumo de nicotina.
3. En un estudio de natación, la variable
respuesta es el tiempo que una persona
tarda en nadar 100 metros y la variable
explicativa, el número de horas de en-
trenamiento por semana. Conforme más
se entrene, el tiempo de recorrido debería disminuir, con la salvedad de que lo
hará en forma asintótica, ya que no podría suponerse que el tiempo de recorri-
do tenderá a cero.
Según el tipo de variables, existen tres posibles combinaciones para la relación
entre dos de ellas: cuantitativa versus cuantitativa, cualitativa versus cuantitativa
y cualitativa versus cualitativa.

Variable cualitativa versus variable cualitativa


Los miedos y las fobias del mexicano
El miedo siempre ha sido uno de los principales sen-
timientos del hombre, lo ha acompañado a lo largo de
los siglos y ha encontrado en la modernidad nuevos
motivos. La cantidad de información que poseemos
en la actualidad ha dado respuestas claras a muchas
interrogantes que en el pasado no tenían explicación
y que infundían temor en nuestros antepasados. Sin
embargo, el miedo a riesgos reales o a meras quime-
ras permanece con nosotros como uno de los instintos
más elementales, gobernando y orientando muchas de
nuestras decisiones de una forma tan inseparable como
la expresada en la comicidad de Woody Allen: “El mie-
do es mi compañero más fiel, jamás me ha engañado
para irse con otro”.
Para intentar acercarse al sentir popular en torno a
los principales motivos de temor que los mexicanos
tienen, la empresa Consulta Mitofsky decidió encues-
tar a 1 000 ciudadanos adultos (500 mujeres y 500
hombres) de toda la república para que manifestaran
el temor con el que viven día a día y las fobias o temo-
res irracionales que reconocen.

109
PROBABILIDAD Y ESTADÍSTICA II

La tabla 4.2 resume la información de esta investigación en la que cada persona


sólo podía seleccionar una fobia de manera espontánea:

Tabla 4.2 Número de personas por tipo de fobia y por sexo.

Fobia Hombres Mujeres Total

La inseguridad 58 103 161

La muerte 50 30 80

Una mala situación económica 21 17 38

Los secuestros 20 16 36

Las enfermedades 19 16 35

Los gobernantes corruptos 21 11 32

El desempleo 22 9 31

La oscuridad 10 18 28

El fracaso 14 8 22

Nada 40 30 70

Otro 80 109 189

No respondió 145 133 278

Total 500 500 1000

Los mexicanos también manifiestan fobias a los insectos, lo sobrenatural, las al-
turas, entre otras.
La tabla 4.2 es un ejemplo de tabla de contingencia, que nos permite resumir la
información por fobia y género, ambas variables cualitativas. Así, si nos interesara
explicar el tipo de fobia de una persona según el género, la variable respuesta es el
tipo de fobia mientras que la variable explicativa es el género.
Una tabla de contingencia es una representación tabular de dos variables cate-
góricas. Las categorías de la fila corresponden a una variable y las categorías de la
columna a otra variable. Cada entrada en la tabla es la frecuencia (absoluta o relativa)
de casos en la muestra para ciertos resultados de las dos variables.
Se pueden resumir los datos de dos o más variables cualitativas mediante una
tabla, un gráfico de barras o un gráfico de pastel. La asociación entre las variables se
puede obtener si se agrupan los datos en una tabla de contingencia y se obtienen las
proporciones entre la combinación de los resultados de las variables.
Para la tabla 4.2 podríamos responder preguntas como:

a) ¿Qué proporción del tipo de fobia es más frecuente en las mujeres?

110
ANÁLISIS DE DATOS DE DOS VARIABLES

Para responder esta pregunta podemos obtener las frecuencias relativas de cada
fobia de las mujeres respecto al total de mujeres del estudio.
Así, la proporción de mujeres que temen a la inseguridad está dada por el cociente

número de mujeres que temen a la inseguridad 103


5 5 0.206
total dee mujeres del estudio 500

que es la probabilidad de temer la inseguridad dado que es mujer. Simbólicamente,


si denotamos con M: el evento de ser mujer y con I: el evento de tener como fobia la
inseguridad, se representará como:

P( I > M ) 103
P( I | M ) 5 5 5 0.206
P( M) 500

La tabla 4.3 muestra todas las frecuencias calculadas en forma similar a la an-
terior:

Tabla 4.3 Proporción de mujeres que tienen alguna fobia.

Fobia Proporción de mujeres

La inseguridad 103/500 5 0.206

La muerte 30/500 5 0.06

Una mala situación económica 17/500 5 0.034

Los secuestros 16/500 5 0.032

Las enfermedades 16/500 5 0.032

Los gobernantes corruptos 11/500 5 0.022

El desempleo 9/500 5 0.018

La oscuridad 18/500 5 0.036

El fracaso 8/500 5 0.16

Nada 30/500 5 0.06

Otro 109/500 5 0.218

No respondió 133/500 5 0.266

Total 1

Se deduce entonces que la fobia más temida por las mujeres del estudio es la in-
seguridad (0.206).
También podríamos construir un gráfico de barras con las frecuencias relativas
que obtuvimos en la tabla 4.3 de la siguiente manera:

111
PROBABILIDAD Y ESTADÍSTICA II

Gráfica 4.1 Proporción de mujeres que tienen alguna fobia


0.3
Proporción

0.25
0.2
0.15
0.1
0.05
0

La muerte
Otro

enfermedades

El fracaso
No respondió

Los
gobernantes
corruptos
La inseguridad

La oscuridad

Una mala
situación
económica

El desempleo
Los
secuestros
Nada

Las
Fobias

La gráfica 4.1 muestra las proporciones de las fobias de las mujeres en forma des-
cendente, desde la más frecuente (inseguridad) hasta la menos frecuente (fracaso).
b) ¿Qué proporción del tipo de fobia es más frecuente en los hombres?
De manera similar a la pregunta a), podemos obtener las frecuencias relativas de
cada fobia de los hombres respecto al total de hombres del estudio.
Así, la proporción de los hombres que temen a la inseguridad está dada por el
cociente
número de masculinos que temmen a la inseguridad 103
5 ≈ 0.116
total de masculinos en el estuddio 500
La tabla 4.4 muestra todas las frecuencias calculadas en forma similar a la anterior:

Tabla 4.4 Proporción de hombres que tiene alguna fobia.

Fobia Proporción de hombres


La inseguridad 58/500 5 0.116
La muerte 50/500 5 0.1
Una mala situación económica 21/500 5 0.042
Los secuestros 20/500 5 0.04
Las enfermedades 19/500 5 0.038
Los gobernantes corruptos 21/500 5 0.042
El desempleo 22/500 5 0.044
La oscuridad 10/500 5 0.02
El fracaso 14/500 5 0.028
Nada 40/500 5 0.08
Otro 80/500 5 0.16
No respondió 145/500 5 0.29
Total 1

112
ANÁLISIS DE DATOS DE DOS VARIABLES

Se deduce, por tanto, que las fobias más temidas por los hombres del estudio son
la inseguridad (0.116) y la muerte (0.1).
El gráfico circular 4.2 muestra las frecuencias relativas que obtuvimos en la
tabla 4.4:
Gráfica 4.2 Proporción de hombres que tienen alguna fobia.

La oscuridad
El fracaso
Las enfermedades
Los secuestros
Una mala situación económica
Los gobernantes corruptos
El desempleo
Nada
La muerte
La inseguridad
Otro
No respondió

En los sectores con mayor área se muestran las fobias más temidas por los hom-
bres hasta las menos temidas como la oscuridad y el fracaso.
Podemos determinar la probabilidad de temer a los secuestros dado que se es
hombre como
P( S > H) 10
P( S | H ) 5 5 5 0.0
02
P( H) 500
Donde S: es el evento de temer a los secuestros y H: el evento de ser hombre.
Podríamos construir un solo gráfico de barras de manera que se comparen las
proporciones de las fobias entre hombres y mujeres de la siguiente manera:

Gráfica 4.3 Comparación de proporciones de fobias respecto al género.

0.35
0.3
Proporción

0.25
0.2 Mujeres
0.15 Hombres
0.1
0.05
0
La oscuridad
La inseguridad
No respondió

El desempleo

Una mala
situación
económica

Los
gobernantes
corruptos

Los
secuestros
Otro

Nada

enfermedades

El fracaso
La muerte

Las

Fobia

113
PROBABILIDAD Y ESTADÍSTICA II

c) ¿Qué proporción del tipo de fobia es más frecuente en los mexicanos?


Podemos obtener las frecuencias del total de personas que padecen la fobia entre
el número total de personas del estudio. Así, sin importar el sexo, la proporción de
personas que le temen a la inseguridad está dada por el cociente

número de personas que temen a la inseguridad 161


5 ≈ 0.161
tottal de personas encuestadas en el estudio 1000
0
La tabla 4.5 muestra de manera similar la proporción de personas, sin importar el
sexo, que poseen la fobia respecto a la cantidad total de personas encuestadas:

Tabla 4.5 Proporción por tipo de fobia respecto al total de encuestados.

Fobia Proporción por fobia


La inseguridad 161/1000 5 0.161
La muerte 80/1000 5 0.08
Una mala situación económica 38/1000 5 0.038
Los secuestros 36/1000 5 0.036
Las enfermedades 35/1000 5 0.035
Los gobernantes corruptos 32/1000 5 0.032
El desempleo 31/1000 5 0.031
La oscuridad 28/1000 5 0.028
El fracaso 22/1000 5 0.022
Nada 70/1000 5 0.07
Otro 189/1000 5 0.189
No respondió 278/1000 5 0.278
Total 1

De la tabla 4.5 se ratifica que la fobia más común entre los mexicanos del estudio
es la inseguridad, con una proporción de 0.161.

Una ventana al conocimiento


LOS PESTICIDAS ESTÁN PRESENTES EN LAS COMIDAS ORGÁNICAS?

El departamento de agricultura de los Estados Unidos (USDA) realizó en 2002 un estudio


para saber en qué medida están presentes los pesticidas en los alimentos. Se consideraron
dos tipos de alimentos: los orgánicos y los convencionales. Los orgánicos hacen referencia a
aquellos cultivados de manera orgánica, es decir, sin hacer mucho uso de químicos; y los con-
vencionales son aquellos donde se puede utilizar cualquier tipo de químico para contrarrestar
las plagas, las enfermedades o foliares y abonos.

114
ANÁLISIS DE DATOS DE DOS VARIABLES

La investigación se muestra en la tabla 4.6:


Tabla 4.6 Frecuencia por tipo de comida y estado de pesticida.

Presencia de No presencia de
Tipo de comida Total
pesticida pesticida
Orgánica 29 98 127
Convencional 19 485 7 086 26 571
Total 19 514 7 184 26 698
Fuente: Agresti y Franklin (2007), p. 92.

1. ¿Cuáles variables y de qué tipo intervienen en el estudio?


2. ¿Cuál es la variable respuesta y cuál la variable explicativa?
3. Representa los datos de la tabla anterior mediante alguna gráfica conveniente
según el tipo de variables.

Variable cualitativa versus variable cuantitativa


¿Cada vez nadamos más rápido?
La tabla 4.7 muestra los tiempos de duración, en segundos, registrados por los ga-
nadores de medalla de oro, en diferentes años, en la modalidad de 100 metros libres
para hombres en los juegos olímpicos de natación.
Tabla 4.7 Tiempos de duración en olimpiadas (100 metros, estilo libre hombre).

Nadador y país de origen Año Tiempo en segundos


Wally Ris, EUA 1948 57.3
Clarke Scholes, EUA 1952 57.4
Jon Henricks, AUS 1956 55.4
John Devitt, AUS 1960 55.2
Don Schollander, EUA 1964 53.4
Michael Wenden, AUS 1968 52.2
Mark Spitz, EUA 1972 51.22
Jim Montgomery, EUA 1976 49.99
Jorg Woithe, E. GER 1980 50.40
Rowdy Gaines, EUA 1984 49.80
Matt Biondi, EUA 1988 48.63
Aleksandr Popov, UT 1992 49.02
Aleksandr Popov, RUS 1996 48.74
Pieter van den Hoogenband, NED 2000 48.30
Pieter van den Hoogenband, NED 2004 48.17
Fuente: www.infoplease.com (2005).

115
PROBABILIDAD Y ESTADÍSTICA II

Podemos construir una gráfica de dispersión del tiempo alcanzado versus el año
de realización de la olimpiada.

Gráfica 4.4 Tiempo de duración (100 m natación para hombres) versus año de la olimpiada.

58

56
Tiempo en segundos

54

52

50

48

1950 1960 1970 1980 1990 2000 2010


Año

Se puede observar en la gráfica 4.4 que conforme pasan los años, el tiempo de
duración es menor. Entre 1948 y 1976 el modelo parecía lineal, sin embargo, para
las últimas olimpiadas tiende a estabilizarse, es decir, deja de ser lineal. Esto es muy
lógico, pero no debemos pensar que el tiempo de duración tenderá a cero, por el
contrario, cada vez la competitividad es mayor; como los recursos son similares entre
países la diferencia entre una y otra olimpiada ya no es tan abismal.
Para las olimpiadas de 1976 y 1988 se dieron tiempos sorprendentes que no
fueron superados por las olimpiadas inmediatas consecutivas, por lo que estos dos
valores, aunque no fueron inusuales, admiran en el modelo.
Según la gráfica 4.4, la duración del tiempo (variable respuesta) depende del año
de realización de la olimpiada (variable explicativa).
Existe una clara asociación entre las variables, ya que el tiempo de duración de los
100 metros tiende a disminuir conforme se realice cada cuatro años la olimpiada.
Para encontrar la relación entre las variables primero usaremos gráficas en las cuales
observar el comportamiento de los datos y determinar qué tipo de patrón sigue. Luego,
haremos resúmenes numéricos y, por último, analizaremos las observaciones inusuales
que se derivan de los datos y las consecuencias que tienen en los resultados.
Un gráfico de dispersión es una representación gráfica para dos variables cuan-
titativas; usa el eje horizontal para la variable explicativa x y el eje vertical para la

116
ANÁLISIS DE DATOS DE DOS VARIABLES

variable respuesta y. Las observaciones para los n sujetos son n puntos sobre el grá-
fico de dispersión.
Cuando valores altos de la variable explicativa x ocurren con valores altos de la
variable respuesta y, y cuando valores bajos de x ocurren con valores bajos de y,
la asociación entre las variables es positiva. Por el contrario, la asociación será nega-
tiva si valores altos de y ocurren con valores bajos de x, y valores bajos de y ocurren
con valores altos de x.
En el ejemplo de los tiempos de duración para los 100 metros libres de natación,
la asociación es negativa, pues para los primeros años los tiempos de duración eran
altos, mientras que para los últimos años de las olimpiadas (valores altos en x) los
tiempos de duración son cada vez más bajos.
Algunas preguntas que debemos plantear cuando examinamos un diagrama de
dispersión son:
a) ¿La asociación parece ser positiva, negativa o no hay evidencia clara de que la
haya?
b) ¿La tendencia de los datos puede ser aproximada por una línea recta o qué
modelo presentan?
c) ¿Existen observaciones inusuales que se escapan de la tendencia de los datos?,
¿cómo se explican esos puntos inusuales?
d) ¿Cómo podemos medir qué tan fuerte es la asociación entre las variables?
En la próxima lección veremos que una medida llamada correlación describe qué tan
estrecha es esa asociación.

Ejercicio
¿Usted tiene acceso a internet o tiene celular?
En los últimos 10 años, el número de perso-
nas que usan internet ha ido creciendo. Aun-
que su uso es común en los países del Oeste
del mundo, en otros son pocas las personas que
lo usan. En 2001, por ejemplo, cerca de la mi-
tad de estadounidenses usaba la internet, pero
sólo 1% la usó en Arabia Saudita y sólo 0.1%
en Nigeria.
La tabla 4.8 muestra datos recientes de 39
países sobre el uso de internet, teléfono celular
y el producto interno bruto. ¿Qué otras varia-
bles son probables de asociarse con el uso de la
internet y el teléfono celular?

117
PROBABILIDAD Y ESTADÍSTICA II

Tabla 4.8 Información sobre uso de la internet, celular y PIB de algunos países.

País Internet PIB Celular


Alemania 37.4 25.4 68.2
Argelia 0.6 6.1 0.3
Argentina 10.1 11.3 19.3
Australia 37.1 25.4 57.4
Austria 38.7 26.7 81.7
Bélgica 31.0 25.5 74.7
Brasil 4.7 7.4 16.7
Canadá 46.7 27.1 36.2
Chile 20.1 9.2 34.2
China 2.6 4.0 11.0
Dinamarca 43.0 29.0 74.0
Egipto 0.9 3.5 4.3
Finlandia 43.0 24.4 80.4
Francia 26.4 24.0 60.5
Grecia 13.2 17.4 75.1
India 0.7 2.8 0.6
Irán 1.6 6.0 3.2
Irlanda 23.3 32.4 77.4
Israel 27.7 19.8 90.7
Japón 38.4 25.1 58.8
Malasia 27.3 8.8 31.4
México 3.6 8.4 21.7
Holanda 49.0 27.2 76.7
Nueva Zelanda 46.1 19.2 59.9
Nigeria 0.1 0.8 0.3
Noruega 46.4 29.6 81.5
Pakistán 0.3 1.9 0.6
Filipinas 2.6 3.8 15.0
Rusia 2.9 7.1 5.3
Arabia Saudita 1.3 13.3 11.3
Sudáfrica 6.5 11.3 24.2
España 18.3 20.2 73.4
Suecia 51.6 24.2 79.0
Suiza 30.7 28.1 72.8
Turquía 6.0 5.9 29.5
Reino Unido 33.0 24.2 77.0
Estados Unidos 50.2 34.3 45.1
Vietnam 1.2 2.1 1.5
Yemen 0.1 0.8 0.8
Fuente: Agresti y Franklin (2007), p. 98.
PIB: Producto interno bruto total per cápita, en miles de dólares.
Internet: porcentaje de adultos residentes que usan la internet.
Celular: porcentaje de adultos que son suscriptores de teléfono celular.

118
ANÁLISIS DE DATOS DE DOS VARIABLES

a) Construye una gráfica de la variable PIB versus uso de la internet.


b) Construye una gráfica de la variable PIB versus uso de celular.
c) ¿Existe alguna asociación entre las variables? ¿Cómo se pueden interpretar esas
asociaciones?
d) ¿La tendencia de los datos puede ser aproximada por una línea recta o qué
modelo presentan?
e) ¿Existen observaciones inusuales que se escapan de la tendencia de los datos?
¿Cómo se explican esos puntos inusuales?

Variable cualitativa versus variable cuantitativa


La tabla 4.9 muestra la esperanza de vida de 186 países del mundo y separados por
continente.
Tabla 4.9 Esperanza de vida de países del mundo.

Continente País Esperanza Continente País Esperanza Continente País Esperanza


África Angola 38 América Colombia 70 Asia Uzbekistán 63.5
África Argelia 69.5 América Costa Rica 75.5 Asia Vietnam 69.5
África Benín 49.5 América Cuba 76 Asia Yemen 60
África Botsuana 36.5 América Dominica 73 Europa Albania 71.5
África Burkina Faso 46 América Ecuador 71 Europa Alemania 77
África Burundi 46 América El Salvador 69.5 Europa Austria 77.5
Estados
África Cabo Verde 68.5 América 77 Europa Andorra 83
Unidos
África Camerún 54 América Granada 64 Europa Armenia 66.5
África Chad 50.5 América Guatemala 66 Europa Azerbaiyán 62.5
África Comores 60 América Guyana 63 Europa Bélgica 77.5
África Congo 47 América Haití 49 Europa Bielorrusia 68
Costa de Bosnia-
África 44.5 América Honduras 69 Europa 71.5
Marfil Herzegovina
África Egipto 63 América Jamaica 75 Europa Bulgaria 70.5
África Eritrea 55.5 América México 71 Europa Chipre 76.5
África Etiopía 44 América Nicaragua 69 Europa Croacia 73.5
África Gabón 49 América Panamá 75 Europa Dinamarca 76.5
África Gambia 53 América Paraguay 73.5 Europa Eslovaquia 74
África Ghana 56.5 América Perú 69.5 Europa Eslovenia 75
República
África Guinea 45.5 América 73 Europa España 78.5
Dominicana
Guinea Saint Kitts y
África 53.5 América 71 Europa Estonia 69.5
Ecuatorial Nevis
San Vicente
Guinea-
África 49 América y las 72 Europa Finlandia 77
Bissau
Granadinas
África Kenia 47 América Santa Lucía 72.5 Europa Francia 79
África Lesoto 48.5 América Surinam 71.5 Europa Georgia 64.5
Continúa

119
PROBABILIDAD Y ESTADÍSTICA II
Tabla 4.9 Continuación
Continente País Esperanza Continente País Esperanza Continente País Esperanza
Trinidad y
África Liberia 51 América 67.5 Europa Grecia 78.5
Tobago
África Libia 75 América Uruguay 75.5 Europa Hungría 71.5
África Madagascar 55 América Venezuela 73 Europa Irlanda 76.5
África Malawi 36.5 Asia Afganistán 46 Europa Islandia 79
África Malí 46.5 Asia Arabia Saudí 67.5 Europa Italia 79
África Marruecos 69 Asia Bahrein 72.5 Europa Kazajstán 63
África Mauricio 71 Asia Bangladesh 60 Europa Letonia 68
África Mauritania 51 Asia Brunei 73.5 Europa Liechtenstein 78.5
África Mozambique 36 Asia Bután 52.5 Europa Lituania 69
África Namibia 40 Asia Camboya 56.5 Europa Luxemburgo 77
África Níger 41 Asia China 71 Europa Malta 77.5
Corea del
África Nigeria 51 Asia 71 Europa Moldavia 64.5
Norte
República
Corea del
África Centro 43.5 Asia 74.5 Europa Noruega 78
Sur
Africana
Emiratos
República
África 49 Asia Árabes 73.5 Europa Países Bajos 78
del Congo
Unidos
África Ruanda 38.5 Asia Filipinas 67.5 Europa Polonia 73
Santo Tomé
África 65.5 Asia India 62.5 Europa Portugal 75.5
y Príncipe
África Senegal 62 Asia Indonesia 67.5 Europa Reino Unido 77.5
República
África Seychelles 70.5 Asia Irak 66.5 Europa 74.5
Checa
África Sierra Leona 45 Asia Irán 69.5 Europa Rumania 70
África Somalia 46.5 Asia Israel 78 Europa Rusia 67
África Suazilandia 38 Asia Japón 80.5 Europa San Marino 81
África Sudán 56.5 Asia Jordania 77.5 Europa Suecia 79.5
África Sudáfrica 47.5 Asia Kirguizistán 63 Europa Suiza 79
África Tanzania 52 Asia Kuwait 76 Europa Turquía 70.5
África Togo 54 Asia Laos 53 Europa Ucrania 66
África Túnez 73.5 Asia Líbano 71.5 Europa Yugoslavia 73.5
África Uganda 43 Asia Malasia 70.5 Oceanía Australia 79.5
África Yibuti 51 Asia Maldivas 62 Oceanía Islas Fiji 67.5
Islas
África Zambia 37 Asia Mongolia 64 Oceanía 65.5
Marshall
Islas
África Zimbabue 36.5 Asia Myanmar 54.5 Oceanía 71.5
Salomón
Antigua y
América 70.5 Asia Nepal 57.5 Oceanía Kiribati 60
Barbuda
América Argentina 74.5 Asia Omán 71.5 Oceanía Nauru 60.5
Nueva
América Bahamas 70 Asia Pakistán 61 Oceanía 78
Zelanda
Continúa

120
ANÁLISIS DE DATOS DE DOS VARIABLES
Tabla 4.9 Continuación
Continente País Esperanza Continente País Esperanza Continente País Esperanza
América Barbados 72.5 Asia Qatar 72.5 Oceanía Palau 68.5
Papúa-
América Belice 70.5 Asia Siria 68.5 Oceanía Nueva 63
Guinea
América Bolivia 63.5 Asia Sri Lanka 71.5 Oceanía Samoa 69
América Brasil 63 Asia Tailandia 68.5 Oceanía Tonga 67.5
América Canadá 79.5 Asia Tayikistán 64 Oceanía Tuvalu 66
América Chile 75.5 Asia Turkmenistán 60.5 Oceanía Vanuatu 60.5
Fuente: Encarta (2003).

Podemos agrupar los países del mundo en una variable cualitativa llamada conti-
nente y otra cuantitativa que es la esperanza de vida.
¿Cómo establecemos la relación entre las variables continente y esperanza de vida?
Siempre nos ha sorprendido el poder económico europeo, por lo que la calidad
de vida y los índices de salud, transporte, entre otros, claramente son superiores que
en otros continentes. Así, la variable esperanza de vida de un país se puede explicar
por el continente al cual pertenece. Por lo tanto, la variable respuesta es la esperanza
de vida y la variable explicativa, el continente.

121
PROBABILIDAD Y ESTADÍSTICA II

Para explorar la relación entre una variable cuantitativa y una cualitativa grafi-
camos los valores de la primera para cada grupo usando la misma escala, como se
muestra a continuación:

Gráfica 4.5 Gráfica de puntos de la esperanza de vida de los países por continente.

África

América

Asia

Europa

Oceanía
35 40 45 50 55 60 65 70 75 80 85
Esperanza África 5 51.0755 Esperanza Europa 5 73.7935
Esperanza América 5 70.6143 Esperanza Oceanía 5 67.4615
Esperanza Asia 5 66.4359

La barra vertical “|” en los datos de cada grupo representa el valor de su promedio.
La gráfica 4.5 nos muestra información muy enriquecedora; se puede observar
que Europa es el continente que tiene los países con mayor esperanza de vida, ade-
más de poca variabilidad. Por el contrario, África es el continente cuyos países tienen
menor esperanza de vida, y mayor variabilidad; sin embargo, algunas naciones de
África (¿cuáles?) tienen esperanza de vida cercana al promedio de Europa. Además,
en América y Asia un par de países tienen muy baja esperanza de vida (¿cuáles?).
México tiene una esperanza de vida menor que el promedio de los países europeos,
pero mayor que el promedio de América. En fin, se pueden seguir haciendo pregun-
tas de comparación entre continentes y datos aislados que sean sorprendentes. ¿Qué
país tiene la menor y la mayor esperanza de vida? ¿Cuál contiene entre Oceanía,
América y Asia mayor variabilidad?
No es necesario usar sólo las gráficas de puntos para establecer la asociación entre
las viables, también es posible utilizar histogramas o diagramas de caja según el tipo
de análisis que se desee.

122
ANÁLISIS DE DATOS DE DOS VARIABLES

Así:
Gráfica 4.6 Diagramas de cajas de la esperanza de vida de los países por continente.

África

América

Asia

Europa

Oceanía

35 40 45 50 55 60 65 70 75 80 85
Esperanza África 5 51.0755 Esperanza Europa 5 73.7935
Esperanza América 5 70.6143 Esperanza Oceanía 5 67.4615
Esperanza Asia 5 66.4359

Ejercicio
¿Qué equipo tiene los jugadores con mayor
estatura?
Sin duda la estatura en el baloncesto es
muy importante, y para la NBA es un requisi-
to fundamental. En la temporada 2005-2006
los Spurs de San Antonio fueron campeones,
con jugadores como Tim Duncan (216 cm)
y Rasho Nesterovic (213 cm). Sin embargo,
¿son los equipos con jugadores más altos en
esa temporada en la NBA? En la tabla 4.10 se
presentan los datos de las estaturas en centí-
metros de jugadores de algunos equipos en
esa temporada.

123
PROBABILIDAD Y ESTADÍSTICA II

Tabla 4.10 Estatura de jugadores de algunos equipos de la NBA.

Estatura Lakers Estatura Bulls Estatura HeatMiami Estatura Spurs


195 186 201 189
216 198 213 204
201 216 189 204
213 207 216 216
189 186 198 204
210 192 192 210
207 210 207 201
204 192 207 201
207 198 186 186
198 204 216 186
186 204 195 186
213 207 207 213
186 207 186 186
195 186 210 189
198 195 198
204 210 192
198 201 186
207 186 210
207
Fuente: www.espndeportes.com (2006).

a) Construye una gráfica apropiada para establecer la asociación que existe entre
la variable equipo de la tabla 4.10 respecto a la estatura de sus jugadores.
b) ¿Qué equipo tiene mayor variabilidad entre las estaturas de sus jugadores?
c) ¿Cuáles son algunos datos inusuales? ¿A qué se debe?

RESUMEN
Para analizar la relación entre variables se tienen las siguientes herramientas.

Tipo de variables Herramientas


Ambas cualitativas Tabla de contingencias y graficar proporciones apropiadas.
Ambas cuantitativas Gráfica de dispersión.
Una cuantitativa y una • Graficar los datos con una misma escala.
cualitativa • Usar gráficos de puntos, diagramas de cajas o histogramas.

124
ANÁLISIS DE DATOS DE DOS VARIABLES
E V A L U A C I Ó N S U M A T I V A

1. Estudio alemán del teléfono celular


La tabla de contingencia 4.11 muestra los resultados de un estudio alemán respecto a si existe una asociación
entre el uso del teléfono celular y el cáncer de ojo (Stang et al, 2001; en Agresti y Franklin, 2007).

Tabla 4.11 Frecuencia por personas que usan celular y casos con cáncer.

Usan teléfono Casos con cáncer


Casos control Total
celular de ojo
Sí 16 46 62

No 102 429 531

Total 118 475 593

a ) ¿Cuál es la variable respuesta y cuál la variable explicativa?


b ) Representa los datos de la tabla 4.11 con una gráfica conveniente según el tipo de variables.
c ) ¿Qué proporción de las personas en el estudio que han usado teléfono celular
ii) tienen cáncer de ojo?
ii) no tienen cáncer de ojo?

2. Secundaria en México
En una secundaria del Estado de México hay 50 maestros, 15 de matemáticas y 10 de física. Entre ellos, cinco
imparten las dos materias.
a ) Con los datos del enunciado construye una tabla de contingencias.
b ) Si eliges un maestro de esta secundaria, al azar, ¿cuál es la probabilidad de que
• sea de matemáticas?
• sea de física?
• no sea de matemáticas?
• no sea de física?
• sea de matemáticas y de física?
• sea de matemáticas y no de física?
• no sea de matemáticas y sea de física?
• no sea de matemáticas y no sea de física?
• enseñe al menos una de las dos materias
(matemáticas o física)?
• no enseñe al menos una de las dos?
• sea de matemáticas si sabemos que es de física?
• sea de matemáticas si sabemos que no es de física?
• no sea de matemáticas si sabemos que es de física?

125
PROBABILIDAD Y ESTADÍSTICA II

• no sea de matemáticas si sabemos que no es de física?


• sea de física si sabemos que es de matemáticas?
• sea de física si sabemos que no es de matemáticas?
• no sea de física si sabemos que es de matemáticas?
• no sea de física si sabemos que no es de matemáticas?

3. ¿Estamos corriendo más rápido?


La tabla 4.12 muestra las duraciones de tiempo en segundos para la carrera de 1 500 metros hombres en los
juegos olímpicos desde 1900.
Tabla 4.12 Tiempos de duración en juegos olimpicos (1 500 metros hombres).

Año Tiempo Año Tiempo


1900 246.0 1976 219.2
1904 245.4 1980 218.4
1908 243.4 1984 212.5
1912 236.8 1988 216.0
1920 241.9 1992 220.1
1924 233.6 1996 215.8
1928 233.2 2000 212.1
1932 231.2 2004 214.2
1936 227.8 Fuente: Wild y Seber (2000).
1948 229.8
1952 225.2
1956 221.2
1960 215.6
1964 218.1
1968 214.9
1972 216.3

a ) Construye una gráfica de la variable año versus tiempo.


b ) ¿Existe alguna asociación entre las variables? ¿Cómo se puede interpretar esa asociación?
c ) ¿La tendencia de los datos puede ser aproximada por una línea recta o qué modelo presentan?
d ) ¿Existen observaciones inusuales que se escapan de la tendencia de los datos? ¿Cómo se explican esos
puntos inusuales?

126
ANÁLISIS DE DATOS DE DOS VARIABLES

4. ¿Cuántos niños mueren en el mundo?


La tabla 4.13 muestra la mortalidad infantil por cada mil niños nacidos en 50 países del mundo y separados por
continente.
Tabla 4.13 Mortalidad infantil de algunos países del mundo por continentes.

Continente País Mortalidad infantil por cada mil nacidos


África Yibuti 102
África Suazilandia 109
África Gabón 95
África Argelia 41
África Burundi 71
África Seychelles 17
África Malí 121
África Malawi 121
África Madagascar 84
África Lesoto 83
América Costa Rica 11
América Jamaica 14
América Haití 95
América Honduras 31
América México 25
América República Dominicana 35
América Barbados 12
América Uruguay 15
América Santa Lucía 15
América Colombia 24
Asia Myanmar 74
Asia India 63
Asia Kuwait 11
Asia Corea del Norte 24
Asia Afganistán 147
Asia Líbano 28
Asia Malasia 20
Asia Jordania 20
Asia Omán 23
Asia Bangladesh 70
Europa Alemania 5
Continúa

127
PROBABILIDAD Y ESTADÍSTICA II

Tabla 4.13 Continuación

Continente País Mortalidad infantil por cada mil nacidos


Europa Suecia 3
Europa Suiza 4
Europa Polonia 9
Europa Eslovaquia 9
Europa Lituania 15
Europa Italia 6
Europa España 5
Europa República Checa 6
Oceanía Nueva Zelanda 6
Oceanía Papúa-Nueva Guinea 58
Oceanía Palau 17
Oceanía Vanuatu 61
Oceanía Samoa 32
Oceanía Nauru 11
Oceanía Islas Salomón 24
Oceanía Kiribati 54
Oceanía Tuvalu 23
Oceanía Islas Fiji 14

Fuente: Encarta (2003).

a ) Construye una gráfica apropiada para establecer la asociación que existe entre la variable mortalidad
infantil de la tabla 4.13 respecto a la variable continente.
b ) ¿Cuál continente tiene mayor variabilidad entre la mortalidad infantil?
c ) ¿Cuáles son algunos datos inusuales?, ¿a qué se deben?

128
ANÁLISIS DE DATOS DE DOS VARIABLES

4.2 CORRELACIÓN LINEAL


Cuando analizamos la relación entre variables cuantitativas observamos que, siem-
pre que tuviera sentido hablar de asociación entre ellas, con el gráfico de dispersión
nos damos una idea intuitiva del comportamiento de los datos, pero ¿cómo medir
qué tan fuerte es esa asociación? Por ejemplo, en la tabla 4.7 (tiempos de duración
en las olimpiadas para la modalidad de natación de 100 metros libres para hombres)
se mostró intuitivamente que había cierta asociación lineal negativa en los primeros
años de realización de la olimpiada y el tiempo de duración. Sin embargo, en los
últimos años el comportamiento de los datos ya no era lineal, sino parecía decrecer
tendiendo hacia un valor asintótico.
Cuando los datos siguen un comportamiento de tal manera que están cerca de
una línea recta, aunque la mayoría de las veces existe una pequeña variación entre
los puntos alrededor de la línea, diremos que la relación es aproximadamente lineal,
y una medida que resume qué tan fuerte es esa asociación lineal se llama coeficiente
de correlación r. Éste describe la dirección de la asociación e indica qué tan cerca
están los puntos en el diagrama de dispersión de la línea de mejor ajuste de los datos;
r toma valores entre 21 y 1.

¿Tienes celular?
La tabla 4.8 muestra información sobre el número de suscriptores de teléfonos celu-
lares por país respecto al producto interno bruto total. La gráfica 4.7 de dispersión
presenta de manera intuitiva la relación que existe entre las variables:
Gráfica 4.7 Porcentajes de suscriptores de celular versus producto interno bruto total por país.

100

90

80

70 Zx
Francia
60
Celular

50 Zy

40

30

20

10

0 5 10 15 20 25 30 35
PIB 5 15.9923 PIB
Celular 5 41.84

129
PROBABILIDAD Y ESTADÍSTICA II

Según la tendencia de los datos, es aproximadamente lineal. Se observa que no


todos los datos están a la misma distancia de la recta, incluso sólo un par de ellos
caen exactamente sobre la recta, pero en la práctica eso no es tan probable.
Está claro que la relación entre la variable respuesta Celular y la variable explicati-
va PIB es positiva, pues a mayor producción por país, mayor número de suscriptores;
además, a menor producción menor número de suscriptores. Con esto, esperamos
que la correlación r sea mayor que cero.
Obtenemos el valor de r de la siguiente manera:
Para una observación xi (PIB 5 24 en Francia, por ejemplo) de la variable expli-
cativa X, sea zx el valor que representa el número de desviaciones estándar que xi
i
alcanza hasta el promedio de X. Esto es
valo r observado – promedio ( x i 2 x) ( 24 215. 99)
zx 5 5 5 5 0. 7558
i
desviación estándar sx 10, 598
i

De manera similar, para una observación yi (Celular 5 60.5 en Francia, por ejem-
plo) de la variable respuesta Y, sea zy el valor que representa el número de desviacio-
i
nes estándar que yi alcanza hasta el promedio de Y. Esto es
valor observado – promedio ( y i 2 y ) ( 60. 5 2 41. 84 )
zy 5 5 5 5 0. 7558
i
desviación estándar sy 31. 8017
i

Ahora calculamos el producto z xi z yi para cada observación y obtenemos un valor


típico (un tipo de promedio) de esos productos. Entonces,

1 n 1 n ⎛ x 2x⎞ ⎛ y 2y⎞
⎜ ⎟⎜ ⎟
i i
r5 zx z y 5
n 21 i i i
n 21 i ⎜⎝ s x ⎟⎠ ⎜⎝ s y ⎟⎠
i i

donde n es el número de observaciones.


Se recomienda construir la tabla 4.14 para facilitar los cálculos.
Tabla 4.14 Cálculos de z xi, z yi y z xi z yi

País PIB X Celular Y zx zy zx z y


i i i i

Alemania 25.4 68.2 00.887652 00.828934 00.735805


Argelia 06.1 00.3 0.933378 1.30617 01.21915
Argentina 11.3 19.3 0.442738 0.708718 00.313776
Australia 25.4 57.4 0.887652 0.48933 00.434355
Austria 26.7 81.7 1.01031 1.25344 01.26636
Bélgica 25.5 74.7 0.897088 1.03333 00.926983
Brasil 07.4 16.7 0.810718 0.790474 00.640852
Canadá 27.1 36.2 1.04805 0.1773 0.18582
Chile 09.2 34.2 0.640881 0.24019 00.153933
Continúa

130
ANÁLISIS DE DATOS DE DOS VARIABLES
Tabla 4.14 Continuación

País PIB X Celular Y zx zy zx z y


i i i i

China 04 11 1.13152 0.96971 01.09725


Dinamarca 29 74 01.22733 01.01131 01.24121
Egipto 03.5 04.3 21.1787 21.18039 01.39132
Finlandia 24.4 80.4 00.793299 01.21256 00.961923
Francia 24 60.5 00.755557 00.586809 00.443367
Grecia 17.4 75.1 00.132821 01.0459 00.138918
India 02.8 00.6 1.24475 1.29674 01.61411
Irán 06 03.2 0.942813 1.21498 01.1455
Irlanda 32.4 77.4 01.54813 01.11823 01.73116
Israel 19.8 90.7 00.359271 01.53644 00.551999
Japón 25.1 58.8 0.859346 00.533352 00.458334
Malasia 08.8 31.4 0.678622 0.328236 00.222748
México 08.4 21.7 0.716364 0.63325 00.453638
Holanda 27.2 76.7 01.05749 01.09621 01.15924
Nueva Zelanda 19.2 59.9 00.302658 00.567942 00.171892
Nigeria 00.8 00.3 1.43345 1.30617 01.87233
Noruega 29.6 81.5 01.28394 01.24715 01.60126
Pakistán 01.9 00.6 1.32966 1.29674 01.72422
Filipinas 03.8 15 1.15039 0.843931 00.970851
Rusia 07.1 05.3 0.839024 1.14895 00.963993
Arabia Saudita 13.3 11.3 0.25403 0.960276 00.243939
Suráfrica 11.3 24.2 0.442738 0.554638 00.245559
España 20.2 73.4 00.397012 00.992447 00.394013
Suecia 24.2 79 00.774428 01.16854 00.904948
Suiza 28.1 72.8 01.14241 00.97358 01.11223
Turquía 05.9 29.5 0.952249 0.387981 00.369454
Reino Unido 24.2 77 00.774428 01.10565 00.856245
Estados Unidos 34.3 45.1 01.7274 00.102558 00.17716
Vietnam 02.1 01.5 1.31079 21.26844 01.66266
Yemen 00.8 00.8 1.43345 21.29045 01.8498
Total 33.2367

Concluyendo:
1 33. 2367
r5
n 21
∑ z xz y 5
38
5 0. 87465

131
PROBABILIDAD Y ESTADÍSTICA II

En la gráfica 4.7 se muestra cómo x y y dividen el plano en cuatro cuadrantes.


Para Francia ( x 5 24 y y 5 60. 5), ambos valores de z son positivos, ya que x está a
la derecha del promedio y y arriba del promedio. Todos los puntos, a excepción de
Canadá, están en el primer y tercer cuadrante.
En el primer y tercer cuadrantes los productos de los valores de z en cada obser-
vación son positivos, esto explica por qué la correlación es positiva. Por el contrario,
en el segundo y cuarto cuadrantes los productos de los valores de z son negativos,
por tanto la correlación será negativa.
La correlación nos indica que nos interesa determinar qué tan lejos caen los datos
observados de los promedios.
Algunos diagramas de dispersión y sus correlaciones son las gráficas 4.8:

Gráfica 4.8 Gráficas de dispersión con su coeficiente de correlación.

14 14
12 12
10 10
8 8
y y
6 6
4 4
2 r51 2 r 5 21
0 0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x x
a) b)
14 14
12 12
10 10
8 8
y y
6 6
4 4
r 5 20.84
2 2 r51
r 5 0.625
0 0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x x

c) d)

En las figuras a y b son coeficientes de correlación con 1y 2 1, esto significa que


la asociación lineal es perfecta. En la figura c el coeficiente de correlación es 0.625, lo
cual indica que la asociación es positiva y no tan alta. Como la figura d el coeficiente
de correlación es 20.84, la asociación es negativa.

132
ANÁLISIS DE DATOS DE DOS VARIABLES

Un valor positivo de r indica que la asociación es positiva y un valor negativo de r,


que la asociación es negativa. Cuanto más cerca esté r de 1 o 21, más cerca estarán
los datos de la recta y más fuerte es la asociación lineal. Si r está cerca de cero, la
asociación lineal es débil.

RESUMEN
• El valor de r siempre está entre 21 y 1. Cuanto más cerca esté el valor absoluto
de r de uno, más fuerte será la asociación lineal.
• Si r . 0 , la asociación es positiva; si r , 0, la correlación es negativa.
• El valor de la correlación no depende de las unidades de las variables; además, la
correlación r de x dependiendo de y es la misma que la de y dependiendo de x.

Evaluación formativa
Parte I Proyecto
Mide tu estatura a diferentes horas del día y registra los datos exactos (de la hora en horas y la estatura en
centímetros) en una tabla. Presenta los datos de por lo menos 15 días. Con base en los datos de la tabla:
a ) Construye un gráfico de dispersión.
b ) ¿Existe alguna relación entre las variables?, ¿cuál es?
c ) Determina el coeficiente de correlación entre las variables y explica el valor obtenido en el contexto
del problema.

Parte II Problemas de la lección


1. Para los datos de la tabla 4.8 relativa al problema, ¿usted tiene acceso a la internet o tiene celular?,
determine el coeficiente de correlación.
2. Para los datos de la tabla 4.12 relativa al problema ¿Nosotros estamos corriendo más rápido?,
determine el coeficiente de correlación.

4.3 REGRESIÓN LINEAL


Regresión es un camino usual para estudiar la relación entre variables o atributos
continuos de una población cuando tiene sentido tratar de predecir o explicar el
comportamiento de una variable en términos del comportamiento de otras variables.
Se trata de responder la pregunta, ¿cómo varía la variable respuesta Y en función de
una o más variables explicativas X?
Un ejemplo es considerar el peso de una sandía y el precio como dos variables
continuas, que se relacionan de manera creciente, pues a mayor peso mayor precio.
El análisis de regresión busca una fórmula que exprese el precio promedio entre dis-
tintos tipos de sandía de igual peso como función de su peso.
Otro ejemplo es la asociación entre la distancia que nada un competidor y su
velocidad promedio, cuya relación es decreciente, pues a mayor distancia menor

133
PROBABILIDAD Y ESTADÍSTICA II

velocidad promedio (por el cansancio acumulado). Se quisiera encontrar una fórmu-


la de la velocidad promedio como función de la distancia que se nada.
Existen dos componentes fundamentales de una relación de regresión: tendencia y
dispersión. La tendencia es el patrón que observamos en el gráfico de dispersión. Y la
dispersión indica qué tan alejados o variables son los datos observados respecto a
lo esperado en el modelo o patrón.
Así, para los ejemplos enunciados, la dispersión se puede interpretar como lo
hace Acuña (2004), respecto a que no todas las sandías con el mismo peso tendrán
el mismo precio, ni todas las competencias de natación se nadarán a la misma ve-
locidad. Sin embargo, ¿se puede esperar al menos encontrar una fórmula que dé el
precio esperado como función del peso de la sandía, o la velocidad esperada como
función de la distancia?
Para los dos ejemplos mencionados, la regresión es simple: el precio sólo depende
del peso (regresión lineal) y la velocidad sólo de la distancia (regresión no lineal). En
este libro sólo abarcaremos la regresión lineal simple.

¿Cuántos centímetros mide el pie de un bebé al nacer?


En la tabla 4.15 se muestra el tamaño del pie en centímetros de algunos niños según
la edad en años.

Tabla 4.15 Tamaño del pie (en centímetros) Gráfica 4.9 Tamaño del pie (en centímetros) versus edad (en años).
versus edad (en años).
9.5
Edad Tamaño
9.0
0.5 7
0.9 6 8.5
1.3 7 8.0
Tamaño

1.7 7
7.5
1.9 7.5
2 8 7.0
2.1 7.5 6.5
2.5 8.3
3 8.5 6.0
3.3 9 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
3.6 9 Edad

La gráfica 4.9 nos muestra que la variable respuesta tamaño del pie depende li-
nealmente de la variable explicativa edad en el intervalo de los datos dados (más allá
de ese intervalo no es seguro si se comporta de forma lineal). Es claro que los pares
( x, y ) no están sobre la recta, pero son aproximadamente colineales.
Así, la ecuación de regresión será lineal de la forma T 5 a 1 bE , y simple porque
el valor de T depende de una sola variable E. En el curso de álgebra la ecuación de
una línea recta está dada por y 5 mx 1 b , pero en estadística suele denotarse con los

134
ANÁLISIS DE DATOS DE DOS VARIABLES

coeficientes a y b. Además, T y E se escriben en mayúsculas porque


representan variables aleatorias.
Si Y es la variable respuesta (dependiente) y X la explicativa (in-
dependiente), Y | x se define como la variable aleatoria Y corres-
pondiente a un valor fijo de x de la variable X. Su valor esperado
es mY |x.
Así, usaremos la notación y 5 a 1 bx para la ecuación de la rec-
ta, donde el símbolo y representa el valor predictor de la variable
respuesta Y. a, la intersección con el eje y, y b, la inclinación.
La ecuación y 5 a 1 bx predice un simple valor y de la variable
respuesta. Sin embargo, deberíamos esperar que no todos los suje-
tos, para un valor de x, tengan el mismo valor de y. En el ejemplo,
no esperaríamos que todos los niños de dos años tengan el mismo
tamaño de pie. Sin embargo, hay un promedio para el tamaño de
pie por cada valor separado de la edad que denotamos como mY |x .
En la práctica, a y b se obtienen a partir de una muestra y usaremos
y como una estimación de mY |x.
Si encontramos la ecuación de la forma T 5 a 1 bE (es decir, los coeficientes a y
b) podemos responder a preguntas como:
• ¿Cuál es el tamaño esperado del pie a los dos años?
• ¿Cuál es la edad estimada de un niño cuyo pie mide 7.3 cm?
• ¿Cuál es el tamaño esperado del pie a los 30 años?

¿Cómo selecciono la mejor línea de regresión?


y ¿cómo obtengo los coeficientes de la ecuación?
Se quiere que los puntos estén de manera conjunta, en la medida de lo posible, lo más
cercanos a la recta que se selecciona como la de mejor ajuste. Así, para cada predictor
xi el valor observado es yi. En la tabla 4.15 dada, por ejemplo, para x 6 5 2 años el
valor observado del tamaño del pie
del niño fue y 6 5 8 cm, sin embar- Tamaño 9.5
go, en la que dibujamos como mejor
9.0 e11
recta, este par ordenado no está exac-
tamente sobre ella. Por tanto, si la 8.5
ecuación de la recta es y 5 a 1 bx se y6
8.0
obtendrá un valor esperado diferen-
te para x 6 5 2 cuando sustituimos y I 7.5
en la ecuación. En la gráfica 4.10 se e4
muestra esa diferencia entre el valor 7.0
e1
observado y 6 5 8 y el valor esperado 6.5 e2
y 6 5 a 1 b( 6) 5 2 a 1 6b.
6.0

Gráfica 4.10 Diferencias entre valores 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
observados y valores esperados. Edad

135
PROBABILIDAD Y ESTADÍSTICA II

En general, el error en el punto ( x i , yi ) es la diferencia entre los valores observa-


dos y los estimados de y:
e i 5 yi 2( a 1 bx i )

La recta de mejor ajuste será la que minimice los errores ei de manera conjunta, para
ello sumaremos sus cuadrados (se pueden usar los valores absolutos u otra técnica,
pero es frecuente usar la suma de los cuadrados). Así, se obtendrán los valores de a y b
de la recta de regresión cuando la suma de los cuadrados de los errores sea mínima.
n n
SCE 5 ∑ e i2 5 ∑[ y i 2( a 1 bx i )]2
i 51 i 51

Para los datos del problema del tamaño del pie

SCE 5 ( 7 2( a 1 b ? 0. 5))2 1( 6 2( a 1 b ? 0. 9)) 2 1! 1 ( 92( a 1 b ? 3. 6))2


Está en una función de a y b, por ello habrá que buscar los valores de los coefi-
cientes para que esa suma sea mínima. En las gráficas 4.11 y 4.12 se muestran dos
posibles rectas de regresión con la suma de los errores.

Gráfica 4.11 Posible recta de regresión 1. Gráfica 4.12 Posible recta de regresión 2.
Tamaño Tamaño
9.5 9.5

9.0 9.0

8.5
8.5
8.0
8.0
7.5
7.5
7.0
7.0
6.5
6.5
6.0
6.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4 Tamaño 5 0.908 Edad 4 5.9 Edad
Tamaño 5 0.897 Edad 4 5.84 Edad Suma de cuadrados 5 1.407
Suma de cuadrados 5 1.337

Según las gráficas, para SC E 51. 337 la ecuación de regresión será T 5 5. 9 1 0. 908E
pero ¿esta recta es la de mejor ajuste?
Los coeficientes óptimos de a y b son los que minimizan la función
n
f ( a, b ) 5 SCE 5 ∑( y i 2( a 1 bx i ))2
i 51

Se igualan a cero las derivadas parciales para encontrar el punto crítico de la fun-
ción y tenemos:

136
ANÁLISIS DE DATOS DE DOS VARIABLES

∂f n
5 ∑ 2( y i 2( a 1 bx i ))( 21) 5 0
∂a i51
⎛ n n n

2 ⎜ 2∑ y i 1 ∑ a 1 b ∑ x i ⎟ 5 0
⎝ i51 i 51 i 51 ⎠
n n
an 1 b ∑ x i 5 ∑ y i
i 51 i 51

∂f n
5 ∑ 2( y i 2( a 1 bx i )))( 2x i ) 5 0
∂b i51
⎛ n n n

2 ⎜ 2∑ x i yi 1 a ∑ x i 1 b ∑ x i2 ⎟ 5 0
⎝ i51 i 51 i 51 ⎠
n n n
a ∑ x i 1 b ∑ x i2 5 ∑ y i
i 51 i 51 i 51

La solución del sistema de ecuaciones es:


⎧ n n

⎪ an 1 b ∑ x i 5 ∑ y i
⎪ i5
51 i 51
⎨ n n n
⎪a x 1 b x 2 5 y

⎪⎩ i51 i ∑ i ∑ i
i 51 i 51

donde las incógnitas a y b son:


n n n
n ∑ x i yi 2 ∑ x i ∑ yi
i 51 i 51 i 51
b5 2
n
⎛ ⎞ n
n ∑ x 2 ⎜ ∑ xi ⎟2

⎝ ⎠
i
i 51 i 51

n n

∑ y 2b∑ xi i
a 5 i51 i 51
5 y 2b x
n
Para el ejemplo, construyamos la siguiente tabla:

n x y x2 xy
1 0.5 7 00.25 03.5
2 0.9 6 00.81 05.4
3 1.3 7 01.69 09.1
4 1.7 7 02.89 11.9
5 1.9 7.5 03.61 14.25
6 2 8 04 16
Continúa

137
PROBABILIDAD Y ESTADÍSTICA II
Continuación

n x y x2 xy
7 2.1 7.5 04.41 15.75
8 2.5 8.3 06.25 20.75
9 3 8.5 09 25.5
10 3.3 9 10.89 29.7
11 3.6 9 12.96 32.4

∑ x 5 22. 8 ∑ y 5 84. 8 ∑ x 2
5 56. 76 ∑ xy 5184. 8
Así, tenemos:
(11 ? 184. 25) 2( 22. 8 ? 84. 8)
b5 5 0. 8927
(11 ? 56. 76) 2( 22. 8)2
84. 8 2 0. 8927 ? 22. 8
a5 5 5. 85877
11

Recuerda que otra forma de obtener a es:

a 5 y 2 bx 5 7. 709 2 0. 8927 ? 2.07273 5 5. 85877


y 5 5. 85877 1 0. 8927 x

Por lo tanto, y 5 5. 85877 1 0. 8927 x


El valor de a 5 5. 85877 cm (cuando y 5 5. 85877 y x 5 0), intersección con el
eje y, significa que el tamaño promedio del pie de los recién nacidos es de 5. 85877 cm,
si el crecimiento del pie fuera lineal desde el nacimiento.
El valor de b y 5 0. 8927 cm/año, significa que el tamaño del pie aumenta en pro-
medio 0. 8927 cm cada año en el intervalo observado.
Y volviendo a las preguntas que nos habíamos planteado:
• ¿Cuál es el tamaño esperado del pie a los dos años?

y 5 5. 85877 1 0. 8927( 2) ≈ 7.644 cm


• ¿Cuál es la edad estimada de un niño cuyo pie mide 7.3 cm?

7.3 5 5. 85877 1 0. 8927 x


x ≈ 1.61
Que representa aproximadamente 1 año y 7 meses.
• ¿Cuál es el tamaño esperado del pie a los 30 años?
y 5 5. 85877 1 0. 8927( 30) ≈ 32. 64 cm

138
ANÁLISIS DE DATOS DE DOS VARIABLES

Lo cual es obviamente incorrecto, pues si bien algunas personas con 30 años


podrían tener un pie de ese tamaño, el promedio no es de 32.64 m.
El último ejemplo muestra que el modelo es bueno para interpolar, es decir, esti-
mar valores de y dado un x dentro de los extremos observados, fuera de esos valores
(extrapolar) puede que el modelo se comporte de otra manera.

Evaluación formativa
La siguiente tabla muestra las estaturas X y Y, en centímetros, de una muestra de seis padres y sus hijos
respectivamente.

Estatura del padre 162.5 157.5 155 175 167.5 172.5

Estatura del hijo 167.5 165 165 170 167.5 172.5

a ) Encuentra una ecuación de regresión lineal para la estatura de los hijos como función de la estatura
de los padres.

b ) Si un padre mide 170 cm, ¿cuánto medirá su hijo?

c ) Si un hijo mide 150 cm, ¿cuánto medirá su padre?

d ) Encuentra el coeficiente de correlación.

e ) En promedio, ¿cuánto aumenta la estatura de los hijos en relación con la de los padres?

139
ANÁLISIS DE DATOS DE DOS VARIABLES
E V A L U A C I Ó N S U M A T I V A

1. En un centro de investigación médica se registraron las siguientes dosis y tiempos de recuperación de pacientes
a quienes se administró un medicamento:

Dosis (gramos) 0.9 1.2 1.3 1.3 1.6

Recuperación (horas) 26 22 20 18 13

a ) Estima los coeficientes de la ecuación de regresión.


b ) ¿Cuál es el tiempo esperado de recuperación si se aplica una dosis de 1.5 g?
c ) ¿Cuál debe ser la dosis para que el tiempo esperado de recuperación sea menor que 20 horas?
2. Para los datos de la tabla 4.12 del problema ¿Nosotros estamos corriendo más rápido? Determina la ecuación
de regresión lineal del tiempo de recorrido según el año de realización de la olimpiada.
3. Para los datos de la tabla 4.8 del problema ¿Usted tiene acceso a la internet o tiene celular? Determina la
ecuación de regresión lineal de uso del celular según el PIB.

141
A M P L I A N D O E L C O NAO CIM
NÁLISIS DE IDATOS
E N DE
T ODOS VARIABLES

G losario
Identifica los siguientes términos en el texto de la unidad y escribe su significado.
Coeficiente de correlación.

Coeficiente de óptimos.

Correlación lineal.

Gráfico o diagrama de dispersión.

Regresión lineal.

Tabla de contingencia.

B I B L I O G R A F Í A
ACUÑA, L. Estadística aplicada con Fathom, Cartago: Editorial Tecnológica de Costa Rica, 2004.
AGRESTI, A., Franklin, C. Statistics: The Art and Science of Learning from Data, New Jersey: Pear-
son Prentice Hall, 2007.
ALIAGA, M., Gunderson, B. Interactive Statistics, 3a., ed., Michigan: Pearson Prentice Hall, 2006.
BATANERO, C. Didáctica de la Estadística, Grupo de Educación Estadística: Universidad de Gra-
nada, España, 2001.
WILD, C., Seber, G. Chance Encounters: a first course in data analysis and inference, 1a. ed., United
States: John Wiley & Sons, Inc., 2000.

143
ESTADISTÍCA Y PROBABILIDADES

144
Tabla 1 Valores de la distribución de probabilidad binomial P (X 5 x )

n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.99

2 0 0.980 0.902 0.810 0.723 0.640 0.563 0.490 0.422 0.360 0.250 0.160 0.122 0.090 0.063 0.040 0.023 0.010 0.003

1 0.020 0.095 0.180 0.255 0.320 0.375 0.420 0.455 0.480 0.500 0.480 0.455 0.420 0.375 0.320 0.255 0.180 0.095 0.020

2 0.003 0.010 0.023 0.040 0.063 0.090 0.122 0.160 0.250 0.360 0.422 0.490 0.563 0.640 0.723 0.810 0.902 0.980

3 0 0.970 0.857 0.729 0.614 0.512 0.422 0.343 0.275 0.216 0.125 0.064 0.043 0.027 0.016 0.008 0.003 0.001

1 0.029 0.135 0.243 0.325 0.384 0.422 0.441 0.444 0.432 0.375 0.288 0.239 0.189 0.141 0.096 0.057 0.027 0.007

2 0.007 0.027 0.057 0.096 0.141 0.189 0.239 0.288 0.375 0.432 0.444 0.441 0.422 0.384 0.325 0.243 0.135 0.029

3 0.001 0.003 0.008 0.016 0.027 0.043 0.064 0.125 0.216 0.275 0.343 0.422 0.512 0.614 0.729 0.857 0.970

4 0 0.961 0.815 0.656 0.522 0.410 0.316 0.240 0.179 0.130 0.063 0.026 0.015 0.08 0.004 0.002 0.001

1 0.039 0.171 0.292 0.368 0.410 0.422 0.412 0.384 0.346 0.250 0.154 0.111 0.076 0.047 0.026 0.011 0.004

2 0.001 0.014 0.049 0.098 0.154 0.211 0.265 0.311 0.346 0.375 0.346 0.311 0.265 0.211 0.154 0.098 0.049 0.014 0.001

3 0.004 0.011 0.026 0.047 0.076 0.111 0.154 0.250 0.346 0.384 0.412 0.422 0.410 0.368 0.292 0.171 0.039

4 0.001 0.002 0.004 0.008 0.015 0.026 0.063 0.130 0.179 0.240 0.316 0.410 0.522 0.656 0.815 0.961

145
5 0 0.951 0.774 0.590 0.444 0.328 0.237 0.168 0.116 0.078 0.031 0.010 0.005 0.002 0.001

1 0.048 0.204 0.328 0.392 0.410 0.396 0.360 0.312 0.259 0.156 0.077 0.049 0.028 0.015 0.006 0.002
Anexo

2 0.001 0.021 0.073 0.138 0.205 0.264 0.309 0.336 0.346 0.313 0.230 0.181 0.132 0.088 0.051 0.024 0.008 0.001

3 0.001 0.008 0.024 0.051 0.088 0.132 0.181 0.230 0.313 0.346 0.336 0.309 0.264 0.205 0.138 0.073 0.021 0.001

4 0.002 0.006 0.015 0.028 0.049 0.077 0.156 0.259 0.312 0.360 0.396 0.410 0.392 0.328 0.204 0.048

5 0.001 0.002 0.005 0.010 0.031 0.078 0.116 0.168 0.237 0.328 0.444 0.590 0.774 0.951

6 0 0.941 0.735 0.531 0.377 0.262 0.178 0.118 0.075 0.047 0.016 0.004 0.002 0.001

1 0.057 0.232 0.354 0.399 0.393 0.356 0.303 0.244 0.187 0.094 0.037 0.020 0.010 0.004 0.002
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

2 0.001 0.031 0.098 0.176 0.246 0.297 0.324 0.328 0.311 0.234 0.138 0.095 0.060 0.033 0.015 0.005 0.001

3 0.002 0.015 0.041 0.082 0.132 0.185 0.235 0.276 0.313 0.276 0.235 0.185 0.132 0.082 0.041 0.015 0.002

4 0.001 0.005 0.015 0.033 0.060 0.095 0.138 0.234 0.311 0.328 0.324 0.297 0.246 0.176 0.098 0.031 0.001

5 0.002 0.004 0.010 0.020 0.037 0.094 0.187 0.244 0.303 0.356 0.393 0.399 0.354 0.232 0.057
6 0.001 0.002 0.004 0.016 0.047 0.075 0.118 0.178 0.262 0.377 0.531 0.735 0.941

(Continúa)
Tabla 1 Valores de la distribución de probabilidad binomial P (X 5 x )

n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.99

7 0 0.932 0.698 0.478 0.321 0.210 0.133 0.082 0.049 0.028 0.008 0.002 0.001

1 0.066 0.257 0.372 0.396 0.367 0.311 0.247 0.185 0.131 0.055 0.017 0.008 0.004 0.001
2 0.002 0.041 0.124 0.210 0.275 0.311 0.318 0.298 0.261 0.164 0.077 0.047 0.025 0.012 0.004 0.001

3 0.004 0.023 0.062 0.115 0.173 0.227 0.268 0.290 0.273 0.194 0.144 0.097 0.058 0.029 0.011 0.003

4 0.003 0.011 0.029 0.058 0.097 0.144 0.194 0.273 0.290 0.268 0.227 0.173 0.115 0.062 0.023 0.004

5 0.001 0.004 0.012 0.025 0.047 0.077 0.164 0.261 0.298 0.318 0.311 0.275 0.210 0.124 0.041 0.002

6 0.001 0.004 0.008 0.017 0.055 0.131 0.185 0.247 0.311 0.367 0.396 0.372 0.257 0.066

7 0.001 0.002 0.008 0.028 0.049 0.082 0.133 0.210 0.321 0.478 0.698 0.932

8 0 0.923 0.663 0.43 0.272 0.168 0.100 0.058 0.032 0.017 0.004 0.001

1 0.075 0.279 0.383 0.385 0.336 0.267 0.198 0.137 0.090 0.031 0.008 0.003 0.001

2 0.003 0.051 0.149 0.238 0.294 0.311 0.296 0.259 0.209 0.109 0.041 0.022 0.010 0.004 0.001
ESTADISTÍCA Y PROBABILIDADES

3 0.005 0.033 0.084 0.147 0.208 0.254 0.279 0.279 0.219 0.124 0.081 0.047 0.023 0.009 0.003

146
4 0.005 0.018 0.046 0.087 0.136 0.188 0.232 0.273 0.232 0.188 0.136 0.087 0.046 0.018 0.005

5 0.003 0.009 0.023 0.047 0.081 0.124 0.219 0.279 0.279 0.254 0.208 0.147 0.084 0.033 0.005

6 0.001 0.004 0.010 0.022 0.041 0.109 0.209 0.259 0.296 0.311 0.294 0.238 0.149 0.051 0.003

7 0.001 0.003 0.008 0.031 0.090 0.137 0.198 0.267 0.336 0.385 0.383 0.279 0.075

8 0.001 0.004 0.017 0.032 0.058 0.100 0.168 0.272 0.430 0.663 0.923

9 0 0.914 0.63 0.387 0.232 0.134 0.075 0.040 0.021 0.010 0.002

1 0.083 0.299 0.387 0.368 0.302 0.225 0.156 0.100 0.060 0.018 0.004 0.001

2 0.003 0.063 0.172 0.260 0.302 0.300 0.267 0.216 0.161 0.070 0.021 0.010 0.004 0.001

3 0.008 0.045 0.107 0.176 0.234 0.267 0.272 0.251 0.164 0.074 0.042 0.021 0.009 0.003 0.001

4 0.001 0.007 0.028 0.066 0.117 0.172 0.219 0.251 0.246 0.167 0.118 0.074 0.039 0.017 0.005 0.001

5 0.001 0.005 0.017 0.039 0.074 0.118 0.167 0.246 0.251 0.219 0.172 0.117 0.066 0.028 0.007 0.001

6 0.001 0.003 0.009 0.021 0.042 0.074 0.164 0.251 0.272 0.267 0.234 0.176 0.107 0.045 0.008

7 0.001 0.004 0.010 0.021 0.070 0.161 0.216 0.267 0.300 0.302 0.260 0.172 0.063 0.003

(Continúa)
Tabla 1 Valores de la distribución de probabilidad binomial P (X 5 x )

n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.99

8 0.001 0.004 0.018 0.060 0.100 0.156 0.225 0.302 0.368 0.387 0.299 0.083

9 0.002 0.010 0.021 0.040 0.075 0.134 0.232 0.387 0.630 0.914

10 0 0.904 0.599 0.349 0.197 0.107 0.056 0.028 0.013 0.006 0.001

1 0.091 0.315 0.387 0.347 0.268 0.188 0.121 0.072 0.040 0.010 0.002 0.001

2 0.004 0.075 0.194 0.276 0.302 0.282 0.233 0.176 0.121 0.044 0.011 0.004 0.001

3 0.010 0.057 0.130 0.201 0.250 0.267 0.252 0.215 0.117 0.042 0.021 0.009 0.003 0.001

4 0.001 0.011 0.040 0.088 0.146 0.200 0.238 0.251 0.205 0.111 0.069 0.037 0.016 0.006 0.001

5 0.001 0.008 0.026 0.058 0.103 0.154 0.201 0.246 0.201 0.154 0.103 0.058 0.026 0.008 0.001

6 0.001 0.006 0.016 0.037 0.069 0.111 0.205 0.251 0.238 0.200 0.146 0.088 0.040 0.011 0.001

7 0.001 0.003 0.009 0.021 0.042 0.117 0.215 0.252 0.267 0.250 0.201 0.130 0.057 0.010

8 0.001 0.004 0.011 0.044 0.121 0.176 0.233 0.282 0.302 0.276 0.194 0.075 0.004

147
9 0.001 0.002 0.010 0.040 0.072 0.121 0.188 0.268 0.347 0.387 0.315 0.091

10 0.001 0.006 0.013 0.028 0.056 0.107 0.197 0.349 0.599 0.904

11 0 0.895 0.569 0.314 0.167 0.086 0.042 0.020 0.009 0.004

1 0.099 0.329 0.384 0.325 0.236 0.155 0.093 0.052 0.027 0.005 0.001

2 0.005 0.087 0.213 0.287 0.295 0.258 0.200 0.140 0.089 0.027 0.005 0.002 0.001

3 0.014 0.071 0.152 0.221 0.258 0.257 0.225 0.177 0.081 0.023 0.010 0.004 0.001

4 0.001 0.016 0.054 0.111 0.172 0.220 0.243 0.236 0.161 0.070 0.038 0.017 0.006 0.002

5 0.002 0.013 0.039 0.080 0.132 0.183 0.221 0.226 0.147 0.099 0.057 0.027 0.010 0.002

6 0.002 0.010 0.027 0.057 0.099 0.147 0.226 0.221 0.183 0.132 0.080 0.039 0.013 0.002
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

7 0.002 0.006 0.017 0.038 0.070 0.161 0.236 0.243 0.220 0.172 0.111 0.054 0.016 0.001

8 0.001 0.004 0.010 0.023 0.081 0.177 0.225 0.257 0.258 0.221 0.152 0.071 0.014

9 0.001 0.002 0.005 0.027 0.089 0.140 0.200 0.258 0.295 0.287 0.213 0.087 0.005

10 0.001 0.005 0.027 0.052 0.093 0.155 0.236 0.325 0.384 0.329 0.099
11 0.004 0.009 0.020 0.042 0.086 0.167 0.314 0.569 0.895

(Continúa)
Tabla 1 Valores de la distribución de probabilidad binomial P (X 5 x )
n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.99

12 0 0.886 0.540 0.282 0.142 0.069 0.032 0.014 0.006 0.002


1 0.107 0.341 0.377 0.301 0.206 0.127 0.071 0.037 0.017 0.003
2 0.006 0.099 0.230 0.292 0.283 0.232 0.168 0.109 0.064 0.016 0.002 0.001
3 0.017 0.085 0.172 0.236 0.258 0.240 0.195 0.142 0.054 0.012 0.005 0.001
4 0.002 0.021 0.068 0.133 0.194 0.231 0.237 0.213 0.121 0.042 0.020 0.008 0.002 0.001
5 0.004 0.019 0.053 0.103 0.158 0.204 0.227 0.193 0.101 0.059 0.029 0.011 0.003 0.001
6 0.004 0.016 0.040 0.079 0.128 0.177 0.226 0.177 0.128 0.079 0.040 0.016 0.004
7 0.001 0.003 0.011 0.029 0.059 0.101 0.193 0.227 0.204 0.158 0.103 0.053 0.019 0.004
8 0.001 0.002 0.008 0.020 0.042 0.121 0.213 0.237 0.231 0.194 0.133 0.068 0.021 0.002
9 0.001 0.005 0.012 0.054 0.142 0.195 0.240 0.258 0.236 0.172 0.085 0.017
10 0.001 0.002 0.016 0.064 0.109 0.168 0.232 0.283 0.292 0.230 0.099 0.006
11 0.003 0.017 0.037 0.071 0.127 0.206 0.301 0.377 0.341 0.107
12 0.002 0.006 0.014 0.032 0.069 0.142 0.282 0.540 0.886
ESTADISTÍCA Y PROBABILIDADES

15 0 0.860 0.463 0.206 0.087 0.035 0.013 0.005 0.002

148
1 0.130 0.366 0.343 0.231 0.132 0.067 0.031 0.013 0.005
2 0.009 0.135 0.267 0.286 0.231 0.156 0.092 0.048 0.022 0.003
3 0.031 0.129 0.218 0.250 0.225 0.170 0.111 0.063 0.014 0.002
4 0.005 0.043 0.116 0.188 0.225 0.219 0.179 0.127 0.042 0.007 0.002 0.001
5 0.001 0.010 0.045 0.103 0.165 0.206 0.212 0.186 0.092 0.024 0.010 0.003 0.001
6 0.002 0.013 0.043 0.092 0.147 0.191 0.207 0.153 0.061 0.030 0.012 0.003 0.001
7 0.003 0.014 0.039 0.081 0.132 0.177 0.196 0.118 0.071 0.035 0.013 0.003 0.001
8 0.001 0.003 0.013 0.035 0.071 0.118 0.196 0.177 0.132 0.081 0.039 0.014 0.003
9 0.001 0.003 0.012 0.030 0.061 0.153 0.207 0.191 0.147 0.092 0.043 0.013 0.002
10 0.001 0.003 0.010 0.024 0.092 0.186 0.212 0.206 0.165 0.103 0.045 0.010 0.001
11 0.001 0.002 0.007 0.042 0.127 0.179 0.219 0.225 0.188 0.116 0.043 0.005
12 0.002 0.014 0.063 0.111 0.170 0.225 0.250 0.218 0.129 0.031
13 0.003 0.022 0.048 0.092 0.156 0.231 0.286 0.267 0.135 0.009
14 0.005 0.013 0.031 0.067 0.132 0.231 0.343 0.366 0.130
15 0.002 0.005 0.013 0.035 0.087 0.206 0.463 0.860

(Continúa)
Tabla 1 Valores de la distribución de probabilidad binomial P (X 5 x )
n x 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.50 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.99

20 0 0.818 0.358 0.122 0.039 0.012 0.003 0.001

1 0.165 0.377 0.270 0.137 0.058 0.021 0.007 0.002

2 0.016 0.189 0.285 0.229 0.137 0.067 0.028 0.010 0.003

3 0.001 0.060 0.190 0.243 0.205 0.134 0.072 0.032 0.012 0.001

4 0.013 0.090 0.182 0.218 0.190 0.130 0.074 0.035 0.005

5 0.002 0.032 0.103 0.175 0.202 0.179 0.127 0.075 0.015 0.001

6 0.009 0.045 0.109 0.169 0.192 0.171 0.124 0.037 0.005 0.001

7 0.002 0.016 0.055 0.112 0.164 0.184 0.166 0.074 0.015 0.004 0.001

8 0.005 0.022 0.061 0.114 0.161 0.180 0.120 0.035 0.014 0.004 0.001

9 0.001 0.007 0.027 0.065 0.116 0.160 0.160 0.071 0.034 0.012 0.003

10 0.002 0.010 0.031 0.069 0.117 0.176 0.117 0.069 0.031 0.010 0.002

149
11 0.003 0.012 0.034 0.071 0.160 0.160 0.116 0.065 0.027 0.007 0.001

12 0.001 0.004 0.014 0.035 0.120 0.180 0.161 0.114 0.061 0.022 0.005

13 0.001 0.004 0.015 0.074 0.166 0.184 0.164 0.112 0.055 0.016 0.002

14 0.001 0.005 0.037 0.124 0.171 0.192 0.169 0.109 0.045 0.009

15 0.001 0.015 0.075 0.127 0.179 0.202 0.175 0.103 0.032 0.002

16 0.005 0.035 0.074 0.130 0.190 0.218 0.182 0.090 0.013

17 0.001 0.012 0.032 0.072 0.134 0.205 0.243 0.190 0.060 0.001

18 0.003 0.010 0.028 0.067 0.137 0.229 0.285 0.189 0.016


DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

19 0.002 0.007 0.021 0.058 0.137 0.270 0.377 0.165

20 0.001 0.003 0.012 0.039 0.122 0.358 0.818


DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

Tabla 2 Para un valor dado de Z, la probabilidad tabulada corresponde a P (Z # z )

Z 0 1 2 3 4 5 6 7 8 9

23.4 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

23.3 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

23.2 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001

23.1 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001

23.0 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001

22.9 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.001 0.001 0.001

22.8 0.003 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002

22.7 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003

22.6 0.005 0.005 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004

22.5 0.006 0.006 0.006 0.006 0.006 0.005 0.005 0.005 0.005 0.005

22.4 0.008 0.008 0.008 0.008 0.007 0.007 0.007 0.007 0.007 0.006

22.3 0.011 0.010 0.010 0.010 0.010 0.009 0.009 0.009 0.009 0.008

22.2 0.014 0.014 0.013 0.013 0.013 0.012 0.012 0.012 0.011 0.011

22.1 0.018 0.017 0.017 0.017 0.016 0.016 0.015 0.015 0.015 0.014

22.0 0.023 0.022 0.022 0.021 0.021 0.020 0.020 0.019 0.019 0.018

21.9 0.029 0.028 0.027 0.027 0.026 0.026 0.025 0.024 0.024 0.023

21.8 0.036 0.035 0.034 0.034 0.033 0.032 0.031 0.031 0.030 0.029

21.7 0.045 0.044 0.043 0.042 0.041 0.040 0.039 0.038 0.038 0.037

21.6 0.055 0.054 0.053 0.052 0.051 0.049 0.048 0.047 0.046 0.046

21.5 0.067 0.066 0.064 0.063 0.062 0.061 0.059 0.058 0.057 0.056

21.4 0.081 0.079 0.078 0.076 0.075 0.074 0.072 0.071 0.069 0.068

21.3 0.097 0.095 0.093 0.092 0.090 0.089 0.087 0.085 0.084 0.082

21.2 0.115 0.113 0.111 0.109 0.107 0.106 0.104 0.102 0.100 0.099
(Continúa)

151
ESTADISTÍCA Y PROBABILIDADES

Tabla 2 Para un valor dado de Z, la probabilidad tabulada corresponde a P (Z # z )


z 0 1 2 3 4 5 6 7 8 9

21.1 0.136 0.133 0.131 0.129 0.127 0.125 0.123 0.121 0.119 0.117

21.0 0.159 0.156 0.154 0.152 0.149 0.147 0.145 0.142 0.140 0.138

20.9 0.184 0.181 0.179 0.176 0.174 0.171 0.169 0.166 0.164 0.161

20.8 0.212 0.209 0.206 0.203 0.200 0.198 0.195 0.192 0.189 0.187

20.7 0.242 0.239 0.236 0.233 0.230 0.227 0.224 0.221 0.218 0.215

20.6 0.274 0.271 0.268 0.264 0.261 0.258 0.255 0.251 0.248 0.245

20.5 0.309 0.305 0.302 0.298 0.295 0.291 0.288 0.284 0.281 0.278

20.4 0.345 0.341 0.337 0.334 0.330 0.326 0.323 0.319 0.316 0.312

20.3 0.382 0.378 0.374 0.371 0.367 0.363 0.359 0.356 0.352 0.348

20.2 0.421 0.417 0.413 0.409 0.405 0.401 0.397 0.394 0.390 0.386

20.1 0.460 0.456 0.452 0.448 0.444 0.440 0.436 0.433 0.429 0.425

20.0 0.500 0.496 0.492 0.488 0.484 0.480 0.476 0.472 0.468 0.464

Tabla 3 Para un valor dado de z, la probabilidad tabulada corresponde a P (Z # z )

z 0 1 2 3 4 5 6 7 8 9

0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862

(Continúa)

152
DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS CONTINUAS

Tabla 3 Para un valor dado de z, la probabilidad tabulada corresponde a P (Z # z )

z 0 1 2 3 4 5 6 7 8 9

1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
3.0 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999
3.1 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999
3.2 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999
3.3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
3.4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

153