Binder 1

Probabilidad y Estadística 10 de Octubre del 2014
Variables aleatorias
Distribuciones discretas de probabilidad
Ejemplo
1. Un embarque de 20 computadoras portátiles similares para una tienda

minorista contiene tres que están defectuosas. Si una escuela compra al
azar 2 de estas computadoras, calcule la distribución de probabilidad
para el número de computadoras defectuosas.
Definición 1. Distribución de probabilidad acumulada
Ejemplo:
2. Ver ejemplo de emparejamiento de cascos.
Distribuciones de probabilidad de una variable aleatoria continua
Definición 2.
Definición 3.
Ejemplo:
3. Suponga que ( ) { . Encuentre la función de densidad
de probabilidad de y grafíquela.
Definición 4.
Ejemplo:
4. Suponga que el error en la temperatura de reacción, en °C, en un

experimento de laboratorio controlado, es una variable aleatoria
continua que tiene la función de densidad de probabilidad
( ) {
a) Verifique que ( ) es una función de densidad

b) Calcule ( )
1
Definición 5.
Definición 6.
Ejemplo:
5. Calcule ( ) para la función de densidad del ejemplo 4 y utilice el

resultado para calcular ( )
Ejemplo:
6. Si es una variable aleatoria continua con función de densidad de

probabilidad dada por
( ) {
Encuentre ( ) y grafique ( ) y ( )
Ejemplo:
7. Dada ( ) y ( ) en otro caso, encuentre el valor de

para el cual ( ) es una función de densidad válida. Calcule (
)y ( ).
Ejercicios:
1.- Determine el valor de de modo que cada uno de las siguientes funciones
sirva como distribución de probabilidad de una variable aleatoria discreta
a. ( ) ( ), para
b. ( ) ( )( ), para
2.- El departamento de energía asigna proyectos mediante licitación y, por lo

general, estima lo que debería ser una licitación razonable. Sea b el estimado.
El departamento de energía determinó que la función de densidad de la
licitación ganadora (baja) es
( ) {
2
Calcule ( ) y utilice el resultado para determinar la probabilidad de que la

licitación ganadora sea menor que la estimación preliminar de b del
departamento de energía.
3.- Suponga que Y tiene la función de densidad
( ) {
a. Calcule el valor de c que convierte a f(y) en una función de

densidad de probabilidad
b. Encuentre F(y)
c. Trace la gráfica de f(y) y F(y)
d. Utilice F(y) para determinar P(1≤Y≤2)
4.- Un hotel hace una compra al azar de tres televisores, a una tienda que tiene
7 de estos aparatos de los cuales 2 están defectuosos.
a. Encuentre la distribución de probabilidad para el numero de

televisores defectuosos comprados por el hotel
b. Encuentre la distribución acumulada para Y
c. Usando P(Y) encuentre P(Y=1) y P(0≤Y≤2)
5.- La duración de un transistor hasta que falla (en cientos de horas) es una
variable aleatoria Y con una función de distribución dada por:
( ) {
a. Encuentre f(y)
b. Calcule la probabilidad de que el transmisor funcione por lo menos 200
horas.
2) Una gasolinera funciona con dos bombas, cada una de las cuales
bombea 10 000 galones de gasolina al mes. El total de gasolina que
se despacha en un mes es una variable aleatoria Y (medida cada 10
000 galones) con una función de densidad de probabilidad dada
por
3
( ) {
a. Trace la gráfica de f(y)

b. Encuentre F(y) y grafíquela
c. Calcule la probabilidad de que en cierto mes se despachen entre 8000 y
12000 galones.
6.- Un abastecedor de queroseno tiene un tanque de 150 galones que llena a

principios de cada semana. La demanda semanal muestra un comportamiento de
frecuencia relativa que aumenta gradualmente hasta 100 galones y luego se
estabiliza en un nivel de entre 100 y 150 galones. Si denota la demanda
semanal en cientos de galones, la frecuencia relativa de demanda se puede
representar mediante el modelo
( ) {
a. Trace la gráfica de ( )
b. Encuentre ( ) y grafíquela
c. Calcule la probabilidad de que en cierto mes se despachen
entre 8000 y 12000 galones.
d. Si en un mes particular la gasolinera bombea más de 10000
galones, calcule la probabilidad de que ésta despache más
de 15000 galones durante un mes.
4
Valor Esperado de una variable aleatoria
Definición 1.
Ejemplo 1. Un inspector de calidad obtiene una muestra de un lote que contiene 7

componentes; el lote contiene 4 componentes buenos y 3 defectuosos. El inspector toma
una muestra de 3 componentes. Calcule el valor esperado del número de componentes
buenos en esta muestra.
Ejemplo 2. Sea la variable aleatoria que denota la vida en horas de cierto dispositivo
electrónico. La función de densidad de probabilidad es
( ) {
Teorema 1.
Ejemplo 3. Suponga que el número de automóviles que pasa por un local de lavado de
autos entre las 4:00 P.M. y las 5:00 P.M. de cualquier viernes soleado tiene la siguiente
distribución de probabilidad:
4 5 6 7 8 9
( )
Sea ( ) la cantidad de dinero en dólares que el administrador paga al operador.

Calcule las ganancias esperadas del operador en este periodo específico.
Ejemplo 4. Sea una variable aleatoria con función de densidad
( ) {
Calcule el valor esperado de ( )
Definición 2.
Ejemplo 5. Sean y variables aleatorias con la distribución de probabilidad conjunta que

se indica en la tabla. Calcule el valor esperado de ( ) .
Totales por
( )
0 1 2 renglón
0 3/28 9/28 3/28 15/28
1 3/14 3/14 0 3/7
2 1/28 0 0 1/28
1
Totales por columna 5/14 15/28 3/28 1
Ejemplo 6. Calcule ( ) para la siguiente función de densidad
( )
( ) {
Varianza de una variable aleatoria
Definición 3.
Ejemplo 7: sea que la variable aleatoria Y represente el número de automóviles que se

utilizan para propósitos de negocios en un día cualquiera de trabajo. La distribución de
probabilidad para la compañía A esta dada por:
1 2 3
( ) 0.3 0.4 0.3
Y para la compañía B es:
0 1 2 3 4
( ) 0.2 0.1 0.3 0.3 0.1
Demuestre que la varianza de la distribución de probabilidad para la compañía B es mayor

que la compañía A.
Teorema 2. Ejercicio: Demuestre el teorema.
Ejemplo 8. Sea la variable aleatoria Y que represente el número de partes defectuosas de

una máquina cuando tres de ellas se seleccionan de una línea de producción y se prueban.
La siguiente es la distribución de probabilidad de Y.
0 1 2 3
( ) 0.51 0.38 0.10 0.01
Use el Teorema 2 y Calcule .
Ejemplo 9. La demanda semanal de una bebida para una cadena local de tiendas de
abarrotes, en miles de litros, es una variable aleatoria continua que tiene la siguiente
densidad de probabilidad
( )
( ) {
2
Calcule la media y la varianza de .
Teorema 3.
Teorema 4.
Ejemplo 10. La demanda semanal de una bebida para una cadena local de tiendas de
abarrotes, en miles de litros, es una variable aleatoria continua ( ) , donde
tiene la siguiente función de densidad
( )
( ) {
Calcule el valor esperado para la demanda semanal de la bebida.
Ejemplo 11. El gerente de una compañía petrolera planea adquirir una nueva máquina del
tipo A o B. Si denota el número de horas de funcionamiento diario, el número de
reparaciones diarias que se tienen que hacer a una máquina del tipo A es una variable
aleatoria con una media y una varianza iguales a . La cantidad de reparaciones diarias
que requiere una máquina del tipo B constituye una variable aleatoria con una media y
una varianza iguales a . El costo diario de operación de la máquina tipo A es de
( ) , y para la de tipo B es de ( ) . Suponga que las
reparaciones toman un mínimo de tiempo, y que cada noche las máquinas se alternan de tal
manera que funcionen como nuevas al comienzo del siguiente día. ¿Cuál de ellas reduce al
mínimo el costo diario esperado si un día laboral consta de a) 10 horas y b) 20 horas?
Ejercicios.
1. La variable aleatoria , que representa el número de pedacitos de chocolate en un

pastel, tiene la siguiente distribución de probabilidad:
2 3 4 5 6
( ) 0.01 0.25 0.4 0.3 0.04
Encuentre la varianza de .
2. El periodo de tiempo, en minutos, que un aeroplano espera vía libre para aterrizar en
un cierto aeropuerto es una variable aleatoria ( ) , donde X tiene la
función de densidad
( ) {
Encuentre la media y la varianza de la variable aleatoria.
3
3. Si Y es una variable aleatoria cuya ( ) aparece en la tabla adjunta, encuentre
( ) ( ) ( ) y ( ).
1 2 3 4
( ) 0.4 0.3 0.2 0.1
4. Y tiene la función de densidad
( ) ( )( )
{
Calcule la media y la varianza de Y.
5. En ciertas muestras minerales, la proporción de impurezas por muestra, Y, es una

variable aleatoria cuya función de densidad es
( ) ( )
{
Cada muestra tiene un valor en dólares de . Calcule la media y la

varianza de .
6. La temperatura Y a la que un interruptor eléctrico controlado por un termostato

enciende, tiene una función de densidad de probabilidad dada por
( ) {
Encuentre ( ) y ( ).
7. La proporción de tiempo Y que un robot industrial funciona en una jornada laboral

de 40 horas es una variable aleatoria cuya función de densidad de probabilidad es
( ) {
a) Encuentre ( ) y ( )
b) En el caso del robot que se está estudiando, el rendimiento semanal X está dado
por la expresión . Determine ( ) y ( ).
8. La radiación solar total diaria que incide en una zona específica en el mes de
octubre tiene una función de densidad de probabilidad dada por
( ) ( )( )( )
{
Cuyas medidas se expresan en cientos de calorías. Determine la radiación solar

esperada para octubre.
4
9. El pH de unas muestras de agua de cierto lago es una variable aleatoria Y cuya
función de densidad de probabilidad está dada por
( ) ( )( )
{
Encuentre ( ) y ( ).
10. Calcule la varianza de ( ) , donde Y es una variable aleatoria con

distribución de probabilidad
0 1 2 3
( )
11. El número de repuestos azules y el número de repuestos rojos , cuando dos de

ellos se seleccionan aleatoriamente de una cierta caja, se indica por la siguiente
distribución de probabilidad conjunta:
( ) ( )
0 1 2
0
( ) 1
Encuentre la covarianza de y .
5
17Myers. Técnicas de conteo
1. A los participantes en una convención se les ofrecen 6 recorridos por día para visitar
lugares de interés durante los 3 días de duración del evento. ¿En cuántas formas
puede una persona acomodarse para hacer algunos de ellos?
2. En un estudio médico, los pacientes se clasifican en 8 formas diferentes de acuerdo
con su tipo de sangre, u , y su presión sanguínea
(baja, normal o alta). Encuentre el número de formas posibles para clasificar a un
paciente.
3. Si un experimento consiste en lanzar un dado y después seleccionar aleatoriamente
una letra del alfabeto en inglés, ¿Cuántos puntos habrá en el espacio muestral?
4. Los estudiantes de un colegio privado de humanidades se clasifican como
estudiantes de primer año, de segundo, de penúltimo o de último, y también de
acuerdo con su sexo: hombres o mujeres. Encuentre el número total de
clasificaciones posibles para los estudiantes de este colegio.
5. Un determinado zapato se fabrica en 5 estilos diferentes y en 4 colores distintos para
cada uno. Si la zapatería desea mostrar clientela pares de zapatos en todos los estilos
y colores, ¿Cuántos pares diferentes deberán colocar en el aparador?
6. Un estudiante de primer año debe tomar un curso de ciencia, uno de humanidades y
otro de matemáticas. Si puede escoger entre cualquiera de 6 cursos de ciencia, 4 de
humanidades y 4 de matemáticas, ¿en cuántas formas puede acomodar su horario?
7. Un urbanista de una nueva subdivisión ofrece a los clientes prospectos para la
compra de una casa, la posibilidad de seleccionar cualquiera de 4 diseños diferentes,
3 sistemas de calefacción, cochera con puertas o sin ellas, y patio o pórtico.
¿Cuántos planes distintos están disponibles para el comprador?
8. Puede comprarse un medicamento para la cura del asma ya sea líquido, en tabletas o
en capsulas, a 5 diferentes fabricantes, y todas las presentaciones en concentración
regular o alta. ¿en cuántas formas diferentes puede un medico recetar la medicina a
un paciente que sufre de este padecimiento?
9. En un estudio de economía de combustibles, se prueban 3 carros de carreras con 5

diferentes marcas de gasolina, en 7 sitios se prueba en distintas regiones del país. Si
se utilizan 2 pilotos en el estudio y las pruebas se realizan una vez bajo cada
conjunto de condiciones, ¿Cuántas se necesitaran?
10.
a. ¿Cuántas permutaciones diferentes pueden hacerse con las letras de la
palabra columna?
b. ¿Cuántas de estas permutaciones empiezan con la letra m?
11. En cuantas formas pueden sentarse en una línea 4 niños y 5 niñas, si deben
colocarse alternadamente?
1
12. En un curso regional de deletreo, los 8 finalistas son 3 niños y 5 niñas. Encuentre el
número de puntos muestrales en el espacio S para el numero de ordenes posibles al
final del evento para:
a. Los 8 finalistas;
b. Las primeras 3 posiciones.
13. ¿En cuántas formas puede llenarse las 5 posiciones iniciales de un equipo de
baloncesto con 8 jugadores que pueden ocupar cualquiera de ellas?
14. Encuentre el número de formas en las cuales pueden asignarse 6 profesores a las 4
secciones de un curso introductorio de psicología, si ninguno cubre más de una
selección.
15. Se sacan 3 boletos de la lotería, de un grupo de 40, para el primero, segundo y tercer
premios. Encuentre el número de puntos muestrales en S para otorgarlos si cada
concursantes conserva solo un boleto.
16. ¿En cuántas formas pueden plantarse en círculo 5 árboles diferentes?
17. ¿En cuántas formas pueden acomodarse en un círculo los 8 vagones cubiertos de
una caravana proveniente de Arizona?
18. ¿En cuántas formas pueden plantarse, a lo largo de la línea divisoria de una
propiedad, 3 robles, 4 pinos y 2 arces, si no se distingue entre los arboles de la
misma clase?
19. Un colegio participa en 12 partidos de futbol en una temporada. ¿De cuantas
maneras puede el equipo terminar la temporada con 7 victorias, 3 derrotas y 2
empates?
20. ¿Cuántas formas hay de seleccionar a 3 candidatos de un total de 8 recién graduados
y con las mismas capacidades para ocupar vacantes en una firma contable?
21. En un estudio que realizaron en California, el decano Lester Breslow y el doctor
James Enstrom de la School Of Public Health de la University Of California en Los
Angeles, se concluyó que al seguir 7 sencillas reglas de salud, la vida de un hombre
puede alargarse, en promedio, 11 años y la de las mujeres, siete. Estas 7 reglas son:
no fumar, hacer ejercicio regularmente, tomar alcohol solo en forma moderada,
dormir siete u ocho horas, conservar un peso apropiado, desayunar y no comer entre
alimentos. ¿En cuántas formas puede una persona adoptar 5 de estas reglas:
a. Si actualmente las viola todas?
b. Si nunca toma bebidas alcohólicas y siempre desayuna?
Probabilidad de un evento 20
Ejemplo 1.22 Una moneda se lanza dos veces al aire. ¿Cuál es la probabilidad de que caiga
cuando menos una vez en cara?
Ejemplo 1.23 Se carga un dado de tal manera que un número par tiene el doble de
posibilidades de presentarse que un nom. Si E es el evento en el que se da un número
menor que 4 en un solo lanzamiento, encuentre P(E).
2
Ejemplo 1.24 En el ejemplo 1.23 sea A el evento de que el dado caiga en un número par y
B el evento de que resulte uno divisible entre 3. Encuentre ( ) y ( ).
Ejemplo 1.25 Una mezcla de dulces contiene 6 mentas, 4 chiclosos y 3 chocolates. Si una
persona realiza una selección al azar de uno de ellos, encuéntrese la probabilidad de
obtener: a) una menta, o b) un chicloso o un chocolate.
Pag.24 Reglas aditivas
Ejemplo 1.27 La probabilidad de que Paula apruebe matemáticas es de 2/3 y la de que

apruebe inglés es de 4/9. Si la probabilidad de que apruebe ambos cursos es de ¼, ¿Cuál es
la probabilidad de que Paula apruebe al menos uno de ellos?
Ejemplo 1.28 ¿Cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par

de dados?
Ejemplo 1.29 Si las probabilidades de que una persona, al comprar un nuevo automóvil,
seleccione el color verde, blanco, rojo o azul, son, respectivamente, 0.09, 0.15, 0.21 y 0.23
¿Cuál es la probabilidad de un comprador dado adquiera un automóvil en uno de esos
colores?
Pag.26 Ejercicios.
1- Encuentre los errores en cada de las siguientes aseveraciones:

a) Las probabilidades de que un vendedor de automóviles cierre 0,1,2 o 3
operaciones en cualquier día de febrero son, respectivamente, 0.19, 0.38, 0.29 y
0.15.
b) La probabilidad de que llueva mañana es de 0.40 y la de que no suceda es de
0.52.
c) La probabilidad de que una impresora cometa 0, 2, 3, 4 o más errores en la
impresión de un documento son, respectivamente, 0.19, 0.34,-0.25,0.43 y 0.29.
d) Al sacar una carta de juego, en un solo intento, de un paquete completo, la
probabilidad de que sea de corazones es ¼ , la de seleccionar una carta negra es
½ , y la de que resulte tanto negra como de corazones es 1/8.
2- Una caja contiene 500 sobres, 75 de los cuales contienen $100 en efectivo, 150 $25
y 275 $10. Cada uno puede comprarse al precio de $25. ¿Cuál es el espacio
muestral para los diferentes cantidades de dinero? Asigne probabilidades a los
espacios muestrales y después encuentre la probabilidad de que el primer sobre que
se compre contenga menos de $100.
3- Si A y B son eventos mutuamente excluyentes y P(A)= 0.3 y P(A)=0.5, encuentre:
a) ( );
b) ( );
c) ( ).
3
4- Si A,B y C son eventos mutuamente excluyentes y P(A)= 0.2, P(B)=0.3 y
P(C)=O.2, encuentre:
a) ( )
b) [ ( )]
c) ( )
(Murray) permutaciones 141.
6.17- ¿De cuantas maneras se pueden ordenar en fila 5 canicas de distintos colores?
6.18- ¿De cuantas maneras pueden sentarse 10 personas en una banca si solo 4 asientos
están disponibles?
6.20- Se necesita sentar a 5 hombres y 4 mujeres en fila, de tal manera que las mujeres
ocupen los lugares pares. ¿Cuántas formas hay de hacerlo?
6.21- ¿Cuántos números de cuatro dígitos se forman con los 10 digitos 0,1,2,3,…,9, si :
a) se permite repeticiones,
b) no se permiten repeticiones,
c) El ultimo digito debe ser cero y sin repeticiones?
6.22- En una repisa se ordenaran 4 libros diferentes de matemáticas, 6 libros diferentes de

física y dos libros diferentes de química. ¿Cuántas ordenaciones distintas son posibles si a)
los libros de cada materia deben ir juntos y b) solo los libros de matemáticas deben ir
juntos?
6.23- Cinco canicas rojas, dos blancas y tres azules se ordenan en una fila. Si no es posible
distinguir entre sí a las canicas del mismo color, ¿Cuántas posibles ordenaciones hay?
6.24-¿De cuantas maneras se pueden sentar 7 personas en torno a una mesa redonda si a)
pueden sentarse en cualquier parte y b) 2 personas no deben sentarse juntas?
Combinaciones 143
6.25- ¿De cuantas formas pueden dividirse 10 objetos en dos grupos que contengan 4 y 6
objetos, respectivamente?
6.27- ¿De cuantas maneras puede formarse una comisión de 5 personas, elegidas de entre
9?
6.28- De un total de 5 matemáticos y 7 físicos, formara una comisión consistente de 2

matemáticos y 3 físicos. ¿De cuantas maneras puede hacerse si a) cualquiera de los
4
matemáticos y físicos puede incluirse, b) un físico en particular debe estar en la comisión y
c) dos matemáticos en particular no pueden estar en la comisión?
6.29. Una niña tiene 5 flores, cada una de distinta variedad. ¿Cuántos ramos diferentes
puede formar?
6.30. Con 7 consonantes y 5 vocales, ¿Cuántas palabras, con 4 consonantes diferentes y 3

vocales diferentes, se pueden formar? No es necesario que las palabras tengan significado.
Probabilidad y análisis combinatorio
6.32 Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Si se extraen tres bolas al azar,
determine la probabilidad de que a) las 3 sean rojas, b) las 3 sean blancas, c) sean rojas y 1
blanca, d) al menos 1 sea blanca e) sea 1 de cada color y f) se extraigan en el orden roja,
blanca y azul.
6.33 se extraen cinco cartas de una baraja de 52 naipes bien mezclada. Calcule la
probabilidad de que a) 4 sean ases, b) 4 sean ases y 1 sea un rey, c) 3 sean diez y 2 sean
jacks, d) que sean 9, 10, Jack, reina y rey, obtenidos en cualquier orden, e) 3 sean de un
mismo palo y 2 sean de otro, y f) se obtenga al menos un as.
6.34 Determine la probabilidad de obtener 3 seis en 5 lanzamientos de un dado.
6.35 Una fábrica encuentra que, en promedio, 20% de las tuercas producidas por cierta
máquina son defectuosas. Si se seleccionan aleatoriamente 10 tuercas en la producción
diaria de la máquina, calcule la probabilidad de a) que exactamente 2 sean defectuosas, b)
que 2 o más sean defectuosas y c) que más de 5 sean defectuosas.
Reglas fundamentales de probabilidad (134 Murray)
6.1 Determine la probabilidad P, o un estimado de ésta, para cada uno de los siguientes
eventos:
a. En un lanzamiento de un dado resulta un número impar.

b. En dos lanzamientos, una moneda cae por lo menos una vez en cara.
c. Al sacar una sola carta de una baraja ordinaria de 52 naipes, bien mezclada, se
extraen un as, un 10 de diamantes o un 2 de espadas.
d. En un solo lanzamiento de una moneda, siendo que de 100 lanzamientos previos 56
fueron caras
6.2 Un experimento consiste en lanzar una moneda y un dado. Si es el evento “cara” al

lanzar la moneda y es el evento “3 o 6” al lanzar el dado, enuncie en palabras el
significado de lo siguiente:
a.
5
b.
c.
d. ( )
e. ( )
f. ( )
6.3 Se extrae al azar una bola de una caja que contiene 6 bolas rojas, 4 bolas blancas y 5
bolas azules. Determine la probabilidad de que la bola extraída sea a) roja, b) blanca, c)
azul, d) no roja y e) roja o blanca.
6.4 Un dado se lanza dos veces. Calcule la probabilidad de obtener 4,5 o 6 en el primer
lanzamiento y un 1, 2, 3 o 4 en el segundo.
6.5 Se extraen dos cartas de una baraja de 52 naipes bien mezclada. Calcule la probabilidad
de que ambas sean ases, si la primera carta a) se regresa a la baraja y b) no se regresa.
6.9 A y B juegan 12 partidas de ajedrez; A gana 6, B gana 4 y dos terminan en empate.

Ellos acuerdan jugar 3 partidas. Encuentre la probabilidad de que a) A gane las tres
partidas, b) dos sean empates, c) A y B ganen de forma alternada y d) B gane por lo menos
una partida.
Mendenhall Probabilidad de un evento (puntos muestrales) 30
Ejemplo 2.1 una fabricante dispone de 5 terminales de computadora, en apariencia

idénticas, para enviarlas por barco. Ella no lo sabe, pero dos de las 5 están defectuosas. Se
solicitan dos de las terminales y se procede a llenar la orden eligiéndolas aleatoriamente
entre las 5 disponibles.
a. Elabore una lista del espacio muestral para este experimento

b. Suponga que el evento A indica que la orden se llena con dos terminales no
defectuosas. Elabore una lista de los puntos muestrales de A
c. Asigne probabilidades a los eventos simples , de tal manera que se utilice la
información referente al experimento
d. Encuentre la probabilidad del evento A
2.9 Un espacio muestral consta de 5 eventos simples
a. Si ( ) ( ) ( ) y ( ) ( ), encuentre las
probabilidades de y
b. Si ( ) ( ) encuentre las probabilidades de los eventos simples
restantes si usted sabe que tienen la misma probabilidad
2.11 Los estadounidenses pueden ser muy suspicaces, sobre todo cuando se trata de
conspiraciones contra el gobierno. En relación con la pregunta de si la fuerza aérea de
6
Estados Unidos posee suficiente evidencia de la existencia de vida inteligente en otros
planetas, las proporciones de estadounidenses con distinta opinión aparecen en la siguiente
tabla.
Opinión Proporción
Muy probable 0.24
Poco probable 0.24
No probable 0.40
Otra 0.12
Suponga que se elige a un estadounidense y se registra su opinión.
a. ¿Cuáles son los eventos simples de este experimento?

b. Tienen la misma probabilidad los eventos simples del inciso a)? De no ser asi, ¿Qué
probabilidad debe asignarse a cada evento?
c. ¿Cuál es la probabilidad de que la persona elegida encuentre verosímil que la fuerza
aérea guarde información relacionada con vida inteligente en otros planetas?
2.13 Una próspera empresa petrolera extrae gas o petróleo en 10% de sus perforaciones. Si
la empresa perfora dos pozos, los cuatro eventos simples posibles y tres de sus
probabilidades asociadas figuran en la tabla que aparece a continuación
Evento simple Resultado de la Resultado de la Probabilidad

primera segunda
perforación perforación
Extracción(petróleo Extracción(petróleo 0.01
o gas) o gas)
Extracción No hubo extracción ?
No hubo extracción Extracción 0.09
No hubo extracción No hubo extracción 0.81
a. Encuentre la probabilidad de que la compañía extraiga petróleo o gas en la primera

perforación y no extraiga nada en la segunda
b. Encuentre la probabilidad de que la compañía extraiga gas o petróleo por lo menos
en una de las dos perforaciones
2.15 El montaje de plataformas para carga hidráulica ensambladas en unas instalaciones de

reciclaje de aviones se inspecciona para control de calidad. Los registros indican que 8% de
los montajes tiene defectos solo en los elevadores, 6% posee defectos solo en los cojinetes
de polea y 2% tiene defectos en los elevadores y los cojinetes. Se elige uno de los montajes
en forma aleatoria. ¿Cuál es la probabilidad de que el montaje tenga
a. Un defecto en los cojinetes de polea?
7
b. Defecto en los elevadores o en los cojinetes?
c. Exactamente una de las dos clases de defectos?
d. Ninguno de los dos defectos?
2.17 Una oficina de negocios ordena papel a uno de sus tres proveedores V1, V2, o V3.
Se atenderá una orden por día, en dos días sucesivos. Así (V2,V3) podría representar el
hecho de que el proveedor V2 recibe la orden el primer día y el proveedor V3 recibe la
orden el segundo día.
a. Elabore una lista de los puntos muestrales del experimento que implica ordenar
papel dos días sucesivos
b. Suponga que los proveedores se eligen al azar cada día y asigne una probabilidad a
cada punto muestral
c. Imagine que A representa el evento de que el mismo proveedor recibe las dos
órdenes y B el evento que indica que el proveedor V2 recibe por lo menos una
orden. Encuentre P(A), P (B), ( )y ( ) sumando las probabilidades de
los puntos muestrales de estos eventos.
34
Ejemplo 2.2 Considere el problema de elegir dos solicitantes de empleo de un grupo de 5 e

imagine que los candidatos difieren en su grado de capacidad: el 1 es el mejor, el 2 el
siguiente en habilidad, y así sucesivamente en el caso 3, 4 y 5. Por supuesto que estas
calificaciones las desconoce el patrón. Defina los dos eventos A y B como:
A: El patrón elige al mejor y a uno de los dos menos competentes (solicitantes 1 y 4 o 1 y

5)
B: El patrón elige por lo menos uno de los dos mejores
Determine las probabilidades de estos eventos
Ejemplo 2.3 Una moneda perfecta se lanza tres veces. Calcule la probabilidad de obtener
cara en dos de los tres lanzamientos.
Ejemplo 2.4 Cuando A juega tenis contra B, las probabilidades de que gane A son de dos a
una. Suponga que A y B juegan dos partidos. ¿Cuál es la probabilidad de que A gane por lo
menos un partido?
38
2.20 Cuatro personas con las mismas habilidades solicitan dos puestos iguales en una
empresa. Solo un candidato pertenece a un grupo minoritario. Los puestos se ocupan
eligiendo al azar dos de los candidatos.
8
a. Elabore una lista de los posibles resultados de este experimento
b. Asigne probabilidades razonables a los puntos muestrales
c. Encuentre la probabilidad de que le candidato que pertenece a un grupo minoritario
sea elegido para un puesto
2.21 En un juicio penal se necesitan dos personas para un jurado. Hay seis candidatos para
integrarlo, 2 mujeres y 4 hombres. Se eligen al azar dos miembros de los 6 disponibles.
a. Defina el experimento y describa un punto muestral. Suponga que usted necesita

describir exclusivamente a los dos miembros que se eligió para integrar el jurado y
no el orden en que fueron seleccionados.
b. Elabore la lista del espacio muestral asociado con este experimento.
c. ¿Cuál es la probabilidad de que dos de los miembros del jurado sean mujeres?
2.23 Un furgón contiene 6 sistemas electrónicos complejos. Se elegirán aleatoriamente 2 de

los 6 para someterlos a una prueba y clasificarlos según estén defectuosos o no.
a. Si 2 de los 6 sistemas en realidad tienen defecto, determine la probabilidad de que

por lo menos uno de los dos sistemas probados estará defectuoso. Encuentre la
probabilidad de que ambos tengan defecto.
b. Si 4 de los 6 sistemas se encuentran defectuosos, determine las probabilidades
indicadas en el inciso a)
9
Apuntes de Estadı́stica para LCEA
M.C.M.A. Gladys del Carmen Velázquez López

UPGM
Versión 1
10 de enero de 2011
2
.
Índice general
Introducción 5
1. Introducción a la Estadı́stica 6
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Definición de estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. ¿Para que estudiamos estadı́stica? . . . . . . . . . . . . . . . . . . . . 9
1.4. Terminologı́a estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Notación de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estadı́stica descriptiva 23
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Datos estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Organización de datos mediante tablas . . . . . . . . . . . . . 24
2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1. Obtención de los intervalos y lı́mites de clases . . . . . . . . . 26
2.4. Presentación gráfica de datos . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 ÍNDICE GENERAL
2.6.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 40

2.7. Medidas de tendencia central y de dispersión para datos agrupados . 44
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3. Muestreo 64
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66
3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67
3.3. Tabla de números aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70
3.4. Estimación basada en una muestra aleatoria simple . . . . . . . . . . 75
3.5. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . 81
3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. Regresión lineal y multilineal 106

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.2. Estimación de los coeficientes del modelo por mı́nimos cuadrados . . 110
4.3. Supuestos adicionales para los estimadores de mı́nimos cuadrados . . 115
4.4. Inferencias relativas a la pendiente β1 de una recta . . . . . . . . . . 116
4.5. Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.7. Regresión lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . 138
5. Habilidades básicas 143
Bibliografı́a 149
Introducción
Llegará un dı́a en el que el razonamiento estadı́stico será tan necesario

para el ciudadano como ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)
La creciente complejidad de la sociedad moderna ha provocado incertidumbre en las

mentes de muchas personas en posiciones de mando. Aún ası́, deben de tomar deci-
siones relativas a sus funciones diarias y planes para el futuro, ya sea que estén en
negocios, gobierno o en cualquier otra institución. La Estadı́stica es una herramienta
intelectual con la cual pueden tomarse decisiones racionales; y en realidad ha habido
un énfasis creciente en los enfoques cuantitativos a los problemas administrativos du-
rante las últimas décadas. La estadı́stica ha respondido a las necesidades de nuestro
tiempo y se ha desarrollado como una disciplina práctica para auxiliar a los adminis-
tradores en el proceso de toma de decisiones.
El objeto fundamental de la edición de este documento es facilitar a los alumnos de

licenciatura en comercio exterior y aduanas de la universidad politécnica del golfo de
méxico el desarrollo de los contenidos teóricos de la asignatura Estadı́stica. Desde un
punto de vista menos local, espero que sea útil, en alguna medida, a todo aquel que
necesite conocimientos básicos de las técnicas estadı́sticas más usuales en el ambiente
cientı́fico-tecnológico.
Capı́tulo 1
Introducción a la Estadı́stica
1.1. Introducción
Para la gente común y corriente la estadı́stica significa números. En el periódico de la
mañana se pueden encontrar las estadı́sticas más recientes sobre los delitos de la ciu-
dad: número de asesinatos, robos de automóviles, asaltos y demás delitos que hayan
sido denunciados en determinado periodo de tiempo; o las más recientes estadı́sticas
acerca de la mano de obra en el paı́s: por ejemplo, el número de desempleados; o
las últimas estadı́sticas sobre el número de nacimientos y muertes que han ocurrido
durante cierto periódo de tiempo.
Los ejemplos anteriores forman parte del concepto total de Estadı́stica, pero dicha
palabra tiene un concepto mas amplio para las personas que tienen conocimiento de
los aspectos técnicos. Para estas personas, la estadı́stica tiene relación con aquellos
conceptos y técnicas que se emplean en la recopilación, organización, resumen, análi-
sis, interpretación y comunicación de información numérica.
Generalmente se diseña una serie de trabajos para alcanzar uno de los siguientes
objetivos, o ambos.
1. Describir cuantitativamente una serie de personas lugares o cosas. (Estadı́stica

descriptiva).
1.2 Definición de estadı́stica 7
2. Dar información de la que se puedan sacar conclusiones acerca de un gran número

de personas, lugares o cosas mediante la observación de una pequeña parte del
conjunto total. (Estadı́stica Inferencial: Predecir y decidir).
El capı́tulo incluye una introducción del término Estadı́stica y presenta los conceptos
más básicos relativos a poblaciones y muestras.
1.2. Definición de estadı́stica

¿Que es la estadı́stica?. La estadı́stica es un conjunto de procedimientos que sirven
para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los
resultados de una manera clara concisa y significativa. También podemos entender la
estadı́stica como la ciencia que permite responder a ciertas preguntas basándose en
datos empı́ricos, es decir, en datos que se originan de la observación o de la experiencia.
Ası́, diremos que es la ciencia que tiene que ver con los métodos que dan respuesta a
determinadas cuestiones mediante la recolección, análisis e interpretación apropiada
de datos empı́ricos, ası́ como del proceso de toma de desiciones acerca del sistema del
cual fueron obtenidos los datos.
Definición 1.2.1. La Estadı́stica es la ciencia que se ocupa de los métodos cientı́fi-

cos para recolectar, organizar, resumir, presentar y analizar datos, ası́ como sacar
conclusiones válidas y tomar desiciones con base en este análisis.
Para su estudio la estadı́stica se divide en tres ramas que son:
Estadı́stica descriptiva: Es un conjunto de procedimientos que sirven para

organizar, describir y sintetizar datos sin que las conclusiones que se extraigan
de estas rebasen su ámbito especı́fico, es decir, se busca únicamente describir y
analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de
un grupo mas grande. Generalmente los datos en una muestra pueden escribirse
de tres maneras:
8 Introducción a la Estadı́stica
Descripción tabular: Elaboración de tablas para distribuciones de frecuen-

cia;
Descripción gráfica: Construcción de esquemas, histogramas, ojivas, polı́gonos

de frecuencia, etc. La gráfica describe de una manera mas objetiva la na-
turaleza de los rasgos;
Descripción aritmética: Cálculo del número, rango, media, moda, mediana,

etc.
El ı́ndice de desempleo, el costo de la vida, la precipitación pluvial, el rendimien-

to medio de un auto en kilómetros por litro y los promedios de calificación,
quedan todos en esta categorı́a.
Estadı́stica inferencial: Es un conjunto de procedimientos que se emplean

para hacer inferencias y generalizaciones respecto a una totalidad partiendo
del estudio de un número limitado de casos tomados de ésta última. Es decir,
consiste en el análisis e interpretación de una muestra de datos. El muestreo
es un ejemplo vivo del dicho “no tienes que comerte todo el pastel para saber
si te gusta”. Por lo tanto, la idea básica en el muestreo es medir una porción
pequeña, pero tı́pica, de alguna “población ”, y posteriormente utilizar dicha
información para inferir que caracterı́sticas tiene la población total.
En la industria y los negocios hay muchas formas de aplicar este concepto. Por
ejemplo, un estudio cinematográfico somete a diversas pruebas a algunos actores
y actrices antes de decidir quien interpretará cada papel, las fábricas suelen
producir un pequeño número de piezas (producción piloto) antes de pasar a la
producción a gran escala. Muchas compañı́as almacenan cientos de artı́culos en
inventario y, mediante técnicas de muestreo, pueden estimar su valor en unidades
monetarias sin tener que contar por completo todos sus artı́culos. Algunas veces
se llevan a a cabo estudios de mercado de los nuevos productos en ciudades
claves, para establecer el grado de aceptación por el consumidor. Las empresas
privadas y las dependencias gubernamentales realizan muestreos por múltiples
1.3 ¿Para que estudiamos estadı́stica? 9
razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar
datos y analizar los resultados cuesta dinero y, generalmente, cuantos más datos
se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se
deben reunir y analizar, por lo tanto, dicha operación reduce el costo. Otra
razón para realizar el muestreo es el hecho de que la información pierde su
valor en poco tiempo. Para que ésta sea útil, se debe obtener y aprovechar con
bastante rapidez. A menudo el muestreo es el único medio posible de lograr lo
anterior. Algunas veces, el exámen de los artı́culos, causa destrucción. Al probar
los cinturones de seguridad para conocer su punto de ruptura, evidentemente se
destruye el producto. Si todos se probaran de esa manera, no quedarı́a ninguno
para vender. Esas y otras razones para el muestreo, se considerarán con mayor
detalle en capı́tulos posteriores.
Probabilidad: La probabilidad estudia situaciones en las que interviene el azar.

Sus primeras aplicaciones se relacionaban básicamente con los juegos de azar,
como la loterı́a, casinos, carreras de caballos, etc. (en este curso no se considera-
rá esta parte de la estadı́stica).
Como más tarde observaremos, las ramas de la estadı́stica no son indepen-
dientes y distintas por completo, tienden a superponerse considerablemente.
En resumen, existen tres áreas muy relacionadas de interés en estadı́stica: la
descripción y resumen de datos, la teorı́a de la probabilidad y el análisis e in-
terpretación de los datos de muestra.
El objetivo de la Estadı́stica es: Hacer inferencias (predecir, decidir) sobre algunas

caracterı́sticas de una población con base en la información contenida en una muestra.
1.3. ¿Para que estudiamos estadı́stica?

1.-Los conceptos y técnicas se usan en un gran número de ocupaciones,
2.-Las ideas constituyen una parte integral de las investigaciones, de las encuestas
para recopilar datos y del análisis de los datos que se originan en las actividades que
desarrollan las instituciones y organizaciones.
Ejemplo 1.3.1. Un trabajador que no necesariamente conoce conceptos y técnicas

estadı́sticas muy bien, por lo menos debe tener la facultad de reconocer cuando
necesita la ayuda de un experto y poder comunicarse cuando trabajen juntos en la
planeación, dirección e interpretación de los resultados de una actividad que requiera
la metodologı́a de esta ciencia.
F Si comprendes los conceptos y metodologı́a sacarás provecho de ello. Si lo entiendes

bien podrás leer con mayor inteligencia toda la literatura !.
En la vida cotidiana hay muchos ejemplos de como la estadı́stica está presente. Las
aplicaciones estadı́sticas se presentan en muchos campos incluyendo la ingenierı́a,
ciencias fı́sicas, negocios, ciencias biológicas y de salud, ciencias sociales y educación,
comercio, quı́mica, comunicación, economı́a, ciencias polı́ticas, psicologı́a, etc. A con-
tinuación se describen algunas aplicaciones.
a) Se diseñan encuestas con el fin de recoger las primeras cifras de las elecciones y
predecir los resultados (o pronosticar).
b) Se realizan entrevistas con los consumidores para obtener mas información acerca
de los productos que prefieren.
c) Se toman muestras de fusibles recién fabricados, con el fin de decidir si se embarcan

o se retiran ciertos lotes de ese producto (Control de calidad en las industrias).
d) Los Economistas observan los ı́ndices para saber que tan saludable es la economı́a
durante un periodo y utilizan la información para predecir como se compar-
tirá en el futuro.
e) En Agricultura se realizan experimentos sobre la reproducción de plantas y anima-

les, se estudia la bondad de fertilizantes, insecticidas, etc., y se estudian métodos
para aumentar el rendimiento de las cosechas.
1.4 Terminologı́a estadı́stica 11
f ) En Biologı́a se emplean los métodos estadı́sticos para estudiar las reacciones de

las plantas y animales ante diferentes presiones ambientales.
g) En Negocios se usa para predecir volúmenes de ventas, medir las reacciones de los
consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma
de invertir presupuesto en publicidad, etc.
h) En Salud y medicina los médicos investigadores se ayudan de la estadı́stica para

evaluar la efectividad de diversos tratamientos.
i) En Psicologı́a se ayudan de la estadı́stica para medir y comparar la conducta, las

actitudes, la inteligencia y las aptitudes del hombre.
1.4. Terminologı́a estadı́stica

Es este apartado definiremos algunos términos fundamentales que se utilizarán en el
curso, los demás términos se definirán a medida que se vayan presentando.
Población: También llamada universo, es todo conjunto de personas, cosas u

objetos con ciertas caracterı́sticas comúnes. Cada uno de los elementos de la
población recibe el nombre de elemento o unidad. Definimos Población como
el conjunto más grande de valores (de una variable), por el cual existe algún
interés.
Una población puede ser finita o infinita. Por ejemplo, la población que com-
prende todas las piezas producidas en un dı́a determinado en una fábrica, los
productos de un supermercado, los libros de una biblioteca, son ejemplos de una
población finita, mientras que la población que consta de todos los resultados
posibles (cara o cruz) en lanzamientos sucesivos de una moneda, la producción
futura de una máquina y el nacimiento de insectos son ejemplos de poblaciones
infinitas.
Nota 1. Los elementos que forman una población pueden ser personas, empresas,
productos manufacturados, inventarios, escuelas, ciudades, calificaciones esco-

lares, precios, o cualquier otra cosa que se pueda medir, contar o jerarquizar.
Muestra: Se llama muestra a toda porción de elementos sacada de una población.

Sirve para estimar los resultados que se obtendrı́an con el estudio completo de
la población. Para que los resultados de la muestra puedan generalizarse a la
población, es necesario que la muestra se elija adecuadamente, es decir, que sea
representativa de la población.
Muestra aleatoria: Es aquella que se obtiene cuando todos los elementos de

la población tienen igual posibilidad de ser elegidos, es decir, es la muestra que
se trae de una población al azar.
De las definiciones anteriores podemos concluir que el objetivo de una muestra,
es que los elementos de la muestra representen al conjunto de todos los ele-
mentos de la población. Esta cuestión, la construcción de muestras adecuadas,
representativas, es uno de los aspectos más delicados de la Estadı́stica. Nosotros
vamos a considerar en esta asignatura sólo un tipo de muestras, denominadas
muestras aleatorias simples. En una muestra aleatoria simple, todos los elemen-
tos de la población deben tener las mismas posibilidades de salir en la muestra
y, además, los elementos de la muestra deben ser independientes: el que salga
un resultado en la muestra no debe afectar a que ningún otro resultado salga
en la muestra.
Entidad: Conjunto de personas, lugares o cosas.
I Un biólogo puede estar interesado en las ardillas que habitan determinada

región.
I Un médico puede mostrar interés por los pacientes que muestren determinada
serie de sı́ntomas.
I A un agrı́cola le llamará la atención cierta variedad de trigo.

1.4 Terminologı́a estadı́stica 13
Variable: Es toda propiedad o conjunto de caracterı́sticas de las entidades que

admiten variaciones dentro de un conjunto de objetos y que interesan en una
investigación cientı́fica. Por ejemplo, el biólogo puede tener interés especial en
el tamaño de las ardillas, el médico puede querer investigar el nivel de colesterol
de ciertos pacientes; al educador le puede llamar la atención el rendimiento de
lectura de los estudiantes que han aprendido a leer con un método determinado;
el investigador agrı́cola puede estar interesado en conocer la resistencia de una
variedad de trigo a cierta enfermedad, al educador le puede llamar la atención
el rendimiento en la lectura de los estudiantes que han aprendido a leer con
un método determinado, al meteorólogo le puede llamar la atención de la nieve
como una proporción de la precipitación total, etc. En virtud de que cualquiera
de estas caracterı́sticas presenta un valor diferente cuando se observa desde
diferentes ámbitos, recibe el nombre de variable. Hay tres tipos de variables las
cuales son: nominales, ordinales y cardinales.
• Variables nominales. Son las mas simples y abundantes y su única fun-

ción es clasificar. Su variable operacional correspondiente es una escala
nominal que sirve para clasificar las observaciones en un conjunto de ca-
tegorı́as mutuamente excluyentes cuyo orden de colocación es indistinto.
A esto se les puede asignar cifras u otros sı́mbolos arbitrarios con el fin de
distinguirlas. Si son cifras, no tienen ningún valor ni propiedades numéricas
como en aritmética, es decir, no se puede hacer ninguna medida numérica
sólo clasificación.


soltero,







casado,

Ejemplo 1.4.1. Variable nominal −→ { Estado civil viudo,





divorciado,




unión libre.
Ejemplo 1.4.2. Entre los datos numéricos que son nominales (datos cuan-
titativos) se incluyen los números de las camisetas deportivas, los números
de código de las zonas postales, los números telefónicos, etc.
Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el género,
la raza, el tipo de sangre y la religión. Ver ejemplo 1.4.1.
Los datos nominales se obtienen cuando se definen las categorı́as y se cuen-

ta el número de observaciones que queda en cada una.
• Variables ordinales o jerarquizados. Clasifican las observaciones en

categorı́as mutuamente excluyentes que exigen ordenación, ya que guardan
entre sı́ relaciones de mayor que. Su variable operacional es una escala
ordinal que va desde la categorı́a mas baja hasta la mas alta o biceversa, de
modo que las observaciones queden en el orden apropiado. Estas categorı́as
tampoco tienen propiedades numéricas, aunque se les represente por cifras.


 1.-Abstemio,





2.-Bebedor ocasional,
Ejemplo 1.4.4. Variable ordinal −→ { Alcoholismo

 3.-Bebedor regular,





4.-Bebedor consuetudinario.


1.-Pobre,





2.-Razonable,
Ejemplo 1.4.5. Variable ordinal −→ { La evaluación de un maestro

 3.-Buena,





4.-Superior.
Las variables nominales y ordinales son variables cuyos valores consisten

en categorı́as de clasificación y se denominan Variables Cualitativas.
• Variables cardinales o cuantitativas. Se dice que una variable es cuan-

titativa siempre que los valores que puede asumir sean los resultados de
medidas numéricas. Ejemplos de variable cuantitativa son la estatura, el
peso, la temperatura, el cociente de inteligencia, la presión sanguı́nea, el
1.5 Notación de suma con sigma 15
número de estudiantes de primer año, etc. Las variables cardinales, se di-

viden en continuas y discretas.
Continuas: Son las que pueden tomar cualquier valor dentro de un inter-
valo de valores, por ejemplo, la edad, los salarios, la estatura, la masa, la
distancia en kilómetros, etc. En general, las mediciones dan origen a los
datos continuos.
Discretas: Son las que toman solo algunos valores dentro de un intervalo,
es decir, adquieren solo valores enteros. Por ejemplo, el número de alumnos
en un aula, el número de enfermos que ingresan a un hospital, el número
de niños en una familia, la cantidad de coches en un estacionamiento, el
conjunto de personas en una fila, etc. En general, las enumeraciones o los
conteos dan origen a los datos discretos.
1.5. Notación de suma con sigma

En muchos de los procedimientos estadı́sticos que estudiaremos en el curso, se requiere
P
de obtener la suma de un conjunto de números. La letra griega se utiliza para
denotar una suma. De ahı́ que, si alguna variable x tiene los valores 1, 5, 6 y 9, entonces
P
x = 21. De manera similar, si los gastos en comestibles durante una semana fueron
P
$8.82, $12.01, entonces y = $22.93.
P P P
Ejemplo 1.5.1. Si los valores de x son 2, 4, 5 y 9, encuentre x, x2 y ( x)2 .
Solución:
P
x = 2 + 4 + 5 + 9 = 20
P 2
x = 22 + 42 + 52 + 92 = 4 + 16 + 25 + 81 = 126
P
( x)2 = 202 = 400
Si sólo se van a sumar algunos de los valores, se utilizan subı́ndices para indicar dichos
valores de este modo:
5
X
xi
i=1
indica la suma de los valores de la variable x, empezando con i = 1 y terminando con

i = 5:
5
X
xi = x1 + x2 + x3 + x4 + x5
i=1
n
X n
X
xi significa que hay que sumar n observaciones. A menudo xi se abrevia con
i=1 X X i=1
los sı́mbolos xi o x.
2
X 4
X 11
X X
Ejemplo 1.5.2. Usando los datos que se indiquen, calcule xi , xi , xi y xi
i=1 i=1 i=7
i 1 2 3 4 5 6 7 8 9 10 11
xi 8 2 3 6 7 8 9 4 5 4 1
Solución:
X2
xi = x1 + x2 = 8 + 2 = 10,
i=1
4
X
xi = x2 + x3 + x4 = 2 + 3 + 6 = 11,
i=1
11
X
xi = x7 + x8 + x9 + x10 + x11 = 9 + 4 + 5 + 4 + 1 = 23,
X
i=7
xi = x1 + x2 + . . . + x11 = 8 + 2 + . . . + 1 = 57.
Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida
entre ella, dicha constante se puede aplicar después de que los valores se hayan sumado
X X
cx = c x
Ası́,
4
X 4
X
2xi = 2x1 + 2x2 + 2x3 + 2x4 = 2(x1 + x2 + x3 + x4 ) = 2 xi
i=1 i=1
Por ejemplo,
3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42
1.5 Notación de suma con sigma 17
La operación de suma o sumatoria de una constante es igual al producto de la cons-

tante y el número de veces que se presenta.
n
X
ci = nc
i=1
Por ejemplo,
6
X
5i = 5 + 5 + 5 + 5 + 5 + 5 = 30
i=1
o bien, 6(5) = 30.

La adición de una suma (o diferencia) de dos variables es igual a la suma (o diferencia)
de sumatorias individuales de las dos variables.
n
X n
X n
X
2 2
(xi + yi ) = xi + yi
i=1 i=1 i=1
n
X n
X n
X
(xi − yi ) = xi − yi
i=1 i=1 i=1
.
Ejemplo 1.5.3. Se tienen dos conjuntos de números, tales como salarios por hora para
diversos empleados y el número de horas que cada uno trabajó.
i: Individuos fi : Horas trabajadas xi : Salarios por hora

1 1 $2
2 5 3
3 7 2
4 3 4
5 3 3
P P P P P
Supóngase que han de evaluarse las sumas que siguen: fi , xi , x2i , f i xi , fi x2i
P
y (fi xi )2 .
Solución:
i fi xi x2i fi xi fi x2i
1 1 $2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27
P P P P P
fi = 19 xi = 14 x2i = 42 fi xi = 52 fi x2i = 152
P
y( fi xi )2 = 2704
1.6. Notas Sobre redondeo

Durante el curso cuando se registren datos finales o intermedios, se tendrá en cuenta
la siguiente regla:
Si el dı́gito que queda a la derecha de la posición del último dı́gito que se va a

retener (y registrar) es menor que 5 se registrará el dı́gito que ocupa la posición
que hay que retener (y registrar). Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
175.783 175.78
164.78432 164.78

retener es mayor que 5 se aumentará en 1 el dı́gito que ocupa la posición del
último dı́gito que se va a retener y se registrará este resultado. Ejemplo que
ilustra esta regla
175.787 175.79
164.796 164.8

retener es igual a 5. Entonces, se registrará el dı́gito que ocupa la posición del
1.6 Notas Sobre redondeo 19
último dı́gito que se va a retener tal como aparece si es par, y aumentando en

1, si es impar. Ejemplo que ilustra esta regla
P ar 175.785 175.78
Impar 175.775 175.8
1.7. Ejercicios
1. Desarrolle cada uno de los siguientes:
5
X
a) xi
i=1
5
X
b) xi yi
i=1
6
X
c) (xi − yi )2
i=1
n
X xi
d) para n = 8.
i=1
n
X X
2. Calcule las siguientes cantidades según los datos que se indican. xi , fi ,
X X
f i xi y fi x2i .
i 1 2 3 4 5 6
fi 3 5 9 10 2 1
xi 10 11 15 19 21 26
3. De acuerdo a las reglas de redondeo establecidas, redondee las siguientes cifras

hasta dos lugares decimales:
a) 5.781 b) 46.7385 c) 125.9995 d) 43.87500 e) 148.475
4. Clasifique los siguientes datos como discretos o continuos:
Puntajes de matemáticas en la prueba de aptitud académica de 30 alumnos

del último año de preparatoria.
El número de defectos en cada unidad de un lote de 50 coches nuevos.
El número de carreras anotadas en cada juego por los Piratas en la tem-

porada de 1990.
1.7 Ejercicios 21
Distancia en yardas recorrida por un mediocampista en cada juego durante

la última temporada.
Peso perdido en libras por 20 personas debido a una dieta.
El número de acciones vendidas por dı́a de la bolsa de valores.
Las temperaturas registradas cada media hora en un observatorio.
El tiempo de vida de los bulbos de televisión producidos por una empresa.
El ingreso anual de los profesores universitarios.
La longitud de 1000 tornillos producidos en una fábrica.
El tiempo de vuelo de un misil.
El número de billetes de $20 que circulan en México en un momento de-

terminado.
La suma S de los puntos obtenidos al lanzar un par de dados.
El paı́s C en Europa.
El estado civil de una persona.
El número N de individuos en una familia.
5. Clasifique los datos siguientes en cuantitativos y cualitativos:
Estaturas en pulgadas de cinco jugadores de basquetbol.
Peso en onzas de doce pollitos.
Clasificación étnica de 20 empleados
Números telefónicos de amigos
6. Identifique lo siguiente en términos del tipo de datos:
17 gramos.
25 segundos.
3 canastas.
Más lento.
Talla de camisas.
El más encantador.
Estatura de un hombre.
Color de piel de los perros.
La vida de las llantas de un automóvil.

Capı́tulo 2
Estadı́stica descriptiva
2.1. Introducción
Los métodos estadı́sticos comprenden el análisis e interpretación de números, ventas

mensuales, calificaciones de exámenes, números de partes defectuosas, porcentaje de
respuestas correctas a un cuestionario, etc. A tales números se les conoce como datos.
Los datos no procesados pueden carecer de significado, por lo cual para interpretarlos
correctamente es necesario primero organizar y resumir los números. En este capı́tu-
lo aprenderemos métodos para resumir y describir conjuntos de datos a través de
distintos tipos de tablas, gráficos y medidas estadı́sticas.
2.2. Datos estadı́sticos
Obtenidos a través de encuestas, experimentos o cualquier otro conjunto de medidas,

los datos estadı́sticos suelen ser tan numerosos que resultan prácticamente inútiles
si no son resumidos de forma adecuada. Para ello la Estadı́stica utiliza tanto técni-
cas gráficas como numéricas, algunas de las cuales describiremos en este capı́tulo.
Ahora bien, los datos estadı́sticos se obtienen mediante un proceso que comprende
la observación o medición de conceptos como ingresos anuales de una comunidad,
24 Estadı́stica descriptiva
calificaciones de exámenes, porcentaje de azúcar en cereales, etc., los cuales se cono-

cen como variables, ya que producen valores que tienden a mostrar cierto grado de
variabilidad, al efectuarse mediciones sucesivas.
2.2.1. Tipos de datos

Como se describió en la sección 1.4, los datos pueden ser de dos tipos: cuantitativos y
cualitativos. Los datos cuantitativos son los que representan una cantidad reflejada en
una escala numérica. A su vez, pueden clasificarse como datos cuantitativos discretos
si se refieren al conteo de alguna caracterı́stica, o datos cuantitativos continuos si se
refieren a una medida. Los datos cualitativos o categóricos se refieren a caracterı́sticas
de la población que no pueden asociarse a cantidades con significado numérico, sino
a caracterı́sticas que sólo pueden clasificarse.
Ejemplo 2.2.1. Veamos algunos ejemplos de cada uno de estos tipos de variables:
Si estamos interesados en un asfalto, la variable tensión de fractura es cuanti-

tativa continua.
En un ejemplo de unos cojinetes, el diámetro de los cojinetes es una variable

cuantitativa continua.
En un ejemplo de los niveles de plomo, se está analizando si una muestra con-

tiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con
dos categorı́as: sı́ contiene niveles detectables o no contiene niveles detectables.
En el ejemplo de accidentes laborales, la variable número de accidentes labo-

rales es cuantitativa discreta, mientras que las franjas horarias constituyen una
variable cualitativa.
2.2.2. Organización de datos mediante tablas

El objetivo de la organización de datos es acomodar un conjunto de datos en forma
útil para revelar las caracterı́sticas esenciales y simplificar ciertos análisis. Los datos
2.3 Distribuciones de frecuencias 25
que no están organizados se llaman datos no agrupados. Una manera de acomodarlos

es construir un arreglo ordenado, acomodando los datos de abajo hacia arriba o al
revés; si el número de datos es muy grande, el arreglo puede ser difı́cil de manejar
o de comprender; por eso a menudo se usan tablas como aproximación general a la
organización de datos no agrupados. Un ejemplo es el conjunto de las estaturas de
100 estudiantes hombres, obtenidas del registro universitario, que está ordenado en
forma alfabética.
Los métodos principales para organizar datos estadı́sticos comprenden el ordenamien-
to de elementos en subconjuntos que presenten cualidades semejantes (por ejemplo,
misma edad, misma finalidad, misma escuela, misma ciudad, etc.). Los datos agru-
pados se pueden resumir gráficamente, o en tablas, y mediante el uso de medidas
numéricas, como la media, amplitud, la desviación estándar, y otras más. El nom-
bre que reciben los datos ordenados en grupos o categorı́as es el de distribución de
frecuencia.
2.3. Distribuciones de frecuencias

Una distribución de frecuencia es un método estadı́stico de clasificación de datos en
clases o intervalos, de manera tal que se pueda establecer el número o porcentaje
(es decir, la frecuencia de los datos) de cada clase. Esto proporciona una forma de
observar un conjunto de números sin que se tenga que considerar cada número, y
puede ser extremadamente útil al manejar grandes cantidades de datos. El número o
porcentaje en una clase se denomina frecuencia de clase.
Definición 2.3.1. Una distribución de frecuencia es un agrupamiento de datos en

clases, que muestra el número o porcentaje de observaciones de cada una de ellas.
Una distribución de frecuencias se puede representar en forma tabular o gráfica.
Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-
pondientes al número de faltas a clases durante el periodo de otoño de 2010 para
estudiantes inscritos en la materia de Estadı́stica.
9 8 7 8 4 3 2 1 0 3 2
5 3 2 1 1 7 3 2 8 1 4
7 6 6 4 3 2 2 0 9 4 2
4 6 9 6 9 4 3 5 7
Solución:
Definición 2.3.2. Frecuencia absoluta (F ). Es el número de veces que un número

aparece en el conjunto inicial de datos. La frecuencia de un intervalo de clase es igual
a la suma de las frecuencias de los datos que aparecen en él.
Definición 2.3.3. Frecuencia acumulada (Fa ): La frecuencia acumulada de un

dato o de un intervalo es igual a la suma de su frecuencia mas la frecuencia de los
datos anteriores a él.
Definición 2.3.4. Frecuencia Relativa (Fr ). Indica los porcentajes de la totalidad

de los datos que corresponden a cada clase. Se obtiene dividiendo la frecuencia de cada
clase entre el número total de datos y se multiplica por 100, se expresa en porcentaje
y su formula es
F
Fr = × 100 (2.1)
N
donde Fr : frecuencia relativa, F : frecuencia absoluta y N : número total de datos.
2.3.1. Obtención de los intervalos y lı́mites de clases

Número del intervalo de clase: No hay formas definidas respecto al número de
clase que deben utilizarse en una distribución de frecuencia, si los intervalos de clase
son muy pocos se pierden detalles y si son muchos aparte de ser laborioso se mani-
fiestan irregularidades que no permiten apreciar con claridad un patrón de compor-
tamiento. En otro caso, la mayorı́a de los analistas recomiendan no menos de 5 ni
mas de 15 intervalos de clase.
Definición 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman
una distribución de frecuencia. Una aproximación razonable para calcular el número
de clases nos la da la regla de Sturges
n0 = 1 + 3.3 log N, (2.2)
donde n0 : número de clases o interválos y N : número total de datos.
Nota 2. n0 se redondea siempre al número inmediato superior (entero su-

perior mas cercano).
Ejemplo 2.3.2. Si N = 30, =⇒ n0 = 1 + 3.3 log 30 = 5.87 ∴ n0 = 6.
Ejemplo 2.3.3. Si n0 = 5.12 =⇒ n0 = 6.
Definición 2.3.6. Anchura o tamaño del intervalo de clase. Es la diferencia

entre los lı́mites reales de un intervalo de clase. Todas las clases deben tener la misma
amplitud, se simboliza con la letra C mayúscula y su formula es:
Vmax − Vmin
C= , (2.3)
n0
donde C : Amplitud del intervalo de clase, Vmax : Valor máximo, Vmin : Valor mı́nimo
y n0 : número de clases.
Nota 3. Siempre se redondea a C según las caracterı́sticas del problema.
Nota 4. Si con el ancho de intervalo de clase encontrado, no contienen a

todos los datos, hay que tomar el mı́nimo entero mayor que la C encon-
trada.
Ejemplo 2.3.4. Encuentra el tamaño de los intervalos de clase
Datos 3 5 4 3 8 5 4 1 ⇒ C = 1.75 ∴ C = 2.
Definición 2.3.7. Lı́mite normal de clase: Las clases o intervalos de clase están
limitados por sus valores extremos que se denominan lı́mite inferior y lı́mite superior.
Sus sı́mbolos son: L.N.I. y L.N.S.
Definición 2.3.8. Lı́mites reales de clase: Corresponde al punto medio entre el

lı́mite normal superior de una clase y el lı́mite normal inferior de la clase siguiente.
Se denotan por: L.R.I. y L.R.S.
Definición 2.3.9. Marca de Clase: Es el valor correspondiente al punto medio de

un intervalo de clase y su valor es igual a la mitad de la suma de los lı́mites normales
inferior y superior de un intervalo de clase. Denotamos la marca de clase como
LN I + LN S
x̂ = , (2.4)
2
donde x̂ : marca de clase y LN I y LN S : lı́mites normales.
Reglas generales para formar una distribución de frecuencia.
1. Seleccione el número de intervalos de clase, la cantidad de intervalos de clase

no debe de ser menor de 5 ni mayor de 15, entre mas datos se tengan, más
intervalos de clases deben considerarse. Si el número de intervalos es demasiado
pequeño pueden estarse ocultando caracterı́sticas importantes de los datos en
esta agrupación. Si se tienen demasiados intervalos de clase se pueden tener
muchos intervalos vacı́os que resten significado a la distribución.
2. Calcule la amplitud o tamaño del intervalo de clase C,
3. Forme los intervalos de clase iniciando por el lı́mite inferior del rango o por el
dato menor. El lı́mite inferior de la clase siguiente será el valor consecutivo al
máximo de la clase anterior y ası́ sucesivamente,
4. Fige los lı́mites reales de cada clase,
5. Determine la frecuencia de clase contando el número de observaciones que caen

dentro de cada intervalo de clase.
Ejemplo 2.3.5. En una universidad de E.U., se sacó una muestra aleatoria de 25

profesores suministrando información de los salarios anuales en millones de dólares.
Construya una distribución de frecuencia con la muestra siguiente:
12 21 14 22 12 14 18 11 11
20 19 9 26 17 11 12 24 9
21 17 22 13 19 15 11
Solución:
1.- Ordenar del número menor al número mayor para saber la frecuencia de cada
número,
=⇒ 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.
2.- Sacar el número y amplitud de clases
=⇒ n0 = 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 =⇒ el número de clases es n0 = 6.
Vmax − Vmin 26 − 9
Ahora C = = = 2.83, ası́ la amplitud del intervalo de clase es
n0 6
C = 3.
3.-
Clase LN I − LN S LRI − LRS F Fa Fr Fra X̂
1 9 − 11 8.5 − 11.5 6 6 24 % 24 % 10
2 12 − 14 11.5 − 14.5 6 12 24 % 48 % 13
3 15 − 17 14.5 − 17.5 3 15 12 % 60 % 16
4 18 − 20 17.5 − 20.5 4 19 16 % 76 % 19
5 21 − 23 20.5 − 23.5 4 23 16 % 92 % 22
6 24 − 26 23.5 − 26.5 2 25 8% 100 % 25
25
Tabla 2.1: Distribución de frecuencia de la muestra.
donde
F 6
Fr = × 100 =⇒ para la primera clase Fr = × 100 = 24 % y ası́ sucesivamente
N 25
para las demás.
Fa 6
Fra = × 100 =⇒ para la primera clase Fra = × 100 = 24 %, para la segunda
N 25
12
Fra = × 100 = 48 % y ası́ sucesivamente.
25
LN I + LN S 9 + 11
x̂ = =⇒ para la primera marca x̂ = = 10, para la segunda
2 2
12 + 14
x̂ = = 13 y ası́ en sucesivamente. Continuando con todos los cálculos se
2
obtiene la tabla 2.1.
1
F Los datos son de unidad ⇒ = 0.5 (lo que se resta y suma a los lı́mites normales
2
para obtener los lı́mites reales).
Ejemplo 2.3.6. Elabore una distribución de frecuencia para los siguientes datos toma-
dos de una encuesta de la edad de 70 personas.
32 20 20 24 24 18 18 18 25 26 28 40 20 28
41 37 37 37 26 26 26 27 27 32 44 20 22 35
32 32 29 40 40 44 44 18 18 45 35 26 28 26
34 34 30 30 30 28 28 28 35 28 45 32 35 26
42 42 30 22 30 24 30 22 24 20 26 28 22 32
Clase LN I − LN S LRI − LRS F Fa Fr Fra X̂

1 18−21 .5 − .5
2 22−25 .5 − .5
3 26−29 .5 − .5
4 30−33 .5 − .5
5 34−37 .5 − .5
6 38−41 .5 − .5
7 42−55 .5 − .5
8 56−59 .5 − .5
Tabla 2.2: Distribución de frecuencia de la muestra.
Solución:
45 − 18
n0 = 1 + 3.3 log 70 = 7.08 =⇒ n0 = 8. Ahora C = = 3.375 =⇒ C = 4.
8
(Completa la tabla 2.2.)
Ejercicios
Resuelve los siguientes:
1. Los datos siguientes representan el número de clientes que visitan una tienda en
un periodo de 22 dı́as. Construya la distribución de frecuencias para los datos
28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 39
2. Los siguientes datos representan las edades de los empleados de un supermer-

cado. Construye una distribución de frecuencia
20 21 25 28 24 22 38 54 28
23 26 32 20 30 28 42 59 32
25 25 25 26 19 23 46 40 37
21 23 25 36 21 27 46 26 36
24 25 24 24 21 22 29 26 37
22 18 27 30 25 26 30 35 52
29 19 23 21 19 21 35 60 44
3. Los datos siguientes representan los dı́as de Zafra en cada uno de los ingenios
azucareros de la republica mexicana. Construye una distribución de frecuencia.
151 177 146 150 177 208 166 136 101 152 141
142 142 139 148 149 171 152 137 136 170 141
136 156 163 138 138 155 149 172 161 180 141
116 158 170 147 146 182 150 157 155 122 172
124 177 147 168 136 173 124 153 112 192 178
164 204 135 144 178 160 140 156
4. En la siguiente lista aparecen las calificaciones de 50 alumnos que presentaron

un examen de matemáticas. Elabore una tabla de distribución de frecuencia.
57 60 33 85 52 65 77 84 65 74
68 71 81 35 50 35 64 74 47 62
45 80 41 61 100 55 73 59 53 37
76 41 78 55 48 65 85 67 100 60
88 94 69 98 65 73 42 65 92 88
5. El conjunto de datos siguiente representa los totales de efectivo (en dólares)

gastados en un cierto fin de semana por 25 estudiantes graduados. Construya
una tabla de frecuencias agrupadas
39.78 28.30 28.31 17.95 44.47

46.65 31.47 33.45 29.17 48.39
82.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25
2.4. Presentación gráfica de datos

Con frecuencia, el significado de los datos se puede comunicar mas efectivamente por
medio de gráficos que por medio de tablas. Existe una gran variedad de formas para
presentar los datos gráficamente. En la presente sección se describirán algunos tipos
de gráficos que serán utilizados en el presente curso.
Gráfico estadı́stico
Es la representación de datos estadı́sticos por medio de figuras geométricas (puntos,

lı́neas, rectángulos, etc.) cuyas dimensiones son proporcionales de valor numérico de
los datos. Su fin principal es permitir de un solo vistazo, la captación rápida del con-
junto de caracterı́sticas presentadas y evidenciar sus variaciones en intensidad.
2.4 Presentación gráfica de datos 33
Un gráfico es útil para dar una rápida idea de la situación general que se esta ana-
lizando, permite determinar por simple examen, el máximo y mı́nimo de las varia-
ciones de un fenómeno.
Gráficas circulares
Se llama también gráfica de pastel, es bastante útil para representar proporciones o

porcentajes. Para construir el diagrama se puede usar el compás y el transportador:
el primero para trazar el circulo y el segundo para medir los sectores correspondientes
al pastel. Dado que el circulo tiene 360o (equivalente al 100 %), se puede utilizar el
transportador para dividir el pastel con base en las “rebanadas”deseadas de porcenta-
je. Esta gráfica se construye generalmente cuando en la distribución de frecuencia las
clases no se representan de manera cuantitativa. Para representar una gráfica de sec-
tores circulares se lleva a cabo el siguiente procedimiento:
1.- Calcular Fr ,
2.- Calcular los porcentajes obtenidos de 360o para determinar los grados que debe
tener cada sector aplicando la formula
(Fra )(360)
100
3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.
Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a
partir del radio vertical superior del circulo.
Ejemplo 2.4.1. La tabla 2.3 muestra el área de los cinco Grandes Lagos bajo jurisdic-
ción de E.U. Grafique los datos:
Gran Lago Área (en millas cuadradas)

Michigan 22342
Superior 20557
Huron 8800
Erie 5033
Ontario 3446
Total 60178
Tabla 2.3: Áreas de los cinco Grandes Lagos bajo la jurisdicción de E.U.
Se hace corresponder el área total, 60178 millas cuadradas a los 360◦ del cı́rculo. Ası́,
360◦
una milla cuadrada corresponde a . Se deduce que el lago Superior, con 20557
60178 µ ¶
360◦
millas cuadradas ocupa un arco de 20557 = 123◦ y del mismo modo se
60178
deducen los arcos de los otros lagos. Las lı́neas divisorias se pueden trazar usando un
transportador.
Histograma
El histograma es una representación gráfica hecha en un plano cartesiano que consiste

en una serie de rectángulos que se caracterizan por que la variable aleatoria o el
fenómeno de interés se representa a lo largo del eje horizontal (estando referidos a las
marcas de clase como sus centros); el eje vertical representa el número, proporción o
porcentaje de observaciones por intervalos de clase, dependiendo de que el histograma
particular sea o no, un histograma de porcentaje (de frecuencia relativa).
Caracterı́sticas de un histograma:
1. Los posibles valores de la variable que se está considerando se disponen en el

eje horizontal. Las frecuencias con que ocurren los valores de la variable se
representan en el eje vertical.
2. Cada intervalo de clase de la distribución de frecuencia se representa por una

barra del histograma.
2.4 Presentación gráfica de datos 35
3. Las barras tienen la misma amplitud de los intervalos de clase correspondientes.
4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los
valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado
de datos, los intervalos de clase con frecuencias grandes, se representarán en el
histograma con barras altas y los intervalos de clases con frecuencias pequeñas
con barras cortas.
5. Las barras de dibujan adyacentes entre sı́. Esto tiene por objeto dar a entender
gráficamente la naturaleza continua de los datos que se están considerando.
6. Respecto del área total que aparece en el histograma, la proporción encerrada

por una barra determinada es igual a la proporción que la frecuencia del intervalo
de clase correspondiente tiene del número total de observaciones.
Ejemplo 2.4.2. x: Número de niños en edad escolar, y: Frecuencia.
Polı́gono de frecuencias
Aunque de menor uso, los polı́gonos de frecuencia son otro medio de representar
gráficamente las distribuciones de frecuencia simple como la frecuencia relativa. Para
construir un polı́gono de frecuencias marcamos éstas sobre el eje vertical y los valores
de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente
paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca
de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.
Se puede obtener uniendo los puntos medios de las partes superiores de los rectángulos
del histograma.
Ejemplo 2.4.3. x: Marca de clase, y: Frecuencia.
Ojivas
Representación gráfica de frecuencias acumuladas. La representación gráfica de

la información contenida en los cuadros de frecuencia acumulada son curvas llamadas
ojivas. Una ojiva es una curva equivalente a un polı́gono de frecuencia acumulada

suavizado. Para representar una ojiva se deben seguir los siguientes pasos:
1.- Localizar en el eje x los lı́mites reales superiores de clase,
2.- Localizar en el eje y las frecuencias acumuladas de cada clase,
3.- Unir por trazos continuos los puntos anteriores.
Ejemplo 2.4.4. x: LRS, y: Frecuencia acumulada.
2.5. Medidas de tendencia central

En una tabla de distribución de frecuencias hay una zona en donde los valores son
mas altos, es decir, hay valores de las variables que son mas frecuentes, en cambio,
existen zonas en donde los valores de las variables son menos frecuentes. Surge ası́, el
concepto de medida de tendencia central, también conocida como variable de centra-
lización, de posición o parámetros poblacionales que indican alrededor de que valor
se agrupa el mayor número de casos en estudio. Las medidas de tendencia central
son representativas de toda la población. Se les llama de tendencia central porque
en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto
de valores, por ello bien, se les puede considerar como sintetizadores. En general,
cualquier medida de tendencia central es un valor medio, ya que éste por definición
es todo valor que se haya entre dos extremos. Las medidas de tendencia central son
principalmente la media aritmética, la mediana y la moda.
2.5.1. Datos no agrupados

El análisis de datos suele realizarse de diversas maneras, dependiendo de si existe una
cantidad pequeña o grande de datos que se deba analizar. Cuando existen, digamos,
30 o menos puntos de datos, se utilizan los métodos que se presentan a continuación.
Para mayores cantidades de datos, son más practicas las computadoras o técnicas en
las que es necesario llevar a cabo, en primer lugar el agrupamiento de los datos antes
del análisis. Tales técnicas se explicarán con mas detalle mas adelante.
2.5 Medidas de tendencia central 37
Dos caracterı́sticas importantes de los datos que las medidas pueden poner de mani-
fiesto son: 1) el valor central o tı́pico del conjunto y 2) la dispersión de los números.
La media aritmética
Se define como la suma de un conjunto cantidades dividida entre el número total de

ellas. Esta medida es la más común dentro de las de tendencia central y corresponde
al centro de gravedad de los datos. Por ejemplo, cuando nos preguntamos sobre el
promedio que obtuvimos en un ciclo escolar, estamos hablando de media aritmética
o valor medio o simplemente media, se denota por x̄ y su formula es
PN
xi
x̄ = i=1 (2.5)
N
para datos no agrupados.
Ejemplo 2.5.1. Los diez puntajes siguientes representan el número de puntos anotados
en diez juegos de basquetbol por el jugador A: 6,10,3,7,6,6,8,5,9 y 10. La media es:
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10 70
= =7
10 10
El valor 7 representa, en algún sentido, el número central o medio de los puntos
anotados en diez juegos por el jugador A.
Ejemplo 2.5.2. Los totales anuales, en miles de millones de dólares, para las exporta-
ciones agrı́colas de México de 2000 a 2010 son:
21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7
Determine la media si los datos constituyen una población.

Nota 5. La media tiene una seria desventaja. Se ve afectada por los valores extremos
del final de una distribución. Como depende de cada medida, los valores extremos
pueden llevarla a representar defectuosamente los datos.
Ejemplo 2.5.3. Suponga que un corredor de maratón ha corrido en seis maratones
más grandes del paı́s, quedando en las posiciones siguientes (el orden es el de los
maratones):
3 5 4 6 2 85
En la última carrera, en la que él ocupó el 85◦ lugar, fue todo el tiempo tratando
de ganar la carrera. Corrió en primer lugar las primeras 22 millas, pero le dieron
calambres y tuvo que caminar parte de las últimas cuatro millas. Si la media se usa
para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como
terminó a lo más en sexto lugar en las cinco primeras carreras, no parece razonable
usar la media para medir su capacidad de correr. Quizá la mediana proporcione una
medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo
85.
La mediana
La mediana es el punto dentro del recorrido de una variable que supera a no mas
de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro
manera es un punto dentro de una distribución de datos que tiene la caracterı́stica
de dividirla en dos partes iguales. La identificaremos con el sı́mbolo Me .
Cuando se trata de datos no ordenados no es necesario utilizar formulas, únicamente
tenemos que ordenar los datos de menor a mayor, el concepto de término medio es
correcto si el número de datos ordenados es impar, si el número de datos es par la
mediana es la semisuma de los dos valores intermedios que satisfacen su definición.
Ejemplo 2.5.4. En cada uno de los siguientes la mediana está dada por el número
subrayado.
3 5 7 9 10
1 2 5 8 9 10
5+8
aquı́ Me = 2
= 6.5.
Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como
desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos
al final de la distribución. La desventaja del uso de la mediana reside en que no
es fácilmente determinable si el conjunto de datos es grande, puesto que las medidas
deben ordenarse primero, ponerse en orden numérico de menor a mayor o al contrario.
2.6 Medidas de dispersión 39
Para conjuntos grandes de datos que han sido organizados la mediana se encuentra
ası́:
N +1
a) Si N es impar, la mediana es la medida que está en el lugar ,
2
b) Si N es par, la mediana es el promedio de las medidas que estan en los lugares

N N
y + 1.
2 2
La moda
Es el dato que aparece mas veces en una distribución de frecuencia. Es fácil deter-
minarla por simple inspección, para una distribución de frecuencia es la marca de
clase que se presenta con mayor frecuencia. Cuando en una distribución de frecuencia
existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es
trimodal, con mas de tres es multimodal.
Ejemplo 2.5.5.
3 5 8 3 7 4 3 2
2.6. Medidas de dispersión
Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio
se le llama dispersión o variación de los datos. Una medida de tendencia central por
si sola, no describe ni resume adecuadamente una distribución de datos, es necesario
acompañarla de un indicador que de cuenta del grado de dispersión con que se dis-
tribuyen los datos de la variable. Una medida de dispersión dice cuanto se desvı́an los
datos respecto a las tendencias centrales. Las medidas de dispersión mas importantes
son: el rango, la desviación media, la varianza, la desviación estándar y los
porcentajes.
2.6.1. Datos no agrupados
Rango
Se trata de la mas simple de las medidas de dispersión, representa la distancia entre el

mayor y el menor de los datos de una distribución, por lo que puede ser interpretado
como la dispersión total de todos ellos. Se obtiene restando el dato menor del mayor,
consecuentemente, es calculable unicamente en variable cardinal.
Desviación media
Mide la desviación promedio de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviación. Se obtiene al restar la media de cada valor del
grupo, eliminando el signo (+ o −) de la desviación, hallando después el promedio.
Al calcular la desviación media es necesario considerar el hecho de que la suma de
las desviaciones positiva y negativa de la media siempre será (por definición) igual a
cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran
desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviación
absoluta media se calcula con la fórmula siguiente
P
| xi − x̄ |
D.M. = (2.6)
N
donde N es el número de observaciones del conjunto.
Varianza
Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,
elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias
al cuadrado y dividiendo este total por el número de valores menos 1. La varianza
muestral se puede calcular mediante la fórmula
P
2 (xi − x̄)2
S = (2.7)
N −1
Una fórmula alternativa para calcular la varianza muestral es

P
P 2 ( xi )2
xi −
2
S = N (2.8)
N −1
Tanto mayor sea la varianza de unos datos, más dispersos, heterogéneos o variables
son esos datos. Cuanto más pequeña sea una varianza de unos datos, más agrupados
u homogéneos son dichos datos.
Ejemplo 2.6.1. La tabla 2.4 muestra los costos por litro, en centavos de dólar, de la
gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza muestral.
Ciudad Costo por litro Ciudad Costo por litro
Amsterdam 57 Nairobi 57
Bruselas 53 Nueva York 40
Buenos Aires 38 Oslo 65
Hong Kong 57 Parı́s 58
Johannesburgo 48 Rı́o de Janeiro 42
Londres 56 Roma 76
Madrid 59 Singapur 59
Manila 46 Sidney 43
México 25 Tokio 79
Montreal 47
Tabla 2.4:
Solución:
Al usar la fórmula 2.8 se obtiene que S 2 = 167.32. Entonces, la varianza muestral de
los 19 precios de gasolina es 167.32 centavos cuadrados.
Observación 1. Para los datos de los precios por litro de la gasolina, el conocimiento
de que S 2 = 167.32 centavos cuadrados tiene muy poco significado por sı́ mismo,
si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces
las medidas están muy dispersas, mientras que si el valor es pequeño hay muy poca
variabilidad en las medidas.
Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en dólares, por libra, de
asado de cerdo y queso cheddar en 15 capitales del mundo.
Capital Cerdo asado Queso cheddar

Berna $6.61 $4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos Aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
México 1.08 2.29
Ottawa 1.99 3.98
Parı́s 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69
Tabla 2.5:
¿Para cuál alimento, el asado de cerdo o el queso cheddar, son menos variables y más
estables los precios?
Solución:
Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por galón diario
por cinco dı́as para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
a) Encuentre la media y el rango de millas por galón para cada coche.

b) ¿Cuál coche parece haber logrado un rendimiento más consistente si la consisten-

cia se determina examinando las varianzas? Explique.
Solución:
Desviación estándar
La desviación estándar es simplemente la raı́z cuadrada positiva de la varianza. Para

muchos fines es una medida de la variabilidad más útil que la varianza. Por un lado,
la desviación tı́pica se expresa en las mismas unidades que las observaciones originales
y la media, mientras que la varianza se expresa en unidades cuadradas. Las siguientes
fórmulas dan la desviación tı́pica de la muestra
v P
uP ( xi )2
u 2
t xi −
S= N (2.9)
N −1
Coeficiente de variación
Las medidas de dispersión son valores absolutos y no resultan adecuados cuando se

lleva a cabo una comparación entre dos distribuciones. Ası́, una desviación de unos
cuantos gramos al medir el peso de un caballo no es importante, pero es de mucha
importancia al medir la dosis de una medicina. Obtenemos una medida relativa de
dispersión cuando dividimos la desviación estándar entre la media aritmética, a ésta
se le llama coeficiente de variación.
Es la razón de la desviación estándar a la media de una distribución dada. El coefi-
ciente de variabilidad se acostumbra a expresarlo en porcentajes
S
C.V. = (2.10)
x̄
La principal ventaja del coeficiente de variación es que no tiene unidades de medida,
lo que hace más fácil su interpretación. En general, valores de C.V. menores a 0.1
indican una alta concentración, entre 0.1 y 0.5 una concentración media y valores
superiores a 0.5 una alta dispersión y una media poco o nada representativa.
S 0.6831
Ejemplo 2.6.4. En caso de que C.V. = = = 0.0595. El bajo valor del
x̄ 11.48
coeficiente de variación indica que los valores están muy concentrados y que la media
representa aceptablemente al conjunto de la distribución.
S 9.06
Ejemplo 2.6.5. En caso de que C.V. = = = 0.6. Lo que implica que la media
x̄ 15
no representa en modo alguno al conjunto de la distribución.
Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CP U
de 25 tareas, la varianza es 1.42, luego su desviación estandar es 1.19, y el coeficiente
1.19
de variación = 0.73. Por tanto, la desviación estándar es algo más del 70 % de
1.63
la media. Esto indica que los datos no están muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.
2.7. Medidas de tendencia central y de dispersión

para datos agrupados
Las medidas de resumen fundamentales en lo que a datos agrupados se refiere, son
las mismas que para los pequeños conjuntos de datos, principalmente la media, la
mediana y moda como medidas de tendencia central y la desviación estándar, varianza
y el rango como medidas de dispersión.
La media aritmética
Para datos agrupados se utiliza

N
X
x̂F
i=1
x̄ = (2.11)
N
donde F es la frecuencia, x̂ es la marca de la clase, N es el total de frecuencias y xi
son los datos.
Ejemplo 2.7.1. Los datos siguientes representan el número de discos vendidos cada
dı́a durante un periodo de 25 dı́as en una tienda de música localizada en un centro
2.7 Medidas de tendencia central y de dispersión para datos agrupados 45
comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia
agrupada
Número de discos vendidos Número de dı́as

15-25 4
26-36 7
37-47 3
48-58 6
59-69 5
Tabla 2.6:
Encuentre:
a) El número promedio de discos vendidos por dı́a, x̄.
b) El número promedio aproximado de discos vendidos por dı́a, x̄a .
Solución:
a) Con la ayuda de una calculadora, determinamos que la suma de las 25 medidas

P Σx 1060
es x = 1060. En consecuencia, la media muestral es: x̄ = = = 42.4.
N 25
Ası́, el número de discos vendidos por dı́a es 42.4.
b) Encontramos primero las marcas de clase x̂. Recuerde que las marcas de clase son
el punto medio de cada intervalo de clase. Cada marca de clase se multiplica
entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente
2.7:
Clase F x̂ x̂F
15-25 4 20 80
26-36 7 31 217
37-47 3 42 126
48-58 6 53 318
59-69 5 64 320
Tabla 2.7:
1061
Usando la fórmula (2.11), la media aproximada es x̄a = = 42.44.
25
Note que x̄a = 42.44 es sólo un valor aproximado para la media de las 25 medidas
muestrales originales; la aproximación se considera buena comparada con el valor
exacto x̄ = 42.40 obtenido en la parte a).
Mediana
Para datos agrupados la fórmula a usar es

Ã !
N
2
− Fa−1
Me = LRI + C (2.12)
Fm
donde LRI de la clase mediana, N total de datos, Fa−1 es la Fa anterior a la Fa de la
clase mediana, Fm es F de la clase mediana y C es el tamaño del intervalo de clase.
Ejemplo 2.7.2. La tabla 2.8 representa las velocidades, en millas por hora, para una
muestra de 37 coches que recorren una zona escolar donde se permite circular hasta
25 millas por hora. Encuentre la mediana aproximada de la velocidad.
Velocidad Número de coches: F Fa
1-5 3 3
6-10 2 5
11-15 5 10
16-20 10 20
21-25 7 27
26-30 10 37
2.7 Medidas de tendencia central y de dispersión para datos agrupados 47
Solución:
N 37
Como N = 37, queremos localizar el = = 18.5−ésimo valor. Al observar la
2 2
tabla 2.8 notamos que tal valor cae en la clase 16 − 20, porque las tres primeras clases
contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar
(18.5 − 10) = 8.5 valores en la clase 16 − 20, bajo la hipótesis de que los 10 valores
que caen en esta clase están distribuidos homogéneamente a lo largo de ella; en otras
8.5
palabras, estamos buscando la medida en la clase 16 − 20 localizada en los de la
10
clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de
8.5
la mediana Me sólo necesitamos sumar del ancho C = 5 a la frontera inferior de
10
la cuarta clase. Ası́ el valor aproximado de la mediana es:
µ ¶
8.5
Me = 15.5 + 5 = 15.5 + 4.25 = 19.75
10
Moda
La fórmula es µ ¶
∆1
Mo = LRI + C (2.13)
∆1 + ∆2
donde ∆1 exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia
antes de la frecuencia modal), ∆2 exceso de F después de la clase modal (Frecuencia
modal menos la frecuencia después de la frecuencia modal).
F La clase modal es el intervalo de clase que contiene al mayor número de observa-
ciones.
Desviación media
Se define como la desviación promedio de los valores absolutos de las desviaciones de

los datos de una variable con respecto a su media, su formula es la siguiente:
P
| x̂ − x̄ | F
D.M. = (2.14)
N −1
Tabla 2.8:
donde x̂ es la marca de la clase, x̄ es la media aritmética, F es la frecuencia y N es

el total de datos.
La varianza
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media, dividida entre el total de datos N − 1
P
2 | x̂ − x̄ |2 F
S = (2.15)
N −1
Desviación estándar
Es la desviación promedio de los datos de una distribución respecto a su media. La

desviación estándar es simplemente la raı́z cuadrada de la varianza.
rP
| x̂ − x̄ |2 F
S= (2.16)
N −1
Ejemplo 2.7.3. Calcule las medidas descriptivas a partir de los datos agrupados de la
siguiente tabla.
Intervalo de Clase Frecuencia

85 − 89 9
90 − 94 11
95 − 99 14
100 − 104 20
105 − 109 27
110 − 114 22
115 − 119 19
120 − 124 16
125 − 129 12
N = 150
2.8 Ejercicios 49
2.8. Ejercicios
1. Los datos anotados en seguida representan los totales, en dólares, gastados en
golosinas por una muestra de 25 estudiantes durante un periodo de exámenes.
57 28 63 38 29 89 77 72 39
47 64 84 88 42 36 72 69
68 41 52 39 72 45 52 84
Construya una tabla de frecuencia agrupada.
2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres
en las dos primeras semanas de un programa de ejercicios diarios:
1 2 12 3 15 5 12 11 3 4
3 5 0 7 17 6 17 13 2 5
5 7 1 11 3 9 9 8 18 9
10 9 4 12 1 8 8 7 11 9
15 11 8 4 5 11 3 14 12 10
Use el conjunto de datos para cubrir los siguientes:
Construya una tabla de frecuencia agrupada con 5 clases.

Trace una ojiva usando frecuencias relativas y la tabla construida en el
punto anterior.
Grafique un histograma de frecuencia con cinco barras usando la tabla ya
realizada.
Encuentre el ancho de la clase 10 − 20, donde los 10 y 20 son los lı́mites
de clase.
Si Vmax = 89.7 y Vmin = 32.1, n0 = 5 y la unidad de medida es 0.1,
determine el lı́mite superior de la primera clase.
3. Se proponen 3 calificaciones para los salarios por hora de un artesano. Critique

usted cada una de las clasificaciones dadas a continuación:
Clasificación I Clasificación II Clasificación III

$ 0-3.00 $ 0-3.50 $ 0-menos de 3.00
3.00-6.00 3.51-7.00 4.00-menos de 7.00
6.00-9.00 7.01-10.00 8.00-menos de 11.00
9.00-12.00 10.01-15.00 12.00-menos de 15.00
12.00-15.00 más de 15.00 más de 15.00
4. La tabla 2.9 muestra una distribución de frecuencias de los salarios semanales

de 65 empleados de la empresa P&R. De acuerdo con esta tabla, determine:
El lı́mite inferior de la sexta clase.
El lı́mite superior de la cuarta clase.
La marca de clase de la tercera clase.
Los lı́mites reales del quinto intervalo.
El tamaño del quinto intervalo de clase.
La frecuencia de la tercera clase.
La frecuencia relativa de la tercera clase.
El intervalo de clase con mayor frecuencia.
El porcentaje de empleados que ganan menos de $280.00 a la semana.
El porcentaje de empleados que reciben por semana más de $260.00, pero

menos de $300.00.
2.8 Ejercicios 51
Salarios Número de empleados

$ 250.00-259.99 8
260.00-269.99 10
270.00-279.99 16
280.00-289.99 14
290.00-299.99 10
300.00-309.99 5
310.00-319.99 2
Total 65
Tabla 2.9: Distribución de frecuencia de salarios semanales.
5. Como control de la ética publicitaria se requiere que el rendimiento, en mi-

llas por galón de gasolina, que los fabricantes de automóviles usan con fines
publicitarios, esté basado en un buen número de pruebas efectuadas en diver-
sas condiciones. Al tomar una muestra de n = 50 automóviles se registran las
siguientes observaciones en millas por galón:
27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6
34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4
35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3
28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9
30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1
Construya un histograma de frecuencias relativas usando 5 intervalos de

clase de la misma longitud.
Los fabricantes afirman que su automóvil está diseñado para rendir al

menos 30 millas por galón. ¿Qué porcentaje de autos en la muestra produce
este rendimiento?.
6. Las calificaciones finales en matemáticas de 80 estudiantes universitarios son las

siguientes:
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Encuentre:
La calificación más alta.
La calificación más baja.
El rango.
Las cinco calificaciones más altas.
Las cinco calificaciones más bajas.
La calificación del alumno que obtuvo el décimo lugar más alto.
El número de estudiantes con calificaciones de 75 o más.
El número de estudiantes con calificaciones menores que 85.
El porcentaje de estudiantes con calificaciones mayores que 65, pero menores

a 85.
7. La tabla 2.10 muestra la distribución de frecuencias del número semanal de mi-

nutos que pasan viendo la televisión 400 estudiantes de secundaria. Determine:
El lı́mite superior de la quinta clase.
El lı́mite inferior de la octava clase.
La marca de la séptima clase.

2.8 Ejercicios 53
Los lı́mites reales de la última clase.
El tamaño de los intervalos de clase.
La frecuencia de la cuarta clase.
La frecuencia relativa de la sexta clase.
El porcentaje de estudiantes cuyo tiempo semanal de ver la televisión no

excede de 600 minutos.
El porcentaje de estudiantes cuyo tiempo semanal de ver la televisión es

mayor o igual de 900 minutos.
El porcentaje de estudiantes cuyo tiempo de ver la televisión es mayor de

500 minutos, pero menor que 1000 minutos.
Construir un histograma de frecuencias correpondiente a la distribución de

la tabla 2.10.
Tiempo de ver TV (min.) Núm. de estudiantes

300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6
Tabla 2.10: Distribución de frecuencia.
8. Con la siguiente lista de números realiza la tabla de distribución de frecuencias,

calcula las medidas de tendencia central y las medidas de dispersión.
3.32 3.98 3.23 3.07 3.04 3.85 3.59

3.42 3.89 3.40 3.15 3.49 3.61 3.41
3.05 3.81 3.39 3.54 3.28 3.84 3.34
3.49 3.74 3.00 3.10 3.76 3.71 3.29

4.32 3.26 4.18 5.21 4.26 8.25

5.16 5.20 4.98 4.48 3.58 4.32
4.96 5.27 4.16 4.29 4.56 5.36
6.28 3.96 5.44 5.36 4.84 5.36
4.72 4.12 5.13 5.65 4.16 5.17

52 63 92 92 83 74 66
98 68 81 88 77 41 60
46 77 81 82 84 70 76
79 98 82 81 87 70 78
79 88 77 84 70 61 80
78 76 66 77 78 67
11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 3, 9, 12, 7, 16, 20, 33, 3
b) 5, 7, 22, 17, 5, 7, 20
c) 8, 6, 0, 17, 12, 7, 5
d) −4, 0, 13, 9, 4, 14, 20, 15

2.8 Ejercicios 55
12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 0, 0, 1, 1, 1, 0, 0, 0
b) 3, 3, 3, 2, 2, 2, 4, 5, 3
c) 0, 1, 1, 2, 2, 3, 3, 4, 4
d) −1, 0, 0, 0, −1, 2, −2, 3
13. Un instructor borra accidentalmente la calificación de uno de sus 6 estudiantes;

las 5 calificaciones restantes son 76, 85, 43, 89 y 65, y la media de las seis es 70.
Encuentre la calificación que se borró.
14. En un esfuerzo por reducir su consumo de café, un trabajador de oficina registra

los números siguientes de tazas de café consumidas durante un periodo de 20
dı́as:
4 5 3 6 7 1 2 3 0 5
6 5 8 4 0 2 3 7 5 6
¿Qué medida de tendencia central le servirá mejor a su propósito?¿Cuál es el
valor numérico?.
15. A continuación hay una colección de calificaciones del examen de Estadı́stica

de 25 estudiantes, en un examen de 50 preguntas
38 39 33 37 34 31 38 36 35 5
¿Cuál medida de tendencia central es más útil para describir el valor cen-
tral?¿Cuál es su valor numérico?.
16. En una investigación realizada por la secretaria de un médico para averiguar los
tiempos de espera en minutos de los pacientes que acuden con el doctor, una
muestra de pacientes de un dı́a arrojó los resultados:
35 25 35 50 25 55 30 50 35 35
5 5 60 35 30 30 25 55 30 20
60 25 25 40 80 20 20 5 5 10
a) Describa un tiempo tı́pico de espera usando la media.
b) Describa un tiempo tı́pico de espera usando la mediana.
c) ¿Cuál medida, media o mediana, considera usted que es más representativa

del conjunto de datos? Explique.
17. La tabla siguiente contiene los salarios en cientos de dólares de 25 trabajadores.
Salario anual Frecuencia

55 7
60 5
70 6
80 4
300 3
a) ¿Cuál es la moda?
b) ¿Cuál es la media?
c) ¿Cuál es la mediana?
18. Se escogió una muestra de 705 conductores de autobús y se registró en la tabla

siguiente el número de accidentes de tránsito que tuvieron durante 4 años.
Número de accidentes Frecuencia Número de accidentes Frecuencia

0 114 6 21
1 157 7 7
2 158 8 6
3 115 9 1
4 78 10 3
5 44 11 1
2.8 Ejercicios 57
a) ¿Cuál es la moda?
b) Señale la media, la mediana.
c) ¿Cuál es el rango?
19. La tabla siguiente da una muestra de los tiempos de recorrido, en minutos, de

un camino de 2.5 millas para dos coches, A y B.
A 1.0 0.9 1.0 0.8 0.9 1.0 0.9 1.0

B 1.3 1.3 1.0 0.9 1.1 0.9 1.4 1.3
a) Encuentre el promedio de los tiempos de recorrido para cada uno de los

coches, A y B.
b) Calcule la varianza de los tiempos de recorrido para A y B, respectivamente.
c) ¿Cuál coche tuvo un tiempo promedio menor de recorrido?
d) ¿Qué coche tuvo un desempeño más consistente, si la consistencia se mide

por la varianza?
20. La tabla adjunta indica los salarios anuales, en dólares, para una muestra de 25
trabajadores.
Salario anual Frecuencia

$5,500 7
6,000 5
7,000 6
8,000 4
30,000 3
Encuentre el rango, la media, la desviación estándar.

21. Una gran lecherı́a vigila continuamente el nivel de contenido graso en su produc-
to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo
aceptable una desviación estándar del 10 %; se obtuvo una muestra de 20 car-
tones de leche y se registró el porcentaje de grasa en cada uno. Los resultados
se anotan a continuación.
1.85 2.25 2.01 1.90 1.97

1.80 2.05 2.23 1.65 1.86
2.02 2.09 2.04 2.07 2.14
1.93 2.08 2.17 1.91 1.93
Calcule la media y la desviación estándar para la muestra de contenidos de grasa.

¿Hay evidencia de que el contenido de grasa es demasiado alto? Explique.
22. La tabla de frecuencias agrupadas exhibe las edades de una muestra de 36

personas asistentes a una pelı́cula para adultos.
Clase F
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9
Encuentre la media, mediana, moda, varianza y desviación estándar.
23. La tabla de frecuencia agrupada adjunta indica las edades de compradores de

coches nuevos en una gran distribuidora.
2.8 Ejercicios 59
Clase de edades F
28-32 20
33-37 23
38-42 71
43-47 45
48-52 26
Encuentre la edad media, mediana, moda, varianza y desviación estándar.

Autoevaluación
Nombre:
1. Define Estadı́stica.
2. ¿Cuál es la diferencia entre una población y una muestra?.
3. ¿Cuál es la diferencia entre las variables discretas y continuas?. De un ejemplo

de cada una.
4. ¿Qué es la estadı́stica y para que la estudiamos?
5. ¿Cuál es la diferencia entre una variable cualitativa y una cuantitativa?. De dos

ejemplos de cada una.
En los siguientes elige la respuesta correcta y subraya.
6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre
el comportamiento de estas variables.
a) La estadı́stica descriptiva b) La estadı́stica inferencial c) El muestreo
7. Es la representación estructurada, en forma de tabla, de toda la información

que se ha recogido sobre la variable que se estudia.
a) La distribución de frecuencia b) La muestra c) La estadı́stica descriptiva
8. Son las medidas que nos informan sobre los valores medios de la serie de datos.
a) Las MTC b) Las MD c) Las variables.
9. Son las medidas que estudian la distribución de los valores de la serie, analizando
si estos se encuentran más o menos concentrados, o más o menos dispersos.
a) Las MTC b) Las MD c) Las variables.
10. Es el valor medio ponderado de la serie de datos.

a) La media b) La mediana c) La moda
2.8 Ejercicios 61
11. Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra.

a) La media b) La mediana c) La moda
12. Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-
tiplicadas por el número de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tamaño de la muestra.
a) La varianza b) La desviación media c) La desviación estándar
13. Calcule la media, mediana y moda para cada uno de los siguientes:
a) 12 15 23 7 12 40 22 16
14. La tabla siguiente contiene los salarios en cientos de pesos, de 25 trabajadores.
Salario anual 55 60 70 80 300

Frecuencia 7 5 6 4 3
a)¿Cuál es la media?, b)¿Cuál es la moda?, c)¿Cuál es la mediana?, d)¿Que

medida de tendencia central usarı́a para determinar el valor central?. Explique.
15. Se inspeccionaron 15 radios antes de enviarlos para su venta. El número de

defectos por radio es: 1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1. Obtenga: x̄, Me y Mo
para el número de defectos.
16. La generación de energı́a resulta costosa para el gobierno federal. Con el fin de
ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas
destacan los mensages a la población para que economicen energı́a apagando
los focos que no estén utilizando o cambiando los focos convencionales por aho-
rradores. Entre las medidas adoptadas por los gobiernos está el uso del horario
de verano. Para contar con una idea más clara sobre el consumo de energı́a en
los hogares, se requiere de la información correspondiente. Para obtenerla, se
pidió a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su último
recibo de luz. En la facturación aparece el consumo en KW h. A continuación

se muestran los 40 consumos:
299 308 335 330 317 330 327 346 315 320 301 312 320 334
319 314 309 326 314 311 322 325 300 322 312 307 311
322 298 308 312 336 314 312 328 305 315 301 327 324
a) Hacer una tabla de distribución de frecuencias usando 8 clases.
b) Trazar un histograma de Fr , un polı́gono de frecuencias y de acuerdo a

estos dos últimos, diga en cuantos hogares se consumen menos de 310
KW h y a que porcentaje corresponde. Señale estos datos en las gráficas
correspondientes.
17. Considere la tabla de frecuencia agrupada siguiente:
Clases F
4.5-9.4 2
9.5-14.4 3
14.5-19.4 4
19.5-24.4 1
24.5-29.4 8
a) Encuentre la amplitud C de cada clase.
b) Las 5 marcas de clase.
c) Localice las fronteras reales para la primera clase.
d) ¿Que porcentaje hay de datos mayores que 19.45?.
e) ¿Y de los datos menores de 24.5?.
f ) ¿Que tanto por ciento cae en la clase 14.5 − 19.4?.

2.8 Ejercicios 63
18. Se realizó un experimento para determinar el efecto de un cierto

mg
fármaco en los niveles de colesterol en la sangre, en , en hom-
100 ml
bres de 30 años. Se obtuvieron las siguientes medidas:
245 185 230 225 265 210 235 145 195 215
245 165 195 170 205 225 190 220 210 195
160 240 285 175 260 225 120 185 140
a) Hacer una distribución de frecuencias con 10 clases
b) Trazar un histograma de Fr .
19. Los datos que a continuación se exhiben representan las razones de

costo beneficio para 25 distintos tipos de acciones de mercado de
valores.
20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3
19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9
a) Construya un histograma de frecuencias relativas para describir estos datos.
b) ¿Qué proporción de las acciones tienen tasas de costo-beneficio de 17.0 o

mayores?.
Capı́tulo 3
Muestreo
3.1. Introducción
En multitud de ámbitos de la vida real es evidente que la mejor forma de aprender
algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que
vemos para aprender pautas y conductas que luego generalizamos. En Estadı́stica
pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder
aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la
población. Sin embargo, como en la vida real, en Estadı́stica también debemos ser muy
cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Qué pasarı́a si
basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para
que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
población puedan verse representados. Por otra parte, es evidente que cuanto mayores
sean las muestras más fiables deberı́an ser nuestras inferencias.
Ahora bien, el principal objetivo de la estadı́stica es hacer inferencias acerca de una
población con base en la información contenida en una parte o muestra de ello. El ob-
jetivo principal de un diseño de muestreo es proporcionar indicaciones para la selección
de una muestra que sea representativa de la población bajo estudio, proporcionando
ası́ una cantidad especificada de información a un costo mı́nimo.
Los términos usados frecuentemente en inferencia son:
3.1 Introducción 65
1) Parámetros de una población: Un parámetro es una medida usada para describir

algunas caracterı́sticas de una población de estudio o variable especı́fica de una
población de estudio. Por ejemplo,
El ingreso promedio de las familias que habitan en Tabasco.
El porcentaje de mujeres que hay en una ciudad.
El número de familias con vehı́culos.
El porcentaje de personas diabéticas.
2) Estadı́sticos: Son las medidas usadas para describir algunas caracterı́sticas de la

muestra tal como la media, mediana o desviación estándar de una muestra.
3) Población de estudio: Es el conjunto universal de elementos que tienen en común

la variable de interés (parámetro) para el estudio. Dependiendo del parámetro
que se quiere investigar se determina la población de estudio. Si la población
de estudio es uniforme en las caracterı́sticas que serán medidas, entonces casi
cualquier muestra produce resultados aceptables.
Por ejemplo, una agencia para la protección del medio ambiente basa su diag-
nóstico de la calidad del agua de una ciudad en el análisis de algunos litros de
agua. Esto es posible debido a que se supone que una gota de agua contiene
aproximadamente la misma cantidad de impurezas que otra.
Las poblaciones de estudio se clasifican en homogénea y heterogénea.
PEHo: Los datos numéricos de los elementos de la población no estan muy

dispersos, es decir, los datos son parecidos.
PEHe: Es el conjunto universal de elementos cuyos datos con respecto a una

variable auxiliar numérica están muy dispersos. Por ejemplo:
La población de predios agrı́colas.

El ingreso económico de las familias de la ciudad.
66 Muestreo
El número de empleados de un centro de trabajo.
Hay dos formas de generar información estadı́stica
1) Censo: Es un inventario (o registro) de todos y cada uno de las unidades (elemen-

tos) que constituyen una población.
2) Muestreo: Es un método probabilı́stico que consiste en investigar una porción de

la población de estudio.
Se podrı́a pensar que la única forma de garantizar que un conjunto de datos represente
a la población es a través del censo pues se registra a cada elemento de la población.
Entonces ¿porqué llevar a cabo investigaciones muestrales en lugar de censos comple-
tos?.
3.2. Muestra y censo
3.2.1. Ventajas y desventajas del censo

Ventajas
Se obtiene información completa de todos los parámetros posibles que se deseen

conocer, es decir, los parámetros son ilimitados.
Muy útil cuando se tiene poblaciones pequeñas
Si existe mucha variabilidad entre los elementos de la población, puede ser

necesario considerar una muestra muy grande para obtener una que sea repre-
sentativa. Si la población no es mas grande que la muestra, entonces es mejor
un censo.
Si se requiere exactitud completa.
Ejemplo 3.2.1. Un gerente bancario no tomará una muestra al azar del dinero
en las cajas para saber de cuanto efectivo dispone el banco, sino que contarı́a
3.2 Muestra y censo 67
todo el dinero depositado en ellas. Esto no hace que no se cometan errores

y fallas aritméticas al sumar las cantidades, pero evita los problemas que se
presentarı́an si se tomara alguna caja como representativas de todas las demás.
Desventajas
Es muy costoso.
Los resultados finales se tienen a largo plazo. Por esta razón la información
estadı́stica ya no es oportuna para la toma de desiciones adecuada.
No se puede contar con un equipo de trabajo altamente capacitado porque en

él participan miles de personas.
No se puede conocer la dimensión del error que se comete en los registros de los
datos.
Es imposible hacer una supervisión a un alto porcentaje de las unidades o

elementos censados.
La población es infinita. En este caso es imposible efectuar un censo ya que

es un proceso que no termina y serı́a evidentemente imposible examinar cada
elemento de la población.
3.2.2. Ventajas y desventajas del muestreo

Ventajas
Resultados a corto plazo lo cual es oportuno para la toma de desiciones.
Ejemplo 3.2.2. En el tiempo que se necesita para examinar cada caja de un

cargamento de fresas frescas, la fruta se podrı́a deteriorar hasta el punto que no
pudiera venderse.
Ejemplo 3.2.3. Encuestar personas de una gran comunidad para descubrir el

porcentaje de individuos que contrajeron cierta enfermedad contagiosa puede
68 Muestreo
tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de
sanidad convenientes, el padecimiento puede haberse extendido en tal grado que
serı́a necesario tomar otras disposiciones. De hecho, los encuestadores pueden
ser un factor que contribuya a la propagación de la enfermedad. Ası́, el estudio
puede indicar que localmente se dispone de suficiente vacuna para hacer frente
a la enfermedad pero, para ese momento, ésta se encontrará fuera de control y
requerirá dosis masivas de la vacuna.
Investigación práctica y a bajo costo
Como el número de los participantes es pequeño se puede contar con un equipo

altamente capacitado.
Se puede controlar el error que se comete en el registro de datos.
Alto porcentaje de investigación.
Si el tamaño de la muestra es mas pequeño que la población, entonces se pueden

extraer dos muestras o mas.
Pueden intervenir ensayos destructivos.
Ejemplo 3.2.4. Cuando los datos se obtienen de la destrucción de los elementos

de la muestra, el muestreo es mas eficiente que un censo.
En control de calidad por ejemplo, la prueba de bombillas para flash es de tipo
destructivo. En este caso es indispensable el muestreo porque un censo destruirı́a
todos los elementos de la población y no habrı́a artı́culos para la venta.
Exactitud cuando la población es grande. El muestreo comprende menos obser-

vaciones, y por lo tanto, menos recopiladores de datos, lo que puede dar lugar
a mayor uniformidad en los métodos de recopilación.
Desventajas
Sólo se puede conocer un número limitado de parámetros.

3.2 Muestra y censo 69
En ocasiones no se cuenta con una población completa de los elementos de

estudio.
Si se requiere de exactitud completa no es muy útil.
Para que las conclusiones de la teorı́a del muestreo sean válidas es necesario que las
muestras sean representativas y que se satisfaga:
El tamaño de la muestra sea suficientemente grande.
La muestra debe ser seleccionada aleatoriamente. Es decir, cada miembro de la

población debe tener la misma posibilidad de ser elegido.
Una muestra aleatoria se selecciona de forma que toda combinación de n mediciones

de la población tenga la misma posibilidad de ser seleccionada.
Una técnica de obtención de una muestra aleatoria es la asignación de números a tro-
zos de papel, colocarlos en una urna y después sacar números de dicha urna teniendo
cuidado de mezclar bien antes de cada extracción.
Tipo de selección de los elementos de una muestra
1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria
un elemento, esta se regresa a la población. Se observa que un elemento en común
puede ser seleccionado mas de una vez para la muestra y es posible que un sólo
elemento contribuya a la muestra.
Ejemplo 3.2.5. Un número en una urna, existe la opción de reponer o no el

número en la urna antes de la segunda extracción. En esta caso el número
puede salir una y otra vez.
Población de estudio de tamaño N .
1ra 2da 3ra 4ta · · · (n − 1) n

1 1 1 1 1 1
···
N N N N N N
70 Muestreo
Entonces, la posibilidad de seleccionar aleatoriamente

µ n ¶nelementos con reem-
1 1
plazo de una población de estudio de tamaño N es = n.
N N
2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una población
de estudio consiste en que una vez que se mide un elemento esta ya no se regresa
al conjunto.
Ejemplo 3.2.6. En el caso de la urna, el número solo sale una vez.
1ra 2da 3ra 4ta ··· (n − 1)

1 1 1 1 1
···
N N −1 N −2 N −3 N − (n − 1)
Las poblaciones son finitas o infinitas. Si el muestreo es sin reemplazo entonces es

de población finita, pues el conjunto disminuye y la probabilidad de selección del
siguiente elemento aumenta. Si es con reemplazo teóricamente puede considerarse
como muestreo de población infinita ya que es posible extraer cualquier número de
muestras sin extinguir la población.
Ejemplos de población infinita son: la producción futura de una máquina, tiradas
de una moneda y dados no cargados. Ejemplos de procesos aleatorios son: llegadas
de autos a una caseta de cobro, llamadas telefónicas que se reciben en un enorme
conmutador, los clientes en las cajas de los supermercados.
Otra forma de seleccionar una muestra aleatoria es mediante una tabla de números
aleatorios.
3.3. Tabla de números aleatorios

En esta sección se describirá la forma de llevar a cabo una encuesta por muestreo con
base en una muestra aleatoria simple.
Definición 3.3.1. Al seleccionar una muestra de n mediciones de una población

finita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras
3.3 Tabla de números aleatorios 71
posibles de tamaño n tengan la misma probabilidad de ser seleccionadas, el muestreo

se llama aleatorio y el resultado es una muestra aleatoria simple.
En la práctica es muy difı́cil lograr un muestreo aleatorio perfecto. Si la población no

es muy grande, cada una de las N mediciones se puede anotar en un pedazo de papel
que se coloca en una urna. Posteriormente se extrae de la urna una muestra aleatoria
de n mediciones.
La mejor manera de estar seguros de efectuar un muestreo aleatorio es usar una
tabla de números aleatorios. Las tablas de números aleatorios contienen los 10 dı́gi-
tos 0, 1, 2, . . . , 7, 8, 9. Tales dı́gitos se pueden leer individualmente o en grupos y en
cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonal-
mente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por
dos cosas que las hacen particularmente útiles para el muestreo al azar. Una carac-
terı́stica es que los dı́gitos están ordenados de tal manera que la probabilidad de que
aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad
de que ocurra cualquier otro. La otra es que las combinaciones de dı́gitos tienen la
misma probabilidad de ocurrir que las otras combinaciones de un número igual de
dı́gitos.
En el siguiente ejemplo se ilustra el uso de una tabla de números aleatorios.
Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administración
adecuada de los flujos de efectivo para presupuestar y controlar en forma eficiente
sus recursos presentes y futuros. Cuando los flujos de efectivos son altos, la empresa
puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las
rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es
posible comprar al contado y es necesario pagar más por bienes y servicios.
Una de las mejores maneras de medir la situación de una compañı́a de ventas al
menudeo, en lo que se refiere a efectivo, es a través de las cuentas por cobrar a corto
plazo que tiene la empresa. Al analizar la situación de una tienda, una firma de con-
tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales
72 Muestreo
por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-
da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria
simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma
probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinará cuáles son las
cuentas que serán incluidas en la muestra de tamaño n = 15.
Solución:
Se puede pensar que las N = 1000 cuentas por cobrar están numeradas como sigue:
001, 002, . . . , 999, 000. Es decir, se tienen 1000 números de tres dı́gitos, donde 001
representa la primera cuenta, 999 la cuenta número 999 y 000 la cuenta número mil.
En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el
primer número de la quinta columna y se eliminan el últimos dı́gito de cada número
de cuatro, se verá que el primer número de tres dı́gitos que se obtiene es el 700, el
segundo 110, en tercero el 40, etc. Si un número aleatorio ocurre dos veces, se omite
la segunda ocurrencia y se selecciona otro número aleatorio para reemplazarlo. Al
tomar una muestra aleatoria que consista en los primeros 15 números de tres dı́gitos
no repetidos de la columna 5, se obtienen los siguientes números:
700 078 761

110 795 545
040 513 506
995 250 034
915 957 624
Si las cuentas por cobrar están numeradas, simplemente se escogen aquellas cuyos
números corresponden a los de la lista anterior y se forma la muestra de n = 15 de
las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no están numeradas, se
toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los números
obtenidos anteriormente.
En el ejemplo 3.3.1, el tamaño de la población N = 1000 hizo posible el asociar en

forma única cada elemento de la población con un número diferente de tres dı́gitos.
3.3 Tabla de números aleatorios 73
¿Qué se puede hacer si N = 964? Está claro que se pueden asociar los números de
tres dı́gitos 001, 002, . . . , 964 con los elementos de la población. Los números de tres
dı́gitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra
de n números de tres dı́gitos de la tabla de números al azar.
en ocasiones el experimentador usa su propio criterio para seleccionar una muestra
representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-
ma “aleatoria”. Ambos procedimientos están sujetos al sesgo del experimentador y
deben evitarse cuando se desea obtener una muestra aleatoria simple.
74 Muestreo
9869 8728 0368 4431 7002 5030 2227 0479 6343

6339 6518 5946 3213 1109 1313 3450 8522 0293
7643 4939 0996 4039 0400 4453 4430 3263 4107
3661 6244 3738 8889 9959 4514 1236 6241 2889
3802 6424 2819 2820 9158 1249 5365 9601 5421
7456 8278 4622 1342 0784 4285 1249 0238 8195
9015 9975 5045 7059 7958 9806 9754 5941 4796
9891 0292 2203 2661 5130 3766 4364 9713 2171
5943 4287 6682 0697 2509 6664 0303 1635 5072
0515 6671 9202 6750 9579 8805 9213 5242 9971
8222 6702 7366 2906 7615 8908 8480 0654 5960
5000 7560 0966 8264 5457 4426 4762 3986 0510
2590 8247 8506 5768 5069 2032 5654 7557 5502
0473 8236 0827 0574 0349 8170 1543 9000 7482
6937 2597 8681 2096 6247 1383 3437 2588 5284
5158 7530 5320 3511 7314 5708 2709 2387 6091
2310 0964 4722 7120 6271 5957 0280 4955 6849
1786 0971 5708 4059 9337 5967 3091 9742 1162
4308 6633 6767 9898 4654 8966 0897 8079 4353
6171 7594 6443 2396 4173 7014 8416 5544 6123
3868 6313 4085 4719 0566 7105 9903 7031 5643
9874 3122 7417 8464 7114 8828 8576 4743 9959
3173 8599 5281 6337 4298 8768 3089 8776 6610
7808 9715 0093 9837 0300 4042 5759 7071 5572
0131 2852 0015 2708 8486 0070 3609 9647 3977
4950 7115 2338 0984 0321 9763 8976 2102 7253
6071 5446 7233 4295 4168 0254 0279 1792 5917
Tabla 3.1: Tabla de números aleatorios.

3.4 Estimación basada en una muestra aleatoria simple 75
3.4. Estimación basada en una muestra aleatoria

simple
La selección de una muestra aleatoria simple, es el mas simple de los diseños de
encuestas, fue presentada en la sección 3.3. Una vez recolectadas las observaciones
muestrales, el siguiente objetivo consiste en la estimación de ciertos parámetros pobla-
cionales de interés. Frecuentemente se tiene interés es estimar la media poblacional µ
o el total poblacional τ (letra griega tau). Por ejemplo, la firma de contabilidad del
ejemplo 3.3.1 podrı́a estar interesada en el valor promedio de las cuentas por cobrar
y también en el valor total de las cuentas.
Las fórmulas de cálculo para estimar la media poblacional µ y el total poblacional τ ,
basados en un muestreo aleatorio simple, se presentan mas adelante. Es importante
aclarar que una estimación puntual, como µ̂ y τ̂ , no proporcionan información acerca
de la bondad de la estimación. Por lo tanto, se dan las fórmulas de la varianza con el
propósito de establecer cotas para el error de estimación de µ y τ .
Al usar muestreo aleatorio simple para estimar la media poblacional µ, se obtiene el
siguiente estimador:
Estimación de la media poblacional para un muestreo aleatorio simple
Estimador n
X yi
µ̂ = ȳ = (3.1)
i=1
n
Varianza estimada del estimador
µ 2¶µ ¶ n
X
2 s N −n (yi − ȳ)2
σ̂ȳ = con s2 = (3.2)
n N i=1
n−1
Cotas para el error de estimación

ȳ ± 2σ̂ȳ (3.3)
Nótese que la cantidad 2σ̂ȳ es una cota aproximada del error de estimación y sólo
implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se
76 Muestreo
desviarán de la media en menos de 2σ̂ȳ . En el presente capı́tulo se usará la cota de

dos desviaciones estándar para describir un intervalo de estimación para µ y τ al usar
cada uno de los diferentes diseños de muestreo.
Al usar muestreo aleatorio simple para estimar el total poblacional τ , se obtiene el
siguiente estimador:
Estimación del total poblacional para una muestra aleatoria simple
Estimador
τ̂ = N ȳ (3.4)
σ̂τ̂2 = N 2 σ̂ŷ2 (3.5)
Cota para el error de estimación

N ȳ ± 2σ̂τ̂ (3.6)
Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de
una muestra de tamaño n = 15 de la población de cuentas por cobrar del ejemplo
3.3.1
$14.50 $23.40 $42.00
30.20 15.50 13.30
17.80 27.50 23.70
10.00 6.90 18.40
8.50 19.50 12.10
Tabla 3.2: Saldos de cuentas para el ejemplo 3.5.1
a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y
establezca una cota para el error de estimación.
b) Estime el total τ de los saldos de todas las cuentas y establezca una cota para el
error de estimación.
Solución:
Para facilitar los cálculos es conveniente escribir los datos como se muestran en la
siguiente tabla 3.3
yi yi2
$14.50 210.25
30.20 912.04
17.80 316.84
10.00 100.00
8.50 72.25
23.40 547.56
15.50 240.25
27.50 756.25
6.90 47.61
19.50 380.25
42.00 1764.00
13.30 176.89
23.70 561.69
18.40 338.56
12.10 146.41
15
X 15
X
yi = 283.30 yi2 = 6570.85
i=1 i=1
Tabla 3.3: Saldos de cuentas para el ejemplo 3.5.1
a) La estimación del saldo promedio µ es
15
X
yi
i=1 283.30
ȳ = = = $18.89
15 15
78 Muestreo
Para encontrar una cota para el error de estimación de µ, es necesario calcular

Ã 15 !2
X
15 15
yi
X X i=1
2 2
(yi − ȳ) yi −
i=1 i=1
15
2
s = =
· 14 14
¸
1 (283.30)2 1
= 6570.85 − = [6570.85 − 5350.59] = 87.16
14 15 14
Por lo tanto, la varianza estimada de ȳ es
µ 2¶µ ¶ µ ¶µ ¶
2 s N −n 87.16 1000 − 15
σ̂ȳ = = = 5.72
n N 15 1000
Una estimación del saldo promedio µ, con una cota para el error de estimación,
es
ȳ ± 2σ̂ȳ = $18.89 ± $4.78
b) Una estimación del total de los saldos corresponde a
τ̂ = N ȳ = 1, 000($18.89) = $18, 890
Dado que la varianza estimada de τ̂ es σ̂τ̂2 = N 2 σ̂ȳ2 , una estimación del total de
los saldos de las N = 1000 cuentas, con una cota para el error de estimación,
corresponde a
√
τ̂ ± 2σ̂τ̂ = N ȳ ± 2N σ̂ȳ = $18, 890 ± 2(1, 000) 5.72
= $18, 890 ± $4, 783
En algunas investigaciones experimentales puede ser de interés estimar la propor-

ción de la población que posee determinada caracterı́stica. Un auditor podrı́a estar
interesado en la proporción de cuentas por cobrar atrasadas; un investigador de mer-
cados podrı́a estar interesado en la proporción del mercado que controla la empresa;
un ejecutivo corporativo puede estar interesado en la proporción de accionistas que
está a favor de una decisión particular.
Estimación de la proporción poblacional para una muestra aleatoria simple
Estimador
y
p̂ =
n
µ ¶µ ¶
2 p̂ q̂ N −n
σ̂p̂ = con q̂ = 1 − p̂
n−1 N
p̂ ± 2σ̂p̂
En este caso y es el número total de los elementos de la muestra que tienen determi-
nada caracterı́stica por la cual se tiene interés.
Ejemplo 3.4.2. Es común que las empresas manufactureras establezcan descuentos

durante periodos cortos de tiempo para convencer a sus clientes de que incrementen
y anticipen sus compras, mejorando ası́ la situación de la empresa en lo que se refiere
a efectivo. Siguiendo la polı́tica anterior un fabricante y distribuidor de alimentos
congelados pretende establecer un descuento del 20 % en el precio de sus productos
para aquellos compradores que dupliquen sus pedidos mensuales.
Dado que el almacenaje de los alimentos congelados es muy costoso, no se tiene
la seguridad de que los compradores estén interesados en la oferta de descuento.
Se tomó una muestra de n = 50 de los N = 430 clientes de la empresa y 15 de
los 50 clientes manifestaron que aceptarı́an la oferta de descuento y duplicarı́an sus
pedidos mensuales. Estime la proporción p de los N = 430 clientes de la compañı́a
que aceptaron la oferta, y determine una cota para el error de estimación.
Solución:
Una estimación de la proporción p de los clientes de la empresa que aceptaron la
oferta de descuento es
y 15
p̂ = = = 0.30
n 50
80 Muestreo
Para establecer cota para el error de estimación, es necesario calcular la varianza σ̂p̂2
µ ¶µ ¶ · ¸µ ¶
2 p̂ q̂ N −n (0.30)(0.70) 430 − 50
σ̂p̂ = =
n−1 N 49 430
µ ¶
0.21
= (0.88) = 0.003771
49
Una estimación de p, con una cota para el error de estimación, corresponde a
√
p̂ ± 2σ̂p̂ = 0.30 ± 2 0.003771 ≈ 0.30 ± 0.12
Es decir, se estima que la proporción de los clientes de la empresa que aceptarán la

oferta de descuento es 0.30, con una cota para el error de estimación de 0.12.
Ejercicios
1. En vista de la crisis energética y del número creciente de accidentes de carretera,

el Congreso de los Estados Unidos en 1974 aprobó una ley que establece un lı́mite
de velocidad de 55 mph en todas las carreteras del paı́s. Desde entonces, se han
producido gran cantidad de discusiones sobre la aceptación de esta medida por
parte del público. Para estudiar este problema, la policı́a de caminos del estado
de California decidió seleccionar aleatoriamente n = 25 vehı́culos que viajaban
en un determinado tramo de una carretera interestatal y medir sus velocidades.
Se encontró que la velocidad promedio de los 25 vehı́culos fue de 57.5 mph con
una desviación estándar de 9.4 mph. Estime la velocidad promedio µ de los
vehı́culos que viajan en esa carretera, y establezca una cota para el error de
estimación.
2. Una agencia gubernamental ha propuesto que se esteblezca una reglamentación

para permitir a las farmacias que hagan publicidad sobre los precios al menudeo
de las medicinas. Esta reglamentación permitirı́a la competencia de los medica-
mentos, permitiendo ası́ a los comunicadores obtener los mejores precios posi-
bles. Para establecer el grado de disparidad de los precios que diferentes far-
macias de determinada zona cobran por un medicamento de uso común, se
3.5 Muestreo aleatorio estratificado 81
seleccionó una muestra aleatoria de n = 20 farmacias de las N = 152 de la

zona. El precio de 100 tabletas del medicamento en las farmacias seleccionadas
aparece en la lista adjunta
$3.75 $4.10 $10.40 $7.50 $2.95

5.75 7.50 8.90 4.75 11.75
5.85 7.65 8.10 6.50 7.50
5.50 8.00 4.50 10.25 4.95
Estime el precio promedio µ que las 152 farmacias cobran por 100 tabletas del
medicamento, y establezca una cota para el error de estimación.
3. Suponga que una organización de trabajadores textiles está interesada en deter-

minar la proporción de los N = 352 trabajadores de una fábrica textil que están
satisfechos con las prestaciones que reciben en lo que se refiere a beneficios de
jubilación y seguro. Usando una tabla de números aleatorios, un representante
de la organización seleccionó n = 40 de los trabajadores y encontró que 23 de
ellos están satisfechos con las prestaciones de seguro y jubilación que la empresa
ofrece actualmente. Estime la proporción p de los empleados de la empresa tex-
til que están de acuerdo con las prestaciones que la empresa ofrece. Establezca
una cota para el error de estimación.
3.5. Muestreo aleatorio estratificado

Un segundo tipo de diseño de muestreo, que frecuentemente proporciona una cantidad
especificada de información a menor costo que el muestreo aleatorio simple, es el
llamado muestreo aleatorio estratificado. Este diseño se recomienda cuando la
población consiste en un conjunto de grupos heterogéneos (distintos).
Definición 3.5.1. Una muestra aleatoria estratificada es una muestra aleatoria

que se obtiene separando los elementos de la población en grupos disjuntos, llamados
estratos, y seleccionando una muestra aleatoria simple de cada estrato.
82 Muestreo
El muestreo aleatorio estratificado tiene tres ventajas importantes sobre el muestreo

aleatorio simple. Primera, frecuentemente el costo de recolección y el análisis de los
datos se reduce al estratificar en grupos cuyos elementos tienen caracterı́sticas simila-
res pero que difieren de un grupo a otro. Por ejemplo, en una encuesta de compradores
industriales es más costoso obtener información de aquellos que están en el extranjero
que de los nacionales. Se debe, por lo tanto, tomar muestras pequeñas de los estratos
con altos costos de muestreo para satisfacer el objetivo de minimizar el costo total de
muestreo.
La segunda ventaja está relacionada con la varianza del estimador de la media pobla-
cional. Usualmente esta varianza se reduce usando muestreo aleatorio estratificado,
debido a que la varianza dentro de los estratos es generalmente menor que la variabili-
dad de la población. Por ejemplo, el consumo de energı́a eléctrica es más variable en el
caso de los consumidores industriales que en el de los consumidores residenciales. Por
lo tanto, si se desea estimar el consumo promedio de los usuarios de energı́a eléctrica,
deben seleccionarse muestras mayores de los sectores industriales menos homogéneos
para obtener mejores estimadores de los parámetros poblacionales.
La tercera ventaja es que se obtienen estimadores separados para los parámetros de
cada estrato, sin necesidad de seleccionar otra muestra e incurrir en mayores gastos.
Por ejemplo, podrı́a ser de mayor utilidad el conocer el consumo promedio de energı́a
eléctrica de los usuarios industriales y de los usuarios residenciales de una ciudad,
que conocer únicamente el consumo promedio de todos los usuarios de esta ciudad.
El muestreo aleatorio estratificado permite analizar las diferencias entre estratos, de
manera que se pueden identificar más fácilmente aquellos grupos que requieren de
una mayor atención.
En esta sección se usará el procedimiento de afijación proporcional, que parti-
ciona el tamaño de la muestra en forma proporcional al tamaño de los estratos. La
principal ventaja del uso de la afijación proporcional es que se obtiene una muestra
“auto-ponderada ”, dado que la fracción de muestreo es la misma en cada estrato.
Cuando es necesario obtener muchos estimadores se producen ahorros en los costos de
muestreo. En los casos en los que el costo de muestreo y las varianzas difieren mucho
entre estratos, es preferible utilizar una afijación óptima que particione la muestra de
acuerdo con el costo, la variabilidad y el tamaño de los estratos.
El primer paso en la selección de una muestra aleatoria estratificada consiste en la
especificación clara y detallada de cada estrato, asociando a cada elemento de la
población con uno y sólo un estrato. En algunos casos esto no es tan sencillo. En una
encuesta de opinión, en la que la población se divide en urbana y rural, ¿cómo deben
clasificarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo
sobre el consumo de energı́a, ¿cómo debe clasificarse la residencia de un contador
cuya oficina está en su propia casa?. La resolución que se tome no afecta los resul-
tados siempre y cuando se tenga una polı́tica consistente al respecto. Por ejemplo,
podrı́a establecerse que las poblaciones de menos de 2500 habitantes se consideran
siempre como rurales, y las de más de 2500 como urbanas; las unidades comerciales-
residenciales pueden clasificarse según la actividad para la cual se ocupa una mayor
cantidad de espacio.
Una vez especificados los estratos, se puede usar el método de la sección 3.3 para
seleccionar una muestra aleatoria en cada estrato. El tamaño total de la muestra n
dependerá del presupuesto disponible para el muestreo y de la presición y exactitud
que se requieran del estimador. Usando afijación proporcional, el tamaño de muestra
n se particiona en un tamaño de muestra para cada uno de los L estratos de forma que
n = n1 + n2 + · · · + nL , con cada ni dado por la fórmula que aparece a continuación.
Afijación de la muestra para los estratos
µ ¶
Ni
ni = n i = 1, 2, . . . , L
N
donde Ni es el número de elementos del estrato i y
L
X
N= Ni
i=1
84 Muestreo
es el tamaño de la población.
De la información obtenida de los elementos muestrales, se puede calcular la media
estimada ȳi y la varianza s2i para las observaciones de cada estrato, usando las fórmulas
que aparecen a continación.
Estimación de la media y la varianza de cada estrato
ni
X
yij
j=1
ȳi =
ni
ni
X
(yij − ȳi )2
j=1
s2i = i = 1, 2, . . . , L
ni − 1
donde yij es la j-ésima observación del estrato i.
La varianza s2i es un estimador de la correspondiente varianza del estrato σi2 .
A continuación se define el estimador ȳest de la media poblacional µ, basado en un

muestreo aleatorio estratificado.
Estimación de la media poblacional para una muestra aleatoria estratifi-

cada
Estimador
L
1 X
ȳest = Ni ȳi
N i=1
L µ ¶µ 2¶
1 X 2 Ni − ni si
σ̂ȳ2est = 2 Ni
N i=1 Ni ni
ȳest ± 2σ̂ȳest
Ejemplo 3.5.1. En el periodo de 1973 a 1975 hubo una rápida disminución en el

número de nuevas construcciones de viviendas en los Estados Unidos. La causa prin-
cipal de esta disminución fue la escasez de fondos, en los bancos y otras instituciones
de ahorro, para préstamos hipotecarios. Para aumentar la disponibilidad de fondos
para préstamos hipotecarios, una gran compañı́a manufacturera instituyó polı́ticas
para convencer a sus empleados que inviertan regularmente parte de sus ingresos en
las instituciones locales de ahorro. Posteriormente, la compañı́a decidió llevar a cabo
un estudio de los hábitos de ahorro de sus empleados para juzgar la efectividad de la
campaña de ahorro de la empresa. Se desea estimar la cantidad promedio invertida
en ahorro por los empleados durante el último mes. Proponga un diseño de encuesta
para este problema.
Solución:
Los empleados de la empresa pueden clasificarse en tres grupos: oficinistas y obreros,
supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratifica-
da, con L = 3 estratos, parece ser el diseño mas apropiado en este caso. Se espera
que en cada uno de los estratos, los hábitos de consumo e inversión de los empleados
sean razonablemente homogéneos. En cada uno de los estratos se debe seleccionar
una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad
invertida en ahorros durante el último mes.
La compañı́a manufacturera emplea un total de 5000 personas, de las cuales 3500 son
oficinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-
tamento de investigación tiene suficiente tiempo y dinero para entrevistar únicamente
n = 50 empleados. Usando una afijación proporcional, se particiona la muestra como
sigue:
µ ¶ µ ¶
N1 3500
n1 = n = 50 = 35
N 5000
µ ¶ µ ¶ µ ¶ µ ¶
N2 1000 N3 500
n2 = n = 50 = 10 y n3 = n = 50 =5
N 5000 N 5000
El marco muestral está constituido por una lista alfabética de los empleados de ca-
da categorı́a, disponible en la oficina de nóminas. Empezando arbitrariamente en
86 Muestreo
la columna 4 de la tabla de números aleatorios 3.1, se seleccionan los primeros 35

números no repetidos de cuatro dı́gitos entre 0000 y 3499 para identificar los oficinis-
tas y obreros que serán incluidos en la muestra. Por lo tanto, el primer elemento de la
muestra debe ser el oficinista u obrero que ocupa el lugar 3213 en el orden alfabético,
el siguiente será el que ocupa el lugar 2820, etc. En forma similar, se usan números
de tres dı́gitos entre 000 y 999 para seleccionar la muestra de n2 = 10 capataces y
gerentes y números de tres dı́gitos entre 001 y 500 para seleccionar n3 = 5 ejecutivos.
Una vez seleccionados los elementos muestrales (empleados), se procede con la entre-
vista. De las respuestas de los empleados, se calcula la media ȳi y la varianza s2i de
las observaciones de cada estrato. Los valores obtenidos aparecen en la tabla 3.4
Estrato 1 Estrato 2 Estrato 3

n1 = 35 n2 = 10 n3 = 5
ȳ1 = $10.16 ȳ2 = $25.50 ȳ3 = $21.80
s21 = 16.81 s22 = 22.09 s23 = 125.44
N1 = 3500 N2 = 1000 N3 = 500
Tabla 3.4:
A partir de los datos de la tabla 3.4 se estima la inversión promedio en ahorros ȳest
como
L
1 X 1
ȳest = Ni ȳi = [(3500)(10.16) + (1000)(25.50) + (500)(21.80)]
N i=1 5000
1
= (71, 960) = $14.39
5000
Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros
es $14.39.
La varianza estimada es
3 µ ¶µ 2¶
2 1 X 2 Ni − n i si
σ̂ȳest = 2 Ni
N i=1 Ni ni
· ¸
1 (3500)2 (0.99)(16.81) (1000)2 (0.99)(22.09) (500)2 (0.99)(125.44)
= + +
(5000)2 35 10 5
= 0.5688
La estimación de los ahorros promedio, con una cota para el error de estimación,
está dada por
√
ȳest ± 2σ̂ȳest = $14.39 ± 2 0.5688 = $14.39 ± 2(0.75) = $14.39 ± $1.50
Si el objetivo de la encuesta es usar el muestreo aleatorio estratificado para estimar

el total poblacional τ , entonces el estimador es el siguiente.
Estimador del total poblacional para una muestra aleatoria estratificada
Estimador
τ̂ = N ȳest
σ̂τ̂2 = N 2 σ̂ȳ2est
τ̂ ± 2σ̂τ̂
Ejemplo 3.5.2. En el ejercicio 3.5.1, estime el total invertido en ahorros, el último

mes, por los empleados de la compañı́a manufacturera. Establezca una cota para el
Solución:
De los cálculos anteriores ȳest = $14.39. Por lo tanto, un estimador del total de ahorros
es
τ̂ = N ȳest = (5000)($14.39) = $71, 950

88 Muestreo
Para encontrar cotas para el error de estimación de τ , se debe calcular la varianza

estimada σ̂τ̂2
σ̂τ̂2 = N 2 σ̂ȳ2est = (5000)2 (0.5688) = 14, 220, 000
La estimación del total de ahorros, con una cota para el error de estimación, está dada
por
p
τ̂ ± 2σ̂τ̂ = $71, 950 ± 2 14, 220, 000 = $71, 950 ± 2(3, 771)
= $71, 950 ± $7, 542
Po lo tanto, hay una certeza del 95 % de que la inversión total en ahorros de los
empleados está contenida en el intervalo de $64, 410 a $79, 490.
Supóngase que la empresa manufacturera esta interesada en estimar la proporción
de empleados que invirtieron parte de los ingresos del último mes en una cuenta de
ahorros. Usando los mismos estratos definidos anteriormente, el investigador puede
seleccionar una muestra aleatoria de cada estrato y encontrar la proporción p̂i de
empleados en el estrato i que invirtieron parte de sus ingresos del último mes en
cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse
para producir un estimador de la proporción poblacional.
Estimación de la proporción poblacional para una muestra aleatoria es-

tratificada
Estimador
L
1 X
p̂est = Ni p̂i
N i=1
L µ ¶µ ¶
2 1 X 2 Ni − n i p̂i q̂i
σ̂p̂est = 2 N con q̂i = 1 − p̂i
N i=1 i Ni ni − 1
p̂est ± 2σ̂p̂est
Ejemplo 3.5.3. De los n = 50 empleados entrevistados en el estudio sobre inversión

en ahorros, el número de los que indicaron que habı́an participado aparecen en la
siguiente tabla. Estime la proporción de empleados que participaron en el programa
de ahorro, y establezca una cota para el error de estimación.
Estrato Tamaño de muestra Número de participantes p̂i

21
1 n1 = 35 21 35
= 0.60
7
2 n2 = 10 7 10
= 0.70
4
3 n3 = 5 4 5
= 0.80
Solución:
La estimación deseada está dada por p̂est , de donde
1
p̂est = [(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64
5000
Para obtener la cota para el error de estimación, es necesario calcular la varianza
estimada
· µ ¶µ ¶¸
1 3500 − 35 (0.6)(0.4)
σ̂p̂2est = (3500) 2
(5000)2 3500 34
· µ ¶µ ¶¸
1 2 1000 − 10 (0.7)(0.3)
+ (1000)
(1000)2 1000 9
· µ ¶µ ¶¸
1 2 500 − 5 (0.8)(0.2)
+ (500) = 0.004744
(500)2 500 4
La estimación de la proporción de empleados que participaron en el programa de
ahorros de la compañı́a manufacturera, con una cota para el error de estimación,
está dada por
√
p̂est ± 2σ̂p̂est = 0.64 ± 2 0.004744 = 0.64 ± 2(0.069) = 0.64 ± 0.14
Ejercicios
1. Las compañı́as manufactureras gastan enormes cantidades de dinero en el de-

sarrollo, promoción y mercadotecnia de nuevos productos. Sin embargo, la tasa
de éxitos de los nuevos productos es mı́nima. La experiencia indica que menos
90 Muestreo
de uno de cada diez nuevos productos satisface los criterios de éxito de las em-
presas. Uno de los procedimientos mas útiles para medir la aceptación de un
nuevo producto consiste en su introducción al mercado en una zona de ventas
representativa. Como un ejemplo, se considera el caso de una compañı́a fabri-
cante de implementos agrı́colas que está interesada en introducir al mercado
un nuevo equipo para riego en tres zonas agrı́colas diferentes. Para probar la
aceptación de los equipos de riego, se seleccionó una muestra de 30 tiendas dis-
tribuidoras, localizadas en las tres zonas agrı́colas y se observó el número de
equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-
cionadas usando un muestreo aleatorio estratificado con afijación proporcional.
Los resultados aparecen en la siguiente tabla:
Zona 1 Zona 2 Zona 3

ni 9 6 15
ȳi 26 23 39
s2i 31.2 19.3 38.5
a) Estime el número promedio µ de ventas para las 250 tiendas de las tres zonas
agrı́colas, y establezca una cota para el error de estimación.
b) Estime el total de ventas que habrı́a en las tres zonas agrı́colas, si el nuevo
equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el
2. La insatisfacción de los empleados en su trabajo puede causar un aumento de

costos a la empresa, debido a la baja calidad de la mano de obra y el aumento en
el ausentismo. En un estudio sobre el ausentismo, un gerente de personal estaba
interesado en determinar el número de dı́as laborales perdidos por ausencias de
los trabajadores de la empresa. Por razones de tipo administrativo, se usó un
muestreo aleatorio estratificado con afijación proporcional para seleccionar una
muestra de n = 27 de los 2700 trabajadores de la empresa. Los estratos estaban
representados por obreros, técnicos, y administradores empleados en la empresa.
Los datos obtenidos del muestreo de 15 obreros, 10 técnicos y 2 administradores

aparecen en la siguiente tabla:
Obreros Técnicos Administradores

8 24 0 4 5 1
0 16 32 0 24 8
6 0 16 8 12
7 4 4 3 2
9 5 8 1 8
a) Estime el número promedio µ de dı́as perdidos por ausencias de los 2700

empleados de la empresa. Establezca una cota para el error de estimación.
b) Estime el número total de dı́as perdidos por los empleados de la empresa.

Establezca una cota para el error de estimación.
3. Generalmente, las cadenas de bancos procesan sus cuentas en una oficina cen-
tral regional, en lugar de hacerlo independientemente en cada sucursal. De
esta manera se logra un control más eficiente de las actividades administra-
tivas de las sucursales. El gerente de crédito de una cadena está interesado
en conocer el volumen de cuentas atrasadas que tiene la organización. Para
reducir el costo de muestreo, se usó un muestreo estratificado en el que los es-
tratos están constituidos por cada uno de los cuatro bancos. De los registros
que hay en su oficina, el gerente de crédito decidió usar afijación proporcional
para seleccionar la muestra aleatoria estratificada de n = 50 cuentas de un
total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:
Bancos
1 2 3 4
Número total de cuentas por cobrar N1 = 56 N2 = 68 N3 = 40 N4 = 36
Tamaño de muestra n1 = 14 n2 = 17 n3 = 10 n4 = 9
Número de cuestas atrasadas y1 = 5 y2 = 7 y3 = 5 y4 = 1
92 Muestreo
a) Estime la proporción p de cuentas atrasadas y establezca una cota para el

b) ¿Hay alguna razón para pensar que el gerente del banco 3 es demasiado
descuidado al autorizar préstamos a sus clientes?. Estime la proporción p3
de cuentas atrasadas del banco 3 y establezca una cota para el error de
estimación.
3.6. Muestreo por conglomerados

Frecuentemente es más fácil obtener muestras de conglomerados de elementos que
muestras de los elementos mismos.
Definición 3.6.1. Una muestra por conglomerados se obtiene seleccionando

aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados con-
glomerados, de la población y posteriormente llevando a cabo un censo completo en
cada uno de los conglomerados.
El muestreo por conglomerados proporciona una cantidad especificada de información

a un costo mı́nimo cuando:
1. No existe una lista de todos los elementos de la población o serı́a muy costoso
obtenerla, o
2. la población es grande y está dispersa en una región muy extensa.
Como ilustración, supóngase que un economista desea estimar la cantidad promedio

empleada en comida por vivienda en una ciudad. Para usar muestreo aleatorio simple
o muestreo aleatorio estratificado, el economista debe tener una lista de todas las
viviendas para poder seleccionar la muestra. Sin embargo, obtener una lista de todas
las viviendas de una ciudad puede ser muy costoso y en algunos casos imposible. Aun
en el caso de tener la lista completa, los costos pueden ser sumamente altos porque,
al usar muestreo aleatorio simple o estratificado, las viviendas escogidas pueden estar
3.6 Muestreo por conglomerados 93
muy alejadas unas de otras. Como resultado de lo anterior, el costo de la encuesta

aumenta debido al tiempo de traslado de los entrevistadores y a otros gastos.
En lugar de seleccionar una muestra distribuida en toda la ciudad, el economista
podrı́a usar el muestreo por conglomerados dividiendo la ciudad en conglomerados y
obteniendo después una muestra aleatoria de estos. Esto debe poder efectuarse más
fácilmente pues es posible que exista una lista de los diferentes conglomerados. Debe
encuestarse cada una de las viviendas que estén en cada uno de los conglomerados es-
cogidos. El costo total de la encuesta disminuye dado que se ha eliminado la necesidad
de elaborar una lista de todas las viviendas y, dado que las viviendas que pertenecen
a un conglomerado pueden estar geográficamente cercanas, se reducen los gastos de
los entrevistadores.
El uso del muestreo por conglomerados produce normalmente una disminución de
los costos, pero algunas veces es necesario pagar un precio. En ocasiones el error de
muestreo aumenta debido a que los elementos de un conglomerado tienden a tener
caracterı́sticas comúnes. Por ejemplo, en encuestas de poblaciones humanas, los con-
glomerados son frecuentemente vecindarios, que son semejantes en lo que se refiere a
edad, ingreso, antecedentes étnicos y clase ocupacional. Por lo tanto, al seleccionar
aleatoriamente los conglomerados para la encuesta, se corre el riesgo de que algunas
clases socioeconómicas no estén representadas si no se incluyen sus vecindarios. Por
otra parte, otras clases pueden estar representadas en exceso.
Se puede reducir el error de muestreo seleccionando un mayor número de conglome-
rados pequeños en lugar de unos cuantos conglomerados grandes. Entre más pequeño
es el tamaño de los conglomerados, menor es el riesgo de excluir ciertas clases de
elementos de la muestra. Por lo tanto, seleccionando un mayor número de conglome-
rados de menor tamaño se obtiene mayor información acerca de la población.
Una vez especificados los conglomerados, es necesario contar con una lista de todos
ellos. Para seleccionar una muestra aleatoria de m conglomerados de los M de la
población, se usa el muestreo aleatorio simple.
Al usar muestreo por conglomerados, la media poblacional µ se estima utilizando las
94 Muestreo
fórmulas que a continuación se describirán.
Estimación de la media poblacional en un muestreo por conglomerados
Estimador
m
X
ti
i=1
µ̂ = ȳc = m
X
ni
i=1
donde ni es el número de elementos del i-ésimo conglomerado y ti es el total de las

mediciones del conglomerado i.
m 
X
2
µ ¶ (ti − ȳc ni ) 
2 M −m   i=1


σ̂ȳc =
M mn̄2 
 m−1 

donde
m m
1 X 1 X
n̄ = ni y t̄ = ti
m i=1 m i=1
ȳc ± 2σ̂ȳc
M es el número de conglomerados en la población y m es el número de conglomerados

en la muestra.
Estimación del total poblacional en un muestreo por conglomerados
Estimador
m
MX
τ̂ = ti
m i=1
m  
X
2
µ ¶ (ti − t̄) 
M − m  
σ̂τ̂2 = M 2  i=1 
Mm  
 m−1 
τ̂ ± 2σ̂τ̂
Como se dijo anteriormente, ni es el número de elementos de i-ésimo conglomerado,

mientras que ti es el total de las mediciones que estan en el conglomerado i. Por lo
tanto
ni
X
ti = yij
j=1
donde yij es la j-ésima observación del conglomerado i. Los términos n̄ y t̄ representan,

respectivamente, el tamaño promedio y el total promedio de los conglomerados.
Ejemplo 3.6.1. El objetivo de la publicidad es aumentar las ventas o crear interés en

los productos de determinada compañı́a. Por lo tanto, en publicidad es esencial que los
anuncios aparezcan en los medios adecuados para que lleguen al público consumidor.
Un agente de publicidad de una empresa que vende artı́culos para el hogar, desea
estimar la cantidad mensual que gastan en revistas y periódicos las amas de casa de
una ciudad, para determinar si éstas son suficientes para garantizar el uso de estos
medios en la publicidad. Dado que no existe una lista de amas de casa, y para controlar
los costos directos de las entrevistas, se usará el muestreo por conglomerados. De los
50 distritos electorales se selecciona una muestra aleatoria de 10. Los entrevistadores
encuestan a cada una de las amas de casa de los 10 distritos, y se registraran la
cantidad total que gastaron en revistas y perı́odicos durante el último mes.
96 Muestreo
Distrito Núm. de amas Gastos tot. Distrito Núm. de amas Gastos tot.
i de casa ni ti i de casa ni ti
1 62 $380 6 69 $403
2 55 517 7 58 555
3 49 480 8 74 486
4 71 613 9 57 450
5 70 540 10 54 395
10
X 10
X
Sumas ni = 630 ti = $4819
i=1 i=1
a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y
periódicos, y establezca una cota para el error de estimación.
b) Estime la cantidad total mensual que las amas de casa gastan en revistas y perió-
dicos, y establezca una cota para el error de estimación.
Solución:
a) La media poblacional µ se estima por

10
X
ti
i=1 $4819
ȳc = = = $7.65
10
X 630
ni
i=1
Para calcular σ̂ȳ2c se evalúa primero el término correspondiente a la suma de

cuadrados
m
X
(ti − ȳc ni )2
i=1
Se puede probar que

m
X m
X m
X m
X
2 2 2
(ti − ȳc ni ) = ti − 2ȳc ti ni + ȳc n2i
i=1 i=1 i=1 i=1
Tomando cada término por separado, se tiene

10
X
t2i = (380)2 + (517)2 + · · · + (395)2 = 2, 374, 613
i=1
10
X
ti ni = (380)(62) + (517)(55) + · · · + (395)(65) = 304, 124
i=1
X10
n2i = (62)2 + (55)2 + · · · + (65)2 = 40, 286
i=1
Sustituyendo estos valores en la ecuación de la suma de cuadrados, se tiene que

m
X
(ti − ȳc ni )2 = 2, 374, 613 − 2(7.65)(304, 124) + (7.65)2 (40, 286) = 79, 153.235
i=1
El tamaño promedio del conglomerado es

m
1 X 1
n̄ = ni = (630) = 63
m i=1 10
Dado que el número total de conglomerados en la población es M = 50,

 m 
X
2
µ ¶ (ti − ȳc ni ) 
2 M −m   i=1


σ̂ȳc =
M mn̄2 
 m−1 

µ ¶µ ¶
50 − 10 79, 153.235
= = 0.1773
(50)(10)(63)2 9
Por lo tanto, una estimación de µ, con una cota para el error de estimación es
√
ȳc ± σ̂ȳc = $7.65 ± 2 0.1773 = $7.65 ± $0.84
b) Una estimación de los gastos totales mensuales en revistas y periódicos es

m
MX 50
τ̂ = ti = ($4, 819) = $24, 095
m i=1 10
98 Muestreo
que no depende del tamaño de la población N .

Para establecer una cota superior para el error de estimación, es necesario cal-
cular la expresión
m m
Ã m !2
X X 1 X
2
(ti − t̄) = t2i − ti
i=1 i=1
m i=1
1
= 2, 374, 613 − (4, 819)2 = 52, 336.90
10
La varianza estimada es
m  
X
2
µ ¶ (ti − t̄) 
M − m  
σ̂τ̂2 =M 2  i=1 
Mm  m − 1 
 
µ ¶µ ¶
2 50 − 10 52, 336.90
=(50) = 1, 163, 042.222
(50)(10) 9
La estimación de los gastos totales en revistas y periódicos de las amas de casa,
de la ciudad, con una cota para el error de estimación es
p
τ̂ ± 2σ̂τ̂ = $24, 095 ± 2 1, 163, 042.222
= $24, 095 ± $2, 157
Frecuentemente, un experimentador desea usar el muestreo por conglomerados para

estimar una proporción poblacional p. Por ejemplo, en una encuesta pre-electoral
puede ser deseable estimar la proporción de habitantes de una comunidad que estan
a favor de determinadas medidas; o podrı́a ser importante estimar la proporción de
automóviles en una ciudad que satisfacen los requisitos en lo referente al control de
contaminación, o la proporción de miembros de una organización laboral que están de
acuerdo con un nuevo ajuste salarial. Para estimar p cuando se usa el muestreo por
conglomerados, es necesario encontrar ai , el número de elementos de conglomerado i
que tienen la caracterı́stica de interés, para cada conglomerado i = 1, 2, . . . , m. Las
siguientes fórmulas proporcionan un estimador de la proporción de la población que
tiene la caracterı́stica de interés ai .
Estimación de la proporción poblacional en un muestreo por conglomera-

dos
Estimador
m
X
ai
i=1
p̂c = m
X
ni
i=1


m 
X
2
µ ¶ (ai − p̂c ni ) 
M − m  
σ̂p̂2c =  i=1 
M mn̄2  m − 1 
 
p̂c ± 2σ̂p̂c
Ejercicios
1. El inspector de una cadena de ferreterias desea estimar la proporción de bom-

billas defectuosas enviadas a su almacén por determinado fabricante. Las bom-
billas se envı́an en paquetes de 12 cajas, cada una delas cuales contiene 6 bom-
billas. Suponga que el inspector opta por usar las cajas de bombillas como
conglomerados y selecciona aleatoriamente m = 20 cajas de entre los 100 pa-
quetes recibidos en un envı́o. Los números de bombillas defectuosas encontradas
en cada una de las 20 cajas son los siguientes:
0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1
Estime la proporción p de bombillas defectuosas en el envı́o, y establezca una

cota para el error de estimación.
100 Muestreo
2. En un artı́culo que apareció recientemente en la prensa se afirma que la tasa de

incremento de las contribuciones para obras de beneficiencia es mucho menor
que la tasa de inflación, durante los periódos de recesión. Un director regional de
la Sociedad Contra el Cáncer está interesado en estimar la contribución prome-
dio por familia y la contribución total de todas las familias de su ciudad. Un
grupo de voluntarios seleccionó una muestra de 12 de los 47 distritos electorales
de la ciudad y obtuvo los datos que aparecen en la tabla.
Distrito ] de viviendas Donacion total Distrito ] de viviendas Donacion total

1 36 $117 7 29 $165
2 42 105 8 52 105
3 40 210 9 44 121
4 47 142 10 40 103
5 39 235 11 45 136
6 50 96 12 36 190
a) Estime la contribución promedio por familia en la ciudad, y establezca una

cota para el error de estimación.
b) Estime la contribución total de todas las familias de la ciudad, y establezca
una cota para el error de estimación.
3.7. Ejercicios
1. Define que es una muestra aleatoria.
2. Escribe las definiciones de cada uno de los siguientes tipos de muestreo.

a) MAS b) MAE c) MAC
3. Diga cuáles de los siguientes ejemplos constituyen aplicaciones del muestreo

aleatorio, y cuáles de un muestreo no aleatorio. Explique porqué
3.7 Ejercicios 101
a) Las manzanas incluidas en una bolsa de 5 kilos adquiridas en un supermer-

cado local.
b) Una bolsa de 5 kilos de manzanas seleccionadas por una ama de casa de un
depósito de manzanas de un supermercado local.
c) Preguntas que una tienda de departamentos hace a cada décimo cliente que
tiene cuenta de crédito, acerca de nuevos horarios.
d) Tarjetas de garantı́a, que proporcionan información demográfica y personal,
recibidas por un fabricante, de personas que compraron recientemente alguno
de los artı́culos de cocina que fabrican.
4. Discuta las ventajas de efectuar un muestreo en lugar de un censo en cada uno

de los siguientes casos:
a) Un representante de mercadotecnia de una fábrica de alimentos está intere-
sado en determinar el total de ventas del primer año, de un nuevo producto que
fabrica la compañı́a.
b) Un ejecutivo de una compañı́a petrolera está interesado en determinar el
precio promedio por galón de gasolina sin plomo, que las estaciones de servicio
cobran en determinado estado. De una lista de estaciones de servicio, el ejecuti-
vo selecciona aleatoriamente 20 de un total de 249, y obtiene su precio de venta
por teléfono.
c) Un candidato a la gubernatura de un estado desea conocer la proporción de
votantes que está a su favor, un semana antes de la elección.
d) Un diario local ha adoptado una polı́tica editorial más liberal. Para captar la
reacción de los lectores al cambio, un agente del diario selecciona aleatoriamente
10 suscriptores locales de una lista de suscripciones, los contacta por teléfono,
y les pide su opinión sobre el cambio de polı́tica editorial.
5. Explique porque es preferible el uso del muestreo a un censo de población.
6. Menciona 3 ventajas y 3 desventajas de un muestreo.
7. Menciona 3 ventajas y 3 desventajas de un censo.

102 Muestreo
8. Describe brevemente la diferencia entre muestreo con reemplazo y muestreo sin

reemplazo.
9. Describe explı́citamente que es una tabla de números aleatorios.
10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades
muestrales y el marco muestral apropiados (Un marco muestral es una lista
de unidades muestrales. Las unidades muestrales son colecciones disjuntas de
elementos (objeto del cual se toma una medición) de la población).
a) Un economista desea efectuar una encuesta para estimar la cantidad promedio
mensual por familia empleada en la compra de comestibles en determinada
ciudad.
b) El asistente administrativo del gobernador de un estado desea estimar la
proporción de votantes en el estado que estará a favor de la aprobación de una
ley.
c) Una cadena de supermercados desea conocer la opinión de sus empleados
acerca del plan de seguro médico patrocinado por la compañı́a.
d) Un ejecutivo de mercadotecnia de una compañı́a desea hacer una encuesta
entre los compradores para determinar su actitud hacia una nueva lı́nea de
productos.
11. Explique porqué cada uno de los siguientes ejemplos no se puede considerar
como muestra aleatoria:
a) Para conocer la opinión de la comunidad sobre los planes de estudio de una
escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.
b) Para determinar el sentimiento público respecto al último decreto presiden-
cial, un reportero entrevista a mediodı́a a 25 personas en la esquina de una
céntrica calle.
c) Se seleccionan al azar 10 nombres de la lista de representantes de la Cámara
de Diputados en un intento por predecir la opinión de varios Estados con res-
pecto al aumento de la deuda pública por tercera vez en una semana.
3.7 Ejercicios 103
12. Proponga una ejemplo donde sea preferible un muestreo a un censo.
13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo
tema publicitario diseñado para mejorar la imagen de la tienda en lo que se re-
fiere a la calidad de sus productos. De un directorio residencial se seleccionó una
muestra aleatoria simple de n = 50 familias. Un mes después de iniciada la cam-
paña publicitaria, se entrevistó a los jefes de familia y 13 de ellos afirmaron que
la calidad de la mercancia de la tienda de descuento es aparentemente de infe-
rior calidad a la de las tiendas competidoras. Estime la proporción de familias
que piensan que la calidad de la mercancia de la tienda de descuento es inferior
a la de las demás tiendas. Establezca una cota para el error de estimación.
14. Un ejecutivo de seguros, preocupado porque la alta tasa de inflación puede

dejar a sus clientes con una cobertura insuficiente en los seguros de incendio
de sus viviendas, ha propuesto una claúsula que establece el incremento de la
cobertura (y de las primas anuales) de acuerdo con la tasa de inflación anual.
Para conocer la opinión de los clientes sobre la polı́tica propuesta, el ejecutivo de
seguros decidió seleccionar una muestra aleatoria estratificada de los clientes de
su compañı́a en los tres municipios de su jurisdicción. Los resultados aparececen
en la tabla. Estime la proporción p de clientes de los tres municipios que están a
favor de la polı́tica propuesta, y establezca una cota para el error de estimación.
Municipio
A B C
Total de clientes 231 407 187
Clientes encuestados 21 37 17
Número de los que aprueban la nueva polı́tica 8 20 9
15. El gerente de ventas de una fábrica de máquinas de escribir desea saber si existe
la demanda suficiente en determinada ciudad, que justifique agregar un nuevo
104 Muestreo
tipo de máquina de escribir portátil a sus existencias. Actualmente la fábrica

surte de mercancı́a a cuatro cadenas de tiendas que consisten de 25, 20, 30 y 25
tiendas. Por motivos de tipo administrativo se decidió usar el muestreo aleatorio
estratificado, con las cadenas de tiendas como estratos.
E1 16 12 10 13 9
E2 10 17 12 6
E3 5 18 13 15 20 12
E4 17 11 12 15 18
El gerente de ventas dispone de tiempo y dinero suficientes para obtener datos

de ventas en 20 tiendas solamente. Usando afijación proporcional, seleccionó en
forma aleatoria 5 tiendas de la primera cadena, 4 de la segunda, 6 de la tercera,
y 5 de la cuarta. Las ventas efectuadas al cabo de un mes aparecen en la tabla.
Estime las ventas mensuales promedio por tienda, y establezca una cota para
el error de estimación.
16. a)Un fabricante de sierras de cadena ha recibido quejas de los compradores en

relación con los costos de reparación excesivos. Para estudiar el problema, el
fabricante desea estimar el costo de reparación promedio por sierra y por mes,
para las sierras que se han vendido a las campañı́as madereras. No es posible
obtener los costos de reparación para cada sierra, pero se pueden determinar
los costos totales de reparación y el número de sierras que tienen las diferentes
compañı́as. El fabricante decidió usar un muestreo por conglomerados, usando
las compañı́as como conglomerados. De las M = 87 compañı́as madereras que
compran sierras de este fabricante, se seleccionó una muestra aleatoria simple
de m = 12. Los datos de la tabla representan los costos de reparación durante
el último mes para cada compañı́a.
3.7 Ejercicios 105
Cia. ] de sierras C. de Reparacion Cia. ]. de sierras C. de reparacion

1 4 $55 7 11 $103
2 7 83 8 1 15
3 5 47 9 8 110
4 11 210 10 11 164
5 15 235 11 7 80
6 6 88 12 10 146
b)Para el ejercicio anterior, también estime la cantidad total que las compañı́as
madereras gastaron en reparaciones de las sierras de cadena durante el último
mes, y establezca una cota de error de estimación.
c)Al consultar los registros de ventas, el fabricante mencionado encontró que ha
vendido 703 sierras de cada cadena a las 87 compañı́as madereras. Usando esta
información adicional, estime la cantidad total que las 87 compañı́as madereras
gastaron en reparaciones, y establezca una cota para el error de estimación.
(Sugerencia: Si y c es la media obtenida en el muestreo por conglomerados y
N el número de elementos de la población, entonces τ̂ = N y c y σ̂τ̂2 = N 2 σ̂y2c ).
Compare estos resultados con los obtenidos en el inciso b).
17. El punto de partida, para lograr un mejor entendimiento del comportamiento de

los consumidores, es la demografı́a del consumidor; las medidas descriptivas que
caracterizan al público comprador. De los registros de la compañı́a, la gerente de
una empresa distribuidora de automóviles obtuvo una muestra aleatoria simple
de 25 expedientes de los 582 correspondientes a clientes que compraron un
automóvil de tipo económico durante el último año. La media y la varianza
de las edades de los 25 clientes fueron ȳ = 27.5 y s2 = 16.81. Estime la edad
promedio de los compradores del automóvil económico, y establezca una cota
para el error de estimación.
Capı́tulo 4
Regresión lineal y multilineal
4.1. Introducción
En este capı́tulo se describe el modelo de regresión lineal simple, que asume que en-
tre dos variables dadas existe una relación de tipo lineal contaminada por un error
aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y
bajo determinadas hipótesis, podremos extraer predicciones del modelo e inferir la
fortaleza de dicha relación lineal.
En la práctica es común encontrar relación entre dos o más variables. Por ejemplo,
1. El peso de un hombre adulto depende de su estatura
2. Las circunferencias de los circulos dependen de su radio
3. La presión de una masa de gas depende de su temperatura y volumen
4. La distancia media de frenado de un automóvil depende de la velocidad a la que

éste viaja
5. La efectividad media de un antibiótico depende del tiempo que éste lleve almace-
nado.
Uno de los aspectos más relevantes que aborda la Estadı́stica se refiere al análisis
de las relaciones que se dan entre dos variables aleatorias. El análisis de estas rela-
ciones está muy frecuentemente ligado al análisis de una variable, llamada variable
dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)
variable(s) independiente(s) X, y permite responder a dos cuestiones básicas:
¿Es significativa la influencia que tiene la variable independiente sobre la vari-

able dependiente?
Si, en efecto, esa relación es significativa, ¿cómo es? y ¿podemos aprovechar

esa relación para predecir valores de la variable dependiente a partir de valores
observados de la variable independiente?.
La regresión lineal simple comprende el intento de desarrollar una lı́nea recta o

ecuación matemática que describe la relación entre dos variables, con la finalidad
de estimar los valores de una variable con base en los valores conocidos de la otra.
Para determinar dicha ecuación primero hay que recolectar datos que muestren los
valores de las variables en consideración.
Ejemplo 4.1.1. Supóngase que se han reunido datos locales de vendedores de au-
tomóviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,
y que tienen determinado equipo (aire acondicionado, dirección hidráulica, etc.).Los
datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la
región serı́an los mostrados en la tabla
Observación Recorrido Precio de Observación Recorrido Precio de

i (en miles) xi venta yi i (en miles) xi venta yi
1 40 $1000 6 60 1000
2 30 1500 7 65 500
3 30 1200 8 10 3000
4 25 1800 9 15 2500
5 50 800 10 20 2000
108 Regresión lineal y multilineal
Si dibujamos los datos de xi e yi en unos ejes cartesianos ya intuimos que, en efecto,

hay una relación latente entre las variables, que parece ser de tipo lineal. A esta
representación en los ejes cartesianos se le denomina diagrama de dispersión.
Un modelo de regresión lineal simple para una variable, Y (variable dependiente),
dada otra variable, X (variable independiente), es un modelo matemático que permite
obtener una fórmula capaz de relacionar Y con X basada sólo en relaciones lineales,
del tipo
Y = β0 + β1 X + ε.
donde
Y representa a la variable dependiente, es decir, a aquella variable que deseamos

estudiar en relación con otras.
X representa a la variable independiente, es decir, aquella que creemos que

puede afectar en alguna medida a la variable dependiente. La estamos denotan-
do en mayúscula, indicando que podrı́a ser una variable aleatoria, pero habi-
tualmente se considera que es una constante que el investigador puede fijar a
su antojo en distintos valores.
ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca

que la relación entre la variable dependiente y la variable independiente no sea
perfecta, sino que este sujeta a incertidumbre.
Hay que tener en cuenta que el valor de ε sera siempre desconocido hasta que se
observen los valores de X e Y , de manera que el modelo de predicción sera realmente
Ŷ = β0 +β1 X. Lo que en primer lugar resultarı́a deseable de un modelo de regresión es
que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,
sea cual sea el valor de X, de manera que E[ε/X = x] = E[ε] = 0 y, por tanto,
E[Y /X = x] = β0 + β1 x + E[ε/X = x] = β0 + β1 x. Es decir, las medias de los valores
de Y para un valor de X dado son una recta. La interpretación de los coeficientes del
modelo es:
β0 es la ordenada al origen del modelo, es decir, el punto donde la recta inter-

cepta o corta al eje y.
β1 representa la pendiente de la lı́nea y, por tanto, puede interpretarse como el

incremento de la variable dependiente por cada incremento en una unidad de
la variable independiente.
Nota 7. Es evidente que la utilidad de un modelo de regresión lineal tiene sentido

siempre que la relación hipotética entre X e Y sea de tipo lineal, pero ¿qué ocurre si
en vez de ser de este tipo es de otro tipo (exponencial, logarı́tmico, hiperbólico...)?.
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersión
antes de comenzar a tratar de obtener un modelo de regresión lineal, ya que si la
forma de este diagrama sugiere un perfil distinto al de una recta quizá deberı́amos
plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de
dispersión es de otro tipo conocido, puede optarse por realizar un cambio de variable
para considerar un modelo lineal. Existen técnicas muy sencillas para esta cuestión,
pero no las veremos todas aquı́.
Algunas curvas de aproximación y sus ecuaciones
Varios tipos de curvas de aproximación y sus ecuaciones se presentan ahora.

Sean x y y variables independiente y dependiente respectivamente, a0 , a1 , . . . , an y
b, p, q, g y h constantes.
y = a0 + a1 x Lı́nea recta
y = a0 + a1 x + a2 x2 Parábola o curva cuadrática
y = a0 + a1 x + a2 x2 + a3 x3 Curva cúbica
y = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 Curva cuártica
y = a0 + a1 x + . . . + an xn Curva de grado n
Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-
to y n-ésimo grados respectivamente.
Otras ecuaciones usadas con frecuencia en la práctica son:

1 1
y= o = a0 + a1 x Hipérbola
a0 + a1 x y
y = abx o log y = log a + x log b = a0 + a1 x Curva exponencial
y = axb o log y = log a + b log x Curva geométrica
y = abx + g Curva exponencial modificada
1 1
y= x o = abx + g Curva logı́stica.
ab + g y
Para decidir cual es la que debe usarse, antes se debe hacer un diagrama de dispersión.
El tipo mas simple de curva de aproximación es una lı́nea recta, pero no en todos lo
casos se puede obtener una aproximación mediante una ecuación lineal. Para ver si
un modelo lineal será adecuado entonces el procedimiento es:
1. Graficar los datos
2. Determinar por examen si parece existir una relación lineal
Cuando las gráficas no siguen un alineamiento entonces hay que buscar en un modelo
no lineal. El modelo lineal y = β0 + β1 x se dice ser un modelo determinista porque
no permite error en la predicción de y como función de x (no interviene el azar o
la incertidumbre). En fı́sica, quı́mica, economı́a, etc., describen fenómenos (explican
y predicen) en los cuales el error de predicción es despreciable en la práctica. Por
ejemplo 0.1 cm de error en la construcción de una viga de un puente es pequeño, pero
0.1 cm en una pieza de relojeria es absurdamente grande.
4.2. Estimación de los coeficientes del modelo por

mı́nimos cuadrados
Si queremos obtener el modelo de regresión lineal que mejor se ajuste a los datos
de la muestra, deberemos estimar los coeficientes β0 y β1 del modelo. Para obtener
estimadores de estos coeficientes vamos a considerar un nuevo método de estimación,
4.2 Estimación de los coeficientes del modelo por mı́nimos cuadrados 111
conocido como método de mı́nimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de mı́nimos cuadrados coinciden con
los estimadores máximo-verosimiles de β0 y β1 .
El razonamiento que motiva el método de mı́nimos cuadrados es el siguiente: si tene-

mos una muestra de valores de las variables independiente y dependiente, (x1 , y1 ), . . . ,
(xn , yn ), buscaremos valores estimados de β0 y β1 , que notaremos por β̂0 y β̂1 , de ma-
nera que en el modelo ajustado, ŷ = β̂0 + β̂1 x minimice la suma de los cuadrados de
los errores observados. Es decir, usando mı́nimos cuadrados para ajustar una recta
al conjunto de datos queremos que las desviaciones entre los valores observados y los
puntos correspondientes sean “pequeños ”.
Entonces si ŷi = β̂0 + β̂1 xi es el valor de y (cuando x = xi ) entonces la desviación del

valor observado y, a partir de la recta ŷ es yi − ŷi (desviación del i-ésimo punto).
Ahora debemos escoger como la recta de mejor ajuste, a la que minimice la suma de
los cuadrados de las desviaciones entre los valores observados y los pronosticados.
n
X n ³
X ´2
2
SSE = (yi − ŷi ) = yi − [β̂0 + β̂1 xi ]
i=1 i=1
(Suma de los cuadrados de los errores)
Es decir, buscamos (β̂0 , β̂1 ) = arg [minβ0 ,β1 SSE].
Se llama recta de regresión por mı́nimos cuadrados (o simplemente recta de regresión)

de Y dada X a la lı́nea que tiene la SSE mas pequeña de entre todos los modelos
lineales. La solución de ese problema de mı́nimo se obtiene por el mecanismo habitual:
se deriva SSE respecto de β̂0 y β̂1 , se iguala a cero y se despejan estos. Entonces
" n #
∂SSE ∂ X³ ´2
= yi − [β̂0 + β̂1 xi ]
∂ β̂0 ∂ β̂0 i=1
Xh i
= 2(yi − (β̂0 + β̂1 xi ))(−1)
X
=− 2(yi − β̂0 − β̂1 xi )
³X X X ´
= −2 yi − β̂0 − β̂1 xi
³X X ´
= −2 yi − nβ̂0 − β̂1 xi = 0
X X
=⇒ −2 yi + 2nβ̂0 + 2β̂1 xi = 0
P P
yi − β̂1 xi
=⇒ β̂0 =
n
∴ β̂0 = ȳ − β̂1 x̄
" n ³
#
∂SSE ∂ X ´2
= yi − [β̂0 + β̂1 xi ]
∂ β̂1 ∂ β̂1 i=1
Xh i
= 2(yi − (β̂0 + β̂1 xi ))(−xi )
X
=− 2(xi yi − β̂0 xi − β̂1 x2i )
³X X X ´
= −2 xi yi − β̂0 xi − β̂1 x2i = 0
X X X
=− xi yi + β̂0 xi + β̂1 x2i = 0
P P
xi yi − β̂0 xi
=⇒ β̂1 = P 2
xi
4.2 Estimación de los coeficientes del modelo por mı́nimos cuadrados 113
Sustituyendo β̂0 = ȳ − β̂1 x̄ en la ecuación anterior se obtiene

P P
xi yi − (ȳ − β̂1 x̄) xi
β̂1 = P 2
x
P ³P iy P xi ´ P
i
xi y i − − β̂1 xi
= n
P n
x2i
P P P P
xi yi − n1 yi xi + β̂n1 ( xi )2
= P 2
xi
X β̂1 ³X ´2 X 1X X
=⇒ x2i β̂1 − xi = xi y i − yi xi
n n
X n
P 1P P (xi − x̄)(yi − ȳ)
xi y i − y i xi
=⇒ β̂1 = P n = i=1
1 P Xn
xi − ( xi )2
2
(xi − x̄)2
n
i=1
Por lo tanto los estimadores de mı́nimos cuadrados de β0 y β1 son:
SSxy
β̂1 =
SSxx
n
X n
X
donde SSxy = (xi − x̄)(yi − ȳ) y SSxx = (xi − x̄)2
i=1 i=1
β̂0 = ȳ − β̂1
Ejemplo 4.2.1. En la siguiente tabla se muestran los gastos publicitarios y volúmenes

de ventas de una companı́a durante 10 meses elegidos al azar.
yi xi yi xi
101 1.2 82 0.8
92 0.8 93 1.0
110 1.0 75 0.6
120 1.3 91 0.9
90 0.7 105 1.1
a) ¿Cuál es la lı́nea recta de mejor ajuste que relaciona los gastos en publicidad con
volumen de ventas?
b) Si se tienen $10, 000 para publicidad este mes ¿Cuál es el volumen de ventas
pronosticado?
Solución:
Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresión.
SSxy = 23.34, SSxx = 0.444, ȳ = 95.9 y x̄ = 0.94
luego
SSxy 23.34
β̂1 = = = 52.57
SSxx 0.444
β̂0 = ȳ − β̂1 x̄ = 95.9 − (52.57)(0.94) = 46.49
ası́ que la recta de regresión ajustada es
ŷ = 46.49 + 52.57x
Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para
publicidad este mes, el volumen de ventas pronosticados para este mes es
ŷ = 46.49 + 52.57(1.0) = 99.06
o bien $990600.
Ahora, debemos encontrar las cotas para el error de estimación. Para eso estimamos
σ 2 , la varianza de y dado un valor de x. Entonces
SCE
σ 2 = s2 =
n−2
n
X
donde SCE = (yi − ŷi )2 y n − 2 son los grados de libertad (número de parámetros
i=1
estimados en el modelo).
4.3 Supuestos adicionales para los estimadores de mı́nimos cuadrados 115
Una forma más fácil para calcular SCE es:
SCE = SCyy − β̂1 SCxy donde

n
Ã n !2
X 1 X
SCyy = yi2 − yi
i=1
n i=1
n
X n n
1X X
SCxy = xi yi − xi yi
i=1
n i=1 i=1
Ejercicio 4.2.1. Calcule σ 2 para el ejemplo anterior 4.2.1.
4.3. Supuestos adicionales para los estimadores de

mı́nimos cuadrados
Hasta ahora lo único que le hemos exigido a la recta de regresión es:
1. Que las medias de Y para cada valor de X se ajusten más o menos a una lı́nea
recta, algo fácilmente comprobable con un diagrama de puntos. Si el aspecto
de este diagrama no recuerda a una lı́nea recta sino a otro tipo de función,
lógicamente no haremos regresión lineal.
2. Que los errores tengan media cero, independientemente del valor de X, lo que,
por otra parte, no es una hipótesis sino más bien un requerimiento lógico al
modelo.
Lo que ahora vamos a hacer es añadir algunos supuestos al modelo de manera que
cuando éstos se cumplan, las propiedades de los estimadores de los coeficientes del
modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficien-
tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.
4.4. Inferencias relativas a la pendiente β1 de una

recta
La primera inferencia que debe hacerse cuando se estudia la relación entre x e y
concierne a la existencia misma de dicha relación. Entonces surgen dos preguntas:
1) ¿Muestran los datos suficiente evidencia como que para pensar que el conocimiento
de x contribuye para predecir y en alguna región de observación?
2) ¿Podemos pensar que aún no habiendo relación entre x y y los puntos observados
forman un diagrama como el de la figura?
Las cuestiones anteriores se refieren al valor de β1 , el cambio medio que se experimenta

en y por unidad de cambio en x (la pendiente).
Si x no proporciona información para predecir y, entonces β1 = 0. Que β1 = 0 significa
que y siempre es el mismo para cualquier valor de x.
Ejemplo 4.4.1. Suponga que un ingeniero ajustó el modelo y = β0 + β1 x + ε, donde:
y =resistencia del concreto después de 28 dı́as
x =proporción agua/cemento que se usó para producir el concreto
Si la resistencia del concreto y, no cambia con la proporción agua/cemento x, entonces

β1 = 0 (la pendiente es cero). Por lo tanto, el ingeniero intentará realizar una prueba
H0 : β1 = 0 contra Ha : β1 6= 0 para verificar si la variable independiente influye sobre
la variable dependiente. O bien, estimar la razón media de cambio β1 en E[y] para
un cambio de una unidad en la proporción de agua/cemento, x.
Al hacer inferencia lo que se quiere probar es la hipótesis de que:
H0 : βi = 0 contra Ha : βi 6= 0
β̂i es un estimador insesgado de βi con una distribución normal que tiene el valor
esperado E[β̂i ].
4.4 Inferencias relativas a la pendiente β1 de una recta 117
Para cada uno de los parámetros β0 y β1 se tiene:
E[β̂0 ] = β0 y σβ̂20 = σ 2 C00
E[β̂1 ] = β1 y σβ̂21 = σ 2 C11

n
X
x2i
i=1 1
donde : C00 = y C11 =
nSCxx SCxx
Podemos construir una prueba de hipótesis H0 : βi = βi0 (βi0 es un valor especı́fico
para βi ). Usando el estadı́stico de prueba:
β̂i − βi0
Z= √ Distribución normal estándar
σ Cii
1
La región de rechazo para una prueba de dos colas está dado por:
| z | ≥ zα/2
Como σ 2 es desconocido, entonces se puede obtener un estimador de él

p
Sβ̂i = S Cii
Entonces
β̂i − βi0
√ t= ,
S Cii
estadı́stico que se distribuye con una t de Student con n − 2 grados de libertad
(varianza desconocida y n pequeña).
Prueba de hipótesis para βi
H0 :βi = βi0




 βi > βi0 región de rechazo de cola superior,

Ha : βi < βi0 región de rechazo de cola inferior,




βi 6= βi0 región de rechazo de dos colas.
1
Prueba estadı́stica en la cual la región de rechazo está separada por la región de aceptación y
se localiza en ámbos extremos de la distribución de la estadı́stica de prueba
Estadı́stico de prueba:
β̂i − βi0
t= √
S Cii
Región de rechazo:
t > tα alternativa de cola superior

t > −tα alternativa de cola inferior
| t | > tα/2 alternativa de dos colas
donde: X
x2i 1
C00 = y C11 =
nSCxx SCxx
Nota 8. tα se basa en n − 2 grados de libertad 2 .
Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que
indique que β1 difiere de cero al usar una relación lineal entre el gasto publicitario x
y el volumen mensual medio, y, de ventas.
Solución:
Se quiere probar
H0 : β1 = 0 contra Ha : β1 6= 0
β̂1 − 0
Entonces t = √ . Usando α = 0.05 se rechaza H0 si t > 2.306 o t < −2.306
S C11
52.87
con n − 2 = 8 grados de libertad. Entonces t = √ = 5.15. Como 5.15 >
6.84 2.25
2.306, entonces se rechaza H0 . Hay evidencia que indica que los gastos publicitarios
proporcionan información para la predicción de los volúmenes mensuales de ventas.
Ahora si x aumenta una unidad ¿Cuál será el cambio estimado para y?,¿qué confianza
se puede tener en dicha estimación?.
Debemos investigar la amplitud de un intervalo de confianza para β1 y verificar si
es lo bastante pequeño para detectar una desviación de cero que sea de significancia
práctica.
2
Número de observaciones linealmente independientes de un conjunto de n observaciones
Intervalo de confianza de (1 − α)100 % para βi
p
β̂i ± tα/2 S Cii
Ejemplo 4.4.3. Encuentre el intervalo de confianza del 95 % para β1 usando los datos
del ejercicio 4.2.1.
Solución:
1 − α =95 % =⇒ 1 − α = 0.95
despejando α = 1 − 0.95 =⇒ α/2 = 0.025
asi, 52.57 ± 23.67
Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-
tario, se estima que los volúmenes de ventas mensuales correspondientes será 28.90 y
76.24.
Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de
β0 y β1 . Trace una gráfica de los puntos y represente la recta ajustada para verificar
los cálculos. ¿Presentan los datos suficiente evidencia para indicar que la pendiente
β1 difiere de cero? (Haga la prueba con un nivel de significancia de 5 %). Encuentre
un intervalo de confianza de 95 % para β1 .
y x
3 -2
2 -1
1 0
1 1
0.5 2
Estimación de E[y/x].
Ejemplo 4.4.4. El encargado se seguridad industrial en una empresa puede estar

interesado en estimar el número medio de algún tipo de accidentes dado el
número de horas que cada empleado ha estado sujeto a entrenamiento especial
para seguridad.
Si en una empresa, la ganacia y, se encuentra linealmente relacionada a los

gastos publicitarios x, el gerente de ventas querrá estimar la ganancia media
para un cierto nivel de publicidad x. entonces si la compañı́a invierte $10, 000 en
publicidad, ¿Cuanto debe esperar que sea E[y/x]?. Entonces, debemos encontrar
un intervalo de confianza para E[y/x].
Prueba de hipótesis relativa al valor esperado
Hipótesis nula H0 :E[y/x = xp ] = E0

Hipótesis alternativa Ha :La da el experimentador y depende de los valores de E[y/x]
que desea detectar
Estadı́stico de prueba:
ŷ − E0
t= r
1 (xp − x̄)2
S +
n SCxx
Región de rechazo:
t > tα alternativa de cola superior

t > −tα alternativa de cola inferior
| t | > tα/2 alternativa de dos colas
Intervalo de confianza del (1 − α)100 % para E[y/x]
s
1 (xp − x̄)2
ŷ ± tα/2 S + (4.1)
n SCxx
Predicción de y dado un valor particular de x
s
1 (xp − x̄)2
ŷ ± tα/2,n−2 S 1+ + (4.2)
n SCxx
Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para
a) Encontrar un intervalo de confianza del 99 % para el volumen mensual esperado

de ventas cuando los gastos en publicidad son xp = 1.0 ($10, 000)
b) Calcular S 2
c) Probar la hipótesis nula contra la alternativa usando un nivel se significancia de

α = 0.01
Solución:
xp = 1.0, entonces ŷ = β̂0 + β̂1 x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-
camos por $10, 000 y se obtiene $990, 600.
El intervalo de confianza de 95 % para el volumen mensual medio asociado al gasto
de publicidad es
s
1 (xp − x̄)2
ŷ ± t0.025 S+
n SCxx
r
1 (1.0 − 0.94)2
99.06 ± (2.306)(6.84) +
10 0.444
99.06 ± 5.19, es decir, (93.87,104.25)
Como cada unidad representa $10, 000 en unidades monetarias, se estima que las
ventas mensuales esperadas sobre la población de los meses en los que la compañı́a
gasta $10, 000 estan entre $938, 700 y $1042, 500.
Ejemplo 4.4.6. Un equipo de investigadores de un hospital psiquiátrico realizó un

experimento para estudiar la relación que existe en pacientes esquizofrénicos, entre
el tiempo de reacción a un estı́mulo particular y el nivel de la dosis de una dro-
ga. Especı́ficamente los investigadores deseaban hacer el experimento con dosis de
0.5, 1.0, 1.5, 2.0, 2.5 y 3.0 mg. Seleccionaron una muestra aleatoria de 18 pacientes
en una población hospitalaria de esquizofrénicos y asignaron al azar a cada paciente
una de las dosis. Ası́ pues cada dosis fue administrada a un total de tres pacientes.
Tiempo de Tiempo de
Paciente Dosificación x reacción y Paciente Dosificación x reacción y
(mg) (mseg) (mg) (mseg)
1 0.5 12 10 2.0 40
2 0.5 22 11 2.0 44
3 0.5 30 12 2.0 50
4 1.0 18 13 2.5 44
5 1.0 32 14 2.5 60
6 1.0 36 15 2.5 64
7 1.5 30 16 3.0 64
8 1.5 34 17 3.0 68
9 1.5 46 18 3.0 76
Solución:
El modelo de predicción obtenido hal hacer los calculos es:
ŷ = β̂0 + β̂1 x = 9.77 + 18.85x
Observación 2. La suma de los valores ajustados es igual a la suma de los valores

P P
observados, ŷi = yi .
Ahora bien, usaremos la prueba de hipótesis para probar si uno de los coeficientes de
regresión toma valor particular o si puede ser excluido del modelo.
Si el que se quiere escluir es β1 entonces la prueba es:
H0 : β1 = 0 vs Ha : β1 6= 0
Ası́, el estadı́stico es
18.85 − 0
t= = 8.96
(7.51)(0.28)
de acuerdo a la tabla de la t de Student, la hipótesis H0 se rechaza con un nivel de
significancia de 0.05 ya que
t0.05/2,16 = t0.025,16 = 2.120
y como
| t | > tα/2,n−2 es decir, 8.96 > 2.120
entonces rechazamos H0 . Esto indica que la variable independiente es significativa o

ayuda a predecir el comportamiento de y. Por cada incremento de una unidad en la
variable independiente x, habrá un incremento de β1 unidades en la variable depen-
diente y.
Para saber la cantidad en que varı́a en promedio la variable dependiente cuando la

variable independiente varı́a una unidad, calculamos el intervalo de confianza para
β̂1 .
En nuestro ejemplo β̂1 nos dará la información acerca de la cantidad en que varı́a
en promedio, el tiempo de reacción cuando se produce un aumento en una unidad la
dosis de la droga. Entonces
p
β̂1 ± tα/2,n−2 S C11
18.86 ± (2.120)(7.51)(0.28)
18.86 ± 4.46
14.4 ≤β̂1 ≤ 23.42
Ası́, tenemos en 95 % de confianza al afirmar que la cantidad promedio de aumento

en el tiempo de reacción para cada aumento de 1 mg varı́a entre 14.4 y 23.42 mseg.
Teniendo un sujeto nuevo cuyo valor x es un puntaje determinado xp ¿qué valor
asumirá ŷ?.
Predicción de y dado un valor de x en particular

Supongamos que a un esquizofrénico recientemente admitido en el hospital se le ad-
ministran 2 mg de la droga ¿cuál será el tiempo de reacción de está persona?.
Estimando puntualmente en un valor x = xp = 2 se tiene
ŷ = 9.77 + 18.86(2) = 47.49
Cuando σ 2 es desconocida podemos obtener el intervalo de predicción del (1−α)100 %

mediante la ecuación (4.2). Entonces:
r
1 (2 − 1.75)2
47.49 ± (2.120)(7.51) 1 + +
18 13.13
47.49 ± 16.39
31.1 ≤ŷ ≤ 63.88
Ası́, podemos afirmar con un 95 % de confianza que el tiempo de reacción de una

persona esquizofrénica que recibe 2 mg de la dosis está entre 31 y 64 mseg.
En lo anterior estamos prediciendo el tiempo de reacción de la persona antes de ad-
ministrarle la droga. Para descubrir con certeza el tiempo de reacción de una persona,
en relación a una determinada dosis de droga, tenemos que darle al paciente la droga
y luego medir su tiempo de reacción.
Ahora bien, dada una población de sujetos y dado un puntaje determinado de x di-
gamos xp ¿Cuál es el valor promedio de la variable dependiente ŷ más probable para
esta población?.
Supongamos entonces que tenemos una población de personas esquizofrénicas y a to-
das se les han administrado 2mg de la dosis ¿Cuál será el tiempo de reacción promedio
de esta población?.
Un intervalo de confianza para el (1 − α)100 % es el dado por la ecuación (4.1).
Entonces, como ŷ = 47.49 para x = 2 mg se tiene que

r
1 (2 − 1.75)2
47.49 ± (2.120)(7.51) +
18 13.13
47.49 ± 3.9101
43.58 ≤ŷ ≤ 51.40
Por lo tanto, podemos afirmar con un 95 % de confianza que el tiempo de reacción

promedio de una población de esquizofrénicos que recibió la dosis de 2mg estará entre
44 y 51 mg.
Si el experimento se repite muchas veces, aproximadamente el 95 % de los intervalos
de confianza calculados en la forma anterior incluirán a E[y/x] y el otro 5 % no.
Ejemplo 4.4.7. En su tesis para obtener el doctorado, H. Behbahani estudió el efecto

de la variación agua/cemento en la resistencia del concreto después de 28 dı́as. Para
el concreto que contiene 200 libras por yarda cúbica de cemento obtuvo los datos que
se presentan en la tabla 4.1. Sea y la resistencia y x la razón de agua/cemento.
Razón agua/cemento Resistencia (100 pies/libra)

1.21 1.302
1.29 1.231
1.37 1.061
1.46 1.040
1.62 0.803
1.79 0.711
Tabla 4.1: Datos.
a) Ajuste el modelo.
b) Pruebe H0 : β1 = 0 vs Ha : β1 < 0 con α = 0.05 (si rechazamos H0 entonces

concluimos β1 < 0, y que la resistencia tiende a disminuir con un incremento
en la razón agua/cemento).
c) Encuentre un intervalo de confianza de 90 % de la resistencia esperada del concreto

cuando la razón agua/cemento es de 1.5. ¿Qué pasará con el intervalo de con-
fianza si tratamos de estimar la resistencia media para razones de agua/cemento
de 0.3 o 2.7?.
Solución:
a)
SCxy −0.247
β̂1 = = = −1.056
SCxx 0.234
β̂0 =2.563
=⇒ ŷ =2.563 − 1.056x
b)
H0 :β1 = 0 vs Ha : β1 < 0 con α = 0.05

−1.056 − 0
t= r = −11.355 (En este caso debemos probar si t < −tα )
1
0.045
0.234
tα,n−2 =t0.05,4 = 2.132
=⇒ −11.355 < −2.132.
Se rechaza H0 , hay evidencia para indicar que la resistencia disminuye con un incre-
mento en la razón agua/cemento en la región donde se hizo el experimento.
En la práctica, la razón agua/cemento debe ser lo suficientemente para humedecer el
cemento, la arena y los otros elementos que forman el concreto; pero si la razón es
muy grande no servirá.
c)
ŷ = 2.563 − 1.056(1.5) = 0.979

r
1 (1.5 − 1.457)2
0.979 ± (2.132)(0.045) +
6 0.234
=⇒(0.938, 1.020)
4.5 Correlación lineal 127
La resistencia media de la razón agua/cemento de 1.5 está entre 0.938 y 1.020.

x∗ = 0.3 y x∗ = 2.7 son valores lejanos a los experimentados, quizás producirı́an
concreto completamente inservible.
4.5. Correlación lineal

En la sección anterior se estableció que la regresión lineal estudia la natutaleza de la
relación entre dos (o mas variables si no es lineal). En esta sección vamos a definir
el llamado coeficiente de correlación lineal, que ofrece una medida cuantitativa de
la fortaleza de la relación lineal entre x e y en la muestra, pero que a diferencia de
β1 , es adimensional, ya que sus valores siempre estan entre -1 y 1, sean cuales sean
las unidades de medida de las variables. En otras palabras, la correlación mide la
fuerza de la relación entre variables. Si están relacionadas las variables dependiente e
independiente, entonces hay que averiguar que tan fuerte es la relación.
Dada una muestra de valores de dos variables (x1 , y1 ), . . . , (xn , yn ), el coeficiente de
correlación lineal muestral r se define como
SCxy
r=p
SCxx SCyy
Como digimos antes, la interpretación del valor de r es la siguiente:
r cercano o igual a 0 implica poca o ninguna relación lineal entre x e y.
Cuanto más se acerque a 1 ó −1, más fuerte será la relación lineal entre x e y.
Si r = ±1, todos los puntos caerán exactamente en la recta de regresión.
Un valor positivo de r implica que y tiende a aumentar cuando x aumenta, y

esa tendencia es más acusada cuanto más cercano está r de 1.
Un valor negativo de r implica que y disminuye cuando x aumenta, y esa ten-

dencia es más acusada cuanto más cercano está r de −1.
Si r = 0, no hay relación.
¿Cómo determinar que tan bueno es el modelo ajustado?
El coeficiente de determinación lineal r2 proporciona una medida de la bondad de

ajuste del modelo de regresión
SCE
r2 = 1 − 0 ≤ r2 ≤ 1
SCyy
Si el modelo es correcto, entonces SCE = 0 y r2 = 1. Si r2 está cerca de cero (Cuando

SCE puede ir a SCyy ), el ajuste no es el adecuado.
Nótese que la notación es r al cuadrado, ya que, en efecto, en una regresión lineal
simple coincide con el coeficiente de correlación lineal al cuadrado. Por lo tanto, la
interpretación de r2 es la medida en que x contribuye a la predicción de y en una
escala de 0 a 1, donde el 0 indica que el error es el total de la variación de los valores
de y y el 1 es la precisión total, el error 0. La medida suele darse en porcentaje.
Intervalo de confianza para r
Se quiere probar la hipótesis de que el coeficiente de correlación es cero, es decir,
H0 : r = 0 vs Ha : r 6= 0
lo anterior es equivalente a probar
H0 : β1 = 0 vs Ha : β1 6= 0
β̂1 − 0
con su estadı́stico t = √ .
S C11
Dejando el estadı́stico anterior en términos de r se obtiene
√
r n−2
t= √
1 − r2
Para probar la hipótesis nula H0 = r = r0 r0 6= 0 contra Ha = r 6= r0 se utiliza el
estadı́stico µ ¶
1 1+r
ln
2 1−r
4.5 Correlación lineal 129
¶ µ
1+r1 1
que sigue una distribución normal con media ln 2
y varianza . En-
1−r n−3
tonces, usaremos µ ¶ µ ¶
1 1+r 1 1 + r0
2
ln − 2 ln
1−r 1 − r0
z= r
1
n−3
lo anterior es equivalente a
√ · ¸
n−3 (1 + r)(1 − r0 )
z= ln
2 (1 − r)(1 + r0 )
H0 se rechaza si | z | > zα/2 , donde α es el nivel de significancia.





 r > r0 región de rechazo:z > zα ,

Ha : r < r 0 región de rechazo:z < −zα ,




r 6= r0 región de rechazo:| z | > zα/2 ,
Ejercicio 4.5.1. Los siguientes datos representan las calificaciones de quı́mica para
una muestra aleatoria de 12 estudiantes de primer año de determinada institución de
enseñanza superior, junto con sus calificaciones en un examen de inteligencia aplicado
cuando aún cursaban el último año de secundaria.
Calif. Examen Calif. Quı́mica Calif. Examen Calif. Quı́mica

65 85 65 94
50 74 70 98
55 76 55 81
65 90 70 91
55 85 50 76
70 87 55 74
a) Calcule e interprete el coeficiente de correlación muestral,
b) Pruebe la hipótesis de que r = 0.5 contra r > 0.5.

Solución:
q
SCxx
a) r = β̂1 SCyy
, entonces
X 1 ³X ´2 1
SCxx = x2i − xi = 44475 − (725)2 = 672.92
n 12
X 1 ³X ´2 1
SCyy = yi2 − yi = 85905 − (1011)2 = 728.25
n 12
SCxy X 1X X 1
β̂1 = =⇒ SCxy = xi yi − xi yi = 61685 − (725)(1011) = 603.75
SCxx n 12
603.75
=⇒ β̂1 = = 0.897 o 0.9
672.92
Ası́, el coeficiente de correlación es
r
672.92
r = 0.897 = 0.862.
728.25
Note que, el coeficiente está cerca de 1, entonces hay una fuerte asociación entre x e
y, como se podrá esperar.
b)
H0 : r = 0.5 vs Ha : r > 0.5

√ · ¸
n−3 (1 + 0.862)(1 − 0.5)
z= ln
2 (1 − 0.862)(1 + 0.5)
· ¸
3 0.931
= ln = 2.255
2 0.207
Ahora veamos si se cumple que z > zα , para esto usamos α = 0.05. Entonces, z0.05 =
1.64 + 1.65
1.645 (buscamos α = 0.05 en la tabla de la distribución normal y cae en =
2
1.645).
Ası́, 2.255 > 1.645, por lo cual se rechaza la hipótesis nula H0 .
Ejercicio 4.5.2. En un estudio acerca de la cantidad de precipitación pluvial y la

cantidad de contaminación de aire eliminada, se obtuvieron los siguientes datos:
4.6 Ejercicios 131
Lluvia diaria (0.01 cm) x Partı́culas eliminadas (mg por metro cúbico) y
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
a) Calcule r,
b) Prueba H0 : r = −0.5 vs Ha : r < −0.5 con un nivel de significancia de 0.025,
c) Determine el porcentaje de variación en que la cantidad de partı́culas eliminadas

que se deben a los cambios en la cantidad diaria de precipitación pluvial.
Solución:
4.6. Ejercicios
1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un
artı́culo) del catálogo de inventario con el valor en los libros (o nominal). Si una
compañı́a tiene su inventario y sus libros al dı́a, debe existir una relación lineal
muy estrecha entre los valores revisados y los nominales. Una muestra de 10
artı́culos del catálogo de cierta compañı́a dio los datos que contiene la tabla 4.2
acerca de los valores revisados y los nominales. Ajuste el modelo y = β0 +β1 x+ε
a esos datos. ¿Cuál es su estimación para el cambio que se espera en el valor
revisado para un cambio de una unidad en el valor nominal? Si el valor nominal
es x = 100, ¿qué utilizarı́a para estimar el valor revisado?
Artı́culo Valor revisado (yi ) Valor nominal (xi )

1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 167
Tabla 4.2: Datos.
2. En la tabla 4.3 se muestra la clasificación combinada del número de millas y

el volumen del motor establecidos por la EPA en estados de la Unión Ameri-
cana en 1980 (todos menos California) de nueve automóviles subcompactos con
transmisión estándar, de cuatro cilindros, que utilizan gasolina. El tamaño del
motor se da en pulgadas cúbicas totales del cilindraje.
Automóvil Cilindraje (x) mpg combinado (y)

VW Rabitt 97 24
Datsun 210 85 29
Chevrolet Chevette 98 26
Dodge Omni 105 24
Mazda 626 120 24
Oldsmobile Starfire 151 22
Mercury Capri 140 23
Toyota Celica 134 23
Datsun 810 146 21
4.6 Ejercicios 133
a) Localice los datos en una gráfica.

b) Encuentra la recta de mı́nimos cuadrados para los datos.
c) Trace una gráfica de la recta de mı́nimos cuadrados para ver cuánto se ajusta
a los datos.
d) Utilice la recta de mı́nimos cuadrados para estimar el promedio de millas por
galón (mpg) para un automóvil subcompacto con un volumen de motor de 125
pulgadas cúbicas.
3. En un estudio de distintos fondos para inversión se desarrolló un procedimien-

to consistente en construir la llamada “recta caracterı́stica”para cada posible
fondo. Dicha recta no es otra cosa más que la recta de regresión de la re-
dituabilidad del fondo considerado sobre la redituabilidad promedio del mer-
cado bursátil. Si para un fondo de inversión la pendiente de su recta carac-
terı́stica es significativamente distinta de cero, se dice que ese fondo es muy
sensible a las fluctuaciones de la bolsa de valores y por ende es una inver-
sión riesgosa. Si el fondo tiene una recta caracterı́stica con pendiente cercana
a cero se dice que es una inversión estable y de poco riesgo. La redituabili-
dad tanto del fondo “Penn Square Mutual”como la promedio en el mercado
bursátil se observó en el periódo 1964 a 1973 y se dan en la tabla siguiente.
Año 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
P. Square 18.4 29.7 -12.3 10.8 23.6 -16.2 5.8 7.2 7.7 -8.8
p. en m. 12.9 9.1 -13.1 20.1 7.7 -11.4 .1 10.8 15.6 -17.4
a) Encuentre la “recta caracterı́stica”del fondo “Penn Square Mutual”(esto es,
la recta de regresión de la redituabilidad del fondo sobre la redituabilidad prome-
dio).
b) Grafique los puntos y la recta de regresión para verificar sus cálculos.
c) Describa el tipo de riesgo asociado a invertir en el “Penn Square Mutual”(esto
es, pruebe la hipótesis β1 = 0; use α = 0.05).
Tabla 4.3: Datos.

d) Encuentre un intervalo confidencial del 95 % para la pendiente de la recta

caracterı́stica del fondo “Penn Square Mutual”.
4. Un experimento de mercados se realizó para estudiar la relación entre el tiempo

que requiere un comprador para decidirse en su compra y el número de pre-
sentaciones distintas del producto exhibidas. Las marcas se eliminaron de los
productos para reducir el efecto de las preferencias a determinadas marcas. Los
compradores seleccionaron los artı́culos basados exclusivamente en las descrip-
ciones y diseños de las presentaciones de cada producto. El tiempo utilizado
hasta llegar a una selección fue registrado para los 15 participantes en el estu-
dio.
Tiempo requerido (en seg.) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9

Numero de laternativas (presentaciones) 2 3 4
a) Encuentre la recta de mı́nimos cuadrados para esos datos.

b) Grafique los puntos y la recta para verificar sus cálculos.
c) Calcule s2 .
d)¿Presentan los datos suficiente evidencia evidencia que indique que el tiem-
po requerido para decidir está linealmente relacionado al número de presenta-
ciones? (Pruebe al nivel α = 0.05).
5. La siguiente tabla contiene la lista del número de casos de tuberculosis (por

cada 100000 habitantes) en el estado de Florida durante la década que va de
1967 a 1976. ¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis
decrece en tal periodo? Utilice α = 0.05. (Se pueden codificar los años de la
manera que se considere conveniente.)
6. Las medianas de los precios de ventas de casas nuevas para una sóla familia
durante un periodo de 8 años se indican en la tabla siguiente. Sea y la mediana
de los precios de venta y x el año (representado con números enteros, 1,2,...,8),
4.6 Ejercicios 135
ajuste el modelo y = β0 + β1 x + ε. ¿Qué se puede concluir con los resultados?.
Año Mediana del precio de venta (x 1000)

1972 (1) $27.6
1973 (2) 32.6
1974 (3) 35.9
1975 (4) 39.3
1976 (5) 44.2
1977 (6) 48.8
1978 (7) 55.7
1979 (8) 62.9
Conteste lo siguiente:
a) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios
de venta de casas nuevas para una sola familia se ha incrementado durante el
periodo de 1972 a 1979, con un nivel de significancia de 0.01?
b) Estime el incremento anual esperado en la mediana de los precios de venta
al construir un intervalo de confianza de 99 %.
7. Se llevó a cabo un estudio de la cantidad de azúcar refinada mediante un cierto

proceso a varias temperaturas diferentes. Los datos se codificaron y registraron
en el siguiente cuadro:
Temperatura Azúcar refinada

1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
a) Determine el modelo de regresión lineal simple.

b) Calcule la cantidad promedio de azúcar refinada que se produce cuando la
temperatura codificada es 1.75.
c) Determine un intervalo de confianza del 95 % para el parámetro βˆ1 .
d) Prueba H0 : βˆ1 = 0 vs Ha : βˆ1 6= 0.
e) Encuentre un intervalo de predicción del 95 % para un valor particular de
azúcar refinada cuando la temperatura es 1.75.
8. Los siguientes datos presentan el número promedio de bacterias que sobreviven

4.6 Ejercicios 137
en un producto alimenticio enlatado y los minutos de exposición a una tempe-

ratura de 300◦ F .
Número de bacterias Minutos de exposición

175 1
108 2
95 3
82 4
71 5
50 6
49 7
31 8
28 9
17 10
16 11
11 12
a) Dibuje el diagrama de dispersión de los datos.

b) Identifique el modelo apropiado para estos datos (es lineal o exponencial) y
estime los parámetros de dicho modelo.
9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los
consumos de energı́a (en miles de kilowatts-hora, kwh) y el número de habita-
ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas
produjo lo siguiente:
Num.de habitaciones Consumo

12 9
9 7
14 10
6 5
10 8
8 6
10 8
10 10
5 4
7 7
a) Dibuje el diagrama de dispersión. Explique,
b) Ajuste un modelo de regresión lineal simple a estos datos,
c) Estime el consumo promedio para una casa con 11 habitaciones,
d) Pruebe la significancia del modelo con α = 0.05,
c) Determine un intervalo de confianza del 95 % para el consumo promedio

cuando una casa tiene 11 habitaciones.
4.7. Regresión lineal multiple

Un modelo de regresión que involucre mas de una variable independiente se llama
modelo de regresión multiple.
El modelo de regresión lineal múltiple con k variables está dado por:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε (4.3)
Los βi i = 0, . . . , k se llaman coeficientes de regresión.

Ajuste del modelo de regresión lineal mediante matrices.
4.7 Regresión lineal multiple 139
Supongamos que tenemos el modelo de regresión lineal (4.3) y hacemos n observa-

ciones y1 , y2 , . . . , yn . Entonces, cada observación yi se escribe como
yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + εi
xij es la j-ésima variable independiente para la i-ésima observación (i = 1, . . . , n).

Ahora, definimos las matrices
 
  x x11 x12 · · · x1k
y1  0 
  x x21 x23 · · · x2k 
y   0 
 2  
Y =. y X=
 x0 x31 x33 · · · x3k 

 ..  . .. .. .. 
   .. ..
 . . . . 

yn
x0 xn1 xn2 · · · xnk
con x0 = 1    
β0 ε1
   
β  ε 
 1  2
β=. y ε=.
 ..   .. 
   
βk εk
Las n ecuaciones que representan a las n observaciones yi se pueden escribir como:
Y = Xβ + ε
Ahora, las ecuaciones de mı́nimos cuadrados ordinarios están dadas por
X t X β̂ = X t Y
donde  
β̂0
 
β̂ 
 1
β̂ =  . 
 .. 
 
β̂k
Entonces β̂ = (X t X)−1 X t Y .
Por lo tanto, el modelo ajustado es
ŷ = X β̂ = X(X t X)−1 X t Y
Ejercicio 4.7.1. Dados los siguientes datos
x 0 1 2 3 4 5 6
y 1 4 5 3 2 3 4
a) Ajuste el modelo cuadrático
E(y/x) = β0 + β1 x + β2 x2
b) Estime y cuando x = 2
Solución:
a) Sea x1 = x y x2 = x2 , entonces y = β0 + β1 x1 + β2 x2 . Ahora,
 
1 0 0
 
1 1 1
   
 
1 2 4 1 1 1 1 1 1 1
   
 
X = 1 3 9 y Xt = 
0 1 2 3 4 5 6 

 
1 4 16 0 1 4 9 16 25 36
 
 
1 5 25
 
1 6 36
entonces
 
1 0 0
 
1 1 1
 

 
 
1 1 1 1 1 1 1  1 2 4 7 21 91
 
   
X X=
t
0 1 2 3 4 5 6  
 1 3 9= 21 91 441  
 
0 1 4 9 16 25 36 
1 4 16 91 441 2275
 
1 5 25
 
1 6 36
4.7 Regresión lineal multiple 141
Calculando la inversa de X t X
 
7 21 91 | 1 0 0
  P ant = 1
(X t X)−1 =
21 91 441 | 0 1 0 
 ∼
P act = 7
91 441 2275 | 0 0 1
 
7 21 91 | 1 0 0 
  P ant = 7
0 196 1176 | −21 7 0 ∼
  
P act = 196
0 1176 7644 | −91 0 7
 
196 0 −980 | 91 −21 0 
  P ant = 196
 0 196 1176 | −21 7 0  ∼
  
P act = 16464
0 0 16464 | 980 −1176 196
 
16464 0 0 | 12544 −7644 980
 
 0 16464 0 | −7644 7644 −1176
 
0 0 16464 | 980 −1176 196
dividiendo todo el arreglo anterior entre el último Pact
 
1 0 0 | 16/21 −13/28 5/84
 
0 1 0 | −13/28 13/28 −1/14
 
0 0 1 | 5/84 −1/14 1/84
Por lo tanto,
 
16/21 −13/28 5/84
 
(X t X)−1 = 
−13/28 13/28 −1/14

5/84 −1/14 1/84
Ahora bien,
 
1
 
4
  
 

16/21 −13/28 5/84 1 1 1 1 1 1 1 5
    
β̂ = (X t X)−1 X t Y =     3
−13/28 13/28 −1/14 0 1 2 3 4 5 6    

5/84 −1/14 1/84 0 1 4 9 16 25 36 2


 
3
 
4
 
2.4062
 
= 0.7143 

−0.09524
Por lo tanto, β̂0 = 2.4062, β̂1 = 0.7143 y β̂3 = −0.09524. Entonces, el modelo de
predicción es
ŷ = 2.4062 + 0.7143x − 0.09524x2 .
b) E(y/x = 2) = 2.4062 + 0.7143(2) − 0.09524(2)2 = 3.4538.
Ejercicio 4.7.2. Se llevó a cabo un experimento para determinar la distancia de fre-

nado a diferentes velocidades de un modelo nuevo de automóvil. Se registraron los
siguientes datos:
Velocidad 35 50 65 80 95 110
Distancia de frenado 16 26 41 62 88 119
a) Ajuste una curva de regresión múltiple de la forma E(y/x) = β0 + β1 x + β2 x2
b) Estime la distancia de frenado cuando el vehı́culo viaja a la velocidad de 70 kmh
Solución:
Capı́tulo 5
Habilidades básicas
I.- Complete los siguientes:
1. Comprende las técnicas que se emplean para resumir y describir datos numéri-
cos, de tipo grafico, o que requieren análisis computacional.
2. En base a que, en una muestra sometida a observación sirven para tomar deci-
siones.
3. Si cuento como observaciones el número de alumnos del grupo, se refiere a

variable:
4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:
5. Los métodos de muestreo aleatorio son:
6. ¿Cuándo aplico muestreo de juicio?
7. ¿Cuándo aplico muestreo por conveniencia?
8. ¿Cuándo aplico muestreo por subgrupos racionales?
9. ¿Cuándo aplico muestreo sistemático?

144 Habilidades básicas
10. ¿Cuándo aplico muestreo estratificado?
II.- Instrucciones: Realiza los siguientes ejercicios
11. Con los siguientes datos Datos:
1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94
a) Construye una tabla de distribución de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersión.
c) Realiza las gráficas de: histograma (o gráfica de barras según convenga),

pastel, polı́gono de frecuencias.
12. Con los siguientes datos
10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100

13. Con los siguientes datos
50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11

III.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los

conocimientos adquiridos en estadistica descriptiva
145
14. Se ocupa una vez hecha la recopilación de los datos, ordenarlos y clasificarlos
para extraer conclusiones:
15. Estudia las técnicas de ordenación, clasificación, recuento y presentación de

datos en tablas y gráficas, y de obtener valores que resuman la información:
16. Es el conjunto de elementos que poseen una determinada caracterı́stica que

deseamos medir o estudiar:
17. Es la selección de un subconjunto de la población:
18. Al n0 de elementos de una muestra se le denomina:
19. Es la caracterı́stica que se va a estudiar en la población:
20. Son aquellas que se pueden cuantificar, como la edad, peso, n0 de hijos, etc.
Además es una de las divisiones de carácter:
21. Es el conjunto de valores que toma un carácter estadı́stico:
22. Son las representaciones que se hacen cuando la variable es continua:
23. Es la representación que se usa cuando la variable es cualitativa, por ejemplo

color del coche, aunque también se puede usar en variable discreta:
IV.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los

conocimientos adquiridos en Regresión.
24. ¿Qué es una lı́nea de regresión?
25. ¿Cómo se utilizan las lı́neas de regresión?
26. Compare los términos “variable dependiente”y “variable independiente”.
27. ¿Qué mide r2 ?

28. ¿Qué ventaja tiene la regresión múltiple con respecto a la regresión lineal?¿Qué desven-
tajas?
29. ¿Cómo determinarı́a cuál de las dos técnicas: la de regresión lineal o la múltiple
serı́a la más apropiada para una situación determinada?
30. Compare la finalidad del análisis de regresión con la del análisis de correlación.
31. ¿Porqué es importante trazar un diagrama de dispersión para técnicas de regre-

sión o correlación de dos variables?
32. ¿Qué significa un signo − antes de r?¿Antes de β1 ?
33. En la mayorı́a de las aplicaciones en negocios, ¿qué técnica es más útil la de

correlación o la de regresión?¿Por qué?
V.- Usando las técnicas de Regresión Lineal, resuelve los siguientes:
34. Dada la siguiente distribución:
X 2 2 2 4 7 7 10 10
Y 3 4 5 5 4 5 3 5
Determina la recta de regresión de Y sobre X.
35. En el servicio central de turismo del paı́s se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el
total de plazas ocupadas en un año se tiene:
Precio (U S$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000
N0 hab. ocup. 4725 2610 1872 943 750 700 700 580 500
a) Representa los datos gráficamente, para comprobar que existe cierta depen-
dencia lineal entre las variables.
147
b) Halla la ecuación de la recta de regresión del número de habitaciones sobre

el precio. Halla la ecuación de la recta de regresión del precio sobre el
número de habitaciones.
c) ¿Cuántas habitaciones se llenarı́an a 1500 U S$?
36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el
periodo 77 − 86 fueron:
Año 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
a) Recta de regresión considerando el ahorro como variable independiente.
b) Recta de regresión considerando la renta como variable independiente
c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el
ahorro esperado para el año 87?
37. Los datos de la tabla adjunta muestran el tiempo en horas de impresión de tra-
bajos que se han imprimido en una impresora láser de la marca HP . Se está in-
teresado en estudiar la relación existente entre la variable de interés “tiempo
de impresión de un trabajo ”y la variable explicativa “número de páginas del
trabajo ”.
Tiempo 1 2 3 4 5 6 7 8
N0 Páginas 600 900 1400 1800 2500 3200 3400 4500
a) Encuentre la recta de regresión considerando el tiempo como variable inde-

pendiente.
b) Encuentre la recta de regresión considerando el número de páginas como

variable independiente
c) Estime cuántas paginas se imprimirı́an en 12 horas.

VI.- Usando las técnicas de Regresión Múltiple, resuelve los sigu-

ientes:
[?]
Bibliografı́a

Binder 1

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Binder 1

Загружено:

Авторское право:

Доступные форматы

Probabilidad y Estadística 10 de Octubre del 2014

Distribuciones discretas de probabilidad

1. Un embarque de 20 computadoras portátiles similares para una tienda

Definición 1. Distribución de probabilidad acumulada

2. Ver ejemplo de emparejamiento de cascos.

Distribuciones de probabilidad de una variable aleatoria continua

3. Suponga que ( ) { . Encuentre la función de densidad

4. Suponga que el error en la temperatura de reacción, en °C, en un

a) Verifique que ( ) es una función de densidad

5. Calcule ( ) para la función de densidad del ejemplo 4 y utilice el

6. Si es una variable aleatoria continua con función de densidad de

7. Dada ( ) y ( ) en otro caso, encuentre el valor de

2.- El departamento de energía asigna proyectos mediante licitación y, por lo

Calcule ( ) y utilice el resultado para determinar la probabilidad de que la

3.- Suponga que Y tiene la función de densidad

a. Calcule el valor de c que convierte a f(y) en una función de

a. Encuentre la distribución de probabilidad para el numero de

a. Trace la gráfica de f(y)

6.- Un abastecedor de queroseno tiene un tanque de 150 galones que llena a

Ejemplo 1. Un inspector de calidad obtiene una muestra de un lote que contiene 7

Sea ( ) la cantidad de dinero en dólares que el administrador paga al operador.

Ejemplo 4. Sea una variable aleatoria con función de densidad

Calcule el valor esperado de ( )

Ejemplo 5. Sean y variables aleatorias con la distribución de probabilidad conjunta que

Ejemplo 6. Calcule ( ) para la siguiente función de densidad

Varianza de una variable aleatoria

Ejemplo 7: sea que la variable aleatoria Y represente el número de automóviles que se

Y para la compañía B es:

Demuestre que la varianza de la distribución de probabilidad para la compañía B es mayor

Teorema 2. Ejercicio: Demuestre el teorema.

Ejemplo 8. Sea la variable aleatoria Y que represente el número de partes defectuosas de

Calcule el valor esperado para la demanda semanal de la bebida.

1. La variable aleatoria , que representa el número de pedacitos de chocolate en un

Encuentre la media y la varianza de la variable aleatoria.

4. Y tiene la función de densidad

Calcule la media y la varianza de Y.

5. En ciertas muestras minerales, la proporción de impurezas por muestra, Y, es una

Cada muestra tiene un valor en dólares de . Calcule la media y la

6. La temperatura Y a la que un interruptor eléctrico controlado por un termostato

7. La proporción de tiempo Y que un robot industrial funciona en una jornada laboral

Cuyas medidas se expresan en cientos de calorías. Determine la radiación solar

10. Calcule la varianza de ( ) , donde Y es una variable aleatoria con

11. El número de repuestos azules y el número de repuestos rojos , cuando dos de

9. En un estudio de economía de combustibles, se prueban 3 carros de carreras con 5

Pag.24 Reglas aditivas

Ejemplo 1.27 La probabilidad de que Paula apruebe matemáticas es de 2/3 y la de que

Ejemplo 1.28 ¿Cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par

1- Encuentre los errores en cada de las siguientes aseveraciones:

(Murray) permutaciones 141.

c) El ultimo digito debe ser cero y sin repeticiones?

6.22- En una repisa se ordenaran 4 libros diferentes de matemáticas, 6 libros diferentes de

6.28- De un total de 5 matemáticos y 7 físicos, formara una comisión consistente de 2

6.30. Con 7 consonantes y 5 vocales, ¿Cuántas palabras, con 4 consonantes diferentes y 3

Probabilidad y análisis combinatorio

6.34 Determine la probabilidad de obtener 3 seis en 5 lanzamientos de un dado.

Reglas fundamentales de probabilidad (134 Murray)

a. En un lanzamiento de un dado resulta un número impar.

6.2 Un experimento consiste en lanzar una moneda y un dado. Si es el evento “cara” al

6.9 A y B juegan 12 partidas de ajedrez; A gana 6, B gana 4 y dos terminan en empate.

Mendenhall Probabilidad de un evento (puntos muestrales) 30

Ejemplo 2.1 una fabricante dispone de 5 terminales de computadora, en apariencia

a. Elabore una lista del espacio muestral para este experimento

2.9 Un espacio muestral consta de 5 eventos simples

a. ¿Cuáles son los eventos simples de este experimento?