Вы находитесь на странице: 1из 173

Probabilidad y Estadística 10 de Octubre del 2014

Variables aleatorias

Distribuciones discretas de probabilidad

Ejemplo

1. Un embarque de 20 computadoras portátiles similares para una tienda


minorista contiene tres que están defectuosas. Si una escuela compra al
azar 2 de estas computadoras, calcule la distribución de probabilidad
para el número de computadoras defectuosas.

Definición 1. Distribución de probabilidad acumulada

Ejemplo:

2. Ver ejemplo de emparejamiento de cascos.

Distribuciones de probabilidad de una variable aleatoria continua

Definición 2.

Definición 3.

Ejemplo:

3. Suponga que ( ) { . Encuentre la función de densidad

de probabilidad de y grafíquela.

Definición 4.

Ejemplo:

4. Suponga que el error en la temperatura de reacción, en °C, en un


experimento de laboratorio controlado, es una variable aleatoria
continua que tiene la función de densidad de probabilidad

( ) {

a) Verifique que ( ) es una función de densidad


b) Calcule ( )
1
Probabilidad y Estadística 10 de Octubre del 2014

Definición 5.

Definición 6.

Ejemplo:

5. Calcule ( ) para la función de densidad del ejemplo 4 y utilice el


resultado para calcular ( )

Ejemplo:

6. Si es una variable aleatoria continua con función de densidad de


probabilidad dada por

( ) {

Encuentre ( ) y grafique ( ) y ( )

Ejemplo:

7. Dada ( ) y ( ) en otro caso, encuentre el valor de


para el cual ( ) es una función de densidad válida. Calcule (
)y ( ).

Ejercicios:

1.- Determine el valor de de modo que cada uno de las siguientes funciones
sirva como distribución de probabilidad de una variable aleatoria discreta

a. ( ) ( ), para
b. ( ) ( )( ), para

2.- El departamento de energía asigna proyectos mediante licitación y, por lo


general, estima lo que debería ser una licitación razonable. Sea b el estimado.
El departamento de energía determinó que la función de densidad de la
licitación ganadora (baja) es

( ) {

2
Probabilidad y Estadística 10 de Octubre del 2014

Calcule ( ) y utilice el resultado para determinar la probabilidad de que la


licitación ganadora sea menor que la estimación preliminar de b del
departamento de energía.

3.- Suponga que Y tiene la función de densidad

( ) {

a. Calcule el valor de c que convierte a f(y) en una función de


densidad de probabilidad
b. Encuentre F(y)
c. Trace la gráfica de f(y) y F(y)
d. Utilice F(y) para determinar P(1≤Y≤2)

4.- Un hotel hace una compra al azar de tres televisores, a una tienda que tiene
7 de estos aparatos de los cuales 2 están defectuosos.

a. Encuentre la distribución de probabilidad para el numero de


televisores defectuosos comprados por el hotel
b. Encuentre la distribución acumulada para Y
c. Usando P(Y) encuentre P(Y=1) y P(0≤Y≤2)

5.- La duración de un transistor hasta que falla (en cientos de horas) es una
variable aleatoria Y con una función de distribución dada por:

( ) {

a. Encuentre f(y)
b. Calcule la probabilidad de que el transmisor funcione por lo menos 200
horas.
2) Una gasolinera funciona con dos bombas, cada una de las cuales
bombea 10 000 galones de gasolina al mes. El total de gasolina que
se despacha en un mes es una variable aleatoria Y (medida cada 10
000 galones) con una función de densidad de probabilidad dada
por

3
Probabilidad y Estadística 10 de Octubre del 2014

( ) {

a. Trace la gráfica de f(y)


b. Encuentre F(y) y grafíquela
c. Calcule la probabilidad de que en cierto mes se despachen entre 8000 y
12000 galones.

6.- Un abastecedor de queroseno tiene un tanque de 150 galones que llena a


principios de cada semana. La demanda semanal muestra un comportamiento de
frecuencia relativa que aumenta gradualmente hasta 100 galones y luego se
estabiliza en un nivel de entre 100 y 150 galones. Si denota la demanda
semanal en cientos de galones, la frecuencia relativa de demanda se puede
representar mediante el modelo

( ) {

a. Trace la gráfica de ( )
b. Encuentre ( ) y grafíquela
c. Calcule la probabilidad de que en cierto mes se despachen
entre 8000 y 12000 galones.
d. Si en un mes particular la gasolinera bombea más de 10000
galones, calcule la probabilidad de que ésta despache más
de 15000 galones durante un mes.

4
Valor Esperado de una variable aleatoria

Definición 1.

Ejemplo 1. Un inspector de calidad obtiene una muestra de un lote que contiene 7


componentes; el lote contiene 4 componentes buenos y 3 defectuosos. El inspector toma
una muestra de 3 componentes. Calcule el valor esperado del número de componentes
buenos en esta muestra.

Ejemplo 2. Sea la variable aleatoria que denota la vida en horas de cierto dispositivo
electrónico. La función de densidad de probabilidad es

( ) {

Teorema 1.

Ejemplo 3. Suponga que el número de automóviles que pasa por un local de lavado de
autos entre las 4:00 P.M. y las 5:00 P.M. de cualquier viernes soleado tiene la siguiente
distribución de probabilidad:

4 5 6 7 8 9

( )

Sea ( ) la cantidad de dinero en dólares que el administrador paga al operador.


Calcule las ganancias esperadas del operador en este periodo específico.

Ejemplo 4. Sea una variable aleatoria con función de densidad

( ) {

Calcule el valor esperado de ( )

Definición 2.

Ejemplo 5. Sean y variables aleatorias con la distribución de probabilidad conjunta que


se indica en la tabla. Calcule el valor esperado de ( ) .

Totales por
( )
0 1 2 renglón
0 3/28 9/28 3/28 15/28
1 3/14 3/14 0 3/7
2 1/28 0 0 1/28

1
Totales por columna 5/14 15/28 3/28 1

Ejemplo 6. Calcule ( ) para la siguiente función de densidad

( )
( ) {

Varianza de una variable aleatoria

Definición 3.

Ejemplo 7: sea que la variable aleatoria Y represente el número de automóviles que se


utilizan para propósitos de negocios en un día cualquiera de trabajo. La distribución de
probabilidad para la compañía A esta dada por:

1 2 3
( ) 0.3 0.4 0.3

Y para la compañía B es:

0 1 2 3 4
( ) 0.2 0.1 0.3 0.3 0.1

Demuestre que la varianza de la distribución de probabilidad para la compañía B es mayor


que la compañía A.

Teorema 2. Ejercicio: Demuestre el teorema.

Ejemplo 8. Sea la variable aleatoria Y que represente el número de partes defectuosas de


una máquina cuando tres de ellas se seleccionan de una línea de producción y se prueban.
La siguiente es la distribución de probabilidad de Y.

0 1 2 3
( ) 0.51 0.38 0.10 0.01
Use el Teorema 2 y Calcule .

Ejemplo 9. La demanda semanal de una bebida para una cadena local de tiendas de
abarrotes, en miles de litros, es una variable aleatoria continua que tiene la siguiente
densidad de probabilidad

( )
( ) {

2
Calcule la media y la varianza de .

Teorema 3.

Teorema 4.

Ejemplo 10. La demanda semanal de una bebida para una cadena local de tiendas de
abarrotes, en miles de litros, es una variable aleatoria continua ( ) , donde
tiene la siguiente función de densidad

( )
( ) {

Calcule el valor esperado para la demanda semanal de la bebida.

Ejemplo 11. El gerente de una compañía petrolera planea adquirir una nueva máquina del
tipo A o B. Si denota el número de horas de funcionamiento diario, el número de
reparaciones diarias que se tienen que hacer a una máquina del tipo A es una variable
aleatoria con una media y una varianza iguales a . La cantidad de reparaciones diarias
que requiere una máquina del tipo B constituye una variable aleatoria con una media y
una varianza iguales a . El costo diario de operación de la máquina tipo A es de
( ) , y para la de tipo B es de ( ) . Suponga que las
reparaciones toman un mínimo de tiempo, y que cada noche las máquinas se alternan de tal
manera que funcionen como nuevas al comienzo del siguiente día. ¿Cuál de ellas reduce al
mínimo el costo diario esperado si un día laboral consta de a) 10 horas y b) 20 horas?

Ejercicios.

1. La variable aleatoria , que representa el número de pedacitos de chocolate en un


pastel, tiene la siguiente distribución de probabilidad:

2 3 4 5 6
( ) 0.01 0.25 0.4 0.3 0.04

Encuentre la varianza de .

2. El periodo de tiempo, en minutos, que un aeroplano espera vía libre para aterrizar en
un cierto aeropuerto es una variable aleatoria ( ) , donde X tiene la
función de densidad

( ) {

Encuentre la media y la varianza de la variable aleatoria.

3
3. Si Y es una variable aleatoria cuya ( ) aparece en la tabla adjunta, encuentre
( ) ( ) ( ) y ( ).
1 2 3 4
( ) 0.4 0.3 0.2 0.1

4. Y tiene la función de densidad

( ) ( )( )
{

Calcule la media y la varianza de Y.

5. En ciertas muestras minerales, la proporción de impurezas por muestra, Y, es una


variable aleatoria cuya función de densidad es

( ) ( )
{

Cada muestra tiene un valor en dólares de . Calcule la media y la


varianza de .

6. La temperatura Y a la que un interruptor eléctrico controlado por un termostato


enciende, tiene una función de densidad de probabilidad dada por

( ) {

Encuentre ( ) y ( ).

7. La proporción de tiempo Y que un robot industrial funciona en una jornada laboral


de 40 horas es una variable aleatoria cuya función de densidad de probabilidad es
( ) {
a) Encuentre ( ) y ( )
b) En el caso del robot que se está estudiando, el rendimiento semanal X está dado
por la expresión . Determine ( ) y ( ).

8. La radiación solar total diaria que incide en una zona específica en el mes de
octubre tiene una función de densidad de probabilidad dada por

( ) ( )( )( )
{

Cuyas medidas se expresan en cientos de calorías. Determine la radiación solar


esperada para octubre.

4
9. El pH de unas muestras de agua de cierto lago es una variable aleatoria Y cuya
función de densidad de probabilidad está dada por

( ) ( )( )
{

Encuentre ( ) y ( ).

10. Calcule la varianza de ( ) , donde Y es una variable aleatoria con


distribución de probabilidad

0 1 2 3
( )

11. El número de repuestos azules y el número de repuestos rojos , cuando dos de


ellos se seleccionan aleatoriamente de una cierta caja, se indica por la siguiente
distribución de probabilidad conjunta:

( ) ( )
0 1 2
0

( ) 1
Encuentre la covarianza de y .

5
17Myers. Técnicas de conteo

1. A los participantes en una convención se les ofrecen 6 recorridos por día para visitar
lugares de interés durante los 3 días de duración del evento. ¿En cuántas formas
puede una persona acomodarse para hacer algunos de ellos?
2. En un estudio médico, los pacientes se clasifican en 8 formas diferentes de acuerdo
con su tipo de sangre, u , y su presión sanguínea
(baja, normal o alta). Encuentre el número de formas posibles para clasificar a un
paciente.
3. Si un experimento consiste en lanzar un dado y después seleccionar aleatoriamente
una letra del alfabeto en inglés, ¿Cuántos puntos habrá en el espacio muestral?
4. Los estudiantes de un colegio privado de humanidades se clasifican como
estudiantes de primer año, de segundo, de penúltimo o de último, y también de
acuerdo con su sexo: hombres o mujeres. Encuentre el número total de
clasificaciones posibles para los estudiantes de este colegio.
5. Un determinado zapato se fabrica en 5 estilos diferentes y en 4 colores distintos para
cada uno. Si la zapatería desea mostrar clientela pares de zapatos en todos los estilos
y colores, ¿Cuántos pares diferentes deberán colocar en el aparador?
6. Un estudiante de primer año debe tomar un curso de ciencia, uno de humanidades y
otro de matemáticas. Si puede escoger entre cualquiera de 6 cursos de ciencia, 4 de
humanidades y 4 de matemáticas, ¿en cuántas formas puede acomodar su horario?
7. Un urbanista de una nueva subdivisión ofrece a los clientes prospectos para la
compra de una casa, la posibilidad de seleccionar cualquiera de 4 diseños diferentes,
3 sistemas de calefacción, cochera con puertas o sin ellas, y patio o pórtico.
¿Cuántos planes distintos están disponibles para el comprador?
8. Puede comprarse un medicamento para la cura del asma ya sea líquido, en tabletas o
en capsulas, a 5 diferentes fabricantes, y todas las presentaciones en concentración
regular o alta. ¿en cuántas formas diferentes puede un medico recetar la medicina a
un paciente que sufre de este padecimiento?

9. En un estudio de economía de combustibles, se prueban 3 carros de carreras con 5


diferentes marcas de gasolina, en 7 sitios se prueba en distintas regiones del país. Si
se utilizan 2 pilotos en el estudio y las pruebas se realizan una vez bajo cada
conjunto de condiciones, ¿Cuántas se necesitaran?

10.
a. ¿Cuántas permutaciones diferentes pueden hacerse con las letras de la
palabra columna?
b. ¿Cuántas de estas permutaciones empiezan con la letra m?
11. En cuantas formas pueden sentarse en una línea 4 niños y 5 niñas, si deben
colocarse alternadamente?

1
12. En un curso regional de deletreo, los 8 finalistas son 3 niños y 5 niñas. Encuentre el
número de puntos muestrales en el espacio S para el numero de ordenes posibles al
final del evento para:
a. Los 8 finalistas;
b. Las primeras 3 posiciones.
13. ¿En cuántas formas puede llenarse las 5 posiciones iniciales de un equipo de
baloncesto con 8 jugadores que pueden ocupar cualquiera de ellas?
14. Encuentre el número de formas en las cuales pueden asignarse 6 profesores a las 4
secciones de un curso introductorio de psicología, si ninguno cubre más de una
selección.
15. Se sacan 3 boletos de la lotería, de un grupo de 40, para el primero, segundo y tercer
premios. Encuentre el número de puntos muestrales en S para otorgarlos si cada
concursantes conserva solo un boleto.
16. ¿En cuántas formas pueden plantarse en círculo 5 árboles diferentes?
17. ¿En cuántas formas pueden acomodarse en un círculo los 8 vagones cubiertos de
una caravana proveniente de Arizona?
18. ¿En cuántas formas pueden plantarse, a lo largo de la línea divisoria de una
propiedad, 3 robles, 4 pinos y 2 arces, si no se distingue entre los arboles de la
misma clase?
19. Un colegio participa en 12 partidos de futbol en una temporada. ¿De cuantas
maneras puede el equipo terminar la temporada con 7 victorias, 3 derrotas y 2
empates?
20. ¿Cuántas formas hay de seleccionar a 3 candidatos de un total de 8 recién graduados
y con las mismas capacidades para ocupar vacantes en una firma contable?
21. En un estudio que realizaron en California, el decano Lester Breslow y el doctor
James Enstrom de la School Of Public Health de la University Of California en Los
Angeles, se concluyó que al seguir 7 sencillas reglas de salud, la vida de un hombre
puede alargarse, en promedio, 11 años y la de las mujeres, siete. Estas 7 reglas son:
no fumar, hacer ejercicio regularmente, tomar alcohol solo en forma moderada,
dormir siete u ocho horas, conservar un peso apropiado, desayunar y no comer entre
alimentos. ¿En cuántas formas puede una persona adoptar 5 de estas reglas:
a. Si actualmente las viola todas?
b. Si nunca toma bebidas alcohólicas y siempre desayuna?

Probabilidad de un evento 20

Ejemplo 1.22 Una moneda se lanza dos veces al aire. ¿Cuál es la probabilidad de que caiga
cuando menos una vez en cara?

Ejemplo 1.23 Se carga un dado de tal manera que un número par tiene el doble de
posibilidades de presentarse que un nom. Si E es el evento en el que se da un número
menor que 4 en un solo lanzamiento, encuentre P(E).

2
Ejemplo 1.24 En el ejemplo 1.23 sea A el evento de que el dado caiga en un número par y
B el evento de que resulte uno divisible entre 3. Encuentre ( ) y ( ).

Ejemplo 1.25 Una mezcla de dulces contiene 6 mentas, 4 chiclosos y 3 chocolates. Si una
persona realiza una selección al azar de uno de ellos, encuéntrese la probabilidad de
obtener: a) una menta, o b) un chicloso o un chocolate.

Pag.24 Reglas aditivas

Ejemplo 1.27 La probabilidad de que Paula apruebe matemáticas es de 2/3 y la de que


apruebe inglés es de 4/9. Si la probabilidad de que apruebe ambos cursos es de ¼, ¿Cuál es
la probabilidad de que Paula apruebe al menos uno de ellos?

Ejemplo 1.28 ¿Cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par


de dados?

Ejemplo 1.29 Si las probabilidades de que una persona, al comprar un nuevo automóvil,
seleccione el color verde, blanco, rojo o azul, son, respectivamente, 0.09, 0.15, 0.21 y 0.23
¿Cuál es la probabilidad de un comprador dado adquiera un automóvil en uno de esos
colores?

Pag.26 Ejercicios.

1- Encuentre los errores en cada de las siguientes aseveraciones:


a) Las probabilidades de que un vendedor de automóviles cierre 0,1,2 o 3
operaciones en cualquier día de febrero son, respectivamente, 0.19, 0.38, 0.29 y
0.15.
b) La probabilidad de que llueva mañana es de 0.40 y la de que no suceda es de
0.52.
c) La probabilidad de que una impresora cometa 0, 2, 3, 4 o más errores en la
impresión de un documento son, respectivamente, 0.19, 0.34,-0.25,0.43 y 0.29.
d) Al sacar una carta de juego, en un solo intento, de un paquete completo, la
probabilidad de que sea de corazones es ¼ , la de seleccionar una carta negra es
½ , y la de que resulte tanto negra como de corazones es 1/8.
2- Una caja contiene 500 sobres, 75 de los cuales contienen $100 en efectivo, 150 $25
y 275 $10. Cada uno puede comprarse al precio de $25. ¿Cuál es el espacio
muestral para los diferentes cantidades de dinero? Asigne probabilidades a los
espacios muestrales y después encuentre la probabilidad de que el primer sobre que
se compre contenga menos de $100.
3- Si A y B son eventos mutuamente excluyentes y P(A)= 0.3 y P(A)=0.5, encuentre:
a) ( );
b) ( );
c) ( ).

3
4- Si A,B y C son eventos mutuamente excluyentes y P(A)= 0.2, P(B)=0.3 y
P(C)=O.2, encuentre:
a) ( )
b) [ ( )]
c) ( )

(Murray) permutaciones 141.

6.17- ¿De cuantas maneras se pueden ordenar en fila 5 canicas de distintos colores?

6.18- ¿De cuantas maneras pueden sentarse 10 personas en una banca si solo 4 asientos
están disponibles?

6.20- Se necesita sentar a 5 hombres y 4 mujeres en fila, de tal manera que las mujeres
ocupen los lugares pares. ¿Cuántas formas hay de hacerlo?

6.21- ¿Cuántos números de cuatro dígitos se forman con los 10 digitos 0,1,2,3,…,9, si :

a) se permite repeticiones,

b) no se permiten repeticiones,

c) El ultimo digito debe ser cero y sin repeticiones?

6.22- En una repisa se ordenaran 4 libros diferentes de matemáticas, 6 libros diferentes de


física y dos libros diferentes de química. ¿Cuántas ordenaciones distintas son posibles si a)
los libros de cada materia deben ir juntos y b) solo los libros de matemáticas deben ir
juntos?

6.23- Cinco canicas rojas, dos blancas y tres azules se ordenan en una fila. Si no es posible
distinguir entre sí a las canicas del mismo color, ¿Cuántas posibles ordenaciones hay?

6.24-¿De cuantas maneras se pueden sentar 7 personas en torno a una mesa redonda si a)
pueden sentarse en cualquier parte y b) 2 personas no deben sentarse juntas?

Combinaciones 143

6.25- ¿De cuantas formas pueden dividirse 10 objetos en dos grupos que contengan 4 y 6
objetos, respectivamente?

6.27- ¿De cuantas maneras puede formarse una comisión de 5 personas, elegidas de entre
9?

6.28- De un total de 5 matemáticos y 7 físicos, formara una comisión consistente de 2


matemáticos y 3 físicos. ¿De cuantas maneras puede hacerse si a) cualquiera de los

4
matemáticos y físicos puede incluirse, b) un físico en particular debe estar en la comisión y
c) dos matemáticos en particular no pueden estar en la comisión?

6.29. Una niña tiene 5 flores, cada una de distinta variedad. ¿Cuántos ramos diferentes
puede formar?

6.30. Con 7 consonantes y 5 vocales, ¿Cuántas palabras, con 4 consonantes diferentes y 3


vocales diferentes, se pueden formar? No es necesario que las palabras tengan significado.

Probabilidad y análisis combinatorio

6.32 Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Si se extraen tres bolas al azar,
determine la probabilidad de que a) las 3 sean rojas, b) las 3 sean blancas, c) sean rojas y 1
blanca, d) al menos 1 sea blanca e) sea 1 de cada color y f) se extraigan en el orden roja,
blanca y azul.

6.33 se extraen cinco cartas de una baraja de 52 naipes bien mezclada. Calcule la
probabilidad de que a) 4 sean ases, b) 4 sean ases y 1 sea un rey, c) 3 sean diez y 2 sean
jacks, d) que sean 9, 10, Jack, reina y rey, obtenidos en cualquier orden, e) 3 sean de un
mismo palo y 2 sean de otro, y f) se obtenga al menos un as.

6.34 Determine la probabilidad de obtener 3 seis en 5 lanzamientos de un dado.

6.35 Una fábrica encuentra que, en promedio, 20% de las tuercas producidas por cierta
máquina son defectuosas. Si se seleccionan aleatoriamente 10 tuercas en la producción
diaria de la máquina, calcule la probabilidad de a) que exactamente 2 sean defectuosas, b)
que 2 o más sean defectuosas y c) que más de 5 sean defectuosas.

Reglas fundamentales de probabilidad (134 Murray)

6.1 Determine la probabilidad P, o un estimado de ésta, para cada uno de los siguientes
eventos:

a. En un lanzamiento de un dado resulta un número impar.


b. En dos lanzamientos, una moneda cae por lo menos una vez en cara.
c. Al sacar una sola carta de una baraja ordinaria de 52 naipes, bien mezclada, se
extraen un as, un 10 de diamantes o un 2 de espadas.
d. En un solo lanzamiento de una moneda, siendo que de 100 lanzamientos previos 56
fueron caras

6.2 Un experimento consiste en lanzar una moneda y un dado. Si es el evento “cara” al


lanzar la moneda y es el evento “3 o 6” al lanzar el dado, enuncie en palabras el
significado de lo siguiente:

a.

5
b.
c.
d. ( )
e. ( )
f. ( )

6.3 Se extrae al azar una bola de una caja que contiene 6 bolas rojas, 4 bolas blancas y 5
bolas azules. Determine la probabilidad de que la bola extraída sea a) roja, b) blanca, c)
azul, d) no roja y e) roja o blanca.

6.4 Un dado se lanza dos veces. Calcule la probabilidad de obtener 4,5 o 6 en el primer
lanzamiento y un 1, 2, 3 o 4 en el segundo.

6.5 Se extraen dos cartas de una baraja de 52 naipes bien mezclada. Calcule la probabilidad
de que ambas sean ases, si la primera carta a) se regresa a la baraja y b) no se regresa.

6.9 A y B juegan 12 partidas de ajedrez; A gana 6, B gana 4 y dos terminan en empate.


Ellos acuerdan jugar 3 partidas. Encuentre la probabilidad de que a) A gane las tres
partidas, b) dos sean empates, c) A y B ganen de forma alternada y d) B gane por lo menos
una partida.

Mendenhall Probabilidad de un evento (puntos muestrales) 30

Ejemplo 2.1 una fabricante dispone de 5 terminales de computadora, en apariencia


idénticas, para enviarlas por barco. Ella no lo sabe, pero dos de las 5 están defectuosas. Se
solicitan dos de las terminales y se procede a llenar la orden eligiéndolas aleatoriamente
entre las 5 disponibles.

a. Elabore una lista del espacio muestral para este experimento


b. Suponga que el evento A indica que la orden se llena con dos terminales no
defectuosas. Elabore una lista de los puntos muestrales de A
c. Asigne probabilidades a los eventos simples , de tal manera que se utilice la
información referente al experimento
d. Encuentre la probabilidad del evento A

2.9 Un espacio muestral consta de 5 eventos simples

a. Si ( ) ( ) ( ) y ( ) ( ), encuentre las
probabilidades de y
b. Si ( ) ( ) encuentre las probabilidades de los eventos simples
restantes si usted sabe que tienen la misma probabilidad

2.11 Los estadounidenses pueden ser muy suspicaces, sobre todo cuando se trata de
conspiraciones contra el gobierno. En relación con la pregunta de si la fuerza aérea de

6
Estados Unidos posee suficiente evidencia de la existencia de vida inteligente en otros
planetas, las proporciones de estadounidenses con distinta opinión aparecen en la siguiente
tabla.

Opinión Proporción
Muy probable 0.24
Poco probable 0.24
No probable 0.40
Otra 0.12
Suponga que se elige a un estadounidense y se registra su opinión.

a. ¿Cuáles son los eventos simples de este experimento?


b. Tienen la misma probabilidad los eventos simples del inciso a)? De no ser asi, ¿Qué
probabilidad debe asignarse a cada evento?
c. ¿Cuál es la probabilidad de que la persona elegida encuentre verosímil que la fuerza
aérea guarde información relacionada con vida inteligente en otros planetas?

2.13 Una próspera empresa petrolera extrae gas o petróleo en 10% de sus perforaciones. Si
la empresa perfora dos pozos, los cuatro eventos simples posibles y tres de sus
probabilidades asociadas figuran en la tabla que aparece a continuación

Evento simple Resultado de la Resultado de la Probabilidad


primera segunda
perforación perforación
Extracción(petróleo Extracción(petróleo 0.01
o gas) o gas)
Extracción No hubo extracción ?
No hubo extracción Extracción 0.09
No hubo extracción No hubo extracción 0.81

a. Encuentre la probabilidad de que la compañía extraiga petróleo o gas en la primera


perforación y no extraiga nada en la segunda
b. Encuentre la probabilidad de que la compañía extraiga gas o petróleo por lo menos
en una de las dos perforaciones

2.15 El montaje de plataformas para carga hidráulica ensambladas en unas instalaciones de


reciclaje de aviones se inspecciona para control de calidad. Los registros indican que 8% de
los montajes tiene defectos solo en los elevadores, 6% posee defectos solo en los cojinetes
de polea y 2% tiene defectos en los elevadores y los cojinetes. Se elige uno de los montajes
en forma aleatoria. ¿Cuál es la probabilidad de que el montaje tenga

a. Un defecto en los cojinetes de polea?

7
b. Defecto en los elevadores o en los cojinetes?
c. Exactamente una de las dos clases de defectos?
d. Ninguno de los dos defectos?

2.17 Una oficina de negocios ordena papel a uno de sus tres proveedores V1, V2, o V3.
Se atenderá una orden por día, en dos días sucesivos. Así (V2,V3) podría representar el
hecho de que el proveedor V2 recibe la orden el primer día y el proveedor V3 recibe la
orden el segundo día.

a. Elabore una lista de los puntos muestrales del experimento que implica ordenar
papel dos días sucesivos
b. Suponga que los proveedores se eligen al azar cada día y asigne una probabilidad a
cada punto muestral
c. Imagine que A representa el evento de que el mismo proveedor recibe las dos
órdenes y B el evento que indica que el proveedor V2 recibe por lo menos una
orden. Encuentre P(A), P (B), ( )y ( ) sumando las probabilidades de
los puntos muestrales de estos eventos.

34

Ejemplo 2.2 Considere el problema de elegir dos solicitantes de empleo de un grupo de 5 e


imagine que los candidatos difieren en su grado de capacidad: el 1 es el mejor, el 2 el
siguiente en habilidad, y así sucesivamente en el caso 3, 4 y 5. Por supuesto que estas
calificaciones las desconoce el patrón. Defina los dos eventos A y B como:

A: El patrón elige al mejor y a uno de los dos menos competentes (solicitantes 1 y 4 o 1 y


5)

B: El patrón elige por lo menos uno de los dos mejores

Determine las probabilidades de estos eventos

Ejemplo 2.3 Una moneda perfecta se lanza tres veces. Calcule la probabilidad de obtener
cara en dos de los tres lanzamientos.

Ejemplo 2.4 Cuando A juega tenis contra B, las probabilidades de que gane A son de dos a
una. Suponga que A y B juegan dos partidos. ¿Cuál es la probabilidad de que A gane por lo
menos un partido?

38

2.20 Cuatro personas con las mismas habilidades solicitan dos puestos iguales en una
empresa. Solo un candidato pertenece a un grupo minoritario. Los puestos se ocupan
eligiendo al azar dos de los candidatos.

8
a. Elabore una lista de los posibles resultados de este experimento
b. Asigne probabilidades razonables a los puntos muestrales
c. Encuentre la probabilidad de que le candidato que pertenece a un grupo minoritario
sea elegido para un puesto

2.21 En un juicio penal se necesitan dos personas para un jurado. Hay seis candidatos para
integrarlo, 2 mujeres y 4 hombres. Se eligen al azar dos miembros de los 6 disponibles.

a. Defina el experimento y describa un punto muestral. Suponga que usted necesita


describir exclusivamente a los dos miembros que se eligió para integrar el jurado y
no el orden en que fueron seleccionados.
b. Elabore la lista del espacio muestral asociado con este experimento.
c. ¿Cuál es la probabilidad de que dos de los miembros del jurado sean mujeres?

2.23 Un furgón contiene 6 sistemas electrónicos complejos. Se elegirán aleatoriamente 2 de


los 6 para someterlos a una prueba y clasificarlos según estén defectuosos o no.

a. Si 2 de los 6 sistemas en realidad tienen defecto, determine la probabilidad de que


por lo menos uno de los dos sistemas probados estará defectuoso. Encuentre la
probabilidad de que ambos tengan defecto.
b. Si 4 de los 6 sistemas se encuentran defectuosos, determine las probabilidades
indicadas en el inciso a)

9
Apuntes de Estadı́stica para LCEA

M.C.M.A. Gladys del Carmen Velázquez López


UPGM
Versión 1

10 de enero de 2011
2

.
Índice general

Introducción 5

1. Introducción a la Estadı́stica 6
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Definición de estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. ¿Para que estudiamos estadı́stica? . . . . . . . . . . . . . . . . . . . . 9
1.4. Terminologı́a estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Notación de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2. Estadı́stica descriptiva 23
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Datos estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Organización de datos mediante tablas . . . . . . . . . . . . . 24
2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1. Obtención de los intervalos y lı́mites de clases . . . . . . . . . 26
2.4. Presentación gráfica de datos . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 ÍNDICE GENERAL

2.6.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 40


2.7. Medidas de tendencia central y de dispersión para datos agrupados . 44
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3. Muestreo 64
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66
3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67
3.3. Tabla de números aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70
3.4. Estimación basada en una muestra aleatoria simple . . . . . . . . . . 75
3.5. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . 81
3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4. Regresión lineal y multilineal 106


4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.2. Estimación de los coeficientes del modelo por mı́nimos cuadrados . . 110
4.3. Supuestos adicionales para los estimadores de mı́nimos cuadrados . . 115
4.4. Inferencias relativas a la pendiente β1 de una recta . . . . . . . . . . 116
4.5. Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.7. Regresión lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . 138

5. Habilidades básicas 143

Bibliografı́a 149
Introducción

Llegará un dı́a en el que el razonamiento estadı́stico será tan necesario


para el ciudadano como ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)

La creciente complejidad de la sociedad moderna ha provocado incertidumbre en las


mentes de muchas personas en posiciones de mando. Aún ası́, deben de tomar deci-
siones relativas a sus funciones diarias y planes para el futuro, ya sea que estén en
negocios, gobierno o en cualquier otra institución. La Estadı́stica es una herramienta
intelectual con la cual pueden tomarse decisiones racionales; y en realidad ha habido
un énfasis creciente en los enfoques cuantitativos a los problemas administrativos du-
rante las últimas décadas. La estadı́stica ha respondido a las necesidades de nuestro
tiempo y se ha desarrollado como una disciplina práctica para auxiliar a los adminis-
tradores en el proceso de toma de decisiones.

El objeto fundamental de la edición de este documento es facilitar a los alumnos de


licenciatura en comercio exterior y aduanas de la universidad politécnica del golfo de
méxico el desarrollo de los contenidos teóricos de la asignatura Estadı́stica. Desde un
punto de vista menos local, espero que sea útil, en alguna medida, a todo aquel que
necesite conocimientos básicos de las técnicas estadı́sticas más usuales en el ambiente
cientı́fico-tecnológico.
Capı́tulo 1

Introducción a la Estadı́stica

1.1. Introducción
Para la gente común y corriente la estadı́stica significa números. En el periódico de la
mañana se pueden encontrar las estadı́sticas más recientes sobre los delitos de la ciu-
dad: número de asesinatos, robos de automóviles, asaltos y demás delitos que hayan
sido denunciados en determinado periodo de tiempo; o las más recientes estadı́sticas
acerca de la mano de obra en el paı́s: por ejemplo, el número de desempleados; o
las últimas estadı́sticas sobre el número de nacimientos y muertes que han ocurrido
durante cierto periódo de tiempo.
Los ejemplos anteriores forman parte del concepto total de Estadı́stica, pero dicha
palabra tiene un concepto mas amplio para las personas que tienen conocimiento de
los aspectos técnicos. Para estas personas, la estadı́stica tiene relación con aquellos
conceptos y técnicas que se emplean en la recopilación, organización, resumen, análi-
sis, interpretación y comunicación de información numérica.
Generalmente se diseña una serie de trabajos para alcanzar uno de los siguientes
objetivos, o ambos.

1. Describir cuantitativamente una serie de personas lugares o cosas. (Estadı́stica


descriptiva).
1.2 Definición de estadı́stica 7

2. Dar información de la que se puedan sacar conclusiones acerca de un gran número


de personas, lugares o cosas mediante la observación de una pequeña parte del
conjunto total. (Estadı́stica Inferencial: Predecir y decidir).

El capı́tulo incluye una introducción del término Estadı́stica y presenta los conceptos
más básicos relativos a poblaciones y muestras.

1.2. Definición de estadı́stica


¿Que es la estadı́stica?. La estadı́stica es un conjunto de procedimientos que sirven
para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los
resultados de una manera clara concisa y significativa. También podemos entender la
estadı́stica como la ciencia que permite responder a ciertas preguntas basándose en
datos empı́ricos, es decir, en datos que se originan de la observación o de la experiencia.
Ası́, diremos que es la ciencia que tiene que ver con los métodos que dan respuesta a
determinadas cuestiones mediante la recolección, análisis e interpretación apropiada
de datos empı́ricos, ası́ como del proceso de toma de desiciones acerca del sistema del
cual fueron obtenidos los datos.

Definición 1.2.1. La Estadı́stica es la ciencia que se ocupa de los métodos cientı́fi-


cos para recolectar, organizar, resumir, presentar y analizar datos, ası́ como sacar
conclusiones válidas y tomar desiciones con base en este análisis.

Para su estudio la estadı́stica se divide en tres ramas que son:

Estadı́stica descriptiva: Es un conjunto de procedimientos que sirven para


organizar, describir y sintetizar datos sin que las conclusiones que se extraigan
de estas rebasen su ámbito especı́fico, es decir, se busca únicamente describir y
analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de
un grupo mas grande. Generalmente los datos en una muestra pueden escribirse
de tres maneras:
8 Introducción a la Estadı́stica

Descripción tabular: Elaboración de tablas para distribuciones de frecuen-


cia;

Descripción gráfica: Construcción de esquemas, histogramas, ojivas, polı́gonos


de frecuencia, etc. La gráfica describe de una manera mas objetiva la na-
turaleza de los rasgos;

Descripción aritmética: Cálculo del número, rango, media, moda, mediana,


etc.

El ı́ndice de desempleo, el costo de la vida, la precipitación pluvial, el rendimien-


to medio de un auto en kilómetros por litro y los promedios de calificación,
quedan todos en esta categorı́a.

Estadı́stica inferencial: Es un conjunto de procedimientos que se emplean


para hacer inferencias y generalizaciones respecto a una totalidad partiendo
del estudio de un número limitado de casos tomados de ésta última. Es decir,
consiste en el análisis e interpretación de una muestra de datos. El muestreo
es un ejemplo vivo del dicho “no tienes que comerte todo el pastel para saber
si te gusta”. Por lo tanto, la idea básica en el muestreo es medir una porción
pequeña, pero tı́pica, de alguna “población ”, y posteriormente utilizar dicha
información para inferir que caracterı́sticas tiene la población total.
En la industria y los negocios hay muchas formas de aplicar este concepto. Por
ejemplo, un estudio cinematográfico somete a diversas pruebas a algunos actores
y actrices antes de decidir quien interpretará cada papel, las fábricas suelen
producir un pequeño número de piezas (producción piloto) antes de pasar a la
producción a gran escala. Muchas compañı́as almacenan cientos de artı́culos en
inventario y, mediante técnicas de muestreo, pueden estimar su valor en unidades
monetarias sin tener que contar por completo todos sus artı́culos. Algunas veces
se llevan a a cabo estudios de mercado de los nuevos productos en ciudades
claves, para establecer el grado de aceptación por el consumidor. Las empresas
privadas y las dependencias gubernamentales realizan muestreos por múltiples
1.3 ¿Para que estudiamos estadı́stica? 9

razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar
datos y analizar los resultados cuesta dinero y, generalmente, cuantos más datos
se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se
deben reunir y analizar, por lo tanto, dicha operación reduce el costo. Otra
razón para realizar el muestreo es el hecho de que la información pierde su
valor en poco tiempo. Para que ésta sea útil, se debe obtener y aprovechar con
bastante rapidez. A menudo el muestreo es el único medio posible de lograr lo
anterior. Algunas veces, el exámen de los artı́culos, causa destrucción. Al probar
los cinturones de seguridad para conocer su punto de ruptura, evidentemente se
destruye el producto. Si todos se probaran de esa manera, no quedarı́a ninguno
para vender. Esas y otras razones para el muestreo, se considerarán con mayor
detalle en capı́tulos posteriores.

Probabilidad: La probabilidad estudia situaciones en las que interviene el azar.


Sus primeras aplicaciones se relacionaban básicamente con los juegos de azar,
como la loterı́a, casinos, carreras de caballos, etc. (en este curso no se considera-
rá esta parte de la estadı́stica).
Como más tarde observaremos, las ramas de la estadı́stica no son indepen-
dientes y distintas por completo, tienden a superponerse considerablemente.
En resumen, existen tres áreas muy relacionadas de interés en estadı́stica: la
descripción y resumen de datos, la teorı́a de la probabilidad y el análisis e in-
terpretación de los datos de muestra.

El objetivo de la Estadı́stica es: Hacer inferencias (predecir, decidir) sobre algunas


caracterı́sticas de una población con base en la información contenida en una muestra.

1.3. ¿Para que estudiamos estadı́stica?


1.-Los conceptos y técnicas se usan en un gran número de ocupaciones,
2.-Las ideas constituyen una parte integral de las investigaciones, de las encuestas
para recopilar datos y del análisis de los datos que se originan en las actividades que
10 Introducción a la Estadı́stica

desarrollan las instituciones y organizaciones.

Ejemplo 1.3.1. Un trabajador que no necesariamente conoce conceptos y técnicas


estadı́sticas muy bien, por lo menos debe tener la facultad de reconocer cuando
necesita la ayuda de un experto y poder comunicarse cuando trabajen juntos en la
planeación, dirección e interpretación de los resultados de una actividad que requiera
la metodologı́a de esta ciencia.

F Si comprendes los conceptos y metodologı́a sacarás provecho de ello. Si lo entiendes


bien podrás leer con mayor inteligencia toda la literatura !.

En la vida cotidiana hay muchos ejemplos de como la estadı́stica está presente. Las
aplicaciones estadı́sticas se presentan en muchos campos incluyendo la ingenierı́a,
ciencias fı́sicas, negocios, ciencias biológicas y de salud, ciencias sociales y educación,
comercio, quı́mica, comunicación, economı́a, ciencias polı́ticas, psicologı́a, etc. A con-
tinuación se describen algunas aplicaciones.

a) Se diseñan encuestas con el fin de recoger las primeras cifras de las elecciones y
predecir los resultados (o pronosticar).

b) Se realizan entrevistas con los consumidores para obtener mas información acerca
de los productos que prefieren.

c) Se toman muestras de fusibles recién fabricados, con el fin de decidir si se embarcan


o se retiran ciertos lotes de ese producto (Control de calidad en las industrias).

d) Los Economistas observan los ı́ndices para saber que tan saludable es la economı́a
durante un periodo y utilizan la información para predecir como se compar-
tirá en el futuro.

e) En Agricultura se realizan experimentos sobre la reproducción de plantas y anima-


les, se estudia la bondad de fertilizantes, insecticidas, etc., y se estudian métodos
para aumentar el rendimiento de las cosechas.
1.4 Terminologı́a estadı́stica 11

f ) En Biologı́a se emplean los métodos estadı́sticos para estudiar las reacciones de


las plantas y animales ante diferentes presiones ambientales.

g) En Negocios se usa para predecir volúmenes de ventas, medir las reacciones de los
consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma
de invertir presupuesto en publicidad, etc.

h) En Salud y medicina los médicos investigadores se ayudan de la estadı́stica para


evaluar la efectividad de diversos tratamientos.

i) En Psicologı́a se ayudan de la estadı́stica para medir y comparar la conducta, las


actitudes, la inteligencia y las aptitudes del hombre.

1.4. Terminologı́a estadı́stica


Es este apartado definiremos algunos términos fundamentales que se utilizarán en el
curso, los demás términos se definirán a medida que se vayan presentando.

Población: También llamada universo, es todo conjunto de personas, cosas u


objetos con ciertas caracterı́sticas comúnes. Cada uno de los elementos de la
población recibe el nombre de elemento o unidad. Definimos Población como
el conjunto más grande de valores (de una variable), por el cual existe algún
interés.
Una población puede ser finita o infinita. Por ejemplo, la población que com-
prende todas las piezas producidas en un dı́a determinado en una fábrica, los
productos de un supermercado, los libros de una biblioteca, son ejemplos de una
población finita, mientras que la población que consta de todos los resultados
posibles (cara o cruz) en lanzamientos sucesivos de una moneda, la producción
futura de una máquina y el nacimiento de insectos son ejemplos de poblaciones
infinitas.

Nota 1. Los elementos que forman una población pueden ser personas, empresas,
12 Introducción a la Estadı́stica

productos manufacturados, inventarios, escuelas, ciudades, calificaciones esco-


lares, precios, o cualquier otra cosa que se pueda medir, contar o jerarquizar.

Muestra: Se llama muestra a toda porción de elementos sacada de una población.


Sirve para estimar los resultados que se obtendrı́an con el estudio completo de
la población. Para que los resultados de la muestra puedan generalizarse a la
población, es necesario que la muestra se elija adecuadamente, es decir, que sea
representativa de la población.

Muestra aleatoria: Es aquella que se obtiene cuando todos los elementos de


la población tienen igual posibilidad de ser elegidos, es decir, es la muestra que
se trae de una población al azar.
De las definiciones anteriores podemos concluir que el objetivo de una muestra,
es que los elementos de la muestra representen al conjunto de todos los ele-
mentos de la población. Esta cuestión, la construcción de muestras adecuadas,
representativas, es uno de los aspectos más delicados de la Estadı́stica. Nosotros
vamos a considerar en esta asignatura sólo un tipo de muestras, denominadas
muestras aleatorias simples. En una muestra aleatoria simple, todos los elemen-
tos de la población deben tener las mismas posibilidades de salir en la muestra
y, además, los elementos de la muestra deben ser independientes: el que salga
un resultado en la muestra no debe afectar a que ningún otro resultado salga
en la muestra.

Entidad: Conjunto de personas, lugares o cosas.

I Un biólogo puede estar interesado en las ardillas que habitan determinada


región.

I Un médico puede mostrar interés por los pacientes que muestren determinada
serie de sı́ntomas.

I A un agrı́cola le llamará la atención cierta variedad de trigo.


1.4 Terminologı́a estadı́stica 13

Variable: Es toda propiedad o conjunto de caracterı́sticas de las entidades que


admiten variaciones dentro de un conjunto de objetos y que interesan en una
investigación cientı́fica. Por ejemplo, el biólogo puede tener interés especial en
el tamaño de las ardillas, el médico puede querer investigar el nivel de colesterol
de ciertos pacientes; al educador le puede llamar la atención el rendimiento de
lectura de los estudiantes que han aprendido a leer con un método determinado;
el investigador agrı́cola puede estar interesado en conocer la resistencia de una
variedad de trigo a cierta enfermedad, al educador le puede llamar la atención
el rendimiento en la lectura de los estudiantes que han aprendido a leer con
un método determinado, al meteorólogo le puede llamar la atención de la nieve
como una proporción de la precipitación total, etc. En virtud de que cualquiera
de estas caracterı́sticas presenta un valor diferente cuando se observa desde
diferentes ámbitos, recibe el nombre de variable. Hay tres tipos de variables las
cuales son: nominales, ordinales y cardinales.

• Variables nominales. Son las mas simples y abundantes y su única fun-


ción es clasificar. Su variable operacional correspondiente es una escala
nominal que sirve para clasificar las observaciones en un conjunto de ca-
tegorı́as mutuamente excluyentes cuyo orden de colocación es indistinto.
A esto se les puede asignar cifras u otros sı́mbolos arbitrarios con el fin de
distinguirlas. Si son cifras, no tienen ningún valor ni propiedades numéricas
como en aritmética, es decir, no se puede hacer ninguna medida numérica
sólo clasificación.


soltero,







casado,

Ejemplo 1.4.1. Variable nominal −→ { Estado civil viudo,





divorciado,




unión libre.
14 Introducción a la Estadı́stica

Ejemplo 1.4.2. Entre los datos numéricos que son nominales (datos cuan-
titativos) se incluyen los números de las camisetas deportivas, los números
de código de las zonas postales, los números telefónicos, etc.
Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el género,
la raza, el tipo de sangre y la religión. Ver ejemplo 1.4.1.

Los datos nominales se obtienen cuando se definen las categorı́as y se cuen-


ta el número de observaciones que queda en cada una.

• Variables ordinales o jerarquizados. Clasifican las observaciones en


categorı́as mutuamente excluyentes que exigen ordenación, ya que guardan
entre sı́ relaciones de mayor que. Su variable operacional es una escala
ordinal que va desde la categorı́a mas baja hasta la mas alta o biceversa, de
modo que las observaciones queden en el orden apropiado. Estas categorı́as
tampoco tienen propiedades numéricas, aunque se les represente por cifras.


 1.-Abstemio,





2.-Bebedor ocasional,
Ejemplo 1.4.4. Variable ordinal −→ { Alcoholismo

 3.-Bebedor regular,





4.-Bebedor consuetudinario.


1.-Pobre,





2.-Razonable,
Ejemplo 1.4.5. Variable ordinal −→ { La evaluación de un maestro

 3.-Buena,





4.-Superior.

Las variables nominales y ordinales son variables cuyos valores consisten


en categorı́as de clasificación y se denominan Variables Cualitativas.

• Variables cardinales o cuantitativas. Se dice que una variable es cuan-


titativa siempre que los valores que puede asumir sean los resultados de
medidas numéricas. Ejemplos de variable cuantitativa son la estatura, el
peso, la temperatura, el cociente de inteligencia, la presión sanguı́nea, el
1.5 Notación de suma con sigma 15

número de estudiantes de primer año, etc. Las variables cardinales, se di-


viden en continuas y discretas.
Continuas: Son las que pueden tomar cualquier valor dentro de un inter-
valo de valores, por ejemplo, la edad, los salarios, la estatura, la masa, la
distancia en kilómetros, etc. En general, las mediciones dan origen a los
datos continuos.
Discretas: Son las que toman solo algunos valores dentro de un intervalo,
es decir, adquieren solo valores enteros. Por ejemplo, el número de alumnos
en un aula, el número de enfermos que ingresan a un hospital, el número
de niños en una familia, la cantidad de coches en un estacionamiento, el
conjunto de personas en una fila, etc. En general, las enumeraciones o los
conteos dan origen a los datos discretos.

1.5. Notación de suma con sigma


En muchos de los procedimientos estadı́sticos que estudiaremos en el curso, se requiere
P
de obtener la suma de un conjunto de números. La letra griega se utiliza para
denotar una suma. De ahı́ que, si alguna variable x tiene los valores 1, 5, 6 y 9, entonces
P
x = 21. De manera similar, si los gastos en comestibles durante una semana fueron
P
$8.82, $12.01, entonces y = $22.93.
P P P
Ejemplo 1.5.1. Si los valores de x son 2, 4, 5 y 9, encuentre x, x2 y ( x)2 .
Solución:
P
x = 2 + 4 + 5 + 9 = 20
P 2
x = 22 + 42 + 52 + 92 = 4 + 16 + 25 + 81 = 126
P
( x)2 = 202 = 400

Si sólo se van a sumar algunos de los valores, se utilizan subı́ndices para indicar dichos
valores de este modo:
5
X
xi
i=1
16 Introducción a la Estadı́stica

indica la suma de los valores de la variable x, empezando con i = 1 y terminando con


i = 5:
5
X
xi = x1 + x2 + x3 + x4 + x5
i=1

n
X n
X
xi significa que hay que sumar n observaciones. A menudo xi se abrevia con
i=1 X X i=1
los sı́mbolos xi o x.
2
X 4
X 11
X X
Ejemplo 1.5.2. Usando los datos que se indiquen, calcule xi , xi , xi y xi
i=1 i=1 i=7

i 1 2 3 4 5 6 7 8 9 10 11
xi 8 2 3 6 7 8 9 4 5 4 1

Solución:
X2
xi = x1 + x2 = 8 + 2 = 10,
i=1
4
X
xi = x2 + x3 + x4 = 2 + 3 + 6 = 11,
i=1
11
X
xi = x7 + x8 + x9 + x10 + x11 = 9 + 4 + 5 + 4 + 1 = 23,
X
i=7
xi = x1 + x2 + . . . + x11 = 8 + 2 + . . . + 1 = 57.

Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida
entre ella, dicha constante se puede aplicar después de que los valores se hayan sumado
X X
cx = c x

Ası́,
4
X 4
X
2xi = 2x1 + 2x2 + 2x3 + 2x4 = 2(x1 + x2 + x3 + x4 ) = 2 xi
i=1 i=1

Por ejemplo,
3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42
1.5 Notación de suma con sigma 17

La operación de suma o sumatoria de una constante es igual al producto de la cons-


tante y el número de veces que se presenta.
n
X
ci = nc
i=1

Por ejemplo,
6
X
5i = 5 + 5 + 5 + 5 + 5 + 5 = 30
i=1

o bien, 6(5) = 30.


La adición de una suma (o diferencia) de dos variables es igual a la suma (o diferencia)
de sumatorias individuales de las dos variables.
n
X n
X n
X
2 2
(xi + yi ) = xi + yi
i=1 i=1 i=1

n
X n
X n
X
(xi − yi ) = xi − yi
i=1 i=1 i=1
.

Ejemplo 1.5.3. Se tienen dos conjuntos de números, tales como salarios por hora para
diversos empleados y el número de horas que cada uno trabajó.

i: Individuos fi : Horas trabajadas xi : Salarios por hora


1 1 $2
2 5 3
3 7 2
4 3 4
5 3 3
P P P P P
Supóngase que han de evaluarse las sumas que siguen: fi , xi , x2i , f i xi , fi x2i
P
y (fi xi )2 .
Solución:
18 Introducción a la Estadı́stica

i fi xi x2i fi xi fi x2i
1 1 $2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27
P P P P P
fi = 19 xi = 14 x2i = 42 fi xi = 52 fi x2i = 152
P
y( fi xi )2 = 2704

1.6. Notas Sobre redondeo


Durante el curso cuando se registren datos finales o intermedios, se tendrá en cuenta
la siguiente regla:

Si el dı́gito que queda a la derecha de la posición del último dı́gito que se va a


retener (y registrar) es menor que 5 se registrará el dı́gito que ocupa la posición
que hay que retener (y registrar). Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
175.783 175.78
164.78432 164.78

Si el dı́gito que queda a la derecha de la posición del último dı́gito que se va a


retener es mayor que 5 se aumentará en 1 el dı́gito que ocupa la posición del
último dı́gito que se va a retener y se registrará este resultado. Ejemplo que
ilustra esta regla
Resultado final o intermedio Resultado registrado
175.787 175.79
164.796 164.8

Si el dı́gito que queda a la derecha de la posición del último dı́gito que se va a


retener es igual a 5. Entonces, se registrará el dı́gito que ocupa la posición del
1.6 Notas Sobre redondeo 19

último dı́gito que se va a retener tal como aparece si es par, y aumentando en


1, si es impar. Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
P ar 175.785 175.78
Impar 175.775 175.8
20 Introducción a la Estadı́stica

1.7. Ejercicios
1. Desarrolle cada uno de los siguientes:
5
X
a) xi
i=1
5
X
b) xi yi
i=1
6
X
c) (xi − yi )2
i=1
n
X xi
d) para n = 8.
i=1
n
X X
2. Calcule las siguientes cantidades según los datos que se indican. xi , fi ,
X X
f i xi y fi x2i .

i 1 2 3 4 5 6
fi 3 5 9 10 2 1
xi 10 11 15 19 21 26

3. De acuerdo a las reglas de redondeo establecidas, redondee las siguientes cifras


hasta dos lugares decimales:

a) 5.781 b) 46.7385 c) 125.9995 d) 43.87500 e) 148.475

4. Clasifique los siguientes datos como discretos o continuos:

Puntajes de matemáticas en la prueba de aptitud académica de 30 alumnos


del último año de preparatoria.

El número de defectos en cada unidad de un lote de 50 coches nuevos.

El número de carreras anotadas en cada juego por los Piratas en la tem-


porada de 1990.
1.7 Ejercicios 21

Distancia en yardas recorrida por un mediocampista en cada juego durante


la última temporada.

Peso perdido en libras por 20 personas debido a una dieta.

El número de acciones vendidas por dı́a de la bolsa de valores.

Las temperaturas registradas cada media hora en un observatorio.

El tiempo de vida de los bulbos de televisión producidos por una empresa.

El ingreso anual de los profesores universitarios.

La longitud de 1000 tornillos producidos en una fábrica.

El tiempo de vuelo de un misil.

El número de billetes de $20 que circulan en México en un momento de-


terminado.

La suma S de los puntos obtenidos al lanzar un par de dados.

El paı́s C en Europa.

El estado civil de una persona.

El número N de individuos en una familia.

5. Clasifique los datos siguientes en cuantitativos y cualitativos:

Estaturas en pulgadas de cinco jugadores de basquetbol.

Peso en onzas de doce pollitos.

Clasificación étnica de 20 empleados

Números telefónicos de amigos

6. Identifique lo siguiente en términos del tipo de datos:

17 gramos.

25 segundos.

3 canastas.
22 Introducción a la Estadı́stica

Más lento.

Talla de camisas.

El más encantador.

Estatura de un hombre.

Color de piel de los perros.

La vida de las llantas de un automóvil.


Capı́tulo 2

Estadı́stica descriptiva

2.1. Introducción

Los métodos estadı́sticos comprenden el análisis e interpretación de números, ventas


mensuales, calificaciones de exámenes, números de partes defectuosas, porcentaje de
respuestas correctas a un cuestionario, etc. A tales números se les conoce como datos.
Los datos no procesados pueden carecer de significado, por lo cual para interpretarlos
correctamente es necesario primero organizar y resumir los números. En este capı́tu-
lo aprenderemos métodos para resumir y describir conjuntos de datos a través de
distintos tipos de tablas, gráficos y medidas estadı́sticas.

2.2. Datos estadı́sticos

Obtenidos a través de encuestas, experimentos o cualquier otro conjunto de medidas,


los datos estadı́sticos suelen ser tan numerosos que resultan prácticamente inútiles
si no son resumidos de forma adecuada. Para ello la Estadı́stica utiliza tanto técni-
cas gráficas como numéricas, algunas de las cuales describiremos en este capı́tulo.
Ahora bien, los datos estadı́sticos se obtienen mediante un proceso que comprende
la observación o medición de conceptos como ingresos anuales de una comunidad,
24 Estadı́stica descriptiva

calificaciones de exámenes, porcentaje de azúcar en cereales, etc., los cuales se cono-


cen como variables, ya que producen valores que tienden a mostrar cierto grado de
variabilidad, al efectuarse mediciones sucesivas.

2.2.1. Tipos de datos


Como se describió en la sección 1.4, los datos pueden ser de dos tipos: cuantitativos y
cualitativos. Los datos cuantitativos son los que representan una cantidad reflejada en
una escala numérica. A su vez, pueden clasificarse como datos cuantitativos discretos
si se refieren al conteo de alguna caracterı́stica, o datos cuantitativos continuos si se
refieren a una medida. Los datos cualitativos o categóricos se refieren a caracterı́sticas
de la población que no pueden asociarse a cantidades con significado numérico, sino
a caracterı́sticas que sólo pueden clasificarse.
Ejemplo 2.2.1. Veamos algunos ejemplos de cada uno de estos tipos de variables:

Si estamos interesados en un asfalto, la variable tensión de fractura es cuanti-


tativa continua.

En un ejemplo de unos cojinetes, el diámetro de los cojinetes es una variable


cuantitativa continua.

En un ejemplo de los niveles de plomo, se está analizando si una muestra con-


tiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con
dos categorı́as: sı́ contiene niveles detectables o no contiene niveles detectables.

En el ejemplo de accidentes laborales, la variable número de accidentes labo-


rales es cuantitativa discreta, mientras que las franjas horarias constituyen una
variable cualitativa.

2.2.2. Organización de datos mediante tablas


El objetivo de la organización de datos es acomodar un conjunto de datos en forma
útil para revelar las caracterı́sticas esenciales y simplificar ciertos análisis. Los datos
2.3 Distribuciones de frecuencias 25

que no están organizados se llaman datos no agrupados. Una manera de acomodarlos


es construir un arreglo ordenado, acomodando los datos de abajo hacia arriba o al
revés; si el número de datos es muy grande, el arreglo puede ser difı́cil de manejar
o de comprender; por eso a menudo se usan tablas como aproximación general a la
organización de datos no agrupados. Un ejemplo es el conjunto de las estaturas de
100 estudiantes hombres, obtenidas del registro universitario, que está ordenado en
forma alfabética.
Los métodos principales para organizar datos estadı́sticos comprenden el ordenamien-
to de elementos en subconjuntos que presenten cualidades semejantes (por ejemplo,
misma edad, misma finalidad, misma escuela, misma ciudad, etc.). Los datos agru-
pados se pueden resumir gráficamente, o en tablas, y mediante el uso de medidas
numéricas, como la media, amplitud, la desviación estándar, y otras más. El nom-
bre que reciben los datos ordenados en grupos o categorı́as es el de distribución de
frecuencia.

2.3. Distribuciones de frecuencias


Una distribución de frecuencia es un método estadı́stico de clasificación de datos en
clases o intervalos, de manera tal que se pueda establecer el número o porcentaje
(es decir, la frecuencia de los datos) de cada clase. Esto proporciona una forma de
observar un conjunto de números sin que se tenga que considerar cada número, y
puede ser extremadamente útil al manejar grandes cantidades de datos. El número o
porcentaje en una clase se denomina frecuencia de clase.

Definición 2.3.1. Una distribución de frecuencia es un agrupamiento de datos en


clases, que muestra el número o porcentaje de observaciones de cada una de ellas.
Una distribución de frecuencias se puede representar en forma tabular o gráfica.

Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-
pondientes al número de faltas a clases durante el periodo de otoño de 2010 para
26 Estadı́stica descriptiva

estudiantes inscritos en la materia de Estadı́stica.

9 8 7 8 4 3 2 1 0 3 2
5 3 2 1 1 7 3 2 8 1 4
7 6 6 4 3 2 2 0 9 4 2
4 6 9 6 9 4 3 5 7

Solución:

Definición 2.3.2. Frecuencia absoluta (F ). Es el número de veces que un número


aparece en el conjunto inicial de datos. La frecuencia de un intervalo de clase es igual
a la suma de las frecuencias de los datos que aparecen en él.

Definición 2.3.3. Frecuencia acumulada (Fa ): La frecuencia acumulada de un


dato o de un intervalo es igual a la suma de su frecuencia mas la frecuencia de los
datos anteriores a él.

Definición 2.3.4. Frecuencia Relativa (Fr ). Indica los porcentajes de la totalidad


de los datos que corresponden a cada clase. Se obtiene dividiendo la frecuencia de cada
clase entre el número total de datos y se multiplica por 100, se expresa en porcentaje
y su formula es
F
Fr = × 100 (2.1)
N
donde Fr : frecuencia relativa, F : frecuencia absoluta y N : número total de datos.

2.3.1. Obtención de los intervalos y lı́mites de clases


Número del intervalo de clase: No hay formas definidas respecto al número de
clase que deben utilizarse en una distribución de frecuencia, si los intervalos de clase
son muy pocos se pierden detalles y si son muchos aparte de ser laborioso se mani-
fiestan irregularidades que no permiten apreciar con claridad un patrón de compor-
tamiento. En otro caso, la mayorı́a de los analistas recomiendan no menos de 5 ni
mas de 15 intervalos de clase.
2.3 Distribuciones de frecuencias 27

Definición 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman
una distribución de frecuencia. Una aproximación razonable para calcular el número
de clases nos la da la regla de Sturges

n0 = 1 + 3.3 log N, (2.2)

donde n0 : número de clases o interválos y N : número total de datos.

Nota 2. n0 se redondea siempre al número inmediato superior (entero su-


perior mas cercano).

Ejemplo 2.3.2. Si N = 30, =⇒ n0 = 1 + 3.3 log 30 = 5.87 ∴ n0 = 6.

Ejemplo 2.3.3. Si n0 = 5.12 =⇒ n0 = 6.

Definición 2.3.6. Anchura o tamaño del intervalo de clase. Es la diferencia


entre los lı́mites reales de un intervalo de clase. Todas las clases deben tener la misma
amplitud, se simboliza con la letra C mayúscula y su formula es:
Vmax − Vmin
C= , (2.3)
n0
donde C : Amplitud del intervalo de clase, Vmax : Valor máximo, Vmin : Valor mı́nimo
y n0 : número de clases.

Nota 3. Siempre se redondea a C según las caracterı́sticas del problema.

Nota 4. Si con el ancho de intervalo de clase encontrado, no contienen a


todos los datos, hay que tomar el mı́nimo entero mayor que la C encon-
trada.

Ejemplo 2.3.4. Encuentra el tamaño de los intervalos de clase

Datos 3 5 4 3 8 5 4 1 ⇒ C = 1.75 ∴ C = 2.

Definición 2.3.7. Lı́mite normal de clase: Las clases o intervalos de clase están
limitados por sus valores extremos que se denominan lı́mite inferior y lı́mite superior.
Sus sı́mbolos son: L.N.I. y L.N.S.
28 Estadı́stica descriptiva

Definición 2.3.8. Lı́mites reales de clase: Corresponde al punto medio entre el


lı́mite normal superior de una clase y el lı́mite normal inferior de la clase siguiente.
Se denotan por: L.R.I. y L.R.S.

Definición 2.3.9. Marca de Clase: Es el valor correspondiente al punto medio de


un intervalo de clase y su valor es igual a la mitad de la suma de los lı́mites normales
inferior y superior de un intervalo de clase. Denotamos la marca de clase como

LN I + LN S
x̂ = , (2.4)
2
donde x̂ : marca de clase y LN I y LN S : lı́mites normales.

Reglas generales para formar una distribución de frecuencia.

1. Seleccione el número de intervalos de clase, la cantidad de intervalos de clase


no debe de ser menor de 5 ni mayor de 15, entre mas datos se tengan, más
intervalos de clases deben considerarse. Si el número de intervalos es demasiado
pequeño pueden estarse ocultando caracterı́sticas importantes de los datos en
esta agrupación. Si se tienen demasiados intervalos de clase se pueden tener
muchos intervalos vacı́os que resten significado a la distribución.

2. Calcule la amplitud o tamaño del intervalo de clase C,

3. Forme los intervalos de clase iniciando por el lı́mite inferior del rango o por el
dato menor. El lı́mite inferior de la clase siguiente será el valor consecutivo al
máximo de la clase anterior y ası́ sucesivamente,

4. Fige los lı́mites reales de cada clase,

5. Determine la frecuencia de clase contando el número de observaciones que caen


dentro de cada intervalo de clase.

Ejemplo 2.3.5. En una universidad de E.U., se sacó una muestra aleatoria de 25


profesores suministrando información de los salarios anuales en millones de dólares.
2.3 Distribuciones de frecuencias 29

Construya una distribución de frecuencia con la muestra siguiente:

12 21 14 22 12 14 18 11 11
20 19 9 26 17 11 12 24 9
21 17 22 13 19 15 11

Solución:
1.- Ordenar del número menor al número mayor para saber la frecuencia de cada
número,
=⇒ 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.
2.- Sacar el número y amplitud de clases
=⇒ n0 = 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 =⇒ el número de clases es n0 = 6.
Vmax − Vmin 26 − 9
Ahora C = = = 2.83, ası́ la amplitud del intervalo de clase es
n0 6
C = 3.
3.-
Clase LN I − LN S LRI − LRS F Fa Fr Fra X̂
1 9 − 11 8.5 − 11.5 6 6 24 % 24 % 10
2 12 − 14 11.5 − 14.5 6 12 24 % 48 % 13
3 15 − 17 14.5 − 17.5 3 15 12 % 60 % 16
4 18 − 20 17.5 − 20.5 4 19 16 % 76 % 19
5 21 − 23 20.5 − 23.5 4 23 16 % 92 % 22
6 24 − 26 23.5 − 26.5 2 25 8% 100 % 25
25

Tabla 2.1: Distribución de frecuencia de la muestra.

donde
F 6
Fr = × 100 =⇒ para la primera clase Fr = × 100 = 24 % y ası́ sucesivamente
N 25
para las demás.
Fa 6
Fra = × 100 =⇒ para la primera clase Fra = × 100 = 24 %, para la segunda
N 25
12
Fra = × 100 = 48 % y ası́ sucesivamente.
25
30 Estadı́stica descriptiva

LN I + LN S 9 + 11
x̂ = =⇒ para la primera marca x̂ = = 10, para la segunda
2 2
12 + 14
x̂ = = 13 y ası́ en sucesivamente. Continuando con todos los cálculos se
2
obtiene la tabla 2.1.
1
F Los datos son de unidad ⇒ = 0.5 (lo que se resta y suma a los lı́mites normales
2
para obtener los lı́mites reales).

Ejemplo 2.3.6. Elabore una distribución de frecuencia para los siguientes datos toma-
dos de una encuesta de la edad de 70 personas.

32 20 20 24 24 18 18 18 25 26 28 40 20 28
41 37 37 37 26 26 26 27 27 32 44 20 22 35
32 32 29 40 40 44 44 18 18 45 35 26 28 26
34 34 30 30 30 28 28 28 35 28 45 32 35 26
42 42 30 22 30 24 30 22 24 20 26 28 22 32

Clase LN I − LN S LRI − LRS F Fa Fr Fra X̂


1 18−21 .5 − .5
2 22−25 .5 − .5
3 26−29 .5 − .5
4 30−33 .5 − .5
5 34−37 .5 − .5
6 38−41 .5 − .5
7 42−55 .5 − .5
8 56−59 .5 − .5

Tabla 2.2: Distribución de frecuencia de la muestra.

Solución:
45 − 18
n0 = 1 + 3.3 log 70 = 7.08 =⇒ n0 = 8. Ahora C = = 3.375 =⇒ C = 4.
8
(Completa la tabla 2.2.)
2.3 Distribuciones de frecuencias 31

Ejercicios

Resuelve los siguientes:

1. Los datos siguientes representan el número de clientes que visitan una tienda en
un periodo de 22 dı́as. Construya la distribución de frecuencias para los datos

28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 39

2. Los siguientes datos representan las edades de los empleados de un supermer-


cado. Construye una distribución de frecuencia

20 21 25 28 24 22 38 54 28
23 26 32 20 30 28 42 59 32
25 25 25 26 19 23 46 40 37
21 23 25 36 21 27 46 26 36
24 25 24 24 21 22 29 26 37
22 18 27 30 25 26 30 35 52
29 19 23 21 19 21 35 60 44

3. Los datos siguientes representan los dı́as de Zafra en cada uno de los ingenios
azucareros de la republica mexicana. Construye una distribución de frecuencia.

151 177 146 150 177 208 166 136 101 152 141
142 142 139 148 149 171 152 137 136 170 141
136 156 163 138 138 155 149 172 161 180 141
116 158 170 147 146 182 150 157 155 122 172
124 177 147 168 136 173 124 153 112 192 178
164 204 135 144 178 160 140 156

4. En la siguiente lista aparecen las calificaciones de 50 alumnos que presentaron


32 Estadı́stica descriptiva

un examen de matemáticas. Elabore una tabla de distribución de frecuencia.

57 60 33 85 52 65 77 84 65 74
68 71 81 35 50 35 64 74 47 62
45 80 41 61 100 55 73 59 53 37
76 41 78 55 48 65 85 67 100 60
88 94 69 98 65 73 42 65 92 88

5. El conjunto de datos siguiente representa los totales de efectivo (en dólares)


gastados en un cierto fin de semana por 25 estudiantes graduados. Construya
una tabla de frecuencias agrupadas

39.78 28.30 28.31 17.95 44.47


46.65 31.47 33.45 29.17 48.39
82.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25

2.4. Presentación gráfica de datos


Con frecuencia, el significado de los datos se puede comunicar mas efectivamente por
medio de gráficos que por medio de tablas. Existe una gran variedad de formas para
presentar los datos gráficamente. En la presente sección se describirán algunos tipos
de gráficos que serán utilizados en el presente curso.

Gráfico estadı́stico

Es la representación de datos estadı́sticos por medio de figuras geométricas (puntos,


lı́neas, rectángulos, etc.) cuyas dimensiones son proporcionales de valor numérico de
los datos. Su fin principal es permitir de un solo vistazo, la captación rápida del con-
junto de caracterı́sticas presentadas y evidenciar sus variaciones en intensidad.
2.4 Presentación gráfica de datos 33

Un gráfico es útil para dar una rápida idea de la situación general que se esta ana-
lizando, permite determinar por simple examen, el máximo y mı́nimo de las varia-
ciones de un fenómeno.

Gráficas circulares

Se llama también gráfica de pastel, es bastante útil para representar proporciones o


porcentajes. Para construir el diagrama se puede usar el compás y el transportador:
el primero para trazar el circulo y el segundo para medir los sectores correspondientes
al pastel. Dado que el circulo tiene 360o (equivalente al 100 %), se puede utilizar el
transportador para dividir el pastel con base en las “rebanadas”deseadas de porcenta-
je. Esta gráfica se construye generalmente cuando en la distribución de frecuencia las
clases no se representan de manera cuantitativa. Para representar una gráfica de sec-
tores circulares se lleva a cabo el siguiente procedimiento:
1.- Calcular Fr ,
2.- Calcular los porcentajes obtenidos de 360o para determinar los grados que debe
tener cada sector aplicando la formula

(Fra )(360)
100

3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.
Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a
partir del radio vertical superior del circulo.

Ejemplo 2.4.1. La tabla 2.3 muestra el área de los cinco Grandes Lagos bajo jurisdic-
ción de E.U. Grafique los datos:
34 Estadı́stica descriptiva

Gran Lago Área (en millas cuadradas)


Michigan 22342
Superior 20557
Huron 8800
Erie 5033
Ontario 3446
Total 60178

Tabla 2.3: Áreas de los cinco Grandes Lagos bajo la jurisdicción de E.U.

Se hace corresponder el área total, 60178 millas cuadradas a los 360◦ del cı́rculo. Ası́,
360◦
una milla cuadrada corresponde a . Se deduce que el lago Superior, con 20557
60178 µ ¶
360◦
millas cuadradas ocupa un arco de 20557 = 123◦ y del mismo modo se
60178
deducen los arcos de los otros lagos. Las lı́neas divisorias se pueden trazar usando un
transportador.

Histograma

El histograma es una representación gráfica hecha en un plano cartesiano que consiste


en una serie de rectángulos que se caracterizan por que la variable aleatoria o el
fenómeno de interés se representa a lo largo del eje horizontal (estando referidos a las
marcas de clase como sus centros); el eje vertical representa el número, proporción o
porcentaje de observaciones por intervalos de clase, dependiendo de que el histograma
particular sea o no, un histograma de porcentaje (de frecuencia relativa).
Caracterı́sticas de un histograma:

1. Los posibles valores de la variable que se está considerando se disponen en el


eje horizontal. Las frecuencias con que ocurren los valores de la variable se
representan en el eje vertical.

2. Cada intervalo de clase de la distribución de frecuencia se representa por una


barra del histograma.
2.4 Presentación gráfica de datos 35

3. Las barras tienen la misma amplitud de los intervalos de clase correspondientes.

4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los
valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado
de datos, los intervalos de clase con frecuencias grandes, se representarán en el
histograma con barras altas y los intervalos de clases con frecuencias pequeñas
con barras cortas.

5. Las barras de dibujan adyacentes entre sı́. Esto tiene por objeto dar a entender
gráficamente la naturaleza continua de los datos que se están considerando.

6. Respecto del área total que aparece en el histograma, la proporción encerrada


por una barra determinada es igual a la proporción que la frecuencia del intervalo
de clase correspondiente tiene del número total de observaciones.

Ejemplo 2.4.2. x: Número de niños en edad escolar, y: Frecuencia.

Polı́gono de frecuencias

Aunque de menor uso, los polı́gonos de frecuencia son otro medio de representar
gráficamente las distribuciones de frecuencia simple como la frecuencia relativa. Para
construir un polı́gono de frecuencias marcamos éstas sobre el eje vertical y los valores
de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente
paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca
de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.
Se puede obtener uniendo los puntos medios de las partes superiores de los rectángulos
del histograma.

Ejemplo 2.4.3. x: Marca de clase, y: Frecuencia.

Ojivas

Representación gráfica de frecuencias acumuladas. La representación gráfica de


la información contenida en los cuadros de frecuencia acumulada son curvas llamadas
36 Estadı́stica descriptiva

ojivas. Una ojiva es una curva equivalente a un polı́gono de frecuencia acumulada


suavizado. Para representar una ojiva se deben seguir los siguientes pasos:
1.- Localizar en el eje x los lı́mites reales superiores de clase,
2.- Localizar en el eje y las frecuencias acumuladas de cada clase,
3.- Unir por trazos continuos los puntos anteriores.

Ejemplo 2.4.4. x: LRS, y: Frecuencia acumulada.

2.5. Medidas de tendencia central


En una tabla de distribución de frecuencias hay una zona en donde los valores son
mas altos, es decir, hay valores de las variables que son mas frecuentes, en cambio,
existen zonas en donde los valores de las variables son menos frecuentes. Surge ası́, el
concepto de medida de tendencia central, también conocida como variable de centra-
lización, de posición o parámetros poblacionales que indican alrededor de que valor
se agrupa el mayor número de casos en estudio. Las medidas de tendencia central
son representativas de toda la población. Se les llama de tendencia central porque
en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto
de valores, por ello bien, se les puede considerar como sintetizadores. En general,
cualquier medida de tendencia central es un valor medio, ya que éste por definición
es todo valor que se haya entre dos extremos. Las medidas de tendencia central son
principalmente la media aritmética, la mediana y la moda.

2.5.1. Datos no agrupados


El análisis de datos suele realizarse de diversas maneras, dependiendo de si existe una
cantidad pequeña o grande de datos que se deba analizar. Cuando existen, digamos,
30 o menos puntos de datos, se utilizan los métodos que se presentan a continuación.
Para mayores cantidades de datos, son más practicas las computadoras o técnicas en
las que es necesario llevar a cabo, en primer lugar el agrupamiento de los datos antes
del análisis. Tales técnicas se explicarán con mas detalle mas adelante.
2.5 Medidas de tendencia central 37

Dos caracterı́sticas importantes de los datos que las medidas pueden poner de mani-
fiesto son: 1) el valor central o tı́pico del conjunto y 2) la dispersión de los números.

La media aritmética

Se define como la suma de un conjunto cantidades dividida entre el número total de


ellas. Esta medida es la más común dentro de las de tendencia central y corresponde
al centro de gravedad de los datos. Por ejemplo, cuando nos preguntamos sobre el
promedio que obtuvimos en un ciclo escolar, estamos hablando de media aritmética
o valor medio o simplemente media, se denota por x̄ y su formula es
PN
xi
x̄ = i=1 (2.5)
N
para datos no agrupados.
Ejemplo 2.5.1. Los diez puntajes siguientes representan el número de puntos anotados
en diez juegos de basquetbol por el jugador A: 6,10,3,7,6,6,8,5,9 y 10. La media es:
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10 70
= =7
10 10
El valor 7 representa, en algún sentido, el número central o medio de los puntos
anotados en diez juegos por el jugador A.
Ejemplo 2.5.2. Los totales anuales, en miles de millones de dólares, para las exporta-
ciones agrı́colas de México de 2000 a 2010 son:

21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7

Determine la media si los datos constituyen una población.


Nota 5. La media tiene una seria desventaja. Se ve afectada por los valores extremos
del final de una distribución. Como depende de cada medida, los valores extremos
pueden llevarla a representar defectuosamente los datos.
Ejemplo 2.5.3. Suponga que un corredor de maratón ha corrido en seis maratones
más grandes del paı́s, quedando en las posiciones siguientes (el orden es el de los
maratones):
3 5 4 6 2 85
38 Estadı́stica descriptiva

En la última carrera, en la que él ocupó el 85◦ lugar, fue todo el tiempo tratando
de ganar la carrera. Corrió en primer lugar las primeras 22 millas, pero le dieron
calambres y tuvo que caminar parte de las últimas cuatro millas. Si la media se usa
para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como
terminó a lo más en sexto lugar en las cinco primeras carreras, no parece razonable
usar la media para medir su capacidad de correr. Quizá la mediana proporcione una
medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo
85.

La mediana

La mediana es el punto dentro del recorrido de una variable que supera a no mas
de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro
manera es un punto dentro de una distribución de datos que tiene la caracterı́stica
de dividirla en dos partes iguales. La identificaremos con el sı́mbolo Me .
Cuando se trata de datos no ordenados no es necesario utilizar formulas, únicamente
tenemos que ordenar los datos de menor a mayor, el concepto de término medio es
correcto si el número de datos ordenados es impar, si el número de datos es par la
mediana es la semisuma de los dos valores intermedios que satisfacen su definición.

Ejemplo 2.5.4. En cada uno de los siguientes la mediana está dada por el número
subrayado.
3 5 7 9 10

1 2 5 8 9 10
5+8
aquı́ Me = 2
= 6.5.

Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como
desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos
al final de la distribución. La desventaja del uso de la mediana reside en que no
es fácilmente determinable si el conjunto de datos es grande, puesto que las medidas
deben ordenarse primero, ponerse en orden numérico de menor a mayor o al contrario.
2.6 Medidas de dispersión 39

Para conjuntos grandes de datos que han sido organizados la mediana se encuentra
ası́:

N +1
a) Si N es impar, la mediana es la medida que está en el lugar ,
2

b) Si N es par, la mediana es el promedio de las medidas que estan en los lugares


N N
y + 1.
2 2

La moda

Es el dato que aparece mas veces en una distribución de frecuencia. Es fácil deter-
minarla por simple inspección, para una distribución de frecuencia es la marca de
clase que se presenta con mayor frecuencia. Cuando en una distribución de frecuencia
existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es
trimodal, con mas de tres es multimodal.

Ejemplo 2.5.5.

3 5 8 3 7 4 3 2

2.6. Medidas de dispersión

Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio
se le llama dispersión o variación de los datos. Una medida de tendencia central por
si sola, no describe ni resume adecuadamente una distribución de datos, es necesario
acompañarla de un indicador que de cuenta del grado de dispersión con que se dis-
tribuyen los datos de la variable. Una medida de dispersión dice cuanto se desvı́an los
datos respecto a las tendencias centrales. Las medidas de dispersión mas importantes
son: el rango, la desviación media, la varianza, la desviación estándar y los
porcentajes.
40 Estadı́stica descriptiva

2.6.1. Datos no agrupados

Rango

Se trata de la mas simple de las medidas de dispersión, representa la distancia entre el


mayor y el menor de los datos de una distribución, por lo que puede ser interpretado
como la dispersión total de todos ellos. Se obtiene restando el dato menor del mayor,
consecuentemente, es calculable unicamente en variable cardinal.

Desviación media

Mide la desviación promedio de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviación. Se obtiene al restar la media de cada valor del
grupo, eliminando el signo (+ o −) de la desviación, hallando después el promedio.
Al calcular la desviación media es necesario considerar el hecho de que la suma de
las desviaciones positiva y negativa de la media siempre será (por definición) igual a
cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran
desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviación
absoluta media se calcula con la fórmula siguiente
P
| xi − x̄ |
D.M. = (2.6)
N

donde N es el número de observaciones del conjunto.

Varianza

Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,
elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias
al cuadrado y dividiendo este total por el número de valores menos 1. La varianza
muestral se puede calcular mediante la fórmula
P
2 (xi − x̄)2
S = (2.7)
N −1
2.6 Medidas de dispersión 41

Una fórmula alternativa para calcular la varianza muestral es


P
P 2 ( xi )2
xi −
2
S = N (2.8)
N −1
Tanto mayor sea la varianza de unos datos, más dispersos, heterogéneos o variables
son esos datos. Cuanto más pequeña sea una varianza de unos datos, más agrupados
u homogéneos son dichos datos.
Ejemplo 2.6.1. La tabla 2.4 muestra los costos por litro, en centavos de dólar, de la
gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza muestral.
Ciudad Costo por litro Ciudad Costo por litro
Amsterdam 57 Nairobi 57
Bruselas 53 Nueva York 40
Buenos Aires 38 Oslo 65
Hong Kong 57 Parı́s 58
Johannesburgo 48 Rı́o de Janeiro 42
Londres 56 Roma 76
Madrid 59 Singapur 59
Manila 46 Sidney 43
México 25 Tokio 79
Montreal 47

Tabla 2.4:

Solución:
Al usar la fórmula 2.8 se obtiene que S 2 = 167.32. Entonces, la varianza muestral de
los 19 precios de gasolina es 167.32 centavos cuadrados.
Observación 1. Para los datos de los precios por litro de la gasolina, el conocimiento
de que S 2 = 167.32 centavos cuadrados tiene muy poco significado por sı́ mismo,
si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces
las medidas están muy dispersas, mientras que si el valor es pequeño hay muy poca
variabilidad en las medidas.
42 Estadı́stica descriptiva

Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en dólares, por libra, de
asado de cerdo y queso cheddar en 15 capitales del mundo.

Capital Cerdo asado Queso cheddar


Berna $6.61 $4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos Aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
México 1.08 2.29
Ottawa 1.99 3.98
Parı́s 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69

Tabla 2.5:

¿Para cuál alimento, el asado de cerdo o el queso cheddar, son menos variables y más
estables los precios?

Solución:

Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por galón diario
por cinco dı́as para los coches A y B, en condiciones similares.

A 20 25 30 15 35
B 15 27 25 23 35

a) Encuentre la media y el rango de millas por galón para cada coche.


2.6 Medidas de dispersión 43

b) ¿Cuál coche parece haber logrado un rendimiento más consistente si la consisten-


cia se determina examinando las varianzas? Explique.

Solución:

Desviación estándar

La desviación estándar es simplemente la raı́z cuadrada positiva de la varianza. Para


muchos fines es una medida de la variabilidad más útil que la varianza. Por un lado,
la desviación tı́pica se expresa en las mismas unidades que las observaciones originales
y la media, mientras que la varianza se expresa en unidades cuadradas. Las siguientes
fórmulas dan la desviación tı́pica de la muestra
v P
uP ( xi )2
u 2
t xi −
S= N (2.9)
N −1

Coeficiente de variación

Las medidas de dispersión son valores absolutos y no resultan adecuados cuando se


lleva a cabo una comparación entre dos distribuciones. Ası́, una desviación de unos
cuantos gramos al medir el peso de un caballo no es importante, pero es de mucha
importancia al medir la dosis de una medicina. Obtenemos una medida relativa de
dispersión cuando dividimos la desviación estándar entre la media aritmética, a ésta
se le llama coeficiente de variación.
Es la razón de la desviación estándar a la media de una distribución dada. El coefi-
ciente de variabilidad se acostumbra a expresarlo en porcentajes
S
C.V. = (2.10)

La principal ventaja del coeficiente de variación es que no tiene unidades de medida,
lo que hace más fácil su interpretación. En general, valores de C.V. menores a 0.1
indican una alta concentración, entre 0.1 y 0.5 una concentración media y valores
superiores a 0.5 una alta dispersión y una media poco o nada representativa.
44 Estadı́stica descriptiva

S 0.6831
Ejemplo 2.6.4. En caso de que C.V. = = = 0.0595. El bajo valor del
x̄ 11.48
coeficiente de variación indica que los valores están muy concentrados y que la media
representa aceptablemente al conjunto de la distribución.
S 9.06
Ejemplo 2.6.5. En caso de que C.V. = = = 0.6. Lo que implica que la media
x̄ 15
no representa en modo alguno al conjunto de la distribución.

Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CP U
de 25 tareas, la varianza es 1.42, luego su desviación estandar es 1.19, y el coeficiente
1.19
de variación = 0.73. Por tanto, la desviación estándar es algo más del 70 % de
1.63
la media. Esto indica que los datos no están muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.

2.7. Medidas de tendencia central y de dispersión


para datos agrupados
Las medidas de resumen fundamentales en lo que a datos agrupados se refiere, son
las mismas que para los pequeños conjuntos de datos, principalmente la media, la
mediana y moda como medidas de tendencia central y la desviación estándar, varianza
y el rango como medidas de dispersión.

La media aritmética

Para datos agrupados se utiliza


N
X
x̂F
i=1
x̄ = (2.11)
N
donde F es la frecuencia, x̂ es la marca de la clase, N es el total de frecuencias y xi
son los datos.

Ejemplo 2.7.1. Los datos siguientes representan el número de discos vendidos cada
dı́a durante un periodo de 25 dı́as en una tienda de música localizada en un centro
2.7 Medidas de tendencia central y de dispersión para datos agrupados 45

comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia
agrupada

Número de discos vendidos Número de dı́as


15-25 4
26-36 7
37-47 3
48-58 6
59-69 5

Tabla 2.6:

Encuentre:

a) El número promedio de discos vendidos por dı́a, x̄.

b) El número promedio aproximado de discos vendidos por dı́a, x̄a .

Solución:

a) Con la ayuda de una calculadora, determinamos que la suma de las 25 medidas


P Σx 1060
es x = 1060. En consecuencia, la media muestral es: x̄ = = = 42.4.
N 25
Ası́, el número de discos vendidos por dı́a es 42.4.

b) Encontramos primero las marcas de clase x̂. Recuerde que las marcas de clase son
el punto medio de cada intervalo de clase. Cada marca de clase se multiplica
entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente
2.7:
46 Estadı́stica descriptiva

Clase F x̂ x̂F
15-25 4 20 80
26-36 7 31 217
37-47 3 42 126
48-58 6 53 318
59-69 5 64 320

Tabla 2.7:
1061
Usando la fórmula (2.11), la media aproximada es x̄a = = 42.44.
25
Note que x̄a = 42.44 es sólo un valor aproximado para la media de las 25 medidas
muestrales originales; la aproximación se considera buena comparada con el valor
exacto x̄ = 42.40 obtenido en la parte a).

Mediana

Para datos agrupados la fórmula a usar es


à !
N
2
− Fa−1
Me = LRI + C (2.12)
Fm
donde LRI de la clase mediana, N total de datos, Fa−1 es la Fa anterior a la Fa de la
clase mediana, Fm es F de la clase mediana y C es el tamaño del intervalo de clase.
Ejemplo 2.7.2. La tabla 2.8 representa las velocidades, en millas por hora, para una
muestra de 37 coches que recorren una zona escolar donde se permite circular hasta
25 millas por hora. Encuentre la mediana aproximada de la velocidad.
Velocidad Número de coches: F Fa
1-5 3 3
6-10 2 5
11-15 5 10
16-20 10 20
21-25 7 27
26-30 10 37
2.7 Medidas de tendencia central y de dispersión para datos agrupados 47

Solución:
N 37
Como N = 37, queremos localizar el = = 18.5−ésimo valor. Al observar la
2 2
tabla 2.8 notamos que tal valor cae en la clase 16 − 20, porque las tres primeras clases
contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar
(18.5 − 10) = 8.5 valores en la clase 16 − 20, bajo la hipótesis de que los 10 valores
que caen en esta clase están distribuidos homogéneamente a lo largo de ella; en otras
8.5
palabras, estamos buscando la medida en la clase 16 − 20 localizada en los de la
10
clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de
8.5
la mediana Me sólo necesitamos sumar del ancho C = 5 a la frontera inferior de
10
la cuarta clase. Ası́ el valor aproximado de la mediana es:
µ ¶
8.5
Me = 15.5 + 5 = 15.5 + 4.25 = 19.75
10

Moda

La fórmula es µ ¶
∆1
Mo = LRI + C (2.13)
∆1 + ∆2
donde ∆1 exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia
antes de la frecuencia modal), ∆2 exceso de F después de la clase modal (Frecuencia
modal menos la frecuencia después de la frecuencia modal).
F La clase modal es el intervalo de clase que contiene al mayor número de observa-
ciones.

Desviación media

Se define como la desviación promedio de los valores absolutos de las desviaciones de


los datos de una variable con respecto a su media, su formula es la siguiente:
P
| x̂ − x̄ | F
D.M. = (2.14)
N −1

Tabla 2.8:
48 Estadı́stica descriptiva

donde x̂ es la marca de la clase, x̄ es la media aritmética, F es la frecuencia y N es


el total de datos.

La varianza

Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media, dividida entre el total de datos N − 1
P
2 | x̂ − x̄ |2 F
S = (2.15)
N −1

Desviación estándar

Es la desviación promedio de los datos de una distribución respecto a su media. La


desviación estándar es simplemente la raı́z cuadrada de la varianza.
rP
| x̂ − x̄ |2 F
S= (2.16)
N −1
Ejemplo 2.7.3. Calcule las medidas descriptivas a partir de los datos agrupados de la
siguiente tabla.

Intervalo de Clase Frecuencia


85 − 89 9
90 − 94 11
95 − 99 14
100 − 104 20
105 − 109 27
110 − 114 22
115 − 119 19
120 − 124 16
125 − 129 12
N = 150
2.8 Ejercicios 49

2.8. Ejercicios
1. Los datos anotados en seguida representan los totales, en dólares, gastados en
golosinas por una muestra de 25 estudiantes durante un periodo de exámenes.

57 28 63 38 29 89 77 72 39
47 64 84 88 42 36 72 69
68 41 52 39 72 45 52 84

Construya una tabla de frecuencia agrupada.

2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres
en las dos primeras semanas de un programa de ejercicios diarios:

1 2 12 3 15 5 12 11 3 4
3 5 0 7 17 6 17 13 2 5
5 7 1 11 3 9 9 8 18 9
10 9 4 12 1 8 8 7 11 9
15 11 8 4 5 11 3 14 12 10

Use el conjunto de datos para cubrir los siguientes:

Construya una tabla de frecuencia agrupada con 5 clases.


Trace una ojiva usando frecuencias relativas y la tabla construida en el
punto anterior.
Grafique un histograma de frecuencia con cinco barras usando la tabla ya
realizada.
Encuentre el ancho de la clase 10 − 20, donde los 10 y 20 son los lı́mites
de clase.
Si Vmax = 89.7 y Vmin = 32.1, n0 = 5 y la unidad de medida es 0.1,
determine el lı́mite superior de la primera clase.

3. Se proponen 3 calificaciones para los salarios por hora de un artesano. Critique


usted cada una de las clasificaciones dadas a continuación:
50 Estadı́stica descriptiva

Clasificación I Clasificación II Clasificación III


$ 0-3.00 $ 0-3.50 $ 0-menos de 3.00
3.00-6.00 3.51-7.00 4.00-menos de 7.00
6.00-9.00 7.01-10.00 8.00-menos de 11.00
9.00-12.00 10.01-15.00 12.00-menos de 15.00
12.00-15.00 más de 15.00 más de 15.00

4. La tabla 2.9 muestra una distribución de frecuencias de los salarios semanales


de 65 empleados de la empresa P&R. De acuerdo con esta tabla, determine:

El lı́mite inferior de la sexta clase.

El lı́mite superior de la cuarta clase.

La marca de clase de la tercera clase.

Los lı́mites reales del quinto intervalo.

El tamaño del quinto intervalo de clase.

La frecuencia de la tercera clase.

La frecuencia relativa de la tercera clase.

El intervalo de clase con mayor frecuencia.

El porcentaje de empleados que ganan menos de $280.00 a la semana.

El porcentaje de empleados que reciben por semana más de $260.00, pero


menos de $300.00.
2.8 Ejercicios 51

Salarios Número de empleados


$ 250.00-259.99 8
260.00-269.99 10
270.00-279.99 16
280.00-289.99 14
290.00-299.99 10
300.00-309.99 5
310.00-319.99 2
Total 65

Tabla 2.9: Distribución de frecuencia de salarios semanales.

5. Como control de la ética publicitaria se requiere que el rendimiento, en mi-


llas por galón de gasolina, que los fabricantes de automóviles usan con fines
publicitarios, esté basado en un buen número de pruebas efectuadas en diver-
sas condiciones. Al tomar una muestra de n = 50 automóviles se registran las
siguientes observaciones en millas por galón:

27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6
34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4
35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3
28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9
30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1

Construya un histograma de frecuencias relativas usando 5 intervalos de


clase de la misma longitud.

Los fabricantes afirman que su automóvil está diseñado para rendir al


menos 30 millas por galón. ¿Qué porcentaje de autos en la muestra produce
este rendimiento?.
52 Estadı́stica descriptiva

6. Las calificaciones finales en matemáticas de 80 estudiantes universitarios son las


siguientes:
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Encuentre:

La calificación más alta.

La calificación más baja.

El rango.

Las cinco calificaciones más altas.

Las cinco calificaciones más bajas.

La calificación del alumno que obtuvo el décimo lugar más alto.

El número de estudiantes con calificaciones de 75 o más.

El número de estudiantes con calificaciones menores que 85.

El porcentaje de estudiantes con calificaciones mayores que 65, pero menores


a 85.

7. La tabla 2.10 muestra la distribución de frecuencias del número semanal de mi-


nutos que pasan viendo la televisión 400 estudiantes de secundaria. Determine:

El lı́mite superior de la quinta clase.

El lı́mite inferior de la octava clase.

La marca de la séptima clase.


2.8 Ejercicios 53

Los lı́mites reales de la última clase.

El tamaño de los intervalos de clase.

La frecuencia de la cuarta clase.

La frecuencia relativa de la sexta clase.

El porcentaje de estudiantes cuyo tiempo semanal de ver la televisión no


excede de 600 minutos.

El porcentaje de estudiantes cuyo tiempo semanal de ver la televisión es


mayor o igual de 900 minutos.

El porcentaje de estudiantes cuyo tiempo de ver la televisión es mayor de


500 minutos, pero menor que 1000 minutos.

Construir un histograma de frecuencias correpondiente a la distribución de


la tabla 2.10.

Tiempo de ver TV (min.) Núm. de estudiantes


300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6

Tabla 2.10: Distribución de frecuencia.

8. Con la siguiente lista de números realiza la tabla de distribución de frecuencias,


54 Estadı́stica descriptiva

calcula las medidas de tendencia central y las medidas de dispersión.

3.32 3.98 3.23 3.07 3.04 3.85 3.59


3.42 3.89 3.40 3.15 3.49 3.61 3.41
3.05 3.81 3.39 3.54 3.28 3.84 3.34
3.49 3.74 3.00 3.10 3.76 3.71 3.29

9. Con la siguiente lista de números realiza la tabla de distribución de frecuencias,


calcula las medidas de tendencia central y las medidas de dispersión.

4.32 3.26 4.18 5.21 4.26 8.25


5.16 5.20 4.98 4.48 3.58 4.32
4.96 5.27 4.16 4.29 4.56 5.36
6.28 3.96 5.44 5.36 4.84 5.36
4.72 4.12 5.13 5.65 4.16 5.17

10. Con la siguiente lista de números realiza la tabla de distribución de frecuencias,


calcula las medidas de tendencia central y las medidas de dispersión.

52 63 92 92 83 74 66
98 68 81 88 77 41 60
46 77 81 82 84 70 76
79 98 82 81 87 70 78
79 88 77 84 70 61 80
78 76 66 77 78 67

11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:

a) 3, 9, 12, 7, 16, 20, 33, 3

b) 5, 7, 22, 17, 5, 7, 20

c) 8, 6, 0, 17, 12, 7, 5

d) −4, 0, 13, 9, 4, 14, 20, 15


2.8 Ejercicios 55

12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:

a) 0, 0, 1, 1, 1, 0, 0, 0
b) 3, 3, 3, 2, 2, 2, 4, 5, 3
c) 0, 1, 1, 2, 2, 3, 3, 4, 4
d) −1, 0, 0, 0, −1, 2, −2, 3

13. Un instructor borra accidentalmente la calificación de uno de sus 6 estudiantes;


las 5 calificaciones restantes son 76, 85, 43, 89 y 65, y la media de las seis es 70.
Encuentre la calificación que se borró.

14. En un esfuerzo por reducir su consumo de café, un trabajador de oficina registra


los números siguientes de tazas de café consumidas durante un periodo de 20
dı́as:
4 5 3 6 7 1 2 3 0 5
6 5 8 4 0 2 3 7 5 6
¿Qué medida de tendencia central le servirá mejor a su propósito?¿Cuál es el
valor numérico?.

15. A continuación hay una colección de calificaciones del examen de Estadı́stica


de 25 estudiantes, en un examen de 50 preguntas

38 39 33 37 34 31 38 36 35 5

¿Cuál medida de tendencia central es más útil para describir el valor cen-
tral?¿Cuál es su valor numérico?.

16. En una investigación realizada por la secretaria de un médico para averiguar los
tiempos de espera en minutos de los pacientes que acuden con el doctor, una
muestra de pacientes de un dı́a arrojó los resultados:

35 25 35 50 25 55 30 50 35 35
5 5 60 35 30 30 25 55 30 20
60 25 25 40 80 20 20 5 5 10
56 Estadı́stica descriptiva

a) Describa un tiempo tı́pico de espera usando la media.

b) Describa un tiempo tı́pico de espera usando la mediana.

c) ¿Cuál medida, media o mediana, considera usted que es más representativa


del conjunto de datos? Explique.

17. La tabla siguiente contiene los salarios en cientos de dólares de 25 trabajadores.

Salario anual Frecuencia


55 7
60 5
70 6
80 4
300 3

a) ¿Cuál es la moda?

b) ¿Cuál es la media?

c) ¿Cuál es la mediana?

18. Se escogió una muestra de 705 conductores de autobús y se registró en la tabla


siguiente el número de accidentes de tránsito que tuvieron durante 4 años.

Número de accidentes Frecuencia Número de accidentes Frecuencia


0 114 6 21
1 157 7 7
2 158 8 6
3 115 9 1
4 78 10 3
5 44 11 1
2.8 Ejercicios 57

a) ¿Cuál es la moda?

b) Señale la media, la mediana.

c) ¿Cuál es el rango?

19. La tabla siguiente da una muestra de los tiempos de recorrido, en minutos, de


un camino de 2.5 millas para dos coches, A y B.

A 1.0 0.9 1.0 0.8 0.9 1.0 0.9 1.0


B 1.3 1.3 1.0 0.9 1.1 0.9 1.4 1.3

a) Encuentre el promedio de los tiempos de recorrido para cada uno de los


coches, A y B.

b) Calcule la varianza de los tiempos de recorrido para A y B, respectivamente.

c) ¿Cuál coche tuvo un tiempo promedio menor de recorrido?

d) ¿Qué coche tuvo un desempeño más consistente, si la consistencia se mide


por la varianza?

20. La tabla adjunta indica los salarios anuales, en dólares, para una muestra de 25
trabajadores.

Salario anual Frecuencia


$5,500 7
6,000 5
7,000 6
8,000 4
30,000 3

Encuentre el rango, la media, la desviación estándar.


58 Estadı́stica descriptiva

21. Una gran lecherı́a vigila continuamente el nivel de contenido graso en su produc-
to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo
aceptable una desviación estándar del 10 %; se obtuvo una muestra de 20 car-
tones de leche y se registró el porcentaje de grasa en cada uno. Los resultados
se anotan a continuación.

1.85 2.25 2.01 1.90 1.97


1.80 2.05 2.23 1.65 1.86
2.02 2.09 2.04 2.07 2.14
1.93 2.08 2.17 1.91 1.93

Calcule la media y la desviación estándar para la muestra de contenidos de grasa.


¿Hay evidencia de que el contenido de grasa es demasiado alto? Explique.

22. La tabla de frecuencias agrupadas exhibe las edades de una muestra de 36


personas asistentes a una pelı́cula para adultos.

Clase F
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9

Encuentre la media, mediana, moda, varianza y desviación estándar.

23. La tabla de frecuencia agrupada adjunta indica las edades de compradores de


coches nuevos en una gran distribuidora.
2.8 Ejercicios 59

Clase de edades F
28-32 20
33-37 23
38-42 71
43-47 45
48-52 26

Encuentre la edad media, mediana, moda, varianza y desviación estándar.


60 Estadı́stica descriptiva

Autoevaluación

Nombre:

1. Define Estadı́stica.

2. ¿Cuál es la diferencia entre una población y una muestra?.

3. ¿Cuál es la diferencia entre las variables discretas y continuas?. De un ejemplo


de cada una.

4. ¿Qué es la estadı́stica y para que la estudiamos?

5. ¿Cuál es la diferencia entre una variable cualitativa y una cuantitativa?. De dos


ejemplos de cada una.
En los siguientes elige la respuesta correcta y subraya.

6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre
el comportamiento de estas variables.
a) La estadı́stica descriptiva b) La estadı́stica inferencial c) El muestreo

7. Es la representación estructurada, en forma de tabla, de toda la información


que se ha recogido sobre la variable que se estudia.
a) La distribución de frecuencia b) La muestra c) La estadı́stica descriptiva

8. Son las medidas que nos informan sobre los valores medios de la serie de datos.
a) Las MTC b) Las MD c) Las variables.

9. Son las medidas que estudian la distribución de los valores de la serie, analizando
si estos se encuentran más o menos concentrados, o más o menos dispersos.
a) Las MTC b) Las MD c) Las variables.

10. Es el valor medio ponderado de la serie de datos.


a) La media b) La mediana c) La moda
2.8 Ejercicios 61

11. Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra.


a) La media b) La mediana c) La moda

12. Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-
tiplicadas por el número de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tamaño de la muestra.
a) La varianza b) La desviación media c) La desviación estándar

13. Calcule la media, mediana y moda para cada uno de los siguientes:
a) 12 15 23 7 12 40 22 16

14. La tabla siguiente contiene los salarios en cientos de pesos, de 25 trabajadores.

Salario anual 55 60 70 80 300


Frecuencia 7 5 6 4 3

a)¿Cuál es la media?, b)¿Cuál es la moda?, c)¿Cuál es la mediana?, d)¿Que


medida de tendencia central usarı́a para determinar el valor central?. Explique.

15. Se inspeccionaron 15 radios antes de enviarlos para su venta. El número de


defectos por radio es: 1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1. Obtenga: x̄, Me y Mo
para el número de defectos.

16. La generación de energı́a resulta costosa para el gobierno federal. Con el fin de
ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas
destacan los mensages a la población para que economicen energı́a apagando
los focos que no estén utilizando o cambiando los focos convencionales por aho-
rradores. Entre las medidas adoptadas por los gobiernos está el uso del horario
de verano. Para contar con una idea más clara sobre el consumo de energı́a en
los hogares, se requiere de la información correspondiente. Para obtenerla, se
pidió a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su último
62 Estadı́stica descriptiva

recibo de luz. En la facturación aparece el consumo en KW h. A continuación


se muestran los 40 consumos:

299 308 335 330 317 330 327 346 315 320 301 312 320 334
319 314 309 326 314 311 322 325 300 322 312 307 311
322 298 308 312 336 314 312 328 305 315 301 327 324

a) Hacer una tabla de distribución de frecuencias usando 8 clases.

b) Trazar un histograma de Fr , un polı́gono de frecuencias y de acuerdo a


estos dos últimos, diga en cuantos hogares se consumen menos de 310
KW h y a que porcentaje corresponde. Señale estos datos en las gráficas
correspondientes.

17. Considere la tabla de frecuencia agrupada siguiente:

Clases F
4.5-9.4 2
9.5-14.4 3
14.5-19.4 4
19.5-24.4 1
24.5-29.4 8

a) Encuentre la amplitud C de cada clase.

b) Las 5 marcas de clase.

c) Localice las fronteras reales para la primera clase.

d) ¿Que porcentaje hay de datos mayores que 19.45?.

e) ¿Y de los datos menores de 24.5?.

f ) ¿Que tanto por ciento cae en la clase 14.5 − 19.4?.


2.8 Ejercicios 63

18. Se realizó un experimento para determinar el efecto de un cierto


mg
fármaco en los niveles de colesterol en la sangre, en , en hom-
100 ml
bres de 30 años. Se obtuvieron las siguientes medidas:

245 185 230 225 265 210 235 145 195 215
245 165 195 170 205 225 190 220 210 195
160 240 285 175 260 225 120 185 140

a) Hacer una distribución de frecuencias con 10 clases

b) Trazar un histograma de Fr .

19. Los datos que a continuación se exhiben representan las razones de


costo beneficio para 25 distintos tipos de acciones de mercado de
valores.

20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3
19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9

a) Construya un histograma de frecuencias relativas para describir estos datos.

b) ¿Qué proporción de las acciones tienen tasas de costo-beneficio de 17.0 o


mayores?.
Capı́tulo 3

Muestreo

3.1. Introducción
En multitud de ámbitos de la vida real es evidente que la mejor forma de aprender
algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que
vemos para aprender pautas y conductas que luego generalizamos. En Estadı́stica
pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder
aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la
población. Sin embargo, como en la vida real, en Estadı́stica también debemos ser muy
cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Qué pasarı́a si
basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para
que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
población puedan verse representados. Por otra parte, es evidente que cuanto mayores
sean las muestras más fiables deberı́an ser nuestras inferencias.
Ahora bien, el principal objetivo de la estadı́stica es hacer inferencias acerca de una
población con base en la información contenida en una parte o muestra de ello. El ob-
jetivo principal de un diseño de muestreo es proporcionar indicaciones para la selección
de una muestra que sea representativa de la población bajo estudio, proporcionando
ası́ una cantidad especificada de información a un costo mı́nimo.
Los términos usados frecuentemente en inferencia son:
3.1 Introducción 65

1) Parámetros de una población: Un parámetro es una medida usada para describir


algunas caracterı́sticas de una población de estudio o variable especı́fica de una
población de estudio. Por ejemplo,

El ingreso promedio de las familias que habitan en Tabasco.

El porcentaje de mujeres que hay en una ciudad.

El número de familias con vehı́culos.

El porcentaje de personas diabéticas.

2) Estadı́sticos: Son las medidas usadas para describir algunas caracterı́sticas de la


muestra tal como la media, mediana o desviación estándar de una muestra.

3) Población de estudio: Es el conjunto universal de elementos que tienen en común


la variable de interés (parámetro) para el estudio. Dependiendo del parámetro
que se quiere investigar se determina la población de estudio. Si la población
de estudio es uniforme en las caracterı́sticas que serán medidas, entonces casi
cualquier muestra produce resultados aceptables.
Por ejemplo, una agencia para la protección del medio ambiente basa su diag-
nóstico de la calidad del agua de una ciudad en el análisis de algunos litros de
agua. Esto es posible debido a que se supone que una gota de agua contiene
aproximadamente la misma cantidad de impurezas que otra.

Las poblaciones de estudio se clasifican en homogénea y heterogénea.

PEHo: Los datos numéricos de los elementos de la población no estan muy


dispersos, es decir, los datos son parecidos.

PEHe: Es el conjunto universal de elementos cuyos datos con respecto a una


variable auxiliar numérica están muy dispersos. Por ejemplo:

La población de predios agrı́colas.


El ingreso económico de las familias de la ciudad.
66 Muestreo

El número de empleados de un centro de trabajo.

Hay dos formas de generar información estadı́stica

1) Censo: Es un inventario (o registro) de todos y cada uno de las unidades (elemen-


tos) que constituyen una población.

2) Muestreo: Es un método probabilı́stico que consiste en investigar una porción de


la población de estudio.

Se podrı́a pensar que la única forma de garantizar que un conjunto de datos represente
a la población es a través del censo pues se registra a cada elemento de la población.
Entonces ¿porqué llevar a cabo investigaciones muestrales en lugar de censos comple-
tos?.

3.2. Muestra y censo

3.2.1. Ventajas y desventajas del censo


Ventajas

Se obtiene información completa de todos los parámetros posibles que se deseen


conocer, es decir, los parámetros son ilimitados.

Muy útil cuando se tiene poblaciones pequeñas

Si existe mucha variabilidad entre los elementos de la población, puede ser


necesario considerar una muestra muy grande para obtener una que sea repre-
sentativa. Si la población no es mas grande que la muestra, entonces es mejor
un censo.

Si se requiere exactitud completa.

Ejemplo 3.2.1. Un gerente bancario no tomará una muestra al azar del dinero
en las cajas para saber de cuanto efectivo dispone el banco, sino que contarı́a
3.2 Muestra y censo 67

todo el dinero depositado en ellas. Esto no hace que no se cometan errores


y fallas aritméticas al sumar las cantidades, pero evita los problemas que se
presentarı́an si se tomara alguna caja como representativas de todas las demás.

Desventajas

Es muy costoso.

Los resultados finales se tienen a largo plazo. Por esta razón la información
estadı́stica ya no es oportuna para la toma de desiciones adecuada.

No se puede contar con un equipo de trabajo altamente capacitado porque en


él participan miles de personas.

No se puede conocer la dimensión del error que se comete en los registros de los
datos.

Es imposible hacer una supervisión a un alto porcentaje de las unidades o


elementos censados.

La población es infinita. En este caso es imposible efectuar un censo ya que


es un proceso que no termina y serı́a evidentemente imposible examinar cada
elemento de la población.

3.2.2. Ventajas y desventajas del muestreo


Ventajas

Resultados a corto plazo lo cual es oportuno para la toma de desiciones.

Ejemplo 3.2.2. En el tiempo que se necesita para examinar cada caja de un


cargamento de fresas frescas, la fruta se podrı́a deteriorar hasta el punto que no
pudiera venderse.

Ejemplo 3.2.3. Encuestar personas de una gran comunidad para descubrir el


porcentaje de individuos que contrajeron cierta enfermedad contagiosa puede
68 Muestreo

tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de
sanidad convenientes, el padecimiento puede haberse extendido en tal grado que
serı́a necesario tomar otras disposiciones. De hecho, los encuestadores pueden
ser un factor que contribuya a la propagación de la enfermedad. Ası́, el estudio
puede indicar que localmente se dispone de suficiente vacuna para hacer frente
a la enfermedad pero, para ese momento, ésta se encontrará fuera de control y
requerirá dosis masivas de la vacuna.

Investigación práctica y a bajo costo

Como el número de los participantes es pequeño se puede contar con un equipo


altamente capacitado.

Se puede controlar el error que se comete en el registro de datos.

Alto porcentaje de investigación.

Si el tamaño de la muestra es mas pequeño que la población, entonces se pueden


extraer dos muestras o mas.

Pueden intervenir ensayos destructivos.

Ejemplo 3.2.4. Cuando los datos se obtienen de la destrucción de los elementos


de la muestra, el muestreo es mas eficiente que un censo.
En control de calidad por ejemplo, la prueba de bombillas para flash es de tipo
destructivo. En este caso es indispensable el muestreo porque un censo destruirı́a
todos los elementos de la población y no habrı́a artı́culos para la venta.

Exactitud cuando la población es grande. El muestreo comprende menos obser-


vaciones, y por lo tanto, menos recopiladores de datos, lo que puede dar lugar
a mayor uniformidad en los métodos de recopilación.

Desventajas

Sólo se puede conocer un número limitado de parámetros.


3.2 Muestra y censo 69

En ocasiones no se cuenta con una población completa de los elementos de


estudio.

Si se requiere de exactitud completa no es muy útil.

Para que las conclusiones de la teorı́a del muestreo sean válidas es necesario que las
muestras sean representativas y que se satisfaga:

El tamaño de la muestra sea suficientemente grande.

La muestra debe ser seleccionada aleatoriamente. Es decir, cada miembro de la


población debe tener la misma posibilidad de ser elegido.

Una muestra aleatoria se selecciona de forma que toda combinación de n mediciones


de la población tenga la misma posibilidad de ser seleccionada.
Una técnica de obtención de una muestra aleatoria es la asignación de números a tro-
zos de papel, colocarlos en una urna y después sacar números de dicha urna teniendo
cuidado de mezclar bien antes de cada extracción.

Tipo de selección de los elementos de una muestra

1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria
un elemento, esta se regresa a la población. Se observa que un elemento en común
puede ser seleccionado mas de una vez para la muestra y es posible que un sólo
elemento contribuya a la muestra.

Ejemplo 3.2.5. Un número en una urna, existe la opción de reponer o no el


número en la urna antes de la segunda extracción. En esta caso el número
puede salir una y otra vez.
Población de estudio de tamaño N .

1ra 2da 3ra 4ta · · · (n − 1) n


1 1 1 1 1 1
···
N N N N N N
70 Muestreo

Entonces, la posibilidad de seleccionar aleatoriamente


µ n ¶nelementos con reem-
1 1
plazo de una población de estudio de tamaño N es = n.
N N

2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una población
de estudio consiste en que una vez que se mide un elemento esta ya no se regresa
al conjunto.

Ejemplo 3.2.6. En el caso de la urna, el número solo sale una vez.

1ra 2da 3ra 4ta ··· (n − 1)


1 1 1 1 1
···
N N −1 N −2 N −3 N − (n − 1)

Las poblaciones son finitas o infinitas. Si el muestreo es sin reemplazo entonces es


de población finita, pues el conjunto disminuye y la probabilidad de selección del
siguiente elemento aumenta. Si es con reemplazo teóricamente puede considerarse
como muestreo de población infinita ya que es posible extraer cualquier número de
muestras sin extinguir la población.
Ejemplos de población infinita son: la producción futura de una máquina, tiradas
de una moneda y dados no cargados. Ejemplos de procesos aleatorios son: llegadas
de autos a una caseta de cobro, llamadas telefónicas que se reciben en un enorme
conmutador, los clientes en las cajas de los supermercados.
Otra forma de seleccionar una muestra aleatoria es mediante una tabla de números
aleatorios.

3.3. Tabla de números aleatorios


En esta sección se describirá la forma de llevar a cabo una encuesta por muestreo con
base en una muestra aleatoria simple.

Definición 3.3.1. Al seleccionar una muestra de n mediciones de una población


finita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras
3.3 Tabla de números aleatorios 71

posibles de tamaño n tengan la misma probabilidad de ser seleccionadas, el muestreo


se llama aleatorio y el resultado es una muestra aleatoria simple.

En la práctica es muy difı́cil lograr un muestreo aleatorio perfecto. Si la población no


es muy grande, cada una de las N mediciones se puede anotar en un pedazo de papel
que se coloca en una urna. Posteriormente se extrae de la urna una muestra aleatoria
de n mediciones.
La mejor manera de estar seguros de efectuar un muestreo aleatorio es usar una
tabla de números aleatorios. Las tablas de números aleatorios contienen los 10 dı́gi-
tos 0, 1, 2, . . . , 7, 8, 9. Tales dı́gitos se pueden leer individualmente o en grupos y en
cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonal-
mente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por
dos cosas que las hacen particularmente útiles para el muestreo al azar. Una carac-
terı́stica es que los dı́gitos están ordenados de tal manera que la probabilidad de que
aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad
de que ocurra cualquier otro. La otra es que las combinaciones de dı́gitos tienen la
misma probabilidad de ocurrir que las otras combinaciones de un número igual de
dı́gitos.
En el siguiente ejemplo se ilustra el uso de una tabla de números aleatorios.

Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administración
adecuada de los flujos de efectivo para presupuestar y controlar en forma eficiente
sus recursos presentes y futuros. Cuando los flujos de efectivos son altos, la empresa
puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las
rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es
posible comprar al contado y es necesario pagar más por bienes y servicios.
Una de las mejores maneras de medir la situación de una compañı́a de ventas al
menudeo, en lo que se refiere a efectivo, es a través de las cuentas por cobrar a corto
plazo que tiene la empresa. Al analizar la situación de una tienda, una firma de con-
tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales
72 Muestreo

por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-
da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria
simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma
probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinará cuáles son las
cuentas que serán incluidas en la muestra de tamaño n = 15.

Solución:
Se puede pensar que las N = 1000 cuentas por cobrar están numeradas como sigue:
001, 002, . . . , 999, 000. Es decir, se tienen 1000 números de tres dı́gitos, donde 001
representa la primera cuenta, 999 la cuenta número 999 y 000 la cuenta número mil.
En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el
primer número de la quinta columna y se eliminan el últimos dı́gito de cada número
de cuatro, se verá que el primer número de tres dı́gitos que se obtiene es el 700, el
segundo 110, en tercero el 40, etc. Si un número aleatorio ocurre dos veces, se omite
la segunda ocurrencia y se selecciona otro número aleatorio para reemplazarlo. Al
tomar una muestra aleatoria que consista en los primeros 15 números de tres dı́gitos
no repetidos de la columna 5, se obtienen los siguientes números:

700 078 761


110 795 545
040 513 506
995 250 034
915 957 624

Si las cuentas por cobrar están numeradas, simplemente se escogen aquellas cuyos
números corresponden a los de la lista anterior y se forma la muestra de n = 15 de
las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no están numeradas, se
toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los números
obtenidos anteriormente.

En el ejemplo 3.3.1, el tamaño de la población N = 1000 hizo posible el asociar en


forma única cada elemento de la población con un número diferente de tres dı́gitos.
3.3 Tabla de números aleatorios 73

¿Qué se puede hacer si N = 964? Está claro que se pueden asociar los números de
tres dı́gitos 001, 002, . . . , 964 con los elementos de la población. Los números de tres
dı́gitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra
de n números de tres dı́gitos de la tabla de números al azar.
en ocasiones el experimentador usa su propio criterio para seleccionar una muestra
representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-
ma “aleatoria”. Ambos procedimientos están sujetos al sesgo del experimentador y
deben evitarse cuando se desea obtener una muestra aleatoria simple.
74 Muestreo

9869 8728 0368 4431 7002 5030 2227 0479 6343


6339 6518 5946 3213 1109 1313 3450 8522 0293
7643 4939 0996 4039 0400 4453 4430 3263 4107
3661 6244 3738 8889 9959 4514 1236 6241 2889
3802 6424 2819 2820 9158 1249 5365 9601 5421
7456 8278 4622 1342 0784 4285 1249 0238 8195
9015 9975 5045 7059 7958 9806 9754 5941 4796
9891 0292 2203 2661 5130 3766 4364 9713 2171
5943 4287 6682 0697 2509 6664 0303 1635 5072
0515 6671 9202 6750 9579 8805 9213 5242 9971
8222 6702 7366 2906 7615 8908 8480 0654 5960
5000 7560 0966 8264 5457 4426 4762 3986 0510
2590 8247 8506 5768 5069 2032 5654 7557 5502
0473 8236 0827 0574 0349 8170 1543 9000 7482
6937 2597 8681 2096 6247 1383 3437 2588 5284
5158 7530 5320 3511 7314 5708 2709 2387 6091
2310 0964 4722 7120 6271 5957 0280 4955 6849
1786 0971 5708 4059 9337 5967 3091 9742 1162
4308 6633 6767 9898 4654 8966 0897 8079 4353
6171 7594 6443 2396 4173 7014 8416 5544 6123
3868 6313 4085 4719 0566 7105 9903 7031 5643
9874 3122 7417 8464 7114 8828 8576 4743 9959
3173 8599 5281 6337 4298 8768 3089 8776 6610
7808 9715 0093 9837 0300 4042 5759 7071 5572
0131 2852 0015 2708 8486 0070 3609 9647 3977
4950 7115 2338 0984 0321 9763 8976 2102 7253
6071 5446 7233 4295 4168 0254 0279 1792 5917

Tabla 3.1: Tabla de números aleatorios.


3.4 Estimación basada en una muestra aleatoria simple 75

3.4. Estimación basada en una muestra aleatoria


simple
La selección de una muestra aleatoria simple, es el mas simple de los diseños de
encuestas, fue presentada en la sección 3.3. Una vez recolectadas las observaciones
muestrales, el siguiente objetivo consiste en la estimación de ciertos parámetros pobla-
cionales de interés. Frecuentemente se tiene interés es estimar la media poblacional µ
o el total poblacional τ (letra griega tau). Por ejemplo, la firma de contabilidad del
ejemplo 3.3.1 podrı́a estar interesada en el valor promedio de las cuentas por cobrar
y también en el valor total de las cuentas.
Las fórmulas de cálculo para estimar la media poblacional µ y el total poblacional τ ,
basados en un muestreo aleatorio simple, se presentan mas adelante. Es importante
aclarar que una estimación puntual, como µ̂ y τ̂ , no proporcionan información acerca
de la bondad de la estimación. Por lo tanto, se dan las fórmulas de la varianza con el
propósito de establecer cotas para el error de estimación de µ y τ .
Al usar muestreo aleatorio simple para estimar la media poblacional µ, se obtiene el
siguiente estimador:

Estimación de la media poblacional para un muestreo aleatorio simple

Estimador n
X yi
µ̂ = ȳ = (3.1)
i=1
n
Varianza estimada del estimador
µ 2¶µ ¶ n
X
2 s N −n (yi − ȳ)2
σ̂ȳ = con s2 = (3.2)
n N i=1
n−1

Cotas para el error de estimación


ȳ ± 2σ̂ȳ (3.3)

Nótese que la cantidad 2σ̂ȳ es una cota aproximada del error de estimación y sólo
implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se
76 Muestreo

desviarán de la media en menos de 2σ̂ȳ . En el presente capı́tulo se usará la cota de


dos desviaciones estándar para describir un intervalo de estimación para µ y τ al usar
cada uno de los diferentes diseños de muestreo.
Al usar muestreo aleatorio simple para estimar el total poblacional τ , se obtiene el
siguiente estimador:

Estimación del total poblacional para una muestra aleatoria simple

Estimador
τ̂ = N ȳ (3.4)

Varianza estimada del estimador

σ̂τ̂2 = N 2 σ̂ŷ2 (3.5)

Cota para el error de estimación


N ȳ ± 2σ̂τ̂ (3.6)

Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de
una muestra de tamaño n = 15 de la población de cuentas por cobrar del ejemplo
3.3.1
$14.50 $23.40 $42.00
30.20 15.50 13.30
17.80 27.50 23.70
10.00 6.90 18.40
8.50 19.50 12.10

Tabla 3.2: Saldos de cuentas para el ejemplo 3.5.1

a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y
establezca una cota para el error de estimación.

b) Estime el total τ de los saldos de todas las cuentas y establezca una cota para el
error de estimación.
3.4 Estimación basada en una muestra aleatoria simple 77

Solución:
Para facilitar los cálculos es conveniente escribir los datos como se muestran en la
siguiente tabla 3.3

yi yi2
$14.50 210.25
30.20 912.04
17.80 316.84
10.00 100.00
8.50 72.25
23.40 547.56
15.50 240.25
27.50 756.25
6.90 47.61
19.50 380.25
42.00 1764.00
13.30 176.89
23.70 561.69
18.40 338.56
12.10 146.41
15
X 15
X
yi = 283.30 yi2 = 6570.85
i=1 i=1

Tabla 3.3: Saldos de cuentas para el ejemplo 3.5.1

a) La estimación del saldo promedio µ es

15
X
yi
i=1 283.30
ȳ = = = $18.89
15 15
78 Muestreo

Para encontrar una cota para el error de estimación de µ, es necesario calcular


à 15 !2
X
15 15
yi
X X i=1
2 2
(yi − ȳ) yi −
i=1 i=1
15
2
s = =
· 14 14
¸
1 (283.30)2 1
= 6570.85 − = [6570.85 − 5350.59] = 87.16
14 15 14
Por lo tanto, la varianza estimada de ȳ es
µ 2¶µ ¶ µ ¶µ ¶
2 s N −n 87.16 1000 − 15
σ̂ȳ = = = 5.72
n N 15 1000
Una estimación del saldo promedio µ, con una cota para el error de estimación,
es

ȳ ± 2σ̂ȳ = $18.89 ± $4.78

b) Una estimación del total de los saldos corresponde a

τ̂ = N ȳ = 1, 000($18.89) = $18, 890

Dado que la varianza estimada de τ̂ es σ̂τ̂2 = N 2 σ̂ȳ2 , una estimación del total de
los saldos de las N = 1000 cuentas, con una cota para el error de estimación,
corresponde a

τ̂ ± 2σ̂τ̂ = N ȳ ± 2N σ̂ȳ = $18, 890 ± 2(1, 000) 5.72
= $18, 890 ± $4, 783

En algunas investigaciones experimentales puede ser de interés estimar la propor-


ción de la población que posee determinada caracterı́stica. Un auditor podrı́a estar
interesado en la proporción de cuentas por cobrar atrasadas; un investigador de mer-
cados podrı́a estar interesado en la proporción del mercado que controla la empresa;
un ejecutivo corporativo puede estar interesado en la proporción de accionistas que
está a favor de una decisión particular.
3.4 Estimación basada en una muestra aleatoria simple 79

Estimación de la proporción poblacional para una muestra aleatoria simple

Estimador
y
p̂ =
n
Varianza estimada del estimador
µ ¶µ ¶
2 p̂ q̂ N −n
σ̂p̂ = con q̂ = 1 − p̂
n−1 N
Cotas para el error de estimación

p̂ ± 2σ̂p̂

En este caso y es el número total de los elementos de la muestra que tienen determi-
nada caracterı́stica por la cual se tiene interés.

Ejemplo 3.4.2. Es común que las empresas manufactureras establezcan descuentos


durante periodos cortos de tiempo para convencer a sus clientes de que incrementen
y anticipen sus compras, mejorando ası́ la situación de la empresa en lo que se refiere
a efectivo. Siguiendo la polı́tica anterior un fabricante y distribuidor de alimentos
congelados pretende establecer un descuento del 20 % en el precio de sus productos
para aquellos compradores que dupliquen sus pedidos mensuales.
Dado que el almacenaje de los alimentos congelados es muy costoso, no se tiene
la seguridad de que los compradores estén interesados en la oferta de descuento.
Se tomó una muestra de n = 50 de los N = 430 clientes de la empresa y 15 de
los 50 clientes manifestaron que aceptarı́an la oferta de descuento y duplicarı́an sus
pedidos mensuales. Estime la proporción p de los N = 430 clientes de la compañı́a
que aceptaron la oferta, y determine una cota para el error de estimación.

Solución:
Una estimación de la proporción p de los clientes de la empresa que aceptaron la
oferta de descuento es
y 15
p̂ = = = 0.30
n 50
80 Muestreo

Para establecer cota para el error de estimación, es necesario calcular la varianza σ̂p̂2
µ ¶µ ¶ · ¸µ ¶
2 p̂ q̂ N −n (0.30)(0.70) 430 − 50
σ̂p̂ = =
n−1 N 49 430
µ ¶
0.21
= (0.88) = 0.003771
49
Una estimación de p, con una cota para el error de estimación, corresponde a

p̂ ± 2σ̂p̂ = 0.30 ± 2 0.003771 ≈ 0.30 ± 0.12

Es decir, se estima que la proporción de los clientes de la empresa que aceptarán la


oferta de descuento es 0.30, con una cota para el error de estimación de 0.12.

Ejercicios

1. En vista de la crisis energética y del número creciente de accidentes de carretera,


el Congreso de los Estados Unidos en 1974 aprobó una ley que establece un lı́mite
de velocidad de 55 mph en todas las carreteras del paı́s. Desde entonces, se han
producido gran cantidad de discusiones sobre la aceptación de esta medida por
parte del público. Para estudiar este problema, la policı́a de caminos del estado
de California decidió seleccionar aleatoriamente n = 25 vehı́culos que viajaban
en un determinado tramo de una carretera interestatal y medir sus velocidades.
Se encontró que la velocidad promedio de los 25 vehı́culos fue de 57.5 mph con
una desviación estándar de 9.4 mph. Estime la velocidad promedio µ de los
vehı́culos que viajan en esa carretera, y establezca una cota para el error de
estimación.

2. Una agencia gubernamental ha propuesto que se esteblezca una reglamentación


para permitir a las farmacias que hagan publicidad sobre los precios al menudeo
de las medicinas. Esta reglamentación permitirı́a la competencia de los medica-
mentos, permitiendo ası́ a los comunicadores obtener los mejores precios posi-
bles. Para establecer el grado de disparidad de los precios que diferentes far-
macias de determinada zona cobran por un medicamento de uso común, se
3.5 Muestreo aleatorio estratificado 81

seleccionó una muestra aleatoria de n = 20 farmacias de las N = 152 de la


zona. El precio de 100 tabletas del medicamento en las farmacias seleccionadas
aparece en la lista adjunta

$3.75 $4.10 $10.40 $7.50 $2.95


5.75 7.50 8.90 4.75 11.75
5.85 7.65 8.10 6.50 7.50
5.50 8.00 4.50 10.25 4.95

Estime el precio promedio µ que las 152 farmacias cobran por 100 tabletas del
medicamento, y establezca una cota para el error de estimación.

3. Suponga que una organización de trabajadores textiles está interesada en deter-


minar la proporción de los N = 352 trabajadores de una fábrica textil que están
satisfechos con las prestaciones que reciben en lo que se refiere a beneficios de
jubilación y seguro. Usando una tabla de números aleatorios, un representante
de la organización seleccionó n = 40 de los trabajadores y encontró que 23 de
ellos están satisfechos con las prestaciones de seguro y jubilación que la empresa
ofrece actualmente. Estime la proporción p de los empleados de la empresa tex-
til que están de acuerdo con las prestaciones que la empresa ofrece. Establezca
una cota para el error de estimación.

3.5. Muestreo aleatorio estratificado


Un segundo tipo de diseño de muestreo, que frecuentemente proporciona una cantidad
especificada de información a menor costo que el muestreo aleatorio simple, es el
llamado muestreo aleatorio estratificado. Este diseño se recomienda cuando la
población consiste en un conjunto de grupos heterogéneos (distintos).

Definición 3.5.1. Una muestra aleatoria estratificada es una muestra aleatoria


que se obtiene separando los elementos de la población en grupos disjuntos, llamados
estratos, y seleccionando una muestra aleatoria simple de cada estrato.
82 Muestreo

El muestreo aleatorio estratificado tiene tres ventajas importantes sobre el muestreo


aleatorio simple. Primera, frecuentemente el costo de recolección y el análisis de los
datos se reduce al estratificar en grupos cuyos elementos tienen caracterı́sticas simila-
res pero que difieren de un grupo a otro. Por ejemplo, en una encuesta de compradores
industriales es más costoso obtener información de aquellos que están en el extranjero
que de los nacionales. Se debe, por lo tanto, tomar muestras pequeñas de los estratos
con altos costos de muestreo para satisfacer el objetivo de minimizar el costo total de
muestreo.
La segunda ventaja está relacionada con la varianza del estimador de la media pobla-
cional. Usualmente esta varianza se reduce usando muestreo aleatorio estratificado,
debido a que la varianza dentro de los estratos es generalmente menor que la variabili-
dad de la población. Por ejemplo, el consumo de energı́a eléctrica es más variable en el
caso de los consumidores industriales que en el de los consumidores residenciales. Por
lo tanto, si se desea estimar el consumo promedio de los usuarios de energı́a eléctrica,
deben seleccionarse muestras mayores de los sectores industriales menos homogéneos
para obtener mejores estimadores de los parámetros poblacionales.
La tercera ventaja es que se obtienen estimadores separados para los parámetros de
cada estrato, sin necesidad de seleccionar otra muestra e incurrir en mayores gastos.
Por ejemplo, podrı́a ser de mayor utilidad el conocer el consumo promedio de energı́a
eléctrica de los usuarios industriales y de los usuarios residenciales de una ciudad,
que conocer únicamente el consumo promedio de todos los usuarios de esta ciudad.
El muestreo aleatorio estratificado permite analizar las diferencias entre estratos, de
manera que se pueden identificar más fácilmente aquellos grupos que requieren de
una mayor atención.
En esta sección se usará el procedimiento de afijación proporcional, que parti-
ciona el tamaño de la muestra en forma proporcional al tamaño de los estratos. La
principal ventaja del uso de la afijación proporcional es que se obtiene una muestra
“auto-ponderada ”, dado que la fracción de muestreo es la misma en cada estrato.
Cuando es necesario obtener muchos estimadores se producen ahorros en los costos de
3.5 Muestreo aleatorio estratificado 83

muestreo. En los casos en los que el costo de muestreo y las varianzas difieren mucho
entre estratos, es preferible utilizar una afijación óptima que particione la muestra de
acuerdo con el costo, la variabilidad y el tamaño de los estratos.
El primer paso en la selección de una muestra aleatoria estratificada consiste en la
especificación clara y detallada de cada estrato, asociando a cada elemento de la
población con uno y sólo un estrato. En algunos casos esto no es tan sencillo. En una
encuesta de opinión, en la que la población se divide en urbana y rural, ¿cómo deben
clasificarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo
sobre el consumo de energı́a, ¿cómo debe clasificarse la residencia de un contador
cuya oficina está en su propia casa?. La resolución que se tome no afecta los resul-
tados siempre y cuando se tenga una polı́tica consistente al respecto. Por ejemplo,
podrı́a establecerse que las poblaciones de menos de 2500 habitantes se consideran
siempre como rurales, y las de más de 2500 como urbanas; las unidades comerciales-
residenciales pueden clasificarse según la actividad para la cual se ocupa una mayor
cantidad de espacio.
Una vez especificados los estratos, se puede usar el método de la sección 3.3 para
seleccionar una muestra aleatoria en cada estrato. El tamaño total de la muestra n
dependerá del presupuesto disponible para el muestreo y de la presición y exactitud
que se requieran del estimador. Usando afijación proporcional, el tamaño de muestra
n se particiona en un tamaño de muestra para cada uno de los L estratos de forma que
n = n1 + n2 + · · · + nL , con cada ni dado por la fórmula que aparece a continuación.

Afijación de la muestra para los estratos

µ ¶
Ni
ni = n i = 1, 2, . . . , L
N
donde Ni es el número de elementos del estrato i y
L
X
N= Ni
i=1
84 Muestreo

es el tamaño de la población.
De la información obtenida de los elementos muestrales, se puede calcular la media
estimada ȳi y la varianza s2i para las observaciones de cada estrato, usando las fórmulas
que aparecen a continación.

Estimación de la media y la varianza de cada estrato

ni
X
yij
j=1
ȳi =
ni
ni
X
(yij − ȳi )2
j=1
s2i = i = 1, 2, . . . , L
ni − 1
donde yij es la j-ésima observación del estrato i.
La varianza s2i es un estimador de la correspondiente varianza del estrato σi2 .

A continuación se define el estimador ȳest de la media poblacional µ, basado en un


muestreo aleatorio estratificado.

Estimación de la media poblacional para una muestra aleatoria estratifi-


cada

Estimador
L
1 X
ȳest = Ni ȳi
N i=1
Varianza estimada del estimador
L µ ¶µ 2¶
1 X 2 Ni − ni si
σ̂ȳ2est = 2 Ni
N i=1 Ni ni
Cotas para el error de estimación

ȳest ± 2σ̂ȳest
3.5 Muestreo aleatorio estratificado 85

Ejemplo 3.5.1. En el periodo de 1973 a 1975 hubo una rápida disminución en el


número de nuevas construcciones de viviendas en los Estados Unidos. La causa prin-
cipal de esta disminución fue la escasez de fondos, en los bancos y otras instituciones
de ahorro, para préstamos hipotecarios. Para aumentar la disponibilidad de fondos
para préstamos hipotecarios, una gran compañı́a manufacturera instituyó polı́ticas
para convencer a sus empleados que inviertan regularmente parte de sus ingresos en
las instituciones locales de ahorro. Posteriormente, la compañı́a decidió llevar a cabo
un estudio de los hábitos de ahorro de sus empleados para juzgar la efectividad de la
campaña de ahorro de la empresa. Se desea estimar la cantidad promedio invertida
en ahorro por los empleados durante el último mes. Proponga un diseño de encuesta
para este problema.

Solución:
Los empleados de la empresa pueden clasificarse en tres grupos: oficinistas y obreros,
supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratifica-
da, con L = 3 estratos, parece ser el diseño mas apropiado en este caso. Se espera
que en cada uno de los estratos, los hábitos de consumo e inversión de los empleados
sean razonablemente homogéneos. En cada uno de los estratos se debe seleccionar
una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad
invertida en ahorros durante el último mes.
La compañı́a manufacturera emplea un total de 5000 personas, de las cuales 3500 son
oficinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-
tamento de investigación tiene suficiente tiempo y dinero para entrevistar únicamente
n = 50 empleados. Usando una afijación proporcional, se particiona la muestra como
sigue:
µ ¶ µ ¶
N1 3500
n1 = n = 50 = 35
N 5000
µ ¶ µ ¶ µ ¶ µ ¶
N2 1000 N3 500
n2 = n = 50 = 10 y n3 = n = 50 =5
N 5000 N 5000
El marco muestral está constituido por una lista alfabética de los empleados de ca-
da categorı́a, disponible en la oficina de nóminas. Empezando arbitrariamente en
86 Muestreo

la columna 4 de la tabla de números aleatorios 3.1, se seleccionan los primeros 35


números no repetidos de cuatro dı́gitos entre 0000 y 3499 para identificar los oficinis-
tas y obreros que serán incluidos en la muestra. Por lo tanto, el primer elemento de la
muestra debe ser el oficinista u obrero que ocupa el lugar 3213 en el orden alfabético,
el siguiente será el que ocupa el lugar 2820, etc. En forma similar, se usan números
de tres dı́gitos entre 000 y 999 para seleccionar la muestra de n2 = 10 capataces y
gerentes y números de tres dı́gitos entre 001 y 500 para seleccionar n3 = 5 ejecutivos.
Una vez seleccionados los elementos muestrales (empleados), se procede con la entre-
vista. De las respuestas de los empleados, se calcula la media ȳi y la varianza s2i de
las observaciones de cada estrato. Los valores obtenidos aparecen en la tabla 3.4

Estrato 1 Estrato 2 Estrato 3


n1 = 35 n2 = 10 n3 = 5
ȳ1 = $10.16 ȳ2 = $25.50 ȳ3 = $21.80
s21 = 16.81 s22 = 22.09 s23 = 125.44
N1 = 3500 N2 = 1000 N3 = 500

Tabla 3.4:

A partir de los datos de la tabla 3.4 se estima la inversión promedio en ahorros ȳest
como

L
1 X 1
ȳest = Ni ȳi = [(3500)(10.16) + (1000)(25.50) + (500)(21.80)]
N i=1 5000
1
= (71, 960) = $14.39
5000

Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros
es $14.39.
3.5 Muestreo aleatorio estratificado 87

La varianza estimada es
3 µ ¶µ 2¶
2 1 X 2 Ni − n i si
σ̂ȳest = 2 Ni
N i=1 Ni ni
· ¸
1 (3500)2 (0.99)(16.81) (1000)2 (0.99)(22.09) (500)2 (0.99)(125.44)
= + +
(5000)2 35 10 5
= 0.5688

La estimación de los ahorros promedio, con una cota para el error de estimación,
está dada por

ȳest ± 2σ̂ȳest = $14.39 ± 2 0.5688 = $14.39 ± 2(0.75) = $14.39 ± $1.50

Si el objetivo de la encuesta es usar el muestreo aleatorio estratificado para estimar


el total poblacional τ , entonces el estimador es el siguiente.

Estimador del total poblacional para una muestra aleatoria estratificada

Estimador

τ̂ = N ȳest

Varianza estimada del estimador

σ̂τ̂2 = N 2 σ̂ȳ2est

Cotas para el error de estimación

τ̂ ± 2σ̂τ̂

Ejemplo 3.5.2. En el ejercicio 3.5.1, estime el total invertido en ahorros, el último


mes, por los empleados de la compañı́a manufacturera. Establezca una cota para el
error de estimación.
Solución:
De los cálculos anteriores ȳest = $14.39. Por lo tanto, un estimador del total de ahorros
es

τ̂ = N ȳest = (5000)($14.39) = $71, 950


88 Muestreo

Para encontrar cotas para el error de estimación de τ , se debe calcular la varianza


estimada σ̂τ̂2

σ̂τ̂2 = N 2 σ̂ȳ2est = (5000)2 (0.5688) = 14, 220, 000

La estimación del total de ahorros, con una cota para el error de estimación, está dada
por
p
τ̂ ± 2σ̂τ̂ = $71, 950 ± 2 14, 220, 000 = $71, 950 ± 2(3, 771)
= $71, 950 ± $7, 542

Po lo tanto, hay una certeza del 95 % de que la inversión total en ahorros de los
empleados está contenida en el intervalo de $64, 410 a $79, 490.
Supóngase que la empresa manufacturera esta interesada en estimar la proporción
de empleados que invirtieron parte de los ingresos del último mes en una cuenta de
ahorros. Usando los mismos estratos definidos anteriormente, el investigador puede
seleccionar una muestra aleatoria de cada estrato y encontrar la proporción p̂i de
empleados en el estrato i que invirtieron parte de sus ingresos del último mes en
cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse
para producir un estimador de la proporción poblacional.

Estimación de la proporción poblacional para una muestra aleatoria es-


tratificada

Estimador
L
1 X
p̂est = Ni p̂i
N i=1
Varianza estimada del estimador
L µ ¶µ ¶
2 1 X 2 Ni − n i p̂i q̂i
σ̂p̂est = 2 N con q̂i = 1 − p̂i
N i=1 i Ni ni − 1
Cotas para el error de estimación

p̂est ± 2σ̂p̂est
3.5 Muestreo aleatorio estratificado 89

Ejemplo 3.5.3. De los n = 50 empleados entrevistados en el estudio sobre inversión


en ahorros, el número de los que indicaron que habı́an participado aparecen en la
siguiente tabla. Estime la proporción de empleados que participaron en el programa
de ahorro, y establezca una cota para el error de estimación.

Estrato Tamaño de muestra Número de participantes p̂i


21
1 n1 = 35 21 35
= 0.60
7
2 n2 = 10 7 10
= 0.70
4
3 n3 = 5 4 5
= 0.80

Solución:
La estimación deseada está dada por p̂est , de donde
1
p̂est = [(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64
5000
Para obtener la cota para el error de estimación, es necesario calcular la varianza
estimada
· µ ¶µ ¶¸
1 3500 − 35 (0.6)(0.4)
σ̂p̂2est = (3500) 2
(5000)2 3500 34
· µ ¶µ ¶¸
1 2 1000 − 10 (0.7)(0.3)
+ (1000)
(1000)2 1000 9
· µ ¶µ ¶¸
1 2 500 − 5 (0.8)(0.2)
+ (500) = 0.004744
(500)2 500 4
La estimación de la proporción de empleados que participaron en el programa de
ahorros de la compañı́a manufacturera, con una cota para el error de estimación,
está dada por

p̂est ± 2σ̂p̂est = 0.64 ± 2 0.004744 = 0.64 ± 2(0.069) = 0.64 ± 0.14

Ejercicios

1. Las compañı́as manufactureras gastan enormes cantidades de dinero en el de-


sarrollo, promoción y mercadotecnia de nuevos productos. Sin embargo, la tasa
de éxitos de los nuevos productos es mı́nima. La experiencia indica que menos
90 Muestreo

de uno de cada diez nuevos productos satisface los criterios de éxito de las em-
presas. Uno de los procedimientos mas útiles para medir la aceptación de un
nuevo producto consiste en su introducción al mercado en una zona de ventas
representativa. Como un ejemplo, se considera el caso de una compañı́a fabri-
cante de implementos agrı́colas que está interesada en introducir al mercado
un nuevo equipo para riego en tres zonas agrı́colas diferentes. Para probar la
aceptación de los equipos de riego, se seleccionó una muestra de 30 tiendas dis-
tribuidoras, localizadas en las tres zonas agrı́colas y se observó el número de
equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-
cionadas usando un muestreo aleatorio estratificado con afijación proporcional.
Los resultados aparecen en la siguiente tabla:

Zona 1 Zona 2 Zona 3


ni 9 6 15
ȳi 26 23 39
s2i 31.2 19.3 38.5

a) Estime el número promedio µ de ventas para las 250 tiendas de las tres zonas
agrı́colas, y establezca una cota para el error de estimación.

b) Estime el total de ventas que habrı́a en las tres zonas agrı́colas, si el nuevo
equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el
error de estimación.

2. La insatisfacción de los empleados en su trabajo puede causar un aumento de


costos a la empresa, debido a la baja calidad de la mano de obra y el aumento en
el ausentismo. En un estudio sobre el ausentismo, un gerente de personal estaba
interesado en determinar el número de dı́as laborales perdidos por ausencias de
los trabajadores de la empresa. Por razones de tipo administrativo, se usó un
muestreo aleatorio estratificado con afijación proporcional para seleccionar una
muestra de n = 27 de los 2700 trabajadores de la empresa. Los estratos estaban
representados por obreros, técnicos, y administradores empleados en la empresa.
3.5 Muestreo aleatorio estratificado 91

Los datos obtenidos del muestreo de 15 obreros, 10 técnicos y 2 administradores


aparecen en la siguiente tabla:

Obreros Técnicos Administradores


8 24 0 4 5 1
0 16 32 0 24 8
6 0 16 8 12
7 4 4 3 2
9 5 8 1 8

a) Estime el número promedio µ de dı́as perdidos por ausencias de los 2700


empleados de la empresa. Establezca una cota para el error de estimación.

b) Estime el número total de dı́as perdidos por los empleados de la empresa.


Establezca una cota para el error de estimación.

3. Generalmente, las cadenas de bancos procesan sus cuentas en una oficina cen-
tral regional, en lugar de hacerlo independientemente en cada sucursal. De
esta manera se logra un control más eficiente de las actividades administra-
tivas de las sucursales. El gerente de crédito de una cadena está interesado
en conocer el volumen de cuentas atrasadas que tiene la organización. Para
reducir el costo de muestreo, se usó un muestreo estratificado en el que los es-
tratos están constituidos por cada uno de los cuatro bancos. De los registros
que hay en su oficina, el gerente de crédito decidió usar afijación proporcional
para seleccionar la muestra aleatoria estratificada de n = 50 cuentas de un
total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:
Bancos
1 2 3 4
Número total de cuentas por cobrar N1 = 56 N2 = 68 N3 = 40 N4 = 36
Tamaño de muestra n1 = 14 n2 = 17 n3 = 10 n4 = 9
Número de cuestas atrasadas y1 = 5 y2 = 7 y3 = 5 y4 = 1
92 Muestreo

a) Estime la proporción p de cuentas atrasadas y establezca una cota para el


error de estimación.

b) ¿Hay alguna razón para pensar que el gerente del banco 3 es demasiado
descuidado al autorizar préstamos a sus clientes?. Estime la proporción p3
de cuentas atrasadas del banco 3 y establezca una cota para el error de
estimación.

3.6. Muestreo por conglomerados


Frecuentemente es más fácil obtener muestras de conglomerados de elementos que
muestras de los elementos mismos.

Definición 3.6.1. Una muestra por conglomerados se obtiene seleccionando


aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados con-
glomerados, de la población y posteriormente llevando a cabo un censo completo en
cada uno de los conglomerados.

El muestreo por conglomerados proporciona una cantidad especificada de información


a un costo mı́nimo cuando:

1. No existe una lista de todos los elementos de la población o serı́a muy costoso
obtenerla, o

2. la población es grande y está dispersa en una región muy extensa.

Como ilustración, supóngase que un economista desea estimar la cantidad promedio


empleada en comida por vivienda en una ciudad. Para usar muestreo aleatorio simple
o muestreo aleatorio estratificado, el economista debe tener una lista de todas las
viviendas para poder seleccionar la muestra. Sin embargo, obtener una lista de todas
las viviendas de una ciudad puede ser muy costoso y en algunos casos imposible. Aun
en el caso de tener la lista completa, los costos pueden ser sumamente altos porque,
al usar muestreo aleatorio simple o estratificado, las viviendas escogidas pueden estar
3.6 Muestreo por conglomerados 93

muy alejadas unas de otras. Como resultado de lo anterior, el costo de la encuesta


aumenta debido al tiempo de traslado de los entrevistadores y a otros gastos.
En lugar de seleccionar una muestra distribuida en toda la ciudad, el economista
podrı́a usar el muestreo por conglomerados dividiendo la ciudad en conglomerados y
obteniendo después una muestra aleatoria de estos. Esto debe poder efectuarse más
fácilmente pues es posible que exista una lista de los diferentes conglomerados. Debe
encuestarse cada una de las viviendas que estén en cada uno de los conglomerados es-
cogidos. El costo total de la encuesta disminuye dado que se ha eliminado la necesidad
de elaborar una lista de todas las viviendas y, dado que las viviendas que pertenecen
a un conglomerado pueden estar geográficamente cercanas, se reducen los gastos de
los entrevistadores.
El uso del muestreo por conglomerados produce normalmente una disminución de
los costos, pero algunas veces es necesario pagar un precio. En ocasiones el error de
muestreo aumenta debido a que los elementos de un conglomerado tienden a tener
caracterı́sticas comúnes. Por ejemplo, en encuestas de poblaciones humanas, los con-
glomerados son frecuentemente vecindarios, que son semejantes en lo que se refiere a
edad, ingreso, antecedentes étnicos y clase ocupacional. Por lo tanto, al seleccionar
aleatoriamente los conglomerados para la encuesta, se corre el riesgo de que algunas
clases socioeconómicas no estén representadas si no se incluyen sus vecindarios. Por
otra parte, otras clases pueden estar representadas en exceso.
Se puede reducir el error de muestreo seleccionando un mayor número de conglome-
rados pequeños en lugar de unos cuantos conglomerados grandes. Entre más pequeño
es el tamaño de los conglomerados, menor es el riesgo de excluir ciertas clases de
elementos de la muestra. Por lo tanto, seleccionando un mayor número de conglome-
rados de menor tamaño se obtiene mayor información acerca de la población.
Una vez especificados los conglomerados, es necesario contar con una lista de todos
ellos. Para seleccionar una muestra aleatoria de m conglomerados de los M de la
población, se usa el muestreo aleatorio simple.
Al usar muestreo por conglomerados, la media poblacional µ se estima utilizando las
94 Muestreo

fórmulas que a continuación se describirán.

Estimación de la media poblacional en un muestreo por conglomerados

Estimador
m
X
ti
i=1
µ̂ = ȳc = m
X
ni
i=1

donde ni es el número de elementos del i-ésimo conglomerado y ti es el total de las


mediciones del conglomerado i.
Varianza estimada del estimador
m 
X
2
µ ¶ (ti − ȳc ni ) 
2 M −m   i=1


σ̂ȳc =
M mn̄2 
 m−1 

donde
m m
1 X 1 X
n̄ = ni y t̄ = ti
m i=1 m i=1

Cotas para el error de estimación

ȳc ± 2σ̂ȳc

M es el número de conglomerados en la población y m es el número de conglomerados


en la muestra.

Estimación del total poblacional en un muestreo por conglomerados

Estimador
m
MX
τ̂ = ti
m i=1
3.6 Muestreo por conglomerados 95

Varianza estimada del estimador

m  
X
2
µ ¶ (ti − t̄) 
M − m  
σ̂τ̂2 = M 2  i=1 
Mm  
 m−1 

Cotas para el error de estimación

τ̂ ± 2σ̂τ̂

Como se dijo anteriormente, ni es el número de elementos de i-ésimo conglomerado,


mientras que ti es el total de las mediciones que estan en el conglomerado i. Por lo
tanto
ni
X
ti = yij
j=1

donde yij es la j-ésima observación del conglomerado i. Los términos n̄ y t̄ representan,


respectivamente, el tamaño promedio y el total promedio de los conglomerados.

Ejemplo 3.6.1. El objetivo de la publicidad es aumentar las ventas o crear interés en


los productos de determinada compañı́a. Por lo tanto, en publicidad es esencial que los
anuncios aparezcan en los medios adecuados para que lleguen al público consumidor.
Un agente de publicidad de una empresa que vende artı́culos para el hogar, desea
estimar la cantidad mensual que gastan en revistas y periódicos las amas de casa de
una ciudad, para determinar si éstas son suficientes para garantizar el uso de estos
medios en la publicidad. Dado que no existe una lista de amas de casa, y para controlar
los costos directos de las entrevistas, se usará el muestreo por conglomerados. De los
50 distritos electorales se selecciona una muestra aleatoria de 10. Los entrevistadores
encuestan a cada una de las amas de casa de los 10 distritos, y se registraran la
cantidad total que gastaron en revistas y perı́odicos durante el último mes.
96 Muestreo

Distrito Núm. de amas Gastos tot. Distrito Núm. de amas Gastos tot.
i de casa ni ti i de casa ni ti
1 62 $380 6 69 $403
2 55 517 7 58 555
3 49 480 8 74 486
4 71 613 9 57 450
5 70 540 10 54 395
10
X 10
X
Sumas ni = 630 ti = $4819
i=1 i=1

a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y
periódicos, y establezca una cota para el error de estimación.

b) Estime la cantidad total mensual que las amas de casa gastan en revistas y perió-
dicos, y establezca una cota para el error de estimación.

Solución:

a) La media poblacional µ se estima por


10
X
ti
i=1 $4819
ȳc = = = $7.65
10
X 630
ni
i=1

Para calcular σ̂ȳ2c se evalúa primero el término correspondiente a la suma de


cuadrados
m
X
(ti − ȳc ni )2
i=1

Se puede probar que


m
X m
X m
X m
X
2 2 2
(ti − ȳc ni ) = ti − 2ȳc ti ni + ȳc n2i
i=1 i=1 i=1 i=1
3.6 Muestreo por conglomerados 97

Tomando cada término por separado, se tiene


10
X
t2i = (380)2 + (517)2 + · · · + (395)2 = 2, 374, 613
i=1
10
X
ti ni = (380)(62) + (517)(55) + · · · + (395)(65) = 304, 124
i=1
X10
n2i = (62)2 + (55)2 + · · · + (65)2 = 40, 286
i=1

Sustituyendo estos valores en la ecuación de la suma de cuadrados, se tiene que


m
X
(ti − ȳc ni )2 = 2, 374, 613 − 2(7.65)(304, 124) + (7.65)2 (40, 286) = 79, 153.235
i=1

El tamaño promedio del conglomerado es


m
1 X 1
n̄ = ni = (630) = 63
m i=1 10

Dado que el número total de conglomerados en la población es M = 50,


 m 
X
2
µ ¶ (ti − ȳc ni ) 
2 M −m   i=1


σ̂ȳc =
M mn̄2 
 m−1 

µ ¶µ ¶
50 − 10 79, 153.235
= = 0.1773
(50)(10)(63)2 9

Por lo tanto, una estimación de µ, con una cota para el error de estimación es

ȳc ± σ̂ȳc = $7.65 ± 2 0.1773 = $7.65 ± $0.84

b) Una estimación de los gastos totales mensuales en revistas y periódicos es


m
MX 50
τ̂ = ti = ($4, 819) = $24, 095
m i=1 10
98 Muestreo

que no depende del tamaño de la población N .


Para establecer una cota superior para el error de estimación, es necesario cal-
cular la expresión
m m
à m !2
X X 1 X
2
(ti − t̄) = t2i − ti
i=1 i=1
m i=1
1
= 2, 374, 613 − (4, 819)2 = 52, 336.90
10
La varianza estimada es
m  
X
2
µ ¶ (ti − t̄) 
M − m  
σ̂τ̂2 =M 2  i=1 
Mm  m − 1 
 

µ ¶µ ¶
2 50 − 10 52, 336.90
=(50) = 1, 163, 042.222
(50)(10) 9
La estimación de los gastos totales en revistas y periódicos de las amas de casa,
de la ciudad, con una cota para el error de estimación es
p
τ̂ ± 2σ̂τ̂ = $24, 095 ± 2 1, 163, 042.222
= $24, 095 ± $2, 157

Frecuentemente, un experimentador desea usar el muestreo por conglomerados para


estimar una proporción poblacional p. Por ejemplo, en una encuesta pre-electoral
puede ser deseable estimar la proporción de habitantes de una comunidad que estan
a favor de determinadas medidas; o podrı́a ser importante estimar la proporción de
automóviles en una ciudad que satisfacen los requisitos en lo referente al control de
contaminación, o la proporción de miembros de una organización laboral que están de
acuerdo con un nuevo ajuste salarial. Para estimar p cuando se usa el muestreo por
conglomerados, es necesario encontrar ai , el número de elementos de conglomerado i
que tienen la caracterı́stica de interés, para cada conglomerado i = 1, 2, . . . , m. Las
siguientes fórmulas proporcionan un estimador de la proporción de la población que
tiene la caracterı́stica de interés ai .
3.6 Muestreo por conglomerados 99

Estimación de la proporción poblacional en un muestreo por conglomera-


dos

Estimador
m
X
ai
i=1
p̂c = m
X
ni
i=1

Varianza estimada del estimador



m 
X
2
µ ¶ (ai − p̂c ni ) 
M − m  
σ̂p̂2c =  i=1 
M mn̄2  m − 1 
 

Cotas para el error de estimación

p̂c ± 2σ̂p̂c

Ejercicios

1. El inspector de una cadena de ferreterias desea estimar la proporción de bom-


billas defectuosas enviadas a su almacén por determinado fabricante. Las bom-
billas se envı́an en paquetes de 12 cajas, cada una delas cuales contiene 6 bom-
billas. Suponga que el inspector opta por usar las cajas de bombillas como
conglomerados y selecciona aleatoriamente m = 20 cajas de entre los 100 pa-
quetes recibidos en un envı́o. Los números de bombillas defectuosas encontradas
en cada una de las 20 cajas son los siguientes:

0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1

Estime la proporción p de bombillas defectuosas en el envı́o, y establezca una


cota para el error de estimación.
100 Muestreo

2. En un artı́culo que apareció recientemente en la prensa se afirma que la tasa de


incremento de las contribuciones para obras de beneficiencia es mucho menor
que la tasa de inflación, durante los periódos de recesión. Un director regional de
la Sociedad Contra el Cáncer está interesado en estimar la contribución prome-
dio por familia y la contribución total de todas las familias de su ciudad. Un
grupo de voluntarios seleccionó una muestra de 12 de los 47 distritos electorales
de la ciudad y obtuvo los datos que aparecen en la tabla.

Distrito ] de viviendas Donacion total Distrito ] de viviendas Donacion total


1 36 $117 7 29 $165
2 42 105 8 52 105
3 40 210 9 44 121
4 47 142 10 40 103
5 39 235 11 45 136
6 50 96 12 36 190

a) Estime la contribución promedio por familia en la ciudad, y establezca una


cota para el error de estimación.
b) Estime la contribución total de todas las familias de la ciudad, y establezca
una cota para el error de estimación.

3.7. Ejercicios
1. Define que es una muestra aleatoria.

2. Escribe las definiciones de cada uno de los siguientes tipos de muestreo.


a) MAS b) MAE c) MAC

3. Diga cuáles de los siguientes ejemplos constituyen aplicaciones del muestreo


aleatorio, y cuáles de un muestreo no aleatorio. Explique porqué
3.7 Ejercicios 101

a) Las manzanas incluidas en una bolsa de 5 kilos adquiridas en un supermer-


cado local.
b) Una bolsa de 5 kilos de manzanas seleccionadas por una ama de casa de un
depósito de manzanas de un supermercado local.
c) Preguntas que una tienda de departamentos hace a cada décimo cliente que
tiene cuenta de crédito, acerca de nuevos horarios.
d) Tarjetas de garantı́a, que proporcionan información demográfica y personal,
recibidas por un fabricante, de personas que compraron recientemente alguno
de los artı́culos de cocina que fabrican.

4. Discuta las ventajas de efectuar un muestreo en lugar de un censo en cada uno


de los siguientes casos:
a) Un representante de mercadotecnia de una fábrica de alimentos está intere-
sado en determinar el total de ventas del primer año, de un nuevo producto que
fabrica la compañı́a.
b) Un ejecutivo de una compañı́a petrolera está interesado en determinar el
precio promedio por galón de gasolina sin plomo, que las estaciones de servicio
cobran en determinado estado. De una lista de estaciones de servicio, el ejecuti-
vo selecciona aleatoriamente 20 de un total de 249, y obtiene su precio de venta
por teléfono.
c) Un candidato a la gubernatura de un estado desea conocer la proporción de
votantes que está a su favor, un semana antes de la elección.
d) Un diario local ha adoptado una polı́tica editorial más liberal. Para captar la
reacción de los lectores al cambio, un agente del diario selecciona aleatoriamente
10 suscriptores locales de una lista de suscripciones, los contacta por teléfono,
y les pide su opinión sobre el cambio de polı́tica editorial.

5. Explique porque es preferible el uso del muestreo a un censo de población.

6. Menciona 3 ventajas y 3 desventajas de un muestreo.

7. Menciona 3 ventajas y 3 desventajas de un censo.


102 Muestreo

8. Describe brevemente la diferencia entre muestreo con reemplazo y muestreo sin


reemplazo.

9. Describe explı́citamente que es una tabla de números aleatorios.

10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades
muestrales y el marco muestral apropiados (Un marco muestral es una lista
de unidades muestrales. Las unidades muestrales son colecciones disjuntas de
elementos (objeto del cual se toma una medición) de la población).
a) Un economista desea efectuar una encuesta para estimar la cantidad promedio
mensual por familia empleada en la compra de comestibles en determinada
ciudad.
b) El asistente administrativo del gobernador de un estado desea estimar la
proporción de votantes en el estado que estará a favor de la aprobación de una
ley.
c) Una cadena de supermercados desea conocer la opinión de sus empleados
acerca del plan de seguro médico patrocinado por la compañı́a.
d) Un ejecutivo de mercadotecnia de una compañı́a desea hacer una encuesta
entre los compradores para determinar su actitud hacia una nueva lı́nea de
productos.

11. Explique porqué cada uno de los siguientes ejemplos no se puede considerar
como muestra aleatoria:
a) Para conocer la opinión de la comunidad sobre los planes de estudio de una
escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.
b) Para determinar el sentimiento público respecto al último decreto presiden-
cial, un reportero entrevista a mediodı́a a 25 personas en la esquina de una
céntrica calle.
c) Se seleccionan al azar 10 nombres de la lista de representantes de la Cámara
de Diputados en un intento por predecir la opinión de varios Estados con res-
pecto al aumento de la deuda pública por tercera vez en una semana.
3.7 Ejercicios 103

12. Proponga una ejemplo donde sea preferible un muestreo a un censo.

13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo
tema publicitario diseñado para mejorar la imagen de la tienda en lo que se re-
fiere a la calidad de sus productos. De un directorio residencial se seleccionó una
muestra aleatoria simple de n = 50 familias. Un mes después de iniciada la cam-
paña publicitaria, se entrevistó a los jefes de familia y 13 de ellos afirmaron que
la calidad de la mercancia de la tienda de descuento es aparentemente de infe-
rior calidad a la de las tiendas competidoras. Estime la proporción de familias
que piensan que la calidad de la mercancia de la tienda de descuento es inferior
a la de las demás tiendas. Establezca una cota para el error de estimación.

14. Un ejecutivo de seguros, preocupado porque la alta tasa de inflación puede


dejar a sus clientes con una cobertura insuficiente en los seguros de incendio
de sus viviendas, ha propuesto una claúsula que establece el incremento de la
cobertura (y de las primas anuales) de acuerdo con la tasa de inflación anual.
Para conocer la opinión de los clientes sobre la polı́tica propuesta, el ejecutivo de
seguros decidió seleccionar una muestra aleatoria estratificada de los clientes de
su compañı́a en los tres municipios de su jurisdicción. Los resultados aparececen
en la tabla. Estime la proporción p de clientes de los tres municipios que están a
favor de la polı́tica propuesta, y establezca una cota para el error de estimación.

Municipio

A B C
Total de clientes 231 407 187
Clientes encuestados 21 37 17
Número de los que aprueban la nueva polı́tica 8 20 9

15. El gerente de ventas de una fábrica de máquinas de escribir desea saber si existe
la demanda suficiente en determinada ciudad, que justifique agregar un nuevo
104 Muestreo

tipo de máquina de escribir portátil a sus existencias. Actualmente la fábrica


surte de mercancı́a a cuatro cadenas de tiendas que consisten de 25, 20, 30 y 25
tiendas. Por motivos de tipo administrativo se decidió usar el muestreo aleatorio
estratificado, con las cadenas de tiendas como estratos.

E1 16 12 10 13 9
E2 10 17 12 6
E3 5 18 13 15 20 12
E4 17 11 12 15 18

El gerente de ventas dispone de tiempo y dinero suficientes para obtener datos


de ventas en 20 tiendas solamente. Usando afijación proporcional, seleccionó en
forma aleatoria 5 tiendas de la primera cadena, 4 de la segunda, 6 de la tercera,
y 5 de la cuarta. Las ventas efectuadas al cabo de un mes aparecen en la tabla.
Estime las ventas mensuales promedio por tienda, y establezca una cota para
el error de estimación.

16. a)Un fabricante de sierras de cadena ha recibido quejas de los compradores en


relación con los costos de reparación excesivos. Para estudiar el problema, el
fabricante desea estimar el costo de reparación promedio por sierra y por mes,
para las sierras que se han vendido a las campañı́as madereras. No es posible
obtener los costos de reparación para cada sierra, pero se pueden determinar
los costos totales de reparación y el número de sierras que tienen las diferentes
compañı́as. El fabricante decidió usar un muestreo por conglomerados, usando
las compañı́as como conglomerados. De las M = 87 compañı́as madereras que
compran sierras de este fabricante, se seleccionó una muestra aleatoria simple
de m = 12. Los datos de la tabla representan los costos de reparación durante
el último mes para cada compañı́a.
3.7 Ejercicios 105

Cia. ] de sierras C. de Reparacion Cia. ]. de sierras C. de reparacion


1 4 $55 7 11 $103
2 7 83 8 1 15
3 5 47 9 8 110
4 11 210 10 11 164
5 15 235 11 7 80
6 6 88 12 10 146
b)Para el ejercicio anterior, también estime la cantidad total que las compañı́as
madereras gastaron en reparaciones de las sierras de cadena durante el último
mes, y establezca una cota de error de estimación.
c)Al consultar los registros de ventas, el fabricante mencionado encontró que ha
vendido 703 sierras de cada cadena a las 87 compañı́as madereras. Usando esta
información adicional, estime la cantidad total que las 87 compañı́as madereras
gastaron en reparaciones, y establezca una cota para el error de estimación.
(Sugerencia: Si y c es la media obtenida en el muestreo por conglomerados y
N el número de elementos de la población, entonces τ̂ = N y c y σ̂τ̂2 = N 2 σ̂y2c ).
Compare estos resultados con los obtenidos en el inciso b).

17. El punto de partida, para lograr un mejor entendimiento del comportamiento de


los consumidores, es la demografı́a del consumidor; las medidas descriptivas que
caracterizan al público comprador. De los registros de la compañı́a, la gerente de
una empresa distribuidora de automóviles obtuvo una muestra aleatoria simple
de 25 expedientes de los 582 correspondientes a clientes que compraron un
automóvil de tipo económico durante el último año. La media y la varianza
de las edades de los 25 clientes fueron ȳ = 27.5 y s2 = 16.81. Estime la edad
promedio de los compradores del automóvil económico, y establezca una cota
para el error de estimación.
Capı́tulo 4

Regresión lineal y multilineal

4.1. Introducción
En este capı́tulo se describe el modelo de regresión lineal simple, que asume que en-
tre dos variables dadas existe una relación de tipo lineal contaminada por un error
aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y
bajo determinadas hipótesis, podremos extraer predicciones del modelo e inferir la
fortaleza de dicha relación lineal.

En la práctica es común encontrar relación entre dos o más variables. Por ejemplo,

1. El peso de un hombre adulto depende de su estatura

2. Las circunferencias de los circulos dependen de su radio

3. La presión de una masa de gas depende de su temperatura y volumen

4. La distancia media de frenado de un automóvil depende de la velocidad a la que


éste viaja

5. La efectividad media de un antibiótico depende del tiempo que éste lleve almace-
nado.
4.1 Introducción 107

Uno de los aspectos más relevantes que aborda la Estadı́stica se refiere al análisis
de las relaciones que se dan entre dos variables aleatorias. El análisis de estas rela-
ciones está muy frecuentemente ligado al análisis de una variable, llamada variable
dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)
variable(s) independiente(s) X, y permite responder a dos cuestiones básicas:

¿Es significativa la influencia que tiene la variable independiente sobre la vari-


able dependiente?

Si, en efecto, esa relación es significativa, ¿cómo es? y ¿podemos aprovechar


esa relación para predecir valores de la variable dependiente a partir de valores
observados de la variable independiente?.

La regresión lineal simple comprende el intento de desarrollar una lı́nea recta o


ecuación matemática que describe la relación entre dos variables, con la finalidad
de estimar los valores de una variable con base en los valores conocidos de la otra.
Para determinar dicha ecuación primero hay que recolectar datos que muestren los
valores de las variables en consideración.

Ejemplo 4.1.1. Supóngase que se han reunido datos locales de vendedores de au-
tomóviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,
y que tienen determinado equipo (aire acondicionado, dirección hidráulica, etc.).Los
datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la
región serı́an los mostrados en la tabla

Observación Recorrido Precio de Observación Recorrido Precio de


i (en miles) xi venta yi i (en miles) xi venta yi
1 40 $1000 6 60 1000
2 30 1500 7 65 500
3 30 1200 8 10 3000
4 25 1800 9 15 2500
5 50 800 10 20 2000
108 Regresión lineal y multilineal

Si dibujamos los datos de xi e yi en unos ejes cartesianos ya intuimos que, en efecto,


hay una relación latente entre las variables, que parece ser de tipo lineal. A esta
representación en los ejes cartesianos se le denomina diagrama de dispersión.
Un modelo de regresión lineal simple para una variable, Y (variable dependiente),
dada otra variable, X (variable independiente), es un modelo matemático que permite
obtener una fórmula capaz de relacionar Y con X basada sólo en relaciones lineales,
del tipo

Y = β0 + β1 X + ε.

donde

Y representa a la variable dependiente, es decir, a aquella variable que deseamos


estudiar en relación con otras.

X representa a la variable independiente, es decir, aquella que creemos que


puede afectar en alguna medida a la variable dependiente. La estamos denotan-
do en mayúscula, indicando que podrı́a ser una variable aleatoria, pero habi-
tualmente se considera que es una constante que el investigador puede fijar a
su antojo en distintos valores.

ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca


que la relación entre la variable dependiente y la variable independiente no sea
perfecta, sino que este sujeta a incertidumbre.

Hay que tener en cuenta que el valor de ε sera siempre desconocido hasta que se
observen los valores de X e Y , de manera que el modelo de predicción sera realmente
Ŷ = β0 +β1 X. Lo que en primer lugar resultarı́a deseable de un modelo de regresión es
que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,
sea cual sea el valor de X, de manera que E[ε/X = x] = E[ε] = 0 y, por tanto,
E[Y /X = x] = β0 + β1 x + E[ε/X = x] = β0 + β1 x. Es decir, las medias de los valores
de Y para un valor de X dado son una recta. La interpretación de los coeficientes del
modelo es:
4.1 Introducción 109

β0 es la ordenada al origen del modelo, es decir, el punto donde la recta inter-


cepta o corta al eje y.

β1 representa la pendiente de la lı́nea y, por tanto, puede interpretarse como el


incremento de la variable dependiente por cada incremento en una unidad de
la variable independiente.

Nota 7. Es evidente que la utilidad de un modelo de regresión lineal tiene sentido


siempre que la relación hipotética entre X e Y sea de tipo lineal, pero ¿qué ocurre si
en vez de ser de este tipo es de otro tipo (exponencial, logarı́tmico, hiperbólico...)?.
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersión
antes de comenzar a tratar de obtener un modelo de regresión lineal, ya que si la
forma de este diagrama sugiere un perfil distinto al de una recta quizá deberı́amos
plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de
dispersión es de otro tipo conocido, puede optarse por realizar un cambio de variable
para considerar un modelo lineal. Existen técnicas muy sencillas para esta cuestión,
pero no las veremos todas aquı́.

Algunas curvas de aproximación y sus ecuaciones

Varios tipos de curvas de aproximación y sus ecuaciones se presentan ahora.


Sean x y y variables independiente y dependiente respectivamente, a0 , a1 , . . . , an y
b, p, q, g y h constantes.

y = a0 + a1 x Lı́nea recta
y = a0 + a1 x + a2 x2 Parábola o curva cuadrática
y = a0 + a1 x + a2 x2 + a3 x3 Curva cúbica
y = a0 + a1 x + a2 x2 + a3 x3 + a4 x4 Curva cuártica
y = a0 + a1 x + . . . + an xn Curva de grado n

Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-
to y n-ésimo grados respectivamente.
110 Regresión lineal y multilineal

Otras ecuaciones usadas con frecuencia en la práctica son:


1 1
y= o = a0 + a1 x Hipérbola
a0 + a1 x y
y = abx o log y = log a + x log b = a0 + a1 x Curva exponencial
y = axb o log y = log a + b log x Curva geométrica
y = abx + g Curva exponencial modificada
1 1
y= x o = abx + g Curva logı́stica.
ab + g y
Para decidir cual es la que debe usarse, antes se debe hacer un diagrama de dispersión.
El tipo mas simple de curva de aproximación es una lı́nea recta, pero no en todos lo
casos se puede obtener una aproximación mediante una ecuación lineal. Para ver si
un modelo lineal será adecuado entonces el procedimiento es:

1. Graficar los datos

2. Determinar por examen si parece existir una relación lineal

Cuando las gráficas no siguen un alineamiento entonces hay que buscar en un modelo
no lineal. El modelo lineal y = β0 + β1 x se dice ser un modelo determinista porque
no permite error en la predicción de y como función de x (no interviene el azar o
la incertidumbre). En fı́sica, quı́mica, economı́a, etc., describen fenómenos (explican
y predicen) en los cuales el error de predicción es despreciable en la práctica. Por
ejemplo 0.1 cm de error en la construcción de una viga de un puente es pequeño, pero
0.1 cm en una pieza de relojeria es absurdamente grande.

4.2. Estimación de los coeficientes del modelo por


mı́nimos cuadrados
Si queremos obtener el modelo de regresión lineal que mejor se ajuste a los datos
de la muestra, deberemos estimar los coeficientes β0 y β1 del modelo. Para obtener
estimadores de estos coeficientes vamos a considerar un nuevo método de estimación,
4.2 Estimación de los coeficientes del modelo por mı́nimos cuadrados 111

conocido como método de mı́nimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de mı́nimos cuadrados coinciden con
los estimadores máximo-verosimiles de β0 y β1 .

El razonamiento que motiva el método de mı́nimos cuadrados es el siguiente: si tene-


mos una muestra de valores de las variables independiente y dependiente, (x1 , y1 ), . . . ,
(xn , yn ), buscaremos valores estimados de β0 y β1 , que notaremos por β̂0 y β̂1 , de ma-
nera que en el modelo ajustado, ŷ = β̂0 + β̂1 x minimice la suma de los cuadrados de
los errores observados. Es decir, usando mı́nimos cuadrados para ajustar una recta
al conjunto de datos queremos que las desviaciones entre los valores observados y los
puntos correspondientes sean “pequeños ”.

Entonces si ŷi = β̂0 + β̂1 xi es el valor de y (cuando x = xi ) entonces la desviación del


valor observado y, a partir de la recta ŷ es yi − ŷi (desviación del i-ésimo punto).
Ahora debemos escoger como la recta de mejor ajuste, a la que minimice la suma de
los cuadrados de las desviaciones entre los valores observados y los pronosticados.

n
X n ³
X ´2
2
SSE = (yi − ŷi ) = yi − [β̂0 + β̂1 xi ]
i=1 i=1

(Suma de los cuadrados de los errores)

Es decir, buscamos (β̂0 , β̂1 ) = arg [minβ0 ,β1 SSE].

Se llama recta de regresión por mı́nimos cuadrados (o simplemente recta de regresión)


de Y dada X a la lı́nea que tiene la SSE mas pequeña de entre todos los modelos
lineales. La solución de ese problema de mı́nimo se obtiene por el mecanismo habitual:
se deriva SSE respecto de β̂0 y β̂1 , se iguala a cero y se despejan estos. Entonces
112 Regresión lineal y multilineal

" n #
∂SSE ∂ X³ ´2
= yi − [β̂0 + β̂1 xi ]
∂ β̂0 ∂ β̂0 i=1
Xh i
= 2(yi − (β̂0 + β̂1 xi ))(−1)
X
=− 2(yi − β̂0 − β̂1 xi )
³X X X ´
= −2 yi − β̂0 − β̂1 xi
³X X ´
= −2 yi − nβ̂0 − β̂1 xi = 0
X X
=⇒ −2 yi + 2nβ̂0 + 2β̂1 xi = 0
P P
yi − β̂1 xi
=⇒ β̂0 =
n
∴ β̂0 = ȳ − β̂1 x̄

" n ³
#
∂SSE ∂ X ´2
= yi − [β̂0 + β̂1 xi ]
∂ β̂1 ∂ β̂1 i=1
Xh i
= 2(yi − (β̂0 + β̂1 xi ))(−xi )
X
=− 2(xi yi − β̂0 xi − β̂1 x2i )
³X X X ´
= −2 xi yi − β̂0 xi − β̂1 x2i = 0
X X X
=− xi yi + β̂0 xi + β̂1 x2i = 0
P P
xi yi − β̂0 xi
=⇒ β̂1 = P 2
xi
4.2 Estimación de los coeficientes del modelo por mı́nimos cuadrados 113

Sustituyendo β̂0 = ȳ − β̂1 x̄ en la ecuación anterior se obtiene


P P
xi yi − (ȳ − β̂1 x̄) xi
β̂1 = P 2
x
P ³P iy P xi ´ P
i
xi y i − − β̂1 xi
= n
P n
x2i
P P P P
xi yi − n1 yi xi + β̂n1 ( xi )2
= P 2
xi
X β̂1 ³X ´2 X 1X X
=⇒ x2i β̂1 − xi = xi y i − yi xi
n n
X n
P 1P P (xi − x̄)(yi − ȳ)
xi y i − y i xi
=⇒ β̂1 = P n = i=1
1 P Xn
xi − ( xi )2
2
(xi − x̄)2
n
i=1

Por lo tanto los estimadores de mı́nimos cuadrados de β0 y β1 son:

SSxy
β̂1 =
SSxx
n
X n
X
donde SSxy = (xi − x̄)(yi − ȳ) y SSxx = (xi − x̄)2
i=1 i=1

β̂0 = ȳ − β̂1

Ejemplo 4.2.1. En la siguiente tabla se muestran los gastos publicitarios y volúmenes


de ventas de una companı́a durante 10 meses elegidos al azar.

yi xi yi xi
101 1.2 82 0.8
92 0.8 93 1.0
110 1.0 75 0.6
120 1.3 91 0.9
90 0.7 105 1.1
114 Regresión lineal y multilineal

a) ¿Cuál es la lı́nea recta de mejor ajuste que relaciona los gastos en publicidad con
volumen de ventas?

b) Si se tienen $10, 000 para publicidad este mes ¿Cuál es el volumen de ventas
pronosticado?

Solución:
Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresión.

SSxy = 23.34, SSxx = 0.444, ȳ = 95.9 y x̄ = 0.94

luego

SSxy 23.34
β̂1 = = = 52.57
SSxx 0.444
β̂0 = ȳ − β̂1 x̄ = 95.9 − (52.57)(0.94) = 46.49

ası́ que la recta de regresión ajustada es

ŷ = 46.49 + 52.57x

Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para
publicidad este mes, el volumen de ventas pronosticados para este mes es

ŷ = 46.49 + 52.57(1.0) = 99.06

o bien $990600.

Ahora, debemos encontrar las cotas para el error de estimación. Para eso estimamos
σ 2 , la varianza de y dado un valor de x. Entonces

SCE
σ 2 = s2 =
n−2
n
X
donde SCE = (yi − ŷi )2 y n − 2 son los grados de libertad (número de parámetros
i=1
estimados en el modelo).
4.3 Supuestos adicionales para los estimadores de mı́nimos cuadrados 115

Una forma más fácil para calcular SCE es:

SCE = SCyy − β̂1 SCxy donde


n
à n !2
X 1 X
SCyy = yi2 − yi
i=1
n i=1
n
X n n
1X X
SCxy = xi yi − xi yi
i=1
n i=1 i=1

Ejercicio 4.2.1. Calcule σ 2 para el ejemplo anterior 4.2.1.

4.3. Supuestos adicionales para los estimadores de


mı́nimos cuadrados

Hasta ahora lo único que le hemos exigido a la recta de regresión es:

1. Que las medias de Y para cada valor de X se ajusten más o menos a una lı́nea
recta, algo fácilmente comprobable con un diagrama de puntos. Si el aspecto
de este diagrama no recuerda a una lı́nea recta sino a otro tipo de función,
lógicamente no haremos regresión lineal.

2. Que los errores tengan media cero, independientemente del valor de X, lo que,
por otra parte, no es una hipótesis sino más bien un requerimiento lógico al
modelo.

Lo que ahora vamos a hacer es añadir algunos supuestos al modelo de manera que
cuando éstos se cumplan, las propiedades de los estimadores de los coeficientes del
modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficien-
tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.
116 Regresión lineal y multilineal

4.4. Inferencias relativas a la pendiente β1 de una


recta
La primera inferencia que debe hacerse cuando se estudia la relación entre x e y
concierne a la existencia misma de dicha relación. Entonces surgen dos preguntas:

1) ¿Muestran los datos suficiente evidencia como que para pensar que el conocimiento
de x contribuye para predecir y en alguna región de observación?

2) ¿Podemos pensar que aún no habiendo relación entre x y y los puntos observados
forman un diagrama como el de la figura?

Las cuestiones anteriores se refieren al valor de β1 , el cambio medio que se experimenta


en y por unidad de cambio en x (la pendiente).
Si x no proporciona información para predecir y, entonces β1 = 0. Que β1 = 0 significa
que y siempre es el mismo para cualquier valor de x.
Ejemplo 4.4.1. Suponga que un ingeniero ajustó el modelo y = β0 + β1 x + ε, donde:

y =resistencia del concreto después de 28 dı́as

x =proporción agua/cemento que se usó para producir el concreto

Si la resistencia del concreto y, no cambia con la proporción agua/cemento x, entonces


β1 = 0 (la pendiente es cero). Por lo tanto, el ingeniero intentará realizar una prueba
H0 : β1 = 0 contra Ha : β1 6= 0 para verificar si la variable independiente influye sobre
la variable dependiente. O bien, estimar la razón media de cambio β1 en E[y] para
un cambio de una unidad en la proporción de agua/cemento, x.
Al hacer inferencia lo que se quiere probar es la hipótesis de que:

H0 : βi = 0 contra Ha : βi 6= 0

β̂i es un estimador insesgado de βi con una distribución normal que tiene el valor
esperado E[β̂i ].
4.4 Inferencias relativas a la pendiente β1 de una recta 117

Para cada uno de los parámetros β0 y β1 se tiene:

E[β̂0 ] = β0 y σβ̂20 = σ 2 C00

E[β̂1 ] = β1 y σβ̂21 = σ 2 C11


n
X
x2i
i=1 1
donde : C00 = y C11 =
nSCxx SCxx
Podemos construir una prueba de hipótesis H0 : βi = βi0 (βi0 es un valor especı́fico
para βi ). Usando el estadı́stico de prueba:
β̂i − βi0
Z= √ Distribución normal estándar
σ Cii
1
La región de rechazo para una prueba de dos colas está dado por:

| z | ≥ zα/2

Como σ 2 es desconocido, entonces se puede obtener un estimador de él


p
Sβ̂i = S Cii

Entonces
β̂i − βi0
√ t= ,
S Cii
estadı́stico que se distribuye con una t de Student con n − 2 grados de libertad
(varianza desconocida y n pequeña).

Prueba de hipótesis para βi

H0 :βi = βi0




 βi > βi0 región de rechazo de cola superior,

Ha : βi < βi0 región de rechazo de cola inferior,




βi 6= βi0 región de rechazo de dos colas.
1
Prueba estadı́stica en la cual la región de rechazo está separada por la región de aceptación y
se localiza en ámbos extremos de la distribución de la estadı́stica de prueba
118 Regresión lineal y multilineal

Estadı́stico de prueba:
β̂i − βi0
t= √
S Cii
Región de rechazo:

t > tα alternativa de cola superior


t > −tα alternativa de cola inferior
| t | > tα/2 alternativa de dos colas

donde: X
x2i 1
C00 = y C11 =
nSCxx SCxx
Nota 8. tα se basa en n − 2 grados de libertad 2 .
Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que
indique que β1 difiere de cero al usar una relación lineal entre el gasto publicitario x
y el volumen mensual medio, y, de ventas.

Solución:
Se quiere probar

H0 : β1 = 0 contra Ha : β1 6= 0

β̂1 − 0
Entonces t = √ . Usando α = 0.05 se rechaza H0 si t > 2.306 o t < −2.306
S C11
52.87
con n − 2 = 8 grados de libertad. Entonces t = √ = 5.15. Como 5.15 >
6.84 2.25
2.306, entonces se rechaza H0 . Hay evidencia que indica que los gastos publicitarios
proporcionan información para la predicción de los volúmenes mensuales de ventas.
Ahora si x aumenta una unidad ¿Cuál será el cambio estimado para y?,¿qué confianza
se puede tener en dicha estimación?.
Debemos investigar la amplitud de un intervalo de confianza para β1 y verificar si
es lo bastante pequeño para detectar una desviación de cero que sea de significancia
práctica.
2
Número de observaciones linealmente independientes de un conjunto de n observaciones
4.4 Inferencias relativas a la pendiente β1 de una recta 119

Intervalo de confianza de (1 − α)100 % para βi

p
β̂i ± tα/2 S Cii

Ejemplo 4.4.3. Encuentre el intervalo de confianza del 95 % para β1 usando los datos
del ejercicio 4.2.1.
Solución:

1 − α =95 % =⇒ 1 − α = 0.95
despejando α = 1 − 0.95 =⇒ α/2 = 0.025
asi, 52.57 ± 23.67

Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-
tario, se estima que los volúmenes de ventas mensuales correspondientes será 28.90 y
76.24.

Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de
β0 y β1 . Trace una gráfica de los puntos y represente la recta ajustada para verificar
los cálculos. ¿Presentan los datos suficiente evidencia para indicar que la pendiente
β1 difiere de cero? (Haga la prueba con un nivel de significancia de 5 %). Encuentre
un intervalo de confianza de 95 % para β1 .

y x
3 -2
2 -1
1 0
1 1
0.5 2
120 Regresión lineal y multilineal

Estimación de E[y/x].

Ejemplo 4.4.4. El encargado se seguridad industrial en una empresa puede estar


interesado en estimar el número medio de algún tipo de accidentes dado el
número de horas que cada empleado ha estado sujeto a entrenamiento especial
para seguridad.

Si en una empresa, la ganacia y, se encuentra linealmente relacionada a los


gastos publicitarios x, el gerente de ventas querrá estimar la ganancia media
para un cierto nivel de publicidad x. entonces si la compañı́a invierte $10, 000 en
publicidad, ¿Cuanto debe esperar que sea E[y/x]?. Entonces, debemos encontrar
un intervalo de confianza para E[y/x].

Prueba de hipótesis relativa al valor esperado

Hipótesis nula H0 :E[y/x = xp ] = E0


Hipótesis alternativa Ha :La da el experimentador y depende de los valores de E[y/x]
que desea detectar

Estadı́stico de prueba:

ŷ − E0
t= r
1 (xp − x̄)2
S +
n SCxx

Región de rechazo:

t > tα alternativa de cola superior


t > −tα alternativa de cola inferior
| t | > tα/2 alternativa de dos colas
4.4 Inferencias relativas a la pendiente β1 de una recta 121

Intervalo de confianza del (1 − α)100 % para E[y/x]

s
1 (xp − x̄)2
ŷ ± tα/2 S + (4.1)
n SCxx

Predicción de y dado un valor particular de x

s
1 (xp − x̄)2
ŷ ± tα/2,n−2 S 1+ + (4.2)
n SCxx
Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para

a) Encontrar un intervalo de confianza del 99 % para el volumen mensual esperado


de ventas cuando los gastos en publicidad son xp = 1.0 ($10, 000)

b) Calcular S 2

c) Probar la hipótesis nula contra la alternativa usando un nivel se significancia de


α = 0.01

Solución:
xp = 1.0, entonces ŷ = β̂0 + β̂1 x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-
camos por $10, 000 y se obtiene $990, 600.
El intervalo de confianza de 95 % para el volumen mensual medio asociado al gasto
de publicidad es
s
1 (xp − x̄)2
ŷ ± t0.025 S+
n SCxx
r
1 (1.0 − 0.94)2
99.06 ± (2.306)(6.84) +
10 0.444
99.06 ± 5.19, es decir, (93.87,104.25)

Como cada unidad representa $10, 000 en unidades monetarias, se estima que las
ventas mensuales esperadas sobre la población de los meses en los que la compañı́a
gasta $10, 000 estan entre $938, 700 y $1042, 500.
122 Regresión lineal y multilineal

Ejemplo 4.4.6. Un equipo de investigadores de un hospital psiquiátrico realizó un


experimento para estudiar la relación que existe en pacientes esquizofrénicos, entre
el tiempo de reacción a un estı́mulo particular y el nivel de la dosis de una dro-
ga. Especı́ficamente los investigadores deseaban hacer el experimento con dosis de
0.5, 1.0, 1.5, 2.0, 2.5 y 3.0 mg. Seleccionaron una muestra aleatoria de 18 pacientes
en una población hospitalaria de esquizofrénicos y asignaron al azar a cada paciente
una de las dosis. Ası́ pues cada dosis fue administrada a un total de tres pacientes.

Tiempo de Tiempo de
Paciente Dosificación x reacción y Paciente Dosificación x reacción y
(mg) (mseg) (mg) (mseg)
1 0.5 12 10 2.0 40
2 0.5 22 11 2.0 44
3 0.5 30 12 2.0 50
4 1.0 18 13 2.5 44
5 1.0 32 14 2.5 60
6 1.0 36 15 2.5 64
7 1.5 30 16 3.0 64
8 1.5 34 17 3.0 68
9 1.5 46 18 3.0 76
Solución:
El modelo de predicción obtenido hal hacer los calculos es:

ŷ = β̂0 + β̂1 x = 9.77 + 18.85x

Observación 2. La suma de los valores ajustados es igual a la suma de los valores


P P
observados, ŷi = yi .
Ahora bien, usaremos la prueba de hipótesis para probar si uno de los coeficientes de
regresión toma valor particular o si puede ser excluido del modelo.
Si el que se quiere escluir es β1 entonces la prueba es:

H0 : β1 = 0 vs Ha : β1 6= 0
4.4 Inferencias relativas a la pendiente β1 de una recta 123

Ası́, el estadı́stico es
18.85 − 0
t= = 8.96
(7.51)(0.28)
de acuerdo a la tabla de la t de Student, la hipótesis H0 se rechaza con un nivel de
significancia de 0.05 ya que

t0.05/2,16 = t0.025,16 = 2.120

y como
| t | > tα/2,n−2 es decir, 8.96 > 2.120

entonces rechazamos H0 . Esto indica que la variable independiente es significativa o


ayuda a predecir el comportamiento de y. Por cada incremento de una unidad en la
variable independiente x, habrá un incremento de β1 unidades en la variable depen-
diente y.

Para saber la cantidad en que varı́a en promedio la variable dependiente cuando la


variable independiente varı́a una unidad, calculamos el intervalo de confianza para
β̂1 .
En nuestro ejemplo β̂1 nos dará la información acerca de la cantidad en que varı́a
en promedio, el tiempo de reacción cuando se produce un aumento en una unidad la
dosis de la droga. Entonces
p
β̂1 ± tα/2,n−2 S C11
18.86 ± (2.120)(7.51)(0.28)
18.86 ± 4.46
14.4 ≤β̂1 ≤ 23.42

Ası́, tenemos en 95 % de confianza al afirmar que la cantidad promedio de aumento


en el tiempo de reacción para cada aumento de 1 mg varı́a entre 14.4 y 23.42 mseg.
Teniendo un sujeto nuevo cuyo valor x es un puntaje determinado xp ¿qué valor
asumirá ŷ?.
124 Regresión lineal y multilineal

Predicción de y dado un valor de x en particular


Supongamos que a un esquizofrénico recientemente admitido en el hospital se le ad-
ministran 2 mg de la droga ¿cuál será el tiempo de reacción de está persona?.
Estimando puntualmente en un valor x = xp = 2 se tiene

ŷ = 9.77 + 18.86(2) = 47.49

Cuando σ 2 es desconocida podemos obtener el intervalo de predicción del (1−α)100 %


mediante la ecuación (4.2). Entonces:

r
1 (2 − 1.75)2
47.49 ± (2.120)(7.51) 1 + +
18 13.13
47.49 ± 16.39
31.1 ≤ŷ ≤ 63.88

Ası́, podemos afirmar con un 95 % de confianza que el tiempo de reacción de una


persona esquizofrénica que recibe 2 mg de la dosis está entre 31 y 64 mseg.
En lo anterior estamos prediciendo el tiempo de reacción de la persona antes de ad-
ministrarle la droga. Para descubrir con certeza el tiempo de reacción de una persona,
en relación a una determinada dosis de droga, tenemos que darle al paciente la droga
y luego medir su tiempo de reacción.
Ahora bien, dada una población de sujetos y dado un puntaje determinado de x di-
gamos xp ¿Cuál es el valor promedio de la variable dependiente ŷ más probable para
esta población?.
Supongamos entonces que tenemos una población de personas esquizofrénicas y a to-
das se les han administrado 2mg de la dosis ¿Cuál será el tiempo de reacción promedio
de esta población?.
Un intervalo de confianza para el (1 − α)100 % es el dado por la ecuación (4.1).
4.4 Inferencias relativas a la pendiente β1 de una recta 125

Entonces, como ŷ = 47.49 para x = 2 mg se tiene que


r
1 (2 − 1.75)2
47.49 ± (2.120)(7.51) +
18 13.13
47.49 ± 3.9101
43.58 ≤ŷ ≤ 51.40

Por lo tanto, podemos afirmar con un 95 % de confianza que el tiempo de reacción


promedio de una población de esquizofrénicos que recibió la dosis de 2mg estará entre
44 y 51 mg.
Si el experimento se repite muchas veces, aproximadamente el 95 % de los intervalos
de confianza calculados en la forma anterior incluirán a E[y/x] y el otro 5 % no.

Ejemplo 4.4.7. En su tesis para obtener el doctorado, H. Behbahani estudió el efecto


de la variación agua/cemento en la resistencia del concreto después de 28 dı́as. Para
el concreto que contiene 200 libras por yarda cúbica de cemento obtuvo los datos que
se presentan en la tabla 4.1. Sea y la resistencia y x la razón de agua/cemento.

Razón agua/cemento Resistencia (100 pies/libra)


1.21 1.302
1.29 1.231
1.37 1.061
1.46 1.040
1.62 0.803
1.79 0.711

Tabla 4.1: Datos.

a) Ajuste el modelo.

b) Pruebe H0 : β1 = 0 vs Ha : β1 < 0 con α = 0.05 (si rechazamos H0 entonces


concluimos β1 < 0, y que la resistencia tiende a disminuir con un incremento
en la razón agua/cemento).
126 Regresión lineal y multilineal

c) Encuentre un intervalo de confianza de 90 % de la resistencia esperada del concreto


cuando la razón agua/cemento es de 1.5. ¿Qué pasará con el intervalo de con-
fianza si tratamos de estimar la resistencia media para razones de agua/cemento
de 0.3 o 2.7?.

Solución:
a)
SCxy −0.247
β̂1 = = = −1.056
SCxx 0.234
β̂0 =2.563
=⇒ ŷ =2.563 − 1.056x

b)

H0 :β1 = 0 vs Ha : β1 < 0 con α = 0.05


−1.056 − 0
t= r = −11.355 (En este caso debemos probar si t < −tα )
1
0.045
0.234
tα,n−2 =t0.05,4 = 2.132
=⇒ −11.355 < −2.132.

Se rechaza H0 , hay evidencia para indicar que la resistencia disminuye con un incre-
mento en la razón agua/cemento en la región donde se hizo el experimento.
En la práctica, la razón agua/cemento debe ser lo suficientemente para humedecer el
cemento, la arena y los otros elementos que forman el concreto; pero si la razón es
muy grande no servirá.
c)

ŷ = 2.563 − 1.056(1.5) = 0.979


r
1 (1.5 − 1.457)2
0.979 ± (2.132)(0.045) +
6 0.234
=⇒(0.938, 1.020)
4.5 Correlación lineal 127

La resistencia media de la razón agua/cemento de 1.5 está entre 0.938 y 1.020.


x∗ = 0.3 y x∗ = 2.7 son valores lejanos a los experimentados, quizás producirı́an
concreto completamente inservible.

4.5. Correlación lineal


En la sección anterior se estableció que la regresión lineal estudia la natutaleza de la
relación entre dos (o mas variables si no es lineal). En esta sección vamos a definir
el llamado coeficiente de correlación lineal, que ofrece una medida cuantitativa de
la fortaleza de la relación lineal entre x e y en la muestra, pero que a diferencia de
β1 , es adimensional, ya que sus valores siempre estan entre -1 y 1, sean cuales sean
las unidades de medida de las variables. En otras palabras, la correlación mide la
fuerza de la relación entre variables. Si están relacionadas las variables dependiente e
independiente, entonces hay que averiguar que tan fuerte es la relación.
Dada una muestra de valores de dos variables (x1 , y1 ), . . . , (xn , yn ), el coeficiente de
correlación lineal muestral r se define como
SCxy
r=p
SCxx SCyy
Como digimos antes, la interpretación del valor de r es la siguiente:

r cercano o igual a 0 implica poca o ninguna relación lineal entre x e y.

Cuanto más se acerque a 1 ó −1, más fuerte será la relación lineal entre x e y.

Si r = ±1, todos los puntos caerán exactamente en la recta de regresión.

Un valor positivo de r implica que y tiende a aumentar cuando x aumenta, y


esa tendencia es más acusada cuanto más cercano está r de 1.

Un valor negativo de r implica que y disminuye cuando x aumenta, y esa ten-


dencia es más acusada cuanto más cercano está r de −1.

Si r = 0, no hay relación.
128 Regresión lineal y multilineal

¿Cómo determinar que tan bueno es el modelo ajustado?

El coeficiente de determinación lineal r2 proporciona una medida de la bondad de


ajuste del modelo de regresión

SCE
r2 = 1 − 0 ≤ r2 ≤ 1
SCyy

Si el modelo es correcto, entonces SCE = 0 y r2 = 1. Si r2 está cerca de cero (Cuando


SCE puede ir a SCyy ), el ajuste no es el adecuado.
Nótese que la notación es r al cuadrado, ya que, en efecto, en una regresión lineal
simple coincide con el coeficiente de correlación lineal al cuadrado. Por lo tanto, la
interpretación de r2 es la medida en que x contribuye a la predicción de y en una
escala de 0 a 1, donde el 0 indica que el error es el total de la variación de los valores
de y y el 1 es la precisión total, el error 0. La medida suele darse en porcentaje.

Intervalo de confianza para r

Se quiere probar la hipótesis de que el coeficiente de correlación es cero, es decir,

H0 : r = 0 vs Ha : r 6= 0

lo anterior es equivalente a probar

H0 : β1 = 0 vs Ha : β1 6= 0

β̂1 − 0
con su estadı́stico t = √ .
S C11
Dejando el estadı́stico anterior en términos de r se obtiene

r n−2
t= √
1 − r2
Para probar la hipótesis nula H0 = r = r0 r0 6= 0 contra Ha = r 6= r0 se utiliza el
estadı́stico µ ¶
1 1+r
ln
2 1−r
4.5 Correlación lineal 129

¶ µ
1+r1 1
que sigue una distribución normal con media ln 2
y varianza . En-
1−r n−3
tonces, usaremos µ ¶ µ ¶
1 1+r 1 1 + r0
2
ln − 2 ln
1−r 1 − r0
z= r
1
n−3
lo anterior es equivalente a
√ · ¸
n−3 (1 + r)(1 − r0 )
z= ln
2 (1 − r)(1 + r0 )

H0 se rechaza si | z | > zα/2 , donde α es el nivel de significancia.






 r > r0 región de rechazo:z > zα ,

Ha : r < r 0 región de rechazo:z < −zα ,




r 6= r0 región de rechazo:| z | > zα/2 ,

Ejercicio 4.5.1. Los siguientes datos representan las calificaciones de quı́mica para
una muestra aleatoria de 12 estudiantes de primer año de determinada institución de
enseñanza superior, junto con sus calificaciones en un examen de inteligencia aplicado
cuando aún cursaban el último año de secundaria.

Calif. Examen Calif. Quı́mica Calif. Examen Calif. Quı́mica


65 85 65 94
50 74 70 98
55 76 55 81
65 90 70 91
55 85 50 76
70 87 55 74

a) Calcule e interprete el coeficiente de correlación muestral,

b) Pruebe la hipótesis de que r = 0.5 contra r > 0.5.


130 Regresión lineal y multilineal

Solución:
q
SCxx
a) r = β̂1 SCyy
, entonces

X 1 ³X ´2 1
SCxx = x2i − xi = 44475 − (725)2 = 672.92
n 12
X 1 ³X ´2 1
SCyy = yi2 − yi = 85905 − (1011)2 = 728.25
n 12
SCxy X 1X X 1
β̂1 = =⇒ SCxy = xi yi − xi yi = 61685 − (725)(1011) = 603.75
SCxx n 12
603.75
=⇒ β̂1 = = 0.897 o 0.9
672.92

Ası́, el coeficiente de correlación es

r
672.92
r = 0.897 = 0.862.
728.25

Note que, el coeficiente está cerca de 1, entonces hay una fuerte asociación entre x e
y, como se podrá esperar.
b)

H0 : r = 0.5 vs Ha : r > 0.5


√ · ¸
n−3 (1 + 0.862)(1 − 0.5)
z= ln
2 (1 − 0.862)(1 + 0.5)
· ¸
3 0.931
= ln = 2.255
2 0.207

Ahora veamos si se cumple que z > zα , para esto usamos α = 0.05. Entonces, z0.05 =
1.64 + 1.65
1.645 (buscamos α = 0.05 en la tabla de la distribución normal y cae en =
2
1.645).
Ası́, 2.255 > 1.645, por lo cual se rechaza la hipótesis nula H0 .

Ejercicio 4.5.2. En un estudio acerca de la cantidad de precipitación pluvial y la


cantidad de contaminación de aire eliminada, se obtuvieron los siguientes datos:
4.6 Ejercicios 131

Lluvia diaria (0.01 cm) x Partı́culas eliminadas (mg por metro cúbico) y
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108

a) Calcule r,

b) Prueba H0 : r = −0.5 vs Ha : r < −0.5 con un nivel de significancia de 0.025,

c) Determine el porcentaje de variación en que la cantidad de partı́culas eliminadas


que se deben a los cambios en la cantidad diaria de precipitación pluvial.

Solución:

4.6. Ejercicios
1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un
artı́culo) del catálogo de inventario con el valor en los libros (o nominal). Si una
compañı́a tiene su inventario y sus libros al dı́a, debe existir una relación lineal
muy estrecha entre los valores revisados y los nominales. Una muestra de 10
artı́culos del catálogo de cierta compañı́a dio los datos que contiene la tabla 4.2
acerca de los valores revisados y los nominales. Ajuste el modelo y = β0 +β1 x+ε
a esos datos. ¿Cuál es su estimación para el cambio que se espera en el valor
revisado para un cambio de una unidad en el valor nominal? Si el valor nominal
es x = 100, ¿qué utilizarı́a para estimar el valor revisado?
132 Regresión lineal y multilineal

Artı́culo Valor revisado (yi ) Valor nominal (xi )


1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 167

Tabla 4.2: Datos.

2. En la tabla 4.3 se muestra la clasificación combinada del número de millas y


el volumen del motor establecidos por la EPA en estados de la Unión Ameri-
cana en 1980 (todos menos California) de nueve automóviles subcompactos con
transmisión estándar, de cuatro cilindros, que utilizan gasolina. El tamaño del
motor se da en pulgadas cúbicas totales del cilindraje.

Automóvil Cilindraje (x) mpg combinado (y)


VW Rabitt 97 24
Datsun 210 85 29
Chevrolet Chevette 98 26
Dodge Omni 105 24
Mazda 626 120 24
Oldsmobile Starfire 151 22
Mercury Capri 140 23
Toyota Celica 134 23
Datsun 810 146 21
4.6 Ejercicios 133

a) Localice los datos en una gráfica.


b) Encuentra la recta de mı́nimos cuadrados para los datos.
c) Trace una gráfica de la recta de mı́nimos cuadrados para ver cuánto se ajusta
a los datos.
d) Utilice la recta de mı́nimos cuadrados para estimar el promedio de millas por
galón (mpg) para un automóvil subcompacto con un volumen de motor de 125
pulgadas cúbicas.

3. En un estudio de distintos fondos para inversión se desarrolló un procedimien-


to consistente en construir la llamada “recta caracterı́stica”para cada posible
fondo. Dicha recta no es otra cosa más que la recta de regresión de la re-
dituabilidad del fondo considerado sobre la redituabilidad promedio del mer-
cado bursátil. Si para un fondo de inversión la pendiente de su recta carac-
terı́stica es significativamente distinta de cero, se dice que ese fondo es muy
sensible a las fluctuaciones de la bolsa de valores y por ende es una inver-
sión riesgosa. Si el fondo tiene una recta caracterı́stica con pendiente cercana
a cero se dice que es una inversión estable y de poco riesgo. La redituabili-
dad tanto del fondo “Penn Square Mutual”como la promedio en el mercado
bursátil se observó en el periódo 1964 a 1973 y se dan en la tabla siguiente.
Año 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
P. Square 18.4 29.7 -12.3 10.8 23.6 -16.2 5.8 7.2 7.7 -8.8
p. en m. 12.9 9.1 -13.1 20.1 7.7 -11.4 .1 10.8 15.6 -17.4
a) Encuentre la “recta caracterı́stica”del fondo “Penn Square Mutual”(esto es,
la recta de regresión de la redituabilidad del fondo sobre la redituabilidad prome-
dio).
b) Grafique los puntos y la recta de regresión para verificar sus cálculos.
c) Describa el tipo de riesgo asociado a invertir en el “Penn Square Mutual”(esto
es, pruebe la hipótesis β1 = 0; use α = 0.05).

Tabla 4.3: Datos.


134 Regresión lineal y multilineal

d) Encuentre un intervalo confidencial del 95 % para la pendiente de la recta


caracterı́stica del fondo “Penn Square Mutual”.

4. Un experimento de mercados se realizó para estudiar la relación entre el tiempo


que requiere un comprador para decidirse en su compra y el número de pre-
sentaciones distintas del producto exhibidas. Las marcas se eliminaron de los
productos para reducir el efecto de las preferencias a determinadas marcas. Los
compradores seleccionaron los artı́culos basados exclusivamente en las descrip-
ciones y diseños de las presentaciones de cada producto. El tiempo utilizado
hasta llegar a una selección fue registrado para los 15 participantes en el estu-
dio.

Tiempo requerido (en seg.) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9


Numero de laternativas (presentaciones) 2 3 4

a) Encuentre la recta de mı́nimos cuadrados para esos datos.


b) Grafique los puntos y la recta para verificar sus cálculos.
c) Calcule s2 .
d)¿Presentan los datos suficiente evidencia evidencia que indique que el tiem-
po requerido para decidir está linealmente relacionado al número de presenta-
ciones? (Pruebe al nivel α = 0.05).

5. La siguiente tabla contiene la lista del número de casos de tuberculosis (por


cada 100000 habitantes) en el estado de Florida durante la década que va de
1967 a 1976. ¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis
decrece en tal periodo? Utilice α = 0.05. (Se pueden codificar los años de la
manera que se considere conveniente.)

6. Las medianas de los precios de ventas de casas nuevas para una sóla familia
durante un periodo de 8 años se indican en la tabla siguiente. Sea y la mediana
de los precios de venta y x el año (representado con números enteros, 1,2,...,8),
4.6 Ejercicios 135

ajuste el modelo y = β0 + β1 x + ε. ¿Qué se puede concluir con los resultados?.

Año Mediana del precio de venta (x 1000)


1972 (1) $27.6
1973 (2) 32.6
1974 (3) 35.9
1975 (4) 39.3
1976 (5) 44.2
1977 (6) 48.8
1978 (7) 55.7
1979 (8) 62.9

Conteste lo siguiente:
a) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios
de venta de casas nuevas para una sola familia se ha incrementado durante el
periodo de 1972 a 1979, con un nivel de significancia de 0.01?
b) Estime el incremento anual esperado en la mediana de los precios de venta
al construir un intervalo de confianza de 99 %.

7. Se llevó a cabo un estudio de la cantidad de azúcar refinada mediante un cierto


proceso a varias temperaturas diferentes. Los datos se codificaron y registraron
136 Regresión lineal y multilineal

en el siguiente cuadro:

Temperatura Azúcar refinada


1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5

a) Determine el modelo de regresión lineal simple.


b) Calcule la cantidad promedio de azúcar refinada que se produce cuando la
temperatura codificada es 1.75.
c) Determine un intervalo de confianza del 95 % para el parámetro βˆ1 .
d) Prueba H0 : βˆ1 = 0 vs Ha : βˆ1 6= 0.
e) Encuentre un intervalo de predicción del 95 % para un valor particular de
azúcar refinada cuando la temperatura es 1.75.

8. Los siguientes datos presentan el número promedio de bacterias que sobreviven


4.6 Ejercicios 137

en un producto alimenticio enlatado y los minutos de exposición a una tempe-


ratura de 300◦ F .

Número de bacterias Minutos de exposición


175 1
108 2
95 3
82 4
71 5
50 6
49 7
31 8
28 9
17 10
16 11
11 12

a) Dibuje el diagrama de dispersión de los datos.


b) Identifique el modelo apropiado para estos datos (es lineal o exponencial) y
estime los parámetros de dicho modelo.

9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los
consumos de energı́a (en miles de kilowatts-hora, kwh) y el número de habita-
ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas
produjo lo siguiente:
138 Regresión lineal y multilineal

Num.de habitaciones Consumo


12 9
9 7
14 10
6 5
10 8
8 6
10 8
10 10
5 4
7 7

a) Dibuje el diagrama de dispersión. Explique,

b) Ajuste un modelo de regresión lineal simple a estos datos,

c) Estime el consumo promedio para una casa con 11 habitaciones,

d) Pruebe la significancia del modelo con α = 0.05,

c) Determine un intervalo de confianza del 95 % para el consumo promedio


cuando una casa tiene 11 habitaciones.

4.7. Regresión lineal multiple


Un modelo de regresión que involucre mas de una variable independiente se llama
modelo de regresión multiple.
El modelo de regresión lineal múltiple con k variables está dado por:

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε (4.3)

Los βi i = 0, . . . , k se llaman coeficientes de regresión.


Ajuste del modelo de regresión lineal mediante matrices.
4.7 Regresión lineal multiple 139

Supongamos que tenemos el modelo de regresión lineal (4.3) y hacemos n observa-


ciones y1 , y2 , . . . , yn . Entonces, cada observación yi se escribe como

yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + εi

xij es la j-ésima variable independiente para la i-ésima observación (i = 1, . . . , n).


Ahora, definimos las matrices
 
  x x11 x12 · · · x1k
y1  0 
  x x21 x23 · · · x2k 
y   0 
 2  
Y =. y X=
 x0 x31 x33 · · · x3k 

 ..  . .. .. .. 
   .. ..
 . . . . 

yn
x0 xn1 xn2 · · · xnk
con x0 = 1    
β0 ε1
   
β  ε 
 1  2
β=. y ε=.
 ..   .. 
   
βk εk
Las n ecuaciones que representan a las n observaciones yi se pueden escribir como:

Y = Xβ + ε

Ahora, las ecuaciones de mı́nimos cuadrados ordinarios están dadas por

X t X β̂ = X t Y

donde  
β̂0
 
β̂ 
 1
β̂ =  . 
 .. 
 
β̂k
Entonces β̂ = (X t X)−1 X t Y .
Por lo tanto, el modelo ajustado es

ŷ = X β̂ = X(X t X)−1 X t Y
140 Regresión lineal y multilineal

Ejercicio 4.7.1. Dados los siguientes datos

x 0 1 2 3 4 5 6
y 1 4 5 3 2 3 4

a) Ajuste el modelo cuadrático

E(y/x) = β0 + β1 x + β2 x2

b) Estime y cuando x = 2

Solución:
a) Sea x1 = x y x2 = x2 , entonces y = β0 + β1 x1 + β2 x2 . Ahora,
 
1 0 0
 
1 1 1
   
 
1 2 4 1 1 1 1 1 1 1
   
 
X = 1 3 9 y Xt = 
0 1 2 3 4 5 6 

 
1 4 16 0 1 4 9 16 25 36
 
 
1 5 25
 
1 6 36

entonces
 
1 0 0
 
1 1 1
 

 
 
1 1 1 1 1 1 1  1 2 4 7 21 91
 
   
X X=
t
0 1 2 3 4 5 6  
 1 3 9= 21 91 441  
 
0 1 4 9 16 25 36 
1 4 16 91 441 2275
 
1 5 25
 
1 6 36
4.7 Regresión lineal multiple 141

Calculando la inversa de X t X

 
7 21 91 | 1 0 0
  P ant = 1
(X t X)−1 =
21 91 441 | 0 1 0 
 ∼
P act = 7
91 441 2275 | 0 0 1
 
7 21 91 | 1 0 0 
  P ant = 7
0 196 1176 | −21 7 0 ∼
  
P act = 196
0 1176 7644 | −91 0 7
 
196 0 −980 | 91 −21 0 
  P ant = 196
 0 196 1176 | −21 7 0  ∼
  
P act = 16464
0 0 16464 | 980 −1176 196
 
16464 0 0 | 12544 −7644 980
 
 0 16464 0 | −7644 7644 −1176
 
0 0 16464 | 980 −1176 196

dividiendo todo el arreglo anterior entre el último Pact

 
1 0 0 | 16/21 −13/28 5/84
 
0 1 0 | −13/28 13/28 −1/14
 
0 0 1 | 5/84 −1/14 1/84

Por lo tanto,

 
16/21 −13/28 5/84
 
(X t X)−1 = 
−13/28 13/28 −1/14

5/84 −1/14 1/84
142 Regresión lineal y multilineal

Ahora bien,
 
1
 
4
  
 

16/21 −13/28 5/84 1 1 1 1 1 1 1 5
    
β̂ = (X t X)−1 X t Y =     3
−13/28 13/28 −1/14 0 1 2 3 4 5 6    

5/84 −1/14 1/84 0 1 4 9 16 25 36 2


 
3
 
4
 
2.4062
 
= 0.7143 

−0.09524

Por lo tanto, β̂0 = 2.4062, β̂1 = 0.7143 y β̂3 = −0.09524. Entonces, el modelo de
predicción es
ŷ = 2.4062 + 0.7143x − 0.09524x2 .

b) E(y/x = 2) = 2.4062 + 0.7143(2) − 0.09524(2)2 = 3.4538.

Ejercicio 4.7.2. Se llevó a cabo un experimento para determinar la distancia de fre-


nado a diferentes velocidades de un modelo nuevo de automóvil. Se registraron los
siguientes datos:

Velocidad 35 50 65 80 95 110
Distancia de frenado 16 26 41 62 88 119

a) Ajuste una curva de regresión múltiple de la forma E(y/x) = β0 + β1 x + β2 x2

b) Estime la distancia de frenado cuando el vehı́culo viaja a la velocidad de 70 kmh

Solución:
Capı́tulo 5

Habilidades básicas

I.- Complete los siguientes:

1. Comprende las técnicas que se emplean para resumir y describir datos numéri-
cos, de tipo grafico, o que requieren análisis computacional.

2. En base a que, en una muestra sometida a observación sirven para tomar deci-
siones.

3. Si cuento como observaciones el número de alumnos del grupo, se refiere a


variable:

4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:

5. Los métodos de muestreo aleatorio son:

6. ¿Cuándo aplico muestreo de juicio?

7. ¿Cuándo aplico muestreo por conveniencia?

8. ¿Cuándo aplico muestreo por subgrupos racionales?

9. ¿Cuándo aplico muestreo sistemático?


144 Habilidades básicas

10. ¿Cuándo aplico muestreo estratificado?

II.- Instrucciones: Realiza los siguientes ejercicios

11. Con los siguientes datos Datos:

1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94

a) Construye una tabla de distribución de frecuencias.

b) Encuentra las medidas de tendencia central y de dispersión.

c) Realiza las gráficas de: histograma (o gráfica de barras según convenga),


pastel, polı́gono de frecuencias.

12. Con los siguientes datos

10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100

a) Construye una tabla de distribución de frecuencias.

b) Encuentra las medidas de tendencia central y de dispersión.

c) Realiza las gráficas de: histograma (o gráfica de barras según convenga),


pastel, polı́gono de frecuencias.

13. Con los siguientes datos

50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11

a) Construye una tabla de distribución de frecuencias.

b) Encuentra las medidas de tendencia central y de dispersión.

c) Realiza las gráficas de: histograma (o gráfica de barras según convenga),


pastel, polı́gono de frecuencias.

III.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los


conocimientos adquiridos en estadistica descriptiva
145

14. Se ocupa una vez hecha la recopilación de los datos, ordenarlos y clasificarlos
para extraer conclusiones:

15. Estudia las técnicas de ordenación, clasificación, recuento y presentación de


datos en tablas y gráficas, y de obtener valores que resuman la información:

16. Es el conjunto de elementos que poseen una determinada caracterı́stica que


deseamos medir o estudiar:

17. Es la selección de un subconjunto de la población:

18. Al n0 de elementos de una muestra se le denomina:

19. Es la caracterı́stica que se va a estudiar en la población:

20. Son aquellas que se pueden cuantificar, como la edad, peso, n0 de hijos, etc.
Además es una de las divisiones de carácter:

21. Es el conjunto de valores que toma un carácter estadı́stico:

22. Son las representaciones que se hacen cuando la variable es continua:

23. Es la representación que se usa cuando la variable es cualitativa, por ejemplo


color del coche, aunque también se puede usar en variable discreta:

IV.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los


conocimientos adquiridos en Regresión.

24. ¿Qué es una lı́nea de regresión?

25. ¿Cómo se utilizan las lı́neas de regresión?

26. Compare los términos “variable dependiente”y “variable independiente”.

27. ¿Qué mide r2 ?


146 Habilidades básicas

28. ¿Qué ventaja tiene la regresión múltiple con respecto a la regresión lineal?¿Qué desven-
tajas?

29. ¿Cómo determinarı́a cuál de las dos técnicas: la de regresión lineal o la múltiple
serı́a la más apropiada para una situación determinada?

30. Compare la finalidad del análisis de regresión con la del análisis de correlación.

31. ¿Porqué es importante trazar un diagrama de dispersión para técnicas de regre-


sión o correlación de dos variables?

32. ¿Qué significa un signo − antes de r?¿Antes de β1 ?

33. En la mayorı́a de las aplicaciones en negocios, ¿qué técnica es más útil la de


correlación o la de regresión?¿Por qué?

V.- Usando las técnicas de Regresión Lineal, resuelve los siguientes:

34. Dada la siguiente distribución:

X 2 2 2 4 7 7 10 10
Y 3 4 5 5 4 5 3 5

Determina la recta de regresión de Y sobre X.

35. En el servicio central de turismo del paı́s se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el
total de plazas ocupadas en un año se tiene:

Precio (U S$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000
N0 hab. ocup. 4725 2610 1872 943 750 700 700 580 500

a) Representa los datos gráficamente, para comprobar que existe cierta depen-
dencia lineal entre las variables.
147

b) Halla la ecuación de la recta de regresión del número de habitaciones sobre


el precio. Halla la ecuación de la recta de regresión del precio sobre el
número de habitaciones.

c) ¿Cuántas habitaciones se llenarı́an a 1500 U S$?

36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el
periodo 77 − 86 fueron:

Año 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5

a) Recta de regresión considerando el ahorro como variable independiente.

b) Recta de regresión considerando la renta como variable independiente

c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el
ahorro esperado para el año 87?

37. Los datos de la tabla adjunta muestran el tiempo en horas de impresión de tra-
bajos que se han imprimido en una impresora láser de la marca HP . Se está in-
teresado en estudiar la relación existente entre la variable de interés “tiempo
de impresión de un trabajo ”y la variable explicativa “número de páginas del
trabajo ”.

Tiempo 1 2 3 4 5 6 7 8
N0 Páginas 600 900 1400 1800 2500 3200 3400 4500

a) Encuentre la recta de regresión considerando el tiempo como variable inde-


pendiente.

b) Encuentre la recta de regresión considerando el número de páginas como


variable independiente

c) Estime cuántas paginas se imprimirı́an en 12 horas.


148 Habilidades básicas

VI.- Usando las técnicas de Regresión Múltiple, resuelve los sigu-


ientes:

[?]
Bibliografı́a

Вам также может понравиться