Estadistica Ii PDF

ESTADÍSTICA II
Claudio Álvaro Cerrón Landeo

Cada autor es responsable del contenido de su propio texto.
De esta edición:
© Universidad Continental S.A.C 2012
Jr. Junin 355, Miraflores, Lima-18
Teléfono: 213 2760
Derechos reservados
Primera Edición: Enero 2014
Tiraje: 500 ejemplares
Autor: Claudio Álvaro Cerrón Landeo

Oficina de Producción de Contenidos y Recursos
Impreso en el Perú - Rebelars S.A.C

Jr. Los Bosques 555 - El Tambo - Huancayo
Fondo Editorial de la Universidad Continental
Todos los derechos reservados.
Esta publicación no puede ser reproducida, en todo ni en parte, ni registrada en o

trasmitida por un sistema de recuperación de información, en ninguna forma ni por
ningún medio sea mecánico, fotoquímico, electrónico, magnético, electroóptico, por
fotocopia, o cualquier otro sin el permiso previo por escrito de la Universidad.
ÍNDICE
INTRODUCCIÓN 7
PRESENTACIÓN DE LA ASIGNATURA 9
COMPETENCIA DE LA ASIGNATURA 9
UNIDADES DIDÁCTICAS 9
TIEMPO MÍNIMO DE ESTUDIO 9
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS 11
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD i 11

ORGANIZACIÓN DE LOS APRENDIZAJES 11
Tema N° 1: Thomas Hobbes 13
1 Definiciones básicas 12
2 Tipos de muestreo probabilístico 14
Lectura Seleccionada N° 1 28
¿Funciona la terapia de contacto? Mario Triola. pp. 319 28
ACTIVIDAD N°1 29
Tema N° 2: ESTIMACIÓN Y TAMAÑOS DE MUESTRA 29
1 Estimación de la proporción poblacional 31
2 Estimación de la media poblacional 31
3 Estimación de la varianza poblacional 35

4 Determinación del tamaños de muestra 37
CONTROL DE LECTURA N° 1 39
glosario DE LA UNIDAD I 39
bibliografía DE LA UNIDAD I 40
AUTOEVALUACIóN DE LA UNIDAD I 40
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA 43
Diagrama de presentación de la Unidad Ii 43

Tema N° 1: PRUEBA DE HIPÓTESIS 44
1 Definiciones básicas 44
2 Prueba de aseveración para la media 47
3 Prueba de aseveración para la proporción 49
4 Prueba de aseveración para la varianza 51
Tema N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS 52

1 Inferencia acerca de dos medias, proporciones para muestras independientes 52
2 Inferencia a partir de datos pareados 56
3 Comparación de la variación de dos muestras 57
Tema N° 3: ANÁLISIS DE VARIANZA 59

1 ANOVA de un factor 60
2 ANOVA de dos factores 64
La paradoja del cumpleaños Blog Estadística para todos
ACTIVIDAD N° 1 68
ACTIVIDAD N° 2 68
TAREA ACADÉMICA Nº 1 68
GLOSARIO DE LA UNIDAD II 69
BIBLIOGRAFÍA DE LA UNIDAD II 69
AUTOEVALUACIÓN de la unidad ii 69
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA 73
Diagrama de presentación de la Unidad 73

Tema N° 1: PRUEBA DEL SIGNO 74
1 Prueba del signo 75
2 Prueba de rangos con signo de Wilcoxon para datos apareados 81
3 Prueba de la suma de rangos con signo de Wilcoxon para muestras independientes 85
Tema N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA

1 Bondad de ajuste 88
2 Independencia y homogeneidad 91
Tema N° 3: PRUEBAS NO PARAMÉTRICAS 96

1 Prueba de Kruskal-Wallis 96
2 Prueba de correlación de rangos 98
3 Prueba de rachas 101
¿Los estudiantes clasifican a las universidades de la misma manera que el U.S. News and World Report? Mario
Triola. pp. 675.
ACTIVIDAD N°1 106

ACTIVIDAD N°2 106
CONTROL DE LECTURA Nº 2 106
glosario DE LA UNIDAD III 106
Bibliografía de la Unidad III 107
AUTOEVALUACIóN DE LA UNIDAD III 107
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS 111
Diagrama de presentación de la Unidad 111

Tema N° 1: CORRELACIÓN Y REGRESIÓN 112
1 Correlación y regresión lineal 117
2 Correlación y regresión múltiple 120
3 Elaboración de modelos de regresión 122
Tema N° 2: CONTROL ESTADÍSTICO DE PROCESOS 126

1 Gráficos de control para la media y varianza 127
2 Gráficos de control para atributos 128

¿Podemos predecir el momento de la siguiente erupción del géiser Old Faithful? Mario Triola. pp. 515
ACTIVIDAD N° 1 133
Actividad Nº 2 133
TAREA ACADÉMICA Nº 2 133
glosario DE LA UNIDAD IV 134
Bibliografía de la unidad IV 136
AUTOEVALUACIóN DE LA UNIDAD IV 137
ANEXO: Claves de las autoevaluaciones 140
6
INTRODUCCIÓN
T
odos los conceptos y aplicaciones vertidos en el curso Es importante manejar adecuadamente los procedimientos y
anterior de Estadística I tales como tablas de frecuen- métodos que utiliza la estadística inferencial pues no debemos
cia, gráficos, cálculo de medidas descriptivas se pueden olvidar que sus resultados serán utilizados por diferentes enti-
resumir dentro de un término general que vendría a ser ESTA- dades y personas quienes se basarán en ellos para poder tomar
DÍSTICA DESCRIPTIVA, debido que a través de ellos podemos decisiones y nosotros tenemos la obligación moral de entregar la
describir, presentar y resumir esencialmente el comportamiento información lo más clara y entendible posible sin necesidad de
de una serie de datos que han sido recolectados con algún pro- tergiversarla ni modificarla.
cedimiento adecuado. El presente Manual Autoformativo de ESTADÍSTICA II está
Si embargo a través de la ESTADÍSTICA DESCRIPTIVA no se diseñado para que el lector pueda adquirir los conocimientos
puede aclarar interrogantes acerca de una población cuando necesarios para poder ejecutar los procesos relacionados con la
no se dispone de ella y solo se tiene parte de ella, o sea de una estimación y prueba de hipótesis estructurados en cuatro unida-
muestra. Por ejemplo si sabemos que el rendimiento promedio des. En la primera unidad aprenderemos a realizar los distintos
de una muestra de automóviles de cierto modelo y marca es de métodos de muestreo que validen nuestro trabajo y el cálculo de
55 km. por galón, ¿qué podremos concluir acerca de todos los intervalos de confianza a través de las estimaciones, en la segun-
automóviles producidos de dicha marca y modelo? da unidad aplicaremos las pruebas de hipótesis a través de los
Para poder dar una conclusión acerca de la población, la Esta- métodos paramétricos, en la tercera unidad continuaremos con
dística dispone de una serie de procedimientos y métodos que las pruebas de hipótesis pero utilizando métodos no paramé-
se resumen en un término general que es el de ESTADÍSTICA tricos y finalizaremos la cuarta unidad desarrollando el análisis
INFERENCIAL, la cual determina específicamente la probabili- de correlación y regresión el cual nos permitirá realizar algunos
dad de que una conclusión obtenida a partir de una muestra sea pronósticos sobre el comportamiento de alguna variable.
válida para toda la población de la cual proviene, basados todos Agradecemos a quienes de antemano tuvieron paciencia y com-
ellos en la Estimación y Prueba de Hipótesis que serán motivo de prensión en la elaboración del presente manual y a aquellos
estudio en las páginas siguientes. alumnos con quienes pudimos optimizar el uso de la informa-
ción presente en esta primera edición.
8

ESTADÍSTICA II
Desarrollo
de contenidos
Actividades Autoevaluación
MANUAL AUTOFORMATIVO
9
Lecturas Glosario Bibliografía

seleccionadas
PRESENTACIÓN DE LA ASIGNATURA
ESTADÍSTICA II
Recordatorio Anotaciones
Diagrama Objetivos Inicio
COMPETENCIA DE LA ASIGNATURA
Desarrollo Actividades Autoevaluación

de contenidos
Conoce, aplica, analiza e interpreta eficientemente métodos y técnicas de la esta-
dística inferencial y de pronóstico y los utiliza como herramienta para la toma de
decisiones, valorando reflexivamente su importancia en los diversos campos de la
ciencia, demostrando ética en el manejo de la información.

seleccionadas
UNIDADES DIDÁCTICAS
UNIDAD Nº I UNIDAD Nº II UNIDAD Nº III UNIDAD Nº IV
Muestreo y estima- Prueba de hipó- Estadística no Correlación, regre-

ción de paráme- tesis y análisis de paramétrica sión y control esta-
tros varianza dístico de procesos
TIEMPO MÍNIMO DE ESTUDIO

UNIDAD Nº I UNIDAD Nº II UNIDAD Nº III UNIDAD Nº IV
1a y 2a Semana 3a y 4a Semana 5a y 6a Semana 7a y 8a Semana

16 horas 16 horas 16 horas 16 horas
10
ESTADÍSTICA II
Desarrollo
de contenidos
11
Diagrama Objetivos Inicio Lecturas Glosario Bibliografía

seleccionadas
Desarrollo
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
de contenidos
Lecturas
seleccionadas DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD I
Glosario Bibliografía
CONTENIDOS
Recordatorio
Desarrollo
Anotaciones
Actividades Autoevaluación EJEMPLOS ACTIVIDADES
de contenidos
Lecturas
seleccionadas
Glosario AUTOEVALUACIÓN
Bibliografía BIBLIOGRAFÍA
ORGANIZACIÓN DE LOS APRENDIZAJES

CONOCIMIENTOS PROCEDIMIENTOS ACTITUDES

deTema N°1: Diseño y técnicas de
contenidos
1. Define los conceptos básicos 1. Valora la importancia de la
muestreo probabilístico de muestreo e identifica los estimación de parámetros y
1. Definiciones básicas diversos métodos de mues- la determinación del tamaño
2. Tipos de muestreo probabi- treo. de muestra y comprueba las
lístico Glosario
Lecturas
seleccionadas
Bibliografía
2. Aplica las técnicas de mues- hipótesis para la toma de de-
treo en distintas situaciones. cisiones.
Lectura seleccionada N°1
¿Funciona la terapia de contac-
Actividad N° 1
to? Mario Triola. pp. 319
Tema N° 2: Estimación y tama- 3. Utiliza datos muestrales para

ños de muestra estimar parámetros poblacio-
1. Estimación de la proporción nales.
poblacional.
2. Estimación de la media po- Actividad N° 2
blacional. Control de Lectura Nº 1
3. Estimación de la varianza po-
blacional.
4. Determinación del tamaño
de muestra.
Autoevaluación de la Unidad I
ollo
nidos 12
Actividades Autoevaluación UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
as Glosario Bibliografía
nadas
TEMA N° 1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO
1 DEFINICIONES BÁSICAS11
torio Anotaciones
1.1. Unidad elemental
Es el elemento o unidad base de la población o de la muestra que permite ob-
tener información o datos referidos a ciertas características o variables que nos
interesan para explicar determinado fenómeno.
También es llamada unidad de observación, unidad de análisis, unidad estadís-
tica, caso o elemento. Por ejemplo, en estudios de satisfacción del cliente en
una tienda de retails, la unidad elemental es cada consumidor.
1.2. Población muestreada

Es el conjunto de todas las unidades de elementales posibles que podrían ex-
traerse en una muestra;
es decir, es la población de donde se extrae la muestra.
1.3. Unidad de muestreo

Es la unidad estadística que se selecciona para constituir la muestra. La elec-
ción de la unidad de muestreo más eficiente es una consideración importante
en el diseño de una muestra.
Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una
lista de todos los individuos que pertenecen a la población objetivo. En vez de
eso, la unidad de muestreo es cada familia y la unidad elemental es cada indi-
viduo que vive en una familia.
1.4. Marco muestral

Es una lista de las unidades de muestreo que están disponibles para la elección.
Por ejemplo para seleccionar a los trabajadores y estudiar su nivel de ingresos
podríamos utilizar el directorio de la Hoja Resumen de Planillas que presentan
las empresas en el mes de junio de cada año al MTPE, complementado con
directorios de otros gremios empresariales importantes de los cuales se toma
a todas las empresas con 10 y más trabajadores del régimen laboral de la acti-
vidad privada.
1.5. Censo
Es una investigación estadística que consiste en el recuento de la totalidad de
los elementos que componen la población a investigar. Es necesario que se
especifique el espacio y el tiempo al que se refiere el recuento.
1.6. Muestreo
Conjunto de métodos y procedimientos estadísticos destinados a la selección
de una o más muestras. Es la técnica elegida para seleccionar a la muestra. El
objetivo principal de un diseño de muestreo es proporcionar procedimientos
para la selección de muestras que sean representativas de la población en es-
tudio.
El muestreo comprende por lo menos dos etapas:
La selección de las unidades
El registro de las observaciones.
FICHA TÉCNICA
Título del estudio: Encuesta de Opinión en Lima Metropolitana Noviembre
2009
Objetivos del Estudio: Evaluación y opinión sobre la situación económica
Encuestadora: Pontificia Universidad Católica del Perú
Nº de registro: 0108 REE/JNE
1 Estadística. Mario Triola 10°Ed.

ESTADÍSTICA II
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROSDesarrollo
de contenidos
13

seleccionadas
Universo o población objetivo: Hombres y mujeres mayores de 18 años, habi-

tantes de 31 distritos de Lima Metropolitana.
Marco muestral: La selección de manzanas se hizo utilizando como marco

muestral la cartografía digital del INEI del 2004 para los 31 distritos de Lima
Metropolitana. Los distritos que no forman parte del marco muestral son: Cha-
clacayo, Lurigancho, Cieneguilla y los distritos balnearios del Sur y del Norte
de la Ciudad.
Representatividad: En los distritos que forman parte del universo y que están
incluidos en el marco muestral se encuentra el 95.88% de la población electo-
ral total de la provincia de Lima.
Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana.
Error y nivel de confianza estimados: ±4.32% con un nivel de confianza del

95%, asumiendo 50%-50% de
heterogeneidad, bajo el supuesto de muestreo aleatorio simple.
Distritos que resultaron seleccionados en la muestra: La selección aleatoria

de manzanas del marco muestral determinó que la encuesta se aplicara en 28
distritos de Lima Metropolitana (Cercado de Lima, Ate,Barranco, Breña, Ca-
rabayllo, Chorrillos, Comas, El Agustino, Jesús María, La Molina, La Victoria,
Lince, Los Olivos, Magdalena del Mar, Pueblo Libre, Miraflores, Puente Piedra,
Rímac, San Borja, San Juan de Lurigancho, San Juan de Miraflores, San Martín
de Porres, San Miguel, Santa Anita, Santiago de Surco, Surquillo, Villa El Salva-
dor y Villa María del Triunfo).
Procedimiento de muestreo: Se realizó una muestra probabilística polietápica.

Dentro de Lima se estratificó la muestra de acuerdo con grandes zonas de la
ciudad, cono norte, cono este, cono sur, centro, cono oeste-suroeste, y en cada
estrato se seleccionó una muestra simple al azar de manzanas. Posteriormente
se realizó un muestreo sistemático de viviendas en cada manzana seleccionada
y se aplicaron cuotas de sexo y edad
para la selección de personas al interior de las viviendas.
Ponderación: En Lima Metropolitana los datos se ponderaron en función del

peso de los estratos en la población total.
Técnica de recolección de datos: Mediante entrevistas directas en las viviendas

seleccionadas.
Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas.
Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de 2009.
Financiamiento: Pontificia Universidad Católica del Perú.

Página web: http://www.pucp.edu.pe
Email: iop@pucp.edu.pe
1.7. Plan de muestreo

Se denomina “plan de muestreo” a la combinación de factores que deter-
minan mínimamente el tamaño de la muestra y el procedimiento de muestreo.
Un plan de muestreo está asociado a técnicas específicas, fórmulas y tablas. El
plan de muestreo más conocido y sencillo se denomina “muestreo simple al
azar”.
ollo
nidos 14
nadas
1.8. Muestreo probabilístico y no probabilístico

El muestreo se puede dividir en “probabilístico” y “no probabilístico”,
torio Anotaciones
también denominados “estadístico” y “no estadístico”, o “al azar” y “no al azar”,
respectivamente. El hecho de extraer una muestra no significa azar o aleatorie-
dad. En ello es determinante la fase mecánica de selección de las unidades de
muestreo que conformarán la muestra. La diferencia fundamental entre estos
tipos de muestreo radica en que en el muestreo probabilístico se puede medir
el riesgo que se asume al muestrear, mientras que en el muestreo no pro-
babilístico ello no es posible. En el estadístico, la fundamentación es teórica
y las conclusiones pueden ser cuantitativas y precisas; mientras que en el
no estadístico, la fundamentación es práctica y las conclusiones pueden ser
cualitativas y, en el mejor de los casos, razonables, además de perder ante deter-
minados casos la posibilidad de ser extrapolables. Ante estas diferencias, ¿por
qué recurrir al muestreo no probabilístico? En algunas circunstancias sucede
que no es posible por falta de tiempo, por escasez de recursos, por limitaciones
para acceder a la población u otras dificultades operativas llevar a cabo
un muestreo probabilístico. Será preferible, entonces, acudir a determinadas
pruebas específicas, para los que habrán de tenerse en cuenta ciertos cui-
dados mínimos y necesarios para sostener fundadamente las opiniones vertidas
en un informe.
2 Tipos de Muestreo probabilístico

En el muestreo probabilístico, la selección de cada elemento de la muestra se hace
siguiendo reglas matemáticas de decisión. Todos los elementos de la población tie-
nen una probabilidad real y conocida de ser seleccionados.
1.1. Muestreo aleatorio simple

También llamado irrestrictamente aleatorio. Es un método de muestreo donde
una muestra aleatoria simple es seleccionada de tal manera que cada muestra
posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la
población. Por conveniencia, este método puede ser reemplazado por una
tabla de números aleatorios cuando una población es infinita. Se aplica cuando
los datos son casi homogéneos.
Pasos a seguir para seleccionar una muestra aleatoria simple

1. Enumere las unidades del marco muestral con números sucesivos.
2. eleccione tantos elementos del marco muestral como sea el tamaño reque-
S
rido de la muestra, usando una tabla de números aleatorios.
El muestreo aleatorio simple presenta dos propiedades:

Representativa: Cada unidad tiene las mismas posibilidades de ser escogida.
Independencia: La selección de una unidad no influye en la selección de otras
unidades.
Limitaciones
• Requiere de una lista precisa de las unidades de muestreo, que puedan identi-
ficarse y numerarse. Se puede, tal vez, numerar cada expediente de un proce-
dimiento de compras, pero no se puede enumerar ni identificar exhaustiva-
mente a los pacientes ambulatorios que van a atenderse a un hospital público
en determinado momento.
• Cada unidad de muestreo debe tener la misma probabilidad de ser elegido
que cualquier otra unidad.
• Es poco económico frente a determinadas circunstancias, como cuando
llevar a cabo un procedimiento de auditoría implica la destrucción de la uni-
dad muestreada. En estos casos, el muestreo aleatorio simple ofrece tamaños
de muestra mayores que otros métodos más específicos.
ESTADÍSTICA II
de contenidos
15

seleccionadas
Figura Nº 01: MUESTREO ALEATORIO SIMPLE2
Ejercicio 1
Una empresa de alimentos tiene registrado en el cuadro siguiente, información acerca
del ingreso mensual (en nuevos soles) y años cumplidos en la empresa de cada uno de
sus 150 trabajadores.
Cuadro N°01: Trabajadores Registrados
Ingreso Años en la Nivel

NO
(en soles) emp. educativo
1 2600 16 Secundaria
2 1700 0 Secundaria
4 1700 3 Secundaria
7 1900 7 Secundaria
8 1700 1 Secundaria
9 2100 6 Secundaria
2 tomado del libro de Mario Triola 10ª Ed. Capítulo 1.

ollo
nidos 16
nadas
torio Anotaciones 27 2600 20 Secundaria
Ingreso Años en la Nivel

NO
51 1700 0 Técnica
52 1600 2 Técnica
53 2600 17 Técnica
54 2500 13 Técnica
55 2500 16 Técnica
56 2700 17 Técnica
57 1700 1 Técnica
58 1600 1 Técnica
59 2400 11 Técnica
ESTADÍSTICA II
de contenidos
17

seleccionadas
60 1900 3 Técnica
61 1800 5 Técnica
62 1800 3 Técnica Recordatorio Anotaciones
63 2400 14 Técnica
64 2600 16 Técnica
65 2700 18 Técnica
66 2100 11 Técnica
67 2300 14 Técnica
68 1700 0 Técnica
69 2200 13 Técnica
70 2900 20 Técnica
71 1800 5 Técnica
72 2100 16 Técnica
73 2000 12 Técnica
74 2000 12 Técnica
75 2900 20 Técnica
76 2300 5 Técnica
77 2800 11 Técnica
78 2400 4 Técnica
79 2500 2 Técnica
80 2300 3 Técnica
81 2100 2 Técnica
82 1700 2 Técnica
83 2000 0 Técnica
84 2200 7 Técnica
85 2100 4 Técnica
86 1700 0 Técnica
87 2500 2 Técnica
88 2800 13 Técnica
89 2400 9 Técnica
90 1700 1 Técnica
91 2400 9 Técnica
92 2200 10 Técnica
93 2200 4 Técnica
94 2300 10 Técnica
95 2800 11 Técnica
96 2100 7 Técnica
97 1700 1 Técnica
98 2500 6 Técnica
99 2400 9 Técnica
100 2700 17 Técnica
ollo
nidos 18
nadas
torio Anotaciones Ingreso Años en la Nivel

NO
101 2800 20 Técnica
102 1800 3 Técnica

103 1700 5 Técnica
104 1700 4 Técnica
105 1700 0 Técnica
106 1700 1 Técnica
107 2100 6 Técnica
108 2600 17 Técnica
109 2400 9 Técnica
110 2600 19 Técnica
111 1900 7 Superior
112 1600 0 Superior
113 1900 3 Superior
114 2100 14 Superior
115 1700 0 Superior
117 1700 1 Superior
121 1900 3 Superior
123 1800 6 Superior
124 1700 2 Superior
127 2100 9 Superior
128 1800 1 Superior
129 2000 9 Superior
131 1900 4 Superior
134 2000 7 Superior
135 1700 1 Superior
136 1900 6 Superior
137 2000 9 Superior
ESTADÍSTICA II
de contenidos
19

seleccionadas

139 1700 0 Superior
140 1700 2 Superior Recordatorio Anotaciones

145 1900 7 Superior
146 2000 9 Superior
147 1800 7 Superior
150 2700 2 Superior
a. S
eleccione una muestra de 15 trabajadores usando muestreo simple aleatorio. Use
las columnas
C4, C8, C12 y C16 de la tabla de números aleatorios.
b. Seleccione
una muestra de diez trabajadores usando muestreo simple aleatorio. Use
las columnas
C5, C9, C13 y C15 de la tabla de números aleatorios.
Cuadro N°2: TABLA DE NÚMEROS ALEATORIOS (UPC, 2010)
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4
1 6 4 1 6 5 2 7 7 2 9 9 9 9 7 4 1 5 4 9
2 9 0 5 5 0 8 4 8 7 4 6 2 1 7 0 1 5 8 7
6 1 2 9 5 0 4 0 9 8 2 0 2 6 8 7 0 1 9 7
1 3 1 8 9 9 0 1 2 6 3 7 1 9 6 1 7 9 9 8
4 5 8 1 1 4 5 6 7 9 9 9 2 1 3 2 3 7 7 9
0 0 3 6 9 6 5 0 6 4 7 9 8 1 2 4 4 8 3 6
7 2 4 5 4 1 2 4 4 6 9 2 6 6 6 5 2 0 0 4
4 9 3 4 4 2 4 5 9 0 8 7 4 8 4 2 1 2 5 4
6 1 2 8 1 3 3 2 0 2 6 0 7 2 7 9 1 4 6 5
9 3 4 0 8 1 3 3 7 3 2 4 8 6 7 9 0 6 2 8
1 8 7 1 3 4 3 9 3 1 7 8 3 7 3 3 0 8 3 5
0 2 1 4 7 5 7 3 1 1 9 3 3 8 7 4 8 0 2 5
3 6 3 4 1 9 8 1 0 9 0 1 1 0 9 3 6 8 6 0
9 4 6 7 6 7 9 1 2 2 7 2 3 9 3 4 6 9 8 1
5 9 9 8 4 4 5 9 1 5 4 7 3 0 6 8 1 6 8 1
8 1 8 8 2 3 9 1 4 2 4 9 1 4 0 6 0 3 2 8
0 5 3 8 0 4 3 9 4 6 0 8 8 3 8 7 1 2 2 3
9 7 1 4 2 7 5 5 2 8 6 6 3 5 5 9 9 0 6 8
6 9 5 9 4 9 1 8 2 0 2 5 3 9 1 2 0 3 0 8
ollo
nidos 20
nadas
7 4 9 1 4 8 8 6 6 8 5 9 4 8 5 7 7 9 6 7
3 8 1 2 2 4 0 1 4 5 7 7 4 0 4 8 9 4 7 0
9 9 9 7 8 0 0 9 3 2 7 0 5 0 2 7 8 7 3 6
torio Anotaciones
4 8 1 5 8 5 5 1 4 9 6 4 4 4 7 4 5 7 5 0
8 6 7 3 6 1 7 1 1 3 5 5 7 4 4 7 6 7 2 8
4 7 1 4 0 3 6 2 4 4 4 4 0 3 6 3 4 1 2 8
6 5 5 8 8 4 3 4 8 9 0 6 7 6 0 0 8 6 8 4
9 2 0 9 8 2 8 3 4 3 2 8 9 4 8 7 9 4 9 4
1 3 7 9 4 8 3 7 0 8 6 6 6 8 4 1 1 3 1 3
3 3 2 5 6 7 6 1 6 6 1 7 6 5 8 1 6 2 2 7
9 9 9 8 2 8 8 1 9 1 6 2 7 5 1 8 6 1 4 4
1 7 5 4 0 9 5 7 8 7 5 0 8 6 6 2 5 3 2 3
2 7 1 7 8 8 3 8 6 9 9 2 7 4 5 9 5 6 6 6
6 0 9 2 6 1 5 1 2 3 1 8 1 2 0 8 6 4 4 0
3 3 6 3 4 9 6 4 4 9 8 5 7 3 3 4 2 3 2 8
0 1 9 7 9 7 9 4 4 1 6 6 7 7 0 7 9 8 6 8
4 7 1 5 3 7 0 9 2 5 2 1 0 0 4 0 4 6 8 8
7 8 9 9 6 8 5 6 8 1 9 2 7 5 1 7 0 1 5 5
2 2 3 3 1 8 1 9 8 4 2 8 5 2 8 1 7 6 4 6
2 6 6 4 1 4 8 1 0 6 0 1 3 4 0 9 1 2 8 6
5 1 9 0 3 9 1 6 1 7 8 8 2 8 0 7 8 4 8 0
9 0 5 8 4 9 2 2 3 9 8 5 9 5 7 8 4 9 9 4
8 6 1 9 2 5 0 0 7 9 0 0 7 4 5 4 8 6 2 3
1 9 1 0 9 7 5 1 2 7 1 9 4 8 4 8 9 6 6 9
5 6 0 6 1 3 3 5 2 1 0 1 9 2 8 0 2 6 6 3
8 6 9 9 8 0 8 1 8 2 6 6 8 4 0 7 8 2 5 1
3 1 6 1 0 5 7 5 7 0 6 3 0 4 1 4 0 3 0 8
1.2. Muestreo sistemático (Triola, 2009)

Es un método sumamente intuitivo para relevar padrones, y cómodo para casos
en los que la información no está digitalizada. La aplicación del método
consiste básicamente en calcular “n” como en el muestreo aleatorio simple,
calcular el intervalo de muestreo “k”=N/n, y elegir al azar la primera unidad de
muestreo “A” llamada arranque dentro del primer intervalo de muestreo “i”.
Luego se extrae cada enésima unidad “k.i+A”.
Limitaciones
•E
s equivalente a un muestreo agrupado del que se extrae un solo grupo, por
lo que pierde robustez en cuanto a la representatividad esperada. Para in-
tentar neutralizar este efecto, su puede elegir más de un grupo (en términos
prácticos, habrá de elegirse una unidad “A” situada entre 1 y k, y al menos
una unidad “B” ≠ “A”, también situada entre 1 y k y seguir el procedimiento
de extracción a partir de “A” y de “B”). No obstante, esto atenta contra la
eficiencia del plan ya que implica un derroche de recursos frente al muestreo
aleatorio simple.
•N
o permite identificar periodicidad oculta. Por ejemplo, frente a mayores
ventas los primeros sábados del mes, o asignaciones de planes sociales
antes de fin de mes.
•N
o permite identificar sistematicidad oculta. Por ejemplo, considérese un
diente defectuoso en un engranaje, y que ese diente incida sobre cierto lote
de productos.
ESTADÍSTICA II
de contenidos
21

seleccionadas
FIGURA N°02: MUESTREO ALEATORIO SISTEMÁTICO (Triola, 2009)
Ejemplo
Se tiene una población de 40 personas y se desea elegir a cinco de ellas median-
te un muestreo sistemático. ¿Cuál es el arranque aleatorio para este ejemplo?
Seleccione la muestra indicando la posición de cada elemento elegido.
Ejemplo
Se tiene información de 40 alumnos del curso de Estadística II del ciclo regular.
Obtenga una muestra aleatoria de ocho personas usando el muestreo sistemáti-
co y elabore una tabla con los elementos seleccionados.
Cuadro N° 03: Individuos Registrados
Nº Sexo Edad Estatura

1 Mujer 15 154
2 Hombre 16 154
3 Hombre 21 156
4 Mujer 31 184
5 Hombre 21 173
6 Mujer 24 170
7 Hombre 32 176
8 Hombre 26 188
9 Mujer 21 169
10 Mujer 22 173
11 Hombre 18 177
12 Hombre 25 181
13 Mujer 29 164
14 Hombre 25 159
15 Mujer 19 178
16 Mujer 30 163
17 Hombre 29 180
18 Mujer 25 174
19 Hombre 29 137
20 Hombre 25 153
21 Mujer 16 168
22 Hombre 31 161
23 Hombre 18 270
24 Hombre 21 173
ollo
nidos 22
nadas
25 Hombre 31 187
26 Mujer 28 161
torio Anotaciones 27 Mujer 19 172
28 Hombre 31 162
29 Hombre 33 147
30 Hombre 17 167
31 Mujer 34 69
32 Mujer 20 76
33 Mujer 26 74
34 Hombre 25 90
35 Mujer 23 164
36 Hombre 20 164
37 Mujer 34 176
38 Hombre 35 188
39 Mujer 30 155
40 Mujer 29 141
Ejercicio 2
Una empresa de alimentos (la misma del ejercicio 1) tiene un total de 150 em-
pleados y ha registrado en la tabla que se muestra a continuación información
acerca de las variables: ingreso mensual (en soles), nivel de educación y años
cumplidos en la empresa.
Aplique el muestreo sistemático para seleccionar una muestra de ocho emplea-
dos. Elabore un listado con la muestra seleccionada.
1.3. Muestreo estratificado

Es un muestreo en el que bajo el requisito de tener que arribar a resultados
globales, la población es previamente estratificada en grupos homogéneos, ase-
gurando simultáneamente que todos los estratos estén representados, como
por ejemplo por niveles educativos, género o edad. Los estratos pueden tener
idéntica proporción de muestra, o se le puede dar mayor peso relativo a estra-
tos significativos desde el punto de vista del análisis.
El objetivo de estratificar la población es buscar representatividad en cada uno
de los estratos, por lo que se pueden mencionar algunas razones importantes
para aplicar el muestreo estratificado:
- Con una estratificación adecuada se puede ganar precisión en las estimacio-
nes de los parámetros de la población.
- Se puede lograr reducciones en el costo de captura de la información.
- Cuando se desea obtener estimaciones de precisión conocida para cada es-
trato de la población objetivo.
Pasos a seguir para seleccionar una muestra estratificada

1. D
ivida a la población en estratos que sean mutuamente excluyentes. Esto
es, que incluyan a todos los elementos de la población y que cada elemento
pertenezca solamente a un estrato.
2. Calcule la cantidad de elementos a seleccionar en cada estrato.

3. Seleccione muestras aleatorias simples para cada uno de los estratos.
ESTADÍSTICA II
de contenidos
23

seleccionadas
FIGURA N°03: MUESTREO ESTRATIFICADO (Triola, 2009)
Recomendaciones para el uso de muestras estratificadas

Si se tiene que usar más de una variable para formar los estratos, cuidar que
estas no estén relacionadas entre sí.
No se deben considerar la formación de muchos estratos, generalmente se
usan entre tres y ocho estratos.
Los estratos pequeños no contribuyen mucho a la reducción del error, por lo
tanto pueden no ser considerados.
Limitaciones
Cálculos complejos para estimar la precisión.
Ejemplo
La empresa embotelladora DEL VALLE tiene 120 empleados de los cuales tie-
ne información de las variables: ingreso en soles, tipo de profesión y años en
la empresa.
Cuadro N° 04: REGISTRO DE TRABAJADORES
Nº INGRESO EN SOLES TIPO PROFESION AÑOS EN LA EMPRESA

1 2100 C.EMPRESA 5
2 1700 C.EMPRESA 11
3 2300 C.EMPRESA 4
4 2500 C.EMPRESA 2
5 2600 C.EMPRESA 3
6 1900 C.EMPRESA 2
7 2500 C.EMPRESA 2
8 1800 C.EMPRESA 0
9 1700 C.EMPRESA 7
10 2000 C.EMPRESA 4
11 2400 C.EMPRESA 0
12 1700 C.EMPRESA 2
13 2500 C.EMPRESA 13
14 1700 C.EMPRESA 9
15 2400 C.EMPRESA 1
16 2400 C.EMPRESA 9
18 1700 C.EMPRESA 4
ollo
nidos 24
nadas
21 2000 C.EMPRESA 7
torio Anotaciones 22 2500 C.EMPRESA 1
23 1700 C.EMPRESA 6
24 2500 C.EMPRESA 9
26 2600 C.EMPRESA 0
27 1600 C.EMPRESA 2
31 2400 INGENIERÍA 11
ESTADÍSTICA II
de contenidos
25

seleccionadas
63 2400 INGENIERÍA 14 Recordatorio Anotaciones
81 2100 C.SOCIALES 3
ollo
nidos 26
nadas

torio Anotaciones 104 2000 C.SOCIALES 12
Aplique el muestreo estratificado para seleccionar una muestra de 24 empleados.

Use como variable de estratificación el tipo de educación recibida de cada trabaja-
dor. Elabore un listado identificando el número de dato seleccionado.
Solución
Se divide a la población en estratos que sean mutuamente excluyentes, luego los
estratos 1, 2 y 3 son: C.Empresa, Ingeniería y C.Sociales, respectivamente. Para cada
uno de los estratos, seleccionamos muestras aleatorias simples.
Cuadro N° 06: Ejemplo de Muestreo Estratificado
Cantidad seleccionada por

Números de elementos Posiciones estrato
Estratos en el estrato Nh (desde – hasta) Nh
n = xn
N
N1 xn
30 x24
n1 = = =6
1. C.Empresa N1 = 30 1 – 30 N 120
N2 50
n2= xn
= x24
= 10
2. Ingeniería N2 = 50 31 – 80 N 120
n3 = N 3 xn 40 x24
= =8
3. C.Sociales N3 = 40 81 – 120 N 120
Total N = 120 n = 24
Para cada estrato, realizamos un muestreo aleatorio simple usando las columnas de
la tabla de los números aleatorios.
Ejercicio 3
La siguiente tabla muestra a los 120 alumnos de la facultad de Ingeniería, a quie-
nes se les preguntó por su emisora radial preferida y por la cantidad de horas a la
semana que la escucha.
ESTADÍSTICA II
de contenidos
27

seleccionadas
Cuadro N°07:Registro de Radios
Ho- Ho- Ho-

P Radio P Radio P Radio
ras ras ras
1 Panamericana 4 41 Estudio 92 3 81 Estudio 92 2

7 Panamericana 7 47 Estudio 92 7 87 Oxígeno 5
32 Estudio 92 6 72 Estudio 92 5 112 Oxígeno 14
ollo
nidos 28
nadas

torio Anotaciones
Seleccione una muestra aleatoria de tamaño 12 mediante muestreo estratificado.

Use la variable radio de su preferencia como variable de estratificación.
Solución:
Posición n 11 = N h xn
Estrato Nh
(desde – hasta) h N
Panamericana N1= N1=
Estudio 92 N2= N2=
Oxígeno N3= N3=
TOTAL
Luego, para cada estrato realice un muestreo aleatorio simple utilizando la tabla de
números aleatorios.
de contenidos
LECTURA SELECCIONADA N° 1
seleccionadas
¿FUNCIONA LA TERAPIA DE CONTACTO? Estadística. Mario Triola. Pág. 319
Muchos pacientes pagan de $25 a $50 por una sesión de terapia de contacto en la que el
terapeuta
Recordatorio coloca sus manos a unos centímetros del cuerpo del paciente, sin tener real-
Anotaciones
mente contacto físico. El objetivo es curar una amplia variedad de problemas médicos,
incluyendo cáncer, SIDA, asma, enfermedades cardiacas, dolores de cabeza, quemadu-
ras y fracturas óseas. La teoría básica plantea que un terapeuta de contacto capacitado
profesionalmente puede detectar un mal alineamiento en el campo de energía del pa-
ciente y generar un equilibrio energético que incrementa el proceso de curación.
Cuando Emily Rosa, una niña de nueve años, estaba en cuarto grado, eligió el tema de
la terapia de contacto para el proyecto de una feria de ciencias y convenció a 21 tera-
peutas de contacto experimentados para que participaran en una prueba sencilla de su
capacidad para detectar el campo de energía humana. Emily utilizó un cartón con dos
agujeros para introducir las manos. Cada terapeuta de contacto pasaba sus dos manos a
través de los agujeros, y Emily colocaba su mano por arriba de una de las manos del tera-
peuta; luego, se le pedía al terapeuta que identificara la mano que Emily había elegido.
La niña lanzaba una moneda para seleccionar al azar la mano sobre la que colocaba la
suya. Esta prueba se repitió 280 veces. Si los terapeutas de contacto realmente tenían la
habilidad de percibir un campo energético humano, debían identificar la mano correc-
ta mucho más del 50% de las veces. Si no tenían tal capacidad y sólo hacían conjeturas,
debían acertar alrededor del 50% de las veces. Emily obtuvo los siguientes resultados: de
los 280 ensayos, los terapeutas de contacto identificaron la mano correcta 123 veces, es
decir, tuvieron una tasa de éxito del 44%. Emily, con la ayuda de su madre, un especialis-
ta en estadística y un médico, envió sus hallazgos para publicarlos en el prestigioso Jour-
nal of the American Medical Association. Después de una cuidadosa y detallada revisión
del diseño experimental y de los resultados, se publicó el artículo "A Close Look at a
Therapeutic Touch" (Journal of the American Medical Association, vol. 279, núm. 13).
Emily se convirtió en la investigadora más joven en publicar un artículo en esa revista.
Además, ganó el primer premio de la feria de ciencias por su proyecto.
Consideremos los principales resultados del proyecto de Emily. En los 280 ensayos, los
terapeutas de contacto acertaron 123 veces. Tenemos una proporción muestral con n
= 280 y x = 123. Los argumentos en contra de la validez del estudio podrían incluir la
ESTADÍSTICA II
de contenidos
29

seleccionadas
aseveración de que el número de ensayos es demasiado pequeño para ser significativo,
o que los terapeutas de contacto tuvieron un mal día y que, debido al azar, no tuvieron
tanto éxito como la población de todos los terapeutas de contacto. En este capítulo
analizaremos estos temas. Recordatorio Anotaciones
También es importante señalar que el proyecto de Emily Rosa fue relativamente senci-
llo. Recuerde que ella realizó el estudio cuando cursaba el cuarto grado de primaria. Su
proyecto es el tipo de actividad que cualquier estudiante de un curso de introducción
a la estadística podría llevar a cabo. Después de comprender los conceptos que se ense-
ñan en el curso de introducción a la estadística típico, los estudiantes tienen la habilidad
para realizar trabajos significativos e importantes.
ACTIVIDAD N° 1:
de contenidos
Esta actividad puede consultarla en su aula virtual.

seleccionadas
TEMA N°2: ESTIMACIONES Y TAMAÑOS DE MUESTRA3

Recordatorio
Cualquier
Anotaciones
inferencia o conclusión obtenida de la población, necesariamente, estará
basada en un estadístico muestral, es decir, en la información proporcionada por la
muestra (formalmente definimos un estadístico como una función de las observaciones
muestrales). La elección del estadístico apropiado dependerá de cuál sea el parámetro
poblacional que nos interese. El valor verdadero del parámetro será desconocido y un
objetivo sería estimar su valor, por lo que tal estadístico se denomina estimador.
Observamos que es necesario tener claro algunos conceptos y características importan-

tes de la inferencia estadística, detalles que permitirán que realicemos sobre todo una
buena interpretación.
Estimación puntual
Es una medida descriptiva numérica aplicada a las características en las unidades de la

muestra, calculada con ciertos procedimientos establecidos por indicadores estadísticos
conocidos como estimadores o estadísticos.
Estimación por intervalo
Es la estimación de parámetro a través del cálculo de un intervalo de valores determi-

nando un límite inferior y uno superior dentro del dual estará comprendido el verda-
dero valor o parámetro.
Intervalo de confianza
Es un intervalo de valores dentro de los cuales se espera que esté comprendido el pará-
metro con un nivel de confianza dado o con un error conocido.
Nivel de confianza
Expresa la probabilidad de alcanzar la precisión deseada entre el valor estimado y el

parámetro. Se representa como: 1-
Nivel de riesgo
Expresa la probabilidad de no alcanzar la precisión deseada, también es conocido como

nivel de significancia. Se representa con:
La estimación estadística se divide en dos grandes grupos: la estimación puntual y la

estimación por intervalos. La estimación puntual consiste en obtener un único número
calculado a partir de las observaciones muestrales, y que es utilizado como estimación
del valor del parámetro θ. Se le llama estimación puntual porque a ese número, que
se utiliza como estimación del parámetro θ, se le puede asignar un punto sobre la recta
3 Mario Triola. Estadística. 2009

ollo
nidos 30
nadas
real. En la estimación por intervalos se obtienen dos puntos (un extremo inferior y un
extremo superior) que definen un intervalo sobre la recta real, el cual contendrá con
cierta seguridad el valor del parámetro θ.
El estimador del parámetro poblacional θ es una función de las variables aleatorias u

torio Anotaciones
observaciones muestrales y se representa por:
θ= g ( X1, X2,..., Xn)
Para una realización particular de la muestra ( x1 , x2 ,..., xn ) se obtiene un valor espe-

cífico del estimador que recibe el nombre de estimación del parámetro poblacional θ y
lo notaremos por : =g( x1 , x2 ,..., xn )
Vemos pues que existe diferencia entre estimador y estimación. El estimador es un es-
tadístico y, por tanto, una variable aleatoria y el valor de esta variable para una muestra
concreta ( x1 , x2 ,..., xn ) será la estimación puntual. El estimador θ tendrá su distribu-
ción muestral.
En el cuadro se muestra diferentes parámetros poblacionales, sus estimadores y sus es-

timaciones.
Cuadro N°08: PARÁMETROS POBLACIONALES
Posición
Estrato Nh
(desde – hasta)
Media μ n n
∑X i ∑x i
µ̂ = X = i =1
x= i =1
n n
Varianza ó
1 n 1 n
( )
2
σˆ 2 = S 2 = ∑
n − 1 i =1
(Xi −
= X )2 s2 ∑ xi − x
n − 1 i =1
Proporción p ó n X númeroéxitos x
pˆ = = pˆ =
n númeropruebas n
Para la elección de estos estimadores puntuales nos hemos basado, principalmente en

la intuición y en la posible analogía de los parámetros poblacionales con sus correspon-
dientes valores muestrales, pero éste no será el método más adecuado para la obtención
de estimadores puntuales, aunque en este caso se obtienen estimadores satisfactorios
para los parámetros poblacionales. En general, el problema de obtener estimadores
puntuales no será tan sencillo, por ello tenemos que dar propiedades que serían de-
seables que se cumplieran por los diferentes estimadores puntuales obtenidos, aunque
no existe un mecanismo o método único que nos permita obtener el mejor estimador
puntual en todas las circunstancias.
Nuestro objetivo ahora será dar algunas propiedades deseables de los estimadores pun-
tuales, con el fin de poder conocer la bondad de los mismos, pues cuantas más propie-
dades verifiquen los estimadores puntuales mejores serán.
Propiedades de los estimadores (Mata, 2013)
Un estimador debe ser:
Insesgado: Si tenemos un gran número de muestras de tamaño n y obtenemos el valor
del estimador en cada una de ellas, sería deseable que la media de todas estas estimacio-
nes coincidiera con el valor de μ. Se dice que un estimador es insesgado si su esperanza
matemática coincide con el valor del parámetro a estimar.
Eficiente: Se dice que los estimadores son eficientes cuando generan una distribución
muestral con el mínimo error estándar es decir, entre dos estimadores insesgados de un
parámetro dado es más eficiente el de menor varianza.
ESTADÍSTICA II
de contenidos
31

seleccionadas
Consistente: Un estimador se dice consistente cuando su valor tiende hacia el verdadero
valor del parámetro a medida que aumenta el tamaño de la muestra. Es decir, la proba-
bilidad de que la estimación sea el verdadero valor del parámetro tiende a 1.
Suficiente: Se dice de un estimador que es suficiente cuando es capaz de extraer de los

datos toda la información importante sobre el parámetro.
1 ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL

Si p representa la proporción de éxitos en una muestra aleatoria de tamaño n
suficientemente grande y q=1-p, entonces un intervalo de confianza aproximado
para la proporción poblacional p al nivel de confianza del (1-α)% viene dado por:
 ˆ qˆ
p ˆ qˆ 
p
pˆ − zα ˆ + zα
,p 
 2
n 2
n 
Donde la variable aleatoria Z sigue una distribución N(0,1).

Si el muestreo es sin reemplazo y la fracción de muestreo , los límites de confianza
se calculan con la siguiente fórmula.
p
ˆ qˆ N −n p
ˆ qˆ N −n
ˆ − Z 1−α / 2
p ≤ p≤ p
ˆ + Z 1−α / 2
n N −1 n N −1
Ejemplo
El dueño de un diario se interesa en la proporción de reporteros varones que co-
meten errores al momento de entregar el reporte final. Al seleccionar una muestra
aleatoria de 100 reporteros varones encontró que 24 cometían errores. Calcule e
interprete un intervalo de confianza del 99% para la verdadera proporción de re-
porteros varones que cometen errores al momento de entregar el reporte final.
Solución
i) La estimación puntual de p es pˆ = 24 = 0,24 y Z 0,995 = 2,58

100
(0,24)(0,76) (0,24)(0,76)
ii) 0,24 − (2,58) ≤ p ≤ 0,24 + (2,58)
100 100
0,13 ≤ p ≤ 0,35
Interpretación: Existe un 99% de confianza que entre 0,13 y 0,35 se encontrará la
proporción poblacional de reporteros varones que cometen errores al momento de
entregar el reporte final.
2 ESTIMACIÓN DE LA MEDIA POBLACIONAL

2.1.Intervalo de confianza para la media de una población normal, con varianza
conocida.
Supongamos que tenemos una muestra aleatoria de n observaciones de una
distribución N(μ, ó). Si ó es conocida, y la media muestral observada es x ,
entonces el intervalo de confianza para la media poblacional μ, al nivel de
confianza del (1-α)% viene dado por:
ollo
nidos 32
nadas
 σ σ 
 x − zα / 2 , x + zα / 2 
 n n
torio Anotaciones
Donde la variable aleatoria Z sigue una distribución N(0,1).

n
≥ 0,05
Si el muestreo es sin reemplazo y la fracción de muestreo N el error
estándar será:
σ N − n y los límites de confianza se calculan con la siguiente fórmula.

σx =
n N −1
σ N −n σ N −n
x − Z1−α / 2 ≤ µ ≤ x + Z1−α / 2
n N −1 n N −1
Ejemplo
Un artículo publicado en un diario local indica que el tiempo promedio em-
pleado por los hogares de Lima Metropolitana en ver televisión en el horario
de 8 p.m. a 11 p.m. es de 7,75 horas. Suponga que el tiempo tiene una distri-
bución aproximadamente normal con desviación estándar de 3,45 horas. Para
corroborar dicha afirmación un grupo de estudiantes selecciona una muestra
de 180 hogares de L.M. y obtuvo que el tiempo promedio fue de 7,42 horas
por semana. ¿Será cierta la afirmación publicada por el diario local al 96% de
confianza?
Solución:
i) La estimación puntual de μ es x =7,42 siendo n=180
ii) 1-α = 0,96 » α = 0.04 entonces: Z 1−α / 2 = Z(0.98) = 2,05
σ σ
como: x − Z 1−α / 2 ≤ µ ≤ x + Z 1−α / 2
n n
3,45 3,45
IC ( µ ) = 7,42 − (2,05) ≤ µ ≤ 7,42 + (2,05)
iii) 180 180
6,8928 < μ < 7,9472
Interpretación: Con un 96% de confianza entre 6,8928 y 7,9472 horas por se-
mana se encontrará la media del tiempo empleado por todos los hogares de
Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. por lo
tanto es cierta la afirmación publicada en el diario local.
Ejemplo
Se tienen 50 000 trabajadores de construcción civil empadronados en el Mi-
nisterio de Trabajo, de los cuales se tomó una muestra aleatoria de 400 y se
analizó el ingreso diario. Si la media de los trabajadores encuestados es de 74
soles diarios con una desviación estandar de 10.68 soles, construya un intervalo
de confianza del 90% para el ingreso diario de todos los trabajadores de cons-
trucción civil.
Solución
i) x =74; n=400; N=50 000 y s=10.68
ii) 1-α = 0,90 » α = 0.1 entonces: Z 1−α / 2 = Z(0.90) = 1.645

ESTADÍSTICA II
de contenidos
33

seleccionadas
iii) x − Z σ N −n σ N −n
1−α / 2 ≤ µ ≤ x + Z1−α / 2
n N −1 n N −1
iv)
10.68 50000 − 400 10.68 50000 − 400
IC ( µ ) = 74 − (1.645) x ≤ µ ≤ 74 + (1.645) x
400 50000 − 1 400 50000 − 1
v) IC ( µ ) = 73.13 ≤ µ ≤ 74.87
2.2.Intervalo de confianza para la media de una población con varianza descono-

cida siendo n<30.
Supongamos que tenemos una muestra aleatoria de n<30 observaciones de
una distribución N(μ,ó). Si ó es desconocida, y la media y la desviación típi-
ca muestral observadas son x y s, respectivamente, entonces el intervalo de
confianza para la media poblacional μ, al nivel de confianza del (1-α)% viene
dado por:
 s s 
 x − tα /2 , x + tα /2 
 n n 
donde tα /2 es tal que P [t > t ] = α y la variable tn −1 sigue una distribución t-

n −1 α /2
2
Student con n-1 grados de libertad.
Si el muestreo es sin reemplazo y la fracción de muestreo, n ≥ 0,05 el error

N
estándar será: s N − n y los límites de confianza se calculan con la siguiente
fórmula: n N −1
s N −n s N −n
x − tα / 2,n −1 ≤ µ ≤ x + tα / 2,n −1
n N −1 n N −1
Distribución t-Student
Cuando se tienen muestras pequeñas y no se conoce la desviación estándar po-
blacional pero la población se distribuye normalmente se puede utilizar como
estadístico de prueba el valor crítico t de la distribución t de Student la cual
tiene las siguientes características:
- Es simétrica y tiene forma de campana.

- Se extiende de - a +
- Los extremos la distribución t está por encima de la normal estándar.
- El centro la distribución t está por debajo de la normal estándar.
- Cada valor de grado de libertad determina una distribución t distinta.
- Cuando los grados de libertad son altos, los valores de la distribución t se
asemejan con los valores de la distribución normal estándar (n > 29).
- En apariencia, la distribución t es muy similar a la distribución normal es-
tandarizada. Ambas distribuciones tienen forma de campana. Sin embargo,
la distribución t tiene mayor área en los extremos y menor en el centro, a
diferencia de la distribución normal.
ollo
nidos 34
nadas
torio Anotaciones
FIGURA N°04: Ejemplo de gráficos de la distribución t-Student para diferentes

tamaños de muestra (Triola, 2009)
Ejemplo
El jefe del área de prensa de un diario desea evaluar la habilidad de su equipo
de trabajo en el digitado de una misma noticia. Para realizar dicho estudio se-
lecciona al azar una muestra aleatoria de redactores obteniendo los siguientes
resultados (en minutos):
3,2
4,8 5,3 9,1 6,3 8,2 6,5 9,6 10,3 8,6
6,3
7,9 8,2 7,9 6,9 9,3 8,6 6,8 10,1 9,0
Asumiendo que los tiempos se distribuyen normalmente. Halle e interprete un

intervalo del 95% de confianza para el tiempo medio utilizado en el tipeado
de una noticia.
Solución:
i) La estimación puntual para μ es =7,645 siendo s= 1.8597
ii) Como el nivel de confianza es 95%, tα /2;n −1 = 2.0930

iii)
(1,8597) (1,8597)
IC ( µ ) = 7,645 − 2,0930 ≤ µ ≤ 7,645 + 2,0930
20 20
6.7746 y 8.1130
Interpretación: Con un 95% de confianza entre 6.7746 y 8.1130 minutos se en-

contrará la media del tiempo utilizado por todos los redactores en el digitado
de una noticia.
Ejemplo
Pamela, estudiante de estadística para Ciencias de la Empresa piensa que el
gasto promedio semanal en fotocopias de los estudiantes de su facultad es de
3.5 soles. Para verificar si es cierto lo que está pensando ha elegido al azar una
muestra de 9 estudiantes de un total de 120 estudiantes que llevan el curso de
estadística para comunicadores, resultando los siguientes gastos:
3,5 2,5 1,9 1,7 2,5 3,4 2,9 1,6 1,5
Si la variable aleatoria objeto de estudio sigue una distribución normal. Con un

intervalo de confianza del 96% para la media del gasto semanal en fotocopias
por estudiante ¿será cierto lo que piensa Pamela?
Solución:
i) n=9; N=120; 1-α=0.96
ESTADÍSTICA II
de contenidos
35

seleccionadas
ii) =2.3889 siendo s= 0.7639 y n/N=0.0758>0.05
iii) =2.44898
iv)
(N − n )
s
IC ( µ ) = x ± t  α
 n −1; 
 2
(N − 1)
n
= 2,3889 ± (2,44898)
(0,7639) (120 − 9)
9 (120 − 1)
= 1,7866 ≤ µ ≤ 2,9912
Conclusión: Con un nivel de confianza del 96% se puede decir que el gasto
promedio semanal en fotocopias de los estudiantes de su facultad es menor a
3.5 soles, por lo que podríamos decir que lo que piensa Pamela no es cierto.
3 ESTIMACIÓN DE LA VARIANZA POBLACIONAL

Supongamos una muestra aleatoria de n observaciones de una distribución N(μ,σ).
Si σ es desconocida y la varianza muestral observada es entonces el intervalo de
confianza para la varianza poblacional al nivel de confianza del 100(1-α)% viene
dado por:
α
donde χ n2−1,1−α /2es tal que P  χ n2−1 ≤ χ n2−1,1−α / 2  =
2
y
χ n2−1,α /2 α
es tal que P  χ n2−1 ≤ χ n2−1,α / 2  =
1−
2
y la variable aleatoria χ n2−1 sigue una distribución χ 2 de Pearson con n-1 grados
de libertad.
FIGURA Nº05: VALORES CRÍTICOS DE LA DISTRIBUCIÓN CHI-CUADRADO

(Triola, 2009)
- Para obtener el valor crítico 2.7 ubicar el 9 en la columna de grados de libertad
y 1-0.025=0.975 (área hacia la derecha del χ2 ) en la parte superior horizontal.

- Para obtener el valor crítico 19.023 ubicar el 9 en la columna de grados de liber-
tad y 0.025 (área hacia la derecha del χ2 ) en la parte superior horizontal.

Ejemplo
ollo
nidos 36
nadas
Un fabricante de baterías para automóviles afirma que sus baterías durarán, en
promedio, tres años con una varianza de un año. Si cinco de estas baterías tienen
duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años, construya un intervalo de confianza del
95% para σ y decida si la afirmación del fabricante de que σ = 1 es válida.
torio Anotaciones
2 2
Suponga que la población de duraciones de las baterías se distribuye de forma

aproximadamente normal.
Solución
i) s2 = 0,815, n=5
2 2
ii) El valor 1- /2 , es un valor con = 5-1 grados de libertad, que deja un área de
2
0,025 a la izquierda y por lo tanto un área de 0,975 a la derecha, es 0,975 = 0,484; de
2 2
la misma forma, el valor /2 es igual a 0,025 = 11,143.
iii)
(5 − 1)(0.815) (5 − 1)(0.815)
< σ2 <
11.143 0.484
iv)
0 .3 < σ 2 < 6 .7
Interpretación: Con 95% de confianza entre 0,3 y 6,7 se encontrará la varianza de

la duración de las baterías. Sí es posible considerar como válida la afirmación del
fabricante porque el intervalo hallado contiene a la unidad.
Ejemplo
Se desea estimar la varianza de la longitud de ciertos cables. En una muestra de 25
cables se encuentra que la longitud tiene una media de 80 m y una desviación de 3
m. Hallar un intervalo con una confianza del 95%, para la varianza de las longitudes
de los cables.
Solución
i)
n = 25 : x = 80 , s = 3 , s 2 = 9
ii)
α α
N .C. = 0.95 = 1 − α → = 0.025, 1 − = 0.975
2 2
iii)
χ (20.025, 24) = 12.4011 , χ (20.975, 24) = 39.3641
iv)
24 × 9 24 × 9
≤σ2 ≤
39.3641 12.4011
v)
5.49 ≤ σ 2 ≤ 17.42
vi)
2.34 ≤ σ ≤ 4.17
Interpretación: Se puede afirmar con un 95% de confianza que la desviación estan-
dar de la longitud de dichos cables se encuentra entrea 2.34 m y 4.17m.
ESTADÍSTICA II
de contenidos
37

seleccionadas
4 DETERMINACIÓN DEL TAMAÑO DE MUESTRA
Existen tres factores que determinan el tamaño de una muestra; ninguno tiene
alguna relación directa con el tamaño de la población. Estos son:
- El grado de confianza elegido.
- El máximo error permitido.
. La variación de la población.
4.1. Para estimar la media poblacional
Población infinita Población Finita
zσ
2 2
n=
z 2σ 2 N
n=
E2 E ( N − 1) + z 2σ 2
2
Ajuste de Tamaño de muestra para

población finita
n0
n=
n
1+ 0
N
Donde:
E: Es el error permitido;
Z: El valor estándar normal asociado con el grado de confianza elegido,
s: La desviación de la población, obtenida de estudios anteriores, experiencias pre-
vias o se puede estimar la desviación estándar muestral mediante un estudio piloto
no: Tamaño de muestra calculada de una población infinita
N: Tamaño de población
Se dice que una población es finita si la relación n/N > 5%
4.2. Para estimar la proporción poblacional
Población infinita Población Finita
z 2 pq z 2 pqN
n= n=
E2 E ( N − 1) + z 2 pq
2
Donde:
E: Es el error permitido;
Z: El valor estándar normal asociado con el grado de confianza elegido,
P: La proporción de éxito de la población, obtenida de estudios anteriores, expe-
riencias previas o se puede estimar la proporción de éxito muestral mediante un
estudio piloto.
q: La proporción de fracaso de la población se obtiene por complemento de p: q
=1–p
N: Tamaño de población

Ejemplo
Se desea estimar el peso promedio de los sacos que son llenados por un nuevo ins-
trumento en una industria. Se conoce que el peso de un saco que se llena con este
instrumento es una variable aleatoria con distribución normal. Si se supone que la
desviación típica del peso es de 0,5 kg. Determine el tamaño de muestra aleatoria
necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el
parámetro se diferencien modularmente en menos de 0,1 kg.
ollo
nidos 38
nadas
Solución
i) e=0.1; σ = 0.5; α = 0.05

torio Anotaciones
ii) Z 1−α 2 = 1,96
iii) n =  (0,5)(1,96 )  = 96,4

2
 0,1 
Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe
aproximar por exceso. El tamaño de muestra sería de 97.

Ejemplo
La Dirección Regional de Trabajo planea realizar un estudio con el objetivo de
conocer el promedio de horas semanales trabajadas por las mujeres del servicio do-
méstico. La muestra será extraída de una población de 10000 mujeres que figuran
en los registros del seguro social y de las cuales se conoce a través de un estudio
piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95
y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el tamaño
muestral requerido?

Solución
i) e=0.1; σ = 9.648; α = 0.05

ii) Z 1−α = 1,96
2
iii) n =  (9.648)(1,96 )  = 3706

2
 0,1 
iv) Como 10000<3706x(3706-1), se corrige el tamaño de muestra

3706
n= = 2704
3706
1+
10000
Ejemplo
En un lote de frascos para medicina, con una población de 8000 unidades, se desea
estimar la media de la capacidad en centímetros cúbicos de los mismos. A través
de un premuestro de tamaño 35 se ha estimado que la desviación estándar es de
2 centímetros cúbicos. Si queremos tener una precisión 0.25 cm3, y un nivel de
significancia del 5%. ¿De que tamaño debe de ser la muestra?
Solución
i) e=0.25 cm3; σ = 2cm 3 ; α = 0.05

ii) Z α = 1,96
1− 2
N .σ 2 Z α2 2
iii) n =
Ne + σ 2 Z α2 2
iv) n = 8000(2) 2 (1.96) 2

8000(0.25) 2 + (2) 2 (1.96) 2
ESTADÍSTICA II
de contenidos
39

seleccionadas
v) n = 122931.2 = 239
515.37
Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo
siguen siendo válidos.
Ejemplo
En una investigación, se desea determinar en que proporción los niños de una
región toman leche en el desayuno. Si se sabe que existen 1500 niños y deseamos
tener una precisión del 10 %, con un nivel de significancia del 5%. ¿De que tama-
ño debe de ser la muestra?
Solución
i) N=1500; e=10%=0.1; α = 0.05
ii) p = 0.5 y q = 0.5
iii) Z 1−α = 1,96

2
N . p.q.Z α2 2
iv) n =
N .e 2 + p.q.Z α2 2
v) n = 1500(0.5)(0.5)(1.96) 2
1500(0.1) 2 + (0.5)(0.5) / 1.96) 2
vi) n = 90
Se deben muestrear 90 niños.
Cuadro N°09: Distintos niveles de confianza utilizados en la práctica

Nivel de
Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80%
Valores
de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28
ACTIVIDAD N° 2:
de contenidos
Objetivos
Inicio

seleccionadas
CONTROL DE LECTURA N° 1
s

s
o Anotaciones
ollo
nidos 40
Actividades Autoevaluación Diagrama Objetivos
UNIDAD
Inicio
I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

as Glosario Bibliografía de contenidos
nadas
BIBLIOGRAFÍA DE LA UNIDAD I
seleccionadas
torio Anotaciones
Triola, M. (2012). Estadística. México : Pearson Educación
Berenson, M. y Levine, D. (2010). Estadística Básica en Administración, Conceptos y aplicacio-
nes. México: Prentice Hall
AUTOEVALUACIÓN DE LA UNIDAD I
de contenidos Resuelva el siguiente cuestionario, marcando la respuesta correcta en cada caso, para
fijar los conceptos e ideas fundamentales tratados en la Unidad:
Lecturas Glosario 1. Correlacione:

Bibliografía
seleccionadas
Población Finita CONCEPTO

Es una técnica en el que el sujeto no sabe si está Muestreo estratificado
Recordatorio Anotaciones 1 recibiendo el tratamiento
Los miembros de una población se seleccionan de Muestreo sistemático

2 forma que cada miembro individual tenga la misma
posibilidad de ser elegido
Selecciona directamente los individuos de la Muestra aleatoria
3 población para la muestra
Se selecciona un punto de partida, después se elige Muestreo de

4 cada k-esimo elemento de la población conveniencia
Subdividimos a la población en al menos dos
5 subgrupos diferentes, cada subgrupo posee gran Estudio a ciegas
homogeneidad respecto alguna característica.
a) 3,4,5,2,1
b) 5,4,3,2,1
c) 3,5,4,2,1
d) 5,4,2,3,1
e) 5,3,2,1,4
2. Una de sus obras más importantes de Maquiavelo fue:

a) 0.014
b) 0.015
c) 0.897
d) 0.028
e) 0.196
3. El siguiente intervalo de confianza se obtiene de una proporción poblacional,

p: 0.883 <p<0.911. Utilice los límites para encontrar el margen de error, E.
a) 0.632
b) 0.366
c) 0.388
d) 0.888
e) 0.634
ESTADÍSTICA II
de contenidos
41

seleccionadas
4. Condiciones para hacer un intervalo de confianza usando la distribución normal
estándar:
I. La distribución de la población no puede ser normal si n>30.
II. Se conoce el valor de la desviación estándar poblacional. Recordatorio Anotaciones
III. Se emplea para n<30 si la población tiene una distribución normal

IV. Se conoce el valor de la media poblacional
V. La muestra es una muestra aleatoria simple.
a) II, III y IV
b) I, II, y V
c) I, IV y V
d) II y IV
e) III, IV y V
5. El ancho de un intervalo de confianza para una proporción sería:

a) Más angosto para un nivel confianza de 99% que para un nivel confianza de
95%.
b) Más amplio para una muestra de tamaño 100 que para una muestra de tamaño
50.
c) Más amplio para una desviación estándar de 3.56 que para un nivel de confianza
de 90%
d) Más amplio cuando la proporción de la muestra sea 0.50 que cuando la propor-
ción de la muestra sea 0.20.
e) Más amplio a nivel de confianza 99% que al de 95%
6. Un grupo de consumidores desea estimar el monto de las facturas de energía eléc-

trica para el mes de marzo para las viviendas unifamiliares del distrito de Hualhuas.
Con base en estudios realizados en otras ciudades cercanas a ésta, se determinó una
desviación estándar de 25 dólares. El grupo desea estimar el monto promedio para
marzo dentro de ± 5 dólares del promedio verdadero con 99% de confianza. Calcule
el mejor tamaño de muestra
a) 205
b) 167
c) 135
d) 68
e) 152
7. Un amplio intervalo de confianza indica que:

I. Existe mayor probabilidad de estimar parámetro con el estimador
II. Hay una variabilidad considerable en los datos muestrales
III. La estimación puntual obtenida de la muestra no puede estar cerca del verdade-
ro valor del parámetro poblacional
IV. Hay poca variabilidad el estimador es cercano al parámetro
V. La estimación por intervalo no es válida
Son verdaderos:
a) I, III y IV
b) III y V
c) IV y V
d) II y III
e) I y IV
ollo
nidos 42
nadas
8. Con la siguiente información:
n = 15, s2 = 2.53, α = 0.01
Defina el intervalo de confianza para la desviación estándar:
a) 1.039 < α < 2.775
torio Anotaciones
b) 1.131 < α < 8.693

c) 1.299 < α < 7.162
d) 1.063 < α < 2.948
e) 2.069 < α < 6.332
9. Un empresario potencial estudia la posibilidad de comprar una lavandería con má-

quinas operadas con monedas. El dueño actual asegura que en los últimos 5 años el
promedio de ingresos diarios ha sido 675 dólares con una desviación estándar de 75
dólares. Una muestra de 30 días revela un ingreso promedio diario de 625 dólares.
¿Existe evidencia de que la aseveración del dueño actual no es válida? (use un nivel
de significancia de 0.01). Determine el valor del estadístico de prueba y si se aprue-
ba o no la hipótesis nula.
a) -3.651; se rechaza Ho
b) -2.381, se acepta Ho
c) 2.381, se rechaza Ho
d) -4.724, se acepta Ho
e) -1.452, se acepta Ho
10. Las Razones por las que no se debe usar la distribución “t”
I. La desviación estándar de la población es conocida.
II. La distribución de la población es normal
III. El tamaño de la muestra es mayor a 30
IV. La muestra es aleatoria simple
V. El tamaño de muestra es menor a 30
a) II y IV
b) III y V
c) I
d) IV
e) III
ESTADÍSTICA II
Desarrollo
de contenidos
43

seleccionadas
Desarrollo
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
de contenidos
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD II

Diagrama
Lecturas Objetivos
Glosario Inicio
Bibliografía
seleccionadas
CONTENIDOS
de contenidos
EJEMPLOS ACTIVIDADES

seleccionadas
AUTOEVALUACIÓN BIBLIOGRAFÍA


de contenidos
Tema N° 1: Prueba de hipótesis 1. Conoce y practica los pro- 1. Valora la importancia de la
1. Definiciones básicas cedimientos de la prueba de estimación de parámetros y
2. Prueba de aseveración para hipótesis para distintas aseve- la determinación del tamaño
la media raciones acerca de la media, de muestra y comprueba las
3.Lecturas
Prueba de aseveración
Glosario para la
Bibliografía proporción y varianza
seleccionadas hipótesis para la toma de de-
proporción
cisiones.
4. Prueba de aseveración para la
varianza Actividad N° 1
2. Compara dos conjuntos de
Tema Nº 2: Inferencia a partir datos muestrales y aplica la
RecordatorioAnotaciones
de dos muestras prueba de hipótesis acerca de
1. Inferencia acerca de dos sus características poblaciona-
medias, proporciones para les
muestras independientes
3. Aplica el análisis de varianza
2. Inferencia a partir de datos
de un factor y de dos factores
pareados
3. Comparación de la variación
de dos muestras Actividad N° 2
Tarea Académica Nº 1
Tema Nº 3: Inferencia a partir
de dos muestras
1. ANOVA de un factor
2. ANOVA de dos factores

La paradoja del cumpleaños
Blog Estadística para todos
Autoevaluación de la Unidad II

ollo
nidos 44
Actividades Autoevaluación UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
nadas
TEMA N° 1: PRUEBA DE HIPÓTESIS
Los métodos estudiados en la Unidad anterior usan la información proporcionada por
torio Anotaciones
los estadísticos muestrales para estimar con cierta probabilidad el valor de un paráme-
tro poblacional. En éste Unidad se introducirá la prueba de hipótesis que supone a
priori el valor del parámetro y sobre la base de la información obtenida en una mues-
tra se somete a prueba la suposición, para luego tomar con cierta probabilidad, la
decisión de rechazar o no rechazar la hipótesis. En éste punto es importante señalar que
la expresión “no rechazar” pudiera ser sustituida por “aceptar”, sin embargo antes de
hacerlo es necesario atender cuidadosamente algunas explicaciones que se darán más
adelante. La prueba de hipótesis también conocida como docimasia o contrasta-
ción de hipótesis es uno de los métodos estadísticos más usados en las ciencias naturales
por ser un procedimiento que le proporciona al investigador un criterio objetivo para
tomar decisiones con base a un número limitado de observaciones.
Esta proposición que finalmente es aceptada o rechazada recibe el nombre de hi-

pótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que
muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mun-
do de la ingeniería, ciencias de la salud, ciencias sociales, administración, economía,
etc., pueden formularse como problemas de prueba de hipótesis.
1 DEFINICIONES BÁSICAS1
1.1. Hipótesis
Una hipótesis estadística es una proposición o supuesto sobre los parámetros
de una o más poblaciones.
1.2. Hipótesis estadística

Cualquier afirmación o conjetura que se hace a cerca de la distribución de una
o más poblaciones
Ejemplo:
El promedio ponderado de los alumnos de UCCI en el semestre 2013-I es su-
perior a 14.
1.3. Hipótesis simple

Cualquier hipótesis estadística que especifica completamente la distribución de
la población, especifica la forma de la distribución y el valor de su parámetro.
Ejemplo:
El ingreso mensual promedio de los empleados de cierta empresa es de 900
nuevos soles, suponiendo que los ingresos se distribuyen normalmente con
desviación estándar de 30.
1.4. Hipótesis compuesta

Cualquier hipótesis estadística que NO especifica completamente la distribu-
ción de la población
Ejemplo:
El ingreso mensual promedio de los empleados de cierta empresa es SUPE-
RIOR a 900 nuevos soles, suponiendo que los ingresos se distribuyen normal-
mente con desviación estándar de 30.
1.5. Hipótesis nula (h0)

Es la hipótesis que es aceptada provisionalmente como verdadera y cuya validez
será sometida a comprobación
1.6. Hipótesis alternativa (h1)

Es una hipótesis contraria a la hipótesis nula, se acepta en caso que la hipótesis
nula sea rechazada.
1 Mario Triola. Estadística. 2009

ESTADÍSTICA II
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZADesarrollo
de contenidos
45

seleccionadas
Es importante recordar que las hipótesis siempre son proposiciones sobre la
población o distribución bajo estudio, no proposiciones sobre la muestra. Por
lo general, el valor del parámetro de la población especificado en la hipótesis
nula se determina en una de tres maneras diferentes: Recordatorio Anotaciones
- Puede ser resultado de la experiencia pasada o del conocimiento del proce-

so, entonces el objetivo de la prueba de hipótesis usualmente es determinar
si ha cambiado el valor del parámetro.
- Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el

proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo.
- Cuando el valor del parámetro proviene de consideraciones externas tales

como las especificaciones de diseño o ingeniería, o de obligaciones
contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es
probar el cumplimiento de las especificaciones.
1.7. Planteamiento de hipótesis

Es importante tener en cuenta que el signo igual siempre debe ir vinculado a
la hipótesis nula.
1) H0: θ = θ0
H1: θ ≠ θ0
2) H0: θ ≤ θ0
H1: θ > θ0
3) H0: θ ≥ θ0
H1: θ < θ0
Donde θ0 es el valor del parámetro desconocido θ
1.8. Prueba de hipótesis estadística

Proceso para la toma de decisiones de aceptar o rechazar la Hipótesis Nula H0
en contraposición de la hipótesis alternativa H1 basándose en los resultados de
una muestra.
1.9. Tipos de pruebas de hipótesis

Depende de la hipótesis alternativa
Prueba de Hipótesis unilateral o Prueba Prueba de Hipótesis Bilateral o Prueba de dos

de una cola colas
H0: θ = θ0 y H1 : θ > θ0 H0: q = θ0 y H1 : q ≠ θ0

H0: θ = θ0 y H1 : θ < θ0
1.10. ERROR TIPO I Y II
DECISIÓN H0 VERDADERA H0 FALSA
ACEPTAR H0 CORRECTO ERROR TIPO II

1-a b
ollo
nidos 46
nadas
RECHAZAR H0 ERROR TIPO I CORRECTO

a (1-b)
Nivel de Significación (α)
torio Anotaciones
Es la probabilidad de cometer un error de tipo I
α = P(error tipo I)
α = P(rechazar H0 cuando es verdadera)
Potencia de una Prueba

Es la probabilidad de cometer un error de tipo II
β = P(error tipo II)
β = P(aceptar H0 cuando es falsa)
1.11. Regla de decisión

Es la división de la distribución muestral del estadístico de la prueba en dos
partes mutuamente excluyentes:
Región Crítica (RC): región de rechazo de H0

Región de Aceptación (RA): región de no rechazo de H0
Depende de la hipótesis alternativa H1 del nivel de significación y la distribu-

ción muestral del estadístico
Prueba de Hipótesis Bilateral

o Prueba de dos colas.
H0: θ = θ0 y H1 : θ ≠ θ0
Prueba de Hipótesis unilateral

o Prueba de una cola.
H0: θ = θ0 y H1 : θ < θ0
Prueba de Hipótesis unilateral

o Prueba de una cola.
H0: θ = θ0 y H1 : θ > θ0
ESTADÍSTICA II
de contenidos
47

seleccionadas
1.12. Procedimiento de la prueba de hipótesis

La prueba de hipótesis estadística consta del siguiente procedimiento:
1. Planteamiento de las hipótesis. Establezca la aseveración que desea ser pro-
bada y exprésela en forma simbólica, H0 y H1. El signo igual siempre debe ir
vinculado con la H0.
2. Establecimiento del nivel de confianza. De acuerdo a la gravedad de cometer
el error tipo I se establece el valor a. Es usual considerar los valores 0.05 y
0.01. Este valor nos permitirá calcular el valor crítico de la prueba que puede
ser z, t o chi cuadrado.
3. Cálculo del estadístico de prueba. Se identifica el estadístico pertinente para
la prueba realizada y su respectiva distribución, luego se realiza el cálculo
del mismo al cual usualmente se le denomina valor calculado. Se realiza un
gráfico de la distribución que incluya el valor crítico, el estadístico de prueba
y las regiones de rechazo o crítica y de aceptación.
4. Establecimiento de la regla de decisión. Rechace la H0 si el estadístico de
prueba se encuentra en la región de crítica o de rechazo. Acepte la H0 si el
estadístico de prueba se encuentra en la región de aceptación.
5. Toma de decisión. Establezca la conclusión indicando si existe evidencia
muestral suficiente para aceptar la H0 (EEEAH0) o los datos muestrales no
sustentan la aseveración de la H0 por lo que no hay evidencia estadística para
aceptar H0 (EEERH0)
2 Prueba de aseveración para la media

Supongamos que de una población normal con media desconocida μ y varianza
conocida s2 se extrae una muestra de tamaño n, entonces de la distribución de la
media muestral X se obtiene la prueba estadística o estadístico:
X − µo ó X −µ
Z= t n −1 =
σ/ n s/ n
Ejemplo 2
Fumar cigarros de la marca X produce en promedio 0.6 mg de nicotina. El depar-
tamento de ingeniería del fabricante propone un filtro nuevo que supuestamente
reducirá la producción de nicotina. Se toma una muestra de 50 cigarros con el
nuevo filtro y se encuentra que el promedio de nicotina es de 0.55 mg. Con una
desviación estándar de 0.56. ¿Debe aceptarse la aseveración del departamento de
ingeniería con un nivel de significación de 2.5 por ciento?
Solución
i) El parámetro de interés es la media de la población , se desea probar:
H0: μ = 0.60
H1: μ < 0.60
Donde μ es la verdadera media de la nicotina producida por los cigarros de la
marca X.
La prueba es unilateral izquierda.
ii) Como se conoce la desviación estándar muestral y el valor de n es 50 se utiliza el
2 Tomado de Estadística aplicada a la Administración y Economía, Alfredo Díaz

Mata, Capítulo 9, pág. 279. Primera Edición.
ollo
nidos 48
nadas
valor crítico z, el cual es al 0.025 acumulado desde la izquierda igual a -1.96.
torio Anotaciones
iii) El estimador es z calculado:

X − µo
Z=
σ/ n
0.5 − 0.60
Z= = −0.6313
0.56 / 50
iv) El valor calculado o estimador -0.6313 se encuentra a la derecha del valor crítico
1.96, o sea se encuentra en la región de aceptación.
v) Por lo tanto existe evidencia estadística para aceptar la hipótesis nula y se con-
cluye que los nuevos filtros no reducen la nicotina que producen los cigarros de la
marca X.
Ejemplo 3
Los científicos han citado al benceno, un disolvente químico de uso común en la
síntesis de plásticos como un posible agente causante de cáncer. Ciertos estudios
han demostrado que las personas que trabajan con benceno durante más de cinco
años tienen una incidencia de leucemia 20 veces mayor que la de la población en
general. En consecuencia el gobierno recomienda que el nivel máximo permisible
de benceno en dicho lugar de trabajo se baje de 10 partes por millón (ppm) a 1
ppm. Supongamos que una fábrica de artículos de acero, que expone diariamente
a sus trabajadores al benceno, está siendo investigada por una certificadora de cali-
dad, para ello se examinan 20 muestras de aire tomadas durante un período de un
mes para determinar el contenido de benceno, obteniendo en el análisis una media
de 2.1 ppm y una desviación estándar de 1.7 ppm.
¿La fábrica de artículos de acero estaría haciendo caso omiso a la recomendación?
Utilice un nivel de confianza del 0.95.
Solución
i) El parámetro de interés es la media de la población , se desea probar:
H0: µ =1
H1: µ >1
La certificadora quiere corroborar la hipótesis de investigación de que el nivel me-
dio de benceno en la planta de fabricación excede a 1 ppm. Donde es la verdadera
media. La prueba es unilateral derecha.
ii) El nivel de significancia es a=0.05, lo que nos permite calcular el valor crítico t
(desviación estándar muestral conocida y n<30) y ubicarlo en la gráfica que corres-
ponde a una prueba de hipótesis unilateral derecha.
3 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Men-

denhall, Capítulo 9, pág. 441. Cuarta Edición.
ESTADÍSTICA II
de contenidos
49

seleccionadas
iii) El estimador es t calculado:
X − µo
t=
s/ n
2.1 − 1
t= = 2.89
1.7 / 20
iv) El valor calculado t o estadístico de prueba 2.89 se encuentra a la derecha
de 1.729 en la región crítica o de rechazo. Existe evidencia estadística para
rechazar la Ho.
v) La certificadora de calidad por lo tanto llega a la conclusión que >1 ppm y
que la panta está violando las normas gubernamentales con una confiabili-
dad asociada de a=0.05.
3 Prueba de aseveración para la proporción

Supongamos que de una población de tamaño N de la cual se obtiene una muestra
de tamaño n, existen x elementos favorables a la característica que se está analizando.
Entonces la proporción muestral es: x . Siendo π el valor presente en la hipó-

pˆ =
tesis nula. n
El estadístico de prueba es:
pˆ − π HIPOTESIS
Z=
π HIPOTESIS (1 − π HIPOTESIS )
n
El tamaño de muestra de muestra debe ser lo suficientemente grande para que la

prueba sea válida. Como regla práctica: npˆ ≥ 4, nqˆ ≥ 4 y pˆ + qˆ = 1 .
Ejemplo 4
El empleo de acero intemperizado en la construcción de puentes para autopistas ha
sido tema de considerable controversia. Los críticos han citado temas de corrosión
graves del acero intemperizado y están tratando de convencer a las autoridades de
que prohíban su uso en la construcción de puentes. Por otro lado las corporaciones
acereras aseguran que estas acusaciones son exageradas y dicen que 95% de todos
los puentes de acero intemperizado en operación tienen un buen desempeño, sin
daños graves por corrosión. A fin de probar esta aseveración, un equipo de ingenie-
ros expertos de la industria del acero evaluaron 40 puentes de acero intemperizado
seleccionados al azar y encontraron que 36 de ellos mostraban un buen desempe-
ño. ¿Hay pruebas con a=0.05 de que la verdadera proporción de puentes de acero
intemperizado que presentan un buen desempeño sea menor que 0.95 que es la
cifra citada por las corporaciones?
Solución
i) El parámetro de interés es una proporción de la población , se desea probar:
H0: π = 0.95
H1: π < 0.95
Donde es la verdadera proporción de todos los puentes de autopista de acero
intemperizado que muestran un buen desempeño, siendo la prueba unilateral iz-
quierda.
ii) El nivel de significancia es α=0.05, lo que nos permite calcular el valor crítico z
y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral
izquierda.
4 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Men-

denhall, Capítulo 9, pág. 465. Cuarta Edición.
ollo
nidos 50
nadas
x 54
iii)
pˆ = , por lo que utilizando los datos del problema: pˆ = = 0.9
n 60
torio Anotaciones
iv) El estadístico de prueba es:
pˆ − π HIPOTESIS Z=
0.9 − 0.95
= −1.78
Z=
π HIPOTESIS (1 − π HIPOTESIS ) 0.95.(1 − 0.95)
60
n
v) Se puede rechazar la hipótesis nula con α=0.05, ya que el valor calculado o es-
timador -1.78 cae a la izquierda del -1.645 lo que indica que se encuentra en la
región de rechazo.
vi) Por lo tanto, existe evidencia estadística para sustentar la hipótesis de que la
proporción de puentes de autopista de acero intemperizado que tienen buen des-
empeño es menor que 0.95.
Ejemplo5
Un estudio realizado a fumadores que intentaban dejar el hábito con terapia de
parches de nicotina reveló que 39 de ellos continuaban fumando un año después
de iniciado el tratamiento y 32 habían dejado de fumar (según datos de "High-Dose
Nicotine Patch Therapy", de Dale et al, Journal of the American Medical Associa-
tion, vol. 274, núm. 17). Utilice un nivel de significancia de 0.10 para probar la
aseveración de que, de los fumadores que intentaban dejar el cigarrillo, la mayoría
continúa fumando un año después de iniciar el tratamiento. ¿Sugieren estos resul-
tados que la terapia de parches de nicotina es ineficaz?
Solución
i) El parámetro de interés es una proporción de la población π , se desea probar:
H0: π = 0.50
H1: π > 0.50
Donde es la verdadera proporción de todos los que continúan fumando un año
después de iniciar el tratamiento, siendo la prueba unilateral derecha.
ii) El nivel de significancia es α=0.1, lo que nos permite calcular el valor crítico z y
ubicarlo en la gráfica:
iii) x
pˆ = , por lo que utilizando los datos del problema: pˆ =
39
= 0.5

n 39 + 32
iv) El estadístico de prueba es:

pˆ − π HIPOTESIS
Z=
π HIPOTESIS (1 − π HIPOTESIS )
n
0.5 − 0.5
Z= = 0.84
0.5.(1 − 0.5)
71
v) El estadístico de prueba 0.84 cae a la izquierda del valor crítico 1.645 en la región
de aceptación, por lo que existe evidencia estadística para aceptar la hipótesis nula.
vi) Como el 50% o menos deja de fumar, la terapia de parches no es eficaz.
5 Tomado de Estadística, Mario Triola, Capítulo 8, pág. 416. 10° Edición.

ESTADÍSTICA II
de contenidos
51

seleccionadas
4 Prueba de aseveración para la varianza
Supongamos que de una población de tamaño N de la cual se obtiene una muestra
de tamaño n, existen x elemento
Para aplicar una prueba de hipótesis relativa a la varianza de una población se debe
asumir que la distribución Ji-cuadrada se da siempre y cuando se trate de poblacio-
nes normales y el estadístico de prueba es la variable Ji-cuadrada con (n-1) grados
de libertad y que se expresa como:
(n − 1)s 2
χ2 =
σ2
El proceso que sigue una prueba de hipótesis para la varianza es el mismo que
utilizamos en las anteriores secciones, es muy usual aplicar esta prueba cuando se
require comprobar el grado de variabilidad de un proceso.
Ejemplo 6
Se sabe que el contenido en gramos de un producto fabricado por una
compañía, no reúne las especificaciones si la varianza de un lote de producción
se aleja demasiado hacia arriba o hacia debajo de 6.5. Comprobar si un gran lote
de producción reúne las especificaciones, si una muestra aleatoria de 20 unidades
extraída aleatoriamente de dicho lote arrojó una varianza de 7.3. Utilizar un
nivel de significación del 5%. Se sabe que el contenido del producto se distribuye
normalmente.
Solución
i) H0 : 2
= 6.5
Hα : 2
6.5
ii) La prueba es bilateral con un nivel de significación: = 0.05, el valor crítico ji-
cuadrado es:
iii) El criterio de decisión será el siguiente: “Si el valor de 2 calculado es menor

que 8.90652 o mayor que 32.8523, se rechaza la hipótesis nula de que la varianza
sigue siendo de 6.5, con un nivel de significación del 5%”.
iv) El estadístico de prueba se calcula teniendo en cuenta n=20, s2=7.3 y utilizando
la fórmula:
(n − 1) s 2 (20 − 1).x7.3
χ2 = = = 21.34
σ2 6.5

v) Como el estadístico de prueba 21.34 se encuentra en la región de confianza o
de aceptación. Entonces con podemos afirmar con un nivel de significancia del
5% que existe evidencia estadística para aceptar que la varianza del contenido del
producto es el mismo.
Ejemplo 7
Un supervisor de control de calidad en una enlatadora sabe que la cantidad exac-
ta contenida en cada lata varía, pues hay ciertos factores imposibles de controlar
que afectan la cantidad de llenado. El llenado medio por lata es importante pero
igualmente importante es la variación 2 de la cantidad de llenado. Si 2 es grande,
algunas latas contendrán muy poco y otras, demasiado. Las agencias reguladoras
especifican que la desviación estándar de la cantidad de llenado debe ser menor
que 0.1 onzas. El supervisor de control de calidad muestreó n=10 latas y midió la
cantidad de llenado en cada una. Los datos se reproducen a continuación.
6 Tomado de Estadística, Hugo Gómez Giraldo, Capítulo 8, pág. 238.

7 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William
Mendenhall, Capítulo 9, pág. 474. Cuarta Edición.
ollo
nidos 52
nadas
7.96
7.9 7.98 8.01 7.97 7.96 8.03 8.02 8.04 8.02
¿Esta información proporciona con un nivel de significancia del 0.05 pruebas sufi-
cientes de que la desviación estándar de las mediciones de llenado es menor que
torio Anotaciones 0.1 onzas?
Solución
i) H0 : 2
= 0.1
Ha : 2
< 0.1
ii) La prueba es unilateral izquierda, con α = 0.05, por lo que el valor crítico es:
iii) El estadístico de prueba se calcula utilizando la desviación estándar de la mues-
tra s=0.043 y n=10.
(n − 1) s 2 (10 − 1) x 0.043 2
χ2 = = = 1.6
σ2 0.12
iv) Como el estadístico de prueba 1.66 es menor que 3.325 y cae en la región de
rechazo, existe evidencia estadística para rechazar la hipótesis nula. Entonces el
supervisor puede llegar a la conclusión con un nivel de significación del 0.05 de
que la varianza de la población de todas las cantidades de llenado es menor que
0.01, o sea <0.1.
TEMA N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS

1 INFERENCIA ACERCA DE DOS MEDIAS, PROPORCIONES PARA
MUESTRAS INDEPENDIENTES. (Triola, 2009)
En la práctica, se presenta una diversidad de problemas en la industria y en las
ciencias sociales que nos sugieren confrontar cual de dos procesos es mejor que el
otro a la luz de la media que arroja cada uno de ellos. Se nos podría ocurrir por
ejemplo: a) verificar si el consumo de gasolina entre dos marcas de vehículos se
puede considerar idéntico o por el contrario una marca es más económica que
otra, b) Verificar si los salarios de la industria metalúrgica se pueden considerar
o no superiores a los salarios de la industria textil en una región, c) Verificar si el
contenido de determinada sustancia en una artículo fabricado por una compañía A
es inferior o no al contenido de dicha sustancia en el mismo artículo fabricado por
una compañía B de la competencia. etc.
En cuanto a la distribución en el muestreo de la diferencia de medias, recordemos
los siguientes tres casos:
- Si las dos poblaciones son normales, las diferencias de las medias muestrales tam-
bién se distribuirán normalmente cualquiera sea el tamaño de las muestras. No
obstante, si no se conocen las desviaciones estándar poblacionales ( 1 y 2), éstas
pueden ser remplazadas por la desviaciones estándar de las muestras (s1 y s2), si los
tamaños de las muestras son mayores que 30 (n1 >30 y n2 >30 o n1 +n2 >60).
- Según el teorema central del límite, si las dos poblaciones no son normales o
no sabemos si se cumple o no éste comportamiento, las diferencias de las medias
muestrales se distribuirán aproximadamente como una distribución normal, si los
tamaños de las muestras son mayores que 30 (n1 >30 y n2 >30 o n1 +n2 >60)
- Si las dos poblaciones son normales o están muy cerca de éste comportamiento
ESTADÍSTICA II
de contenidos
53

seleccionadas
y por otra parte no conocemos la desviaciones estándar poblacionales y además
los tamaños de las muestras son menores que 30 (n1 <30 y n2 <30 o n1 +n2 <60),
entonces, las diferencias de las medias muestrales se distribuirán de acuerdo a la
ley t-student. Recordatorio Anotaciones
Con el fin de resolver las pruebas de hipótesis para la diferencia de medias, debe-
mos tener en cuenta el mismo procedimiento y las mismas reglas que seguimos para
las pruebas de hipótesis para la media.
1.1 Inferencia acerca de dos medias

Es la división de la distribución muestral del estadístico de la prueba en dos
partes mutuamente excluyentes:
Cuadro N° 11: ESTADÍSTICOS PARA DOS MEDIAS.
PRUEBA ESTADÍSTICO
μ1 – μ2 = d0 (x 1 − x 2 ) − d 0
z=
y conocidas
1 2 σ 12 σ 22
+
n1 n 2
μ1 – μ2 = d0
( x1 − x 2 ) − d 0
1= 2 desconocidas t= (n 1 − 1)s 12 + (n 2 − 1)s 22
1 1 s 2p =
sp +
n1 n2 n1 + n 2 − 2
Ejemplo
Una compañía de transportes requiere comprar un gran lote de buses para el trans-
porte urbano con el fin de reemplazar su parque automotor y para tal fin desea
comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de
que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma
una muestra aleatoria de 35 vehículos marca A y encuentra que la misma tiene un
promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar
de 8 kilómetros/galón, mientras que una muestra de 32 vehículos marca B presenta
un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros /
galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de signi-
ficación del 5%?
Solución
i) Las desviaciones estándar se asumen conocidas puesto que los tamaños de mues-
tra son mayores que 30; por lo cual según el teorema central del límite, las diferen-
cias de las medias muestrales, se distribuirán aproximadamente como una distribu-
ción normal.
ii) H0 : μ A -- μ B = 0
Ha : μ A -- μ B = < 0
La prueba es unilateral a la izquierda.
iii) El nivel de significancia es 0.05 por lo que z=1.645.
iv) El criterio de decisión será el siguiente: “Si el valor de z calculado es menor que
–1.64 se rechaza la hipótesis nula de que el rendimiento en ambas marcas es igual”
v) Para calcular el estadístico de prueba se tiene: nA =35; =18; SA =8; nB =32; =22
y SB =3.
(x 1 − x 2 ) − d 0
z= =-2.75
σ12 σ 22
+
n1 n 2
vi) Como el valor de z calculado (-2.75) se encuentra en la zona de rechazo, entonces,
con un nivel de significación del 5%, debemos rechazar la hipótesis nula de que el
ahorro en ambas marcas es igual y en éstas condiciones debemos aceptar la hipótesis
alternativa de que la marca A es menos ahorradora de combustible que la marca B.
ollo
nidos 54
nadas
Ejemplo
Una compañía de transportes requiere comprar un gran lote de buses para el trans-
porte urbano con el fin de reemplazar su parque automotor y para tal fin desea
torio Anotaciones comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de
que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma
una muestra aleatoria de 13 vehículos marca A y encuentra que la misma tiene un
promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar
de 8 kilómetros/galón, mientras que una muestra de 15 vehículos marca B presenta
un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros /
galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de signi-
ficación del 1%?
Solución
i) Se sabe que las poblaciones se distribuyen aproximadamente a la ley normal,
pero ambos tamaños de muestran son menores que 30 y no se conocen las desvia-
ciones estándar poblacionales; por lo cual, las diferencias de las medias muestrales,
se distribuirán según a la ley t-student.
ii) H0 : μ A -- μ B = 0
Ha : μ A -- μ B = < 0
La prueba es unilateral a la izquierda.
iii) Nivel de significación: α = 0.01, por lo que el valor crítico t con 26 grados de
libertad es -2.479.
iii) El criterio de decisión será el siguiente: “Si el valor de t calculado es menor
que –2.479, se rechaza la hipótesis nula de que el rendimiento en ambas marcas es
igual”.
iv) Para calcular el estadístico de prueba se tiene: nA =13; =18; SA =8; nB =15; =22
y SB =3.
(n1 − 1) s1 + (n2 − 1) s 2 ( x1 − x 2 ) − d 0
sp = = 5.86 y t = = −1.80
n1 + n2 − 2 1 1
sp +
n1 n2
v) Como el valor de t calculado (-1.80) se encuentra en la zona de aceptación, en-
tonces, con un nivel de significación del 1%, debemos aceptar la hipótesis nula de
que el ahorro en ambas marcas es igual y en éstas condiciones debemos rechazar
la hipótesis alternativa de que el rendimiento es menor en la marca A que en la
marca B.
Ejercicio
El jefe de personal de una gran empresa afirma que la diferencia de los promedios
de antigüedad entre los obreras y obreros de la compañía es de 3.5 años. El presi-
dente de la compañía considera que ésta diferencia es superior. Para comprobar
dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de
antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45
obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7
años. Comprobar la hipótesis con un nivel de significación del 5%.
Ejercicio
Se está investigando la resistencia de dos alambres, con la siguiente información
de muestra.
Alambre Resistencia (ohms)
1 0.140 0.141 0.139 0.140 0.138 0.144

ESTADÍSTICA II
de contenidos
55

seleccionadas
2 0.135 0.138 0.140 0.139 - -
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse
respecto a la resistencia media de los alambres?
Ejercicio
Se están investigando dos métodos para producir gasolina a partir de petróleo cru-
do. Se supone que el rendimiento de ambos procesos se distribuye normalmente.
Los siguientes datos de rendimiento se han obtenido de la planta piloto.
Proceso Rendimiento %
1 24.2 26.6 25.7 24.8 25.9 26.5
2 21.0 22.1 21.8 20.9 22.4 22.0
¿Hay alguna razón para creer que el proceso 1 tiene un rendimiento medio mayor?
1.2 Inferencia acerca de dos proporciones
Cuadro N°12: ESTADÍSTICO DOS PROPORCIONES
PRUEBA ESTADÍSTICO
(p̂ 1 − p̂ 2 )
z=
p1= p2  1 1  y x1 + x 2
p̂q̂ +  p̂ =
 n1 n 2  n1 + n 2
Ejemplo
Una compañía asegura que el mercado para su producto X tiene una aceptación
de iguales proporciones en la ciudad A que en la ciudad B. Un especialista en mer-
cado pone en duda dicha afirmación y para tal fin tomó una muestra aleatoria de
500 amas de casa en la ciudad A y encontró que el 59.6% de las mismas prefería
el artículo X. Por otra parte tomó una muestra aleatoria de 300 amas de casa en la
ciudad B y encontró que el 50% de las mismas preferían el artículo X. ¿Existe una
diferencia real entre las dos ciudades? Nivel de significación 5%
Solución
i) H0 : PA =PB ,
Ha : PA ≠ PB;
La prueba es bilateral, puesto que el especialista en mercado no está afirmando que
ciudad tiene más proporción que la otra.
ii) Nivel de significación = 0.05, por lo que z=±1.96
iii) Como las diferencias de las proporciones muestrales se distribuyen normalmen-
te y la prueba es bilateral entonces el criterio de decisión será “Si el valor z es mayor
que 1.96 o menor que -1.96 se rechaza la hipótesis nula de que la proporción es
idéntica en ambas ciudades”.
iv) Con los datos n1 =500, p1 =0.596, n2=300, p2 =0.50 se puede calcular el estadístico
de prueba:
ollo
nidos 56
nadas
x1=0.956x500 ; x2=0.5x300
( pˆ 1 − pˆ 2 )
z=
x + x2 1 1 
torio Anotaciones pˆ = 1 = 0.56; =0.44 y pˆ qˆ  +  =2.56
n1 + n2 n
 1 n 2 
iv) Como el valor de Z calculado (+2.65) se encuentra en la zona de rechazo, en-

tonces, con un nivel de significación del 5%, debemos rechazar la hipótesis nula de
que las proporciones en ambas ciudades son iguales.
Ejercicio
La fracción de productos defectuosos producidos por dos líneas de producción se
está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 de-
fectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene
25 defectuosas. ¿Es razonable concluir que la línea de producción 2 produce una
fracción más alta de producto defectuoso que la línea 1? Use α = 0.01
2 Inferencia a partir de datos pareados

Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de
comparación. En una prueba de comparación pareada, la reducción en la variabi-
lidad experimental puede permitir la detección de pequeños movimientos en los
datos.
A pesar de que los grados de libertad sean reducidos, porque ahora el tamaño de
muestra corresponde al número de comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo de ins-
pección para determinar si existe alguna diferencia significativa entre los equipos.
Las hipótesis de prueba en torno a la igualdad µ1 y µ 2 pueden realizarse efectuan-
do una prueba t de una muestra en µ D . Específicamente, probar H : µ = µ
0 1 2
contra H : µ ≠ µ es equivalente a probar:
1 1 2

H0 : µD = 0
H1 : µ D ≠ µ0

La estadística de prueba apropiada es: t 0

D
=
SD n
Dónde: D =
∑D j
y SD =
(D j − D)
2
n n −1
Rechazaríamos H 0 : µ D = 0 si t 0 > tα 2 , n −1 o si t 0 < −tα 2,n −1 . Las alternativas
de un lado se tratarían de manera similar.
Ejemplo
Un fabricante desea comparar el proceso de armado común para uno de sus pro-
ductos con un método propuesto que supuestamente reduce el tiempo de armado.
Se seleccionaron ocho trabajadores de la planta de armado y se les pidió que arma-
ran las unidades con ambos procesos. Los siguientes son los tiempos observados en
minutos.
Cuadro N° 13: TIEMPOS OBSERVADOS EN MINUTOS.
trabajador proceso actual proceso PROPUESTO

1 38 30
ESTADÍSTICA II
de contenidos
57

seleccionadas
2 32 32
3 41 34
4 35 37 Recordatorio Anotaciones
5 42 35
6 32 26
7 45 38
8 37 32
En α = 0.05 , ¿existe alguna razón para creer que el tiempo de armado para el pro-
ceso actual es mayor que el del método propuesto por más de dos minutos?
Solución
i) Las hipótesis so: H 0 : µ D = 2 H1 : µ D > 2

ii) Calculando las diferencias:
trabajador proceso actual proceso PROPUESTO Dj (Dj-d)^2

1 38 30 8 10.5625
2 32 32 0 22.5625
3 41 34 7 5.0625
4 35 37 -2 45.5625
5 42 35 7 5.0625
6 32 26 6 1.5625
7 45 38 7 5.0625
8 37 32 5 0.0625
4.75 95.5
iii) D = ∑D j = 4.75 y S D =
(D j − D)
2
= 3.69
n n −1
D 4.75 − 2
iv) El estadístico de prueba sería: t 0 = = = 2.107
SD n 3 .69 8
v) Finalmente, tα ,n −1 = t .05, 7 = 1.895 , debido a que 2.107 > 1.895 rechazamos H0,
y aceptamos la H1: el tiempo de armado para el proceso actual es mayor en dos
minutos que el método propuesto.
3 Comparación de la variación de dos muestras.

Supóngase que son dos las poblaciones de interés, por ejemplo X1 y X2, donde
µ1,σ 12 , µ 2 , σ 22 , se desconocen. Deseamos probar hipótesis relativas a la igualdad
de las dos varianzas, H 0 : σ 12 = σ 22 . Considérese que se disponen dos muestras
aleatorias de tamaño n1 de la población 1 y de tamaño n2 de la población 2, y sean
S12 yS 22 las varianzas de muestra. Para probar la alternativa de dos lados:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
S2
Utilizamos el hecho de que la estadística F0 = 12 se distribuye como F, con n1-1 y
n2 –1 grados de libertad. S2
Rechazaríamos H0 si F0 > Fα 2,n1 −1,n2 −1 o si F0 < F1−α 2,n1 −1,n2 −1

Donde Fα 2 , n1 −1, n2 −1 y F1−α 2 , n1 −1, n2 −1son los puntos porcentuales superior e infe-
rior de la distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona
ollo
nidos 58
nadas
sólo los puntos de la cola superior de F, por lo que para determinar F1−α 2,n1 −1,n2 −1
1
F1−α 2,n1 −1,n2 −1
debemos emplear = Fα 2,n1 −1,n2 −1 .
torio Anotaciones
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas
de un lado. La hipótesis alternativa de un lado es:
H 0 : σ 12 = σ 22
H 1 : σ 12 > σ 22
Si F0 > Fα ,n1 −1,n2 −1 , rechazaríamos H 0 : σ 1 = σ 2 .

2 2
Ejemplo
Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos
tipos diferentes.
1 63 81 57 66 82 82 68 59 75 73
2 64 72 83 59 65 56 63 74 82 82
Pruebe la hipótesis de que las dos varianzas sean iguales. Use α = .05
Solución
i) H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
ii) Nivel de significancia α = 0.05

y como n1=10 y n2=10, el valor Fα 2 , n1 −1, n2 −1 = F0,25,9,9= 4.03.
Del mismo modo: F1−α 2 , n1 −1, n2 −1 =0.248
iii) La región de confianza está dada por [0.248; 4.03]. Si el F calculado cae fuera
del intervalo dado entonces se rechaza la hipótesis nula.
iv) Con los datos:
X 1 = 70.6
X 2 = 70
S12 = 88.71
S 22 = 100.44
S12 88.71
F0 = = 0.877
Calculamos S 22 = 100.44
v) Como F calculado cae dentro del intervalo dado por la región de confianza o
zona de aceptación, entonces se acepta que las varianzas son iguales.
ESTADÍSTICA II
de contenidos
59

seleccionadas
TEMA N° 3: ANÁLISIS DE VARIANZA
Cuando se requiere hacer inferencias acerca de las medias de distintas poblaciones a
partir del análisis de las muestras de ellas, se aplica un estudio denominado AnálisisRecordatorio
de Anotaciones
Varianza (ANOVA).
En un ANOVA (Mata, 2013) se aplican tratamientos a entidades denominadas unidades

experimentales. El atributo de las entidades que se desea medir recibe el nombre de
factor. En dicho estudio puede aplicarse modelos de efectos fijos o aleatorios. En un mo-
delo de efectos fijos, se seleccionan tratamientos específicos o se fijan antes del estudio
(determinísticamente). En un modelo de efectos aleatorios, los tratamientos utilizados
en el estudio se seleccionan aleatoriamente.
Estas técnicas se pueden utilizar en muchos campos tales como:
- Un gerente de compras de un supermercado puede interesarse en comparar la dura-

bilidad de ciertas baterías en el almacén de 3 o más proveedores.
- Un gerente de producción puede analizar el rendimiento de tres o más procesos para

determinar si hay diferencia entre ellos.
- Un analista financiero desea saber si hay diferencias en el margen de operación de

diversas empresas.
Ejemplo8
Una pequeña empresa que elabora botanas (papas fritas, cacahuates, etc.) tiene 4 rutas
para el reparto de sus productos dentro de la ciudad. Para cubrir estas rutas tiene 4 con-
ductores básicos y uno complementario, el conductor complementario sirve para cubrir
las ausencias o vacaciones o enfermedad de los otros 4 y se le ocupa para otros menes-
teres si no se le requiere como conductor. El puesto de conductor complementario se
rota entre todos los choferes sobre una misma base mensual. Es importante tanto desde
el punto de vista de eficiencia, como de justicia, que todas las rutas tengan la misma du-
ración, también es importante que todos los conductores sean igualmente eficientes en
todas las rutas para que los conductores puedan sustituirse el uno al otro sin pérdida de
tiempo, por ello la gerencia de distribución implementó un programa de capacitación
para que los conductores se familiaricen con todas las rutas. Al cabo de esta capacitación
se hicieron recorridos de prueba con el objetivo de investigar, por una parte, si todas las
rutas se recorrían en el mismo tiempo y por otra parte si los conductores eran igualmen-
te eficientes en todas. La gerencia de distribución desea saber si el tiempo medio de las
cuatro rutas es igual y si la eficiencia de todos los conductores en las rutas es igual. La
información de los recorridos y los conductores se da a continuación:
Cuadro N°14: Conductores vs Recorridos.
Conductor/Ruta Ruta A Ruta b Ruta c Ruta d

Antúnez 224 227 237 248
Becerra 242 235 262 250

Cervantes 225 240 235 261
Dominguez 232 253 259 255
Escamilla 232 245 257 261
En este ejemplo se tienen datos se clasifican de acuerdo con dos variables: el conductor
y la ruta que son, entonces, los 2 factores. Aquí las hipótesis que se prueban son:
Para las rutas:
Ho: µ A = µ B = µC = µ D
H1: Por lo menos una de las medias poblacionales de los tratamientos no es igual las
otras.
8 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA,

ALFRED DÍAZ MATA, CAPÍTULO 12, PÁG. 347.
ollo
nidos 60
nadas
En donde las diferentes medias son las medias de las 4 rutas.
Para los conductores:

torio Anotaciones
Ho: µ1 = µ 2 = µ 3 = µ 4
H1: Por lo menos una de las medias poblacionales de los bloques (conductores) no es
igual las otras.
En donde las diferentes medias son las medias de los 5 conductores.
En este ejemplo, el tratamiento son las diferentes rutas y a la variable del conductor,
cuyos datos están en los renglones, se le conoce como grupos, a su vez, tratamientos y
grupos son los dos factores a los que se refiere el nombre de esta técnica de análisis de
varianza de dos factores.
Un detalle que vale la pena tener presente respecto a este ANOVA de 2 factores es que se
tiene un solo dato para cada conductor y para cada ruta, ya que el análisis de varianza de
este par de factores, se refiere también a conjuntos de datos clasificados de acuerdo con 2
variables, pero en este caso, con cuando menos 2 observaciones para cada par de factores.
SUPUESTOS DE UN ESTUDIO ANOVA
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras inde-
pendientes son:
- Las poblaciones son normales.
- Las varianzas poblacionales son iguales
- Las muestras están seleccionadas independientemente.
1 Anova de un factor.
Como el ANOVA de un criterio es una generalización de la prueba de t para dos
muestras, los supuestos para el ANOVA de un criterio son:
- Todas las poblaciones k son normales.
- σ 12 = σ 22 = σ 32 = ..... = σ k2 (= σ 2 )
El método de ANOVA con un criterio o factor requiere del cálculo de dos estima-
ciones independientes para σ2 , la varianza poblacional común. Estas dos estima-

2 2 2
ciones se denotan por s b y s w . s b se denomina estimación de la varianza entre
muestras y se denomina estimación de la varianza al interior de las muestras. El es-
sb2
F= 2
tadístico tiene una distribución muestral resultando: sw . El valor crítico para
la prueba F es: Fα ( k − 1, k ( n − 1) , donde el número de grados de libertad para el
numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia
siendo k = número de muestras.
PROCEDIMIENTO9
1. Determinar si las muestras provienen de poblaciones normales.
2. Proponer las hipótesis.
3. Encontrar las medias poblacionales y las varianzas.
4. Encontrar la estimación de la varianza al interior de las muestras y sus grados
de libertad asociados glw.
5. Calcular la gran media para la muestra de las medias muéstrales.
6. Determinar la estimación de la varianza entre muestras y sus grados de libertad
asociados.
9 Tomado de Estadística. Richard C.Weimer. CECSA. Segunda Edición.2000

ESTADÍSTICA II
de contenidos
61

seleccionadas
7. Hallar el valor del estadístico de la prueba F.
8. Calcular el valor crítico para F basado en glb y glw.
9. Decidir si se rechaza H0.
Para ello se utilizan las siguientes fórmulas:
Suma de cuadrados total (SST o SCT)
Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr)

r
SCTR = ∑ rj ( X j − X ) 2
j =1
Suma de cuadrados del error (SSE o SCE)

r c
SCE = ∑ ∑(X ij − X j )2
i =1 j =1
O también SCE = SCT – SCTr
Grados de libertad
Gl. Totales = n – 1
Gl. Tratamientos = c -1
Gl. Error = n – c
Cuadrados medios (MS o CM)

PCT = SCT / Gl. SCT
PCTr = SCTr / Gl. SCTr
PCE = SCE / Gl. SCE
Estadístico calculado Fc
Fcalculado = PCTr / PCE
Regla de decisión
Si Fcalculado es mayor al Fcrítico se rechaza Ho indicando que los efectos de los
diferentes niveles del factor tienen efecto significativo en la respuesta.
La tabla de ANOVA final queda como sigue:
Cuadro N°15: Tabla ANOVA
SUMA DE GRADOS DE CUADRADO

FUENTE DE VARIACIÓN VALOR F
CUADRADOS LIBERTAD MEDIO
Entre muestras (tratam.) SCTR c-1 PCTR PCTR/PCE
Dentro de muestras (error) SCE n-c PCE
Variación total SCT n-1 PCT
Regla: No rechazar si la F de la muestra es menor que la F crítico para cierto nivel

de significancia.
ollo
nidos 62
nadas
Ejemplo10
Una empresa ensambla cuadros para un solo modelo de bicicleta. La planta trabaja
3 turnos: el matutino, el vespertino y el nocturno. Los trabajadores se rotan cada
torio Anotaciones uno de los turnos, por lo que, al cabo de un trimestre, todos ellos laboraron los
tres turnos. El director de producción quisiera saber si existe diferencia entre la
producción promedio de los 3 turnos, ya que la fábrica trabaja a plena capacidad
desde hace más de un año y no hay variaciones significativas en el número de em-
pleados, en la maquinaria, ni en los procesos productivos; el director considera que
con un análisis de varianza puede contestar esta pregunta; para ello obtiene una
muestra aleatoria de la producción de 6 días de cada turno. Los datos se muestran
a continuación:
TURNO
MATUTINO VESPERTINO NOCTURNO
129 138 118
141 142 120
128 140 132
145 149 118
135 129 136
144 148 138
Solución
i) Las hipótesis son:
Ho: µ1 = µ 2 = µ 3
H1: Por lo menos una de las medias poblacionales de los bloques (conductores) no
es igual las otras.
ii) X 1 = 137; X 2 = 141; X 3 = 127 , siendo la media global
129 + 141 + ... + 138
X Global = = 135
18
iii) Se obtiene la suma de cuadrados totales:
SCT = (129 − 135) 2 + ... + (144 − 135) 2 + (138 − 135) 2 + ... + (148 − 135) 2 + (118 − 135) 2 + ... + (138 − 135) 2
SCT=1608
iv) Se obtiene la suma de cuadrados de las variaciones entre los tratamientos:
SCTR = 6(137 − 135) 2 + 6(141 − 135) 2 + 6(127 − 135) 2 = 624
v) Se obtiene la suma de cuadrados de la variación aleatoria también llamada suma
de cuadrados del error, y es la variación dentro del tratamiento.
SCE = (129 − 137) 2 + ... + (144 − 137) 2 + (138 − 141) 2 + ... + (118 − 127) 2 + ... + (138 − 127) 2 = 984
Aquí es importante resaltar el modelo en el que se basa el diseño completamente

aleatorizado de un factor que se ilustra con el ejemplo.
vi) Con las sumas encontradas hasta aquí se puede verificar la igualdad:
SCT = SCTR + SCE

1608 = 624 + 984
vii) Se obtiene el promedio de los cuadrados entre tratamientos PCTR, para ello se
divide SCTR entre los grados de libertad de los tratamientos gtratamientos . Éste es
el primer promedio de cuadrados (varianza).
10 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONO-

MÍA, ALFRED DÍAZ MATA, CAPÍTULO 12, PÁG. 349
ESTADÍSTICA II
de contenidos
63

seleccionadas
624
PCTR = = 312
2
viii) Se obtienen la media de los cuadrados del error PCE, para ello se divide SCE
entre los grados de libertad totales gtotales. Éste es el segundo promedio de cua-
drados.
984
PCE = = 65.6
18 − 3
ix) Se obtiene el valor empírico de F, o sea el F calculado, que es el cociente de estos
dos últimos promedios de cuadrados.
PCTR 312
FCalculado = = = 4.76
PCE 65.6
x) El valor F crítico se busca en la tabla correspondiente a la distribución F, para el

nivel de significancia correspondiente 0.05 con 2 grados de libertad para el nume-
rador y 15 grados de libertad y 15 grados de libertad para el denominador.
Fcrítico = 3.68
xi) La regla de decisión; se rechaza la Ho si el Fcalculado es mayor que el Fcrítico.
Por lo tanto como 4.76 es mayor que 3.68 rechazamos la hipótesis nula y conclui-
mos que por lo menos una de las medias no es igual a las otras.
Para el director de producción de la fábrica la conclusión indica que no todos los

turnos trabajan igual, sino que existen diferencias entre ellos.
La misma serie de datos trabajada en el Excel arroja lo siguiente:
Haciendo click en Análisis de datos, luego en Análisis de Varianza de un factor y

seleccionando las celdas donde se encuentra la serie de datos se tiene:
ollo
nidos 64
nadas
torio Anotaciones
Donde encontramos el valor calculado y valor crítico para tomar la misma decisión.
Ejercicio11
Se diseñaron 4 tipos diferentes de examen para evaluar el aprovechamiento en un
curso de capacitación y, para probar si existen diferencias significativas en el diseño
de los exámenes se eligió un conjunto de 40 trabajadores en capacitación y se les
asignó uno de los 4 exámenes al azar, los tratamientos. Los resultados se muestran
a continuación y se incluyen los promedios de cada tratamiento:
EXÁMENES
A B C D
71 84 79 92
72 94 92 70
80 77 73 74
70 84 86 70
85 96 82 74
77 84 98 85
79 86 98 70
95 99 82 75
63 96 91 62
80 86 64 90
77.2 88.6 84.5 76.2
PROMEDIO
Como los exámenes se asignaron aleatoriamente a los trabajadores, se pensaría
que las diferencias entre los promedios de las calificaciones en los 4 subconjuntos
se deben a diferencias entre los propios exámenes, salvo diferencias aleatorias o
errores normales de muestreo que en este caso pueden deberse a diferencias per-
sonales entre los examinados. Verifique Ud si hay diferencias entre las medias de
los 4 exámenes.
2 ANOVA de dos factores

Cuando en un experimento, dos factores pueden influenciar las unidades experi-
mentales, se usa un análisis de varianza de dos vías denominado diseño de bloque
11 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y

ECONOMÍA, ALFREDO DÍAZ MATA, CAPÍTULO 12, PÁG. 350
ESTADÍSTICA II
de contenidos
65

seleccionadas
aleatorizado, en el cual se comparan k tratamientos ubicados en columnas con blo-
ques que se basan en un factor ubicado en r filas.
Cuadro N°16: ANOVA DOS FACTORES Recordatorio Anotaciones
TRATAMIENTOS
A
1 2 3 MEDIAS (HORIZONTAL)
1
BLOQUES
2
3
MEDIAS (VERTICAL) MEDIA GLOBAL
En este caso la desviación cuadrática total puede ser desdoblada en tres sumandos
debido a razones intergrupales (por efectos del tratamiento) simbolizada como
DCT, en un sumando debido a razones intergrupales (por efectos de errores aleato-
rios) DCE y en otro sumando debido a razones de bloque DCbloque. La desviación
cuadrática intrabloque DCbloque es similar a la desviación cuadrática de los trata-
mientos sólo que en vez de trabajar a nivel de los términos de una fila, se trabaja
a nivel de los términos de una columna. De manera análoga, el cuadrado medio
intrabloque es similar al cuadrado medio intragrupo sólo que en vez de trabajar a
nivel de los términos de una fila se hace a nivel de los términos de una columna.
DCE
El cuadrado medio de los errores se define como: CME =
(r − 1)(k − 1)
Se generan entonces las siguientes razones:
CMtrat CMbloque
Ftrat = Fbloques = Fcalculado =
CMerr y CMerr
El criterio de decisión es: si Fcalculado < Fα ,k −1,( k −1)( r −1) , no rechazar la
hipótesis nula.
Ejemplo
La tabla que se presenta a continuación corresponde a una muestra aleatoria del
proceso de producción de una empresa metal mecánica que registra la producción
obtenida durante cinco días consecutivos. Los bloques corresponden a los cinco
días de la semana y los tratamientos a la producción en unidades físicas obtenidas
de cada máquina.
Para un nivel de significancia del 5% se requiere determinar si las diferencias entre
la producción de las máquinas son significativas.
DIAS MÁQUINAS
DIAS Prof. 1 2 3 4
1 30 31 32 33
2 30 35 34 36
3 28 32 35 37
4 29 36 37 35
5 30 34 34 33
Solución
i) La solución la realizaremos íntegramente utilizando el Excel, para ello co-
piamos la tabla dada a una hoja de Excel, vamos a Datos…Análisis de Datos…y
Análisis de Varianza de dos factores con una sola muestra por grupo.
ii)
ollo
nidos 66
nadas
torio Anotaciones
iii) Luego:
Se observa que Fcalculado=12,89895 el cual es mayor que el
por lo que se rechaza la hipótesis nula y se conclu-

ye que la producción media de las máquinas tienen diferencias significativas.
Ejercicio
El Jefe de Departamento de la universidad está desarrollando un programa de evalua-
ción de docentes que debe ser efectuado por los alumnos. Para estos efectos se seleccio-
nó aleatoriamente a 5 alumnos de un salón de clases y se pidió que evalúen a sus cuatro
profesores del ciclo que está a punto de concluir. La calificación de los docentes sobre
un escala vigesimal se presenta en el siguiente cuadro:
DIAS TRATAMIENTO
ALUMNOS Prof. 1 Prof. 2 Prof. 3 Prof. 4
1 13.2 15.0 18.6 15.8
2 12.1 13.2 17.5 15.1

ESTADÍSTICA II
de contenidos
67

seleccionadas
3 9.3 9,6 15.2 10.2
4 12.8 16.1 19.1 16.2
5 11.7 10.9 16.2 10.3 Recordatorio Anotaciones

Efectúe un estudio ANOVA e interprete los resultados. Considere un nivel de sig-
nificancia del 0.05.

de contenidos
seleccionadas
LA PARADOJA DEL CUMPLEAÑOS

¿Cómo
Recordatorio
dirías que es la probabilidad de que en un grupo de 23 personas dos de ellas
Anotaciones
celebren su cumpleaños el mismo día? Pues ahora calcúlala. ¿Coincide tu intuición con
lo que dicen las matemáticas?
La paradoja del cumpleaños establece que si hay 23 personas reunidas hay una probabi-
lidad del 50,7% de que al menos dos personas de ellas cumplan años el mismo día. Para
60 o más personas la probabilidad es mayor del 99%. Obviamente es casi del 100% para
366 personas (teniendo en cuenta los años bisiestos).
En sentido estricto esto no es una paradoja ya que no es una contradicción lógica; es
una paradoja en el sentido que es una verdad matemática que contradice la común
intuición. Cuando se propone este problema por primera vez y se pide una estimación
sobre el tamaño mínimo que debería tener un grupo para que sea más probable que
improbable que dos personas compartan el día del cumpleaños, la mayoría de las per-
sonas se equivoca por completo.
La respuesta intuitiva que se da a menudo es 183, es decir 365 dividido entre dos. La
cantidad correcta no es algo a lo que la gente pueda llegar fácilmente y, ciertamente, no
por intuición. Es bastante extraño que las primeras estimaciones sean inferiores a 40. Y
sin embargo la respuesta es 23.
La clave para entender estas "sorprendentes" recurrencias es pensar que hay muchas
posibilidades de encontrar parejas que cumplan años el mismo día.
Un análisis superficial asume que 23 días (cumpleaños de las 23 personas) es una frac-
ción demasiado pequeña del posible número de días distintos (365) para esperar repe-
ticiones. Y así sería si esperáramos la repetición de un día dado. Pero las repeticiones,
en el caso supuesto, pueden darse entre dos días cualesquiera, con lo que éstas pueden
combinarse entre sí de un número de formas que aumenta rápidamente con el número
de elementos a considerar. Así:
• Entre dos personas C1 y C2 sólo cabe una posibilidad de repetición de cumpleaños:
Cl=C2.
• Con tres ya hay tres posibilidades (Cl=C2; Cl=C3; C2=C3)
• Con cuatro ya habría seis, (4x3)/2=6
• Con un grupo de 10 personas, (10x9)/2=45 posibilidades
• Con 23 personas, hay (23×22)/2 = 253 parejas distintas, cada uno de ellas es una
candidata potencial para cumplir la paradoja
• Y así sucesivamente, en uno de 40, ya son 780 las parejas, y 1770 si juntamos 60 per-
sonas.
No hay que malinterpretar lo que nos dice esta paradoja: Si entramos en una habita-
ción con 22 personas, la probabilidad de que cualquiera cumpla años el mismo día que
usted, no es del 50%, es mucho más baja, sólo hay un 6% de probabilidades. Esto es de-
bido a que ahora sólo hay 22 parejas posible y se necesitan 253 personas para que haya
más de un 50% de probabilidades de que esto ocurra.
El problema real de la paradoja del cumpleaños consiste en preguntar si el cumpleaños
de cualquiera de las 23 personas coincide con el cumpleaños de alguna de las otras
personas.
Ejemplos de coincidencias
• En los jugadores del Osasuna (liga 2005/06) hay coincidencias de cumpleaños
ollo
nidos 68
nadas
• De un total de sólo 19 monarcas españoles desde los reyes Católicos, coinciden
Carlos II con Carlos IV (11 de noviembre) y José I con Juan Carlos I (5 de enero).
• De los 40 presidentes de USA hasta Reagan: Polk y Harding nacieron un 2 de no-
torio Anotaciones viembre.
Puedes creer que esto puede ser casualidad o si eres mal pensado que está preparado,
por eso nada mejor que hacer un estudio probabilístico riguroso de esta paradoja
Estimación de la probabilidad
¿Cuál es la probabilidad de que en un grupo de n personas, por lo menos dos de ellas
coincidan en su cumpleaños?, desechamos los años bisiestos y los gemelos, y asumimos
que existen 365 cumpleaños que tienen la misma probabilidad.
Solución
Utilizando la regla de Laplace y la combinatoria:
El truco es calcular primero la probabilidad de n personas tengan cumpleaños diferen-
tes
Sea el suceso:
A = {"al menos dos personas celebran su cumpleaños a la vez"}
y su complementario:
Ac = {"no hay dos personas que celebren su cumpleaños a la vez"}
Caso particular: n=5
El número de casos posibles de celebración de cumpleaños, suponiendo el año de 365
días, es:
3655 = 6,478 × 10 12
El número de casos favorables : como la primera de las personas puede haber nacido
uno de los 365 días del año, la siguiente unos de los 364 días restantes y así sucesiva-
mente, resultan365 × 364 × 363 × 362 × 361 = 6,303 × 10 12 casos de que no existan dos
personas que hayan nacido el mismo día .
Aplicando la regla de Laplace
P(Ac) =casos favorables/casos posibles =6,303 / 6,478 = 0,973
p(A) = 1 - p(Ac) = 1 - 0,973 = 0,027
El problema puede generalizarse para una reunión de n personas.
La probabilidad de que al menos dos de ellas cumplan años el mismo día es:
Para n = 23, 30 y 50 la probabilidad mencionada es: 0.51, 0.71 y 0.97 respectivamente.

Como se ve, para n = 23 existe, aproximadamente, una probabilidad a la par que por
lo menos coincidan dos cumpleaños, y cuando n= 50, tenemos casi la certeza de que
ocurrirá la coincidencia
ACTIVIDAD N° 1
de contenidos

seleccionadas
ACTIVIDAD N° 2
de contenidos

seleccionadas
TAREA ACADEMICA N° 1
de contenidos
Esta actividad puede consultarla en su aula virtual


seleccionadas
ESTADÍSTICA II
Objetivos Inicio
de contenidos
69
os Lecturas Glosario Bibliografía
seleccionadas
BIBLIOGRAFÍA DE LA UNIDAD II:

s
Triola, M.(2012). Estadística. México: Pearson Educación

Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicacio-
nes. Mexico: Prentice Hall
o Anotaciones
Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuar-
ta Edición.
Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera
Edición
Objetivos Inicio
AUTOEVALUACIÓN DE LA UNIDAD II
s En los últimos años se han registrado un gran número de lavadoras de ropa, tanto elec-
trónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y
comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado
una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos
s de reparación en soles. Se sabe que el número de fallas tiene distribución normal.
N° 1 2 3 4 5 6 7 8 9 10 11
o Anotaciones
Electrónico 178 161 194 204 185 179 173 172 108 181 185
Mecánico 128 89 150 191 188 209 53 131 184 97 112

A un nivel de significación del 5%, ¿los costos de reparación de ambos tipos de
lavadoras son homogéneos?
Respecto a la resolución del problema marque lo incorrecto.
A) Ho: 2
1
= 2
2
H1: 2
1
≠ 2
2
S 12
B) Fexp = = 0,2491
S 22
C) F1 = 0,2688
D) F2 = 3,72
E) = 615,87273
2.- En los últimos años se han registrado un gran número de lavadoras de ropa,
tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea
analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se
ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado
en la tabla los costos de reparación en soles. Se sabe que el número de fallas tiene
distribución normal.
N° 1 2 3 4 5 6 7 8 9 10 11
Electrónico 178 161 194 204 185 179 173 172 108 181 185
Mecánico 128 89 150 191 188 209 53 131 184 97 112

¿El costo de reparación de las lavadoras electrónicas es significativamente superior
al costo de reparación de las lavadoras mecánicas? Utilice un nivel de significación
del 5%.
Respecto a la resolución del problema marque lo incorrecto.
A) Ho: 1 2
H1: 1
> 2
Texp =
(x − x )− (µ − µ )
1 2 1 2 o
= 2,10512
B) S12 S 22
+
n1 n2
ollo
nidos 70
nadas
2
 S12 S 22 
 + 
 n1 n2 
v= 2 2
≈ 16
torio Anotaciones C)  S12   S 22 
   
 n1   n2 
+
n1 − 1 n2 − 1
D) Tcrítico= 1,75305
E) A un nivel de significación del 5%, se puede afirmar que el costo de reparación
de las lavadoras electrónicas es significativamente superior al costo de reparación
de las lavadoras mecánicas.
3.- El ingeniero de control de calidad de la fábrica M, afirma que la resistencia de

cierto material que producen es mayor que la resistencia del mismo material produ-
cido por la fábrica N. Un laboratorio particular realiza un experimento sobre estos
materiales y los resultados (en ohmios) se muestra a continuación:
Fábrica M 0,140 0,138 0,143 0,142 0,144 0,141 0,137
Fábrica N 0,135 0,140 0,136 0,142 0,138 0,135 0,140

Asuma poblaciones normales. Con un nivel de significancia del 5%, indique lo correcto.
a) F calculado = 0.9622
b) F crítico = 6.82
c) t calculado= 1.8695
d) t critico = 1.98229
e) Se rechaza lo que afirma el ingeniero.
4.- Un fabricante de impresoras desea estimar la vida media de sus margaritas de im-
presión. La estimación ha de estar dentro de 2 horas en torno a la media y tener un
nivel de confianza del 90%. Si una muestra piloto revela una desviación típica de 25
horas, ¿cuál debe ser el tamaño de la muestra?
a) 164
b) 423
c) 24
d) 115
e) 625
5.- En los últimos años se han registrado un gran número de lavadoras de ropa, tan-
to electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea
analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se
ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado
en la tabla los costos de reparación en soles. Se sabe que el número de fallas tiene
distribución normal.
N° 1 2 3 4 5 6 7 8 9 10 11
Electrónico(1) 178 161 194 204 185 179 173 172 108 181 185
Mecánico(2) 128 89 150 191 188 209 53 131 184 97 112

A un nivel de significación del 5%, respecto a la homogeneidad del costo de repa-
ración de ambos tipos de lavadoras, no es correcto:
a) Fexp= 0.2491
b) F crítico=0.2688 y 3.72
c) Varianza (1)=615.87
d) Varianza (2)=2572.42
e) El costo de reparación es homogéneo
6.- Varios accidentes de automovilísticos menores ocurrieron en varios cruces de alto

riesgo en un distrito urbano a pesar de los señalamientos de tránsito (semáforos).
El departamento de tránsito afirma que una modificación en el tipo de semáforo
ESTADÍSTICA II
de contenidos
71

seleccionadas
reducirá los accidentes. Los integrantes de la junta municipal han acordado realizar
un experimento que se ha propuesto. Se eligieron aleatoriamente ocho cruces y se
modificaron los semáforos correspondientes. Utilice un nivel de significación del
1% para analizar si la junta logró su objetivo, si el número de accidentes de tránsito
durante un período de seis meses antes y después de las modificaciones fue:
N° Cruces
A B C D E F G H
Antes de la modificación 5 7 6 4 8 9 8 10
Después de la modificación 3 7 7 0 4 6 8 2
a) = 0.005
b) Tcalculado=2.3152
c) T critico = 2.798
d) Sd = 2.8277
e) d = 2.5
7. Relacione las columnas:
a) Probabilidad de aceptar la hipótesis nula dado que es falsa. ( )Probabilidad de

rechazar la hipótesis nula dado que es verdadera.
b) Prueba de independencia ( )Enunciado acerca del parámetro de una o más
poblaciones.
c) Probabilidad del error de tipo I ( )Analiza la asociación entre variables.
d) Hipótesis ( )Probabilidad de error tipo II
a) cdba
b) cbda
c) acbd
d) acdb
e) dcba
8.- El proyecto académico de un ingeniero es el diseño de un experimento a fin de de-

terminar el rendimiento de 4 variedades de papa sin tener en cuenta la influencia
de la fertilidad de las tierras de cultivo. Las 20 parcelas de igual fertilidad que le
fueron asignadas las dividió en 4 grupos de 5 parcelas cada una. A cada grupo de
parcelas le asignó una variedad distinta de papa escogida al azar, resultando un di-
seño completamente aleatorizado. Los rendimientos medidos en kilogramos de las
cinco variedades por parcela se dan en la tabla que sigue.
VARIEDADES DE PAPA
V1 V2 V3 V4
55 52 53 52
53 58 55 50
60 50 57 51
52 60 51 49
53 52 54 53
Al nivel de significación del 5% ¿se puede inferir que existen diferencias significati-
vas entre las producciones medias de las 4 variedades de papa?
Luego señale lo incorrecto.
a) α=0.05
b) Ho: µ1 = µ 2 = µ 3 = µ 4
c) SCA=42.6
d) SCT=189
e) Fcrítico=3.16
ollo
nidos 72
nadas
9.- La empresa de transportes “DEL VALLE” va a adquirir una de 4 marcas de neu-
máticos que hay en el mercado. El ingeniero de pruebas de la empresa diseñó un
experimento escogiendo al azar seis neumáticos de cada marca de características
torio Anotaciones
similares. En el laboratorio de pruebas, con una carga específica simulada, observó
la duración de cada neumático hasta que se deteriore. Los datos redondeados en
miles de kilómetros se dan en la tabla siguiente.
MARCAS DE NEUMÁTICOS
N1 N2 N3 N4
55 63 48 59
53 67 50 68
50 55 59 57
60 62 50 66
55 70 47 71
65 75 61 73
Al nivel de significancia del 5% ¿indican estos datos que las marcas de neumáticos
producen efectos significativos en el rendimiento?
Luego marque lo incorrecto.
a) Fcalculado=6.77
b) SCT=1550.96
c) SCA=781.46
d) SCE=769.5
e) Fcrítico=3.10
10.- Una empresa de confecciones textiles realiza un estudio para determinar el mejor
de tres métodos de montaje de una prenda específica. Con este fin diseñó un ex-
perimento para comparar los tres métodos seleccionando cinco operarios que se
supone son de velocidad homogénea para reducir la variación debido a los opera-
rios, asignando a cada operario los tres métodos por tiempos iguales. El número de
prendas terminadas por cada operario y con cada método en el tiempo fijado se da
en la tabla que sigue.
MÉTODO
OPERARIO I II III
1 3 9 5
2 4 8 6
3 3 7 8
4 5 9 7
5 4 6 9
Al nivel de significancia del 5% ¿existirá alguna diferencia entre los métodos de

montaje de las prendas?
Marque lo incorrecto.
a) SCA=44.8
b) SCE=16.533
c) SCT=69.9
d) FB=0.377
e) FA=13.714
ESTADÍSTICA II
Desarrollo
de contenidos
73

seleccionadas
Desarrollo
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICAS
de contenidos
Lecturas
seleccionadas DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD III
CONTENIDOS
Recordatorio
Desarrollo
Anotaciones
Actividades Autoevaluación EJEMPLOS ACTIVIDADES
de contenidos
Lecturas
seleccionadas
Glosario AUTOEVALUACIÓN
Bibliografía BIBLIOGRAFÍA


de contenidos
Tema N° 1: Pruebas de signos 1. Aplica la prueba del signo y 1. Valora reflexivamente la im-
1. Prueba del signo rangos con signo para series portancia de las pruebas no
2. Prueba de rangos con signo de datos dependientes e inde- paramétricas, de los modelos
de Wilcoxon para datos apa- pendientes de predicción y métodos de
reados Glosario
Lecturas Bibliografía control de procesos estadísti-
seleccionadas 2.
Analiza distintas series de
3. Prueba de la suma de rangos cos para la toma de decisio-
datos aplicando las pruebas
con signo de Wilcoxon para nes
de bondad, independencia y
muestras independientes
homogeneidad
Tema Nº 2: Experimentos mul- 3. Realiza las pruebas no para-
RecordatorioAnotaciones
tinomiales y tablas de contin- métricas a series de datos de-
gencia pendientes e independientes.
1. Bondad de ajuste 4. Valida la aleatoriedad de una
2. Independencia y homogenei- muestra aplicando la prueba
dad de rachas
Tema Nº 3: Pruebas no paramé-

tricas Actividad N° 1
1. Prueba de Kruskal – Wallis Actividad N° 2
2. Prueba de correlación de Control de Lectura Nº 2
rangos.
3. Prueba de rachas

¿Los estudiantes clasifican a
las universidades de la misma
manera que el U.S. News and
World Report? Mario Triola.
Página 675
Autoevaluación de la Unidad III

ollo
nidos 74
Actividades Autoevaluación UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
nadas
TEMA N° 1: PRUEBAS DE SIGNOS
Como has podido observar la mayoría de las pruebas que hemos realizado se refiere al
torio Anotaciones
análisis del parámetro poblacional como la media, varianza y proporción para lo cual
se hicieron supuestos sobre las poblaciones a quienes pertenecían las muestras, dichos
supuestos por ejemplo era que provenían de poblaciones con comportamiento normal.
Pero en la práctica no siempre las poblaciones son normales por lo que ya no podría-
mos aplicar los métodos anteriormente estudiados, se necesita para ello algún método
alternativo que requiera dicha suposición. Estos métodos son conocidos como Pruebas
no paramétricas o sin distribución, los cuáles nos permiten realizar inferencias en situa-
ciones donde no conocemos el comportamiento probabilístico de la variable en análisis.
Su gran ventaja respecto a los métodos paramétricos es que utiliza cálculos que no son
tan laboriosos además de no tener en cuenta la forma de la distribución (función de
probabilidad). Hay que tener en cuenta que las pruebas no paramétricas se ven limita-
das por la pérdida de información al trabajar sólo con los rangos por lo que a menudo
no son tan claras o eficientes pero esto se ve recompensado por la sencillez, rapidez y
necesidad de utilizar poca información.
En realidad existe una gran cantidad de pruebas de las cuáles desarrollaremos las más
conocidas y utilizadas, de las cuáles podemos observar su eficiencia respecto a las prue-
bas paramétricas:
Cuadro Nº 16: TIPOS DE PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS1
TASA DE EFICIENCIA
APLICACIÓN PRUEBA PARAMÉTRICA PRUEBA NO PARAMÉTRICA DE LA PRUEBA NO
PARAMÉTRICA CON
POBLACIÓN NORMAL
Datos apareados de los Prueba t o prueba z Prueba del signo 0.63
datos muestrales Prueba de rangos con 0.95
signo de Wilcoxon
Dos muestras Prueba t o prueba z Prueba de la suma de 0.95

independientes rangos de Wilcoxon
Varias muestras ANOVA( prueba F) Prueba de Kruskal- 0.95

independientes Wallis
Correlación Correlación lineal Prueba de correlación 0.91

de rangos ordenados
Aleatoriedad Prueba no paramétrica Prueba de rachas Sin bases para

comparación
Para las pruebas de signos y alguna otra prueba no paramétrica, al lugar que ocupa cada
dato ordenado de menor a mayor se le conoce como rango, y si hay algún empate entre
los rangos se utiliza la media de dichos rangos en cada uno de los datos, de la siguiente
forma:
Serie de datos inicial: 3;6;6;6;11;14;14 y 16
Análisis de rangos:
Dato 3 6 6 6 11 14 14 16
Posición 1 2 3 4 5 6 7 8
RANGO 1 3 3 3 5 6.5 6.5 8
1 Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 677.

ESTADÍSTICA II
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICADesarrollo
de contenidos
75

seleccionadas
1 PRUEBA DEL SIGNO
La prueba no paramétrica más sencilla es el contraste de signos, la que se utiliza
principalmente para contrastar la hipótesis sobre la posición central (mediana) de
una distribución poblacional o para analizar datos de muestras pareadas o enla-
zadas de una población. Al igual que la media, la mediana es una medida de cen-
tralización, en este caso referida a la ubicación, por ello también se le conoce a la
prueba de signo como prueba de ubicación. Por ejemplo, el contraste de hipótesis
de signo se utiliza mucho en los estudios de mercados para analizar la preferencia
de los consumidores entre dos productos, para verificar si un nuevo sistema de
producción aumenta la eficiencia de los trabajadores, para analizar el nivel de acep-
tabilidad entre dos directivos de una misma empresa, etc. El procedimiento de la
prueba del signo se resume en el siguiente diagrama.
Por razones de simplicidad utilizaremos como estadístico de prueba (x) al número

de veces en que ocurre el signo menos frecuente.
Es importante indicar que como toda prueba no paramétrica no existe el supuesto
de normalidad respecto a la población, pero si requiere que la muestra sea aleatoria
para darle validez.
Se supone que se tienen datos antes y después para una muestra y se desean compa-
rar estos conjuntos de datos correspondientes. Se hace restando las observaciones
por pares, y se anota el signo algebraico resultante. No es importante la magnitud
de la diferencia, sino solo si resulta un signo más o un signo menos.
DIAGRAMA Nº 01 : PRUEBA DEL SIGNO2
2 Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 679
ollo
nidos 76
nadas
La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si
esto es cierto, entonces un signo más y un signo menos son igualmente probables.
La probabilidad (π) de que ocurra cualquiera es de 0.50. Una prueba de dos ex-
torio Anotaciones
tremos es:
H0: m = p o Med1=Med2
H1: m ≠ p o Med1≠Med2
Donde m y p son los números de signos menos y de signos más, respectivamente.

Del mismo modo utilizando la probabilidad π:
H0: π1 = 0.5
H1: π1 ≠ 0.5
Una prueba de un solo extremo es:

H0: m = p
H1: m > p
ó
H0: m = p
H1: m < p
Lo que quiere decir que si dos conjuntos de datos tienen medianas iguales, enton-
ces el número de signos positivos debe ser aproximadamente igual al número de
signos negativos.
Ejemplo3
Se le pidió a un grupo de 20 alumnos que calificaran el desempeño de 2 profesores,
de acuerdo con varios criterios y en una escala de 1 a 10. Se obtuvieron los resulta-
dos que se muestran a continuación:
CALIFICACIÓN
ALUMNO PROFESOR A PROFESOR B

1 7 9
2 5 6
3 8 5
4 9 8
5 3 4
6 8 5
7 10 10
8 8 9
9 3 6
10 5 4
11 7 10
12 9 6
13 5 3
14 4 4
15 7 9
16 10 10
17 10 9
18 5 8
19 5 4
20 6 6
3 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONO-

MÍA, ALFREDO DÍAZ MATA, CAPÍTULO 17, PÁG. 521
ESTADÍSTICA II
de contenidos
77

seleccionadas
Probar a un nivel de significancia de 0.05 la hipótesis de que no existe diferencia
entre las calificaciones asignadas por los alumnos a los dos profesores.
Solución
i) Planteamos las hipótesis: Recordatorio Anotaciones
H0: Med1 = Med2

H1: Med1 ≠ Med2
o de manera equivalente:
H0: π1 = 0.5
H1: π1 ≠ 0.5
ii) Hallamos los signos de las diferencias restando x1-x2:
ALUMNO PROFESOR A (X1) PROFESOR B (X2) Signo de (X1-X2)

1 7 9 -
2 5 6 -
3 8 5 +
4 9 8 +
5 3 4 -
6 8 5 +
7 10 10 0
8 8 9 -
9 3 6 -
10 5 4 +
11 7 10 -
12 9 6 +
13 5 3 +
14 4 4 0
15 7 9 -
16 10 10 0
17 10 9 +
18 5 8 -
19 5 4 +
20 6 6 0
iii) Al encontrar las diferencias igual a cero, eliminamos sus respectivos pares por lo
que el nuevo tamaño de muestra es n=16. Importante recordar que el cero no tiene
signo, por lo que no se le puede asignar el signo positivo.
iv) El estadístico de prueba x es el número de veces que se repite el signo menos

frecuente, por lo que x=8.
v) Contrastando con la tabla de valores críticos para la prueba del signo de Mario
Triola, el valor crítico con un nivel de significancia de 0.05 y n=16, es: 3. La tabla de
valores críticos se presenta a continuación.
vi) Se rechaza la hipótesis nula si el estadístico de prueba es menor o igual que el

valor crítico. Por lo tanto, al ser el estadístico de prueba mayor que el valor crítico,
se acepta la hipótesis nula, por lo que existe evidencia estadística para aseverar que
no hay diferencia en la opinión de los alumnos respecto a las calificaciones de los
dos profesores.
Es importante notar que la tabla de valores críticos para la prueba del signo evita
que usemos un análisis adicional utilizando la distribución de probabilidad bino-
ollo
nidos 78
nadas
mial con P=0.5 y n=16 y comparar la probabilidad acumulada generada por la mues-
tra y el nivel de significancia.
torio Anotaciones CUADRO Nº 17: VALORES CRÍTICOS PARA LA PRUEBA DEL SIGNO4
.005 .01 .025 .05

no
(una cola ) (una cola ) (una cola ) (una cola )
01 02 05 .10
(dos colas) (dos colas) (dos colas) (dos colas)
1 * * * *
2 * * * *
3 * * * *
4 * * * *
5 * * * 0
6 * * 0 0
7 * 0 0 0
8 0 0 0 1
9 0 0 1 1
10 0 0 1 1
11 0 1 1 2
12 1 1 2 2
13 1 1 2 3
14 1 2 2 3
15 2 2 3 3
16 2 2 3 4
17 2 3 4 4
18 3 3 4 5
19 3 4 4 5
20 3 4 5 5
21 4 4 5 6
22 4 5 5 6
23 4 5 6 7
24 5 5 6 7
25 5 6 7 7
Notas
1. * Indica que no es posible obtener un valor en región crítica
2. Rechace la hipótesis nula si el número del signo menos frecuente (x) es mejor
que o igual al valor en la tabla
3. Para valoresde n mayores que 25, se utiliza una aprox. normal con :
(x+0.5) - n
Z= 2
n
2
4 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 743

ESTADÍSTICA II
de contenidos
79

seleccionadas
Ejemplo
Un analista de mercado desea medir la efectividad de una campaña promocional
del producto de su empresa. Antes de la campaña, selecciona 12 tiendas minoristas
y registra las ventas del mes. Durante el segundo mes se termina la campaña promo-
cional y se registran de nuevo las ventas. El cuadro siguiente muestra los niveles de
ventas, del primer y segundo mes.
Se desea probar con un nivel de significancia de 0.05 que la campaña promocional
incrementó las ventas.
TIENDA ANTES DESPUES

1 $4200 $4000
2 $5700 $6000
3 $3800 $3800
4 $4900 $4700
5 $6300 $6500
6 $3600 $3900
7 $4800 $4900
8 $5800 $5000
9 $4700 $4700
10 $5100 $5200
11 $8300 $7200
12 $2700 $3300
Solución
i) Planteamos las hipótesis:
H0: m = p
H1: m > p
Se entiende que para que la promoción sea exitosa se requiere que el número de dife-
rencias negativas sea pertinentemente grande, o sea interesa que el número de signos
menos sea mayor que el número de signos positivos. Planteando de otra manera utili-
zando la probabilidad:
H0: π1 = 0.5
H1: π1 > 0.5
ii) Hallamos los signos de las diferencias:
TIENDA ANTES X1 DESPUES X2 Signo de (X1-X2)

1 $4200 $4000 +
2 $5700 $6000 -
3 $3800 $3800 0
4 $4900 $4700 +
5 $6300 $6500 -
6 $3600 $3900 -
7 $4800 $4900 -
8 $5800 $5000 -
9 $4700 $4700 0
10 $5100 $5200 -
11 $8300 $7200 +
12 $2700 $3300 -
ollo
nidos 80
nadas
iii) Eliminando los ceros, el valor de n=10. El estadístico de prueba es x=3
iv) Utilizando la tabla de valores críticos para la prueba del signo al 0.05 en una cola
el valor crítico es 1.
torio Anotaciones v) Como el estadístico de prueba es mayor que el valor crítico no se rechaza la hi-
pótesis nula. Por lo tanto existe evidencia estadística para aceptar la hipótesis nula,
y se concluye que la campaña promocional no fue exitosa.
Valor de Z para prueba del signo con muestras grandes (n ≥ 25)
x + 0.5 − 0.5n
Z=
0.5 n
Ejemplo
Se ha pedido a una muestra aleatoria de 100 niños que comparen dos nuevos sabo-
res de helado: mantequilla de maní y fresa. Cincuenta y seis miembros de la mues-
tra prefieren el helado de mantequilla de maní, 40 el de fresa y 4 no manifiestan
ninguna preferencia. Averigüe si existe una preferencia general por cualquiera de
los dos sabores con un nivel de significancia de 0.05
Solución
i) Sea P la proporción de la población que prefiere el helado de fresa, por lo que
x=40, siendo el valor de n=96
H0: P = 0.5 H1: P≠0.5
ii) El valor del estadístico de prueba es:
40 + 0.5 − 0.5.x96
Z= =-1,53
0.5 x 96
iii) Analizando el valor crítico:
iv) Como el estadístico de prueba cae en la región de aceptación, existe evidencia

estadística para aceptar la hipótesis nula, entonces se concluye que no hay preferen-
cia de los niños por alguno de los dos sabores de helados.
Ejercicio
Los siguientes datos muestran los índices de trabajo defectuoso de los empleados
antes y después de un plan de capacitación. Compare los dos conjuntos de datos
siguientes para ver si el plan de capacitación disminuyó las unidades defectuosas
producidas. Utilice el nivel de significancia de 0.10.
antes 8 7 6 9 7 10 8 6 5 8 10 8
después 6 5 8 6 9 8 10 7 5 6 9 8
Ejercicio
Un taller de reparación para CPUs de computadoras cambió el método de pago
de salario por hora a salario por hora más un bono calculado sobre el tiempo re-
querido para desmontar, reparar y volver a ensamblar el CPU. Los siguientes son
datos recabados para 25 CPUs antes del cambio y 25 después para el número de
horas requeridas. A un nivel de significancia de 0.10, ¿el nuevo plan incrementó la
productividad?
ESTADÍSTICA II
de contenidos
81

seleccionadas
antes 29 34 32 19 31 22 28 31 32 44 41 23 34
después 32 19 22 21 20 24 25 31 18 22 24 26 41
antes 25 42 20 25 33 34 20 21 22 45 43 31
después 34 27 26 25 31 19 22 32 31 30 29 20
Ejercicio
Se ha examinado una muestra de 50 empresas peruanas que compraron franquicias
el año 2012. Los rendimientos de las acciones en torno a la fecha de compra fue-
ron positivos 31 veces, negativos 12 y cero 3. Contraste la hipótesis de que hay una
mayor probabilidad de rendimientos positivos alrededor de la fecha de compra de
una franquicia.
2 PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA DATOS APA-

READOS.
Uno de los inconvenientes de la prueba del signo es que no maneja mucha informa-
ción, sólo el signo de las diferencias, sobre todo cuando la muestra es muy pequeña.
La prueba de rangos con signos de Wilcoxon además del signo de las diferencias
incorpora la magnitud de las mismas por lo que refleja mejor el comportamiento
de las muestras. En el análisis de muestras por pares, cada una genera una ob-
servación. Las diferencias entre los pares de dichas observaciones nos permiten
analizar las diferencias entre las poblaciones. Por ejemplo, en una gran empresa
de alimentos se quiere analizar los tiempos que dos métodos de producción dis-
tintos requieren para obtener un producto, los operadores de las máquinas serán
elegidos aleatoriamente de manera que cada uno obtiene dos registros. Luego de
realizar la diferencia entre dichos registros de cada trabajador se tiene el siguiente
razonamiento: Una diferencia positiva de los tiempos utilizados por cada método
indica que el primero requiere un tiempo mayor, y una diferencia negativa indica
que el segundo requiere de más tiempo. Entonces, ¿los datos obtenidos indican
que los métodos son significativamente diferentes respecto al tiempo requerido
por cada uno?
Cada método genera una población de tiempos utilizados para obtener el mismo
producto, por lo que podemos establecer las siguientes hipótesis:
H0: Las poblaciones son idénticas
H1: Las poblaciones no son idénticas
No existe el requisito de que los datos provengan de una distribución normal.
El procedimiento lo podemos resumir de la siguiente manera:
- Se ordenan las observaciones relacionadas en dos columnas y se resta el segun-
do del primero.
- Se descartan los pares donde la diferencia es cero.
- A las n diferencias absolutas restantes se les asigna los rangos analizando los
valores de menor a mayor, es decir, el menor valor absoluto tendrá rango 1, el
siguiente rango 2, hasta llegar al mayor valor.
- En caso de empates el rango asignado es la media de los rangos que ocupan en
la ordenación de menor a mayor.
- Se calculan las sumas de los rangos correspondientes a las diferencias positivas y
negativas, siendo T la más pequeña de las dos sumas.
- Si n≤30, el valor crítico T se encuentra en la tabla de valores críticos para la Prue-
ba de rangos con signo de Wilcoxon. Cuando plantee la conclusión, rechace la
hipótesis nula si los datos muestrales le llevan a un estadístico de prueba que se
ubica en la región crítica, esto es, cuando el estadístico de prueba sea menor o
igual que el valor (o los valores) crítico(s).
n(n + 1)
T−
4
- Si n>30, el estadístico de prueba es: Z = n(n + 1)(2n + 1) y el valor crítico en la
tabla de valores críticos z. 24
ollo
nidos 82
nadas
Cuadro N°18: VALORES CRÍTICOS T PARA LA PRUEBA DE RANGOS CON SIGNO
Valores críticos de T para la prueba de rangos con signo de wilcoxon5
.005 .01 .025 .05

torio Anotaciones
no (una cola ) (una cola ) (una cola ) (una cola )
01 02 05 .10
(dos colas) (dos colas) (dos colas) (dos colas)
5 * * * 1
6 * * 1 2
7 * 0 2 4
8 0 2 4 6
9 2 3 6 8
10 3 5 8 11
11 5 7 11 14
12 7 10 14 17
13 10 13 17 21
14 13 16 21 26
15 16 20 25 30
16 19 24 30 36
17 23 28 35 41
18 28 33 40 47
19 32 38 46 54
20 37 43 52 60
21 43 49 59 68
22 49 56 66 75
23 55 62 73 83
24 61 69 81 92
25 68 77 90 101
26 76 85 98 110
27 84 93 107 120
28 92 102 117 130
29 100 111 127 141
30 109 120 137 152
Notas
1. * Indica que no es posible obtener un valor en región crítica
2. Rechace la hipótesis nula si el estadístico de prueba T es menor que o igual al
valor crítico que se encontró en esta tabla. No rechace la hipotesis nula si el estadís-
tico de prueba T es mayor que el valor crítico que se encontro en la tabla.
Ejemplo
Una pizzería cercana al campus universitario está considerando la posibilidad de
utilizar una nueva receta para hacer la salsa que echa a las pizzas. Se elige una mues-
tra aleatoria de ocho estudiantes y se pide a cada uno que valore en una escala de 1
a 10 su opinión sobre la salsa original y sobre la salsa propuesta. El cuadro siguiente
muestra las puntuaciones obtenidas en la comparación; los números más altos indi-
can que gusta más el producto.
¿Indican los datos una tendencia general a preferir la nueva salsa a la original?
5 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 744

ESTADÍSTICA II
de contenidos
83

seleccionadas
PUNTUACIÓN
estudiante salsa original salsa propuesta

A 5 7
B 3 8
C 4 3
D 7 6
E 2 8
F 5 8
G 6 6
H 4 8
Solución
H0: P = 0.5 (No hay preferencia por alguna de las dos salsas)
H1: P < 0.5 (Existe preferencia por el nuevo producto)
La hipótesis nula puede concebirse como la hipótesis de que la mediana poblacio-

nal de las diferencias es 0. Si la hipótesis nula fuera verdadera, nuestra secuencia
de diferencias + y - podría concebirse como una muestra aleatoria extraída de una
población en la que las probabilidades de + y - son 0,5 cada una. En ese caso, las ob-
servaciones constituirían una muestra aleatoria extraída de una población binomial
en la que la probabilidad de + es 0,5.
Siendo P la verdadera proporción de la población que prefiere la salsa original (o
sea que las puntuaciones de la salsa original son mayores, por eso al contrastar con
la preferencia con la nueva salsa debe haber menos signos positivos P<0.5). Si se
llegara a rechazar la hipótesis nula indicaría que hay una mayor preferencia por la
nueva salsa.
ii) Hallamos las diferencias y asignamos los rangos correspondientes.

PUNTUACIÓN
DIFERENCIA
estudiante salsa original salsa propuesta (ORIGINAL-NUEVO)
A 5 7 -2
B 3 8 -5
C 4 3 1
D 7 6 1
E 2 8 -6
F 5 8 -3
G 6 6 0
H 4 8 -4
iii) Luego hallamos los rangos de los valores absolutos de las diferencias y
DIFERENCIA VALOR RANGO

(ORIGINAL-NUEVO) ABSOLUTO RANGOS CON SIGNO
-2 2 3 -3
-5 5 6 -6
1 1 1.5 1.5
1 1 1.5 1.5
ollo
nidos 84
nadas
-6 6 7 -7
-3 3 4 -4
torio Anotaciones 0 0 -- --
-4 4 5 -5
Suma de rangos (+): 3

Suma de rangos (-): 25
El estadístico de prueba T es 3.
iv) El valor crítico se busca en la tabla de valores críticos para la prueba de rangos
con signos de Wilcoxon, con n=7 y 0.05 en una cola. Tcrítico=4.
v) Como el estadístico de prueba T=3 es menor que el valor crítico se rechaza la
hipótesis nula, es decir que es probable que las puntuaciones del nuevo producto
sean mayores.
Ejemplo
En un estudio se compararon empresas que tenían sofisticados métodos de postau-
ditoría y empresas que no tenían métodos de ese tipo. Se examinó una muestra de
31 pares de empresas. Se calculó el cociente entre la valoración de mercado y los
costes de reposición de los activos de cada una y se utilizó como medida de los re-
sultados de las empresas. En cada uno de los 31 pares, una de las empresas utilizaba
un sofisticado método de postauditoría y la otra no. Se calcularon las 31 diferencias
entre los cocientes y se ordenaron las diferencias absolutas. La menor de las sumas
de los rangos, 189, correspondió a los pares en los que el cociente era mayor en el
caso de la empresa que carecía de sofisticados métodos de postauditoría. Contraste
la hipótesis nula de que la distribución de las diferencias entre los cocientes está
centrada en 0 frente a la hipótesis alternativa de que tiende a ser menor en las em-
presas que carecen de sofisticados métodos de postauditoría.
Solución
i) Como la muestra es n=31, y T=189, calculamos el estadístico de prueba con la
fórmula:
n(n + 1)
T−
Z calculado = 4
n(n + 1)(2n + 1)
24
31(31 + 1)
189 −
Z calculado = 4
ii)
31(31 + 1)(2.31 + 1) = -1.16
24
iii) La prueba es de una sola cola, por lo que Zcrítico=1.645
iv) Al ser el Zcalculado menor que el Zcrítico, no existe evidencia estadística para
rechazar la hipótesis nula.
Ejercicio
Se pide a una muestra aleatoria de 10 estudiantes que valoren en una cata a ciegas
la calidad de dos marcas de cerveza, una nacional y una importada. Las valoraciones
se basan en una escala de 1 (mala) a 10 (excelente). La tabla adjunta muestra los
resultados. Utilice el contraste de Wilcoxon para contrastar la hip6tesis nula de que
la distribución de las diferencias pareadas está centrada en 0 frente a la hipótesis
alternativa de que la población de todos los estudiantes bebedores de cerveza pre-
fiere la marca importada.
ESTUDIANTE A B C D E F G H I J
NACIONAL 2 3 7 8 7 4 3 4 5 6
IMPORTADA 6 5 6 8 5 8 9 6 4 9
ESTADÍSTICA II
de contenidos
85

seleccionadas
Ejercicio
De 721 usuarios de Internet elegidos al azar, se descubrió que 358 de ellos usan
Internet para planear viajes (según datos de una encuesta local). Utilice un nivel de
significancia de 0.02 para probar la aseveración de que, de los usuarios de Internet,
menos del 50% utiliza este medio para planear viajes. ¿Los resultados son importan-
tes para los agentes de viajes?
3 PRUEBA DE LA SUMA DE RANGOS DE WILCOXON PARA MUESTRAS

INDEPENDIENTES. (Mata, 2013)
Uno de los inconvenientes de la prueba del signo es que no maneja mucha informa-
ción, sólo el signo de las diferencias, sobre todo cuando la muestra es muy pequeña.
La prueba de rangos con signos de Wilcoxon además del signo de las diferencias
incorpora la magnitud de las mismas por lo que refleja mejor el comportamiento
de las muestras. En el aná
La prueba de la suma de rangos de Wilcoxon utiliza los rangos de los valores de
dos conjuntos independientes de datos muestrales para probar la hipótesis nula de
que las dos poblaciones tienen medianas iguales. La prueba de rangos con signo de
Wilcoxon estudiada en la sección anterior utiliza datos apareados, pero la prueba
de suma de rangos de Wilcoxon de la presente sección utiliza dos muestras inde-
pendientes que no están relacionadas ni asociadas o apareadas.
El fundamento de la suma de rangos de Wilcoxon es el siguiente: si dos muestras se
obtienen de poblaciones idénticas y los valores individuales se acomodan en rangos
como un conjunto combinado de valores, entonces el rango alto y el bajo deberían
caer de manera uniforme entre las dos muestras. Si los rangos bajos se encuentran
predominantemente en una muestra y los rangos altos se encuentran predominan-
temente en la otra muestra, sospechamos que las dos poblaciones tienen medianas
diferentes.
Asumamos que se dispone de la muestra de tamaño n1 de la primera población y
la muestra de tamaño n2 de la segunda. Se juntan las dos muestras y se ordenan las
observaciones en sentido ascendente, asignando, en caso de empate, la media de
los puestos correspondientes. Sea T la suma de los puestos de las observaciones de
la primera población (T en el contraste de la suma de puestos de Wilcoxon es igual
que R1 en el contraste U de Mann-Whitney). Suponiendo que la hipótesis nula es
verdadera, el estadístico de la suma de puestos de Wilcoxon, T, tiene la media:
n1 (n1 + n2 + 1)
µT =
2
y la varianza:
n1 n2 (n1 + n2 + 1)
σ T2 =
12
Por lo que cuando n1≥10 y n2≥10 la distribución normal es una excelente aproxima-
ción a la distribución de la variable aleatoria:
T − µT
Zcalculado =
σT
Ejemplo
En un estudio que pretendía comparar los resultados de empresas que revelan las
predicciones de la dirección sobre los beneficios con los resultados de las que no
las revelan, se tomaron muestras aleatorias de 80 empresas de cada una de las po-
blaciones. Se midió la variabilidad de la tasa de crecimiento de los beneficios en
los 10 periodos anteriores en cada una de las 160 empresas y se ordenaron estas
variabilidades. La suma de los puestos de las empresas que no revelan las predic-
ciones de la dirección sobre los beneficios era 7287. Contraste la hipótesis nula de
que las posiciones centrales de las distribuciones poblacionales de las variabilidades
de los beneficios son las mismas en los dos tipos de empresas frente a la hipótesis
alternativa bilateral.
ollo
nidos 86
nadas
Solución
i) Como T=7.287, calculamos los demás indicadores, siendo n1=80 y n2=80
n1 (n1 + n2 + 1) 80(161)
torio Anotaciones
ii) µ T = 2
=
2
= 6440
iii) σ 2 = n1 n 2 ( n1 + n 2 + 1) = 80.x80(161) = 85867

T
12 12
iv) Calculamos entonces el estadístico de prueba:
7287 − 6440
Zcalculado = = 2.89
85867
v) Al ser el estadístico de prueba 2.89 mayor que el valor crítico al 0.05 de signifi-
cancia 1.645, podemos concluir que existe evidencia estadística para rechazar la
hipótesis nula. Lo que quiere decir que estos datos constituyen, pues, una prueba
contundente en contra de la hipótesis de que las posiciones centrales de las dis-
tribuciones de las variabilidades poblacionales de las tasas de crecimiento de los
beneficios de las empresas que revelan las predicciones de los beneficios son iguales
que las de las empresas que no las revelan.
Ejemplo
La tabla siguiente muestra el número de horas semanales que los estudiantes afir-
man que dedican a estudiar las asignaturas de introducci6n a la economía financie-
ra y a la contabilidad. Los datos proceden de muestras aleatorias de 10 estudiantes
de economía financiera y 12 de contabilidad. ¿Indican los datos la existencia de una
diferencia en el numero mediano de horas semanales que dedican los estudiantes
a estudiar las asignaturas de introducci6n a la economía financiera y a la contabi-
lidad?
NÚMERO DE HORAS SEMANALES DEDICADAS A ESTUDIAR POR

ASIGNATURA
ECONOMÍA 10 6 8 10 12 13 11 9 5 11
FINANCIERA
CONTABILIDAD 13 17 14 12 10 9 15 16 11 8 9 7
Solución
i) Planteamos las hipótesis.
Ho: Med(1)=Med(2) Los estudiantes dedican la misma cantidad de tiempo para
ambas asignaturas.
H1: Med(1)≠Med(2) Los estudiantes no dedican la misma cantidad de tiempo para
ambas asignaturas.
ii) Unimos en un solo conjunto a las dos muestras y ordenamos los datos de forma
ascendente, luego en el cuadro inicial indicamos los rangos al lado de cada dato.
ECONOMÍA F. RANGOS CONTABILIDAD RANGOS
10 10 13 17.5
6 2 17 22
8 4.5 14 19
10 10 12 15.5
12 15.5 10 10
ESTADÍSTICA II
de contenidos
87

seleccionadas
13 7.5 9 7
11 13 15 20
9 7 16 21 Recordatorio Anotaciones
5 1 11 13
11 13 8 4.5
9 7
7 3
SUMA DE SUMA DE
RANGOS = 93.5 RANGOS = 159.5
Donde n1=10, n2=12 y T=93.5
n1 (n1 + n2 + 1) 10(10 + 12 + 1)
iii) µ T = = = 115
2 2
n1 n2 (n1 + n2 + 1) 10 x12(10 + 12 + 1)
iv) σ T =
2
= = 230
12 12
v) Calculamos entonces el estadístico de prueba:

93.5 − 115
Zcalculado = = −1.42
230
vi) Por lo que podemos concluir que existe evidencia estadística para aceptar la
hipótesis nula, o sea que no se puede establecer diferencias en el tiempo dedicado
al estudio de ambas asignaturas.
Ejercicio
Se pregunta a una muestra aleatoria de 50 estudiantes de una facultad que sueldo
debería estar dispuesta la universidad a pagar para atraer a la persona idónea para
hacerse cargo de la Coordinación Académica. Se hace la misma pregunta a una
muestra aleatoria independiente de 50 profesores. A continuación, se juntan las
100 cifras sobre el sueldo y se ordenan (asignándose 1 al sueldo más bajo). La suma
de los rangos de los profesores es 2024.
Contraste la hipótesis nula de que no existe ninguna diferencia entre las posiciones
centrales de las distribuciones de los sueldos propuestos por los estudiantes y por
los profesores frente a la hipótesis alternativa de que en conjunto los estudiantes
propondrían un sueldo más alto para atraer al Coordinador Académico.
Ejercicio
Un estudio utilizó tomografía computarizada (TC) por rayos X para reunir datos de
volúmenes cerebrales de un grupo de pacientes con trastorno obsesivo-compulsivo
y un grupo de control de personas saludables. La lista adjunta presenta los resulta-
dos muestrales (en mililitros) para volúmenes del hemisferio derecho (según datos
de “Neuroanatomical Abnormalities in Obsesive-Compulsive Disorder Detected
with Quantitative X-Ray Computed Tomography”, de Luxenberg et al., American
Journal of Psychiatry, vol. 145, núm. 9). Utilice un nivel de significancia de 0.01
y pruebe la aseveración de que los pacientes obsesivo-compulsivos y las personas
saludables tienen la misma mediana de volúmenes cerebrales. Con base en este
resultado, ¿podemos concluir que el trastorno obsesivo-compulsivo tiene una base
biológica?6
PACIENTES OBSESIVO COMPULSIVOS GRUPO DE CONTROL

0.308 0.210 0.304 0.344 0.519 0.476 0.413 0.429
0.407 0.455 0.287 0.288 0.501 0.402 0.349 0.594
0.463 0.334 0.340 0.305 0.334 0.483 0.460 0.445
6 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 700

ollo
nidos 88
nadas
TEMA N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA
1 BONDAD DE AJUSTE (Triola, 2009).
torio Anotaciones
A menudo la toma de decisiones requiere que se pruebe alguna prueba de hipótesis
a cerca del comportamiento que tiene la distribución poblacional desconocida, o si
dicha distribución se comporta de manera similar a alguna otra distribución cono-
cida como la normal, la de Poisson, u otras.
Podríamos plantear entonces las siguientes hipótesis:
Ho: La distribución poblacional tiene comportamiento normal.
Hi: La distribución no tiene comportamiento normal.
La prueba de bondad de ajuste por lo tanto es aquella que determinará si la dis-
tribución en cuestión tiene o se ajusta a la distribución particular planteada en la
hipótesis (en el ejemplo la distribución normal), utilizando datos muestrales toma-
dos a partir de la población que representan constituyéndose estos en evidencia.
El estadístico de prueba para la prueba de bondad es:
χ2 = ∑
k
(Oi − Ei )2
i =1 Ei
donde:
O representa la frecuencia observada de un resultado.
E representa la frecuencia esperada de un resultado.
k representa el número de categorías diferentes o resultados.
n representa el número total de ensayos.
Es importante indicar que los valores críticos se calculan en la tabla de distribución
chi-cuadrada utilizando k-1 grados de libertad. Todas las pruebas son de cola dere-
cha.
DIAGRAMA N°02: PRUEBAS DE BONDAD DE AJUSTE 7
El estadístico de prueba x2 se basa en las diferencias entre valores observados y

esperados, de manera que una concordancia cercana entre los valores observados
y esperados conducirá a un valor de x2 pequeño y un valor P grande. Una discre-
pancia grande entre los valores observados y esperados conducirá a un valor de x2
grande y un valor P pequeño. De esta forma, las pruebas de hipótesis de esta sección
siempre son de cola derecha, puesto que el valor crítico y la región crítica se locali-
zan en el extremo derecho de la distribución. Tomado de Estadística, Mario Triola,
10°Ed., Capítulo 11, página 594
7 Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 11, página 594
ESTADÍSTICA II
de contenidos
89

seleccionadas
Ejemplo
El gerente de ventas de una empresa concesionaria de varias marcas de automóvi-
les, tiene la responsabilidad de controlar el nivel de existencias para cuatro tipos de
automóvil vendidos por dicha empresa. En el pasado, ha ordenado nuevos automó- Recordatorio Anotaciones
viles bajo la premisa de que los cuatro tipos son igualmente populares y la demanda
de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto
más difíciles de controlar, y considera que debería probar su hipótesis respecto a
una demanda uniforme.
¿Qué podemos concluir acerca de los datos observados?
Marca de auto Unidades vendidas

Kía 15
Toyota 11
Hyundai 10
Chevrolet 12
Solución
i) Planteamos las hipótesis.
H0: La demanda es uniforme para los cuatro tipos de autos.
H1: La demanda no es uniforme para los cuatro tipos de autos.
ii) Como el total de ventas es 48, si la demanda es uniforme se espera de que cada
marca debe vender 12 unidades, por lo que nuestro tablero quedaría:
Marca de auto Unidades vendidas (fo) Unidades esperadas (fe)

Kía 15 12
Toyota 11 12
Hyundai 10 12
Chevrolet 12 12
iii) Calculamos el estadístico de prueba utilizando las frecuencias observadas y las fre-
cuencias esperadas.
k
(Oi − Ei )2
χ2 = ∑
i =1 Ei
χ2 =
(15 − 12)2 + (11 − 12)2 + (10 − 12)2 + (12 − 12)2 = 1.17
12 12 12 12
iv) Ubicamos el valor crítico en la tabla de valores críticos de chi cuadrado, utilizando
k-1 grados de libertad, siendo k=4, por lo que los grados de libertad son 3 y un nivel de
significancia del 0.05.
χ 02.05,3 = 7.815
v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta
lo siguiente:
" No rechazar si χ 2 ≤ 7.815. Rechazar si χ 2 > 7.815"

ollo
nidos 90
nadas
torio Anotaciones
vi) Como 1.17 < 7.815, la hipótesis de que la demanda no es uniforme no se rechaza.
Ejemplo
Un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen
de una línea de ensamblaje y desea verificar sobre la base de los datos que siguen,
los números de llantas con defectos observadas en 200 días, si es cierto que el 5%
de todos los neumáticos tienen defecto; es decir, si el muestrea una población bi-
nomial con n = 10 y .
Número de unidades Número de muestras

con defecto
0 138
1 53
2 ó más 9
Solución
Ho: La población es binomial
Ha: La población no es binomial
ii) Hallamos las frecuencias esperadas utilizando la distribución binomial:
f ( x) = ( )π
n
x
x
(1 − π ) n − x , con n = 10 y π = 0.05
iii) Reemplazando los valores:
f (0) = ( )0.05
10
0
0
(1 − 0.05)10 −0 = 0.599
f (1) = ( )0.05
10
1
1
(1 − 0.05)10 −1 = 0.315

y la probabilidad de 2 ó más = 1.0 - 0.599 - 0.315 = 0.086
iv) Con estos valores podemos encontrar las frecuencias esperadas:
200 (0.599) = 119.8
200 (0.315) = 63
200 (0.086) = 17.2
v) El tablero quedaría de la siguiente manera:
Número de unidades fo fe
con defecto
0 138 119.8
1 53 63
2 ó más 9 17.2
ESTADÍSTICA II
de contenidos
91

seleccionadas
vi) Aplicamos la fórmula para el estadístico de prueba:
(138 − 119.8) 2 (53 − 63.0) 2 (9 − 17.2) 2
χ2 = + +
119.8 63 17.2 Recordatorio Anotaciones
χ = 8.26
2
vii) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en

cuenta lo siguiente:
" No rechazar si χ 2 ≤ 5.99. Rechazar si χ 2 > 5.99"
viii) Como 8.26 es mayor que 5.99, rechaza la hipótesis nula con un nivel de signi-
ficancia de 0.05. Por lo que se concluye que el verdadero porcentaje de neumáticos
con defecto no es el 5%.
Ejercicio
Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el
número de caras de cada serie. El número de series en los que se presentaron 0, 1,
2, 3, 4 y 5 caras se muestra en la siguiente tabla.
Número de series
Número de caras
(frecuencia observada)
0 38
1 144
2 342
3 287
4 164
5 25
Total 1000
Ajuste los datos a una distribución binomial con un nivel de significancia del 0.05.
Use n=5.
Nota: Para hallar π recuerde que µ = nπ , entonces primero halle la media y
luego divídala entre n.
2 INDEPENDENCIA Y HOMOGENEIDAD
Los datos categóricos representan atributos o categorías, cuando en un análisis se
consideran dos variables categóricas, entonces los datos se organizan en tablas lla-
madas tablas de contingencia o tablas de clasificación cruzada. Primero se discute
la relación entre las variables que definen las filas y las columnas de tablas de con-
tingencia y luego las medidas que dan una idea del grado de asociación entre las
dos variables categóricas.
ollo
nidos 92
nadas
Las hipótesis de independencia son:
Ho: No hay asociación entre las variables A y B (hay independencia)
Ha: Sí hay relación entre las variables A y B
torio Anotaciones
Las hipótesis de homogeneidad son:

Ho: Las proporciones de cada valor de la variable A son iguales en cada columna.
Ha: Al menos una de las proporciones para cada valor de la variable A no son igua-
les en cada columna.
Importante notar que la prueba de homogeneidad es una generalización de la

prueba de igualdad de proporciones, del mismo modo el análisis se realiza en una
tabla de contingencia con la siguiente estructura:
Cuadro N°19: CONDUCTORES DE MOTOCICLETA8
2.1 Frecuencias esperadas en la tabla de contingencia suponiendo independencia
(Total del renglón i )(Total de la columna j )

Ei =
Tamaño de la muestra
El procedimiento de prueba para comparar frecuencias observadas con las
frecuencias esperadas, se parece a los cálculos de bondad de ajuste. Especí-
ficamente, el valor de basados en las frecuencias observadas y esperadas se
calcula como sigue:
χ2 = ∑
k
(Oi − Ei )2
i =1 Ei
Oi = Valor observado en la i-ésimo celda.
Ei = Valor esperado en la i-ésimo celda.
k = Categorías o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadístico de
prueba tiene una distribución ji cuadrada con (n – 1).(m – 1) grados de liber-
tad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las
categorías. En consecuencia proseguimos con el cálculo de la estadística de
prueba ji cuadrada.
En situaciones como las siguientes, se puede estar interesado en determinar si
dos variables están relacionadas:

¿Están relacionados los hábitos de lectura con el sexo del lector?
¿Es independiente la opinión sobre la política exterior de la política partidista?
¿Es independiente el sexo de una persona de su preferencia en colores?
¿Son independientes el tamaño de una familia y el nivel de educación de los
padres?
¿Está relacionado el desempleo con el incremento de la criminalidad?
¿El precio está asociado con la calidad de un producto electrodoméstico?
¿El estado nutricional está asociado con el desempeño académico?

ESTADÍSTICA II
de contenidos
93

seleccionadas
Ejemplo
Se seleccionó una muestra aleatoria de 100 jóvenes para estudiar la depen-
dencia entre la práctica de algún deporte y la depresión, con los siguientes
resultados: Recordatorio Anotaciones
Número de unidades Sin depresión Con depresión

con defecto
Deportista 38 9
No deportista 31 22
Solución
Ho: Hay independencia entre la depresión y la práctica de algún deporte
Ha: No hay independencia entre la depresión y la práctica de algún deporte
ii) Completamos el cuadro y luego calculamos las frecuencias observadas utili-
zando la fórmula:
(Total del renglón i )(Total de la columna j )

Ei =
Tamaño de la muestra
Número de unidades SIN depresión Con depresión
con defecto
Deportista 38 9 47
No deportista 31 22 53
69 31 100
iii) Calculamos las frecuencias esperadas:

con defecto
Deportista =69x47/100 =31x47/100 47
No deportista =69x53/100 =31x53/100 53
69 31 100

con defecto
Deportista 32.43 14.57 47
No deportista 36.57 16.43 53
69 31 100
iv) Calculamos el estadístico de prueba:
χ2 =
(38 − 32.43)2 + (31 − 36.57 )2 + (9 − 14.57 )2 + (22 − 16.43)2
32.43 36.57 14.57 16.43
χ 2 = 5.8227
v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en

cuenta lo siguiente:
Grados de libertad= (2-1).(2-1)=1
Nivel de significancia=0.05
ollo
nidos 94
nadas
torio Anotaciones
vi) Como el valor calculado 5.8227 es mayor que el valor crítico 3.8414 se rechaza
la hipótesis nula de independencia de las variables por lo que se concluye que la
práctica de algún deporte disminuye la depresión.
Ejercicio
La oficina de Recursos Humanos de la universidad quiere determinar si la satis-
facción en el trabajo es independiente del puesto de trabajo. Para ello realizó un
estudio entre los docentes administrativos y encontró los resultados mostrados en
la tabla siguiente. Con un nivel de significancia de 0.05, pruebe si son dependientes
la satisfacción en el trabajo y el puesto de trabajo.
Marca de auto Unidades Profesor Profesor Profesor

vendidas (fo) Instructor asistente asociado tiempo
parcial
Mucha 40 60 52 63
Satisfacción Regular 78 87 82 88
en el trabajo
Poca 57 63 66 64
Ejercicio
En un experimento para estudiar la dependencia de la hipertensión de los hábitos
de fumar, se tomaron los siguientes datos de 180 individuos:
Unidades vendidas (fo)

No Fumadores Fumadores
fumadores moderados empederni-
dos
Con hipertensión 21 36 30
Sin hipertensión 48 26 19
Pruebe la hipótesis de que la presencia o ausencia de hipertensión es independien-

te de los hábitos de fumar. Utilice un nivel de significancia de 0.05.
2.2 Tablas de Contingencia para probar Homogeneidad

La utilización de la tabla de contingencia probar la independencia entre dos
variables de una muestra tomada de una población de interés, es sólo una de
las aplicaciones de los métodos de tablas de contingencia. Otra aplicación co-
mún se presenta cuando existen r poblaciones de interés y cada una de ellas
está dividida en las mismas c categorías. Luego se toma una muestra de la i-
ésima población, y los conteos se introducen en las columnas apropiadas del
i-ésimo renglón. En esta situación se desea investigar si las proporciones son o
no las mismas en las c categorías de todas las poblaciones. La hipótesis nula de
este problema establece que las poblaciones son homogéneas con respecto a
las categorías, entonces la prueba de homogeneidad es en realidad una prueba
sobre la igualdad de r parámetros binomiales. El cálculo de las frecuencias es-
peradas, la determinación de los grados de libertad y el cálculo del estadístico
ESTADÍSTICA II
de contenidos
95

seleccionadas
ji-cuadrado para la prueba de homogeneidad son idénticos a los de la prueba
de independencia.
Ejemplo
Un estudio sobre caries dental en niños de seis ciudades con diferentes can-
tidades de flúor en el suministro de agua, ha proporcionado los resultados si-

guientes:
Nº niños Nº niños
Comunidad
sin caries con caries
Huancayo 38 87
Cercado de 8 117
lima
Cajamarca 30 95
Ica 44 81
Arequipa 64 61
Trujillo 32 93
Se desea saber si la incidencia de caries es la misma en las seis ciudades.
Solución
Ho: Hay homogeneidad en la incidencia de caries en las seis ciudades
Ha: No hay un comportamiento homogéneo en la incidencia de caries en las ciu-
dades analizadas.
ii) Calculamos las frecuencias esperadas.
Comunidad
Huancayo 38 87 125
Cercado de 8 117 125
lima
Cajamarca 30 95 125
Ica 44 81 125
Arequipa 64 61 125
Trujillo 32 93 125
216 534 750
Comunidad
Huancayo 216x125/750=36 534x125/750=89
Cercado de 36 89
lima
Cajamarca 36 89
Ica 36 89
Arequipa 36 89
Trujillo 36 89
iii) Calculamos el estadístico de prueba:
χ2 =
(38 − 36)2 + (8 − 36)2 + (30 − 36)2 + ... +
(93 − 89)2
36 36 36 89
χ 2 = 65.85
iv) El valor crítico lo podemos observar en el siguiente gráfico, teniendo en cuenta lo

siguiente:
Grados de libertad= (6-1).(2-1)=5
ollo
nidos 96
nadas
Nivel de significancia=0.05
torio Anotaciones
v) Como el estadístico de prueba 65.85 es mayor que el valor crítico 11.07 hay
evidencia estadística para rechazar la hipótesis nula. Se concluye entonces que el
contenido de flúor en el agua puede ser la causa de la diferencia en la incidencia
de caries en las ciudades analizadas.
Ejercicio
Un investigador estudia la efectividad de tres remedios R1, R2 y R3 para aliviar
cierta enfermedad. Para esto escogió tres muestras aleatorias de tamaños 50, 70 y
60 de pacientes con dicha enfermedad, suministrando a la primera el remedio R1,
a la segunda el remedio R2 y a la tercera el remedio R3 midiendo la efectividad de
los remedios en tres niveles: Sin alivio, cierto alivio y alivio total. Los resultados del
experimento se presentan en la tabla siguiente:
Nº niños Nº niños Nº niños

Comunidad
sin caries con caries con caries
Efectividad R1 R2 R3
Sin alivio 10 20 15
Cierto alivio 30 20 20
Alivio total 10 30 25
¿Puede usted inferir con un nivel de significancia del 0.01, que los tres remedios
para la alergia son igualmente efectivos?9
TEMA N° 3: PRUEBAS NO PARAMÉTRICAS

1 PRUEBA DE KRUSKAL – WALLIS (Mata, 2013)
Es una prueba que compara tres o más poblaciones para determinar si existe una
diferencia en la distribución de las poblaciones. Es análoga a la prueba F utilizada
en las pruebas ANOVA. No importa la restricción de que las poblaciones tienen que
estar distribuidas normalmente.
Las hipótesis son:
H0: Todas las k poblaciones tienen la misma distribución.
H1: No todas las k poblaciones tienen la misma distribución.
Estadístico de prueba Kruskal- Wallis:
12  Ri2 
K= ∑  − 3( n + 1 )
n( n + 1 )  ni 
donde
ni es el número de observaciones en la i-ésima muestra
n es el número total de observaciones en todas las muestras.
9 Tomado de Estadística Aplicada, Manuel Córdova Zamora, 1°Ed., Cap.7, página

349
ESTADÍSTICA II
de contenidos
97

seleccionadas
Ri es la suma de los rangos de la i-ésima muestra.
La distribución de K es aproximada por una distribución chi-cuadrada con k – 1
grados de libertad. Si K excede el valor crítico de chi-cuadrada, se rechaza la hipó-
tesis nula. Recordatorio Anotaciones
Ejemplo
Un nuevo gerente de un proveedor de supermercados debe comparar el tiempo
que toma a tres clientes pagar por los productos entregados. Se seleccionan alea-
toriamente varias compras de cada cliente, junto con el número de días que cada
uno se tomó en liquidar su cuenta. Los resultados aparecen en la tabla siguiente:
COMPRA CLIENTE 1 CLIENTE 2 CLIENTE 3

1 28 26 37
2 19 20 28
3 13 11 26
4 28 14 35
5 29 22 31
6 22 21
7 21
Solución
H0: Los tiempos en que las empresas utilizan para pagar sus cuentas son iguales.
H1: Por lo menos uno de los tiempos es diferente
ii) Asignamos los rangos a los datos:
CLIENTE 1 RANGO CLIENTE 2 RANGO CLIENTE 3 RANGO

28 13 26 10.5 37 18
19 4 20 5 28 13
13 2 11 1 26 10.5
28 13 14 3 35 17
29 15 22 8.5 31 16
22 8.5 21 6.5
21 6.5
R1=62 R2=34.5 R3=74.5
iii) Calculando el estadístico K, con n=18, se tiene:
12  (62 )2 (34.5 )2 (74.5 )2 

K=  + +  − 3(18 + 1) = 8.18
18( 18 + 1 )  7 6 5 
El primer trabajo emprendido para resolver las dudas que me azotaban, fue una
revisión crítica de la filosofía hegeliana del derecho, trabajo cuya introducción apa-
reció en 1844 en los “Anales franco alemanes”, que se publicaban en París. Mi in
El desplome de la URSS y sus consecuencias en el pensamiento marxista por Daniel
Bengoechea:
Han pasado más de diez años desde el colapso de los regímenes stalinistas de Eu-
ropa Oriental. 1989 es recordado por la ola de protestas y huelgas que se expandió
plementadas desde arriba.
iv) El valor crítico de chi-cuadrado dados 3-1 = 2 grados de libertad es χ 0.05 , 2

2
= 5.99
.
v) Regla de decisión: No rechazar si k 5.99. Rechazar si k > 5.99
vi) Como k=18.8 > 5.99, se rechaza la hipótesis nula de que no hay diferencia en el
tiempo que toma a tres clientes pagar sus cuentas
Ejercicio
Se obtuvieron datos de experimentos de choques realizados por la National Trans-
ollo
nidos 98
nadas
portation Safety Administration de USA. Se compraron automóviles nuevos, se
impactaron contra una barrera fija a 35 mi/h y se registraron las mediciones en
un maniquí en el asiento del conductor. Utilice los datos muestrales listados abajo
torio Anotaciones
para probar las diferencias en las mediciones de heridas en la cabeza (de acuerdo
con el Head Injury Criterion, HIC) en cuatro categorías de peso. ¿Existe evidencia
suficiente para concluir que las mediciones de heridas en la cabeza para las cuatro
categorías de peso de
automóviles no son las mismas? ¿Sugieren los datos que los automóviles más pesa-
dos son más seguros en un choque?10
2 PRUEBA DE CORRELACIÓN DE RANGOS

Cuando se requiere probar la asociación entre dos variables con datos apareados
se utiliza la prueba de correlación de rangos utilizando los puestos o rangos de
las observaciones en lugar de los valores, el contraste realizado es paramétrico, no
requiere la normalidad de distribución de donde provienen los datos apareados.
Las hipótesis para la prueba de correlación de rangos son:
H0: , No existe correlación entre las dos variables.
H1: , Existe correlación entre las dos variables.
Si se tiene una muestra aleatoria (x1;y1), (x2;y2), …, (xn;yn) de n pares de observacio-
nes, para calcular el coeficiente de correlación de rangos también conocido como
coeficiente de correlación de Spearman, si no hay empates se utiliza la siguiente
fórmula para calcular el estadístico de prueba:
6∑ d i
2
rs = 1 −
n(n 2 − 1)
Donde:
n: número de pares de datos muestrales.
di: son las diferencias entre los puestos de los miembros de los distintos pares.
Si existieran empates, el estadístico de prueba se calcula con la siguiente fórmula:
n∑ xy − (∑ x )(∑ y )
rs =
( )
n ∑ x 2 − (∑ x )
2
( )
n ∑ y 2 − (∑ y )
2

ESTADÍSTICA II
de contenidos
99

seleccionadas
Figura N°03: PRUEBA DE CORRELACIÓN DE RANGOS11
Los valores críticos son:

- Para n≤30, los valores críticos se encuentran en la tabla de valores críticos para
el coeficiente de correlación de rangos de Spearman.
- Para n>30, los valores críticos se calculan con la fórmula:
±z
rs =
- n −1
donde los valores z corresponden al nivel de significancia.

Ejemplo
Se toma una muestra de 11 operarios fabriles y se anotan las calificaciones de des-
empeño que les otorgan 2 supervisores con los resultados que se muestran a con-
tinuación:
OPERARIO CALIFICACIÓN CALIFICACIÓN

SUPERVISOR A SUPERVISOR B
1 81 78
2 83 83
3 90 92
4 98 72
5 78 74
6 74 80
7 85 84
8 90 79

ollo
nidos 100
nadas
9 95 93
10 91 94
11 92 95
torio Anotaciones
Pruebe con un nivel de significancia del 5% si el coeficiente de correlación de

Spearman es significativo.12
Solución
H0: ρs = 0 , No existe correlación entre las dos variables.
H1: ρs ≠ 0 , Existe correlación entre las dos variables.

ii) Asignamos los rangos y luego calculamos las diferencias:
OPERARIO CALIFICACIÓN RANGOS CALIFICACIÓN RANGOS d d2

SUPERVISOR A A SUPERVISOR B B A-B
1 81 3 78 2 1 1
2 83 4 83 5 -1 1
3 90 6.5 92 7.5 -1 1
4 98 11 72 7.5 3.5 12.25
5 78 2 74 1 1 1
6 74 1 80 4 -3 9
7 85 5 84 6 -1 1
8 90 6.5 79 3 3.5 12.25
9 95 10 93 9 1 1
10 91 8 94 10 -2 4
11 92 9 95 11 2 4
iii) La suma de las d2 es 47.5

iv) Calculamos el estadístico de prueba:
=
v) El valor crítico lo ubicamos en la tabla de valores críticos del coeficiente de co-
rrelación de rangos de Spearman, siendo 0.618.
vi) Como el valor calculado es mayor que el valor crítico rechazamos la hipótesis
nula y aceptamos que existe algún tipo de correlación entre las calificaciones de los
dos supervisores.
Ejercicio
La tabla adjunta muestra el rendimiento porcentual de una muestra aleatoria de
20 fondos de inversión a largo plazo en un periodo de 12 meses y los activos totales
(en millones de dólares).
RENDIMIENTO ACTIVOS RENDIMIENTO ACTIVOS RENDIMIENTO ACTIVOS

29.3 300 16 421 12.9 75
27.6 70 15.5 99 11.3 610
23.7 3004 15.2 756 9.9 264
22.3 161 15 730 7.9 27
22 827 14.4 436 6.7 71
19.6 295 14 143 3.3 719
17.6 29 13.7 117
Realice un contraste no paramétrico de la hipótesis nula de que no existe ninguna rela-

ción en la población entre las características analizadas.
12 Tomado de Estadística Aplicada a la Administración y la Economía, Alberto Díaz

Mata, 1°Ed., Cap.17, página 541
ESTADÍSTICA II
de contenidos
101

seleccionadas
CUADRO N°20: VALORES CRÍTICOS COEFICIENTE DE CORRELACIÓN DE
RANGOS DE SPEARMAN.13
no α= 0.10 α= 0.05 α= 0.02 α= 0.01

5 .900 -- -- --
6 .829 886 943 --
7 .714 786 893 929
8 .643 738 833 881
9 .600 700 783 833
10 .564 648 745 794
11 .536 618 709 755
12 .503 587 678 727
13 .484 560 648 703
14 .464 538 626 679
15 .446 521 604 654
16 .429 503 582 635
17 .414 485 566 615
18 .401 472 550 600
19 .391 460 535 584
20 .380 447 520 570
21 .370 435 508 556
22 .361 425 496 544
23 .353 415 486 532
24 .344 406 476 521
25 .337 398 466 511
26 .331 390 457 501
27 .324 382 448 491
28 .317 375 440 783
29 .312 368 433 475
30 .306 362 425 467
Notas:
1. Para n >30, utilice r5= + z/ n - 1 donde z corresponde al nivel de significancia.
Por ejemplo, si =0.05, then z=1.96.
2. Si El valor absoluto des estadístico de prueba r5 excede al valor crítico positivo,
entonces rechace H0: p5 = 0 y concluya que existe una correlación.
Basado en datos de "Biostatistical Analysis, 4th edition", 1999, de Jerrold Zar, Pren-
tice Hall, Inc., Upper Saddle River, Nueva Jersey, y "Distribution of Sums of Squares
of Ranl Differences to Small Numbers with Individuals", The Annals of Mathematical
Statistics, vol. 9, núm. 2, con permiso del Institute of Mathematical Statistics.
3 PRUEBA DE RACHAS
Cuando no existe aleatoriedad, muchas de las herramientas estadísticas en las cua-
les se confía son de poco uso o de ningún uso. Para comprobar la aleatoriedad se
utiliza la prueba de rachas, que es una prueba no paramétrica de aleatoriedad en
el proceso de muestreo.
Una racha es una serie continua de uno o más símbolos, así se tiene una sucesión
en que intervienen dos tipos de símbolos:
AAAABBAAABBBAAAAAAABB
Entonces definimos una racha como una sucesión de uno o más símbolos idénticos
que están precedidos o seguidos por un símbolo diferente o por ninguno, siendo la
13 Tomado de Estadística, Mario Triola, 10°Ed., Apeéndice A, página 783

ollo
nidos 102
nadas
longitud de una racha el número de símbolos iguales que incluye.
La sucesión anterior presenta 6 rachas, las cuales se pueden separar por barras
verticales:
torio Anotaciones AAAA/BB/AAA/BBB/AAAAAAA/BB
Se observa entonces que hay una racha de longitud 4, 4(A), dos rachas de longitud
2, (2B), una racha de longitud 3, (3A), etc.
Las hipótesis que se plantea en la prueba de rachas son:
H0: Existe aleatoriedad en la muestra.

H1: No existe aleatoriedad en la muestra.
Para muestras pequeñas y α = 0.05 , siendo n1 ≤ 20 y n2 ≤ 20, el estadístico de

prueba es el número de rachas G. Los valores críticos se encuentran en la tabla de
valores críticos para el número de rachas G.
Se rechaza la aleatoriedad si el número de rachas G es:

• Menor o igual al valor crítico más pequeño encontrado en dicha tabla
• Mayor o igual al valor crítico más grande encontrado en dicha tabla
Para muestras grandes o α ≠ 0.05 y si n1 > 20 o n2 > 20, utilice el estadístico de

prueba y los valores críticos siguientes:
Estadístico de prueba:
Donde
Para los valores críticos de z, se utiliza la tabla de distribución normal trabajada

anteriormente.
NOTA: Para analizar datos numéricos, o sea la aleatoriedad por arriba o por debajo
de la media o de la mediana, se prueba la aleatoriedad por la forma como los datos
numéricos fluctúan por encima o por debajo de una media o mediana.
ESTADÍSTICA II
de contenidos
103

seleccionadas
FIGURA N°04: PRUEBAS DE RACHAS14

ollo
nidos 104
nadas
CUADRO N°21: VALORES CRÍTICOS PARA LA PRUEBA DE RACHAS15
torio Anotaciones
Ejemplo
El principal diario de la localidad mantenía un registro del sexo de las personas que
llamaban a la oficina de circulación para quejarse de los problemas con la entrega de la
revista sabatina. Para un sábado reciente, estos datos fueron los siguientes:
M, F, F, F, M, M, F, M, F, F, F, F, M, M, M, F, M, F, M, F, F, F, F, M, M, M, M, M
Usando el nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿Hay
algo respecto a la naturaleza de este problema que nos lleve a la conclusión que una
secuencia así no es aleatoria?
Solución
H0: Existe aleatoriedad en la muestra.
H1: No existe aleatoriedad en la muestra.
ii) Identificamos las rachas:
M/FFF/MM/F/M/FFFF/MMM/F/M/F/M/FFFF/MMMMM
Encontramos un total de G=13 rachas.
iii) El estadístico de prueba es 13 y el valor crítico lo ubicamos en la tabla de valores
críticos para la prueba de rachas con n1= 14 para los varones y n2=14 para las mujeres
siendo de 9 a 21 rachas.
iv) Como el estadístico de prueba se encuentra entre los valores críticos se acepta la
hipótesis nula de existencia de aleatoriedad. Por lo que no hay evidencia para pensar
que la secuencia no es aleatoria.
15 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 784, tabla A10
ESTADÍSTICA II
de contenidos
105

seleccionadas
Ejemplo
Se asumen niveles de producción diarios en una mina de carbón seleccionada para
un estudio estadístico, y éstos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32, 40, 37,
y 60 toneladas. Se desea analizar dicha producción para verificar algún problema Recordatorio Anotaciones
recurrente en las máquinas. ¿Habrá algún indicio para pensar que existe algún
problema cíclico en las máquinas?
Solución
i) Siendo la mediana de 37, se utiliza como valor de referencia.
ii) Las observaciones caen o por arriba (A) o por abajo (B) de 37, se representan
de la siguiente manera:
31 57 52 22 24 59 25 29 27 44 43 32 40 37 60
B A A B B A B B B A A B A A
iii) Identificamos las rachas:

B/AA/BB/A/BBB/AA/B/AA
Encontramos un total de ocho rachas, por lo tanto G=8.
iv) Con n1=7 para B y n2 = 7 para A, la tabla de valores críticos para la prueba de
rachas revela valores críticos de 3 y 13 rachas.
v) Debido a que hay 8 rachas, se asume que hay aleatoriedad y no se rechaza la hi-
pótesis nula, por lo que no habría razón para pensar que hay un problema cíclico.
Ejercicio
Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia de
0.05:
A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, B, A, B, B, A, A, A, B, A, B, A, A
Ejercicio
La municipalidad provincial recibe diariamente solicitudes para matrimonios civi-
les. Un estudio registra las solicitudes de los últimos 30 días hábiles.
3, 4, 6, 8, 4, 6, 7, 2, 5, 7, 4, 8, 4, 7, 9, 5, 9, 10, 5, 7, 4, 9, 8, 9, 11, 6, 7, 5, 9, 12
Con un nivel de significancia del 0.01 ¿existen motivos para pensar que la serie
registrada proviene de alguna característica del entorno?
de contenidos
seleccionadas
¿LOS ESTUDIANTES CLASIFICAN A LAS UNIVERSIDADES DE LA MISMA MANERA
QUE EL U.S. NEWS AND WORLD REPORT?
Mario
RecordatorioTriola. Página 675.
Anotaciones
Cada año, la revista U.S. News and World Report publica una clasificación de uni-
versidades con base en estadísticos tales como las tasas de admisión, las tasas de
graduación, el tamaño de los grupos, la razón entre profesores y estudiantes, los sa-
larios de los profesores y las calificaciones de los administradores otorgadas por sus
compañeros. Los economistas Christopher Avery, Mark Glickman, Caroline Minter
Hoxby y Andrew Metrick usaron un método alternativo para analizar la selección
de universidades de 3240 estudiantes del último año de preparatoria con alto ren-
dimiento escolar. Examinaron las universidades que ofrecen admisión junto con
las universidades que los estudiantes eligen. La tabla siguiente lista el orden de
una pequeña muestra de universidades, así como también cierto acuerdo entre el
orden de preferencia de los estudiantes y las calificaciones de la revista, aunque
también indica cierto desacuerdo. Por ejemplo, de las ocho universidades conside-
radas, Harvard ocupó el primer lugar tanto para los estudiantes como para la revista
U.S. News and World Report. Sin embargo, de las ocho universidades incluidas, la
ollo
nidos 106
nadas
Universidad de Pennsylvania fue considerada en séptimo lugar por los estudiantes
pero en tercer lugar por la revista.
torio Anotaciones Consideremos el tema de una correlación entre la clasificación de los estudiantes
y la clasificación de la revista. El coeficiente de correlación lineal r se utiliza para
medir la asociación entre dos variables y requieren datos apareados, y los datos de
la tabla están apareados. Sin embargo, existe una diferencia muy importante: los
métodos de correlación y regresión tienen requisitos como las distribuciones nor-
males, y los rangos como los que aparecen en la tabla no satisfacen estos requisitos.
En dichos métodos no se pueden utilizar los datos muestrales presentados. En este
capítulo se presentan varios métodos que se utilizan con datos que no satisfacen el
requisito de una distribución normal. En particular, varios métodos de esta sección
pueden emplearse con datos muestrales en el formato de rangos, como los de la
tabla. En una de las secciones se estudiará un método para poner a prueba una
correlación con datos apareados que no tienen el formato de rangos. Entonces,
seremos capaces de analizar el grado de acuerdo y desacuerdo entre las clasificacio-
nes de los estudiantes y de la revista, como aparecen en la tabla. Así, probaremos si
existe una correlación entre las preferencias de los estudiantes y la clasificación de
la revista, y podremos contestar la siguiente pregunta importante: ¿Los estudiantes
coinciden con la revista?
Diagrama

Objetivos Inicio
ACTIVIDAD N° 1
de contenidos

seleccionadas
ACTIVIDAD N° 2
de contenidos
Recordatorio Esta actividad puede consultarla en su aula virtual.
Anotaciones
Diagrama Objetivos
Inicio
seleccionadas
CONTROL DE LECTURA N° 2
de contenidos

seleccionadas
ESTADÍSTICA II
Objetivos Inicio
de contenidos
107
os Lecturas Glosario Bibliografía
seleccionadas
BIBLIOGRAFIA DE LA UNIDAD III:

s
o Anotaciones
ta Edición.
Edición
Objetivos Inicio
AUTOEVALUACIÓN DE LA UNIDAD III

s
1. Dadas las siguientes proposiciones:

I. La prueba de signo implica averiguar si hay una cantidad
s desproporcionadamente mayor de uno u otro signo.
II. La prueba de signo es una prueba paramétrica.
III. La prueba de signo no es tan eficiente como una prueba paramétrica.
o Anotaciones
Son correctas:
a) Sólo I y II
b) Sólo I
c) Sólo I y III
d) Ninguna.
e) I; II y III
2. Sean las afirmaciones:

I. En la secuencia de ganancias (G) y pérdidas (P): GGGGPPPP, el número de
rachas es 4.
II. La prueba de rachas para detectar aleatoriedad se basa en el orden en que se
presenta los datos.
III. Una racha es una secuencia de datos que tienen la misma característica.
Son correctas
a) I; II y III
b) Sólo I y II
c) Sólo I
d) Sólo II
e) Sólo III
3. Se desea probar si la estatura de los empleados tiene distribución normal. Se toma

una muestra aleatoria de 200 empleados a quienes se les pregunta su estatura en
pulgadas. Los resultados obtenidos son:
ESTATURA 57,5-63,5 63,5-69,5 69,5-72,5 72,5-78,5

No. 29 75 68 28
EMPLEADOS
¿Con base en a ésta información se puede concluir que su distribución es normal?

a) Los datos se distribuyen normalmente
b) Los datos no se distribuyen normalmente con un nivel de confianza del 95%
c) No se puede determinar porque no se tiene el nivel de confianza
ollo
nidos 108
nadas
d) No se puede determinar porque son datos de intervalo de frecuencias
e) No se puede utilizan la prueba debido a que son pocas clases
torio Anotaciones
4. En un estudio realizado por Harris Interactive, Inc. se evaluaron las principales em-
presas de Internet y se evaluó también su reputación. En la lista siguiente se muestra
el ranking de 10 empresas de internet en relación, por un lado, con su reputación
y por el otro con el porcentaje de entrevistados que dijeron estar dispuestos a com-
prar acciones de esa empresa.
Empresas Micro- Intel Dell Lu- Texas Cisco Hewlett IBM Moto- Yahoo
soft cent Instru- Sys- Packard rola
ment tems
Reputación 1 2 3 4 5 6 7 8 9 10
Probable 3 4 1 2 9 5 10 6 7 8
compra
Haga una prueba para determinar si existe una correlación por rangos signi-
ficativa, emplee un nivel de significancia de 0.05,¿cuál es su conclusión?
A) H0: rs=0, H1:rs≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe correlación entre
la reputación y la probable compra de acciones.
B) H0: s =0, H1: s ≠ 0, rs= -0.6727, VC=0.648. Se rechaza H0, existe correlación
entre la reputación y la probable compra de acciones.
C) H0: s =0.6727, H1: s ≠ 0, rs= 0.6727, VC ± 0.648. Se rechaza H0, existe corre-
lación entre la reputación y la probable compra de acciones.
D) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. No se rechaza H0, existe correlación
E) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe correlación
5. Las calificaciones dadas a tres productos por un panel de 15 consumidores son las
siguientes:
PRODUCTOS
A B C
50 80 60
62 95 45
75 98 30
48 87 58
65 90 57
Use la prueba de Kruskal Wallis y un nivel de significancia del 0.05 para determinar
si existe diferencia significativa entre las calificaciones dadas a los tres productos
a) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1:
Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22,
VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre
las calificaciones dadas a los productos.
b) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1:
No hay diferencia entre las calificaciones dadas a los tres productos, H=10.22,
ESTADÍSTICA II
de contenidos
109

seleccionadas
c) H0: Hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay
diferencia entre las calificaciones dadas a los tres productos, H=9.54,
las calificaciones dadas a los productos. Recordatorio Anotaciones
d) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1:
VC=24.996, Conclusión: Se acepta H0 y se concluye que no hay diferencia entre
e) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1:
110
ESTADÍSTICA II
Desarrollo
de contenidos
111

seleccionadas
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTI-

CO DE PROCESOS
de contenidos

seleccionadas
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD IV

CONTENIDOS
EJEMPLOS ACTIVIDADES
de contenidos
AUTOEVALUACIÓN BIBLIOGRAFÍA
seleccionadas


de contenidos
Tema N° 1: Correlación y Re- 1. Formula modelos lineales y 1. Valora reflexivamente la im-
gresión no lineales para pronosticar portancia de las pruebas no
1. Correlación y regresión lineal la relación de las variables paramétricas, de los modelos
2. Correlación y regresión múl-
2. Realiza el control estadístico de predicción y métodos de
tiple
seleccionadas de procesos utilizando los control de procesos estadísti-
3. Elaboración de modelos de
gráficos de control. cos para la toma de decisio-
regresión
nes.
Tema N° 2: Control estadístico Actividad N° 1
de procesos
RecordatorioAnotaciones Actividad N° 2
1. Gráficos de control para la
media y varianza
2. Gráficos de control para atri- Tarea Académica Nº 2
butos
Lectura seleccionada N° 1
¿Podemos predecir el momento
de la siguiente erupción del géi-
ser Old Faithful?
Mario Triola. Página 515.
Autoevaluación de la Unidad IV
ollo
nidos 112
Actividades Autoevaluación UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
nadas
TEMA N° 1: CORRELACIÓN Y REGRESIÓN
La regresión y la correlación son dos técnicas estrechamente relacionadas que com-
torio Anotaciones
prenden una forma de estimación de una relación existente en la población. Este aná-
lisis, comprende el análisis de los datos muestrales para saber si se relacionan y cómo
se relacionan entre sí dos o más variables de una población. El objetivo principal de la
correlación es determinar la fuerza en que las variables están relacionadas y el objetivo
principal de la regresión es descubrir el modo en que se relacionan.
Una herramienta importante para el análisis de correlación y regresión es el diagrama
de dispersión, el cual nos muestra visualmente la manera como las variables analizadas
se relacionan, y a partir de ahí definir el tipo de análisis que se va a realizar.
A continuación se presenta una serie de gráficos que nos ilustrarán las distintas maneras
en que se relacionan dos variables.
FIGURA N°05: DIAGRAMAS DE DISPERSIÓN PARA EL ANÁLISIS DE CORRELA-

CIÓN1
Los diagramas de dispersión que acabas de ver te muestran las diferentes relaciones
entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos
señalar que si tanto los valores de X como los valores de Y tienden a seguir un patrón,
entonces existe una correlación.
1 Tomado de Estadística, Mario Triola, 10°Ed., Cap.10, página

ESTADÍSTICA II
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOSDesarrollo
de contenidos
113

seleccionadas
1 Correlación y regresión lineal
1.1 Coeficiente de correlación
El coeficiente de correlación lineal r mide la fuerza en que dos variables aparea-
das y cuantitativas se relacionan. Se conoce también como coeficiente de corre-
lación de Pearson. Su fórmula para el cálculo es dadas las variables cuantitativas
x y y:
n∑ xy − ∑ x ∑ y
r=
[n∑ x 2
][
− (∑ x ) n∑ y 2 − (∑ y )
2 2
]
El coeficiente de correlación se interpreta de la siguiente manera:
Podemos observar lo siguiente:

− El valor de r es un número que satisface la desigualdad –1 ≤ r ≤ 1.
− Cuando la relación de dos variables es perfectamente positiva, o sea cuando
al variar la primera, la segunda varía en las mismas proporciones y en la misma
dirección, el coeficiente de correlación es + 1 (unidad positiva).
− Cuando la relación de dos variables es perfectamente negativa, o sea cuando
al variar la primera, la segunda varía en las mismas proporciones pero en direc-
ción contraria, el coeficiente de correlación es – 1 (unidad positiva).
− Cuando no existe relación entre las dos variables, o sea cuando al variar la pri-
mera, las variaciones de la segunda no reflejan dependencia o conexión alguna
con las variaciones de la primera, el coeficiente de correlación lineal es cero.
Ejemplo
Se tiene los valores registrados de las visitas realizadas y los pedidos hechos por
10 vendedores de una empresa. Calcula el coeficiente de correlación de Pear-
son.
N°VENDEDOR VISITAS PEDIDOS EN

REALIZADAS (X) MILLONES S/. (Y)
1 245 13.4
2 172 10.3
3 291 15.1
4 124 6.9
5 191 7.3
6 218 14.2
7 101 5.2
8 259 11.8
9 307 14.3
10 142 5.5
ollo
nidos 114
nadas
Solución
i) Calculamos ∑x,∑y, ∑x.y, ∑x2 y ∑y2.
ii)
torio Anotaciones
N° VISITAS PEDIDOS EN
VENDE- REALIZADAS MILLONES x.y X2 Y2
DOR (X) S/. (Y)
1 245 13.4 3283 60025 179.56
2 172 10.3 1771.6 29584 106.09
3 291 15.1 4394.1 84681 228.01
4 124 6.9 855.6 15376 47.61
5 191 7.3 1394.3 36481 53.29
6 218 14.2 3095.6 47524 201.64
7 101 5.2 525.2 10201 27.04
8 259 11.8 3056.2 67081 139.24
9 307 14.3 4390.1 94249 204.49
10 142 5.5 781 20164 30.25
2050 104 23546.7 465366 1217.26
iii) Aplicamos la fórmula:

n∑ xy − ∑ x ∑ y
r= r = 0.9
[n∑ x 2
][
− (∑ x ) n∑ y 2 − (∑ y )
2 2
]
iv) Podemos concluir que existe un grado apreciable de correlación entre las
visitas y los pedidos, siendo ésta positiva.
Ejercicio
Se aplicaron dos test de razonamiento a 10 alumnos y se encontraron los resul-
tados siguientes. Calcula el coeficiente de correlación de Pearson e interprete.
ALUMNO TEST 1 TEST 2

1 15 12
2 14 14
3 10 9
4 9 10
5 8 8
6 8 7
7 7 8
8 6 4
9 4 6
10 2 4
1.2 Coeficiente de determinación (r2)

El coeficiente de determinación indica el porcentaje de la variación total que
será explicado por el análisis de regresión. Es el cuadrado del coeficiente de
correlación de Pearson.
1.3 Prueba t para el coeficiente de correlación
Hipótesis
H0 : ρ = 0 H1 : ρ ≠ 0
ESTADÍSTICA II
de contenidos
115

seleccionadas
r n−2
Estadístico de Prueba: t=
1− r2
FIGURA N°06: PRUEBA DE HIPÓTESIS PARA EL COEFICINETE DE CORRE-
LACIÓN2
1.4 Regresión lineal

Los supuestos de la regresión y correlación que se debe tener en cuenta son:
- Para cada valor de” x” hay un grupo de valores de “y”, y estos valores “y” están
distribuidos normalmente.
- Toda las medias de estas distribuciones normales de Y están sobre la línea de
regresión.
- Las desviaciones estándar de estas distribuciones normales son iguales.
- Los valores de “y” son estadísticamente independientes.
ECUACIÓN DE REGRESIÓN: y = a + bx

ollo
nidos 116
nadas
FIGURA N°07: DIAGRAMA DE DISPERSIÓN
torio Anotaciones
MÉTODO DE MÍNIMOS CUADRADOS PARA CÁLCULO DE a Y b:
b = ∑ 2 ∑ ∑2
n x y− x y
a=
∑ y −b ∑x
n ∑ x − (∑ x ) n n
ERROR ESTÁNDAR DE ESTIMACIÓN
En una medida de dispersión de los valores observados alrededor de la línea
de regresión:
s y,x =
∑(y − y est )2
n−2
S y. X =
∑Y 2
− a ∑ Y − b∑ XY
n−2
INTERVALO DE CONFIANZA
Estima el valor medio de y para una x dada:
1 ( x − x) 2
yest ± tα / 2;n−2 .s yx . +
n (∑ x) 2
∑x 2
−
n
INTERVALO DE PREDICCIÓN
Estima el rango de valores de y para una x dada:
1 ( x − x) 2
yest ± tα / 2;n−2 .s yx . 1 + +
n (∑ x ) 2
∑ x 2
−
n
Ejemplo
El gerente municipal de construcción considera que la demanda de camiona-
das de hormigón puede estar relacionada con el número de permisos de cons-
trucción emitidos en el municipio durante el trimestre anterior.
El gerente ha recolectado los datos que se muestran en la tabla.
ESTADÍSTICA II
de contenidos
117

seleccionadas
Permisos de Camionadas de
construcción hormigón (Y)
(X)
15 6
9 4
40 16
20 6
25 13
25 9
15 10
35 16
Se pide determinar una estimación del número de camionadas cuando el nú-
mero de permisos de construcción es 30.

Solución
i) Realizamos el gráfico de dispersión para el análisis visual
ii) Realizamos los cálculos en la tabla:
n X Y XY X2 Y2
1 15 6 90 225 36
2 9 4 36 81 16
3 40 16 640 1600 256
4 20 6 120 400 36
5 25 13 325 625 169
6 25 9 225 625 81
7 15 10 150 225 100
8 35 16 560 1225 256
Totales 184 80 2146 5006 950
iii) Coeficiente de correlación
n∑ XY − ∑ X ∑ Y
r=
[n∑ X 2
][
− (∑ X ) n∑ Y 2 −(∑ Y ) 2
2
]
8(2146) − (184)(80)
r=
[8(5006) − (184) ][8(950) − (80) ]
2 2
ollo
nidos 118
nadas
2448
r= =
7430400
0.90 Por lo tanto podemos indicar que existe bue-
na relación entre las dos variables, siendo el 81% de la variación
torio Anotaciones
total explicado por el análisis de regresión.
iv) Hallamos las medias de X y Y:

X = 23
Y = 10
v) Hallamos los valores de a y b, utilizando las fórmulas:
b = ∑ 2 ∑ ∑2
n x y− x y
b = 0.395
n ∑ x − (∑ x )
a=
∑ y −b ∑x a = 0.915
n n
vi) Planteamos la ecuación de la regresión:
y = a + bx
y = 0.915 + 0.395 x
vii) El número de camionadas cuando el número de permisos de construcción

es 30 se puede encontrar sustituyendo el valor en la ecuación.
x = 30
y = 0.915 + 0.395(30) x
y = 12.76 ≈ 13
El número de embarques será de 13 aproximadamente.

viii) Por lo tanto, la desviación estándar de la regresión es
S y. X =
∑Y 2
− a ∑ Y − b∑ XY
n−2
950 − (0.91)(80) − (0.396)(2146)
SY . X =
8−2
S Y . X = 2.2 embarques
ix) Si queremos calcular el intervalo de predicción utilizamos:
1 ( x − x) 2
yest ± tα / 2;n−2 .s yx . 1 + +
n (∑ x) 2
∑ x 2
−
n
1 ( x − x) 2
s yx . 1 + + = 2.4
n (∑ x) 2
∑x − n
2
ESTADÍSTICA II
de contenidos
119

seleccionadas
tα / 2;n−2 = 2.447
Intervalo de predicción (inferior) = 13 – 5.87 = 7.1
Intervalo de predicción (superior) = 13 + 5.87 = 18.9
7.1< Embarques < 19

Ejercicio
La temperatura del aire disminuye con la altura de la localidad, los datos si-
guientes refuerzan la idea y hacen presumir una relación lineal entre la tempe-
ratura Y y la altura X observada en ciertos puntos de la costa y parte de la sierra
al amanecer.
X altura en Y temperatura en ºC
metros
1642 18
2242 12
1000 19
937 21
1178 18
1502 16
2043 0
1502 14
1603 10
975 16
1549 15
1066 20
1495 15
1508 18
1000 23
1000 19
1971 19
982 23
1173 18
907 21
1790 12
2109 11
1410 14
1777 6
910 19
Si usted se encontrara al amanecer, a 2000 m en alguno de dichos lugares, ¿qué

temperatura esperaría soportar? Realice previamente el diagrama de dispersión.
Es importante indicar que también existe la regresión no lineal simple, cuando

los datos no se ajustan al comportamiento de una recta es necesario encontrar
el modelo que los explique, en este caso el mejor modelo será el que tenga un
mejor coeficiente de determinación.
Entre los más importantes se tiene:
ollo
nidos 120
nadas
REGRESIÓN EXPONENCIAL
y = ab x
torio Anotaciones
REGRESIÓN POTENCIAL
y = ax b
REGRESIÓN POLINOMIAL
y = a 0 + a1 x + a 2 x 2 + ... + a k x k
REGRESIÓN CUADRÁTICA
y = a0 + a1 x + a2 x 2
2 CORELACIÓN REGRESIÓN MÚTIPLE

La regresión múltiple analiza la relación lineal entre una variable de respuesta (y)
y dos o más variables de predicción (x1, x2, …,xi), por lo complicado en su análisis
utilizaremos el Excel como herramienta. El objetivo es ajustar un modelo de la
forma estimando los parámetros correspondientes y calcular el coeficiente de
determinación .
Ejemplo
Se tiene el siguiente registro de datos:
y X1 X2
8 4 20
10 3 22
12 6 23
13 6 26
15 7 27
18 8 30
Realice el ajuste de regresión múltiple.
Solución
i) Llevamos los datos a una hoja del Excel.
ESTADÍSTICA II
de contenidos
121

seleccionadas
ii) Ir a la pestaña análisis de datos en la opción datos del menú.
iii) Al activar el comando regresión, seleccionar las celdas que se solicita:

ollo
nidos 122
nadas
iv) Luego de presionar Aceptar, se muestran los siguientes resultados:
torio Anotaciones
v) De aquí se puede extraer lo siguiente:

Intercepción = =-8.894737
Variable X1 = = 0.3684211
Variable X1 = = 0.7894737
vi) Por lo tanto, la ecuación de regresión múltiple ajustada es :
2
−8.8947 + 0.3684 X 1 + 0.7895 X 2
Y=
y su R = 0.9784 (97.84%)
2 ELABORACIÓN DE MODELOS DE REGRESIÓN

Para elegir el mejor modelo de regresión, debemos analizar el coeficiente de deter-
minación, aquel modelo que tenga el mayor R2 será el que ajusta mejor el compor-
tamiento de los datos.
Ejemplo
Elija el mejor modelo para el comportamiento de los siguientes datos:
x y
5 69
9 68
10 45
15 48
15 53
16 50
23 45
25 40
26 23
28 36
29 21
31 32
33 21
34 15
35 26
36 10
ESTADÍSTICA II
de contenidos
123

seleccionadas
Solución
i) En el Excel, generemos el diagrama de dispersión, utilizando el comando Inser-
tar… Gráficos… Dispersión.
ii) Haciendo click derecho en cualquier punto activar el comando Agregar línea
de tendencia.
ollo
nidos 124
nadas
iii) Se muestran las opciones donde debemos realizar la prueba en cada modelo
para poder observar el coeficiente de correlación.
torio Anotaciones
iv) Activamos también Presentar el valor R en el gráfico asi como Presentar ecua-
ción en el gráfico.
ESTADÍSTICA II
de contenidos
125

seleccionadas
vi) Quedando el gráfico del siguiente modo:

Donde podemos observar el coeficiente de determinación y el modelo matemático.

vii) El mejor coeficiente y por lo tanto el mejor modelo encontrado pero más com-
plicado es el polinómico de grado 6.
La ecuación del modelo es presentada por el Excel de la siguiente forma:
En el gráfico se muestra el resultado:

ollo
nidos 126
nadas
torio Anotaciones
Ejercicio
Elija el mejor modelo para el comportamiento de los siguientes datos:
x y
48 1
56 1.25
58 1
58 3
59 4.5
62 3
67 2.5
68 3
69 6
69 4
75 1.5
78 3.6
79 5
102 1.25
109 3
110 4
TEMA N° 2: CONTROL ESTADÍSTICO DE PROCESOS

A medida como la ciencia y tecnología ha ido evolucionando, se ha hecho necesario e
indispensable realizar el control estadístico de los procesos sobre todo para controlar
los indicadores de centralización y sobre ello tomar decisiones, para prevenir, mejorar,
optimizar, minimizar, etc. Los requerimientos de tal o cual proceso. La Gestión de la
Calidad en todo ámbito ha hecho de la Estadística una herramienta indispensable para
el cumplimiento de sus metas, es por ello la importancia del presente capítulo, donde
haremos énfasis en las gráficas de control para la media y para la varianza.
ESTADÍSTICA II
de contenidos
127

seleccionadas
FIGURA N°10: LAS 7 HERRAMIENTAS ESTADÍSTICAS BÁSICAS PARA LA GESTIÓN
DE LA CALIDAD
GRÁFICOS DE CONTROL O CARTAS DE CONTROL

Sirven para monitorear el proceso, prevenir defectivos y facilitar la mejora. Hay dos
tipos de cartas de control: por atributos (juzga productos como buenos o malos) y por
variables (variables como, temperaturas).
Las ventajas del uso de una gráfica de control son:
• Es una herramienta simple y efectiva para lograr un control estadístico.
• Es de fácil manejo por los operarios, por lo cual puede dar información confiable a
la gente cercana a la operación en el momento en que se deben de tomar ciertas accio-
nes.
• Cuando un proceso está en control estadístico puede predecirse su desempeño
respecto a las especificaciones. En consecuencia, tanto el productor como el cliente
pueden contar con niveles consistentes de calidad y ambos pueden contar con costos
estables para lograr ese nivel de calidad.
• Una vez que un proceso se encuentra en control estadístico, su comportamiento
puede ser mejorado posteriormente reduciendo la variación.
• Al distinguir ente las causas especiales y las causas comunes de variación, dan una
buena indicación de cuándo un problema debe ser corregido localmente y cuando se
requiere de una acción en la que deben de participar varios departamentos o niveles de
la organización.
En el Control de la Calidad mediante el término variable se designa a cualquier carac-
terística de calidad “medible” tal como una longitud, peso, temperatura, etc. Mientras
que se denomina atributo a las características de calidad que no son medibles y que
presentan diferentes estados tales como conforme y disconforme o defectuoso y no
defectuoso.
1 GRÁFICOS DE CONTROL PARA LA MEDIA Y VARIANZA

Su campo de aplicación se puede resumir en el siguiente cuadro:
CARTA DESCRIPCIÓN CAMPO DE APLICACIÓN

X-R Medias y Rangos. Control de características
individuales.
X-S Medias y desviación estándar. Control de características
individuales.
ollo
nidos 128
nadas
CUADRO N° 22: COEFICIENTES PARA LAS CARTAS DE CONTROL3
torio Anotaciones
CÁLCULO DE LOS LÍMITES DE CONTROL

Los límites de control son calculados para determinar la variación de cada subgru-
po, están basados en el tamaño de los subgrupos y se calculan de la siguiente forma:
LSC R = D4 R LSC X = X + A2 R
LIC R = D3 R LIC X = X − A2 R
Donde D4, D3, A2 son constantes que varían según el tamaño de muestra.
2 GRÁFICOS DE CONTROL PARA ATRIBUTOS
Su campo de aplicación se puede resumir en el siguiente cuadro:
CARTA DESCRIPCIÓN CAMPO DE APLICACIÓN

P Proporciones. Control de la fracción global de
defectuosos de un proceso.
NP Número de defectuosos. Control del número de piezas
defectuosas
C Defectos por unidad. Control de número global de defectos
por unidad
U Promedio de defectos por Control del promedio de defectos
unidad. por unidad.
En el presente texto analizaremos la gráfica de control para proporciones (P). Sus

límites de control se calculan de la siguiente forma:

ESTADÍSTICA II
de contenidos
129

seleccionadas
p (1 − p ) p (1 − p )
LSC p = p + 3 LIC p = p − 3
n n Recordatorio Anotaciones
np1 + np 2 + .... + np k
Donde: p=
n1 + n2 + ..... + nk
Para ambos casos se debe tener en cuenta en el análisis de las gráficas que los pro-
cesos estarán fuera de control si tienen los siguientes comportamientos:
FIGURA N°11: DIAGRAMAS DE DISPERSIÓN Y PROCESOS FUERA DE CON-

TROL4
Ejemplo
Se toman las medidas de los diámetros de una pieza cilíndrica, el tamaño de mues-
tra de cada subgrupo es de cinco, y se toman 25 subgrupos a intervalos de 1 hr.
Realice la carta de control X--R

ollo
nidos 130
nadas
torio Anotaciones
Solución
i) Calculamos el rango y el promedio para cada grupo:
ii) R = 0.198 y X = 0.71

iii) Luego calculamos los límites para los Rangos:
LSC R = D4 R = 2.11x0.198 = 0.41

LIC R = D3 R = 0
iv) Finalmente calculamos los límites para las medias:
LSC X = X + A2 R = 0.71 + (0.58 x0.198) = 0.82

LIC X = X − A2 R = 0.71 − (0.58 x0.198) = 0.59
v) Luego graficamos:
FIGURA N°12: DIAGRAMA DE CONTROL

ESTADÍSTICA II
de contenidos
131

seleccionadas
v) La carta de control R muestra un punto fuera de los límites de especificaciones,
por lo cual el proceso se encuentra fuera de control, en este caso es necesario inves-
tigar las causas y tomar las acciones correctivas para eliminar el problema.
Ejemplo
Un fabricante de latas de aluminio registra el número de partes defectuosas, toman-
do muestras cada hora de n = 50, con 30 subgrupos. Realizar la gráfica de control
para la siguiente serie de datos obtenida durante el muestreo.
Solución
i) Calculamos la fracción defectuosa de cada muestra:
ii) Luego hallamos la proporción total:
iii) Hallamos los límites de control:
p (1 − p ) 0.23 * 0.77
LSC p = p + 3 = 0.2313 + 3 =0.4102
n 50
ollo
nidos 132
nadas
iv) Finalmente trazamos la gráfica:
FIGURA N°13: DIAGRAMA DE CONTROL

torio Anotaciones
v) Observamos que el proceso está fuera de control.

de contenidos
LECTURA SELECCIONADAS N° 1
seleccionadas
¿PODEMOS PREDECIR EL MOMENTO DE LA SIGUIENTE ERUPCIÓN DEL GÉISER
OLD FAITHFUL? Mario Triola. Página 515
El géiser Old
Recordatorio Faithful es la atracción más visitada del Parque Nacional Yellowstone. Está
Anotaciones
ubicado cerca del hotel Old Faithful Inn, que tal vez sea la segunda atracción más vi-
sitada de Yellowstone. Los turistas disfrutan la comida, las bebidas, el alojamiento y las
tiendas del hotel, pero quieren asegurarse de ver al menos una erupción del famoso
géiser Old Faithful. Los guardabosques del parque ayudan a los turistas publicando el
momento predicho de la siguiente erupción. ¿Cómo hacen esas predicciones?
Cuando el Old Faithful hace erupción, se registran las siguientes mediciones: duración
(en segundos) de la erupción, el intervalo de tiempo (en minutos) entre la erupción
anterior y la erupción actual, el intervalo de tiempo (en minutos) entre la erupción
actual y la siguiente, y la altura (en pies) de la erupción. En la tabla adjunta se incluyen
mediciones de ocho erupciones. (Las mediciones de la tabla son ocho de las 40 erupcio-
nes incluidas en el conjunto de datos 11 del apéndice B del libro Estadística de Mario
Triola). La tabla incluye una muestra pequeña con el fin de que los cálculos sean más
fáciles cuando los datos se utilicen para analizar los métodos de las siguientes secciones.
Una vez que ocurre una erupción, queremos predecir el momento de la siguiente, que
es el “intervalo de tiempo posterior” a la erupción. Para ver cuáles variables afectan los
“intervalos de tiempo posteriores”, podríamos comenzar construyendo diagramas de
dispersión como los que genera el Excel. Al examinar los patrones de los puntos en los
tres diagramas de dispersión, podemos plantear las siguientes conclusiones subjetivas:
1. Al parecer hay una relación entre el intervalo de tiempo posterior a una erupción y
la duración de la erupción.
2. Parece que no existe una relación entre el intervalo de tiempo posterior a una erup-
ción y la altura de la erupción.
3. Parece que no existe una relación entre el intervalo de tiempo posterior a una erup-
ción y el intervalo de tiempo previo a la erupción.
Este tipo de conclusiones basadas en diagramas de dispersión son subjetivas, y en este
capítulo presentamos herramientas para analizar temas como éstos:
-¿De qué manera se pueden utilizar métodos estadísticos para determinar objetivamen-
te si hay una relación entre dos variables, como los intervalos de tiempo posteriores a las
erupciones y la duración de éstas?
ESTADÍSTICA II
de contenidos
133

seleccionadas
-Si existe una relación entre dos variables, ¿cómo podemos describirla? ¿Hay alguna
ecuación que se pueda usar para predecir el momento de la siguiente erupción del
géiser, dada la duración de la erupción actual?
-Si podemos predecir el momento de la siguiente erupción del Old Faithful, ¿qué Recordatorio
tan Anotaciones
exacta resultará esa predicción?
Erupciones del géiser Old Faithful

Duración 240 120 178 234 235 269 255 220
Intervalo previo 98 90 92 98 93 105 81 108
Intervalo 92 65 72 94 83 94 101 87
posterior
Altura 140 110 125 120 140 120 125 150
ACTIVIDAD N° 1:
de contenidos

seleccionadas
ACTIVIDAD N° 2:
de contenidos

seleccionadas
TAREA ACADEMICA N° 2
de contenidos

seleccionadas
ollo
nidos 134
Diagrama
UNIDAD IV:InicioCORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
Objetivos

as Glosario Bibliografía de contenidos
nadas
GLOSARIO5
seleccionadas
torio Anotaciones
Análisis de contingencia: Es el estudio que se realiza con las tablas de contingencia y
consiste en analizar el grado de asociación o dependencia entre dos variables cualitativas;
para medir el grado de dependencia se utiliza el coeficiente de contingencia. (Ver coefi-
Recordatorio
ciente de contingencia).
Anotaciones
Análisis de correlación: Es el estudio que se realiza para medir la intensidad o grado de

la asociación que existe entre variables numéricas.
Análisis de regresión: Es el estudio que se realiza con el propósito de hacer predic-

ciones. El objetivo es el desarrollo de un modelo estadístico que pueda ser utilizado
para predecir valores de una variable dependiente, basado en los valores de la variable
independiente.
Análisis de varianza: Es un método para comparar dos o más medias (Ver media) de «n»
grupos analizando la varianza de los datos, tanto entre «n» grupos como dentro de ellos.
Bondad de ajuste: Es un indicador que permite discernir acerca de qué tan buena es
la ecuación obtenida. Para determinar la bondad de un ajuste se utilizan diferentes
criterios en la regresión lineal. Unos se refieren a los residuales como son el valor de
la sumatoria de residuales al cuadrado, la varianza, la desviación estándar del ajuste y
el coeficiente de correlación al cuadrado. Otro indicador de la bondad de ajuste es el
realizado mediante el test de bondad de ajuste utilizando la prueba Ji-Cuadrada (X2),
Kolgomorov -Smirnov (K-S) entre otras.
Coeficiente de correlación lineal de pearson: Es un número que mide la intensidad

de la asociación lineal entre dos variables. El coeficiente de correlación se representa
simbólicamente por "r".
Coeficiente de determinación: Es un valor que se obtiene elevando al cuadrado el coefi-

ciente de correlación. Se representa simbólicamente por r2 y puede tomar valores entre
0 y 1. El coeficiente de determinación mide la proximidad del ajuste de la ecuación de
regresión de la muestra a los valores observados de la variable dependiente.
Coeficientes de regresión: Son los valores constantes de una ecuación de regresión li-
neal. En el modelo de regresión lineal siguiente los coeficientes son a y b.
Contraste de hipótesis: Conocido también como dócima o prueba de hipótesis, es el

proceso estadístico que se sigue para la toma de decisiones a partir de la información
de la muestra. Comparando el valor del estadístico experimental con el valor teórico,
se rechaza o acepta la hipótesis nula (H0). Lo contrario a la hipótesis nula se llama hi-
pótesis alterna (H1).
Diagrama de dispersión: Es un gráfico utilizado para representar la relación entre los va-
lores observados de dos variables numéricas. También se conoce como nube de puntos.
Muestra: Es un subconjunto representantivo de la población a partir del cual se preten-

de realizar inferencias respecto a la población de donde procede. Los elementos selec-
cionados con cierta técnica reúnen ciertas características que la hacen ser representati-
va, significativa y confiable y que en base a ella se pueden hacer inferencias respecto a la
población. La muestra puede ser probabilística y no probabilística.
Muestra no probabilística: Es aquella que se obtiene mediante juicio de la persona que

selecciona los elementos de la muestra que usualmente es un experto en la materia. Este
método está basado en los puntos de vista subjetivos de una persona y la teoría de la
probabilidad no puede ser empleada para medir el error de muestreo. Las principales
5 Glosario Básico INEI

ESTADÍSTICA II
de contenidos
135

seleccionadas
ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente
es bajo.
Muestra probabilística: Es aquella muestra obtenida por un mecanismo de probabilida-

des, en el cual cada elemento de la población total o universo tiene una probabilidad
conocida de selección. (Ver muestreo aleatorio).
Muestreo: Es un conjunto de métodos y procedimientos estadísticos destinados a la

selección de una o más muestras es la técnica seguida para elegir muestras. El objetivo
principal de un diseño de muestreo es proporcionar procedimientos para la selección
de muestras que sean representativas de la población en estudio.
Muestreo aletorio simple: También llamado irrestrictamente aleatorio. Es un método

de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que
cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de
la población. Una muestra aleatoria es también llamada una muestra probabilística es
aquella cuyos elementos se seleccionan individualmente de la población en forma alea-
toria, y es preferida por los estadísticos porque la selección de las muestras es objetiva y
el error muestral puede ser medido en términos de probabilidad bajo la curva normal.
Por conveniencia, este método puede ser reemplazado por una tabla de números alea-
torios cuando una población es infinita. Se aplica cuando los datos son casi homogé-
neos. Una variante del muestreo aleatorio simple es el muestreo aleatorio sistemático.
Otros tipos más comunes de muestreo aleatorio son: muestreo aleatorio estratificado y
muestreo por conglomerados.
Muestreo sistemático: Es una variante del método aleatorio simple de selección de cada
elemento de la muestra. Se aplica cuando la población está listada en algún orden. Con-
siste en seleccionar un número aleatorio menor que N/n y luego los (n-1) elementos
de la muestra se eligen agregando al primer aleatorio: el entero K obtenido por K=N/n
y así sucesivamente. El primer elemento de la muestra es seleccionado al azar. Por lo
tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de
la población que una muestra aleatoria simple cuando los elementos en la población
están ordenados al azar.
Muestreo estratificado aleatorio: Es un método de muestreo que se aplica cuando se

divide la población en grupos, llamados estratos, donde los datos son más homogéneos
pero un estrato frente al otro muy distintos. Para extraer la muestra aleatoria se aplica el
muestreo aleatorio simple a cada estrato y el tamaño es la suma de los tamaños de todos
los estratos. Para determinar los tamaños de los estratos se puede utilizar la asignación
proporcional, óptima y óptima económica. Si no se conoce la variabilidad de los datos
se aplica la asignación proporcional.
Muestreo por conglomerados: Es un método de muestreo en el cual la población está

en grupos debido a la organización administrativa u otro (conglomerados). Ejemplo:
Colegios, Universidades, manzanas de casas, entre otros. Al interior de los conglomera-
dos no se puede garantizar homogeneidad. Cada conglomerado es una unidad donde
la muestra se selecciona como en el muestreo aleatorio simple y se aplica la encuesta a
todos los elementos del conglomerado. Una muestra de conglomerados, usualmente
produce un mayor error muestral (por lo tanto, se obtiene menor precisión de las esti-
maciones acerca de la población) que una muestra aleatoria simple del mismo tamaño.
Los elementos individuales dentro de cada "conglomerado" tienden frecuentemente
a ser iguales.
Nivel de significación: Se define como la probabilidad de rechazar la hipótesis nula

cuando ésta es verdadera. Se le conoce también con el nombre de «error de tipo 1»,
simbólicamente se denota por .
PARÁMETRO: Es cualquier valor característico de la población. Ejemplo: la media de la

población, la desviación típica de la población. Sin embargo estos valores son desconoci-
dos porque no siempre podemos tener todos los datos de la población para calcularlos.
ollo
nidos 136
nadas
PRUEBA DE HIPÓTESIS: Es una técnica que permite rechazar o aceptar la hipótesis
en base de la información proporcionada por la muestra. (Ver contraste de hipótesis).
torio Anotaciones PRUEBA JI-CUADRADO: Es una prueba que permite contrastar si la hipótesis H0 es
coherente con los datos obtenidos en la muestra. Se puede utilizar para:
1. Bondad de un ajuste.
2. Criterio de independencia.
3. Criterio de homogeneidad.
REGIÓN DE ACEPTACIÓN: Es la región formada por el conjunto de valores con los

cuales decidimos aceptar la hipótesis nula.
REGIÓN DE RECHAZO: Conocida también como región crítica, está formada por el
conjunto de valores con los cuales se rechaza la hipótesis nula.
REGRESIÓN: Es una técnia de análisis para poner de manifiesto la estructura de depen-

dencia que mejor explique el comportamiento de la variable dependiente o explicada
(y) a través de un conjunto de variables independientes o explicativas (x1,x2....xp), con
las que se supone está relacionada. El método más utilizado es el de los mínimos cuadra-
dos. La ecuación a ajustar puede ser lineal o no lineal. En ambos casos el objetivo es el
mismo: encontrar las mejores estimaciones de los parámetros y cuantificar la precisión
de los mismos.
REGRESIÓN LINEAL: La regresión será lineal cuando la curva obtenida o seleccionada

sea una recta. Es la recta que mejor se ajusta a los datos. Se obtiene mediante el método
de mínimos cuadrados. Para ello se debe calcular primero el coeficiente de correlación
Diagrama Objetivos
lineal
Inicio
que permite determinar, si efectivamente, existe relación entre las dos variables.
Una vez encontrada la relación, la regresión permite definir la recta que mejor se ajusta
a la nube de puntos (gráfico de pares ordenados).

de contenidos
BIBLIOGRAFÍA DE LA UNIDAD IV
seleccionadas
ta Edición.
Edición
ESTADÍSTICA II
de contenidos
137
Objetivos Inicio Lecturas Glosario Bibliografía

seleccionadas
AUTOEVALUACIÓN DE LA UNIDAD IV
s
1. De un conjunto de datos se ha calculado la data que aparece en el cuadro debajo.

i. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la can-
s
Glosario
tidad de nicotina en términos de la variable de predicción (x) de la cantidad de
Bibliografía
alquitrán.
ii. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la can-
tidad de nicotina en términos de la variable de predicción (x) de la cantidad de
o Anotaciones monóxido de carbono.
iii. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la canti-
dad de nicotina en términos de las variables de predicción (x) de la cantidad
de alquitrán y la cantidad de monóxido de carbono.
iv. De las ecuaciones de regresión elegidas en los incisos i), ii) e iii), ¿cuál es la mejor
ecuación para predecir la cantidad de nicotina?
v. ¿La mejor ecuación de regresión identificada en el inciso es una buena
ecuación para predecir la cantidad de nicotina? ¿Por qué?
VARIABLE DE R R2 R2 ECUACIÓN DE REGRESIÓN SIGNIFICANCIA

PREDICCIÓN (X) AJUSTADO
Monóxido
de carbono, 0.9661 0.9333 0.9282 y´=0.182 - 0.0186 X1 + 5.16523E-16
Alquitrán 0.0818X2
Monóxido de
carbono 0.8633 0.7453 0.7358 y´=0.1916+0.0606 X 1.67085E-09
Alquitrán 0.9614 0.9242 0.9214 y´=0.1540+0.0650 X 1.17863E-16
A) i) Y´=0.1540 + 0.0650X
ii) Y´=0.1916 +0.0606X
iii) Y´=0.182 - 0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la tercera
v) Sólo tiene una variable.
B) i) Y´=0.1916 +0.0606X
ii) Y´=0.1540 + 0.0650X
iii) Y´=0.182 - 0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la tercera
v) Por el tipo de variable
C) i) Y´=0.1540 + 0.0650X
ii) Y´=0.1916 +0.0606X
iii) Y´=0.182 +0.0818X2
iv) La mejor ecuación para hacer predicciones es la primera
v) Tiene más variables dependientes
D) i) Y´=0.1540+0.0650X
ii) Y´=0.1916+0.0606X
iii) Y´=0.182-0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la primera
v) Tiene más variables independientes.
E) i) Y´=0.1540 + 0.0650X
ii) Y´=0.1916+0.0606X
iii) Y´=0.182-0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la segunda
v) Contiene las variables más importantes.
ollo
nidos 138
nadas
2. Señale V o F para cada enunciado:
I. Una gráfica de rachas es una gráfica secuencial de valores de datos individuales a
lo largo del tiempo.
torio Anotaciones II. Un proceso está bajo control estadístico si varía de forma natural, en patrones, sin
ciclos o puntos fuera de lo común.
III. La variación aleatoria se debe al azar; es el tipo de variación inherente a cual-
quier proceso que no es capaz de producir un bien o servicio exactamente de la
misma forma cada vez.
IV. La variación asignable resulta de causas identificables como; maquinaria
defectuosa, empleados etc.

a) VVVV
b) FVVV
c) VFVV
d) VFFV
e) FVFF
3. Los límites de control de medias para el siguiente conjunto de datos son:

1 10 12 13 08
2 13 11 10 06
3 10 09 11 13
4 08 12 13 11
5 14 10 11 05
a) LCS= 15.5 , LCI = 6.7

b) LCS= 16.5 , LCI = 5.7
c) LCS= 14.73 , LCI = 6.3
d) LCS= 14.27 , LCI =7.32
e) LCS= 14 , LCI =7
4. Ud. tiene dos diagramas de dispersión que servirán para que identifique el modelo
matemático que se ajusta mejor a los datos indicados. Suponga que el modelo se
va a emplear únicamente para el alcance que tienen los datos y considere sólo los
modelos lineal, cuadrático, logarítmico, exponencial y potencial.
Experimento de física: Un experimento para una clase de física implica dejar caer
una pelota de golf y registrar la distancia (en metros) que cae en diferentes tiempos
(en segundos) después de ser soltada. Los datos se incluyen en la siguiente tabla.
Proyecte la distancia para un tiempo de 12 segundos, dado que la pelota de golf se
dejo caer de un edificio con una altura de 50 m con el modelo de regresión más
apropiado. Debe responder a: i)¿Cuál es el mejor modelo?, ii) ¿Cuál es el estimado?
y iii) ¿Cómo interpreta los resultados?
TIEMPO 0 0.5 1 1.5 2 2.5 3

DISTANCIA 0 1.2 4.9 11 19.5 30.5 44
ESTADÍSTICA II
ANEXODesarrollo
de contenidos
139

seleccionadas
a) i) Y= 4.8952X2 – 0.0286
ii) 705 metros
iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio.
b) i) Y= 4.8952X2 – 0.0286X+0.0048
ii) 705 metros
c) i) Y= 0.0286X +0.0048
ii) 705 metros
d) i) Y= 14.657X – 6.1143
ii) 169.67 metros
iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el edi-
ficio, el experimento está errado.
e) i) Y= 14.657X – 6.1143
ii) 169.67 metros
iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el
edificio.
5. Construya una gráfica para las medias y determine si la media del proceso está bajo
control estadístico. Si no es así, identifique cuál de los tres criterios para establecer
una falta de control conduce al rechazo de una media estadísticamente estable. ¿Ne-
cesita este proceso una acción correctiva?6
Marque lo incorrecto.
a) Hay un patrón de variación creciente.
b) Hay puntos que se ubican fuera del límite superior de control.
c) Existen ocho puntos consecutivos que están por debajo de la línea central.
d) La media del proceso se encuentra bajo control estadístico.
e) El proceso necesita acciones correctivas.
FIGURA N°14: REGISTRO DE DATOS7

ollo
nidos 140
Actividades Autoevaluación ANEXO
nadas
ANEXO Nº 1
Solucionario de las Autoevaluaciones
torio Anotaciones
AUTOEVALUACIÓN DE LA UNIDAD I
No de pregunta RESPUESTA
1 D
2 A
3 E
4 B
5 E
6 B
7 D
8 D
9 A
10 C
AUTOEVALUACIÓN DE LA UNIDAD II
1 E
2 C
3 C
4 B
5 D
6 E
7 A
8 E
9 E
10 C
AUTOEVALUACIÓN DE LA UNIDAD III
1 C
2 D
3 A
4 E
5 E
AUTOEVALUACIÓN DE LA UNIDAD IV
1 D
2 E
3 A
4 D
5 D

Estadistica Ii PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadistica Ii PDF

Загружено:

Авторское право:

Доступные форматы

ESTADÍSTICA II

Claudio Álvaro Cerrón Landeo

Autor: Claudio Álvaro Cerrón Landeo

Impreso en el Perú - Rebelars S.A.C

Todos los derechos reservados.

Esta publicación no puede ser reproducida, en todo ni en parte, ni registrada en o

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS 11

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD i 11

 3 Estimación de la varianza poblacional 35

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA 43

Diagrama de presentación de la Unidad Ii 43

Tema N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS 52

Tema N° 3: ANÁLISIS DE VARIANZA 59

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA 73

Diagrama de presentación de la Unidad 73

Tema N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA

Tema N° 3: PRUEBAS NO PARAMÉTRICAS 96

ACTIVIDAD N°1 106

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS 111

Diagrama de presentación de la Unidad 111

Tema N° 2: CONTROL ESTADÍSTICO DE PROCESOS 126

Lectura Seleccionada N° 1 132

Lecturas Glosario Bibliografía

Desarrollo Actividades Autoevaluación

Lecturas Glosario Bibliografía

Muestreo y estima- Prueba de hipó- Estadística no Correlación, regre-

TIEMPO MÍNIMO DE ESTUDIO

1a y 2a Semana 3a y 4a Semana 5a y 6a Semana 7a y 8a Semana

Diagrama Objetivos Inicio Lecturas Glosario Bibliografía

Diagrama Objetivos Inicio

ORGANIZACIÓN DE LOS APRENDIZAJES

CONOCIMIENTOS PROCEDIMIENTOS ACTITUDES

Desarrollo Actividades Autoevaluación

Tema N° 2: Estimación y tama- 3. Utiliza datos muestrales para

1.2. Población muestreada

1.3. Unidad de muestreo

1.4. Marco muestral

1 Estadística. Mario Triola 10°Ed.

Lecturas Glosario Bibliografía

Universo o población objetivo: Hombres y mujeres mayores de 18 años, habi-

Marco muestral: La selección de manzanas se hizo utilizando como marco

Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana.

Error y nivel de confianza estimados: ±4.32% con un nivel de confianza del

Distritos que resultaron seleccionados en la muestra: La selección aleatoria

Procedimiento de muestreo: Se realizó una muestra probabilística polietápica.

Ponderación: En Lima Metropolitana los datos se ponderaron en función del

Técnica de recolección de datos: Mediante entrevistas directas en las viviendas

Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de 2009.

Financiamiento: Pontificia Universidad Católica del Perú.

1.7. Plan de muestreo

1.8. Muestreo probabilístico y no probabilístico

2 Tipos de Muestreo probabilístico

1.1. Muestreo aleatorio simple

Pasos a seguir para seleccionar una muestra aleatoria simple

El muestreo aleatorio simple presenta dos propiedades:

Lecturas Glosario Bibliografía

Cuadro N°01: Trabajadores Registrados

Ingreso Años en la Nivel

2 tomado del libro de Mario Triola 10ª Ed. Capítulo 1.

Ingreso Años en la Nivel

Lecturas Glosario Bibliografía

torio Anotaciones Ingreso Años en la Nivel

101 2800 20 Técnica

3 Estimación de la varianza poblacional 35