Вы находитесь на странице: 1из 92

Profesor: Oscar Orlando Melo M.

Probabilidad y Estadistica Fundamental

CAPÍTULO I.
INTRODUCCIÓN

1.1 FORMAS DEL SABER

Los seres humanos poseen mayores o menores conocimientos, según el modo y grado de participación
en la totalidad de la cultura, pero las formas y tipos de conocimiento generan dos modos principales
del saber que son el Saber Cotidiano y el Saber Científico.

Se sabe de manera natural por el solo hecho de vivir y se sabe científicamente cuando existe
disposición de conocer con arreglo a ciertos procedimientos.

1.1.1 Saber Cotidiano.

Es el saber o conocimiento que se adquiere en la experiencia cotidiana. Es el modo común y corriente,


espontaneo de conocer.

Este saber cotidiano, también llamado vulgar, se caracteriza por ser superficial, en el sentido de que
se conforma con lo aparente, como en el modo de establecer cánones de validación; se limita a percibir
lo inmediato a través de experiencias, vivencias, estados de ánimo y emociones de la vida diaria,
permaneciendo a nivel de certeza sensorial.

Otra característica propia de este saber es la de ser crítico puesto que está apoyado solo en la evidencia
inmediata y solo percibe entonces la epidermis de la realidad; puede decir acerca de lo que pasa, pero
no porque pasa lo que pasa.

1.1.2 Saber Científico.

Se acepta actualmente como definición de conocimiento científico o en general Ciencia, aun conjunto
de conocimientos racionales, ciertos o probables, que obtenidos de manera metódica y verificados
empíricamente, se sistematizan orgánicamente, haciendo referencia a objetos de una misma
naturaleza, cuyos contenidos son susceptibles de ser trasmitidos.

Es racional puesto que exige el uso de la razón y ello tiene exigencias metódicas que conforman una
serie de elementos básicos, tales como un sistema conceptual, hipótesis, definiciones, etc.

Es cierto o probable: en la ciencia no existe la certeza absoluta, sino solo la probabilidad inductiva;
se trata de verdades parciales, sujetas a corrección cuando nuevos datos o experiencias demuestran la
necesidad de rectificación.

Los conocimientos de la ciencia no se adquieren al azar o en la vida cotidiana, sino mediante regla
lógicas que acompañadas de procedimientos técnicos se organizan según ciertas convenciones
científicas; por esto la ciencia es metódica.

1
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

También requiere la confrontación con la realidad y la sistematización orgánica, ya que no se trata


de conocimientos inconexos sino de un saber ordenado lógicamente constituyendo un sistema de
generalizaciones y principios que relacionan los hechos entre sí, deduciendo leyes y teorías.

Lo anterior implica que el saber científico se refiera a objetos de una misma naturaleza, objetos
pertenecientes a un determinado ámbito de la realidad, que guardan entre sí caracteres de
homogeneidad, acerca de los cuales se afirma algo de sus propiedades estructurales y relaciones.

Finalmente, los conocimientos de una ciencia deben ser transmisibles por medio de un lenguaje que
le es propicio y que debe responder a todas las exigencias de claridad y precisión.

1.2 MÉTODO CIENTÍFICO E INVESTIGACIÓN

Entre un tipo del saber y otro existe una separación que no es cualitativa sino de grado; lo
diferenciador no está dado por la naturaleza del objeto de estudio, ni por la veracidad de lo conocido
sino por la forma de su adquisición y los instrumentos del conocer. En tanto que el saber vulgar no es
sistemático, el científico lo es, requiere de un proceso formal, es decir de un MÉTODO.

Se entiende por el Método Científico el camino a seguir mediante una serie de operaciones, reglas y
procedimientos fijados de antemano de manera voluntaria y reflexiva, para alcanzar un determinado
fin que puede ser material o conceptual.

1.2.1 Características del Método Científico

Es FÁCTICO, en el sentido de que los hechos son fuente de información y de respuesta. Se dice que
el Método Científico parte de la observación de los hechos, está basado en los hechos, tiene un
referencial empírico.

TRACIENDE LOS HECHOS; si bien el Método Científico parte de los hechos particulares, no se
detiene en ellos sino que mediante un salto del nivel observacional al teórico los trasciende, los
problematiza y establece leyes, teorías, etc. La interpretación de los hechos se realiza desde un
determinado marco de referencia teórico que, a su vez, se apoya en supuestos meta-teóricos.

Se atiene a REGLAS METODOLÓGICAS formalizadas (operaciones, procedimientos


establecidos de antemano), pero no por eso deshecha la intuición y la imaginación.

Se vale de la VERIFICACIÓN EMPÍRICA para formular respuesta a los problemas planteados y


para apoyar sus propias afirmaciones, exigiendo una constante confrontación con la realidad que lleva
a la problematización de lo ya adquirido y admitido.

Esta permanente confrontación hace que el Método Científico sea AUTOCORRECTIVO Y


PROGRESIVO. Es autocorrectivo en cuanto va rechazando, corrigiendo o ajustando las propias
conclusiones en la medida que algunos hechos demuestren la existencia de algún error u omisión. Es
progresivo ya que, al no tomar sus conclusiones como infalibles o finales, está abierto a nuevos
aportes y a la utilización de nuevas técnicas y procedimientos.

2
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

Es GENERALIZANTE, la cosa en particular o el hecho individual o singular interesa en la medida


en que es miembro de una ley o clase. No es que el Método ignore la cosa individual o el hecho
irrepetible, lo que ignora es el hecho aislado, puesto que sus enunciados son universales y expresan
el comportamiento general de la naturaleza o de los eventos en estudio.

Es SISTEMÁTICO, el conocimiento científico es un sistema de ideas conectadas lógicamente.


Necesita de la racionalidad científica, de modo tal que establece criterios de precisión en la
observación.

La investigación científica es ESPECIALIZADA, necesita mantener la unidad metodológica de la


ciencia para su aplicación a adversos factores de la misma ciencia. Su interrelación se hace mediante
la interdisciplinariedad científica.

Finalmente, el conocimiento científico es COMUNICABLE, es expresable para el público. La


comunicación debe romper los muros del secreto científico para encontrar la vía al progreso
tecnológico y cultural.

1.3 La Estadística y el Método Científico.

La palabra Estadística, proviene de la raíz latina status o de la griega statera o de la palabra alemana
staat, todas relativas al concepto de Estado como ente gubernamental.

Esta acepción de la palabra Estadística, desafortunadamente la única que tiene un grueso de la opinión
publica en nuestro medio acerca de lo que es esta ciencia, aparece recalcada en el prefacio de “Una
visión política del estado actual de Europa”, por E.A.W Zimmermann, publicada en 1787, donde
anota: “Hace cerca de cuarenta años que esta rama del conocimiento político, que tiene como objeto
estudiar la potencia real y relativa de los distintos estados modernos, la capacidad derivada de sus
condiciones naturales, la industria y la civilización de sus habitantes y la sabiduría de sus gobernantes,
se ha constituido, principalmente por obra de escritores alemanes, en una ciencia independiente…Por
la forma más conveniente que ahora ha tomado, esta ciencia, conocida por el recién inventado nombre
de Estadística, ha llegado a ser un estudio favorito en Alemania”.

Las técnicas descriptivas, se diversifican a fenómenos no necesariamente estatales, como la industria,


la economía, etc. por lo que, se define entonces la Estadística como un “Método para describir
numéricamente, características de fenómenos colectivos”. Hoy en día los procesos descriptivos de la
Estadística, son una parte esencial de tal ciencia, pero no son los únicos; corresponderían al proceso
inicial del Método Científico, anteriormente citado, o sea a la observación de los hechos.

Aproximadamente, por lo misma época en que se presenta la citada acepción de Estadística, está en
auge una rama de las Matemáticas, con sus principales exponentes en Francia e Inglaterra, que trata
de controlar el comportamiento de los juegos de azar y por ende de todo fenómeno afectado por este,
dando origen al Cálculo de Probabilidades, que se constituiría en un gran aporte para el mayor
desarrollo de la Estadística. Se requiere de un procedimiento estructurado, sistematizado,
formalizado, es decir científico, para manejar la incertidumbre, que además permita cuantificar los
diversos niveles de esta.

3
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

Filosóficamente no se está descubriendo o desarrollando la probabilidad, pues ella es inherente al ser


humano, sino que se está cuantificando. Al respecto es conveniente considerar dos tipos de fenómenos
a los que se enfrenta el ser humano en su vida común y corriente y por consiguiente en su vida técnica
y científica. Ellos son los llamados fenómenos deterministicos y los fenómenos aleatorios,
caracterizados los primeros por ser de naturaleza tal que, al obsérvalos o realizarlos bajo las mismas
condiciones generales, presenta siempre el mismo resultado, en tanto que los segundos no presentan
tal caracterización.

La distinción la origina el determinismo causal, que implica para los fenómenos determinísticos un
conocimiento y control absoluto de todos los factores que determinan el comportamiento del
fenómeno, lo cual no sucede en el caso aleatorio, donde se supone que adicionalmente actúan factores
de casualidad o del azar, debidos a conocimientos de factores causales pero con la imposibilidad de
controlarlos o desconocimiento de algunas de las causas. Ciertos filósofos aseguran que todo
fenómeno está constituido por factores de causalidad y factores de casualidad, solo que en algunos
casos la influencia de estos últimos es tan poca, que se puede despreciar y se acepta entonces el
concepto de determinismo absoluto.

Frecuentemente se diferencian los dos tipos de fenómenos, anotando que en los determinísticos se
conocen los posibles resultados y en los aleatorios no. Esto no es cierto, pues en general en las dos
situaciones se conocen los posibles resultados, lo que sucede es que en el caso determinístico se puede
predecir o determinar con certeza cual resultado se presentará o cómo se comportará el fenómeno,
mientras que en el caso aleatorio solo se puede predecir con incertidumbre lo que ocurrirá. Por
consiguiente, el ser humano siempre ha tratado de medir su nivel de incertidumbre, es decir siempre
ha convivido con la probabilidad, en su sentido conceptual de ser una medida de la verosimilitud de
los resultados de fenómenos aleatorios. La palabra verosimilitud es sinónimo de potencia, posibilidad,
fuerza de ocurrencia o suceso.

Palabras, frases y actitudes, han sido utilizadas por el ser humano para referirse a, o manejar lo
incierto, constituyéndose aquellas en formas elementales de medida (lógicamente no numérica) de la
verosimilitud. Quien, en situaciones inciertas, no ha dicho o ha oído decir: “yo creo…”, “a lo mejor
…”, “posiblemente…”, inclusive un muy usual “lo más seguro es que…”? Pues bien, estas formas
de medir son poco formales, muy inciertas, no sistematizadas, nada científicas y se requiere un
proceso que si posea estas cualidades; es lo que se empieza a desarrollar en la Matemática,
especialmente en Francia e Inglaterra, como se anotó anteriormente. La idea es cuantificar la
probabilidad.

Simultáneamente, con este desarrollo matemático de la probabilidad, se empiezan a detectar en las


“estadísticas descriptivas”, comportamientos regularizados, tendenciosos, generalizados de los
fenómenos que se describen. Se detecta la regularidad estadística, que se enunciara posteriormente,
dando lugar los dos procesos al nacimiento de una serie de métodos que permiten, siempre con
incertidumbre, predecir, proyectar, estimar, inferir fenómenos en diferentes campos de la actividad
humana corriente y sobretodo técnica y científica.

Aparece entonces el concepto Estadística, para referirse a una “Rama de las matemáticas, que
permite realizar inferencias en situaciones de incertidumbre”, lo que constituye hoy una parte

4
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

esencial de la Estadística, llamada la Inferencia Estadística, pero que no corresponde exactamente a


una definición de lo que es esta ciencia.

Una tercera acepción de la palabra Estadística se encuentra, más o menos en las mismas épocas citadas
anteriormente, en Suecia e Inglaterra para hacer referencias a técnicas de “Estudio numérico de
sociedades humanas”, lo que hoy llamamos Demografía, pero erróneamente conocido en muchos
círculos, como definición única y exhaustiva, de Estadística.

Finalmente y solo a principios del siglo XX, una segunda escuela inglesa, principalmente preocupada
con problemas de estudio e investigación en agronomía y biometría, inicia y pone los cimientos de la
ciencia a la que nos referimos actualmente con la palabra Estadística.

En verdad resultaría bastante dispendioso ampliar esta breve reseña histórica de la palabra Estadística,
más que de la Estadística como ciencia, pero con el propósito de una mejor ubicación de ella,
considero suficientes estas notas. La claridad conceptual sobre lo que es la Estadística y posibles
definiciones más formales, actuales y generalmente aceptadas, se trataran de lograr en los capítulos
siguientes.

CAPÍTULO II
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA

2.1 DEFINICIONES DE ESTADÍSTICA

Alexander M. Mood, profesor universitario norteamericano, define a la Estadística como “la


tecnología del Método Científico, ya que le proporciona instrumentos para la toma de decisiones
cuando prevalecen condiciones de incertidumbre”.

El profesor escandinavo, Harald Crámer, presenta la siguiente definición: “La Estadística es una
Ciencia basada en el cálculo de probabilidades, cuyo objetivo fundamental consiste en investigar la
posibilidad de extraer de los datos estadísticos, inferencias validas, elaborando los métodos mediante
los cuales puedan ser obtenidos dichas inferencias”.

Leo Dugué de Bernonville, profesor francés, la define como “La ciencia que se aplica al estudio
numérico de fenómenos colectivos. Estudio que comprende la observación de los hechos, su correcta
ordenación, adecuada clasificación y su análisis. Tiene como fin principal el descubrimiento de
características o propiedades de tipo general, para la mayoría del colectivo, pero no necesariamente a
todos y cada uno de los casos”.

Como es deducible, estas definiciones y otras similares, no se contradicen, por el contrario se


complementan y permiten apreciar la gran relación entre esta ciencia y el Método Científico. Así, se
hace referencia a la observación de los hechos, observación que por no ser numérica genera los datos
estadísticos y que está asociada con el refencial fáctico del Método Científico; pero al igual que en
este, en la Estadística se pretende inferir, generalizar, es decir trascender los hechos.

5
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

2.2 CARACTERÍSTICAS DEL MÉTODO CIENTÍFICO

A partir de las definiciones anteriores, se pueden presentar las siguientes características del método
estadístico:

Es LÓGICO y su lógica está basada en la llamada “ley de los grandes números”, la cual, expresada
en términos no formales, dice que entre mayor sea el número de hechos que se observan, más exactas
serán las conclusiones que se obtengan y en la llamada “ley de regularidad de frecuencias” referida
al hecho de que si se realizan repeticiones u observaciones sucesivas de un fenómeno, la frecuencia
relativa de algún suceso de interés, tiende a estabilizarse alrededor de un valor, el cuál corresponderá
a la probabilidad de tal suceso. Es conveniente anotar, a propósito de esta característica, que la
Estadística no es exacta y como sucede en este tipo de ciencias, trata de lograr la mayor exactitud
posible, o sea el mayor acercamiento a la verdad.

El proceso de razonamiento que utiliza la Estadística para alcanzar sus objetivos de aplicabilidad es
el INDUCTIVO y para su desarrollo propio el DEDUCTIVO.

Por la misma naturaleza, el método estadístico es NUMÉRICO. Todo estudio estadístico siempre
conlleva algún tratamiento numérico de la información, así sea el elemental de contar.

Está referido siempre a FENÓMENOS COLECTIVOS o como algunos autores sugieren, a


AGREGADOS: como al Método Científico, solo le interesa el hecho individual como componente
de un hecho numeroso, o sea que es ATÍPICO, en el sentido de que los resultados que se obtienen
no se pueden aplicar en forma particular o individual; siempre es GENERALIZANTE.

Naturalmente el método estadístico es OBJETIVO, en la misma forma que se habla de objetividad


en el Método Científico. Es esta una característica que algunos usuarios de “supuestos procesos
estadísticos”, han desacreditado al manipular, en el peor sentido de la palabra, información numérica
para comprobar o demostrar así, verdades predeterminadas o mostrar realidades distorsionadas.

Como conclusión de esta caracterización de la Estadística y siguiendo a A. Mood, es conveniente


tener presente que el fin último de la Estadística, su objetivo inmediato, es colaborar con el Método
Científico en procesos de TOMA DE DECISIONES, cuando prevalecen condiciones de RIESGO
Y/O INCERTIDUMBRE.

2.3 CLASIFICACIÓN DE LOS MÉTODOS ESTADÍSTICOS

Para su desarrollo y aplicación la Estadística utiliza diversos procedimientos, los cuales pueden
clasificarse de la siguiente manera, no exhaustiva ni necesariamente excluyente:

MÉTODOS DESCRIPTIVOS: cuando las conclusiones que se obtienen de las experiencias o datos
en estudio, no rebasan los límites de los mismos. Tienen como objetivo fundamental su presentación
y análisis como paso previo a los procesos inferencias.

MÉTODOS INDUCTIVOS O INFERENCIA ESTADÍSTICA: cuando las conclusiones que se


obtienen de los datos en estudio, rebasan los límites de los mismos. Implica en general, el tomar
6
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

decisiones en el caso más universal del cual forman parte los datos. El proceso de tomar decisiones
en situaciones generales, sobre la base de una información incompleta contenida en algunos datos, es
arriesgado y no puede realizarse con certeza absoluta sino con incertidumbre. Sin embargo esta última
no es total, pueden controlarse sus niveles, puede medirse su magnitud, lo cual se lleva a cabo con
base en el CÁLCULO DE PROBABILIDADES.

MÉTODOS TEÓRICOS O TEORÍA ESTADÍSTICA: se está ante la misma cuando se aborda el


estudio de los fenómenos estadísticos, utilizando los métodos matemáticos en toda su plenitud. Esto
no supone, sin embargo, que la Estadística sea una rama de las Matemáticas, sino que al igual que
otras ciencias (Física, Economía, Química, etc.), la utiliza como instrumento, y así mientras en la
Matemática Pura se permanece en el terreno de lo conceptual, en estas ciencias es preciso que las
conclusiones se ajusten a la realidad, pues de lo contrario no sirven.

2.4 SISTEMA CONCEPTUAL BÁSICO

2.4.1 El Colectivo, Agregado, Población, Universo

El objeto de estudio de la Estadística son los llamados fenómenos colectivos para los cuales, el
comportamiento de una serie de características, está afectado por la casualidad o sea el azar; también
se les conoce con el nombre de agregados, poblaciones o universos.

Como COLECTIVO O AGREGADO deben entenderse no solo los colectivos humanos, sino
cualquier conjunto de hechos numerosos de la misma naturaleza, cualquiera que ella sea, que
presentan ciertas características o modalidades distintivas, cuyo comportamiento generalizado y/o
posible relación son objeto de estudio.

Como POBLACIÓN, se define a un conjunto de medidas obtenidas al observar alguna característica


de interés en los elementos del colectivo, lo que indica que con un mismo colectivo pueden, en general
así es, estar asociadas varias poblaciones.

Algunos autores definen el concepto de UNIVERSO, como un colectivo teórico, básico para el
desarrollo de la Teoría Estadística. Es necesario anotar que casi siempre se utilizan los términos
citados como sinónimos, sin que se tenga un consenso aceptado en general, sobre el uso de los
mismos.

2.4.2 Las Variables

Se define, como una VARIABLE, a una característica observable o a un aspecto discernible en un


objeto de estudio, que puede adoptar diferentes valores o expresarse en varias categorías, o a una
característica observable ligada, con una relación determinada, a otros aspectos observables.

Desde el punto de vista de su naturaleza, se habla de variables CUALITATIVAS para referirse a


aquellas cuyos elementos de variación tienen un carácter cualitativo, no susceptible de observación
medible numéricamente y de variables CUANTITATIVAS como aquellas cuyas propiedades
pueden presentarse en diversos grados o intensidades de carácter numérico.

7
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

De acuerdo con su naturaleza matemática, se diferencian las variables cualitativas en DISCRETAS


y CONTINUAS, siendo las primeras aquellas que están definidas sobre recorridos finitos o infinitos
numerables; no pueden tomar valores intermedios entre dos valores dados. Las continuas son aquellas
definidas sobre recorridos infinitos no numerables; pueden tomar cualquier valor dentro de un
recorrido dado.

Para clasificar o categorizar variables, se utilizan diferentes tipos de escalas, siendo las más comunes
las NOMINALES, las ORDINALES, las de INTERVALO y las de RAZON, cuyo uso depende
básicamente de los objetivos del estudio y de la naturaleza de la variable.

2.4.3 Escalas de Medición o Clasificación

2.4.3.1 La Medición

“El papel que desempeñan la medida y la cantidad en la ciencia es muy grande, pero creo que a veces
se ha exagerado. La técnica matemática es poderosa, y los hombres de ciencia están naturalmente
ansiosos de aplicarla siempre que sea posible; pero una ley puede ser muy científica sin ser
cualitativa”: Russell.

“La generalización científica es siempre y necesariamente cuantitativa”: Lundberg.

“Cuando uno puede medir y expresar numéricamente lo que dice, conoce algo de ello; pero mientras
no pueda uno medir ni expresarse en números, su conocimiento es escaso y poco satisfactorio”: Lord
Kelvin.

“Contar hechos observables es la operación básica de la medición… Contar o computar es establecer


una correspondencia biunivoca entre el conjunto de objetos que hay que contar y un subconjunto de
los enteros positivos… Para que una colección de hechos sea empíricamente contable, tiene que
consistir en miembros empíricamente distinguibles”: Bunge.

Las citas anteriores, algunas de ellas demasiado extremas, son evidencia de la importancia que para
los tratadistas de la ciencia, la metodología científica y la investigación, tienen la medición y la
cuantificación. Pero es conveniente tratar de responder a la inquietud relativa, a sí estos conceptos
signifiquen lo mismo, si tiene la misma acepción y aplicación.

En las ciencias sociales, el científico social, suele intentar algo parecido a la calificación o medición
de las variables sociales; pero, en sus escalas, el investigador social muy a menudo menosprecia un
fundamento de la teoría de la medición.

Pasa por alto que, para hacer ciertas operaciones con los números que ha asignado a las observaciones,
la estructura del método de correspondencia de los números (puntajes) a las observaciones debe ser
isómorfica con respecto a alguna estructura numérica que incluya estas operaciones. Si los dos
sistemas son isómorficos, sus estructuras son las mismas en las relaciones y operaciones que se
permiten. Por ejemplo, si un investigador recoge datos compuestos de puntajes numéricos y luego
manipula estos puntajes numéricos por adición y división (que son operaciones necesarias para

8
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

obtener medias y varianzas), supone que la estructura de su medición es isómorfica a la estructura


numérica conocida como aritmética. Es decir, supone que ha logrado un alto nivel de medida.

La teoría de la medición está formada por un conjunto de teorías separadas y distintas, cada una
referida a un nivel diferente de medición. Las operaciones permitidas con un conjunto de puntajes
dado, dependen del nivel de medida que se logre. Para ser que el problema radica esencialmente en
la experiencia que se tenga de los números y el concepto que de ellos se posea.

Harber y Runyon, en su texto Estadística General, presentan a nivel de cuestionario la siguiente


discusión: Al preguntar a un niño y quizás a muchos adultos, que es un número, la posible respuesta
es que “los números son símbolos que representan cantidades de cosas y que pueden sumarse,
restarse, multiplicarse y dividirse”. Los anteriores conceptos aritméticos conocidos, expresan en
realidad todos los posibles usos de los números? Al respecto se podría preguntar: El símbolo 10
colocado en la espalda de la camiseta de un jugador de fútbol, es un número como el que acaba de
definir? Qué puede decir acerca del número de su casa? Qué opina de la programación del canal 7 de
televisión? Estos números indican cantidades de cosas? Pueden ser sumados, restados, multiplicados
y divididos? Es lógico multiplicar el número de la camiseta de un jugador, por cualquier otro número
que tenga algún significado?

“En general, la medición puede definirse como un proceso mediante el cual se asignan de un modo
sistemático símbolos a las observaciones, entre los cuales se definen, con base en alguna convención,
como legitimas ciertas relaciones determinadas. Así los procedimientos de medición consisten
siempre en la comparación de una observación con una serie de símbolos abstractos (tales como
palabras, números, letras, colores, sonidos, etc.) y en la asignación a la observación de uno o más de
tales símbolos de acuerdo con una regla previa”, según lo anota Walter Wallace.

El proceso de medición tiene como propósito inicial distinguir y por ende clasificar objetos, casos,
fenómenos y debe responder a una serie de principios o requisitos que se enuncian a continuación.

En primer lugar el proceso de medición debe ser válido, entendiéndose que cumple este requisito
cuando mide de alguna manera demostrable aquello que trata de medir, libre distorsiones sistemáticas.

El segundo principio deseable en la medición es la fiabilidad. Una medición es confiable o segura


cuando aplicada repetitivamente a un mismo individuo o grupo, o al mismo tiempo por investigadores
diferentes, proporciona resultados iguales o por lo menos parecidos. La determinación de la
confiabilidad consiste pues, en establecer si las diferencias de resultados se deben a inconsistencias
en la medida.

Finalmente se tiene el principio de la precisión. Se puede decir que una medición es precisa cuando
localiza con exactitud satisfactoria, en relación con el propósito que se busca, la posición del
fenómeno que se estudia.

Se suelen distinguir cuatro niveles de medición que dan lugar a cuatro niveles de escalas: nominal,
ordinal o de orden jerárquico, de intervalos y de razón. Ahora bien, el tipo de escala estará dado,
según sea verificable uno u otro tipo de relación.

9
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

2.4.3.2 La Escala Nominal

Es aquella en donde los números sólo se emplean para diferenciar los objetos o distintas categorías o
cuando se emplean nombres. La escala nominal es la más débil. Por ejemplo, los números que utilizan
los jugadores de fútbol, los que aparecen en los carnets de los estudiantes.

2.4.3.3 La Escala Ordinal

Llamada también escala de orden jerárquico, con ella se establecen posiciones relativas de los objetos
o fenómenos en estudio, respecto a alguna característica de interés, sin que se reflejen distancias entre
ellos. Puede suceder que los objetos de una categoría de la escala no sean precisamente diferentes a
los objetos de otra categoría de la escala, sino que están relacionados entre sí. Por ejemplo, los
números empleados para clasificar los distintos estratos socioeconómicos o para designar
preferencias.

2.4.3.4 La Escala de Intervalo

Representa un nivel de medición más preciso, matemáticamente hablando, que las anteriores; no solo
se establece un orden en las posiciones relativas de los objetos o individuos, sino que se mide también
la distancia entre los intervalos o las diferentes categorías o clases. Por ejemplo, las mediciones de
temperatura para las cuales no sólo podemos decir “hoy hace más calor que ayer”, sino que podemos
decir “hoy la temperatura es dos grados más alta que la de ayer”.

2.4.3.5 La Escala de Razón

Cuando una escala tiene todas las características de una escala de intervalo y además un punto cero
real en su origen, se llama escala de razón. Además de distinción, orden y distancia, ésta es una escala
que permite establecer en qué proporción es mayor una categoría de una escala que otra. El cero
absoluto representa la nulidad de lo que se estudia. Por ejemplo, el peso, de una persona, la estatura,
el ingreso mensual.

2.4.4 El censo o enumeración completa.

Un censo o enumeración completa consiste en desarrollar los estudios del colectivo o agregado, para
obtener de ellos la información necesaria sobre las variables de interés, con el fin de analizarla e
interpretarla.

Este método presenta las siguientes características:


- No requiere de procesos de inferencia estadística
- Sus resultados sirven de marco muestral a otros estudios
- Facilita la realización de estudios en subcolectivos
- Produce costos demasiado altos, en todo tipo de recursos
- Implica un complicado proceso de planeación, organización y control
- En general los resultados se obtienen a mediano o largo plazo, perdiendo oportunidad y actualidad
- No permite la realización de estudios con altos niveles de especificidad y desagregación

10
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

- En algunos casos, la naturaleza del estudio impide la realización del censo, por requerir procesos
de observación de características de estudio, mediante métodos parciales o totalmente
destructivos de los elementos del agregado.

Las desventajas del método censal, no implican necesariamente que nunca se puedan realizar estudios
censales, por el contrario cuando las circunstancias lo permitan por existir objetivos del tipo muy
global, agregados relativamente pequeños y fácilmente ubicables, recursos suficientes, etc., se debe
utilizar este tipo de enumeración.

2.4.5 El Muestreo

Para resolver los problemas que en general se presentan por realizar censos, se ha desarrollado el
método de muestreo, el cual de manera sencilla puede definirse como un método científico que pone
en práctica principios estadístico – matemáticos, que permiten obtener información de una PARTE
de los elementos del agregado y hacer inferencias acerca de las características estudiadas, para todo
el colectivo de origen.

Las principales características del método son:


- Costos en general más bajos que en el censo
- Planeación, organización y control más sencillos y detallados
- Resultados a corto plazo y oportunos
- Posibilidad de realizar estudios más detallados, al permitir la obtención de información a nivel
más especifico
- Solución de los problemas ocasionados por procesos de medición destructivos
- Flexibilidad, que permite utilizar diferentes formas de medición, análisis e inferencia
- Requiere de procesos de inferencia estadística
- Dificulta, en algunos casos, los estudios desagregados en sub-colectivos
- No es aceptado, en algunas instancias, sobre todo por la falta de conocimiento de sus bondades.

La parte de elementos que es seleccionada para el estudio, es conocida como LA MUESTRA y para
que el proceso tenga validez, esta debe tener características de representatividad, con respecto al
agregado del cual procede. En procura de tal representatividad, se han desarrollado diferentes tipos
de DISEÑO MUESTRAL, que consiste en:
- Determinar el tamaño de la muestra
- Determinar el proceso de selección de la misma
- Determinar los procesos de inferencia.

2.4.6 Los parámetros y las estadísticas

Los resultados de estudios y análisis estadísticos, se reflejan básicamente en un conjunto de diversas


medidas de diferente índole y naturaleza. Cuando tales medidas son resultado de una enumeración
completa o sea que se refieren a todo el agregado, reciben el nombre de PARÁMETROS y cuando
son de nivel muestral se les conoce como ESTADÍSTICAS O ESTADIGRAFOS.

11
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

Por ser las muestras seleccionadas en general por métodos de azar, las estadísticas o estadígrafos se
constituyen en “variables aleatorias”, para cuyo manejo será necesario conducir o deducir, el
comportamiento probabilístico de las mismas.

Constituyen los anteriores conceptos, el conjunto básico del léxico estadístico, especialmente
relativos a lo que debe ser una introducción a cualquier curso inicial de Estadística. Conceptos más
específicos, van apareciendo en la medida en que se presenten otros métodos, técnicas y procesos
analíticos de esta ciencia.

CAPÍTULO III
METODOLOGÍA DE LA ESTADÍSTICA

Sin pretender ser exhaustivos, se esbozaran a continuación las fases que se deben llevar a cabo para
realizar un estudio utilizando las técnicas estadísticas.

3.1 DEFINICIÓN DE OBJETIVOS

Indudablemente esta etapa constituye el punto de partida de todo estudio y su importancia y


trascendencia, para las fases posteriores, son innegables. Lo esencial es este momento, es responder
a preguntas como Qué? Para qué? y Por qué? y las respuestas a las mismas deben ser presentadas de
manera clara, concreta, concisa y unificada.

Cabe distinguir en este aspecto, al objetivo (u objetivos) general, que corresponde a una definición a
grandes rasgos del problema o tema de estudio, de los objetivos específicos, que son definiciones en
detalle y altamente desagregadas de los fines del mismo. Los objetivos específicos, son los subtemas
en que se divide el objetivo general y que una vez alcanzados, llevan en un conjunto al logro de este.

3.2 DEFINICIÓN DEL COLECTIVO O POBLACIÓN

Tan fundamental para lograr buenos resultados del estudio, como la fase anterior, lo es la definición
del colectivo o población, la cual, al ser realizada en forma clara, concreta, concisa y unificada, debe
hacer referencia al contenido, las unidades, la extensión y el momento de consideración de la misma.

La naturaleza de los elementos que forman el colectivo, su estructura y configuración temporal-


espacial, son aspectos que determinan hasta cierto punto, el tipo de muestreo más conveniente a
utilizar, el marco adecuado, los métodos de obtención de la información y otros conceptos similares.

En múltiples ocasiones se diferencia la Población Objetivo, que es aquella a la cual se refiere en


términos generales la investigación, de la Población de Estudio, Muestreo o Análisis, definida como
la población objetivo con una serie de restricciones, generadas por la misma naturaleza del estudio,
falta de cobertura del marco de muestreo, problemas de no-respuesta, etc. En sentido estricto, solo
queda representada en la muestra la población de estudio, pero su descripción puede ser difícil si se
quiere hacer específicamente, por lo que es más frecuente hacer referencia a la población objetivo
definida.
12
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

3.3 DETERMINACIÓN DE LA COBERTURA

Teniendo en cuenta los objetivos del estudio, la estructura poblacional, los recursos disponibles y las
características de los métodos de enumeración completa (censo) o parcial (muestreo) se determina
cuál de los dos se deberá utilizar.

Teniendo en cuenta que en general los estudios se realizan mediante muestreo, se enunciaran a
continuación las fases siguientes, bajo el supuesto de que el estudio se realizará utilizando el método
de muestreo.

3.4 DETERMINACIÓN DEL MARCO DE MUESTREO

3.4.1 Definición

Se entiende por Marco de Muestreo o Marco Muestral, todo artificio o conjunto de artificios, que
permita la identificación y ubicación de todos y cada uno de los elementos de la población o en su
defecto, de todas y cada una de las unidades muéstrales, ya que es la base del proceso de selección de
la muestra.

Los factores relevantes de la naturaleza del marco disponible o factible, incluyen los tipos de unidades
muéstrales que contenga, la extensión de la cobertura, la exactitud y completes del mismo, la cantidad
y calidad de información auxiliar en él y es determinante para el diseño de la muestra. Algunos
ejemplos de marcos son listas de elementos, archivos, mapas, cartogramas, personas que se
encuentran en el directorio telefónico, etc.

3.4.2 Problemas del Marco

Los problemas más comunes en la determinación del marco muestral son:


- Unidades vacías, llamado también elementos faltantes, falta de cobertura o marco incompleto y
que consiste en que algunos elementos del agregado, no aparecen en el marco.
- Blancos y extraños, corresponde este problema a situaciones en las cuales el marco contiene
elementos que ya no pertenecen a la población por haber cambiado de estructura o porque
definitivamente desaparecieron de la misma.
- Conglomerados de unidades muéstrales, pueden aparecer juntas asociadas con un listado aislado.
Un elemento del marco representa a más de una unidad muestral.
- Unidades duplicadas, problema que se presenta cuando una unidad aparece más de una vez en el
marco.

3.4.3 Soluciones Generales

Aunque para cada problema del marco se requieren soluciones específicas, que dependen en gran
parte de la situación particular en que se encuentre el investigador, se mencionan tres soluciones
generales para tratar de solucionar problemas:

13
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

- Ignorándolos, si son relativamente pequeños comparados con otros errores y el costo de solución
es muy alto. Se deberá en este caso, referenciar la circunstancia bajo la cual se está utilizando el
marco.
- Redefinir la población con base en el marco, si el error que se comete es despreciable y si no
cambia el sentido de los objetivos del estudio. Se debe también comentar la situación.
- Corregir el marco, solución que es la ideal, pero en ocasiones la menos factible.

3.5 DEFINICIÓN DE UNIDADES

En términos generales son normas o patrones de conteo, medición, selección u observación y su


definición es fundamental en el estudio, por lo cual debe hacerse también muy clara, concreta y
unificadamente. Se distinguen y es necesario definirlas en los correspondientes casos, los tipos de
unidades que a continuación se presentan.

3.5.1 Unidad Poblacional

También conocidas como las unidades elementales, corresponden al elemento o hecho individual que
se cuenta y/o mide y que unido a los demás de su misma naturaleza, forma el colectivo que se estudia.
Su naturaleza y características se determinan según los objetivos de estudio.

3.5.2 Unidad Muestral

Se constituye en el elemento básico para la selección de la muestra de unidades poblacionales. Pueden


ser estas mismas o grupos de ellas, como sucede en el muestreo por conglomerados. Debe estar
definidas en forma tal que cada unidad poblacional pertenezca a una y solo una unidad de muestreo.

Se subdividen en unidades parciales, que son aquellas que aparecen en razón del proceso de selección
y constituyen siempre subdivisiones de la población a través de las cuales ha de pasarse, antes de
llegar a las unidades finales, definidas estas últimas como aquellas que tienen características
definidas de permanencia y son fácilmente distinguibles en periodos más o menos largos de tiempo.

3.5.3 Unidades de Observación

Son aquellos elementos de los cuales se obtiene la información, por lo cual se les conoce también con
los nombres de fuentes de información. Pueden coincidir o no con la unidad poblacional y son
determinantes para la cantidad de información y para el proceso de recolección de la misma.

3.6 DETERMINACIÓN DEL DISEÑO MUESTRAL

Definidos claramente los objetivos del estudio y la población, determinado el marco muestral y los
recursos disponibles y definidas así mismo las diversas unidades del proceso, se puede pasar a la fase
de selección del tipo de diseño muestral a utilizar, aunque en la práctica todas estas etapas se
desarrollan paralelamente.

14
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

Para determinar el tipo de selección se tienen en cuenta principalmente, los objetivos del estudio, la
estructura de la población, el marco y los recursos disponibles (humanos, financieros, materiales de
disponibilidad de tiempo, etc.). Para el tamaño de la muestra se deben considerar los siguientes
aspectos: tipo de selección, grado de confiabilidad de los procesos inferenciales, errores de muestreo,
recursos disponibles, características básicas a analizar y tamaño de la población.

Se suele hacer una gran clasificación de los tipos de diseño muestral, en dos categorías que son el
Muestreo No Probabilístico y el Muestreo Probabilístico.

3.6.1 Muestreo No Probabilístico

Se caracteriza porque el diseño se realiza en forma subjetiva, arbitraria, según el criterio del
investigador o del entrevistador de campo. No existe una oportunidad real de que un elemento en
particular de la población, sea seleccionado. No es posible, por lo tanto, calcular el error de muestreo,
ni la confiabilidad de las inferencias. Se está simplemente en el campo de las especulaciones y las
suposiciones.

Algunas modalidades de este tipo de muestreo son:

El muestreo de conveniencia, que se caracteriza porque en general la unidad de muestreo se auto-


selecciona o se ha seleccionado debido a su fácil disponibilidad. En estos casos no se especifica
claramente la población de la cual se ha tomado la muestra, por lo cual se desconoce la diferencia
entre el valor de interés de la población y el valor de la muestra, en términos de tamaño y dirección.
Desafortunadamente es un muestreo utilizado extensivamente en la práctica.

Muestreo de comparación, para el cual los elementos son seleccionados con base en lo que algún
experto piensa acerca de lo que esas unidades pueden aportar a la investigación, por lo cual se les
conoce también como muestras por expertos. En este caso se desconoce también el error de muestreo
y la confianza, pero si el criterio y ética del experto son válidas, la muestra puede resultar mejor que
la de conveniencia. Se utiliza este tipo de muestreo moderadamente en la práctica.

El muestreo por cuotas, que puede considerarse más un método de selección que un tipo de diseño.
El tamaño de la muestra y los procesos de inferencia se realizan en forma técnica, pero los elementos
para la muestra son seleccionados en forma subjetiva, pero con arreglo a ciertas características de
“control” previamente determinadas. Es un método de selección muy útil en las etapas previas de la
investigación y si se elabora con cuidado, puede suministrar información más definitiva. Se utiliza
muy extensamente en la práctica.

3.6.2 Muestreo Probabilístico

Se fundamenta en la probabilidad que tiene cada elemento del agregado para hacer parte de la muestra.
Dadas ciertas condiciones de confiabilidad, error máximo admisible y tamaño poblacional, se deja al
azar el diseño de la muestra.

El muestreo se realiza mediante reglas estadísticas que no permiten ningún elemento de juicio al
investigador, generando muestras más objetivas.
15
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

Permite medir la confiabilidad de los procesos de inferencia y el error de muestreo que por su
naturaleza conlleva. Presenta también diversas modalidades, siendo las más clásicas el muestreo
aleatorio simple, el muestreo estratificado y el muestreo por conglomerados.

3.7 RECOLECCIÓN DE INFORMACIÓN

Se define como el proceso estadístico mediante el cual se obtiene toda la información pertinente a un
problema dado. Para llevar a cabo esta tarea de recopilación de datos e información, existen múltiples
procedimientos y la utilización de uno u otro, depende de la naturaleza del problema a estudiar, del
equipo de investigación disponible y de la estructura y características de las unidades de observación.

En términos globales se consideran dos situaciones básicas, que dependen del estado de la
información y que implican dos tipos de tareas diferentes a saber:

- Recopilación de datos sobre el terreno (información primaria)


- Identificación y recolección de datos ya disponibles para posterior utilización (información
secundaria).

En el primer caso el procedimiento se basa en la utilización de “formularios estadísticos”, definidos


como instrumento de recopilación de datos, rigurosamente estructurado, que traduce y operacionaliza
determinados problemas que son objeto de estudio. Aunque existen diferentes formas de aplicarlo,
estas se pueden resumir fundamentalmente en dos que son: “la entrevista personal” y “el
formulario postal”; modificación de estas dos formas básicas, generan otras.

En la segunda situación, el proceso se reduce a la llamada “recopilación documental”, para lo cual


lo importante es la determinación de la calidad y confiabilidad de la información a ser utilizada en el
estudio.

Al igual que todas las anteriores, esta fase es de gran importancia para la investigación, pues ella va
a generar la materia prima para su desarrollo, los datos. Existen diversas técnicas y recomendaciones
respecto a la manera de realizar este proceso, que hacen referencia desde la forma y tipos de preguntas,
hasta la presentación personal del encuestador en el caso de la entrevista personal.

3.8 TRATAMIENTO DE LA INFORMACIÓN

Cuando el investigador conduce un estudio, de ordinario reúne una gran cantidad de información
numérica de datos acerca del problema en cuestión. Los datos podrán tener variedad de formas y su
expresión original, tal cual son recopilados, son usualmente un enredo de recuentos, mediciones, etc.
Al realizar la función descriptiva, la estadística formula reglas y procedimientos para la depuración,
clasificación, presentación y reducción de los datos, de tal manera que sean útiles para su análisis e
interpretación.

Es necesario depurar los datos, ordenarlos, clasificarlos y reducirlos a cifras relativas como los
porcentajes, los promedios, los coeficientes estadísticos y en general las medidas básicas de interés.
Temas que se trataran en los próximos capítulos del curso.
16
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

3.9 ANÁLISIS E INTERPRETACIÓN

Obtenida, depurada y clasificada la información, siguen en orden metodológico las aplicaciones de


las técnicas estadísticas correspondientes para su análisis y solo el conocimiento del contenido y
soporte conceptual de estas, permitirá la interpretación de los resultados.

Considerando que los métodos estadísticos aplicados y el desarrollo de la Estadística en sí misma,


tienen una fuerte fundamentaron probabilística, es necesario el conocimiento de los conceptos y
métodos del cálculo de probabilidades, de las variables aleatorias, de las funciones y distribuciones
de probabilidad, tanto generales como especiales, así como de las medidas características de una
variable aleatoria.

Los llamados métodos descriptivos, que quizás se deberían llamar empíricos u observacionales, son
así mismos importantes y se deberían presentar siempre, en relación con los teóricos. Las técnicas de
estudio de asociación entre variables, sean estas cuantificadas o no, se han constituido en los últimos
tiempos en valiosos auxiliares para la práctica y desarrollo de otras ciencias; algo similar sucede con
el análisis de series de tiempo, con el diseño de experimentos, los métodos no paramétricos, el análisis
multivariado, en fin, con todos los procedimientos de análisis estadístico.

Es de destacar el hecho de que, en los tiempos modernos, la inferencia estadística, con sus procesos
básicos de estimación y pruebas de hipótesis, constituye elemento fundamental no solo para la
aplicación del Método Científico, sino para su desarrollo y como consecuencia lógica, para la
aplicación y desarrollo de prácticamente todas las disciplinas y ciencias en el diario transcurrir del
ser humano. De allí la gran importancia que actualmente ha adquirido y seguirá adquiriendo la
Estadística.

CAPÍTULO IV
DISTRIBUCIONES DE FRECUENCIAS

4.1 PRESENTACIÓN GRÁFICA DE LOS DATOS

4.1.1 DIAGRAMA DE TALLOS Y HOJAS

Dado un conjunto de datos formado por n observaciones, las cuales pueden ser representadas
mediante 𝑥1 , 𝑥2 , … , 𝑥𝑛 y donde cada 𝑥𝑖 tiene por lo menos dos dígitos. Una forma rápida de obtener
una representación visual del conjunto de datos es construir un diagrama de tallo y hoja.

Pasos para construir un diagrama de tallo y hoja

1. Seleccionar uno o más dígitos iniciales para los valores de tallo. El dígito(s) final(es) se
convierten en hojas.
2. Hacer una lista de valores de tallo en una columna vertical.
3. Registrar la hoja por cada observación junto al valor correspondiente del tallo.
4. Indicar las unidades para tallos y hojas en algún lugar del diagrama.
17
Profesor: Oscar Orlando Melo M.
Probabilidad y Estadistica Fundamental

Ejemplo 4.1. La siguiente tabla registra los datos de una prueba de aptitud de lectura aplicada a
principio del año escolar. Construya un diagrama de tallos y hojas para estos datos.

90 97 100 89 68 104 47 51
66 97 69 58 112 82 95 109
106 59 44 59 62 81 75 84
84 95 80 75 91 71 72 61
105 78 75 74 93 83 70 75

Stem-and-leaf of APTITUD DE LECTUAR N = 40 Leaf Unit = 1.0

2 4 47 1 4 4
6 5 1899 2 4 7
11 6 12689 3 5 1
20 7 012455558 6 5 899
20 8 0123449 8 6 12
13 9 0135577 11 6 689
6 10 04569 15 7 0124
1 11 2 20 7 55558
20 8 012344
14 8 9
13 9 013
10 9 5577
6 10 04
4 10 569
1 11 2
Ejemplo 4.2. Los datos siguientes representan las puntuaciones de la prueba de inteligencia
Stanford-Binet aplicada a 75 adultos:

141 105 87 127 124 113 92 114 96 123


92 83 133 114 98 95 101 106 123 105
100 127 118 105 118 102 146 105 107 139
132 95 124 102 138 131 121 102 107 106
97 109 111 92 97 121 108 86 129 89
110 108 135 94 101 130 129 107 108 134
106 104 110 101 116 91 113 148 105 103
107 104 110 115 112

Construya un diagrama de tallo y hoja.

4.2 TABLAS DE FRECUENCIAS

Definición 4.1 Una tabla de frecuencias es un arreglo tabular de las frecuencias con que ocurre cada
característica en que se han dividido los datos.

18
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Definición 4.2 Un intervalo de clase es cada uno de los intervalos en que se ha disidido agrupar
parcialmente los datos con el propósito de hacer un resumen de ellos.

El número de mediciones que quedan dentro del intervalo se llama frecuencia del intervalo y se
denota por fi. La diferencia entre el extremo mayor y el extremo menor del intervalo se llama longitud
del intervalo.

Ejemplo 4.3

Tabla 4.1 Demanda diaria de cierto producto durante 40 días seguidos


Clase Intervalo fi
1 4.5 - 9.5 4
2 9.5 - 14.5 11
3 14.5 - 19.5 13
4 19.5 - 24.5 10
5 24.5 - 29.5 2

La tabla anterior corresponde a una frecuencia para datos cuantitativos. Los distintos intervalos son:
[4.5, 9.5], [9.5, 14.5],… La longitud de los intervalos es 5; los números 4, 11, 13,… representan las
respectivas frecuencias.

4.3 CONSTRUCCIÓN DE UNA TABLA DE FRECUENCIAS

La construcción de una tabla de frecuencias para datos cuantitativos presenta como su punto de mayor
importancia la determinación del número de intervalos (clases) que la conformaran. Este número
depende de la cantidad y de la naturaleza de los datos a resumir y del propósito que se busca con el
resumen. A continuación se presentan ciertas reglas que pueden ser útiles en la determinación del
número de intervalos y se prosigue con las pautas para la construcción de una tabla de frecuencias.

1. El número de intervalos debe escogerse de acuerdo con el número de datos, como se indica a
continuación

Numero de datos Número de Intervalos


De 10 a 100 De 4 a 8
De 100 a 1000 De 8 a 11
De 1000 a 10000 De 11 a 14

2. Una vez escogido el número de intervalos, se determina la longitud L que deben tener los
intervalos. De la siguiente manera:
Dato max  Dato min
L (1)
k
donde k es el número de intervalos y el Rango  Dato max  Dato min .

3. El primer intervalo debe contener el menor de los datos y el último el mayor.

Definición 4.3 La marca de clase es el punto medio del intervalo de la clase, se denota por:

20
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

𝑌𝑖−1+𝑌𝑖
𝑌𝑖 = 2
(2)

Definición 4.4 La frecuencia acumulada (absoluta) es el número resultante de sumar la frecuencia


de la clase j con la frecuencia de las clases antecedentes.

j
Fj   f i (3)
i 1

Definición 4.5 La frecuencia relativa de la clase j es el cociente entre la frecuencia de la clase j y el


número de datos, se denota por:

fi
hj  (4)
n

Definición 4.6 La frecuencia acumulada relativa de la clase j es el cociente entre la frecuencia


acumulada de la clase j y el número de observaciones, se denota por

Fj
Hj  (5)
n

Todas las anteriores clases de distribuciones reciben el nombre de distribuciones empíricas.

4.4 HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS PARA DATOS


CUANTITATIVOS O CUALITATIVOS

El histograma de frecuencias es una representación visual de los datos en donde se evidencian


fundamentalmente tres características:

1. Forma
2. Acumulación o tendencia posicional
3. Dispersión o variabilidad

El histograma (de frecuencias) en si es una sucesión de rectángulos construidos sobre un sistema de


coordenadas de la manera siguiente:

1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud de la base es igual al
ancho del intervalo
2. Las alturas de los rectángulos se registran sobre el eje vertical y corresponden a las frecuencias
de las celdas
3. Las áreas de los rectángulos son proporcionales a las frecuencias de las clases.

Otro recurso gráfico para ilustrar el comportamiento de los datos es el polígono de frecuencias. Este
se construye sobre el sistema de coordenadas cartesianas, al colocar sobre cada marca de clase un
punto a una altura igual a la frecuencia asociada a esa clase; luego se unen dichos puntos por
segmentos de recta.

21
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Definición 4.7 La ojiva es el polígono que se obtiene de unir por segmentos de recta los puntos
situados a una altura igual a la frecuencia acumulada a partir de la marca de clase como se hace con
el polígono de frecuencia.

4.5 DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS CUALITATIVOS

La construcción de una tabla de frecuencia para datos cualitativos requiere solo del conteo del número
de elementos o individuos que caen dentro de cierta clase o tienen determinada característica.

Ejemplo 4.4. Los siguientes datos corresponden al número de estudiantes de cierta universidad, de
acuerdo con su lugar de origen

Lugar de Origen Número de Estudiantes


Norteamericano 1500
Latinoamericano 500
Europeo 200
Asiático 100

4.6 OTRAS REPRESENTACIONES GRÁFICAS

4.6.1 Histogramas Dobles

En algunos casos es conveniente para propósitos comparativos representar mediante un mismo


gráfico dos características que están relacionadas. Estas gráficas se llaman histogramas dobles.

Ejemplo 4.4. El número y sexo de los empleados de una empresa en los años comprendidos entre
1988 y 1991.

Tabla 4.2 Número y Sexo de Empleados en una Empresa


1988 1989 1990 1991
Masculino 150 180 200 300
Femenino 50 70 100 100
Total 200 250 300 400

En el gráfico 4.1 se ilustran los datos de la tabla 4.2.

22
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Gráfico 4.1 Número y Sexo de Empleados

Número de Empleados
450
400
350
300 Femenino
250
200 Masculino
150
100
50
0
1988 1989 1990 1991

Año

4.6.2 Diagramas Circulares

En otros casos lo que nos interesa no es mostrar el número de veces que se da una característica o
atributo, sino más bien resaltar la proporción (porcentaje) en que aparece esa característica respecto
del total.

Ejemplo 4.5 El número de empleados de una empresa se distribuye porcentualmente de acuerdo con
su tiempo de vinculación.

Tabla 4.3 Número de Empleado de una Empresa


Tiempo de vinculación Porcentaje Grados
Menos de 5 años 20% 72%
Entre 5 y 10 años 50% 180%
Entre 10 y 15 años 15% 54%
Entre 15 y 20 años 10% 36%
Más de 20 años 5% 18%

Para construir el diagrama circular se parte del hecho de que el círculo encierra un total de 360 grados.
Luego, mediante una regla de tres simple el sector correspondiente al 20% es

20 x 360
X  72 
100

Esto es, el 20% corresponde a un sector circular de medida 72 grados. El gráfico 4.2 muestra la
representación gráfica.

En el caso de poblaciones infinitas, los polígonos (de frecuencias relativas) para datos cuantitativos
se transforman en curva, llamadas curvas de frecuencias. Estas curvas de frecuencias pueden
presentar distintas formas; las más comunes son las simétricas y las sesgadas o asimétricas (a la
derecha o a la izquierda).

23
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Grafico 4.2 Diagrama Circular

Menos de 5 años
5%
10% Entre 5 y 10 años
20% Entre 10 y 15 años
15%
50% Entre 15 y 20 años

Más de 20 años

CAPITULO V
MEDIDAS DE POSICIÓN Y DE VARIABILIDAD

5.1 MEDIDAS DE POSICIÓN O MEDIDAS DE TENDENCIA CENTRAL

Una medida de posición es un número que se toma como orientación para referirnos a un conjunto de
datos.

5.1.1 Media Aritmética

Definición 5.1 La media aritmética representa el centro físico del conjunto de datos y se define como
la suma de los valores observados, dividido por el total de observaciones.

Si 𝑋1 , … , 𝑋𝑛 son n observaciones numéricas, entonces la media aritmética de las n observaciones, se


define como:

∑ 𝑛
𝑋 +𝑋 +⋯+𝑋𝑛 𝑋𝑖
𝑋̅ = 1 2𝑛 = 𝑖=1 (6)
𝑛

̅ , 𝑑2 =
Si 𝑋1 , … , 𝑋𝑛 son n números con media 𝑋̅, entonces cada una de las diferencias: 𝑑1 = 𝑋1 − 𝑋
̅ ̅
𝑋2 − 𝑋, …, 𝑑𝑛 = 𝑋𝑛 − 𝑋 se llama desviación respecto a la media.

Cuando se trata de datos agrupados (tabla de frecuencias) la media está dada por:

∑ 𝑛
𝑓 𝑋 +𝑓 𝑋 +⋯+𝑓𝑛 𝑋𝑛 𝑓𝑋
𝑋̅ = 1 1 2 2𝑛 = 𝑖=1𝑛 𝑖 𝑖 (7)

5.1.2 Propiedades de la Media Aritmética

Una de las más importantes es que la suma de las desviaciones respecto de la media es igual a cero,
esto es,

n n

 d   (X
i 1
i
i 1
i  X)  0 (8)

24
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Otra propiedad importante es que si Yi  a  bX i , con a y b constantes, entonces:

Y  a  bX (9)

Se suele interpretar esta relación al decir que la media no se altera por una transformación lineal de
escala. De esto se deduce,
- Si Yi  bX i , entonces Y  bX

Por último se tiene que


- Si Wi  X i  Yi , entonces W  X  Y .

En algunos casos cada uno de los números de la sucesión X1, X2,. . . , Xn tiene una importancia relativa
(peso) respecto de los demás elementos de la sucesión. Cuando esto sucede la media está dada por:

𝑊 𝑋1 +𝑊2 𝑋2 +⋯+𝑊𝑛 𝑋𝑛
𝑋̅𝑝 = 1 𝑊 (10)
+𝑊 +⋯+𝑊
1 2 𝑛

donde 𝑊1 , 𝑊2 , … , 𝑊𝑛 son los pesos de 𝑋1 , 𝑋2 , … , 𝑋𝑛 , respectivamente.

La anterior media se llama media ponderada.

Ejemplo 5.1 Si la asignatura A tiene 2 créditos y la asignatura B, 3 créditos. Entonces, para un


estudiante que haya obtenido una calificación de 4 en la asignatura A y de 5 en la asignatura B, la
nota promedio (ponderado) está dada por

2(4)  3(5) 8  15 23
Xp     4.6 (11)
23 5 5

5.1.3 La Mediana

Sea 𝑋1 , … , 𝑋𝑛 una sucesión de números (datos). Mediante la escritura X(1) se indica el elemento menor
de la sucesión; por X(2) el elemento que le sigue al menor y así sucesivamente hasta llegar a X (n) que
representa al elemento mayor.

Definición 5.2 Sea X(1), X(2),. . . , X(n) una sucesión de números (datos), la Mediana de estos datos se
denota y se define de la siguiente manera:

X ( (n1) 2 ) si n es un número impar


~ 
X   X ( n 2)  X (n/21) (12)
 si n es un número par
 2

La mediana es el valor que divide un conjunto de observaciones respecto de la magnitud de los


valores, de tal manera que el número de datos por encima de la mediana sea igual al número de datos
por debajo de la misma.

25
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

5.1.3.1 Mediana para datos no agrupados (discretos)

Ejemplo 5.2 6, 8, 3, 4, 4, 8, 5, 8, 10
Ordenándolos, se obtiene: 3, 4, 4, 5, 6, 8, 8, 8, 10
~ X
n = 9, luego X (10/2)  X (5)  6

5.1.3.2 Mediana para datos agrupados

1) Determinar la clase mediana, que es aquella en donde está situada la mediana. Esta se halla al
efectuar el cociente (n/2) y luego ubicar la primera clase (clase mediana) en donde la frecuencia
acumulada es igual o superior a (n/2).
2) Determinar el límite inferior del intervalo de esta clase (Lm). A este valor se le adiciona la fracción
formada por (n/2) menos la frecuencia acumulada de la clase que antecede a la clase mediana
(Fm) dividido por la frecuencia de la clase mediana (fm), multiplicada por la longitud del intervalo
de la clase mediana (c). En formula, el método da

n
   Fm -1
X  Lm   
~ 2
c (13)
fm
donde,
Lm : Límite inferior de la clase mediana
n : Número de datos
Fm-1: Frecuencia acumulada de la clase que antecede a la clase mediana
fm : Frecuencia de la mediana
c : Longitud del intervalo de la clase mediana.

5.1.4 La Moda

A veces se tienen que clasificar los datos en grupos que no son números. Por ejemplo; genero, estado
civil, ocupaciones, etc.

Definición 5.3 La Moda de una sucesión de datos se define como el valor que se da con mayor
frecuencia. La moda se denota por X̂ .

Para el caso de datos agrupados se determina la moda mediante la siguiente formula:

d1
X̂  L m  c (14)
d1  d 2
donde
Lm: Límite inferior de la clase modal (la clase de mayor frecuencia)
d1 : Diferencia entre la frecuencia de la clase modal y la clase que la antecede
d2 : Diferencia entre la frecuencia de la clase modal y la clase que la sigue
c : Longitud del intervalo de la clase modal.

5.1.5 Uso de la Media, Mediana y Moda

26
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

La media, mediana y moda se consideran las medidas de posición más importantes por su sencillez y
utilidad. No obstante, no son aplicables en todos los casos.

3.2 OTRAS MEDIDAS DE POSICIÓN

3.2.1 Cuartiles

Definición 5.4 Los Cuartiles de una sucesión de datos ordenados son aquellos números que dividen
la sucesión en cuatro partes porcentualmente iguales.

Hay tres cuartiles, Q1, Q2, Q3. El segundo cuartil Q2, es precisamente la mediana. El primer cuartil
Q1, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil Q3 es el valor por debajo del cual quedan las tres cuartas partes
(75%) de los datos.

Para datos agrupados

n
k   Fk -1
Qk  Lk   
4
c k  1, 2, 3 (15)
fk
donde,
Lk : Límite inferior de la clase del cuartil k
n : Número de datos
Fk-1: Frecuencia acumulada de la clase que antecede a la clase del cuartil k
fk : Frecuencia del cuartil k
c : Longitud del intervalo de la clase del cuartil k.

5.2.2 Deciles

Definición 5.5 Los Deciles son ciertos números que dividen la sucesión datos (ordenados) en diez
parte porcentualmente iguales. Los deciles se denotan por D1, D2, . . . , D9.

Para datos agrupados los deciles se calculan mediante:


n
k   Fk -1
Dk  Lk   
10
c k  1, 2,  ,9 (16)
fk
donde,
Lk : Límite inferior de la clase del decil k
n : Número de datos
Fk-1: Frecuencia acumulada de la clase que antecede a la clase del decil k
fk : Frecuencia del decil k
c : Longitud del intervalo de la clase del decil k.
5.2.3 Percentiles

Definición 5.6 Los Percentiles son ciertos números que dividen la sucesión de datos ordenados en
cien partes porcentualmente iguales.

27
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante
𝑛
𝑘( )−𝐹𝑘−1
100
𝑃𝑘 = 𝐿𝑘 + 𝑓𝑘
𝑐, 𝑘 = 1, … ,99 (16)
donde,
Lk : Límite inferior de la clase del percentil k
n : Número de datos
Fk-1: Frecuencia acumulada de la clase que antecede a la clase del percentil k
fk : Frecuencia del percentil k
c : Longitud del intervalo de la clase del percentil k.

5.2.4 Proporción

Definición 5.7 La Proporción, designada por p, se refiere a la fracción de la muestra que posee
determinada característica o propiedad.

5.2.5 Media Geométrica

La media, la mediana y la moda se consideran como las más importantes medidas de posición por su
amplia utilidad. Sin embargo, para algunos propósitos pueden ser más apropiadas otras medidas

Definición 5.8 La Media Geométrica se define como la raíz n-ésima del producto de los números
que forman los datos. Esto es,
𝐺 = 𝑛√𝑋1 𝑋2 … 𝑋𝑛 (17)

Una de las aplicaciones más útiles de la media geométrica es promediar proporciones de variación.

Ejemplo 5.3 Las ventas de una compañía han aumentado de 200 millones en 1989 a 400 millones en
1990 y a 600 millones en 1991. El aumento fue del 200% de 1989 a 1991, lo que daría un aumento
medio aritmético del 100% por año. Pero esta apreciación es errónea, ya que la proporción promedio
de aumento por año fue menor. Para obtener la proporción promedio de aumento de las ventas se
utiliza la media geométrica. Como las ventas en 1990 fueron el doble que las ventas de 1989, y las de
1991 fueron 1.5 veces las de 1990, la media geométrica es:

𝐺 = √(2.0)(1.5) = 1.7325

La proporción promedio de crecimiento de ventas es por tanto el 73.25% por año en el periodo de los
citados años.

5.2.6 Media Armónica

Otra medida de posición, que a veces se utiliza, es la media armónica.

Definición 5.9 La Media Armónica se define como el inverso de la media aritmética de los inversos
multiplicativos de los valores dados, esto es,

28
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

1
𝐻= 1 1 1 (18)
+ +⋯+
𝑋1 𝑋2 𝑋𝑛

Ejemplo 5.4 Una persona ha gastado $10000 en cada una de tres tiendas diferentes. En la primera,
compro artículos a $2000 la unidad; en la segunda, compro a $2500 la unidad y en la tercera, a $5000
la unidad. ¿Cuál es el precio promedio que ha pagado por artículo?

Los datos se expresan como “tantos artículos por peso” y lo que se quiere saber es “la cuantía pagada
por artículo”.

3 30000
H   2727 .27
1 1 1 11
 
2000 2500 5000

En general, la media armónica se utiliza si las observaciones se expresan inversamente a como se


expresa el promedio buscado. Más concretamente, si el costo promedio por unidad del producto es lo
que se busca, pero los datos están expresados como tantas unidades de producto por determinada
cuantía de costo, ha de utilizarse la media armónica.

5.3 MEDIDAS DE VARIABILIDAD

Una Medida de Variabilidad es un número que nos indica el grado de dispersión en un conjunto de
datos. Si este valor es pequeño (respecto de unidad de medida) entonces hay una gran uniformidad
entre los datos. Por el contrario, un gran valor nos indica poca uniformidad. Cuando es cero quiere
decir que todos los datos son iguales.

5.3.1 La Amplitud

Definición 5.10 La Amplitud es la diferencia entre el valor máximo y el mínimo de los datos
(distribución)

A  X MAX  X MIN (19)

5.3.2 Desviación Media Absoluta

Definición 5.11 La Desviación Media Absoluta es la media aritmética de los valores absolutos de las
desviaciones respecto de la media o de la mediana.

Si X1, X2,. . . , Xn son n números (datos), la Desviación Media Absoluta respecto de la media, esta
dada por:

n n

 Xi  X d i
DM  i 1
 i 1
(20)
n n

29
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 5.5 Sea 3, 3, 5, 5, 5, 7, 7, 8, 8, 9 un conjunto de datos. Donde se obtiene que X  6 y


d 1  3 d 2  3 d 3  1 d 4  1 d 5  1 d 6  1 d 7  1 d 8  2 d 9  2 d 10  3 , luego

18
DM   1 .8
10

5.3.3 Varianza y Desviación Estándar

Definición 5.12 La Varianza se define como:

 (X i  X) 2
S2  i 1
(21)
n

Definición 5.13 La Desviación Estándar se define como la raíz cuadrada de la varianza, esto es,

 (X i  X) 2
S i 1
(22)
n

40
Ejemplo 5.6 Para los datos del ejemplo 5.5, se tiene: S 2  4 y S 4 2
10

Cuando se trata de muestras, se le realiza una pequeña corrección a la varianza, obteniéndose


n

 (X i  X) 2
S2  i 1
(23)
n -1

Para datos agrupados la varianza se calcula mediante:

 f (X i i  X) 2
S2  i 1
(24)
n

5.3.3.1 Propiedades de la Varianza y de la Desviación Estándar

1) Si X1, X2,. . . , Xn son n números (datos) con media X entonces:


n

X
2
i
S2  i 1
 X2 (25)
n
2) Sean X1, X2,. . . , Xn y Y1, Y2,. . . , Yn dos sucesiones de números relacionados entre sí por:
Yi  a  bX i . Entonces, S Y  bS X .

30
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

3) Si Y  a  bX , entonces S Y  b S X .
4) Si Y  bX , entonces S Y  b S X .
5) Si Y  a  X , entonces S Y  S X .
6) Como W  X  Y y si W  X  Y , entonces:

S2W  S2X  S2Y  2Cov(X, Y) (26)


donde,
n

 (X i  X)(Yi  Y)
Cov(X, Y)  i 1
(27)
n

5.3.4 Rango Semi-intercuatilico y entre Percentiles

Definición 5.14 El Rango Semi-intercuatilico, se define como:

Q 3  Q1
Q (28)
2

Definición 5.15 El Rango entre Percentiles 10-90 se toma como igual a la diferencia entre el
percentil 90% y el percentil 10%.

P1090 P 90 P10 (29)

5.4 MEDIDAS QUE INCLUYEN LA MEDIA Y LA DESVIACIÓN ESTÁNDAR

5.4.1 Coeficiente de Variación

Definición 5.16 El Coeficiente de Variación se denota y se define como:

S
CV  100% (30)
X

El coeficiente de variación es una medida que se emplea fundamentalmente para:


- Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de unidades de
medida. Por ejemplo, kilogramos y centímetros.
- Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas distintas.
- Comparar dos grupos de datos que tienen distinta media.
- Determinar si cierta media es consistente con cierta varianza.

Ejemplo 5.7 Resultados finales de dos grupos que cursaron una materia el semestre pasado con dos
profesores distintos:

Grupo1 Grupo2

31
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

X 3.8 4.5
S 0.5 0.5
CV 13.20% 11.10%

5.4.2 Valores Estandarizados

Con el propósito de reducir los datos a un mismo punto de referencia y a una escala común, se realiza
entre ellos una transformación llamada Estandarización, que consiste en lo siguiente:

A cada dato Xi se le resta la media X , se divide entre la desviación estándar S y se obtiene un número
Zi que se llama el valor estandarizado de Xi. Esto es,

Xi  X
Zi  (31)
S

Ejemplo 5.8 Un estudiante obtuvo una nota definitiva en la asignatura de estadística de 3.8, el
promedio del curso fue 4.0 con una desviación estándar de 0.5. Este mismo, en contabilidad obtuvo
una nota de 4.3, el promedio del curso fue 4.5 con una desviación estándar de 0.8. ¿En qué asignatura
obtuvo un puesto realmente mejor?

3.8  4.0
Estadística X1  3.8 ; X1  4.0 ; S1  0.5 ; Z1   0.4
0.5
4.3  4.5
Contabilidad X 2  4.3 ; X 2  4.5 ; S 2  0.8 ; Z2   0.25
0.8

5.4.3 Regla de Shebyshev

Si se tienen n observaciones X1, X2, . . . , Xn con media X y desviación estándar S entonces, por lo
 1 
menos 1  100 % de las observaciones quedan comprendidos entre X  kS y X  kS , k>1.
 k2 

Ejemplo 5.9 En un examen de estadística 30 estudiantes obtuvieron las siguientes notas:

4.2 4.2 4.8 4.7 4.4 3.9 4.5 3.1 3.4 4.6 4.4 4.6
3.6 1.9 4.4 4.1 4.6 4.2 4.1 4.5 2.5 4.0 4.1 4.0
3.6 4.9 3.6 3.9 4.5 3.5

X  4.03 S  0.66

a) k = 2
X  kS  4.03 - 2(0.66)  2.71
X  kS  4.03  2(0.66)  5.35
 1 
b) De acuerdo con la regla de Shebyshev, por lo menos 1  100 %  75% de los datos quedan
 22 
comprendidos entre 2.71 y 5.35.

32
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

c) Al hacer el conteo directo se encuentra que hay 28 del total de 30 datos que están entre 2.71 y
28
5.0, lo que representa el 100 %  93% .
30

A veces el propósito es determinar que intervalo se debe escoger para que en este quede comprendido
determinado porcentaje de los datos. Por ejemplo, ¿qué valor k debe escogerse para que en el intervalo
1
quede el 50% de los datos como mínimo? En este caso, hacemos 1  2
 0.5 , entonces k 2  2 y
k
k  1.4 .

Cuando los datos corresponden a distribuciones simétricas en forma de campana la regla de


Shebyshev da resultados más precisos.

- El 68% de los datos (área) quedan comprendidos entre    y   

68%
16% 16%

- El 95% de los datos (área) quedan comprendidos entre   2 y   2

95%
2.5% 2.5%

- El 99.75% de los datos (área) quedan comprendidos entre   3 y   3

0.125% 99.75%
0.125%

Ejemplo 5.10 Una fábrica de productos comestibles ha fijado el peso promedio de cierto alimento
empaquetado en 450 gramos, con una desviación estándar de 12 gramos. La curva que representa
estos pesos tiene forma simétrica, qué proporción de paquetes presenta:
a) más de 462 gramos?

33
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

b) más de 474 gramos?


c) entre 414 y 486 gramos?

Aplicando la regla de Shebyshev, se tiene


a)   k  462  450  k(12)  462  k  1 y así, el 16% de los paquetes presentaran
un peso superior a 462 gramos.

16%

b)   k  474  450  k(12)  474  k2 y así, el 2.5% de los paquetes


presentaron un peso superior a 474 gramos

2.5%
450   2  474

c)   k  414  450 - k(12)  414  k  3 y así, el 99.75% de los paquetes


presentaron un peso entre 414 y 486 gramos.

0.125% 99.75%
0.125%

414 450 486

5.5 OTRAS MEDIDAS DESCRIPTIVAS

Nos ayudan a ver como se distribuyen los datos.

5.5.1 Coeficiente de Sesgo

Definición 5.17 El Coeficiente de Sesgo es un número que mediante su signo podemos determinar si
los datos (la curva) tienen distribución simétrica o sesgada.

El coeficiente de sesgo para datos agrupados, se define como:

34
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

 f (X i i  X) 3
C.S  i 1
(32)
nS 3
El coeficiente de sesgo se interpreta como:

- Si C.S = 0, entonces los datos (la curva) se comportan de manera simétrica.


- Si C.S > 0, entonces los datos (la curva) son sesgados a la derecha.
- Si C.S < 0, entonces los datos (la curva) son sesgados a la izquierda.

5.5.2 Coeficiente de Curtosis

Definición 5.18 El Coeficiente de Curtosis es un número cuya magnitud nos indica si los datos se
distribuyen simétricamente de forma normal (curva mesocúrtica), más empinados que la curva normal
(curva leptocúrtica) o más aplanados que la curva normal (curva plasticúrtica).

El coeficiente de curtosis para datos agrupados se define como:


k

 f (X i i  X) 4
C.C  i 1
(33)
nS 4
El coeficiente de curtosis se interpreta de la siguiente manera:

- Si C.C = 3, entonces los datos (la curva) presentan forma de una normal estandarizada.
- Si C.C > 3, entonces los datos se presentan más empinados que los de una normal estandarizada.
- Si C.C < 3, entonces los datos se presentan más aplanados que los de la normal.

5.5.3 Diagrama de Bloque (Boxplot o cajas)

Los diagramas de tallo y hoja y los histogramas proporcionan impresiones más bien generales acerca
de un conjunto de datos, mientras que un solo resumen como es la media y la desviación estándar se
concentra en un solo aspecto de la información. En años recientes, un resumen gráfico llamado
Diagrama de Bloque se ha empleado de manera satisfactoria para describir varias de las más
destacadas características de un conjunto de datos. Estas características incluyen: i. centro, ii.
dispersión, iii. Naturaleza y magnitud de cualquier desviación de la simetría y iv. Identificación de
“puntos inusuales”, es decir, observaciones que están desafortunadamente lejos del cuerpo principal
de los datos. Debido a que incluso un solo punto inusual puede afectar de manera drástica el valor de
algunas medidas numéricas (como X y S), un diagrama de bloque está basado en medidas que son
“resistentes” a la presencia de unos cuantos puntos inusuales, la mediana y los cuartiles.

Un diagrama de bloque se puede construir mediante la siguiente secuencia de pasos:

1. Dibujar y marcar un eje de medida horizontal.


2. Construir un rectángulo cuyo borde izquierdo está arriba del primer cuartil ( Q 1 ) y cuyo borde
derecho está arriba del tercer cuartil ( Q 3 ).
3. Dibujar un segmento de recta vertical dentro del bloque o caja arriba de la mediana.

35
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

4. Prolongar rectas desde cada extremo del bloque o de la caja hasta las observaciones más lejanas
que estén todavía a menos de 1.5f s (recuerde que f s es el rango intercuartilico) de los bordes
correspondientes.
5. Dibujar un círculo abierto para identificar cada observación que caiga entre 1.5f s y 3f s del borde
al cual está más cercano; éstos se llaman puntos inusuales suaves.
6. Dibujar un circulo de línea llena para identificar cada observación que caiga a más de 3f s del
borde más cercano; éstos se llaman puntos inusuales extremos.

Puntos Puntos Puntos Puntos

inusuales inusuales inusuales inusuales


Q1 Q2 Q3
extermos suaves suaves extermos

Ejemplo 5.8 Para los datos del ejemplo 4.1, realice un diagrama de bloques o cajas.

CAPITULO VI
PROBABILIDAD: DEFINICIÓN Y DISTRIBUCIONES DE PROBABILIDAD

6.1 CONCEPTOS BASICOS DE PROBABILIDAD

6.1.1 EXPERIMENTO ALEATORIO

Un experimento es un proceso o actividad que conduce a un resultado u observación. Por lo tanto un


experimento aleatorio es aquel proceso que cumple con las siguientes condiciones:
1) Todos los posibles resultados son conocidos antes de realizar el experimento.
2) En cualquier ejecución del experimento el resultado no se puede conocer por anticipado.
3) El experimento se debe poder repetir bajo idénticas condiciones.

36
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 6.1. Examinar una persona para observar si está enferma. Este es un experimento aleatorio
porque:
 Antes de realizar el experimento (examinar una persona) se conocen los posibles resultados, que
en este caso son: enferma y no enferma.
 Antes de examinar una persona no se puede saber si está enferma o no.
 Es posible examinar otra persona bajo las mismas condiciones.

Ejercicio 6.1. Verifique si la siguiente situación cumplen con las condiciones de un experimento
aleatorio: Se lanza una moneda al aire 100 veces.

Ejercicio 6.2. ¿La siguiente situación cumple con las condiciones de un experimento estadístico?: En
un colegio del barrio Meissen de la ciudad de Bogotá se está estudiando la influencia que tiene el
tiempo libre de los estudiantes sobre el consumo de droga, para tal fin se realiza un muestreo
estadístico para determinar la proporción de niños que consumen drogas.

6.1.2 ESPACIO MUESTRAL.

Es el conjunto de todos los posibles resultados de un experimento estadístico, se denota por el símbolo
S o  (omega).

Ejemplo 6.2. En el ejemplo 6.1, el espacio muestral es:

S = E, NE
donde E representa que la persona está enferma y NE representa que la persona no está enferma.

Ejercicio 6.3. ¿Cuál es el espacio muestral para los ejercicios 6.1 y 6.2?

6.2 TIPOS DE ESPACIO MUESTRAL.

6.2.1 Espacio Muestral Discreto: Es aquel que está formado por un conjunto finito o infinito
contable de resultados.

Ejemplo 6.3. El espacio muestral en el ejemplo 1 es discreto. Se pueden numerar o contar los posibles
resultados.

Ejercicio 6.4. ¿En los ejercicios 6.1 y 6.2 los espacios muéstrales son discretos?

6.2.2 Espacio Muestral Continuo: Es aquel que está formado por un subconjunto de Rn.

Ejemplo 6.4. Para el experimento que consiste en el tiempo de duración en las drogas de una persona,
el espacio muestral es S = {tR: 0 ‹ t ‹ }.

6.2.3 EVENTO.

Un evento es un subconjunto del espacio muestral de un experimento aleatorio.

Ejemplo 6.5. Los eventos del espacio muestral son:

E1  Enferma 
E2  No Enferma
37
E3  
E4  S
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

6.2.4 DEFINICIÓN DE PROBABILIDAD.

Una función es llamada función de probabilidad si satisface las siguientes condiciones:


1. P (E) > 0. Para todo evento E que pertenece al espacio evento.
2. P (S) = 1.
3. Sean E1 , E 2 ,..... eventos disyuntos ( E i  E j   para todo i  j ) entonces
P ( E1  E 2  ....)  P ( E1 )  P ( E 2 )  .....

6.4 PROBABILIDAD DE UN EVENTO.

Para un espacio muestral discreto, la probabilidad de un evento E, es igual a la suma de las


probabilidades de los elementos de E. De forma frecuentista la probabilidad de un evento E de un
espacio muestral discreto finito es:

Número de elementos en E
P( E )  (26)
Número de elementos en S

6.4.1 ¿CÓMO ASIGNAR PROBABILIDADES A DIFERENTES EVENTOS EN UN


ESPACIO MUESTRAL S?

Si S es un espacio muestral finito y consta de k elementos y si la naturaleza del experimento muestra


que estos k resultados son igualmente posibles entonces podemos asignar la misma probabilidad a
cada resultado, igual a 1/k. En este caso el cálculo de probabilidades de eventos se reduce al de contar
los eventos y dividir en el total de los elementos del espacio muestral.

Si el espacio muestral es finito o la naturaleza del experimento no indica cómo subdividir el espacio
muestral en un número finito de eventos igualmente posibles, en este caso se debe asignar
probabilidades usando las frecuencias relativas que se observan en largas secuencias de ensayos y se
debe asignar las probabilidades de tal manera que se cumplan los axiomas de la probabilidad.

Ejemplo 6.6. La siguiente tabla fue el resultado de una muestra aleatoria de 50 casos en los cuales se
observó la raza de cada persona.

Raza Número de Proporción de


personas personas
Hispano 7 14.0%
Asiático 2 4.0%
Negra 8 16.0%
Blanca 33 66.0%

a. Si se elige al azar una persona de este grupo, ¿cuál es la probabilidad de que la persona sea negra?

En este caso se considera el espacio muestral formado por cuatro categorías (H, A, N, B) y la
probabilidad para el evento E = {N} es P (E) = 0.16.

b. ¿Cuál es la probabilidad de que la persona sea blanca o hispana?

38
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Sea el evento E: la persona es blanca o hispana, entonces


E = {H, B}
P (E) = 0.14 + 0.66 = 0.80

c. ¿Cuál es la probabilidad de que la persona sea asiática y negra?

Sea el evento E1 la persona es asiática y el evento E 2 la persona es negra, entonces


E1  A y E 2  N 
P( E1  E 2 )  P( )  0

6.5 PROBABILIDAD DE EVENTOS MUTUAMENTE EXCLUYENTES.

Dos eventos E1 y E2 son mutuamente excluyentes si no tienen elementos en común; es decir

E1  E 2   (27)

La probabilidad asociada a la unión de dos eventos mutuamente excluyentes está dada por:

P( E1  E 2 )  P( E1 )  P ( E 2 ) (28)

Ejemplo 6.7. Una tienda de vídeo vende dos marcas diferentes de videograbadoras, cada una de las
cuales viene con dos o cuatro cabezas. La tabla siguiente indica el número de compradores recientes
de cada tipo de videograbadoras:

NÚMERO DE CABEZAS
MARCA
DOS CUATRO
L 10 20
R 5 15

Supongamos que se selecciona al azar un comprador reciente. La probabilidad de que este elija la
marca L o R es:
30 20
P( L  R)    0.60  0.40  1
50 50

Ejercicio 6.5. ¿Cuál es la probabilidad de que al seleccionar al azar un comprador reciente, este elija
una videograbadora con 2 o 4 cabezas?

6.6 PROBABILIDAD DE EVENTOS MUTUAMENTE EXCLUYENTES.

Si E1, E2,..., Em son eventos mutuamente excluyentes entonces:

𝑃 (𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸𝑚 ) = 𝑃 (𝐸1 ) + 𝑃(𝐸2 ) + ⋯ + 𝑃(𝐸𝑚 ) (29)

6.6.1 PROBABILIDAD DE EVENTOS CUALESQUIERA O ARBITRARIOS.

Si A y B son eventos cualesquiera contenidos en un espacio muestral, entonces:

39
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

P( A  B)  P( A)  P( B)  P( A  B) (30)

Ejemplo 6.8. Suponga que el 80% de los colombianos que pasan vacaciones en Europa visitan París;
el 70% visitan Berlín y el 60% visitan París y Berlín. Halle la probabilidad de que un colombiano de
vacaciones en Europa:
a. Visite Berlín o París.
b. Visite sólo una de las dos ciudades.
c. No visite ninguna de éstas dos ciudades.

Solución. Sea A: Visitar París y B: Visitar Berlín.


P(A) = 0.80, P(B) = 0.70 y P( A  B)  0.60
a. P( B  A)  P( B)  P( A)  P( B  A)  0.70  0.80  0.60  0.90 .
b. P( A  B' )  P( A'B)  0.30 .
c. P( A'B' )  0.10

Ejercicio 6.6. En el barrio Meissen de la Ciudad de Bogotá, el 65% de las familias son de origen
campesino. Se sabe además que el 26% de las familias de origen campesino y el 18% de las de origen
no campesino de tal barrio, tienen más de 8 hijos. Al seleccionar al azar una familia de tal barrio:
a. ¿Cuál es la probabilidad de que tenga 8 hijos o menos?
b. Si la familia seleccionada tiene más de 8 hijos, ¿cuál es la probabilidad de que sea de origen
campesino?

Ejercicio 6.7. Los fabricantes de champú “Pelolindo” están interesados en realizar una campaña
publicitaria en las principales revistas femeninas del país. Para ello desarrollaron un estudio de
mercado con base en una muestra de 500 mujeres, encontrando que de ellas:
265 leen Vanidades; 200 leen Mujer; 80 leen Buenhogar; 65 leen Vanidades y Mujer; 35 leen
Vanidades y Buenhogar; 30 leen Buenhogar y Mujer y 20 leen las tres revistas. Al seleccionar al azar
una de las 500 mujeres, ¿Cuál es la probabilidad de que:
a. Lea al menos una de las tres revistas?
b. Lea solamente una de las tres revistas?
c. Lea por lo menos dos de las tres revistas?

6.6.2 PROBABILIDAD CONDICIONAL.

La probabilidad condicional de un evento A dado un evento B, denotado por P( A / B) se define


como:
P( A  B)
P( A / B)  (31)
P( B)
donde P( B)  0 .

Ejemplo 9. La oficina de Acción Social lleva a cabo un censo de todas las personas que viven en una
pequeña comunidad. Los encuestadores anotan en una relación el número de visitas que una persona
hace al centro de salud y las condiciones sanitarias de la vivienda que habita. Los resultados fueron
los siguientes:

40
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Condiciones Sanitarias
Número de Visitas Buenas Malas Total
2 o menos 700 100 800
Más de dos 800 400 1200
Total 1500 500 2000

a. ¿Cuál es la probabilidad de que una persona escogida al azar viva en malas condiciones
sanitarias?
b. ¿Cuál es la probabilidad de que una persona escogida al azar viva en malas condiciones sanitarias,
dado que visita dos veces o menos al centro de salud?

Solución. Sea A: la persona vive en malas condiciones sanitarias, y B: la persona visita dos veces o
menos al centro de salud.

500
a. P( A)   0.25
2000
P( A  B) 100 / 2000 100
b. P( A / B)     0.125
P( B) 800 / 2000 800

Ejemplo 10. El 50% de los estudiantes de la universidad tiene clase por la mañana; el 30% tiene clase
por la tarde y el 20% por la mañana y por la tarde. Se escoge un estudiante al azar, calcule la
probabilidad de que:
a. Tenga clase por la tarde, dado que tiene clases por la mañana.
b. Tenga clase por la mañana, dado que tiene clases por la tarde.

Solución. Sea A: “tener clases por la mañana”, y B: “tener clases por la tarde”.
P(A) = 0.50, P(B) = 0.30 y P( A  B)  0.20

P ( A  B ) 0.20
a. P ( B / A)    0.40 .
P ( A) 0.50
P ( A  B) 0.20
b. P( A / B)    0.67 .
P( B) 0.30
Ejercicio 6.8. En cierto grupo de estudiantes de secundaria formado por 60 mujeres y 40 hombres,
se observa que 24 de éstos usan lentes, lo mismo que 16 mujeres. Se escoge un estudiante al azar;
halle la probabilidad de que:
a. Sea mujer dado que usa lentes.
b. Use lentes dado que es hombre.
Ayuda: Utilice la siguiente tabla.

Usar Lentes
Genero SI NO TOTAL
MASCULINO 24 16 40
FEMENINO 16 44 60
TOTAL 40 60 100

41
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejercicio 6.9. La probabilidad de que un ama de casa esté presente en el hogar cuando un
representante de ventas llame a la puesta es de 50%. Si se encuentra que la probabilidad de realizar
una compra es del 30%. Halle la probabilidad de que la señora esté presente en casa y de que realice
la compra cuando el representante llame.

6.6.3 REGLA DE LA MULTIPLICACIÓN.

Si A y B son eventos contenidos en un espacio muestral S y P(A)  0 y P(B)  0, entonces se cumple


que:
P( A  B)  P( A / B) P( B)  P( B / A) P( A) (32)

Ejemplo 6.11. Una urna contiene 3 balotas negras y 7 blancas. Se extrae una balota, se observa su
color y luego se regresa a la urna con dos balotas adicionales del mismo color. Si se realizan tres
extracciones una a continuación de otra, halle la probabilidad de que en cada una de ella se extraiga
una balota negra.

Solución. Sea Ai : la balota seleccionada en la extracción i es de color negro, i = 1, 2, 3.

 7  5  3  1
P( A1  A2  A3 )  P( A3 / A1  A2 ) P( A2 / A1 ) P( A1 )      
 14  12  10  16

6.6.4 MUESTREO CON REEMPLAZAMIENTO.

Es cuando el objeto que se selecciona al azar se coloca de nuevo en el conjunto de datos, se mezcla
completamente y se procede a seleccionar al azar el siguiente objeto.

6.6.5 MUESTREO SIN REEMPLAZAMIENTO.

Es cuando el objeto que se seleccionó se deja aparte.

6.6.6 INDEPENDENCIA DE EVENTOS.

Cuando la ocurrencia de un evento A no está influenciado, ni influye sobre la ocurrencia de otro se


dice que los eventos son estadísticamente independientes. Es decir, dos eventos A y B en un
experimento aleatorio son tales que:

P(AB) = P(A)P(B)
donde P(A)  0 y P(B)  0.

Cuando dos eventos A y B son estadísticamente independientes entonces:

P(A/B) = P(A) y P(B/A) = P(B)

Ejemplo 6.12. El 20% de una población es zurda; el 30% es adicta al alcohol y el 6% es adicta al
alcohol y es zurda. Compruebe que los eventos A: “ser persona zurda” y B: “ser persona adicta al
alcohol” son independientes.

42
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Solución. P( A  B)  0.06 , P( A)  0.20 y P( B)  0.30 . Entonces:

P( A  B)  P( A) P( B)  (0.20)(0.30)  0.06

Ejercicio 6.10. La Oficina de Acción Social lleva a cabo un censo de todas las personas que viven en
una pequeña comunidad. Los encuestadores anotan en una relación el número de visitas que una
persona hace al centro de salud y las condiciones sanitarias de la vivienda que habita. Los resultados
se presentan en la siguiente tabla:

Condiciones Sanitarias
Número de Visitas Buenas Malas Total
Dos o menos 700 100 800
Más de dos 800 400 1200
Total 1500 500 2000

a. ¿Cuál es la probabilidad de que una persona escogida al azar viva en malas condiciones
sanitarias?
b. ¿Cuál es la probabilidad de que una persona escogida al azar viva en malas condiciones sanitarias,
dado que visita dos veces o menos al centro de salud?

Ejercicio 6.11. El 50% de los estudiantes de la universidad tiene clases por l mañana; el 30% tiene
clases por la tarde y el 20% por la mañana y por la tarde. Se escoge un estudiante al azar. ¿Cuál es la
probabilidad de que:

a. Dado que tiene clases por la mañana, tenga clases por la tarde?
b. Dado que tiene clases por la tarde, tenga clases por la mañana?

Ejemplo 6.13. Durante los últimos años se ha escrito mucho sobre la posible relación entre el fumar
y el cáncer pulmonar. Supóngase que un centro médico, de todos los fumadores de quienes se
sospecha que tenían cáncer pulmonar, el 90% lo tenía, mientras que únicamente el 5% de los no
fumadores lo padecía. Si la proporción de fumadores es del 45%, ¿cuál es la probabilidad de que un
paciente con cáncer pulmonar, seleccionado al azar, sea fumador?

Solución. Sea el evento F: La persona fuma y el evento C: La persona tiene cáncer pulmonar.
P( F )  0.45 , P(C / NF )  0.05 y P(C / F )  0.90 . Entonces, P(C  F )  0.405 y
P(C  NF )  0.0275 . De esta manera, se puede construir la siguiente tabla:
Paciente C: Cáncer Pulmonar NC: No Cáncer Pulmonar Total
F: Fumador 0.405 0.045 0.45
NF: No Fumador 0.0275 0.5225 0.55
Total 0.4325 0.5625 1
Luego,
0.405
P( F / C )   0.9364
0.4325

Ejercicio 6.12. En un grupo de hombres adultos, el 10% presenta educación primaria, el 70% tiene
educación secundaria y el 20% educación universitaria. El 5% de los que presenta educación primaria
pertenecen al grupo de ingresos “altos”. Por su lado, el 15% de los que tienen educación secundaria

43
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

y el 75% de los que tienen educación universitaria pertenecen al grupo de ingresos “altos”. Se
selecciona un individuo al azar entre esta población y se encuentra que ésta en el grupo de ingresos
“altos”. Encontrar la probabilidad de que este individuo sólo:

a. Presente educación primaria.


b. Presente educación secundaria.
c. Presente educación universitaria.

Ejercicio 6.13. En una prisión, el 10% de los reclusos estudio hasta cuarto grado o menos. El 50%
hizo quinto, sexto y séptimo grado y el 40% séptimo grado o más. Por otro lado, el 20% del primer
grupo, el 50% del segundo grupo y el 70% del tercero tienen una edad de menos de 25 años. ¿Cuál
es la probabilidad de que ese individuo pertenezca:

a. al primer grupo de nivel de estudios?


b. al segundo grupo de nivel de estudios?
c. al tercer grupo de nivel de estudios?

Ejercicio 6.14. Después de una encuesta, mil informantes quedaron clasificados según su nivel
ocupacional y según hubieran terminado o no la educación secundaria. La siguiente tabla muestra los
resultados de encuesta.

Educación secundaria completa


Nivel Ocupacional No Si
Obrero no Calificado (A) 250 100
Obrero Semicalificado o Calificado (B) 150 100
Personal de Oficina y Ventas (C) 115 110
Administración Semiprofesional y de 70 105
Grupo Bajo (D)
Se seleccionó al azar un informante de este grupo con el fin de hacerle otra encuesta y se halló que
había terminado su educación secundaria. ¿Qué probabilidad hay de que sea:

a. Un obrero no calificado?
b. Un obrero semicalificado o calificado?
c. Un empleado de oficina o de ventas?
d. Un empleado Semiprofesional o administrativo de nivel bajo?

CAPITULO VII
DISTRIBUCIONES DE PROBABILIDAD

Definición 7.1. Una Variable Aleatoria X es una función cuyos valores son números reales y
dependen del “azar”, también se puede decir que es una función X que se asocia con un experimento
aleatorio.

Definición 7.2. El conjunto de valores que X puede tomar se llama espacio muestral de X o Rango
de la variable X, o valores que tomen la variable X.

A continuación se va a estudiar la construcción de distribuciones empíricas de probabilidad y, luego


algunas distribuciones especiales de probabilidad, con variables aleatorias discretas y continuas.

44
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

7.1 DISTRIBUCIONES DE VARIABLES DISCRETAS.

Definición 7.3. Una variable aleatoria discreta es aquella con un espacio muestral finito o infinito
contable.

Ejemplo 7.1. Lanzamiento de una moneda, lanzamiento de un dado, el consumo de drogas, etc.

Con frecuencia resulta conveniente poder idear algún mecanismo o regla que nos permita determinar
la probabilidad de que una variable aleatoria discreta X asuma algún valor x.

Definición 7.4. Cualquier regla o mecanismo que sirva para determinar f(x) = P(X = x), probabilidad
de que la variable aleatoria X tome cada uno de los valores posibles x, se denomina densidad de
probabilidad.

Ejemplo 7.2. La siguiente tabla muestra la distribución del número de arrestos anteriores de 500
adolescentes que, durante un año, comparecieron ante el tribunal de menores.

Denotemos por X la variable aleatoria discreta “número de arrestos anteriores” y por x los valores
que X puede tomar.

Número de arrestos anteriores de 500 adolescentes que, durante un año, comparecieron


ante el tribunal de menores
Número de arrestos anteriores Número de adolescentes P(X = x)
0 300 300/500 = 0.60
1 100 100/500 = 0.20
2 60 60/500 = 0.12
3 20 20/500 = 0.04
4 10 10/500 = 0.02
5 5 5/500 = 0.01
6 5 5/500 = 0.01
Total 500 500/500 = 1

Se puede utilizar esta tabla para saber cuáles son las probabilidades de que un joven haya tenido
determinado número de arrestos previos. Así, por ejemplo, la probabilidad de que un joven escogido
al azar en este grupo haya tenido dos arrestos previos es de 0.12. Esto mismo se puede expresar como
P(X = x) = 0.12.

El anterior ejemplo, nos lleva a dos propiedades fundamentales de una función de distribución de
probabilidad f(x) de una variable aleatoria X:

i. f ( x)  P( X  x)  0 para todo valor de x .


ii.  x
P( X  x )  1 .

Ejercicio 7.1. Verifíquese que se cumplen las dos anteriores propiedades en el ejemplo 7.2.

Con frecuencia estamos interesados en conocer la probabilidad de que X tome un valor menor o igual
a x.

45
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Definición 7.5. La probabilidad de que una variable aleatoria X asuma valores menores o iguales a x
se llama función de distribución acumulada de X y se denota por F ( x)  P( X  x) .

Nota: La anterior definición es análoga a la de frecuencia acumulada relativa cuando los datos se
podían presentar en una tabla que resumían a éstos.

Así, para calcular la probabilidad de que X sea menor o igual a un determinado valor, digamos a , se
procede de la siguiente manera:

F (a )  P( X  a )   f ( x)   P( X  x)
xa xa

Ejemplo 7.3. Retomando el ejemplo 7.2, encuéntrese la función de distribución acumulada para esa
información.

Función de distribución acumulada


Número de arrestos anteriores 0 1 2 3 4 5 6
F ( x )  P( X  x ) 0.60 0.80 0.92 0.96 0.98 0.99 1.00

Definición 7.6. El valor esperado o la media de una variable aleatoria discreta X, se define como:

  E ( X )   xf ( x)
x

Definición 7.7. Suponga que la media de la variable aleatoria X es  y que la función de probabilidad
de X es f (x) . La varianza de una variable aleatoria X, está dada por:

 2  V ( X )  E ( X   ) 2   ( x   ) 2 f ( x)  E ( X 2 )   2
x

Definición 7.8. La desviación estándar de una variable aleatoria, es la raíz cuadrada de la varianza,
y se denota por  .

Ejemplo 7.4. Para el ejemplo 7.2, halle el número promedio de arrestos anteriores para los 500
adolescentes y la desviación estándar.
6
  E ( X )   xP( X  x)  0(0.60)  1(0.20)  2(0.12)    6(0.01)  0.75
x 0
6
y, E ( X 2 )  x
x 0
2
P( X  x)  0 2 (0.60)  12 (0.20)  2 2 (0.12)    6 2 (0.01)  1.97 . De aquí,

  V ( X )  E ( X 2 )   2  1.97  (0.75) 2  1.4075


2

De esta forma, la desviación estándar es:   1.1864 .

Las distribuciones que se han estudiado hasta el momento se pueden llamar distribuciones empíricas,
porque se han construido directamente con los datos del experimento. A continuación se va a estudiar

46
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

unas distribuciones discretas especiales que son: la distribución de Bernoulli y la distribución


Binomial.

7.1.1 Distribución Bernoulli.

Definición 7.9. Un ensayo de Bernoulli es un experimento aleatorio que tiene solo dos posibles
resultados, denotados por “éxito” y “fracaso”. La probabilidad de un éxito se denota por p. La función
de probabilidad de x es:

f ( x; p)  p x (1  p)1 x

Si X es una variable aleatoria que denota el éxito, entonces:


  E( X )  p y  2  V ( X )  pq

Ejemplo 7.5.
i. El nacimiento de un niño. Los resultados posibles son: “hombre” o “mujer”.
ii. Se elige a un niño al azar entre un grupo en el que m niños tiene una inteligencia superior al
promedio y n niños una inteligencia igual o inferior al promedio. Los resultados posibles son:
“niño con inteligencia superior al promedio” o “niño con inteligencia igual o inferior al
promedio”.
iii. Un estudiante presenta un examen final. Los resultados posibles son: “aprueba” o “reprueba”.

Ejercicio 7.2. Suponga que el 80% de las familias de una ciudad tienen casa propia. Sea X la variable
aleatoria que toma el valor de 1 cuando una familia elegida al azar en la ciudad es propietaria y 0
cuando no lo es. Halle la media y la desviación estándar de X.

7.1.2 Distribución Binomial.

Un experimento aleatorio que consiste en n ensayos de Bernoulli tales que:


i. Los ensayos son independientes, es decir, el resultado de cualquier ensayo particular no es
afectado por el resultado de cualquier otro ensayo.
ii. En cada ensayo, el éxito tiene probabilidad p y el fracaso tiene probabilidad q = 1 – p de
ocurrir.
iii. La probabilidad de éxito y de fracaso permanece constante de un ensayo a otro.

Definición 7.10. Sea X una variable aleatoria que representa el número de éxitos en n ensayos de
Bernoulli y p es la probabilidad de éxito en cualquiera de éstos. Se dice entonces que X tiene una
distribución binomial con la función de probabilidad:
 n  x n x
  p (1  p ) si x  0,1,2,  , n.
f ( x; p, n)  P( X  x)   x 
0
 para cualquier otro valor de x
n n!
donde,    .
 x  (n  x)! x!

Si X es una variable aleatoria binomial con parámetros p y n, entonces:

47
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

  E ( X )  np y  2  V ( X )  np(1  p)

Ejemplo 7.6. El 20% de los pacientes que se han dado de alta en un hospital durante los diez últimos
años han sido adolescentes. El encargado de las historias clínicas, a quien un médico le solicita que
retire las historias de tres adolescentes, puede preguntarse qué probabilidad hay de obtener x = 3
historias de adolescentes (éxitos), si n = 5 es el número de historias que se seleccionan aleatoriamente.

Solución. Sea X: “número de historias clínicas de adolescentes en cinco historias clínicas


seleccionadas”

 5
f (3;0.20,5)  P( X  3)   (0.20) 3 (0.80) 2  10(0.008)(064)  0.0512
 3

Ejemplo 7.7. El 35% de los internos de una institución correccional son reincidentes. Se selecciona,
para una evaluación, una muestra aleatoria de 15 internos.
a. Hallar la probabilidad de que el número de reincidentes del grupo sea mayor de 10.
b. Hallar la probabilidad de que 5 o más sean reincidentes.
c. Hallar la probabilidad de que menos de 8 sean reincidentes.
d. Hallar la probabilidad de que 9 o menos sean reincidentes.
e. Hallar la probabilidad de que el número de reincidentes esté entre 5 y 12 inclusive.
f. Hallar la probabilidad de que el número de reincidentes sea mayor que 6 pero menor que 12.

Solución. Sea X: “número de reincidentes en un grupo de 15 internos”, n = 15 y p = 0.35.


a. P( X  10)  P( X  11)  P( X  12)  P( X  13)  P( X  14)  P( X  15)
 0.0024  0.0004  0.0001  0.0000  0.0000  0.0029 .
b. 𝑃 𝑋 ≥ 5 = 𝑃 (𝑋 = 5) + 𝑃 (𝑋 = 6) + ⋯ + 𝑃 (𝑋 = 15)
( )
= 0.2123 + 0.1906 + ⋯ + 0.0000 = 0.6481
c. 𝑃 (𝑋 < 8) = 𝑃 (𝑋 = 0) + 𝑃 (𝑋 = 1) + ⋯ + 𝑃 (𝑋 = 7)
= 0.0016 + 0.0126 + ⋯ + 0.1319 = 0.8868
d. 𝑃 𝑋 ≤ 9 = 𝑃 (𝑋 = 0) + 𝑃 (𝑋 = 1) + ⋯ + 𝑃 (𝑋 = 9)
( )
= 0.0016 + 0.0126 + ⋯ + 0.0298 = 0.9876
e. 𝑃 (5 ≤ 𝑋 ≤ 12) = 𝑃(𝑋 = 5) + 𝑃(𝑋 = 6) + ⋯ + 𝑃(𝑋 = 12)
= 0.2123 + 0.1906 + ⋯ + 0.0004 = 0.6480
f. 𝑃 (6 < 𝑋 < 12) = 𝑃(𝑋 = 7) + 𝑃(𝑋 = 8) + ⋯ + 𝑃(𝑋 = 11)
= 0.1319 + 0.0710 + ⋯ + 0.0024 = 0.2447

Ejemplo 7.8. El 70% de los adultos que viven en una comunidad tiene más de 25 años de edad. Se
seleccionan cinco adultos al azar. ¿Qué probabilidad hay de que 3 tengan más de 25 años?

Solución. Sea X: “número de adultos que tienen más de 25 años en un grupo de 5”, n = 5 y p = 0.70.
 5 5!
P( X  3)   (0.70) 3 (0.30) 2  (0.343)(0.09)  0.3087
 3 2!3!

Ejercicio 7.3. La probabilidad de un nacimiento masculino es de 0.52. ¿Cuál es la probabilidad de


que en una familia que tiene 3 hijos, haya:
a. Tres varones?

48
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

b. Ningún Varón?
c. Por los menos un varón?

Ejercicio 7.4. En una zona geográfica, el 15% de los adultos son analfabetos. Dada una muestra
aleatoria de 25 adultos de esta área. ¿Cuál es la probabilidad de que el número de analfabetas sea
a. Exactamente 10?
b. Menos de 5?
c. Cinco o más?
d. En 3 y 5 incluso?
e. Menos de 7 pero más de 4?

Ejercicio 7.5. Un método modelo para enseñar una habilidad especial a ciertos individuos retardados
resulta efectivo en el 50% de los casos. Se ensayó un nuevo método con 15 personas. Si el nuevo
método no es mejor que el método modelo, ¿cuál es la probabilidad de que 11 o más aprendan la
habilidad?

Ejercicio 7.6. En cierta escuela, exactamente el 10% de los estudiantes son niñas. Se toma al azar
una muestra de 10 estudiantes. Halle la probabilidad de que la muestra contenga:
a. Sólo niñas.
b. Sólo una niña.
c. Menos de tres niñas.
d. Más de tres niñas.

7.1.3 Experimentos Multinomiales

Un experimento binomial se convierte en un experimento multinomial si cada intento tiene más de


dos resultados posibles.

Ejemplos 7.7. Un producto clasificado como ligero, pesado o aceptable.


Sacar una carta de un paquete con reemplazo si los cuatro palos son de interés.

7.1.3.1 Distribución Multinomial

Si un intento determinado puede resultar en cualquiera de los k resultados 𝐸1 , 𝐸2 , … , 𝐸𝑘 con


probabilidades 𝑝1 , 𝑝2 , … , 𝑝𝑘 , entonces la distribución de probabilidad de las variables aleatorias
𝑋1 , 𝑋2 , … , 𝑋𝑘 que representa el número de ocurrencias para 𝐸1 , 𝐸2 , … , 𝐸𝑘 en n intentos independientes
es:

Ejemplo 7.8. Si un par de dados se lanzan seis veces, ¿cuál es la probabilidad de obtener un total de
7 u 11 dos veces, un par igual una vez y cualquier otra combinación 3 veces?

Solución. Los eventos son:


𝐸1: Se obtiene un 7 u 11
𝐸2: Un par igual
𝐸3: Ni un par igual, ni 7 u 11

49
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

S = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3),
(3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1),
(6,2), (6,3), (6,4), (6,5), (6,6)}

Del enunciado se sabe que n = 6, 𝑃 (𝐸1 ) = 8/36, 𝑃 (𝐸2 ) = 6/36 y 𝑃 (𝐸3 ) = 22/36. También que:
𝑥1 = 2, 𝑥2 = 1 y 𝑥3 = 3 (𝑥1 + 𝑥2 + 𝑥3 = 2 + 1 + 3 = 6).

Por tanto, la probabilidad de obtener un total de 7 u 11 dos veces, un par igual una vez y cualquier
otra combinación 3 veces en seis lanzamientos de dos dados es 0.1127 o 11%.

Ejercicio 7.7. Las probabilidades son de 0.4, 0.2, 0.3 y 0.1, respectivamente, de que un delegado
llegue por aire a una cierta convención, llegue en autobús, en automóvil o en tren. ¿Cuál es la
probabilidad de que nueve delegados seleccionados aleatoriamente en esta convención, tres hayan
llegado por aire, tres en autobús, uno en automóvil y dos en tren?

7.1.4 Distribución Hipergeométrica

Esta distribución no requiere independencia y se basa en el muestreo sin reemplazamiento. Su uso es


principalmente en muestreo de aceptación, pruebas electrónicas y aseguramiento de calidad.
Antes de ver la definición de distribución hipergeométrica, veamos las características de un
experimento hipergeométrico:

1. Una muestra aleatoria de tamaño n se selecciona sin reemplazo de un total de N resultados o


artículos totales.
2. K resultados o artículos del total N pueden clasificarse como éxitos y N-K como fracasos.

Al número de éxitos X en un experimento hipergeométrico se le da el nombre de variable aleatoria


hipergeométrica.

Definición 7.11. La función de probabilidad de la variable aleatoria hipergeométrica X, donde X es


el número de éxitos en una muestra aleatoria de tamaño n seleccionada de N resultados posibles, de
los cuales K son consideradas como éxitos y N-K como fracasos es:

Notación: h(x; N, n, K)

  K  N  K 
   
  x   n  x  x  0,1,2,3,..., n
hx; N , n, K    N
  
 n
0 en otro caso

EX  
nK
Media :
N
N n K  K
Varianza : Var X    n   1  
N 1 N  N

50
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 7.9. Sea X una variable aleatoria hipergeométrica con N = 10, n = 3 y K = 4. Calcular la
función de probabilidad.

Solución.
  4 10  4 
   
  x   3  x  x  0,1,2,3
h x; 6, 3, 3   10 
  
 3
0 en otro caso
  4  6 
   
  0  3  x0
 10 
  
 3
  4  6 
   
  1  2  x 1
 10  0.16667 x0
   0.5 x 1
  3  
 
h x;6,3,3    4  6   h x;6,3,3  0.3 x2
  2  1  0.03333 x3
    x2 
 10  0 en otro cado
  
 3
  4  6 
   
  3  0  x3
 10 
  
 3
0 en otro cado

51
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Hipergeométrica (x;6,3,3)

0,55

Distribucion de Probabilidad
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-1 0 1 2 3 4

Valores de x

Ejemplo 7.10. El Departamento de Protección del Ambiente ha adquirido 40 instrumentos de


precisión para medir la contaminación del aire en distintas localidades. Se seleccionan aleatoriamente
ocho instrumentos y se someten a una prueba para encontrar defectos. Si cuatro de los 40 instrumentos
se encuentran defectuosos:
a. ¿Cuál es la probabilidad de que la muestra contenga exactamente dos instrumentos defectuosos?
b. ¿Cuál es la probabilidad de que la muestra contenga no más de un instrumento defectuoso?

Solución. Entonces, sea X: número de instrumentos defectuosos en la selección.


N = 40 k=4 n=8

Para a. se pregunta 𝑃(𝑋 = 2):


 4  40  4   4  36 
     
 2  8  2   2  6   6  1947792  11686752  0.15196
p( X  2  
 40   40  76904685 76904685
   
8 8

En conclusión, la probabilidad de que la muestra contenga exactamente dos instrumentos defectuosos


es 0.1520 o del 15%.

Para b. se pregunta P(0  X  1) :


 4  40  4   4  40  4   4  36   4  36 
           
 0  8  0   1  8  1   0  8    1  7 
P(0  X  1)   
 40   40   40   40 
       
8 8 8 8
1  30260340 4  8347680 63651060
    0.82766
76904685 76904685 76904685

52
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Entonces, la probabilidad de que la muestra contenga no más de un instrumento defectuoso es 0.8277


o 83%.

7.1.5 Distribución de Poisson

Llamada así en honor a Simeón Denis Poisson francés del siglo XIX. Esta variable aleatoria
representa el número de eventos independientes que ocurren a una velocidad constante en el tiempo
o el espacio. Algunos ejemplos típicos son el número de personas que llegan a una tienda de
autoservicio en un intervalo de tiempo determinado, el número de personas que llegan del campo a la
ciudad durante un mes, el número de nacimientos en una ciudad durante un día, etc. En general, la
distribución de Poisson es el modelo de probabilidad más usado para analizar problemas relacionados
con líneas de espera.

7.1.5.1 Experimento de Poisson

Dado un intervalo de números reales, supóngase que el conteo de ocurrencias es aleatorio en dicho
intervalo. Si éste puede dividirse en subintervalos suficientemente pequeños, tales que:

1. La probabilidad de más de una ocurrencia en el subintervalo es 0.


2. La probabilidad de una ocurrencia en un subintervalo es la misma para todos los subintervalos,
y es proporcional a la longitud de estos.
3. El conteo de ocurrencias en cada subintervalo es independiente del de los demás subintervalos.

Entonces el experimento aleatorio recibe el nombre de proceso de Poisson.

7.1.5.2 Variable aleatoria Poisson y su distribución de probabilidad

La variable aleatoria X denota el número de ocurrencias en el intervalo y la distribución de


probabilidad es dada por:
𝑒 −𝜆 𝜆𝑥
𝑃(𝑥; 𝜆) = { 𝑥! , 𝑥 = 0,1,2,3, …
0 , en otro caso
donde λ es el número medio de eventos en una unidad dada y 𝑒 es el valor aproximado 2.71828.

La distribución de Poisson tiene parámetro λ > 0 y algunas veces se denota como P(x; λ).

Ejercicio 7.8. Demuestre que la anterior función es una función de probabilidad.

La media y varianza de una variable aleatoria Poisson son respectivamente:

E(X) = λ y V(X) = λ

Ejemplo 7.11. Sea X una variable aleatoria con distribución de Poisson con λ = 1.2. Calcular la
función de probabilidad.

Solución.

53
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

𝑒 −1.2 (1.2)𝑥
𝑃(𝑥; 1.2) = { , 𝑥 = 0,1,2,3, …
𝑥!
0 , en otro caso

 e 1.2 (1.2) 0
 x0
 1.2 0! 1
 e (1.2) x 1
 1!
 e 1.2 (1.2) 2 0.3012 x0
 x2 0.3614
 1.2 2! 3  x 1
 e (1.2) x3 0.2169 x2
 3! 0.0867 x3
 1.2 
x4
4
 e (1.2) x4 0.0260
P(x;1.2) =   P(x;1.2)  
 1.2
4!
0.0062 x5
5
 e (1.2) x5 0.0012 x6
 5! 
 1.2 0.0002 x7
6
 e (1.2) x6 
 6! 0
 1.2  en otro cado
7
 e (1.2) x7
 7!


0 en otro cado

Ejercicio 7.9. Elabore y analice el gráfico de distribución de probabilidades de la variable anterior.

Ejercicio 7.10.
a. Calcular, graficar y analizar la función de probabilidad de Poisson para :
i. P(x; 0.8) ii. P(x; 2) iii. P(x; 2.5)
b. Analizar el cambio en la media y varianza de la distribución Poisson cuando se cambian los
valores de los parámetros.

Ejemplo 7.12. Se sospecha que muchas muestras de agua todas del mismo tamaño y tomadas del Río
Atrato, han sido contaminadas por operarios irresponsables de una planta de tratamiento de aguas. Se
contó el número de organismos coliformes de cada muestra. El número promedio de organismos
encontrados por muestra fue de 15. Suponiendo que el número de organismos se distribuye según
Poisson, calcular la probabilidad de que:
a. La siguiente muestra contenga al menos 17 organismos.
b. La siguiente muestra contenga 18 o menos organismos.
c. La siguiente muestra contenga exactamente 2 organismos.

Solución. Entonces,

54
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

a. 𝑃(𝑋 ≥ 17) = 1 − 𝑃 (𝑋 < 17) = 1 − 𝑃(𝑋 ≤ 16) = 1 − [𝑃(𝑋 = 0) + 𝑃 (𝑋 = 1) + ⋯ +


𝑃 (𝑋 = 16)] = 1 − [0 + 0 + 0 + 0.002 + 0.0006 + 0.0019 + 0.0048 +
0.0104 + ⋯ + 0.1024 + 0.1024 + 0.0960] = 1 − 0.6641 = 0.3359

Así que la probabilidad de que la siguiente muestra contenga al menos 17 organismos es de 34%.

b. 𝑃(𝑋 ≤ 18) = 𝑃 (𝑋 ≤ 16) + 𝑃(𝑋 = 17) + 𝑃 (𝑋 = 18) = 0.6641 + 0.0847 + 0.0706


= 0.8195

Así que la probabilidad de que la siguiente muestra contenga 18 o menos organismos es 0.8195 o
82%.

c. 𝑃(𝑋 = 2) = 0.000034

Ejercicio 7.11. El número de baches en una sección de una carretera intermunicipal que requieren
reparación urgente, tiene una media de dos baches por kilómetro.
a. ¿Cuál es la probabilidad de que no haya baches qué reparar en un tramo de 5 kilómetros?
b. ¿Cuál es la probabilidad de que sea necesario reparar al menos un bache en un tramo de medio
kilómetro?

7.2 DISTRIBUCIONES DE VARIABLES CONTINUAS.

Definición 7.12. Una variable aleatoria continua es aquella con un espacio muestral los números
reales.

Ejemplo 7.13. La estatura y el peso de una persona, el tiempo y la temperatura.

Una de las distribuciones continuas, y tal vez la más importante, es la distribución normal, la cual
ocupa un lugar destacado en la inferencia estadística. Esta distribución describe de forma aproximada
muchos fenómenos que suceden en la naturaleza, tales como la estatura de los seres humanos, el
tamaño de las manos de las personas, peso de una trucha al año de edad, grosor de las hojas de una
variedad dada de plantas y el coeficiente intelectual de una persona. A las anteriores consideraciones
se puede agregar otra que nos muestra el porqué de la importancia de la distribución normal; se refiere
al aspecto inferencial de la estadística y particularmente a lo que tiene que ver con el análisis de datos,
puesto que las distribuciones de muchas estadísticas muéstrales tienden a la distribución normal,
conforme crece el tamaño de la muestra. Muchas distribuciones en las ciencias sociales, no se
asemejan a la normal; pero en todo caso la distribución de la media muestral se puede tratar como
normal, y así se hace por lo general siempre y cuando el tamaño de la muestra sea grande.

7.2.1 DISTRIBUCION NORMAL.

Al ser la normal una variable de tipo continuo, debe tener una función de probabilidad que permita
obtener valores de probabilidad relacionados con es variable.

Definición 7.13. La función de densidad de probabilidad de la variable aleatoria normal X, con media
 y varianza  2 , es:

55
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

1  (x  )2 
f ( x)  exp   xR
2   2 2 
Cuando se trata a una variable aleatoria X con distribución normal de  y varianza  2 , se escribe
de manera simbólica X ~ N (  ,  2 ) .

Gráficamente, la distribución normal puede ser representada como:

La esperanza y la varianza son respectivamente:


E (X )   V (X )   2

Si X es una variable aleatoria con media  y varianza  2 entonces, la variable aleatoria Z definida
como:
X 
Z

tiene una distribución normal con media cero y varianza 1, la cual se conoce como variable aleatoria
normal estándar.

Suponga que X es una variable aleatoria normal con media  y varianza  2 , entonces:
X  x
P ( X  x )  P    P( Z  z )
   
donde Z es una variable aleatoria normal estándar y z es el valor obtenido a través de la
estandarización de X. Esta probabilidad puede ser hallada en las tablas de la distribución Normal
Estándar que aparecen en los apéndices de los libros de estadística.

Definición 7.14. La función de distribución acumulada de una variable aleatoria normal se denota
como:
x
F ( x )  P ( X  x )     ( Z )  P( Z  z )
  

Nota: Recuerde que algunas de las características más importantes de la distribución normal son: que
es unimodal, que es simétrica alrededor de su media, que la media, la mediana y la moda coinciden y
que tiene como coeficiente de asimetría o de sesgo cero.

Ejemplo 7.14. El tiempo de incapacidad por enfermedad de los empleados de una compañía en un
mes tiene una distribución normal con media 100 horas y desviación estándar de 20 horas.

56
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

a. ¿Cuál es la probabilidad de que el tiempo por incapacidad del siguiente mes se encuentre entre
50 y 80 horas?
b. ¿Cuál es la probabilidad de que el tiempo de incapacidad del siguiente mes sea al menos 50 horas?
c. ¿Cuál es la probabilidad de que el tiempo de incapacidad del siguiente mes sea a lo más de 80
horas?
d. ¿Cuánto tiempo de incapacidad deberá planearse para que la probabilidad de excederlo sea solo
del 10%?

Solución. Sea X: Tiempo de incapacidad de un empleado,   100 horas y   20 horas .


 50  100 X   80  100 
a. P(50  X  80)  P     P(2.5  Z  1)
 20  20 
 (1)  (2.5)  0.1587  0.0062  0.1525
 X   50  100 
b. P( X  50)  P    P( Z  2.5)  P( Z  2.5)  1  P( Z  2.5)
  20 
 (2.5)  0.9938
 X   80  100 
c. P( X  80)  P    P( Z  1)  0.1587
  20 
 X   x  100 
d. P( X  x)  0.10 , entonces P    0.10 y por probabilidad del
  20 
 x  100  x  100
complemento, se tiene 1  P Z    0.10 y finalmente,  Z 0.90  1.282 ,
 20  20
luego x  125.64 horas .

Ejemplo 7.15. En un examen la calificación promedio fue 35 y la desviación estándar 3. Las


calificaciones siguen una distribución normal.
a. ¿Qué porcentaje de estudiantes tuvo notas por debajo de 20?
b. ¿Qué porcentaje de estudiantes obtuvo notas por encima de 40?

Solución. Sea X: “Nota de un estudiante”,   35 y   3 .


 X   20  35 
a. P( X  20)  P    P( Z  5)  (5)  0
  3 
 X   40  35 
b. P( X  40)  1  P    1  P( Z  1.67)  1  (1.67)  1  0.9525  0.0475
  3 

Ejercicio 7.12. Suponga que la prueba de inteligencia de Wechsler está distribuida normalmente con
  100 y   15 .
a. Sonia calificó 1 arriba de la media, ¿cuál fue su calificación?
b. Jali califico dos desviaciones estándar debajo de la media, ¿cuál fue su calificación?

Ejercicio 7.13. Los estudiantes de cierta escuela secundaria tienen un cociente intelectual promedio
de 106 y varianza 256. Al suponer la distribución normal, halle la proporción de estudiantes con
cociente intelectual:
a. Igual o menor de 98.

57
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

b. Igual o menor de 130.


c. Igual o mayor de 127.
d. Entre 94 y 118.

Ejercicio 7.14. Alguno departamentos de policía han requerido que sus solicitantes masculinos
tengan una altura de al menos 180 cm. Utilizando la distribución normal de normas de estatura de
hombres adultos (parámetros) de   177 cm y   8 cm , ¿qué proporción de la población
masculina seria excluida de ese requisito?

Ejercicio 7.15. Los valores de CI están normalmente distribuidos con una media de 100 y una
desviación estándar de 16.
a. ¿Entre qué valores de CI cae el 90% de los individuos?
b. ¿Cuál es la probabilidad de que un individuo seleccionado al azar tenga un puntaje de 116 o
mayor?
c. ¿Cuál es la probabilidad de que un individuo seleccionado al azar tenga un puntaje entre 92 y
116?
d. ¿Cuál es la probabilidad de que un individuo seleccionado al azar tenga un puntaje menor 124?

CAPITULO 8. ESTIMACIÓN.

8.1 INTRODUCCIÓN.

La estimación de un parámetro involucra el uso de los datos muéstrales en conjunción con alguna
estadística. Existen dos formas de llevar a cabo lo anterior: la estimación puntual y la estimación por
intervalo. En la primera se busca un estimador que, con base en los datos muéstrales, dé origen a una
estimación univariada del valor del parámetro y que recibe el nombre de estimador puntual. Para la
segunda, se determina un intervalo en el que, en forma probable, se encuentra el valor del parámetro.
Este intervalo recibe el nombre de intervalo de confianza estimado.

La función de densidad de probabilidad en la distribución de la población de interés se denotará por


f ( x; ) , donde la función depende de un parámetro arbitrario  , el cual puede tomar cualquier valor
que se encuentre en cierto dominio.

8.2 PROPIEDADES DESEABLES DE LOS ESTIMADORES PUNTUALES.

Es posible definir muchas estadísticas para estimar un parámetro desconocido  . Por ejemplo, en
algunos casos se puede elegir la mediana muestral para estimar el valor de la media. Entonces, ¿cómo
seleccionar un buen estimador de  ? ¿Cuáles son los criterios para decidir cuándo un estimador 
es “bueno” o “malo”? De manera intuitiva, ¿qué es un buen estimador?, la respuesta a esta pregunta
es que un buen estimador es aquel que se encuentra muy cerca de la realidad.

Ejemplo 8.1. En un grupo de personas se encuentra al tanto del volumen de ventas y adquisiciones
de tres comerciantes (A, B y C) quienes compiten en el mismo mercado. Como el inventario es
siempre un aspecto importante en los negocios, cada uno de estos comerciantes predice la demanda
mensual de sus productos y, con base en ésta, realizan las adquisiciones necesarias. Supóngase que
se determina la diferencia entre las demandas real y la esperada para varios meses y con base en éstas
se obtienen las distribuciones de frecuencia que se muestran en la siguiente figura.

58
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

B C

-4 0 4

Sea x 1 , x 2 ,  , x n una muestra aleatoria de tamaño n proveniente de una distribución con función de
densidad f ( x; ) , y sea T  g ( x 1 , x 2 ,  , x n ) cualquier estadística. El problema es encontrar una
función g que proporcione la “mejor” estimación de  . Al buscar el mejor estimador de  se hará
uso de una cantidad muy importante que recibe el nombre de error cuadrático medio de un estimador.

Definición 8.1. Sea T cualquier estimador de un parámetro desconocido  . Se define el error


cuadrático medio de T como el valor esperado del cuadrado de la diferencia entre T y  .

Para cualquier estadística T, se denotará el error cuadrático medio por ECM(T); de la siguientes forma

ECM(T)  E(T  ) 2 (1)

De aquí,

ECM(T)  E(T 2  2T   2 )


 E(T 2 )  2E(T)   2
 V(T)  [E(T)] 2  2E(T)   2
 V(T)  [  E(T)] 2 (2)

Definición 8.2. Una estadística T  g ( x 1 , x 2 ,  , x n ) es un estimador insesgado del parámetro o 


ˆ   , se dice que el estimador es sesgado.
es insesgado, si E(ˆ  T)   . Si E()

a. Estimador Insesgado b. Estimador Sesgado

Definición 8.3. El sesgo B de un estimador ̂ es igual a la diferencia entre la E (ˆ ) y  , es decir:


Sesgo  B    E(T  ˆ ) .

59
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Definición 8.4. El estimador insesgado con varianza mínima (EIVM) de un parámetro  es el


estimador que tiene la varianza más pequeña entre todos los estimadores insesgados. Distribuciones
de muestreo del estimador insesgado A y el EIVM B

Ejemplo 8.2. Sea x 1 , x 2 ,  , x n una muestra aleatoria de una distribución tal que E( x i )   y
V( x i )   2 , i  1,2,, n . Considere las estadísticas:

n
T1  x y T2   x i /( n  1)
i 1

Como posibles estimadores de  . Obtener los errores cuadráticos medios de T1 y T2 y demostrar


que ECM (T2 )  ECM (T1 ) para algunos valores de  mientras que la proposición inversa es cierta
para otros valores de  .

El sesgo de T1 es cero, dado que E (T1 )  E ( x )   ; de esta forma se tiene

ECM(T1 )  V(T1 )   2 / n
Para T2 ,

1  n  1 n n
E(T1 )  E  x i    E( x i ) 
n  1  i 1  n  1 i 1 n 1

De manera similar,

 1 n  1 n
n 2
V(T2 )  V  xi  
 n  1 i 1  (n  1)
2  V(x )  (n  1)
i 1
i 2

De esta forma se tiene

2
n 2  n  n 2   2
ECM(T2 )     
(n  1) 2  (n  1)  (n  1) 2

60
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Si n = 10 y  2  100 ; entonces
ECM (T1 )  10
y
ECM(T2 )  (1000   2 ) / 121
Al igualar las dos expresiones anteriores y resolver para  , se tiene que para   210 ,
ECM (T2 )  ECM (T1 ) ; pero si   210 , entonces ECM (T2 )  ECM (T1 ) .

Ejemplo 8.3. Sea x 1 , x 2 ,  , x n una muestra aleatoria de n observaciones de una distribución


cualquiera con media  y varianza  2 . Demuestre que la varianza de la muestra s 2 es un estimador
insesgado de la varianza poblacional,  2 , si:
a. La población muestreada tiene una distribución normal.
b. Se desconoce la distribución de la población muestreada.
Solución.

a. Sabemos que
(n  1)s 2 2 2
2   s 2
 
2 n 1
luego
 2 2  2
E(s 2 )  E    E ( 2 )
 n  1  n  1

De la distribución 2 se sabe que E( 2 )  n  1 y V( 2 )  2(n  1) , por lo tanto,

2
E(s 2 )  (n  1)   2
n 1
de esta manera es un estimador insesgado.

b. Se sabe que
1 n
s2  
n  1 i 1
(x i  x) 2
luego
 1 n 
E(s 2 )  E 
 n  1 i 1
(x i  x) 2 

 n 2
E  ( x i  )  ( x  ) 
1

n  1  i 1 
1  n 
 E  ( x i   ) 2  n ( x   ) 2 
n  1  i 1 

61
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

1 n 
  
n  1  i 1
E( x i  ) 2  nE ( x  ) 2 

pero E ( x i  ) 2  V ( x i )   2 y E(x  ) 2  V(x)   2 / n . Por lo tanto,

1  2 n 2 
E (s 2 )  n  
2

n 1  n 

En otras palabras, s 2 es un estimador insesgado de  2 sólo cuando el divisor es igual a (n – 1). Esta
es la razón del por qué la varianza muestral se divide por (n – 1) en lugar de dividir por n.

Es razonable esperar que un buen estimador de un parámetro  sea cada vez mejor conforme crece
el tamaño de la muestra. Esto es, conforme la información de una muestra aleatoria se vuelve más
completa, la distribución de muestreo de un buen estimador se encuentra cada vez más concentrada
alrededor del parámetro  . Se tendrá un mejor estimador de  si se basa en 30 observaciones que si
lo hace con sólo cinco. Esta idea origina lo que se conoce como un estimador consistente.

Definición 8.5. Se dice que T es un estimador consistente para  si

lim P T       1 (3)
n 

Intuitivamente, es evidente que la media muestral es un estimador consistente de la media


poblacional, ya que al ir aumentando el tamaño de muestra, llegara un momento en que este sea igual
al tamaño de toda la población y en tal caso estará calculando la media poblacional.

Definición 8.6. Si T es cualquier estimador insesgado del parámetro  tal que

1
V (T )  (4)
  ln f (X;   2 
nE   
   

entonces se dice que T es un estimador eficiente de  .

Ejemplo 8.4. Sea x 1 , x 2 ,  , x n una muestra aleatoria de una distribución de Poisson cuya función
de probabilidad es Poisson(x; )  e  x / x! . Obtener el estimador eficiente de  .
Solución.

Dado que p(x; )  e  x / x! , entonces


ln p( x; )  x ln( )    ln( x!)

62
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

y
 ln p( x; ) x x
 1 
  
Entonces
  ln p( x; )  2  x
2
1 V( x ) 1
E     E    2 E( x  )  2 
2

         

porque V( x )   . La varianza del estimador eficiente de  es

1  2
V (T )   
n/ n n

Por lo tanto, el estimador eficiente del parámetro  de Poisson es la media muestral x .

De manera intuitiva, una estadística suficiente para el parámetro  es aquella que utiliza toda la
información contenida en la muestra aleatoria con respecto a  .

8.3. OBTENCIÓN DE ESTIMADORES PUNTUALES

8.3.1 Métodos de Estimación.

Definición 8.7. Representemos con x 1 , x 2 ,  , x n una m. a. de tamaño n proveniente de alguna


distribución de probabilidad (discreta o continua). El k – ésimo momento de la muestra se define
como:
n

x k
i
mk  i 1
(5)
n
y el k– ésimo momento de la población como: E( x k ) .

Ejemplo 8.5. Para el caso k = 1, E( x )   y m  x , de esta manera un estimador puntual para 


será x

Definición 8.8. Sea x 1 , x 2 ,  , x n una m. a. de tamaño n extraída de una distribución de probabilidad


(discreta o continua) con parámetros 1 ,  2 ,  ,  m . Entonces, los estimadores de momentos,
ˆ 1 , ˆ 2 ,, ˆ m
se obtienen igualando los primeros m momentos de la muestra a los primeros m
momentos de la población correspondientes:

1 n 1 n 2 1 n m
E( x )   xi
n i 1
E( x 2 )   xi
n i 1
E( x m )   xi
n i 1
(6)

y se despeja 1 ,  2 ,  ,  m .

63
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 8.6. La tasa de respuesta X de las fibras del nervio auditivo de gatos, tiene una distribución
de Poisson aproximada con media desconocida . Suponga que se midió la rapidez de respuesta de
las fibras del nervio auditivo (registrada como número de picos por 200 milisegundos de ráfaga de
ruido), en cada uno de una muestra aleatoria de 10 gatos. Los datos son:

15.1 14.6 12.0 19.2 16.1 15.5 11.3 18.7 17.1 17.2.

Calcule una estimación puntual de la rapidez de respuesta media  utilizando el método de momentos.

Solución.
10

x i
15.1  14.6    17.2
m i 1
  15.68
10 10
Luego:  = 15.68 = m

Por tanto, la rapidez de respuesta media de las fibras de nervio auditivo, , es de 15.68 picos por 200
milisegundos de ráfaga de ruido.

8.3.2 Método de Máxima Verosimilitud.

En esencia, el método de máxima verosimilitud, selecciona como estimador a aquél valor que tiene
la propiedad de maximizar el valor de la probabilidad de la muestra aleatoria observada. En otras
palabras, el método de máxima verosimilitud consiste en encontrar el valor que maximiza la función
de verosimilitud.

Definición 8.9. La verosimilitud L de una muestra de n observaciones x 1 , x 2 ,  , x n es


f x 1 , x 2 ,  , x n  cuando x 1 , x 2 ,  , x n son variables aleatorias.

Cuando las n funciones de densidad son independientes entonces

L  f x 1 , x 2 ,, x n ;   f x 1 ; f x 2 ; f x n ;    f x i ; 


n
(7)
i 1

n
ln L   ln f x i ;  (8)
i 1

 ln L
0 i  1,2, , k (9)
 i

Ejemplo 8.7. Sea x 1 , x 2 ,  , x n una m. a. de n observaciones de una v. a. X con función de densidad


exponencial

64
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

e x / 
 si x  0
f (X)   
0
 en cualquier otro caso

Determine el estimador de máxima verosimilitud para  .

Solución. Como x 1 , x 2 ,  , x n son variables aleatorias independientes, entonces

L  f x 1 ;  f x 2 ;   f x n ;  

n e  xi /  1  n 
L  exp    x i / 
i 1  n
 n
 i 1 

1 n
ln L  n ln    xi
 i 1

 ln L n 1 n


  2
 
x
i 1
i 0

1  n

 
2
  n  
i 1
xi   0

n

x i
ˆ  i 1
x
n

Ejercicio 8.1. Sea x 1 , x 2 ,  , x n una muestra aleatoria de una distribución normal con función de
densidad de probabilidad:

1  x    2 
f ( x; ,  ) 
2
exp  
2   2 
2

Encontrar los estimadores de máxima verosimilitud de  y  2 .

8.3.3 Método de Mínimos Cuadrados

Definición 8.10. ECM  E(ˆ  ) 2 , la idea es minimizar esta expresión.

65
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

8.4. OBTENCIÓN DE ESTIMADORES DE INTERVALO. El Método del Pivote.

Definición 8.11. El coeficiente confianza para un intervalo de confianza es igual a la probabilidad,


antes del muestreo, de que el intervalo contenga el parámetro estimado.
Ejemplo 8.8.

ˆ  
Z
 ˆ

 ˆ   
P( Z1 / 2  Z  Z1 / 2 )  P  Z1 / 2   Z1 / 2   1  
  ˆ 

 P Z1 / 2 ˆ  ˆ    Z1 / 2 ˆ 

 P ˆ  Z1 / 2 ˆ    ˆ  Z1 / 2 ˆ 

 Pˆ  Z1 / 2 ˆ    ˆ  Z1 / 2 ˆ   1   (10)

Llámese LIC  ˆ  Z1 / 2  ˆ y LSC  ˆ  Z1 / 2 ˆ .

Teorema 8.1. Si 
ˆ ~ N E(ˆ )  ; 2ˆ  , entonces un intervalo de confianza de (1  )100% para 
es:
ˆ  Z1 / 2 ˆ a ˆ  Z1 / 2 ˆ (11)

Ejemplo 8.9. Sean x y s² la media y la varianza de una muestra con base en una muestra
aleatoria de n observaciones (n<30) de una distribución normal con media  y varianza ².
Determine un intervalo de confianza de 95% para .

Solución. Recuérdese que,


Z
t
2 / v

66
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

  2  N  n   x 
Además, se sabe que x ~ N ;   y Z  ~ N (0,1) . Por definición
 n  N 1    Nn

n N 1
dada en clase,

(n  1)s 2
2 
2
x 
 Nn
Z n N 1 x 
t  
 /v
2
(n  1)s 2
s Nn
2 n N 1 0
(n  1)

P(  t  / 2  t  t  / 2 )  1  
 
 
 x   Nn Nn 
 t  / 2   P  x  t  / 2
s s
P  t/2      x  t  / 2 
 s Nn 
 n N 1 n N  1 
 
 n N 1 

 s Nn s Nn 
P x  t  / 2    x  t/2   1  (12)
 n N 1 n N  1 

Por lo tanto, un intervalo de confianza de (1  )100 % para  cuando n es pequeña es:

s Nn
x  t/2
n N 1

Ejemplo 8.10. Sea n = 20, x  27 .5 y s = 2.6. Construya un intervalo de confianza del 95%.

Solución. = 0.05, t 0.025,19  2.093

 2.6 2.6 
P 27.5  t 0.025    27.5  t 0.025   95%
 20 20 

2.6 2.6
27.5  2.093    27.5  2.093
20 20

67
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

26.28    28.72

8.5. ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

8.5.1 Intervalo de Confianza de Muestra Grande de (1 - )100% para la Media de la Población


.

 Nn s Nn
x  Z1 / 2  x  x  Z1 / 2 o x  Z1 / 2  x  x  Z1 / 2
n N 1 n N 1
cuando n  30 .

Se puede conocer  o desconocer, en cuyo caso se puede trabajar con su estimador s.

Ejemplo 8.11. Suponga que un centro de cómputo regional desea evaluar el desempeño de su sistema
de memoria de disco. Una medida del desempeño es el tiempo medio entre fallas de su unidad de
disco. A fin de estimar este valor, el centro registro el tiempo entre fallas para una muestra aleatoria
de 45 fallas de la unidad de disco. Se calcularon x  1762 horas, s= 215 horas.
a. Estime el verdadero tiempo medio entre fallas con un intervalo de confianza de 90%.
b. Si el sistema de memoria en disco está funcionando correctamente, el verdadero tiempo medio
entre fallas será mayor que 1700 horas. Con base en el intervalo del inciso a. ¿qué puede usted
inferir acerca del sistema de memoria en disco?

Solución.
a. 1 -  = 90%  = 10% = 0.10 /2 = 0.05 n = 45

s 215 215
x  Z1 / 2  1762  Z 0.95  1762  1645  1762  52.7
n 45 45

Luego, Intervalo de Confianza  IC  1709.3;181 4.7 

b. Como todos los valores dentro del intervalo de confianza del 90% exceden las 1700 horas, por lo
tanto, se puede decir (con una confianza del 90%) que el sistema de memoria en disco está
funcionando correctamente.

8.5.2 Intervalo de Confianza de Muestra Pequeña de nivel (1 - )100% para la Media de la

Población .

De (12) se obtiene,

68
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

s Nn
x  t/2
n N 1

donde la distribución de t se basa en (n - 1) grados de libertad.

Supuesto. La población de la cual se extrajo la muestra tiene una distribución aproximadamente


normal.

Ejemplo 8.12. Sea 229, 255, 280, 203 y 229. Calcule un intervalo de confianza del 99% para estos
datos. Además, supóngase que estos datos provienen de una distribución aproximadamente normal.

Solución. De los datos se obtiene: x  239 .2 , s = 29.3, n = 5, 1    99% y t 0.005;4  4.604 .

Luego,

s 29.3
x  t 0.005  239 .2  4.604  239 .2  60.3
n 5

De esta forma, IC  178.9;299. 5 .

Ejercicio 2. Una muestra aleatoria de los salarios por hora de nueve mecánicos de automóviles
proporciono los siguientes datos (en dólares): 10.5, 11, 9.5, 12, 10, 11.5, 13, 9, 8.5. Bajo la suposición
de que el muestreo se llevó a cabo sobre una población distribuida normal, construir los intervalos de
confianza estimados al 90%, 95% y 99% para los salarios por hora promedio para todos los
mecánicos. Interpretar los resultados.

Ejercicio 3. Los siguientes son los tiempos que tardan 6 trabajadores de una gran empresa en tomar
el almuerzo: 27, 15, 20, 32, 18 y 26 minutos. ¿Justifican estos datos la afirmación la cual el tiempo
promedio que tardan los empleados en almorzar es de 20 minutos? Suponga que los tiempos se
distribuyen normalmente.

8.5.3 Tamaño de Muestra para estimar un parámetro.

El tamaño de la muestra que se debe escoger para hacer una estimación del parámetro con
características especificadas (de nivel de confianza y error de estimación) es un problema que tarde
o temprano tenemos que resolver. La determinación del tamaño de muestra es de importancia entre
otras cosas porque:

1. Si se toma una muestra más grande de la indicada para alcanzar los resultados presupuestados,
constituye un desperdicio de recursos (tiempo, dinero, etc.); mientras que una muestra demasiado
pequeña conduce a menudo a resultados poco confiables.
2. Cuando se elige una muestra de tamaño n sólo se revisa una fracción o parte de la población y
con base en ella se toma decisiones que afectan a toda la población. Es evidente que por este
procedimiento

69
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Sea

x
Z
 N n
n N 1

P(  x     )  1 0 

 
 
  x    1
P   
  N n  N n  N n 
 
 n N 1 n N 1 n N 1 
 
 
   1 / 2
P Z 
 N n 
 
 n N 1 

n N 1
  Z1 / 2
 N n

Despejando n de la ecuación anterior, se obtiene que:


1
n
 1  2 1
1   2 2 
 N   Z1 / 2 N

 2 Z12 / 2
Haciendo, n0  se llega finalmente a:
2

1
n (13)
 11 1
1   
 N  n0 N

Cuando N   , n  n0 .

Nota.
i. El tamaño de la muestra aumenta a medida que aumenta el nivel de confianza para un error de
estimación y una varianza dados.

70
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

ii. El tamaño de la muestra aumenta a medida que disminuye el error de estimación para un nivel de
confianza y varianza dados.

Ejemplo 8.13. Para efectos de una planeación económica en cierta zona del país, es necesario estimar
entre 10000 establos lecheros, el número de vacas lecheras por establo con error de estimación de 4
y un nivel de confianza del 95%. Si se sabe que  2  1000 . ¿Cuántos establos deben visitarse para
satisfacer estos requerimientos?

Solución.   4 ,  2  1000 , N = 10000 y 1    0.95 . Luego Z 0.975  1.96 y

1000 (1.96) 2
n0   240 .1
42
Al remplazar en (13) se obtiene:

1
n  234 .49
 1  1 1
1   
 10000  240 .1 10000

Por lo tanto, 235 es el número de establos que deben escogerse para el estudio.

Ejemplo 8.14. Una maquina llena cajas con cierto cereal. El supervisor desea conocer con un error
de estimación de máximo 0.1 y un nivel de confianza del 90%, una media estimada del peso. Como
la varianza era desconocida se procedió a escoger una muestra piloto para estimarla. Los resultados
fueron los siguientes: 11.02, 11.14, 10.78, 11.59, 11.58, 11.19, 11.71, 11.27, 10.93, 10.94. ¿Cuántas
cajas debe escogerse para que se cumplan los requisitos propuestos?

Solución. Como el tamaño de la población es desconocido y la muestra piloto es menor de 30, se


utilizara:
s 2t2 / 2
n  n0 
2

Al hacer los cálculos se tiene x  11 .22 , s 2  0.1 , t(0.05,9)  1.8331 . Al remplazar se obtiene:

(0.1)(1.8331) 2
n  33.6
(0.1) 2

Lo cual quiere decir que se deben seleccionar al menos 34 cajas para cumplir con requerimientos.

Ejemplo 8.15. Un transportador está interesado en conocer con un error de estimación de 0.02 y con
un nivel de confianza del 99%, el promedio de una determinada clase de pescado que debe transportar.
Experiencias pasadas le permiten suponer que el peso mínimo es de 1.48 libras y la máxima es de
2.47 libras por pescado. ¿De qué tamaño debe escoger la muestra? Suponga que los pesos de estos
pescados se distribuye normalmente.

71
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Solución. Como el tamaño de la población es desconocido, lo mismo que la varianza se utilizara:


 2 Z12 / 2
n  n0 
2
2.47  1.48 Z 0.995  2.575 . Al remplazar en
previa estimación de  2 como  0.2475 ,   0.02 y
4
la ecuación anterior se llega a:
(0.2475 ) 2 (2.575) 2
n  n0   1015 .4180
(0.02) 2

Para reunir las especificaciones requeridas por el transportador se deben seleccionar al menos 1016
pescados.

Ejemplo 8.16. Se está planeando una encuesta con el fin de determinar la proporción de familias que
carecen de medios económicos para atender los problemas de salud. Existe la impresión de que esta
proporción está próxima a 0.35. Se desea determinar que tamaño de muestra debe tomarse con un
nivel de confianza del 95% y un error de estimación de 0.05.

Solución. En este caso se toma P  0.35 , Z 0.975  1.96 . Por lo tanto,


 2 Z12 / 2 P(1  P) Z 02.975 (0.35)(0.65)(1.96) 2
n  n0     349 .5856
2 2 (0.05) 2

Así se debe tomar una muestra de al menos 350 familias para lograr lo deseado en la investigación.

Ejemplo 8.17. El decano de una facultad desea realizar una encuesta para determinar la proporción
de estudiantes que está a favor del cambio de sede. Ya que entrevistar 2000 estudiantes en un lapso
razonable es casi imposible, determine el tamaño de muestra (número de estudiantes a entrevistar)
necesario para estimar la proporción de estudiantes que están a favor, con un error de estimación de
0.05 y un nivel de confianza del 95%.

Solución. Como no se tiene ninguna estimación de la proporción se toma P  0.5 ,   0.05 y


1    0.95 . De esta manera,
P (1  P ) Z 02.975 (0.5)(0.5)(1.96) 2
n0    384 .16
2 (0.05) 2

y remplazando esto último en (13), se obtiene,


1
n  322 .3955
 1  1 1
1   
 2000  384 .16 2000

Por lo tanto, debe entrevistarse a al menos 323 estudiantes para lograr los fines del estudio.

72
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejercicio 4. Un productor de semillas desea saber, con un error de estimación de 1% el porcentaje de


las semillas que germinan en la granja de su principal competidor. ¿Qué tamaño de muestra debe
tomarse para obtener un nivel de confianza del 95%?

8.6. ESTIMACIÓN DE LA DIFERENCIA ENTRE LAS MEDIAS DE DOS POBLACIONES:


Muestras independientes.

Es frecuente interesarse por la diferencia entre dos medias; por ejemplo, comparar el contenido
promedio por botella que proviene de dos embotelladoras. La comparación entre medias de dos
medias se realiza mediante la variable

D  x1  x 2

Si tanto X 1 como X 2 están distribuidos normalmente y, además, son independientes. Así la


distribución de D es normal, es decir:

  12  N1  n1   22  N 2  n2  

x1  x 2 ~ N 1  2 ;     (14)
 n1  N1  1  n2  N 2  1  
 

8.6.1 Intervalo de Confianza de Muestra Grande de (1 - )100% para ( 1   2 ): Muestras


Independientes.

Suponga que de una población normal X 1 con media 1 y varianza  1 se extraen muestras de tamaño
2

n1 ; de una población también normal X 2 con media  2 y varianza  2 se extraen muestras de tamaño
2

n2 . Si X 1 y X 2 son estadísticamente independientes, entonces de (14) se obtiene que:

Z
x1 
 x 2  1   2 
~ N 0,1 (15)
  N1  n1   22  N 2  n2 
2
1
   
n1  N1  1  n2  N 2  1 

y cuando las varianzas de las dos poblaciones son desconocidas se obtiene:

Z
x 1 
 x 2  1   2 
~ N 0,1 (16)
s  N1  n1  s22  N 2  n2 
2
1
   
n1  N1  1  n2  N 2  1 

Las anteriores dos ecuaciones son validas, siempre y cuando n1  30 y n2  30 . Donde ² puede ser
conocida o desconocida (s²).

Utilizando las estadísticas (15) y la (16), se obtiene el siguiente intervalo de confianza del nivel
(1   )100% para 1   2  :

73
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

x  x  Z
1 2
1 2
 
1 / 2 x  x  x1  x 2  Z1 / 2
 12  N1  n1   22  N 2  n2 
  
n1  N1  1  n2  N 2  1 

(17)
 
 x1  x 2  Z1 / 2
s12  N1  n1  s22  N 2  n2 
   
n1  N1  1  n2  N 2  1 

Ejemplo 8.18. Se desea estimar la diferencia entre los salarios iniciales medios de graduados recientes
en Administración de Empresas y Economía de la Universidad de Florida (UF). Se tiene la siguiente
información:
i. Una m.a.s. de 59 salarios iniciales de graduados en Administración de la UF arrojó una media de
muestra de $32.675 y una desviación estándar $4.430.
ii. Una m.a.s. de 30 salarios iniciales de graduados en Economía de la UF arrojó una media de
muestra de $27.460 y una desviación estándar de $4.286.
Solución. De la información obtenida, se tiene que:
x A  32675 s A  4430 n1  59 1- = 95%
x E  27460 sE  4286 n2  30  = 5%

De esta manera, un intervalo de confianza para la diferencia de los salarios medios poblaciones esta
dado por:

x A 
 x E  Z1 / 2
s A2 sE2

nA nE
 32675 - 27460   1.96
4430 2 4286 2
59

30
 5215  1905

Luego, IC  $3310 ,$7120  .

8.6.2 Intervalo de confianza de una muestra pequeña con (1 - )100% para ( 1   2 ): Muestras
independientes y 12   22 .

Suponga que de una población normal X 1 con media 1 y varianza  12 desconocida se extrae una
muestra de tamaño n1 ; de una población también normal X 2 con media  2 y varianza  2
2

desconocida se extrae una muestra de tamaño n2 . Si X 1 y X 2 son estadísticamente independientes y


 12   22 , entonces:

t
x
1 
 x 2  1   2 
~ tn1n2 2  (18)
 N1  n1 N 2  n2  (n1  1) s12  n2  1s22 
   
 n1  N1  1 n2  N 2  1  n1  n2  2 

La anterior ecuación es valida, siempre y cuando n1  30 y n2  30 . Utilizando las estadísticas (18),


se obtiene el siguiente intervalo de confianza del nivel (1   )100% para 1   2  :

74
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

N 2  n2  (n1  1)s12  n2  1s22 


x  x  t  
 x x  t
 N1  n1

 /2    
 n1 N1  1 n2 N 2  1 
1 2  / 2 x1  x 2 1 2 (19)
n1  n2  2 

el valor de t esta basado en n1  n2  2 grados de libertad.

Supuestos:

1. Ambas poblaciones de las que se seleccionaron las muestras tienen distribución de frecuencia
aproximadamente normales.
2. Las varianzas  1 y  2 son iguales.
2 2

3. Las variables aleatorias se escogen de forma independiente de las dos poblaciones.

Ejemplo 8.19. Se piensa que los estudiantes de Contaduría pueden esperar un mayor salario promedio
al egresar de la cerrera, que el de los estudiantes de administración. Recientemente se obtuvieron
muestras aleatorias de ambos grupos en un área geográfica relativamente homogénea,
proporcionando los datos que se muestran en la tabla de la siguiente página. Determinar un intervalo
de confianza del 90% para la diferencia entre los salarios promedio para los estudiantes de Contaduría
y los de Administración al egresar de la carrera (suponga que las varianzas C2 y  2A son iguales).

Solución. A partir de los datos muéstrales dados, pueden obtenerse las siguientes cantidades:

nC  10 n A  14
x C  $16250 x A  $15400
s  1187222 .22
2
C s A2  1352307 .69
Salarios anuales iniciales para recién graduados
Contadores Administradores
$16300 $13200
$18200 $15100
$17500 $13900
$16100 $14700
$15900 $15600
$15400 $15800
$15800 $14900
$17300 $18100
$14900 $15600
$15100 $15300
$16200
$15200
$15400
$16600

Entonces un intervalo de confianza al 90% de confianza esta dado por:

75
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

 1 1  (n  1) sC2  nA  1s A2 


x C 
 x A  t0.05    C
nC  nA  2

 nC nA  

en donde el valor t(0.05,22)  2.074 . Al sustituir los resultados numéricos, se tiene:

1 1  9(1187222 .22)  13(1352307 .69) 


16250  15400   2.074    
 10 14  22 

De esta forma, un intervalo de confianza del 90% para la diferencia real entre los salarios es:

IC  (123.34,1823 .34) .

8.6.3 Inferencias Aproximadas con Muestra Pequeña para ( 1   2 ) cuando, 12   22 .

A fin de obtener intervalos de confianza aproximados y pruebas para ( 1   2 ) cuando  1   2


2 2

haga las siguientes modificaciones a los grados de libertad utilizados en la distribución t y el error
estándar estimado:

1 2 2
i. n1  n2  n , v  n1  n2  2  2( n  1) y ˆ x  x  ( s1  s2 )
1 2
n
2
 s12 s22 
  
 n1 n2  s12 s22 .
n1  n2 , v  2 
   ˆ
  
ii. 2 2 y x x
s1 / n1 s22 / n2 n1 n2
1 2


n1  1 n2  1

Supuestos
1. Ambas poblaciones de las que se seleccionaron las muestras tienen distribuciones de frecuencia
relativa aproximadamente normales.
2. Las muestras aleatorias se escogen de forma independiente de las dos poblaciones.

8.7. ESTIMACIÓN DE LA PROPORCIÓN DE UNA POBLACIÓN

PQ  N  n  pˆ qˆ  N  n 
Recuérdese que, E ( pˆ )  P y V ( pˆ )     
n  N 1  n  N 1 

8.7.1 Intervalo de Confianza de (1 - )100% con una Muestra Grande para una Proporción de
Población P.

De (10) se obtiene un intervalo de confianza para la proporción poblacional de siguiente manera:

76
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

P pˆ  Z1 / 2 pˆ  P  pˆ  Z1 / 2 pˆ   1  

pˆ qˆ  N  n  pˆ qˆ  N  n 
pˆ  Z1 / 2    P  pˆ  Z1 / 2   (20)
n  N 1  n  N 1 

donde p̂ es la proporción en la muestra de observaciones con la característica de interés, y qˆ  1  pˆ


.

Supuesto. El tamaño de la muestra n es bastante grande como para que la aproximación sea válida.

Ejemplo 8.20. Un fabricante asegura, a una compañía que le compra un producto en forma regular,
que el porcentaje de productos defectuosos no es mayor del 5%. La compañía decide comprobar la
afirmación del fabricante seleccionando, de su inventario, 200 unidades de este producto y
probándolas. ¿Deberá sospechar la compañía de la afirmación del fabricante si se descubren un total
de 19 unidades defectuosas en la muestra?

Solución. La sospecha estará apoyada si existe un intervalo de confiabilidad alta para el cual la
proporción p se encuentra completamente a la derecha del valor asegurado 0.05. Si se tiene una
confiabilidad del 95% y dado que la realización de la variable aleatoria X es x = 19 y n = 20, entonces:
19
pˆ   0.095
200
y, de esta manera, un intervalo de confianza para la proporción poblacional al 95% de confianza, está
dado por:

0.095(1  0.095) 0.095(1  0.095)


0.095  1.96  P  0.095  1.96
200 200

el cual resulta ser: IC = (0.05436, 0.1356). Aparentemente existe razón para sospechar de la
afirmación del fabricante, ya que el intervalo de confianza se encuentra completamente a la derecha.

8.8 ESTIMACION DE LA DIFERENCIA ENTRE LAS PROPORCIONES DE DOS


POBLACIONES.

Recuérdese que,

Z
 pˆ1  pˆ 2   P1  P2  ~ N (0,1) (21)
pˆ1qˆ1  N1  n1  pˆ 2 qˆ 2  N 2  n2 
   
n1  N1  1  n2  N 2  1 

8.8.1 Intervalo de Confianza de ( 1   )100% con Muestra Grande para ( P1  P2 ).

De (10) y (21) se obtiene un intervalo de confianza para la diferencia de dos proporciones poblaciones
al nivel de confianza ( 1   )100%, como sigue:

77
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

pˆ1qˆ1  N1  n1  pˆ 2 qˆ2  N 2  n2 
 pˆ1  pˆ 2   Z1 / 2 pˆ  pˆ   pˆ1  pˆ 2   Z1 / 2    
n1  N1  1  n2  N 2  1 
1 2
(22)

Supuesto. Las muestras tienen el tamaño suficiente para que la aproximación sea válida.

Ejemplo 8.21. Un ingeniero de tráfico realizó un estudio de velocidades vehiculares en un segmento


de calle en la cual se cambió varias veces el límite de velocidad señalizado cuando el límite era de 30
millas por hora, el ingeniero vigiló las velocidades de 100 vehículos elegidos al azar que transitaron
por la calle y observó 49 violaciones del límite de velocidad. Después de que el límite se elevó a 35
millas por hora, el ingeniero volvió a vigilar las velocidades de 100 vehículos escogidos
aleatoriamente y observó 19 que violaron el límite.

Establezca un intervalo de confianza del 99% para (P1 - P2) e interprete el intervalo.

49 19
Solución. pˆ 1   0.49 pˆ 2   0.19
100 100

n1 = 100 n2 = 100

pˆ1qˆ1 pˆ 2 qˆ 2
IC   pˆ1  pˆ 2   1 / 2 
n1 n2

(0.49)(0.51) (0.19)(0.81)
IC  (0.49  0.19)  2.58 
100 100

IC  (0.136,0.464)

Ejemplo 8.22. Se está considerando cambiar el procedimiento de manufactura de partes. Se toman


muestras del procedimiento actual así como del nuevo para determinar si este último resulta mejor.
Si 75 de 1000 artículos del procedimiento actual presentaron defectos y lo mismo sucedió con 80 de
2500 partes del nuevo, determine un intervalo de confianza del 90% para la verdadera diferencia de
proporciones de partes defectuosas.

Solución. Sea PA : Proporción de artículos defectuosos producidos por el procedimiento actual.


PN : Proporción de artículos defectuosos producidos por el procedimiento nuevo.
Y de aquí,
pˆ A 
75
 0.075 pˆ N 
80
 0.032 Z 0.95  1.645
1000 2500

Al remplazar en (22) se tiene,

(0.075)(0.925) (0.032 )(0.9681)


IC  (0.075  0.032 )  1.645   0.043  0.0149 .
1000 2500

78
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Luego IC  (0.0281,0.0579 ) .

8.9 ESTIMACIÓN DE LA VARIANZA DE UNA POBLACIÓN

(n  1) S 2
Recuérdese que,  2
~  (2 , n 1)
 2

 
p  (21 / 2)   2  2 / 2  1  

 (n  1) s 2 
p  (21 / 2 )    (2 / 2 )   1  
  2

  (21 / 2) 1  (2 / 2) 
p  2   1
2 
 ( n  1 ) s 2
 ( n  1 ) s 

 (n  1) s 2 (n  1) s 2 
p 2 2  2  1
    (23)
 ( / 2 ) (1 / 2 ) 

Entonces un intervalo de confianza de (1 - )100% para 2 es:

(n  1) s 2 (n  1) s 2
2  (24)
2 / 2 12 / 2

Supuesto. La población de la que se seleccionó la muestra tiene una distribución aproximadamente


normal.

Ejemplo 8.23. Un supervisor de control de calidad en una enlatadora sabe que la cantidad exacta
contenida en cada lata varía, pues hay ciertos factores imposibles de controlar que afectan la cantidad
de llenado. El llenado medio por la lata es importante, pero igualmente importante es la variación 2
de la cantidad de llenado. Si 2 es grande, algunas latas contendrán muy poco, y otras, demasiado. A
fin de estimar la variación del llenado en la enlatadora, el supervisor escoge al azar 10 latas y pesa el
contenido de cada una, obteniendo el siguiente pesaje (en onzas):

7.96 7.90 7.98 8.01 7.97 7.96 8.03 8.02 8.04 8.02

Establezca un intervalo de confianza del 90% para la verdadera variación del llenado de latas en la
enlatadora.

(n  1) s 2 (n  1) s 2
Solución. Aplicando 2  , con 1 -  = 0.90, entonces  = 0.10 y n = 10
2 / 2 12 / 2

79
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

De los datos se tiene,

2 / 2  02.05  16.9190 , 02.95  3.32511 y s  0.043

De esta manera un intervalo de confianza para la varianza poblacional al 90% se confianza es:

90.043  90.043 
2 2
2 
16.9190 3.3251

0.00098   2  0.00500
Se puede también calcular un intervalo de confianza para la desviación verdadera:

0.00098    0.00500
0.031    0.71

8.10 ESTIMACIÓN DE LA RAZÓN DE LAS VARIANZAS DE DOS POBLACIONES

12
(n1  1)
Recuerde que, F  ~ F ( , n1  1, n2  1) . Luego,
 2
2
(n2  1)

(n1  1) s12 s12


(n1  1)
 2
 12  s 2   2 
F 1
 F   12  22 
(n2  1) s22
(n2  1)
s22  s2   1 
 22  22

La cola inferior de una F se calcula mediante

1 1 1
F1 ,v1 ,v2   . Por ejemplo, F( 0.95, 7.9 )    0.272 .
F ,v1 ,v2  F( 0.95, 7.9 ) 3.68

Un intervalo de confianza para la razón de dos varianzas puede ser calculado mediante,


P F(1 / 2,v1,v2 )  F  F( / 2,v1,v2 )  1   
donde FI  F1 / 2 FS  F / 2 .

 /2

80
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

  s 2   2  
p( FI  F  FS )  P FI   12  22   FS   1  
  s2   1  

 s2  2 s2 
 P 22 FI  22  22 FS   1  
 s1  1 s1 

 s 2 1  12 s12 1 
 P 12  2  2   1  
 s2 FS  2 s2 FI 

Remplazando por su equivalente, se obtiene:


 s12 1  12 s12 1 

P 2  2  2   1 (25)
 s2 F( / 2,v ,v )  2 s2 F(1 / 2,v ,v ) 
 1 2 1 2 

 s12 1  12 s12 1 

P 2  2  2   1 (26)
 s2 F( / 2,v ,v )  2 s2 F(1 / 2,v ,v ) 
 1 2 1 2 

8.10.1 Intervalo de Confianza de (1 - )100% para el Cociente de dos Varianzas de Poblaciones


 12 /  22 .
De (25) se tiene un intervalo de confianza para los cocientes de dos varianzas poblacionales, dado
por:

 s12 1  12 s12 

P 2  2  2 F( / 2,v2 ,v1 )   1   (27)
 s2 F( / 2,v ,v )  1 s2 
 1 2 

donde v1 = n1-1 y v2 = n2-1.

Supuestos.
1) Las dos poblaciones de las que se seleccionaron las muestras tienen distribuciones de frecuencias
aproximadamente normales.
2) Las muestras aleatorias se seleccionaron de manera independiente.

Ejemplo 8.24. Una empresa ha estado experimentando con dos disposiciones físicas distintas de su

línea de ensamble.

Línea de Ensamble 1 Línea de Ensamble 2


n1 = 21 días, s  1.423
2
1 n2 = 25 días, s22  3.761

81
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Establezca un intervalo de confianza del 95% para  12 /  22 . Con base en el resultado, ¿Cuál de las
dos disposiciones recomendaría usted?

Solución.
v1 = n1 – 1 = 20 v2 = n2 – 1 = 24  = 0.05 F(0.025,20,24) = 2.33 F(0.025,24,20) = 2.41

De esta manera,
1.432  1   12 1.432
   2.41
3.761  2.33   22 3.761

 12
0.1634   0.9176
 22

Puesto que todos los valores en el intervalo (0.1634; 0.9176) son menores de 1,  12   22 .
CAPITULO 9.
PRUEBAS DE HIPÓTESIS ESTADÍSTICAS

Una hipótesis estadística es una afirmación con respecto a alguna característica desconocida de una
población de interés. La esencia de probar una hipótesis estadística es el de decidir si la afirmación
se encuentra apoyada por la evidencia experimental que se obtiene a través de una muestra aleatoria.
En forma general, la afirmación involucra ya sea a algún parámetro o a alguna forma funcional no
conocida de la distribución de interés a partir de la cual se obtiene una muestra aleatoria. La decisión
acerca de si los datos muéstrales apoyan estadísticamente la afirmación se toma con base en la
probabilidad, y, si ésta es mínima, entonces será rechazada.

9.1 Elementos de una Prueba Estadística

i. Hipótesis nula, H0, acerca de uno o más parámetros de la población (Por ejemplo,
H 0 :   10 ).

ii. Hipótesis alternativa, H a , que no rechazamos si se decide rechazar la hipótesis nula


(Ejemplo H a :   10 ).
iii. Estadística de prueba, calculada a partir de los datos de la muestra.
iv. Región de rechazo, que indica los valores de la estadística de prueba que implicaron el
rechazo de la hipótesis nula.

9.2 Evaluación de las Propiedades de una Prueba Estadística.

Estado real de la naturaleza


Decisión Ho es cierta Ha es cierta
No rechazar Ho Decisión correcta Error Tipo II
Rechazar Ho Error Tipo I Decisión Correcta

82
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Definición 9.1. Rechazar la hipótesis nula cuando ésta en el estado de la naturaleza es cierta es un
Error Tipo I. La probabilidad de cometer un error tipo I se denota por el símbolo  .

Definición 9.2. No rechazar la hipótesis nula cuando ésta en el estado de la naturaleza es falsa es un
Error Tipo II. La probabilidad de cometer un error tipo II se denota con el símbolo  .

Ejemplo 9.1. Un fabricante de minicomputadoras cree que puede vender cierto paquete de software
a más del 20% de quienes compran sus computadoras. Se seleccionaron al azar 10 posibles
compradores de la computadora y se les preguntó si estaban interesados en el paquete de software.
De estas personas, cuatro indicaron que pensaban comprar el paquete, ¿proporciona está muestra
suficientes pruebas de que más del 20% de los compradores de la computadora adquieran el paquete
de software?

Solución. Sea X: “Número de personas que compran el paquete”

0,35

0,3
PROBABILIDAD

0,25

0,2

0,15

0,1

0,05

0
NÚMERO DE PERSONAS QUE COMPRAN EL SOFWARE

Suponga que se selecciona los valores de T  4 como región de rechazo. Entonces, los elementos de
la prueba son:

Ho : P  0.20 vs Ha : P  0.20 n = 10

Estadística de prueba es X y la Región de rechazo es X  4 .

Para efectuar la prueba, como el valor observado de X es X = 4, y este cae en la región de rechazo.
Por lo tanto se rechaza la hipótesis nula y se llega a la conclusión de que el fabricante tiene razón, es
decir, P  0.20 .

Ejemplo 9.2. ¿Qué probabilidad hay de que el procedimiento de prueba estadística del ejemplo 9.1
nos lleve a una decisión incorrecta si en el estado de la naturaleza la hipótesis nula es cierta?

Solución. Se calculara la probabilidad  de que el procedimiento de prueba nos haga cometer un


error tipo I, es decir, rechazar H 0 cuando en realidad es verdadera. Ésta es la probabilidad de que X
caiga en la región de rechazo si en realidad P = 0.2:

  P( X  4 si en realidad P  0.2)  1  P( X  3)  1  0.879  0.121

83
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

La probabilidad de que el procedimiento de prueba nos lleve a concluir que P > 0.20 cuando en
realidad no es así, es de 0.121.

Ejemplo 9.3. Considérese el ejemplo 9.2 y suponga que P es en realidad igual a 0.60, ¿Qué
probabilidad  hay de que el procedimiento de prueba no rechace H 0 : P  0.20 cuando en realidad
P = 0.60?

Solución. n = 10, P = 0. 60. La probabilidad de no rechazar Ho esta dado por:

3
  P( X  3 si en realidad P  0.60)   P( x)  0.055
x 0

0,3

0,25
PROBABILIDAD

0,2

0,15

0,1

0,05

0
NÚMERO DE PERSONAS QUE COMPRAN EL SOFWARE

Por lo tanto, la probabilidad de que no se rechace H 0 : P  0.20 si P = 0.60 es   0.055 .

Definición 9.3 La Potencia de una prueba estadística (1   ) , es la probabilidad de rechazar la


hipótesis nula H0 cuando en realidad H0 es falsa.

P (rechazar H 0 cuando H 0 es falsa)  1 - P(aceptar H 0 cuando H 0 es falsa)


 1 - P(Error Tipo II)
 1- 

Ejemplo 9.4. Con respecto a la prueba de hipótesis del ejemplo 9.1. Calcule la potencia de la prueba,
si en realidad P = 0.30.
Solución. P = 0.30
3
  P( X  3 si en realidad P  0.30)   P( x)  0.6496
x 0

Potencia  1    1  0.6496  0.3504

Puede verse que cuando más se acerca al valor real de P al valor de la hipótesis nula, más probable
será que rechacemos H 0 : P  0.20 .

84
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

9.2 Obtención de Pruebas Estadísticas.

En general, si se desea probar una hipótesis del tipo:

H 0 :   o vs H a :   o

verosimili tud suponiendo    0 L( 0 )


 
verosimili tud suponiendo   ˆ L(ˆ)

Si se supone que cada una de las variables aleatorias x1 , x2 ,, xn de una muestra aleatoria de n
observaciones, tienen una función de probabilidad f(x), entonces por el teorema del límite central se
tiene:

ˆ   0
Z ~ N (0,1)
 ˆ

Prueba para muestra grande basado en la estadística de prueba normal estándar Z.

1. Prueba de un extremo

H 0 :   0 vs H a :    0 (   0 )
Estadística de Prueba
ˆ   0
Z
 ˆ

Región de Rechazo
Z  Z1 (Z  Z1- ) donde P( Z  Z1 )  
a. b.

2. Prueba de los dos extremos


Región Región
H 0 :   0 vs Ha : 
Rechaz  0 Rechaz
o o
Estadística de Prueba

85
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

ˆ   0
Z
 ˆ
Región de Rechazo

Z  Z1 / 2 donde P( Z  Z1 / 2 )  

Región Región
Rechazo Rechazo

Ejemplo 9.5. El departamento de mejoramiento de autopistas, encargado de reparar un tramo de 25


millas de una autopista interestatal, quiere diseñar una superficie que sea estructuralmente eficiente.
Una consideración importante es el volumen de tráfico de carga pesada sobre la interestatal. Las
estaciones de control de peso del estado informan que el número medio de remolques pesados que
viajan por un segmento de 25 millas de la interestatal es de 72 por hora. Sin embargo, la sección de
autopista por reparar se encuentra en un área urbana y el departamento de ingenieros piensa que el
volumen de tráfico de carga pesada en este sector en particular, es mayor que el valor medio
informado para toda la interestatal. A fin de comprobar la validez de su teoría, el departamento vigila
la autopista durante 50 períodos de una hora seleccionados aleatoriamente durante todo el mes.
Suponga que la media y la desviación estándar del tráfico de carga pesada para las 50 horas de
muestra son:
x  74.1 s  13.3

¿Apoyan estos datos la teoría de departamento? Utilice   0.10 .

Solución. Ho :   72 vs Ha :   72 , n = 50

Estadística de prueba:
x  72 x  72 74.1  72
ZC     1.12
x  / n 13.3 / 50
Región de rechazo: Z C  1.28 , Z 0.90  1.28
No se rechaza Ho. Por lo tanto, esta muestra no proporciona pruebas suficientes para sustentar la
teoría del Departamento de mejoramiento de Autopistas con el 90% de confiabilidad.

86
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 9.6. Refiérase a la prueba de un solo extremo para  del ejemplo 9.5. Si el número medio
 de camiones de carga pesados que viajan por cierto tramo de 25 millas de una autopista interestatal
es en realidad de 78 por hora, ¿qué probabilidad hay de que el procedimiento de prueba del ejemplo
9.5 no detecte esto? Es decir, ¿qué probabilidad  hay de que no rechacemos Ho :   72 en esta
prueba de un solo extremo si  en realidad es igual a 78?

Solución. f(x)

74.41

x  0 x  0 x  72
ZC    1.28   x  74.4075
 n s n 13.3 50

x  78 74.41  78
ZC    1.91
s n 13.3 50

  (1.91)  1  0.9719  0.0281  Error Tipo II

Por tanto, la probabilidad de no rechazar H 0 :   72 cuando  en realidad es tan grande como


  78 , es de sólo 0.0281.

Cálculo de  para una prueba Z con Muestra Grande

Considere una prueba con muestra grande de H 0 :   0 con un nivel de significancia de  . El


valor de  para un valor específico de la alternativa    a se calcula como sigue:

i. Prueba del extremo derecho:


 ˆ   
  P Z  0 a 
  ˆ 

donde ˆ0  0  Z1 ˆ es el valor de estimador que corresponde a la frontera de la región de
rechazo.

ii. Prueba del extremo izquierdo:

87
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

 ˆ   
  P Z  0 a 
  ˆ 

donde ˆ0  0  Z1 ˆ es el valor del estimador que corresponde a la frontera de la región de
rechazo.

iii. Prueba de extremos:


 ˆ   a ˆ0   a 
  P Z  0 l
yZ  u

  ˆ  ˆ 

donde ˆ0i   0  Z1 / 2 ˆ y ˆ0u  0  Z1 / 2 ˆ son valores del estimador que corresponde a las
fronteras de la región de rechazo.

9.4 Prueba de la Media de una Población

Prueba de hipótesis con muestra grande n  30  relativo a una media de población 

a. Prueba de un Extremo b. Prueba de dos Extremos


Ho :   o Ho :   o
Ha :   o (  o) Ho :   o

Estadística de prueba: Estadística de prueba:


x  o x  o x  o x  o
ZC   ZC  
 n s n  n s n

Región de rechazo Región de rechazo

Z C  Z1 / 2

Ejemplo 9.7. Los siguientes datos representan los tiempos de armado para 20 unidades seleccionadas
aleatoriamente:

9.8 10.4 10.6 9.6 9.7 9.9 10.9 11.1 9.6 10.2
10.3 9.6 9.9 11.2 10.6 9.8 10.5 10.1 10.5 9.7

Supóngase que el tiempo necesario para armar una unidad es una v. a. normal con media  y
desviación estándar   0.6 minutos. Con base en esta muestra, ¿existe alguna razón para creer, a un
nivel de 0.05, que el tiempo de armado promedio es mayor de 10 minutos?.
Solución. Ho :   10 vs Ha :   10 ,   0.05 , x  10.2 min.,   0.6 min. y n = 20.

88
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

x  o 10.2  10
ZC    1.4907
 n 0.6 20

Z 0.95  1.645 5

Z C  1.4907  Z 0.95  1.645 , no puede rechazarse la hipótesis nula.


1.4907 1.645
Prueba de hipótesis con muestra pequeña relativa a una media de población  .

a. Prueba de un Extremo b. Prueba de dos Extremos


Ho :   o Ho :   o
Ha :   o (  o) Ho :   o

Estadística de prueba: Estadística de prueba:


x  o x  o
tC  tC 
s n s n

Región de rechazo Región de rechazo

t C  t 1 ( t C   t 1 ) t C  t 1 / 2

t tiene (n - 1) grados de libertad y se supone que la población de la que se seleccionó la muestra es


aproximadamente normal.

9.5 El Nivel de Significancia Observado de una Prueba.

Definición 9.4. El Nivel de Significancia o valor P, de una prueba estadística especifica es la


probabilidad (suponiendo que Ho es verdadera) de observar un valor de la estadística de prueba que
contradice la hipótesis nula, y apoya la hipótesis alternativa, en por lo menos el mismo grado que lo
hace el que se calcula a partir de los datos de la muestra.

Ejemplo 9.8. Determine el nivel de significancia observado para la prueba estadística del ejemplo
9.5 e interprete el resultado.

Solución. Ho :   72 vs Ha :   72 , n = 50 y Z c  1.12

Valor de p = P(Z ≥ 1.12 ) valor p =0.1314


= 1 – P(Z ‹ 1.12 )
= 1 – 0.8686
= 0.1314
1.12
Este resultado indica que la probabilidad de observar un valor Z por lo menos tan contradictorio de
Ho como el observado en esta prueba es de 0.1314 (recuerde que =0.10).

89
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Nota: En general,
i. Si   valor p, entonces no se rechaza Ho.
ii. Si   valor p, entonces se rechaza Ho.

Ejemplo 9.9. Suponga que la prueba del ejemplo 9.5 es de dos extremos, es decir, suponga que la
alternativa de interés es Ha:   72. Calcule el nivel de significancia observado para la prueba e
interprete el resultado. Suponga que   , igual que en el ejemplo 9.5.

Solución
f(z)

Valor p= 0.2628

Valor p = P (Z  1.12) + P (Z  -1.12) = 2  (1.12) - 1 = 2 (0.6314) - 1 = 0.2628.


Como  = 0.10 < 0.2628 no se rechaza Ho.

Calculo de valores p.

Pruebas con muestreo grande:


i. Valor p = P (Z  Zc) (extremo derecho).
ii. Valor p = P (Z  Zc) (extremo izquierdo).
 
iii. Valor p = P Z  Z C  1 (los dos extremos).

9.6 Prueba e la diferencia entre los medios de dos poblaciones: Muestras independientes

Prueba de un extremo: Prueba de los dos extremos


Ho: (1 - 2) = Do Ho: (1 - 2) = Do
Ha: (1 - 2) = Do (1 - 2 < Do) Ha: (1 - 2)  Do
Estadística de prueba:
( x 1  x 2 )  Do ( x 1  x 2 )  Do
ZC  
 x1  x 2 s12  N1  n 1  s 22  N1  n 1 
   
n 1  N1  1  n 2  1
N  1 

Región de rechazo Región de rechazo


Z C  Z1 ( Z C  Z1 ) Z C  Z1 / 2

90
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 9.10

Proceso nuevo Proceso antiguo


n1 = 50 n2 = 30
x 1  1255 calorías x 2  1330 calorías
s1 = 215 calorías s2 = 238 calorías   0.05

Solución. Ho: 1 - 2 = 0 vs Ha = 1 - 2 < 0

( x 1  x 2 )  Do  75  75
ZC     1.41
s12 s12 215 2 238 2 53.03
 
n1 n 2 50 30

Z0.95 = -1.645 No se rechazo Ho

-1.645 -1.41
Prueba con Muestra Pequeña de Hipótesis Relativas a (1 - 2): Muestras Independientes.

Prueba de un extremo: Prueba de dos extremos:


Ho: 1 - 2 = Do Ho: 1 - 2 = Do
Ha: 1 - 2 > Do (1 - 2 < Do) Ha: 1 - 2  Do

Estadística de prueba:

( x 1  x 2 )  Do
tC 
 1  N  n1  1  N2  n2 
Sp 2   1     

 1 1
n N  1  n2  N2 1 
Región de rechazo: Región de rechazo:

t C  t 1 ( t C   t 1 ) t C  t 1 / 2


donde:
Y la distribución t se basa en n1 + n2 - 2 grados de libertad.
(n 1  1)s12  (n 2  1)s12
S 2p 
n1  n 2  2

91
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Ejemplo 9.11. Tiempo de respuesta dos unidades de disco

Disco 1 (n1 = 13) Disco 2 (n2 = 15)


59 73 74 61 71 63 40 34
92 60 84 38 48 60 75
54 73 47 47 41 44 86
102 75 33 53 68 39

Solución. Ho: 1 - 2 = 0 vs Ha: 1  2

x1  68.2 s1=18.6 x 2  53.8 s2=15.8

(n 1  1)s12  (n 2  1)s 22 12(18.6) 2  14(15.8) 2


S 
2
  294 .09
n1  n 2  2
p
26

( x 1  x 2 )  Do (68.2  53.8)  0 14.4


tC     2.22
 1 1  1 1 6.5
s 2p    294 .09  
 n1 n 2   13 15 
t(26,0.025)=2.056

 / 2  0.025  / 2  0.025

-2.056 2.056
Luego se rechaza Ho

Modificaciones a las pruebas con pequeña relativas a (1-2). Cuando 12  22: Muestras
Independientes

i) n1 = n2 = n Ho: 1 - 2 = Do

Estadística de prueba

( x 1  x 2 )  Do ( x 1  x 2 )  Do
tC  
2 2
s s 1 2
1
 2 (s1  s 22 )
n1 n 2 n1

Grados de libertad v = n1 + n2 - 2 = 2 (n - 1)

ii) n1n2

92
Profesor: Oscar Orlando Melo M.
Métodos Estadísticos Experimentales

Estadística de prueba:
( x 1  x 2 )  Do
tC  2
 s12s12 s22s22
   
v  n1n 1 n2n2
  s 2 2  s 2 2 
  1   2  
 1 
n  n2  

 n 1 n 1 
 1 2

 
Grados de libertad

93

Вам также может понравиться