Академический Документы
Профессиональный Документы
Культура Документы
PROBABILIDADES Y DISTRIBUCIONES
DE PROBABILIDADES
INDICE DE CONTENIDOS
INTRODUCCIÓN 4
ANEXOS
A. TEMAS COMPLEMENTARIOS ........................................................................................ 41
A.1. ESPACIOS MUESTRALES FINITOS ........................................................................ 41
A.2. VECTORES ALEATORIOS ........................................................................................ 42
A.3. LA FUNCIÓN GAMMA ............................................................................................. 43
B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS ........................... 45
C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS .......................... 46
D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR ........................... 47
E. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................. 48
INTRODUCCIÓN
La “incertidumbre” que se tiene frente a gran parte de los hechos que nos ocurren diariamente, en
variados ámbitos de nuestra vida, nos ha llevado a estudiar este fenómeno en busca de afirmaciones precisas
sobre la naturaleza de este entorno incierto. Para ello, es necesario desarrollar un lenguaje específico que nos
permita comunicarnos con estos hechos. Así, es posible pensar en la “Probabilidad” como el lenguaje a través
del cual es posible hablar de incertidumbre.
Esta Primera Unidad Temática, contiene los principales elementos conceptuales y prácticos
asociados a este lenguaje de las probabilidades, así como también a su “comportamiento” en este entorno
incierto, llamado distribución. A lo largo de esta unidad, el lector encontrará conceptos y aplicaciones que le
permitirán formarse una idea de su importancia, tanto formal como práctica.
Para facilitar la consecución de los objetivos de esta unidad la hemos estructurado en cuatro
capítulos, en cada uno de ellos encontrarás la presentación de los conceptos particulares que lo componen,
junto con las aplicaciones necesarias para su comprensión, hacia el final un módulo de ejercicios y problemas
te permitirá practicar lo aprendido para finalmente, a través de un instrumento de evaluación, asegurar el logro
de los objetivos propuestos.
Ante la posible necesidad de conocer algunos temas afines a esta unidad, se incorpora un
módulo de anexos con temas complementarios, resúmenes de las principales distribuciones, tanto discretas
como continuas, para finalizar con la entrega de sugerencias bibliográficas en caso de requerir una
complementación para los temas tratados.
Capítulo 1
CONCEPTOS BÁSICOS DE PROBABILIDADES
Jacob Bernoulli (1654 – 1705), Abraham de Moivre (1667 – 1754), el reverendo Thomas Bayes (1702
– 1761) y Joseph Lagrange (1736 – 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad.
En el siglo XIX, Pierre Simon, marqués de Laplace (1749 – 1827), unificó todas estas primeras ideas y
compiló la primera teoría general de probabilidades, la cual fue aplicada con éxito en las mesas de juego, y en
lo que es más importante: el estudio de problemas sociales y económicos. La industria de los seguros, que
surgió en este siglo, requería un conocimiento preciso acerca de los riesgos de pérdida, con el fin de calcular
las primas. Medio siglo más tarde, muchos centros de aprendizaje estudiaban la “probabilidad” como una
herramienta para el entendimiento de los fenómenos sociales.
1.1. PRELIMINARES
Para el desarrollo de estas ideas se requiere la definición de algunos conceptos básicos relacionados:
Definición 1.1. Un experimento es cualquier acción que implica o determina algún resultado. Se denotará
con la letra griega ξ (epsilon).
Definición 1.2. Al conjunto de todos los resultados posibles de un experimento se le denomina espacio
muestral. Se le simbolizará por la letra griega Ω (omega), o bien simplemente por la letra S. Es de concenso
general que un espacio muestral esté constituído por elementos singulares o fundamentales, en el sentido de
ser “irreducibles”, es decir, que no sean una composición de, a su vez, otros elementos simples. Cada una de
estas partes o componentes del espacio muestral se llama punto muestral.
Un espacio muestral puede ser discreto o continuo. Es discreto si es un conjunto finito o infinito
numerable. Se dice que es continuo si es un conjunto formado por puntos muestrales que son continuidad
(intervalos reales, por ejemplo). Por ejemplo, si un experimento consiste en lanzar una moneda y registrar lo
que muestra la parte superior, entonces este experimento tiene un espacio muestral finito, conformado por los
elementos fundamentales CARA y SELLO. Por lo tanto es discreto. Lo mismo ocurriría si el experimento
consiste en lanzar la moneda y registrar el número de lanzamientos hasta que aparezca la primera CARA. En
este caso, el espacio muestral es {1, 2, 3, ...}; puede haber infinitos lanzamientos (nunca aparecerá una
CARA). Este es un espacio muestral infinito numerable (contable). Ahora, si el experimento consiste en
encender una ampolleta y registrar el tiempo de funcionamiento, entonces los resultados observados son
intervalos (reales) de tiempo que, como es sabido, constituyen un infinito no numerable. En este último caso,
el espacio muestral es continuo.
Definición 1.3. Un evento es cualquier “parte” o subconjunto de un espacio muestral. Para su denominación
se utilizarán las letras mayúsculas de nuestro alfabeto: A, B, C, ..., Z.
Puede observarse que a cualquier evento se le puede asignar un conjuto de puntos muestrales, que son un
subconjunto de un espacio muestral, pero el recíproco de esta afirmación no necesariamente es verdad. En el
caso de espacios muestrales discretos, todos los subconjuntos son eventos, pero en el caso de espacios
continuos es posible encontrar puntos muestrales incompatibles con la relación evento–conjunto. Sobre estos
aspectos se recomiendan lecturas avanzadas sobre Teoría de Probabilidades, tema que, debe dejarse claro, está
muy lejos de los objetivos de estas notas.
Estrictamente hablando, de las anteriores definiciones sólo las tres primeras corresponden a
operaciones, ya que una operación “actúa” sobre dos eventos. El complemento no es más que la definición de
un evento particular.
En lo sucesivo, y salvo excepciones que se advertirán oportunamente, los eventos serán entendidos
como conjuntos en el contexto de la Teoría de Conjuntos. Esta consideración puede, en muchos casos, ayudar
a la resolución de problemas tanto como a su comprensión. Particularmente útil puede resultar, en algunos
casos, la utilización de propiedades, como las relaciones de De Morgan, y de representaciones, como las de
Euler–Venn, para una mejor comprensión y resolución de problemas y propiedades relativas a eventos.
Algunas de estas propiedades son:
Observaciones:
a) Si el número de elementos de un evento E es mayor que 1, entonces E se llama evento aleatorio.
Similarmente, si el número de elementos de Ω es superior a 1, entonces el experimento se dice aleatorio.
b) Si el evento E = Ω, entonces E se dice evento seguro.
c) Si el evento E = φ (vacio), entonces E se llama evento nulo o evento vacío.
En este contexto son también importantes ideas tales como el hecho que no existan dos resultados
equivalentes en forma simultánea para un experimento dado. Por ejemplo, en el lanzamiento de una moneda
es bien sabido que no se puede obtener una cara y un sello al mismo tiempo. Esta propiedad es la que se
conoce como exclusividad, y los eventos se dicen mutuamente excluyentes.
Definición 1.5: La medida de un evento o de un subconjuto E de Ω es una función m : c(Ω) → IR, que
satisface las siguientes propiedades:
m(E⊂ Ω) ≥ 0
m(Ω) = 1
Con todas las aclaraciones conceptuales anteriores, se puede abordar con cierta precisión y formalidad
el concepto clásico de probabilidad.
Existen varias formas o enfoques de definción de probabilidad. Entre ellos se tiene el concepto
clásico de probabilidad, que se soporta en el concepto de medida de un evento. En efecto, sea ξ un
experimento definido en un espacio muestral Ω, en el que se ha definido una medida m. La probabilidad de
un evento E perteneciente a Ω, expresado en términos de su medida, es:
P( E ) = m( E )
m ( Ω ) , donde m(Ω) ≠ 0
Este planteamiento clásico de la “probabilidad” puede ocacionar algunos problemas en la vida real,
desordenada y con algunos hechos extraños y poco probables. Rapidamente es posible darse cuenta de lo
necesario que resulta la experimentación para encontrar algún patrón de comportamiento. Lo cual hace que
sea de mucha utilidad otra forma de definirla. Ya en el siglo XIX los estadísticos británicos realizaron las
primeras mediciones para lo que hoy llamamos frecuencia relativa de presentación de un evento. Según este
enfoque, la probabilidad de un evento es la proporción de veces que ocurrirá el evento en una repetición
infinita del experimento. Esto significa que si un evento se dice tener probabilidad 0.56, quiere decir que si el
experimento se repite en similares condiciones un cantidad infinita de veces, en el 56% de las veces se
observará el evento en estudio. Formalmente si N representa el número de veces que se realiza el experimento,
entonces la probabilidad del evento E está dada por
Número de ocurrencias de E
P( E ) = lim
N →∞ N
Aunque elegante, esta definición tiene una serie de problemas relativos a su operacionalidad.
Particularmente cuestionables son los problemas de convergencia asociados, lo que hace difícil su aplicación
al cálculo de probabilidades. En este sentido parece más práctica la definición clásica.
Otro enfoque, que está cobrando adeptos en los últimos años, es la probabilidad como evaluación
subjetiva. Esta forma de definición recoge el conocimiento o experiencia previa que el analista tiene del
fenómeno o experimento en estudio y lo utiliza como una forma de evaluación de las posibilidades de
ocurrencia de un evento particular. Su principal crítica es la subjetividad que subyace a tales evaluaciones. En
este contexto se sitúan los métodos bayesianos. Tampoco es un tema que se encuentre dentro de los
propósitos de estas notas.
Por último, mencionamos el enfoque o método axiomático de la probabilidad. Según este método,
las probabilidades se definen a partir de ciertas reglas lógico–matemáticas que conforman una estructura bien
definida y sólidamente respaldada: son los axiomas de probabilidad. Esta interpretación de la Probabilidad
está basada en la presentación de un conjunto de axiomas, los que se apoyan fuertemente en la Teoría de
Conjuntos. Aquí se formalizan las ideas anteriores, para dar lugar a un tratamiento lógico-deductivo de gran
potencia en sus fundamentos y fuerza en sus conclusiones. Por estas razones será el método o enfoque que se
utilizará en estas notas, aunque no se descarta el uso de los otros enfoques, siempre que exista coherencia y
concordancia entre ellos.
En un esquema axiomático, la probabilidad se define como una función que satisface una serie de
axiomas, a partir de los cuales se pueden deducir otra serie de propiedades y aplicaciones que, eventualmente,
pueden conducir también a los resultados previstos para los enfoques anteriores.
Definición 1.6: Sea Ω cualquier espacio muestral y E cualquier evento de Ω. Se llama función de
probabilidad sobre el espacio muestral Ω a cualquier función P: c(Ω) → IR, (c(Ω) es el conjunto potencia
de Ω) tal que:
1) P(E) ≥ 0.
2) P(Ω) = 1.
3) P( ∪ Ei) = ∑ P(Ei), cuando: Ei ∩ Ej = φ, ∀ i ≠ j.
Estos tres axiomas caracterizan completamente a una función de probabilidad, y puede notarse su
relación con la interpretación clásica de probabilidad. El número P(E) se llama la probabilidad de E. Algunas
consecuencias importantes de estos axiomas se resumen en la proposición 1.1.
Proposición 1.1: Sean E, E1 y E2 eventos de un espacio muestral Ω, en el que se ha definido una probabilidad
P. Entonces se verifican las siguientes relaciones:
i) P(φ) = 0.
ii) 0 ≤ P(E) ≤1.
iii) P(Ec) = 1 – P(E)
iv) P(E1 ∪ E2) = P(E1) + P(E2) – P(E1 ∩ E2).
Las definiciones y propiedades anteriores sólo han establecido las reglas por las que se rige el cálculo
de probabilidades, pero no establecen una forma o método de ese cálculo. En una situación particular de un
evento E, parece ser evidente que la probabilidad de E es la suma de todas las probabilidades de los puntos
muestrales que conforman E. Esto es ya un gran avance en el cálculo de probabilidades, pero no es lo
definitivo. Por ejemplo, ¿cuál es la probabilidad de obtener una CARA en el lanzamiento de una moneda?.
Seguramente Ud. dirá que ½. Pero dar esa respuesta supone una serie de consideraciones en torno al
experimento, muchas de las cuales, y hay que reconcerlo, tienen una fuerte base experiencial. Seguramente
supone una moneda con “caída regular”, es decir que no caerá “de canto”. Por otro lado, habrá supuesto
también que se trata de una moneda regular (no cargada), en el sentido que no tiene un lado más probable que
el otro. Esta última propiedad será muy recurrente en muchos problemas relativos a juegos de azar.
Formalmente se habla de eventos equiprobables. Esto significa que dos resultados cualesquiera tienen las
mismas posibilidades de ocurrir, independientemente de la naturaleza del resultado mismo. Claro está que no
siempre será pertinente este supuesto. Por último, digamos que en la definición de probabilidad habrá que
tener en consideración el conocimiento y la experiencia que en relación al fenómeno existe, y que se debe
tener especial cuidado con las suposiciones que sobre él se formulen.
Ejemplo 1.1. Considérense el experimento ξ: “lanzar dos dados y anotar los puntos que muestran las caras
superiores” y el evento E : “obtener un par cuya suma sea 7”.
En el esquema axiomático por su parte, necesitamos saber cuál es la probabilidad de cada elemento de
Ω. Si se supone que cada resultado es igualmente probable, entonces cada elemento de Ω tiene probabilidad
igual 1/36, y por tanto la probabilidad de E es la suma de las probabilidades de sus puntos muestrales, 6 .♦
36
Ejemplo 1.2. Los alumnos de un curso disponen de dos libros para estudiar, uno teórico y uno práctico. El
libro teórico lo usa el 70%, el libro práctico el 60% y el 40% utiliza ambos libros.
Ω
100%
A
B
30% 40% 20%
10%
Ejemplo 1.3. Un sistema contiene dos componentes A y B. El sistema funciona si cualquiera de sus
componentes funciona. Se sabe que la probabilidad de que la componente A funcione es 0.9; que funcione B,
es 0.8, y la de que ambas componentes funcionen simultáneamente, es 0.72.
Se pide hallar la probabilidad de que el sistema funcione.
Solución.
Lo que se tiene, en definitiva, es que P(A) = 0.9, P(B) = 0.8 y P(A∩B) = 0.72. Lo que se pide es P(A∪B).
Entonces, al aplicar la propiedad iv) anterior, se tiene que P(A∪ B) = 0.9 + 0.8 – 0.72 = 0.98. Esto es, la
probabilidad de que el sistema funcione es del 98%. ♦
Como una forma de aplicar los conceptos antes tratados, y de reforzar aquellos aspectos que a nuestro
juicio son los más relevantes, presentamos a continuación una serie de ejercicios y problemas prácticos para
ser trabajados en forma personal o grupal. Las respuestas, y en algunos casos un esbozo de solución, se
presentan al final de la misma lista. Es aconsejable trabajar los problemas sin observar previamente los
resultados o soluciones.
1. Considere los siguientes experimentos y describa el espacio muestral asociado a cada uno de ellos:
a. ξ1: “Se lanza un dado y se observa el puntaje asociado a la cara superior”
b. ξ2: “Se lanza una moneda cuatro veces y se observa la sucesión de caras y sellos”
c. ξ3: “Se extrae una carta de una baraja de 52, donde su pinta no importa, y se observa el número de
ella”
3. Si la probabilidad de que una persona entrevistada en un centro comercial esté en contra de un proyecto
industrial con gran impacto en el ecosistema es de 0.7. ¿Cuál es la probabilidad de que entre 4 personas
entrevistadas en ese lugar, las primeras 3 estén en contra y la última a favor del proyecto?
4. Si A es el evento un empleado está bien capacitado y B se define como el empleado cumple su cuota de
producción, exprese simbólicamente las probabilidades de los siguientes eventos:
a. Un empleado bien capacitado cumpla la cuota de producción.
b. Un empleado que cubre la cuota de producción no esté bien capacitado.
c. Un empleado que no está bien capacitado no cubra la cuota de producción.
11. El problema de la reunión. Dos personas, A y B, han acordado reunirse en un lugar específico entre las
12:00 y las 13:00 horas. La primera persona que llegue espera a la otra por 20 minutos, después de lo cual,
si no llega ésta, se va. ¿Cuál es la probabilidad que las personas se reúnan si sus llegadas durante la hora
indicada ocurren de manera aleatoria, y sus tiempos de llegada son independientes? Analice la
importancia de estos dos últimos supuestos en la solución del problema.
1. a) Ω: { 1, 2, 3, 4, 5, 6 }; c) Ω: { A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K }
3. Sea el evento Ai: la persona i–ésima está en contra del proyecto. Se sabe que P(Ai) = 0.7. Lo que se pide
es P(A1∩A2∩A3∩A4c). Suponiendo independencia entre las personas entrevistadas, se tiene que
P(A1∩A2∩A3∩A4c) = 0.1029.
4. Dados A: empleado bien capacitado y B: empleado que cumple su cuota de producción, entonces el
evento un empleado que cubre la cuota de producción no esté bien capacitado es Ac|B, y la probabilidad
será P(Ac/B).
7. Sean los eventos A: alumno reprueba matemática y B: alumno reprueba estadística. Las probabilidades
de estos eventos son P(A) = 0.25, P(B) = 0.15 y P(A∩B) = 0.10, entonces:
a. P(A/B) = 0.67
b. P(A ∪ B) = 0.4
9. La medida apropiada en este caso es la longitud del segmento correspondiente (ver figura). Entonces:
a. P(A) = ½
b. P(B) = 1.5/2.
c. P(A ∪ B) = 1
d. P(A ∩ B) = 0.25.
10. Demostraciones de este tipo, como se habrá visto, pueden significar ciertos “arreglos” que no siempre son
fáciles de detectar, y puede existir más de una forma de ellos. En este caso particular, un punto de partida
puede ser la identidad B = (Ac ∩ B) ∪ A, que se puede verificar fácilmente. Se puede verificar también
que esta descomposición de B es una partición, así que se puede aplicar la definición 1.6, parte 3, para
deducir que P(B) = P(Ac ∩ B) + P(A). Pero como P(Ac ∩ B) es una cantidad no negativa, entonces,
simplemente por definición de desigualdad, se tiene el resultado.
11. Definir los eventos x : Tiempo (instante) de llegada de A y y : Tiempo de llegada de B. Notar que la
reunión se concreta si |x–y| ≤ 20. También notar que 0 ≤ x,y ≤ 60. Algunas consideraciones geométricas
conducen a 5/9 como la probabilidad pedida.
Capítulo 2
VARIABLES ALEATORIAS Y DISTRIBUCIONES
DE PROBABILIDADES
En el capítulo anterior se presentó y revisó el concepto de probabilidad, como una medida del grado
de incertidumbre involucrado en la ocurrencia de ciertos fenómenos. Ese grado de incertidumbre está presente
en gran parte de la actividad humana en general, y en la actividad científica en particular. De esa
incertidumbre surge, a su vez, la variabilidad en casi todo cuanto nos rodea. Y esta variabilidad es la que da
sentido a la investigación, al estudio sistemático de ciertas disciplinas, al conocimiento, finalmente. Si todo
fuera uniforme, entonces no tendría sentido el estudio o el conocimiento. En esta variabilidad está la esencia
de nuestra vida, y de nuestro quehacer, sea cotidiano, o programado cuidadosamente.
Definición 2.1. Sea ξ un experimento aleatorio, con espacio muestral asociado Ω y dotado de probabilidad P.
Se llama variable aleatoria a una función X que asigna a cada elemento ω ∈ Ω un número real x, es decir:
X: (Ω, P) → ‘
ω a X(ω) = x
Observación: Generalmente las variables aleatorias se designan con letras mayúsculas y un valor particular
de ella con su respectiva letra minúscula.
Una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio.
Puesto que asociar números con los puntos de un espacio muestral sólo es una manera de definir una función
sobre los puntos del espacio muestral, las variables aleatorias en realidad son funciones y no variables. Sin
embargo, conceptualmente, la mayoría de los principiantes encuentran más fácil considerar las variables
aleatorias tan sólo como cantidades que pueden tomar valores distintos dependiendo de la probabilidad
asociada.
Definición 2.2. Al conjunto de todos los valores que asume la variable aleatoria X, denotado por RX , se
denomina recorrido de la variable aleatoria X, es decir:
RX = {x ∈ ‘x / X(ω) = x, con ω ∈ Ω}
Ejemplo 2.1. Se define el experimento ξ: “lanzar dos monedas y registrar lo que cae cada una”. Se desea
determinar el espacio muestral asociado a ξ, definir la variable aleatoria involucrada y determinar su
recorrido.
Solución.
El espacio muestral asociado a ξ será:
Se acostumbra clasificar las variables aleatorias de acuerdo con el número de valores que pueden
tomar, en este contexto podemos distinguir variables aleatorias discretas y continuas las que se definen a
continuación.
Definición 2.3. Una variable aleatoria X se dice discreta si su recorrido RX es finito o infinito numerable, en
caso contrario se dice que es continua.
A cada variable aleatoria hay asociadas unas funciones especiales que informan de ciertas
características de las probabilidades y su relación con los valores de la variable. Todas ellas dan lugar al
concepto de distribución de probabilidades o simplemente de distribución de la variable. El concepto de
distribución es uno de los más importantes en el estudio de las variables aleatorias. Por ello, en lo que sigue,
se presentarán en detalle aquellas funciones que “hablan” de la distribución de probabilidades, y de sus
propiedades más importantes. Cuando sea necesario, se harán las distinciones para los casos discreto y
continuo.
Antes de presentar aquellas funciones, es importante referirse a una componente de definición que
resulta fundamental en la comprensión del concepto de distribución. Se trata del concepto de parámetro. Al
momento de comenzar a estudiar una población, parece evidente que hay ciertas situaciones o fenómenos que
son de interés para el estudioso, pero no es suficiente obtener un cúmulo de información si esta no puede ser
de alguna manera resumida para ser utilizada, lo cual se realiza a través de un parámetro que es un rasgo,
característica o descripción del fenómeno estudiado en la población de interés.
Para ilustrar el concepto anterior, definamos como población de interés un bosque de grandes
dimensiones, con distintas especies. Los dueños necesitan conocer de antemano, aún en forma aproximada, la
cantidad de trozos que dispone para el cumplimiento de contrato con un comprador. Pareciera razonable
pensar que no es posible cuantificar exactamente la cantidad de trozos, dada la extensión del terreno. Pero si
es posible encontrar un indicador que caracterice a esa cantidad, pudiendo ser éste, la media o promedio de
trozos, siendo este parámetro la cantidad que caracteriza dicho fenómeno.
distribuciones se identifican por sus parámetros, y el reconocimiento de estos será el principal trabajo y
problema en el estudio de ciertas distribuciones conocidas.
Definición 2.4. Sea X una variable aleatoria discreta, con recorrido RX. Se llama función de cuantía a una
función PX (x) = P(X = x) que satisface las siguientes condiciones:
i) P(x) ≥ 0 ∀ x ∈ RX
ii) ∑ p( x) = 1
x∈R x
Observación: Para una variable aleatoria discreta, la función de cuantía en cualquier punto es una
probabilidad. Por ello, a veces a esta función también se le llama función de probabilidades.
Ejemplo 2.2. Sea X una variable aleatoria con función de probabilidades dada por:
n
p ( x; n, p ) = p x (1 − p) n− x , donde n ∈ , 0 < p < 1
x
Verificar que la función propuesta es una función de probabilidades.
Solución.
Para probar si p es una función de cuantía, debe satisfacer las condiciones de la definición 2.4. En efecto:
x∈R x
0 x
Definición 2.5. La función de distribución acumulada de una variable aleatoria discreta X, denotada por F,
es una función real F: ‘ → ‘ definida por
F ( x) = P( X ≤ x) = ∑ p( x )
xi ≤ x
i
i) 0 ≤ F ( x ) ≤ 1
ii) x < y ⇒ F ( x) < F ( y )
Notar que la función de distribución acumulada evaluada en algún punto del recorrido de la variable, es una
probabilidad que indica o resume la información que de la variable se tiene hasta el valor que se indique.
Aunque no se trata de una “probabilidad acumulada hasta. ...”, valores como P[X > x] también se entienden
como probabilidades acumuladas (“acumulación más allá de...”).
Proposición 2.1. La función de distribución acumulada de una variable aleatoria discreta X posee las
siguientes propiedades:
i) P ( X > x) = 1 − F ( x )
ii) F (∞) = 1
iii) F ( −∞) = 0
Demostración. Todas las demostraciones se dejan de ejercicio. Todas ellas se basan en propiedades
elementales de sumatorias y series. ♦
Definición 2.6. Sea X una variable aleatoria continua. Una función f : RX → ‘ se llama función de densidad
de X si satisface las siguientes condiciones:
i) f ( x) ≥ 0 ; ∀ x.
∞
ii) ∫
−∞
f ( x)dx = 1
b
iii) Para cualquier par de números reales a y b con a < b, se tiene P(a ≤ X ≤ b) = ∫ f ( x)dx .
a
Observación: Una función de densidad no representa una probabilidad. Más aún, existen funciones de
densidad que evaluadas en algún punto toman valores mayores a la unidad.
Ejemplo 2.3. El comportamiento diario de cierto contaminante, en un río de la zona se modela de acuerdo a la
siguiente función de densidad:
x
−
f ( x) = ½e ; x > 0 2
Además se sabe que ocurrirá un problema de contaminación si los registros del contaminante exceden los 6
mg/103 lts. ¿Cuál es la probabilidad de que ocurra un problema de contaminación en un día cualquiera?
Solución.
Si definimos la variable aleatoria X: “cantidad diaria del contaminante por cada 103 lts” y sabiendo que el
problema de contaminación se genera cuando X excede los 6 mg/103 lts, entonces la probabilidad buscada es:
∞ ∞
− 2x −x
P( X > 6) = ∫ e dx = 1
2
1
2 ∫ e 2 dx
6 6
Haciendo la sustitución u = − , y por lo tanto du = − 12 dx , se tiene − 2du = dx , y entonces:
x
2
∞ ∞
− 2x
P( X > 6) = −2 12 ∫ e u du = −e u = − e
6
6
- ∞/2
= - ( e – e-6/2)
= e -3
= 0.04979. ♦
Definición 2.7. Se llama función de distribución acumulada de una variable aleatoria continua X a una
función real F: ‘ → ‘ definida por:
x
F ( x) = P( X ≤ x) = ∫ f (t )dt
−∞
donde t es una variable artificial de integración.
x
Observación: Dado que para cualquier variable aleatoria continua X, P( X = x) = ∫x
f (t )dt = 0 , entonces
P( X ≤ x) = P( X < x) = F ( x)
Proposición 2.2. La función de distribución acumulada de una variable aleatoria continua X posee las
siguientes propiedades:
i) F (−∞) = 0
ii) F (∞ ) = 1
iii) P(a < X < b) = F (b) − F (a)
d
iv) f ( x ) = FX ( x )
dx
v) 0 ≤ F ( x ) ≤ 1
Demostración. Todas las demostraciones se dejan de ejercicio. Ellas se basan en propiedades elementales de
la integral. ♦
Al igual que en el caso discreto, la función de distribución acumulada asociada a una variable aleatoria
continua es una probabilidad.
Son frecuentes los problemas en los que el interés se centra más que una variable aleatoria, en una
función de ella. Por ejemplo, puede requerirse el estudio de la variable X² a partir del conocimiento que se
tenga de X. Hay que notar que X² es una función de X.
Dada una variable aleatoria, supondremos que una función de ella es también una variable aleatoria,
pero no necesariamente con las mismas propiedades de la variable original. Son estos aspectos los que se
resumen en la siguiente proposición.
Proposición 2. 3. Sea X una variable aleatoria continua, con función de densidad f. Sea también g una función
monótona (no decreciente) y no negativa en el recorrido de X. Entonces la función de densidad de g(X) está
dada por
f g ( X ) ( x ) = f X (g −1 ( x ) )
dx
.
dy
Demostración.
La función de distribución acumulada de g(X) corresponde a Fg ( X ) ( x) = P[ g ( X ) ≤ x ] . Como {g(X)≤x} y {X
≤ g-1(X)} son sucesos equivalentes, entonces Fg ( X ) ( x) = P[ X ≤ g −1 ( x)] = FX ( g −1 ( x)) . La aplicación del
Teorema Fundamental del Cálculo Diferencial conduce al resultado: ♦
Ejemplo 2.4. X es una variable aleatoria continua con función de densidad dada por fX(x) = 1, ∀x∈[0,1]. Se
pide hallar la función de distribución acumulada de X².
La función de densidad de una variable aleatoria continua o la función de cuantía de una variable
aleatoria discreta, describen completamente el comportamiento de la variable en estudio. Sin embargo,
asociadas a cualquier variable existen ciertas constantes que también la caracterizan, dado que estos valores
proporcionan información acerca de la naturaleza de la variable en cuestión. Estas características fijas o
constantes son las que se denominan, genéricamente, medidas numéricas. Dentro de las medidas numéricas
asociadas a una variable aleatoria se tienen, básicamente, tres grupos: las medidas de tendencia central, las
medidas de posición y las medidas de variabilidad o dispersión. Todas ellas dan cuenta, en alguna forma,
de las características de la distribución (de probabilidades) de la variable.
Las medidas de tendencia central asociadas a una variable aleatoria resumen características de
centralidad de la variable. Esto es, dan cuenta de aquellas características que pueden considerarse como
típicas, como propias de la generalidad de la información. En otras palabras, informan de la capacidad de
“concentración” de la información en torno, precisamenete, de aquellos valores o medidas. Algunas de estas
características, las más relevantes por cierto, se presentan en las siguientes definiciones.
Definición 2.8. Sea X una variable aleatoria con valores observados x1, x2,...,xn, se define la esperanza o valor
esperado de X como:
Solución.
Si X: “suma de las caras de dos dados”, entonces el espacio muestral asociado es Ω: {2, 3, ...,12} y su
6− 7−x
función de probabilidades es p(x) = , para x = 2, 3,...,12.
36
12
Entonces E ( X ) = ∑ xp( x) = 2(
x =2
1
36
) + 3( 362 ) + .... + 11( 362 ) + 12( 361 ) = 7
Proposición 2.4. Sea X una variable aleatoria, y a, b y k constantes reales cualesquiera. Entonces la esperanza
satisface las siguientes propiedades:
i) E [aX ] = aE [ X ]
ii) E [k ] = k
iii) E [ X + k ] = E [ X ] + k
iv) E [aX + b ] = aE [ X ] + b
Ejemplo 2.6. Se sabe que el tiempo necesario para reparar una pieza, de un equipo utilizado en un proceso de
manufactura, es una variable aleatoria X cuya función de densidad está dada por:
( − 5x )
p ( x) = 15 e con x = 0, ..., +∞
Si la pérdida en dinero, es igual al cuadrado del número de horas utilizadas en la reparación. Se requiere
determinar e interpretar el valor esperado de las pérdidas por reparación.
Solución.
Si X es el tiempo necesario para reparar una pieza, entonces la pérdida es X2. Con esto, el valor esperado
buscado es:
+∞ ∞ ∞
E [ X ² ] = ∫ x 2 15 e
( − 5x ) ( − 5x ) ( − 5x )
dx = ∫ ( 5x ) 2 5e dx = ∫ 25( 5x ) 2 ( 5x ) 2 e d ( 5x )
0 0 0
La última integral es una función gamma (ver Temas Complementarios para más información sobre esta
función). Específicamente en este caso, esta última integral es
= 25Γ(3)
= 25 · 2! = 50
Luego la pérdida esperada por reparación es de 50 unidades monetarias. ♦
Definición 2.9. Para una variable aleatoria X si existe un número X0.5 tal que:
Definición 2.10. La moda de una variable aleatoria X es el valor Xm que maximiza la función de
probabilidades si X es discreta, o la función de densidad si X es continua.
Observaciones.
i) La moda de una distribución puede no existir.
d 2 f ( x)
ii) Si X es continua la moda es la solución de
df ( x )
dx =0 si d 2x
<0
Medidas de posición
Aunque una medida de tendencia central, adecuada y pertinente, naturalemente, puede proporcionar
mucha información acerca de una variable, generalmente será necesaria alguna otra información para
completar el conociento que sobre la variable se busque. Entre distintas posibilidades o alternativas se tienen a
las medidas de posición. Como su nombre lo indica, resumen características de ubicación o de
posicionamiento, relativo, de los valores de la variable. De entre estas medidas, resumimos aquí las más
importantes y usuales.
Valores extremos
Las medidas de posición más elementales son el máximo y el mínimo, que corresponden a los valores
máximo y mínimo, respectivamente, de la variable.
Percentiles
Un percentil de orden α, denotado qα , es un valor (puede ser un valor de la variable, o bien no) tal que la
probabilidad acumulada hasta qα es α. Entre estas medidas, las más utilizadas son los cuartiles, que son
percentiles de orden α = 0.25, α = 0.50 y α = 0.75. Hay, por tanto, tres cuartiles, que denotaremos por Q1, Q2
y Q3. Otros percentiles muy utilizados son los deciles, nueve mediciones D1, D2, ..., D9 que particionan la
distribución en 10 clases o grupos con la misma cantidad de información.
Resulta simple visualizar que algunos de los percentiles coincidirán, ya sea con los cuartiles o con los
deciles, por lo que generalmente son ellos los que se utilizan.
Medidas de Variabilidad
Si bien las medidas de tendencia central o de posición pueden constituir un adecuado resumen de la
información contenida en una variable, por lo general ese resumen será insuficiente hasta que no se utilice una
medida de la dispersión de la información. Esto es, parece muy necesario conocer cuán dispersa se encuentra
la información para que, junto a su tendencia central, se tenga un resumen lo más pertinente y completo
posible. Algunas de estas medidas se presentan en lo que sigue.
Definición 2.11. El rango de una variable aleatoria X es la diferencia entre máximo y mínimo.
El rango, que denotaremos como R(X), es una medida de dispersión muy elemental, aunque en
ocaciones puede ser suficiente para formarse una idea de la dispersión de la información. Por ejemplo, si la
variable corresponde a calificaciones, en la escala de 1 a 7, el rango puede ayudar a la interpretación o
resumen de esa información. Sin embargo, una de las más importantes medidas de dispersión es la varianza,
que se define en la siguiente definición. La varianza es una medidad del grado de dispersión de la información
de una variable en torno a su media. Por este hecho, mide cuán alejadas están las observaciones del centro de
la distribución.
Definición 2.12. Supuesta la existencia de E[X], se define la varianza de una variable aleatoria X, denotada
por Var[X] o σ2 , como:
Var[ X ] = E[( X − µ X ) 2 ] = E[ X 2 ] − E 2 [ X ]
Proposición 2.5. Sea X una variable aleatoria con media µ y varianza σ2X , y sea k un número real cualquiera.
Entonces:
i) Var[k] = 0
ii) Var[X + k] = Var[X]
iii) Var[kX] = k2 Var[X]
El proceso de estandarización
El efecto de esta transformación se traduce en una variable aleatoria con media 0, desviación típica 1
y a–dimensional. En efecto, la característica de a–dimensional es evidente, y, por otra parte, aplicando las
proposiciones 2.3 y 2.4, se tienen las otras dos características. Por la importancia de estas últimas, las
enunciamos formalmente en la siguiente proposición:
Desigualdad de Tschebyshev
Las relaciones y propiedades relativas tanto a medidas de centralidad como a dispersión, sólo ponen
de manifiesto características matemáticas, no por ello importantes, pero no proporcionan una forma de
interpretación eficaz, salvo elementales apreciaciones. Por ejemplo, es evidente que si una variable aleatoria
tiene una varianza nula, entonces esa variable es una constante, y por tanto toma siempre el mismo valor. Con
un análisis generalizador, se puede decir que mientras más cercano a cero se encuentre el valor de la varianza,
entonces más similares son los valores de la variable. Específicamente, serán más parecidos o similares a la
media, ya que la varianza mide la dispersión de los valores de la variable respecto de la media.
De cualquier modo, parece ser que un resumen de la información contenida en la variable pasa por
conocer al menos dos tipos de medida: de centralidad y de dispersión. Uno de los resultados, en
probabilidades y en estadística, más importantes en este sentido es la Desigualdad de Tschebyshev.
Teorema 2.1. (Desigualdad de Tschebyshev). Sea X una variable aleatoria con distribución con media µ y
varianza σ². Para una cosntante mayor que 1 k, se tiene
1
P[| X − µ |≤ kσ ] ≥ 1 −
k²
El teorema establece que, para una variable aleatoria X, la información contenida dentro del intervalo real [µ–
kσ ; µ+kσ], para una constante adecuada k, es al menos el (1 − 1 )100% .
k²
Demostración.
∞
Si f(x) es la función de densidad de X, entonces σ 2 = E[( X − µ ) 2 ] = ∫ (x − µ)
2
f ( x)dx . Puesto que el
−∞
integrando es no negativo, el valor de la integral sólo puede disminuir cuando el intervalo de integración se
reduce. Por lo tanto:
σ2 ≥ ∫µ (εx − µ ) f ( x )dx ≥ ∫µ εε f ( x )dx =ε 2 ∫
2 2
f ( x)dx
x − µ ≥ε
x− ≥ x− ≥
σ2
Dado que ∫ f ( x)dx = P (| X − µ |≥ ε ) , entonces P( X − µ ≥ ε ) ≤
x − µ ≥ε
ε2
. ♦
1. Una empresa que arrienda equipos para la tala de bosques, estudia la frecuencia con que son utilizadas sus
máquinas. Según los registros la demanda diaria de la máquina 3, MQ3, que es la máquina más utilizada,
fluctúa entre 0 y 3 veces por día, con probabilidades respectivas de 10%, 50%, 25% y 15%.
a. Indicar claramente cuál es la variable aleatoria X asociada al caso y definir explícitamente la función
de cuantía.
b. Calcular la probabilidad de que la máquina MQ3 sea requerida al menos 2 veces al día.
c. Calcular la probabilidad de que la máquina no sea requerida en un día cualquiera.
d. Calcular e interpretar E[X].
e. Calcular e interpretar SX.
2. Una máquina utilizada para eliminar la humedad de cierta variedad de plantas, posee 6 quemadores, de los
cuales 2 están defectuosos. Si se seleccionan al azar dos de estos quemadores, extraídos de la máquina e
inspeccionados, y si definimos la variable aleatoria X: número de unidades defectuosas observadas,
obtener:
a. P(X > 2)
b. P(X < 1)
c. La función de distribución acumulada
d. Calcular e interpretar E[X]
e. Calcular e interpretar SX.
4. Se tiene información sobre el tiempo X, en horas, de la llegada del primer cliente a un parque, cuya
función se define como:
2 x; 0 ≤ x ≤ 1
f ( x) =
0 e.o.c.
a. Defina la variable aleatoria.
b. Demostrar que la función corresponde a una función de densidad.
c. Calcular la probabilidad de que el primer cliente llegue antes de media hora.
1. b) P ( X ≥ 2) = 0.4
2. b) P ( X < 1) = 0.4
d) E[ X ] = 1
3. b) E[ X ] = 1
Capítulo 3
ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES
Muchos experimentos o fenómenos aleatorios derivan en una variable aleatoria con una distribución
de probabilidades típica o característica. Así por ejemplo, la variable aleatoria definida como el número de
"caras" que resulta al lanzar una moneda regular, tendrá siempre la misma distribución de probabilidades (cara
→ ½; sello → ½). Más general aún: si la probabilidad con que aparece una "cara" fuese igual a p, entonces la
distribución de probabilidades de la variable será
Esto último generaliza la situación del lanzamiento de una moneda a experimentos en los que los
únicos dos posibles resultados son de naturaleza excluyente (y también independientes uno de otro), y que
podríamos nominar "éxito" y "fracaso". En este tipo de experimentos (y por lo tanto, variables) podemos tener
procesos de control, en los que la unidad de observación se clasifica en "defectuosa" o "no defectuosa", y la
variable es Número de artículos defectuosos (o no defectuosos).
Por otra parte, se sabe que una distribución de probabilidades es conocida cuando se conoce su
función de probabilidades (de cuantía o de densidad), su distribución acumulada, su función generadora de
momentos, etc. En todos esos casos, además, es necesario conocer sólo un par de elementos de tal función
(elementos que llamamos parámetros). Tal es el caso de la distribución anterior, que será conocida totalmente
en cuanto se conozca p.
La variable definida como "Edad de la persona" en un grupo de personas, por ejemplo, casi siempre
tendrá una distribución de probabilidades que depende de dos parámetros (esta distrubución se verá más
adelante). La variable definida como el número de accidentes que ocurren en un cruce transitado, también
tiene una distribución de probabilidades que, bajo ciertos supuestos, será siempre del mismo tipo,
dependiendo sólo de un parámetro.
En síntesis, existen muchas variables aleatorias para las que, conocido el experimento aleatorio que la
genera y sus parámetros, la distribución es siempre de una misma clase.
Algunas de estas variables, o más propiamente llamadas distribuciones, son el tema central de este
capítulo.
Se llama Ensayo Bernoulli (llamado así a este tipo de experimentos en honor de Jackes Bernoulli,
matemático suizo que vivió hacia la última mitad del siglo XVII (1654–1705)) a todo experimento que tiene
sólo dos posibes resultados, genéricamente llamados "éxito" y "fracaso". La variable aleatoria asociada a este
tipo de experimentos se define como Número de éxitos en el ensayo (notar que X es discreta). De esta manera,
si X es la variable correspondiente, entonces X=0,1. Además, si la probabilidad de observar un éxito (X=1) es
p, entonces podemos anotar: p(0)=1–p y p(1)=p. Más aún, p(x) = px(1–p)1-x, para x = 0,1.
Para la variable aleatoria X puede obtenerse fácilmente la media, varianza, y todas las otras
características asociadas.
n
p ( x ) = p x (1 − p ) n − x ; x = 0,1,2, L , n
x
Notar que los parámetros de esta distribución son n y p. Es frecuente simbolizar la probabilidad de
fracaso 1–p por q.
Esta distribución es muy aplicada en procesos de control de calidad y todos aquellos fenómenos que
resultan de una suma de ensayos del tipo Bernoulli.
Para indicar que X es una variable aleatoria con distribución binomial, y de parámetros n y p, se anota
X ~ bin(n;p).
Ejemplo 3.2. Si el 20% de las piezas producidas por una máquina son defectuosas, determinar la probabilidad
de que, de 4 piezas escogidas al azar:
a) 1 sea defectuosa
b) Más de dos sean defectuosas
c) Determinar e interpretar E[X].
Solución. Como las piezas producidas por la máquina pueden ser o no defectuosas, la variable en estudio sólo
tiene dos posibles resultados, por lo tanto esta variable aleatoria será una variable que se ajusta a un modelo
binomial. Así X: “número de piezas defectuosas”. Luego, los dos parámetros que definen la distribución son:
n = 4 y p = 0.2. Así:
4
a) P ( X = 1) = 0.21 (1 − 0.2) 4 −1 = 0.4096 ; así la probabilidad de que en una muestra de 4 piezas se
1
encuentre 1 defectuosa es de aproximadamente un 41%.
b) P( X > 2) = 1 − P( X ≤ 2) = 1 − b(2;4,0.2) = 1 − 0.9728 = 0.0272 ; así la probabilidad de que en una
muestra de 4 piezas, se encuentren más de 2 defectuosas es de un 3% aproximadamente.
c) E[ X ] = np = 4(0.2) = 0.8 ; así el número esperado de piezas defectuosas en muestras de tamaño 4 es de 1
aproximadamente. ♦
La distribución de Poisson es otra distribución discreta, cuyo nombre se debe al matemático francés
Simeon Denis Poisson (1781–1840), quien la introdujo en 1837. Tiene grandes aplicaciones en variados
campos, especialmente en Biología y Medicina.
e −λ λx
p( x) = ; x = 0,1,2,K
x!
Son muchas las aplicaciones que tiene la distribución de Poisson, como representación estadística de
fenómenos, especialmente de tipo físico–biológico. Entre ellos, y muy a modo de ejemplo, el número de
bacterias en un cultivo, el número de llamadas que circulan por una red de transmisión, el número de cuerpos
celestes en un volumen cósmico, etc.
Ejemplo 3.3. En la central telefónica de cierta empresa se reciben en promedio 5 llamadas por minuto.
a) Calcular la probabilidad de que se registren más de 7 llamadas en un minuto.
b) Calcular e interpretar E[X].
Solución. Si se define la variable aleatoria X: “número de llamadas recibidas” y se advierte que sigue un
modelo poisson, entonces λ = 5 x minuto. Así:
a) P( X > 7 ) = 1 − P( X ≤ 7 ) = 1 − p (7;5) = 1 − 0.8666 = 0.1334 ; la probabilidad de que se reciban más
de 7 llamadas es de un 13% aproximadamente.
b) E [ X ] = λ = 5 ; el número esperado de llamadas por minuto es de 5.
Como se habrá advertido, cuando el número de ensayos Bernoulli es muy grande (ya sobre 30 ó 40),
el uso de la relación funcional para calcular probabilidades binomiales se hace casi imposible. Este problema
de cálculo puede resolverse usando una ley de aproximación de esta distribución, mediante la distribución de
Poisson, la que se formula en el siguiente teorema:
Teorema 3.1. Sea X una variable con distribución binomial de parámetros n y p. Si existe una constante λ tal
que p = λ/n, entonces:
λx e − λ
lim p ( x; n , p ) = ; x = 0,1,L
n→∞ x!
p →0
Demostración. La demostración requiere de algunos resultados alegebraicos que, a nuestro juicio, no aportan
mayormente a la comprensión de los conceptos probabilísticos en estudio. También requiere de algunos
resultados de cálculo, específicamente de límite. Demostraciones pueden encontrarse en la bibliografía
sugerida en el anexo. ♦
Ejemplo 3.4. Si la probabilidad que un individuo sufra una reacción desfavorable por una inyección de cierto
suero es de 0.001, determinar la probabilidad que de 200 personas 2 o más sufran la reacción.
Solución: En realidad, si X es el número de personas que sufren una reacción desfavorable por una inyección
de suero, entonces, de entre 200, X ~ bin(n=200; p=0.001). Lo que se pide es la probabilidad que X≥2, esto es,
P[X ≥ 2]. Pero P[X ≥ 2] = 1–P[X < 2] = 1–P[X ≤ 1]. Por otra parte, P[X ≤ 1] implica el cálculo de grandes
factoriales, y habitualmente las tablas de probabilidades para la binomial no porporcionan éstas para un p tan
pequeño como 0.001. Pero admitiendo que n = 200 es grande y que p = 0.001 es pequeño, se puede utilizar la
aproximación anterior y resolver el problema usando como distribución aproximada de X una distribución c
(λ = 200(0.001) = 0.2). Así, observado la tabla de probabilidades de la distribución poisson, P[X ≤ 1] =
0.0175. ♦
Cuando se hacen extracciones con reposición los resultados son independientes, por lo que este tipo
de experimentos, en estricto, conducen a la distribución binomial. Experimentos en los que la extracción o
selección de la unidad de observación es sin reposición son también de gran importancia, pero ellos conducen
a otra distribución de probabilidades: la distribución Hipergeométrica. Esta distribución se relaciona con
experimentos con dos o más resultados, en los que la probabilidad de éxito cambia de ensayo a ensayo (no hay
independencia).
Considérese una población de N unidades de observación, k de las cuales poseen cierta característica
(y N - k no la poseen). Si se hace una elección aleatoria de una unidad en esta población, el resultado debe ser
una de las k (éxitos) o una de las N - k (fracasos). Pero si se hacen n selecciones al azar, sin reposición, cada
elección subsecuente es dependiente y la probabilidad de éxito cambia en cada extracción. En estas
condiciones, si deseamos obtener x unidades del tipo k (éxitos), en una muestra aleatoria de tamaño n, el
número de éxitos en esta situación se llama variable aleatoria hipergeométrica. Sus parámetros son, como
se habrá notado, N, n y k. Su función de probabilidades es:
k N − k
x n − x
p( x) = ;0 ≤ x ≤ k ≤ N ;0 ≤ x ≤ n ≤ N
N
n
Los experimentos que dan como resultado una variable con esta distribución incluyen, generalmente,
el conteo del número de "éxitos" en una muestra tomada de un lote pequeño. Algunos ejemplos pueden ser el
número de varones que forman parte de un comité de cinco, seleccionados al azar entre veinte empleados; o
bien, el conteo de sistemas de alarma marca A, vendidos en tres operaciones en un almacén en el que había
dos sistemas marca A y cuatro sistemas marca B.
Ejemplo 3.5. En un estudio biológico se emplea un grupo de 10 individuos. El grupo contiene 4 personas con
sangre tipo A y 6 con tipo B. ¿Cuál es la probabilidad que una muestra aleatoria de 3 contenga 1 persona con
sangre tipo A?
Solución: Notemos que la variable tiene distribución hipergeométrica, con N = 10, n = 3 y k = 4. Se pide P[X
= 1].
4 10 − 4
Pero P[X = 1] = 1 3 − 1 = 0.1 ♦
10
3
2. Para una variable aleatoria X ~P(λ), deducir las relaciones E[X] = λ y Var[X] = λ.
3. Si dos variables aleatorias se distribuyen conforme a un modelo Poisson, y son independientes, ¿puede
concluirse que la suma de ellas sigue el mismo modelo?
4. El número de imperfecciones en el tejido de una tela tiene distribución de Poisson con un promedio de 4
(imperfecciones) por yarda cuadrada.
a. Calcular la probabilidad que una muestra de una yarda cuadrada tenga por lo menos un defecto.
b. Calcular las probabilidades que una muestra de tres yardas cuadradas tenga al menos un defecto.
5. Una empresa de la zona se dedica a la crianza de una especie particular de llamas, para mercados
extranjeros. Lamentablemente no se tiene información respecto de el número de individuos que mueren en
el proceso de crecimiento. Sólo se sabe que en promedio mueren alrededor de 8 individuos. Si se extrae
una muestra de 25 individuos,
a. ¿Cuál es la probabilidad de que el número de individuos que no sobrevivan al proceso de crecimiento
exceda los 10 individuos?
b. ¿Cuál es la variabilidad dentro de la cual debiera fluctuar el número de individuos muertos?, explique
su resultado.
7. En una empresa se arman lotes de 40 componentes cada uno, los que se consideran aceptables si no
contienen más de 3 defectuosos. El procedimiento de muestreo del lote consiste en seleccionar 5
componentes aleatoriamente y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la
probabilidad de que exactamente 1 defectuoso se encuentre en la muestra, si existen 3 en todo el lote?
7. P(X = 1) = 0.3011
Capítulo 4
ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES
Al igual que en la caso discreto, hay infinidad de experimentos a los que se les puede asociar una
variable de tipo continuo. Particularmente, hay muchos fenómenos que pueden "modelarse" por medio de una
distribución de probabilidades de una variable continua. Tal es el caso, por ejemplo, de la edad en un grupo
particular de personas (también la estatura, el peso, etc.); el tiempo de espera en una oficina de atención a
público, el tiempo de falla de ciertas piezas electrónicas, etc. En general, suelen modelarse adecuadamente por
medio de distribuciones continuas muchos fenómenos naturales (físicos, biológicos, etc.). Este capítulo trata,
precisamente, de algunos de estos modelos, o más propiamente llamados distribuciones. Se presentan
conceptos, ejemplos ilustrativos y algunas situaciones prácticas para el reforzamiento y aplicación por parte
del alumno.
Es sin duda la distribución continua más simple. En un intervalo (a,b) supone que cada valor es
igualmente probable. Sus aplicaciones van desde modelar el tiempo de llegada de un autobus a una estación
de terminal, hasta la simulación por computadora de determinados fenómenos, incluidos fenómenos con
determinada distribución. Por esto último, la distribución uniforme es la base de los sitemas
computacionales de simulación.
En el intervalo real (a;b) la función de densidad de una variable aleatoria con distribución uniforme
1
está dada por f ( x) = I ( a ,b ) ( x ) .
b−a
Ejemplo 4.1. Cuando deja de funcionar una tarjeta de circuito integrado, un sistema de cómputo se detiene
hasta que se entregue una tarjeta nueva. El tiempo de entrega X está uniformemente distribuído en el intervalo
de uno a cinco días. El costo C de esa falla y la parada comprende un costo fijo co de la refacción y un costo
que aumenta en forma proporcional a X2, de modo que C = co + c1X2 . Calcular el costo esperado de una
determinada falla del componente.
x =1 4 3
Por lo tanto, el costo esperado es E[C] = co + c1 31 . ♦
3
Existe una gran variedad de fenómenos que, repetidos un número grande de veces, han demostrado
que se pueden modelar por una determinada distribución de probabilidades. Ello ha dado origen al estudio de
una similar variedad de variables aleatorias estrechamente relacionadas con tales fenómenos. En el caso
discreto, por ejemplo, existe un número relativamente grande de fenómenos que se pueden modelar por una
variable aleatoria discreta. El lanzamiento de una moneda es uno de los más clásicos fenómenos
(experimentos) cuya distribución de probabilidades obedece a una regla bien específica, la llamada Regla de
Bernoulli. Si el experimento consiste en lanzar 20 veces la misma moneda, entonces este experimento se
puede modelar por la distribución de una v.a. discreta que se reconoce como Distribución Binomial.
De entre todas las variables aleatorias con una distribución de probabilidades conocida, sin duda la
más importante es la llamada variable aleatoria normal. Sin temor a equivocarnos en el uso del lenguaje,
indistintamente se habla de variable aleatoria normal o de distribución normal.
Por medio de este modelo (el modelo normal), se pueden estudiar diversas variables, tales como la
estatura de las personas de una determinada población, el ritmo cardíaco en personas sin afecciones
importantes aparentes, la velocidad del flujo sanguíneo, el número de hojas en una clase de plantas, la
cantidad de árboles de cierta especie en un área específica. En general, mediciones relacionadas con datos
meteorológicos, mediciones efectuadas en organismos vivos (animales o vegetales), mediciones físicas de
partes manufacturadas, ciertos test de habilidad o inteligencia, pueden ser estudiadas como parte de esta
distribución. Sin embargo, debe tenerse mucho cuidado al suponer una distribución normal, ya que de no ser
así, las conclusiones obtenidas pueden distar mucho de la realidad, y ser, por lo tanto, absolutamente
contradictorias en algunos casos.
Todas estas características configuran una forma gráfica muy particular de la función de densidad de
una variable aleatoria normal. El siguiente es un gráfico típico de este tipo de densidades (los de la familia
normal). Por su forma de campana, y en honor a Gauss, a esta familia de curvas se le conoce también con el
nombre de campana de Gauss.
Si X es una variable aleatoria Normal, con parámetros µ y σ, entonces se anota X ~ N(µ ;σ) ó bien X
~ N(µ ; σ²).
x 1 −1
F ( x | µ ,σ ) = ∫ exp ( y − µ ) 2 dy
−∞
2π σ 2σ ²
Esta integral no puede evaluarse en forma cerrada, pero sí se pueden encontrar valores aproximados
para ella, usando métodos numéricos.
Ejemplo 4.2. Sea X una variable aleatoria que representa la inteligencia medida por medio de pruebas CI. Si X
~ N(100, 10), hallar las probabilidades que X sea menor que 85.
Solución: Lo que se pide es P(X < 85). Pero esto es equivalente a calcular:
P[( X-100)/10 < (85-100)/10] = P(Z<-1.5)
= Φ(-1.5).
Este valor se encuentra en tablas, o se puede obtener por medio de alguna aplicación computacional.
De la Tabla, el valor aproximado es 0.0668.
La región achurada en la parte de la derecha del gráfico muestra la equivalencia, gracias a la simetría,
entre Φ(–1.5) y 1 – Φ(1.5). Este hecho se expresa en términos generales como Φ(z) = 1 – Φ(–z), y es una
importante relación de cálculo. ♦
Por su naturaleza y sus múltiples aplicaciones, es de suponer que la distribución normal satisface un
número importante de propiedades. Así es efectivamente, y a continuación enunciamos algunas de ellas.
X − np
Teorema 4.1. (De De Moivre–Laplace): Sea X~bin(n;p). Entonces Y = ~ N (0,1) ⇐ n ← ∞
np(1 − p)
Observación: La aproximación sugerida es cuanto mejor si np > 5 y p ≤ 0.5, o bien n(1-p) > 5 y p > 0.5.
Proposición 4.2. Si {Xi} es una colección de variables aletorias N(µi ; σi²) independientes (muestra aleatoria),
entonces ∑
X i ~ N ( µ i ; σ i2 ) ∑ ∑
Demostración. Se sugiere usar inducción y aplicar proposición 4.1. ♦
Proposición 4.3. Si {Xi} es una muestra aleatoria tal Xi~N(µi;σi²),∀i y ai∈ℜ, entonces
∑a Xi i ~ N (∑ ai + ∑ µ i ; ∑ ai2σ i2 )
Aunque la distribución normal tiene aplicaciones en múltiples campos o áreas de estudio, en modo
alguno ello significa que todo proceso empírico, particularmente, pueda ser modelado por medio de esta
distribución. Por ejemplo, la duración de ciertas componentes electrónicas tienen una distribución que no es,
precisamente, normal: pocas de ellas tendrán vidas útiles muy cortas, muchas tendrán una vida cercana al
promedio, y muy pocas tendrán una vida útil extraordinariamente larga.
En otra situación, y continuando con situaciones ilustrativas, el ingeniero de transporte que observa el
flujo de tráfico, frecuentemente se interesa en la longitud del intervalo de tiempo entre los arribos de vehículos
a un punto. Por ejemplo, si un intervalo es demasiado corto, hará que un vehículo que intente cruzar o
introducirse en el flujo de tráfico, se detenga o interrumpa el flujo. Este tipo de comportamientos puede
modelarse adecuadamente por una distribución llamada exponencial.
Sea X el tiempo que transcurre hasta el primer evento Poisson, mismo que ocurre a una tasa constante
λ. Entonces la probabilidad que X >x es equivalente a que en el intervalo de tiempo de longitud x no ocurra
evento Poisson alguno. Esto es, cY(0), donde Y es una variable aletoria de Poisson con parámetro λx. En
símbolos, FX ( x ) = 1 − e − λx . De aquí se deduce que la función de densidad de X está dada por:
f ( x) = λe − λx ; x ≥ 0 .
Esto define la distribución exponencial, que denotaremos por Ε(λ). Describe el tiempo que
transcurre hasta el primer suceso Poisson. Por lo tanto es una distribución continua. Dada la estacionariedad y
la independencia de los procesos Poisson, e-λx es la probabilidad de que no ocurra ningún suceso en un
intervalo cualquiera de tiempo de longitud x, comience o no en cero.
Por razones que se entenderán mejor cuando se presente la distribución gamma, es frecuente denotar
el parámetro λ por 1 . En este contexto, la función de densidad de la distribución exponencial es
θ
1 −x
f ( x) = e θ
;x ≥ 0.
θ
Un tipo o modelo de distribución más general que el modelo exponencial, a la hora de modelar
fenómenos como los descritos a propósito de la distribución exponencial, es la distribución Gamma. Su
función de densidad viene dada por:
1
f ( x | α ;θ ) = Γ(α )θ α
{ }
x α −1 exp − x
θ x > 0 α ,θ > 0
0 en otro caso
Los parámetros de esta distribución son α y θ. La cantidad Γ(α) es la función gamma en α. Algunos
detalles de la función gamma se presentan en el anexo.
Para indicar que la variable aleatoria X tiene una distribución gamma con parámetros α y θ, se anota X
~ Γ(α ; θ).
Volvamos a la distribución gamma. Entre muchas otras aplicaciones de la distribución gamma se pueden
mencionar:
– Aplicaciones a problemas de física, tales como tiempo que transcurre entre dos eventos dados de un
fenómeno Poisson; tensión a la ruptura de ciertos materiales, etc.
– Problemas relativos a lineas de espera.
– Ingresos familiares, edad a la que un hombre contrae matrimonio por primera vez, etc.
– Media igual a αθ
– Varianza igual a αθ²
−α
– Función generatriz de momentos igual a m X (t ) = (1 − θt )
–
α −1 1 x k
( )
P[ X ≤ x] = 1 − ∑ exp − x . Esta es una aproximación a la distribución acumulada.
θ
k =0 k! θ
La distribución de Erlang: Un caso especial de la distribución gamma es cuando α∈ Z+. Esta distribución es
conocida con el nombre de distribución de Erlang.
Establecida por el físico suizo del mismo nombre, la distribución de Weibull se ha empleado en los
últimos años como modelo para situaciones del tipo tiempo–falla, relacionados con componentes mecánicos y
electrónicos.
Otra razón por la cual esta distribución es útil en el estudio probabilístico para tiempos de vida útil de
componentes o sistemas, se encuentra en la distribución gamma. En efecto, ésta (la distribución gamma)
puede servir como modelo para las situaciones señaladas. Sin embargo, la función del índice de riesgo
(definida arriba) para la distribución gamma tiene una cota superior que limita su aplicabilidad a los sistemas
reales. Por esta razón, y otras, a menudo son otras las distribuciones que dan mejores modelos de los datos de
tiempos de vida útil. Una distribución de éstas es la de Weibull.
Una variable aleatoria X se dice que tiene distribución de Weibull si su función de densidad tiene la
forma:
− xγ
γ
f ( x) = x γ −1e θ
;x > 0
θ
con γ y θ positivos. Notar que esto son los parámetros. Cuando γ = 1, la densidad se transforma en la densidad
de una exponencial. Para γ > 1, la función es similar a la densidad de una distribución gamma, pero tiene
algunas propiedades matemáticas un tanto distintas.
Una manera cómoda de ver las propiedades de la densidad de la distribución de Weibull es usar la
transformación Y = Xγ. Si γ = 2, entonces puede observarse que Y = X² tiene una disrtibución exponencial. Esto
es, inversamente, si se inicia con una variable aleatoria Y distribuída exponencialmente, entonces la raíz
cuadrada de Y tendrá distribución de Weibull γ = 2.
Otra distribución de particular interés, especialmente por sus aplicaciones en la inferencia estadística,
es la distribución Ji–cuadrado (o Chi–cuadrado), que presentamos a contuación:
Sea X una variable aleatoria. Se dice que X tiene distribución Ji–cuadrado si y sólo si su función de
densidad está dada por la expresión
ν −2 − x
1
x 2 e2 ;x > 0
f ( x) = 2ν 2 Γ(ν )
2
0 e.o.c.
El parámetro de esta distribución es ν, y se le conoce con el nombre de grados de libertad. Notar que
el parámetro es un número entero.
Para indicar que X tiene una distribución Ji–cuadrado con ν grados de libertad se anota X ~ χ²(ν).
Puede notarse que la densidad de una distribución Ji–cuadrado es un caso particular de la densidad de
ν
una distribución gamma. En efecto, si en la densidad gamma hacemos α = y θ = 2, entonces la densidad
2
gamma es la densidad de una variable chi–cuadrado.
La distribución acumulada de una variable aleatoria Ji–cuadrado se encuentra tabulada para algunos
percentiles y un gran número de grados de libertad.
Otra forma de obtener (o más bien construir) una variable con distribución Ji–cuadrado, es mediante
la transformación Y = Z², donde Z es una variable aleatoria con distribución normal estándar. Esto es, una
variable aleatoria Ji–cuadrado se puede obtener como el cuadrado de una variable normal estándar. En este
caso, la variable Ji–cuadrado tiene un grado de libertad. Una generalización se obtiene mediante la suma de k
variables aleatorias normales estándares, todas independientes. En este caso, la Ji–cuadrado resultante es una
distribución con k grados de libertad. Esta definición es muy útil en muestreo, como en su oportunidad
veremos.
Hay una manera fácil de definir una variable aleatoria con distribución t–student, nombre debido al
seudónimo con que W. Gosset la publicó después de desarrollarla en 1908. Esta manera es:
Una variable aleatoria T con distribución t–Student se obtiene como la razón entre una variable
aleatoria normal estándar y la raíz cuadrada de una Ji–cuadrado, independiente de la primera, donde ésta
última ha sido previamente dividida por sus grados de libertad. La t–Student tiene, en consecuencia, un
Z
parámetro, y es el mismo que el de la Ji–cuadrado (los grados de libertad). En símbolos, T = ~ tν ,
X
ν
donde X es una Ji–cuadrado con ν grados de libertad.
La función de densidad, poco útil para efectos prácticos, puede verse en la mayoría de los textos de
Estadística. En particular, en Canavos, página 235; Freund–Walpole, página 296.
Puede demostrarse que esta distribución es simétrica respecto del origen (cero), asintótica respecto de
la recta x = 0, y de forma gráfica muy similar al gráfico de la densidad de una normal estándar. Se sugiere
hacer uso de software para obtener gráficos de la densidad de esta distribución para algunos valores de su
parámetro. Es especialmente interesante el comportamiento del gráfico a medida que aumentan sus grados de
libertad.
Su aplicación, al igual que las dos distribuciones anteriores, se justifica en procesos de inferencia. Su
función de distribución acumulada, también, se encuentra tabulada para algunos niveles de probabilidad y una
gran combinación de grados de libertad.
1
1. Demostrar que si X ~ U(a;b), entonces E[ X ] = a +b
2 y Var[ X ] = (b − a) 2 .
12
3. La vida de servicio durante la que un determinado tipo de termisor produce resistencias dentro de sus
especificaciones sigue una distribución de Weibull con γ = 2 y θ = 50 (mediciones en miles de horas).
a. Hallar las probabilidades de que uno de esos termisores, que se ha de instalar en un sistema, trabaje en
forma correcta durante más de 10 mil horas.
b. Calcular la vida esperada para termisores de este tipo.
ANEXOS
A. TEMAS COMPLEMENTARIOS
En el capítulo 1, sobre probabilidades, se pudo apreciar que el cálculo de probabilidades tiene mucho
que ver con la cantidad de elementos de un espacio muestral o de un evento, en el caso de espacios discretos.
Determinar la cardinalidad (número de elementos) de un suceso a veces puede resultar no tan trivial. Por
ejemplo, es fácil deducir el número de elementos del espacio muestral asociado al lanzamiento de un dado, e
incluso puede resultar fácil determinar la cardinalidad del espacio muestral asociado al experimento de lanzar
dos dados. Sin embargo, si el experimento consiste en definir una función entre dos conjuntos, entonces la
determinación de la cardinalidad del espacio muestral puede complicarse por la cardinalidad de cada conjunto
considerado en la definición de las funciones.
Puede resultar casi demasiado obvio decir que el cálculo de probabilidades requiere, entre otros
conceptos, de saber “contar”. Pero a veces este simple proceso de conteo puede significar enormes esfuerzos.
Afortunadamente existen métodos matemáticos que facilitan este proceso de conteo y, por lo tanto, permiten
un mejor y eficaz tratamiento de las probabilidades. Estas herramientas son los principios de conteo, que en
este capítulo se presentan en relación a espacios muestrales finitos y discretos.
A.1. ESPACIOS
ESPACIOS MUESTRALES FINITOS
En el estudio de “lo que es posible” hay esencialmente dos tipos de problemas: el primero se genera al
intentar realizar una lista de todo lo que puede suceder en una situación determinada, y el segundo consiste en
determinar cuántas cosas diferentes pueden suceder, sin necesidad de hacer efectivamente la lista. Este último
es de especial importancia pues en ocaciones necesitamos sólo el número de posibilidades y no la lista
completa.
Principios multiplicativos
Existen algunas formas útiles en algunas situaciones y que facilitan considerablemente el “conteo”.
Algunas de estas formas se agrupan en lo que se conoce como principios multiplicativos del conteo.
También existen los principios aditivos, pero aquí no se tratarán.
Principio básico: Si una selección consta de dos pasos, de los cuales el primero se puede efectuar de m
formas, y la segunda se puede realizar de n formas, entonces, existen m · n formas de selección.
Principio multiplicativo: Si una selección consta de k pasos, de los cuales el primero puede efectuarse de n1
formas, el segundo de n2 formas, y el k – ésimo se puede realizar de nk formas, entonces la selección total se
puede hacer de n1 · n2 ·...· nk maneras.
Ejemplo A.1. En una editorial, que empasta un libro de estadística aplicada, el cliente puede escoger entre 20
colores distintos y 8 grosores de las tapas. ¿De cuántas formas distintas un cliente puede hacer el libro?
Ejemplo A.2. En un casino universitario para el almuerzo se ofrecen 2 tipos de carne, 4 tipos de ensalada, 3
tipos de postre y 5 tipos de jugo. ¿Cuántos almuerzos distintos es posible seleccionar?
Permutaciones
Ejemplo A.3. ¿De cuántas formas distintas es posible ordenar 12 libros, en grupos de 4?
Solución.
Para n = 12 y r = 4, es posible ordenarlos de 12 · 11 · 10 · 9 =11.880 formas.
Otra forma de hacerlo es:
12!
12 P4 = = 11.880. ♦
(12 − 4)!
Ejemplo A.4. ¿ De cuántas maneras se pueden asignar a 10 profesores, diez cursos de estadística?
Combinaciones
n n!
C = =
n r r!(n − r )!
r
Ejemplo A.5. ¿De cuántas maneras un alumno puede seleccionar tres libros de una lista de 8, indicados para
un curso?
Solución.
Se supone que en esta ocasión el orden en que se seleccionan los tres libros no es importante, luego si n = 8 y
8 8 · 7· 6
r = 3, las formas de seleccionar son 8 C 3 = = = 56 .♦
3!
3
Un vector aleatorio X es un vector cuyas componentes son variables aleatorias. Así, por ejemplo, el
vector X'=(X1,X2)' es un vetor cuyas componentes X1 y X2 son variables aleatorias. La notación X' es para
indicar que se trata de un vector columna.
Para un vector aleatorio X tiene sentido definir su función de probabilidades si todas sus
componentes son discretas, y la función de densidad de X si todas las componentes son continuas.
Cualquiera de estas dos eventuales funciones satisfacen las siguientes propiedades:
En la tabla anterior se registra lo que para un vector aleatorio se llama función de probabilidad
conjunta (o función de densidad conjunta, si se trata de variables o componentes continuas). Al igual que
en probabilidades, la distribución de cada una de las componentes del vector es la función de probabilidades
marginal (o densidad marginal). En el ejemplo, la función de probabilidades marginal de X1 es el vector
(0.6;0.4)', mientras que la marginal de X2 es el vector (0.5;0.5)'.
f ( x1 ; x0 )
Definición A.5. La densidad condicional de (X1;X2)’ se define por f ( x1 | X 2 = x 0 ) = .
f X 2 ( x0 )
Independencia de variables aleatorias
Dos variables aleatorias son independientes si la densidad conjunta de ellas es el producto de las respectivas
marginales.
• Γ(n + 1) = n! , ∀ n ∈ IN
• Γ( x + 1) = xΓ( x) ; ∀ x ∈ IR+
• Γ( 1 ) = π
2
∞ 5
Ejemplo A.6. Evaluar la integral ∫0
x 2 e − x dx .
∞ 5 7 5 5 5 3 1 1 15
Ahora, completando la serie, ∫0
x 2 e − x dx = Γ( ) = Γ( ) =
2 2 2 222 2
Γ( ) =
8
π
Otra forma de evaluar esta integral es usando la técnica de Integración por partes, sucesivamente, lo cual
puede "complicarse" un poco. ♦
Ejercicios y problemas
1. Sean X y Y dos variables aleatorias con función de densidad conjunta definida por:
3x (1 − xy) 0 ≤ x, y ≤ 1
f ( x, y ) =
0 e.o.c.
Verificar propiedades de f. Hallar además, las distribuciones marginales correpondientes, la función de
distribución acumulada y la media del vector.
X2
0 2
0 0.2 0.3
X1
1 0.4 0.1
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
__________________________________________________________
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8189 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9906 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998
E. SUGERENCIAS BIBLIOGRÁFICAS
Para unA revisión bibliográfica tendiente a complementar o profundizar algunos temas
tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos:
ESTADÍSTICA DESCRIPTIVA E
INFERENCIAL
INDICE DE CONTENIDOS
INTRODUCCIÓN ............................................................................................................................. 5
ANEXOS
A. INTERVALOS DE CONFIANZA COMUNES ..................................................................... 64
B. PRUEBAS DE HIPÓTESIS COMUNES ................................................................................ 65
C. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................... 66
INTRODUCCIÓN
Corresponde ahora acuparnos de aquellos problemas que tienen un asidero un tanto más empírico. En este
tipo de situaciones, como se verá a lo largo de esta unidad, lo fundamental estará, precisamente, en el
desconocimiento de los parámetros. Como se sabe, cualquier afirmación o validación de ella requiere, en
términos estadísticos, conocer de los parámetros de la distribución correspondiente. Deben hacerse esfuerzos,
entonces, por lograr un acercamiento a esos parámetros lo más eficaz y eficiente posible, como una forma útil
de llegar, finalmente, a levantar el conocimiento subyacente al problema que sea objeto de estudio.
Básicamente de todo aquel proceso de acercamiento al parámetro, desde la forma de obtener la información
necesaria para ello, sus análisis pertinentes y las conclusiones derivadas de esos procesos, trata esta segunda
unidad. Se hace un llamado a leer el documento con atención, a trabajar en los problemas propuestos y
rehacer aquellos ya resueltos. Esa práctica es la que irá consolidando una forma de trabajar, y por sobre todo,
de pensar inteligentemente cada situación que en materia de investigación se vaya presentando.
Capítulo 1
ESTADÍSTICA DESCRIPTIVA
1.1.
.1. LA INFORMACIÓN
Información al menos en el contexto de estas notas, es aquello que de alguna forma u otra nos da cuenta de
alguna realidad, abstracta o concreta. En algunos casos la información puede llegarnos vestida de algún
comentario al pasar, de un vistazo raudo a la primera página de un diario, a alguna característica que nos
llamó la atención en nuestro cotidiano caminar. Otras veces nos llega a través de un medio más elaborado de
comunicación, como un noticiero, un comentario estructurado de actualidad, o alguno panel de comentaristas
especializados, En estos casos, es imporante notar nuestra voluntaria disposición a la recepción de la
información. Una forma más elaborada por la que podemos obtener o recibir información, ocurre cuando
somos nosotros quienenes definimos qué información deseamos poseer, y en función de este objetivo la
definimos, le generamos, etc. Esto último, en sus definiciones más simples, corresponde o es papel de la
Investigación.
Pero, ¿para qué necesitamos la información? Esta pregunta es clave. Podríamos decir que para tomar
decisiones, pero corremos el riesgo de no considerar en nuestra justificación algunos otros aspectos tanto o
más importantes que una toma de decisiones. Puede ocurrir, por ejemplo, que el objetivo final de la
información sea transformar nuestro medio de vida o de acción, y ya no decidir si cambiarlo o no.
Por estas y muchas otras razones, es fundamental tener claridad respecto de la pregunta anterior. No
olvidemos que a causa de la información se construyen puentes y caminos (información de la porosidad del
suelo, de su resitenca, etc.), un gobierno decide si endeudarse o no (información de tipo económico,
tendencias de precios, de inflación, y tanta otra). Por información se comete y se han cometido asesinatos
(recuérdese la Guerra Fría), se han declarado las Guerras (y también se han terminado). En fin, hay muchas
razones y muchos escenarios sobre los cuales se puede entender la información, o más bien SU MAJESTAD,
LA INFORMACIÓN.
Dada su enorme importancia, en todo contexto, el hombre ha hecho esfuerzos, desde siempre, por tener un
acceso cada vez más directo a ella (a la información). Se han eliminado barreras, se ha dispuesto para cada
vez más personas, etc. Un ejemplo de esto último lo constituye la Supercarretera de la Información, conocida
mundialmente como INTERNET. Internet es un mundo sin fronteras, sin costo, sin orden. En síntesis, como
alguien dijera, la más auténtica y necesaria Anarquía. Pero no se somete a la burocracia ni a las leyes, algunas
veces absurdas, que se encargan de distribuirla. Internet es hoy día el ejemplo concreto de la importancia y
utilidad de la información, y está abierta tanto para obtener información, como para proveerla. Exactamente.
Cualquiera de nosotros puede "poner" información en esta Red del Mundo, y cualquier información. Lo que
todo usuario de Internet (o de la información, más generalmente) necesita, es saber qué busca o qué necesita.
Pero esto requiere de la respuesta a una cuestión previa: ¿Para qué?
Bajo una perspectiva científica, la última pregunta debe analizarse en un contexto en el que la identificación o
definición de un problema es relevante, por no decir vital. Es este problema o interrogante lo que permitirá
definir la información. Pensemos en la siguiente situación: "Al profesor A le ha correspondido la jefatura del
Curso B. Desde un comienzo ha detectado ciertos problemas de conducta, los que ha ido tratando con celo y
profesionalismo, sobre todo por medio de charlas o lecciones de convivencia social. A pesar de lo mucho que
ha hecho, no ha logrado controlar el curso en la forma que él desearía. Hay una pregunta que ronda por su
mente: ¿Por qué?. Es la causa del problema lo que le aproblema, y por ello ha decisdido enfrentar el cómo
analizar la situación"
Lograr explicar la realidad del curso es un proceso que puede resultar vital para el cambio de actitud de loa
alumnos del curso. Por ello, los medios utilizados en el tratamiento de la información, así como la calidad de
ésta, son fundamentales para el logro de los objetivos propuestos. También es fundamental la calidad de los
instrumentos de recolección u obtención de información, ya que es un hecho que la calidad de los resultados
es función de la calidad de los instrumentos utilizados en la obtención y tratamiento de la infor-mación.
1.2. LA ESTADISTICA
Dada su importancia en materia de análisis y procesamiento de información, haremos una pausa en el caminar
hacia el análisis para observar con algo más de detenimiento el concepto de estadística. Para ello, nada mejor
(a mi juicio) que la lectura de unas notas que hace algunos años me facilitó un colega, el que a su vez las
extrajo quién sabe de qué polvoriento archivo, pero que a nuestro juicio contienen en si un valiosísimo aporte
para la comprensión, aunque parcial, de esta disciplina.
¿Qué es Estadística?
La mayoría de la gente está familiarizada con el término estadística usado para indicar y registrar hechos
numéricos y cifras: por ejemplo, las alturas de los rascacielos de la ciudad, el precio diario de artículos
seleccionados en un almacén, el tonelaje de carga encargada a un barco durante los últimos 15 años o aún el
número de yardas ganadas por el equipo campeón en un juego de fútbol. Sin embargo, este uso del término no
es el foco central del tema. La estadística principalmente trata con situaciones en que la ocurrencia de algún
evento no puede predecirse con certeza. Nuestras conclusiones son frecuentemente inciertas porque nos
basamos en datos o información incompleta -valorar la actual tasa de desempleados en una región basado en
una inspección de unos pocos miles de gente es un ejemplo. Incerteza surge también cuando observaciones
repetidas de un fenómeno produce resultados variables aún cuando intentemos controlar los factores que
regulan el evento que está siendo observado. Por ejemplo, los pinos de un año no tienen todos la misma
altura, aún cuando hayan germinado y crecido en el mismo semillero bajo idénticas condiciones
meteorológicas y de terreno. El tiempo para cortar el césped, el peso de un pollo de seis semanas criado en
una granja y el período de alivio de una fiebre después de tomar cierta medición son otros ejemplos de
situaciones en las cuales aparece la variabilidad en observaciones repetidas. La estadística es un cuerpo de
conceptos y métodos usados para coleccionar e interpretar datos relativos a un área particular de investigación
y para extraer conclusiones en situaciones en que estén presentes la incerteza y la variación.
Históricamente, la palabra "estadística" se deriva de la palabra latina "status" que significa "estado". Por
varias décadas, estadística fue asociada únicamente con la exposición de hechos y cifras económicas,
demográficas y situaciones políticas predominantes de un país. Aún hoy día, una gran cantidad de informes
gubernamentales que contienen documentación numérica masiva y llevan títulos como "Estadísticas de la
Producción Agraria" y "Estadística Laboral" son residuos del origen de la palabra "estadística". Una
importante parte del público en general todavía tiene el concepto erróneo que la estadística está
exclusivamente asociada con traumáticos arreglos de números y a veces desconcertantes series de gráficos.
Por lo tanto, es esencial recordar que la teoría y metodología de la estadística moderna han hecho gigantes
avances fuera de la mera compilación de tablas y gráficos numéricos. Como un tema, ahora la estadística
abarca conceptos y métodos que son de gran importancia en toda investigación que involucre recolección de
datos, mediante un proceso de experimentación y observación, y realizar inferencias u obtener conclusiones
mediante el análisis de tales datos. La exposición numérica ha llegado a ser un aspecto menor de la estadística
y pocos, si los hay, profesionales estadísticos gastan su vida únicamente construyendo tablas y gráficos.
Fuentes de información varían desde la experiencia individual a informes en los medios informativos,
documentos gubernamentales, y artículos en revistas especializadas. Pronósticos del tiempo, informes de
mercado, índices del costo de vida y los resultados de encuestas públicas de opinión son otros ejemplos.
Los métodos estadísticos sin empleados ampliamente en la preparación de tales informes. Informes que son
basados en sólidos razonamientos estadísticos y la cuidadosa interpretación de las conclusiones serán
genuinos e informativos.
Frecuentemente, sin embargo, el deliberado o inadvertido mal uso de la estadístiva conduce a conclusiones
erróneas y distorsionadas de la realidad. Para el público en general, los consumidores básicos de estos
informes, es esencial algunas ideas de razonamiento estadístico para una adecuada interpretación de los datos
y evaluación de las conclusiones que son extraídas.
El razonamiento estadístico da criterios para determinar qué conclusiones están realmente basadas en datos y
cuáles no. En todos los campos de estudios en donde las inferencias son extraídas de análisis de los datos, la
credibilidad de las conclusiones también depende en gran medida del uso de los métodos estadísticos en la
etapa de colección de los datos. Los métodos estadísticos juegan un papel importante en un estado
democrático moderno. Por ejemplo, si los dirigentes elegidos pueden determinar los deseos de sus electores
mediante un adecuado y rápido método de muestreo, así la formulación de los programas políticos pueden
estar más acorde con la voluntad del pueblo.
Así la naturaleza básica del conocimiento es típicamente una repetición de este ciclo en una u otra forma.
Raramente, es una verdad descifrada en una o aún en pocas operaciones del ciclo y cambiando las
condiciones en muchos campos demanda una continuación indefinida del proceso de repetición.
La rama de la Estadística que trata con la planificación de los experimentos se llama diseño de experimento
y la que trata con la definición recolección de información diseño de muestreo.
Después que los datos han sido recolectados hay una gran necesidad por los métodos estadísticos. Algunos de
estos métodos están diseñados para resumir la información contenida en los datos y llamar la atención sobre
las características sobresalientes y no hacer caso de los detalles no esenciales.
Un grupo más importante de métodos para analizar los datos están dedicados a extraer generalidades o
inferencias respecto del fenómeno bajo estudio. El tópico que trata con los métodos estadísticos que resumen
y describen las características sobresalientes de los datos usualmente se conoce como estadística descriptiva.
Aunque históricamente la primera actividad, hoy día resúmenes descriptivos son sólo una estrecha parte de la
esfera de actividades que caen bajo el alcance del tema de la estadística. Uno de los principales avances en la
materia es, actualmente, la evaluación de la información presente en los datos y la valoración del nuevo
aprendizaje ganado a partir de esta información. Esta es el área estadística inferencial y sus métodos
asociados son conocidos como los métodos de la inferencia estadística. El uso de estos métodos proporciona
una base de razonamiento para interpretar lógicamente los hechos observados, para fijar la amplitud en la cual
estos hechos soportan o conducen un modelo postulado y para sugerir precisas revisiones de la teoría
existente o quizá para planificar investigaciones adicionales.
Las diferentes áreas de la estadística mencionadas anteriormente no son entidades disjuntas pensadas para
usar cada una en etapas únicas de una investigación. Más bien, ellas están integradas en un sistema
entrelazado de actividades donde los métodos usados en un área pueden tener fuertes influencias de aquellos
usados en las otras áreas. Para decidir sobre el proceso y la dimensión de los datos que serán recolectados, se
debe tener una percepción de los procedimientos deductivos contemplados para usar y la potencia de las
inferencias anheladas. Por otro lado, los métodos de análisis de datos y extractores de conclusiones son
fuertemente contingentes con el proceso por el cual fueron generados los datos.
Para clasificar las generalidades precedentes se darán aquí algunos pocos ejemplos. Ellos ilustran algunas
situaciones típicas en que el proceso cognitivo de investigar un fenómeno involucran la recolección y análisis
de datos en que los métodos estadísticos son consecuentemente conocimiento auxiliar indispensable para una
relación sobre analisis se sugiere ver el anexo.
– Producción de Vegetales: Experimentos que involucran la fertilización de diferentes tipos genéticos de
especies vegetales para producir híbridos de alto rendimiento son de considerable interés para los
científicos agrícolas. Como un ejemplo simple, supongamos que la producción de dos variedades de
híbridos serán comparados bajo condiciones climáticas específicas. La única forma para conocer el
rendimiento relativo de estas dos variedades es sembrarlas en un cierto número de sitios, coleccionar los
datos sobre sus rendimientos y luego analizarlos.
– Diagnósticos Clínicos: La detección precoz es de eminente importancia para el tratamiento quirúrgico
exitoso de muchos cánceres. Debido a que frecuentes chequeos en hospitales son caros e inconvenientes,
los m‚dicos buscan procesos de diagnósticos efectivos que los pacientes puedan autoadministrarse. Para
determinar los méritos de los nuevos procesos en término de sus tasas de éxito en detectar casos
verdaderos y evitar detecciones falsas, el proceso debe ser ampliamente probado en un gran número de
personas, que deben entonces sobrellevar chequeos en hospitales para comparación.
– Programas de Entrenamiento: Programas de entrenamiento o enseñanza en muchos campos, diseñados
para un tipo específico de clientes (estudiantes, trabajadores industriales, grupos de monitores,
incapacitados físicos, niños retrasados, etc.) son continuamente controlados, evaluados y modificados
para mejorar su utilidad en la sociedad. Para conocer acerca de la efectividad comparativa de diferentes
programas, es esencial coleccionar datos sobre el logro o desarrollo de habilidad de materias en la
completación de cada programa.
– Migración Animal: Los biólogos estudian los hábitos migratorios de aves y animales marcándolos con
números de identificación en localizaciones geográficas relevantes y posteriormente rastreándolos en
otras localizaciones. Los datos obtenidos por tales métodos no sólo nos ayudan a entender el mundo
animal sino que ellos también alertan a los conservacionistas de situaciones que requieren acciones para
proteger a las especies dañadas.
– Inspecciones Socioeconómicas: En las áreas interdisciplinarias de la sociología, economía y ciencias
políticas, se emprenden estudios en aspectos tales como el bienestar económico de diferentes grupos
étnicos, patrones de gasto en diferentes niveles de ingreso y actitudes hacia la legislación pendiente. Tales
estudios son típicamente basados en datos obtenidos mediante entrevistas o contactando una muestra
representativa de personas seleccionada mediante un proceso estadístico de una gran población que forma
el dominio de estudio. Los datos son luego analizados y se hacen interpretaciones del punto en cuestión.
Población y muestra
Aunque los ejemplos anteriores están extraídos de una amplia variedad de campos y solamente se dan
superficiales descripciones del alcance y objetivos de los estudios, son fácilmente visibles algunas
características comunes.
Primero, la característica fundamental más aparente en todas estas áreas de estudios es el hecho que la
colección de datos mediante un proceso apropiado de experimentación u observación es esencial para adquirir
nuevos conocimientos. Segundo, es inevitable alguna cantidad de variabilidad en los resultados a pesar del
hecho que las mismas condiciones o similares prevalecen durante las repeticiones de cada experimento u
observación. Por ejemplo, en el caso de los vegetales, es irreal esperar que cada planta de una variedad
particular tenga exactamente el mismo rendimiento, ya que la naturaleza no sigue una ley rígida.
Análogamente, un programa de entrenamiento para individuos con condiciones similares produce variabilidad
en las medidas de sus logros. La presencia de alguna variación inherente a los resultados y bajo condiciones
experimentales constantes tiende a obscurecer el efecto de un cambio en estas condiciones. Un ingrediente
importante del análisis estadístico de datos es la formulación de modelos apropiados que representen la
variabilidad intrínseca encontrada en la naturaleza.
Una tercera característica notable de los ejemplos del punto anterior es el hecho que es físicamente imposible
o prácticamente no factible coleccionar y estudiar un conjunto de datos pertenecientes a un área específica de
investigación.
Cuando se obtienen los datos de experimentos de laboratorios o ensayos de terreno, no importa cuantas
experimentaciones han sido realizadas, siempre puede obtenerse un número mayor. En opiniones públicas o
en estudios de gastos de los consumidores una colección completa de información podría emerger sólo si los
datos fueran recolectados de cada individuo en la nación. Por ejemplo, para coleccionar un conjunto completo
de datos relativos al daño sufrido por todos los coches de un cierto modelo y año por colisiones en una
velocidad específica, cada coche de ese modelo salido por las líneas de producción debería ser sometido a
colisión. El conjunto completo de observaciones que podría coleccionarse haciendo repeticiones ilimitadas de
un experimento o manteniendo un registro minucioso de todos los elementos dentro del alcance del estudio es
demasiado enorme que podemos, en el mejor de los casos, visualizarlo en nuestra imaginación. Tal inmenso
conjunto de datos puede ser considerado como la fuente de información completa, pero las limitaciones de
tiempo, recursos y medios y a veces la naturaleza destructiva de la prueba, significa que debemos trabajar con
información incompleta lo cual corresponde a los datos que son realmente recolectados en el curso de un
estudio experimental.
Las ideas fundamentales emanadas de nuestra discusión aclaran una distinción entre el conjunto de datos que
es realmente obtenido a través de un proceso de observación y la enorme colección de todas las observaciones
potenciales que se pueden originar en un contexto dado. La nomenclatura estadística para la primera es
muestra y para la última es población, población estadística o población objetivo. (Una definición general de
una población debe ser pospuesta hasta que se introduzcan varios otros conceptos).
Para enfatizar la distinción entre muestra y población en esta etapa consideraremos situaciones en que cada
medida (o registro de un rasgo cualitativo) en un conjunto de datos se origina de una fuente distinta llamada
unidad de muestreo o más simplemente unidad. Estas fuentes pueden ser árboles, animales, granjas, familias u
otros elementos, dependiendo del dominio del estudio. Los datos muestrales consisten entonces de medidas
correspondientes a una colección de unidades que son incluidas en un experimento real. Esta colección forma
parte de una colección mucho más grande de unidades, acerca de la cual deseamos hacer inferencias. El
conjunto de medidas que podrán resultar si todas las unidades de la colección mayor pudieran ser observadas,
se define como la población.
Una población (población estadística) es el conjunto completo de medidas posibles o el registro de algún
rasgo cualitativo correspondiendo a la colección entera de unidades para las cuales serán hechas las
inferencias. La población representa el objetivo de una investigación y el objetivo del proceso de colección de
datos es extraer conclusiones acerca de la población.
Una muestra de una población estadística es el conjunto de medidas que son realmente recolectadas en el
curso de la investigación.
Algunos detalles adicionales deberían clasificar las diferencias entre los conceptos de población y muestra. Es
importante notar que en contraste con su uso ordinario el término "población" en Estadística no implica una
colección de seres vivos. Una población estadística es una colección de números que representan la totalidad
de mediciones de alguna característica del grupo completo de unidades que son objeto de una investigación.
La característica puede o no estar asociada con una población humana. En el estudio del rendimiento de un
tipo particular de vegetal bajo condiciones climáticas específicas la población estadística de rendimientos es
la colección de todas las medidas de producción que imaginariamente puedan ser recogidas si el vegetal fuera
extensamente cultivado en todas las localizaciones geográficas con condiciones climáticas particulares y este
proceso fuera repetido año tras año. En este contexto la población estadística no tiene nada que ver con
cualquier población humana. Además deseamos aprender acerca del concepto abstracto de la totalidad de las
medidas de producción. Una muestra es una parte de esta población infinita o el conjunto de las medidas de
rendimiento realmente registradas en el curso de un experimento que resulta de sembrar un número de
vegetales en unas pocas localizaciones con las condiciones climáticas dadas.
Obviamente los datos muestrales variarán cuando se repita este experimento en ocaciones diferentes, mientras
que la población (aún cuando no existe en la realidad) es considerada como un cuerpo estable de números a
pesar de que el conjunto puede ser inmensamente grande e irregistrable. El costo de la mantención anual de
coches de todas las familias de Estados Unidos durante 1977 es un ejemplo de este tipo de población.
Desde nuestra percepción de una población estadística como el compendio de todas las observaciones
potenciales en alguna faceta de la naturaleza, el proceso de investigación experimental puede ser considerado
como un esfuerzo por obtener una comprensión de la población sobre la base de información incompleta
recolectada mediante el muestreo. El tema de la estadística de la metodología para realizar inferencias
inductivas respecto de la población a través de la colección y análisis de los datos muestrales. Estos métodos
permiten deducir generalizaciones plausibles y luego medir el grado de incerteza bajo estas generalizaciones.
Los conceptos estadísticos son tambien esenciales durante la etapa de planificación de una investigación
cuando deba tomarse decisiones, como el modo y la dimensión del proceso de muestreo, de manera que los
datos adecuadamente informativos puedan ser generados dentro de las limitaciones de los recursos
disponibles.
(a) Realizar inferencias de una población a partir de un análisis de la información contenida en los datos
de la muestra, y
(b) hacer evaluaciones del grado de incerteza involucrado en estas inferencias.
Un tercer objetivo, no menos importante, es deseñar el proceso y la dimensión del muestreo de modo que
las observaciones constituyan una base para extraer inferencias válidas y precisas.
El diseño del proceso de muestreo es frecuentemente el paso más importante, especialmente en experimentos
controlados en que diferentes factores que influyen en las mediciones pueden ser preplanificados. Un buen
diseño para el proceso de colección de datos permite hacer un íntegro análisis y eficientes inferencias
mientras que los sofisticados métodos de análisis de datos en sí mismo no salvan a mucha información de los
datos producidos por experimentos deficientemente planificados.
Los primeros usos de la estadística en la estereotípica recopilación y pasiva presentación de datos, ha sido
grandemente reemplazada por el moderno papel de suministrar herramientas analíticas con las cuales los
datos pueden ser eficientemente recolectados, entendidos e interpretados. Los conceptos y métodos
estadísticos permiten validar las conclusiones acerca de la población que se obtuvieron a partir de la muestra.
Dado su extenso objetivo, el tema de la estadística ha penetrado en todos los campos del esfuerzo humano en
que la verificación de afirmaciones y la ramificación de la información debe ser fundamentada en evidencias
basadas o apoyadas en los datos.
Los pocos ejemplos breves dados en el punto 5 no intentan demarcar la esfera de las aplicaciones estadísticas
sino que se presentan para ilustrar la diversividad de aplicaciones estadísticas.
El uso de métodos estadísticos en diferentes áreas de las humanidades, ciencia e ingeniería ha producido
muchos tópicos interactivos, tales como la bioestadística, sicometría, ingeniería estadística, estadística
económica, econometría y demografía. En muchas otras áreas en que los nombres compuestos no han surgido
todavía, la materia de estadística juega un papel fundamental.
Los conceptos básicos y el centro de la metodología son casi idénticas en todas las diversas áreas de la
estadística aplicada. Surgen diferencias en el énfasis, debido a que ciertas técnicas son más útiles en una cierta
área que en otra. Sin embargo, debido a la fuerte similaridad metodológica, los ejemplos extraídos de un
amplio rango de aplicaciones estadística son útiles para crear una comprensión básica de diferentes métodos
estadísticos, su uso potencial y sus vulnerabilidades al mal uso.
Ya se han presentado conceptos tales como muestra, población y otros. A continuación formalizaremos un
poco más algunos de estos conceptos.
Muestra: Una muestra es un subconjunto de la población. En este sentido una muestra puede contener
algunas variables de las que conforman la población o parte de todas ellas. Por ejemplo, en un estudio sobre la
concentración de almidón en el trigo, la población puede consistir de la cantidad de granos/espiga, peso del
grano, color del grano, diámetro del grano y concentración de almidón por espiga(ppm); observaciones
realizadas sobre un total de 100 espigas. Aquí las cien espigas delimitan la cantidad de observaciones que se
efectuarán sobre las otras variables, pero en sí no constituyen la población, sino el tamaño de ella. Lo que
verdaderamente constituye la población son las observaciones que sobre las variables se efectúen. Al
respecto, las variables son cantidad de granos/espiga, peso del grano, color del grano, diámetro de grano y
concentración de almidón por espiga (notemos la presencia de variables cuantitativas y cualitativas en esta
población). Una muestra de esta población puede consistir de 20 observaciones sobre todas las variables, o
bien una cantidad de observaciones sobre tres de las seis variables. Una cuestión importante es determinar la
"mejor" muestra, tema que no es de este curso.
Parámetros y estadísticos: Cuando se obtienen medidas de resumen en una población, tales como
promedios, totales, etc., estas características reciben el nombre de parámetros. Si estas medidas son obtenidas
a partir de una muestra, entonces reciben el nombre de estadísticos o estadísticas o estadígrafos. En resumen,
los parámetros son características (numéricas) fijas de la población, en cambio las estadísticas son
características numéricas de la muestra (por lo tanto son variables, ya que dependerán de la muestra).
En investigación es frecuente el problema de "decir o conocer" algo en relación a los parámetros, esto es,
acercarse al conocimiento de estos. También es evidente que frente a un conjunto de observaciones o datos,
deseemos organizar estos de manera que podamos decir con ellos lo que deseamos decir, y sólo eso; como así
mismo lograr que ellos (los datos) nos revelen información oculta. La parte de la Estadística que se encarga
de resolver el primero de estos problemas es conocida con el nombre de Inferencia Estadística, mientras que
la que se encarga de lo segundo es la Estadística Descriptiva. Esta última es de suma importancia en cualquier
fase de la investigación, ya que no se trata de describir sólo datos relativos a poblaciones, sino todo tipo de
información, sea ésta poblacional o muestral. Su propósito fundamenal es la organización, resumen y
presentación de la información, de modo de rescatar lo particular de entre lo general, o vice versa, sin caer en
extremos como perder la idea general a fin de destacar lo particular, o generalizar a extremo de perder una
visión más puntual de los datos. En una primera parte del curso nos encargaremos de proporcionar los
elementos básicos del proceso descriptivo de la información.
A pesar de las acepciones anteriores, y de la aparente exclusividad de naturaleza por parte de algunas
variables usadas en los ejemplos, hay que tener presente que la conversión de un tipo de información en otro
puede ser posible. Por ejemplo, si la variable es “ingreso bruto mensual de la familia”, esta variable puede ser,
indistintamente, cualitativa o cuantitativa. En efecto, un economista puede “medir” esta variable en pesos ($),
mientras que un asistente social podría referirse a ella como distintas categorías socioeconómicas (pobres,
indigentes, etc.) y cada observación ser asociada, por tanto, en alguna de tales categorías. En este último caso
la variable resume una cualidad del sujeto consultado. Más aún, es posible que una variable definida
inicialmente como cuantitativa sea tratada, como parte del procesamiento, desde el punto de vista cualitativo.
Lo inverso no es válido. Esto es, podrá transformarse en cualitativa una varuiable cuantitativa, pero no podrá
“convertirse2 en cuantitativa una variable cualitativa.
En el resto de este capítulo se tratarán las dos formas básicas de organización y resumen de información:
forma gráfica y forma numérica. Actualmente se habla de formas digital y analógiga para referirse a esas
formas. Estos enfoques adoptan formas especiales según sea el tipo a naturaleza de información a procesar,
razón por la que se presentarán separadamente para los casos cualitativo y cuantitativo. En cualquier caso, las
representaciones se hacen sobre la base de información cuantitativa. Esto significa que parte importante del
análisis de información cualitativa consiste en cuantificarla a obejto de efectuar los análisis correspondientes.
DATOS CUALITATIVOS
Cuando nos enfrentamos a datos de natualeza categórica o cualitativa, como se dijiera, se debe cuantificar la
información para obtener las represenbtaciones gráficas y numéricas que se requieran. Esto resulta fácil toda
vez que las variables en estudio contienen una cantidad finita o limitada de valores (las modadlidades). Por
ejemplo, si la variable en estudio es Sexo, entonces las modalidades serán dos: Hombre; Mujer, o Masculino y
Femenino. Frente a ese tipo de variables, la cuantificación permite, además, construir representaciones y
esquemas que mejor resuman la infrmación, o que permitan perfilar mejor al objeto en estudio. Tal
cuantificación consiste en construir tablas de frecuencias (cantidad de unidades de observación que poseenla
característica en estudio).
Ejemplo 1.1. De la sola observación de los registros (lista) de un Libro de Clases, en un curso específico, se
puede extraer la siguiente información respecto de la variable Sexo: 20 alumnos son niños y 23 son mujeres.
Estas cifras hablan de la composición del curso (constituyen las frecuencias), que se puede representar en una
forma tabular como sigue:
Tabla de frecuencias
Sexo Frecuencia
Masculino 20
Femenino 23
Una representación gráfica, de la misma información, puede ser más interesante. A continuación, un gráfico
de sectores en el que se resume la información:
47%
53%
Masculino
Femenino
Respecto de la “lectura” de la información (o mejor dicho, del resumen) se pueden observar ventajas y
desventajas de una y otra forma de representación. Por ejemplo, una ventaja de la Tabla de Frecuencias es su
objetividad. El lector “lee” las cifras, y ellas son objetivas. Son el resultado de un proceso que no admite
dudas, a menos, claro está, que los cálculos no estén correctos, en cuyo caso la fuente de error no proviene del
análisis sino de una errónea aplicación del algoritmo de contar. Una de sus desventajas es la necesidad
imperiosa de “leer” esa información. Mientras no se haga una lectura completa de ella, no se podrán hacer las
compraciones. La segunad representación, en cambio, tiene como una de sus ventajas la facilidad de lectura
de la información (no se requieren cálculos para hacer las comparaciones). Su principal desventaja es, no
obstante, su subjetividad. Resulta obvio que debe tenerse especial cuidado de utilizar este este tipo de
gráficos, ya que ellos no son adecuados cuando las diferencias no son muy evidentes, o cuando se dispone de
muchas categorías a representar.
Otra forma muy común de representación gráfica de información de este tipo es el gráfico de barras, como la
que se muestra a continuación:
23
22
21
20
19
18
Masculino Femenino
Aparte de estas formas de representación pueden existir otras, y, además, es tarea del analista buscar o idear
sus propias formas de representar la información. No se puede olvidar el objetivo de cualquiera de estas
representaciones: sintetizar un resumen a objeto de transmitir un mensaje lo más claro y pertinente posible. ♦
La importancia de los gráficos en Estadística es fundamental. El principio es muy sencillo: "Un gráfico puede
decir más que mil palabras". Es tarea del analista "adornar" y complementar adecuadamente aquel mensaje
con el mejor y más claro lenguaje posible.
DATOS CUANTITATIVOS
Cuando los datos son de naturaleza numérica (cuantitativa), es necesario encontrar formas adecuadas de
resumir la información. Estas son, al igual que en el caso de información cualitativa, de tipo numérico y
también de tipo de gráfico.
Tratamiento Numérico
Cuando se describe un conjunto de datos, no se intenta expresar demasiado ni muy poco, sino sólo la realidad.
La forma de describir aquella realidad puede, eso sí, depender de los fines que se pretendan con el análisis, es
decir descripciones estadísticas breves o muy elaboradas.
En ocasiones, los datos se presentan en su forma original y es posible que “hablen” por si solos; otras veces
esta situación se presenta como distribución de la frecuencia o bien como gráficas. No obstante ello, la
mayoría de las veces se deben describir mediante uno o dos números cuidadosamente seleccionados, que
puedan hablar por ellos.
Surge así la necesidad de resumir los datos a través de un único número, que describa a su modo, el conjunto
entero de datos. Este tipo de número que seleccionamos dependerá de la característica particular que se quiera
describir. Tal vez en un estudio nos interese establecer el valor que excede sólo el 25% de los datos; en otro,
aquel valor que no sobrepase al 10% de los datos y en otro caso el valor que describa el centro de los datos o
aquel que se presenta con mayor frecuencia. Las medidas que describen estas características se conocen con
el nombre de medidas de tendencia o de localización, siendo las que describen el centro o punto medio las
llamadas “Medidas de Tendencia Central”.
Para un conjunto de datos X = {x1, x2, ..., xn}, las principales medidas que resumen la tendencia central de ese
conjunto son:
1 n
Media: X = ∑ xi
n i =1
Mediana: X0.5 = Valor central (promedio de valores centrales) de la serie ordenada de X
Moda: Valor(es) más frecuente(s) de X (datos cuanti-tativos y cualitativos)
Los conjuntos de datos (distribución) con más de una moda se llaman multimodales.
Medidas de posición
Como su nombre lo indica, las medidas de posición permiten resumir características relativas a la posición
que ciertas observaciones, o conjuntos de ellas, tienen o adquieren en la distribución de los datos. Entre estas
medidas las más importantes son los valores extremos y los percentiles, llamadas también, fractiles. Los
valores extremos más utilizados (y obvios) son el máximo, que se denotará por Max(X), y que corresponde a
la observación (dato) de mayor valor numérico; y el mínimo, que se denotará por min(X), y que corresponde a
la observación de valor numérico menor.
Los percentiles, por su parte, corresponden a valores que “particionan” la distribución de la serie ordenada de
observaciones, de tal modo que cada “parte” en esa partición tiene una frecuencia (relativa o porcentual)
determinada. De ahí el nombre de percentiles, porque dividen porcentualmente (percentílicamente) a la serie
de datos. De entre los percentiles, los más utilizados son los cuartiles (particionan a la serie de observaciones
en cuatro clases de igual frecuencia: 25% de datos cada clase o grupo), los quintiles (particionan la serie de
datos en cinco conjuntos de igual frecuencia: 20% cada grupo), los deciles (particionan la serie en diez clases
de igual frecuencia: 10% de observaciones en cada clase o grupo). Matemáticamente, los percentiles se
obtienen mediante una correspondencia biunívoca entre la serie ordenada de observaciones y el intervalo real
[0.00 ; 100] (esquema siguiente).
Algunos autores definen a la mediana como una medida de posición, argumentando que es el percentil de
orden 50%, o equivalentemente, el segundo cuartil, etc.
Medidas de variabilidad
Las medidas más utilizadas para sintetizar las características de variabilidad de un conjunto de datos de
naturaleza cuantitativa X = {x1, x2, ..., xn} son:
En relación a la forma de una distribución, son principalmente dos los aspectos que pueden interesar en el
estudio de una distribución: el grado o nivel de simetría (distribución armónica y bien espaciada de las
observaciones en torno a un valor dado), y el grado de agudeza o puntiagudez, referido a la capacidad de
concentrar las observaciones en torno de una valor. Una medida de la primera característica (o de una
anticaracterística), es el coeficiente de asimetría o coeficiente de sesgo, mientras que una medida de la
segunda es el coeficiente de kurtosis. Para una serie de datos X, se definen estos indicadores por:
Observaciones:
– Existen varios coeficientes de asimetría. El más utilizado es el presentado aquí, que se atribuye a Pearson.
– Una distribución puede recibir distintos nombres, según sea el valor del CS (ver figura 1).
– Por lo general, |CS|≤3.
– Una distribución se dice simétrica si CS=0; asimétrica negativa, si CS<0; y asimétrica positiva si CS>0.
– De acuerdo a su forma, las distribuciones se clasifican en mesocúrticas, platicúrticas y leptocúrticas (ver
figura 2).
Hay situaciones en las que la cantidad de información es muy grande, o bien no existe una variable de
clasificación que facilite su análisis. En estos casos se hace necesario algún procedimiento de agrupación de
los datos de modo de hacer más comprensible su estructura. Esto es lo que se conoce como análisis en base a
datos agrupados. La agrupación obedece a criterios subjetivos, y una agrupación dada puede no representar
bien la información, por lo que deberá buscarse agrupaciones alternativas. Gracias a la Computación e
Informática, esto se ve facilitado enormemente.
La presentación de una agrupación particular de datos continuos puede hacerse en lo que se llama Tabla de
Frecuencias. Esta tabla de frecuencias es una disposición tabular–rectangular en la que se identifican los
grupos en los cuales se ha distribuído la información y las caracaterísticas más relevantes de esos grupos,
llamados tambén clases. Cuando estas clases son intervalos bien definidos se les llama intervalos de clase.
Entre los elementos distintivos de la tabla de frecuencia, que en sí es información de resumen, se tiene la
frecuencia de cada clase, que puede expresarse en forma absoluta (número de unidades en la clase) o en forma
relativa (porcentaje de unidades de observación en la clase).
Otro elemento distintivo de la tabla es la marca de clase, que corresponde a un representante de la clase
correspondiente. Puede ser el valor promedio de la clase, puede ser la mediana de la clase, o alguna otra
cantidad que represente bien a la clase. Es habitual que el punto medio de la clase sea la marca de clase.
A continuación se presenta un ejemplo que ilustra la forma y estructura de una agrupación de datos en una
tabla de frecuencias.
Ejemplo 1.2. Las siguientes cifras corresponden a pesos (en kg) de 50 niños de entre 2 y 3 años de edad.
13.9 17.1 13.4 15.5 14.4 15.3 17.5 13.9 14.9 15.4
13.7 14.0 14.2 16.8 15.2 14.9 14.8 15.5 16.8 14.4
13.4 14.4 13.7 15.6 15.3 14.9 16.9 15.8 14.7 15.0
15.2 14.0 16.1 15.3 17.7 14.6 15.2 14.0 14.5 15.2
15.1 14.5 15.7 15.6 16.0 17.0 16.5 15.8 15.8 16.1
Es obvio, que al "mirar" los datos es muy poco lo que se ve. Se hace necesario un análisis en base a datos
agrupados. Pero antes de proceder al agrupamiento de la información, se pueden obtener características
numéricas básicas de la información.Con la ayuda de un software estadístico, se obtiene:
La tabla de frecuencias, con más o menos elementos descriptores, es un resumen. Puede ser necesario, en
algunas ocaciones, obtener medidas descriptivas más específicas a partir de ella, como por ejemplo, medidas
de tendencia central o de variabilidad. Parece natural que se necesita de una forma alternativas a las ya vistas
de obtener esos estadísticos, ya que no se cuenta con información original o “en bruto” como para aplicar las
fórmulas de cálculo conocidas. A continuación se presentan algunas medidas descriptivas básicas a partir de
una tabla de frecuencias.
Media: 1 n
X = ∑ mi ni , donde mi es la marca de la clase i y ni la frecuencia absoluta respectiva.
n i =1
Mediana: La mediana requiere, primero, de identificar la clase mediana. Ésta es aquella clase en la
que se encuentra el valor central de la serie ordenada. Notar que sólo podrá observarse la
clase, y no el valor central. La mediana corresponde entonces al valor
0.5n − F−1
X 0.5 = L + C , donde L es el límite inferior de la clase mediana, n es el total
n Med
de observaciones, F-1 es la frecuencia acumulada hasta la clase inmediatamente anterior a
la clase mediana, nMed es la frecuencia absoluta de la clase mediana y C es la amplitud
(largo) de la clase mediana.
Moda: Más bien se habla de clase modal, y corresponde a la clase de más alta frecuencia.
Varianza: La varianza de una distribución, a partir de datos agrupados, se obtiene de manera similar
al caso de datos no agrupados. Sólo deben usarse los estadísticos adecuados.
Percentiles: Aunque existe una forma algebraica de obtención de percentiles a partir de una tabla de
frecuencias, existe una forma gráfica, que se verá más adelante, que es mucho más
eficiente en la obtención de este tipo de medidas.
Observación: Todas las medidas obtenidas a partir de una tabla de frecuencias son aproximaciones de las
respectivas medidas obtenidas a partir de los datos originales.
Ejemplo 1.3. A partrir de la tabla del ejemplo 1.2 anterior, la media es 15.238. En relación a la mediana, la
clase mediana es la cuarta clase, que tiene un límite inferior igual 14.785, una frecuencia absoluta de 15 y una
amplitud de 0.625. Por lo tanto su valor es 15.16667. Por último, la clase modal también es la clase 4. A
juzgar por estas caraterísticas, la distribución de los datos parece bastante simétrica. ♦
Desigualdad De Tschebyshev
Un resumen estadístico debe ser una síntesis de la realidad. Como tal debe reunir los aspectos más relevantes
de aquella y transmitirlos pertinentemente. Éste es el objetivo de todo resumen. En consecuencia, debe ser
también un reencuentro con la realidad. Pero para lograr ese reencuentro hace falta saber leer el mensaje que
contiene el resumen. Una de las herramientas más poderosas para esa lectura se presenta a continuación, en la
forma de una proposición matemática primero, y en una formulación empírica después. Aunque exige ciertas
condiciones a los datos, hay infinidad de situaciones en las que su uso ayuda considerablemente a la
inerpretación.
Proposición 1. (Desigualdad de Tschebyshev). Sea X = {x1, x2, ..., xn} un conjunto de observaciones con una
media X y una desviación estándar S. Entonces para una constante k>1, el porcentaje de información que se
encuentra a kS de la media X es al menos (1 − 1 )100% .
k2
Ejemplo 1.4. Si una distribución, relativamente simétrica, se resume en una media igual a 7 y una desviación
típica de 0.4, ¿qué se puede concluir de las observaciones?
Solución. Dado que la distribución es simétrica, entonces, mediante aplicación de la regla empírica de la
desigualdad de Tschebyshev, se puede establecer que, aproximadamente, el 95% de los datos oscila entre 7–
2·0.4 y 7+2·0.4. Esto es, la mayor parte de los datos oscila entre 6.2 y 7.8. ♦
Tratamiento Gráfico
En muchos casos, la forma más adecuada y atractiva de presentar la información numérica es a través de
gráficos y diagramas. Estos tienen la gran ventaja de que permiten una asimilación visual de las
características de los datos estudiados bastante más rápida que la simple contemplación de resúmenes
tabulares.
La elección del tipo de gráfico más adecuado para resumir cierta información, dependerá en gran medida del
objetivo que se pretenda con él y del uso que a éste se le dará. Por ejemplo, ante la necesidad de mostrar la
evolución de una variable a través de un período de tiempo determinado, se tienen los gráficos de línea o
lineales. Situando el tiempo en el eje horizontal y la variable de interés en el eje vertical, se obtiene una
secuencia temporal para esta última. En la figura siguiente se presenta un resumen gráfico referido al
promedio mensula de material prticulado en Temuco durante los 12 meses del año 2003. En él se visualiza un
claro aumento de enero a mayo, para comenzar luego una disminución.
Promedio mensual pm10 en Temuco
Año 2003
100
90
80
70
60
50
40
30
20
10
0
e
e
zo
Se osto
re
o
o
e
ril
lio
br
br
ay
er
er
br
ni
Ab
ub
ar
Ju
em
m
Ju
em
br
En
Ag
M
ct
ie
Fe
vi
O
ci
pt
No
Di
A menudo nos puede interesar explorar la relación lineal entre dos variables, es decir cómo se comporta una
variable (dependiente) en función de otra variable (independiente), situación que puede ser analizada a través
del diagrama de dispersión, tal como se presenta en el ejemplo 1.5.
Ejemplo 1.5. Un centro experimental desea establecer la relación existente entre los montos invertidos en
investigación y desarrollo, y las utilidades obtenidas por estos conceptos, en los últimos 9 años. Información,
en millones de pesos, resumida en la tabla siguiente:
Inversión en Investigación y Desarrollo vs Utilidades
Inv. en Inv. y Desarrollo Utilidades
40
2 20
3 25 36
4 30
5 31 32
Utilidades
3 26
28
7 34
9 36 24
11 38
10 37 20
2 4 6 8 10 12
A través de este resumen gráfico es posible establecer la relación directa o positiva existente entre las
variables en estudio, es decir, en la medida que la inversión en investigación y desarrollo aumente, también lo
harán las utilidades del centro de investigación.
El gráfico de cajas es una herramienta de gran utilidad para el análisis de uno o más conjuntos de datos.
Construido a través de las medidas de posición, permite formarse una idea respecto de la distribución de la(s)
variable(s) en estudio. Tomando la información del ejemplo 1.4 ilustraremos esta situación.
Gráfico de Cajas
para la Inversión en Inv. y Desarrollo
40
30
Millones de Pesos
20
10
0
Inversión Utilidades
Al intentar analizar y resumir un gran volumen de información, no podemos olvidar a los tradicionales
histogramas y ojivas, cuyo gran objetivo es mostrar la distribución de frecuencias de los datos estudiados. Su
construcción se realiza, directamente, a partir de la tabla de frecuencias. A continuación se muestran las
formas características de estas representaciones, y posteriormente se ilustra con un ejemplo su construcción.
Los gráficos adecuados para el análisis de grandes volúmenes de información pueden ser los ya vistos,
además de otras reprentaciones como gráficos de lineas, y los tradicionales histogramas y ojivas. Estos
últimos se pueden construir a partir, directamente, de la tabla de frecuencias. Son por excelencia los
homólogos gráficos de la tabla de frecuencias. A continuación se muestran las formas características de esas
representaciones, y posteriormente se ilustra con un ejemplo su construcción.
Un histograma y una ojiva (distribución acumulada) para los datos del ejemplo 1.3 se presentan a
continuación.
1.000
10
0.900
0.800
8
Frecuencia relativa
0.700
0.600
6
0.500
4
0.400
0.300
2
0.200
0.100
0
0.000
13 14 15 16 17 18
13.100 14.100 15.100 16.100 17.100
Peso de 50 niños
Ejercicio. Consideremos los datos de la tabla adjunta. En ella se registran los pesos, en kilogramos, de cien
personas adultas.
89 78 65 75 66 70 80 85 90 98
63 74 61 73 68 75 85 83 85 69
71 84 60 76 79 81 79 84 78 77
88 95 65 91 85 100 110 75 76 87
87 83 84 81 79 78 75 77 83 86
84 81 88 76 83 90 61 87 79 79
83 79 91 77 69 81 71 97 65 81
78 78 79 78 70 85 92 83 85 78
77 95 69 79 80 38 93 75 83 77
68 99 75 83 99 68 83 78 78 83
La variable aquí en estudio, peso de las personas, no tiene asociada una variable de clasificación que facilite
su análisis, especialmente gráfico, que es el mayor problema. Podemos determinar el peso promedio (o peso
medio), valores extremos, mediana (o valor central), rango (diferencia entre máximo y mínimo), variabilidad
o dispersión, etc., pero no tendríamos una forma gráfica adecuada para todos los datos. Es necesario, sin
desechar las medidas anteriores, un análisis en base a datos agrupados, es decir, hay que agrupar los datos.
Se sugiere intentar una agrupación, y en base a la Tabla de Frecuencias obtenida, construir el histograma y la
ojiva. ♦
Es muy común que la explicación de un fenómeno o realidad requiera del conocimiento de algún aspecto de
ella. Por ejemplo, puede ser deseable conocer o explicar el comportamiento de los alumnos (en la sala de
clases) por medio de su realidad familiar, por ejemplo.
En este caso, como en la mayoría de los que aquí serán tratados, existe un par de variables que en algún modo
resumen o permiten resumir bien el objeto o problema en estudio. El análisis consiste en establecer la forma
en que se relacionan o asocian tales variables. De este aspecto y sus derivados tratan las secciones siguientes.
El problema es determinar si dos variables cuantitativas o numéricas se encuentran o no relacionadas entre sí.
Este es el problema de asociación. Por ejemplo, el pediatra sabe que existe una relación (asociación) entre
peso y talla de niños de cierta edad. Y no sólo sabe que existe una asociación, sino también sabe qué forma
tiene esa asociación. Un profesor puede desear establecer si existe o no relación entre el nivel de ingresos
familiares y el éxito académico que los alumnos pudieran tener en la universidad. En fin, existen muchas
situaciones en las que el conocimiento de una asociación entre variables puede explicar un fenómeno, y en
cierta manera, permitir el control de ese fenómeno.
En estas notas se presenta el análisis de un tipo particular de asociación: La asociación lineal, llamada más
comúnmene, correlación lineal. El estudio de la correlación lineal corresponde al análisis de correlación
lineal.
Formalmente el análisis de correlación corresponde al conjunto de técnicas estadísticas empleado para medir
la intensidad de la relación o asociación lineal entre dos variables. Un aspecto inicial del análisis lo constituye
la determinación intuitiva o a priori de esta asociación. Por ejemplo, pareciera lógico pensar que el promedio
de calificaciones de educación media de un estudiante esté relacionado con las calificaciones obtenidas en la
universidad (al menos en sus primeros semestres).
Una vez que se ha establecido la posibilidad de existencia de correlación lineal, se recomienda construir un
diagrama de dispersión de los datos. En muchos casos las sospechas iniciales pueden ser corroboradas o
refutadas por medio de un gráfico. De los gráficos siguientes, el (a) resume y manifiesta, al parecer, una
relación lineal positiva entre las variables correspondientes. Los diagramas en (b) y (c), en cambio, no ponen
en evidencia, al menos en apariencia, relación lineal alguna. Particularmente, en diagrama (b) más bien
evidencia una asociación curvilinea (cuadrática), mientras que en (c) no se advierte ninguna tendencia en
particular.
El diagrama de dispersión, como herramienta de detección de correlación o asociación entre dos variables, es
más bien una técnica intuitiva. Se necesita de una medida (numérica) de correlación lineal, de una cantidad
que resuma y cuantifique esta asociación en base a los datos observados. Una medida de esta asociación muy
utilizada es el coeficiente de correlación lineal de Pearson, definido a continuación:
Definición. Sean X y Y dos variables aleatorias de las que se han registrado, en forma simultánea, n
observaciones. Esto es, se tienen n pares ordenados (x,y) del vector aleatorio (X,Y). El coeficiente de
correlación muestral de Pearson se denota y define por:
∑X Y
i =1
i i − nXY
r=
(n − 1) S X S Y
Observaciones
1) El coeficiente de correlación de Pearson r satisface –1 ≤ r ≤ 1
2) r =1 significa correlación lineal perfecta, y positiva, entre las dos variables.
3) r = –1 significa correlación lineal perfecta, y negativa, entre las dos variables.
4) r = 0 significa ausencia total de correlación lineal.
Ejemplo 1.6. Los datos siguientes son X: Puntaje en un sistema de aprendizaje, Y: Costo asociado al logro del
puntaje. La idea es estudiar la relación que pudiera existir entre X y Y.
X 16 14 22 10 14 17 10 13 19 12 18 11
Y 77 70 85 50 62 70 52 63 80 57 81 54
Solución.
En primer lugar exploraremos si se evidencia o no alguna tendencia en los datos. Esto puede lograrse con la
ayuda del diagrama de dispersión, que se muestra a continuación.
90
70
60
50
9 12 15 18 21 24
Puntaje, X
Es evidente que si existe alguna asociación lineal entre X y Y, ésta debe ser lineal (ver gráfico siguiente).
Sobre esta base, la medida de la asociación lineal está dada por r = 0.95754. Además, el coeficiente de
determinación es r²=0.916892. Esto significa que, aproximadamente, el 92% de la variación en el costo se
explica por la variación en el puntaje. ♦
Sin duda que los mensajes con una componente analógica (gráfica) juegan un importante papel en las
interpretaciones de resultados. En este sentido puede ser más ilustrativo un gráfico que una tabla con una
serie de datos. Sin embargo, no puede concluirse que las componentes analógicas sean de mayor importancia
que las componentes digitales en un mensaje. Habrá que analizar la forma más pertinente que usaremos para
comunicar lo observado.
Puede demostrarse, con herramientas matemáticas que escapan a los objetivos de este curso, la siguiente
importante relación respecto del coeficiente de correlación lineal de Pearson:
ρ ( X c ;Y c ) = cos(θ )
donde θ es el ángulo que forman los vectores directores asociados a las variables Xc y Yc, y éstas son
variables centradas, es decir, a cada valor de ellas se les ha restado su media.
Esta relación es muy importante, puesto que permite "ver" las correlaciones, en tanto que estimar su valor
aproximado.
Algunas consideraciones:
1. Dado que, geométricamente, la correlación se asocia con el coseno del ángulo que las variables forman,
entonces a medida que dicho ángulo aumenta en magnitud, la correlación disminuye. Recíprocamente,
menor medida del ángulo implica una mayor correlación.
2. En ausencia de correlación (independencia total, ρ = 0), el ángulo entre las variables mide 90° (el coseno
de un ángulo que mide 90° es 0). Esto es, las variables se presentan ortogonales. En síntesis,
independencia se asocia con ortogonalidad.
3. Cuando el ángulo que forman las variables mide 180° (ángulo extendido), entonces el coseno vale –1, y
en este caso veremos las variables orientadas en sentido opuesto, pero colineales, es decir, hay una
relación lineal inversa.
4. La representación gráfica de la correlación sólo es posible en un espacio de dos o tres dimensiones.
5. Ya que la representación analógica se construye a partir de vectores centrados, y eventualmente reducidos
(de varianza unitaria), se espera observar estas variables (o vectores) al interior de un círculo unitario y
con sus extremos en un círculo, llamado círculo de correlaciones.
Definiciones y Propiedades
6∑ d 2
rs = 1 −
n(n ² − 1)
donde d: diferencia entre los rangos de cada par; n: número de pares observados
Ejemplo 1.7. Los datos siguientes muestran los puntajes obtenidos por 5 trabajadores en sendas pruebas de
destreza y de producción semanal.
Para utilizar el coeficiente de correlación de rangos de Spearman, se deben jerarquizar las observaciones. En
este caso ordenaremos en forma ascendente las series, tal como se muestra en la siguiente tabla:
El gráfico de Destreza versus Producción (gráfico siguiente) muestra una correlación lineal aparentemente
perfecta. Puntajes altos (bajos) se relacionan o corresponden entre sí. Lo anterior es fácil de corroborar
numéricamente, ya que notando que cada diferencia de rango d es cero, se tendrá también que d² = 0, así que
6( 0)
rs = 1 − = 1. ♦
5(5² − 1)
0
0 1 2 3 4 5
Las observaciones que tienen el mismo rango (empates) pueden constituirse en un serio problema a la hora de
utilizar este coeficiente de correlación.
rs= ∑ x + ∑ y² − ∑ d
2
i
2
∑ x²∑ y ²
2
n³ − n n³ − n
donde ; ∑ x² = 12
− ∑ Tx ; ∑ y ² =
12
− ∑ Ty y
Es recomendable utilizar este coeficiente de correlación sólo una vez que se haya corregido el problema de
"empates".
Se dispone de dos variables cualitativas, cada una con un número específico de modalidades o categorías.
Entonces se procede a contar el número de co–ocurrencias de las distintas modalidades y se registran en una
tabla de doble entrada: la Tabla de Contingencia o Tabla Cruzada.
Hablar de asociación o relación entre dos variables cualitativas es hablar de Tablas Cruzadas o de Tablas de
Contingencia. Aunque un Análisis de Contingencia puede ser en cierto modo complejo, las tablas de
contingencia pueden tratarse desde una perspectiva descriptiva, sin pasar por el natural análisis de
contingencia. Los aspectos descriptivos de una tabla de contingencia se basan en la tabla cruzada, que es lo
primero de un análisis de contingencia. No obstante, cualquiera sea el análisis inicial, lo que se desea explorar
por medio de una tabla del tipo Individuos x Variables Cualitativas es la relación entre las variables o las
modalidades de ellas.
Variables cualitativas
Individuos X1 X2 ... Xp
1
2
...
n
Una primera diferencia con los coeficientes presentados anteriormente es que el contenido de una tabla
cruzada (o de contingencia) está conformado por frecuencias. En efecto, el cruce de dos variables cualitativas
corresponde a un resumen de las co–ocurrencias de las distintas modalidades de las variables. Por ejemplo, si
las variables son Sexo (dos modalidades, M y F) y Carrera (tres modalidades: C1, C2 y C2), entonces el cruce
de ellas se puede resumir en una tabla con la siguiente estructura:
Carrera
Sexo C1 C2 C3
M
F
En síntesis, mientras en los análisis de correlación anteriores el interés se centra en las variables, en el caso
que estamos presentando el interés se centra en los individuos. Más aún, se trata aquí de colectivos de
individuos más que de individuos singulares. Sin embargo, al igual que en los casos anteriores, el problema a
estudiar es muy similar. Específicamente, se puede establecer que el problema principal de una tabla de
contingencia es:
Nuevamente la idea de distancia es fundamental en la construcción de un resumen que mejor dé cuenta de las
asociaciones entre variables, y entre colectivos de individuos. Podemos decir que el problema principal es
describir las distancias entre los elementos de la tabla, o resumir las comparaciones que en ella se hagan. En
efecto, cuando examinamos las relaciones entre variables, lo que se está haciendo es examinar la "distancia" a
la que se encuentran esas variables. Así por ejemplo el problema de independencia asociado a una tabla de
contingencia no es más que un problema de distancia: la distancia entre la tabla observada y una tabla que
representa la situación perfecta de independencia. Sin duda que el concepto de esa distancia puede ser el
problema. En este sentido habrá que buscar alguna forma de "medir" esa distancia.
Por su parte, y casi sin darnos cuenta, cuando abordamos el problema de correlación, lo hacemos
determinando el peso que los diferentes grupos de individuos tienen en la tabla, lo que es equivalente a
calcular la distancia entre distintos colectivos de individuos.
entonces la información proporcionada por los individuos encuestados puede registrarse en una planilla
parecida a la siguiente:
Esta es una de las primeras tablas en el tratamiento de encuestas, y se llama Tabla de Códigos Condensados.
La Tabla de Códigos Condensados no es un resumen, es simplemente la codificación de las respuestas.
Una tabla que sí constituye un resumen (y por tanto implica pérdida de información), es la Tabla de
Frecuencias o también llamada Tabla de Contingencia. Esta tabla contiene las co-ocurrencias de las distintas
modalidades de las variables. Por ejemplo, la tabla de frecuencias asociada a la información anterior es:
Antes de proceder a un análisis más estadístico de una tabla de contingencia, puede resultar interesante un
análisis descriptivo de ella, especialmente de las frecuencias marginales de la tabla. El siguiente ejemplo pone
de relieve algunos aspectos descriptivos que pueden ser útiles en la interpretación de la información de una
tabla de contingencia. No hay que olvidar que este punto del análisis es realmente esencial.
Ejemplo 1.8. En el año 1994 el movimiento mercantil artesanal de tres zonas se resume en la siguiente tabla
(adaptación de un problema citado en Crivisqui, E.: Análisis Factorial de Correspondencias. 1993). Las ventas
en cada zona se describen como Exportaciones. Las compras hechas de artículos producidos en otras zonas
aquí son llamadas Importaciones o Autoconsumo.
El análisis puede hacerse desde, al menos, dos perspectivas: en relación a la producción y en relación a la
comercialización.
Respecto de la producción, en el gráfico 1 puede observarse que la Zona A produjo 154, en tanto que la Zona
B, 323; y la zona C se muestra como la zona con mayor producción de entre las tres.
El objetivo de un análisis estadístico es, por cierto, la comparación. En este sentido, si se desea extraer y
representar adecuadamente la información de aquella tabla habrá que neutralizar el efecto amplificador que en
las comparaciones induce el tamaño de la población o de la muestra observada. Esto se logra dividiendo cada
elemento (celda) de la tabla por el tamaño poblacional o muestral. La tabla resultante será llamada en adelante
Tabla de Frecuencias (relativas).
ADSCRIPCIÓN RELIGIOSA
1 2 3
B 15 15 15
2 2 4
C 15 15 15
2 2 4
D 15 15 15
6 9
TOTALES COLUMNA 15 15 1
En la tabla de frecuencias (relativas), los totales fila o columna son llamados vector de peso o Centro de
Gravedad de la tabla.
Asociada a una tabla de contingencia (o de frecuencias) existen otras dos tablas: La Tabla de Perfiles en Línea
y la Tabla de Perfiles en Columna.
Un Perfil Línea (o perfil fila) es la distribución de frecuencias de la fila en relación al total marginal fila
correspondiente. Por su parte, un Perfil Columna es la distribución de frecuencias de la columna en relación al
total marginal columna correspondiente.
Las tablas de perfiles asociadas a la Tabla 2 son las siguientes:
CARRERA C1 C2
2 2
A 4 4 1
1 2
B 3 3 1
1 3
C 4 4 1
2 2
D 4 4 1
TOTALES
6 9
COLUMNA
1 2
B 6 9 3
1 3
C 6 9 4
2 2
D 6 9 4
TOTALES COLUMNA 1 1
Correlación Condicional
Algunas veces puede ocurrir que mediante el uso de algún procedimiento de análisis (como el uso de χ2 , por
ejemplo) se haya detectado un asociación importante entre las variables en estudio, y ésta no exista como tal.
En situaciones como éstas puede suceder que una o más variables, no consideradas en el estudio, sean las que
realmente den cuenta de la relación por la asociación que ella tiene con las que constituyen la base del
análisis. Por lo tanto, cuando se tengan tres o más variables interrelacionadas, es necesario neutralizar el
efecto de una de ellas en el estudio de la asociación de las otras. Este procedimiento es conocido como
Correlación Condicional o Correlación Parcial.
En esta sección veremos el impacto que en la comprensión de la información contenida en una tabla de
contingencia pueden tener esos factores externos a las variables involucradas en la tabla. Por ejemplo, en la
situación anterior, ¿qué efecto tiene en sexo del paciente en recuperación? Sin duda que la respuesta a esta
interrogante podrá encontrarse sólo si se tiene esta última información.
Ejemplo 1.9. (La paradoja de Simpson)1. Se estudió la sentencia (condenación a muerte o no) de 4764
asesinatos juzgados en Florida de 1973 a 1979 (Cf. Kripendorf: "Information Theory and Statistics". Wiley,
1986).
Lo anterior puede inducir a pensar que la sentencia es más severa para un asesino blanco que para un asesino
negro.
Esto pone en evidencia que, cualquiera sea la raza de la víctima, la sentencia es más severa para un asesino
negro que para uno blanco.
1
Ejemplo extraído de apuntes de curso del Seminario de Capacitación de Docentes PRESTA.
Concepción, 1997.
Resumen
Las principales características de la correlación lineal de Pearson son:
Hacer comparaciones entre elementos de una tabla de contingencia, sin antes tratar la información allí
contenida, puede significar comparar elementos no comparables.
Los perfiles ponderados, en línea y en columna, permiten establecer comparaciones entre elementos
comparables.
La distancia euclideana entre perfiles ponderados, o la distancia del Chi-cuadrado entre perfiles, permite
describir, sin distorsión la información contenida en una tabla.
Al comparar elementos comparables, se está haciendo una lectura correcta de la información.
Cuando se hace una representación gráfica de los elementos de una tabla de perfiles ponderados, hay
que tener en cuenta que los puntos representados está dotados de peso. Esto es, son puntos-masa.
Entonces hay que tener cuidado con las interpretaciones de las distancias observadas en esa
representación.
Una tabla de perfiles ponderados puede representarse en dos espacios de representación: uno en el que
se representan los perfiles línea, y otro en el que se representan los perfiles columna.
1. Para cada una de las variables siguientes, indica naturaleza (cualitativa o cuantitativa) y valores que puede
tomar:
a. Color de ojos de personas adultas.
b. Peso de niños al nacer
c. Número de hermanos de los estudiantes de la UCT
d. Región de procedencia de los alumnos ingreso '97 de la UCT.
e. Edad de los asistentes a un curso de capacitación
f. Origen étnico de los alumnos de una escuela rural
g. Grado de ruralidad del estudiantado universitario de Temuco.
h. Número de cursos en el colegio B.
i. Sexo de los alumnos de cada curso del colegio B.
j. Tipo de mercaderías que se vende en "negocios" de barrios.
2. Se desea investigar la relación que puede existir entre el sexo del alumno y el rendimiento del alumno en
cursos del primer ciclo de enseñanza básica. Para este caso, define las variables a considerar y los
posibles valores que cada una puede tomar.
3. Supón que el peso, en kg, de un grupo de personas, de edades similares, se ha resumido en el siguiente
cuadro:
Promedio Desviación estándar
17 kg 4 kg
4. En el segundo semestre de 1993, un curso de estadística para alumnos de una carrera técnica de nuestra
universidad obtuvo las notas finales que se resumen a continuación. Se pide "hablar" del rendimiento de
ese curso.
Distribución de la Nota Final
Características de resumen de
30 Notas Finales del curso
-----------------------------------------------
Sample size (N) 50
Num missings 0
Número de alumnos
20
Minimum 2.0000
Maximum 5.8000
Std deviation 0.7936
10
Quartiles:
First quartile: 4.0000
Second quartile: 4.4000
0
2 3 4 5 6
Third quartile: 4.8250
nota_final
a. Referirse, por separado, a niños y niñas en relación a sus características físicas. Señalar condiciones
que deben cumplir los datos para que sean válidas tales conclusiones.
b. ¿Qué grupo de pequeños es más homogéneo en cuanto a su talla? Explicar.
c. Calcular errores estándares de cada promedio y relacionarlo con los comentarios anteriores.
intver
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4
Inteligencia Verbal según Nivel Socieconómico
2
Los datos fueron proporcionados por el programa internacional PRESTA, y se enmarcan en el contexto de la tesis
doctoral de Nuria Rajadell Puiggros, Universidad de Barcelona, 1990
intnover
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4
Inteligencia No Verbal según Nivel Socieconómico
intnover
100
80
60
40
20
1 2
Inteligencia No Verbal según tipo de Escuela
intver
100
90
80
70
60
50
40
30
20
10
0
1 2
Inteligencia Verbal según tipo de Escuela
7. Una empresa dedicada a la consultoría dispone de personal para hacer visitas en terreno. Lleva un registro
diario de las distintas visitas y también de las frecuencias en las que aquellas visitas cumplieron con su
objetivo y de aquellos casos en los que no se cumplió con el objetivo. ¿Cuál es la mejor medida de
tendencia central a efectos de programar las visitas a terreno en esta empresa?
8. Producto del gran interés comercial de mercados extranjeros por la especie trucha arcoiris, su producción
y cultivo se ha masificado en los últimos años, así como también la búsqueda de eficiencia en ellos. Tal
situación ha motivado una gran cantidad de estudios y experimentos, por parte de universidades y
empresas privadas. Así en la piscicultura de Río Bueno, en la Región de los Ríos, se realizó un
experimento con el fin de evaluar la eficiencia del tipo de alimentación. Para ello se utilizaron dos jaulas,
en la primera de ellas a los individuos se les administró alimento extruido en cantidades normales (6
bolsas diarias) y en la segunda se les administró también alimento extruido pero a saciedad (10 bolsas
diarias).
La información obtenida se resume en el siguiente informe:
3
Kilos
1
A Sa c ie d a d C a n tid a d N o r ma l
Cantidad de Alimento
Histograma para la Longitud Histograma Para la Longitud
Trucha Arcoiris Trucha Arcoiris
12 12
10
9
8
Frecuencia
Frecuencia
6 6
3
2
0 0
33 36 39 42 45 48 28 32 36 40 44 48
Longitud (A. Normal) Longitud (A. Saciedad) Peso (A. Saciedad) Peso (A. Normal)
Mínimo 28.6 35.2 1.22 2.0
Máximo 46.1 46.5 3.35 3.12
Capítulo 2
ESTIMACIÓN DE PARÁMETROS
La Inferencia es ese proceso, científico (y más que estadístico), que permite el "tránsito" desde una muestra a
la población representada en esa muestra. De esta frase resultan importantes algunos conceptos como:
muestra, proceso y tránsito hacia la población. Lateralmente está presente, en este contexto, el problema
estadístico o de investigación. Esto último es el punto de partida de un trabajo. Un gran supuesto es que existe
algo (parcial o casi total) de esa población que se desea explorar o conocer. Es este desconocimiento de la
realidad el que justifica la investigación.
Sin embargo, no todos los aspectos de un fenómeno, en realidad, pueden ser desconocidos, ya que si ese fuere
el caso, entonces tampoco tendría sentido estudiarlo, porque no existe. De cualquier modo, ante la posibilidad
de desarrollar una investigación, existen siempre ciertos aspectos que el investigador conoce del problema.
Este conocimiento puede ser directo o indirecto. Directo, en el sentido que existe fuentes confiables de
información (anteriores) que permiten desde ya un acercamiento a ese problema. Indirecto, en el sentido que
hay conocimiento lateral acerca del problema. Por ejemplo, puede tratarse de estudiar un modelo de
comportamiento específico, pero la distribución de ese modelo no se conoce, pero se sabe cuáles podría ser
"candidatos" a modelo.
Hay que recordar, en este punto, que una población, representada por variables, llegará a ser conocida
(estadísticamente) en tanto se conozacan sus parámetros de definición. De modo entonces, que desde una
visión estadística, la investigación persigue la estimación de parámetros, sobre la base de información
empírica. Es aquí, en la condición empírica, que surge el concepto de muestreo.
El muestreo es la base fundamental de la inferencia: debe existir lo particular, para luego hacer las
generalizaciones pertinentes. El muestreo más utilizado en la investigación en campos aplicados, como el área
forestal, química, ambiental, etc., es el muestreo probabilístico. De estos muestreos, sin duda el muestreo
aleatorio simple es la base.
Por medio del muestreo se obtiene una "parte" representativa de la población, a objeto de, desde esta parte,
hacer las generalizaciones a la población que la información contenida en la muestra permita. Es fundamental,
entonces, la calidad de la muestra.
Se ha establecido que muestras aleatorias proporcionan buenos resultados en orden a hacer inferencias. Se
entiende por muestra aleatoria un conjunto de variables independientes e idénticamente distribuídas (iid). Esto
significa, en primer lugar, que una muestra es una colección de variables, digamos {X i }i =1, n ; y en segundo
lugar, que cada una de estas variables es independiente de cualquiera otra y todas tienen la misma
distribución.
Sabiendo que una población está totalmente determinada si se conocen sus parámetros de definición, resulta
una natural consecuencia, entonces, que el conocimiento de esos parámetros sea uno de los más importantes
objetivos de la investigación. El problema es que esos parámetrosno están disponibles, y habrá que obtenerlos
de algún modo, o, en su defecto, obtener estimadores de ellos. Esto último es lo que se abordará en estas notas
(y en el curso).
Hay básicamente dos formas de obtener un acercamiento a los parámetros: uno es a través de una estimación
puntual, que significa obtener un valor "estimado" de él; y otra es por medio de alguna afirmación
proposicional–probabilística del mismo. Por ejemplo, decir que el parámetro puede variar entre un valor y
otro. En el primer caso se habla de Estimación Puntual, y en el segundo de Estimación por Intervalos.
• Método de momentos (Debido a Karl Pearson (1894)): Sea q( θˆ ) una función de θ que se desea
estimar. Si se tiene q( θˆ ) = h(µ1, µ2, ..., µr), entonces q (θˆ) = h( M 1 , M 2 ,K, M r ) , donde µi es el i–
1
ésimo momento poblacional (µi = E[Xi]) y Mi es el i–ésimo momento muestral ( M i = ∑
n j
X ij ).
Al estimar un parámetro ocurre que, con mucha frecuencia, dependiendo del método, se obtengan
distintos estimadores. El probema es entonces disponer de un criterio que permita seleccionar a uno de
esos estimadores. En este sentido puede optarse por aluno de los dos criterios dados a continuación (Error
Cuadrático Medio y Eficiencia). Sin embargo, hay otras propiedades, quizá anteriores a estos dos
criterios, que facilitan la obtención de un estimador. Son a veces llamadas propiedades deseables de los
estimadores puntuales (Insesgamiento, varianza mínima, suficiencia, etc.). Por último, puede ser
interesante examinar algunas propiedades especiales del estimador (como consistencia y eficiencia). En
base a toda esta información, y siempre en relación al problema estudiado, se deberá optar por algunos de
los estimadores.
• Error Cuadrático Medio. El ECM para un estimador θˆ se define como ECM (θˆ) = E[θˆ − ϑ ]2 .
[
Después de algunas simplificaciones, puede escribirse ECM (θˆ) = Var (θˆ) + θ − E[ϑˆ ] . La ]2
[ ]
cantidad θ − E[ϑˆ ] se llama sesgo de θˆ .
Var (θˆ1 )
• Eficiencia relativa de θˆ2 respecto de θˆ1 : .
Var (θˆ2 )
Las medidas anteriores son útiles en la comparación de estimadores. A continuación se presentan algunas
propiedades deseables de los estimadores. Propiedades que se espera posean ellos. No puede esperarse
que un estimador dado posea todas estas propiedades. De seguro, un estimador particular poseerá sólo
algunas de estas propiedades. Será función del investigador determinar, de entre una serie de estimadores,
cuál de ellos es "mejor" bajo alguno de los criterios señalados o por señalar.
Ejercicio: Obtener el EMV de la media de una distribución normal de varianza unitaria, y estudiar si es o
no insesgado.
Solución: Sea {X i }i =1,n una muestra aleatoria de una población N(µ;1). Entonces la función de
−n −1
verosimilitud de la muestra es L( µ ) = (2π ) exp ∑ ( xi − µ ) 2 . Aplicando logaritmo natural (sólo
2
2
−n 1
para simplificaru poco la relación) se obtiene ln L( µ ) = ln(2π ) − ∑ ( xi − µ ) 2 . La derivada parcial
2 2
∂ ln L( µ )
de esta última expresión es ∑ ( xi − µ ) 2 . Reslviendo la ecuación = 0 , se tiene finalmente
∂µ µ = µˆ
Por otra parte, es fácil ver que E[X ] = µ , lo cual indica que el EMV en este caso, es insesgado. ♦
Una de las propiedades más importantes, desde el punto de vista de la Inferencia estadística, que se espera
posean los estimadores puntuales, son de tipo distribucional. Por esta razón, siempre se selecciona, de una
lista posible de estimadores, aquel que posee estas propiedades. Por ejemplo, puede ser que una
combinación lineal (distinta de la media aritmética) de las variables sea un buen estimador de la media
poblacional. Sin embargo, dado que la media muestral posee distribución normal en el límite, es tal vez
más interesante esta última como estimador que cualquiera otra combinación de variables.
Como en una gran frecuencia de casos nos enfrentaremos con medias y varianzas poblacionales (los que
además, como ya se habrá visto, son estimadores insesgados de sus respectivos parámetros), parece
razonable abordar el problema de distribución de estos estimadores.
Distribución de la Media Muestral: Como se plantea a modo de ejercicio, es fácil demostrar que, en una
población normal:
X -µ
~ Z , cuando la desviación estándar poblacional es conocida
σ/ n
X -µ
~ t n-1 , cuando la desviación estándar poblacional es desconocida.
S/ n
Teorema Central Del Límite: Este teorema es uno de los más importantes en materia
distribucional en el contexto de la inferencia. Establece que en una población con media y
varianza conocidas, y en muestras de tamaño infinito, la media muestral tiene distribución
aproximadamente normal, con una media igual a la media poblacional y una varianza igual a
σ 2 . En la práctica, el resultado se logra con muestras de tamaño supueriores a 30 o 40.
n
Observación: La aproximación anterior es buena ya sea que np > 5 y p ≤ 0.5, o bien n(1–p) > 5 para
p<0.5.
p(1 - p)
La relación anterior también es válida si en Var[pˆ ] = se sustituye p por su estimador.
n
pˆ - p
El estadístico Z = ~ N(0,1) se usará entonces para hacer inferencias acerca de p.
Var(pˆ )
Como se dijera oportunamente, otra forma de estimar un parámetro es mediante alguna afirmación
proposicional, que tiene una representación matemática a través de un intervalo real. Esto consiste en la
cosntrucción de un subconjunto de los números reales que se llama Intervalo de Confianza. Por ejemplo, en
lugar de decir que la media de una población normal es estimada por la media muestral, se podría decir que
ésta "oscila" entre una valor a y un valor b.
Pero, aún encontrando estos valores a y b, puede suceder que la afirmación en base a una muestra M1 sea
mucho más hacertada que en base a una muestra M2. Esta capacidad de "acertar" debe medirse, y la
herramienta que lo permite son las probabilidades. Esto es, se debe asignar (y conocer) la probabilidad con
que la media, realmente, oscila entre los valores indicados. Esta probabilidad da cuenta de la confianza de la
afirmación. Por ello es que el intervalo se llama Intervalo de Confianza. Más específicamente, si la confianza
es del orden de (1–α)100%, entonces se habla de Intervalo del (1–α)100% de confianza.
Un intervalo de confianza es, en consecuencia, una afirmación proposicional que tiene una frecuencia del (1–
α)100%. Esto significa que si se extrajeran infinitas muestras aleatorias del mismo tamaño, el (1–α)100% de
los intervalos construídos cubrirán al verdadero valor del parámetro, razón por la que, en algunos textos, se
habla de probabilidad de cubrimiento para referirse a ella. Esta probabilidad de cubrimiento se llama Nivel de
Confianza, y el valor α100% es el Nivel de Significación.
¿Cómo construir un intervalo de confianza? Hay varias formas de hacer esto. La más utilizada es la llamada
Regla del Pivote, que constiste en encontrar una cantidad, llamada pivote, que es función del estimador y del
aprámetro, y que tiene una distribución conocida (independiente del parámetro).
En una forma un tanto más práctica, se trata de encontrar dos funciones, Li (θˆ) y Ls (θˆ) de modo tal que la
probabilidad que el intervalo aleatorio cuyos lmímites inferior y superior sean Li (θˆ) y Ls (θˆ) sea igual a 1–α.
Notar que la probabilidad que el parámetro pertenezca al intervalo es 1 o 0. Por ello debe tenerse cuidado al
hacer las afirmaciones relativas a esta forma de estimación.
Observación: Notar que un intervalo de confianza se limita a parámetros reales, no a vectores de parámetros.
Se resume a continuación la construcción de un intervalo de confianza para una función g simétrica del
parámetro θˆ de una distribución.
Sean θ el parámetro de una población, y g una función paramétrica que se desea estimar. Sean, además, 1–α
el nivel de confianza, g( θˆ ) la función que estima bien a g( θ ), y D la distribución (simétrica) de g( θˆ ).
Entonces el intervalo tiene la forma ( Li (θˆ) ; Ls (θˆ) ). Al resolver las inecuaciones correspondientes (se
recomienda revisar bibliografía para una completa deducción de estas formas), se concluye que estos límites
son:
Li (θˆ) = g (θˆ) + Dα ee[ g (θˆ)] y Ls (θˆ) = g (θˆ) + D1−α ee[ g (θˆ)]
2 2
Ejemplo 2.1: Consideremos una muestra aleatoria de tamaño n de una distribución normal, con varianza
desconocida. Entonces un intervalo de confianza para la media poblacional µ de esta población, en base e la
muestra dada, es:
X + t
α ;n −1ee( X ); X + t1−α ;n −1ee( X )
2 2
Notar que como la distribución t–Studente es simétrica y que el error estándar (desviación estándar) de la
media muestral es S n , eontonces el intervalo encontrado es equivalente a:
S S
X − t1−α ;n−1 ; X + t1−α ;n −1
2 n 2 n
Supongamos ahora que, en una situación práctica, que se obtiene, en una muestra aleatoria de tamaño 36 de
una población normal, una media muestral igual 8 y una desviación estándar igual a 1.8. Entonces un
1.8 1.8
intervalo del 95 de confianza para la media poblacional es: (8 − Z 0.975 ;8 − Z 0.975 )
36 36
De la tabla normal se obtiene que Z0.975=1.96. Por lo tanto, el intervalo aproximado es (7.41;8.59). Esto
significa que, en base a estos datos, es altamente probable (95%) que la media poblacional tome valores que
van desde 7.41 a 8.59. Equivalentemente, si se muestreara infinitas veces, en las mismas condiciones, en el
95% de los casos obtendríamos intervalos de este tipo (conteniendo al parámetro). ♦
1. Obtener los estimadores por momentos de los parámetros de las siguientes distribuciones. Además, en
cada caso, estudie propiedades que posee el estimador:
a. Distribución Bernoulli.
b. Distribución de Poisson.
c. Distribución uniforme continua entre 0 y θ.
3. Considera una población (infinita) con media µ y varianza σ². En base a una muestra aleatoria de tamaño
n de esta población, digamos {X i }i =1, n :
a. Muestra que X es un estimador insesgado de la media poblacional µ.
2
b. Muestra que Var[ X ] = σ .
n
1
c. Demuestra que S 2 =
n −1
∑ ( X i − X ) 2 es un estimador insesgado de σ².
Nota: S² no será un estimador insesgado de σ² cuando la población sea finita. Además, S
nunca será un estimador insesgado de σ.
d. Calcula la eficiencia asintótica de la mediana con respecto a la media, e interprete esa eficiencia.
πσ 2
(Sug.: en poblaciones de tamaño grande se tiene que Var[ X 0.5 ] = ).
4n
e. Demuestra que S² es un estimador consistente de σ².
4. Sea {X i }i =1, n una muestra aleatoria de una población con media µ y varianza σ². Considere los siguientes
2X1 − X 6 + X 4
estimadores de θ=µ : θˆ1 = X ; θˆ2 = .
2
a. ¿Alguno de estos estimadores es insesgado?
b. ¿Cuál estimador es el "mejor"? ¿En qué sentido es mejor?
5. Verifica que el EMV de σ² en una población normal es sesgado. Determinar la magnitud del sesgo y
relacione el hecho anterior con la forma que en este curso hemos usado para la varianza empírica
(muestral).
6. Se ha obtenido una muestra de tamaño 20, de una población cuya función de densidad de probabilidad
está dada por: f (λ ) = λ * e − λt , donde t es el tiempo, en segundos, de reacción de un catalizador sometido
a prueba. La muestra obtenida es: {6, 7, 2, 8, 3, 10, 2, 4, 3, 9, 6, 7, 5, 8, 9, 6, 3, 7, 8, 8}. Determinar el
estimador máximo verosimil del parámetro λ.
7. La reglamentación nacional ambiental respecto del tratamiento de aguas, aplicable a una planta industrial,
indica que el agua reciclada no debe, en promedio, exceder los 28.9°C antes que pueda ser lanzada al río
que corre junto a la planta. De 70 muestras de agua reciclada, se encontró que su promedio de
temperatura fue de 30.2°C. Si se sabe que la desviación estándar poblacional es de 7.5°C y usando un
nivel de confianza del 95%, ¿existe evidencia que permita concluir que la planta cumple con la
reglamentación nacional?
Capítulo 3
HIPÓTESIS ESTADÍSTICAS
Hemos establecido las bases de un proceso de inferencia a partir de observaciones obtenidas de una población
normal, básicamente. En forma específica, hemos establecido los mecanismos de la inferencia en relación a
medias y varianzas poblacionales. La construcción de un intervalo de confianza es tal vez una de estas
técnicas que mayor aceptación pudiera tener. Sin embargo no siempre estamos interesados en estimar de esta
forma un determinado parámetro, sino que quisiéramos saber si, por ejemplo, los datos sustentan o no cierta
afirmación en relación a tal parámetro. Por ejemplo, supongamos que una organización independiente desea
saber si, en realidad, el precio del pan ha subido o no durante los últimos seis meses. Tal vez la construcción
de un intervalo de confianza para el valor promedio del pan podría ayudar a la solución del problema, pero
existe otra forma más eficiente y quizá menos complicada de hacerlo. Es por medio de lo que se conoce como
Prueba de Hipótesis.
Podemos decir que una hipótesis estadística es una proposición, formulada en términos de parámetros.
Recordemos que, desde un punto de vista de la lógica (Aristotélica), una proposición es una expresión del
lenguaje a la que se le pueden asignar sólo uno de dos posibles "valores de verdad": Verdadero o Falso. Esto
es precisamente lo que corresponde a una hipótesis estadística: Una afirmación acerca de los parámetros de
una población, como por ejemplo el caso del precio del pan citado más arriba.
Ejemplo 3.1: Supongamos que nuestro interés es el promedio de una población normalmente distribuída.
Entonces, si suponemos que X es la variable en estudio, lo que tenemos es X~N(µ;σ²). Específicamente,
supongamos que deseamos saber o inquirir si µ=µ0. Entonces ésta es nuestra hipótesis, que podemos
simbolizar como H0: µ=µ0. ♦
Es lógico pensar que, frente a una hipótesis como la anterior exista otra hipótesis, a modo de "contraparte", en
que se afirma lo contrario o se niega lo que establece la primera. Si denotamos esta "contraparte" por Ha,
entonces, para H0: µ=µ0, Ha podría expresarse como Ha: µ≠µ0, o bien como Ha: µ<µ0, o tal vez como Ha:
µ>µ0. Cualquiera sea esta "contraparte", se llama hipótesis alternativa, y H0 es la hipótesis nula.
Si una hipótesis se expresa en términos de igualdad, como aquí es H0, ésta se llama a su vez hipótesis sencilla
o simple. La hipótesis expresada como Ha: µ<µ0 es una hipótesis unilateral (a izquierda), la expresada por Ha:
µ>µ0 es una hipótesis unilateral (a derecha), y la hipótesis Ha: µ≠µ0 es bilateral. En este curso las hipótesis
nula serán siempre sencilas.
En el proceso inferencial con base en hipótesis estadísticas, el objetivo central es contrastar las hipótesis nula
y alternativa. Esto es lo que se conoce con el nombre de Prueba de Hipótesis. Una prueba de hipótesis es un
procedimiento que permite establecer si la hipótesis nula es una afirmación razonable (y por tanto no debiera
rechazarse), o no lo es (y debiera rechazarse). Los elementos que permiten determinar lo razonable o no de la
hipótesis son la evidencia muestral y la teoría de las probabilidades, especialmente la ralativa a distribuciones
de probabilidades. El procedimiento de prueba, llamado también test de hipótesis, empieza con la formulación
de las hipótesis nula y alternativa, reconociendo además el tipo de hipótesis (Test Unilateral o Test Bilateral),
lo que es determinado por la hipótesis alternativa (no olvidemos que la hipótesis nula será siempre del tipo
simple). Como una prueba de hipótesis es en sí un procedimiento de inferencia estadística, entonces debemos
identificar el estadístico que permite o facilita la inferencia. Por ejemplo, si la hipótesis se formula en
términos de medias poblacionales (la inferencia es acerca de medias poblacionales), entonces los posibles
estadísticos a utilizar serán el estadístico normal estándar o la t-Student, dependiendo, respectivamente, de si
son o no conocidas las varianzas poblacionales. El estadístico a utilizar es llamado Estadístico de Prueba,
debido a su finalidad. Un paso siguiente es establecer (decidir subjetivamente) el Nivel de Significación que
tendrá el test, digamos α. Este nivel de significación corresponde a la probabilidad de rechazar una hipótesis
verdadera, y se le conoce también como Probabilidad de Error de Tipo I (Algunos autores utilizan, en lugar
del nivel de significación, el nivel de confianza, 1–α).
Ejemplo 3.2: Supongamos que estamos interesados en probar la hipótesis nula H0: µ1=µ2 versus la alternativa
Ha: µ1≠µ2, en las poblaciones X1~N(µ1; σ1) y X2~N(µ2;σ2), ambas independientes. Para la prueba se extraen
sendas muestras aleatorias de tamaños n1 y n2, respectivamente. Si fijamos 1–α=0.95 y suponemos
desconocidas las varianzas, pero homogéneas, entonces, como el test es bilateral y la distribución del esta-
dístico de prueba es t-Student, con n1+n2–2 g.l., tenemos dos fractiles, dados por las cantidades ±t1-α/2;n1+n2-2
=±t0.975;n1+n2-2 y la región crítica tendrá la forma de la figura (b). En el caso que n1=23 y n2=18, n1+n2–2=40
grados de libertad, por lo tanto t1-α/2;n1+n2-2 = 2.021. La región crítica en este caso estará constituída por todos
los valores del estadístico de prueba que son o inferiores a -2.021 o superiores a 2.021. ♦
Regla de decisión
El problema que sigue por resolver, es cómo utilizar la evidencia muestral (información empírica) para
decidir si rechazar o no la hipótesis nula. El principio en el que se sustenta una prueba de hipótesis es que La
hipótesis nula es siempre verdadera, mientras no se pruebe lo contrario. Con este principio en cuenta, el valor
del estadístico de prueba, bajo H0, determinará si la evidencia que él resume es suficiente para apoyar el
rechazo de H0 o no. Si este valor pertenece a la región crítica, parece lógico que debiera rechazarse la
hipótesis nula. Por lo tanto ésta es la Regla de Decisión: Si, bajo la hipótesis nula, el valor del Estadístico de
Prueba pertenece a la Región Crítica, entonces rechazar la hipótesis nula en favor de la alternativa; caso
contrario, reservar el juicio (aunque en muchos textos se habla de aceptar la hipótesis).
Cuando se decide rechazar una hipótesis, esta decisión se toma en base a una muestra aleatoria extraída de la
población en estudio. Por tratarse de un proceso no excento de errores, de diverso tipo, puede ocurrir que
erróneamente hayamos llegado a tal conclusión, en cuyo caso estaremos rechazando una hipótesis verdadera.
Por otro lado, si no se rechaza una hipótesis, es porque el proceso no pudo detectar (o no había) evidencia en
su contra, pero no estamos seguros de si verdaderamente estamos frente a una hipótesis verdadera. Estos son,
pués, los dos tipos de errores más frecuentes en un proceso de prueba de hipótesis: Rechazar una hipótesis
Verdadera y No Rechazar una Hipótesis Falsa. El primero es lo que llamamos Error Tipo I, y el segundo
corresponde a lo que se llama Error Tipo II. Cada una de estas acciones tiene una probabilidad. Se acostumbra
denotar por α la probabilidad de Error Tipo I y por β la probabilidad de Error Tipo II (Nótese la semejanza
con un proceso judicial, y evalúese la gravedad de uno y otro tipo de error).
Formular
Paso 1 las hipótesis
nula y alternativas
Identificar
Paso 2 el Estadístico
de Prueba
Paso 3 Seleccionar
Nivel de Confianza
o de Significación
Paso 4 Determinar
la Región Crítica
Estados de la Naturaleza
Decisión H0 Verdadera H0 Falsa
Rechazar H0 Error Tipo I Acción Correcta
α 1–β
No Rechazar H0 Acción Correcta Error Tipo II
1–α β
El procedimiento general de prueba de una hipótesis fue presentado en la sección anterior, por lo que no es
necesario insistir en sus aspectos teórico–formales tratándose de determinadas pruebas, como lo son las
pruebas asociadas a aparámetro de una distribución conocida. Lo único que debe preocupar, en ese contexto,
es la construcción de los estadísticos correspondientes y de los demás elementos de la prueba. Por tal razón,
en esta sección se presentan algunos ejemplos que ilustran el uso de los respectivos procedimientos para
algunos parámetros.
Ejemplo 3.3: Se está sometiendo a prueba el rendimiento de un nuevo modelo de automóvil. Para ello se
eligen aleatoriamente cinco autos del proceso de producción, y se someten a un recorrido de 30 mil kilóme-
tros, obteniendo los siguientes rendimentos, en km/lts: 13.8, 14.6, 13,9, 14.5 y 14.2. La empresa fabricante
asegura que el rendimiento esperado de este modelo es de 14.7 km/lts. ¿Costituyen estos datos evidencia
sustancial en contra de la afirmación del fabricante?
Solución: Si representamos por X: Rendimiento del automóvil, entonces puede suponerse que X~N(µ;σ), y el
problema anterior se puede reformular en términos de hipótesis como H0: µ=14.7 vs Ha: µ<14.7, ya que en
verdad lo que el fabricante afirma es que su auto "rinde al menos 14.7 km/lts". Como se está haciendo
inferencia acerca de una media poblacional, y s es desconocida, entonces el estadístico de prueba es
X -µ
~ t n -1 .
S/ n
Notemos también que el test es bilateral a izquierda, así que, si fijamos 1–α=0.95, entonces el valor crítico es
tα/2;n-1=t0.05;4=-2.132. Por su parte, el valor del estadístico de prueba, supuesto H0 verdadera, es tc=(14.2–
14.7)/(0.35/2.24)=–3.19. Como este valor pertenece a la región crítica, entonces la decisión es rechazar la
hipótesis nula. Esto es, rechazamos la afirmación del fabricante, con un 95% de confianza. Observemos que si
1–α=0.90, entonces la evidencia contenida en los datos no permitiría rechazar la hipótesis H0. ♦
Ejemplo 3.4: Una empresa inmobiliaria tiene que construir una gran cantidad de edificios, de alta calidad. El
proceso de fiscalización será en extremo riguroso, por lo que la empresa ha de seleccionar de la mejor forma
la calidad de los insumos. Por ejemplo, para la adquisición de bloques de cemento ha seleccionado a dos
compañías fabricantes de este tipo de bloques, A y B, que le merecen confianza y seguridad. La compañía
fabricante que se adjudique la propuesta será aquella cuyos bloques muestren, en promedio, la mayor
resistencia en libras por pulgada cuadrada (psi). En el caso de resistencias iguales, se optará por comprar la
mitad de lo requerido a una empresa y la mitad a la otra. Para el efecto, se le solicitó a cada compañía una
muestra (aleatoria) de bloques. La Compañía A envió 81 bloques, los que arrojaron una media de 1070 psi y
una desviación típica de 63 psi. La Compañía B envió 64 bloques, los que proporcionaron una media de 1020
psi y una desviación estándar de 57 psi.
Solución: Sea X1: Resistencia de los bloques provenientes de A; X2: Resistencia de los bloques provenientes
de B. Suponiendo que la resistencia es una variable que se distribuye normal, y que la producción de las
compañías es independiente una de otra, el problema se puede reducir al contraste de las hipótesis H0:µ1=µ2
vs Ha: µ1≠µ2, donde µ1 y µ2 son las medias poblacionales de X1 y X2, respectivamente. Entonces el estadístico
( X 1 - X 2 ) - ( µ1 - µ 2 )
de prueba es ~ t n1+n 2- 2 el que, en consideración de los tamaños de muestra y en virtud
1 1
Sp +
n1 n2
del Teorema del Límite Central, puede aproximarse por una normal estándar.
Un problema puede tener el análisis anterior: la distribución de este estadístico es la indicada siempre que las
varianzas sean homogéneas. Por lo tanto, supuesto poblaciones normales e independientes, se debe verificar
(y ates de cualquier otro análisis), la homogeneidad de varianzas poblacionales. En efecto, el estadístico
S12
σ 12
utilizado para este propósito es F = que tiene distribución F con n1–1 g.l. en el numerador y n2–1g.l.
S 22
σ 22
en el denominador. En el caso analizado, haciendo 1–α=0.95, entonces tenemos que F1–α;80,63=F0.95;80,63=1.50.
Ahora, como fc=1.22, entonces no se rechaza la hipótesis de igualdad de varianzas, por lo que podemos
continuar con el análisis de las dos medias poblacionales. Si hacemos 1–α=0.95, entonces, con 81+64-2=143
g.l., los valores críticos, aproximados, son ±1.978 (notar que la prueba es bilateral), y la evidencia muestral se
resume en tc=4.95 (si se hubiese utilizado aproximación normal, esta valor habría cambiado a 5.01). Como
este valor pertenece a la región crítica, entonces se rechaza la hipótesis, lo que es equivalente a establecer, con
un 95% de confianza, que la resistencia promedio de los bloques no es la misma. La empresa contratista
deberá, entonces, seleccionar sólo un abastecedor (¿Cuál?). ♦
3.3.
3. 3. INFERENCIAS RESPECTO DE PROPORCIONES
En muchas situaciones prácticas puede ser de interés referirse a una caracterírtica particular de la población,
en términos de proporción o porcentaje. Por ejemplo, puede ser de interés estimar la porporción de
agricultores cuya actividad agrícola principal es la ganadería. En este caso la variable de interés no es
continua, y más bien representa una característica (atributo) que un valor numérico.
Sea una población Bernoulli de parámetro p, de la cual se extrae una muestra aleatoria de tamaño n, y sea X
la variable Número de éxitosen los n ensayos. Entonces esta variable tiene distribución binomial. Su función
de probabilidades es de la forma
n
p(x|n,p) = px(1–p)n–x
x
para x=0,1,...n, y 0<p<1.
X
El estimador del parámetro p puede demostrarse que es p̂ = .
n
Ejemplo 3.5: Imaginemos una población de la que deseamos estimar la proporción de familias que cultivan
maíz. Si se selcciona una m.a. de tamaño 40 familias de esta población y se encuentra que 26 de ellas cultivan
maíz, entonces la proporción estimada de personas que cultivan maíz es 26/40 = 0.65 = 65%.
X 1 1 pq p(1 - p)
Notemos que en p̂ = , X~bin(n,p), por lo que E[pˆ ] = np = p y Var[pˆ ] = 2 npq = = .
n n n n n
pˆ - p
El Teorema De Moivre-Laplace permite establecer que Z = ~ N(0,1) , con lo que este estadístico
Var(pˆ )
se deberá usar para hacer inferencias acerca de p. En particular, un intervalo de confianza del (1-a)100% para
pˆ (1 - pˆ )
p está dado por pˆ ± z1-α/2 . ♦
n
Ejemplo 3.6: Un congresista desea estimar su popularidad en cierto sector de la población. Especifica que la
proporción de electores que lo apoyarán debe calcularse dentro de ±2% de la proporción de la población y con
una confianza del 95%. En las elecciones pasadas recibió el 40% de los votos de este sector, y duda que esto
haya sufrido cambios sustanciales. ¿A cuántos electores habrá que encuestar?
Solución: Como se sabe, el error máximo permisible está dado por la desviación del estimador respecto del
parámetro. Específicamente, para el caso de estimación de proporciones, éste corresponde a la expresión:
pˆ (1 - pˆ )
e = ± z 1-α/2 e.e(pˆ ) = ± z 1-α/2
n
donde e.e.( p̂ ) es el error estándar de p̂ .
2
z
Si de esta relación se despeja n, encontramos que n = pˆ (1 - pˆ )( )
e
Como 1–α=0.95, entonces z1–α/2=z0.975=1.96, y ya que el estimador de p es 0.40, al sustituir estos valores en la
fórmula para n, obtenemos que el mínimo de encuestas a aplicar, con los requerimientos dados, es n>2304.95,
ó n=2305. ♦
Ejemplo 3.7: Se cree que el 55% de los estudiantes de la UCT son de fuera de Temuco. Se encuesta a 400
estudiantes de los cuales 228 resultan ser de fuera de Temuco. ¿Apoyan estos datos la creencia inicial?
Solución: Este es un problema de pruebas de hipótesis. Las hipótesis correspondientes son H0:p=0.55 vs
Ha:p≠0.55.
pˆ - p
El estadístico de prueba es Z = , que como hemos establecido, tiene distribución N(0,1). Si
p(1 - p)/n
α=0.05, entonces z1–α/2=z0.975=1.96, y por tratarse de un test bilateral, los valores críticos son -1.96 y 1.96. El
valor del estadístico de prueba, supuesto verdadera la hipótesis nula, es zc=0.804 ∉Rc. Por lo tanto, no existe
evidencia suficiente como para asegurar que el porcentaje de estudiantes de la UCT que no son de Temuco es
distinto del 55%. ♦
Ejemplo 3.8: Supóngase quue 1600 de 2000 electores que se han muestreado dijeron que planean votar por el
candidato A. Si el nivel de confianza es 1–α=0.95, entoncs un intervalo de confianza para la proporción de
personas que votarían por A en esta población es (0.782;0.818) (Nótese que n es grande). Esto es, entre un
78.2% y un 81.8% de los votantes votaría por el candidato A.
Si el tamaño poblacional es 200 mil electores, por ejemplo, entonces el total de personas que votarían por A
oscila entre 156400 y 163600. ♦
Sean X1~bin(n1,p1) y X2~bin(n2,p2) dos poblaciones binomiales independientes. Entonces se puede demostrar
que el estadístico que permite hacer inferencias acerca de la diferencia p1–p2 está dado por:
pˆ 1 - pˆ 2 X + X2
Z= ~ N(0,1) , donde pˆ c = 1 .
pˆ c(1 - pˆ c ) pˆ c (1 - pˆ c ) n1 + n2
+
n1 n2
Ejemplo 3.9: En laboratorios del departamento de acuicultura, se realiza un experimento para evaluar el
porcentaje de ovas fecundadas, usando un control de semen almacenado durante tres días (CSA3) y un control
de semen almacenado durante seis días (CSA6). Tras hacer dichas mediciones se obtuvieron los siguientes
resultados: de las 35 ovas en estudio, 25 de ellas fueron fecundadas usando CSA3; mientras que al usar
CSA6 resultaron fecundadas 28. Pruebe, con un nivel de significación del 4%, cuál de los dos períodos de
almacenamiento permite fecundar una mayor cantidad de ovas.
Solución.
A través de una prueba de hipótesis para la diferencia de proporciones, podemos dar respuesta a esta
interrogante, sabiendo que en el primer tratamiento la proporción estimada es de 0.71 mientras que en el
segundo tratamiento la proporción estimada es de 0.8.
Las hipótesis correspondientes serán: H 0 : p1 = p2 v/s H1 : p1 < p2 , basadas en la evidencia muestral
entregada.
pˆ1 − pˆ 2
El estadístico de prueba será: Z = cuya distribución ya discutida es N(0,1) y su valor de
p (1 − p )( n11 + 1
n2
)
zc = – 0.88. Si α = 0.05, y teniendo claro que la hipótesis alternativa es unilateral (una cola), siendo de interés
la cola izquierda, entonces zα = 0.05 = -1.65. Siendo el valor del estadístico de prueba – 0.88, supuesta
verdadera la hipótesis nula, el cual ∉ a la región crítica. Por tanto, no existe evidencia suficiente para asegurar
que la proporción de ovas fecundadas es sustancialmente menor usando el método CSA3.
Hemos presentado en las secciones anteriores los elementos más fundamentales de un proceso de Prueba de
Hipótesis, como una forma de hacer inferencia acerca de parámetros de una población. En particular se
presentaron situaciones en las que la inferencia comprometía a dos poblaciones. En estos casos era necesario
hacer ciertas verificaciones acerca de la población. Por ejemplo, se supuso que las muestras (poblaciones)
debían ser independientes, estar normalmente distribuídas y tener varianzas homogéneas. Una vez verificado
o justificado estos supuestos, sólo entonces corresponde continuar el proceso de inferencia acerca de medias
poblacionales, particularmente acerca de µ1–µ2.
La verificación de los supuestos de independencia y normalidad no es posible efectuarla aún, por lo que se
postpondrá para más adelante. Sin embargo, algunas veces no es posible disponer de muestras independientes,
ya que el problema así lo establece. Por ejemplo, supongamos que deseamos estimar la eficacia de un
programa de adiestramiento laboral, al interior de una determinada empresa. Los analistas proponen dos
formas de evaluación: Una consiste en seleccionar u grupo aleatorio de trabajadores y aplicarles un test de
rendimiento antes de aplicar el programa de adiestramiento; y luego, después de aplicado el adiestramiento,
seleccionar al azar otro grupo y aplicarles el test de rendimiento. El otro plan consiste en aplicar el test de
rendimiento al mismo grupo, antes y después del adiestramiento. Cada uno de estos diseños tiene sus ventajas
y desventajas, y en cualquier caso las hipótesis a contrastar se reducen a H0: µ1–µ2=0 vs Ha: 1–µ2≠0. Pero
supongamos que se selecciona el segundo. Entonces es claro que las muestras (grupos) aquí no son
independientes, pués la persona a quien se aplica el pre y post test, es la misma. Por consiguiente nuestras
observaciones son más bien pares de observaciones, hechas sobre el mismo sujeto. Por esta razón se habla
comúnmente de muestras pareadas. Frente a esta situación se debe buscar un procedimiento que resuma en la
mejor forma la evidencia en cotra de la hipótesis nula, esto es, debemos definir o determinar el estadístico de
prueba adecuado para el análisis de muestras como éstas.
El análisis en base a muestras pareadas es aconsejable cuando se tienen estudios que comprendan sujetos o
individuos similares genéticamente, por no decir el mismo individuo, como por ejemplo crías de la misma
camada, plantas del mismo semillero-fruta, etc. Es más, frente a una situación en la que es evidente parear las
muestras, éstas se deben parear.
Sean X1 y X2 dos variables aleatorias, distribuídas normalmente y con varianzas homogéneas. Definamos la
variable D={X1i–X2i; X1i ∈X1 , X2i ∈X2}, variable aleatoria que consiste de todas las diferencias entre los e-
lementos de los pares ordenados respectivos. Una deducción formal de la características de forma y escala de
D está lejos de los objetivos de este curso, por lo que sólo nos limitaremos al uso de los estadísticos
muestrales de D, a partir de una muestra aleatoria de tamaño n. Específicamente, se definen los estadísticos
2
∑ d -n D2
1 i
D = ∑d i y S D = , la media y la desviación estándar de D, respectivamente, donde di es la i-
n n-1
ésima observación de D, para i=1,...,n. Entonces el estadístico a utilizar en el proceso de inferencia acerca de
µ1–µ2 será
D - ( µ1 - µ 2 )
T= _ t n -1
sd / n
que cuando n tiende a infinito (o mejor dicho, es grande) puede aproximarse a una normal estándar.
Ejemplo 3.10: Supongamos que en el ejemplo acerca del plan de adiestramiento, que sirvió de motivación
para esta sección, se seleccionó aleatoriamente un grupo de 10 trabajadores para realizar la experiencia. El
índice de eficiencia, antes y después de aplicado el plan de capacitación laboral, se muestra en la tabla
siguiente, junto con la diferencia D:
1 128 135 7
2 105 110 5
3 119 131 12
4 140 142 2
5 98 105 7
6 123 130 7
7 127 131 4
8 115 110 -5
9 122 125 3
10 145 149 4
Lo que se pretende evaluar aquí es si el programa de capacitación produjo algún efecto diferencial en la
eficiencia de los trabajadores, lo que se puede expresar por medio de las hipótesis H0:µ1-µ2=0 vs Ha: µ1-µ2>0.
A partir de los datos se obtiene d = 4.60 y s d = 4.40 , y el valor del estadístico de prueba, bajo la hipótesis
nula, es tc=3.30. Si ahora α=0.05, entonces el valor crítico para esta prueba corresponde a t1-α;n-1=t0.95;9=1.833.
Como la evidencia empírica, dada por tc=3.30, está en la región crítica, entonces se debe rechazar la hipótesis
de efecto nulo de la capacitación, en favor de la alternativa. Esto es, existe razón estadísticamente suficiente,
al 5% de significación, como para asegurar que el programa de capacitación produjo un efecto diferencial en
la eficiencia de los trabajadores. ♦
La mayoría de los procesos inferenciales antes vistos requieren, entre otros supuestos, el de normalidad. Un
análisis que sobrepase consideraciones de tipo intuitivo o experiencial, y que se extiende más allá de la
normalidad, puede expresarse como un conjunto de hipótesis del tipo:
Sea FX la distribución de los datos X y sea Fo la distribución del modelo propuesto, la que generalmente es
sugerida por los datos. Entonces la pregunta inicial es equivalente a la hipótesis:
H 0 : Fx (x) = F0 (x)
Ha : Fx (x) ≠ Fo (x)
Un test de bondad de ajuste debe consistir entonces en un procedimiento que evalúe estadís-ticamente el
grado de concordancia (o disimilaridad) entre lo observado y el modelo sugerido o propuesto. En lo que sigue
se presentan dos de estos tests, ambos de naturaleza no paramétrica, es decir, en base a estadísticas sin una
distrubución de probabilidades conocida.
Como ya se dijera, un test de bondad de ajuste debe evaluar estadísticamente el grado de concordancia o de
discordancia entre la distribución de los datos y la distribución propuesta. Como es sabido, en la gran mayoría
de los test, una medida de dispersión adecuada permite esta evaluación. Específicamente, una medida
promedio de la dispersión entre lo observado y lo que se espera bajo la distribución propuesta, resume bien
este grado de concordancia.
Un desarrollo de esta forma de procedimiento, bajo condiciones especiales sobre los datos, se presenta más
detalladamente a continuación.
Esta prueba se aplica cuando se tiene un conjunto de observaciones discretizadas. Por lo tanto, la dimensión
de tal conjunto debe ser lo suficientemente grande como para asegurar una discretización aceptable. Debe
notarse que la variable en estudio puede ser discreta o continua.
Xi ~ bin (n (C ); P (x ∈ Ci) )
Si n (C) = n → ∞, entonces Xi – npi mide la distancia (dirigida) entre los datos y lo que se observaría,
conocida la probabilidad de que una observación pertenezca a la clase i. Una medida estandarizada asociada a
X i − npi
esta distancia es ∼ N (0,1), donde pi = P (x ∈ Ci ) = 1 – qi.
npi qi
| X i − npi |
Una medida absoluta de esta distancia estandarizada es, en consecuencia, . Esta estadística podría
npi qi
servir para llevar a cabo el contraste de Ho vs Ha , si se conociera su distribución. El problema surge cuando
tenemos más de una observación, en cuyo caso se debería encontrar una función que resuma de mejor manera
X i − npi X i − npi
los datos. Pero como ∼ N (0,1), entonces ∼ X (21)
npi qi npi qi
K
( X i − npi ) 2
Teorema: Bajo los supuestos anteriores, ∑
i =1 np
∼ X 2k −1
i
Demostración: Para k = 2:
( X i − np1 ) 2 2
∼X (1) . Nótese que p1+p2 = 1 y X1 +X2 = n . Así, q1 = p2.
np1 q1
Por lo tanto,
sólo es necesario la construcción del estadístico chi-cuadrado y seguir los habituales procedimientos de
decisión.
Ni = fobs
Xi = fesp
Obervación: Es importante cautelar que npi > 5 . Se ha probado que n = 5 k proporciona buenos resultados,
en caso de datos continuos.
Ejemplo 3.11. Se sospecha que la población de cierta especie salmonídea se encuentra igualmente distribuída
en sus cuatro variedades, esto es, el número de individuos por variedad tiene distribución uniforme. Para
evaluar estadísticamente la sospecha se selecciona una muestra aleatoria que arrojó lo siguiente:
Variedad 1 2 3 4
N° individuos 30 24 32 20
Como X 2
Ho = 3.43 ∉ Rc , entonces no hay evidencia en contra de una distribución uniforme de la especie en
sus cuatro variedades. ♦
Ejemplo 3.12. Se prueban 300 ampolletas para analizar sus tiempos de vida T (en horas). Se postula que
T ∼ ε (θ = 200).
T frec
C1 (0,100] 121
C2 [100,200) 78
C3 [200,300) 43
C4 [300, ∞ ) 58
1 t
– – 0.005t
Aquí f (t) = o = 0.005e , t > 0 . Por lo tanto
0
71 = P [ 0 < T < 100 ] = ∫ 100
0 0.005e
– 0.005t
dt= 0.39 y np1 = 117
P2 = 0.24 np 2 = 72
P3 = 0.15 np 3 = 45
P4 = 0.22 np 4 = 66
2
Ahora X Ho = 17 y nuevamente X 02.95;3 = 7.82.
Por tanto, puede asegurarse que el tiempo de vida de las ampolletas se distribuye exponencialmente. ♦
La aplicación del test chi-cuadrado para daterminar estadísticamente el grado de "concordancia" entre la
distribución de los datos y una distribución específica, requiere de una cantidad suficiente de observaciones
como para obtener una clasificación de los mismos lo más racional posible. Sin embargo, no siempre es
posible contar con la cantidad suficiente de observaciones, por lo que se hace necesaria una forma alternativa
de resolver el problema de bondad de ajuste. Una alternativa se basa en la conocida Estadística de
Kolmogorov-Smirnov, también llamada prueba de Lilliefors, apropiada cuando el tamaño de muestra es
pequeño y los datos son de naturaleza continua.
El procedimiento requiere de los estadísticos de orden, es decir, del conjunto ordenado de las observaciones
(en forma ascendente) y de la distribución empírica. Para una muestra de tamaño n con observaciones o
realizaciones X1 , X2 , ..., Xn , los estadísticos de orden se denotan por X(1) , X(2) , .... X(n) y la distribución
empírica corresponde a:
0 x < x(1)
k
Sn (x) = x(k ) ≤ x < x( k +1)
n
1 x ≥ x( k +1)
i
D +n = Máx − Fo ( x( i ) )1 ≤ i ≤ n
n
− i − 1
D n = Máx Fo ( x ( i ) ) − 1 ≤ i ≤ n
n
Dn = Máx {Dn− ; Dn+ }
−
donde D +n es la máxima cantidad en la que la distribución empírica excede a la distribución ajustada; y D n
es la máxima cantidad en la que Sn subestima la distribución Fo (x ) acumulada propuesta. Esta última
distribución, al igual que en el caso del test chi-cuadrado, es sugerida por los datos.
En estas condiciones el test es unilateral a derecha, y los valores críticos se observan en tabla o se obtienen a
partir de software.
Ejemplo 3.13. Después de una psicoterapia de modificación de la conducta, se aplica un test a un grupo de
estos individuos para establecer la evolución de la conducta. Los individuos son clasificados en dos grupos:
los que mejoraron y los que no mejoraron. Los puntajes de 10 individuos que no mejoraron su conducta
fueron:
Sujeto 1 2 3 4 5 6 7 8 9 10
Puntaje 6.6 5.8 5.4 5.1 5.0 4.3 3.9 3.3 2.4 1.7
La naturaleza de los datos hace pensar que X ~ N (4.35 ; 1.542) . La tabla con los valores de X(i) , la
distribución empírica Sn (x) , Fo (x ) y | Sn – Fo | se muestra a continuación:
X (i ) Sn (x) Fo (x ) | Sn – F o |
1.7 0.1 0.0427 0.06
2.4 0.2 0.1020 0.10
3.3 0.3 0.2483 0.05
3.9 0.4 0.3859 0.01
4.3 0.5 0.4880 0.01
5.0 0.6 0.6628 0.06
5.1 0.7 0.6879 0.01
5.4 0.8 0.7517 0.05
5.8 0.9 0.8264 0.07
6.6 1 0.9279 0.07
D 10 = 0.10 ; 1– α = 0.95 y D 10 ;0.95 = 0.41 (ver Tabla J de Canavos, G.: Probabilidad y Estadística.
Aplicaciones y Métodos). Por lo tanto, no existe evidencia en contra del supuesto de normalidad sobre los
datos. ♦
1. Si una hipótesis Ho se rechaza con una probabilidad de error Tipo I de 0.05, ¿se rechazará si α = 0.01?
Explica.
2. Considera el contraste de Ho:µ=20 v/s Ha: µ≠20. Si x =22, s=3.29 y n = 16, estudiar el rechazo de Ho.
3. Supón que en el problema 2 se fija α en 0.01, y que la media y varianza de las observaciones se
mantienen constantes en x =22 y s=3.29, respectivamente, al menos para un número apreciable de obser-
vaciones adicionales. ¿Cuántas unidades muestrales adicionales bastarán para llevar al rechazo de Ho?
4. El departamento de seguridad de una fábrica desea saber si el tiempo promedio real que requiere el
velador para realizar su ronda nocturna es de 30 minutos. Si en una muestra tomada al azar de 32 rondas,
el velador promedió 30.8 minutos con una desviación estándar de 1.5 minutos, determina si ésta es
evidencia suficiente para rechazar la hipótesis nula Ho:µ=30 en favor de la alternativa Ha: µ≠30.
5. Cinco mediciones del contenido de alquitrán de cierto tipo de cigarrillo arrojaron los siguientes
resultados: 14.5, 14.2, 14.4, 14.3, y 14.6 mg/cig. Demuestra que para α = 0.05 se debe rechazar la hipóte-
sis nula Ho:µ=14.0 en favor de la hipótesis alternativa Ha: µ≠14.0. Supóngase que los datos son una
muestra tomada al azar de una población normal.
6. Los pesos de reses Black Angus de cierta edad tienen en una muestra aleatoria de 24 reses una media de
253 libras y una desviación estándar de 2.38libras. Suponiendo que los pesos constituyen una muestra
aleatoria de una población normal, prueba la hipótesis nula Ha: µ=250 libras contra la alternativa Ha:
µ≠250 libras.
7. En un estudio de nuevas fuentes de alimentación, se informa que una libra de cierta clase de pescado
produce en promedio 2.45 onzas de FPC (concentrado proteco de pescado), que se utiliza para enriquecer
diversos productos alimenticios. ¿Se soporta esta cifra en un estudio en el cual 30 muestras de esta clase
produjeron en promedio 2.48 onzas de FPC (por libra de pescado) con una desviación estándar de 0.07
onzas? Explica.
8. Supóngase que las especificaciones de cierto tipo de cinta afirman que el producto tiene una resistencia
media a la ruptura de 185 libras y que cinco piezas seleccionadas al azar de diferentes rollos tienen una
resistencia media a la ruptura de 183.1 libras con una desviación estándar de 8.2 libras. Suponiendo que
podemos considerar los datos como una muestra tomada al azar de una población normal, prueba la
hipótesis de que la resistencia promedio es de 185 libras.
9. Un fabricante asegura a una compañía que le compra un producto en forma regular, que el porcentaje de
productos defectuosos no es mayor del 5%. La compañía decide verificar la afirmación del fabricante,
seleccionando de su inventario, 200 unidades de este producto y probándolas. Se encuentran 19
defectuosas. ¿Cuál debe ser la decisión de la compañía?
10. Una encuesta política reveló que 1400 personas de un total de 2500, seleccionadas aleatoriamente, tienen
preferencia por el candidato A respecto del candidato B.
a. Construir un intervalo del 99% de confianza para la verdadera proporción de votantes que está a favor
del candidadto A. En base a este intervalo, ¿se puede afirmar que es probable que el candidato A gane
la elección?
b. Responde a las mismas preguntas anteriores en base a una muestra aleatoria de tamaño 225.
11. Una casa comercial recibe una gran partida de bolsitas de semilla. La nota de entrega dice que, a causa del
proceso automatizado de empaquetado, el porcentaje de bolsitas que no cumplen los requerimientos
indicados en ella es del 1%. La casa comercial desea hacer una estimación del total de bolsitas que no
satisfacen los requerimientos, pero revisarlas todas es imposible, de modo que decide usar el muestreo
estadístico para reolver el problema. Decide que desea un error en las estimaciones no superior al 3%, y
una confianza del 95%. ¿Cuántas bolsitas deberá revisar? Desde otra perspectiva, formula y prueba las
hipótesis asociadas al problema.
12. Se desea establecer si la aplicación de cierto tratamiento alimentario incide o no en el desarrollo de cierta
variedad de vacunos. Con este fin, se seleccionaron 20 terneros de 3 meses, y se distribuyeron en grupos
de tamaño 10 cada uno. Uno de estos grupos fue sometido al tratamiento en cuestión, digamos Trat1,
mientras que el otro fue alimentado en condiciones normales o "tradicionales". Llamemos Trat2 a este
último tratamiento. Después de una cantidad dada de meses, se midió la variación en peso (diferencias de
peso) que experimentaron estos terneros, obteniéndose los datos de la tabla siguiente:
Trat1 6.5 10.1 8.6 10.5 9.5 10.6 8.8 10.9 5.2 10.4
Trat2 8.9 11.1 6.8 8.0 8.2 8.0 8.2 7.1 9.2 8.6
a. Caracterizar la variación en el peso de los terneros conforme a cada uno de los tratamientos. (Revisa
supuestos)
b. Determinar si el tratamiento nuevo es o no más efectivo que el sistema tradicional de alimentación, en
lo que al aumento de peso respecta. Analiza requisitos del análisis.
13. Sea X: Puntaje de untest de conducta. Se postula que X ~ N (7,2.72). Un resumen de los puntajes se
muestra en la siguiente tabla :
14. Los puntajes X correspondientes a 23 individuos seleccionados aleatoriamente de entre aquellos que
presentaron mejoría en el ejemplo 3.13, fueron los siguientes:
Ind 1 2 3 4 5 6 7 8 9 10 11
X 11.9 11.7 10.5 9.5 9.4 9.0 8.7 8.2 7.7 7.4 7.4
Ind 12 13 14 15 16 17 18 19 20 21 22 23
X 7.1 6.9 6.8 6.3 5.5 5.0 4.5 4.2 4.1 4.0 3.0 3.2
15. Se realiza un experimento biológico, en base a las concentraciones de un determinado elemento químico,
para reforzar el crecimiento, en centímetros, de una planta medicinal.
Para ello, se utilizaron 10 plantas de la especie en estudio, para finalmente medir su crecimiento en
centímetros. El cuadro siguiente muestra los resultados obtenidos:
Concentración1 8.7 9.4 8.2 8.6 8.5 8.9 8.9 8.4 8.9 9.2
16. Una empresa consultora en problemas ambientales, asesora a una institución ambientalista en la compra
de un instrumento para medir la cantidad de monóxido de sulfuro en la atmósfera. El proveedor dispone
de 2 instrumentos, los cuales deja a prueba por un mes para que se resuelva la compra. Durante este
período se realizaron mediciones en la zona, obteniendo lecturas resumidas en el siguiente cuadro:
Instrumento A 0.86 0.82 0.75 0.61 0.89 0.64 0.68 0.65 0.81
Instrumento B 0.87 0.74 0.63 0.55 0.76 0.7 0.69 0.57 0.53
Considerando que el instrumento seleccionado será aquel que presente la menor variabilidad, concluye
respecto del instrumento a comprar.
17. En relación al ejemplo 17, si se considera una segunda concentración del químico estudiado, obteniendo
los resultados resumidos en la siguiente tabla:
Concentración 2 8.3 8.4 8.2 8.1 8.5 8.9 8.9 8.4 8.9 8.2
Si la concentración más eficiente es aquella que maximiza el crecimiento de la especie en estudio, ¿cuál
de ellas es más eficiente?
18. Un centro experimental animal, estudia el uso de una nueva droga para ser utilizada como anestesia en
equinos. Las experiencias con esta droga indican que se logra anestesiar al 92% de los animales, por un
período de 5 horas.
Para evaluar la veracidad de esta experiencia, y por lo tanto masificar su uso, se aplicó a 10 caballos una
dosis de dicha droga, logrando anestesiar a 8 de ellos, por un período de 5 horas.
Con el ensayo realizado ¿se logran los mismos resultados que en las experiencias realizadas
anteriormente?
19. En el estuario de Reloncaví, zona costera y cordillerana del litoral de la antigua décima región, se
seleccionaron 2 bancos de prospección: Cochamó y Río Puelo, para evaluar la presencia de mercurio, a
través de la especie Mytilus chilensis, vulgarmente llamado "chorito", por ser el primer eslabón indicador
de la cadena trófica y un bioacumulador de mercurio (Moore, 1971; Golberg y Col, 1978; Davies y Pirie,
1980).
Después de realizado el muestreo y los análisis necesarios, se obtuvieron los siguientes resultados, en
ppm:
Río Puelo 0.026 0.038 0.019 0.057 0.021 0.006 0.025 0.009 0.007 0.011
Cochamó 0.011 0.00 0.015 0.00 0.00 0.01 0.013 0.00 0.014 0.011
a) Determinar cuál de los dos bancos en estudio presenta una mayor variabilidad en la concentración de
mercurio.
b) Determinar cuál de los dos bancos está más contaminado por la presencia de mercurio.
c) Discute respecto de los supuestos involucrados.
ANEXOS
1– α
Nivel de confianza : 1–
Función
Distribución Condición (es) Intervalo de confianza
de parámetros
σ
µ σ conocida X ± Z 1−α / 2
n
s
µ σ desconocida X ± t1−α / 2;n −1
n
σ 12 σ 12
µ1– µ2 X1 , X2 independientes
σ 1 , σ 2 conocidas
(X 1 − X 2 ) ± Z1−α / 2 +
n1 n2
Normal
X1 , X2 independientes
( X 1 − X 2 ) ± t1 α ;ν Sp
−
1
+
1
n1 n2
µ1– µ2 σ 1 , σ 2 desconocidas ν = n1 + n2 − 2
σ 1 , σ 2 homogéneas
S p2 =
(n1 − 1)S12 + (n2 − 1)S 22
n1 + n2 − 2
(n − 1)S 2 (n − 1)S 2
2 No hay ! 2 ;
σ χ
1−α / 2 ; n − 1 χ α / 2 ; n − 1
2
S 12 > S 22 S12 S2
2 f α / 2;n1 −1,n2 −1; 12 f1−α / 2;1,n2 −1
σ 12 S2 S2
σ 22 1
f α / 2;n1 −1,n2 −1 =
X1 , X2 independientes f1−α / 2;n2 −1,n1 −1
pˆ (1 − pˆ )
pˆ ± Z1−α / 2
Binomial p n grande
n
x
pˆ =
n
Nivel de confianza : 1–
1– α
Ho :µ1 – µ2 =0 X1 , X2 independientes (X 1 − X 2)
2
σ σ 12 m Z 1−α / 2
1
+
Ho :µ1 – µ2 ≠0 σ1 , σ2 conocidas n1 n2
(X 1 − X 2 )
Ho : µ1 – µ2 = 0 X1 , X2 independientes 1 1 m t1−α / 2;υ
S p2 +
σ1 , σ2 desconocidas n1 n2
ν =n1 + n2 – 2
Ha : µ1 – µ2 ≠ 0
σ1 , σ2 homogénas
S p2 =
(n1 − 1)S 2
1 + (n 2 − 1)S 2
2
n1 + n2 − 2
Ho : σ = σ0 (n − 1)S 2
No hay! χ 12−α / 2;n −1
Ha : σ > σ0 σ 02
H0 : σ1 = σ2
S12 > S 22 S12
f 1−α ;n1 −1,n2 −1
H0 : σ1 > σ2 S 22
X1 , X2 independientes
pˆ − p 0
H 0 : p = p0 pˆ (1 − pˆ )
n grande n m Z 1−α / 2
H 0 : p = p0 x
pˆ =
n
C. SUGERENCIAS BIBLIOGRÁFICAS
Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad,
a través de sus diferentes capítulos, se sugieren los siguientes títulos:
INTRODUCCIÓN AL ANÁLISIS DE
REGRESIÓN LINEAL
Para una adecuada utilización de estas notas te recomiendo completar su lectura con un libro de
texto de referencia, como los sugeridos en la bibliografía, y desarrollar cuidadosamente los ejerci-
cios y problemas propuestos.
El autor
ÍNDICE GENERAL
EJEMPLOS ILUSTRATIVOS 19
SUGERENCIAS BIBLIOGRÁFICAS 29
INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL
INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 4
INTRODUCCIÓN
Existen situaciones en las que la relación entre dos variables es de tipo "causa-efecto". En estos casos,
además de probar que efectivamente las variables están relacionadas (correlacionadas), interesa
también determinar la forma en que ellas se relacionan funcionalmente. Esta relación es de tipo
funcional, y se expresa a través de una ecuación. Si los datos muestran una tendencia lineal, entonces
la ecuación ser también lineal. En dicha relación se debe distinguir la variable independiente o
predictora de la variable dependiente. Denotaremos por \ a la variable (o conjunto de variables)
independientes (las que causan el efecto), y por ] la variable independiente (el efecto).
El análisis anterior no sólo es válido para el caso de dos variables, sino también en el caso en que se
tienen varias variables independientes y una variable dependiente. Por ejemplo, puede ser de interés
estudiar la forma en que se relacionan las variables Edad y Peso de un niño con la variable
Rendimiento Escolar. En este ejemplo Edad y Peso son las variables independientes, y Rendimiento es
la variable dependiente. El interés fundamental en este caso será quizá la predicción del Rendimiento
conocidos la Edad y el Peso de un niño.
La parte de la Estadística que se encarga de este tipo de estudios es el Análisis de Regresión. Existen
varios tipos de regresiones (lineales, polinomiales, logarítmicas, intrínsicamente lineales, etc.), pero la
más "popular" es la Regresión Lineal, la que a su vez puede ser simple o múltiple, dependiendo de la
cantidad de variables independientes.
Una forma más simple del modelo dado en (1) es ] œ "9 \ > "" X , que en una forma más
condensada puede escribirse como:
] = \t F X (2)
] œ XB X (3)
Aunque no son lineales propiamente tal, este tipo de modelos tiene una forma tal que, mediante
sencillas transformaciones, pueden linealizarse fácilmente. Los modelos más comunes de ese tipo son
de la forma:
Este último modelo se puede linealizar aplicando logaritmo a la igualdad, para obtener las ecuaciones
C w œ 68ÐCÑ œ "ow ""w B /w , con "ow œ 68Ð"o Ñß /w œ 68Ð/Ñ. Aquí, \ t œ ("ß B)ß F t œ ("o ,"1 ).
Modelos Polonomiales
Ejercicio: Identificar las componentes de las formas matriciales de los cuatro modelos definidos arriba.
IÐXi Ñ œ !ß a3 œ "ß 8
Z +<ÐXi Ñ œ 5 # , 3 œ "ß 8, supuesto de homocedasticidad
IÐXi X4 Ñ œ !, para 3 Á 4, supuesto de independencia de errores
Dicho análisis tiene, básicamente, dos enfoques diferentes. Por una parte se pueden desarrollar técnicas
de estimación y ajuste basados en gran medida en resultados de tipo geométrico. Aquí la geometría del
espacio y proyectiva revisten gran importancia, y se apoyan fuertemente de resultados del Algebra
Lineal. Los estimadores del modelo surgen naturalmente como consecuencia de consideraciones
geométricas a veces elementales, a veces complejas.
Por otro lado, se tiene un enfoque de tipo distribucional. En este caso se formula una serie de supuestos
que sustentarán el análisis y darán consistencia a las conclusiones, lo que también permitirá análisis de
tipo inferencial acerca del modelo o sus componentes. Esto último requiere de supuestos
distribucionales adicionales, lo que demanda un formación básica en Estadística Inferencial.
En estas notas seguiremos, preferentemente (aunque no exclusivamente) este último enfoque, y por
ajuste del modelo entenderemos el proceso que va desde el análsisis preliminar de los datos hasta la
estimación de los parámetros del modelo.
ANÁLISIS EXPLORATORIO
En esta fase se estudian características numéricas básicas de los datos, se valida la información, se
detectan y corrigen errores, se determina tendencia de los datos, si procede, se examinan eventuales
valores atípicos o extraños, etc. Es fundamental en esta parte del análisis la construcción del
diagrama de dispersión o nube de puntos, presentado anteriormente en la sección de Análisis de
Correlación Lineal.
La definición de la base de datos es fundamental, como también lo es el permanente "retorno a los
datos". Es sólo estaposibilidad de permanente confrontación con la realidad la que garantiza una base
de datos de calidad, y proporciona la confianza necesaria en los resultados.
Por esta razón es fundamental la fase preliminar de todo análisis de información, y particularmente el
análisis estadístico.
Presentaciones gráficas, tablas de resumen de información, etc., deberán preceder a cualquier análisis
sofisticado y complejo.
Otro aspecto importante de considerar en esta fase es la conceptualización y comprensión del problema,
lo que se debe buscar en las áreas afines al problema en estudio. Vital resulta, por lo tanto, el trabajo
interdisciplinario. Es lo único que puede ayudar a tener certezas en materia de conocimiento a priori
del problema abordado.
ESTIMACIÓN DE PARÁMETROS
Los parámetros del modelo lineal simple son "o , "1 y 5 . Los parámetros del modelo lineal general son
"o , "1 ,...,": y 5 . Nos referiremos a " œ Ð"1 ,...,": )t como el vector de parámetros. En una segunda
fase del análisis deberá estimarse " y eventualmente 5 . La técnica más usual de estimación es la de
Mínimos Cuadrados. Debe incluirse también en esta etapa aspectos de inferencia en relación a los
estimadores.
Existen básicamente dos métodos de estimación de los parámetros de un modelo de regresión: El
método de Mínimos Cuadrados y el de Máxima Verosimilitud. El primero consiste en minimizar el
"s œ Ð\ t \Ñ-1 \ t ]
2
5^ œ (] ] s Ñt ( ] ]
s ÑÎÐ8 Ð: "ÑÑ
Por otra parte, los estimadores máximo verosímil de " y 5 2 , respectivamente, son Ð\ t \Ñ-1 \ t ] y
(] ]s Ñt ( ] ]
s ÑÎ8 .
Definición: La matrix \Ð\ t \Ñ-1 \ t se llama matriz de proyección. Algunas características de esta
matriz son:
s) œ "
1. E("
s ) œ 5 2 Ð\ t \ )-1
2. Cov("
3. Var(s" i ) œ -33 5 2 à donde -34 (en geneal) es el elemento de la fila 3 " columna 4 " de la matriz
(\ \ )-1 .
t
4. Cov(s s j ) œ -34 5 2
"i ß "
2. s
" i ~N(" i ß cii 5 2 )
[8Ð:")]S2
3. 52 ~ ;28Ð:"Ñ
s " )t (\ t \ )("
(" s " )
4. 52 ~ ;2:"
La regresión lineal simple estudia la relación entre una variable independiente y una dependiente. Sean
\ y ] estas variables, respectivamente. La relación entre \ y ] la expresaremos, siguiendo la idea del
modelo (3), como:
] œ ! "\ X
Ci œ ! " Bi Xi
A veces la simple sospecha de una relación lineal aparente entre dos variables no es suficiente para
iniciar un análisis de regresión. Es preciso asegurarse de que existe verdaderamente tal tendencia (a
través de un diagrama de dispersión, por ejemplo), y que existe por cierto un relación de causa-efecto
entre las dos variables.
El análisis de regresión lineal simple se encarga de encontrar una recta ajustada que mejor represente a
las relaciones anteriores y que mejor se ajuste a los datos. Denotaremos la recta ajustada por
C^ i œ !^ "^ Bi , donde !^ y "^ son los estimadores mínimo cuadráticos de ! y " , respectivamente.
Para la obtención de !^ y "^ , notemos que el modelo Ci œ ! " Bi Xi , basado en 8 observaciones, es
un caso especial del modelo (3). En efecto,
Ô C1 × Ô " B" × Ô X1 ×
Ö C2 Ù Ö " B# Ù Ö X2 Ù
Ö Ù Ö Ù Ö Ù
Ö . Ù ÖÞ Þ Ù ! Ö . Ù
Ö ÙœÖ Ù Ö Ù
Ö . Ù ÖÞ Þ Ù” " • Ö . Ù
Ö Ù Ö Ù Ö Ù
Õ Cn Ø Õ " Ø Õ Xn Ø
. Þ Þ .
B8
Õ " B8 Ø
Þ Þ
Ô !B#i !Bi ×
Además, (\ t \ )-1 œ ! 2 1 ! 2 Ö Ù,
!
Õ Bi 8 Ø
8 Bi ( Bi )
Õ Bi
t -1 t
y por lo tanto, (\ \ ) \ ] œ
i
8!Bi Ci 82 B C
œ C "^ B
8!B2i (!Bi )2
!^ œ C
!e2
2 i
Por otra parte, el estimador mínimo cuadrático de la varianza es 5^ œ 8# , mientras que su
!e2
2 i
estimador máximo verosímil es 5^ œ 8 .
Proposición: Si los errores están centrados en cero y tienen varianza común 52 , entonces:
Se administra una prueba de habilidad a grupo de 5 postulantes a vendedores en una empresa, y se les
deja a prueba durante un mes, al cabo del cual se registran sus ventas semanales (en miles de dólares).
Los resultados fueron:
B % ( $ ' "!
C & "# % ) ""
Disgrama de Dispersión
Puntaje vs Ventas
13
11
9
Y: VENTAS
3
2 3 4 5 6 7 8 9 10 11
X: PUNTAJE
Puede pensarse que las ventas semanales "dependen" del puntaje obtenido en la prueba.
Los ajustes correspondientes conducen a los siguientes valores estimados: !^ œ "Þ# y "^ œ 1.13. Esto
implica que la recta ajustada es C3 œ 1.2 1.13B3 , donde C3 son las ventas semanales estimadas y B3 es
el puntaje obtenido en la prueba.
Si se graficara esta recta en el mismo diagrama anterior, habría puntos de los allí marcados que no
pertenecerían a la recta, lo cual es obvio, pues ajustamos una recta a un conjunto de datos que no tienen
una tendencia lineal perfecta.
Puntajes vs Ventas
y = 1.2+1.133*x+eps
13
11
9
Y: VENTAS
3
2 3 4 5 6 7 8 9 10 11
X: PUNTAJE
La gráfica siguiente muestra el resultado gráfico de los mismos ajustes anteriores, adicionando ahora la
banda de confianza para los valores predichos. Puede verse que existe una observación "fuera" de esta
banda de confianza del 95%.
11
Observed Values
9
3 Regression
4 6 8 10 12 14 95% confid.
Predicted Values
El encontrar una ecuación que represente la situación planteada, no significa que el ajuste sea
de gran utilidad. A veces ocurre que la ecuación encontrada no sirve para predecir. La bondad del ajuste
es, en consecuencia, un aspecto de relevancia en el análisis de regresión.
INFERENCIAS EN EL MODELO
Supuesta la normalidad en los errores, además de los supuestos iniciales sobre el modelo de regresión,
podemos formular hipótesis sobre los parámetros, y validar por lo tanto algunos supuestos que sobre
ellos formulemos. Los supuestos distribucionales permiten, además, la construcción de intervalos de
confianza, que pueden resultar muy útiles a la hora de juzgar la calidad del modelo ajustado.
" i „ !2
>1- 2 SÈ-44 si 5 es desconocido
s
Otro aspecto de importancia en el análisis de los estimadores dice relación con hipótesis de interés
formuladas al respecto. En este sentido uno de los problemas que reviste gran importancia es el
contraste de
Ho :" i œ " i0 v/s Ha :" i Á " i0 , para i Á !
Como s
" i ~N(" i ß -33 5 2 ), entonces bajo Ho , y cuando 5 2 es conocido, el estadístico de prueba, supuesto
s
Ho verdadera, para el contraste anterior es È
"i "i0
- 52
~ N(0,1). Y cuando 5 2 es desconocido, el estadístico
33
s
È-33 S2
"i "i0
toma la forma ~ >8Ð:"Ñ .
Ejemplo: Los siguientes datos corresponden al crecimiento ] (en mm) de una planta al variar la
temperatura ambiente \ desde -2°C a +2°C:
B -2 -1 0 1 2
C 0 0 1 1 3
Solución: El modelo que se pide ajustar es de la forma C œ " o " " B " # B2 /Þ En forma vectorial
se tiene:
Ô "o ×
Õ" Ø
2
] œ (1,Bß B ) " 1 X
2
En forma matricial:
Ô 0 × Ô 1 -2 4 ×
Ö 0 Ù Ö 1 -1 1 ÙÔ " o ×
Ö Ù Ö Ù
Ö 1 Ù œ Ö 1 0 0 Ù "1 X,
Ö Ù Ö Ù
1 1 1 Õ "2 Ø
Õ3Ø Õ1 2 4Ø
1
Ô X1 ×
Ö X2 Ù
Ö Ù
donde X œ Ö X3 Ù
Ö Ù
Õ X5 Ø
X4
Ô 5 10 × Ô 35 ×
0 , así que Ð\ t \Ñ-1 œ Ö 0 0 Ù.
17 -2
0 0 14
Õ 10 34 Ø
1
Õ -2 1 Ø
Pero \ t \ œ 0 10 10
0 0
14 14
Ô0×
Ô1 1 ×Ö 0 Ù Ô 5 ×
Ö Ù
2 Ö1Ù œ 7 .
1 1 1
Õ4 Ö Ù Õ Ø
4Ø 1
t
Por su parte, \ ] œ -2 -1 0 1
Õ3Ø
1 0 1 13
Ô 35 ×Ô 5 × Ô 0.5714 ×
sœÖ 0 0 Ù 7 œ 0.7000 .
17 -2
0 14
1 ØÕ 13 Ø Õ 0.2143 Ø
1
Õ -2
Por lo tanto, Ð\ t \Ñ-1 \ t ] œ " 10
14 0 14
Se ha obtenido una ecuación a la que se ajustan los datos. Falta determinar si existe evidencia suficiente
a favor de la curvatura.
Calculando la WG I œ Ð] ]^ Ñw Ð] ]^ Ñ œ ] w ] "s w \ w ] , obtenemos que WG I œ 0.463, por lo que
#
= œ 0.2315, y = œ 0.48. Si ! œ !Þ!&, entonces >8Ð:"Ñà!*(& œ >#à!*(& œ %Þ$!$ es el valor crítico
superior del test. Como "s 2 œ 0.2143, entonces >L9 œ "Þ'(, valor que no pertenece a la región de
rechazo. En consecuencia, los datos no contienen evidencia suficiente para incorporar un término
cuadrático en el modelo. è
Dado el modelo ] œ X" X , ]^ œ X" s œ T ] es el valor estimado de ] para una matriz dada X.
Respecto de ]^ se formula la siguiente proposición:
Definición: Los residuos (errores estimados) del modelo ] œ X" X se definen como
X^ œ e œ ] ]^ œ (M T )] .
Es obvio que bajo normalidad en los errores, ] µ N(X" ,5 2 M ). Por lo tanto, un intervalo del
(1 !)100% de confianza para E[] ] en \ œ (1,\o )t es:
" ØÕ % Ø
"
Ì Õ #
"!
"%
! "%
Si " ! œ !Þ*&, entonces >"!Î#à# œ %Þ$!$, y en consecuencia el intervalo de confianza para IÒ] Ó
cuando B œ # corresponde a Ð!Þ*%)à %Þ(##%Ñ.
Predicción
El intervalo ]^ „t1!/2;8Ð:"Ñ SÈ\ot (\ t \ )-" \o es un intervalo que estima los valores entre los cuales
puede variar la respuesta media de ] dado que \ œ \o . Otro problema es estimar la variabilidad de ]
en un punto dado \o . Este valor de ] es la predicción de ] en el punto dado \o , que denotaremos por
]: . Entonces un estimador de ]: es ]^ : œ ]^ o e: , donde ]^ o œ \ot "s , y e: es un error de predicción,
Bajo normalidad, se tiene que ]: µ Nˆ\ot " ; (\ot (\ t \ )-" \o ")5 2 ‰. En consecuencia, un intervalo de
2
que es independiente de ei , ai, con E[e: ] œ ! y Var[e: ] œ 5 .
lo tanto È" \9w Ð\ w \Ñ" \9 œ "Þ$&*$. Luego, un interalo del 95% de confianza para C: en B œ # es
Ejemplo: En base a los datos del ejemplo anterior, si B œ #, entonces \9w Ð\ w \Ñ" \9 œ !Þ)%($, y por
Ð!Þ!$#&à &Þ'#%(Ñ. Nótese que el error estándar de C^ : es !Þ'%*), mientras que el de IÒ] Ó es !Þ%%!". è
En base a los resultados y ejemplos anteriores se puede decir bastante acerca de la bondad del modelo.
Por ejemplo, se puede juzgar la calidad de los estimadores, de las predicciones, etc., y en base a tales
juicios, decidir si el ajuste puede considerarse confiable o no para propósitos de predicción, por
ejemplo. Sin embargo, como se verá más adelante, sólo en la etapa de diagnóstico obtendremos las
mejores herramientas para la toma de decisiones.
EL ANÁLISIS DE LA VARIANZA
Hasta aquí se ha evaluado la bondad del modelo ] œ X" X sólo en función de la calidad de los
estimadores correspondientes. Además, todos los análisis se han efectuado sobre la base que el modelo
ajustado es de buena calidad. Sin embargo, esto no siempre ocurre así, por lo que es necesario evaluar
la calidad del modelo globalmente, de modo de obtener una apreciación más objetiva y completa al
respecto.
De suma importancia para el logro de este objetivo es el análisis de las siguientes hipótesis :
Dado que el modelo ] œ X" X se ha supuesto lineal en los parámetros, las hipótesis anteriores se
pueden interpretar como elementos de análisis de linealidad, aunque esto último requiere de exigencias
adicionales que no siempre se deducen del análisis del contraste planteado. Una forma alternativa de
este contraste es:
Ho : " i œ 0 , a3 Á !
Ha : " i Á 0, para algún 3 Á !
Un método de análisis de esta prueba se basa en el llamado Análisis de la Varianza, el que se basa en
la partición de las sumas de cuadrados y de los grados de libertad asociados con la respuesta ] . Para
ello es preciso definir lo siguiente:
i=1
Nótese que:
SCT œ 0 Ê todas las observaciones son iguales
SCE œ 0 Ê no hay variación en ]
SCR œ 0 Ê recta horizontal (en regresión lineal simple)
Nota: Los grados de libertad del modelo son "el número de parámetros menos 1, o equivalentemente, el
número de variables independientes".
Ejemplo: Consideremos los datos relativos a crecimiento versus temperatura, analizados previamente.
La tabla ANOVA correspondiente es:
El valor 0#ß#à!Þ*& œ "*Þ!, de modo que no puede rechazarse la hipótesis L9 À " " œ " # œ !. Esto
significa que el modelo propuesto no es el adecuado.
Para estos mismos datos, puede verificarse que V # œ !Þ*#$)", error estándar de la
estimación œ !Þ%()!*". è
Ejercicio: Los datos siguientes son \ : Altura en centímetros, y ] : Peso en kilogramos, de una muestra
de 10 jóvenes de 18 años. Estudiar el ajuste de un modelo lineal simple para estos datos.
\ ]
169.6 71.20
166.8 58.20
157.1 56.00
181.1 64.50
158.4 53.00
165.6 52.40
166.7 56.80
156.5 49.20
168.1 55.60
165.3 77.80
Residuos:
Residuos Sttudentizados:
Estandarización: <3 œ 5^Èe":
3
Ä residuo studentizado
33
Tamaño de muestra es grande Ä residuos aproximadamente normales Ä Valores rara vez fuera del
intervalo ( #ß #)
Gráficos de Residuales:
Modelo Adecuado Ê
Pares ÐC^ 3 ß <3 Ñ en torno a una recta horizontal
Ninguna tendencia aparente
Rara vez fuera del intervalo Ð #ß #Ñ (Gráfico a).
Otros Gráficos:
- (f) acusan no linealidad y varianza no constante en los errores.
- (f) indicará, quizá, que un efecto cuadrático de la variable \ debiera incluirse en el modelo.
- (g) indicaría falta de independencia en los errores, o más bien, errores autocorrelacionados.
EJEMPLOS ILUSTRATIVOS
Como una forma de ilustrar y aplicar los resultados, análisis y comentarios anteriores, presentamos a
continuación dos ejemplos, en los que desarrollaremos las ideas más fundamentales del Análisis de
Regresión.
EJEMPLO 1
(Extraído de Canavos(1988), pag. 536). Una compañía manufacturera desea predecir el costo unitario
de fabricación ] de uno de sus productos como una función de la tasa de producción (que fluctúa en el
tiempo) \" y de los costos de material y mano de obra \# . Los datos se recabaron durante un periodo
de 20 meses durante el cual la tasa de producción y los costos del material y la mano de obra
experimentaron un fluctuación muy amplia. La tasa de producción se midió como un porcentaje de la
capacidad total de producción, y se utilizó un índice apropiado para reflejar los costos del material y
mano de obra. Las observaciones se encuentran en la tabla siguiente. Obtener la mejor ecuación de
regresión para predecir el costo por unidad.
La Tabla de Datos:
] \" \#
"$Þ&* )( )!
"&Þ(" () *&
"&Þ*( )" "!'
#!Þ#" '& ""&
#%Þ'% &" "#)
#"Þ#& '# "#)
")Þ*% (! ""&
"%Þ)& *" *#
"&Þ") *% *$
"'Þ$ "!! """
"&Þ*$ "!# ""'
"'Þ%& )# ""(
"*Þ!# (% "#(
")Þ"' )& "$$
")Þ&( )' "$&
"(Þ!" *! "$'
")Þ!$ *$ "%!
"*Þ## )" "%#
#"Þ"# (# "%)
#$Þ$# '! "&!
Tabla de coeficientes:
St. Err.
B of B t(17) p-level
Intercept 20.28127 2.125250 9.54300 .000000
X1 -.13770 .015854 -8.68549 .000000
X2 .07425 .010965 6.77134 .000003
Analysis of Variance:
Sums of Mean
Squares df Square F p-level
Regress. 144.3873 2 72.19367 90.28916 .000000
Residual 13.5929 17 .79958
Total 157.9803
1.5
Residuals 1
0.5
-0.5
-1
-1.5 Regression
13 15 17 19 21 23 25 95% confid.
Predicted Values
Buscando la Solución:
105
95
85
X1
75
65
55
45 Regression
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 95% confid.
Raw residuals
110
100
90
80
70 Regression
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 95% confid.
Raw residuals
Tabla de coeficientes:
Interc 41.55146
X1 -3.33317
X2 .50479
SQX1 2.68815
Tabla ANOVA:
Sums of Mean
Squares df Square F p-level
Regress. 154.9233 3 51.64111 270.2900 .000000
Residual 3.0569 16 .19106
Total 157.9803
¿Mejoró el ajuste?
0.6
0.4
0.2
Residuals
-0.2
-0.4
-0.6
-0.8
-1 Regression
12 14 16 18 20 22 24 26 95% confid.
Predicted Values
1.5
Expected Normal Value
0.5
-0.5
-1.5
-2.5
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8
Residuals
24
22
Observed Values
20
18
16
14
12 Regression
13 15 17 19 21 23 25 95% confid.
Predicted Values
24
22
Observed Values
20
18
16
14
12 Regression
12 14 16 18 20 22 24 26 95% confid.
Predicted Values
La Ecuación Final:
Los datos siguientes representan el costo de calefacción ] y otras características de casas unifamiliares.
El problema es estimar una función lineal del consumo ] en términos de las otras variables.
En esta tabla observamos que los valores estimados son: A = 388.802 y B = -4.93419. La ecuación de
regresión ajustada es por lo tanto,
] = 388.802 - 4.93419\ 1
El valor T para probar la hipótesis nula de que el coeficiente de \ 1 es cero, es -5.89201. El valor
crítico, con n-(p+1)=20-2=18 g.l. y con un 95% de confianza, para un test bilateral, es „2.101, donde
(p+1) es el número de parámetros (p es el número de variables independientes). Por lo tanto, el valor de
La otra pregunta que hay que responderse en relación a un modelo ajustado, es si se hizo bien o no al
suponer un modelo como el especificado originalmente. La tabla ANOVA entrega todos los elementos
necesarios para tomar una decisión respecto de esta interrogante (hipótesis). Para los datos que estamos
analizando, dicha tabla es la siguiente:
Analysis of Variance
--------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio Prob. Level
Model 140214.94 1 140214.94 34.7 .00001
Residual 72700.809 18 4038.934
--------------------------------------------------------------------
Total (Corr.) 212915.75 19
Correlation Coefficient = -0.811509
R-squared = 65.85 percent
Stnd. Error of Est. = 63.5526
El valor del estadístico de prueba, la F, bajo la hipótesis nula, es 34.7. El valor crítico es una valor F
con 1 g.l. en el numerador y con 18 g.l. en el denominador. Con un 95% de confianza, el valor crítico es
4.41. Entonces deber rechazarse la hipótesis de que el modelo NO ES EL SUPUESTO
INICIALMENTE. Por lo tanto hicimos bien al suponer que los datos seguían una tendencia como la
indicada.
Por último, el valor R-squared = 65.85 percent corresponde al coeficiente de determinación, que en este
caso indica que el 65.85% de la variabilidad en ] se puede explicar por medio de la variable \ 1.
Todo lo anterior hace suponer que la recta ajustada es confiable para predicción.
Los valores de los coeficientes y el respectivo valor t, entre otros, se muestran en la siguiente tabla:
En este caso el estadístico de prueba es una t-Student con 20-5=15 g.l. A un 95% de confianza, los
valores críticos son „2.131. Puede apreciarse que los valores de T asociados a los coeficientes de \ 3 y
\4 están en la región de aceptación, por lo que deber aceptarse la hipótesis de que estos coeficientes
son cero.
De la siguiente tabla ANOVA, según el valor F, podemos deducir que se hizo bien al suponer que los
datos seguían un modelo lineal.
EJEMPLO 3
Al ajustar un modelo de regresión múltiple a los datos, como por ejemplo en la forma
C3 œ ! "" \" "# \# "$ \$ "% \% %3 , se obtuvo, entre otros análisis, la siguiente tabla de
coeficientes:
En ella podemos apreciar los valores estimados de los respectivos parámetros, son A=-69.048,
B1=0.228, B2=0.556, B3=-1.493 y B4=1.547. Esto significa que la ecuación ajustada es
Observemos sin embargo, que de acuerdo al valor t indicado en esta tabla no se puede rechazar la
hipótesis de que el tercer parámetro es cero (á3). Por lo tanto este parámetro es cero, y debería
eliminarse del modelo ajustado, ya que su contribución a él es nula. Lo que corresponde después de
excluir la variable \ 2 del modelo, es hacer un nuevo ajuste. Al pie de esta tabla se observan los valores
del coeficiente de determinación, que es del 95.66%; y el error estándar del modelo, entre otros datos.
La siguiente tabla, como su encabezado lo dice, es la tabla ANOVA del modelo. Ella permite evaluar
estadísticamente la significancia del modelo. Específicamente la razón F permite probar si se hizo bien
al suponer un modelo lineal.
Si se excluyera del modelo la variable \2 , es probable que el modelo, que así es bastante bueno, mejore
aún más.
SUGERENCIAS BIBLIOGRÁFICAS
Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta
unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos: