Apunte Completo

FACULTAD DE INGENIERÍA
DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS

ÁREA ESTADÍSTICA
PROBABILIDADES Y DISTRIBUCIONES
DE PROBABILIDADES
Prof. Juan Moncada Herrera
Segundo semestre de 2008

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 2
PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES
Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

INDICE DE CONTENIDOS
INTRODUCCIÓN 4
Capítulo 1. CONCEPTOS BÁSICOS DE PROBABILIDADES

1.1. PRELIMINARES................................................................................................................... 5
1.2. CONCEPTOS DE PROBABILIDAD.................................................................................... 8
1.3. EJERCICIOS Y PROBLEMAS............................................................................................. 10
Capítulo 2. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES

2.1. VARIABLES ALEATORIAS................................................................................................ 14
2.2. DISTRIBUCIONES DE PROBABILIDADES...................................................................... 15
2.3. FUNCIONES DE VARIABLES ALEATORIAS .................................................................. 18
2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA..................... 19
Capítulo 3. ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES

3.1. ENSAYOS BERNOULLI...................................................................................................... 25
3.2. LA DISTRIBUCIÓN BINOMIAL......................................................................................... 26
3.3. LA DISTRIBUCIÓN DE POISSON...................................................................................... 27
3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA....................................................................... 28
Capítulo 4. ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES

4.1. LA DISTRIBUCIÓN UNIFORME........................................................................................ 31
4.2. LA DISTRIBUCIÓN NORMAL............................................................................................ 32
4.3. LA DISTRIBUCIÓN EXPONENCIAL................................................................................. 35
4.4. LA DISTRIBUCIÓN GAMMA............................................................................................. 35
4.5. LA DISTRIBUCIÓN DE WEIBULL..................................................................................... 36
4.6. LA DISTRIBUCIÓN JI–CUADRADO................................................................................. 37
4.7. LA DISTRIBUCIÓN T–STUDENT...................................................................................... 38
4.8. LA DISTRIBUCIÓN F–FISHER........................................................................................... 39
ANEXOS
A. TEMAS COMPLEMENTARIOS ........................................................................................ 41
A.1. ESPACIOS MUESTRALES FINITOS ........................................................................ 41
A.2. VECTORES ALEATORIOS ........................................................................................ 42
A.3. LA FUNCIÓN GAMMA ............................................................................................. 43
B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS ........................... 45
C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS .......................... 46
D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR ........................... 47
E. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................. 48

INTRODUCCIÓN
La “incertidumbre” que se tiene frente a gran parte de los hechos que nos ocurren diariamente, en
variados ámbitos de nuestra vida, nos ha llevado a estudiar este fenómeno en busca de afirmaciones precisas
sobre la naturaleza de este entorno incierto. Para ello, es necesario desarrollar un lenguaje específico que nos
permita comunicarnos con estos hechos. Así, es posible pensar en la “Probabilidad” como el lenguaje a través
del cual es posible hablar de incertidumbre.
Esta Primera Unidad Temática, contiene los principales elementos conceptuales y prácticos
asociados a este lenguaje de las probabilidades, así como también a su “comportamiento” en este entorno
incierto, llamado distribución. A lo largo de esta unidad, el lector encontrará conceptos y aplicaciones que le
permitirán formarse una idea de su importancia, tanto formal como práctica.
Para facilitar la consecución de los objetivos de esta unidad la hemos estructurado en cuatro
capítulos, en cada uno de ellos encontrarás la presentación de los conceptos particulares que lo componen,
junto con las aplicaciones necesarias para su comprensión, hacia el final un módulo de ejercicios y problemas
te permitirá practicar lo aprendido para finalmente, a través de un instrumento de evaluación, asegurar el logro
de los objetivos propuestos.
Ante la posible necesidad de conocer algunos temas afines a esta unidad, se incorpora un
módulo de anexos con temas complementarios, resúmenes de las principales distribuciones, tanto discretas
como continuas, para finalizar con la entrega de sugerencias bibliográficas en caso de requerir una
complementación para los temas tratados.

Capítulo 1
CONCEPTOS BÁSICOS DE PROBABILIDADES
Objetivos del capítulo:

1. Reconocer y aplicar correctamente el concepto de probabilidad.
2. Evaluar probabilidades de ciertos eventos.
3. Valorar la importancia de las probabilidades en el contexto científico.
Jacob Bernoulli (1654 – 1705), Abraham de Moivre (1667 – 1754), el reverendo Thomas Bayes (1702
– 1761) y Joseph Lagrange (1736 – 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad.
En el siglo XIX, Pierre Simon, marqués de Laplace (1749 – 1827), unificó todas estas primeras ideas y
compiló la primera teoría general de probabilidades, la cual fue aplicada con éxito en las mesas de juego, y en
lo que es más importante: el estudio de problemas sociales y económicos. La industria de los seguros, que
surgió en este siglo, requería un conocimiento preciso acerca de los riesgos de pérdida, con el fin de calcular
las primas. Medio siglo más tarde, muchos centros de aprendizaje estudiaban la “probabilidad” como una
herramienta para el entendimiento de los fenómenos sociales.
En la actualidad, la teoría matemática de la probabilidad es la base de las aplicaciones estadísticas

tanto en investigaciones sociales como en la toma de decisiones y una indispensable herramienta de apoyo al
desarrollo y trabajo científicos.
Uno de los aspectos más relevantes en el proceso de definición o perfeccionamiento de métodos, es el

relacionado con la fundamentación lógica de cada elemento que constituye el “Universo de Trabajo”. Esta
etapa, en el caso de las Probabilidades, se encuentra superada desde hace mucho tiempo, y lo que aquí se
presenta es sólo un resumen de los elementos principales de esta fundamentación. En este sentido
presentaremos dos enfoques muy utilizados en la presentación del concepto de Probablidad, aunque se
enunciarán otros. Uno de ellos está basado en lo que se conoce como enfoque clásico, y el otro está basado en
lo que se conoce como desarrollo axiomático.
1.1. PRELIMINARES
En un principio el desarrollo de las Probabilidades estuvo directamente relacionado con juegos de

azar. Este es el principio fundamental de la Probabilidad (el azar). Por esta razón los ejemplos iniciales
clásicos para la introducción al concepto se encuentran, precisamente, en juegos de dados, lanzamiento de una
moneda, diversas loterías, etc; teniendo todos estos temas algo en común: “el azar”. A menudo se le conoce
también con el nombre de probabilidad a priori, debido a que, si se siguen utilizando ejemplos previsibles
como: monedas, dados, naipes, etc, es posible establecer las respuestas de antemano, es decir a priori, sin
necesidad de efectuar el experimento.
Para el desarrollo de estas ideas se requiere la definición de algunos conceptos básicos relacionados:
Definición 1.1. Un experimento es cualquier acción que implica o determina algún resultado. Se denotará
con la letra griega ξ (epsilon).
Definición 1.2. Al conjunto de todos los resultados posibles de un experimento se le denomina espacio
muestral. Se le simbolizará por la letra griega Ω (omega), o bien simplemente por la letra S. Es de concenso
general que un espacio muestral esté constituído por elementos singulares o fundamentales, en el sentido de

ser “irreducibles”, es decir, que no sean una composición de, a su vez, otros elementos simples. Cada una de
estas partes o componentes del espacio muestral se llama punto muestral.
Un espacio muestral puede ser discreto o continuo. Es discreto si es un conjunto finito o infinito
numerable. Se dice que es continuo si es un conjunto formado por puntos muestrales que son continuidad
(intervalos reales, por ejemplo). Por ejemplo, si un experimento consiste en lanzar una moneda y registrar lo
que muestra la parte superior, entonces este experimento tiene un espacio muestral finito, conformado por los
elementos fundamentales CARA y SELLO. Por lo tanto es discreto. Lo mismo ocurriría si el experimento
consiste en lanzar la moneda y registrar el número de lanzamientos hasta que aparezca la primera CARA. En
este caso, el espacio muestral es {1, 2, 3, ...}; puede haber infinitos lanzamientos (nunca aparecerá una
CARA). Este es un espacio muestral infinito numerable (contable). Ahora, si el experimento consiste en
encender una ampolleta y registrar el tiempo de funcionamiento, entonces los resultados observados son
intervalos (reales) de tiempo que, como es sabido, constituyen un infinito no numerable. En este último caso,
el espacio muestral es continuo.
Definición 1.3. Un evento es cualquier “parte” o subconjunto de un espacio muestral. Para su denominación
se utilizarán las letras mayúsculas de nuestro alfabeto: A, B, C, ..., Z.
Puede observarse que a cualquier evento se le puede asignar un conjuto de puntos muestrales, que son un
subconjunto de un espacio muestral, pero el recíproco de esta afirmación no necesariamente es verdad. En el
caso de espacios muestrales discretos, todos los subconjuntos son eventos, pero en el caso de espacios
continuos es posible encontrar puntos muestrales incompatibles con la relación evento–conjunto. Sobre estos
aspectos se recomiendan lecturas avanzadas sobre Teoría de Probabilidades, tema que, debe dejarse claro, está
muy lejos de los objetivos de estas notas.
En los comentarios subsiguientes a la definición de evento, ha quedado clara la forma de relacionar

eventos con subconjuntos, y los cuidados que se deben tener al definir las componentes de un experimento. En
este contexto, y siempre resguardando las debidas diferencias entre un espacio de trabajo y otro, todas las
operaciones definidas en la Teoría de Conjuntos son también “aplicables” a los eventos. Por ejemplo, cuando
se habla de la probabilidad de que en un día dado llueva, lo que se evalúa es la probabilidad de un día lluvioso
particular. En este caso el evento es “día lluvioso”, que no parece, al menos en una primera impresión, un
conjunto, de la forma en que tradicionalmente se entiende conjunto. No obstante, asociado a cada evento o
suceso existe un conjunto. En el ejemplo, el conjunto asociado es el de todos los días lluviosos. Por ello es
que, en general, a cada suceso o evento se asocia un conjunto y se puede, por lo tanto, hacer corresponder
aquellas definiciones y propiedades. Recordamos las siguientes definiciones:
Unión: Dados dos eventos A y B de Ω, la unión entre A y B se define como el evento

consistente de las características tanto de A como de B. En el caso que los eventos son
conjuntos, la unión corresponde al conjuto de todos los elementos que pertenecen a A o a B. La
unión entre A y B se denota por A ∪ B.
Intersección: Dados dos eventos A y B de Ω, la intersección entre A y B, denotada A ∩ B, se
define como el evento consistente de todas las características comunes a A y a B. En el caso que
los eventos son conjuntos, la intersección corresponde al conjuto de todos los elementos que
pertenecen, simultáneamente, a A y a B.
Diferencia: Dados dos eventos A y B de Ω, la diferencia entre A y B, denotada por A – B, se
define como el evento consistente de todos los elementos de A que no pertenecen a B.
Complemento: El complemento de un evento A corresponde a todas aquellas características del
experimento que no son registradas en A. En el contexto de la Teoría de Conjuntos corresponde
a Ω – A. El complemento de A se simboliza por Ac o bienA.

Estrictamente hablando, de las anteriores definiciones sólo las tres primeras corresponden a
operaciones, ya que una operación “actúa” sobre dos eventos. El complemento no es más que la definición de
un evento particular.
En lo sucesivo, y salvo excepciones que se advertirán oportunamente, los eventos serán entendidos
como conjuntos en el contexto de la Teoría de Conjuntos. Esta consideración puede, en muchos casos, ayudar
a la resolución de problemas tanto como a su comprensión. Particularmente útil puede resultar, en algunos
casos, la utilización de propiedades, como las relaciones de De Morgan, y de representaciones, como las de
Euler–Venn, para una mejor comprensión y resolución de problemas y propiedades relativas a eventos.
Algunas de estas propiedades son:
A∪B = B∪A A∩B = B∩A

A∪A = A A∩A = A
A∪Ac = Ω A∩Ac = φ
A∪Ω = Ω A∩Ω = A
A∪φ = A A∩φ = φ
(A∪B)c = Ac∩Bc (A∩B)c = Ac∪Bc
A∪(B∩C) = (A∪B) ∩ (A∪C)
A∩ (B∪C) = (A∩B) ∪ (A∩C)
A – B = A ∩ Bc
Definición 1.4. Sean A y B dos eventos de un espacio Ω. A y B son disjuntos si y sólo si A ∩ B = φ.
Observaciones:
a) Si el número de elementos de un evento E es mayor que 1, entonces E se llama evento aleatorio.
Similarmente, si el número de elementos de Ω es superior a 1, entonces el experimento se dice aleatorio.
b) Si el evento E = Ω, entonces E se dice evento seguro.
c) Si el evento E = φ (vacio), entonces E se llama evento nulo o evento vacío.
En este contexto son también importantes ideas tales como el hecho que no existan dos resultados
equivalentes en forma simultánea para un experimento dado. Por ejemplo, en el lanzamiento de una moneda
es bien sabido que no se puede obtener una cara y un sello al mismo tiempo. Esta propiedad es la que se
conoce como exclusividad, y los eventos se dicen mutuamente excluyentes.
Definición 1.5: La medida de un evento o de un subconjuto E de Ω es una función m : c(Ω) → IR, que
satisface las siguientes propiedades:
m(E⊂ Ω) ≥ 0
m(Ω) = 1
Algunas medidas de uso común son:

m(E) = Número de elementos de E, si E es contable.
m(E) = Área de E, si E es una región plana.
m(E) = Volumen de E, si E es un sólido.
Con todas las aclaraciones conceptuales anteriores, se puede abordar con cierta precisión y formalidad
el concepto clásico de probabilidad.

1.2. CONCEPTOS DE PROBABILIDAD
Existen varias formas o enfoques de definción de probabilidad. Entre ellos se tiene el concepto
clásico de probabilidad, que se soporta en el concepto de medida de un evento. En efecto, sea ξ un
experimento definido en un espacio muestral Ω, en el que se ha definido una medida m. La probabilidad de
un evento E perteneciente a Ω, expresado en términos de su medida, es:
P( E ) = m( E )
m ( Ω ) , donde m(Ω) ≠ 0
Este planteamiento clásico de la “probabilidad” puede ocacionar algunos problemas en la vida real,
desordenada y con algunos hechos extraños y poco probables. Rapidamente es posible darse cuenta de lo
necesario que resulta la experimentación para encontrar algún patrón de comportamiento. Lo cual hace que
sea de mucha utilidad otra forma de definirla. Ya en el siglo XIX los estadísticos británicos realizaron las
primeras mediciones para lo que hoy llamamos frecuencia relativa de presentación de un evento. Según este
enfoque, la probabilidad de un evento es la proporción de veces que ocurrirá el evento en una repetición
infinita del experimento. Esto significa que si un evento se dice tener probabilidad 0.56, quiere decir que si el
experimento se repite en similares condiciones un cantidad infinita de veces, en el 56% de las veces se
observará el evento en estudio. Formalmente si N representa el número de veces que se realiza el experimento,
entonces la probabilidad del evento E está dada por
Número de ocurrencias de E
P( E ) = lim
N →∞ N
Aunque elegante, esta definición tiene una serie de problemas relativos a su operacionalidad.
Particularmente cuestionables son los problemas de convergencia asociados, lo que hace difícil su aplicación
al cálculo de probabilidades. En este sentido parece más práctica la definición clásica.
Otro enfoque, que está cobrando adeptos en los últimos años, es la probabilidad como evaluación
subjetiva. Esta forma de definición recoge el conocimiento o experiencia previa que el analista tiene del
fenómeno o experimento en estudio y lo utiliza como una forma de evaluación de las posibilidades de
ocurrencia de un evento particular. Su principal crítica es la subjetividad que subyace a tales evaluaciones. En
este contexto se sitúan los métodos bayesianos. Tampoco es un tema que se encuentre dentro de los
propósitos de estas notas.
Por último, mencionamos el enfoque o método axiomático de la probabilidad. Según este método,
las probabilidades se definen a partir de ciertas reglas lógico–matemáticas que conforman una estructura bien
definida y sólidamente respaldada: son los axiomas de probabilidad. Esta interpretación de la Probabilidad
está basada en la presentación de un conjunto de axiomas, los que se apoyan fuertemente en la Teoría de
Conjuntos. Aquí se formalizan las ideas anteriores, para dar lugar a un tratamiento lógico-deductivo de gran
potencia en sus fundamentos y fuerza en sus conclusiones. Por estas razones será el método o enfoque que se
utilizará en estas notas, aunque no se descarta el uso de los otros enfoques, siempre que exista coherencia y
concordancia entre ellos.
En un esquema axiomático, la probabilidad se define como una función que satisface una serie de
axiomas, a partir de los cuales se pueden deducir otra serie de propiedades y aplicaciones que, eventualmente,
pueden conducir también a los resultados previstos para los enfoques anteriores.

Definición 1.6: Sea Ω cualquier espacio muestral y E cualquier evento de Ω. Se llama función de
probabilidad sobre el espacio muestral Ω a cualquier función P: c(Ω) → IR, (c(Ω) es el conjunto potencia
de Ω) tal que:
1) P(E) ≥ 0.
2) P(Ω) = 1.
3) P( ∪ Ei) = ∑ P(Ei), cuando: Ei ∩ Ej = φ, ∀ i ≠ j.
Estos tres axiomas caracterizan completamente a una función de probabilidad, y puede notarse su
relación con la interpretación clásica de probabilidad. El número P(E) se llama la probabilidad de E. Algunas
consecuencias importantes de estos axiomas se resumen en la proposición 1.1.
Proposición 1.1: Sean E, E1 y E2 eventos de un espacio muestral Ω, en el que se ha definido una probabilidad
P. Entonces se verifican las siguientes relaciones:
i) P(φ) = 0.
ii) 0 ≤ P(E) ≤1.
iii) P(Ec) = 1 – P(E)
iv) P(E1 ∪ E2) = P(E1) + P(E2) – P(E1 ∩ E2).
Demostraciones: Se dejan de ejercicio todas las demostraciones. La utilización de resultados de la Teoría de

Conjuntos puede ayudar a las demostraciones. ♦
Las definiciones y propiedades anteriores sólo han establecido las reglas por las que se rige el cálculo
de probabilidades, pero no establecen una forma o método de ese cálculo. En una situación particular de un
evento E, parece ser evidente que la probabilidad de E es la suma de todas las probabilidades de los puntos
muestrales que conforman E. Esto es ya un gran avance en el cálculo de probabilidades, pero no es lo
definitivo. Por ejemplo, ¿cuál es la probabilidad de obtener una CARA en el lanzamiento de una moneda?.
Seguramente Ud. dirá que ½. Pero dar esa respuesta supone una serie de consideraciones en torno al
experimento, muchas de las cuales, y hay que reconcerlo, tienen una fuerte base experiencial. Seguramente
supone una moneda con “caída regular”, es decir que no caerá “de canto”. Por otro lado, habrá supuesto
también que se trata de una moneda regular (no cargada), en el sentido que no tiene un lado más probable que
el otro. Esta última propiedad será muy recurrente en muchos problemas relativos a juegos de azar.
Formalmente se habla de eventos equiprobables. Esto significa que dos resultados cualesquiera tienen las
mismas posibilidades de ocurrir, independientemente de la naturaleza del resultado mismo. Claro está que no
siempre será pertinente este supuesto. Por último, digamos que en la definición de probabilidad habrá que
tener en consideración el conocimiento y la experiencia que en relación al fenómeno existe, y que se debe
tener especial cuidado con las suposiciones que sobre él se formulen.
Ejemplo 1.1. Considérense el experimento ξ: “lanzar dos dados y anotar los puntos que muestran las caras
superiores” y el evento E : “obtener un par cuya suma sea 7”.
Solución. El espacio muestral asociado está determinado por:

Ω = {(1,1), (1,2), ..., (2,1), (2,2), ..., (3,1), ..., (4,1),..., (5,1), .., (6,1),...,(6,6)}.
Por su parte el evento E corresponde a E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1),...,(6,6)}.
6
En el enfoque clásico, P( E ) = m( E )
m(Ω )
= , puesto que Ω tiene 36 elementos, esto es, m(Ω) = 36, y que E
36
tiene 6 elementos, es decir, m(E) = 6.

En el esquema axiomático por su parte, necesitamos saber cuál es la probabilidad de cada elemento de
Ω. Si se supone que cada resultado es igualmente probable, entonces cada elemento de Ω tiene probabilidad
igual 1/36, y por tanto la probabilidad de E es la suma de las probabilidades de sus puntos muestrales, 6 .♦
36
Ejemplo 1.2. Los alumnos de un curso disponen de dos libros para estudiar, uno teórico y uno práctico. El
libro teórico lo usa el 70%, el libro práctico el 60% y el 40% utiliza ambos libros.
Representación gráfica mediante el Diagrama de Venn
Ω
100%
A
B
30% 40% 20%
10%
A partir del diagrama resultan evidentes los siguientes hechos:

– El 30% de los alumnos usa sólo el libro A, mientras que el 20% de ellos usa sólo el libro B.
– El 10% de estudiantes no usa ninguno de los dos libros. ♦
Ejemplo 1.3. Un sistema contiene dos componentes A y B. El sistema funciona si cualquiera de sus
componentes funciona. Se sabe que la probabilidad de que la componente A funcione es 0.9; que funcione B,
es 0.8, y la de que ambas componentes funcionen simultáneamente, es 0.72.
Se pide hallar la probabilidad de que el sistema funcione.
Solución.
Lo que se tiene, en definitiva, es que P(A) = 0.9, P(B) = 0.8 y P(A∩B) = 0.72. Lo que se pide es P(A∪B).
Entonces, al aplicar la propiedad iv) anterior, se tiene que P(A∪ B) = 0.9 + 0.8 – 0.72 = 0.98. Esto es, la
probabilidad de que el sistema funcione es del 98%. ♦
1.3. EJERCICIOS Y PROBLEMAS
Como una forma de aplicar los conceptos antes tratados, y de reforzar aquellos aspectos que a nuestro
juicio son los más relevantes, presentamos a continuación una serie de ejercicios y problemas prácticos para
ser trabajados en forma personal o grupal. Las respuestas, y en algunos casos un esbozo de solución, se
presentan al final de la misma lista. Es aconsejable trabajar los problemas sin observar previamente los
resultados o soluciones.
1. Considere los siguientes experimentos y describa el espacio muestral asociado a cada uno de ellos:
a. ξ1: “Se lanza un dado y se observa el puntaje asociado a la cara superior”
b. ξ2: “Se lanza una moneda cuatro veces y se observa la sucesión de caras y sellos”
c. ξ3: “Se extrae una carta de una baraja de 52, donde su pinta no importa, y se observa el número de
ella”

2. Los resultados de un experimento se distribuyen según se indica en el siguiente diagrama de Venn. En

base a esta representación:
A
B
8 6 13
23
a. Describir verbalmente los eventos A, B, A∪B y A∩B.

b. Calcular las probabilidades de cada evento de la parte a.
3. Si la probabilidad de que una persona entrevistada en un centro comercial esté en contra de un proyecto
industrial con gran impacto en el ecosistema es de 0.7. ¿Cuál es la probabilidad de que entre 4 personas
entrevistadas en ese lugar, las primeras 3 estén en contra y la última a favor del proyecto?
4. Si A es el evento un empleado está bien capacitado y B se define como el empleado cumple su cuota de
producción, exprese simbólicamente las probabilidades de los siguientes eventos:
a. Un empleado bien capacitado cumpla la cuota de producción.
b. Un empleado que cubre la cuota de producción no esté bien capacitado.
c. Un empleado que no está bien capacitado no cubra la cuota de producción.
5. Demostrar que si A, B y C son independientes, entonces P(A∪B∪C) = 1 – P(Ac)P(Bc)P(Cc).
6. Demostrar que si P(C) ≠ 0, entonces: P(A∪B/C) + P(A∩B/C) = P(A/C) + P(B/C)

7. En cierta carrera universitaria se sabe que el 25% de los estudiantes reprueba matemática, el 15%
reprueba estadística y un 10% reprueba ambas asignaturas. Si se selecciona al azar un estudiante, y éste
resultó haber reprobado estadística, entonces:
a. ¿Cuál es la probabilidad de que repruebe también matemáticas?
b. ¿Cuál es la probabilidad de que repruebe matemática o estadística?
c. Si de entre el 4% de los hombres y el 1% de las mujeres miden más de 1,80m; además, se sabe que el
60% de los estudiantes son mujeres. Si se selecciona al azar un estudiante y resultó ser más alto de
1,80 mts; ¿cuál es la probabilidad de que resulte ser mujer?
8. La probabilidad de que en Temuco llueva un día del año, seleccionado aleatoriamente es 0.25. El
pronóstico local del tiempo atmosférico, entregado por la estación meteorológica de la ciudad es correcto
el 60% de las veces en que el pronóstico es de lluvia y el 80% de las veces en que se hacen otros
pronósticos.
a. Indique claramente los sucesos involucrados, así como las probabilidades asociadas a ellos.
b. Si un día es seleccionado aleatoriamente, ¿cuál es la probabilidad que el pronóstico dado sea correcto?
c. ¿Cuál es la probabilidad de que un día en que el pronóstico fue dado correctamente, haya
correspondido a un día lluvioso?
9. Se selecciona aleatoriamente un número real en I = [0,2], y cada número en I tiene igual probabilidad de
ser seleccionado. Sean los eventos A: el número se selecciona entre 0 y 1; y B: el número se selecciona
entre 0.5 y 2. Calcular las siguientes probabilidades:
a. P(A)
b. P(B)
c. P(A ∪ B)
d. P(A ∩ B)

10. Mostrar que si A ⊆ B, entonces P(A) ≤ P(B).
11. El problema de la reunión. Dos personas, A y B, han acordado reunirse en un lugar específico entre las
12:00 y las 13:00 horas. La primera persona que llegue espera a la otra por 20 minutos, después de lo cual,
si no llega ésta, se va. ¿Cuál es la probabilidad que las personas se reúnan si sus llegadas durante la hora
indicada ocurren de manera aleatoria, y sus tiempos de llegada son independientes? Analice la
importancia de estos dos últimos supuestos en la solución del problema.
Respuestas a algunos problemas propuestos
1. a) Ω: { 1, 2, 3, 4, 5, 6 }; c) Ω: { A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K }
2. ii) P(B) = 19/50
3. Sea el evento Ai: la persona i–ésima está en contra del proyecto. Se sabe que P(Ai) = 0.7. Lo que se pide
es P(A1∩A2∩A3∩A4c). Suponiendo independencia entre las personas entrevistadas, se tiene que
P(A1∩A2∩A3∩A4c) = 0.1029.
4. Dados A: empleado bien capacitado y B: empleado que cumple su cuota de producción, entonces el
evento un empleado que cubre la cuota de producción no esté bien capacitado es Ac|B, y la probabilidad
será P(Ac/B).
5. Sug.: Calcular P(A∪B∪C) y aplicar propiedad de independencia de los tres eventos.
6. Hacer uso de la definición de probabilidad condicional de P(A∪B/C).
7. Sean los eventos A: alumno reprueba matemática y B: alumno reprueba estadística. Las probabilidades
de estos eventos son P(A) = 0.25, P(B) = 0.15 y P(A∩B) = 0.10, entonces:
a. P(A/B) = 0.67
b. P(A ∪ B) = 0.4
8. b) P(B) = 0.75 ; c) P(A/B) = 0.2
9. La medida apropiada en este caso es la longitud del segmento correspondiente (ver figura). Entonces:
a. P(A) = ½
b. P(B) = 1.5/2.
c. P(A ∪ B) = 1
d. P(A ∩ B) = 0.25.
10. Demostraciones de este tipo, como se habrá visto, pueden significar ciertos “arreglos” que no siempre son
fáciles de detectar, y puede existir más de una forma de ellos. En este caso particular, un punto de partida

puede ser la identidad B = (Ac ∩ B) ∪ A, que se puede verificar fácilmente. Se puede verificar también
que esta descomposición de B es una partición, así que se puede aplicar la definición 1.6, parte 3, para
deducir que P(B) = P(Ac ∩ B) + P(A). Pero como P(Ac ∩ B) es una cantidad no negativa, entonces,
simplemente por definición de desigualdad, se tiene el resultado.
11. Definir los eventos x : Tiempo (instante) de llegada de A y y : Tiempo de llegada de B. Notar que la
reunión se concreta si |x–y| ≤ 20. También notar que 0 ≤ x,y ≤ 60. Algunas consideraciones geométricas
conducen a 5/9 como la probabilidad pedida.

Capítulo 2
VARIABLES ALEATORIAS Y DISTRIBUCIONES
DE PROBABILIDADES

1. Identificar y definir variable aleatoria.
2. Estudiar y determinar propiedades asociadas a las variables aleatorias.
3. Valorar la importancia de las variables aleatorias en el estudio de problemas del ámbito
científico.
En el capítulo anterior se presentó y revisó el concepto de probabilidad, como una medida del grado
de incertidumbre involucrado en la ocurrencia de ciertos fenómenos. Ese grado de incertidumbre está presente
en gran parte de la actividad humana en general, y en la actividad científica en particular. De esa
incertidumbre surge, a su vez, la variabilidad en casi todo cuanto nos rodea. Y esta variabilidad es la que da
sentido a la investigación, al estudio sistemático de ciertas disciplinas, al conocimiento, finalmente. Si todo
fuera uniforme, entonces no tendría sentido el estudio o el conocimiento. En esta variabilidad está la esencia
de nuestra vida, y de nuestro quehacer, sea cotidiano, o programado cuidadosamente.
En el presente capítulo se persentarán métodos y técnicas que recogen el soporte fundamental de la

variabilidad para examinar y evaluar sus grados de incerteza: la información. Pero la información no es
posible concretarla sino en variables y observaciones o registros. Sobre este tema trata, esencialmente, este
capítulo, y particularmente sobre las variables aleatorias y la forma en que las probabilidades de ocurrencia de
los registros correspondientes se distribuyen.
2.1. VARIABLES ALEATORIAS
Definición 2.1. Sea ξ un experimento aleatorio, con espacio muestral asociado Ω y dotado de probabilidad P.
Se llama variable aleatoria a una función X que asigna a cada elemento ω ∈ Ω un número real x, es decir:
X: (Ω, P) → ‘
ω a X(ω) = x
Observación: Generalmente las variables aleatorias se designan con letras mayúsculas y un valor particular
de ella con su respectiva letra minúscula.
Una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio.
Puesto que asociar números con los puntos de un espacio muestral sólo es una manera de definir una función
sobre los puntos del espacio muestral, las variables aleatorias en realidad son funciones y no variables. Sin
embargo, conceptualmente, la mayoría de los principiantes encuentran más fácil considerar las variables
aleatorias tan sólo como cantidades que pueden tomar valores distintos dependiendo de la probabilidad
asociada.
Definición 2.2. Al conjunto de todos los valores que asume la variable aleatoria X, denotado por RX , se
denomina recorrido de la variable aleatoria X, es decir:
RX = {x ∈ ‘x / X(ω) = x, con ω ∈ Ω}

Ejemplo 2.1. Se define el experimento ξ: “lanzar dos monedas y registrar lo que cae cada una”. Se desea
determinar el espacio muestral asociado a ξ, definir la variable aleatoria involucrada y determinar su
recorrido.
Solución.
El espacio muestral asociado a ξ será:
Ω = {(C,S), (S,C), (C,C), (S,S)}
Si a cada ω se le asigna un valor numérico, de 0 a 2, cantidades aleatorias determinadas por el experimento,

consideradas como valores que toma la variable, podemos definir la variable aleatoria X: “Número de caras
obtenidas”, cuyos valores serán:
X(C,C) = 2
X(S,C) = X(C,S) = 1
X(S,S) = 0
Luego, su recorrido es RX = {0, 1, 2}. ♦
Se acostumbra clasificar las variables aleatorias de acuerdo con el número de valores que pueden
tomar, en este contexto podemos distinguir variables aleatorias discretas y continuas las que se definen a
continuación.
Definición 2.3. Una variable aleatoria X se dice discreta si su recorrido RX es finito o infinito numerable, en
caso contrario se dice que es continua.
2.2. DISTRIBUCIONES DE PROBABILIDADES
A cada variable aleatoria hay asociadas unas funciones especiales que informan de ciertas
características de las probabilidades y su relación con los valores de la variable. Todas ellas dan lugar al
concepto de distribución de probabilidades o simplemente de distribución de la variable. El concepto de
distribución es uno de los más importantes en el estudio de las variables aleatorias. Por ello, en lo que sigue,
se presentarán en detalle aquellas funciones que “hablan” de la distribución de probabilidades, y de sus
propiedades más importantes. Cuando sea necesario, se harán las distinciones para los casos discreto y
continuo.
Antes de presentar aquellas funciones, es importante referirse a una componente de definición que
resulta fundamental en la comprensión del concepto de distribución. Se trata del concepto de parámetro. Al
momento de comenzar a estudiar una población, parece evidente que hay ciertas situaciones o fenómenos que
son de interés para el estudioso, pero no es suficiente obtener un cúmulo de información si esta no puede ser
de alguna manera resumida para ser utilizada, lo cual se realiza a través de un parámetro que es un rasgo,
característica o descripción del fenómeno estudiado en la población de interés.
Para ilustrar el concepto anterior, definamos como población de interés un bosque de grandes
dimensiones, con distintas especies. Los dueños necesitan conocer de antemano, aún en forma aproximada, la
cantidad de trozos que dispone para el cumplimiento de contrato con un comprador. Pareciera razonable
pensar que no es posible cuantificar exactamente la cantidad de trozos, dada la extensión del terreno. Pero si
es posible encontrar un indicador que caracterice a esa cantidad, pudiendo ser éste, la media o promedio de
trozos, siendo este parámetro la cantidad que caracteriza dicho fenómeno.
En consecuencia, en la definición e identificación de una distribución los parámetros juegan un papel

fundamental. Como se irá mostrando en la medida que se avance en el estudio de estas notas, las

distribuciones se identifican por sus parámetros, y el reconocimiento de estos será el principal trabajo y
problema en el estudio de ciertas distribuciones conocidas.
Definición 2.4. Sea X una variable aleatoria discreta, con recorrido RX. Se llama función de cuantía a una
función PX (x) = P(X = x) que satisface las siguientes condiciones:
i) P(x) ≥ 0 ∀ x ∈ RX
ii) ∑ p( x) = 1
x∈R x
Observación: Para una variable aleatoria discreta, la función de cuantía en cualquier punto es una
probabilidad. Por ello, a veces a esta función también se le llama función de probabilidades.
Ejemplo 2.2. Sea X una variable aleatoria con función de probabilidades dada por:
n
p ( x; n, p ) =   p x (1 − p) n− x , donde n ∈ , 0 < p < 1
x
Verificar que la función propuesta es una función de probabilidades.
Solución.
Para probar si p es una función de cuantía, debe satisfacer las condiciones de la definición 2.4. En efecto:
i) p(x; n, p) ≥ 0, ya que cada componente del producto que la define es positivo.

n xn
ii) Por Teorema del binomio, ∑ p ( x; n, p ) = ∑   p (1 − p ) n − x = [1 + (1 − p)] = 1 . ♦
n
x∈R x
 
0  x 
Definición 2.5. La función de distribución acumulada de una variable aleatoria discreta X, denotada por F,
es una función real F: ‘ → ‘ definida por
F ( x) = P( X ≤ x) = ∑ p( x )
xi ≤ x
i
y que satisface las siguientes condiciones:
i) 0 ≤ F ( x ) ≤ 1
ii) x < y ⇒ F ( x) < F ( y )
Notar que la función de distribución acumulada evaluada en algún punto del recorrido de la variable, es una
probabilidad que indica o resume la información que de la variable se tiene hasta el valor que se indique.
Aunque no se trata de una “probabilidad acumulada hasta. ...”, valores como P[X > x] también se entienden
como probabilidades acumuladas (“acumulación más allá de...”).
Proposición 2.1. La función de distribución acumulada de una variable aleatoria discreta X posee las
siguientes propiedades:
i) P ( X > x) = 1 − F ( x )
ii) F (∞) = 1
iii) F ( −∞) = 0

iv) P( x1 < X < x2 ) = F ( x2 ) − F ( x1 )

v) P( X = x) = F ( x) − F ( x − 1)
Demostración. Todas las demostraciones se dejan de ejercicio. Todas ellas se basan en propiedades
elementales de sumatorias y series. ♦
Definición 2.6. Sea X una variable aleatoria continua. Una función f : RX → ‘ se llama función de densidad
de X si satisface las siguientes condiciones:
i) f ( x) ≥ 0 ; ∀ x.
∞
ii) ∫
−∞
f ( x)dx = 1
b
iii) Para cualquier par de números reales a y b con a < b, se tiene P(a ≤ X ≤ b) = ∫ f ( x)dx .
a
Representación gráfica de la propiedad iii) de la función de densidad
Observación: Una función de densidad no representa una probabilidad. Más aún, existen funciones de
densidad que evaluadas en algún punto toman valores mayores a la unidad.
Ejemplo 2.3. El comportamiento diario de cierto contaminante, en un río de la zona se modela de acuerdo a la
siguiente función de densidad:
x
−
f ( x) = ½e ; x > 0 2
Además se sabe que ocurrirá un problema de contaminación si los registros del contaminante exceden los 6
mg/103 lts. ¿Cuál es la probabilidad de que ocurra un problema de contaminación en un día cualquiera?
Solución.
Si definimos la variable aleatoria X: “cantidad diaria del contaminante por cada 103 lts” y sabiendo que el
problema de contaminación se genera cuando X excede los 6 mg/103 lts, entonces la probabilidad buscada es:
∞ ∞
− 2x −x
P( X > 6) = ∫ e dx = 1
2
1
2 ∫ e 2 dx
6 6
Haciendo la sustitución u = − , y por lo tanto du = − 12 dx , se tiene − 2du = dx , y entonces:
x
2
∞ ∞
− 2x
P( X > 6) = −2 12 ∫ e u du = −e u = − e
6
6
- ∞/2
= - ( e – e-6/2)
= e -3
= 0.04979. ♦

Definición 2.7. Se llama función de distribución acumulada de una variable aleatoria continua X a una
función real F: ‘ → ‘ definida por:
x
F ( x) = P( X ≤ x) = ∫ f (t )dt
−∞
donde t es una variable artificial de integración.
x
Observación: Dado que para cualquier variable aleatoria continua X, P( X = x) = ∫x
f (t )dt = 0 , entonces
P( X ≤ x) = P( X < x) = F ( x)
Proposición 2.2. La función de distribución acumulada de una variable aleatoria continua X posee las
siguientes propiedades:
i) F (−∞) = 0
ii) F (∞ ) = 1
iii) P(a < X < b) = F (b) − F (a)
d
iv) f ( x ) = FX ( x )
dx
v) 0 ≤ F ( x ) ≤ 1
Demostración. Todas las demostraciones se dejan de ejercicio. Ellas se basan en propiedades elementales de
la integral. ♦
Al igual que en el caso discreto, la función de distribución acumulada asociada a una variable aleatoria
continua es una probabilidad.
2.3. FUNCIONES DE VARIABLES ALEATORIAS
Son frecuentes los problemas en los que el interés se centra más que una variable aleatoria, en una
función de ella. Por ejemplo, puede requerirse el estudio de la variable X² a partir del conocimiento que se
tenga de X. Hay que notar que X² es una función de X.
Dada una variable aleatoria, supondremos que una función de ella es también una variable aleatoria,
pero no necesariamente con las mismas propiedades de la variable original. Son estos aspectos los que se
resumen en la siguiente proposición.
Proposición 2. 3. Sea X una variable aleatoria continua, con función de densidad f. Sea también g una función
monótona (no decreciente) y no negativa en el recorrido de X. Entonces la función de densidad de g(X) está
dada por
f g ( X ) ( x ) = f X (g −1 ( x ) )
dx
.
dy
Demostración.
La función de distribución acumulada de g(X) corresponde a Fg ( X ) ( x) = P[ g ( X ) ≤ x ] . Como {g(X)≤x} y {X
≤ g-1(X)} son sucesos equivalentes, entonces Fg ( X ) ( x) = P[ X ≤ g −1 ( x)] = FX ( g −1 ( x)) . La aplicación del
Teorema Fundamental del Cálculo Diferencial conduce al resultado: ♦

Ejemplo 2.4. X es una variable aleatoria continua con función de densidad dada por fX(x) = 1, ∀x∈[0,1]. Se
pide hallar la función de distribución acumulada de X².
Solución. La función de distribución acumulada de X² requiere de la distrubución acumulada de X, por lo que

deber la obtención de ésta el primer problema a resolver. Aplicando definiciones se obtiene que la función de
distribución de X es FX(x) = x. Con esto, se puede obtener que la función de distribución de Y = X² es
f Y ( y) = 1 , para y>0. ♦
y
2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA
La función de densidad de una variable aleatoria continua o la función de cuantía de una variable
aleatoria discreta, describen completamente el comportamiento de la variable en estudio. Sin embargo,
asociadas a cualquier variable existen ciertas constantes que también la caracterizan, dado que estos valores
proporcionan información acerca de la naturaleza de la variable en cuestión. Estas características fijas o
constantes son las que se denominan, genéricamente, medidas numéricas. Dentro de las medidas numéricas
asociadas a una variable aleatoria se tienen, básicamente, tres grupos: las medidas de tendencia central, las
medidas de posición y las medidas de variabilidad o dispersión. Todas ellas dan cuenta, en alguna forma,
de las características de la distribución (de probabilidades) de la variable.
Medidas de Tendencia Central
Las medidas de tendencia central asociadas a una variable aleatoria resumen características de
centralidad de la variable. Esto es, dan cuenta de aquellas características que pueden considerarse como
típicas, como propias de la generalidad de la información. En otras palabras, informan de la capacidad de
“concentración” de la información en torno, precisamenete, de aquellos valores o medidas. Algunas de estas
características, las más relevantes por cierto, se presentan en las siguientes definiciones.
Definición 2.8. Sea X una variable aleatoria con valores observados x1, x2,...,xn, se define la esperanza o valor
esperado de X como:
E[X ] = ∑ xp( x) ; si X es discreta con p(x) su función de cuantía asociada.

X ∈Rx
∞
E [ X ] = ∫ xf ( x)dx ; si X es continua con función de densidad f (x).
−∞
Observación. La esperanza de una variable aleatoria corresponde al centro de la distribución de

probabilidades de ella, por lo que también se le llama promedio o simplemente media. Además, conviene
aclarar que no es una función de X, sino un número fijo y una propiedad de la distribución de probabilidades
de X.
Ejemplo 2.5. Sea X una variable aleatoria que es la suma de las caras de dos dados, cuando estos se lanzan.
Determinar e interpretar E[X].
Solución.
Si X: “suma de las caras de dos dados”, entonces el espacio muestral asociado es Ω: {2, 3, ...,12} y su
6− 7−x
función de probabilidades es p(x) = , para x = 2, 3,...,12.
36

12
Entonces E ( X ) = ∑ xp( x) = 2(
x =2
1
36
) + 3( 362 ) + .... + 11( 362 ) + 12( 361 ) = 7
Esto significa que al lanzar dos dados, el valor esperado es 7. ♦
Proposición 2.4. Sea X una variable aleatoria, y a, b y k constantes reales cualesquiera. Entonces la esperanza
satisface las siguientes propiedades:
i) E [aX ] = aE [ X ]
ii) E [k ] = k
iii) E [ X + k ] = E [ X ] + k
iv) E [aX + b ] = aE [ X ] + b
Demostración: Se dejan de ejercicio. ♦
Ejemplo 2.6. Se sabe que el tiempo necesario para reparar una pieza, de un equipo utilizado en un proceso de
manufactura, es una variable aleatoria X cuya función de densidad está dada por:
( − 5x )
p ( x) = 15 e con x = 0, ..., +∞
Si la pérdida en dinero, es igual al cuadrado del número de horas utilizadas en la reparación. Se requiere
determinar e interpretar el valor esperado de las pérdidas por reparación.
Solución.
Si X es el tiempo necesario para reparar una pieza, entonces la pérdida es X2. Con esto, el valor esperado
buscado es:
+∞ ∞ ∞
E [ X ² ] = ∫ x 2 15 e
( − 5x ) ( − 5x ) ( − 5x )
dx = ∫ ( 5x ) 2 5e dx = ∫ 25( 5x ) 2 ( 5x ) 2 e d ( 5x )
0 0 0
La última integral es una función gamma (ver Temas Complementarios para más información sobre esta
función). Específicamente en este caso, esta última integral es
= 25Γ(3)
= 25 · 2! = 50
Luego la pérdida esperada por reparación es de 50 unidades monetarias. ♦
Definición 2.9. Para una variable aleatoria X si existe un número X0.5 tal que:
P( X < X 0.5 ) ≤ 12 ∧ P( X ≤ X 0.5 ) ≥ 12 ; si X es discreta., o bien

PX ≤ X 0.5 ) = 12 ; si X es continua,
entonces X0.5 se llama mediana de la distribución de X.
Definición 2.10. La moda de una variable aleatoria X es el valor Xm que maximiza la función de
probabilidades si X es discreta, o la función de densidad si X es continua.
Observaciones.
i) La moda de una distribución puede no existir.
d 2 f ( x)
ii) Si X es continua la moda es la solución de
df ( x )
dx =0 si d 2x
<0

De lo contrario, si la segunda derivada es positiva, el valor recibe el nombre de antimoda.

iii) Si existe más de una moda, la distribución de probabilidades recibe el nombre de multimodal.
Medidas de posición
Aunque una medida de tendencia central, adecuada y pertinente, naturalemente, puede proporcionar
mucha información acerca de una variable, generalmente será necesaria alguna otra información para
completar el conociento que sobre la variable se busque. Entre distintas posibilidades o alternativas se tienen a
las medidas de posición. Como su nombre lo indica, resumen características de ubicación o de
posicionamiento, relativo, de los valores de la variable. De entre estas medidas, resumimos aquí las más
importantes y usuales.
Valores extremos
Las medidas de posición más elementales son el máximo y el mínimo, que corresponden a los valores
máximo y mínimo, respectivamente, de la variable.
Percentiles
Un percentil de orden α, denotado qα , es un valor (puede ser un valor de la variable, o bien no) tal que la
probabilidad acumulada hasta qα es α. Entre estas medidas, las más utilizadas son los cuartiles, que son
percentiles de orden α = 0.25, α = 0.50 y α = 0.75. Hay, por tanto, tres cuartiles, que denotaremos por Q1, Q2
y Q3. Otros percentiles muy utilizados son los deciles, nueve mediciones D1, D2, ..., D9 que particionan la
distribución en 10 clases o grupos con la misma cantidad de información.
Resulta simple visualizar que algunos de los percentiles coincidirán, ya sea con los cuartiles o con los
deciles, por lo que generalmente son ellos los que se utilizan.
Medidas de Variabilidad
Si bien las medidas de tendencia central o de posición pueden constituir un adecuado resumen de la
información contenida en una variable, por lo general ese resumen será insuficiente hasta que no se utilice una
medida de la dispersión de la información. Esto es, parece muy necesario conocer cuán dispersa se encuentra
la información para que, junto a su tendencia central, se tenga un resumen lo más pertinente y completo
posible. Algunas de estas medidas se presentan en lo que sigue.
Definición 2.11. El rango de una variable aleatoria X es la diferencia entre máximo y mínimo.
El rango, que denotaremos como R(X), es una medida de dispersión muy elemental, aunque en
ocaciones puede ser suficiente para formarse una idea de la dispersión de la información. Por ejemplo, si la
variable corresponde a calificaciones, en la escala de 1 a 7, el rango puede ayudar a la interpretación o
resumen de esa información. Sin embargo, una de las más importantes medidas de dispersión es la varianza,
que se define en la siguiente definición. La varianza es una medidad del grado de dispersión de la información
de una variable en torno a su media. Por este hecho, mide cuán alejadas están las observaciones del centro de
la distribución.
Definición 2.12. Supuesta la existencia de E[X], se define la varianza de una variable aleatoria X, denotada
por Var[X] o σ2 , como:
Var[ X ] = E[( X − µ X ) 2 ] = E[ X 2 ] − E 2 [ X ]

Observación. A la raíz cuadrada de la varianza de X, σ, se le llama desviación estándar de X, o desviación

típica de X.
Proposición 2.5. Sea X una variable aleatoria con media µ y varianza σ2X , y sea k un número real cualquiera.
Entonces:
i) Var[k] = 0
ii) Var[X + k] = Var[X]
iii) Var[kX] = k2 Var[X]
Demostración: Se dejan de ejercicio. ♦
El proceso de estandarización
El proceso de estandarización es un procedimiento mediante el cual se transforma una variable

aleatoria a objeto de anular algunos efectos que en la interpretación pueden tener ciertas medidas. Esto cobrará
especial importancia en las aplicaciones relativas a distribuciones comunes, que se tratarán más adelante, y en
el capítulo sobre estadística descriptiva de la Unidad 2.
X −µ
Formalmente corresponde a la transformación X → , donde X es una variable aleatoria con
σ
media µ y desviación típica σ. La resultante de esta transformación se llama variable estandarizada o
variable tipificada. La transformación definida por X–µ se llama centrado, mientras que la definida por X/σ
se llama reducción. En el primer caso, la variable obtenida es una variable centrada, mientras que en el
segundo caso, la variable obtenida es una variable reducida. Una variable estandarizada es, entonces, una
variable centrada y reducida.
El efecto de esta transformación se traduce en una variable aleatoria con media 0, desviación típica 1
y a–dimensional. En efecto, la característica de a–dimensional es evidente, y, por otra parte, aplicando las
proposiciones 2.3 y 2.4, se tienen las otras dos características. Por la importancia de estas últimas, las
enunciamos formalmente en la siguiente proposición:
Proposición 2.6. Si Z es una variable estandarizada, entonces E[Z] = 0 y Var[Z] = 1.
Demostración. Se deja como ejercicio. ♦
Desigualdad de Tschebyshev
Las relaciones y propiedades relativas tanto a medidas de centralidad como a dispersión, sólo ponen
de manifiesto características matemáticas, no por ello importantes, pero no proporcionan una forma de
interpretación eficaz, salvo elementales apreciaciones. Por ejemplo, es evidente que si una variable aleatoria
tiene una varianza nula, entonces esa variable es una constante, y por tanto toma siempre el mismo valor. Con
un análisis generalizador, se puede decir que mientras más cercano a cero se encuentre el valor de la varianza,
entonces más similares son los valores de la variable. Específicamente, serán más parecidos o similares a la
media, ya que la varianza mide la dispersión de los valores de la variable respecto de la media.
De cualquier modo, parece ser que un resumen de la información contenida en la variable pasa por
conocer al menos dos tipos de medida: de centralidad y de dispersión. Uno de los resultados, en
probabilidades y en estadística, más importantes en este sentido es la Desigualdad de Tschebyshev.

Teorema 2.1. (Desigualdad de Tschebyshev). Sea X una variable aleatoria con distribución con media µ y
varianza σ². Para una cosntante mayor que 1 k, se tiene
1
P[| X − µ |≤ kσ ] ≥ 1 −
k²
El teorema establece que, para una variable aleatoria X, la información contenida dentro del intervalo real [µ–
kσ ; µ+kσ], para una constante adecuada k, es al menos el (1 − 1 )100% .
k²
Demostración.
∞
Si f(x) es la función de densidad de X, entonces σ 2 = E[( X − µ ) 2 ] = ∫ (x − µ)
2
f ( x)dx . Puesto que el
−∞
integrando es no negativo, el valor de la integral sólo puede disminuir cuando el intervalo de integración se
reduce. Por lo tanto:
σ2 ≥ ∫µ (εx − µ ) f ( x )dx ≥ ∫µ εε f ( x )dx =ε 2 ∫
2 2
f ( x)dx
x − µ ≥ε
x− ≥ x− ≥
σ2
Dado que ∫ f ( x)dx = P (| X − µ |≥ ε ) , entonces P( X − µ ≥ ε ) ≤
x − µ ≥ε
ε2
. ♦
1. Una empresa que arrienda equipos para la tala de bosques, estudia la frecuencia con que son utilizadas sus
máquinas. Según los registros la demanda diaria de la máquina 3, MQ3, que es la máquina más utilizada,
fluctúa entre 0 y 3 veces por día, con probabilidades respectivas de 10%, 50%, 25% y 15%.
a. Indicar claramente cuál es la variable aleatoria X asociada al caso y definir explícitamente la función
de cuantía.
b. Calcular la probabilidad de que la máquina MQ3 sea requerida al menos 2 veces al día.
c. Calcular la probabilidad de que la máquina no sea requerida en un día cualquiera.
d. Calcular e interpretar E[X].
e. Calcular e interpretar SX.
2. Una máquina utilizada para eliminar la humedad de cierta variedad de plantas, posee 6 quemadores, de los
cuales 2 están defectuosos. Si se seleccionan al azar dos de estos quemadores, extraídos de la máquina e
inspeccionados, y si definimos la variable aleatoria X: número de unidades defectuosas observadas,
obtener:
a. P(X > 2)
b. P(X < 1)
c. La función de distribución acumulada
d. Calcular e interpretar E[X]
e. Calcular e interpretar SX.
3. Las ventas X de un determinado producto se modelan de acuerdo a la siguiente función:

 1
x; x = 1,2,3,4
p( x) = 10
 0 e.o.c.
a. Hacer la gráfica de la función y demostrar que es una función de cuantía.
b. Calcular e interpretar E[X]
c. Calcular e interpretar SX.

4. Se tiene información sobre el tiempo X, en horas, de la llegada del primer cliente a un parque, cuya
función se define como:
2 x; 0 ≤ x ≤ 1
f ( x) = 
0 e.o.c.
a. Defina la variable aleatoria.
b. Demostrar que la función corresponde a una función de densidad.
c. Calcular la probabilidad de que el primer cliente llegue antes de media hora.
Solución a algunos problemas propuestos
1. b) P ( X ≥ 2) = 0.4
a) E[ X ] = 1.45 ≈ 1, lo cual significa que la demanda promedio de la máquina es de 1 vez al día.
2. b) P ( X < 1) = 0.4
d) E[ X ] = 1
3. b) E[ X ] = 1
4. c) P( X< 0.5) = 0.25

Capítulo 3
ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES

4. Reconocer y aplicar modelos discretos comunes en situaciones concretas.
5. Estudiar y aplicar correctamente propiedades asociadas a algunos modelos discretos
conocidos.
6. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos
empíricos.
Muchos experimentos o fenómenos aleatorios derivan en una variable aleatoria con una distribución
de probabilidades típica o característica. Así por ejemplo, la variable aleatoria definida como el número de
"caras" que resulta al lanzar una moneda regular, tendrá siempre la misma distribución de probabilidades (cara
→ ½; sello → ½). Más general aún: si la probabilidad con que aparece una "cara" fuese igual a p, entonces la
distribución de probabilidades de la variable será
"cara → p; sello →(1-p)"
Esto último generaliza la situación del lanzamiento de una moneda a experimentos en los que los
únicos dos posibles resultados son de naturaleza excluyente (y también independientes uno de otro), y que
podríamos nominar "éxito" y "fracaso". En este tipo de experimentos (y por lo tanto, variables) podemos tener
procesos de control, en los que la unidad de observación se clasifica en "defectuosa" o "no defectuosa", y la
variable es Número de artículos defectuosos (o no defectuosos).
Por otra parte, se sabe que una distribución de probabilidades es conocida cuando se conoce su
función de probabilidades (de cuantía o de densidad), su distribución acumulada, su función generadora de
momentos, etc. En todos esos casos, además, es necesario conocer sólo un par de elementos de tal función
(elementos que llamamos parámetros). Tal es el caso de la distribución anterior, que será conocida totalmente
en cuanto se conozca p.
La variable definida como "Edad de la persona" en un grupo de personas, por ejemplo, casi siempre
tendrá una distribución de probabilidades que depende de dos parámetros (esta distrubución se verá más
adelante). La variable definida como el número de accidentes que ocurren en un cruce transitado, también
tiene una distribución de probabilidades que, bajo ciertos supuestos, será siempre del mismo tipo,
dependiendo sólo de un parámetro.
En síntesis, existen muchas variables aleatorias para las que, conocido el experimento aleatorio que la
genera y sus parámetros, la distribución es siempre de una misma clase.
Algunas de estas variables, o más propiamente llamadas distribuciones, son el tema central de este
capítulo.
3.1. ENSAYOS BERNOULLI
Se llama Ensayo Bernoulli (llamado así a este tipo de experimentos en honor de Jackes Bernoulli,
matemático suizo que vivió hacia la última mitad del siglo XVII (1654–1705)) a todo experimento que tiene
sólo dos posibes resultados, genéricamente llamados "éxito" y "fracaso". La variable aleatoria asociada a este

tipo de experimentos se define como Número de éxitos en el ensayo (notar que X es discreta). De esta manera,
si X es la variable correspondiente, entonces X=0,1. Además, si la probabilidad de observar un éxito (X=1) es
p, entonces podemos anotar: p(0)=1–p y p(1)=p. Más aún, p(x) = px(1–p)1-x, para x = 0,1.
Para la variable aleatoria X puede obtenerse fácilmente la media, varianza, y todas las otras
características asociadas.
Si X es una variable aleatoria con distribución Bernoulli de parámetro p, anotaremos X~Ber(p).
Ejemplo 3.1. Sea X~Ber(p). Determinar E[X].
Solución. E[X] = Σxp(x) = 0·p(0) + 1·p(1) = 0·(1–p) + 1·p = p. ♦
3.2. LA DISTRIBUCIÓN BINOMIAL
La variable aleatoria binomial, o simplemente distribución binomial, se define como el número de

éxitos observados en n ensayos Bernoulli independientes. Alternativamente, una variable aleatoria con
distribución binomial corresponde a la suma de n variables aleatorias con distribución Bernoulli.
Formalmente, un experimento binomial debe cumplir con los siguientes supuestos:

1. El experimento consta de n ensayos Bernoulli estadísticamente independientes.
2. Cada ensayo tiene sólo dos posibles resultados ("éxito" ó "fracaso").
3. La probabilidad de éxito en cada ensayo es la misma, e igual a p.
Si p es la probabilidad de éxito, se puede probar que la función de probabilidades (o función de

cuantía) de la variable, digamos X, es:
n
p ( x ) =   p x (1 − p ) n − x ; x = 0,1,2, L , n
 x
Notar que los parámetros de esta distribución son n y p. Es frecuente simbolizar la probabilidad de
fracaso 1–p por q.
Esta distribución es muy aplicada en procesos de control de calidad y todos aquellos fenómenos que
resultan de una suma de ensayos del tipo Bernoulli.
Para indicar que X es una variable aleatoria con distribución binomial, y de parámetros n y p, se anota
X ~ bin(n;p).
Ejemplo 3.2. Si el 20% de las piezas producidas por una máquina son defectuosas, determinar la probabilidad
de que, de 4 piezas escogidas al azar:
a) 1 sea defectuosa
b) Más de dos sean defectuosas
c) Determinar e interpretar E[X].
Solución. Como las piezas producidas por la máquina pueden ser o no defectuosas, la variable en estudio sólo
tiene dos posibles resultados, por lo tanto esta variable aleatoria será una variable que se ajusta a un modelo

binomial. Así X: “número de piezas defectuosas”. Luego, los dos parámetros que definen la distribución son:
n = 4 y p = 0.2. Así:
 4
a) P ( X = 1) =  0.21 (1 − 0.2) 4 −1 = 0.4096 ; así la probabilidad de que en una muestra de 4 piezas se
1
encuentre 1 defectuosa es de aproximadamente un 41%.
b) P( X > 2) = 1 − P( X ≤ 2) = 1 − b(2;4,0.2) = 1 − 0.9728 = 0.0272 ; así la probabilidad de que en una
muestra de 4 piezas, se encuentren más de 2 defectuosas es de un 3% aproximadamente.
c) E[ X ] = np = 4(0.2) = 0.8 ; así el número esperado de piezas defectuosas en muestras de tamaño 4 es de 1
aproximadamente. ♦
3.3. LA DISTRIBUCIÓN DE POISSON
La distribución de Poisson es otra distribución discreta, cuyo nombre se debe al matemático francés
Simeon Denis Poisson (1781–1840), quien la introdujo en 1837. Tiene grandes aplicaciones en variados
campos, especialmente en Biología y Medicina.
Si X es el número de ocurrencias de un evento aleatorio en un intervalo de tiempo o espacio (o

volumen), a una tasa constante λ, la probabilidad que ocurran exactamente x eventos por unidad de tiempo o
espacio (volumen) está dada por:
e −λ λx
p( x) = ; x = 0,1,2,K
x!
Notar que esta distribución tiene sólo un parámetro: λ.
Si X es una v.a. con distribución de Poisson de parámetro λ, entonces se anota X ~ c(λ).
Puede observarse, a partir de la definición, que:

1. Los eventos ocurren de manera independiente.
2. Teóricamente es posible que el evento pueda ocurrir infinitas veces en el intervalo.
3. La probabilidad que ocurra un evento en un intervalo es proporcional a la longitud del intervalo
Son muchas las aplicaciones que tiene la distribución de Poisson, como representación estadística de
fenómenos, especialmente de tipo físico–biológico. Entre ellos, y muy a modo de ejemplo, el número de
bacterias en un cultivo, el número de llamadas que circulan por una red de transmisión, el número de cuerpos
celestes en un volumen cósmico, etc.
Ejemplo 3.3. En la central telefónica de cierta empresa se reciben en promedio 5 llamadas por minuto.
a) Calcular la probabilidad de que se registren más de 7 llamadas en un minuto.
b) Calcular e interpretar E[X].
Solución. Si se define la variable aleatoria X: “número de llamadas recibidas” y se advierte que sigue un
modelo poisson, entonces λ = 5 x minuto. Así:
a) P( X > 7 ) = 1 − P( X ≤ 7 ) = 1 − p (7;5) = 1 − 0.8666 = 0.1334 ; la probabilidad de que se reciban más
de 7 llamadas es de un 13% aproximadamente.
b) E [ X ] = λ = 5 ; el número esperado de llamadas por minuto es de 5.

Aproximación de la Distribución Binomial por medio de la Distribución de Poisson
Como se habrá advertido, cuando el número de ensayos Bernoulli es muy grande (ya sobre 30 ó 40),
el uso de la relación funcional para calcular probabilidades binomiales se hace casi imposible. Este problema
de cálculo puede resolverse usando una ley de aproximación de esta distribución, mediante la distribución de
Poisson, la que se formula en el siguiente teorema:
Teorema 3.1. Sea X una variable con distribución binomial de parámetros n y p. Si existe una constante λ tal
que p = λ/n, entonces:
λx e − λ
lim p ( x; n , p ) = ; x = 0,1,L
n→∞ x!
p →0
Demostración. La demostración requiere de algunos resultados alegebraicos que, a nuestro juicio, no aportan
mayormente a la comprensión de los conceptos probabilísticos en estudio. También requiere de algunos
resultados de cálculo, específicamente de límite. Demostraciones pueden encontrarse en la bibliografía
sugerida en el anexo. ♦
En términos prácticos, el teorema establece que en una situación límite (n → ∞; p → 0) la fórmula de la

distribución binomial es la función de probabilidades de una variable Poisson, con parámetro λ = np.
Ejemplo 3.4. Si la probabilidad que un individuo sufra una reacción desfavorable por una inyección de cierto
suero es de 0.001, determinar la probabilidad que de 200 personas 2 o más sufran la reacción.
Solución: En realidad, si X es el número de personas que sufren una reacción desfavorable por una inyección
de suero, entonces, de entre 200, X ~ bin(n=200; p=0.001). Lo que se pide es la probabilidad que X≥2, esto es,
P[X ≥ 2]. Pero P[X ≥ 2] = 1–P[X < 2] = 1–P[X ≤ 1]. Por otra parte, P[X ≤ 1] implica el cálculo de grandes
factoriales, y habitualmente las tablas de probabilidades para la binomial no porporcionan éstas para un p tan
pequeño como 0.001. Pero admitiendo que n = 200 es grande y que p = 0.001 es pequeño, se puede utilizar la
aproximación anterior y resolver el problema usando como distribución aproximada de X una distribución c
(λ = 200(0.001) = 0.2). Así, observado la tabla de probabilidades de la distribución poisson, P[X ≤ 1] =
0.0175. ♦
3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA
Cuando se hacen extracciones con reposición los resultados son independientes, por lo que este tipo
de experimentos, en estricto, conducen a la distribución binomial. Experimentos en los que la extracción o
selección de la unidad de observación es sin reposición son también de gran importancia, pero ellos conducen
a otra distribución de probabilidades: la distribución Hipergeométrica. Esta distribución se relaciona con
experimentos con dos o más resultados, en los que la probabilidad de éxito cambia de ensayo a ensayo (no hay
independencia).
Considérese una población de N unidades de observación, k de las cuales poseen cierta característica
(y N - k no la poseen). Si se hace una elección aleatoria de una unidad en esta población, el resultado debe ser
una de las k (éxitos) o una de las N - k (fracasos). Pero si se hacen n selecciones al azar, sin reposición, cada
elección subsecuente es dependiente y la probabilidad de éxito cambia en cada extracción. En estas
condiciones, si deseamos obtener x unidades del tipo k (éxitos), en una muestra aleatoria de tamaño n, el
número de éxitos en esta situación se llama variable aleatoria hipergeométrica. Sus parámetros son, como
se habrá notado, N, n y k. Su función de probabilidades es:

 k  N − k 
  
 x  n − x 
p( x) = ;0 ≤ x ≤ k ≤ N ;0 ≤ x ≤ n ≤ N
N
 
n
Los experimentos que dan como resultado una variable con esta distribución incluyen, generalmente,
el conteo del número de "éxitos" en una muestra tomada de un lote pequeño. Algunos ejemplos pueden ser el
número de varones que forman parte de un comité de cinco, seleccionados al azar entre veinte empleados; o
bien, el conteo de sistemas de alarma marca A, vendidos en tres operaciones en un almacén en el que había
dos sistemas marca A y cuatro sistemas marca B.
Ejemplo 3.5. En un estudio biológico se emplea un grupo de 10 individuos. El grupo contiene 4 personas con
sangre tipo A y 6 con tipo B. ¿Cuál es la probabilidad que una muestra aleatoria de 3 contenga 1 persona con
sangre tipo A?
Solución: Notemos que la variable tiene distribución hipergeométrica, con N = 10, n = 3 y k = 4. Se pide P[X
= 1].
 4 10 − 4 
  
Pero P[X = 1] =  1  3 − 1  = 0.1 ♦
10 
 
3
1. Si X ~ bin(n;p), demostrar que E[X] = np y que Var[X] = np(1-p).
2. Para una variable aleatoria X ~P(λ), deducir las relaciones E[X] = λ y Var[X] = λ.
3. Si dos variables aleatorias se distribuyen conforme a un modelo Poisson, y son independientes, ¿puede
concluirse que la suma de ellas sigue el mismo modelo?
4. El número de imperfecciones en el tejido de una tela tiene distribución de Poisson con un promedio de 4
(imperfecciones) por yarda cuadrada.
a. Calcular la probabilidad que una muestra de una yarda cuadrada tenga por lo menos un defecto.
b. Calcular las probabilidades que una muestra de tres yardas cuadradas tenga al menos un defecto.
5. Una empresa de la zona se dedica a la crianza de una especie particular de llamas, para mercados
extranjeros. Lamentablemente no se tiene información respecto de el número de individuos que mueren en
el proceso de crecimiento. Sólo se sabe que en promedio mueren alrededor de 8 individuos. Si se extrae
una muestra de 25 individuos,
a. ¿Cuál es la probabilidad de que el número de individuos que no sobrevivan al proceso de crecimiento
exceda los 10 individuos?
b. ¿Cuál es la variabilidad dentro de la cual debiera fluctuar el número de individuos muertos?, explique
su resultado.

6. Al inspeccionar la aplicación de cobre en un proceso productivo continuo, se descubre un promedio de 0.2

imperfecciones por minuto. Calcular las probabilidades de encontrar:
a. Ninguna imperfección en un minuto dado.
b. Una imperfección en tres minutos.
c. Al menos dos imperfecciones en 5 minutos.
d. A lo mucho una imperfección en 15 minutos.
7. En una empresa se arman lotes de 40 componentes cada uno, los que se consideran aceptables si no
contienen más de 3 defectuosos. El procedimiento de muestreo del lote consiste en seleccionar 5
componentes aleatoriamente y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la
probabilidad de que exactamente 1 defectuoso se encuentre en la muestra, si existen 3 en todo el lote?
Solución a algunos problemas propuestos
5. a) P ( X > 10) = 0.23 aproximadamente.

c) Var[X] = 2.33; es decir el número de muertos debiera variar en, aproximadamente, 2 individuos en
torno al valor promedio.
6. b) P(X = 1) = 0.33; dado que λ en este caso es 0.66.
7. P(X = 1) = 0.3011

Capítulo 4
ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES

7. Reconocer y aplicar modelos continuos comunes en situaciones concretas.
8. Estudiar y aplicar correctamente propiedades asociadas a algunas distribuciones continuas
conocidas.
9. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos
empíricos.
Al igual que en la caso discreto, hay infinidad de experimentos a los que se les puede asociar una
variable de tipo continuo. Particularmente, hay muchos fenómenos que pueden "modelarse" por medio de una
distribución de probabilidades de una variable continua. Tal es el caso, por ejemplo, de la edad en un grupo
particular de personas (también la estatura, el peso, etc.); el tiempo de espera en una oficina de atención a
público, el tiempo de falla de ciertas piezas electrónicas, etc. En general, suelen modelarse adecuadamente por
medio de distribuciones continuas muchos fenómenos naturales (físicos, biológicos, etc.). Este capítulo trata,
precisamente, de algunos de estos modelos, o más propiamente llamados distribuciones. Se presentan
conceptos, ejemplos ilustrativos y algunas situaciones prácticas para el reforzamiento y aplicación por parte
del alumno.
4.1. LA DISTRIBUCIÓN UNIFORME
Es sin duda la distribución continua más simple. En un intervalo (a,b) supone que cada valor es
igualmente probable. Sus aplicaciones van desde modelar el tiempo de llegada de un autobus a una estación
de terminal, hasta la simulación por computadora de determinados fenómenos, incluidos fenómenos con
determinada distribución. Por esto último, la distribución uniforme es la base de los sitemas
computacionales de simulación.
En el intervalo real (a;b) la función de densidad de una variable aleatoria con distribución uniforme
1
está dada por f ( x) = I ( a ,b ) ( x ) .
b−a
Para indicar que X se distribuye uniformemente en (a;b) se usa la notación X ~ U(a;b).
Ejemplo 4.1. Cuando deja de funcionar una tarjeta de circuito integrado, un sistema de cómputo se detiene
hasta que se entregue una tarjeta nueva. El tiempo de entrega X está uniformemente distribuído en el intervalo
de uno a cinco días. El costo C de esa falla y la parada comprende un costo fijo co de la refacción y un costo
que aumenta en forma proporcional a X2, de modo que C = co + c1X2 . Calcular el costo esperado de una
determinada falla del componente.
Solución: Lo que se pide es E[C] = co + c1E[X2]. Pero como X~U(1;5), entonces E[ X 2 ] = ∫ x 2 1 dx = 31 .

5
x =1 4 3
Por lo tanto, el costo esperado es E[C] = co + c1 31 . ♦
3

4.2. LA DISTRIBUCIÓN NORMAL
Existe una gran variedad de fenómenos que, repetidos un número grande de veces, han demostrado
que se pueden modelar por una determinada distribución de probabilidades. Ello ha dado origen al estudio de
una similar variedad de variables aleatorias estrechamente relacionadas con tales fenómenos. En el caso
discreto, por ejemplo, existe un número relativamente grande de fenómenos que se pueden modelar por una
variable aleatoria discreta. El lanzamiento de una moneda es uno de los más clásicos fenómenos
(experimentos) cuya distribución de probabilidades obedece a una regla bien específica, la llamada Regla de
Bernoulli. Si el experimento consiste en lanzar 20 veces la misma moneda, entonces este experimento se
puede modelar por la distribución de una v.a. discreta que se reconoce como Distribución Binomial.
De entre todas las variables aleatorias con una distribución de probabilidades conocida, sin duda la
más importante es la llamada variable aleatoria normal. Sin temor a equivocarnos en el uso del lenguaje,
indistintamente se habla de variable aleatoria normal o de distribución normal.
Por medio de este modelo (el modelo normal), se pueden estudiar diversas variables, tales como la
estatura de las personas de una determinada población, el ritmo cardíaco en personas sin afecciones
importantes aparentes, la velocidad del flujo sanguíneo, el número de hojas en una clase de plantas, la
cantidad de árboles de cierta especie en un área específica. En general, mediciones relacionadas con datos
meteorológicos, mediciones efectuadas en organismos vivos (animales o vegetales), mediciones físicas de
partes manufacturadas, ciertos test de habilidad o inteligencia, pueden ser estudiadas como parte de esta
distribución. Sin embargo, debe tenerse mucho cuidado al suponer una distribución normal, ya que de no ser
así, las conclusiones obtenidas pueden distar mucho de la realidad, y ser, por lo tanto, absolutamente
contradictorias en algunos casos.
En 1733, De Moivre descubrió la fómula de la Distribución de Probabilidades de una v.a. Normal.

Después la estudió Laplace, y en 1809 Gauss la citó en uno de sus artículos, bastando esto para que también se
la conozca como Distribución Gaussiana. Durante el siglo XIX se empleó de manera extensa por científicos
que habían notado que los errores, al llevar a cabo mediciones físicas, frecuentemente seguían un patrón que
sugería la distribución normal.
Esta distribución se caracteriza por dos parámetros, µ y σ, y la función de distribución de

probabilidades es la siguiente:
1  −1 
f ( x | µ,σ ) = exp  (x − µ)2 
2π σ  2σ ² 
para − ∞ < x < ∞;−∞ < µ < ∞; σ > 0 .
Los parámetros µ y σ determinan en forma completa la distribución de probabilidades de una v.a.

normal. Un estudio elemental de cálculo aplicado a esta función lleva a establecer las siguientes conclusiones:
a. El gráfico de f (la densidad de la normal) es simétrico respecto a la recta x = µ.
b. El máximo de f se obtiene en x = µ
c. Los valores x = µ ± σ son las abcisas de los dos puntos de inflexión de la curva.
d. El gráfico de f tiene forma de campana, como se ilustra en la figura siguiente.
Todas estas características configuran una forma gráfica muy particular de la función de densidad de
una variable aleatoria normal. El siguiente es un gráfico típico de este tipo de densidades (los de la familia

normal). Por su forma de campana, y en honor a Gauss, a esta familia de curvas se le conoce también con el
nombre de campana de Gauss.
Curva típica de una función de densidad Normal
El gráfico de la normal (o por lo menos su apariencia) es uno de los primeros elementos de

diagnóstico de normalidad (o no-normalidad) de un conjunto de datos. Esto es importante tener en cuenta, ya
que es de fundamental importancia en la Inferencia Estadística, como se verá posteriormente. En este sentido,
el histograma de un conjunto de observaciones puede resultar realmente útil en el diagnóstico de normalidad.
Se espera, bajo normalidad, que él (el histograma) presente una forma aproximada a la de la figura anterior.
Si X es una variable aleatoria Normal, con parámetros µ y σ, entonces se anota X ~ N(µ ;σ) ó bien X
~ N(µ ; σ²).
Teorema 4.1. Si X ~ N(µ ;σ), entonces E(X) = µ y Var(X) = σ².
Demostración. La demostración requiere el uso de coordenadas polares y algunos resultados de álgebra

lineal, por lo que se deja su revisión en algunos de los textos sugeridos en el anexo.♦
Función de Distribución Acumulada
La función de distribución acumulada de la normal corresponde, por definición, a P[X ≤ x] = F(x) y

está dada por la integral
x 1  −1 
F ( x | µ ,σ ) = ∫ exp ( y − µ ) 2 dy
−∞
2π σ  2σ ² 
Esta integral no puede evaluarse en forma cerrada, pero sí se pueden encontrar valores aproximados
para ella, usando métodos numéricos.
En la figura siguiente ilustra la relación entre probabilidades acumuladas de la distribución normal y

áreas bajo la curva de densidad de la variable.
Probabilidad acumulada como área bajo la curva

La Variable Aleatoria Normal Estándar
Como existe un número infinito de combinaciones de valores de µ y σ, la evaluación de P[X ≤ x] se

hace imposible. Sin embargo esto puede simplificarse mediante el proceso de estandarización, visto en el
capítulo 3 de la unidad 1.
La variable estandarizada correspondiente se denota por Z y recibe el nombre de variable aleatoria

normal estándar. Su función de distribución acumulada, denotada por Φ(z) = P(Z ≤ z), se encuentra
extensamente tabulada para un gran número de valores de Z (una muestra de esta tabulación se encuentra en el
anexo). Además, estos mismos valores se encuentran implementados en la mayoría de los Software que se
relacionan con elementos estadísticos, y en muchas calculadoras de tipo científico.
Ejemplo 4.2. Sea X una variable aleatoria que representa la inteligencia medida por medio de pruebas CI. Si X
~ N(100, 10), hallar las probabilidades que X sea menor que 85.
Solución: Lo que se pide es P(X < 85). Pero esto es equivalente a calcular:
P[( X-100)/10 < (85-100)/10] = P(Z<-1.5)
= Φ(-1.5).
Este valor se encuentra en tablas, o se puede obtener por medio de alguna aplicación computacional.
De la Tabla, el valor aproximado es 0.0668.
La figura siguiente muestra la región asociada a la probabilidad normal estándar calculada.
Gráfico mostrando Φ (-1.5)
La región achurada en la parte de la derecha del gráfico muestra la equivalencia, gracias a la simetría,
entre Φ(–1.5) y 1 – Φ(1.5). Este hecho se expresa en términos generales como Φ(z) = 1 – Φ(–z), y es una
importante relación de cálculo. ♦
Algunas Propiedades De La Distribución Normal
Por su naturaleza y sus múltiples aplicaciones, es de suponer que la distribución normal satisface un
número importante de propiedades. Así es efectivamente, y a continuación enunciamos algunas de ellas.
X − np
Teorema 4.1. (De De Moivre–Laplace): Sea X~bin(n;p). Entonces Y = ~ N (0,1) ⇐ n ← ∞
np(1 − p)
Observación: La aproximación sugerida es cuanto mejor si np > 5 y p ≤ 0.5, o bien n(1-p) > 5 y p > 0.5.
Demostración. Para la demostración consultar la bibliografía indicada en el anexo. ♦

Proposición 4.1. Sea X ~ N(µ ; σ²). Entonces Y = a + bX ~ N(a + bµ ; b²σ²).

Demostración. Usar la función generatriz de momentos. ♦
Proposición 4.2. Si {Xi} es una colección de variables aletorias N(µi ; σi²) independientes (muestra aleatoria),
entonces ∑
X i ~ N ( µ i ; σ i2 ) ∑ ∑
Demostración. Se sugiere usar inducción y aplicar proposición 4.1. ♦
Proposición 4.3. Si {Xi} es una muestra aleatoria tal Xi~N(µi;σi²),∀i y ai∈ℜ, entonces
∑a Xi i ~ N (∑ ai + ∑ µ i ; ∑ ai2σ i2 )
Demostración. Se deja de ejercicio. ♦
4.3. LA DISTRIBUCIÓN EXPONENCIAL
Aunque la distribución normal tiene aplicaciones en múltiples campos o áreas de estudio, en modo
alguno ello significa que todo proceso empírico, particularmente, pueda ser modelado por medio de esta
distribución. Por ejemplo, la duración de ciertas componentes electrónicas tienen una distribución que no es,
precisamente, normal: pocas de ellas tendrán vidas útiles muy cortas, muchas tendrán una vida cercana al
promedio, y muy pocas tendrán una vida útil extraordinariamente larga.
En otra situación, y continuando con situaciones ilustrativas, el ingeniero de transporte que observa el
flujo de tráfico, frecuentemente se interesa en la longitud del intervalo de tiempo entre los arribos de vehículos
a un punto. Por ejemplo, si un intervalo es demasiado corto, hará que un vehículo que intente cruzar o
introducirse en el flujo de tráfico, se detenga o interrumpa el flujo. Este tipo de comportamientos puede
modelarse adecuadamente por una distribución llamada exponencial.
Sea X el tiempo que transcurre hasta el primer evento Poisson, mismo que ocurre a una tasa constante
λ. Entonces la probabilidad que X >x es equivalente a que en el intervalo de tiempo de longitud x no ocurra
evento Poisson alguno. Esto es, cY(0), donde Y es una variable aletoria de Poisson con parámetro λx. En
símbolos, FX ( x ) = 1 − e − λx . De aquí se deduce que la función de densidad de X está dada por:
f ( x) = λe − λx ; x ≥ 0 .
Esto define la distribución exponencial, que denotaremos por Ε(λ). Describe el tiempo que
transcurre hasta el primer suceso Poisson. Por lo tanto es una distribución continua. Dada la estacionariedad y
la independencia de los procesos Poisson, e-λx es la probabilidad de que no ocurra ningún suceso en un
intervalo cualquiera de tiempo de longitud x, comience o no en cero.
Por razones que se entenderán mejor cuando se presente la distribución gamma, es frecuente denotar
el parámetro λ por 1 . En este contexto, la función de densidad de la distribución exponencial es
θ
1 −x
f ( x) = e θ
;x ≥ 0.
θ
4.4. LA DISTRIBUCIÓN GAMMA
Un tipo o modelo de distribución más general que el modelo exponencial, a la hora de modelar
fenómenos como los descritos a propósito de la distribución exponencial, es la distribución Gamma. Su
función de densidad viene dada por:

 1

f ( x | α ;θ ) =  Γ(α )θ α
{ }
x α −1 exp − x
θ x > 0 α ,θ > 0
 0 en otro caso
Los parámetros de esta distribución son α y θ. La cantidad Γ(α) es la función gamma en α. Algunos
detalles de la función gamma se presentan en el anexo.
Para indicar que la variable aleatoria X tiene una distribución gamma con parámetros α y θ, se anota X
~ Γ(α ; θ).
Volvamos a la distribución gamma. Entre muchas otras aplicaciones de la distribución gamma se pueden
mencionar:
– Aplicaciones a problemas de física, tales como tiempo que transcurre entre dos eventos dados de un
fenómeno Poisson; tensión a la ruptura de ciertos materiales, etc.
– Problemas relativos a lineas de espera.
– Ingresos familiares, edad a la que un hombre contrae matrimonio por primera vez, etc.
Sus principales características son:
– Media igual a αθ
– Varianza igual a αθ²
−α
– Función generatriz de momentos igual a m X (t ) = (1 − θt )
–
α −1 1  x  k 
( )
P[ X ≤ x] = 1 − ∑    exp − x . Esta es una aproximación a la distribución acumulada.
θ
 k =0 k!  θ  
La distribución de Erlang: Un caso especial de la distribución gamma es cuando α∈ Z+. Esta distribución es
conocida con el nombre de distribución de Erlang.
4.5. LA DISTRIBUCIÓN DE WEIBULL
Establecida por el físico suizo del mismo nombre, la distribución de Weibull se ha empleado en los
últimos años como modelo para situaciones del tipo tiempo–falla, relacionados con componentes mecánicos y
electrónicos.

Otra razón por la cual esta distribución es útil en el estudio probabilístico para tiempos de vida útil de
componentes o sistemas, se encuentra en la distribución gamma. En efecto, ésta (la distribución gamma)
puede servir como modelo para las situaciones señaladas. Sin embargo, la función del índice de riesgo
(definida arriba) para la distribución gamma tiene una cota superior que limita su aplicabilidad a los sistemas
reales. Por esta razón, y otras, a menudo son otras las distribuciones que dan mejores modelos de los datos de
tiempos de vida útil. Una distribución de éstas es la de Weibull.
Una variable aleatoria X se dice que tiene distribución de Weibull si su función de densidad tiene la
forma:
− xγ
γ
f ( x) = x γ −1e θ
;x > 0
θ
con γ y θ positivos. Notar que esto son los parámetros. Cuando γ = 1, la densidad se transforma en la densidad
de una exponencial. Para γ > 1, la función es similar a la densidad de una distribución gamma, pero tiene
algunas propiedades matemáticas un tanto distintas.
Una manera cómoda de ver las propiedades de la densidad de la distribución de Weibull es usar la
transformación Y = Xγ. Si γ = 2, entonces puede observarse que Y = X² tiene una disrtibución exponencial. Esto
es, inversamente, si se inicia con una variable aleatoria Y distribuída exponencialmente, entonces la raíz
cuadrada de Y tendrá distribución de Weibull γ = 2.
La distribución de Weibull es una distribución que regularmente se utiliza en problemas de tiempos de

vida, debido a las propiedades de su función del índice de riesgo.
4.6. LA DISTRIBUCIÓN JI-CUADRADO
Otra distribución de particular interés, especialmente por sus aplicaciones en la inferencia estadística,
es la distribución Ji–cuadrado (o Chi–cuadrado), que presentamos a contuación:
Sea X una variable aleatoria. Se dice que X tiene distribución Ji–cuadrado si y sólo si su función de
densidad está dada por la expresión
ν −2 − x
 1
 x 2 e2 ;x > 0
f ( x) =  2ν 2 Γ(ν )
 2
 0 e.o.c.

El parámetro de esta distribución es ν, y se le conoce con el nombre de grados de libertad. Notar que
el parámetro es un número entero.
Para indicar que X tiene una distribución Ji–cuadrado con ν grados de libertad se anota X ~ χ²(ν).
Puede notarse que la densidad de una distribución Ji–cuadrado es un caso particular de la densidad de
ν
una distribución gamma. En efecto, si en la densidad gamma hacemos α = y θ = 2, entonces la densidad
2
gamma es la densidad de una variable chi–cuadrado.
La distribución acumulada de una variable aleatoria Ji–cuadrado se encuentra tabulada para algunos
percentiles y un gran número de grados de libertad.
Otra forma de obtener (o más bien construir) una variable con distribución Ji–cuadrado, es mediante
la transformación Y = Z², donde Z es una variable aleatoria con distribución normal estándar. Esto es, una
variable aleatoria Ji–cuadrado se puede obtener como el cuadrado de una variable normal estándar. En este
caso, la variable Ji–cuadrado tiene un grado de libertad. Una generalización se obtiene mediante la suma de k
variables aleatorias normales estándares, todas independientes. En este caso, la Ji–cuadrado resultante es una
distribución con k grados de libertad. Esta definición es muy útil en muestreo, como en su oportunidad
veremos.
4.7. LA DISTRIBUCIÓN T-STUDENT
Hay una manera fácil de definir una variable aleatoria con distribución t–student, nombre debido al
seudónimo con que W. Gosset la publicó después de desarrollarla en 1908. Esta manera es:
Una variable aleatoria T con distribución t–Student se obtiene como la razón entre una variable
aleatoria normal estándar y la raíz cuadrada de una Ji–cuadrado, independiente de la primera, donde ésta
última ha sido previamente dividida por sus grados de libertad. La t–Student tiene, en consecuencia, un
Z
parámetro, y es el mismo que el de la Ji–cuadrado (los grados de libertad). En símbolos, T = ~ tν ,
X
ν
donde X es una Ji–cuadrado con ν grados de libertad.
La función de densidad, poco útil para efectos prácticos, puede verse en la mayoría de los textos de
Estadística. En particular, en Canavos, página 235; Freund–Walpole, página 296.

Al igual que la Ji–cuadrado, la función de distribución acumulativa de una variable t–Student se

encuentra tabulada para ciertos percentiles y un importante número de grados de libertad.
Puede demostrarse que esta distribución es simétrica respecto del origen (cero), asintótica respecto de
la recta x = 0, y de forma gráfica muy similar al gráfico de la densidad de una normal estándar. Se sugiere
hacer uso de software para obtener gráficos de la densidad de esta distribución para algunos valores de su
parámetro. Es especialmente interesante el comportamiento del gráfico a medida que aumentan sus grados de
libertad.
4.8. LA DISTRIBUCIÓN F-FISHER
La distribución F se obtiene o se construye de la siguiente manera: Sean X ~ χ2(ν1) y Y ~ χ²(ν2) dos

X
variables aleatorias independientes. Entonces la variable aleatoria definida como F = ν 1 se dice que tiene
Y
ν2
distribución F de Fisher o de Snedecor. Sus parámetros son dos: los grados de libertad del numerador y los
grados de libertad del denominador.
Su aplicación, al igual que las dos distribuciones anteriores, se justifica en procesos de inferencia. Su
función de distribución acumulada, también, se encuentra tabulada para algunos niveles de probabilidad y una
gran combinación de grados de libertad.

1
1. Demostrar que si X ~ U(a;b), entonces E[ X ] = a +b
2 y Var[ X ] = (b − a) 2 .
12
2. Verificar que para una variable aleatoria X ~ Ε(θ), que E[ X ] = θ y Var[ X ] = θ 2 .
3. La vida de servicio durante la que un determinado tipo de termisor produce resistencias dentro de sus
especificaciones sigue una distribución de Weibull con γ = 2 y θ = 50 (mediciones en miles de horas).
a. Hallar las probabilidades de que uno de esos termisores, que se ha de instalar en un sistema, trabaje en
forma correcta durante más de 10 mil horas.
b. Calcular la vida esperada para termisores de este tipo.
4. Deducir la función generatriz de momentos de una distribución Ji–cuadrado.
Soluciones a algunos problemas propuestos
1. Las demostraciones se basan en la evaluación de algunas integrales muy elementales.
2. Al igual que el caso anterior, usar integración.
3. a. 0.14; b. 6270 horas

ANEXOS
A. TEMAS COMPLEMENTARIOS
En el capítulo 1, sobre probabilidades, se pudo apreciar que el cálculo de probabilidades tiene mucho
que ver con la cantidad de elementos de un espacio muestral o de un evento, en el caso de espacios discretos.
Determinar la cardinalidad (número de elementos) de un suceso a veces puede resultar no tan trivial. Por
ejemplo, es fácil deducir el número de elementos del espacio muestral asociado al lanzamiento de un dado, e
incluso puede resultar fácil determinar la cardinalidad del espacio muestral asociado al experimento de lanzar
dos dados. Sin embargo, si el experimento consiste en definir una función entre dos conjuntos, entonces la
determinación de la cardinalidad del espacio muestral puede complicarse por la cardinalidad de cada conjunto
considerado en la definición de las funciones.
Puede resultar casi demasiado obvio decir que el cálculo de probabilidades requiere, entre otros
conceptos, de saber “contar”. Pero a veces este simple proceso de conteo puede significar enormes esfuerzos.
Afortunadamente existen métodos matemáticos que facilitan este proceso de conteo y, por lo tanto, permiten
un mejor y eficaz tratamiento de las probabilidades. Estas herramientas son los principios de conteo, que en
este capítulo se presentan en relación a espacios muestrales finitos y discretos.
A.1. ESPACIOS
ESPACIOS MUESTRALES FINITOS
En el estudio de “lo que es posible” hay esencialmente dos tipos de problemas: el primero se genera al
intentar realizar una lista de todo lo que puede suceder en una situación determinada, y el segundo consiste en
determinar cuántas cosas diferentes pueden suceder, sin necesidad de hacer efectivamente la lista. Este último
es de especial importancia pues en ocaciones necesitamos sólo el número de posibilidades y no la lista
completa.
Principios multiplicativos
Existen algunas formas útiles en algunas situaciones y que facilitan considerablemente el “conteo”.
Algunas de estas formas se agrupan en lo que se conoce como principios multiplicativos del conteo.
También existen los principios aditivos, pero aquí no se tratarán.
Principio básico: Si una selección consta de dos pasos, de los cuales el primero se puede efectuar de m
formas, y la segunda se puede realizar de n formas, entonces, existen m · n formas de selección.
Principio multiplicativo: Si una selección consta de k pasos, de los cuales el primero puede efectuarse de n1
formas, el segundo de n2 formas, y el k – ésimo se puede realizar de nk formas, entonces la selección total se
puede hacer de n1 · n2 ·...· nk maneras.
Ejemplo A.1. En una editorial, que empasta un libro de estadística aplicada, el cliente puede escoger entre 20
colores distintos y 8 grosores de las tapas. ¿De cuántas formas distintas un cliente puede hacer el libro?
Solución. Ya que m = 20 y n = 8, entonces hay 20 · 8 = 160 maneras distintas de hacer el libro. ♦
Ejemplo A.2. En un casino universitario para el almuerzo se ofrecen 2 tipos de carne, 4 tipos de ensalada, 3
tipos de postre y 5 tipos de jugo. ¿Cuántos almuerzos distintos es posible seleccionar?
Solución. Dado que n1 = 2, n2 = 4, n3 = 3 y n4 = 5; puede haber 2 · 4 · 3 · 5 = 120 almuerzos distintos. ♦

Permutaciones
Definición A.1. Si se seleccionan r objetos de un conjunto de n objetos distintos, cualquier ordenamiento de

estos objetos se conoce como permutación.
El número total de ordenamientos en esas condiciones es igual:

n!
n Pr = n(n − 1)(n − 2)...(n − r + 1) =
(n − r )!
Ejemplo A.3. ¿De cuántas formas distintas es posible ordenar 12 libros, en grupos de 4?
Solución.
Para n = 12 y r = 4, es posible ordenarlos de 12 · 11 · 10 · 9 =11.880 formas.
Otra forma de hacerlo es:
12!
12 P4 = = 11.880. ♦
(12 − 4)!
Nota: El número de permutaciones de n objetos distintos, en grupos de n a la vez:, es n Pn = n!
Ejemplo A.4. ¿ De cuántas maneras se pueden asignar a 10 profesores, diez cursos de estadística?
Solución. Si n = 10, se pueden asignar de: 10 P10 = 10!= 3628800 . ♦
Combinaciones
Definición A.4. El número de combinaciones en que se pueden seleccionar r objetos de un conjunto de n

objetos distintos se llama combinatoria y se obtienen:
n n!
C =  =
n r   r!(n − r )!
r
Ejemplo A.5. ¿De cuántas maneras un alumno puede seleccionar tres libros de una lista de 8, indicados para
un curso?
Solución.
Se supone que en esta ocasión el orden en que se seleccionan los tres libros no es importante, luego si n = 8 y
8 8 · 7· 6
r = 3, las formas de seleccionar son 8 C 3 =   = = 56 .♦
  3!
3
A.2. VECTORES ALERATORIOS
Un vector aleatorio X es un vector cuyas componentes son variables aleatorias. Así, por ejemplo, el
vector X'=(X1,X2)' es un vetor cuyas componentes X1 y X2 son variables aleatorias. La notación X' es para
indicar que se trata de un vector columna.

Para un vector aleatorio X tiene sentido definir su función de probabilidades si todas sus
componentes son discretas, y la función de densidad de X si todas las componentes son continuas.
Cualquiera de estas dos eventuales funciones satisfacen las siguientes propiedades:
i. La función de probabilidades (densidad) es no negativa.

ii. ∑ p( x' ) = 1 si X es discreto, o bien ∫ f ( x' ) = 1 , si X es continuo.
R ( x) R ( x)
La función de distribución acumulada se define de manera análoga que en el caso univariado.
Densidades conjunta, marginal y condicional
En la tabla anterior se registra lo que para un vector aleatorio se llama función de probabilidad
conjunta (o función de densidad conjunta, si se trata de variables o componentes continuas). Al igual que
en probabilidades, la distribución de cada una de las componentes del vector es la función de probabilidades
marginal (o densidad marginal). En el ejemplo, la función de probabilidades marginal de X1 es el vector
(0.6;0.4)', mientras que la marginal de X2 es el vector (0.5;0.5)'.
f ( x1 ; x0 )
Definición A.5. La densidad condicional de (X1;X2)’ se define por f ( x1 | X 2 = x 0 ) = .
f X 2 ( x0 )
Independencia de variables aleatorias
Dos variables aleatorias son independientes si la densidad conjunta de ellas es el producto de las respectivas
marginales.
A.3. LA FUNCIÓN GAMMA
También se le conoce, simplemente, como función gama. Se simboliza (o denota) y define de la

siguiente manera:
∞
Γ(t ) = ∫ x t −1 exp(− x)dx; t > 0
x =0
Es una función muy práctica en la evaluación de integrales impropias. Entre sus propiedades más importantes
(por no decir ¡sorprendentes!) están:
• Γ(n + 1) = n! , ∀ n ∈ IN
• Γ( x + 1) = xΓ( x) ; ∀ x ∈ IR+
• Γ( 1 ) = π
2
∞ 5
Ejemplo A.6. Evaluar la integral ∫0
x 2 e − x dx .
Solución. Notar que la integral es Γ ( 7 ) , ya que 5 = 7 − 1 . Por tanto, Γ( 7 ) = Γ( 5 + 1) = 5 Γ( 5 ) .

2 2 2 2 2 2 2
5 3 3 3
Pero, a su vez, Γ( ) = Γ( + 1) = Γ( ) . Aplicando nuevamente la misma propiedad, se tiene que
2 2 2 2
3 1 1 1
Γ( ) = Γ( + 1) = Γ( )
2 2 2 2

∞ 5 7 5 5 5 3 1 1 15
Ahora, completando la serie, ∫0
x 2 e − x dx = Γ( ) = Γ( ) =
2 2 2 222 2
Γ( ) =
8
π
Otra forma de evaluar esta integral es usando la técnica de Integración por partes, sucesivamente, lo cual
puede "complicarse" un poco. ♦
Ejercicios y problemas
1. Sean X y Y dos variables aleatorias con función de densidad conjunta definida por:
3x (1 − xy) 0 ≤ x, y ≤ 1
f ( x, y ) = 
 0 e.o.c.
Verificar propiedades de f. Hallar además, las distribuciones marginales correpondientes, la función de
distribución acumulada y la media del vector.
2. Consulte, en un texto de probabilidades, los conceptos de covarianza y de correlación, y aplíquelos al

ejercicio anterior. ¿Puede deducirse que las variables del ejercicio anterior sean independientes
(estadísticamente)? Explique.
3. Revisar los siguientes ejemplos de Freund–Walpole: ESTADÍSTICA MATEMÁTICA CON

APLICACIONES. Prentice-Hall Hispanoamericana, S.A. México, 1990: EJEMPLO 3.13; EJEMPLO
3.14; EJEMPLO 3.15; EJEMPLO 3.16; EJEMPLO 3.22 y EJEMPLO 3.24.
4. Desarrollar los siguientes ejercicios del texto referido en el ejercicio 3 anterior:

a. 1, 2, 3, 4, 7, 8, 12, 24, 25 y 26 de la sección 3.5.
b. 1, 2, 4, 5, 17, 19 de las páginas 131, 132, 134 y 135.
5. Sean el vector aleatorio X ' = (X1 , X2)' y la función definidos a continuación:
X2
0 2
0 0.2 0.3
X1
1 0.4 0.1
Verificar que la función es una función de probabilidades.

B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS

Distribución Definición/Usos Función de probabilidades Esperanza Varianza
Ensayos individuales
con dos posibles
Bernoulli resultados (éxito; p ( x) = p x (1 − p )1− x ; x = 0,1 p p(1-p)
fracaso). Ej. Extraer una
lámpara y observar su
condición (buena o
defectuosa)
Binomial Realización de n
ensayos Bernoulli n np np(1-p)
independientes, todos p ( x) =   p x (1 − p ) n − x ; x = 0,1,2,...
con probabilidad de  x
éxito constante.
Poisson Ocurrencia de eventos e −λ λx
en el tiempo o en el p( x) = ; x = 0,1,2,K λ λ
espacio, de una manera x!
aleatoria e
independiente, y a tasa
constante.
Hipergeométrica Adecuada en muestreo  k  N − k 
  
sin reposición, y en x n − x  k k k N −n
p( x) =   ;0 ≤ x ≤ k ≤ N ;0 ≤ x ≤ n ≤ N n n( )(1 − )( )
poblaciones finitas. N N N N −1
  N
n

C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS

Distribución Definición/Usos Esperanza Varianza Dist. Acumulada
Valores igualmente E[ X ] = a+b
2
1
Var[ X ] = (b − a) 2
Uniforme probables 12 Elemental
Mediciones físico–
biológicas; ciertos test Tablas
Normal de inteligencia; errores Calculadora
de medición; y muchas µ σ² Software
otras situaciones
empíricas.
Tiempos de espera;
Gamma problemas de tráfico,
αθ αθ² ( )
 α −1 1  x  k 
P[ X ≤ x ] = 1 − ∑    exp − x
etc. θ
 k =0 k!  θ  
Tiempo entre dos
Exponencial eventos Poisson Elemental
θ θ²
Problemas de tráfico, γ
Weibull etc. 1 1 – 1 − exp{− x θ }
θ γ Γ (1 + )
γ
Inferencia estadística. Tablas

Ji–cuadrada Análisis de Tablas de ν 2ν Calculadora
contingencia Software
Z
T= ~ tν Tablas
X ν
T–Student ν 0 ;ν > 2 Calculadora
ν −2
Inferencia estadística Software
X
F–(Snedecor) F = ν1 ν2
;ν 2 > 2
Tablas
Fisher Y ν2 − 2 – Calculadora
ν2
Inferencia estadística Software

D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR
Probabilidades acumuladas para algunos valores de la variable aleatoria normal estándar Z
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
__________________________________________________________
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8189 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9906 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998

E. SUGERENCIAS BIBLIOGRÁFICAS
Para unA revisión bibliográfica tendiente a complementar o profundizar algunos temas
tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos:
1. Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988.

2. Freund–Walpole: Estadística Matemática con aplicaciones. Prentice–Hall Hispanoamericana, S.A.
México, 1990.
3. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México,
1993.


FACULTAD DE INGENIERÍA
DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS
ÁREA ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA E
INFERENCIAL
Prof.: Juan Moncada Herrera
Segundo semestre de 2008

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 3
ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

INDICE DE CONTENIDOS
INTRODUCCIÓN ............................................................................................................................. 5
Capítulo 1. ESTADÍSTICA DESCRIPTIVA

1.1. LA INFORMACIÓN .............................................................................................................. 6
1.2. LA ESTADÍSTICA ................................................................................................................ 7
1.3. ESTADÍSTICA UNIVARIANTE .......................................................................................... 15
1.4. ESTADÍSTICA BIVARIANTE ............................................................................................. 25
1.5. EJERCICIOS Y PROBLEMAS.............................................................................................. 37
Capítulo 2. ESTIMACIÓN DE PARÁMETROS

2.1. ESTIMACIÓN PUNTUAL DE PARÁMETROS.................................................................. 42
2.2. ESTIMACIÓN POR INTERVALOS .................................................................................... 45
2.3. EJERCICIOS Y PROBLEMAS ............................................................................................ 46
Capítulo 3. HIPÓTESIS ESTADÍSTICAS

3.1. CONCEPTOS PRELIMINARES ........................................................................................... 48
3.2. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALES ....................... 51
3.3. INFERENCIAS RESPECTO DE PROPORCIONES ............................................................ 52
3.4. PRUEBAS DE HIPÓTESIS: Muestras pareadas ................................................................... 54
3.5. PRUEBAS DE BONDAD DE AJUSTE ................................................................................ 56
3.6. EJERCICIOS Y PROBLEMAS.............................................................................................. 61
ANEXOS
A. INTERVALOS DE CONFIANZA COMUNES ..................................................................... 64
B. PRUEBAS DE HIPÓTESIS COMUNES ................................................................................ 65
C. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................... 66

INTRODUCCIÓN
En el tema Variables Aleatorias y distribuciones de Probabilidades se trataron conceptos relativos a

probabilidades y variables aleatorias y distribuciones. De ellos, quizá el último tema, distribuciones de
probabilidades, fue el que más relacionó los conceptos con situaciones prácticas. Esas aplicaciones, sin
embargo, se plantearon sobre la base del conocimiento de las características de definición de las variables
asociadas: los parámetros. En algunas situaciones la obtención de los parámetros pudo significar algún
procedimiento más bien racional o analítico, pero en ningún caso un desconocimiento absoluto o muy
importante de él.
Corresponde ahora acuparnos de aquellos problemas que tienen un asidero un tanto más empírico. En este
tipo de situaciones, como se verá a lo largo de esta unidad, lo fundamental estará, precisamente, en el
desconocimiento de los parámetros. Como se sabe, cualquier afirmación o validación de ella requiere, en
términos estadísticos, conocer de los parámetros de la distribución correspondiente. Deben hacerse esfuerzos,
entonces, por lograr un acercamiento a esos parámetros lo más eficaz y eficiente posible, como una forma útil
de llegar, finalmente, a levantar el conocimiento subyacente al problema que sea objeto de estudio.
Básicamente de todo aquel proceso de acercamiento al parámetro, desde la forma de obtener la información
necesaria para ello, sus análisis pertinentes y las conclusiones derivadas de esos procesos, trata esta segunda
unidad. Se hace un llamado a leer el documento con atención, a trabajar en los problemas propuestos y
rehacer aquellos ya resueltos. Esa práctica es la que irá consolidando una forma de trabajar, y por sobre todo,
de pensar inteligentemente cada situación que en materia de investigación se vaya presentando.

Capítulo 1
ESTADÍSTICA DESCRIPTIVA

1. Valorar la importancia de los métodos descriptivos en la comprensión y síntesis de la
información.
2. Valorar la importancia de la inferencia estadística en la investigación científica.
3. Reconocer y aplicar métodos y procedimientos de resumen de información.
4. Interpretar resúmenes y representaciones de información.
1.1.
.1. LA INFORMACIÓN
Información al menos en el contexto de estas notas, es aquello que de alguna forma u otra nos da cuenta de
alguna realidad, abstracta o concreta. En algunos casos la información puede llegarnos vestida de algún
comentario al pasar, de un vistazo raudo a la primera página de un diario, a alguna característica que nos
llamó la atención en nuestro cotidiano caminar. Otras veces nos llega a través de un medio más elaborado de
comunicación, como un noticiero, un comentario estructurado de actualidad, o alguno panel de comentaristas
especializados, En estos casos, es imporante notar nuestra voluntaria disposición a la recepción de la
información. Una forma más elaborada por la que podemos obtener o recibir información, ocurre cuando
somos nosotros quienenes definimos qué información deseamos poseer, y en función de este objetivo la
definimos, le generamos, etc. Esto último, en sus definiciones más simples, corresponde o es papel de la
Investigación.
Pero, ¿para qué necesitamos la información? Esta pregunta es clave. Podríamos decir que para tomar
decisiones, pero corremos el riesgo de no considerar en nuestra justificación algunos otros aspectos tanto o
más importantes que una toma de decisiones. Puede ocurrir, por ejemplo, que el objetivo final de la
información sea transformar nuestro medio de vida o de acción, y ya no decidir si cambiarlo o no.
Por estas y muchas otras razones, es fundamental tener claridad respecto de la pregunta anterior. No
olvidemos que a causa de la información se construyen puentes y caminos (información de la porosidad del
suelo, de su resitenca, etc.), un gobierno decide si endeudarse o no (información de tipo económico,
tendencias de precios, de inflación, y tanta otra). Por información se comete y se han cometido asesinatos
(recuérdese la Guerra Fría), se han declarado las Guerras (y también se han terminado). En fin, hay muchas
razones y muchos escenarios sobre los cuales se puede entender la información, o más bien SU MAJESTAD,
LA INFORMACIÓN.
Dada su enorme importancia, en todo contexto, el hombre ha hecho esfuerzos, desde siempre, por tener un
acceso cada vez más directo a ella (a la información). Se han eliminado barreras, se ha dispuesto para cada
vez más personas, etc. Un ejemplo de esto último lo constituye la Supercarretera de la Información, conocida
mundialmente como INTERNET. Internet es un mundo sin fronteras, sin costo, sin orden. En síntesis, como
alguien dijera, la más auténtica y necesaria Anarquía. Pero no se somete a la burocracia ni a las leyes, algunas
veces absurdas, que se encargan de distribuirla. Internet es hoy día el ejemplo concreto de la importancia y
utilidad de la información, y está abierta tanto para obtener información, como para proveerla. Exactamente.
Cualquiera de nosotros puede "poner" información en esta Red del Mundo, y cualquier información. Lo que
todo usuario de Internet (o de la información, más generalmente) necesita, es saber qué busca o qué necesita.
Pero esto requiere de la respuesta a una cuestión previa: ¿Para qué?

Bajo una perspectiva científica, la última pregunta debe analizarse en un contexto en el que la identificación o
definición de un problema es relevante, por no decir vital. Es este problema o interrogante lo que permitirá
definir la información. Pensemos en la siguiente situación: "Al profesor A le ha correspondido la jefatura del
Curso B. Desde un comienzo ha detectado ciertos problemas de conducta, los que ha ido tratando con celo y
profesionalismo, sobre todo por medio de charlas o lecciones de convivencia social. A pesar de lo mucho que
ha hecho, no ha logrado controlar el curso en la forma que él desearía. Hay una pregunta que ronda por su
mente: ¿Por qué?. Es la causa del problema lo que le aproblema, y por ello ha decisdido enfrentar el cómo
analizar la situación"
En lo anterior se ve un problema. En realidad lo que el maestro ha hecho es un diagnóstico de una situación,

lo que en modo alguno significa que se conoce el problema. Éste estará controlado en la medida que
conozcamos las causas que lo originan. El maestro entonces procede a elaborar una estrategia que le permita
definir con claridad el problema, y por ende, delimitarlo. Para ello, consulta con profesores que anteriormente
hayan trabajado con el curso, y también con quienes lo están haciendo en la actualidad. Además, ha
construido un cuestionario, lo más completo posible a su entender, con el que recogerá información relativa a
lugar de procedencia del alumno, nivel socioeconómico de los padres, nivel educacional de los padres y
familiares, situación laboral y conyugal de los padres, hermanos, etc. En resumen, lo que busca es
información, información que le permita perfilar al alumnado, que le permita explicar una realidad.
Lograr explicar la realidad del curso es un proceso que puede resultar vital para el cambio de actitud de loa
alumnos del curso. Por ello, los medios utilizados en el tratamiento de la información, así como la calidad de
ésta, son fundamentales para el logro de los objetivos propuestos. También es fundamental la calidad de los
instrumentos de recolección u obtención de información, ya que es un hecho que la calidad de los resultados
es función de la calidad de los instrumentos utilizados en la obtención y tratamiento de la infor-mación.
Al momento de analizar la información, nuestro profesor retornará, irremediablemente, a la realidad (el

curso), y será sólo aquí que las conclusiones obtenidas tendrán sentido, porque él les habrá dado un sentido, y
sobre esta base tomará las decisiones.
1.2. LA ESTADISTICA
Dada su importancia en materia de análisis y procesamiento de información, haremos una pausa en el caminar
hacia el análisis para observar con algo más de detenimiento el concepto de estadística. Para ello, nada mejor
(a mi juicio) que la lectura de unas notas que hace algunos años me facilitó un colega, el que a su vez las
extrajo quién sabe de qué polvoriento archivo, pero que a nuestro juicio contienen en si un valiosísimo aporte
para la comprensión, aunque parcial, de esta disciplina.
¿Qué es Estadística?
La mayoría de la gente está familiarizada con el término estadística usado para indicar y registrar hechos
numéricos y cifras: por ejemplo, las alturas de los rascacielos de la ciudad, el precio diario de artículos
seleccionados en un almacén, el tonelaje de carga encargada a un barco durante los últimos 15 años o aún el
número de yardas ganadas por el equipo campeón en un juego de fútbol. Sin embargo, este uso del término no
es el foco central del tema. La estadística principalmente trata con situaciones en que la ocurrencia de algún
evento no puede predecirse con certeza. Nuestras conclusiones son frecuentemente inciertas porque nos
basamos en datos o información incompleta -valorar la actual tasa de desempleados en una región basado en
una inspección de unos pocos miles de gente es un ejemplo. Incerteza surge también cuando observaciones
repetidas de un fenómeno produce resultados variables aún cuando intentemos controlar los factores que
regulan el evento que está siendo observado. Por ejemplo, los pinos de un año no tienen todos la misma
altura, aún cuando hayan germinado y crecido en el mismo semillero bajo idénticas condiciones

meteorológicas y de terreno. El tiempo para cortar el césped, el peso de un pollo de seis semanas criado en
una granja y el período de alivio de una fiebre después de tomar cierta medición son otros ejemplos de
situaciones en las cuales aparece la variabilidad en observaciones repetidas. La estadística es un cuerpo de
conceptos y métodos usados para coleccionar e interpretar datos relativos a un área particular de investigación
y para extraer conclusiones en situaciones en que estén presentes la incerteza y la variación.
Históricamente, la palabra "estadística" se deriva de la palabra latina "status" que significa "estado". Por
varias décadas, estadística fue asociada únicamente con la exposición de hechos y cifras económicas,
demográficas y situaciones políticas predominantes de un país. Aún hoy día, una gran cantidad de informes
gubernamentales que contienen documentación numérica masiva y llevan títulos como "Estadísticas de la
Producción Agraria" y "Estadística Laboral" son residuos del origen de la palabra "estadística". Una
importante parte del público en general todavía tiene el concepto erróneo que la estadística está
exclusivamente asociada con traumáticos arreglos de números y a veces desconcertantes series de gráficos.
Por lo tanto, es esencial recordar que la teoría y metodología de la estadística moderna han hecho gigantes
avances fuera de la mera compilación de tablas y gráficos numéricos. Como un tema, ahora la estadística
abarca conceptos y métodos que son de gran importancia en toda investigación que involucre recolección de
datos, mediante un proceso de experimentación y observación, y realizar inferencias u obtener conclusiones
mediante el análisis de tales datos. La exposición numérica ha llegado a ser un aspecto menor de la estadística
y pocos, si los hay, profesionales estadísticos gastan su vida únicamente construyendo tablas y gráficos.
Estadística en la vida diaria
El descubrimiento de hechos a través de la colección e interpretación de datos, no está limitada a

investigadores profesionales, sino que ha penetrado a la vida diaria de toda la gente que hace lo posible,
consciente o inconsciente, por entender materias de interés referente a la sociedad, condiciones de vida, el
ambiente y el mundo en general. El enterarnos acerca del estado del desempleo, contaminación por desechos
industriales, el rendimiento de los equipos de fútbol, la efectividad de los analgésicos y otros intereses de la
vida contemporánea recogen hechos y cifras y luego las interpretamos o intentamos entender las
interpretaciones que otros hacen. Así, estamos aprendiendo cada día a través de un frecuente análisis implícito
de información.
Fuentes de información varían desde la experiencia individual a informes en los medios informativos,
documentos gubernamentales, y artículos en revistas especializadas. Pronósticos del tiempo, informes de
mercado, índices del costo de vida y los resultados de encuestas públicas de opinión son otros ejemplos.
Los métodos estadísticos sin empleados ampliamente en la preparación de tales informes. Informes que son
basados en sólidos razonamientos estadísticos y la cuidadosa interpretación de las conclusiones serán
genuinos e informativos.
Frecuentemente, sin embargo, el deliberado o inadvertido mal uso de la estadístiva conduce a conclusiones
erróneas y distorsionadas de la realidad. Para el público en general, los consumidores básicos de estos
informes, es esencial algunas ideas de razonamiento estadístico para una adecuada interpretación de los datos
y evaluación de las conclusiones que son extraídas.
El razonamiento estadístico da criterios para determinar qué conclusiones están realmente basadas en datos y
cuáles no. En todos los campos de estudios en donde las inferencias son extraídas de análisis de los datos, la
credibilidad de las conclusiones también depende en gran medida del uso de los métodos estadísticos en la
etapa de colección de los datos. Los métodos estadísticos juegan un papel importante en un estado
democrático moderno. Por ejemplo, si los dirigentes elegidos pueden determinar los deseos de sus electores
mediante un adecuado y rápido método de muestreo, así la formulación de los programas políticos pueden
estar más acorde con la voluntad del pueblo.

Estadística e investigación científica
La importancia fundamental de la metodología estadística es mejor apreciada cuando se inspecciona a la luz

del proceso general del saber: el método científico. Aunque la investigación científica no esté rígidamente
estructurada, puede describirse como un proceso de gasto de esfuerzo para aprender acerca de regularidades
ocultas de algunos aspectos los cuales aparecen en un mundo caótico. Modelos o teorías son postulados
tentativos que tratan de explicar un fenómeno, deducciones lógicas son derivadas desde el modelo postulado y
luego medidas con los descubrimientos reales, el modelo es modificado y continúa la búsqueda de unas
mejores explicaciones. Los detalles del proceso científico son tan diversos como las disciplinas en estudio,
pero algunos pasos básicos que forman la base de la mayoría de las investigaciones científicas son las
siguientes:
– Especificación de objetivos: Cuando el estado actual de conocimiento respecto a algo de interés es
considerado inadecuado, los métodos de investigación pueden ser considerados para mejorar la
comprensión. Esto podría además ser enfocado sobre metas más específicas tales como demostrar una
nueva teoría o escrutar una teoría existente con respecto al alcance de las deducciones lógicas extraídas,
verificándolas mediante descubrimientos reales. En algunas situaciones, la meta puede ser simplemente la
creación de una base de datos de información que en forma precisa refleja el estado actual del asunto. Por
ejemplo, las cantidades promedio de tiempo gastado semanalmente en recreación podrían ser recopiladas
para estudiar las componentes del uso del tiempo de los estudiantes. Otras veces, el objetivo puede ser
más extenso y no sólo adquirir una comprensión de los factores que influyen en un ambiente, sino
también determinar las posibilidades de su uso en el control o modificación de algunas facetas del
fenómeno. Un objetivo de esta forma es la comprensión de la química de los desperdicios sólidos
dispuesta en una planta y su uso consiguiente para la purificación del agua de un río circundante.
– Recolección de información: La información objetiva, dependiendo del propósito del estudio, es decisiva
en cualquier investigación. Este proceso puede involucrar una amplia variedad de actividades, abarcando
desde elaborados experimentos en ambientes controlados, a ensayos de terreno, investigaciones
socioeconómicas y encuestas y también registros históricos. En la era actual la progresiva
instrumentación y mecanización en la cantidad de observaciones es un hecho habitual. La información es
típicamente recolectada en la forma de datos, los cuales numéricamente miden algunas características o
registran alguna característica cualitativa poseida por los individuos o elementos bajo estudio o ambos.
– Análisis de los datos: Los datos coleccionados mediante un apropiado proceso de experimentación u
observación sirven como la fuente básica para adquirir nuevos conocimientos acerca de la materia bajo
estudio. Es entonces necesario examinar el conjunto de datos y extraer información pertinente en las
conclusiones surgidas en la especificación de objetivos. Un cuidadoso análisis de datos es decisivo para
establecer el nuevo conocimiento adquirido y para evaluar su validez y sus debilidades.
– Informe de los descubrimientos: La significancia de la información suministrada por los datos debe
entonces ser ponderada en el contexto que se conocía en la etapa inicial de la investigación cuando se
especificaron los objetivos.
– Objetivos: Los análisis de datos están diseñados para responder a preguntas como: "¿Qué generalidades
pueden extraerse del fenómeno bajo estudio a partir de las evidencias suministradas por los datos?".
"¿Contradicen los datos una conjetura ya establecida?". "¿Los datos sugieren una nueva teoría para
explicar el fenómeno?". Los resultados del análisis son luego empleados para responder estas preguntas y
también para medir el grado de incerteza involucrada en las respuestas obtenidas. La ciencia
frecuentemente toma la forma de revisión sugerida de una teoría existente la cual puede necesitar una
investigación adicional a través de la colección y análisis de los hechos.
Así la naturaleza básica del conocimiento es típicamente una repetición de este ciclo en una u otra forma.
Raramente, es una verdad descifrada en una o aún en pocas operaciones del ciclo y cambiando las
condiciones en muchos campos demanda una continuación indefinida del proceso de repetición.

El papel de la Estadística en la investigación científica
La esencia de la estadística se compone del arte y la ciencia de la recoleccion, interpretación y análisis de

datos y la habilidad para extraer generalidades lógicas relativas al fenómeno bajo investigación. Desde el
punto de vista de las etapas esenciales del método científico descrito, es claro que la estadística penetra el
dominio de toda investigación cientifica.
Específicamente en la etapa de recolección de información, la estadística guía al investigador hacia los

caminos y medios apropiados para recoger datos o información, incluyendo una determinación de tipo y
extensión de los datos, de modo que las conclusiones extraídas de un análisis pueden ser establecidas con un
cierto grado de precisión. En las áreas de estudio en las cuales la experimentación es costosa, el tipo y
cantidad de datos requeridos para suministrar un nivel deseado de verosimilitud en las conclusiones se debe
determinar cuidadosamente con anticipación. En otras áreas, también tales decisiones son decisivas para la
validez y eficacia esencial de las conclusiones extraídas de un análisis de los datos.
La rama de la Estadística que trata con la planificación de los experimentos se llama diseño de experimento
y la que trata con la definición recolección de información diseño de muestreo.
Después que los datos han sido recolectados hay una gran necesidad por los métodos estadísticos. Algunos de
estos métodos están diseñados para resumir la información contenida en los datos y llamar la atención sobre
las características sobresalientes y no hacer caso de los detalles no esenciales.
Un grupo más importante de métodos para analizar los datos están dedicados a extraer generalidades o
inferencias respecto del fenómeno bajo estudio. El tópico que trata con los métodos estadísticos que resumen
y describen las características sobresalientes de los datos usualmente se conoce como estadística descriptiva.
Aunque históricamente la primera actividad, hoy día resúmenes descriptivos son sólo una estrecha parte de la
esfera de actividades que caen bajo el alcance del tema de la estadística. Uno de los principales avances en la
materia es, actualmente, la evaluación de la información presente en los datos y la valoración del nuevo
aprendizaje ganado a partir de esta información. Esta es el área estadística inferencial y sus métodos
asociados son conocidos como los métodos de la inferencia estadística. El uso de estos métodos proporciona
una base de razonamiento para interpretar lógicamente los hechos observados, para fijar la amplitud en la cual
estos hechos soportan o conducen un modelo postulado y para sugerir precisas revisiones de la teoría
existente o quizá para planificar investigaciones adicionales.
Las diferentes áreas de la estadística mencionadas anteriormente no son entidades disjuntas pensadas para
usar cada una en etapas únicas de una investigación. Más bien, ellas están integradas en un sistema
entrelazado de actividades donde los métodos usados en un área pueden tener fuertes influencias de aquellos
usados en las otras áreas. Para decidir sobre el proceso y la dimensión de los datos que serán recolectados, se
debe tener una percepción de los procedimientos deductivos contemplados para usar y la potencia de las
inferencias anheladas. Por otro lado, los métodos de análisis de datos y extractores de conclusiones son
fuertemente contingentes con el proceso por el cual fueron generados los datos.
Situaciones ilustrativas de la recolección y análisis de datos
Para clasificar las generalidades precedentes se darán aquí algunos pocos ejemplos. Ellos ilustran algunas
situaciones típicas en que el proceso cognitivo de investigar un fenómeno involucran la recolección y análisis
de datos en que los métodos estadísticos son consecuentemente conocimiento auxiliar indispensable para una
relación sobre analisis se sugiere ver el anexo.
– Producción de Vegetales: Experimentos que involucran la fertilización de diferentes tipos genéticos de
especies vegetales para producir híbridos de alto rendimiento son de considerable interés para los
científicos agrícolas. Como un ejemplo simple, supongamos que la producción de dos variedades de

híbridos serán comparados bajo condiciones climáticas específicas. La única forma para conocer el
rendimiento relativo de estas dos variedades es sembrarlas en un cierto número de sitios, coleccionar los
datos sobre sus rendimientos y luego analizarlos.
– Diagnósticos Clínicos: La detección precoz es de eminente importancia para el tratamiento quirúrgico
exitoso de muchos cánceres. Debido a que frecuentes chequeos en hospitales son caros e inconvenientes,
los m‚dicos buscan procesos de diagnósticos efectivos que los pacientes puedan autoadministrarse. Para
determinar los méritos de los nuevos procesos en término de sus tasas de éxito en detectar casos
verdaderos y evitar detecciones falsas, el proceso debe ser ampliamente probado en un gran número de
personas, que deben entonces sobrellevar chequeos en hospitales para comparación.
– Programas de Entrenamiento: Programas de entrenamiento o enseñanza en muchos campos, diseñados
para un tipo específico de clientes (estudiantes, trabajadores industriales, grupos de monitores,
incapacitados físicos, niños retrasados, etc.) son continuamente controlados, evaluados y modificados
para mejorar su utilidad en la sociedad. Para conocer acerca de la efectividad comparativa de diferentes
programas, es esencial coleccionar datos sobre el logro o desarrollo de habilidad de materias en la
completación de cada programa.
– Migración Animal: Los biólogos estudian los hábitos migratorios de aves y animales marcándolos con
números de identificación en localizaciones geográficas relevantes y posteriormente rastreándolos en
otras localizaciones. Los datos obtenidos por tales métodos no sólo nos ayudan a entender el mundo
animal sino que ellos también alertan a los conservacionistas de situaciones que requieren acciones para
proteger a las especies dañadas.
– Inspecciones Socioeconómicas: En las áreas interdisciplinarias de la sociología, economía y ciencias
políticas, se emprenden estudios en aspectos tales como el bienestar económico de diferentes grupos
étnicos, patrones de gasto en diferentes niveles de ingreso y actitudes hacia la legislación pendiente. Tales
estudios son típicamente basados en datos obtenidos mediante entrevistas o contactando una muestra
representativa de personas seleccionada mediante un proceso estadístico de una gran población que forma
el dominio de estudio. Los datos son luego analizados y se hacen interpretaciones del punto en cuestión.
Población y muestra
Aunque los ejemplos anteriores están extraídos de una amplia variedad de campos y solamente se dan
superficiales descripciones del alcance y objetivos de los estudios, son fácilmente visibles algunas
características comunes.
Primero, la característica fundamental más aparente en todas estas áreas de estudios es el hecho que la
colección de datos mediante un proceso apropiado de experimentación u observación es esencial para adquirir
nuevos conocimientos. Segundo, es inevitable alguna cantidad de variabilidad en los resultados a pesar del
hecho que las mismas condiciones o similares prevalecen durante las repeticiones de cada experimento u
observación. Por ejemplo, en el caso de los vegetales, es irreal esperar que cada planta de una variedad
particular tenga exactamente el mismo rendimiento, ya que la naturaleza no sigue una ley rígida.
Análogamente, un programa de entrenamiento para individuos con condiciones similares produce variabilidad
en las medidas de sus logros. La presencia de alguna variación inherente a los resultados y bajo condiciones
experimentales constantes tiende a obscurecer el efecto de un cambio en estas condiciones. Un ingrediente
importante del análisis estadístico de datos es la formulación de modelos apropiados que representen la
variabilidad intrínseca encontrada en la naturaleza.
Una tercera característica notable de los ejemplos del punto anterior es el hecho que es físicamente imposible
o prácticamente no factible coleccionar y estudiar un conjunto de datos pertenecientes a un área específica de
investigación.
Cuando se obtienen los datos de experimentos de laboratorios o ensayos de terreno, no importa cuantas
experimentaciones han sido realizadas, siempre puede obtenerse un número mayor. En opiniones públicas o

en estudios de gastos de los consumidores una colección completa de información podría emerger sólo si los
datos fueran recolectados de cada individuo en la nación. Por ejemplo, para coleccionar un conjunto completo
de datos relativos al daño sufrido por todos los coches de un cierto modelo y año por colisiones en una
velocidad específica, cada coche de ese modelo salido por las líneas de producción debería ser sometido a
colisión. El conjunto completo de observaciones que podría coleccionarse haciendo repeticiones ilimitadas de
un experimento o manteniendo un registro minucioso de todos los elementos dentro del alcance del estudio es
demasiado enorme que podemos, en el mejor de los casos, visualizarlo en nuestra imaginación. Tal inmenso
conjunto de datos puede ser considerado como la fuente de información completa, pero las limitaciones de
tiempo, recursos y medios y a veces la naturaleza destructiva de la prueba, significa que debemos trabajar con
información incompleta lo cual corresponde a los datos que son realmente recolectados en el curso de un
estudio experimental.
Las ideas fundamentales emanadas de nuestra discusión aclaran una distinción entre el conjunto de datos que
es realmente obtenido a través de un proceso de observación y la enorme colección de todas las observaciones
potenciales que se pueden originar en un contexto dado. La nomenclatura estadística para la primera es
muestra y para la última es población, población estadística o población objetivo. (Una definición general de
una población debe ser pospuesta hasta que se introduzcan varios otros conceptos).
Para enfatizar la distinción entre muestra y población en esta etapa consideraremos situaciones en que cada
medida (o registro de un rasgo cualitativo) en un conjunto de datos se origina de una fuente distinta llamada
unidad de muestreo o más simplemente unidad. Estas fuentes pueden ser árboles, animales, granjas, familias u
otros elementos, dependiendo del dominio del estudio. Los datos muestrales consisten entonces de medidas
correspondientes a una colección de unidades que son incluidas en un experimento real. Esta colección forma
parte de una colección mucho más grande de unidades, acerca de la cual deseamos hacer inferencias. El
conjunto de medidas que podrán resultar si todas las unidades de la colección mayor pudieran ser observadas,
se define como la población.
Una población (población estadística) es el conjunto completo de medidas posibles o el registro de algún
rasgo cualitativo correspondiendo a la colección entera de unidades para las cuales serán hechas las
inferencias. La población representa el objetivo de una investigación y el objetivo del proceso de colección de
datos es extraer conclusiones acerca de la población.
Una muestra de una población estadística es el conjunto de medidas que son realmente recolectadas en el
curso de la investigación.
Algunos detalles adicionales deberían clasificar las diferencias entre los conceptos de población y muestra. Es
importante notar que en contraste con su uso ordinario el término "población" en Estadística no implica una
colección de seres vivos. Una población estadística es una colección de números que representan la totalidad
de mediciones de alguna característica del grupo completo de unidades que son objeto de una investigación.
La característica puede o no estar asociada con una población humana. En el estudio del rendimiento de un
tipo particular de vegetal bajo condiciones climáticas específicas la población estadística de rendimientos es
la colección de todas las medidas de producción que imaginariamente puedan ser recogidas si el vegetal fuera
extensamente cultivado en todas las localizaciones geográficas con condiciones climáticas particulares y este
proceso fuera repetido año tras año. En este contexto la población estadística no tiene nada que ver con
cualquier población humana. Además deseamos aprender acerca del concepto abstracto de la totalidad de las
medidas de producción. Una muestra es una parte de esta población infinita o el conjunto de las medidas de
rendimiento realmente registradas en el curso de un experimento que resulta de sembrar un número de
vegetales en unas pocas localizaciones con las condiciones climáticas dadas.
Obviamente los datos muestrales variarán cuando se repita este experimento en ocaciones diferentes, mientras
que la población (aún cuando no existe en la realidad) es considerada como un cuerpo estable de números a

pesar de que el conjunto puede ser inmensamente grande e irregistrable. El costo de la mantención anual de
coches de todas las familias de Estados Unidos durante 1977 es un ejemplo de este tipo de población.
Desde nuestra percepción de una población estadística como el compendio de todas las observaciones
potenciales en alguna faceta de la naturaleza, el proceso de investigación experimental puede ser considerado
como un esfuerzo por obtener una comprensión de la población sobre la base de información incompleta
recolectada mediante el muestreo. El tema de la estadística de la metodología para realizar inferencias
inductivas respecto de la población a través de la colección y análisis de los datos muestrales. Estos métodos
permiten deducir generalizaciones plausibles y luego medir el grado de incerteza bajo estas generalizaciones.
Los conceptos estadísticos son tambien esenciales durante la etapa de planificación de una investigación
cuando deba tomarse decisiones, como el modo y la dimensión del proceso de muestreo, de manera que los
datos adecuadamente informativos puedan ser generados dentro de las limitaciones de los recursos
disponibles.
Los objetivos principales de la Estadística son:
(a) Realizar inferencias de una población a partir de un análisis de la información contenida en los datos
de la muestra, y
(b) hacer evaluaciones del grado de incerteza involucrado en estas inferencias.
Un tercer objetivo, no menos importante, es deseñar el proceso y la dimensión del muestreo de modo que
las observaciones constituyan una base para extraer inferencias válidas y precisas.
El diseño del proceso de muestreo es frecuentemente el paso más importante, especialmente en experimentos
controlados en que diferentes factores que influyen en las mediciones pueden ser preplanificados. Un buen
diseño para el proceso de colección de datos permite hacer un íntegro análisis y eficientes inferencias
mientras que los sofisticados métodos de análisis de datos en sí mismo no salvan a mucha información de los
datos producidos por experimentos deficientemente planificados.
Estadística interactuando con otros campos
Los primeros usos de la estadística en la estereotípica recopilación y pasiva presentación de datos, ha sido
grandemente reemplazada por el moderno papel de suministrar herramientas analíticas con las cuales los
datos pueden ser eficientemente recolectados, entendidos e interpretados. Los conceptos y métodos
estadísticos permiten validar las conclusiones acerca de la población que se obtuvieron a partir de la muestra.
Dado su extenso objetivo, el tema de la estadística ha penetrado en todos los campos del esfuerzo humano en
que la verificación de afirmaciones y la ramificación de la información debe ser fundamentada en evidencias
basadas o apoyadas en los datos.
Los pocos ejemplos breves dados en el punto 5 no intentan demarcar la esfera de las aplicaciones estadísticas
sino que se presentan para ilustrar la diversividad de aplicaciones estadísticas.
El uso de métodos estadísticos en diferentes áreas de las humanidades, ciencia e ingeniería ha producido
muchos tópicos interactivos, tales como la bioestadística, sicometría, ingeniería estadística, estadística
económica, econometría y demografía. En muchas otras áreas en que los nombres compuestos no han surgido
todavía, la materia de estadística juega un papel fundamental.
Los conceptos básicos y el centro de la metodología son casi idénticas en todas las diversas áreas de la
estadística aplicada. Surgen diferencias en el énfasis, debido a que ciertas técnicas son más útiles en una cierta
área que en otra. Sin embargo, debido a la fuerte similaridad metodológica, los ejemplos extraídos de un

amplio rango de aplicaciones estadística son útiles para crear una comprensión básica de diferentes métodos
estadísticos, su uso potencial y sus vulnerabilidades al mal uso.
Algo más sobre terminología estadística
Ya se han presentado conceptos tales como muestra, población y otros. A continuación formalizaremos un
poco más algunos de estos conceptos.
Población: Entenderemos población como el conjunto de toda la información disponible o posible de

disponer en un momento dado o en una situación dada. Esta información puede ser cuantitativa o cualitativa,
dependiendo de si es de naturaleza numérica o no-numérica, respectivamente. Podemos decir que la
información es la clave de éste y otros conceptos. Particularmente, la información es la que puede ser
cuantitativa o cualitativa. Aquello que contiene la información se conoce con el nombre del variable.
Entonces, otra forma de referirnos a lo anterior es: la población no es más que un conjunto de variables, y las
variables pueden ser cuantitativas o cualitativas (o numéricas o no-numéricas).
Muestra: Una muestra es un subconjunto de la población. En este sentido una muestra puede contener
algunas variables de las que conforman la población o parte de todas ellas. Por ejemplo, en un estudio sobre la
concentración de almidón en el trigo, la población puede consistir de la cantidad de granos/espiga, peso del
grano, color del grano, diámetro del grano y concentración de almidón por espiga(ppm); observaciones
realizadas sobre un total de 100 espigas. Aquí las cien espigas delimitan la cantidad de observaciones que se
efectuarán sobre las otras variables, pero en sí no constituyen la población, sino el tamaño de ella. Lo que
verdaderamente constituye la población son las observaciones que sobre las variables se efectúen. Al
respecto, las variables son cantidad de granos/espiga, peso del grano, color del grano, diámetro de grano y
concentración de almidón por espiga (notemos la presencia de variables cuantitativas y cualitativas en esta
población). Una muestra de esta población puede consistir de 20 observaciones sobre todas las variables, o
bien una cantidad de observaciones sobre tres de las seis variables. Una cuestión importante es determinar la
"mejor" muestra, tema que no es de este curso.
Parámetros y estadísticos: Cuando se obtienen medidas de resumen en una población, tales como
promedios, totales, etc., estas características reciben el nombre de parámetros. Si estas medidas son obtenidas
a partir de una muestra, entonces reciben el nombre de estadísticos o estadísticas o estadígrafos. En resumen,
los parámetros son características (numéricas) fijas de la población, en cambio las estadísticas son
características numéricas de la muestra (por lo tanto son variables, ya que dependerán de la muestra).
En investigación es frecuente el problema de "decir o conocer" algo en relación a los parámetros, esto es,
acercarse al conocimiento de estos. También es evidente que frente a un conjunto de observaciones o datos,
deseemos organizar estos de manera que podamos decir con ellos lo que deseamos decir, y sólo eso; como así
mismo lograr que ellos (los datos) nos revelen información oculta. La parte de la Estadística que se encarga
de resolver el primero de estos problemas es conocida con el nombre de Inferencia Estadística, mientras que
la que se encarga de lo segundo es la Estadística Descriptiva. Esta última es de suma importancia en cualquier
fase de la investigación, ya que no se trata de describir sólo datos relativos a poblaciones, sino todo tipo de
información, sea ésta poblacional o muestral. Su propósito fundamenal es la organización, resumen y
presentación de la información, de modo de rescatar lo particular de entre lo general, o vice versa, sin caer en
extremos como perder la idea general a fin de destacar lo particular, o generalizar a extremo de perder una
visión más puntual de los datos. En una primera parte del curso nos encargaremos de proporcionar los
elementos básicos del proceso descriptivo de la información.

1.3. ESTADÍSTICA UNIVARIANTE

UNIVARIANTE
La información disponible por medio de algún procedimiento de obtención (investigaciones, recopilaciones,

diseño o muestreo, etc.) puede, por lo general, clasificarse en dos grandes categorías: información
cualitativa (no numérica) e información cuantitativa (numérica). La primera se refiere a auella información
que resume, describe o simplemente “informa” de cualidades o atributos de las unidades de observación.
Ejemplos de este tipo de información son “color de ojos de niños”, “género de las personas”, “parentesco”,
etc. La relación fundamental entre unidad de observación y característica observada es la de pertenencia (el
sujeto pertenece a tal categoría o posee tal característica). La segunda categoría de información se refiere a
todas aquellas características cuya unidad de medida posee propiedades propias de un subconjunto de los
números reales. Por ejemplo, estatura (medida en centímetros, metros, etc.), longitud, tiempo, etc. Este tipo de
información se caracetriza, por lo tanto, porque la observación posee una unidad de medida asociada.
A pesar de las acepciones anteriores, y de la aparente exclusividad de naturaleza por parte de algunas
variables usadas en los ejemplos, hay que tener presente que la conversión de un tipo de información en otro
puede ser posible. Por ejemplo, si la variable es “ingreso bruto mensual de la familia”, esta variable puede ser,
indistintamente, cualitativa o cuantitativa. En efecto, un economista puede “medir” esta variable en pesos ($),
mientras que un asistente social podría referirse a ella como distintas categorías socioeconómicas (pobres,
indigentes, etc.) y cada observación ser asociada, por tanto, en alguna de tales categorías. En este último caso
la variable resume una cualidad del sujeto consultado. Más aún, es posible que una variable definida
inicialmente como cuantitativa sea tratada, como parte del procesamiento, desde el punto de vista cualitativo.
Lo inverso no es válido. Esto es, podrá transformarse en cualitativa una varuiable cuantitativa, pero no podrá
“convertirse2 en cuantitativa una variable cualitativa.
En el resto de este capítulo se tratarán las dos formas básicas de organización y resumen de información:
forma gráfica y forma numérica. Actualmente se habla de formas digital y analógiga para referirse a esas
formas. Estos enfoques adoptan formas especiales según sea el tipo a naturaleza de información a procesar,
razón por la que se presentarán separadamente para los casos cualitativo y cuantitativo. En cualquier caso, las
representaciones se hacen sobre la base de información cuantitativa. Esto significa que parte importante del
análisis de información cualitativa consiste en cuantificarla a obejto de efectuar los análisis correspondientes.
DATOS CUALITATIVOS
Cuando nos enfrentamos a datos de natualeza categórica o cualitativa, como se dijiera, se debe cuantificar la
información para obtener las represenbtaciones gráficas y numéricas que se requieran. Esto resulta fácil toda
vez que las variables en estudio contienen una cantidad finita o limitada de valores (las modadlidades). Por
ejemplo, si la variable en estudio es Sexo, entonces las modalidades serán dos: Hombre; Mujer, o Masculino y
Femenino. Frente a ese tipo de variables, la cuantificación permite, además, construir representaciones y
esquemas que mejor resuman la infrmación, o que permitan perfilar mejor al objeto en estudio. Tal
cuantificación consiste en construir tablas de frecuencias (cantidad de unidades de observación que poseenla
característica en estudio).
Ejemplo 1.1. De la sola observación de los registros (lista) de un Libro de Clases, en un curso específico, se
puede extraer la siguiente información respecto de la variable Sexo: 20 alumnos son niños y 23 son mujeres.
Estas cifras hablan de la composición del curso (constituyen las frecuencias), que se puede representar en una
forma tabular como sigue:
Tabla de frecuencias
Sexo Frecuencia
Masculino 20
Femenino 23

Una representación gráfica, de la misma información, puede ser más interesante. A continuación, un gráfico
de sectores en el que se resume la información:
47%
53%
Masculino
Femenino
Respecto de la “lectura” de la información (o mejor dicho, del resumen) se pueden observar ventajas y
desventajas de una y otra forma de representación. Por ejemplo, una ventaja de la Tabla de Frecuencias es su
objetividad. El lector “lee” las cifras, y ellas son objetivas. Son el resultado de un proceso que no admite
dudas, a menos, claro está, que los cálculos no estén correctos, en cuyo caso la fuente de error no proviene del
análisis sino de una errónea aplicación del algoritmo de contar. Una de sus desventajas es la necesidad
imperiosa de “leer” esa información. Mientras no se haga una lectura completa de ella, no se podrán hacer las
compraciones. La segunad representación, en cambio, tiene como una de sus ventajas la facilidad de lectura
de la información (no se requieren cálculos para hacer las comparaciones). Su principal desventaja es, no
obstante, su subjetividad. Resulta obvio que debe tenerse especial cuidado de utilizar este este tipo de
gráficos, ya que ellos no son adecuados cuando las diferencias no son muy evidentes, o cuando se dispone de
muchas categorías a representar.
Otra forma muy común de representación gráfica de información de este tipo es el gráfico de barras, como la
que se muestra a continuación:
Composición de género del curso
23
22
21
20
19
18
Masculino Femenino
Aparte de estas formas de representación pueden existir otras, y, además, es tarea del analista buscar o idear
sus propias formas de representar la información. No se puede olvidar el objetivo de cualquiera de estas
representaciones: sintetizar un resumen a objeto de transmitir un mensaje lo más claro y pertinente posible. ♦
La importancia de los gráficos en Estadística es fundamental. El principio es muy sencillo: "Un gráfico puede
decir más que mil palabras". Es tarea del analista "adornar" y complementar adecuadamente aquel mensaje
con el mejor y más claro lenguaje posible.

DATOS CUANTITATIVOS
Cuando los datos son de naturaleza numérica (cuantitativa), es necesario encontrar formas adecuadas de
resumir la información. Estas son, al igual que en el caso de información cualitativa, de tipo numérico y
también de tipo de gráfico.
Tratamiento Numérico
Como se estableciera en el capítulo sobre variables aleatorias, de la Unidad 1, la descripción y resumen de un

conjunto de información de tipo numérico puede hacerse en base a medidas numéricas descriptivas. Las
medidas numéricas descriptivas que se abordan en estas notas, en relación al análisi de información, son:
medidas de tendencia central, medidas de posición y medidas de variabilidad.
Medidas de tendencia central
Cuando se describe un conjunto de datos, no se intenta expresar demasiado ni muy poco, sino sólo la realidad.
La forma de describir aquella realidad puede, eso sí, depender de los fines que se pretendan con el análisis, es
decir descripciones estadísticas breves o muy elaboradas.
En ocasiones, los datos se presentan en su forma original y es posible que “hablen” por si solos; otras veces
esta situación se presenta como distribución de la frecuencia o bien como gráficas. No obstante ello, la
mayoría de las veces se deben describir mediante uno o dos números cuidadosamente seleccionados, que
puedan hablar por ellos.
Surge así la necesidad de resumir los datos a través de un único número, que describa a su modo, el conjunto
entero de datos. Este tipo de número que seleccionamos dependerá de la característica particular que se quiera
describir. Tal vez en un estudio nos interese establecer el valor que excede sólo el 25% de los datos; en otro,
aquel valor que no sobrepase al 10% de los datos y en otro caso el valor que describa el centro de los datos o
aquel que se presenta con mayor frecuencia. Las medidas que describen estas características se conocen con
el nombre de medidas de tendencia o de localización, siendo las que describen el centro o punto medio las
llamadas “Medidas de Tendencia Central”.
Para un conjunto de datos X = {x1, x2, ..., xn}, las principales medidas que resumen la tendencia central de ese
conjunto son:
1 n
Media: X = ∑ xi
n i =1
Mediana: X0.5 = Valor central (promedio de valores centrales) de la serie ordenada de X
Moda: Valor(es) más frecuente(s) de X (datos cuanti-tativos y cualitativos)
Los conjuntos de datos (distribución) con más de una moda se llaman multimodales.
Medidas de posición
Como su nombre lo indica, las medidas de posición permiten resumir características relativas a la posición
que ciertas observaciones, o conjuntos de ellas, tienen o adquieren en la distribución de los datos. Entre estas
medidas las más importantes son los valores extremos y los percentiles, llamadas también, fractiles. Los
valores extremos más utilizados (y obvios) son el máximo, que se denotará por Max(X), y que corresponde a
la observación (dato) de mayor valor numérico; y el mínimo, que se denotará por min(X), y que corresponde a
la observación de valor numérico menor.

Los percentiles, por su parte, corresponden a valores que “particionan” la distribución de la serie ordenada de
observaciones, de tal modo que cada “parte” en esa partición tiene una frecuencia (relativa o porcentual)
determinada. De ahí el nombre de percentiles, porque dividen porcentualmente (percentílicamente) a la serie
de datos. De entre los percentiles, los más utilizados son los cuartiles (particionan a la serie de observaciones
en cuatro clases de igual frecuencia: 25% de datos cada clase o grupo), los quintiles (particionan la serie de
datos en cinco conjuntos de igual frecuencia: 20% cada grupo), los deciles (particionan la serie en diez clases
de igual frecuencia: 10% de observaciones en cada clase o grupo). Matemáticamente, los percentiles se
obtienen mediante una correspondencia biunívoca entre la serie ordenada de observaciones y el intervalo real
[0.00 ; 100] (esquema siguiente).
Algunos autores definen a la mediana como una medida de posición, argumentando que es el percentil de
orden 50%, o equivalentemente, el segundo cuartil, etc.
Medidas de variabilidad
Las medidas más utilizadas para sintetizar las características de variabilidad de un conjunto de datos de
naturaleza cuantitativa X = {x1, x2, ..., xn} son:
Rango: R(X) = Max(X) – min(X)

1
Varianza: S 2 =
n −1
∑ ( xi − x ) 2
Desviación estándar: d .e.( X ) = S2 = S

S
Coeficiente de variación: CV ( X ) = 100%
X
Medidas de forma: Simetría y Kurtosis
En relación a la forma de una distribución, son principalmente dos los aspectos que pueden interesar en el
estudio de una distribución: el grado o nivel de simetría (distribución armónica y bien espaciada de las
observaciones en torno a un valor dado), y el grado de agudeza o puntiagudez, referido a la capacidad de
concentrar las observaciones en torno de una valor. Una medida de la primera característica (o de una
anticaracterística), es el coeficiente de asimetría o coeficiente de sesgo, mientras que una medida de la
segunda es el coeficiente de kurtosis. Para una serie de datos X, se definen estos indicadores por:
Coeficiente de sesgo: 3(media − mdiana ) (de Pearson)

CS =
desviación estándar
Q − 2Q2 + Q3
CS = 1
Q3 − Q1
(x − x) 4
Kurtosis: K=
∑ i
n
S4

Observaciones:
– Existen varios coeficientes de asimetría. El más utilizado es el presentado aquí, que se atribuye a Pearson.
– Una distribución puede recibir distintos nombres, según sea el valor del CS (ver figura 1).
– Por lo general, |CS|≤3.
– Una distribución se dice simétrica si CS=0; asimétrica negativa, si CS<0; y asimétrica positiva si CS>0.
– De acuerdo a su forma, las distribuciones se clasifican en mesocúrticas, platicúrticas y leptocúrticas (ver
figura 2).
Figura 1: Curvas según coeficiente de asimetría
Figura 2: Curvas según coeficiente de curtosis
Resumen tabular: Tablas de frecuencia
Hay situaciones en las que la cantidad de información es muy grande, o bien no existe una variable de
clasificación que facilite su análisis. En estos casos se hace necesario algún procedimiento de agrupación de
los datos de modo de hacer más comprensible su estructura. Esto es lo que se conoce como análisis en base a
datos agrupados. La agrupación obedece a criterios subjetivos, y una agrupación dada puede no representar
bien la información, por lo que deberá buscarse agrupaciones alternativas. Gracias a la Computación e
Informática, esto se ve facilitado enormemente.
La presentación de una agrupación particular de datos continuos puede hacerse en lo que se llama Tabla de
Frecuencias. Esta tabla de frecuencias es una disposición tabular–rectangular en la que se identifican los
grupos en los cuales se ha distribuído la información y las caracaterísticas más relevantes de esos grupos,
llamados tambén clases. Cuando estas clases son intervalos bien definidos se les llama intervalos de clase.

Entre los elementos distintivos de la tabla de frecuencia, que en sí es información de resumen, se tiene la
frecuencia de cada clase, que puede expresarse en forma absoluta (número de unidades en la clase) o en forma
relativa (porcentaje de unidades de observación en la clase).
Otro elemento distintivo de la tabla es la marca de clase, que corresponde a un representante de la clase
correspondiente. Puede ser el valor promedio de la clase, puede ser la mediana de la clase, o alguna otra
cantidad que represente bien a la clase. Es habitual que el punto medio de la clase sea la marca de clase.
A continuación se presenta un ejemplo que ilustra la forma y estructura de una agrupación de datos en una
tabla de frecuencias.
Ejemplo 1.2. Las siguientes cifras corresponden a pesos (en kg) de 50 niños de entre 2 y 3 años de edad.
13.9 17.1 13.4 15.5 14.4 15.3 17.5 13.9 14.9 15.4
13.7 14.0 14.2 16.8 15.2 14.9 14.8 15.5 16.8 14.4
13.4 14.4 13.7 15.6 15.3 14.9 16.9 15.8 14.7 15.0
15.2 14.0 16.1 15.3 17.7 14.6 15.2 14.0 14.5 15.2
15.1 14.5 15.7 15.6 16.0 17.0 16.5 15.8 15.8 16.1
Es obvio, que al "mirar" los datos es muy poco lo que se ve. Se hace necesario un análisis en base a datos
agrupados. Pero antes de proceder al agrupamiento de la información, se pueden obtener características
numéricas básicas de la información.Con la ayuda de un software estadístico, se obtiene:
Variable: Peso de niños

--------------------------------------
Sample size 50
Average 15.224
Median 15.2
Mode 15.2
Variance 1.14064
Standard deviation 1.06801
Minimum 13.4
Maximum 17.7
Range 4.3
Coeff. of variation 7.01528
------------------------------------
Notar que estos pesos tienen una distribución bastante simétrica, pués son similares la media, la moda y la
mediana.
Frequency Tabulation
--------------------------------------------------------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
---------------------------------------------------------------------------------
1 13.000 13.625 13.313 2 .0400 2 .0400
2 13.625 14.250 13.938 8 .1600 10 .2000
3 14.250 14.875 14.563 8 .1600 18 .3600
4 14.875 15.500 15.188 15 .3000 33 .6600
5 15.500 16.125 15.813 9 .1800 42 .8400
6 16.125 16.750 16.438 1 .0200 43 .8600
7 16.750 17.375 17.063 5 .1000 48 .9600
8 17.375 18.000 17.688 2 .0400 50 1.0000
--------------------------------------------------------------------------------- ♦

Medidas numéricas a partir de un resumen tabular
La tabla de frecuencias, con más o menos elementos descriptores, es un resumen. Puede ser necesario, en
algunas ocaciones, obtener medidas descriptivas más específicas a partir de ella, como por ejemplo, medidas
de tendencia central o de variabilidad. Parece natural que se necesita de una forma alternativas a las ya vistas
de obtener esos estadísticos, ya que no se cuenta con información original o “en bruto” como para aplicar las
fórmulas de cálculo conocidas. A continuación se presentan algunas medidas descriptivas básicas a partir de
una tabla de frecuencias.
Media: 1 n
X = ∑ mi ni , donde mi es la marca de la clase i y ni la frecuencia absoluta respectiva.
n i =1
Mediana: La mediana requiere, primero, de identificar la clase mediana. Ésta es aquella clase en la
que se encuentra el valor central de la serie ordenada. Notar que sólo podrá observarse la
clase, y no el valor central. La mediana corresponde entonces al valor
0.5n − F−1
X 0.5 = L + C , donde L es el límite inferior de la clase mediana, n es el total
n Med
de observaciones, F-1 es la frecuencia acumulada hasta la clase inmediatamente anterior a
la clase mediana, nMed es la frecuencia absoluta de la clase mediana y C es la amplitud
(largo) de la clase mediana.
Moda: Más bien se habla de clase modal, y corresponde a la clase de más alta frecuencia.
Varianza: La varianza de una distribución, a partir de datos agrupados, se obtiene de manera similar
al caso de datos no agrupados. Sólo deben usarse los estadísticos adecuados.
Percentiles: Aunque existe una forma algebraica de obtención de percentiles a partir de una tabla de
frecuencias, existe una forma gráfica, que se verá más adelante, que es mucho más
eficiente en la obtención de este tipo de medidas.
Observación: Todas las medidas obtenidas a partir de una tabla de frecuencias son aproximaciones de las
respectivas medidas obtenidas a partir de los datos originales.
Ejemplo 1.3. A partrir de la tabla del ejemplo 1.2 anterior, la media es 15.238. En relación a la mediana, la
clase mediana es la cuarta clase, que tiene un límite inferior igual 14.785, una frecuencia absoluta de 15 y una
amplitud de 0.625. Por lo tanto su valor es 15.16667. Por último, la clase modal también es la clase 4. A
juzgar por estas caraterísticas, la distribución de los datos parece bastante simétrica. ♦
Desigualdad De Tschebyshev
Un resumen estadístico debe ser una síntesis de la realidad. Como tal debe reunir los aspectos más relevantes
de aquella y transmitirlos pertinentemente. Éste es el objetivo de todo resumen. En consecuencia, debe ser
también un reencuentro con la realidad. Pero para lograr ese reencuentro hace falta saber leer el mensaje que
contiene el resumen. Una de las herramientas más poderosas para esa lectura se presenta a continuación, en la
forma de una proposición matemática primero, y en una formulación empírica después. Aunque exige ciertas
condiciones a los datos, hay infinidad de situaciones en las que su uso ayuda considerablemente a la
inerpretación.

Proposición 1. (Desigualdad de Tschebyshev). Sea X = {x1, x2, ..., xn} un conjunto de observaciones con una
media X y una desviación estándar S. Entonces para una constante k>1, el porcentaje de información que se
encuentra a kS de la media X es al menos (1 − 1 )100% .
k2
Una formulación práctica de la Desigualdad de Tschebyshev es:
Regla empírica de Tschebyshev:
Si la distribución de X es simétrica en torno de su media X , entonces:

– Aproximadamente el 67% de los datos se encuentra a una desviación típica de X .
– Aproximadamente el 95% de los datos se encuentra a dos desviaciones típicas de X .
– Aproximadamente el 99% de los datos se encuentra a tres desviaciones típicas de X .
Ejemplo 1.4. Si una distribución, relativamente simétrica, se resume en una media igual a 7 y una desviación
típica de 0.4, ¿qué se puede concluir de las observaciones?
Solución. Dado que la distribución es simétrica, entonces, mediante aplicación de la regla empírica de la
desigualdad de Tschebyshev, se puede establecer que, aproximadamente, el 95% de los datos oscila entre 7–
2·0.4 y 7+2·0.4. Esto es, la mayor parte de los datos oscila entre 6.2 y 7.8. ♦
Tratamiento Gráfico
En muchos casos, la forma más adecuada y atractiva de presentar la información numérica es a través de
gráficos y diagramas. Estos tienen la gran ventaja de que permiten una asimilación visual de las
características de los datos estudiados bastante más rápida que la simple contemplación de resúmenes
tabulares.
La elección del tipo de gráfico más adecuado para resumir cierta información, dependerá en gran medida del
objetivo que se pretenda con él y del uso que a éste se le dará. Por ejemplo, ante la necesidad de mostrar la
evolución de una variable a través de un período de tiempo determinado, se tienen los gráficos de línea o
lineales. Situando el tiempo en el eje horizontal y la variable de interés en el eje vertical, se obtiene una
secuencia temporal para esta última. En la figura siguiente se presenta un resumen gráfico referido al
promedio mensula de material prticulado en Temuco durante los 12 meses del año 2003. En él se visualiza un
claro aumento de enero a mayo, para comenzar luego una disminución.
Promedio mensual pm10 en Temuco
Año 2003
100
90
80
70
60
50
40
30
20
10
0
e
e
zo
Se osto
re
o
o
e
ril
lio
br
br
ay
er
er
br
ni
Ab
ub
ar
Ju
em
m
Ju
em
br
En
Ag
M
ct
ie
Fe
vi
O
ci
pt
No
Di
Fuente: Escuela de Ingenería Ambiental, UCTemuco

A menudo nos puede interesar explorar la relación lineal entre dos variables, es decir cómo se comporta una
variable (dependiente) en función de otra variable (independiente), situación que puede ser analizada a través
del diagrama de dispersión, tal como se presenta en el ejemplo 1.5.
Ejemplo 1.5. Un centro experimental desea establecer la relación existente entre los montos invertidos en
investigación y desarrollo, y las utilidades obtenidas por estos conceptos, en los últimos 9 años. Información,
en millones de pesos, resumida en la tabla siguiente:
Inversión en Investigación y Desarrollo vs Utilidades
Inv. en Inv. y Desarrollo Utilidades
40
2 20
3 25 36
4 30
5 31 32
Utilidades
3 26
28
7 34
9 36 24
11 38
10 37 20
2 4 6 8 10 12
Inv. en Inv. y Desarrollo
A través de este resumen gráfico es posible establecer la relación directa o positiva existente entre las
variables en estudio, es decir, en la medida que la inversión en investigación y desarrollo aumente, también lo
harán las utilidades del centro de investigación.
El gráfico de cajas es una herramienta de gran utilidad para el análisis de uno o más conjuntos de datos.
Construido a través de las medidas de posición, permite formarse una idea respecto de la distribución de la(s)
variable(s) en estudio. Tomando la información del ejemplo 1.4 ilustraremos esta situación.
Gráfico de Cajas
para la Inversión en Inv. y Desarrollo
40
30
Millones de Pesos
20
10
0
Inversión Utilidades
Al intentar analizar y resumir un gran volumen de información, no podemos olvidar a los tradicionales
histogramas y ojivas, cuyo gran objetivo es mostrar la distribución de frecuencias de los datos estudiados. Su
construcción se realiza, directamente, a partir de la tabla de frecuencias. A continuación se muestran las
formas características de estas representaciones, y posteriormente se ilustra con un ejemplo su construcción.

Los gráficos adecuados para el análisis de grandes volúmenes de información pueden ser los ya vistos,
además de otras reprentaciones como gráficos de lineas, y los tradicionales histogramas y ojivas. Estos
últimos se pueden construir a partir, directamente, de la tabla de frecuencias. Son por excelencia los
homólogos gráficos de la tabla de frecuencias. A continuación se muestran las formas características de esas
representaciones, y posteriormente se ilustra con un ejemplo su construcción.
HISTOGRAMA OJIVA PORCENTUAL ASCENDENTE
Un histograma y una ojiva (distribución acumulada) para los datos del ejemplo 1.3 se presentan a
continuación.
Histograma de frecuencias relativas Distribución acumulada
1.000
10
0.900
0.800
8
Frecuencia relativa
0.700
0.600
6
0.500
4
0.400
0.300
2
0.200
0.100
0
0.000
13 14 15 16 17 18
13.100 14.100 15.100 16.100 17.100
Peso de 50 niños
Ejercicio. Consideremos los datos de la tabla adjunta. En ella se registran los pesos, en kilogramos, de cien
personas adultas.
89 78 65 75 66 70 80 85 90 98
63 74 61 73 68 75 85 83 85 69
71 84 60 76 79 81 79 84 78 77
88 95 65 91 85 100 110 75 76 87
87 83 84 81 79 78 75 77 83 86
84 81 88 76 83 90 61 87 79 79
83 79 91 77 69 81 71 97 65 81
78 78 79 78 70 85 92 83 85 78
77 95 69 79 80 38 93 75 83 77
68 99 75 83 99 68 83 78 78 83

La variable aquí en estudio, peso de las personas, no tiene asociada una variable de clasificación que facilite
su análisis, especialmente gráfico, que es el mayor problema. Podemos determinar el peso promedio (o peso
medio), valores extremos, mediana (o valor central), rango (diferencia entre máximo y mínimo), variabilidad
o dispersión, etc., pero no tendríamos una forma gráfica adecuada para todos los datos. Es necesario, sin
desechar las medidas anteriores, un análisis en base a datos agrupados, es decir, hay que agrupar los datos.
Se sugiere intentar una agrupación, y en base a la Tabla de Frecuencias obtenida, construir el histograma y la
ojiva. ♦
1.4. ESTADÍSTICA BIVARIANTE
Es muy común que la explicación de un fenómeno o realidad requiera del conocimiento de algún aspecto de
ella. Por ejemplo, puede ser deseable conocer o explicar el comportamiento de los alumnos (en la sala de
clases) por medio de su realidad familiar, por ejemplo.
En este caso, como en la mayoría de los que aquí serán tratados, existe un par de variables que en algún modo
resumen o permiten resumir bien el objeto o problema en estudio. El análisis consiste en establecer la forma
en que se relacionan o asocian tales variables. De este aspecto y sus derivados tratan las secciones siguientes.
CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON
El problema es determinar si dos variables cuantitativas o numéricas se encuentran o no relacionadas entre sí.
Este es el problema de asociación. Por ejemplo, el pediatra sabe que existe una relación (asociación) entre
peso y talla de niños de cierta edad. Y no sólo sabe que existe una asociación, sino también sabe qué forma
tiene esa asociación. Un profesor puede desear establecer si existe o no relación entre el nivel de ingresos
familiares y el éxito académico que los alumnos pudieran tener en la universidad. En fin, existen muchas
situaciones en las que el conocimiento de una asociación entre variables puede explicar un fenómeno, y en
cierta manera, permitir el control de ese fenómeno.
En estas notas se presenta el análisis de un tipo particular de asociación: La asociación lineal, llamada más
comúnmene, correlación lineal. El estudio de la correlación lineal corresponde al análisis de correlación
lineal.
Formalmente el análisis de correlación corresponde al conjunto de técnicas estadísticas empleado para medir
la intensidad de la relación o asociación lineal entre dos variables. Un aspecto inicial del análisis lo constituye
la determinación intuitiva o a priori de esta asociación. Por ejemplo, pareciera lógico pensar que el promedio
de calificaciones de educación media de un estudiante esté relacionado con las calificaciones obtenidas en la
universidad (al menos en sus primeros semestres).
Una vez que se ha establecido la posibilidad de existencia de correlación lineal, se recomienda construir un
diagrama de dispersión de los datos. En muchos casos las sospechas iniciales pueden ser corroboradas o
refutadas por medio de un gráfico. De los gráficos siguientes, el (a) resume y manifiesta, al parecer, una
relación lineal positiva entre las variables correspondientes. Los diagramas en (b) y (c), en cambio, no ponen
en evidencia, al menos en apariencia, relación lineal alguna. Particularmente, en diagrama (b) más bien
evidencia una asociación curvilinea (cuadrática), mientras que en (c) no se advierte ninguna tendencia en
particular.

El diagrama de dispersión, como herramienta de detección de correlación o asociación entre dos variables, es
más bien una técnica intuitiva. Se necesita de una medida (numérica) de correlación lineal, de una cantidad
que resuma y cuantifique esta asociación en base a los datos observados. Una medida de esta asociación muy
utilizada es el coeficiente de correlación lineal de Pearson, definido a continuación:
Definición. Sean X y Y dos variables aleatorias de las que se han registrado, en forma simultánea, n
observaciones. Esto es, se tienen n pares ordenados (x,y) del vector aleatorio (X,Y). El coeficiente de
correlación muestral de Pearson se denota y define por:
∑X Y
i =1
i i − nXY
r=
(n − 1) S X S Y
donde SX y SY son las desviaciones estándares muestrales de X y de Y, respectivamente. El coeficiente de

correlación así definido representa la proporción de la reducción a la variabilidad de Y cuando esta
variabilidad es explicada por medio de una relación lineal con X.
El cálculo de r, así como la construcción de un diagrama de dispersión, se facilitan considerablemente con el

uso de calculadoras y software. La mayoría de las calculadoras científicas permiten el cálculo directo de r,
mediante el módulo LR.
Observaciones
1) El coeficiente de correlación de Pearson r satisface –1 ≤ r ≤ 1
2) r =1 significa correlación lineal perfecta, y positiva, entre las dos variables.
3) r = –1 significa correlación lineal perfecta, y negativa, entre las dos variables.
4) r = 0 significa ausencia total de correlación lineal.
El porcentaje de variabilidad de Y explicado por la variabilidad en X lo mide el coeficiente de

determinación, que corresponde a r2. La cantidad 1–r2 se denomina coeficiente de no determinación.
Ejemplo 1.6. Los datos siguientes son X: Puntaje en un sistema de aprendizaje, Y: Costo asociado al logro del
puntaje. La idea es estudiar la relación que pudiera existir entre X y Y.
X 16 14 22 10 14 17 10 13 19 12 18 11
Y 77 70 85 50 62 70 52 63 80 57 81 54
Solución.
En primer lugar exploraremos si se evidencia o no alguna tendencia en los datos. Esto puede lograrse con la
ayuda del diagrama de dispersión, que se muestra a continuación.

RESULTADOS DE UN PROCESO DE APRENDIZAJE
90
Costo de obtención del puntaje, Y

80
70
60
50
9 12 15 18 21 24
Puntaje, X
Es evidente que si existe alguna asociación lineal entre X y Y, ésta debe ser lineal (ver gráfico siguiente).
Sobre esta base, la medida de la asociación lineal está dada por r = 0.95754. Además, el coeficiente de
determinación es r²=0.916892. Esto significa que, aproximadamente, el 92% de la variación en el costo se
explica por la variación en el puntaje. ♦
Representación Gráfica de la Correlación Lineal
Sin duda que los mensajes con una componente analógica (gráfica) juegan un importante papel en las
interpretaciones de resultados. En este sentido puede ser más ilustrativo un gráfico que una tabla con una
serie de datos. Sin embargo, no puede concluirse que las componentes analógicas sean de mayor importancia
que las componentes digitales en un mensaje. Habrá que analizar la forma más pertinente que usaremos para
comunicar lo observado.
Puede demostrarse, con herramientas matemáticas que escapan a los objetivos de este curso, la siguiente
importante relación respecto del coeficiente de correlación lineal de Pearson:
ρ ( X c ;Y c ) = cos(θ )
donde θ es el ángulo que forman los vectores directores asociados a las variables Xc y Yc, y éstas son
variables centradas, es decir, a cada valor de ellas se les ha restado su media.
Esta relación es muy importante, puesto que permite "ver" las correlaciones, en tanto que estimar su valor
aproximado.
Algunas consideraciones:
1. Dado que, geométricamente, la correlación se asocia con el coseno del ángulo que las variables forman,
entonces a medida que dicho ángulo aumenta en magnitud, la correlación disminuye. Recíprocamente,
menor medida del ángulo implica una mayor correlación.
2. En ausencia de correlación (independencia total, ρ = 0), el ángulo entre las variables mide 90° (el coseno
de un ángulo que mide 90° es 0). Esto es, las variables se presentan ortogonales. En síntesis,
independencia se asocia con ortogonalidad.
3. Cuando el ángulo que forman las variables mide 180° (ángulo extendido), entonces el coseno vale –1, y
en este caso veremos las variables orientadas en sentido opuesto, pero colineales, es decir, hay una
relación lineal inversa.
4. La representación gráfica de la correlación sólo es posible en un espacio de dos o tres dimensiones.
5. Ya que la representación analógica se construye a partir de vectores centrados, y eventualmente reducidos

(de varianza unitaria), se espera observar estas variables (o vectores) al interior de un círculo unitario y
con sus extremos en un círculo, llamado círculo de correlaciones.
En caso de espacios de dimensión mayor a dos (incluso tres), quizá

una “proyección” de las asociaciones en un plano sea suficiente para
formarse una idea de esa asociación. En estos casos, cuanto más
cercanos al círculo de correlaciones se encuentren los extremos de
los vectores, mejor será la “representación” del vector en el plano, y
más contundente será la conclusión.
La figura adjunta ilustra las ideas anteriores. Es pecíficamente, las
variables X1 y X2 parecen estar altamente relacionadas (de forma
positiva), aunque la variable X1 no estaría bien representada en ese
plano. Por su parte, estas mismas dos variables estarían relacionadas
negativamente con X3, y X2 y X4 serían independientes.
CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN
Definiciones y Propiedades
El coeficiente de correlación producto-momento de Pearson, analizado anteriormente, exige que ambas

variables sean continuas. Charles Spearman, ideó una medida de correlación para datos de nivel ordinal o de
rango. Es decir, datos que están o que pueden ordenarse por algún algoritmo de orden ascendente o
descendente. Dicha medida se conoce como Coeficiente de Correlación de Rangos de Spearman, y se denota
y define por:
6∑ d 2
rs = 1 −
n(n ² − 1)
donde d: diferencia entre los rangos de cada par; n: número de pares observados
Al igual que el r de Pearson, el rs de Spearman satisface las siguientes propiedades:
1. Satisface que –1≤ rs ≤1.

2. rs = ±1 significa correlación lineal perfecta entre las dos variables.
3. rs = 0 significa ausencia total de correlación lineal.
Ejemplo 1.7. Los datos siguientes muestran los puntajes obtenidos por 5 trabajadores en sendas pruebas de
destreza y de producción semanal.
Nombre Puntuación Producción

Trabajador Destreza Semanal
Pedro 62 800
José 92 900
Daniel 70 840
Samuel 50 775
Susana 86 875
Para utilizar el coeficiente de correlación de rangos de Spearman, se deben jerarquizar las observaciones. En

este caso ordenaremos en forma ascendente las series, tal como se muestra en la siguiente tabla:
Nombre Puntuación Producción Rango para

Trabajador Destreza Semanal Destreza Producción
Pedro 62 800 4 4
José 92 900 1 1
Daniel 70 840 3 3
Samuel 50 775 5 5
Susana 86 875 2 2
El gráfico de Destreza versus Producción (gráfico siguiente) muestra una correlación lineal aparentemente
perfecta. Puntajes altos (bajos) se relacionan o corresponden entre sí. Lo anterior es fácil de corroborar
numéricamente, ya que notando que cada diferencia de rango d es cero, se tendrá también que d² = 0, así que
6( 0)
rs = 1 − = 1. ♦
5(5² − 1)
0
0 1 2 3 4 5
Las observaciones que tienen el mismo rango (empates) pueden constituirse en un serio problema a la hora de
utilizar este coeficiente de correlación.
Si hay un importante número de empates, se puede utilizar el siguiente procedimiento de corrección:

t³ − t
T=
12
donde t es el número de observaciones empatadas para un mismo rango. Luego de esto se obtiene una
corrección para el coeficiente de correlación dada por:
rs= ∑ x + ∑ y² − ∑ d
2
i
2
∑ x²∑ y ²
2
n³ − n n³ − n
donde ; ∑ x² = 12
− ∑ Tx ; ∑ y ² =
12
− ∑ Ty y
∑T x es la suma de los valores de para los rangos empatados de X,
∑T y es la suma de los valores de para los rangos empatados de Y.
Es recomendable utilizar este coeficiente de correlación sólo una vez que se haya corregido el problema de
"empates".

CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA
Se dispone de dos variables cualitativas, cada una con un número específico de modalidades o categorías.
Entonces se procede a contar el número de co–ocurrencias de las distintas modalidades y se registran en una
tabla de doble entrada: la Tabla de Contingencia o Tabla Cruzada.
Hablar de asociación o relación entre dos variables cualitativas es hablar de Tablas Cruzadas o de Tablas de
Contingencia. Aunque un Análisis de Contingencia puede ser en cierto modo complejo, las tablas de
contingencia pueden tratarse desde una perspectiva descriptiva, sin pasar por el natural análisis de
contingencia. Los aspectos descriptivos de una tabla de contingencia se basan en la tabla cruzada, que es lo
primero de un análisis de contingencia. No obstante, cualquiera sea el análisis inicial, lo que se desea explorar
por medio de una tabla del tipo Individuos x Variables Cualitativas es la relación entre las variables o las
modalidades de ellas.
Variables cualitativas
Individuos X1 X2 ... Xp
1
2
...
n
Una primera diferencia con los coeficientes presentados anteriormente es que el contenido de una tabla
cruzada (o de contingencia) está conformado por frecuencias. En efecto, el cruce de dos variables cualitativas
corresponde a un resumen de las co–ocurrencias de las distintas modalidades de las variables. Por ejemplo, si
las variables son Sexo (dos modalidades, M y F) y Carrera (tres modalidades: C1, C2 y C2), entonces el cruce
de ellas se puede resumir en una tabla con la siguiente estructura:
Carrera
Sexo C1 C2 C3
M
F
En cada "celda" de esta tabla se registra el número de co–ocurrencias de las modalidades.
En síntesis, mientras en los análisis de correlación anteriores el interés se centra en las variables, en el caso
que estamos presentando el interés se centra en los individuos. Más aún, se trata aquí de colectivos de
individuos más que de individuos singulares. Sin embargo, al igual que en los casos anteriores, el problema a
estudiar es muy similar. Específicamente, se puede establecer que el problema principal de una tabla de
contingencia es:
DADAS DOS O MÁS CARACTERÍSTICAS DE LA POBLACIÓN, Y EN BASE A LAS

FRECUENCIAS U OBSERVACIONES CORRESPONDIENTES:
¿EXISTE ALGUNA RELACIÓN ENTRE TALES CARACTERÍSTICAS, O MÁS BIEN SON
ELLAS INDEPENDIENTES?
Nuevamente la idea de distancia es fundamental en la construcción de un resumen que mejor dé cuenta de las
asociaciones entre variables, y entre colectivos de individuos. Podemos decir que el problema principal es
describir las distancias entre los elementos de la tabla, o resumir las comparaciones que en ella se hagan. En
efecto, cuando examinamos las relaciones entre variables, lo que se está haciendo es examinar la "distancia" a

la que se encuentran esas variables. Así por ejemplo el problema de independencia asociado a una tabla de
contingencia no es más que un problema de distancia: la distancia entre la tabla observada y una tabla que
representa la situación perfecta de independencia. Sin duda que el concepto de esa distancia puede ser el
problema. En este sentido habrá que buscar alguna forma de "medir" esa distancia.
Por su parte, y casi sin darnos cuenta, cuando abordamos el problema de correlación, lo hacemos
determinando el peso que los diferentes grupos de individuos tienen en la tabla, lo que es equivalente a
calcular la distancia entre distintos colectivos de individuos.
De la Encuesta a la Tabla de Datos
Retomemos el problema inicial, el cual es resumir la información de la tabla de datos. La confección o

construcción de la tabla de datos para este análisis parte de un protocolo de encuesta. Es la codificación de la
encuesta lo que constituye la materia prima de esa tabla de datos. Por ejemplo, si disponemos de las variables:
CARRERA: A ADSC. RELIGIOSA: C1

B C2
C
D
entonces la información proporcionada por los individuos encuestados puede registrarse en una planilla
parecida a la siguiente:
TABLA 1: Tabla de Códigos Condensados para Carrera y Adscripción Religiosa

Ind Carrera Adsc.Rel
1 B C2
2 C C2
3 A C1
4 A C2
5 A C2
6 D C2
7 B C2
8 D C2
9 C C2
10 C C2
11 A C1
12 D C1
13 D C1
14 B C1
15 C C1
Esta es una de las primeras tablas en el tratamiento de encuestas, y se llama Tabla de Códigos Condensados.
La Tabla de Códigos Condensados no es un resumen, es simplemente la codificación de las respuestas.
La Tabla de Frecuencias o Tabla de Contingencia: Un Primer Resumen
Una tabla que sí constituye un resumen (y por tanto implica pérdida de información), es la Tabla de
Frecuencias o también llamada Tabla de Contingencia. Esta tabla contiene las co-ocurrencias de las distintas
modalidades de las variables. Por ejemplo, la tabla de frecuencias asociada a la información anterior es:

Tabla 2: Tabla de Contingencia para Carrera versus Adscripción religiosa

ADSC. RELIG.
CARRERA C1 C2 TOTALES
FILAS
A 2 2 4
B 1 2 3
C 1 3 4
D 2 2 4
TOTALES 6 9 15
COLUMNA
Aspectos Descriptivos de una Tabla de Contingencia
Antes de proceder a un análisis más estadístico de una tabla de contingencia, puede resultar interesante un
análisis descriptivo de ella, especialmente de las frecuencias marginales de la tabla. El siguiente ejemplo pone
de relieve algunos aspectos descriptivos que pueden ser útiles en la interpretación de la información de una
tabla de contingencia. No hay que olvidar que este punto del análisis es realmente esencial.
Ejemplo 1.8. En el año 1994 el movimiento mercantil artesanal de tres zonas se resume en la siguiente tabla
(adaptación de un problema citado en Crivisqui, E.: Análisis Factorial de Correspondencias. 1993). Las ventas
en cada zona se describen como Exportaciones. Las compras hechas de artículos producidos en otras zonas
aquí son llamadas Importaciones o Autoconsumo.
Tabla 3: Tabla de contingencia para el mercado artesanal de tres zonas

Producción de Art. Ventas en cada zona Producción
de lana en cada zona A B C total
A 75 25 54 154
B 56 78 189 323
C 89 132 202 423
Total Ventas 220 235 445 900
Gráfico 1: Producción de artículos de lana en cada zona
El análisis puede hacerse desde, al menos, dos perspectivas: en relación a la producción y en relación a la
comercialización.

Respecto de la producción, en el gráfico 1 puede observarse que la Zona A produjo 154, en tanto que la Zona
B, 323; y la zona C se muestra como la zona con mayor producción de entre las tres.
En el gráfico 2 se hace una representación conjunta de ambos procesos: exportación e importación. En él se

aprecia, con bastante claridad, la naturaleza exportadora de la zona B, mientras que la zona A se presenta
como una zona preferentemente importadora. Nótese que la información proporcionada por el gráfico 2 es
mucho más "informativa" que la proporcionada por el gráfico 1
Gráfico 2: "Exportaciones - Importaciones" según zona
Representación digital de la información de una tabla
El objetivo de un análisis estadístico es, por cierto, la comparación. En este sentido, si se desea extraer y
representar adecuadamente la información de aquella tabla habrá que neutralizar el efecto amplificador que en
las comparaciones induce el tamaño de la población o de la muestra observada. Esto se logra dividiendo cada
elemento (celda) de la tabla por el tamaño poblacional o muestral. La tabla resultante será llamada en adelante
Tabla de Frecuencias (relativas).
Tabla de frecuencias relativas asociada a la Tabla 2
ADSCRIPCIÓN RELIGIOSA
CARRERA C1 C2 TOTALES FILA

2 2 4
A 15 15 15
1 2 3
B 15 15 15
2 2 4
C 15 15 15
2 2 4
D 15 15 15
6 9
TOTALES COLUMNA 15 15 1

En la tabla de frecuencias (relativas), los totales fila o columna son llamados vector de peso o Centro de
Gravedad de la tabla.
Tablas de perfiles en línea y en columna
Asociada a una tabla de contingencia (o de frecuencias) existen otras dos tablas: La Tabla de Perfiles en Línea
y la Tabla de Perfiles en Columna.
Un Perfil Línea (o perfil fila) es la distribución de frecuencias de la fila en relación al total marginal fila
correspondiente. Por su parte, un Perfil Columna es la distribución de frecuencias de la columna en relación al
total marginal columna correspondiente.
Las tablas de perfiles asociadas a la Tabla 2 son las siguientes:
Tabla de perfiles fila

CARRERA C1 C2
2 2
A 4 4 1
1 2
B 3 3 1
1 3
C 4 4 1
2 2
D 4 4 1
TOTALES
6 9
COLUMNA
Tabla de perfiles columna

CARRERA C1 C2 TOTALES FILA

2 2
A 6 9 4
1 2
B 6 9 3
1 3
C 6 9 4
2 2
D 6 9 4
TOTALES COLUMNA 1 1
Correlación Condicional
Algunas veces puede ocurrir que mediante el uso de algún procedimiento de análisis (como el uso de χ2 , por
ejemplo) se haya detectado un asociación importante entre las variables en estudio, y ésta no exista como tal.
En situaciones como éstas puede suceder que una o más variables, no consideradas en el estudio, sean las que
realmente den cuenta de la relación por la asociación que ella tiene con las que constituyen la base del
análisis. Por lo tanto, cuando se tengan tres o más variables interrelacionadas, es necesario neutralizar el

efecto de una de ellas en el estudio de la asociación de las otras. Este procedimiento es conocido como
Correlación Condicional o Correlación Parcial.
En esta sección veremos el impacto que en la comprensión de la información contenida en una tabla de
contingencia pueden tener esos factores externos a las variables involucradas en la tabla. Por ejemplo, en la
situación anterior, ¿qué efecto tiene en sexo del paciente en recuperación? Sin duda que la respuesta a esta
interrogante podrá encontrarse sólo si se tiene esta última información.
Ejemplo 1.9. (La paradoja de Simpson)1. Se estudió la sentencia (condenación a muerte o no) de 4764
asesinatos juzgados en Florida de 1973 a 1979 (Cf. Kripendorf: "Information Theory and Statistics". Wiley,
1986).
Según la raza del asesino, se observaron los resultados de la siguiente tabla:
Asesino\condenación a muerte Si No Tasa

Blanco 72 2185 3.2%
Negro 59 2448 2.4%
Lo anterior puede inducir a pensar que la sentencia es más severa para un asesino blanco que para un asesino
negro.
Sin embargo, cuando se tomó en cuenta la raza de la víctima, se se obtuvo lo siguiente:
Raza\condenación a muerte Si No Tasa

Victima Asesino
Blanco Blanco 72 2074 3.4%
Negro 48 239 16.7%
Negro Blanco 0 111 0.0%
Negro 11 2209 0.5%
Esto pone en evidencia que, cualquiera sea la raza de la víctima, la sentencia es más severa para un asesino
negro que para uno blanco.
1
Ejemplo extraído de apuntes de curso del Seminario de Capacitación de Docentes PRESTA.
Concepción, 1997.

Resumen
Las principales características de la correlación lineal de Pearson son:
Ambas variables deben ser cuantitativas continuas.

El coeficiente de correlación lineal de Pearson varía siempre entre 0 y 1.
Valores de cercanos a indican asociación importante e inversa. Es decir, valores grandes (pequeños) de
una variable se asocian con valores pequeños (grandes) de la otra.
Valores de próximos a indican correlación lineal importante y directa. Esto es, valores grandes
(pequeños) de una variable asociados con valores grandes (pequeños) de la otra.
La importancia de la correlación depende del número de observaciones efectuadas. Así, un coeficiente 4
podrá ser importante (significativo) en una situación, pero nada importante en otra situación.
Mientras más heterogénea sea la población, más fuerza existirá en la correlación.
Es necesario conocer la naturaleza del problema antes de juzgar un coeficiente de correlación.
Para establecer la significación de una correlación es necesario efectuar las pruebas de hipótesis
correspondientes.
Para efectuar un análisis inferencial de un coeficiente de correlación se requiere que ambas variables
tengan varianzas homogéneas y distribuciones normales.
La correlación entre dos variables puede observarse en una representación gráfica de los vectores
centrados asociados a las variables. En este caso la correlación está determinada por el ángulo que
forman esos vectores.
El coeficiente de correlación de Spearman:
Se aplica cuando las variables, siendo cuantitativas, son particularmente ordinales.

Al igual que el de Pearson, varía siempre entre 0 y 1.
En general se interpreta de la misma manera que el de Pearson.
No debe usarse si es más pertinente el uso del coeficiente de correlación de Pearson, ya que es menos
fiable que éste. En pocas palabras, si es posible usar Pearson, úsese Pearson.
Debe utilizarse sólo después de haber corregido por empates.
En relación a tablas de contingencia:
Hacer comparaciones entre elementos de una tabla de contingencia, sin antes tratar la información allí
contenida, puede significar comparar elementos no comparables.
Los perfiles ponderados, en línea y en columna, permiten establecer comparaciones entre elementos
comparables.
La distancia euclideana entre perfiles ponderados, o la distancia del Chi-cuadrado entre perfiles, permite
describir, sin distorsión la información contenida en una tabla.
Al comparar elementos comparables, se está haciendo una lectura correcta de la información.
Cuando se hace una representación gráfica de los elementos de una tabla de perfiles ponderados, hay
que tener en cuenta que los puntos representados está dotados de peso. Esto es, son puntos-masa.
Entonces hay que tener cuidado con las interpretaciones de las distancias observadas en esa
representación.
Una tabla de perfiles ponderados puede representarse en dos espacios de representación: uno en el que
se representan los perfiles línea, y otro en el que se representan los perfiles columna.

1. Para cada una de las variables siguientes, indica naturaleza (cualitativa o cuantitativa) y valores que puede
tomar:
a. Color de ojos de personas adultas.
b. Peso de niños al nacer
c. Número de hermanos de los estudiantes de la UCT
d. Región de procedencia de los alumnos ingreso '97 de la UCT.
e. Edad de los asistentes a un curso de capacitación
f. Origen étnico de los alumnos de una escuela rural
g. Grado de ruralidad del estudiantado universitario de Temuco.
h. Número de cursos en el colegio B.
i. Sexo de los alumnos de cada curso del colegio B.
j. Tipo de mercaderías que se vende en "negocios" de barrios.
2. Se desea investigar la relación que puede existir entre el sexo del alumno y el rendimiento del alumno en
cursos del primer ciclo de enseñanza básica. Para este caso, define las variables a considerar y los
posibles valores que cada una puede tomar.
3. Supón que el peso, en kg, de un grupo de personas, de edades similares, se ha resumido en el siguiente
cuadro:
Promedio Desviación estándar
17 kg 4 kg
a. ¿Qué se puede concluir acerca de la edad de este grupo de individuos?

b. Suponer que la distribución del peso de este grupo es aproximadamente simétrica (¿qué significa
esto?) y determinar valores extremos de la edad (¿cuáles serían estos extremos si no hubiere
simetría?). ¿Puede afirmarse algo más respecto de la mayoría de estos individuos (por ejemplo, de su
situación socio–económica)?
4. En el segundo semestre de 1993, un curso de estadística para alumnos de una carrera técnica de nuestra
universidad obtuvo las notas finales que se resumen a continuación. Se pide "hablar" del rendimiento de
ese curso.
Distribución de la Nota Final
Características de resumen de
30 Notas Finales del curso
-----------------------------------------------
Sample size (N) 50
Num missings 0
Número de alumnos
20
Minimum 2.0000
Maximum 5.8000
Std deviation 0.7936
10
Quartiles:
First quartile: 4.0000
Second quartile: 4.4000
0
2 3 4 5 6
Third quartile: 4.8250
nota_final

5. Un estudio de evaluación del impacto de un sistema de alimentación en niños de edad pre–escolar

contempló la incidencia del sexo del niño en la respuesta (en este caso, la talla, en cm). Un resumen de lo
observado es:
Sexo Promedio Desv. Típica
Femenino 69 3
Masculino 73 8
a. Referirse, por separado, a niños y niñas en relación a sus características físicas. Señalar condiciones
que deben cumplir los datos para que sean válidas tales conclusiones.
b. ¿Qué grupo de pequeños es más homogéneo en cuanto a su talla? Explicar.
c. Calcular errores estándares de cada promedio y relacionarlo con los comentarios anteriores.
6. La información resumida a continuación, en los distintos box–plot, es relativa a una serie de

características de niños de Quinto Nivel de Enseñanza Primaria en el sistema educacional de España (en
una localidad específica de la región de Cataluña). Originalmente2 la investigación estuvo dirigida a
perfilar los hábitos de lectura de estos niños. Aquí se han seleccionado aquellas variables descriptivas más
generales, y no dan cuenta exhaustiva, por tanto, de los hábitos de lectura.
Se pide hacer un análisis de esta información.
Resúmenes gráficos (Gráficos de caja) referidos a la variable Inteligencia
intver
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4
Inteligencia Verbal según Nivel Socieconómico
2
Los datos fueron proporcionados por el programa internacional PRESTA, y se enmarcan en el contexto de la tesis
doctoral de Nuria Rajadell Puiggros, Universidad de Barcelona, 1990

intnover
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4
Inteligencia No Verbal según Nivel Socieconómico
intnover
100
80
60
40
20
1 2
Inteligencia No Verbal según tipo de Escuela
intver
100
90
80
70
60
50
40
30
20
10
0
1 2
Inteligencia Verbal según tipo de Escuela

7. Una empresa dedicada a la consultoría dispone de personal para hacer visitas en terreno. Lleva un registro
diario de las distintas visitas y también de las frecuencias en las que aquellas visitas cumplieron con su
objetivo y de aquellos casos en los que no se cumplió con el objetivo. ¿Cuál es la mejor medida de
tendencia central a efectos de programar las visitas a terreno en esta empresa?
8. Producto del gran interés comercial de mercados extranjeros por la especie trucha arcoiris, su producción
y cultivo se ha masificado en los últimos años, así como también la búsqueda de eficiencia en ellos. Tal
situación ha motivado una gran cantidad de estudios y experimentos, por parte de universidades y
empresas privadas. Así en la piscicultura de Río Bueno, en la Región de los Ríos, se realizó un
experimento con el fin de evaluar la eficiencia del tipo de alimentación. Para ello se utilizaron dos jaulas,
en la primera de ellas a los individuos se les administró alimento extruido en cantidades normales (6
bolsas diarias) y en la segunda se les administró también alimento extruido pero a saciedad (10 bolsas
diarias).
La información obtenida se resume en el siguiente informe:
Gráfico de Cajas para el Peso

Trucha Arcoiris
4
3
Kilos
1
A Sa c ie d a d C a n tid a d N o r ma l
Cantidad de Alimento
Histograma para la Longitud Histograma Para la Longitud
Trucha Arcoiris Trucha Arcoiris
12 12
10
9
8
Frecuencia
Frecuencia
6 6
3
2
0 0
33 36 39 42 45 48 28 32 36 40 44 48
Alimentación A Saciedad Cantidad Normal de Alimento
Longitud (A. Normal) Longitud (A. Saciedad) Peso (A. Saciedad) Peso (A. Normal)
Mínimo 28.6 35.2 1.22 2.0
Máximo 46.1 46.5 3.35 3.12
a) Identifica claramente las variables involucradas en el experimento y su naturaleza.

b) Realiza un análisis descriptivo respecto de la longitud de los individuos en estudio.
c) Realiza un análisis descriptivo respecto del peso de los individuos en estudio.
d) Concluye respecto del tipo de alimentación más eficiente para la especie en estudio.

Capítulo 2
ESTIMACIÓN DE PARÁMETROS

1. Valorar la Inferencia Estadística como un proceso válido en la investigación científica.
2. Reconocer la importancia del proceso de estimación en la Inferencia estadística.
3. Usar, eficientemente, métodos y recursos de estimación para hacer inferencias válidas.
La Inferencia es ese proceso, científico (y más que estadístico), que permite el "tránsito" desde una muestra a
la población representada en esa muestra. De esta frase resultan importantes algunos conceptos como:
muestra, proceso y tránsito hacia la población. Lateralmente está presente, en este contexto, el problema
estadístico o de investigación. Esto último es el punto de partida de un trabajo. Un gran supuesto es que existe
algo (parcial o casi total) de esa población que se desea explorar o conocer. Es este desconocimiento de la
realidad el que justifica la investigación.
Sin embargo, no todos los aspectos de un fenómeno, en realidad, pueden ser desconocidos, ya que si ese fuere
el caso, entonces tampoco tendría sentido estudiarlo, porque no existe. De cualquier modo, ante la posibilidad
de desarrollar una investigación, existen siempre ciertos aspectos que el investigador conoce del problema.
Este conocimiento puede ser directo o indirecto. Directo, en el sentido que existe fuentes confiables de
información (anteriores) que permiten desde ya un acercamiento a ese problema. Indirecto, en el sentido que
hay conocimiento lateral acerca del problema. Por ejemplo, puede tratarse de estudiar un modelo de
comportamiento específico, pero la distribución de ese modelo no se conoce, pero se sabe cuáles podría ser
"candidatos" a modelo.
Hay que recordar, en este punto, que una población, representada por variables, llegará a ser conocida
(estadísticamente) en tanto se conozacan sus parámetros de definición. De modo entonces, que desde una
visión estadística, la investigación persigue la estimación de parámetros, sobre la base de información
empírica. Es aquí, en la condición empírica, que surge el concepto de muestreo.
El muestreo es la base fundamental de la inferencia: debe existir lo particular, para luego hacer las
generalizaciones pertinentes. El muestreo más utilizado en la investigación en campos aplicados, como el área
forestal, química, ambiental, etc., es el muestreo probabilístico. De estos muestreos, sin duda el muestreo
aleatorio simple es la base.

Por medio del muestreo se obtiene una "parte" representativa de la población, a objeto de, desde esta parte,
hacer las generalizaciones a la población que la información contenida en la muestra permita. Es fundamental,
entonces, la calidad de la muestra.
Se ha establecido que muestras aleatorias proporcionan buenos resultados en orden a hacer inferencias. Se
entiende por muestra aleatoria un conjunto de variables independientes e idénticamente distribuídas (iid). Esto
significa, en primer lugar, que una muestra es una colección de variables, digamos {X i }i =1, n ; y en segundo
lugar, que cada una de estas variables es independiente de cualquiera otra y todas tienen la misma
distribución.
En este escenario se desarrollará el proceso inferencial
Sabiendo que una población está totalmente determinada si se conocen sus parámetros de definición, resulta
una natural consecuencia, entonces, que el conocimiento de esos parámetros sea uno de los más importantes
objetivos de la investigación. El problema es que esos parámetrosno están disponibles, y habrá que obtenerlos
de algún modo, o, en su defecto, obtener estimadores de ellos. Esto último es lo que se abordará en estas notas
(y en el curso).
Hay básicamente dos formas de obtener un acercamiento a los parámetros: uno es a través de una estimación
puntual, que significa obtener un valor "estimado" de él; y otra es por medio de alguna afirmación
proposicional–probabilística del mismo. Por ejemplo, decir que el parámetro puede variar entre un valor y
otro. En el primer caso se habla de Estimación Puntual, y en el segundo de Estimación por Intervalos.
2.1. ESTIMACIÓN PUNTUAL

PUNTUAL DE PARÁMETROS
Estimación Puntual: Primeros pasos de la Inferencia
a. Métodos de estimación Puntual
Considérese una población determinada, estadísticamente, por un parámetro θ (o vector de parámetros).

Denotaremos por θˆ este estimador. Hay varias formas de obtener un estimador para un parámetro, alguas
de las cuales se muestran en lo que sigue.
• Método de momentos (Debido a Karl Pearson (1894)): Sea q( θˆ ) una función de θ que se desea
estimar. Si se tiene q( θˆ ) = h(µ1, µ2, ..., µr), entonces q (θˆ) = h( M 1 , M 2 ,K, M r ) , donde µi es el i–
1
ésimo momento poblacional (µi = E[Xi]) y Mi es el i–ésimo momento muestral ( M i = ∑
n j
X ij ).
• Método de Mínimos Cuadrados: Su objetivo es minimizar la distancia euclideana entre la función

paramétrica que se desea estimar y un referente dado. Es muy utilizado en regresión. Una de sus
características es que no requiere de supuestos distribucionales, lo que no ocurre con el método de
momentos.
• Método de Máxima Verosimilitud: Se fundamenta en la maximización de la función de

verosimilitud de la muestra. Esta función, para una muestra aleatoria {X i }i =1, n de una población con
parámetro de interés (o vector de parámetros) θ se define como L(θ ) = f ( x;θ ) = ∏ f ( x ;θ ) ,
i

donde f es la función de densidad (o de probabilidades) de la variable aleatoria; y x es un símbolo

para denotar el vector ( x1 ,K, x n )' . La solución del proceso en θˆ es el Estimador Máximo Verosímil
(EMV) de θ . La principal característica del método es que requiere del conocimiento de la
distribución de la población, el que no siempre está disponible. Además, no siempre existe un EMV.
Propiedad: Los estimadores MV poseen la propiedad de invarianza. Esto significa que si g es una
función inyectiva y si θˆ es el EMV de θ , entonces g( θˆ ) lo es de g( θ ).
b. Propiedades de los Estimadores Puntuales
Al estimar un parámetro ocurre que, con mucha frecuencia, dependiendo del método, se obtengan
distintos estimadores. El probema es entonces disponer de un criterio que permita seleccionar a uno de
esos estimadores. En este sentido puede optarse por aluno de los dos criterios dados a continuación (Error
Cuadrático Medio y Eficiencia). Sin embargo, hay otras propiedades, quizá anteriores a estos dos
criterios, que facilitan la obtención de un estimador. Son a veces llamadas propiedades deseables de los
estimadores puntuales (Insesgamiento, varianza mínima, suficiencia, etc.). Por último, puede ser
interesante examinar algunas propiedades especiales del estimador (como consistencia y eficiencia). En
base a toda esta información, y siempre en relación al problema estudiado, se deberá optar por algunos de
los estimadores.
• Error Cuadrático Medio. El ECM para un estimador θˆ se define como ECM (θˆ) = E[θˆ − ϑ ]2 .
[
Después de algunas simplificaciones, puede escribirse ECM (θˆ) = Var (θˆ) + θ − E[ϑˆ ] . La ]2
[ ]
cantidad θ − E[ϑˆ ] se llama sesgo de θˆ .
Var (θˆ1 )
• Eficiencia relativa de θˆ2 respecto de θˆ1 : .
Var (θˆ2 )
Las medidas anteriores son útiles en la comparación de estimadores. A continuación se presentan algunas
propiedades deseables de los estimadores. Propiedades que se espera posean ellos. No puede esperarse
que un estimador dado posea todas estas propiedades. De seguro, un estimador particular poseerá sólo
algunas de estas propiedades. Será función del investigador determinar, de entre una serie de estimadores,
cuál de ellos es "mejor" bajo alguno de los criterios señalados o por señalar.
A continuación se presentan algunas de estas propiedades (deseables) de los estimadores puntuales. Se

define sólo la de insesgamiento, y se dejan las otras para consulta del alumno.
• Insesgamiento. Es una de las recorridas propiedades. Casi siempre es un criterio de selección. Un

estimador θˆ de θ se dice insesgado si su sesgo es cero. Esto es, si E[θˆ] = θ .
• Consistencia, Suficiencia
• Eficiencia
Observación: Los EMV no siempre son insesgados.

Ejercicio: Obtener el EMV de la media de una distribución normal de varianza unitaria, y estudiar si es o
no insesgado.
Solución: Sea {X i }i =1,n una muestra aleatoria de una población N(µ;1). Entonces la función de
−n −1 
verosimilitud de la muestra es L( µ ) = (2π ) exp ∑ ( xi − µ ) 2  . Aplicando logaritmo natural (sólo
2
 2 
−n 1
para simplificaru poco la relación) se obtiene ln L( µ ) = ln(2π ) − ∑ ( xi − µ ) 2 . La derivada parcial
2 2
∂ ln L( µ )
de esta última expresión es ∑ ( xi − µ ) 2 . Reslviendo la ecuación = 0 , se tiene finalmente
∂µ µ = µˆ
µ̂ = x . Es decir, el EMV de la media de una población normal de varianza 1 es la media muestral.
Por otra parte, es fácil ver que E[X ] = µ , lo cual indica que el EMV en este caso, es insesgado. ♦
c. Aspectos Distribucionales de los Estimadores Puntuales
Una de las propiedades más importantes, desde el punto de vista de la Inferencia estadística, que se espera
posean los estimadores puntuales, son de tipo distribucional. Por esta razón, siempre se selecciona, de una
lista posible de estimadores, aquel que posee estas propiedades. Por ejemplo, puede ser que una
combinación lineal (distinta de la media aritmética) de las variables sea un buen estimador de la media
poblacional. Sin embargo, dado que la media muestral posee distribución normal en el límite, es tal vez
más interesante esta última como estimador que cualquiera otra combinación de variables.
Como en una gran frecuencia de casos nos enfrentaremos con medias y varianzas poblacionales (los que
además, como ya se habrá visto, son estimadores insesgados de sus respectivos parámetros), parece
razonable abordar el problema de distribución de estos estimadores.
Distribución de la Media Muestral: Como se plantea a modo de ejercicio, es fácil demostrar que, en una
población normal:
X -µ
~ Z , cuando la desviación estándar poblacional es conocida
σ/ n
X -µ
~ t n-1 , cuando la desviación estándar poblacional es desconocida.
S/ n
Teorema Central Del Límite: Este teorema es uno de los más importantes en materia
distribucional en el contexto de la inferencia. Establece que en una población con media y
varianza conocidas, y en muestras de tamaño infinito, la media muestral tiene distribución
aproximadamente normal, con una media igual a la media poblacional y una varianza igual a
σ 2 . En la práctica, el resultado se logra con muestras de tamaño supueriores a 30 o 40.
n

Distribución de la Varianza Muestral: En una población normal, no es difícil verificar que

(n − 1) S 2 ~ χ n2−1 . Notar que este estadístico no requiere del conocimiento del parámetro µ.
σ2
Teorema (De Moivre-Laplace): Si X~bin(n,p), entonces, cuando n tiende a infinito (n grande), se tiene:
pˆ - p
Z= ~ N(0,1)
Var(pˆ )
Observación: La aproximación anterior es buena ya sea que np > 5 y p ≤ 0.5, o bien n(1–p) > 5 para
p<0.5.
p(1 - p)
La relación anterior también es válida si en Var[pˆ ] = se sustituye p por su estimador.
n
pˆ - p
El estadístico Z = ~ N(0,1) se usará entonces para hacer inferencias acerca de p.
Var(pˆ )
2.2. ESTIMACIÓN POR INTERVALOS
Como se dijera oportunamente, otra forma de estimar un parámetro es mediante alguna afirmación
proposicional, que tiene una representación matemática a través de un intervalo real. Esto consiste en la
cosntrucción de un subconjunto de los números reales que se llama Intervalo de Confianza. Por ejemplo, en
lugar de decir que la media de una población normal es estimada por la media muestral, se podría decir que
ésta "oscila" entre una valor a y un valor b.
Pero, aún encontrando estos valores a y b, puede suceder que la afirmación en base a una muestra M1 sea
mucho más hacertada que en base a una muestra M2. Esta capacidad de "acertar" debe medirse, y la
herramienta que lo permite son las probabilidades. Esto es, se debe asignar (y conocer) la probabilidad con
que la media, realmente, oscila entre los valores indicados. Esta probabilidad da cuenta de la confianza de la
afirmación. Por ello es que el intervalo se llama Intervalo de Confianza. Más específicamente, si la confianza
es del orden de (1–α)100%, entonces se habla de Intervalo del (1–α)100% de confianza.
Un intervalo de confianza es, en consecuencia, una afirmación proposicional que tiene una frecuencia del (1–
α)100%. Esto significa que si se extrajeran infinitas muestras aleatorias del mismo tamaño, el (1–α)100% de
los intervalos construídos cubrirán al verdadero valor del parámetro, razón por la que, en algunos textos, se
habla de probabilidad de cubrimiento para referirse a ella. Esta probabilidad de cubrimiento se llama Nivel de
Confianza, y el valor α100% es el Nivel de Significación.
¿Cómo construir un intervalo de confianza? Hay varias formas de hacer esto. La más utilizada es la llamada
Regla del Pivote, que constiste en encontrar una cantidad, llamada pivote, que es función del estimador y del
aprámetro, y que tiene una distribución conocida (independiente del parámetro).
En una forma un tanto más práctica, se trata de encontrar dos funciones, Li (θˆ) y Ls (θˆ) de modo tal que la
probabilidad que el intervalo aleatorio cuyos lmímites inferior y superior sean Li (θˆ) y Ls (θˆ) sea igual a 1–α.
Notar que la probabilidad que el parámetro pertenezca al intervalo es 1 o 0. Por ello debe tenerse cuidado al
hacer las afirmaciones relativas a esta forma de estimación.
Observación: Notar que un intervalo de confianza se limita a parámetros reales, no a vectores de parámetros.

Se resume a continuación la construcción de un intervalo de confianza para una función g simétrica del
parámetro θˆ de una distribución.
Sean θ el parámetro de una población, y g una función paramétrica que se desea estimar. Sean, además, 1–α
el nivel de confianza, g( θˆ ) la función que estima bien a g( θ ), y D la distribución (simétrica) de g( θˆ ).
Entonces el intervalo tiene la forma ( Li (θˆ) ; Ls (θˆ) ). Al resolver las inecuaciones correspondientes (se
recomienda revisar bibliografía para una completa deducción de estas formas), se concluye que estos límites
son:
Li (θˆ) = g (θˆ) + Dα ee[ g (θˆ)] y Ls (θˆ) = g (θˆ) + D1−α ee[ g (θˆ)]
2 2
donde Dα es el percentil de orden α de la distribución D y ee[ g (θˆ)] es el error estándar de g( θˆ ).

2 2
Ejemplo 2.1: Consideremos una muestra aleatoria de tamaño n de una distribución normal, con varianza
desconocida. Entonces un intervalo de confianza para la media poblacional µ de esta población, en base e la
muestra dada, es:
 X + t 
α ;n −1ee( X ); X + t1−α ;n −1ee( X ) 
 2 2 
Notar que como la distribución t–Studente es simétrica y que el error estándar (desviación estándar) de la
media muestral es S n , eontonces el intervalo encontrado es equivalente a:
 S S 
 X − t1−α ;n−1 ; X + t1−α ;n −1 
 2 n 2 n
Supongamos ahora que, en una situación práctica, que se obtiene, en una muestra aleatoria de tamaño 36 de
una población normal, una media muestral igual 8 y una desviación estándar igual a 1.8. Entonces un
1.8 1.8
intervalo del 95 de confianza para la media poblacional es: (8 − Z 0.975 ;8 − Z 0.975 )
36 36
De la tabla normal se obtiene que Z0.975=1.96. Por lo tanto, el intervalo aproximado es (7.41;8.59). Esto
significa que, en base a estos datos, es altamente probable (95%) que la media poblacional tome valores que
van desde 7.41 a 8.59. Equivalentemente, si se muestreara infinitas veces, en las mismas condiciones, en el
95% de los casos obtendríamos intervalos de este tipo (conteniendo al parámetro). ♦
1. Obtener los estimadores por momentos de los parámetros de las siguientes distribuciones. Además, en
cada caso, estudie propiedades que posee el estimador:
a. Distribución Bernoulli.
b. Distribución de Poisson.
c. Distribución uniforme continua entre 0 y θ.
2. Encuentre y estudie propiedades de los EMV de los parámetros de:

a. La distribución Poisson.
b. La distribución Bernoulli.
c. Distribución exponencial de parámetro θ . ¿Cuál es el EVM de E( θˆ )?
d. Distribución normal.

3. Considera una población (infinita) con media µ y varianza σ². En base a una muestra aleatoria de tamaño
n de esta población, digamos {X i }i =1, n :
a. Muestra que X es un estimador insesgado de la media poblacional µ.
2
b. Muestra que Var[ X ] = σ .
n
1
c. Demuestra que S 2 =
n −1
∑ ( X i − X ) 2 es un estimador insesgado de σ².
Nota: S² no será un estimador insesgado de σ² cuando la población sea finita. Además, S
nunca será un estimador insesgado de σ.
d. Calcula la eficiencia asintótica de la mediana con respecto a la media, e interprete esa eficiencia.
πσ 2
(Sug.: en poblaciones de tamaño grande se tiene que Var[ X 0.5 ] = ).
4n
e. Demuestra que S² es un estimador consistente de σ².
4. Sea {X i }i =1, n una muestra aleatoria de una población con media µ y varianza σ². Considere los siguientes
2X1 − X 6 + X 4
estimadores de θ=µ : θˆ1 = X ; θˆ2 = .
2
a. ¿Alguno de estos estimadores es insesgado?
b. ¿Cuál estimador es el "mejor"? ¿En qué sentido es mejor?
5. Verifica que el EMV de σ² en una población normal es sesgado. Determinar la magnitud del sesgo y
relacione el hecho anterior con la forma que en este curso hemos usado para la varianza empírica
(muestral).
6. Se ha obtenido una muestra de tamaño 20, de una población cuya función de densidad de probabilidad
está dada por: f (λ ) = λ * e − λt , donde t es el tiempo, en segundos, de reacción de un catalizador sometido
a prueba. La muestra obtenida es: {6, 7, 2, 8, 3, 10, 2, 4, 3, 9, 6, 7, 5, 8, 9, 6, 3, 7, 8, 8}. Determinar el
estimador máximo verosimil del parámetro λ.
7. La reglamentación nacional ambiental respecto del tratamiento de aguas, aplicable a una planta industrial,
indica que el agua reciclada no debe, en promedio, exceder los 28.9°C antes que pueda ser lanzada al río
que corre junto a la planta. De 70 muestras de agua reciclada, se encontró que su promedio de
temperatura fue de 30.2°C. Si se sabe que la desviación estándar poblacional es de 7.5°C y usando un
nivel de confianza del 95%, ¿existe evidencia que permita concluir que la planta cumple con la
reglamentación nacional?
8. En un proceso químico se comparan dos catalizadores para verificar su efecto en el resultado de la

reacción del proceso. Se preparó una muestra de 12 procesos utilizando el catalizador 1 y una de 10
utilizando el catalizador 2. En el primer caso se obtuvo un rendimiento promedio de 85, mientras que en
el segundo caso el rendimiento promedio fue de 81. Suponiendo normalidad en las distribuciones
poblacionales y con desviaciones estándar de 4 y 5 respectivamente. Con una confianza del 96% ¿se
podría decir que ambos catalizadores presentan similares rendimientos?

Capítulo 3
HIPÓTESIS ESTADÍSTICAS

4. Reconocer la importancia de las hipótesis estadísticas en el proceso inferencial.
5. Identificar distintas componentes de una hipótesis estadística.
6. Formular, adecuada y pertinentemente, hipótesis estadísticas.
7. Construir y efectuar pruebas de hipótesis estadísticas
Hemos establecido las bases de un proceso de inferencia a partir de observaciones obtenidas de una población
normal, básicamente. En forma específica, hemos establecido los mecanismos de la inferencia en relación a
medias y varianzas poblacionales. La construcción de un intervalo de confianza es tal vez una de estas
técnicas que mayor aceptación pudiera tener. Sin embargo no siempre estamos interesados en estimar de esta
forma un determinado parámetro, sino que quisiéramos saber si, por ejemplo, los datos sustentan o no cierta
afirmación en relación a tal parámetro. Por ejemplo, supongamos que una organización independiente desea
saber si, en realidad, el precio del pan ha subido o no durante los últimos seis meses. Tal vez la construcción
de un intervalo de confianza para el valor promedio del pan podría ayudar a la solución del problema, pero
existe otra forma más eficiente y quizá menos complicada de hacerlo. Es por medio de lo que se conoce como
Prueba de Hipótesis.
3.1. CONCEPTOS PRELIMINARES
¿Qué es una hipótesis estadística?
Podemos decir que una hipótesis estadística es una proposición, formulada en términos de parámetros.
Recordemos que, desde un punto de vista de la lógica (Aristotélica), una proposición es una expresión del
lenguaje a la que se le pueden asignar sólo uno de dos posibles "valores de verdad": Verdadero o Falso. Esto
es precisamente lo que corresponde a una hipótesis estadística: Una afirmación acerca de los parámetros de
una población, como por ejemplo el caso del precio del pan citado más arriba.
Ejemplo 3.1: Supongamos que nuestro interés es el promedio de una población normalmente distribuída.
Entonces, si suponemos que X es la variable en estudio, lo que tenemos es X~N(µ;σ²). Específicamente,
supongamos que deseamos saber o inquirir si µ=µ0. Entonces ésta es nuestra hipótesis, que podemos
simbolizar como H0: µ=µ0. ♦
Es lógico pensar que, frente a una hipótesis como la anterior exista otra hipótesis, a modo de "contraparte", en
que se afirma lo contrario o se niega lo que establece la primera. Si denotamos esta "contraparte" por Ha,
entonces, para H0: µ=µ0, Ha podría expresarse como Ha: µ≠µ0, o bien como Ha: µ<µ0, o tal vez como Ha:
µ>µ0. Cualquiera sea esta "contraparte", se llama hipótesis alternativa, y H0 es la hipótesis nula.
Si una hipótesis se expresa en términos de igualdad, como aquí es H0, ésta se llama a su vez hipótesis sencilla
o simple. La hipótesis expresada como Ha: µ<µ0 es una hipótesis unilateral (a izquierda), la expresada por Ha:
µ>µ0 es una hipótesis unilateral (a derecha), y la hipótesis Ha: µ≠µ0 es bilateral. En este curso las hipótesis
nula serán siempre sencilas.

¿Qué es una prueba de hipótesis? Componentes básicas
En el proceso inferencial con base en hipótesis estadísticas, el objetivo central es contrastar las hipótesis nula
y alternativa. Esto es lo que se conoce con el nombre de Prueba de Hipótesis. Una prueba de hipótesis es un
procedimiento que permite establecer si la hipótesis nula es una afirmación razonable (y por tanto no debiera
rechazarse), o no lo es (y debiera rechazarse). Los elementos que permiten determinar lo razonable o no de la
hipótesis son la evidencia muestral y la teoría de las probabilidades, especialmente la ralativa a distribuciones
de probabilidades. El procedimiento de prueba, llamado también test de hipótesis, empieza con la formulación
de las hipótesis nula y alternativa, reconociendo además el tipo de hipótesis (Test Unilateral o Test Bilateral),
lo que es determinado por la hipótesis alternativa (no olvidemos que la hipótesis nula será siempre del tipo
simple). Como una prueba de hipótesis es en sí un procedimiento de inferencia estadística, entonces debemos
identificar el estadístico que permite o facilita la inferencia. Por ejemplo, si la hipótesis se formula en
términos de medias poblacionales (la inferencia es acerca de medias poblacionales), entonces los posibles
estadísticos a utilizar serán el estadístico normal estándar o la t-Student, dependiendo, respectivamente, de si
son o no conocidas las varianzas poblacionales. El estadístico a utilizar es llamado Estadístico de Prueba,
debido a su finalidad. Un paso siguiente es establecer (decidir subjetivamente) el Nivel de Significación que
tendrá el test, digamos α. Este nivel de significación corresponde a la probabilidad de rechazar una hipótesis
verdadera, y se le conoce también como Probabilidad de Error de Tipo I (Algunos autores utilizan, en lugar
del nivel de significación, el nivel de confianza, 1–α).
Se espera que el nivel de significación sea lo menor

posible, dentro de lo razonable. Por ejemplo, niveles
de significación mayores al 10% (confianza menor
del 90%) son "poco creíbles", mientras que niveles
de significación inferiores al 1% son "menos
precisos". El nivel de significación conjuntamente
con la distribución del Estadístico de Prueba,
determinan uno o dos valores fractiles, dependiendo
del tipo de test (un valor fractil si el test es unilate-
ral; dos, si es bilateral), los que a su vez determinan
un conjunto de valores distribucionales que fijan
teóricamente lo que se puede considerar razonable o
no para rechazar una hipótesis nula. Este conjunto
de valores distribucionales se llama Región Crítica,
y lo denotaremos por Rc. La figura (a) anterior
muestra la forma de la región crítica para un test
bilateral. Por su parte, las figuras (b) y (c) siguientes
ilustran la forma de la región crítica para un test
unilateral a izquierda, y unilateral a derecha,
respectivamente.
Ejemplo 3.2: Supongamos que estamos interesados en probar la hipótesis nula H0: µ1=µ2 versus la alternativa
Ha: µ1≠µ2, en las poblaciones X1~N(µ1; σ1) y X2~N(µ2;σ2), ambas independientes. Para la prueba se extraen
sendas muestras aleatorias de tamaños n1 y n2, respectivamente. Si fijamos 1–α=0.95 y suponemos
desconocidas las varianzas, pero homogéneas, entonces, como el test es bilateral y la distribución del esta-
dístico de prueba es t-Student, con n1+n2–2 g.l., tenemos dos fractiles, dados por las cantidades ±t1-α/2;n1+n2-2
=±t0.975;n1+n2-2 y la región crítica tendrá la forma de la figura (b). En el caso que n1=23 y n2=18, n1+n2–2=40
grados de libertad, por lo tanto t1-α/2;n1+n2-2 = 2.021. La región crítica en este caso estará constituída por todos
los valores del estadístico de prueba que son o inferiores a -2.021 o superiores a 2.021. ♦

Regla de decisión
El problema que sigue por resolver, es cómo utilizar la evidencia muestral (información empírica) para
decidir si rechazar o no la hipótesis nula. El principio en el que se sustenta una prueba de hipótesis es que La
hipótesis nula es siempre verdadera, mientras no se pruebe lo contrario. Con este principio en cuenta, el valor
del estadístico de prueba, bajo H0, determinará si la evidencia que él resume es suficiente para apoyar el
rechazo de H0 o no. Si este valor pertenece a la región crítica, parece lógico que debiera rechazarse la
hipótesis nula. Por lo tanto ésta es la Regla de Decisión: Si, bajo la hipótesis nula, el valor del Estadístico de
Prueba pertenece a la Región Crítica, entonces rechazar la hipótesis nula en favor de la alternativa; caso
contrario, reservar el juicio (aunque en muchos textos se habla de aceptar la hipótesis).
Errores asociados a una prueba de hipotesis
Cuando se decide rechazar una hipótesis, esta decisión se toma en base a una muestra aleatoria extraída de la
población en estudio. Por tratarse de un proceso no excento de errores, de diverso tipo, puede ocurrir que
erróneamente hayamos llegado a tal conclusión, en cuyo caso estaremos rechazando una hipótesis verdadera.
Por otro lado, si no se rechaza una hipótesis, es porque el proceso no pudo detectar (o no había) evidencia en
su contra, pero no estamos seguros de si verdaderamente estamos frente a una hipótesis verdadera. Estos son,
pués, los dos tipos de errores más frecuentes en un proceso de prueba de hipótesis: Rechazar una hipótesis
Verdadera y No Rechazar una Hipótesis Falsa. El primero es lo que llamamos Error Tipo I, y el segundo
corresponde a lo que se llama Error Tipo II. Cada una de estas acciones tiene una probabilidad. Se acostumbra
denotar por α la probabilidad de Error Tipo I y por β la probabilidad de Error Tipo II (Nótese la semejanza
con un proceso judicial, y evalúese la gravedad de uno y otro tipo de error).
En el diagrama 1 se resume el proceso de inferencia basado en una prueba de hipótesis, y en el diagrama 2 se

presentan las consecuencias de una y otra decisión, en relación al rechazo o no rechazo de una hipótesis.
Diagrama 1: Sugerencia de pasos a seguir en una prueba de hipótesis
Formular
Paso 1 las hipótesis
nula y alternativas
Identificar
Paso 2 el Estadístico
de Prueba
Paso 3 Seleccionar
Nivel de Confianza
o de Significación
Paso 4 Determinar
la Región Crítica
Paso 5 Tomar una decisión

Diagrama 2: Estados de la Naturaleza y consecuencias de acciones en una prueba de hipótesis
Estados de la Naturaleza
Decisión H0 Verdadera H0 Falsa
Rechazar H0 Error Tipo I Acción Correcta
α 1–β
No Rechazar H0 Acción Correcta Error Tipo II
1–α β
3. 2. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES

POBLACIONES NORMALES
El procedimiento general de prueba de una hipótesis fue presentado en la sección anterior, por lo que no es
necesario insistir en sus aspectos teórico–formales tratándose de determinadas pruebas, como lo son las
pruebas asociadas a aparámetro de una distribución conocida. Lo único que debe preocupar, en ese contexto,
es la construcción de los estadísticos correspondientes y de los demás elementos de la prueba. Por tal razón,
en esta sección se presentan algunos ejemplos que ilustran el uso de los respectivos procedimientos para
algunos parámetros.
Ejemplo 3.3: Se está sometiendo a prueba el rendimiento de un nuevo modelo de automóvil. Para ello se
eligen aleatoriamente cinco autos del proceso de producción, y se someten a un recorrido de 30 mil kilóme-
tros, obteniendo los siguientes rendimentos, en km/lts: 13.8, 14.6, 13,9, 14.5 y 14.2. La empresa fabricante
asegura que el rendimiento esperado de este modelo es de 14.7 km/lts. ¿Costituyen estos datos evidencia
sustancial en contra de la afirmación del fabricante?
Solución: Si representamos por X: Rendimiento del automóvil, entonces puede suponerse que X~N(µ;σ), y el
problema anterior se puede reformular en términos de hipótesis como H0: µ=14.7 vs Ha: µ<14.7, ya que en
verdad lo que el fabricante afirma es que su auto "rinde al menos 14.7 km/lts". Como se está haciendo
inferencia acerca de una media poblacional, y s es desconocida, entonces el estadístico de prueba es
X -µ
~ t n -1 .
S/ n
Notemos también que el test es bilateral a izquierda, así que, si fijamos 1–α=0.95, entonces el valor crítico es
tα/2;n-1=t0.05;4=-2.132. Por su parte, el valor del estadístico de prueba, supuesto H0 verdadera, es tc=(14.2–
14.7)/(0.35/2.24)=–3.19. Como este valor pertenece a la región crítica, entonces la decisión es rechazar la
hipótesis nula. Esto es, rechazamos la afirmación del fabricante, con un 95% de confianza. Observemos que si
1–α=0.90, entonces la evidencia contenida en los datos no permitiría rechazar la hipótesis H0. ♦
Ejemplo 3.4: Una empresa inmobiliaria tiene que construir una gran cantidad de edificios, de alta calidad. El
proceso de fiscalización será en extremo riguroso, por lo que la empresa ha de seleccionar de la mejor forma
la calidad de los insumos. Por ejemplo, para la adquisición de bloques de cemento ha seleccionado a dos
compañías fabricantes de este tipo de bloques, A y B, que le merecen confianza y seguridad. La compañía
fabricante que se adjudique la propuesta será aquella cuyos bloques muestren, en promedio, la mayor
resistencia en libras por pulgada cuadrada (psi). En el caso de resistencias iguales, se optará por comprar la
mitad de lo requerido a una empresa y la mitad a la otra. Para el efecto, se le solicitó a cada compañía una
muestra (aleatoria) de bloques. La Compañía A envió 81 bloques, los que arrojaron una media de 1070 psi y
una desviación típica de 63 psi. La Compañía B envió 64 bloques, los que proporcionaron una media de 1020
psi y una desviación estándar de 57 psi.

Solución: Sea X1: Resistencia de los bloques provenientes de A; X2: Resistencia de los bloques provenientes
de B. Suponiendo que la resistencia es una variable que se distribuye normal, y que la producción de las
compañías es independiente una de otra, el problema se puede reducir al contraste de las hipótesis H0:µ1=µ2
vs Ha: µ1≠µ2, donde µ1 y µ2 son las medias poblacionales de X1 y X2, respectivamente. Entonces el estadístico
( X 1 - X 2 ) - ( µ1 - µ 2 )
de prueba es ~ t n1+n 2- 2 el que, en consideración de los tamaños de muestra y en virtud
1 1
Sp +
n1 n2
del Teorema del Límite Central, puede aproximarse por una normal estándar.
Un problema puede tener el análisis anterior: la distribución de este estadístico es la indicada siempre que las
varianzas sean homogéneas. Por lo tanto, supuesto poblaciones normales e independientes, se debe verificar
(y ates de cualquier otro análisis), la homogeneidad de varianzas poblacionales. En efecto, el estadístico
S12
σ 12
utilizado para este propósito es F = que tiene distribución F con n1–1 g.l. en el numerador y n2–1g.l.
S 22
σ 22
en el denominador. En el caso analizado, haciendo 1–α=0.95, entonces tenemos que F1–α;80,63=F0.95;80,63=1.50.
Ahora, como fc=1.22, entonces no se rechaza la hipótesis de igualdad de varianzas, por lo que podemos
continuar con el análisis de las dos medias poblacionales. Si hacemos 1–α=0.95, entonces, con 81+64-2=143
g.l., los valores críticos, aproximados, son ±1.978 (notar que la prueba es bilateral), y la evidencia muestral se
resume en tc=4.95 (si se hubiese utilizado aproximación normal, esta valor habría cambiado a 5.01). Como
este valor pertenece a la región crítica, entonces se rechaza la hipótesis, lo que es equivalente a establecer, con
un 95% de confianza, que la resistencia promedio de los bloques no es la misma. La empresa contratista
deberá, entonces, seleccionar sólo un abastecedor (¿Cuál?). ♦
3.3.
3. 3. INFERENCIAS RESPECTO DE PROPORCIONES
Caso de Una Proporción
En muchas situaciones prácticas puede ser de interés referirse a una caracterírtica particular de la población,
en términos de proporción o porcentaje. Por ejemplo, puede ser de interés estimar la porporción de
agricultores cuya actividad agrícola principal es la ganadería. En este caso la variable de interés no es
continua, y más bien representa una característica (atributo) que un valor numérico.
Sea una población Bernoulli de parámetro p, de la cual se extrae una muestra aleatoria de tamaño n, y sea X
la variable Número de éxitosen los n ensayos. Entonces esta variable tiene distribución binomial. Su función
de probabilidades es de la forma
n
p(x|n,p) =   px(1–p)n–x
 x
para x=0,1,...n, y 0<p<1.
X
El estimador del parámetro p puede demostrarse que es p̂ = .
n
Ejemplo 3.5: Imaginemos una población de la que deseamos estimar la proporción de familias que cultivan
maíz. Si se selcciona una m.a. de tamaño 40 familias de esta población y se encuentra que 26 de ellas cultivan
maíz, entonces la proporción estimada de personas que cultivan maíz es 26/40 = 0.65 = 65%.

X 1 1 pq p(1 - p)
Notemos que en p̂ = , X~bin(n,p), por lo que E[pˆ ] = np = p y Var[pˆ ] = 2 npq = = .
n n n n n
pˆ - p
El Teorema De Moivre-Laplace permite establecer que Z = ~ N(0,1) , con lo que este estadístico
Var(pˆ )
se deberá usar para hacer inferencias acerca de p. En particular, un intervalo de confianza del (1-a)100% para
pˆ (1 - pˆ )
p está dado por pˆ ± z1-α/2 . ♦
n
Ejemplo 3.6: Un congresista desea estimar su popularidad en cierto sector de la población. Especifica que la
proporción de electores que lo apoyarán debe calcularse dentro de ±2% de la proporción de la población y con
una confianza del 95%. En las elecciones pasadas recibió el 40% de los votos de este sector, y duda que esto
haya sufrido cambios sustanciales. ¿A cuántos electores habrá que encuestar?
Solución: Como se sabe, el error máximo permisible está dado por la desviación del estimador respecto del
parámetro. Específicamente, para el caso de estimación de proporciones, éste corresponde a la expresión:
pˆ (1 - pˆ )
e = ± z 1-α/2 e.e(pˆ ) = ± z 1-α/2
n
donde e.e.( p̂ ) es el error estándar de p̂ .
2
z
Si de esta relación se despeja n, encontramos que n = pˆ (1 - pˆ )( )
e
Como 1–α=0.95, entonces z1–α/2=z0.975=1.96, y ya que el estimador de p es 0.40, al sustituir estos valores en la
fórmula para n, obtenemos que el mínimo de encuestas a aplicar, con los requerimientos dados, es n>2304.95,
ó n=2305. ♦
Ejemplo 3.7: Se cree que el 55% de los estudiantes de la UCT son de fuera de Temuco. Se encuesta a 400
estudiantes de los cuales 228 resultan ser de fuera de Temuco. ¿Apoyan estos datos la creencia inicial?
Solución: Este es un problema de pruebas de hipótesis. Las hipótesis correspondientes son H0:p=0.55 vs
Ha:p≠0.55.
pˆ - p
El estadístico de prueba es Z = , que como hemos establecido, tiene distribución N(0,1). Si
p(1 - p)/n
α=0.05, entonces z1–α/2=z0.975=1.96, y por tratarse de un test bilateral, los valores críticos son -1.96 y 1.96. El
valor del estadístico de prueba, supuesto verdadera la hipótesis nula, es zc=0.804 ∉Rc. Por lo tanto, no existe
evidencia suficiente como para asegurar que el porcentaje de estudiantes de la UCT que no son de Temuco es
distinto del 55%. ♦
Ejemplo 3.8: Supóngase quue 1600 de 2000 electores que se han muestreado dijeron que planean votar por el
candidato A. Si el nivel de confianza es 1–α=0.95, entoncs un intervalo de confianza para la proporción de
personas que votarían por A en esta población es (0.782;0.818) (Nótese que n es grande). Esto es, entre un
78.2% y un 81.8% de los votantes votaría por el candidato A.
Si el tamaño poblacional es 200 mil electores, por ejemplo, entonces el total de personas que votarían por A
oscila entre 156400 y 163600. ♦

Caso de dos proporciones: diferencia
Sean X1~bin(n1,p1) y X2~bin(n2,p2) dos poblaciones binomiales independientes. Entonces se puede demostrar
que el estadístico que permite hacer inferencias acerca de la diferencia p1–p2 está dado por:
pˆ 1 - pˆ 2 X + X2
Z= ~ N(0,1) , donde pˆ c = 1 .
pˆ c(1 - pˆ c ) pˆ c (1 - pˆ c ) n1 + n2
+
n1 n2
Ejemplo 3.9: En laboratorios del departamento de acuicultura, se realiza un experimento para evaluar el
porcentaje de ovas fecundadas, usando un control de semen almacenado durante tres días (CSA3) y un control
de semen almacenado durante seis días (CSA6). Tras hacer dichas mediciones se obtuvieron los siguientes
resultados: de las 35 ovas en estudio, 25 de ellas fueron fecundadas usando CSA3; mientras que al usar
CSA6 resultaron fecundadas 28. Pruebe, con un nivel de significación del 4%, cuál de los dos períodos de
almacenamiento permite fecundar una mayor cantidad de ovas.
Solución.
A través de una prueba de hipótesis para la diferencia de proporciones, podemos dar respuesta a esta
interrogante, sabiendo que en el primer tratamiento la proporción estimada es de 0.71 mientras que en el
segundo tratamiento la proporción estimada es de 0.8.
Las hipótesis correspondientes serán: H 0 : p1 = p2 v/s H1 : p1 < p2 , basadas en la evidencia muestral
entregada.
pˆ1 − pˆ 2
El estadístico de prueba será: Z = cuya distribución ya discutida es N(0,1) y su valor de
p (1 − p )( n11 + 1
n2
)
zc = – 0.88. Si α = 0.05, y teniendo claro que la hipótesis alternativa es unilateral (una cola), siendo de interés
la cola izquierda, entonces zα = 0.05 = -1.65. Siendo el valor del estadístico de prueba – 0.88, supuesta
verdadera la hipótesis nula, el cual ∉ a la región crítica. Por tanto, no existe evidencia suficiente para asegurar
que la proporción de ovas fecundadas es sustancialmente menor usando el método CSA3.
3.4. MUESTRAS PAREADAS
Hemos presentado en las secciones anteriores los elementos más fundamentales de un proceso de Prueba de
Hipótesis, como una forma de hacer inferencia acerca de parámetros de una población. En particular se
presentaron situaciones en las que la inferencia comprometía a dos poblaciones. En estos casos era necesario
hacer ciertas verificaciones acerca de la población. Por ejemplo, se supuso que las muestras (poblaciones)
debían ser independientes, estar normalmente distribuídas y tener varianzas homogéneas. Una vez verificado
o justificado estos supuestos, sólo entonces corresponde continuar el proceso de inferencia acerca de medias
poblacionales, particularmente acerca de µ1–µ2.
La verificación de los supuestos de independencia y normalidad no es posible efectuarla aún, por lo que se
postpondrá para más adelante. Sin embargo, algunas veces no es posible disponer de muestras independientes,
ya que el problema así lo establece. Por ejemplo, supongamos que deseamos estimar la eficacia de un
programa de adiestramiento laboral, al interior de una determinada empresa. Los analistas proponen dos
formas de evaluación: Una consiste en seleccionar u grupo aleatorio de trabajadores y aplicarles un test de
rendimiento antes de aplicar el programa de adiestramiento; y luego, después de aplicado el adiestramiento,
seleccionar al azar otro grupo y aplicarles el test de rendimiento. El otro plan consiste en aplicar el test de

rendimiento al mismo grupo, antes y después del adiestramiento. Cada uno de estos diseños tiene sus ventajas
y desventajas, y en cualquier caso las hipótesis a contrastar se reducen a H0: µ1–µ2=0 vs Ha: 1–µ2≠0. Pero
supongamos que se selecciona el segundo. Entonces es claro que las muestras (grupos) aquí no son
independientes, pués la persona a quien se aplica el pre y post test, es la misma. Por consiguiente nuestras
observaciones son más bien pares de observaciones, hechas sobre el mismo sujeto. Por esta razón se habla
comúnmente de muestras pareadas. Frente a esta situación se debe buscar un procedimiento que resuma en la
mejor forma la evidencia en cotra de la hipótesis nula, esto es, debemos definir o determinar el estadístico de
prueba adecuado para el análisis de muestras como éstas.
El análisis en base a muestras pareadas es aconsejable cuando se tienen estudios que comprendan sujetos o
individuos similares genéticamente, por no decir el mismo individuo, como por ejemplo crías de la misma
camada, plantas del mismo semillero-fruta, etc. Es más, frente a una situación en la que es evidente parear las
muestras, éstas se deben parear.
Sean X1 y X2 dos variables aleatorias, distribuídas normalmente y con varianzas homogéneas. Definamos la
variable D={X1i–X2i; X1i ∈X1 , X2i ∈X2}, variable aleatoria que consiste de todas las diferencias entre los e-
lementos de los pares ordenados respectivos. Una deducción formal de la características de forma y escala de
D está lejos de los objetivos de este curso, por lo que sólo nos limitaremos al uso de los estadísticos
muestrales de D, a partir de una muestra aleatoria de tamaño n. Específicamente, se definen los estadísticos
2
∑ d -n D2
1 i
D = ∑d i y S D = , la media y la desviación estándar de D, respectivamente, donde di es la i-
n n-1
ésima observación de D, para i=1,...,n. Entonces el estadístico a utilizar en el proceso de inferencia acerca de
µ1–µ2 será
D - ( µ1 - µ 2 )
T= _ t n -1
sd / n
que cuando n tiende a infinito (o mejor dicho, es grande) puede aproximarse a una normal estándar.
Ejemplo 3.10: Supongamos que en el ejemplo acerca del plan de adiestramiento, que sirvió de motivación
para esta sección, se seleccionó aleatoriamente un grupo de 10 trabajadores para realizar la experiencia. El
índice de eficiencia, antes y después de aplicado el plan de capacitación laboral, se muestra en la tabla
siguiente, junto con la diferencia D:
Indice de Eficiencia Diferencia

Trabajador D
N1 Antes Después
1 128 135 7
2 105 110 5
3 119 131 12
4 140 142 2
5 98 105 7
6 123 130 7
7 127 131 4
8 115 110 -5
9 122 125 3
10 145 149 4

Lo que se pretende evaluar aquí es si el programa de capacitación produjo algún efecto diferencial en la
eficiencia de los trabajadores, lo que se puede expresar por medio de las hipótesis H0:µ1-µ2=0 vs Ha: µ1-µ2>0.
A partir de los datos se obtiene d = 4.60 y s d = 4.40 , y el valor del estadístico de prueba, bajo la hipótesis
nula, es tc=3.30. Si ahora α=0.05, entonces el valor crítico para esta prueba corresponde a t1-α;n-1=t0.95;9=1.833.
Como la evidencia empírica, dada por tc=3.30, está en la región crítica, entonces se debe rechazar la hipótesis
de efecto nulo de la capacitación, en favor de la alternativa. Esto es, existe razón estadísticamente suficiente,
al 5% de significación, como para asegurar que el programa de capacitación produjo un efecto diferencial en
la eficiencia de los trabajadores. ♦
3.5. PRUEBAS DE BONDAD DE AJUSTE
La mayoría de los procesos inferenciales antes vistos requieren, entre otros supuestos, el de normalidad. Un
análisis que sobrepase consideraciones de tipo intuitivo o experiencial, y que se extiende más allá de la
normalidad, puede expresarse como un conjunto de hipótesis del tipo:
Ho: Los datos se ajustan a una distribución específica

Ha: Los datos no siguen la distribución especificada
Bajo esta perspectiva, el análisis de cualquier supuesto distribucional, en particular el de normalidad,

corresponde a un contraste de hipótesis. Más general aún, frente a un conjunto de obser-vaciones el problema
de bondad de ajuste es establecer (o determinar) cuán bien se ajustan las observaciones a una distribución
específica.
Sea FX la distribución de los datos X y sea Fo la distribución del modelo propuesto, la que generalmente es
sugerida por los datos. Entonces la pregunta inicial es equivalente a la hipótesis:
H 0 : Fx (x) = F0 (x)
Y la hipótesis alternativa es, en consecuencia,
Ha : Fx (x) ≠ Fo (x)
Un test de bondad de ajuste debe consistir entonces en un procedimiento que evalúe estadís-ticamente el
grado de concordancia (o disimilaridad) entre lo observado y el modelo sugerido o propuesto. En lo que sigue
se presentan dos de estos tests, ambos de naturaleza no paramétrica, es decir, en base a estadísticas sin una
distrubución de probabilidades conocida.
Dos tests de bondad de ajuste
Como ya se dijera, un test de bondad de ajuste debe evaluar estadísticamente el grado de concordancia o de
discordancia entre la distribución de los datos y la distribución propuesta. Como es sabido, en la gran mayoría
de los test, una medida de dispersión adecuada permite esta evaluación. Específicamente, una medida
promedio de la dispersión entre lo observado y lo que se espera bajo la distribución propuesta, resume bien
este grado de concordancia.
Un desarrollo de esta forma de procedimiento, bajo condiciones especiales sobre los datos, se presenta más
detalladamente a continuación.

a. Prueba Chi-Cuadrado de bondad de ajuste
Esta prueba se aplica cuando se tiene un conjunto de observaciones discretizadas. Por lo tanto, la dimensión
de tal conjunto debe ser lo suficientemente grande como para asegurar una discretización aceptable. Debe
notarse que la variable en estudio puede ser discreta o continua.
Sea C un conjunto finito de atributos o características y {C i }i = 1, k una partición de C. Sea, además, Xi : N°

de elementos de C que pertenece a Ci. Entonces
Xi ~ bin (n (C ); P (x ∈ Ci) )
Si n (C) = n → ∞, entonces Xi – npi mide la distancia (dirigida) entre los datos y lo que se observaría,
conocida la probabilidad de que una observación pertenezca a la clase i. Una medida estandarizada asociada a
X i − npi
esta distancia es ∼ N (0,1), donde pi = P (x ∈ Ci ) = 1 – qi.
npi qi
| X i − npi |
Una medida absoluta de esta distancia estandarizada es, en consecuencia, . Esta estadística podría
npi qi
servir para llevar a cabo el contraste de Ho vs Ha , si se conociera su distribución. El problema surge cuando
tenemos más de una observación, en cuyo caso se debería encontrar una función que resuma de mejor manera
X i − npi X i − npi
los datos. Pero como ∼ N (0,1), entonces ∼ X (21)
npi qi npi qi
K
( X i − npi ) 2
Teorema: Bajo los supuestos anteriores, ∑
i =1 np
∼ X 2k −1
i
Demostración: Para k = 2:
( X i − np1 ) 2 2
∼X (1) . Nótese que p1+p2 = 1 y X1 +X2 = n . Así, q1 = p2.
np1 q1
Por lo tanto,
( X 1 − np1 ) 2 ( X 2 − np 2 ) 2 ( X 1 − np1 ) 2 ((n − X 1 ) − n(1 − p1 )) 2

+ +
np1 np 2 np1 np 2
=
= ( X 1 − np1 ) 2 ( X 1 − np1 ) 2
+
np1 np 2
=  1 1 
(X1-np1)2  + 
 np1 np 2 
= ( X 1 − np1 ) 2
∼ X (21)
np1 q1

De lo anterior, para el contraste de
Ho :Los datos se ajustan a una distribución específica

Ha : Los datos no siguen la distribución especificada
sólo es necesario la construcción del estadístico chi-cuadrado y seguir los habituales procedimientos de
decisión.
Notación: Si Ni = Xi , es costumbre llamar a Ni lo observado y a npi lo esperado.
Ni = fobs
Xi = fesp
Obervación: Es importante cautelar que npi > 5 . Se ha probado que n = 5 k proporciona buenos resultados,
en caso de datos continuos.
Ejemplo 3.11. Se sospecha que la población de cierta especie salmonídea se encuentra igualmente distribuída
en sus cuatro variedades, esto es, el número de individuos por variedad tiene distribución uniforme. Para
evaluar estadísticamente la sospecha se selecciona una muestra aleatoria que arrojó lo siguiente:
Variedad 1 2 3 4
N° individuos 30 24 32 20
Sea Xi : n° de elementos de la muestra que pertenecen a la clase i.
Entonces X i ∼ bin (n , pi ), y la sospecha fundamental es equivalente a
Ho : p1 = p2 = p3 = p4 = 0.25 vs Ha : pi ≠ 0.25 para algún i.
o más abreviadamente, Ho : pi = 0.25 vs Ha : pi ≠ 0.25, ∀ i.
(30 − 26.5) 2 (20 − 26.5) 2

Como n = 106 , entonces bajoHo , npi = 26.5 y X 2H o = + ...... + = 3.43 ∼ X 32
26.5 26.5
Por lo tanto, si α = 0.05 , entonces X 02.95;3 = 7.82
Facultad de Ciencias Dpto. de Matemática y Computación

Área Estadística
Como X 2
Ho = 3.43 ∉ Rc , entonces no hay evidencia en contra de una distribución uniforme de la especie en
sus cuatro variedades. ♦
Ejemplo 3.12. Se prueban 300 ampolletas para analizar sus tiempos de vida T (en horas). Se postula que
T ∼ ε (θ = 200).

Los datos se muestran en la siguiente tabla:
T frec
C1 (0,100] 121
C2 [100,200) 78
C3 [200,300) 43
C4 [300, ∞ ) 58
1 t
– – 0.005t
Aquí f (t) = o = 0.005e , t > 0 . Por lo tanto
0
71 = P [ 0 < T < 100 ] = ∫ 100
0 0.005e
– 0.005t
dt= 0.39 y np1 = 117
Del mismo modo,
P2 = 0.24 np 2 = 72
P3 = 0.15 np 3 = 45
P4 = 0.22 np 4 = 66
2
Ahora X Ho = 17 y nuevamente X 02.95;3 = 7.82.
Facultad de Ciencias Dpto. de Matemática y Computación

Área Estadística
Por tanto, puede asegurarse que el tiempo de vida de las ampolletas se distribuye exponencialmente. ♦
b. Test De Kolmogorov-Smirnov o de Lilliefors
La aplicación del test chi-cuadrado para daterminar estadísticamente el grado de "concordancia" entre la
distribución de los datos y una distribución específica, requiere de una cantidad suficiente de observaciones
como para obtener una clasificación de los mismos lo más racional posible. Sin embargo, no siempre es
posible contar con la cantidad suficiente de observaciones, por lo que se hace necesaria una forma alternativa
de resolver el problema de bondad de ajuste. Una alternativa se basa en la conocida Estadística de
Kolmogorov-Smirnov, también llamada prueba de Lilliefors, apropiada cuando el tamaño de muestra es
pequeño y los datos son de naturaleza continua.
El procedimiento requiere de los estadísticos de orden, es decir, del conjunto ordenado de las observaciones
(en forma ascendente) y de la distribución empírica. Para una muestra de tamaño n con observaciones o
realizaciones X1 , X2 , ..., Xn , los estadísticos de orden se denotan por X(1) , X(2) , .... X(n) y la distribución
empírica corresponde a:
0 x < x(1)
 k
Sn (x) =  x(k ) ≤ x < x( k +1)
n
 1 x ≥ x( k +1)

La estadística de Kolmogorov-Smirnov, o KS, consiste de los valores siguientes:
i 
D +n = Máx  − Fo ( x( i ) )1 ≤ i ≤ n
n 
−  i − 1
D n = Máx  Fo ( x ( i ) ) − 1 ≤ i ≤ n
 n 
Dn = Máx {Dn− ; Dn+ }
−
donde D +n es la máxima cantidad en la que la distribución empírica excede a la distribución ajustada; y D n
es la máxima cantidad en la que Sn subestima la distribución Fo (x ) acumulada propuesta. Esta última
distribución, al igual que en el caso del test chi-cuadrado, es sugerida por los datos.
Una forma simple de la estadística es Dn = Máx \ Sn (x) – Fo (x )|
En estas condiciones el test es unilateral a derecha, y los valores críticos se observan en tabla o se obtienen a
partir de software.
Ejemplo 3.13. Después de una psicoterapia de modificación de la conducta, se aplica un test a un grupo de
estos individuos para establecer la evolución de la conducta. Los individuos son clasificados en dos grupos:
los que mejoraron y los que no mejoraron. Los puntajes de 10 individuos que no mejoraron su conducta
fueron:
Sujeto 1 2 3 4 5 6 7 8 9 10
Puntaje 6.6 5.8 5.4 5.1 5.0 4.3 3.9 3.3 2.4 1.7
La naturaleza de los datos hace pensar que X ~ N (4.35 ; 1.542) . La tabla con los valores de X(i) , la
distribución empírica Sn (x) , Fo (x ) y | Sn – Fo | se muestra a continuación:
X (i ) Sn (x) Fo (x ) | Sn – F o |
1.7 0.1 0.0427 0.06
2.4 0.2 0.1020 0.10
3.3 0.3 0.2483 0.05
3.9 0.4 0.3859 0.01
4.3 0.5 0.4880 0.01
5.0 0.6 0.6628 0.06
5.1 0.7 0.6879 0.01
5.4 0.8 0.7517 0.05
5.8 0.9 0.8264 0.07
6.6 1 0.9279 0.07
D 10 = 0.10 ; 1– α = 0.95 y D 10 ;0.95 = 0.41 (ver Tabla J de Canavos, G.: Probabilidad y Estadística.
Aplicaciones y Métodos). Por lo tanto, no existe evidencia en contra del supuesto de normalidad sobre los
datos. ♦

1. Si una hipótesis Ho se rechaza con una probabilidad de error Tipo I de 0.05, ¿se rechazará si α = 0.01?
Explica.
2. Considera el contraste de Ho:µ=20 v/s Ha: µ≠20. Si x =22, s=3.29 y n = 16, estudiar el rechazo de Ho.
3. Supón que en el problema 2 se fija α en 0.01, y que la media y varianza de las observaciones se
mantienen constantes en x =22 y s=3.29, respectivamente, al menos para un número apreciable de obser-
vaciones adicionales. ¿Cuántas unidades muestrales adicionales bastarán para llevar al rechazo de Ho?
4. El departamento de seguridad de una fábrica desea saber si el tiempo promedio real que requiere el
velador para realizar su ronda nocturna es de 30 minutos. Si en una muestra tomada al azar de 32 rondas,
el velador promedió 30.8 minutos con una desviación estándar de 1.5 minutos, determina si ésta es
evidencia suficiente para rechazar la hipótesis nula Ho:µ=30 en favor de la alternativa Ha: µ≠30.
5. Cinco mediciones del contenido de alquitrán de cierto tipo de cigarrillo arrojaron los siguientes
resultados: 14.5, 14.2, 14.4, 14.3, y 14.6 mg/cig. Demuestra que para α = 0.05 se debe rechazar la hipóte-
sis nula Ho:µ=14.0 en favor de la hipótesis alternativa Ha: µ≠14.0. Supóngase que los datos son una
muestra tomada al azar de una población normal.
6. Los pesos de reses Black Angus de cierta edad tienen en una muestra aleatoria de 24 reses una media de
253 libras y una desviación estándar de 2.38libras. Suponiendo que los pesos constituyen una muestra
aleatoria de una población normal, prueba la hipótesis nula Ha: µ=250 libras contra la alternativa Ha:
µ≠250 libras.
7. En un estudio de nuevas fuentes de alimentación, se informa que una libra de cierta clase de pescado
produce en promedio 2.45 onzas de FPC (concentrado proteco de pescado), que se utiliza para enriquecer
diversos productos alimenticios. ¿Se soporta esta cifra en un estudio en el cual 30 muestras de esta clase
produjeron en promedio 2.48 onzas de FPC (por libra de pescado) con una desviación estándar de 0.07
onzas? Explica.
8. Supóngase que las especificaciones de cierto tipo de cinta afirman que el producto tiene una resistencia
media a la ruptura de 185 libras y que cinco piezas seleccionadas al azar de diferentes rollos tienen una
resistencia media a la ruptura de 183.1 libras con una desviación estándar de 8.2 libras. Suponiendo que
podemos considerar los datos como una muestra tomada al azar de una población normal, prueba la
hipótesis de que la resistencia promedio es de 185 libras.
9. Un fabricante asegura a una compañía que le compra un producto en forma regular, que el porcentaje de
productos defectuosos no es mayor del 5%. La compañía decide verificar la afirmación del fabricante,
seleccionando de su inventario, 200 unidades de este producto y probándolas. Se encuentran 19
defectuosas. ¿Cuál debe ser la decisión de la compañía?
10. Una encuesta política reveló que 1400 personas de un total de 2500, seleccionadas aleatoriamente, tienen
preferencia por el candidato A respecto del candidato B.
a. Construir un intervalo del 99% de confianza para la verdadera proporción de votantes que está a favor
del candidadto A. En base a este intervalo, ¿se puede afirmar que es probable que el candidato A gane
la elección?
b. Responde a las mismas preguntas anteriores en base a una muestra aleatoria de tamaño 225.

11. Una casa comercial recibe una gran partida de bolsitas de semilla. La nota de entrega dice que, a causa del
proceso automatizado de empaquetado, el porcentaje de bolsitas que no cumplen los requerimientos
indicados en ella es del 1%. La casa comercial desea hacer una estimación del total de bolsitas que no
satisfacen los requerimientos, pero revisarlas todas es imposible, de modo que decide usar el muestreo
estadístico para reolver el problema. Decide que desea un error en las estimaciones no superior al 3%, y
una confianza del 95%. ¿Cuántas bolsitas deberá revisar? Desde otra perspectiva, formula y prueba las
hipótesis asociadas al problema.
12. Se desea establecer si la aplicación de cierto tratamiento alimentario incide o no en el desarrollo de cierta
variedad de vacunos. Con este fin, se seleccionaron 20 terneros de 3 meses, y se distribuyeron en grupos
de tamaño 10 cada uno. Uno de estos grupos fue sometido al tratamiento en cuestión, digamos Trat1,
mientras que el otro fue alimentado en condiciones normales o "tradicionales". Llamemos Trat2 a este
último tratamiento. Después de una cantidad dada de meses, se midió la variación en peso (diferencias de
peso) que experimentaron estos terneros, obteniéndose los datos de la tabla siguiente:
Trat1 6.5 10.1 8.6 10.5 9.5 10.6 8.8 10.9 5.2 10.4
Trat2 8.9 11.1 6.8 8.0 8.2 8.0 8.2 7.1 9.2 8.6
a. Caracterizar la variación en el peso de los terneros conforme a cada uno de los tratamientos. (Revisa
supuestos)
b. Determinar si el tratamiento nuevo es o no más efectivo que el sistema tradicional de alimentación, en
lo que al aumento de peso respecta. Analiza requisitos del análisis.
13. Sea X: Puntaje de untest de conducta. Se postula que X ~ N (7,2.72). Un resumen de los puntajes se
muestra en la siguiente tabla :
k= Clase fobs fesp = npi

1 2.200 – 4.625 6
2 4.625 – 7.050 5
3 7.050 – 9.474 7
4 9.475 – 11.90 5
Plantear y resolver el problema.
14. Los puntajes X correspondientes a 23 individuos seleccionados aleatoriamente de entre aquellos que
presentaron mejoría en el ejemplo 3.13, fueron los siguientes:
Ind 1 2 3 4 5 6 7 8 9 10 11
X 11.9 11.7 10.5 9.5 9.4 9.0 8.7 8.2 7.7 7.4 7.4
Ind 12 13 14 15 16 17 18 19 20 21 22 23
X 7.1 6.9 6.8 6.3 5.5 5.0 4.5 4.2 4.1 4.0 3.0 3.2
¿Puede asegurarse que estos datos provienen de una distribución normal?
15. Se realiza un experimento biológico, en base a las concentraciones de un determinado elemento químico,
para reforzar el crecimiento, en centímetros, de una planta medicinal.
Para ello, se utilizaron 10 plantas de la especie en estudio, para finalmente medir su crecimiento en
centímetros. El cuadro siguiente muestra los resultados obtenidos:
Concentración1 8.7 9.4 8.2 8.6 8.5 8.9 8.9 8.4 8.9 9.2

Si lo que se pretende es aumentar el crecimiento de la planta en estudio y si se sabe que en condiciones

naturales el crecimiento promedio de esa especie es de 7.5 centímetros, prueba si el uso del elemento
químico en estudio es eficiente en el reforzamiento del crecimiento de la especie en estudio.
16. Una empresa consultora en problemas ambientales, asesora a una institución ambientalista en la compra
de un instrumento para medir la cantidad de monóxido de sulfuro en la atmósfera. El proveedor dispone
de 2 instrumentos, los cuales deja a prueba por un mes para que se resuelva la compra. Durante este
período se realizaron mediciones en la zona, obteniendo lecturas resumidas en el siguiente cuadro:
Instrumento A 0.86 0.82 0.75 0.61 0.89 0.64 0.68 0.65 0.81
Instrumento B 0.87 0.74 0.63 0.55 0.76 0.7 0.69 0.57 0.53
Considerando que el instrumento seleccionado será aquel que presente la menor variabilidad, concluye
respecto del instrumento a comprar.
17. En relación al ejemplo 17, si se considera una segunda concentración del químico estudiado, obteniendo
los resultados resumidos en la siguiente tabla:
Concentración 2 8.3 8.4 8.2 8.1 8.5 8.9 8.9 8.4 8.9 8.2
Si la concentración más eficiente es aquella que maximiza el crecimiento de la especie en estudio, ¿cuál
de ellas es más eficiente?
18. Un centro experimental animal, estudia el uso de una nueva droga para ser utilizada como anestesia en
equinos. Las experiencias con esta droga indican que se logra anestesiar al 92% de los animales, por un
período de 5 horas.
Para evaluar la veracidad de esta experiencia, y por lo tanto masificar su uso, se aplicó a 10 caballos una
dosis de dicha droga, logrando anestesiar a 8 de ellos, por un período de 5 horas.
Con el ensayo realizado ¿se logran los mismos resultados que en las experiencias realizadas
anteriormente?
19. En el estuario de Reloncaví, zona costera y cordillerana del litoral de la antigua décima región, se
seleccionaron 2 bancos de prospección: Cochamó y Río Puelo, para evaluar la presencia de mercurio, a
través de la especie Mytilus chilensis, vulgarmente llamado "chorito", por ser el primer eslabón indicador
de la cadena trófica y un bioacumulador de mercurio (Moore, 1971; Golberg y Col, 1978; Davies y Pirie,
1980).
Después de realizado el muestreo y los análisis necesarios, se obtuvieron los siguientes resultados, en
ppm:
Río Puelo 0.026 0.038 0.019 0.057 0.021 0.006 0.025 0.009 0.007 0.011
Cochamó 0.011 0.00 0.015 0.00 0.00 0.01 0.013 0.00 0.014 0.011
a) Determinar cuál de los dos bancos en estudio presenta una mayor variabilidad en la concentración de
mercurio.
b) Determinar cuál de los dos bancos está más contaminado por la presencia de mercurio.
c) Discute respecto de los supuestos involucrados.

ANEXOS
A. INTERVALOS DE CONFIANZA MÁS COMUNES
1– α
Nivel de confianza : 1–
Función
Distribución Condición (es) Intervalo de confianza
de parámetros
σ
µ σ conocida X ± Z 1−α / 2
n
s
µ σ desconocida X ± t1−α / 2;n −1
n
σ 12 σ 12
µ1– µ2 X1 , X2 independientes
σ 1 , σ 2 conocidas
(X 1 − X 2 ) ± Z1−α / 2 +
n1 n2
Normal
X1 , X2 independientes
( X 1 − X 2 ) ± t1 α ;ν Sp
−
1
+
1
n1 n2
µ1– µ2 σ 1 , σ 2 desconocidas ν = n1 + n2 − 2
σ 1 , σ 2 homogéneas
S p2 =
(n1 − 1)S12 + (n2 − 1)S 22
n1 + n2 − 2
 (n − 1)S 2 (n − 1)S 2 
2 No hay !  2 ;
σ χ 
 1−α / 2 ; n − 1 χ α / 2 ; n − 1 
2
S 12 > S 22  S12 S2 
 2 f α / 2;n1 −1,n2 −1; 12 f1−α / 2;1,n2 −1 
σ 12  S2 S2 
σ 22 1
f α / 2;n1 −1,n2 −1 =
X1 , X2 independientes f1−α / 2;n2 −1,n1 −1
pˆ (1 − pˆ )
pˆ ± Z1−α / 2
Binomial p n grande
n
x
pˆ =
n
µ : Media poblacional n . Tamaño muestral

µi : Media poblacional i ni : Tamaño de la muestra i-ésima
σ : Desviación estándar poblacional X i : Media de la muestra i-ésima
σi: Desviación estándar población i Si : Desviación estándar de la muestra i
p : Proporción poblacional p̂ : Proporción muestral

B. PRUEBAS DE HIPÓTESIS COMUNES
Nivel de confianza : 1–
1– α
Hipótesis Condición (es) Estadístico de prueba bajo Ho Valor(es) crítico(s)

Ha :µ ≠ µo X − µ0
σ desconocida S m t1−α / 2;n −1
Ha :µ ≠ µo n
Ho :µ1 – µ2 =0 X1 , X2 independientes (X 1 − X 2)
2
σ σ 12 m Z 1−α / 2
1
+
Ho :µ1 – µ2 ≠0 σ1 , σ2 conocidas n1 n2
(X 1 − X 2 )
Ho : µ1 – µ2 = 0 X1 , X2 independientes 1 1  m t1−α / 2;υ
S p2  + 
σ1 , σ2 desconocidas  n1 n2 
ν =n1 + n2 – 2
Ha : µ1 – µ2 ≠ 0
σ1 , σ2 homogénas
S p2 =
(n1 − 1)S 2
1 + (n 2 − 1)S 2
2
n1 + n2 − 2
Ho : σ = σ0 (n − 1)S 2
No hay! χ 12−α / 2;n −1
Ha : σ > σ0 σ 02
H0 : σ1 = σ2
S12 > S 22 S12
f 1−α ;n1 −1,n2 −1
H0 : σ1 > σ2 S 22
X1 , X2 independientes
pˆ − p 0
H 0 : p = p0 pˆ (1 − pˆ )
n grande n m Z 1−α / 2
H 0 : p = p0 x
pˆ =
n
µ : Media poblacional n : Tamaño muestral

µi : Media poblacional i ni : Tamaño de la muestra i – ésima
σ :Desviación estándar poblacional X i : Media de la muestra i – ésima
σi : Desviación estándar de la población i Si : Desviación estándar de la muestra i
p : Proporción poblacional p̂ : Proporción muestral

C. SUGERENCIAS BIBLIOGRÁFICAS
Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad,
a través de sus diferentes capítulos, se sugieren los siguientes títulos:
1. Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988.

2. Freund–Walpole: Estadística Matemática con aplicaciones. Prentice–Hall Hispanoamericana, S.A.
México, 1990.
3. Peña, D.: Estadística. Modelos y Métodos. Vol. 2. Alianza Editorial S.A. Madrid, 1991.
4. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México,
1993.
5. Steel–Torrie: Bioestadística. Principios y Procedimientos. McGraw–Hill. México, 1992.

Facultad de Ingeniería
Dpto. de Cs. Matemáticas y Físicas
Área Estadística
INTRODUCCIÓN AL ANÁLISIS DE
REGRESIÓN LINEAL
Temuco, agosto de 2008

PREÁMBULO
El documento que tienes en tus manos no pretende ser más que una ayuda en tu programa de
aprendizaje y crecimiento respecto de una disciplina que cada día se abre pasos agigantados entre
la trama social, científica y técnica de la que formamos parte: la Estadística. Por lo tanto está muy
lejos de proporcionar una revisión y presentación acabada de los principales temas de esta disci-
plina. Más aún, se trata de un extracto de un documento más amplio que el autor tiene en prepa-
ración.
Para una adecuada utilización de estas notas te recomiendo completar su lectura con un libro de
texto de referencia, como los sugeridos en la bibliografía, y desarrollar cuidadosamente los ejerci-
cios y problemas propuestos.
El autor
ÍNDICE GENERAL
INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL

INTRODUCCIÓN 4
EL MODELO LINEAL BÁSICO 4
AJUSTE DEL MODELO 6
ANÁLISIS EXPLORATORIO 6
ESTIMACIÓN DE PARÁMETROS 6
PROPIEDADES DE LOS ESTIMADORES 7
UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE 8
UN EJEMPLO 10
ANÁLISIS DEL MODELO 11
INFERENCIAS EN EL MODELO 11
EL ANÁLISIS DE LA VARIANZA 14
EL COEFICIENTE DE DETERMINACIÓN 16
DIAGNÓSTICO DEL MODELO 16
EJEMPLOS ILUSTRATIVOS 19
SUGERENCIAS BIBLIOGRÁFICAS 29
INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL
INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 4
INTRODUCCIÓN
Existen situaciones en las que la relación entre dos variables es de tipo "causa-efecto". En estos casos,
además de probar que efectivamente las variables están relacionadas (correlacionadas), interesa
también determinar la forma en que ellas se relacionan funcionalmente. Esta relación es de tipo
funcional, y se expresa a través de una ecuación. Si los datos muestran una tendencia lineal, entonces
la ecuación ser también lineal. En dicha relación se debe distinguir la variable independiente o
predictora de la variable dependiente. Denotaremos por \ a la variable (o conjunto de variables)
independientes (las que causan el efecto), y por ] la variable independiente (el efecto).
El análisis anterior no sólo es válido para el caso de dos variables, sino también en el caso en que se
tienen varias variables independientes y una variable dependiente. Por ejemplo, puede ser de interés
estudiar la forma en que se relacionan las variables Edad y Peso de un niño con la variable
Rendimiento Escolar. En este ejemplo Edad y Peso son las variables independientes, y Rendimiento es
la variable dependiente. El interés fundamental en este caso será quizá la predicción del Rendimiento
conocidos la Edad y el Peso de un niño.
La parte de la Estadística que se encarga de este tipo de estudios es el Análisis de Regresión. Existen
varios tipos de regresiones (lineales, polinomiales, logarítmicas, intrínsicamente lineales, etc.), pero la
más "popular" es la Regresión Lineal, la que a su vez puede ser simple o múltiple, dependiendo de la
cantidad de variables independientes.
EL MODELO LINEAL BÁSICO

Sean \ , ] variables aleatorias (\ puede ser un vector aleatorio), y @ un espacio paramétrico (real). Se
llamará modelo lineal a una relación de la forma:
E[] ] œ 0 () ß B), Var[] ] œ 5 2 M (1)
con 0 una función lineal en ) , ) − @, B − \ , M la matriz identidad.
De lo anterior se deduce que ] œ 0 () ß B)  X , donde X es un vector aleatorio cuyas componentes

satisfacen:
IÐXi Ñ œ !ß a3 œ "ß 8
Z +<ÐXi Ñ œ 5 # , 3 œ "ß 8, supuesto de homocedasticidad
IÐXi X4 Ñ œ !, para 3 Á 4, supuesto de independencia de errores
Una forma más simple del modelo dado en (1) es ] œ "9  \ > ""  X , que en una forma más
condensada puede escribirse como:
] = \t F  X (2)
donde ] es la variable dependiente, \ es un vector de dimensión : (cuyas componentes se llaman

variables independientes), F es el vector de parámetros y X es un vector de errores aleatorios, con las
mismas características del modelo (1).
En base al modelo (1), en el modelo (2) se tiene que E[] ] = \ t F , Var[] ] œ 5 2 M
La ecuación (2) es la ecuación de regresión entre \ e ] . El problema de Regresión Lineal
consiste en, a partir de un conjunto de observaciones (B,C ), obtener una estimación de esta ecuación, o
equivalentemente, de la relación funcional.

Mientras en el análisis de correlación interesa establecer la medida o magnitud de la variabilidad

conjunta entre \ e ] (lo que traduce en un estudio de asociación), en el análisis de regresión el interés
se centra en establecer la forma en que se desarrolla esa variabilidad. Esto es equivalente a establecer
la forma funcional de la relación causa-efecto entre \ y ] . Hay muchas situaciones en las que puede
resultar adecuado un análisis de regresión. Por ejemplo, en estudios de producción en los que ésta
puede depender de factores controlables, como tipo de máquinas, habilidades de los operarios, calidad
de la materia prima, etc.; o en procesos económicos, en los que las utilidades están afectas a cambios en
el sistema cambiario, velocidad de crecimiento industrial o habitacional, etc.
Sobre la base de un conjunto de 8 observaciones simultáneas del par (\ ,] ), en la ecuación (2) se

tiene que ] es un vector de dimensión 8, \ es una matriz 8xÐ:  "Ñ, F es un vector de orden :  " y
X es un vector de dimensión 8. Por esto, preferimos escribir el modelo (2) en su forma matricial:
] œ XB  X (3)
Formas particulares de este tipo de modelos son:
 Modelo de Regresión Lineal Simple
En este modelo se tiene \ t œ (1,\ ), F œ ("o ß "1 )t .
 Modelo de Regresión Lineal General
En este modelo, \ œ (1,\1 ,...,\: )t , F œ ("o ß "1 , ..., ": )t .
 Modelos Intrínsicamente Lineales
Aunque no son lineales propiamente tal, este tipo de modelos tiene una forma tal que, mediante
sencillas transformaciones, pueden linealizarse fácilmente. Los modelos más comunes de ese tipo son
de la forma:
C œ "o /B:Ö"1 B×/ß E[/] œ 0, Var[/] œ 5 2 M .
Este último modelo se puede linealizar aplicando logaritmo a la igualdad, para obtener las ecuaciones
C w œ 68ÐCÑ œ "ow  ""w B  /w , con "ow œ 68Ð"o Ñß /w œ 68Ð/Ñ. Aquí, \ t œ ("ß B)ß F t œ ("o ,"1 ).
 Modelos Polonomiales
La forma de este tipo particular de modelos es
Ejercicio: Identificar las componentes de las formas matriciales de los cuatro modelos definidos arriba.

AJUSTE DEL MODELO

Como ya se dijera, el análisis de modelos de regresión, particularmente los modelos de regresión lineal,
se basa en los siguientes supuestos sobre el término de error:
IÐXi Ñ œ !ß a3 œ "ß 8
Z +<ÐXi Ñ œ 5 # , 3 œ "ß 8, supuesto de homocedasticidad
IÐXi X4 Ñ œ !, para 3 Á 4, supuesto de independencia de errores
Dicho análisis tiene, básicamente, dos enfoques diferentes. Por una parte se pueden desarrollar técnicas
de estimación y ajuste basados en gran medida en resultados de tipo geométrico. Aquí la geometría del
espacio y proyectiva revisten gran importancia, y se apoyan fuertemente de resultados del Algebra
Lineal. Los estimadores del modelo surgen naturalmente como consecuencia de consideraciones
geométricas a veces elementales, a veces complejas.
Por otro lado, se tiene un enfoque de tipo distribucional. En este caso se formula una serie de supuestos
que sustentarán el análisis y darán consistencia a las conclusiones, lo que también permitirá análisis de
tipo inferencial acerca del modelo o sus componentes. Esto último requiere de supuestos
distribucionales adicionales, lo que demanda un formación básica en Estadística Inferencial.
En estas notas seguiremos, preferentemente (aunque no exclusivamente) este último enfoque, y por
ajuste del modelo entenderemos el proceso que va desde el análsisis preliminar de los datos hasta la
estimación de los parámetros del modelo.
ANÁLISIS EXPLORATORIO
En esta fase se estudian características numéricas básicas de los datos, se valida la información, se
detectan y corrigen errores, se determina tendencia de los datos, si procede, se examinan eventuales
valores atípicos o extraños, etc. Es fundamental en esta parte del análisis la construcción del
diagrama de dispersión o nube de puntos, presentado anteriormente en la sección de Análisis de
Correlación Lineal.
La definición de la base de datos es fundamental, como también lo es el permanente "retorno a los
datos". Es sólo estaposibilidad de permanente confrontación con la realidad la que garantiza una base
de datos de calidad, y proporciona la confianza necesaria en los resultados.
Por esta razón es fundamental la fase preliminar de todo análisis de información, y particularmente el
análisis estadístico.
Presentaciones gráficas, tablas de resumen de información, etc., deberán preceder a cualquier análisis
sofisticado y complejo.
Otro aspecto importante de considerar en esta fase es la conceptualización y comprensión del problema,
lo que se debe buscar en las áreas afines al problema en estudio. Vital resulta, por lo tanto, el trabajo
interdisciplinario. Es lo único que puede ayudar a tener certezas en materia de conocimiento a priori
del problema abordado.
ESTIMACIÓN DE PARÁMETROS
Los parámetros del modelo lineal simple son "o , "1 y 5 . Los parámetros del modelo lineal general son
"o , "1 ,...,": y 5 . Nos referiremos a " œ Ð"1 ,...,": )t como el vector de parámetros. En una segunda
fase del análisis deberá estimarse " y eventualmente 5 . La técnica más usual de estimación es la de
Mínimos Cuadrados. Debe incluirse también en esta etapa aspectos de inferencia en relación a los
estimadores.
Existen básicamente dos métodos de estimación de los parámetros de un modelo de regresión: El
método de Mínimos Cuadrados y el de Máxima Verosimilitud. El primero consiste en minimizar el

cuadrado de las distancias entre el modelo y su estimador (el modelo ajustado). La solución, obtenida
vía métodos de optimización o por medio de consideraciomnes geométricas (aplicación de espacios
ortogonales), proporciona los estimadores del modelo. Se trata de método con fuerte soporte
geométrico.
Un segundo método de estimación de los parámetros es el método de Máxima Verosimilitud, que como
es sabido, requiere de supuestos distribucionales, pués se trata de maximizar la función de verosimilitud
de los datos. En ambos casos es necesario imponer ciertas restricciones a los datos. La más usual de
estas restricciones es que la suma de los residuos (diferencia entre lo ajustado y lo observado) sea cero.
El supuesto distribucional más importante es el normalidad de los errores.
Cuando se utiliza el método de Mínimos Cuadrados, y en base a un conjunto de 8 observaciones, la
ecuación estimada del modelo (3) es la ecuación ] s œ \" s , tal que (]  ]
s Ñ# es mínima para todos los
valores de ] . Por esta razón también se llama a ]s la ecuación mínimo cuadrática. Usando métodos de
optimización, como multiplicadores de Lagrange, la minimización de (]  ] s Ñ# conduce a las
ecuaciones normales, cuyas soluciones proporcionan los estimadores:
"s œ Ð\ t \Ñ-1 \ t ]
2
5^ œ (]  ] s Ñt ( ]  ]
s ÑÎÐ8  Ð:  "ÑÑ
Por otra parte, los estimadores máximo verosímil de " y 5 2 , respectivamente, son Ð\ t \Ñ-1 \ t ] y
(]  ]s Ñt ( ]  ]
s ÑÎ8 .
Definición: La matrix \Ð\ t \Ñ-1 \ t se llama matriz de proyección. Algunas características de esta
matriz son:
Proposición: La matriz de proyección satisface lo siguiente:

- Es simétrica e idempotente.
- T\ œ \
- M8  T es simétrica e idempotente
- (M8  T )\ œ 0
PROPIEDADES DE LOS ESTIMADORES
Proposición 1: Bajo el supuesto de normalidad en los errores y si \ t \ es no-singular, entonces:
s) œ "
1. E("
s ) œ 5 2 Ð\ t \ )-1
2. Cov("
3. Var(s" i ) œ -33 5 2 à donde -34 (en geneal) es el elemento de la fila 3  " columna 4  " de la matriz
(\ \ )-1 .
t
4. Cov(s s j ) œ -34 5 2
"i ß "
5. Un estimador insesgado de 5 2 es S2 œ 8Ð:"ÑSCE s Ñt ( ]  ]

, donde SCE œ (]  ] s ). Esta última
cantidad es conocida como Suma de Cuadrados del Error.
Observación: De la parte 3. de la proposición se tiene que È-33 5 2 es el error estándar de "

6. S2 y s
" i son independientes.
estimador de este error estándar es, entonces, È-33 S .

s i . Un
2

2
Proposición 2: Si X ~ N(0,5 M ), entonces:
s ~ N:" Ð" ; 5 2 Ð\ t \ )-1 )

1. "
2. s
" i ~N(" i ß cii 5 2 )
[8Ð:")]S2
3. 52 ~ ;28Ð:"Ñ
s " )t (\ t \ )("
(" s " )
4. 52 ~ ;2:"
UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE
La regresión lineal simple estudia la relación entre una variable independiente y una dependiente. Sean
\ y ] estas variables, respectivamente. La relación entre \ y ] la expresaremos, siguiendo la idea del
modelo (3), como:
] œ !  "\  X
donde ! se llama intercepto, ! es la pendiente y % es un término de error aleatorio, que se supone se

distribuye normalmente, con media cero y varianza constante 5 2 . Cuando se tiene un conjunto finito de
8 observaciones (Bi , Ci ), entonces la relación anterior se expresa como:
Ci œ !  " Bi  Xi
donde Xi µ N(0,5 2 ), y son todos independientes entre sí, para todo i.
A veces la simple sospecha de una relación lineal aparente entre dos variables no es suficiente para
iniciar un análisis de regresión. Es preciso asegurarse de que existe verdaderamente tal tendencia (a
través de un diagrama de dispersión, por ejemplo), y que existe por cierto un relación de causa-efecto
entre las dos variables.
El análisis de regresión lineal simple se encarga de encontrar una recta ajustada que mejor represente a
las relaciones anteriores y que mejor se ajuste a los datos. Denotaremos la recta ajustada por
C^ i œ !^  "^ Bi , donde !^ y "^ son los estimadores mínimo cuadráticos de ! y " , respectivamente.
Para la obtención de !^ y "^ , notemos que el modelo Ci œ !  " Bi  Xi , basado en 8 observaciones, es
un caso especial del modelo (3). En efecto,
Ô C1 × Ô " B" × Ô X1 ×
Ö C2 Ù Ö " B# Ù Ö X2 Ù
Ö Ù Ö Ù Ö Ù
Ö . Ù ÖÞ Þ Ù ! Ö . Ù
Ö ÙœÖ Ù Ö Ù
Ö . Ù ÖÞ Þ Ù” " • Ö . Ù
Ö Ù Ö Ù Ö Ù

Õ Cn Ø Õ " Ø Õ Xn Ø
. Þ Þ .
B8

expresión que es de la forma ] œ \ "  X , con \ œ [1,B]. Así que

Ô " B" ×
Ö " B# Ù !Bi ×
Ô " " Þ Þ Þ " ×Ö ÖÞ Þ Ù Ö
Ù Ô 8
Ö Ùœ Ù.
Õ B" B# Þ Þ Þ B8 ØÖ Ö Ù ! !
Ù Õ Bi Bi Ø
t
\\œ
Þ Þ 2
Õ " B8 Ø
Þ Þ
Ô !B#i  !Bi ×
Además, (\ t \ )-1 œ ! 2 1 ! 2 Ö Ù,
!
Õ  Bi 8 Ø
8 Bi ( Bi )
Ô !B#i  !Bi ×Ô !Ci ×

Ö ÙÖ Ù
8!B2 (!Bi )2 ! 8 ØÕ !Bi Ci Ø
1
Õ  Bi
t -1 t
y por lo tanto, (\ \ ) \ ] œ
i
Ô !Ci !B2i  !Bi !Bi Ci ×

œ ! 2 1 ! 2Ö Ù
! ! !
Õ  Bi Ci  8 Bi Ci Ø
8 Bi ( Bi )
De lo anterior se deduce que
!Ci !B2i !Bi !Bi Ci !Bi !Ci 8!Bi Ci

"^ œ
8!B2i (!Bi )2 8!B2i (!Bi )2
!^ œ
Después de ciertos "arreglos" algebraicos, se puede escribir:
8!Bi Ci 82 B C
œ C  "^ B
8!B2i (!Bi )2
!^ œ C 
!e2
2 i
Por otra parte, el estimador mínimo cuadrático de la varianza es 5^ œ 8# , mientras que su
!e2
2 i
estimador máximo verosímil es 5^ œ 8 .
Proposición: Si los errores están centrados en cero y tienen varianza común 52 , entonces:
E(!^) œ ! Var(!^) œ 5 2 Š 8"  SXX ‹

B#
E("^ ) œ " Var("^ ) œ 5 2 1 SXX

2 2 25 4
E(5^ ) œ 5 2 Var(5^ ) œ 8#
En base a esto podemos concluir que los estimadores mínimo cuadráticos de !, " y 5 2 son insesgados,
propiedad que también se mantiene cuando se supone normalidad en los errores, a excepción del de 5 2 .
Los estimadores de las varianzas se obtienen sustituyendo 5 por 5^ en las respectivas expresiones.

UN EJEMPLO
Se administra una prueba de habilidad a grupo de 5 postulantes a vendedores en una empresa, y se les
deja a prueba durante un mes, al cabo del cual se registran sus ventas semanales (en miles de dólares).
Los resultados fueron:
B % ( $ ' "!
C & "# % ) ""
donde B: Puntaje en la prueba; y: Ventas semanales.
Disgrama de Dispersión
Puntaje vs Ventas
13
11
9
Y: VENTAS
3
2 3 4 5 6 7 8 9 10 11
X: PUNTAJE
Puede pensarse que las ventas semanales "dependen" del puntaje obtenido en la prueba.
Los ajustes correspondientes conducen a los siguientes valores estimados: !^ œ "Þ# y "^ œ 1.13. Esto
implica que la recta ajustada es C3 œ 1.2  1.13B3 , donde C3 son las ventas semanales estimadas y B3 es
el puntaje obtenido en la prueba.
Si se graficara esta recta en el mismo diagrama anterior, habría puntos de los allí marcados que no
pertenecerían a la recta, lo cual es obvio, pues ajustamos una recta a un conjunto de datos que no tienen
una tendencia lineal perfecta.
Puntajes vs Ventas
y = 1.2+1.133*x+eps
13
11
9
Y: VENTAS
3
2 3 4 5 6 7 8 9 10 11
X: PUNTAJE
La gráfica siguiente muestra el resultado gráfico de los mismos ajustes anteriores, adicionando ahora la
banda de confianza para los valores predichos. Puede verse que existe una observación "fuera" de esta
banda de confianza del 95%.

Predicted vs. Observed Values
Dependent variable: VENTAS
13
11
Observed Values
9
3 Regression
4 6 8 10 12 14 95% confid.
Predicted Values
El punto que está fuera de la banda de confianza debiera "estudiarse".
ANÁLISIS DEL MODELO
El encontrar una ecuación que represente la situación planteada, no significa que el ajuste sea
de gran utilidad. A veces ocurre que la ecuación encontrada no sirve para predecir. La bondad del ajuste
es, en consecuencia, un aspecto de relevancia en el análisis de regresión.
NO DEBE USARSE UNA ECUACION DE REGRESION SIN ANTES

HABER EFECTUADO UN ADECUADO DIAGNOSTICO
Este análisis consiste, en su forma más elemental, en probar si:

(1) Se hizo bien o no en suponer una relación lineal entre las variables.
(2) Los valores estimados obtenidos son realmente significativos o no.
Aspectos de homocedasticidad y normalidad de los errores corresponden a lo que se conoce como
Diagnóstico del Modelo, y se basa fundamentalmente en el Análisis de Residuos. El análisis de
residuos es quizá uno de los aspectos más importantes del ajuste de modelos, particularmente en
modelos de regresión lineal. Por razones de tiempo no se expondrán aquí detalles de este análisis, pero
indicamos que el uso de software adecuado facilita considera-blemente tal análisis, así como todos los
aspectos antes mencionados.
INFERENCIAS EN EL MODELO
Supuesta la normalidad en los errores, además de los supuestos iniciales sobre el modelo de regresión,
podemos formular hipótesis sobre los parámetros, y validar por lo tanto algunos supuestos que sobre
ellos formulemos. Los supuestos distribucionales permiten, además, la construcción de intervalos de
confianza, que pueden resultar muy útiles a la hora de juzgar la calidad del modelo ajustado.
Inferencias acerca de BETA
Como el ajuste de un modelo de regresión se basa en estimadores de los parámetros, un aspecto

importante en el análisis dice relación con las inferencias acerca de tales estimadores.

D1- ! 5 È-44 si 5 es conocido

De la proposición 2, parte b), se deduce que un intervalo de confianza del ("  !)100% para " i es:
" i „  !2
>1- 2 SÈ-44 si 5 es desconocido
s
Otro aspecto de importancia en el análisis de los estimadores dice relación con hipótesis de interés
formuladas al respecto. En este sentido uno de los problemas que reviste gran importancia es el
contraste de
Ho :" i œ " i0 v/s Ha :" i Á " i0 , para i Á !
Como s
" i ~N(" i ß -33 5 2 ), entonces bajo Ho , y cuando 5 2 es conocido, el estadístico de prueba, supuesto
s
Ho verdadera, para el contraste anterior es È
"i "i0
- 52
~ N(0,1). Y cuando 5 2 es desconocido, el estadístico
33
s
È-33 S2
"i "i0
toma la forma ~ >8Ð:"Ñ .
Ejemplo: Los siguientes datos corresponden al crecimiento ] (en mm) de una planta al variar la
temperatura ambiente \ desde -2°C a +2°C:
B -2 -1 0 1 2
C 0 0 1 1 3
Estudiar la posibilidad de ajustar un polinomio de segundo grado al crecimiento.
Solución: El modelo que se pide ajustar es de la forma C œ " o  " " B  " # B2  /Þ En forma vectorial
se tiene:
Ô "o ×
Õ" Ø
2
] œ (1,Bß B ) " 1  X
2
En forma matricial:
Ô 0 × Ô 1 -2 4 ×
Ö 0 Ù Ö 1 -1 1 ÙÔ " o ×
Ö Ù Ö Ù
Ö 1 Ù œ Ö 1 0 0 Ù "1  X,
Ö Ù Ö Ù
1 1 1 Õ "2 Ø
Õ3Ø Õ1 2 4Ø
1
Ô X1 ×
Ö X2 Ù
Ö Ù
donde X œ Ö X3 Ù
Ö Ù
Õ X5 Ø
X4
s œ Ð\ t \Ñ-1 \ t ] . Primero calculamosÐ\ t \Ñ.

Recordemos que "
Ô 5 10 × Ô 35 ×
0 , así que Ð\ t \Ñ-1 œ Ö 0 0 Ù.
17 -2
0 0 14
Õ 10 34 Ø
1
Õ -2 1 Ø
Pero \ t \ œ 0 10 10
0 0
14 14

Ô0×
Ô1 1 ×Ö 0 Ù Ô 5 ×
Ö Ù
2 Ö1Ù œ 7 .
1 1 1
Õ4 Ö Ù Õ Ø
4Ø 1
t
Por su parte, \ ] œ -2 -1 0 1
Õ3Ø
1 0 1 13
Ô 35 ×Ô 5 × Ô 0.5714 ×
sœÖ 0 0 Ù 7 œ 0.7000 .
17 -2
0 14
1 ØÕ 13 Ø Õ 0.2143 Ø
1
Õ -2
Por lo tanto, Ð\ t \Ñ-1 \ t ] œ " 10
14 0 14
Esto significa que s

" o œ 0.5714; s s 2 œ 0.2143. Luego, el polinomio ajutastado es
" 1 œ 0.7 y "
C^ œ 0.5714  0.7B  0.2143B2
Se ha obtenido una ecuación a la que se ajustan los datos. Falta determinar si existe evidencia suficiente
a favor de la curvatura.
Calculando la WG I œ Ð]  ]^ Ñw Ð]  ]^ Ñ œ ] w ]  "s w \ w ] , obtenemos que WG I œ 0.463, por lo que
#
= œ 0.2315, y = œ 0.48. Si ! œ !Þ!&, entonces >8Ð:"Ñà!*(& œ >#à!*(& œ %Þ$!$ es el valor crítico
superior del test. Como "s 2 œ 0.2143, entonces >L9 œ "Þ'(, valor que no pertenece a la región de
rechazo. En consecuencia, los datos no contienen evidencia suficiente para incorporar un término
cuadrático en el modelo. è
Dado el modelo ] œ X"  X , ]^ œ X" s œ T ] es el valor estimado de ] para una matriz dada X.
Respecto de ]^ se formula la siguiente proposición:
Proposición: Bajo normalidad en los errores, E[]^ ] œ \ > " , Var[]^ ] œ T 5 2 .
Definición: Los residuos (errores estimados) del modelo ] œ X"  X se definen como
X^ œ e œ ]  ]^ œ (M  T )] .
Proposición: E[e] œ !, Var[e] œ (M  T )5 2 .
Estimación de la media de ] en un punto \o œ [1,X1 ,...,Xp ]t
Es obvio que bajo normalidad en los errores, ] µ N(X" ,5 2 M ). Por lo tanto, un intervalo del
(1  !)100% de confianza para E[] ] en \ œ (1,\o )t es:
]^ „t1!/2;8Ð:"Ñ SÈ\ot (\ t \ )-" \o
Ejemplo: En el ejemplo anterior, = œ !Þ%()". Si B œ #, entonces B9 œ Ò"ß #ß %Ó> à

C^ œ !Þ&("%#*  !Þ(*#  !Þ#"%#)'*% œ #Þ)#)'
Por lo tanto, un intervalo de confianza para IÒ] Ó cuando B œ # es:
Í
Í
Í Ô $& ×Ô " ×
Í
#Þ)#)'„>"!Î#à# *!Þ%()"ÍÒ"ß #ß %ÓÖ ! ! Ù # ´ #Þ)#)'„>"!Î#à# *!Þ%()"*!Þ*#!&
"( #
! "%
" ØÕ % Ø
"
Ì Õ #
"!
"%
! "%

Si "  ! œ !Þ*&, entonces >"!Î#à# œ %Þ$!$, y en consecuencia el intervalo de confianza para IÒ] Ó
cuando B œ # corresponde a Ð!Þ*%)à %Þ(##%Ñ.
Predicción
El intervalo ]^ „t1!/2;8Ð:"Ñ SÈ\ot (\ t \ )-" \o es un intervalo que estima los valores entre los cuales
puede variar la respuesta media de ] dado que \ œ \o . Otro problema es estimar la variabilidad de ]
en un punto dado \o . Este valor de ] es la predicción de ] en el punto dado \o , que denotaremos por
]: . Entonces un estimador de ]: es ]^ : œ ]^ o  e: , donde ]^ o œ \ot "s , y e: es un error de predicción,
Bajo normalidad, se tiene que ]: µ Nˆ\ot " ; (\ot (\ t \ )-" \o  ")5 2 ‰. En consecuencia, un intervalo de
2
que es independiente de ei , ai, con E[e: ] œ ! y Var[e: ] œ 5 .
confianza estimado del (1  !)100% para ]: es:
]^ 9 „>1!/2;8Ð:"Ñ SÈ\ot (\ t \ )-" \o  "
lo tanto È"  \9w Ð\ w \Ñ" \9 œ "Þ$&*$. Luego, un interalo del 95% de confianza para C: en B œ # es
Ejemplo: En base a los datos del ejemplo anterior, si B œ #, entonces \9w Ð\ w \Ñ" \9 œ !Þ)%($, y por
Ð!Þ!$#&à &Þ'#%(Ñ. Nótese que el error estándar de C^ : es !Þ'%*), mientras que el de IÒ] Ó es !Þ%%!". è
En base a los resultados y ejemplos anteriores se puede decir bastante acerca de la bondad del modelo.
Por ejemplo, se puede juzgar la calidad de los estimadores, de las predicciones, etc., y en base a tales
juicios, decidir si el ajuste puede considerarse confiable o no para propósitos de predicción, por
ejemplo. Sin embargo, como se verá más adelante, sólo en la etapa de diagnóstico obtendremos las
mejores herramientas para la toma de decisiones.
EL ANÁLISIS DE LA VARIANZA
Hasta aquí se ha evaluado la bondad del modelo ] œ X"  X sólo en función de la calidad de los
estimadores correspondientes. Además, todos los análisis se han efectuado sobre la base que el modelo
ajustado es de buena calidad. Sin embargo, esto no siempre ocurre así, por lo que es necesario evaluar
la calidad del modelo globalmente, de modo de obtener una apreciación más objetiva y completa al
respecto.
De suma importancia para el logro de este objetivo es el análisis de las siguientes hipótesis :
Ho :EL MODELO ES ] œ "o  X ,

Ha : EL MODELO ES ] œ X"  X
Dado que el modelo ] œ X"  X se ha supuesto lineal en los parámetros, las hipótesis anteriores se
pueden interpretar como elementos de análisis de linealidad, aunque esto último requiere de exigencias
adicionales que no siempre se deducen del análisis del contraste planteado. Una forma alternativa de
este contraste es:
Ho : " i œ 0 , a3 Á !
Ha : " i Á 0, para algún 3 Á !

Un método de análisis de esta prueba se basa en el llamado Análisis de la Varianza, el que se basa en
la partición de las sumas de cuadrados y de los grados de libertad asociados con la respuesta ] . Para
ello es preciso definir lo siguiente:
Suma de Cuadrados Total: SCT œ (]  1] )t (]  1] ) œ !(Ci  C)2

n
Suma de Cuadrados del Error: SCE œ (]  ]^ )t (]  ]^ ) œ !(Ci  C^ )2 œ !ei2

i=1
n
Suma de Cuadrados de la Regresión: SCR œ (]^  1] )t (]^  1] ) œ !(C^  C)2

i=1
n
i=1
Nótese que:
SCT œ 0 Ê todas las observaciones son iguales
SCE œ 0 Ê no hay variación en ]
SCR œ 0 Ê recta horizontal (en regresión lineal simple)
Proposición: SCT œ SCR  SCE, y g.l.(Total) œ g.l.(Error)  g.l.(Regresión)
Demostración: Se deduce de la identidad ]i  ] œ (]^ i  ] )  (]i  ]^ i ).
Proposición: Si se supone que los errores se distribuyen normalmente, entonces:

SCR
:
J œ SCE µ J:à8Ð:"Ñ
n-(p+1)
Este es el estadístico de prueba para el contraste
Ho :EL MODELO ES ] œ "o  X , vs Ha : EL MODELO ES ] œ X"  X
Las cantidades CMR œ SCR

:
SCE
y CME œ n-(p+1) se llaman Cuadrado Medio de la Regresión y
Cuadrado Medio del Error, respectivamente. A la raíz cuadrada de CME se le llama Error estándar
de la estimación
La forma y fuentes de variación de la respuesta en el modelo puede resumirse en la llamada Tabla

ANOVA, de la siguiente manera:
Forma General de una Tabla ANOVA para Regresión
Fuentes de Gr. de Libertad Sumas de Cuadrados Cuadrados Medios Razón

Variación g.l. SC CM J
t t
Regresión : ]^ ]  8C# Ð]^ ]  8C# ÑÎ: GQ V
GQ I
t t
(] t ] ]^ ] )
Error 8  Ð:  "Ñ ] t ]  ]^ ] 8Ð:"Ñ
Total 8" S] ] œ ] t ]  8C#
Nota: Los grados de libertad del modelo son "el número de parámetros menos 1, o equivalentemente, el
número de variables independientes".

EL COEFICIENTE DE DETERMINACIÓN
El cuadrado de un coeficiente de correlación se llama Coeficiente de Determinación, y corresponde a

una medida de la capacidad de \ para reducir la variaciónen ] . Puede demostrarse que, en el modelo
]^ œ X" s , V 2 œ SCR œ 1  SCE . V 2 representa la proporción de la varianza de ] que es extraída por la
SCT SCT
variable \ , mediante el modelo descrito. Dicho de otro modo, permite medir el ajuste del modelo a la
nube de puntos correspondiente. Pero, al igual queel rechazo de Ho en el ANOVA, V # por sí mismo no
puede validar un modelo, ni tener un V # cercano a 1 necesariamente implica que el ajuste obtenido sea
útil para predicción.
Ejemplo: Consideremos los datos relativos a crecimiento versus temperatura, analizados previamente.
La tabla ANOVA correspondiente es:
Fuente g.l. SC CM FL9

Regresión 2 5.54286 2.7714
12.1250
Error 2 0.45714 0.228571
Total 4 6.00000
El valor 0#ß#à!Þ*& œ "*Þ!, de modo que no puede rechazarse la hipótesis L9 À " " œ " # œ !. Esto
significa que el modelo propuesto no es el adecuado.
Para estos mismos datos, puede verificarse que V # œ !Þ*#$)", error estándar de la
estimación œ !Þ%()!*". è
Ejercicio: Los datos siguientes son \ : Altura en centímetros, y ] : Peso en kilogramos, de una muestra
de 10 jóvenes de 18 años. Estudiar el ajuste de un modelo lineal simple para estos datos.
\ ]
169.6 71.20
166.8 58.20
157.1 56.00
181.1 64.50
158.4 53.00
165.6 52.40
166.7 56.80
156.5 49.20
168.1 55.60
165.3 77.80
DIAGNÓSTICO DEL MODELO

Como se recordará, todo el proceso de estimación del modelo se basa fundamentalmente en el grupo de
supuestos iniciales que sobre los errores se formulara. Cualquier violación de estos supuestos puede
invalidar irremediablemente las conclusiones obtenidas a partir de un modelo así estimado. Es por ello
que la fase tal vez más importante en el estudio de modelos en general, y en modelos de regresión lineal
en particular, es aquella en la que se "ponen a prueba" los supuestos. Esta es la llamada fase crítica, y
en ella se debe buscar cualquier indicio de invalidación del modelo ajustado.
Aunque en la etapa de inferencias en el modelo ya se pueden obtener algunas conclusiones parciales

respecto del modelo (como por ejemplo, encontrar suficiente evidencia a favor de la hipótesis
L9 À "3 œ !, lo que podría implicar que el modelo no es el que se postuló), tales inferencias se basan,
entre otros hechos, en que los errores siguen una distribución normal. Pero una prueba de normalidad

sobre los errores necesita de los estimadores correspondientes, y estos son los residuos, que
naturalmente no están a disposición de estos análisis, sino una vez que se hayan hecho los ajustes
correspondientes. Esto crea una suerte de "círculo vicioso", pués aquello que permitirá evaluar si el
modelo obtenido sirve o no, se obtiene una vez que éste se ha ajustado. Por esta razón se dice que este
análisis es a posteriori.
La validación de estos supuestos a priori, en un escenario a posteriori, se llama Diagóstico del
Modelo.
En la actualidad los análisis referentes a diagnóstico apuntan tanto a la validación de las hipótesis
iniciales como a los datos. Lo primero es lo que se conoce como diagóstico clásico, mientras que lo
segundo corresponde al Estudio de Influencia.
En estas notas trataremos sólo Diagóstico Clásico, ya que el de Influencia requiere de elementos
teóricos no proporcionados en cursos de Estadística Elemental. Los problemas que se analizan en este
diagnóstico son:
- Función de Regresión no lineal. La hipótesis de linealidad puede expresarse como Ho : El modelo NO
ES LINEAL.
- Falta de Homocedasticidad
- Errores no independientes (Autocorrelación). Durbin-Watson
- Falta de Normalidad
- Variables importantes omitidas en el modelo
- Falta de ajuste
Residuos:
Están definidos por: X^ œ e œ ]  ]^ , o por X^ œ e œ ]  X"

s
w " w
Es sencillo probar que e œ ]  \Ð\ \Ñ \ ] œ (M  T )] ,
Elementos de T : :34 œ Bw3 Ð\ w \Ñ" B4
Bw3 fila i-ésima de la matriz de datos X.
Bw4 columna j-ésima de la matriz de datos X.
Proposición: Var[ei ] œ 5 2 Ð"  :33 Ñ, Cov(ei ) œ  5 2 :34 .
Residuos Sttudentizados:
Estandarización: <3 œ 5^Èe":
3
Ä residuo studentizado
33
Tamaño de muestra es grande Ä residuos aproximadamente normales Ä Valores rara vez fuera del
intervalo (  #ß #)
Gráficos de Residuales:
Respuesta Estimada C^ 3 versus <3 : El gráfico más importante
Modelo Adecuado Ê
 Pares ÐC^ 3 ß <3 Ñ en torno a una recta horizontal
 Ninguna tendencia aparente
 Rara vez fuera del intervalo Ð  #ß  #Ñ (Gráfico a).

Gráficos como los siguientes pueden indicar falta de linealidad en el ajuste.
Variables Independientes versus <3 :

 Una tendencia o característica sistemática en el gráfico debiera sugerir alguna anomalía en relación a
la inclusión de la variable en el modelo.
 (b) y (c), puede indicar que la varianza de los errores es una función monótona de la variable en
análisis (\3 ).
Otros Gráficos:
- (f) acusan no linealidad y varianza no constante en los errores.
- (f) indicará, quizá, que un efecto cuadrático de la variable \ debiera incluirse en el modelo.
- (g) indicaría falta de independencia en los errores, o más bien, errores autocorrelacionados.
Autocorrelación Ä Estadística de Durbin-Watson
La Normalidad de los Errores:

 Plot de Normalidad
 Prueba bondad de ajuste ;#
 Estadística de Kolmogorov y Smirnov

EJEMPLOS ILUSTRATIVOS
Como una forma de ilustrar y aplicar los resultados, análisis y comentarios anteriores, presentamos a
continuación dos ejemplos, en los que desarrollaremos las ideas más fundamentales del Análisis de
Regresión.
EJEMPLO 1
(Extraído de Canavos(1988), pag. 536). Una compañía manufacturera desea predecir el costo unitario
de fabricación ] de uno de sus productos como una función de la tasa de producción (que fluctúa en el
tiempo) \" y de los costos de material y mano de obra \# . Los datos se recabaron durante un periodo
de 20 meses durante el cual la tasa de producción y los costos del material y la mano de obra
experimentaron un fluctuación muy amplia. La tasa de producción se midió como un porcentaje de la
capacidad total de producción, y se utilizó un índice apropiado para reflejar los costos del material y
mano de obra. Las observaciones se encuentran en la tabla siguiente. Obtener la mejor ecuación de
regresión para predecir el costo por unidad.
] À costo unitario de fabricación

\" À tasa de producción (que fluctúa en el tiempo)
\# À costos de material y mano de obra
La Tabla de Datos:
] \" \#
"$Þ&* )( )!
"&Þ(" () *&
"&Þ*( )" "!'
#!Þ#" '& ""&
#%Þ'% &" "#)
#"Þ#& '# "#)
")Þ*% (! ""&
"%Þ)& *" *#
"&Þ") *% *$
"'Þ$ "!! """
"&Þ*$ "!# ""'
"'Þ%& )# ""(
"*Þ!# (% "#(
")Þ"' )& "$$
")Þ&( )' "$&
"(Þ!" *! "$'
")Þ!$ *$ "%!
"*Þ## )" "%#
#"Þ"# (# "%)
#$Þ$# '! "&!

SOLUCIÓN
Los Ajustes Iniciales:

Se ajustó un modelo del tipo C3 œ "9  "" B"3  "# B#3  X
C3 es la 3-ésima observación la variable dependiente,
B"3 es la 3-ésima observación de la variable \"
B#3 es la 3-ésima observación de \#
Regression Summary for Dependent Variable: Y

R= .95601159 R²= .91395817 Adjusted R²= .90383560
Std.Error of estimate: .89419
Tabla de coeficientes:
St. Err.
B of B t(17) p-level
Intercept 20.28127 2.125250 9.54300 .000000
X1 -.13770 .015854 -8.68549 .000000
X2 .07425 .010965 6.77134 .000003
Coeficiente de determinación múltiple À 91.4%

Error estándar de la estimación À .89419
Coeficientes "" y "# significativos
Errores estándares de los estimadores À
de s" 1 es 0.015854
de s" 2 es 0.010965
Analysis of Variance:
Sums of Mean
Squares df Square F p-level
Regress. 144.3873 2 72.19367 90.28916 .000000
Residual 13.5929 17 .79958
Total 157.9803
No hay evidencia en contra de C3 œ "9  "" B"3  "# B#3  X

El Ajuste sería: sC 3 œ #!Þ#)  !Þ"$((B"3  !Þ!(%#&B#3

Diagnóstico del Modelo:
Gráfico 1: Residuos versus Valores Ajustados

Predicted vs. Residual Scores
Dependent variable: Y
2.5
1.5
Residuals 1
0.5
-0.5
-1
-1.5 Regression
13 15 17 19 21 23 25 95% confid.
Predicted Values
* Ninguno de los residuos cae fuera de la banda de límites  # y +2.

* Al parecer algún efecto cuadrático o multiplicativo importante se pudo haber omitido en el modelo.
Buscando la Solución:
Gráfico 2: \" versus Residuales

Raw residuals vs. X1
X1 = 80.200 + .00000 * Raw residuals
Correlation: r = .00000
115
105
95
85
X1
75
65
55
45 Regression
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 95% confid.
Raw residuals

Gráfico 3: \2 versus Residuales
Raw residuals vs. X2
X2 = 120.35 + .00000 * Raw residuals
Correlation: r = .00000
160
150
140
130
120
X2
110
100
90
80
70 Regression
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 95% confid.
Raw residuals
¡Habría que pensar en incluir un efecto cuadrático de \" !
Ajustando el Modelo Alternativo:
El nuevo Modelo: ] œ "9  "" \"  "# \#  "# \"$  X
Regression Summary for Dependent Variable: Y

R= .99027770 R²= .98064992 Adjusted R²= .97702178
Std.Error of estimate: .43710
Tabla de coeficientes:
Interc 41.55146
X1 -3.33317
X2 .50479
SQX1 2.68815
Tabla ANOVA:
Sums of Mean
Squares df Square F p-level
Regress. 154.9233 3 51.64111 270.2900 .000000
Residual 3.0569 16 .19106
Total 157.9803
¿Mejoró el ajuste?

Gráfico 4: Residuos versus predicciones
Predicted vs. Residual Scores
0.8
0.6
0.4
0.2
Residuals
-0.2
-0.4
-0.6
-0.8
-1 Regression
12 14 16 18 20 22 24 26 95% confid.
Predicted Values
Gráfico 5: Plot de Normalidad de los Residuos

Normal Probability Plot of Residuals
2.5
1.5
Expected Normal Value
0.5
-0.5
-1.5
-2.5
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8
Residuals

Comparación de los Ajustes:
Gráfico 6: Valores Observados vs predichos antes de la corrección

26
24
22
Observed Values
20
18
16
14
12 Regression
13 15 17 19 21 23 25 95% confid.
Predicted Values
Gráfico 7: Valores Observados vs Predichos después de la correción

26
24
22
Observed Values
20
18
16
14
12 Regression
12 14 16 18 20 22 24 26 95% confid.
Predicted Values
La Ecuación Final:
C3 œ %"Þ&&  !Þ(!!$B"3  !Þ!($%B#3  !Þ!!$'#%B#"3

EJEMPLO 2
Los datos siguientes representan el costo de calefacción ] y otras características de casas unifamiliares.
\1 : Temperatura exterior mínima

\2 : Pulgadas de aislante
\3 : Número de ventanas
\4 : Antigüedad del calefactor
El problema es estimar una función lineal del consumo ] en términos de las otras variables.
Costo de calefacción, según diversas características de la casa

] \1 \2 \3 \4
250 35 3 1 6
360 29 4 1 10
165 36 7 9 3
43 60 6 8 9
92 65 5 8 6
200 30 5 9 5
355 10 6 14 7
290 7 10 9 10
230 21 9 11 11
120 55 2 9 5
73 54 12 11 4
205 48 5 10 1
400 20 5 12 15
320 39 4 10 7
72 60 8 8 6
272 20 5 10 8
94 58 7 10 3
190 40 8 11 11
235 27 9 14 8
139 30 7 9 5
Sólo para efectos ilustrativos separaremos los casos lineal simple del múltiple.
Regresión Lineal Simple

El ajuste de un modelo de regresión lineal simple entre ] y \ 1 arrojó los siguientes resultados:
Regression Analysis - Linear model: ] = a+b\ 1

--------------------------------------------------------------------
Dependent variable: ] Independent variable: \ 1
--------------------------------------------------------------------
Standard T Prob.
Parameter Estimate Error Value Level
--------------------------------------------------------------------
Intercept 388.802 34.2408 11.3549 .00000
Slope -4.93419 0.837437 -5.89201 .00001
--------------------------------------------------------------------
En esta tabla observamos que los valores estimados son: A = 388.802 y B = -4.93419. La ecuación de
regresión ajustada es por lo tanto,
] = 388.802 - 4.93419\ 1
El valor T para probar la hipótesis nula de que el coeficiente de \ 1 es cero, es -5.89201. El valor
crítico, con n-(p+1)=20-2=18 g.l. y con un 95% de confianza, para un test bilateral, es „2.101, donde
(p+1) es el número de parámetros (p es el número de variables independientes). Por lo tanto, el valor de

t =-5.89201 pertenece a la región crítica, por lo que la hipótesis nula deber rechazarse. Esto significa
que el coeficiente de \ 1 es distinto de cero.
La otra pregunta que hay que responderse en relación a un modelo ajustado, es si se hizo bien o no al
suponer un modelo como el especificado originalmente. La tabla ANOVA entrega todos los elementos
necesarios para tomar una decisión respecto de esta interrogante (hipótesis). Para los datos que estamos
analizando, dicha tabla es la siguiente:
Analysis of Variance
--------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio Prob. Level
Model 140214.94 1 140214.94 34.7 .00001
Residual 72700.809 18 4038.934
--------------------------------------------------------------------
Total (Corr.) 212915.75 19
Correlation Coefficient = -0.811509
R-squared = 65.85 percent
Stnd. Error of Est. = 63.5526
El valor del estadístico de prueba, la F, bajo la hipótesis nula, es 34.7. El valor crítico es una valor F
con 1 g.l. en el numerador y con 18 g.l. en el denominador. Con un 95% de confianza, el valor crítico es
4.41. Entonces deber rechazarse la hipótesis de que el modelo NO ES EL SUPUESTO
INICIALMENTE. Por lo tanto hicimos bien al suponer que los datos seguían una tendencia como la
indicada.
Por último, el valor R-squared = 65.85 percent corresponde al coeficiente de determinación, que en este
caso indica que el 65.85% de la variabilidad en ] se puede explicar por medio de la variable \ 1.
Todo lo anterior hace suponer que la recta ajustada es confiable para predicción.
Regresión Lineal Múltiple

Ahora analizaremos el ajuste de un modelo del tipo
] = A + B1\ 1 + B2\ 2 + B3\3 + B4\4 + E
Los valores de los coeficientes y el respectivo valor t, entre otros, se muestran en la siguiente tabla:
Model fitting results for: ]

-------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
-------------------------------------------------------------------
CONSTANT 422.471898 68.079563 6.2056 0.0000
\1 -4.56175 0.807373 -5.6501 0.0000
\2 -15.214101 5.448259 -2.7925 0.0137
\3 0.672964 4.160671 0.1617 0.8737
\4 6.12764 4.143358 1.4789 0.1599
-------------------------------------------------------------------
R-SQ. (ADJ.) = 0.7524 SE= 52.676803 MAE= 36.404998 DurbWat= 1.540
En este caso el estadístico de prueba es una t-Student con 20-5=15 g.l. A un 95% de confianza, los
valores críticos son „2.131. Puede apreciarse que los valores de T asociados a los coeficientes de \ 3 y
\4 están en la región de aceptación, por lo que deber aceptarse la hipótesis de que estos coeficientes
son cero.
De la siguiente tabla ANOVA, según el valor F, podemos deducir que se hizo bien al suponer que los
datos seguían un modelo lineal.

Analysis of Variance for the Full Regression
------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
------------------------------------------------------------------
Model 171293.0 4 42823.3 15.4327 .0000
Error 41622.7 15 2774.85
------------------------------------------------------------------
Total (Corr.) 212916.0 19
R-squared = 0.804511 Stnd. error of est. = 52.6768
R-squared (Adj. for d.f.) = 0.752381
Durbin-Watson statistic = 1.53965
Observemos que el 75.24% aproximado de la variabilidad de ] se puede explicar a través de \1 , \2 ,
\3 y \4 .
EJEMPLO 3
(Extraído de Canavos, G.(1984): Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill

Interamericana, Mexico). N.H. Prater desarrolló una ecuación de regresión para estimar la producción
de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo. Se
identificaron cuatro variables de predicción: la gravedad del petróleo crudo(\1 ), la presión del vapor
del petróleo crudo(\2 ), el punto de 10% ASTM para el petróleo crudo(\3 ) y el punto final ASTM para
la gasolina (\4 ). La respuesta ] fue la cantidad de gasolina producida expresada como un porcentaje
respecto al total de petróleo crudo. Los datos, incluidos al final de este texto, se modificaron levemente
en su presentación sólo para facilitar cálculos.
Al ajustar un modelo de regresión múltiple a los datos, como por ejemplo en la forma
C3 œ !  "" \"  "# \#  "$ \$  "% \%  %3 , se obtuvo, entre otros análisis, la siguiente tabla de
coeficientes:
Model fitting results for: PRATER.]

-------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
-------------------------------------------------------------------
CONSTANT -69.048463 101.218363 -0.6822 0.5009
PRATER.\ 1 0.227512 0.099885 2.2777 0.0309
PRATER.\ 2 0.55641 0.368796 1.5087 0.1430
PRATER.\ 3 -1.493348 0.291822 -5.1173 0.0000
PRATER.\ 4 1.546868 0.064358 24.0352 0.0000
-------------------------------------------------------------------
R-SQ.(ADJ.) = 0.9566 SE= 22.331630 MAE= 16.762933 DurbWat= 2.166
En ella podemos apreciar los valores estimados de los respectivos parámetros, son A=-69.048,
B1=0.228, B2=0.556, B3=-1.493 y B4=1.547. Esto significa que la ecuación ajustada es
] = -69.048 + 0.228\ 1 + 0.556\ 2 - 1.493\ 3 + 1.547\ 4
Observemos sin embargo, que de acuerdo al valor t indicado en esta tabla no se puede rechazar la
hipótesis de que el tercer parámetro es cero (á3). Por lo tanto este parámetro es cero, y debería
eliminarse del modelo ajustado, ya que su contribución a él es nula. Lo que corresponde después de
excluir la variable \ 2 del modelo, es hacer un nuevo ajuste. Al pie de esta tabla se observan los valores
del coeficiente de determinación, que es del 95.66%; y el error estándar del modelo, entre otros datos.
La siguiente tabla, como su encabezado lo dice, es la tabla ANOVA del modelo. Ella permite evaluar
estadísticamente la significancia del modelo. Específicamente la razón F permite probar si se hizo bien
al suponer un modelo lineal.

Analysis of Variance for the Full Regression
--------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------
Model 342943. 4 85735.7 171.918 .0000
Error 13464.9 27 498.702
--------------------------------------------------------------------
Total (Corr.) 356408. 31
R-squared = 0.96222 Stnd. error of est. = 22.3316

R-squared (Adj. for d.f.) = 0.956623
Durbin-Watson statistic = 2.16626
En este caso, ya que el valor de la distribución F con 4 g.l. en el numerador y 27 g.l. en el denominador
y con un nivel de confianza del 95% es 2.73, se debe rechazar la hipótesis nula (en el ejemplo en
análisis, tenemos 5 parámetros, de modo que a la regresión le corresponden 4 g.l.). Recordemos que la
hipótesis nula asociada a un modelo de regresión es que EL MODELO NO ES LINEAL. Por lo tanto,
se hizo bien al ajustar un modelo lineal a los datos.
Si se excluyera del modelo la variable \2 , es probable que el modelo, que así es bastante bueno, mejore
aún más.
Los Datos de PRATER:

OBS ] \1 \2 \3 \4
1 69 384 61 220 235
2 144 403 48 231 307
3 74 400 62 217 212
4 85 318 2 316 365
5 80 408 35 210 218
6 28 413 18 267 235
7 50 381 12 274 285
8 122 508 86 190 205
9 100 322 52 236 267
10 152 384 61 220 300
11 268 403 48 231 367
12 140 322 24 284 351
13 147 318 2 316 379
14 64 413 18 267 275
15 176 381 12 274 365
16 223 508 86 190 275
17 248 322 52 236 360
18 260 384 61 220 365
19 349 403 48 231 395
20 182 400 61 217 272
21 232 322 24 284 424
22 180 318 2 316 428
23 131 408 35 210 273
24 161 413 18 267 358
25 321 381 12 274 444
26 347 508 86 190 345
27 317 322 52 236 402
28 336 384 61 220 410
29 304 400 61 217 340
30 266 408 35 210 347
31 278 413 18 267 416
32 457 508 86 190 407

SUGERENCIAS BIBLIOGRÁFICAS
Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta
unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos:
1.Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988.

2.Freund-Walpole: Estadística Matemática con aplicaciones. Prentice-Hall Hispanoamericana, S.A.
México, 1990.
3.Scheaffer-McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica.
México, 1993.
4.Steel-Torrie: Bioestadística. Principios y Procedimientos. McGraw-Hill. México, 1992.

Apunte Completo

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Apunte Completo

Загружено:

Авторское право:

Доступные форматы

FACULTAD DE INGENIERÍA

DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS

Prof. Juan Moncada Herrera

Segundo semestre de 2008

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 1. CONCEPTOS BÁSICOS DE PROBABILIDADES

Capítulo 2. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES

Capítulo 3. ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES

Capítulo 4. ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Objetivos del capítulo:

En la actualidad, la teoría matemática de la probabilidad es la base de las aplicaciones estadísticas

Uno de los aspectos más relevantes en el proceso de definición o perfeccionamiento de métodos, es el

En un principio el desarrollo de las Probabilidades estuvo directamente relacionado con juegos de

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

En los comentarios subsiguientes a la definición de evento, ha quedado clara la forma de relacionar

Unión: Dados dos eventos A y B de Ω, la unión entre A y B se define como el evento

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

A∪B = B∪A A∩B = B∩A

Definición 1.4. Sean A y B dos eventos de un espacio Ω. A y B son disjuntos si y sólo si A ∩ B = φ.

Algunas medidas de uso común son:

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

1.2. CONCEPTOS DE PROBABILIDAD

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Demostraciones: Se dejan de ejercicio todas las demostraciones. La utilización de resultados de la Teoría de

Solución. El espacio muestral asociado está determinado por:

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Representación gráfica mediante el Diagrama de Venn

A partir del diagrama resultan evidentes los siguientes hechos:

1.3. EJERCICIOS Y PROBLEMAS

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

2. Los resultados de un experimento se distribuyen según se indica en el siguiente diagrama de Venn. En

a. Describir verbalmente los eventos A, B, A∪B y A∩B.

5. Demostrar que si A, B y C son independientes, entonces P(A∪B∪C) = 1 – P(Ac)P(Bc)P(Cc).

6. Demostrar que si P(C) ≠ 0, entonces: P(A∪B/C) + P(A∩B/C) = P(A/C) + P(B/C)

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

10. Mostrar que si A ⊆ B, entonces P(A) ≤ P(B).

Respuestas a algunos problemas propuestos

2. ii) P(B) = 19/50

5. Sug.: Calcular P(A∪B∪C) y aplicar propiedad de independencia de los tres eventos.

6. Hacer uso de la definición de probabilidad condicional de P(A∪B/C).

8. b) P(B) = 0.75 ; c) P(A/B) = 0.2

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Objetivos del capítulo:

En el presente capítulo se persentarán métodos y técnicas que recogen el soporte fundamental de la

2.1. VARIABLES ALEATORIAS

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Ω = {(C,S), (S,C), (C,C), (S,S)}

Si a cada ω se le asigna un valor numérico, de 0 a 2, cantidades aleatorias determinadas por el experimento,

2.2. DISTRIBUCIONES DE PROBABILIDADES

En consecuencia, en la definición e identificación de una distribución los parámetros juegan un papel

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

i) p(x; n, p) ≥ 0, ya que cada componente del producto que la define es positivo.

y que satisface las siguientes condiciones:

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

iv) P( x1 < X < x2 ) = F ( x2 ) − F ( x1 )

Representación gráfica de la propiedad iii) de la función de densidad

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

2.3. FUNCIONES DE VARIABLES ALEATORIAS

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco