Вы находитесь на странице: 1из 217

CURSO DE ESTADISTICA UNIVERSITARIA

DR. MAURICIO CANALS LAMBARRI


FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE

RPI N:153541

Prologo
Este libro ha sido diseado como un curso de estadstica general de acuerdo a los
programas vigentes en diferentes universidades. Est escrito en una forma general con
ejemplos aplicables a diferentes mbitos. Tiene un nfasis en las bases conceptuales y
metodolgicas de los distintos temas, sin perder el rigor matemtico de sus
fundamentos. En general se evitan las demostraciones matemticas dificultosas que
distraen del objetivo general.
El libro est dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el anlisis de datos es relevante.
La primera unidad corresponde a Estadstica descriptiva, donde se sientan las
bases de la descripcin de la informacin. La segunda unidad corresponde a Estadstica
matemtica, donde se aportan los aspectos ms relevantes de la teora de probabilidades.
Las unidades tres y cuatro son las ms importantes en un curso bsico, donde se
encuentran los principales mtodos usados en inferencia estadstica. Se separan en una
unidad especial el anlisis de varianza y la regresin. Para los lectores poco avezados en
matemticas, se puede pasar directamente desde la unidad 1 a la 3.
La unidad 5 corresponde a una serie de tpicos, habitualmente no tratados en los
cursos bsicos, pero que frecuentemente son usados en diversas reas como las
estadsticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en
el rea industrial, las series temporales y la regresin logstica. En esta unidad los temas
son tratados con menor profundidad, haciendo hincapi en las bases conceptuales, pero
sin perder rigurosidad de tratamiento del tema.
La ltima unidad introduce el anlisis multivariado, ya que cada da se toma
mayor conciencia del origen multicausal de muchos fenmenos, por lo que es necesario
una mayor comprensin y utilizacin de esta metodologa.
Este libro es el resultado de varios aos dictando cursos bsicos de estadstica. El
tratamiento en todos los captulos intenta ser claro pero conciso, sin redundar en largas
explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se
apoyan las explicaciones con ejemplos didcticos aplicables en cualquier disciplina.

ndice general
INTRODUCCIN: CIENCIA Y ESTADISTICA
I UNIDAD: ESTADISTICA DESCRIPTIVA
I.- ESTADSTICA

8
10
11

I.1.- Bases e historia


I.2.- Definicin

11
11

II.- ESTADSTICA DESCRIPTIVA

14

II.1.- Observaciones, variables y escalas


II.2.- Representacin de la informacin
II.3.- Medidas de resumen

14
14
16

Ejercicios de estadstica descriptiva

22

II UNIDAD: ESTADISTICA MATEMATICA

24

III.- PROBABILIDADES

25

III.1.- Experimento Aleatorio, Espacio Muestral


III.2.- Probabilidades y Conjuntos
III.3.- Propiedades de las Probabilidades
III.4.- Independencia Estocstica y Probabilidad Condicional
III.5.- Probabilidades en Medicina

25
27
28
29
33

Ejercicios de Probabilidades

41

IV.- VARIABLES ALEATORIAS

46

IV.1.- Distribucin de una variable aleatoria


IV.2.- Distribucin de Bernoulli
IV.3.- Distribucin binomial
IV.4.- Distribucin de Poisson
IV.5.- Variables aleatorias continuas

46
50
50
52
54

IV.6.- Distribucin uniforme


IV.7.- Distribucin exponencial
IV.8.- DISTRIBUCIN NORMAL
IV.9.- Otras distribuciones importantes

55
55
55
59

Ejercicios de variables aleatorias

63

III UNIDAD: INFERENCIA ESTADISTICA

66

V.- ESTIMACIN

67

V.1.- Estimadores
V.2.- Estimaciones
V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P2
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2
V.3.- El tamao muestral
V.2.3.- Estimaciones en Medicina

67
69
69
70
71
72

Ejercicios de estimacin

74

VI.- DOCIMASIA O PRUEBA DE HIPTESIS

76

VI.1.- Bases
VI.2.- Dcimas para una muestra
VI.3.- Dcimas para dos muestras
VI.4.- Supuestos de las dcimas

76
80
82
86

Ejercicios de Pruebas de Hiptesis para una y dos muestras

89

VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS

93

VII.1.- La distribucin 2

93

VII.2.- Bondad de ajuste de 2

98

VII.3. El 2 para proporciones


VII.4.- La prueba G

100
101

Ejercicios de anlisis de datos enumerativos

103

VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA

105

VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras

106

Ejercicios de estadstica no-paramtrica

112

IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y


REGRESION

114

IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA)

115

IX.1.-El Problema de Bonferroni


IX.2.- Diseo experimental
IX.3.- Anlisis de la varianza de 1 va o factor (ANOVA de 1 va).
IX4.- Comparaciones mltiples
IX.5.- ANOVA de dos vas: la interaccin
IX.6.- Otros diseos
IX.7.- Alternativas no paramtricas al ANOVA

115
116
117
121
124
127
129

Ejercicios de anlisis de la varianza

131

X.- CORRELACIN Y REGRESIN

134

X.1.- Correlacin
X.2.- Regresin
X.3.- Regresin y ANOVA
X.4.- Predicciones
X.4.- Supuestos y alternativas no paramtricas
X.5.- Anlisis de Covarianza (ANCOVA)

134
135
137
140
141
142

Ejercicios de correlacin y regresin

144

V UNIDAD.- TOPICOS ESPECIALES

145

XI.- BASES DE MUESTREO

146

XI.1.- Muestreo en poblaciones finitas e infinitas


XI.2.- Tamao muestral, potencia y precisin

146
147

XII.- ESTADISTICAS VITALES

150

XII.1.- Tablas de vida


XII.2.- Comparacin de curvas de supervivencia

150
152

Ejercicios de estadsticas vitales

154

XIII.- REGRESION LOGISTICA

155

XIII.1.- Bases
XIII.2.- Pruebas de hiptesis
XIII.3.- La razn de chances (odds ratio)

155
155
156

XIV.- SERIES DE TIEMPO

158

XIV.1.- Bases
XIV.2.- Autocorrelacin y autocorrelacin parcial
XIV.3.- Algunos modelos

158
158
159

UNIDAD VI: INTRODUCCION AL ANALISIS MULTIVARIADO

160

XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)

161

XV.1.- Anlisis multivariado o univariado?


XV.2.- MANOVA

161
162

XVI.- REGRESION MULTIPLE

163

XVI.- Expresin matricial de una regresin


XVI.2.- Regresin mltiple

163
163

XVI.3.- El aporte de cada variable


XVI.4.- Correlacin mltiple, simple y parcial
XVI.5.- Seleccin de variables
XVI.6.- Anlisis de vas (o sendas)
XVI.7.- Regresin logstica mltiple

165
166
167
169
170

XVII.- ANALISIS DISCRIMINANTE

173

XVII.1.- Fundamento
XVII.2.- Clasificacin

173
174

XVIII.- ANALISIS DE COMPONENTES PRINCIPALES

176

XVIII.1.- Fundamentos

176

XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA

180

XIX.1.- Correlacin cannica


XIX.2.- Anlisis de correspondencia o Reciprocal averaging

180
181

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)

184

XX.1.- Fundamentos
XX.2.- Medidas de similitud y distancia
XX.2.- Mtodos de agrupacin

184
184
186

Bibliografa

190

ANEXO I.- FORMULAS UTILES

192

ANEXO II.- TABLAS SIMPLIFICADAS

211

INTRODUCCIN: CIENCIA Y ESTADISTICA


El objetivo de la ciencia es captar el orden de los fenmenos para hacerlos
comprensibles dando una explicacin racional de ellos, determinando sus causas y
hacindolos previsibles.
Esta captacin del orden pasa primero por la eleccin e identificacin del
fenmeno y decidiendo el enfoque de inters. Este puede ser de tipo sistmico u holista
en el que el inters esta concentrado en la totalidad y no en las partes (el todo es mas
que la suma de las partes), o bien de tipo reduccionista en el que se estudian las
partes para entender el todo. En general ambos enfoques conducen a la construccin de
modelos, sean stos formales o de simple palabra, que representen el fenmeno. Estos
reducen la complejidad del fenmeno, hacindolo comprensible.
La ciencia, segn Kuhn (1962), puede ser entendida como una coleccin de datos
en el contexto de una forma de entender como funciona la naturaleza (paradigma). En
su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones cientficas)
en la medida que se acumulan evidencias contradictorias a la luz del paradigma
existente. Esta acumulacin de evidencias obedece a un proceso constante de
proposicin de explicaciones y causalidades de fenmenos naturales que puede ir de lo
general a lo particular (deduccin) o desde lo particular a lo general (induccin).
La deduccin es una forma de generacin de proposiciones lgicas. Estas
proposiciones lgicas que tienen un valor de verdad desconocido las conocemos como
hiptesis y pueden ser entendidas como enunciados que contienen proposiciones
verificables y que anteceden a otras en el proceso continuo de la ciencia.
La induccin por el contrario, genera proposiciones generales a partir de la
repetitividad de hechos particulares.
El proceso del conocer requiere de un mtodo. Este es conocido como mtodo
cientfico, que bsicamente contiene varias etapas:
i)
ii)
iii)
iv)
v)
vi)

eleccin del sistema,


enunciado del problema,
planteamiento de la hiptesis y deduccin de consecuencias verificables de ella
(si p, entonces q),
diseo experimental,
prueba de la hiptesis, y
interpretacin de los resultados, generando nuevas hiptesis.

Para Popper (1979) el mtodo consiste en una confrontacin de los datos con una
hiptesis, pudiendo sta ser solamente rechazada y no probada. As, en el mtodo de
Popper, hipottico-deductivo-refutacionista, existe una hiptesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hiptesis (falsificacin de la
hiptesis).
En el mtodo de Popper convergen la deduccin y la induccin, estando
relacionada la primera con la generacin de hiptesis y la segunda con la refutacin.
Para este segundo proceso, la refutacin, son necesarios mtodos rigurosos y eficientes
que permitan una adecuada toma de decisiones. Aqu es donde es relevante la
metodologa de la inferencia estadstica. Esta, en su base fundamental consiste en
plantear una dicotoma entre la hiptesis de nulidad (Ho) y un alternativa (H 1), de tal
manera que a travs de la repetitividad de resultados experimentales (induccin) en una
muestra, sea posible el rechazo de Ho y por tanto la inferencia de H 1 a la poblacin
completa.

10

I UNIDAD: ESTADISTICA DESCRIPTIVA

11

I.- ESTADSTICA
I.1.- Bases e historia
El trmino estadstica proviene de la palabra estado, y se refiere al origen
histrico de esta disciplina relacionado con la descripcin cuantitativa de asuntos del
estado. Tambin se llam aritmtica poltica. Su objetivo inicial era describir
cuantitativamente diversos hechos de inters. En tiempos de Cesar Augusto el
estadstico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se
edit el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (16201674) y W. Petty (1623-1687) desarrollaron la estadstica vital.
En esta misma poca, en forma independiente naci la rama matemtica de las
probabilidades a raz del inters en el juego de Antoine Gombaud (el caballero de Mer:
1610-1685) y de los matemticos B. Pascal (1623-1662) y P. Fermat (1601-1665).
Posteriormente, J Bernouilli (1654-1705), A. De Moivre (16671754), P.S. Laplace
(1749-1827) y K.F. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades,
combinndola con los datos estadsticos. A. Quetelet (1796-1874) y finalmente F.
Galton (1822-1911) aplicaron la estadstica al anlisis de la variabilidad biolgica.
El desarrollo definitivo de la estadstica, uniendo sus races descriptivas y
matemticas viene con K. Pearson (1857-1936), W.S. Gosset Student (1876-1937), J.
Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962).
Tal vez las figuras mas destacadas que relacionaron la estadstica y la biologa, dando
origen a la biometra, son K. Pearson (fundador de la revista Biometrika) y R.A.
Fisher (Statistical methods for research workers, 1925).
En paralelo, la estadstica matemtica ha sido enriquecida con las contribuciones
de Maxwell, Boltzman y Gills (mecnica estadstica) y por Kolmogorov (probabilidades
axiomticas) y Lebesgue (teora de la medida).
I.2.- Definicin
La estadstica actual se puede definir de muchas formas, por ejemplo conjunto
de mtodos que permiten recolectar presentar y analizar informacin o anlisis
cientfico de datos basados en fenmenos naturales (Sokal & Rholf, 1969). Sin
embargo una definicin til en el contexto de su aplicacin en las ciencias es:

12

La estadstica es la ciencia, pura y aplicada, que crea, desarrolla y aplica


tcnicas para la descripcin de datos y la evaluacin de la incertidumbre de
inferencias inductivas (modificada de Steel & Torrie, 1985).
Esta definicin hace nfasis en dos aspectos:
i)

ii)

la estadstica no es slo un conjunto de mtodos o recetas para aplicar ante


determinados problemas, sino que tambin incluye la creacin y el
desarrollo de la teora y mtodos.
la estadstica en ciencias se basa en la evaluacin de la incertidumbre
(probabilidad) de ciertas proposiciones (hiptesis) inferidas mediante un
proceso de induccin (de lo particular a lo general)

La estadstica tiene tres captulos claramente diferentes que se correlacionan con


el desarrollo histrico:
I)
II)
III)

Estadstica Descriptiva: cuyo fin es describir datos.


Estadstica Matemtica: que constituye la base terica de toda la
estadstica.
Inferencia Estadstica: que tiene dos sub-captulos con objetivos
diferentes:
a) Estimacin: cuyo fin es aproximar el valor de ciertos parmetros
b) Docimasia o prueba de Hiptesis: cuyo objetivo es probar
hiptesis.

La estadstica en investigacin ha enriquecido el mtodo cientfico, dndole


sentido y un marco terico a sus diversas etapas. Este ltimo se puede describir
detalladamente como:
i)
eleccin del sistema a estudiar y su enfoque,
ii)
enunciado del problema,
iii) definicin de objetivos,
iv) planteamiento de la hiptesis,
v)
deduccin de consecuencias verificables de ella,
vi) dicotoma de la hiptesis (Ho vs. H1),
vii) diseo experimental:
a) decidir tipo de investigacin:
1) Recopilacin de datos ya registrados (estudio retrospectivo) u
obtener nuevos datos (estudio prospectivo).
2) Un estudio instantneo (estudio transversal) o un seguimiento
(estudio longitudinal).
3) Ser slo un estudio descriptivo o explicativo?

13

4) Ser experimental o no-experimental?


b) definir el Universo,
c) diseo de la muestra,
d) definicin de grupo control,
e) definicin de unidades de observacin,
f) definicin de las fuentes de informacin,
g) unidades de medidas y escalas
viii) eleccin de estadgrafos para la prueba de la hiptesis,
ix) eleccin del nivel de significacin
x)
docimasia de hiptesis
xi) toma de decisin (rechazo Ho?)
xii) representacin de la informacin
xiii) interpretacin de los resultados,
xiv) gnesis de nuevas hiptesis

14

II.- ESTADSTICA DESCRIPTIVA


II.1.- Observaciones, variables y escalas
La estadstica trabaja con datos u observaciones, que en general son valores
numricos de una variable en una unidad de observacin particular. Por ejemplo, si
estamos interesados en la edad de los individuos, la unidad de observacin es el
individuo, la variable de inters es la edad, la unidad de medida puede ser aos y un
dato puede ser 5 aos en un individuo.
Las variables pueden ser cuantitativas cuando miden cantidad o contenido de
algn atributo, o bien cualitativas cuando se refieren a calidad. Por ejemplo masa, peso,
longitud, cantidad son cuantitativas y color, olor y textura son cualitativas. Las variables
pueden ser tambin continuas cuando se puede establecer correspondencia biunvoca
con los nmeros reales, o discretas cuando establecen relacin con los nmeros
naturales.
Las escalas de medidas pueden ser nominales, ordinales, discretas, continuas o
por intervalos. Por ejemplo, nominal: negro o blanco; ordinal: corto, mediano, largo;
continua: gramos; por intervalos: menor que 10 aos, mayor o igual que diez aos.
II.2.- Representacin de la informacin
Los datos u observaciones se representan de diversos modos, que en general se
pueden resumir en dos: i) grficos, e ii) tablas. Entre stos, son de inters las tablas de
distribucin de frecuencias y los histogramas y polgonos de frecuencia
Tablas de distribucin de frecuencias.
Las tablas de distribucin de frecuencias de n datos u observaciones corresponden
bsicamente a la representacin en columnas del conjunto de valores de una variable
(niveles de una variable: yi) y sus frecuencias absolutas (ni).
En el caso de variables cualitativas adquiere una representacin muy simple:
Variable
Y1
Y2
.......
Yk

Frecuencia absoluta (ni)


n1
n2
.......
nk
n =ni

%
(n1 /n)100
(n2 /n)100
.........
(nk /n)100
100

15

En el caso de las variables discretas, si consideramos una variable X, donde Xi


son las observaciones e yi los k niveles de la variable. Entonces podemos definir:
i)

frecuencia relativa hi ni / n

ii)

frecuencia acumulada N j ni

i j

i 1

i j

iii)

frecuencia acumulada relativa H j hi


i 1

En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi.
En el caso de las variables continuas muchas veces es necesario agrupar datos
(series agrupadas) por intervalos llamados intervalos de clase. Estos se anotan como
[yi-1, yi], donde yi-1 representa el lmite inferior del intervalo e yi, el lmite superior.
La amplitud de cada intervalo es ci = yi- yi-1.
Si definimos recorrido o rango de la variable X como la diferencia entre los
valores mximo y mnimo, R = xmax xmin, y se agrupa en k intervalos iguales,
entonces ci = R/k.
En estas tablas de distribucin de frecuencias se define marca de clase como el
valor promedio entre los lmites del intervalo: yi = (yi- yi-1)/2.
La tabla incluye las columnas: yi-1, yi, ci, yi, ni, hi, Ni, y Hi
Histograma y polgono de frecuencias
La tabla de distribucin de frecuencias tiene una expresin grfica natural en el
histograma y el polgono de frecuencias. El histograma de frecuencias corresponde a un
grfico de barra de X vs hi, donde cada barra es un intervalo. El polgono de frecuencias
corresponde a la grfica de yi vs hi.
Ejemplo 1.La variable X con la siguiente tabla de distribucin de frecuencias:

16

yi-1
2
4
6
8
10
12

Yi
4
6
8
10
12
14

yi
3
5
7
9
11
13

ci
2
2
2
2
2
2

ni
20
25
30
10
12
3

hi
0.2
0.25
0.3
0.1
0.12
0.03

Ni
20
45
75
85
97
100

hi
0.2
0.45
0.75
0.85
0.97
1.00

En esta figura, el histograma corresponde al grfico de barras y el polgono a la


lnea poligonal que une los puntos medios de cada barra.
II.3.- Medidas de resumen
La informacin se puede representar en grficos o tablas, sin embargo stas no
son tiles a la hora de tomar decisiones estadsticas. Es mejor caracterizar las variables
por ciertas medidas que describen su distribucin o histograma. Estas se denominan
medidas de resumen y se pueden dividir en cuatro:

17

a) medidas de posicin: cuyo fin es representar la posicin


central de la distribucin u otras posiciones de inters.
b) medidas de dispersin: cuyo fin es representar la
dispersin de los datos en torno a alguna medida de
posicin.
c) medidas de simetra o sesgo: cuyo fin es representar el
tipo de asimetra de la distribucin.
d) medidas de apuntamiento o curtosis: cuyo fin es medir la
elevacin de las frecuencias relativas.

Medidas de posicin
La medida de posicin ms usada es el promedio, que podemos definir
preliminarmente como una medida central que se relaciona el valor de una variable con
su frecuencia relativa de presentacin. Corresponde a la media aritmtica y se puede
expresar como:
x

Si la serie ha sido agrupada, entonces y

n y
i

hi yi

Algunas propiedades den promedio son:


i) La suma de las desviaciones de los valores en torno al promedio es nula.
Si definimos zi = xi -x, entonces zi = 0.
ii) Dado zi = xi u, con u un valor cualquiera, entonces zi es mnima si
u = x.
El promedio entonces es una medida central en donde se equilibra la
distribucin completa, es decir es su centro de masas.
Una segunda medida de posicin es la mediana que corresponde a un valor bajo
el cual se encuentra el 50% de las observaciones. Es decir si ordenamos en orden
ascendente la serie de n observaciones, la mediana corresponde al valor Me = x (n+1)/2 si n
es impar y al valor Me = (xn/2+xn/2 +1)/2 si n es par.

18

Si la serie se encuentra agrupada la mediana se calcula como:


Me y ' L1

cL (n / 2 N L1 )
nL

Donde L es el subndice del intervalo que contiene a la mediana, y ste intervalo


es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones
(cuya Nj sobrepasa a n/2).
Una medida de posicin asociada a la mediana es el percentil Pp que
corresponde al valor bajo el cual se encuentra el p% de las observaciones. En una
serie agrupada, se puede calcular como:
Pp y ' L1

cL (np / 100 N L1 )
nL

Es fcil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina
primer, segundo y tercer cuartl (Q1, Q2 y Q3). Del mismo modo se pueden definir los
deciles, por ejemplo P10 es el primer decl.
La tercera medida de inters es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una frmula que en cierta manera hace perder sentido
a la definicin.
Md y ' L1 cL

nL1
nL1 nL1

Observaciones
i)
ii)

Si la distribucin de frecuencias es simtrica, entonces X Me Md .


Si la distribucin de frecuencias es asimtrica, se puede reconocer una
asimetra negativa en que X Me Md , y una asimetra positiva en que
X Me Md .

19

Medidas de dispersin
Las medidas de dispersin son aquellas que evalan la variabilidad de las
observaciones. La ms importante es la varianza (V(x) o S2) que podemos definir como
la desviacin cuadrtica media de los valores en torno al promedio, es decir:
S2 = (xi-x)2/n
Observamos que (xi-x)2 = (xi2 +x2 2xix) = xi2 +x2 2xix) =
= xi2 +nx2 2nx2 = xi2 -nx 2 , y entonces:
xi2
s x2
n
2

ni yi2
y 2 hi yi2 y 2
En una serie agrupada s
n
2

Algunas propiedades de la varianza son: Si a y b son constantes, entonces:


V(a) = 0; V(ax) = a2V(x); V(a+x) = V(x) y V(ax+b) = a2V(x).
Un problema de la varianza como medida de dispersin es que se expresa en
unidades cuadrticas. Por ejemplo, si la variable se mide en metros, su varianza se mide
en metros cuadrados.
Una medida de dispersin an ms usada que la varianza y que corrige el
problema de las unidades, es la desviacin estndar (s) que corresponde a la raz
cuadrada de la varianza:
s s2

Por su estructura, la desviacin estndar corresponde aproximadamente a una


distancia: la distancia media desde las observaciones individuales al promedio.
Las desviaciones estndar dependen del valor del promedio, siendo ms grandes
cuanto mas grande es este ltimo, lo que hace difcil su comparacin. El coeficiente de
variacin (CV) corrige este problema y corresponde a una desviacin estndar
normalizada dividida por el promedio:

20

CV s / x

Otra medida de dispersin es el error estndar (Es): Es s / n


Sin embargo, esta tiene un sentido diferente. Corresponde a la desviacin
estndar del promedio, es decir si de un conjunto de observaciones tomamos varias
sub-muestras y en cada una de ellas calculamos un promedio y a continuacin
calculamos la desviacin estndar de stos promedios, obtenemos Es. Esta medida
adquiere sentido en inferencia estadstica.
Otras medidas de dispersin son el rango (R) R = xmx- xmn y el recorrido
intercuartlico (Q): Q = P75-P25 = Q3-Q1.
Medidas de simetra o sesgo
Las medidas de simetra se basan en las relaciones entre la moda, mediana y
promedio en las distribuciones simtricas y asimtricas. Existe una relacin emprica
que relaciona stas medidas: x Md 3( x Me) . A partir de sta se usan los
coeficientes de asimetra de Pearson:

x Md
3( x Me)
y 5
s
s

Si cualquiera de los > 0 se habla de sesgo positivo, o distribucin sesgada a la


derecha. Si el cambio < 0 el sesgo es negativo o la distribucin es sesgada a la
izquierda.
Medidas de apuntamiento o curtosis
El apuntamiento o curtosis se mide en referencia a una distribucin muy habitual
denominada distribucin normal (ver ms adelante). Esta distribucin se puede
caracterizar a travs de un coeficiente =4/S4 = [ (xi-x)4/n]/S4. En esta distribucin
= 3. Esto permite clasificar las distribuciones como:
i)
ii)
iii)

Leptocrticas o ms apuntadas que la normal, si > 3,


Mesocrticas o igualmente apuntadas, si = 3, y
Platicrticas o menos apuntadas que la normal, si < 3.

21

Ejemplo 2.Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posicin:
a) Promedio: y 0.2 3 0.25 5 0.3 7 0.1 9 0.12 11 0.03 13 6.56
b) Intervalo de moda: (6; 8)
c) Mediana: el intervalo que contiene la mediana es aqul que por primera vez
sobrepasa la mitad de la cantidad total de observaciones, es decir 50. En este
caso es el intervalo (6; 8). Entonces yL-1= 6. y la mediana es:
Me = 6 + 2((50-45)/30) = 6.33.
d) Primer cuartl: el intervalo que contiene Q1 es aqul que por primera vez
sobrepasa el 25% de la cantidad total de observaciones, es decir 25. En este
caso es el intervalo (4; 6). Entonces yL-1= 4. y Q1 es:
Q1 = 4 + 2((25-20)/25) = 4.4.
e) Tercer cuartl: en forma anloga al clculo anterior:
Q3 = 8 + 2((75-75)/10) = 8.
Tambin podemos calcular las siguientes medidas de dispersin:
a) Varianza: en este caso lo ms simple es calcular primero hiyi2:

h y
i

2
i

0.2 9 0.25 25 0.3 49 0.1 81 0.12 121 0.03 169 50.44

Y, ahora se puede calcular fcilmente la varianza:

s 2 hi yi2 y 2 50.44 (6.56) 2 7.41


b)
c)
d)
e)
f)

Rango: 14-2= 12.


Desviacin estndar: s = (s2) = 2.74
Coeficiente de variacin: CV = 2.74/6.56 = 0.41
Error estndar: Es = 2.74/(100) = 0.27.
Recorrido intercuartlico: Q3-Q1 = 8-4.4 = 3.6.

Adems en ocasiones es til cuantificar la simetra, en ste caso a travs de:


5 = 3(6.56-6.33)/2.74 = 0.25. Esto indica un pequeo sesgo o asimetra a la derecha.

22

Ejercicios de Estadstica descriptiva


1.a.

Pesos de nacimiento de nios (en kg)


Rango

02
24
46
68
8 10
10 12
1.b.

Marca de Frecuenci Frec.


Frec.
clase (yi)
a (ni)
acumulada relativa
(Ni)
(hi)

Frec.
relativa
acumulada
(Hi)

2
6
18
12
7
3

Datos de mg de glicina por mg de creatinina en la orina de 20 chimpancs


(tomadas de Gartler, Firchein y Dobzhansky, 1956)
0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300
0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300

Para los dos conjuntos de datos presentados arriba:


i)
Calcular: promedio, mediana, moda, percentil 30, desviacin estndar y
coeficiente de variacin.
ii)
Son simtricas las distribuciones? Comprubelo haciendo histogramas de
frecuencia.
iii) Realice histogramas de frecuencia acumulada para cada grupo de datos.
R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P 30: 4.71; desviacin estndar: 2.39;
CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P30: 0.0475; desviacin
estndar: 0.120; CV: 0.979.

23

2. Se ha realizado el estudio de dos medicamentos utilizando ratas. Se midi el


porcentaje cambio de una variable X en la sangre arterial tras la administracin de
dosis idnticas de distintos medicamentos.
% de cambio en X
Compuesto I Compuesto
II
26.0 31.7 55.1 65.8
30.0 32.0 56.3 58.3
30.5 28.6 60.0 57.1
26.2 29.2 63.5 55.4
30.7 33.0 64.9 56.5
31.3 32.0 62.7 55.1
30.5 32.6 60.5 57.0
30.1 28.2 59.2 59.3
29.6 29.1 63.7 60.7
30.2 30.7 64.1 62.1
i)
ii)
iii)
iv)

63.6
64.0
65.3
62.8
59.5

Calcular la media y la mediana muestral.


Calcular la varianza y la desviacin estndar de la muestra.
Calcular rango y el rango intercuartlico.
Cul compuesto produjo una respuesta ms variable?

R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variacin)

24

II UNIDAD: ESTADISTICA MATEMATICA

25

III.- PROBABILIDADES
III.1.- Experimento Aleatorio, Espacio Muestral
Definiciones Llamaremos experimento determinstico, a aquel que repetido en
las mismas condiciones, da siempre el mismo resultado, en caso contrario lo llamaremos
aleatorio.
Llamaremos espacio muestral () al conjunto de todos los posibles resultados de
un experimento aleatorio. Un punto muestral ser un resultado posible, es decir, un
elemento de omega.
Llamaremos sigma-lgebra en omega a un conjunto - formado por
subconjuntos de que cumple con:
i) Si P (subconjunto de ) , entonces P -.
ii) Si P y Q - entonces P Q -.
iii) Si P y Q - entonces P Q - .
Es decir, - es cerrada bajo complementacin, unin e interseccin. Una -
es el conjunto de todos los subconjuntos de ( ()).
Llamaremos suceso o evento a los elementos de -, o de otra forma, a cualquier
subconjunto de . En este sentido - es el conjunto de los sucesos.
Ejemplo1.Sea el experimento aleatorio tiro un dado Su espacio muestral es = {1, 2, 3,
4, 5, 6} Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6)
= que salga 1 o 2 o 3 o 4 o 5 o 6.
Del ejemplo anterior es evidente que hay sucesos ms posibles o probables
que otros. Es necesario definir entonces probabilidad de un suceso.
Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.
Definicin clsica: Llamaremos probabilidad des suceso A al cuociente entre el
nmero de resultados o casos favorables a A y el nmero de resultados o casos
posibles.

26

P( A)

casosfavorables
casosposib les

As, en nuestro ejemplo, la probabilidad de sacar un dos en una tirada de un dado


(A = 2) es P(A) = 1/6, la probabilidad de sacar un uno o un tres (B = (1,3)) es P(B) = 2/6
y la probabilidad de sacar cualquier nmero (C = (1, 2, 3, 4, 5, 6)) es P(C) = 6/6 = 1.
Definicin de Frechet: Si un experimento aleatorio se realiza n veces, es posible
estimar la probabilidad del suceso A como la frecuente relativa de ocurrencia de A, es
decir, el cuociente entre el nmero de veces en que dio como resultado A (nA) y el
nmero de veces en que se repiti el experimento.
P( A)

nA
n

Se debe hacer notar que al contrario de la definicin clsica, esta es una


definicin a posteriori, es decir, exige que el experimento se haya realizado repetidas
veces, antes de estimar la probabilidad de un suceso. En nuestro ejemplo, habra que
haber tirado el dado en varias oportunidades para luego calcular las probabilidades.
La crtica ms importante a la definicin de Frechet, es que no responde a la
pregunta cuantas veces hay que repetir el experimento? La respuesta es: un nmero
suficientemente grande de veces; y es esto lo que quiso corregir Von Mises.
Definicin de Von Mises: La probabilidad del suceso A corresponde a la
frecuencia relativa de ocurrencia de A, es decir, el cuociente entre el nmero de veces
en que dio como resultado A (nA) y un nmero suficientemente grande de veces en que
se repiti el experimento: El lmite al que tiende la frecuencia relativa, cuando n tiende
a infinito.
P( A) lim
(nA / n)
n

Un problema bsico con esta definicin, es que no es posible repetir un


experimento infinitas veces.
Definicin axiomtica (Kolmogorov): Una probabilidad es una funcin:
P: - -----------------------> {0,1}
A ----------------------------> P(A), tal que:

27

i) P () = 1
ii) P (A) > 0 A -
iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o)
Definicin Al triplete (,-, P) se le denomina Espacio de probabilidades.

III.2.- Probabilidades y Conjuntos


Es posible establecer analogas entre los conjuntos y las probabilidades:
Conjunto universo: .
Conjunto vaco (): suceso imposible.
Elemento de -: suceso.
A B: sucede A o sucede B o ambos.
A B: sucede A y sucede B.
AC: no sucede A.
Definicin Dos sucesos A y B sern mutuamente excluyentes si la ocurrencia
de A que no ocurre B. As, si A B = entonces A y B son mutuamente
excluyentes.
Definicin Dos sucesos A y B son complementarios si la no ocurrencia de A
la ocurrencia de B y a la inversa. Es decir AC = B. Notemos que A B = , es decir,
constituyen una particin de omega. Observemos tambin que los sucesos
complementarios son mutuamente excluyentes, pero no todos los sucesos excluyentes
son complementarios.
Una definicin de probabilidad de un suceso, asociada a la nocin conjuntista, es
P(A) = m(A) / m(), en que m(A) y m() representan alguna medida del suceso y del
espacio muestral respectivamente. Un ejemplo de esta medida es el cardinal de A y
de omega (P(A) / #(A) / #())

28

III.3.- Propiedades de las Probabilidades


I) P () = 0
Demostracin Sea A = y B = , como A B = , entonces usando las propiedades
1 y 3 de la definicin axiomtica, P (A B) = P( ) = 1 = P(A) + P(B) = 1 + P(B),
entonces P(B) = P( ) = 0.
Ejemplo 2.La probabilidad que salga 0 al tirar un dado es P(0) = P() = 0.
II) Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai)
Demostracin por extensin directa de la propiedad 3.
Ejemplo 3.Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6)
= 1/6 +1/6 = 2/6, pues los sucesos sale 5 y sale 6 son excluyentes.
IV)

Probabilidad del Complemento: P (AC) = 1 P(A)

Demostracin P() = 1 = P(AC A) = P(AC) + P(A).


Ejemplo 4.Si la probabilidad de que un individuo lea el diario es p = 0.2, entonces la
probabilidad que no lo lea es q = 1-p = 1-0.2 = 0.8.
IV) Monotona: Si A B, entonces P(A) < P(B)
Demostracin Si A B, #A #B, entonces P(A) < P(B)
Ejemplo 5.La probabilidad de encontrar un gato negro es menor que la de encontrar un gato,
pues los gatos negros son un sub-conjuto del conjunto de los gatos.

29

V) Probabilidad Compuesta: P(A B) = P(A) + P(B) P(A B)


Demostracin P(A B) = #(A B)/#() =[#(A) + #(B) - #(A B)]/ #() = #(A)/
#() + #(B)/ #() - #(A B)/ #() = P(A) + P(B) P(A B).
Es posible extender este teorema a ms de 2 conjuntos, por ejemplo: P(A B C)=
P(A) + P(B) + P(C) P(A B) P(A C) P(B C)+ P(A B C)
Ejemplo 6.Si se tienen 60 alumnos, entre los cuales 15 slo toman un curso de matemticas
(M); 20 slo de fsica (F); 10 slo de qumica (Q); 4 M y F; 5 F y Q; 6 M y Q y ninguno
M F y Q. Entonces la probabilidad que un alumno tome matemticas o fsica es : P(M
F) = P(M) + P(F) P(M F) = (15+6+4)/60 +(20+4+5)/60 4/60 = 50/60 =5/6
(Haga un diagrama de Venn, para una mejor comprensin del problema).
VI) Probabilidad que ocurra al menos un evento:
P( Ai)= 1 P( AiC), lo que se interpreta como P(alguno) = 1 P (ninguno)
Demostracin Por teorema de De Morgan ( Ai)C = ( AiC) entonces aplicando la
propiedad del complemento P( Ai)= 1 P[( Ai)C] = 1 -P( AiC).
Ejemplo 7.Si de dos personas, la probabilidad que muera la primera (p)es 0.1 y la
probabilidad que muera la segunda (s) es 0.01, entonces la probabilidad que muera
alguna P(alguna) = 1- P(ninguna) = 1- 0.9x0.99 = 0.109.
III.4.- Independencia Estocstica y Probabilidad Condicional
Definicin Dos sucesos A y B se dirn independientes si la ocurrencia de uno
no influye en la ocurrencia del oro.
Ejemplo 8.Sean los sucesos A= llueve en Santiago, B = Juan duerme y C = hacemos un
asado. Los sucesos A y B son probablemente independientes; no as los sucesos A y
C.

30

Probabilidad condicional Definiremos probabilidad del suceso A, dado que ocurri el


suceso B (condicin) al cuociente:
P( A / B)

P( A B)
P( B)

Podemos ahora hacer una definicin ms formal de sucesos independientes: A y


B son independientes si P(A/B) = P(A). Entonces, despejando P(A B) en la
definicin anterior, se sigue inmediatamente el siguiente teorema:
Teorema de la probabilidad conjunta Si A y B son independientes, entonces P(A
B) = P(A) P(B) (teorema de la y)
Definicin El conjunto {Bi} constituir una particin de si i) Bi Bj = i,
j y ii) Bi = .
Teorema de la probabilidad total Dado un suceso A y una particin de {Bi},
entonces:
P( A) P( A / Bi ) P( Bi )
i

Demostracin: A = (A B1) (A B2) ... (A Bn) Como (A Bi) (ABj) =


, i, j, por el teorema de la o
P(A) = P(A B1) + P(A B2) + ... P(A Bn) = P(A Bi) y por la definicin de
probabilidad condicional,
P (A) = [P(A/Bi) P(Bi)]
Teorema de Bayes Dado un suceso A y una particin {Bi} entonces,
P( Bi / A)

P( A / Bi ) P( Bi )
j P( A / B j ) P( B j )

Demostracin Por definicin P(Bi/A) = P(Bi A)/P(A) y por lo tanto,


P(Bi/A) = P(A/Bi) P(Bi)/P(A) y aplicando el teorema de la probabilidad total,

31

P(Bi/A) = P(A/Bi) P(Bi) / [P(A/Bj)P(Bj)]


Ejemplos 9-13.9.- Se lanza una moneda tres veces. a) Cul es su espacio muestral? b) Cul es la
probabilidad de obtener exactamente 2 caras? c) cual es la probabilidad de obtener al
menos 2 caras d) cual es la probabilidad de que los tres lanzamientos sean iguales?
R:

a) = {ccc, ccs, csc, css, scc, scs, ssc, sss}


b) Los nicos resultados en que salen exactamente dos caras son: {2c} = (ccs,
csc, scc) es decir hay 3 casos favorables, o, de otra manera, la medida o
cardinal de este suceso es 3.- Los casos posibles (o el cardinal del espacio
muestral) son 8, entonces, P(2c)/m(omega) = casos favorables/casos posibles
= 3/8.
c) P(2c o 3c) = P(2c U 3c) = P(2c) + P(3c) = 3/8 +1/8 = .
d) P(3c o3s) = P(3c U 3s) = P(3c) + P(3c) = 1/8 + 1/8 =

10.- De un grupo de 200 estudiantes, 137 se inscribieron en Biologa, 50 en


Matemticas, y 124 en Zoologa. El nmero de inscritos en Biologa y Matemticas es
33, en Matemticas y Zoologa es 29 y en Biologa y Zoologa es 92. Los inscritos en
las tres clases es 18. Al escoger un alumno al azar de los 200: a) Cul es la
probabilidad de que est en Biologa o Matemticas? b) Cul es la probabilidad que no
est en ninguna clase?
R: P(B) = 137/200; P(M) = 50/200; P(Z) = 137/200; P(B M) = 33/200; P(M Z) =
29/200; P(B Z) = 92/200; P(B M Z) = 18/200.
a) P(B M) = P (B) +P(M) P(B M) = (137+50-33)/200 = 154/200.
b) la probabilidad de que est en al menos una clase es P (B M Z) entonces la
probabilidad de que est en ninguna es P(0) = 1-P(B M Z)
P(B M Z) = P(B) + P(M) + P(Z) P(B M) P(B Z) P(M Z) + P(B M
Z) = (137 + 50 + 124-33-29-92+18)/200 = 7/8, por lo que P(0) = 1-7/8 =1/8.
11.- Se estudian 98 perros con sospecha de hepatitis. Se les palpa el hgado
clasificndolo en: 0: no se palpa, 1: aumentado de tamao, 2: muy aumentado de
tamao. A los mismos perros se les hace biopsia heptica y se obtiene:

32

Lesin
heptica
Cirrosis
Hematoma
Esteatosis
Sin lesin
Total

Tamao del hgado


0
2
1
4
8
13
12
8
9
15
30
40

1
12
14
9
3
28

Total
17
25
29
27
98

Sea C: el perro es cirrtico, y T2: el hgado tiene tamao.


Determine a) P(C), b) P(T2), c) P(C T2) d) son independientes C y T2?
R:

a)
b)
c)
d)

P(C) = 17/98
P(T2) = 28/98
P(C T2) = P(C/T2) P (T2) = 12/28 28/98= 12/98
P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.

12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son frtiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:
a) Cul es la probabilidad que sea frtil?
b) si fue frtil, cual es la probabilidad de que sea de gallina?
R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una particin de , pues G P Gz =
y G P Gz = . Entonces por teorema de la probabilidad total:
P(F) = P(F/G P (G) + P(F/P) P (P) + P(F/Gz) P (Gz) = 0.868.
b) P(G/F) por teorema de Bayes, es P(G/F) = P(F/G) P(G)/P(F) = 0.168.
13.- Se quiere saber la bondad de la radiografa en el diagnstico de la piometritis en
perros. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis, y se
anotan las radiografas que sugirieron tal diagnstico. Se registraron los siguientes
resultados:

33

Radiografa

(+) para pm

(-) para pm

Total

Animales con pm
Animales sin pm
Total

13
8
21

7
32
39

20
40
60

a) Cul es la probabilidad de que se encuentre una radiografa positiva dado que la


paciente tiene piometritis? (concepto de sensibilidad de un examen)
b) Cul es la probabilidad de que la radiografa sea negativa dado que la paciente no
tiene piometritis? (concepto de Especificidad de un examen)
c) con estos datos que concluira acerca de este examen
R:

a) Sensibilidad: P(e+/dg+) = 13/20 = 0.65


b) Especificidad: P(e-/dg-) = 32/40 = 0.80
c) No es un buen examen, pues es capaz de detectar slo el 65% de los casos, en
pacientes con la patologa. De los casos en que la radiografa sale positiva,
slo un 80% efectivamente son piometritis.

III.5.- Probabilidades en Medicina


Probabilidades en el diagnstico
Un concepto til muy usado en medicina que se relaciona con probabilidad es la
chance (odds). Esta se puede definir como la razn entre la probabilidad de ocurrencia
de un suceso (p) y la probabilidad complementaria de que ste no ocurra (1-p):
O

p
1 p

Este concepto tiene un uso habitual y se relaciona bi-unvocamente con la


probabilidad p. Por ejemplo el decir que tengo una chance de O = 4/1 de ganar un
partido es equivalente a decir que la mi probabilidad de ganar es p = 4/(4+1) = 0.8.

34

En medicina es habitual el uso de exmenes para el diagnstico de enfermedades.


Sin embargo los exmenes no son 100% certeros para hacer el diagnstico. A veces un
individuo posee una enfermedad y el examen sale negativo (falso negativo) y otras
veces sale positivo para la enfermedad y el paciente no la tiene (falso positivo). Es
posible representar esto en la siguiente tabla:

ENFERMO
NO ENFERMO
Total

EXAMEN
+
A
C
a+c

B
D
b+d

Total
a +b
c+d
n = a+b+c+d

En este caso, los falsos positivos seran c y los falsos negativos seran b.
A partir de esta tabla se pueden definir ciertos conceptos:
La Sensibilidad de un examen corresponde a la probabilidad que el examen salga
positivo dado que el paciente est enfermo:
S P( / E )

a
ab

Representa la capacidad del examen de detectar la enfermedad. La Especificidad


del examen corresponde a la probabilidad de que el examen salga negativo dado que el
paciente no tiene dicha enfermedad (aunque tenga otra):
Sp P( / noE )

d
cd

Es decir, mide la capacidad del examen de responder a esa y slo a esa


enfermedad.
El Valor predictivo positivo corresponde a la probabilidad de que el paciente
est enfermo dado que el examen sali positivo, es decir mide la capacidad de
prediccin de la enfermedad:
VPP P( E / )

a
ac

35

El Valor predictivo negativo corresponde a la probabilidad de que el paciente no


est enfermo dado que el examen sali negativo, es decir mide la capacidad de descarte
de la enfermedad.
VPN P(noE / )

d
bd

La certeza diagnstica corresponde a la probabilidad general de acertar P(C) =


(a+d)/n.
P(C )

ad
n

Otra medida interesante es la razn o coeficiente de verosimilitud que se define


como la razn entre la probabilidad de un cierto resultado en el examen dado que el
paciente est enfermo, dividido por la probabilidad de ese mismo resultado, dado que no
lo est. Por ejemplo, para un resultado positivo:
LR P( / E ) / P( / noE ) P( / E ) /(1 P( / noE ))

S
1 Sp

Para un resultado negativo es fcil ver que:


LR (1 S ) / Sp

En cierta medida LR mide la potencia de un examen: cuanto ms positivo es en


presencia que en ausencia de enfermedad.
Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una
probabilidad P de tener una enfermedad, cuando se hace el examen y este sale
positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el
teorema de Bayes:
P(E/+) = P(+/E)P(E)/(P(+/E)P(E) + P(+/noE)P(noE) = SP/(SP + (1-Sp)(1-P)).
La probabilidad de que no tenga la enfermedad es P(noE/+) = 1 [SP/(SP+(1Sp)(1-P)] = (1-Sp)(1-P)/ /(SP+(1-Sp)(1-P)). Entonces su chance a posteriori es Op =
P(E/+)/P(noE/+) = SP/(1-Sp)(1-P), es decir la chance a posteriori es:
Op LR Oo

36

entonces el coeficiente de verosimilitud acta como un factor potenciador de la


chance. Este mismo resultado es vlido para un resultado negativo.
Ejemplo 14.- Supongamos que para una enfermedad X, se est ensayando un
examen A y que en un estudio poblacional representativo se obtuvo:
EXAMEN A
+
ENFERMO de X 85
NO ENFERMO 10
de X
Total
95

20
200

Total
105
210

220

315

Entonces, la prevalencia de la enfermedad se estima en: p = 105/315 = 0.33 y la


chance de un enfermo de tener dicha enfermedad antes de hacerse el examen es: O0 =
0.33/(1-0.33) = 0.5, es decir 1es a 2. La sensibilidad del examen es S = 85/105 = 0.81; la
especificidad es Sp = 200/210 = 0.952; el valor predictivo positivo es VPP = 85/95 =
0.894; el valor predictivo negativo es VPN = 200/220 = 0.909; la probabilidad de
certeza es C = 285/315 = 0.904 y el LR(+) = 0.81/(1-0.952) = 16.875. As, si a un
paciente le sale el resultado positivo, entonces ahora su chance de tener la enfermedad
es: Op = 0.5x16.875 = 8.44, es decir alrededor de 8 a 1.
Probabilidades en el tratamiento
Cuando se ensaya un tratamiento en general se dispone de dos grupos, uno que no
recibe el tratamiento (grupo control) y otro que lo recibe (grupo experimental) y se
mide un cierto efecto o evento, en general negativo (i.e. muerte).
Esto se representa en una tabla del tipo:

Evento
No evento
Total

Control
A
C
A+c

Experimental
B
D
B+d

Total
A+b
C+d
N=a+b+c+d

Se define como tasa de evento en el control:


CER P(evento / control )

a
y tasa de evento en el grupo experimental:
ac

37

EER P(evento / ex)

b
bd

Estas tasas miden los riesgos absolutos de presentar cierto evento en situacin
control y en situacin experimental. De aqu surgen varias medidas tiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicar si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminucin en ste:
RR EER / CER

Otra medida importante es la reduccin en el riesgo absoluto producida por el


tratamiento experimental: reduccin de absoluta del riesgo:
ARR CER EER

Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrn beneficiados
con el tratamiento, o de otra manera habra que tratar 100 para beneficiar a uno. En otras
palabras el nmero necesario para beneficiar a uno es:
NNT 1/ ARR

Otra medida de menor inters es la reduccin relativa del riesgo:


RRR (CER EER) / CER

Esta representa la baja porcentual en el riesgo producida por el tratamiento.


Ejemplo 15.- Se est ensayando un nuevo tratamiento Y para una enfermedad
de alta mortalidad y se obtiene:

Fallecidos
Vivos
Total

Tratamiento
antiguo (control)
20
90
110

Tratamiento Y

Total

5
100
105

25
190
215

Se puede observar que la tasa de mortalidad control es CER = 20/110 = 0.182,


mientras que la tasa experimental es EER = 5/105 = 0.048. As la reduccin absoluta del
riesgo con el nuevo tratamiento es ARR = 0.18-0.048 = 0.134 y entonces al tratar NNT
= 1/0.134 = 7.44, aproximadamente 8 pacientes se obtendr al menos un beneficiado. La
reduccin relativa del riesgo es RRR = 0.134/0.182 = 0.736, es decir un 73.6%.

38

Probabilidades en la etiologa
Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar despus cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cncer bronquial); e ii) Estudio de casos y controles que consiste en
la eleccin de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de stos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:
Caso (enfermo)
Expuesto
no expuesto

A
C
a+c

control
enfermo)
B
D
b+d

(no Total
a+b
c+d
n=a+b+c+d

Aunque la tabla sea la misma las medidas tiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se est
expuesto EER = a/(a+b) y cuando no se est expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:
ARA EER CER

El riesgo relativo:
RR EER / CER

Y el aumento relativo del riesgo:


RRA ( EER CER) / CER

En este caso el nmero necesario de expuestos para que haya 1 enfermo es:
NNH 1/ ARA

39

Ejemplo 16.- Supongamos que se realiza un experimento con ratones donde se


deja reproducir parejas en dos ambientes, uno con fertilizantes y otro sin fertilizantes.
Despus de un tiempo largo se estudia la presencia de malformaciones congnitas en las
cras, obteniendo:

Expuestos a
fertilizantes
No expuestos

Cras con
malformaciones
25

Cras sin
malformaciones
100

Total

16
41

200
300

216
341

125

En este caso la tasa de eventos de los no expuestos es CER = 16/216 = 0.074 y, en


el caso de los sujetos experimentales es: EER = 25/125 = 0.2. As el aumento absoluto
del riesgo es ARA = 0.2-0.074 = 0.126 y el nmero de individuos expuestos para que
ocurra al menos una malformacin es NNH = 1/0.126 = 7.93 individuos. El aumento
relativo del riesgo es RRA = 0.126/0.074 = 1.70, es decir de un 170%, al estar expuestos
a fertilizantes. El riesgo relativo es RR = 0.2/0.074 = 2.70, es decir, al estar expuestos el
riesgo es 2.7 veces el riesgo que se tiene al no estar expuesto.
En el estudio de casos y controles no tiene sentido el clculo de riesgos
directamente de la tabla porque los totales marginales de la derecha no son los expuestos
o no expuestos sino las sumas de los individuos que tienen antecedentes de exposicin.
Entonces una buena medida del riesgo y que se interpreta de la misma manera es la
razn de disparidades de la chance (Odds ratio (OR)). Esta corresponde a la razn entre
la chance de tener el factor de exposicin cuando se es un caso Oc = [a/(a+c)]/[c/(a+c)]
= a/c y la chance de tener el factor de exposicin cuando se es un control Oo = b/d. De
esta manera la razn de disparidades es:
OR

a / c ad

b / d bc

En este caso tambin es posible estimar un nmero necesario de expuestos para


tener un caso a travs de: NNH = [PEER(OR-1) +1]/[PEER(OR-1)(1-PEER)], donde
PEER es alguna estimacin de EER.
Ejemplo 17.- Se piensa que el cigarrillo tiene relacin con el cncer de Vejiga,
entonces se realiza un estudio en pacientes con cncer de vejiga (casos) y en sujetos

40

normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el


antecedente de consumo de cigarrillos, obteniendo:

Fumadores
No fumadores

Pacientes
con
Cncer de Vejiga
56
120
176

Controles
normales
26
200
226

Total
82
320
402

En este caso la chance de fumar en pacientes con cncer de vejiga es: 56:120,
mientras que cuando no se tiene este cncer es de 26:200. As la razn de disparidades
es OR = 56x200/(26x120) = 3.59. As si por ejemplo la prevalencia de cncer de vejiga
en fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(10.03)] = 14.3.

41

Ejercicios de Probabilidades
1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral es:
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o ms caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(AB).
R: 3/8; 1/4; 1/8.
2. Calclese la probabilidad de obtener un 1 o un 5 al tirar un dado. Comprubelo
lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa)
con distintos N muestrales (5, 10, 20, 30). Haga lo mismo para obtener la
probabilidad de que salga un nmero par.
R: 2/6.
3. Una urna contiene 4 bolas blancas, 2 rojas y 2 verdes. Cul es la probabilidad de
sacar:
i)
una bola roja de una bola sacada de la urna.
ii)
una bola verde de una bola sacada de la urna.
iii) una bola blanca y una bola roja.
R: 1/4; 1/4; 2/7.
4. En un juego, un combate simulado es resuelto tirando dados. Para determinar si el
ataque de un jugador es exitoso si le salen un * o un al lanzar un dado de 20 caras.
Si el ataque resulta exitoso, se lanza un dado de 8 caras para determinar el dao
causado por el ataque. Supongamos que se necesita un valor mayor o igual a 17 para
atacar exitosamente al oponente.
i)
Sea A el evento ataque exitoso, cul es P(A).
ii)
Sea B el evento causar 5 o ms puntos de dao, cul es P(B).
iii)
Si necesitas 6 o ms puntos de dao para matar a tu oponente, cul es la
probabilidad de matar a tu oponente en un ataque.
R: 1/10; 1/20; 3/160.
5. Una ruleta de casino tiene 37 nmeros, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los nmeros son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i)
obtener un 18 en un solo tiro de ruleta.
ii)
obtener un nmero rojo en un solo tiro.
iii) obtener un 5 o un nmero negro en un solo tiro.
iv) obtener un nmero rojo en el primer tiro y el cero en el segundo tiro.

42

R: 1/37; 18/37; 18/37; 18/1369.


6. En una encuesta realizada a 100 estudiantes de Ciencias, se obtuvo que 30 estaban
tomando el curso de bioestadstica, 20 estaban tomando qumica orgnica y 10
estaban los dos cursos. Si un estudiante es seleccionado al azar, cul es la
probabilidad de que est tomando bioestadstica o qumica orgnica?
R: 0.4.
7. En una competencia de tiro de dardos se tiene un blanco circular de 30 cm de radio.
La circunferencia menor tiene un radio de 5 cm. Si se tiran 3 dardos, y suponiendo
que todos los tiros caen dentro de la circunferencia mayor, cul es la probabilidad de
dar en el blanco (circunferencia menor) los tres tiros?.
R: 0.0000214.
8. Se tira una moneda y un dado a la vez.
i) Definir el espacio muestral .
ii) Expresar explcitamente los siguientes eventos; A = {sale cara y nmero par}, B =
{salga un nmero primo}, C = {salga sello y nmero impar}.
iii)
Expresar explcitamente el evento que: a) A o B ocurra, b) B y C ocurra y c)
slo C ocurra. Determinar sus probabilidades.
9. En una cierta ciudad, 40% de la gente tiene pelo castao, 25% tiene ojos pardos y un
15% tienen ambas caractersticas. Si una persona es seleccionada al azar:
i)
y tiene el pelo castao, cul es la probabilidad de que tambin tenga ojos
pardos.
ii)
y tiene ojos pardos, cul es la probabilidad de que no tenga pelo castao.
iii)
cul es la probabilidad de que no tenga ni los ojos pardos ni el pelo castao.
R: 0.375, 0.6, 0.5.
10.Se estima que el 15% del total de la poblacin adulta padece de hipertensin.
Adems se estima que el 75% de los adultos creen no tener este problema. Se estima
tambin que el 6% de la poblacin tiene hipertensin y no es consciente de tenerla. Si
un adulto opina que no tiene hipertensin, cul es la probabilidad de que la
enfermedad de hecho exista en este individuo?
R: 0.012.
11.Un estudio indica que el 10% de la poblacin de Chile tiene 75 aos o ms, y que el
1% de la poblacin total padece de deficiencia cardiaca moderada. Adems el 10.4%
de la poblacin tiene 75 aos o ms o padece de enfermedad cardiaca.
i)
hallar la probabilidad de que un individuo tenga 75 aos o ms y padezca de
deficiencia cardiaca.

43

ii)

si un individuo tiene 75 aos o ms, cul es la probabilidad de que padezca


de deficiencia cardiaca?
iii)
si un individuo tiene menos de 75 aos, cul es la probabilidad de que
padezca la enfermedad?
R: i) 0.006; ii) 0.0006; iii) 0.0094.
12.Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres
eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C =
{salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos
independientes entre si (analice parejas de eventos).
R: Independientes A con B; A con C; dependientes B con C.
13.En una escuela se estudia la desnutricin infantil, tratando de ver si el hecho de estar
o no desnutrido tiene que ver con el sexo del nio. De 1000 nios examinados, 100
presentan desnutricin; y de 500 nias, 49 presentan desnutricin. Afecta el sexo de
los nios al fenmeno de desnutricin?
R: Son eventos estocsticamente dependientes.
14.En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si la probabilidad de
que los huevos sean frtiles es de 70% para la gallina, 80% para el pato y 90% para el
ganso:
i)
cul es la probabilidad de que sea frtil?
ii)
dado que fue frtil, cul es la probabilidad de que sea de pato?
R: 0.818; 0.445.
15.En un laboratorio se ha boicoteado el experimento de un investigador. Se sabe que
los otros 4 investigadores del laboratorio (A, B, C, D) han boicoteado anteriormente
otros experimentos. Haciendo una investigacin de las veces que han boicoteado
anteriormente, se estim las probabilidades de cada investigador de haber intervenido
en los experimentos. A tiene una probabilidad de 0.02; B, de 0.09; C, de 0.01; y D, de
0.05. Dado que el laboratorio tiene acceso restringido slo a estos 5 investigadores, y
que A, B y D trabajan slo 1 da a la semana, y que C trabaja 2 das a la semana
(todos en das distintos), quin es el boicoteador ms probable?.
R: B, con probabilidad 0.474.
16.En la universidad, 4% de los hombres y el 1% de las mujeres son ms altos que 1.85
m. Adems, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un
estudiante es seleccionado al azar y mide ms de 1.85 m, cul es la probabilidad de
que el estudiante sea mujer?
R: 0.272.

44

17.A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no


(noE) se les practic cierto examen. En algunos de ellos el examen sali positivo (+)
y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporcin de
individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la
sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnstica, el
coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no
estarlo.

+
-

E
731
78
809

NoE
270
1500
1770

Total
1001
1578
2579

R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87;
LR+ = 6; LR-=0.12; Op+=2.7; Op-=0.27.
18. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT), como
alternativa al tratamiento habitual (HT). Se mide la presencia de complicaciones propias
de la enfermedad (evento) en uno y otro grupo, obteniendo:

Complicaciones (%)

HT
9.6

NT
2.8

Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.
19. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos,
algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). Los
resultados se resumen en la siguiente tabla:

F(+)
F(-)

E
58
36
94

NoE
22
44
66

Total
80
80
160

Calcule el RR de la exposicin al factor, el ARA, el RRA y el NNH. Interprete sus


resultados.
R: RR = 1.61, ARA = 0.275, RRA = 0.61, NNH = 4.

45

20. Se estudia la relacin entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:

F(+)
F(-)

E
58
36
94

NoE
22
44
66

Calcule la OR y el NNH en un paciente en que esperamos que el riesgo a priori (PEER)


sea similar al de la tabla.
RR: OR = 3.22, NNH = 6.

46

IV.- VARIABLES ALEATORIAS


Definicin: Llamaremos variable aleatoria (v.a) a una funcin definida
X: ------> R, tal que para cada punto del codominio, su preimagen es un suceso.
Ejemplo 1.- Sea el experimento se tira 2 veces una moneda = {cc, cs, sc,ss}
Podemos definir la variable aleatoria X = nmero de caras. As para X = 0 su preimagen
es el suceso (ss), para X = 1 su preimagen es (cs) (sc) y para X = 2 su preimagen es
(cc).
Las variables aleatorias pueden ser discretas si slo pueden tomar un nmero k N
valores distintos, en todo otro caso, son continuas.
IV.1.- Distribucin de una variable aleatoria
Variables discretas
Definicin Si X es una variable aleatoria discreta (vad) , llamaremos funcin de
cuanta a:
P(X = x), si x al rango de X (Rx)
p(x) =
0 si x Rx
Adems, llamaremos funcin de distribucin a F(x) = P(X x) = p(xi)
xix
Se puede observar que F(x) es la funcin acumulada de p(x).
Ejemplo 2.Si se tiran 2 monedas y se define la variable aleatoria X = nmero de caras,
entonces P(X = 0) = , P(X = 1) = y P(X= 2) = . Entonces:
X
0
1
2

p(x)
0.25
0.50
0.25

F(x)
0.25
0.75
1.00

47

Las caractersticas fundamentales de una variable aleatoria son la esperanza y la


varianza

Definicin: Llamaremos Esperanza de una v. a a la cantidad:


E[X] = xi pi
Llamaremos varianza de una v. a. a la cantidad:
V[X] = E (X E[X])2 = E[X2] (E[X])2
As en nuestro ejemplo, la esperanza es E[X] = 00.25+10.50+20.25 = 1, y la
varianza es V[X] = 00.25+ 120.5+220.25 12 = 1.5 1 = 0.5.
Se puede observar que la esperanza corresponde al promedio ponderado de una
variable aleatoria y tiene la misma estructura que el promedio definido para series
agrupadas en estadstica descriptiva y = hiyi. Del mismo modo el histograma de
frecuencias representa la funcin de cuanta y el histograma acumulado, la funcin de
distribucin. La varianza representa la variabilidad de la variable en torno a la
esperanza.
Ejemplos 3-4.3.- El concepto de esperanza matemtica surgi de las matemticas financieras.
Supongamos que a alguien se le ofrece el siguiente negocio: invierte $100, y con este
dinero se tiene una probabilidad de 0.2 de perderlo todo, 0.2 de quedar igual, 0.4 de
duplicar la inversin y 0.2 de triplicar la inversin. Convendra aceptar el negocio?
Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X =
200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 =
160.
Como la esperanza del retorno (160) es mayor que la inversin (100), el negocio parece
conveniente.

48

4.- Un alumno ha dado 100 pruebas de matemticas con los siguientes resultados:
Nota
1
2
3
4
5
6
7

n de veces que la ha
obtenido
1
4
10
40
30
12
3

Se enfrenta a una nueva prueba de matemticas qu nota esperamos que saque


(esperanza)? Cul es la varianza?
Sea la v. a. X = nota. Entonces P (X = 1) = 0.01, P(X = 2) = 0.04, P(X=3) = 0.1, P(X=4)
= 0.4, P(X=5) = 0.3, P(X=6) = 0.12 y P(X = 7) = 0.03. E[X] = 0.011 + 0.042 + 0.13 +
0.44 + 0.35 + 0.126 + 0.037 = 4.42 (Observacin: La esperanza corresponde al
promedio)
E[X2] = 0.0412 + 0.0422+0.1.2+0.442 + 0.352+ 0.1262+0.0372= 20.76; (E[X])2=
(4.42)2= 19.54, y entonces, V[X] = 20.76 19.54 = 1.22 (Observacin: La varianza
corresponde a una medida de la dispersin de los valores en torno al promedio)
Algunas propiedades de la esperanza
i)
ii)
iii)
iv)
v)
vi)

E[constante] = constante, V[constante] = 0


E[a + X] = a + E[X], V[a+X] = V[X]
E[aX] = aE[X], V[aX] = a2V[X]
E[(X-E[X])] = 0 (demustrelo)
E[X+Y] = E[X]+E[Y]
Si X e Y son independientes E[XY] = E[X]E[Y]

Observacin: Si examinamos E[(X-E[X])(Y-E[Y])], vemos que es equivalente a


E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] - E[X]E[Y] - E[X]E[Y] =
= E[XY] - E[X]E[Y]. Si X e Y son independientes, entonces esta cantidad es 0, pero
si son dependientes, entonces es distinta de 0. A esta cantidad se le conoce como
Covarianza entre X e Y y representa la variabilidad conjunta de ambas variables
aleatorias:
COV[X,Y] = E[XY]-E[X]E[Y].

49

Ejercicios Propuestos
1.- Se dividi el pas en 5 regiones y se analizaron las deposiciones de ganado vacuno
obtenindose la siguiente informacin
Regin

Total de vacas
en la regin
10000
200000
60000
30000
700000

A1
A2
A3
A4
A5

Deposiciones
con parsitos
1240
981
2496
864
1021

Deposiciones sin
parsitos
1867
2008
2608
981
1564

a) Cul es la probabilidad de que una vaca tenga parsitos en la regin A3? R: 0.489
b) Cul es la probabilidad de que una vaca tenga parsitos en el pas b1) si
suponemos que es igualmente probable que venga de cualquier regin? b2) si
suponemos que la probabilidad de que venga de la regin Ai= n vacas en Ai/n total de
vacas R: 0.422 y 0.389 respectivamente.
2.- Se lanza un dado dos veces. Cul es el espacio muestral? Cul es la probabilidad
de obtener 2 nmeros iguales? Cul es la probabilidad de sacar un 1 y un 5? Cul es
la probabilidad de sacar primero un 1 y despus un 5?
R: 1/6; 2/36; 1/36.
3.- En una pieza hay 100 cachorros. Algunos de ellos Beagle y otros Poodle.
Algunos de ellos sanos y otros enfermos.
Beagle

Poodle

Total

Sanos

40

30

70

Enfermos

20

10

30

Total

60

40

100

Si una persona
compra un
perro al azar.
Cul es la
probabilidad de
que sea
Beagle?

Son independientes los sucesos el perro es sano y el perro es Beagle? R: 0.6; no.

50

4.- Se va a realizar una ciruga de esfago a 2 gatos. Se sabe que en esta ciruga muere
el 1%. Cual es la probabilidad de que: a) mueran los 2 gatos b) muera slo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.
5.- Un procedimiento quirrgico slo se puede realizar 3 veces. Si la probabilidad de
que este procedimiento sea exitoso es 0.25. Cul es la probabilidad de salvar al
paciente?
R: 37/64.
6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. Cul es la
probabilidad de tratar un enfermo con M? R: 0.48.
7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la funcin de cuanta y a funcin de
distribucin c) Encontrar E(X) y V[X] R: 7;5.83.
IV.2.- Distribucin de Bernoulli
Si se tiene un experimento con un resultado dicotmico, por ejemplo xito o
fracaso, y la probabilidad de xito es p, entonces la probabilidad de fracaso es q = 1-p.
Este tipo de experimento se conoce como ensayo de Bernoulli. Si creamos la variable
aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un xito, entonces
podemos ver que su funcin de cuanta y su funcin de distribucin son:
X
0
1

P(x)
1-p = q
P

F(x)
1-p = q
1

Adems E[X] = 1p+0q = p, y V[X] = 12p +02q p2 = p-p2 =p(1-p) = pq.


Definicin Diremos que la variable X definida como lo hemos hecho, asociada a
un experimento dicotmico tiene distribucin de Bernoulli.
IV.3.- Distribucin binomial
Si consideramos un experimento que consiste en n ensayos de Bernoulli, y
definimos la variable aleatoria discreta: X = n de xitos, entonces X tiene distribucin
Binomial. Por ejemplo, si la probabilidad de xito de cada ensayo es p y lo repetimos n
veces, entonces la probabilidad que en estos n ensayos haya k xitos es:

51

n
P( X k ) p k (1 p) nk
k

Vemos que una vad con distribucin binomial es caracterizada por 2 parmetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribucin binomial consta de n
ensayos fijos e independientes, cada uno dicotmico en su resultado y con una
probabilidad constante (p) de xito.
Como es de esperar E[X] = np, pues es la suma de n ensayos de Bernoulli.
Adems V[X] = npq.
Demostracin La esperanza E[X] = kP(X=k) =
k n
k n
k n
n
n!
(n 1)!
= k p k (1 p) nk k
p k q nk np
p k 1q nk
k!(n k )!
k 0
k 0
k 1 ( k 1)!( n k )!
k
m
haciendo, j k 1, y, m n 1; np p j q m j np( p q) m np
j 0 j
j m

La varianza V[X] = k2 P(X=k) (E[X])2 = (k2 - k + k)P(X=k) (E[X])2 = (k(k1)P(X=k) + kP(X=k) (E[X])2 , lo cual utilizando el mismo juego de sub-ndices
lleva a: n(n-1)p2 + np n2p2 = npq.
Esta distribucin es muy importante en ciencias pues es muy habitual poder
reducir un experimento a una situacin dicotmica, por ejemplo cuando contamos el
nmero de individuos con una caracterstica, si la tiene (xito) o si no la tiene (fracaso).
Sin embargo esta distribucin sigue siendo discreta y tiene el problema que se genera al
calcular nmeros combinatorios con grandes valores de n.
Esta distribucin tiende a ser asimtrica para bajos valores de p y n, pero es
simtrica si p y n son altos.
Ejemplo 5.Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10
individuos, entonces la probabilidad que en stos 10, exactamente 3 lean el diario es:
10
P( X 3) 0.23 0.87 0.2013
3

52

Observacin Si de un universo de N elementos en los cuales una proporcin p de


ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n
haya k con el atributo es:
N Np Np

k
k
P( X k )
N

n

Esta variable tiene distribucin hipergeomtrica y E[X] = np y V[X] = npq(Nn)/(N-1). Es fcil darse cuenta que si N es muy grande (tiende a ) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. As si en una vad con distribucin hipergeomtrica,
N , su distribucin se vuelve binomial (B(n,p)). Esto es tambin evidente al
observar que el lmite cuando N de V[X] es npq. Entonces se puede considerar a
la distribucin binomial como una distribucin asinttica para poblaciones infinitas.
Ejemplo 6.Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5, la
probabilidad que en stas 5 haya 2 rojas es:
6 10

3 2
P( X 2)
16

5

IV.4.- Distribucin de Poisson


Un hecho importante en la distribucin B(n,p) es que es muy asimtrica para
valores bajos de p, a pesar de valores altos de n. Entonces es interesante estudiar que
sucede si
n
y p 0 manteniendo constante np = .
n
P( X k ) p k (1 p) nk = n(n-1)(n-2)(n-k+1)(/n)k(1-/n)n-k/(k!) =
k
= [k/k!][1(1-1/n)(1-2/n)(1-(x-1)/n)](1-/n)n(1-/n)-k

53

y tomando lmite cuando n , =

[k/k!]111e-1 =

[k/k!]e-.

Entonces si N es grande y p pequea (en general np < 0.1) la probabilidad de k


xitos en n ensayos sigue a:
P( X k ) e

k
k!

Se dice entonces que esta variable tiene distribucin de Poisson. En este caso,
E[X] = V[X] = .
Demostracin
Para la esperanza, se tiene que

k e

k
k!

k 0

k 1

k 1

(k 1)!

e e

Para la varianza,

k
k 0

k!

E[ X ] (k (k 1) k ) e
2

k 0

k
k!

E[ x]2 e 2 e 2

Ejemplo 7.Si la probabilidad de que una mquina produzca un artculo defectuoso es p =


0.0003, entonces la probabilidad que en 100 artculos haya 2 defectuosos es:
P( X 2) e

0.03

0.032

0.000437
2!

Si un fenmeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefnicas, la emisin de partculas, accidentes etc... Y
adems la probabilidad de una ocurrencia de ste fenmeno es proporcional al intervalo
(P(una o ms ocurrencias en [t,t+) ) = + o(), donde o() es la probabilidad de que
ocurra ms de uno), entonces el nmero de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribucin de Poisson con parmetro t:
Pk (t ) e

(t ) k

k!

54

Ejemplo 8.Si en una central telefnica llegan 3 llamadas/minuto, entonces la probabilidad


que en 2 minutos lleguen 4 llamadas es:
P4 (2) e

32

(3 2) 4

0.134
4!

IV.5.- Variables aleatorias continuas


Definiciones Una variable aleatoria es continua (vac) si su recorrido es infinito y
no-numerable. En este caso no existe una funcin de cuanta sino una funcin de
densidad de probabilidades f(x) definido como:
f(x) 0 x,

i)

b
ii)
P(a x b) = f(x) dx
+
a
iii) f(x) dx = 1.
-
Podemos observar que la densidad de probabilidad en un punto es 0, y que slo
tienen sentido las probabilidades de intervalos.
La funcin de distribucin de una vac. Se define como:
x
F(x) = f(x)dx
-
Tanto las funciones como las caractersticas de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+
E[X] = xf(x) dx y V[X] = E[X2]-(E[X])2
-
Una funcin especialmente til en el estudio de las variables aleatorias continuas
es la llamada funcin generatriz de momentos (Mx(t)) definida como:

M x (t ) e tx f ( x)dx . Observamos inmediatamente que la derivada de esta funcin, con

respecto a t, y evaluada en t = 0, corresponde a la esperanza E[X], o primer momento

55

central, y que la segunda derivada evaluada en t = 0, es E[X2], o segundo momento


central. Existen tres teoremas de demostracin muy sencilla en referencia a esta
funcin:
1)
Si c es una constante y la funcin generatriz de momentos (fgm) de X es M x(t),
entonces la fgm de y = X+c = My(t) = ectMx(t).
2)

Si c es distinta de 0 e y = cX, entonces My(t) = Mx(ct).

3)
Si X1, X2, Xn son independientes y todas con igual fgm, Mx(t), entonces Y
= X1+X2+.Xn tiene una fgm dada por:
M y (t ) [ M x (t )]n

IV.6.- Distribucin uniforme


Muchas veces en estadstica se usan nmeros aleatorios. Estos son un conjunto de
nmeros [a,b] que tienen todos igual probabilidad de aparecer. Esto genera una
funcin densidad de probabilidad constante f(x) = 1/(b-a) y una funcin de distribucin
F(x) = (x-a)/b-a) en el intervalo [a,b]. Adems es fcil ver mediante integracin que
E[X] = (a+b)/2 y V[X] = (b-a)2/12.
IV.7.- Distribucin exponencial
Si consideramos la variable U como el tiempo que transcurre entre dos eventos
en un proceso de Poisson, podemos observar que la probabilidad que este tiempo de
espera sea mayor que un cierto valor u (P(U u) es equivalente a la probabilidad que
en este proceso no haya ocurrencia en el intervalo [0,u) es decir P(U u) = P0(u) = e-u.
De otra forma 1 F(u) = e-u , es decir la vac tiempo de espera en un proceso de
Poisson tiene funcin de distribucin F(u) = 1- e-u , y derivando, la funcin densidad de
probabilidad es f(x) = e-u . Se dice que una variable con esta funcin densidad tiene
distribucin exponencial. Es fcil ver, simplemente integrando que E[X] = 1/ y V[X]
= 1/2
IV.8.- DISTRIBUCIN NORMAL
Definicin Una variable aleatoria continua, con funcin densidad:
f ( x) (1/ 2 ) e

(1 / 2 )[

]2

56

Se dice que tiene distribucin normal o de Gauss (campana de Gauss).


Su esperanza es E[X] = y su varianza V[X] = 2.
Observamos que = V[X], es decir es la desviacin estndar. Como esta
distribucin queda caracterizada por dos parmetros, se abrevia como N(,).
Esta es, lejos, la distribucin ms importante en estadstica. Si graficamos la
distribucin, vemos que tiene forma de campana, con un mximo en y puntos de
inflexin en - y +. Adems es importante que P(- x +) = 0.682, P(-2
x +2) = 0.954 y P(-3 x +3) = 0.997.

Es decir entre 1 y + 1 desviaciones estndar se encuentra el 68.2 % de la


distribucin, entre 2 y + 2 d.s. el 95.4 y entre 3 y + 3 d.s. el 99.7%.
Observamos que adems si X tiene distribucin N(,) entonces la variable
estandarizada Z = (X-)/ tiene distribucin N(0,1). Esto es obvio pues E[Z] = E[(X)/] = (E[X]-)/ = 0 y V[Z] = V[(X-)/] =V[(X-)]/2 = V[X]/2 = 2 /2 = 1. En
este caso, M Z (t ) e t / 2
2

Esta distribucin tiene dos orgenes fundamentales que se pueden enunciar a


manera de teoremas.
Teorema de De Moivre
Si X tiene distribucin binomial (B(n,p)) y n, entonces:

57

P(a < x < b) =


b

1/( 2 ) (e (1/ 2)[( x ) / ] )


2

Donde = np y = npq
2

Demostracin La demostracin es extensa por lo que slo se muestran los pasos


fundamentales:
n
Si en P( X k ) p k (1 p) nk , aplicamos la frmula de Stirling para factoriales,
k
n! n n e n 2n e / 12n , donde es un nmero entre 0 y 1, se obtiene:
P( X k )

1
e
2npq

/ 2 R / n

, donde

k np
y el trmino R/n tiende a 0 para n
npq

grandes.
As, si n es grande P(k1 X k 2 ) P(1 2 )

1
e x / 2 dx , lo que
2npq
2

define una distribucin normal con = np y = npq.


2

Este primer teorema nos dice que la distribucin normal es una distribucin lmite
de una binomial cuando n es grande. En la prctica n > 30 o bien np 5.
Teorema del lmite central (o central del lmite) (expresin general, Laplace
1812, Lyapunov 1901)
Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
j y varianzas 2j, entonces X = Xj es asintticamente normal (N(,)) donde =
j y 2 = 2j .
Demostracin Consideraremos slo el caso ms sencillo, donde las Xj tienen la misma
distribucin. En este caso se puede partir por el siguiente corolario:
Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es
asintticamente normal N(n,n).

58

Demostracin: En este caso j = n y la varianza es n2j, por lo que la


desviacin estndar es n.
Falta por demostrar la normalidad. X = Xj, se puede estandarizar como:
n
n
1
1
Z = (X-E[X])/V[X] = (X- n)/n =
( X j )
Zj . Entonces se
n 1
n 1
t
puede obtener la fgm de Z: M Z (t ) [ M zj (
)]n y como en MZj(t) el primer y segundo
n
2
momentos son 0 y se puede desarrollar en serie de Taylor: MZj(t) = 1- 2t2/2 + R, y
reemplazando t por t/ n obtenemos para MZ(t):
t2
1
M Z (t ) [1
R(n, t )]n [1
R(n, t )]( 2 n / t )( t / 2 ) y tomando lmite cuando n
2
2n
2n / t
tiende a infinito se tiene que M Z (t ) e t / 2 . Como esta es la fgm de una distribucin
normal, entonces concluimos que la distribucin es normal.
2

Corolario 2 El promedio X = X/n de estas Xj tiene distribucin asintticamente


normal N(,/n).
Demostracin: la esperanza E[X ] = E[X/n] =E[X]/n = n/n = .
La varianza V[X] =V[X/n] = V[X]/n2 =n2/n2 = 2/n, y entonces la desviacin estndar
es /n.
Corolario 3 La variable estandarizada Z = (X -)/(/n) tiene distribucin N(0,1)
Demostracin: la esperanza E[Z] = E[(X-)/(/n)] =(E[X]- )/(/n) =
= (-)/(/n) = 0. La varianza V[Z] =[(X-)/(/n)] =(V[X]- 0)/(/n)2 =
=(2/n)/2/n) = 1, y entonces la desviacin estndar tambin es 1.
Corolario 4 Si Y es B(n,p) y n , entonces la variable estandarizada Z = (Ynp)/(npq)) tiene distribucin N(0,1).
Demostracin: Trivial; se sigue inmediatamente del teorema de De Moivre y los
corolarios anteriores.
El teorema del lmite central y sus importantes corolarios nos explican porqu es
normal (habitual) encontrar distribuciones normales en las variables que estudiamos.
Adems mediante el uso de la estandarizacin (Z) de la variable X, es posible calcular
las probabilidades P(a x b)= P((a-)/ z (b-)/). Afortunadamente para
nosotros los valores de las integrales que definen las probabilidades ya se encuentran

59

tabulados y son accesibles en programas computacionales. Algunos valores muy


conocidos, importantes y fciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) =
0.025.
Ejemplo 9.Supongamos que el peso (W) de los seres humanos tiene distribucin normal con
promedio = 70 Kg y desviacin estndar = 5Kg. Entonces cual es la probabilidad
que un individuo pese ms de 83 Kg?. Como W tiene distribucin normal N(70; 5),
entonces Z = (W-)/ tiene distribucin normal N(0;1) y preguntar por P(W >83) es
equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de reas de la
distribucin normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.
IV.9.- Otras distribuciones importantes
En los siguientes prrafos introduciremos algunas distribuciones y una serie de
teoremas, cuya importancia se ver mas adelante. En general todas las distribuciones de
variables aleatorias continuas se encuentran relacionadas y pueden expresarse como
casos particulares de una ecuacin general (sistema de Pearson). El conocimiento de
estas distribuciones permite posteriormente generar las dcimas o pruebas de
hiptesis.
Una distribucin habitual es la distribucin logartmico-normal o log-normal.
Una variable aleatoria X tiene distribucin log-normal si existe una constante a, tal que
Y = log(x-a) se distribuye normalmente.
Los siguientes teoremas y distribuciones tienen relacin con la funcin gama (),
de importantes aplicaciones en clculo y estadstica:

(k ) x k 1 e x dx , k > 0.
0

Basados en esta funcin, se dice que una variable aleatoria continua X, tiene una
distribucin de parmetros r y si su densidad es
f ( x)

( r )

(x) r 1 e x , x >0; r > 0; > 0; y 0 en cualquier otro caso.

En esta distribucin, E[X] = r/ y V[X] = r/2 y Mx(t) = (1-t/)-r.

60

Si r = 1, f(x) = e x , E[X] = 1/ y V[X] = 1/2. Cuando ocurre esto, se dice que


la variable tiene distribucin exponencial.
Cuando r = n/2 y = 1/2, se dice que la variable tiene distribucin Chicuadrado con n grados de libertad (2n).
Teorema Si las variables Zj tienen distribucin N(0,1), entonces X = Z2j, tiene
una distribucin Chi-cuadrado con n grados de libertad: 2n.
Demostracin Veamos primero el caso de una variable Z con distribucin N(0,1) y
llamemos F(Z) y f(Z) a su funcin de distribucin y funcin densidad respectivamente.
En este caso: Y = Z2 tendra por funcin de distribucin a G(Y):
G(Y) = P(Y y) = P(0 < Y y) = P(-y Z y) = 2 P(0Zy) = 2[F(y)-F(0)].
Entonces la funcin densidad g(Y) corresponde a la derivada de G(Y). O sea,
1
g(Y) = G(Y) = 2F(y)(1/2(y) = f(y)/y = (1/ 2 ) e (1 / 2 ) y
. Observamos ahora
y
que g(Y=Z2) corresponde a una distribucin con r = 1/2 y = 1/2 es decir ChiCuadrado con 1 grado de libertad (21). Su fgm es entonces MY(t) = 1/(1-2t).
Ahora veamos el caso de la variable X = Y = Z2j. En este caso la fgm de X es
Mx(t) =MY (t) =[MY(t)]n = (1-t/(1/2))-n/2 = (1-t/)-r, con r = n/2 y = 1/2; y por tanto es
una distribucin 2n. Naturalmente su E[X] = n y V[X] = 2n.
Esta es una distribucin asimtrica en que su simetra depende de n. Mientras ms
grande n, ms simtrica.
Teorema Si una variable aleatoria X cuya varianza es 2, en una muestra de n
elementos tiene una varianza s2, entonces y = (n-1)s2/2 tiene distribucin 2n-1.
Demostracin Si desarrollamos:
(xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) =
(xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos:
((xi-)/)2 = ns2/2 + ((x-)/(/n))2.
En este desarrollo, como el primer trmino es la suma de n variable aleatorias con
distribucin normal N(0,1) elevadas al cuadrado, este tiene distribucin 2n y adems el

61

ltimo trmino tiene distribucin N(0,1) al cuadrado, es decir, 21, entonces ns2/2 tiene
distribucin 2n-1.
Definicin Una variable aleatoria continua tiene distribucin t de Student con k
grados de libertad si su funcin densidad es:
k 1
)
x 2 k21
2
f ( x)
(1 )
k
(k / 2) k
(

Teorema Si una variable X tiene distribucin normal N(0,1) y una variable Y


tiene una distribucin 2k entonces t = X/(Y/k) tiene una distribucin t de Student
con k grados de libertad (tk). Su E[t] = 0 y V[t] = k/(k-2). La demostracin de este
teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este
libro.
Corolario La variable estandarizada t = (X-)/(s/n) tiene distribucin tn-1.
Demostracin Como La variable estandarizada Z = (X-)/(/n) tiene distribucin
N(0,1) y adems Y = (n-1)s2/2 tiene distribucin 2n-1, entonces t = X/(Y/(n-1)) =
(X-)/(s/n) tiene distribucin tn-1.
Teorema Si n, tn-1 N(0,1)
Demostracin Si n, s , y entonces por el teorema central del lmite, tn-1
N(0,1).
Esta distribucin t se le debe a Gossett, quien escriba bajo el seudnimo de
Student y es una de las distribuciones ms importantes, junto con la normal. Es un
distribucin acampanada, ms apuntada que la normal. Sin embargo, en la prctica, si n
> 30 esta distribucin es prcticamente normal.
Definicin Una variable aleatoria continua X tiene distribucin F de Snedecor
con n1 y n2 grados de libertad si su funcin densidad es:

f ( x)

n1 n2
) n1n1 / 2 n2n 2 / 2
x n1 / 21
2

(n1 / 2) (n2 / 2)
(n2 n1 x) ( n1 n 2 ) / 2

Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)2(n2-4).

62

Esta es una distribucin muy til usada en las dcimas de varianza y en el anlisis
de la varianza (ANOVA).
Teorema Si U es 2n1 y V es 2n1, entonces F = (U/n1)/(V/n2) tiene una
distribucin F de Snedecor con n1 y n2 grados de libertad(Fn1,n2). La demostracin
de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de
este libro.
Teorema Si t tiene distribucin tk, entonces t2 tiene distribucin F1,k.
Demostracin Como t = X/(Y/k) tiene una distribucin t de Student con k grados de
libertad (tk) y en ella X tiene distribucin normal N(0,1) y una variable Y tiene una
distribucin 2k entonces t2 es el cuociente entre X2 con distribucin 21 y Y/k con
distribucin 2k. As, por el teorema anterior t2 tiene distribucin Fn1,n2.
Teorema El cuociente de las varianzas de dos muestras S = s 21/s22 tiene
distribucin Fn1-1,n2-1
Demostracin Como en una poblacin dos muestras independientes de tamaos n1 y n2,
Y1= (n1 -1)s12/2 tiene distribucin 2n1-1 y Y2= (n2 -1)s22/2 tiene distribucin 2n2-1,
entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribucin Fn1-1,n2-1.

63

Ejercicios de variables aleatorias


1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor
obtenido en el lanzamiento una v.a.d., cul es su esperanza y su varianza?
R: 3.5; 2.92.
2. Sea X el nmero de casos nuevos de SIDA diagnosticados en un hospital durante un
da. La distribucin acumulativa para X es
X
F (x)

0
0.1

1
0.2

2
0.3

3
0.6

4
0.8

5
0.9

6
1.0

a) Hallar la probabilidad de que en un da cualquiera,


i)
Tres casos nuevos sean diagnosticados.
ii)
Por lo menos un caso nuevo sea diagnosticado.
iii) Ningn caso nuevo sea diagnosticado.
iv) Entre dos y cuatro casos nuevos sean diagnosticados.
b) Hallar la funcin de cuanta para X.
c) Determinar E[x] y V[x].
R: a) 0.3; 0.9; 0.1;0.6; c) 2.81; 4.60.
3. Qu requisitos debe cumplir una variable para que en sus anlisis se utilice la
distribucin binomial?
4. Se ha determinado que de cada 100 nacimientos, 20 de los nios nacidos son
hombres y 80 mujeres. Dado que una madre ha dado a luz 8 hijo, cul es la
probabilidad de que tenga 5 hijas?
R: 0.147.
5. Para estudiar la regulacin hormonal de una lnea metablica se inyectan ratas con un
frmaco que inhibe la sntesis de protenas del organismo. En general, 4 de cada 20
ratas mueren a causa del frmaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el frmaco, cul es la probabilidad de que al menos lleguen 8
vivas al final del experimento?.
R: 0.677.
6. En Escherichia coli, una clula de cada 105 muta generando resistencia al antibitico
estreptomicina. Observando 556.000 clulas, cul es la probabilidad de que ninguna
mute? cul es la probabilidad de que al menos una mute?
R: 0.00348; 0.9965.

64

7. Se estima que slo uno de cada 50 loros capturados en el sur de Chile para su
utilizacin como animales domsticos sobrevive al cambio. Se capturan 700 pjaros
en un da. Cul es el nmero esperado de sobrevivientes? Cul es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.
8. Qu caractersticas tiene la distribucin normal?
9. Si la variable X tiene distribucin normal con =21 y 2=3. Calcule:
a) P (x<22)
b) P (x<18)
c) P (x>22)
d) P (22<x<24)
e) P (16<x<18)
R: 0.719; 0.0418; 0.281; 0.239; 0.0398.
10.En cierta poblacin de primates, el volumen de la cavidad craneal se distribuye
aproximadamente como una normal con media 1200 cm3 y desviacin estndar
de 140 cm3.
a) Hallar la probabilidad de que un miembro de la poblacin seleccionado al azar
tenga una cavidad craneal superior a 1400 cm3.
b) Hallar P (1000<x<1050)
c) Hallar P (x<1060)
d) Hallar P (x<920)
e) Hallar el punto x0 tal que el 20% de los primates tenga una cavidad craneal ms
pequea que x0.
f) Hallar el punto x0 tal que el 10% de los primates tenga una cavidad craneal
superior que x0.
R: 0.0764; 0.0659; 0.0228; 1081.7; 1379,9.
11.La densidad del suelo se define como la masa de materia slida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las races, la siembra
precipitada y la ventilacin. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribucin normal con =1.5 y =0.2 g/cm3.
a) Cul es la funcin densidad de X? Haga un esbozo de la funcin densidad.
Indique en esa grfica la probabilidad de que X est comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, sta tenga una densidad menor que 0.9 g/cm3. R: 0.0013.

65

c) Estara sorprendido si una muestra de este tipo de tierra, seleccionada


aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente.
12.La Escala de Inteligencia Wechsler para Nios (WISC) tiene una media de 100 y una
varianza de 225 para la poblacin general. Si un nio cae en el 10% menor de la
poblacin, generalmente los psiclogos clnicos urgen a los padres de los nios a que
les realicen exmenes en busca de posibles problemas cerebrales. Asumiendo que los
puntajes de WISC estn normalmente distribuidos, cul es el puntaje crtico que los
psiclogos utilizan para hablar con los padres?
R: 80.725.

66

III UNIDAD: INFERENCIA ESTADISTICA

67

V.- ESTIMACIN
La base fundamental de la inferencia estadstica es la obtencin de una muestra
de la poblacin o universo y, a partir de lo que ocurre en ella, inferir, con una cierta
incertidumbre, la validez de una proposicin en la poblacin completa. La muestra es
entonces un subconjunto del universo. Los elementos de la muestra constituyen las
unidades de anlisis, por ejemplo los individuos de una poblacin. Las unidades de
anlisis no necesariamente coinciden con las llamadas unidades de muestreo. Estas
ltimas son unidades operativas, que por ciertas razones constituyen la unidad obtenida
como muestra. Por ejemplo, un investigador puede estar interesado en los glbulos rojos
(unidad de anlisis) pero muestrea individuos (unidad de muestreo), o bien estar
interesado en caractersticas de los individuos (unidad de anlisis) y muestrear
manzanas o barrios de una ciudad (unidad de muestro)...etc. El marco de muestreo
consiste en el listado de las unidades de muestreo que se van a considerar.
V.1.- Estimadores
En la teora de estimacin se considera la existencia de:
i)

Parmetros: stos se pueden definir como caractersticas () de una


variable aleatoria, propios de la poblacin. En general se denotan con
letras griegas o maysculas. Los ejemplos ms conocidos son la esperanza,
, la proporcin poblacional P, la desviacin estndar y la varianza 2.

ii)

Estimadores: stos son funciones de una variable aleatoria cuyo fin es


aproximar el valor de un parmetro a partir de las unidades de la muestra
Los ejemplos ms caractersticos son el promedio muestral x , la
proporcin muestral p, la desviacin estndar s y la varianza s2
muestrales.

As, las medidas de posicin y dispersin que aprendimos en estadstica


descriptiva, aqu adquieren otra connotacin. Si nuestro fin es inferir y no simplemente
describir una muestra, el promedio, la varianza y la desviacin estndar se constituyen
en estimadores de parmetros poblacionales.
Los estimadores tienen cuatro caractersticas de inters:
i)

Linealidad: es una caracterstica deseable en un estimador que permite


operarlo algebraicamente. Por ejemplo, es evidente que el promedio es

68

lineal, pues es una combinacin lineal de los valores de una variable


aleatoria (x = hixi).
ii)

Sesgo: este corresponde a la diferencia entre la esperanza de un estimador


(E[] ) y el parmetro (): Sesgo = E[] - . Naturalmente es deseable que
los estimadores sean insesgados (Sesgo = 0). Por ejemplo, el promedio es
un estimador insesgado: x = xi/n.
Si la variable x tiene E[x] = , entonces E[x] = E[ xi/n] = (1/n)E[xi] =
(1/n)E[xi] = (1/n)n = , o sea la esperanza del estimador es igual al
parmetro.

iii)

Consistencia: un estimador se dice consistente si limn V[] = 0. Es decir,


es deseable que en un estimador, a medida que aumente el tamao muestral
(n), su varianza disminuya. Por ejemplo V[x] = V[ xi/n] = (1/n2)V[xi]
= (1/n2)n2 = 2/n, entonces limn V[x] = 0, es decir el promedio
muestral es un estimador consistente.

Observamos inmediatamente que la desviacin estndar poblacional del


estimador x es s = V[x] = /n, entonces tiene sentido considerar el estimador
Es = s/n, conocido como error estndar.
iv)

Varianza mnima: es deseable que un estimador tenga la mnima varianza


posible.

Cuando un estimador cumple estas condiciones, se dice que es un estimador meli:


el mejor estimador lineal insesgado.
Adems del promedio, otro estimador meli es la proporcin muestral p como
estimador de la proporcin poblacional P. Si tenemos una muestra de n elementos y
definimos la variable aleatoria x = 1 si tiene una caracterstica y x = 0 si no la tiene,
entonces se aprecia que p = xi/n, es decir tiene la estructura de un promedio, por lo que
E[p] = P y V[p] = PQ/n.
En cambio, observemos el siguiente desarrollo:
(xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) =
(xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos:
((xi-)/)2 = ns2/2 + ((x-)/(/n))2.

69

En este desarrollo, como el primer trmino es la suma de n variable aleatorias con


distribucin normal N(0,1) elevadas al cuadrado, este tiene distribucin 2n y adems el
ltimo trmino tiene distribucin 21(ver teoremas), entonces ns2/2 tiene distribucin
2n-1. O sea E[ns2/2 ] = (n-1) o, lo que es lo mismo, E[s2] = (n-1)2/n.
En palabras, la varianza muestral s2 =(xi-x)2/n, es un estimador sesgado
de 2. Entonces, nada mejor que corregirle el sesgo multiplicando este estimador
multiplicndolo por n/(n-1). As, creamos el nuevo estimador s2 = n/(n-1)s2 = (xix)2/(n-1), y este es insesgado porque E[s2] = n/(n-1)E[s2] = (n/(n-1))(n-1)2/n = 2.
Esta es la razn por la que se usa n-1 en el denominador de la varianza y la
desviacin estndar muestral: son los estimadores insesgados. En la prctica para n
> 30 son prcticamente iguales.
V.2.- Estimaciones
Las estimaciones o estimas son los valores que toma un estimador para una
muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor
particularx = 5 es una estimacin. Las estimaciones pueden ser de dos tipos:
puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el
promedio poblacional est entre 2 y 5. Obviamente la primera estimacin es precisa
pero poco confiable y la segunda es ms confiable pero pierde precisin. Estas dos
ltimas, precisin y confianza son las dos caractersticas de una estimacin (no
confundir con estimador).
La estimacin puntual prcticamente no se usa. De ser necesario sta corresponde
en general al valor central del intervalo.
Definicin Llamaremos intervalo de confianza del nivel C = 1- a un intervalo
que tenga una probabilidad o confianza C de contener el valor real de un parmetro.
As, por ejemplo un intervalo del 95% de confianza para el promedio, es un intervalo
que tiene una probabilidad 0.95 de contener al promedio poblacional real.
V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P2
Supongamos que queremos el intervalo de confianza del 95% para la proporcin
poblacional P. Es decir queremos construir un intervalo (a,b) que tenga una probabilidad
0.95 de contener a P.
Sabemos que Z = (p P)/(pq/n) tiene distribucin N(0,1) y adems sabemos que
P(-1.96 z 1.96) = 0.95, es decir:

70

[-1.96 (p-P)/(pq/n) 1.96] = [p 1.96(pq/n) P p + 1.96(pq/n)], de manera que


se puede asegurar con probabilidad 0.95 que P est contenido por el intervalo definido
por (p 1.96(pq/n)).
En trminos generales, entonces el intervalo de confianza del nivel C = 1- para
la proporcin poblacional P es:
IC1 [ p Z / 2 pq / n ]

Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros
niveles son otros valores que se pueden obtener directamente de la tabla de la
distribucin N(0;1) (Z).
Ejemplo 1.Si al examinar 30 insectos se encontraron 5 parasitados, como p = 5/30 = 0.167 y
q = 1-0.167 = 0.833, se podra afirmar con un 95% de confianza que la proporcin
poblacional de parasitados se encuentra en el intervalo:
IC0.95 [0.167 1.96 0.167 0.833 / 30 ] Es decir entre 0.033 y 0.3 o entre un
3.3 y 30%. Naturalmente, en este caso si quisiera mayor precisin tendra que aumentar
el tamao muestral.

En el Intervalo de confianza para una diferencia de proporciones P1-P2, por un


razonamiento enteramente anlogo al anterior se llega a:
IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p2 q2 / n2 )]

V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2


Si se conoce la varianza poblacional, entonces por un razonamiento anlogo al
anterior:
IC1 [ x Z / 2 / n ]

Sin embargo esto no es lo habitual; en general, la varianza es desconocida.

71

Si la varianza es desconocida recordamos que (x-)/(s/n) tiene distribucin de


Student tn-1 y entonces es fcil llegar a que el intervalo de confianza del nivel C = 1- es
en este caso:
IC1 [ x t (1 / 2) s / n ]

Aqu t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razn de
construccin de las tablas t de Student.
Ejemplo 2.Si en una muestra de 49 individuos se tiene una glicemia promedio de 1.042 con
una desviacin estndar de 0.03. Entonces puedo afirmar con un 95% de confianza que
el promedio poblacional de la glicemia se encuentra en:
IC1 [1.042 2 0.03 / 49 ] Es decir entre 1.033 y 1.051.

A estas alturas ya es conveniente observar que todos los intervalos de confianza


tienen la misma estructura: IC1- =[ kEs], donde es un estimador, Es su error
estndar y k un valor que determina en una cierta distribucin una probabilidad
determinada. Para los estimadores habituales, promedios y proporciones, que
generalmente siguen distribuciones normales o Student, un buen valor para recordar al
95% de confianza es k = 1.96 2.
Para la diferencia de promedios x1-x2 el intervalo de confianza es:
IC1 [( x1 x2 ) t(1 / 2) Es] donde Es

(n1 1) s12 (n2 1) s22


(1/ n1 1/ n2 )
n1 n2 2

V.3.- El tamao muestral


Esta misma forma de pensamiento, permite calcular el tamao muestral para una
precisin y una confianza dadas.
Si se acepta que una medida de la precisin es la mitad del ancho del intervalo de
confianza, se observa que la precisin es d = kEs = - y, entonces equivale al valor
absoluto de la diferencia entre el valor real del parmetro y el promedio muestral
(observacin: a mayor valor de d la estimacin es menos precisa).

72

Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z/2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2

Ejemplo 3.Si deseamos estimar una proporcin P, que segn estimaciones previas de otros
autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (
= 0.05) y con una precisin de 10 % , entonces P 0.32; Q 0.68; Z /2 = 1.96 y d =
0.1x0.32 = 0.032. As el tamao muestral necesario es aproximadamente n =
(1.96)2(0.32x0.68)/(0.032)2 = 816.34. O sea alrededor de 817 individuos.
Si nuestro inters es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el
tamao adecuado es:
t12 / 2 s 2 Z 2 / 2 s 2
n

d2
d2

Para confianzas del 95% se suele aproximar z2/2 = 4.


Ejemplo 4.Si queremos estimar un promedio con un 95% de confianza, con una precisin del
5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviacin
estndar de s = 5.4, entonces el tamao muestral requerido es aproximadamente: n =
4(5.4)2/(0.05x45)2 = 51.84 = 52.
Observamos que todos los clculos de tamao muestral son slo aproximaciones y
que todos necesitan de algn conocimiento o estimaciones previas de lo que se pretende
estimar y su variabilidad.
V.2.3.- Estimaciones en Medicina
A menudo en Medicina se usan estimadores para diagnstico, tratamiento, y
factores de riesgo (ver captulo de probabilidades). Muchos de estos estimadores son
proporciones o diferencia de proporciones por lo que sus intervalos de confianza se
calculan en la forma convencional ya sealada:

73

Proporciones

Diferencia de proporciones

Sensibilidad,
Especificidad,
Valores
predictivos, certeza diagnstica, CER y
EER
Reduccin y aumento absoluto del riesgo:
ARR y ARA

En otros casos existen tcnicas especiales para el clculo:


Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores
inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los
lmites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los lmites
de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8].
Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR): En
todos estos casos se prefiere trabajar con los logaritmos (en cualquier base) de las
estimaciones: log RR, log OR y log LR. Se calculan los lmites de confianza para el
logaritmo y a estos valores se les aplica el antilogaritmo, obteniendo los lmites de
confianza buscados. Por ejemplo, si los lmites de confianza para log 10RR son [0.30 y
0.47] entonces los lmites de confianza para RR son [antilog 0.30 y antilog 0.47] = [2 y
3].
Usando exactamente la nomenclatura del captulo de probabilidades, los
intervalos de confianza para el logaritmo de estos estimadores son:
Para log RR: IC1 [log RR Z / 2

1 1
1
1

]
a b ac bd

Para log OR: IC1 [log OR Z / 2

1 1 1 1
]
a b c d

Para log LR: IC1 [log LR Z / 2

1 1
1
1

]
a d ab cd

74

Ejercicios de estimacin
1. Se tom una muestra que mostr que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. Cul es el intervalo de confianza del
95% si el tamao muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].
2. De 191 nios con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporcin de nios con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].
3. El tamao de la muestra desempea un papel importante en la determinacin de la
longitud de un intervalo de confianza. Considerar dos intervalos de confianza del
95% de basndose en muestras de tamao N1 y N2 extradas de la misma poblacin.
Si N1 es mayor que N2, qu intervalo de confianza tendr mayor precisin?
4. Se dice que el 11.4% de las vinchucas rojas estn infectadas con un parsito. Qu
tamao muestral necesito para re-estimar esta proporcin con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.
5. Se estudi el efecto de una droga sobre el cambio de peso en 12 pacientes dando un
promedio de 0.5 kg y una varianza de 0.4 kg2. Se necesita estimar la media
poblacional con un intervalo de confianza del 95% no mayor que 0.5 kg. Qu
tamao necesito para obtener esto?
R: n = 25.
6. Considerar 200 muestras de tamao 25 extradas de una poblacin con media
desconocida. Suponiendo que las 200 medias muestrales obtenidas se utilizan para
construir 200 intervalos de confianza del 90%. Cuntos de estos intervalos esperara
que no contuvieran a ?
R: 20.
7. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la
prevencin de muerte dada por ataques cardacos en pacientes que ya han sufrido
ataques. En el estudio, 733 pacientes recibieron el medicamento y a 742 se les dio un
placebo. Despus de 8 meses, se hall que de 42 muertes por ataques cardacos, 29 se
produjeron dentro del grupo que recibi el placebo y 13 en el grupo que recibi la

75

droga. Generar un intervalo de confianza del 95% para la diferencia de muertes entre
el grupo que recibi el placebo y el que recibi la droga.
R: [0.0041; 0.0379].
8. Se ha realizado un estudio sobre la tasa de supervivencia de los pjaros adultos en los
trpicos y en las zonas templadas. Inicialmente se marcaron 500 pjaros adultos con
cintas en las patas y se liberaron en una regin lluviosa. Al ao siguiente, se
recapturaron 445 (suponer que aquellos pjaros no capturados fueron consumidos por
depredadores). Un experimento similar en Santiago (una regin templada), dio como
resultado una recuperacin de 252 de los 500 pjaros liberados. Hallar el intervalo de
confianza del 90% de la diferencia en las tasas de supervivencia de un ao para las
dos regiones
R: [0.342; 0.429].
9. Se cree que los jvenes adolescentes que fuman comienzan a hacerlo a una edad ms
temprana que las mujeres adolescentes fumadoras. Segn los siguientes datos, usted
apoyara esta suposicin?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 aos ; 2=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 aos ; 2=4
R: No.
10.Se ha realizado un estudio para comparar la concentracin de plomo en el agua de
dos casas. En una casa se utiliz una soldadura con el 50% de plomo y el 50% de
estao en las tuberas. En la otra casa no utilizaron esta soldadura. Qu podra decir
a una confianza del 95%?
Lugar 1 (con soldadura de plomo): N=25 ; media=25 ; 2=12
Lugar 2 (sin soldadura de plomo):
N=25 ; media=10 ; 2=5
R: Que la concentracin de plomo aumenta entre 13.5 y 16.47.

76

VI.- DOCIMASIA O PRUEBA DE HIPTESIS


VI.1.- Bases
Definicin Llamaremos hiptesis a una proposicin lgica. Tiene por tanto un
contenido de verdad (dicotmico si trabajamos con lgica binaria: V o F), pero en
general, desconocido.
Desde esta perspectiva una hiptesis constituye una afirmacin cuya validez o
certeza es desconocida. El fin de la estadstica es llegar a conocer o aproximar la
incerteza de tal afirmacin.
Definicin En trminos estadsticos paramtricos una hiptesis es una afirmacin
que especifica la distribucin de una o varias variables.
En este sentido las hiptesis en trminos estadsticos se refieren a parmetros. Por
ejemplo, cuando afirmamos que los hombres pesan ms que las mujeres, en trminos
estadsticos paramtricos afirmamos que el promedio poblacional del peso masculino es
mayor que el femenino.
La estrategia estadstica se enmarca en una lgica de tipo binario que permite
siempre dividir una hiptesis en dos. Esto lo denominamos dicotoma de la hiptesis:
Hiptesis de nulidad (Ho): es la hiptesis de nulidad del efecto contenido en la
afirmacin. Es en general una hiptesis de igualdad.
Hiptesis alternativa (H1): es la hiptesis que contiene la afirmacin.
As, por ejemplo si se afirma que los hombres pesan ms que las mujeres, se
establece inmediatamente la dicotoma Ho: los hombres pesan igual o menos que las
mujeres y H1: los hombres pesan ms que las mujeres. En trminos estadsticos
paramtricos nos referimos a los promedios: Ho: H M vs. H1: H > M. Naturalmente
una u otra es verdad, pero no ambas.
Definicin Una dcima o prueba de hiptesis es una regla o procedimiento
estadstico que permite tomar una decisin acerca de la aceptacin o rechazo de la
hiptesis de nulidad.
Bajo esta definicin es claro que toda la estrategia estadstica est destinada al
rechazo de Ho, y que este rechazo es el que permite sostener H 1. Para esto es
estrictamente necesario que las hiptesis Ho y H1 sean complementarias.

77

Sin embargo, encontrar una regla que permita tomar una decisin adecuada no es
fcil como podemos ver en el siguiente ejemplo.
Supongamos que el peso de un animal A tiene una distribucin normal N(1, 2) y
que se afirma que un animal B pesa ms que el animal A.
Entonces, seguimos el procedimiento habitual y planteamos:
Ho: B A vs. H1: B> A .
Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crtico Co para el promedio muestral xB sobre el cual
rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB /
xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....cmo elegir este
valor crtico?
Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio
poblacional del peso de B (), llamada funcin de potencia de la dcima (K()).
Esperamos que la variable peso del animal B tenga una distribucin normal similar al
ave A, conservando su varianza pero con un promedio poblacional distinto (). As el
peso de B sigue una N(, 2). Ahora bien, la probabilidad de pertenecer a la zona de
rechazo es P(xB > Co). Adems sabemos que si el peso es N(,2) entonces xB es N(,
2/100) = N(,0.2) y entonces P(xB > Co) = P((xB-)/0.2 > (Co-)/0.2) =
= P(Z >(Co-)/0.2) = K() es la funcin de potencia de la dcima. Esta depende del
valor crtico Co.
Probemos con un valor crtico Co = 1, es decir rechazaremos Ho ( y aceptaremos
que B pesa ms que A) si en la muestra xB > 1. La funcin de potencia K() = P(Z>(1)/0.2) depende de , obtenindose para varios valores de ste:

0.7
0.8
0.9
1.0
1.1
1.2
1.3

K()
0.0668
0.1587
0.3085
0.5
0.6915
0.8413
0.9332

Ho
V
V
V
V
F
F
F

78

En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es


verdadera es muy alta, por ejemplo para = 0.9 hay una probabilidad de 0.3 (30%) y
para = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1.
Si escogemos Co = 1.2 obtenemos:

0.8
0.9
1.0
1.1
1.2
1.3
1.4

Ho
V
V
V
F
F
F
F

K()
0.0228
0.0668
0.1587
0.3085
0.5000
0.6915
0.8413

En este caso en cambio, cuando Ho es falsa, recin tenemos probabilidades de 0.3


a 0.5 de rechazarla. Entonces lo ideal sera tener un valor crtico Co sobre el cual la
probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que
bajo este, la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera
cercano a 0. Sin embargo esto no es posible y slo es posible encontrar valores crticos
de compromiso entre los posibles errores.
As notamos que la validez de Ho es una caracterstica poblacional y que la toma
de decisin se realiza en base a la muestra. Esto produce una disociacin entre estos dos
eventos, originando dos clases posibles de errores. La situacin se puede expresar en la
siguiente tabla:
VALOR

DECISIN

Rechazo Ho
Acepto Ho

V (H1F)
ERROR I ()
C = 1-

DE

VERDAD
de
Ho
F (H1V)
K = 1-
ERROR II ()

En esta tabla se describen dos tipos de errores estadsticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V)
= 1-K(1).
Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la
dcima, y a , el mximo error de tipo I que se est dispuesto a tolerar, se le denomina

79

nivel de significacin cuando se encuentra previamente especificado. Del mismo modo


a K(1) = 1 - , el valor de la funcin de potencia en 1 ,o simplemente K, se le conoce
como potencia de la dcima y puede definirse como la probabilidad de aceptar H 1
cuando esta es verdadera.
La docimasia o prueba de hiptesis debe cumplir varias etapas:
i)

Planteamiento de la Hiptesis.

ii)

Dicotoma de la hiptesis: Ho vs H1.

iii)

Eleccin del nivel de significacin. En esta etapa se define a priori el nivel de


significacin con que se va a trabajar. En general en ciencias se consideran
como adecuados niveles menores que = 0.1; 0.05; 0.01 (o confianzas
mayores que 90%; 95%; 99%). El ms aceptado es lejos = 0.05. O sea en
ciencias parece aceptable cometer errores de tipo I con probabilidades
menores o a lo sumo iguales a 0.05.

iv)

Eleccin de la dcima apropiada (ver ms adelante).

v)

En base al resultado de la dcima, tomar una decisin estadstica por una de


dos vas equivalentes:
a. rechazar Ho si la probabilidad de error I es p < 0.05, o
b. rechazar Ho si el valor del estadgrafo que se us como dcima se
encuentra en la zona de rechazo (Rc) definida por un cierto valor crtico
(Co).

vi)

Interpretacin estadstica de los resultados. Slo hay dos posibles:


a. De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho,
y por tanto sostener H1 con una probabilidad de error I = p; y
b. De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar
Ho (y por tanto en general aceptamos Ho, pero ojo! Si aceptamos Ho
podemos estar cayendo en el error II por lo que deberamos medir o
alternativamente la potencia de la dcima(K)).

80

VI.2.- Dcimas para una muestra


Dcima para una proporcin (P) Una pregunta muy habitual en ciencias de
cualquier tipo es si cierta proporcin P corresponde o no a un valor dado. Por ejemplo es
habitual pensar que la proporcin de mujeres es mayor que 0.5 o que la prevalencia de
una cierta enfermedad sea menor que una prevalencia dada etc...
Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30%
(p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces
planteo la hiptesis: la proporcin de casas infestadas por este insecto es mayor que un
30%. En trminos estadsticos Ho: P 0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel
de significacin de = 0.05.
Supongamos adems que examin 25 viviendas (muestra de tamao n = 25) y
encontr 13 con el insecto.
Como ya sabemos que Z = (p-P)/(PQ/n) es N(0,1), entonces uso el estadgrafo
Z = (p-p0)/(p0q0/n) como dcima.
Esto es porque la probabilidad de encontrar una proporcin p > 13/25 = 0.52 en
una muestra de 25 viviendas bajo el supuesto que Ho es V es: P (Z > (0.520.3)/(0.30.7/25)) = P(Z > 2.41) = 0.008.
Entonces como la probabilidad de rechazar Ho con este valor dado que Ho es
verdadera es menor que 0.05, rechazo Ho y acepto H1: la proporcin de viviendas
infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . En
realidad con una confianza a posteriori de un 99.2%, ya que hemos calculado la
probabilidad de error I como p = 0.008.
Una segunda manera de ver esto es buscando el valor crtico Co tal que P(Z>Co)
= 0.05. Este es Co = 1.64, es decir rechazar la hiptesis Ho para todo valor calculado de
z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la
zona de rechazo de Ho.
Observacin importante Si la hiptesis H1 hubiera sido P 0.3 existiran dos
situaciones que la verifican: P< 0.3 y P > 0.3, entonces la zona de rechazo se divide en
los dos extremos de la distribucin dejando una probabilidad 0.025 en cada extremo. En
este caso hay dos puntos crticos simtricos Co = -1.96 y Co = +1.96, rechazando Ho si
Z <-1.96 o si Z > 1.96. En este caso se habla de una prueba de dos colas, y en el caso

81

anterior, de una cola. En la prctica cada vez que en H1 aparece el smbolo se


trata de una prueba de dos colas, en caso contrario es de una cola.
As, en resumen la prueba adecuada para una muestra en el caso de una
proporcin es:

p p0
p0 q0
n

Ejemplo 1.La prevalencia histrica de una cierta enfermedad infecciosa es de un 8%. Sin
embargo en una localidad se examinaron 196 personas, de las cuales 25 estaban
infectadas. Habr en esta localidad una mayor prevalencia o slo ser un hecho
fortuito?
Planteamos estadsticamente: Ho: P 0.08 vs. H1: P > 0.08. Trabajaremos con =
0.05 y el problema es de una cola, por lo que el valor crtico de rechazo es Z c = 1.64.
Adems, en la muestra, p = 25/196 = 0.128.
Aplico el estadgrafo Z:
Z

0.128 0.08
0.08 0.92

2.48

196

Como el valor calculado de Z a partir de la muestra (2.48) es mayor que 1.64,


entonces cae en la zona de rechazo de Ho, y por tanto debo aceptar H1. En otras
palabras, puedo afirmar que en dicha localidad existe una mayor prevalencia de esta
enfermedad, con una probabilidad de error de tipo I menor que un 5%.
Dcima para el promedio () En este caso la afirmacin se refiere a una variable
continua distinta de una proporcin, por ejemplo se afirma que el peso promedio de los
hombres es ms de 70 kg.

82

Aqu la hiptesis H1 es de una de las siguientes formas: a) >o (una cola), b)


<o (una cola) o c) o (dos colas).
Por un razonamiento completamente anlogo al anterior se esperara que el
estadgrafo adecuado fuera Z = (x -o)/(/n), sin embargo en general no conocemos
. Afortunadamente por los teoremas anteriores sabemos que t n-1 = (x -o)/(s/n)
donde s es la desviacin estndar calculada en la muestra, que si la conocemos. Entonces
la prueba adecuada es :
t n 1

x 0
s
n

Ejemplo 2.Supongamos que se ha propuesto que el peso promedio de un hombre es 70 Kg, y


que nosotros pensamos que es mayor. Tomamos una muestra de 60 individuos y
encontramos un peso promedio de 73 Kg, con una desviacin estndar de 1Kg. Entonces
planteamos las hiptesis en trminos estadsticos: H0: 70 vs > 70 y usamos el test:
73 70
t59
23.2 . Como el valor crtico de t para una cola, 59 grados de libertad y una
1
60
mxima probabilidad de error de tipo I = 0.05, es 1.64, y adems 23.2 >>1.64,
entonces rechazamos H0 y afirmamos que efectivamente el peso promedio de los
hombres es mayor que 70 Kg.
VI.3.- Dcimas para dos muestras
En este caso se trata de hiptesis que comparan dos situaciones y por tanto para
probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A
hay ms prevalencia de cncer que en la ciudad B, es necesario tomar una muestra en A
y otra en B.
El razonamiento estadstico y la forma en que se toma la decisin son enteramente
anlogos a las anteriores por lo que nos limitaremos a escribir las hiptesis Ho y H1 de
dos colas y los test o dcimas apropiadas.

83

Dcimas para dos proporciones


En este caso, para una prueba de dos colas, las hiptesis H0 y H1 se pueden
escribir como:
H0: (P1-P2) = P0 vs. H0: (P1-P2) P0. Lo habitual es que P0 = 0, pues en general interesa
la pregunta P1 = P2 o P1 P2? La prueba a usar en este caso es:
Z

( p 1 p 2 ) P0
p n p 2 n2
donde p0 1 1
n1 n2
1 1
p0 q0 ( )
n1 n2

Ejemplo 3.Interesa saber si dos insectos, A y B, se encuentran parasitados en diferente


proporcin. Se examinan 52 insectos A, de los cuales 10 estaban parasitados, y de 100
insectos B, 36 lo estaban. Entonces se plantea: H0: PA=PB vs. H1: PAPB (P0 = 0).
Entonces
por
lo
p 1 10 / 52 0.192 y
p 2 36 /100 0.36 ,
0.192 52 0.36 100
que p0
0.303 . Entonces calculo Z:
52 100
0.192 0.36
Z
2.14 . Entonces ahora se debe tomar la decisin. El
1
1
0.303 0.697(
)
52 100
valor crtico de rechazo para un mximo error de tipo I = 0.05 es 1.96, y como es una
prueba de dos colas rechazaremos H0, cuando el valor calculado de Z sea < -1.96 o >
+1.96 . En nuestro caso -2.14 < -1.96 y entonces rechazo H0 y puedo afirmar que existe
suficiente evidencia para sostener que la proporcin de insectos parasitados es diferente.
Podemos observar adems que si nuestra hiptesis H1 hubiera sido que el insecto B tiene
una mayor proporcin de parasitismo que A. La prueba habra sido de una cola, el valor
crtico habra sido 1.64, y nuevamente habramos rechazado H0, en este caso afirmando
que existe suficiente evidencia para sostener que la proporcin de insectos parasitados es
mayor en el insecto B que en A.
Dcimas para dos promedios
En el caso de hiptesis referidas a dos promedios, es necesario distinguir dos
situaciones. La primera en que son, a) dos muestras independientes y la segunda en
que es, b) la misma muestras o muestras relacionadas en dos situaciones experimentales.
Este ltimo caso es muy habitual en medicina donde se estudia la misma muestra con y

84

sin un cierto frmaco, o bien situaciones del tipo antes-despus. En este ltimo caso se
habla de muestras pareadas o dependientes
Muestras independientes
Por razones estadsticas la prueba a usar depende de si las varianzas muestrales se
pueden considerar iguales (homocedasticidad) o bien son diferentes. Una estimacin
razonable para decidir esto es hacer el cuociente s2M/s2m, donde s2M es la varianza mayor
y s2m es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible
docimar directamente la homocedasticidad (ver ms adelante). Las hiptesis para dos
colas son H0:1 - 2= 0 vs H1: 1- 2 0 y al igual que en el caso de las proporciones lo
habitual es que 0 = 0.
a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:
t n n 2
1

x1 x2 0
(n1 1) s12 (n2 1) s22
2

donde sc
n1 n2 2
1
2 1
sc ( )
n1 n2

Ejemplo 4.Se afirma que la especie A pesa ms que la especie B. Entonces se plantean las
hiptesis H0:A B > 0 vs H1: A- B 0 y se toman muestras de A y de B.
Supongamos que en 46 individuos de A el peso promedio fue 36g con una desviacin
estndar de 6g y que en 50 individuos de B el peso promedio fue 33 g con una
desviacin estndar de 5g. As como el cuociente entre las varianzas es 6 2/52 = 1.44, es
decir es menor que 4, usando nuestra regla simple, podemos suponer homocedasticidad.
Adems podemos estimar la varianza comn s2c como:
45 36 49 25
sc2
30.27 . Ahora podemos usar nuestro test:
46 50 2
36 33
t 94
2.67 . Para = 0.05 y una cola, el valor crtico de t es 1.64,
1
1
30.27 ( )
46 50
entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa ms
que B.
Observamos que el valor crtico de t con 94 grados de libertad es 1.64, idntico al
valor crtico para Z en el caso de una cola. Esto no debe extraarnos, pues como hemos
enunciado en un teorema anterior, si el tamao muestral aumenta, la distribucin t se
aproxima a la normal N(0,1) (Z).

85

b) si no hay homocedasticidad, entonces usamos:


t gl

x1 x2 0
s12 s22
( )
n1 n2

pero los grados de libertad gl los estimamos mediante

s12 s22

n n
gl 12 2 2
s12 s22

n1 n2
n1 1 n2 1

Ejemplo 5.Usando el mismo caso anterior, pero ahora las desviaciones estndar son: para A
6g y para B 2g. Entonces la razn entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:
36 33
(36 / 46 4 / 50) 2
3.23 y los grados de libertad: gl
54.15 55
(36 / 46) 2 (4 / 50) 2
36 4

( )
46 1
50 1
46 50
Entonces con = 0.05 y una cola el valor crtico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretacin es la misma.
t gl

Muestras dependientes (pareadas)


Este caso es equivalente a una dcima para promedio de una muestra. Se crea la
variable auxiliar d = x1-x2, se calcula su promedio d y su desviacin estndar sd . Las
hiptesis en este caso son referidas al parmetro D = 1- 2. Por ejemplo, proponer que
H1: 1> 2, es equivalente a H1: D > 0. Entonces el test de hiptesis a usar es:
t n1

d
sd / n

86

Ejemplo 6.Se piensa que un frmaco baja la presin arterial. Entonces se estudian 10
individuos, tomndole la presin diastlica antes y despus de la administracin del
frmaco obteniendo:

Individuos
1
2
3
4
5
6
7
8
9
10
Total
Promedio
Desviacin estndar

Antes (x1)
100
95
80
90
98
105
110
100
90
110
978
97.8
9.5

Despus (x2)
95
95
85
80
90
95
95
92
80
93
900
90
6.1

d = x1-x2
5
0
-5
10
8
10
15
8
10
17
78
d =7.8
sd= 6.5

Entonces se pueden plantear las hiptesis de una cola: H0: D 0 vs H1: D > 0, ya que
pensamos que la presin antes debe ser mayor que despus ( 1> 2 , o D = 1- 2 > 0).
7.8
Calculamos el valor del estadgrafo: t9
3.79 . Como, para = 0.05 el valor
6.5 / 10
calculado de t (3.79) es mayor que el valor crtico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el frmaco
baja la presin arterial.
VI.4.- Supuestos de las dcimas
Para que las dcimas tengan real validez, se deben cumplir ciertos supuestos
bsicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dcimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:
i)
ii)
iii)

independencia
normalidad
homocedasticidad

87

Independencia Es el requisito fundamental de todas las dcimas. Cada elemento


de la muestra debe ser independiente del resto. Es decir los elementos de una muestra no
deben estar relacionados entre s, mas que por el hecho de pertenecer a la misma
situacin experimental. Por ejemplo, si estamos estudiando un parmetro fisiolgico, no
parece conveniente incluir hermanos en la misma muestra porque sus fisiologas pueden
ser semejantes violando el supuesto de independencia. En este caso los elementos de la
muestra no constituyen rplicas sino seudo rplicas. Aunque no siempre es fcil decidir
si los elementos son realmente independientes, por ejemplo en el caso de las plantas de
un prado, el supuesto de independencia lo debe asegurar el investigador. Cuando existen
dudas es posible realizar un estudio de correlacin de los errores a travs de una dcima
de Durbin-Watson (que no se tratar en este libro).
Normalidad Este supuesto se refiere a que se espera que las variables
consideradas en las muestras tengan distribucin normal. Esto proviene de los supuestos
en que se fundamentan las distribuciones que se usan como estadgrafos.
Existen varias pruebas para probar la normalidad de los datos de una muestra. En
este captulo slo mencionaremos tres y en los siguientes describiremos dos de ellas.
Estas son i) Prueba de Lilliefors que consiste en una prueba grfica utilizando una
distribucin normal acumulada, ii) Bondad de ajuste de Kolmogorov-Smirnov e iii)
Bondad de ajuste 2.
Homocedasticidad Este supuesto consiste en la suposicin de igualdad de
varianzas, que es necesario slo para comparar promedios con suposicin de la
existencia de una varianza comn. En prrafos anteriores habamos dado una regla
simple: si el cuociente entre las varianzas era mayor que 4, entonces las suponamos
distintas. En esta ocasin vamos a ser ms rigurosos y plantearemos las hiptesis Ho: 21
= 22 (homocedasticidad) vs. H1: 21 22 . Para tomar la decisin se usa el test F de
Snedecor (F en honor a Fisher):
F( n 1), ( n 1)
1

s M2
2 , donde SM2 representa la varianza mayor y Sm2 la menor.
sm

Ejemplo 7.Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una
especie de rbol:
Poblacin
Nmero de rboles
Altura promedio
Desviacin estndar

A
46
3.5 m
0.6 m

B
68
4.3 m
1.26 m

88

Planteamos la hiptesis H1 que los rboles de la poblacin B son ms altos que los
de la poblacin A. Entonces, en trminos estadsticos H0:B A vs H1: B > A, por lo
que es una hiptesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hiptesis principal, planteo las hiptesis: Ho: 21 = 22 (homocedasticidad) vs. H1:
21 22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor
crtico de la distribucin F, con 67 grados de libertad en el numerador y 45 grados de
libertad en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la
homocedasticidad (H0) y deber considerar las varianzas como diferentes.
Ahora nos preocupamos de la hiptesis principal y aplicamos el test adecuado:
4.3 3.5
(1.59 / 68 0.36 / 46) 2
4.53 con gl
102.3 103
(1.59 / 68) 2 (0.36 / 46) 2
1.59 0.36

)
68 1
46 1
68
46
Como 4.53 > 1.64 (valor crtico), entonces rechazo H0 y afirmo que efectivamente
los rboles de B son ms altos que los de A.
t gl

89

Ejercicios de Pruebas de Hiptesis para una y dos muestras


1. Un cierto tipo de cncer tiene habitualmente una letalidad (nmero de muertos por
cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los
cuales se producen 15 defunciones. Qu puede decir usted sobre la eficiencia de la
droga?
a) Seale la hiptesis de trabajo.
b) Seale el nivel de significacin.
c) Realice la prueba de significacin estadstica. R: Z = -2.19
d) Saque conclusiones. R: La droga disminuye la letalidad.
2. De acuerdo con las leyes de Mendel, el cruzamiento de heterocigotos produce una
descendencia formada por dos tipos de individuos: aquellos con carcter dominante
que representan el 75% y el resto presenta el carcter recesivo. En un experimento
con 500 semillas se obtienen 360 semillas amarillas (dominante) y 140 verdes.
Puede aceptarse que esta distribucin es mendeliana?
R: Z = -1.55, si es mendeliana.
3. Habitualmente la ictericia fisiolgica del recin nacido dura 3.8 das. Al tratar a 100
nios con fototerapia, el perodo ictrico dura 2.8 das con una desviacin estndar de
2.7 das. Es la fototerapia un tratamiento efectivo contra la ictericia?.
R: t99 = -3.7; la fototerapia es efectiva.
4. Se ha medido la concentracin de una sustancia en clulas tratadas con un compuesto
que se cree sedimenta dicha sustancia, y en clulas no tratadas (controles), dando los
siguientes resultados (en ng/mL): Que puede Ud. decir?
Controles
Tratadas
68
66
21
29
100
50
48
77
46
110
7
55
5
91
57
90
96
114
138
50
R: t9 = 0.89. No hay evidencias de variaciones de concentracin.

90

5. Se ha observado que la administracin de dosis bajas de aspirina en pacientes


sometidos a dilisis renal disminuye la frecuencia de trombosis. As, en pacientes a
los que se les administr un placebo presentaron trombosis en un 70% de los casos y
en aquellos que recibieron aspirina, se observ trombosis slo en el 50% de los casos.
a) Si el nmero de pacientes es de 30 para ambos grupos, cul sera su conclusin
respecto al efecto de la aspirina?
b) Si el nmero de pacientes es 60, cul sera ahora su conclusin?
R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis.
6. Se han realizado mediciones de metabolismo en carrera en felinos provenientes de
dos zonas (norte y sur). De 15 felinos nortinos medidos, se obtuvo un metabolismo
de 0.120.02 [ml O2 kg-1 m-1] (promedioSD). De 23 felinos sureos, se obtuvo un
metabolismo de 0.150.06 [ml O2 kg-1 m-1]. Existe diferencia entre los
metabolismos?.
R: No hay homocedasticidad; t28 =-2.22, si existe diferencia.
7. La contraccin (en mm) de los teros de 8 ratas usando dos hormonas distintas (A y
B) es la siguiente:
tero
1
2
3
4
5
6
7
8

Hormona A
28
30
25
34
35
26
31
32

Hormona B
24
29
28
30
25
19
32
32

Existe efecto diferencial entre las dos hormonas? Use nivel de significacin del 1%.
R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%.
8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
despus de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:
Individuo
1
2

Antes
95
90

Despus
85
85

91

3
4
5
6
7

110
104
80
78
95
94
83
75
91
91
Existirn evidencias para suponer que esta dieta produce una disminucin
significativa del peso? (Use nivel de significacin del 1%).
R: t6 = 3.24; si hay evidencias de reduccin de peso.
10. Se realiz un estudio sobre dos poblaciones de Spalacopus cianus (Cururo)
provenientes de la costa y de la cordillera. Se les midi el largo del pelo a 20
individuos de cada poblacin, resultados que fueron tabulados en la siguiente tabla.
LARGO
[MM]
10-12
12-14
14-16
16-18
18-20
20-22
22-24

DEL PELAJE

fcosta

fcordillera

1
3
6
6
2
1
1

2
5
8
3
2
0
0

Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dcima adecuada).
R: t38 = 1.77; no hay evidencias de diferencias.
11. Mientras paseaba por el parque, un seor se puso a contar el nmero de perros que
eran sacados a pasear por sus dueos. Los siguientes datos corresponden al nmero
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres:
1-1-2-2-2-3-3-3-3-4-4-6-9
Mujeres:
1-1-1-2-2-2-2-2-2-3-35
Suponiendo que los datos son normales, determine si existe diferencia en el nmero
de perros sacados a pasear entre hombres y mujeres
R: t23 = 1.63; p = 0.059.
12. En un anlisis qumico de las aguas del ro Mapocho, se encontr que los valores de
concentracin de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la maana que durante la tarde. La muestra tomada en la maana

92

presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza


de 20 mg2/mL2 (N=20). Tienen razn los investigadores?.
R: no.

93

VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS


VII.1.- La distribucin 2
Muchas veces en ciencias las hiptesis se refieren a diferencias en cantidades o
frecuencias entre diferentes poblaciones, por ejemplo nmero de enfermos, poblacin
animal, etc. Una distribucin muy til en stos casos es la distribucin 2, que como
recordamos proviene de una variable aleatoria x con distribucin normal estandarizada,
N(0,1), elevada al cuadrado. Si sumamos n variables de este tipo se obtiene una nueva
variable X = x2 con distribucin 2n , es decir una distribucin cuya forma depende de
un parmetro n llamado grados de libertad.
Si recordamos que Z = (x-)/ tiene distribucin N(0,1), es obvio que Z2 tiene
distribucin 21 y entonces 2n = [(x-)/]2 tiene distribucin 2n. Si en esta ltima
variable estimamos directamente de la muestra restringimos en uno los grados de
libertad. Bstenos observar que si nos lo proponemos, se pueden escoger libremente tres
nmeros, pero si se los somete a la condicin de que el promedio es un nmero
determinado, entonces slo se pueden escoger dos libremente pues el ltimo queda
determinado por la condicin (se ha restringido en uno los grados de libertad).
Supongamos que no es muy diferente de 2 (como en una distribucin de
Poisson) y que ambos los estimamos por un valor esperado e a partir de la muestra.
Entonces esperamos que la variable:
X2 = (o-e)2/e , donde o es un valor observado de x y e su esperado, tenga
distribucin 2n-1. Este estadgrafo es conocido como Chi-cuadrado.
Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay
N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces
o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) =
= (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N 1/2)2/[((1/21/2)/N)]2
= [(p- P)/(PQ/N)]2 = Z2.
En un ejemplo numrico supongamos que se tienen 35 hombres y 46 mujeres en
una muestra de 81 personas. Entonces si probamos Ho: P = 0.5 vs. H 1: P 0.5 usamos el
estadgrafo Z = = (p- P)/(PQ/N) = (35/81- 0.5)/(0.50.5/81) = 1.222 y como el valor
crtico de Z para dos colas es Z = 1.96, entonces acepto Ho.

94

Si ahora calculo X2 considerando que ambos valores esperados son e =


0.581=40.5, obtengo X2 = (35-40.5)2/40.5 + (46-40.5)2/40.5 = 1.4938.
Es fcil ver que Z2 =1.2222 = 1.4938= X2.
Tablas de contingencia
La distribucin 2 cobra su mayor importancia en las tablas de doble entrada o
tablas de contingencia. Estas son la manera habitual de presentar datos enumerativos.
Por ejemplo tres poblaciones A, B y C y en cada una de ellas el nmero de enfermos y
no enfermos.
A

Total
marginal

Enfermos
No enfermos
Total
marginal

Gran total

En general una tabla de doble entrada se puede escribir as:


C1
N1,1
N2,1

R1
R2
..
Rr
Nr,1
T. marginal N0,1

C2
N1,2
N2,2
Nr,2
N0,2

......
......
.......
.......

........

Ct
N1,t
N2,t

T. marginal
N1,0
N2,0

Nr,t
N0,t

Nr,0
N0,0

Es fcil darse cuenta que si todos los N se comportan en forma homognea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debera ocurrir
que N1,1/ No,1 N1,o/ No,o.
Entonces si la respuesta es homognea los valores esperados para cada celda se
pueden determinar como: ei,j = (Ni,o/No,o)No,j.
Existen dos tipos de diseos experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociacin entre las

95

variables de clasificacin (entradas) o independencia. En este caso Ho: independencia


vs. H1: asociacin. En cambio en el segundo se escoge una muestra de un mismo tamao
determinado para cada nivel de una primera entrada (total marginal regulado), y en cada
una se determina el nmero que se encuentra en cada nivel de la segunda entrada. En
este ltimo caso interesa la homogeneidad de la repuesta de la segunda variable de
clasificacin, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia.
En ambos casos el estadgrafo adecuado es:

2
( r 1)( c 1)

( o e) 2

donde r es el nmero de filas y c el nmero de columnas.


e
i, j

Observaciones importantes
i)

Por su derivacin la prueba Chi-cuadrado en general se debe usar cuando


los valores esperados son 5.

ii)

La prueba de hiptesis es siempre de 2 colas.

iii)

Cuando se realiza una prueba de independencia vs. asociacin, una buena


medida de la asociacin es: X2/(No,o(m-1)), donde m es el menor valor
entre r y c.

iv)

El rechazo de la hiptesis Ho en una prueba de homogeneidad indica


diferente respuesta el algn nivel (C) de la primera variable clasificatoria,
pero no informa cual nivel es el diferente. En caso que esto sea relevante se
debe ir sacando en forma iterada la columna que ms contribuye al valor
del X2 y recalculando el valor de X2 hasta que este deje de ser significativo.
Las columnas que queden sern homogneas. (Comparaciones mltiples en
2)

iv)

En el caso de una tabla de contingencia de 2x2, cuando no se cumple con


Ni,j> 5, se debe realizar la prueba exacta de Fisher que proviene de una
distribucin hipergeomtrica

Ejemplo 1.Supongamos que se desea saber si existe asociacin entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:

96

Con abejas
Sin abejas
Total

Blancas
45
36
81

Rojas
24
83
107

Amarillas
60
40
100

Total
129
159
288

Entonces planteamos las hiptesis H0: independencia u homogeneidad de


proporciones vs. H1: asociacin entre el color de las flores y la presencia de abejas.
A continuacin hay que calcular los valores esperados para cada celda. Por
ejemplo para la primera celda e = 81(129/288), o sea de el total de 81 flores blancas, si a
la abeja no le importa el color de la flor (independencia), se espera que una proporcin
(129/288) de ellas sea visitada por abejas. Entonces e = 36.3. Para la segunda celda e =
81(159/288) = 44.7. Notamos enseguida que 36.3 + 44.7 = 81. As se puede proseguir el
clculo para cada celda, obteniendo:

Con
abejas
Sin
abejas
Total

Blancas
45

(esperadas) Rojas
36.3
24

(esperadas) Amarillas
47.9
60

(esperadas) Total
44.8
129

36

44.7

59.1

55.2

81

83
107

40
100

159
288

Ahora entonces podemos calcular el valor del X2:

22

(45 36.3) 2 (36 44.7) 2 (24 47.9) 2

................... 34.7
36.3
44.7
47.9

El valor crtico de Chi-cuadrado para 2 grados de libertad y = 0.05 es 5.99, y


como 34.7>>5.99, rechazamos H0 y afirmamos que existe una asociacin entre el color
de las flores y la presencia de abejas.
Si queremos avanzar ms, observamos que la columna que ms contribuye al
valor del estadgrafo es la de las flores rojas, que tiene una proporcin menor de visitas
de abejas que la esperada. Entonces retiramos la columna y recalculamos los valores
esperados obteniendo:

Con
abejas
Sin
abejas
Total

Blancas
45

(esperadas) Amarillas
47.0
60

(esperadas) Total
58.0
105

36

34

42.0

81

40
100

76
181

97

Planteamos una nueva hiptesis de independencia versus asociacin y calculamos


el valor de X2:
(45 47) 2 (36 34) 2 (60 58) 2 (40 42) 2

0.36
47
34
58
42
2
1

Como el valor crtico es ahora 3.84 y 0.36 < 3.84, ahora acepto H0 y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.
Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble
entrada:

FACTOR 2 (+)
FACTOR 2 (-)
TOTAL

FACTOR 1
+
A
C
A+C

B
D
B+D

TOTAL
A+B
C+D
N

Observamos que la probabilidad de que haya A asociaciones (+,+) dados los


totales marginales es:
A C B D

A
B

P( X A)
N

A B

Desarrollando los nmeros combinatorios se llega a:


P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.
Entonces la probabilidad de obtener una asociacin igual o mayor, dados los
totales marginales es P = P(X=x), x A.

98

De esta manera entonces, en trminos generales, la prueba exacta de Fisher para


una tabla de contingencia de 2x2 es:
PF

P( X x); dondeP( X x)

x N1,1

N1, 0 !N 2, 0 ! N 0,1! N 0,1!


N1,1! N1, 2 ! N 2,1! N 2, 2 ! N 0, 0 !

La hiptesis de nulidad es la independencia (es decir la asociacin es la esperable


por simple azar) vs. H1: existe una asociacin mayor (una cola) o distinta (dos colas) que
la esperada por azar. En el caso de una cola la probabilidad de error I es p = P y en el
caso de dos colas p = 2P. Rechazamos Ho si p < 0.05.
Ejemplo 2.Supongamos que hubo una intoxicacin en una comida y pensamos que la
mayonesa estaba contaminada. Hacemos un estudio de los casos obteniendo:
Intoxicados
Comieron mayonesa 8
No
comieron 2
mayonesa
10

No intoxicados
2
4

Total
10
6

16

Planteamos la hiptesis de una asociacin positiva entre la mayonesa y la


intoxicacin. Es decir, la hiptesis de nulidad es que la probabilidad de intoxicacin es
la misma entre los que comieron y no comieron mayonesa (P = 10/16 = 0.625).
Calculamos P( X 8)

10!6!10!6!
0.084
8!2!2!4!16!

Ahora deberamos sumarle P(X=9) y P(X=10), para calcular finalmente PF =


P(X=8) + P(X=9) +P(X=10). Sin embargo, como PF va a dar un valor mayor que 0.084,
que a su vez es mayor que 0.05 = , debemos aceptar H0. Es decir, no existe suficiente
evidencia para afirmar que existe una asociacin entre la mayonesa y la intoxicacin.
VII.2.- Bondad de ajuste de 2 Cuando es necesario saber si una determinada variable
tiene una cierta distribucin, se realiza la prueba de bondad de ajuste.
Si agrupamos en n intervalos los valores de una variable aleatoria X, siempre ser
posible establecer una tabla del tipo:

99

Intervalo

Frecuencia
observada
n1
n2
.......
N

(yo,y1)
(y1,y2)
..........
Total

(ni) Frecuencia esperada (ei)


E1
E2
.......
N

Las frecuencias esperadas corresponden a ek = NP(yk-1 x yk), donde las


probabilidades son calculadas de acuerdo a la funcin de densidad de probabilidades o la
funcin de cuanta de la distribucin esperada. El caso ms habitual es esperar una
distribucin normal. Sin embargo para calcular estas probabilidades es siempre
necesario estimar una cantidad p de parmetros, a partir de la muestra, por ejemplo, y
(p = 2). Es por esto que la distribucin 2 usada para probar la bondad de ajuste es:

n2 p 1

( o e) 2
e

Observamos que en este caso el nmero de grados de libertad es igual al nmero


de intervalos menos 1 y menos el nmero de parmetros estimados a partir de la
muestra.
Ejemplo 3.Supongamos que estamos interesados en saber si cierta variable tiene una
distribucin normal y se tiene la serie agrupada de la siguiente forma:
Intervalo
2-4
4-6
6-8
8-10
10-12
12-14
Total

ni
20
25
30
10
12
3
100

Aqu las frecuencias relativas (ni) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribucin
normal. Mediante las tcnicas aprendidas en estadstica descriptiva podemos calcular el
promedio (6.56) y la desviacin estndar (2.74). A continuacin debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo

100

P(2x4) = P((2-6.56)/2.74 z (4-6.56)/2.74) = 0.1277. P(4x6) =0.2445; P(6x8)


= 0.2778; P(8x10) = 0.1977; P(10 x12) = 0.0799 y P(12 x14) = 0.0204.
Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8;
19.8; 8.0 y 2.0 .
Intervalo
2-4
4-6
6-8
8-10
10-12
12-14
Total

Observado
s
20
25
30
10
12
3
100

Esperados
12.3
24.5
27.8
19.8
8.0
2.0

La hiptesis de nulidad H0 corresponde a un ajuste a una distribucin normal


sujeta a dos condiciones (p = 2): Promedio 6.59 y desviacin estndar 2.74. Entonces
podemos calcular X2:

2
6 2 1

(20 12.3) 2 (25 24.5) 2 (30 27.8) 2

.......... 12.36
12.3
24.5
27.8

Entonces como el valor crtico para tres grados de libertad y = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hiptesis de nulidad. Es decir esta variable
no tiene distribucin normal.
VII.3. El 2 para proporciones
En ocasiones es necesario comparar dos o ms proporciones, lo cul puede
hacerse con una prueba de 2. Ya hemos visto que cuando la hiptesis es de dos colas es
posible comparar 2 proporciones a travs de Z = N(0,1) o bien con un 2. En el caso de
ms de dos proporciones puede usarse:
n

2
n 1

n ( p
i

pq

p)

en donde p ni p1 / n
i

Observamos que este caso es enteramente equivalente al 2 para una tabla de


contingencia.

101

VII.4.- La prueba G
Una aproximacin alternativa a la prueba de 2 para bondad de ajuste y tablas de
contingencia es la prueba del logaritmo del cuociente de verosimilitudes (loglikelihood ratio), prueba 2I, o prueba G.
Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f1 xitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si estn en
relacin a:b. Si fuera as la probabilidad de un xito sera p = a/(a+b) y de fracaso q =
b/(a+b). Sin embargo, las proporciones observadas son: p f1 /( f1 f 2 ); q f 2 /( f1 f 2 ) .
Entonces la probabilidad de obtener f1 xitos basados en la hiptesis de nulidad
n

es: p p f 1q f 2 y la probabilidad de obtener f1 xitos basados en lo observado es:


f1
n
p p f 1 q f 2 . As el cuociente entre estas probabilidades (verosimilitud; L) es:
f1
f1

p q
L
p q
f1

f2

f f
L 1 2
f f
1 2

y considerando que las frecuencias fi = npi se obtiene:


f2

, y sacando logaritmo natural:


a

ln( L) f1 ln( f1 / f1 ) f 2 ln( f 2 / f2 ) ... f i ln( f i / fi )


En esta expresin se puede reconocer la definicin de informacin (I) de Shannon.
Por otra parte s ha demostrado que G = 2I = 2ln(L) sigue una distribucin 2a-1.

102

Ejemplo 4.- Supongamos que en un experimento gentico se espera una relacin


3:1 para un cierto carcter y se ha obtenido: 80 con el carcter y 10 sin el carcter. En
tonces se propone H0: las frecuencias se encuentran en relacin 3:1. Y podemos calcular:
Resultados Observados Propocin
observada
Con
el 80
carcter
Sin
el 10
carccter
Total
90

8/9

Proporcin Frecuencia Razn


Producto
esperada
Esperada f obs/f esp fr
x
ln(razn)
3/4
67.5
1.18
13.59

1/9

1/4

22.5

90

0.44

-8.11
lnL=5.48

Entonces G = 2x5.48 = 10.96 y como sigue una distribucin 2, en este caso con 1
grado de libertad, es fcil ver que p << 0.01 y entonces rechazamos H0.

103

Ejercicios de anlisis de datos enumerativos


1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas
o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus
clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. Qu le dira
usted al peluquero?.
SEXO\COLOR Negro

Castao

Rubio

Colorn

43
65

16
64

9
16

PELO

Masculino
Femenino

32
55

R: 23 = 8.99; p < 0.05. Existe asociacin entre el color del pelo y el sexo.
2. La Secretara de Estudios de la facultad necesita saber si existe alguna relacin entre
el nivel de desercin de los alumnos de primer ao y el hecho que hayan tomado
determinado curso. Por eso, la secretaria acudi a un estadstico con los datos
presentados en la siguiente tabla, y le pidi que le diera una respuesta. Qu cree que
le respondi a la secretaria?

Se va
Se queda

Toma el curso
37
26

No toma el curso
31
40

R: 21 = 3.03; p > 0.05. No hay evidencias que as sea.


3. Se desea averiguar si existe alguna relacin entre el biotipo de un individuo y la
probabilidad de que tenga alguna lesin gstrica. Para eso se analiz el grupo
sanguneo de individuos sanos (control), con cncer gstrico y con lcera gstrica,
obtenindose los siguientes resultados:

Biotipo
Ectomrfico
Mesomrfico
Endomesomrfico
Endomrfico
Total

Cncer
383
416
84
25
908

lcera
983
679
134
43
1839

Control
2892
2625
570
226
6313

Total
4258
3720
788
294
9060

104

Son eventos independientes el grupo sanguneo y la lesin gstrica?


R: No son independientes. 26 = 48.61; p << 0.05.
4. En un experimento para determinar el modo de herencia de un mutante, se
obtuvieron 146 descendientes del tipo normal y 30 mutantes cuando se cruzaron
las moscas de la generacin F1. Comprobar si los datos concuerdan con la
hiptesis de que la proporcin de individuos normales y mutantes es 3: 1.
R: 21 = 5.94; p > 0.05. No concuerdan.
5. En un estudio sobre polimorfismo de inversiones cromosmicas en el saltamontes
Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la
composicin de una poblacin en Royalla B en 1958. Estn las frecuencias de
las tres combinaciones del cromosoma EF asociadas a las frecuencias de las tres
combinaciones del cromosoma CD?

Cromosoma EF

Td/Td
St/Td
St/St

Cromosoma CD
St/St
St/B1
B1/B1
22
96
75
8
56
64
0
6
6

R: No. Son independientes. 24 = 6.3; p > 0.05


6. En la localidad A se ha realizado una captura exhaustiva de serpientes de la
especie S. Un examen de los 167 machos adultos que han sido recogidos revela
que 35 de stos presentan bandas plidas alrededor del cuello. De la localidad B, a
30 kilmetros de distancia de la A, se obtuvo una muestra de 27 machos adultos
de la misma especie, 6 de los cuales presentaban bandas. Cul es la probabilidad
de que ambas muestras procedan de la misma poblacin estadstica con respecto a
la frecuencia de bandas?
R: p = 0.88.

105

VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA


Las dcimas que hemos mencionado hasta ahora, siempre presuponen
distribuciones particulares de la variable aleatoria, o bien sus hiptesis especifican
parmetros o distribuciones. Por esto la estadstica que las usa se denomina estadstica
paramtrica. Pero, qu sucede cuando no se cumplen los supuestos necesarios para
tales dcimas?
Existe un conjunto de dcimas denominadas no-paramtricas o de distribucin
libre que vienen a constituirse en alternativas para stos casos o para ser usadas
directamente. Sin embargo es interesante notar que es diferente no especificar
parmetros que no suponer una cierta distribucin. Si se clasifican las dcimas se puede
establecer el siguiente cuadro:
Supuestos
Distribucin
Especifica parmetro
Ej: t de Student
No especifica parmetro Ej: Wilcoxon

de Sin
supuestos
de
Distribucin
Ej: Dcima Binomial
Ej:
KolmogorovSmirnov

Esta estadstica se utiliza fundamentalmente cuando no se cumplen los supuestos


de la estadstica paramtrica y, lo que en general va ligado, cuando el nmero muestral
es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para nmeros bajos y
la falta de supuestos acerca de distribuciones o parmetros. Sin embargo, tiene algunas
crticas: i) con n > 10 en general se usan las distribuciones asintticas de los estadgrafos
y no sus propias distribuciones, y stas son paramtricas, ii) son dcimas con menor
potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el
nivel de significacin, e iv) en general se basan en la transformacin de los valores a
rangos, siendo sta ltima transformacin irreversible y anisomtrica (no conserva las
distancias).
Existen alternativas no-paramtricas para una muestra (Pruebas de Mediana,
Dcimas Binomiales), pero las ms usadas son las alternativas a las pruebas para 2
muestras o las alternativas para el anlisis de la varianza (ver ms adelante).

106

VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras


Se pueden resumir en el siguiente cuadro:
Muestras pareadas, distribucin asimtrica SIGNOS DE FISHER
Muestras pareadas, distribucin simtrica RANGOS SIGNADOS DE WILCOXON
Muestras independientes
SUMA DE RANGOS DE WILCOXONMANN-WHITNEY
Datos enumerativos
McNEMAR

Prueba de los signos de Fisher


En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia
poblacional i = xi-yi = + i, donde i representa el error de muestreo. Entonces las
hiptesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0
vs. H1: < 0. Se define adems di como la diferencia muestral di = xi-yi y una variable
auxiliar bi que es 0 si di 0 y 1 si di > 0.
El estadgrafo es: B bi
Observamos inmediatamente que B corresponde al nmero de ocasiones de un
total de n en que xi > yi, y, que al azar se esperara que fuera el 50%. Entonces es
posible calcular directamente la probabilidad de calcular esto mediante una distribucin
binomial (de aqu es que se denomina B). Afortunadamente no hay que hacer ningn
clculo y stas probabilidades se encuentran tabuladas para el nivel de significacin (),
el tamao muestral (n) y la probabilidad (p) que en nuestro caso es p = 0.5 (50%):
b(,n,0.5) .
Si Ho es del tipo a), rechazamos Ho si el valor calculado de B b(,n,0.5) o
B n -b(,n,0.5) , si es del tipo b), rechazamos Ho si B b(,n,0.5) y si es del tipo c)
entonces rechazamos Ho si B n - b(,n,0.5) .
Ejemplo 1.Estamos interesados en el efecto de cierto frmacos sobre la presin arterial como
en el ejemplo VI.6. Obteniendo la tabla:

107

Individuos
1
2
3
4
5
6
7
8
9
10

Antes (x1)
100
95
80
90
98
105
110
100
90
110

Despus (x2)
95
95
85
80
90
95
95
92
80
93

Se propone que el frmaco baja la presin, es decir Ho: 0 vs. H1: > 0.
Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo:
Individuos
1
2
3
4
5
6
7
8
9
10

Antes (x1)
100
95
80
90
98
105
110
100
90
110

Despus (x2)
95
95
85
80
90
95
95
92
80
93

D
5
0
-5
10
8
10
15
8
10
17

B
1
0
0
1
1
1
1
1
1
1

Entonces, B = bi = 8. El valor crtico para n = 10 es 8 con = 0.054, por lo que


rechazamos H0 y afirmamos que el frmaco baja la presin. Observamos que como la
distribucin binomial es discreta no se encuentra exactamente el nivel 0.05 para , y en
cierta medida queda a criterio del investigador la aceptacin o rechazo de H0 (esto
ocurre en general en toda la estadstica no-paramtrica). Si se es riguroso, para B = 8, p
= 0.054 y este valor es mayor que 0.05, por lo que deberamos aceptar H 0. Sin embargo,
las dcimas binomiales son de baja potencia y, entonces aceptando H0 con toda
seguridad estaramos cayendo en el error estadstico de tipo II.
Prueba de los rangos signados de Wilcoxon
En esta prueba se considera la misma situacin anterior y las mismas hiptesis,
pero esta prueba requiere una distribucin simtrica de d i lo que se puede apreciar

108

observando su histograma de frecuencias (o bien realizando una prueba de simetra de


GUPTA, fuera del alcance de este libro).
En esta prueba adems de considerar la variable bi, se ordenan de menor a mayor
los valores absolutos de di (di) y se les asigna un orden (rango: Ri), como por ejemplo,
en la siguiente tabla:
di
-5
3
0
-1
4

Ri
5
3
1
2
4
En esta dcima se define el estadgrafo T = biRi.

Este valor se compara con un valor crtico tabulado Tc(,n). Si Ho es del tipo a)
rechazamos Ho si T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos
Ho si T Tc(,n), y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n).
Ejemplo 2.Usaremos el mismo caso anterior. Ahora agregamos la asignacin de rangos a las
diferencias d:
Individuos
1
2
3
4
5
6
7
8
9
10

Antes (x1)
100
95
80
90
98
105
110
100
90
110

Despus (x2)
95
95
85
80
90
95
95
92
80
93

D
5
0
-5
10
8
10
15
8
10
17

Rangos(R)
2.5
1
2.5
7
4.5
7
9
4.5
7
10

B
1
0
0
1
1
1
1
1
1
1

Observamos que en el caso de empates se les asigna el rango promedio. Por


ejemplo hay tres valores 10, que deberan ocupar los rangos 6, 7 y 8, por lo que a los tres
se les asigna (6+7+8)/3 = 7.

109

Ahora se puede calcular T = Ribi = 2.5 + 7 + 4.5 + 7 + 9 + 4.5 + 7 + 10 = 51.5.


Como este valor es mayor al valor crtico.. Llegamos a la misma
conclusin anterior.
Prueba de la suma de rangos de Wilcoxon- Mann-Whitney
En este caso tenemos dos muestras independientes [x i] e [yi] de tamaos n1 y n2.
Se propone que xi = i y que yi = i + , donde i es el error experimental y da cuenta
de las diferencias (efecto del tratamiento). Como antes, las hiptesis pueden ser a) Ho:
= 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0.
En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les
asigna un rango (Ri) y se consigna el estadgrafo:
no

T1 Ri
1

Aqu es importante indicar que la suma se realiza sobre aquella muestra de tamao
no que tiene el menor rango promedio.
Este valor se compara con un valor crtico tabulado w(,n1,n2) donde n1 es el
nmero muestral menor (no necesariamente igual a no) y n2 el mayor. Si Ho es del tipo
a) rechazamos Ho si T1 w(,n1,n2) o s T1 no(N+1) - w(,n1,n2), si es del tipo b)
rechazamos Ho si T1 w(,n1,n2), y si es del tipo c) cuando T1 no(N+1) - w(,n1,n2).
En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadgrafos
diferentes, pero despus se demostr que la U de Mann-Whitney era U = T1-no(no+1)/2 y
por tanto ambas dcimas son equivalentes.
Ejemplo 3.Supongamos que se quieren comparar los pesos de dos especies A y B y se
plantea la hiptesis que A pesa ms que B. Se realiza un estudio obteniendo:

110

Especie A (masa: g)
30
28
27
32
29
33
28

Especie B (masa: g)
26
28
30
25
24
22
25
26
28
Planteamos la hiptesis Ho: 0 vs. H1: > 0 y asignamos los rangos:

Especie A (masa: g)
30
28
27
32
29
33
28

Rango
13.5
9.5
7
15
12
16
9.5

Suma de rangos
Rango promedio

82.5
11.8

Especie B (masa: g)
26
28
30
25
24
22
25
26
28

Rango
5.5
9.5
13.5
3.5
2
1
3.5
5.5
9.5
53.5
5.9

Observamos que n1 = 7; n2 = 9 y que no = 9, y entonces T = 53.5. A este valor le


corresponde una probabilidad de error de tipo I < 0.01, por lo que rechazamos H 0. Es
decir, afirmamos que la especie A pesa ms que la especie B.
Dcima de McNemar
Esta prueba est especficamente diseada para situaciones antes-despus cuando
la variable respuesta es un dato enunerativo, como por ejemplo ver el efecto de una
campaa anti-cigarrillo . En este caso es til la tabla de doble entrada:

ANTES (+)
ANTES (-)

DESPUS (+)
A
C

DESPUS (-)
B
D

111

Como vemos en esta tabla slo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hiptesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para stas celdas se puede
realizar un prueba 21 que despus de algn trabajo algebraico se reduce a:
( B C 1) 2
(B C)2
2

o 1
si se quiere corregir la distorsin provocada por
(B C)
(B C)
aplicar una distribucin continua a una variable discreta.
2
1

Ejemplo 4.Se realiz una campaa antidrogas a un grupo de jvenes obteniendo el siguiente
resultado:

(+) antes
campaa
(-) antes
campaa

de

(+) despus de la (-) despus de la Total


campaa
campaa
la 15
8
23

de

la 2
17

35

37

43

50

Se plantea H0: No hay efecto (B = C) vs H1: Si se produjo efecto.


( 8 2 1) 2

2.5 y como el valor crtico para = 0.05 es
Calculamos:
(8 2)
3.84 y 2.5 < 3.84, aceptamos H0. Es decir la campaa no tuvo xito.
2
1

112

Ejercicios de estadstica no-paramtrica


1. En un estudio sobre empleo de Sildenafil en pacientes hipertensos se utiliza una dosis
de 6.25 mg. Se anota la presin arterial sistlica de cada paciente antes que reciba el
frmaco (X) y setenta minutos despus de que haya sido administrado (Y). Altera la
presin arterial el uso del Sildenafil?
X (antes)
175
179
165
170
160
180
177

Y (despus) di
140
143
135
133
162
150
182

bi

R: No hay evidencia; B = 5; p > 0.05.


2. Se realiza una investigacin sobre los efectos del ejercicio fsico sobre pacientes
cardipatas, midiendo el mximo de oxgeno consumido por cada paciente antes de
comenzar el entrenamiento y despus de seis meses de rgimen. Se obtuvieron los
siguientes datos (suponga simetra):
Sujeto
1
2
3
4
5
6
7
8

Antes
48
25
46
40
43
42
23
30

Despus
40
26
57
30
50
55
25
55

Existe diferencia en el oxgeno consumido luego del entrenamiento?


R: No hay evidencia; T = 9; p = 0.2.
3. Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. En
este estudio se consider el efecto de la privacin de la sustancia sobre el contenido
protenico total de las races nerviosas de O. degu. Se comparan dos grupos: las

113

nacidas de hembras deficientes en la sustancia (en el tero) y las nacidas de hembras


normales, pero amamantadas por hembras deficientes en la sustancia (en la leche). Se
obtienen los siguientes datos:
Contenido protenico total (mg de protena por raz de ganglio dorsal)
EN EL TERO
0.12
0.19
0.17
0.20
0.09
0.13
0.21

En la leche
0.19
0.21
0.21
0.23
0.20
0.22

Indican estos datos, a un nivel =0.05, que el contenido protenico total tiende a ser
menor entre las ratas privadas de la sustancia X en el tero que entre las privadas de ella
en la leche?
R: Si. T1 = 33; p < 0.05.

114

IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION


Y REGRESION

115

IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA)


IX.1.-El Problema de Bonferroni
Muchas veces en ciencias es necesario comparar ms de dos muestras, como por
ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo
4 o 5 condiciones experimentales reguladas. En este caso, la primera tentacin es hacer
varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede
ser un nmero elevado de comparaciones, pues si hay N muestras, el nmero de pruebas
que se deben hacer es:
N
k
2

Sin embargo, este no es el nico problema. Analicemos lo siguiente:


Si realizamos una vez la prueba, la probabilidad de cometer error de tipo I es
P(E1) = , es decir la probabilidad de no cometer error de tipo I es P(noE1) = 1-.
Si la prueba se realiza k veces entonces la probabilidad de no cometer ningn
error I es P(noEk) = (1-)k y entonces la probabilidad de cometer al menos un error I en
k repeticiones de una prueba es P(al menos 1 Ek) = 1-(1-)k = 1 - [1-k + (k!/(k2)!2!)2-.........]. Y, como n 0 para n 2, porque es pequeo, entonces P(al menos 1
Ek) k. En la siguiente tabla vemos lo que puede significar esto para = 0.05:
K
1
P(al menos 0.05
1 en Ek)

2
0.09

3
0.14

5
0.23

10
0.4

Observamos que si tenemos 3 muestras k = 3 y tendramos probabilidad de error I


p = 0.14 (14%), con 4 muestras k = 6 y p = 0.3 (30%) etc.
Sin embargo Bonferroni nos da una solucin en el caso de pocas muestras: Si se
quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel =
0.05, entonces podemos asegurar esto trabajando en cada una de las pruebas con un
nivel de significacin * = /k. Aunque este sistema es muy restrictivo pues restringe
mucho , puede ser muy til para bajo nmero de muestras (hasta 4 aproximadamente).
Esto se conoce como la correccin de Bonferroni. Por ejemplo, si se van a realizar 4
comparaciones y se quiere una error de tipo I de 0.05, entonces en cada comparacin se
debera permitir a lo sumo un error p = 0.05/4 = 0.0125.

116

IX.2.- Diseo experimental


El diseo experimental en trminos estadsticos se refiere al acoplamiento entre la
lgica de un diseo experimental cientfico y el mtodo estadstico de anlisis de este
diseo. Es muy habitual que en ciencias encontremos muy buenos diseos cientficos
con malos anlisis desde la perspectiva estadstica, o simplemente diseos para los
cuales la estadstica actual es insuficiente o parcial.
En un experimento en general tenemos una o varias variables respuesta o
dependientes, y variables cualitativas independientes que denominamos factores o
vas. Por ejemplo, puede ser interesante estudiar el efecto de las estaciones del ao
(factor) sobre el metabolismo (variable respuesta).
Los factores pueden ser 1 (1 factor o 1 va), 2 (2 factores o 2 vas) o 3 o ms,
hablando en este caso de diseo multifactorial. Las categoras en que se divide cada
factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de
los factores se denominan tratamientos. Por ejemplo en la siguiente tabla se muestra
una cierta variable respuesta X frente a diferentes condiciones:

HUMEDAD

ALTA
BAJA

BAJA
-------------

TEMPERATURA
MEDIA
ALTA
---------------------------

En este caso la variable respuesta es X, y se trata de un diseo de dos factores:


temperatura y humedad. El factor temperatura tiene tres niveles: baja, media y alta, y el
factor humedad tiene dos: alta y baja. El nmero de tratamientos es 6 (2x3). A las
unidades muestrales dentro de cada tratamiento se les denomina rplicas.
Cuando los niveles de un factor son todos los posibles, en general fijados por el
experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando
los niveles son slo una muestra de las categoras posibles se dice que es un modelo II o
de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un
modelo mixto. As por ejemplo, si nos interesa el efecto de la altitud sobre el
metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de
tipo II, pues las localidades son slo una muestra de todas las posibles alturas. Si en
cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el
investigador, entonces es un modelo de tipo I.

117

IX.3.- Anlisis de la varianza de 1 va o factor (ANOVA de 1 va).


En este caso, el ms simple, se tiene un factor con varios niveles y una variable
respuesta. Como slo hay un factor, los niveles coinciden con los tratamientos.
Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar
mediante una prueba de bondad de ajuste de 2 o bien Kolmogorov-Smirnov;
independencia que debe asegurarla el investigador mediante un muestreo adecuado; y
homocedasticidad que se puede probar mediante una dcima de Bartlett o bien una
dcima de Hartley, habitualmente disponibles en los programas estadsticos
computacionales.
Modelo El modelo que se plantea es que cada valor de la variable repuesta yij se puede
expresar como la suma entre un promedio paramtrico poblacional , un efecto
provocado por el tratamiento (i ) y el error experimental o residual (ij) Esto se
conoce como el supuesto de aditividad. De esta manera i = i -, mide el efecto
provocado sobre yij por el tratamiento. El modelo se escribe:
yij = + i +ij
Notacin Es habitual en el ANOVA usar la notacin de la siguiente tabla:

T1
y11
y12
....
y1n
TOTALES
Y1o
PROMEDIOS y1o

FACTOR
T2
y21
y22
.....
y2n
Y2o
y2o

.....
.....
.....
......
.......
.....
.....

Tt
yt1
yt2
.....
ytn
Yto
yto

TOTAL

Yoo
yoo

Observamos que, al contrario que la notacin habitual de matrices donde el


subndice i indica la fila en este caso indica el tratamiento que va en las columnas.
Observamos adems que se usan las minsculas para los promedios y las maysculas
para los totales. Habiltualmente al trmino Yoo se le denomina gran total.
Particin de la varianza Trabajemos algebraicamente el trmino (yij-yoo)2 que
corresponde a la suma de desviaciones cuadrticas en torno al promedio (yoo) llamado
simplemente suma de cuadrados total (SCT) y que corresponde al numerador de la
varianza (s2):

118

(yij-yoo)2 = (yij-yio+yio- yoo)2 = (yij-yio)2 + (yio-yoo)2+ 2(yij-yio)(yio-yoo)


(yij-yoo)2 = (yij-yio)2 + (yio-yoo)2, pues el ltimo trmino es 0.
En palabras, la suma de las desviaciones cuadrticas en torno al promedio general
(SCT) se puede descomponer aditivamente en la suma de las desviaciones cuadrticas
de cada valor individual al promedio de su tratamiento (suma de cuadrados dentro de
tratamiento: SCD) y la suma de las desviaciones cuadrticas de cada promedio de
tratamiento al promedio general (suma de cuadrados entre tratamientos: SCE): SCT
= SCD + SCE. Esto es lo que se conoce como particin de la varianza y es la base de
todo el anlisis de la varianza. Hay que hacer notar que esta particin y aditividad se
produce a nivel de la suma de cuadrados y no de la varianza, pues la varianza total es:
S2 = (yij-yoo)2/(nt-1), la varianza dentro de tratamientos es CMD= (yij-yio)2/(t(n-1))
(intravarianza) y la varianza entre tratamientos es CME = (yio-yoo)2/(t-1)
(intervarianza).
Esquema general del ANOVA
Definicin Llamaremos Fuente de variacin a las fuentes que originan
variabilidad en la variable respuesta. Estas en general corresponden a la variabilidad
originada en el error experimental () y a aquella provocada por los niveles de los
factores y sus interacciones.
El esquema general del ANOVA es una tabla que incluye sucesivamente las
fuentes de variacin (FV), las sumas de cuadrados (SC), los grados de libertad (que
corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o
medias cuadrticas (CM), el valor del estadgrafo F y la probabilidad de error I (p). En
un ANOVA de una va, balanceado (igual tamao muestral en cada tratamiento), sta es:

FV
T (entre)

SC
(Yi 02 / n) Y002 / nt

Gl
t-1

(dentro o yij2 Yi 02 / n
ij
i
error)
TOTAL
yij2 Y002 / nt

CM=SC/gl F
P
F
=
CME/CMD

t(n-1)
nt-1

ij

Como dato prctico, observamos que para los clculos en una tabla de ANOVA,
se necesitan tres clculos sencillos:

119

(Y

2
i0

/ n)

2
ij

Y002 / nt

i, j

Tambin observamos que no se calcula, sino que se obtiene por la diferencia


= SCT SCE
Esperanza de los cuadrados medios y la dcima F.
Es posible demostrar que el valor esperado o esperanza del cuadrado medio del
error (dentro) es E[CMD] = 2, es decir es la varianza poblacional. Adems si el modelo
del diseo es de tipo I E[CME] = 2 + n (i-)2/(t-1) = 2+() y si es de tipo II
E[CME] =2+n2 .La interpretacin de esto es que se espera que la desviacin
cuadrtica entre tratamientos sea similar a la desviacin cuadrtica dentro de
tratamientos ms un componente aadido por los tratamientos (efecto del tratamiento).
En forma natural surge la idea de realizar el cuociente F = CME/CMD, lo que
estadsticamente tiene gran sentido por cuanto CMD/2 tiene distribucin 2t(n-1) y
CME/2 tiene distribucin 2t-1 por lo que F = CME/CMD tiene distribucin de
Snedecor Ft-1,t(n-1). As, es posible docimar Ho: i= j i,j vs. H1: i j para algn par i,j
mediante el valor de F.
Ejemplo 1.Se quiere saber el efecto de ciertos tratamientos A, B y C sobre la presin arterial
diastlica probndolos en tres grupos de individuos, obteniendo:
A
110
100
90
85
90
100

B
100
90
86
97
100
96

C
80
76
82
88
84
78

Se plantean las hiptesis H0: A= B = C vs H1: al menos un par de promedios


distintos.
Se construye la tabla bsica:

120

Total (Yi0)
Promedio (yi0)

A
110
100
90
85
90
100
575
95.8

B
100
90
86
97
100
96
569
94.8

C
80
76
82
88
84
78
488
81.3

Calculamos: Y00 = 575 + 569 + 488 = 1632.

(Y

2
i0

/ n) (5752 569 2 4882 ) / 6 148755

2
ij

110 2 100 2 ..... 100 2 90 2 .....80 2 76 2 ...782 149430

i, j

Y002 / nt 1632 2 / 6 3 147968

Entonces construimos la tabla de ANOVA:


FV
T (entre)

SC
(Yi 02 / n) Y002 / nt

Gl
t-1 = 2

CM=SC/gl F2,15
P
787/2 =
F
=
i
= 393.5
CME/CMD
=148755-147968 =
= 393.5/45 =
787
= 8.74
2
2
(dentro o yij Yi 0 / n t(n-1) = 675/15 =
ij
i
15
= 45
error)
= 1462 787 = 675
TOTAL
nt-1 = 1462/17 =
ij yij2 Y002 / nt
17
= 86
=149430-147968 =
1462
El valor crtico de F2,15 con = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadstico, a continuacin habra que hacer comparaciones mltiples
a posteriori.

121

Transformaciones
El anlisis de la varianza es un anlisis muy poderoso y que conduce a resultados
confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad
lo que es especialmente vlido para nmeros de replicas iguales en cada tratamiento
(modelos balanceados) y nmeros muestrales grandes. Por esto se dice que el ANOVA
y en general toda la estadstica paramtrica, son robustos. Sin embargo, en ciencias
siempre interesa tener el mnimo de violaciones posibles de los supuestos por lo que a
veces es necesario transformar la variable.
Cuando existe violacin de la normalidad, es til el siguiente teorema: En
cualquier distribucin de una variable aleatoria y tal que su varianza V se puede
expresar como una funcin de la esperanza E: V = (E), entonces existe una
transformacin:
T f ( y)

dy
cuya varianza y esperanza son independientes. El resultado es una
( y )

nueva variable, con distribucin normal.


Por ejemplo en una distribucin de Poisson V = E y entonces, f(y) = dy/y = 2y.
De esta manera si una variable tiene distribucin de Poisson, conviene aplicarle una
transformacin raz cuadrada para su anlisis con ANOVA. De esta manera surgen
algunas transformaciones recomendadas:
Distribucin
Normal
Binomial (proporciones)
Poisson (sucesos raros)
Sin homocedasticidad

(y)
C = constante
y(1-y)
Y
y2
y4

Binomial negativa
Decreciente

Transformacin f(y)
Y
arcsen(y)
y
ln(y) o ln(y+1)
1/y o 1/(y+1)
arcsen(y)
y2

IX4.- Comparaciones mltiples


En general el ANOVA no termina con el rechazo de Ho. Con esto slo sabemos
que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a
menudo (sobre todo en modelo de efectos fijos) interesa saber cul o cuales de los
tratamientos produce el efecto. En este caso es necesario realizar comparaciones
mltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e

122

ii) definidas a posteriori. Aqu es importante notar que a priori o a posteriori no se


refiere a si se ha hecho o no primero el ANOVA, sino al diseo experimental. A veces
por diseo slo interesa comparar los tratamientos contra un control (a priori), o slo
realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan
todas las comparaciones para interpretar despus (a posteriori).
Comparaciones a priori
Contrastes ortogonales La idea en este caso es realizar slo comparaciones
independientes entre s (ortogonales). Para esto se define un contraste j =ciji, donde
cij son constantes que definen el contraste de tal manera que cij= 0. Entonces un
estimador de j es Lj =cijyio. La hiptesis de nulidad para un contraste es Ho: j = 0.
Por ejemplo si se tienen cuatro tratamientos y se quiere comparar el primero con el
tercero se puede elegir c11 = 1, c21 = 0, c31 = -1 y c41= 0 y entonces L1 = y1o-y3o (la
diferencia de los promedios entre el tratamiento 1 y el 3. Es un contraste porque c 11 + c31
= 1-1= 0.
Dos contrastes Lj y Lk son ortogonales o independientes si cij.cik = 0. Entonces
un contraste independiente del anterior es L2 = y2o-y4o porque c11 = 1, c21 = 0, c31 = -1 y
c41= 0 y c11 = 0, c21 = 1, c31 = 0 y c41= -1 y entonces cij.cik = 10+01+(-1)0+0(-1) = 0.
Una de las utilidades mayores de los contrastes ortogonales es la posibilidad de
comparar tendencias, por ejemplo si se tienen 4 tratamientos y se quiere evaluar
tendencia lineal, cuadrtica o cbica, basta elegir los cij de acuerdo a la siguiente tabla:

cij
Lineal
Cuadrtica
Cbica

-1
-1
-1

-1
1
1

1
1
-1

1
-1
1

El estadgrafo adecuado para probar la hiptesis es una t de Student con los grados
de libertad del error (tgle):
t gle

Lj
CMD ci2 / ni

Prueba de Dunnet Muchas veces la idea del diseo es comparar los tratamientos
contra un tratamiento control. En este caso el estadgrafo adecuado es t d(t,gle,) de
Dunnet (existen tablas especiales):

123

td

yi 0 ycontrol
2CMD / n

En este caso ycontrol representa el promedio en el tratamiento control.


Prueba de Scheff Esta prueba se basa en el concepto de contrastes, definidos de
igual manera que antes: j = cii. Sin embargo en este caso no es necesario que los
contrastes sean ortogonales. Si los contrastes son sugeridos por el diseo, es una prueba
a priori, pero si se realizan todas las comparaciones, es a posteriori. Como es posible
ejecutar mltiples contrastes, se recomienda la correccin de Bonferroni. La prueba de
hiptesis (Ho: j = 0) se realiza con una distribucin F1-,t-1,gle:
L2
Ft 1, gle
(t 1) CMD ci2 / ni

Comparaciones a posteriori
Existen muchas pruebas para hacer comparaciones mltiples, sin embargo son dos
las ms utilizadas. Ambas estn basadas en la distribucin del rango Studentizado: Q
= (xmax-xmin)/sx.
Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles,
usando la distribucin del rango Studentizado Q1-,t,gle:
Qt , gle

yi 0 y j 0
(CMD / 2) (

1 1
)
ni n j

Prueba de Student-Newman-Keuls (SNK) Esta prueba tiene la misma estructura


que la prueba de Tukey, pero considera el nmero de tratamientos t, como un variable.
Por ejemplo, si tenemos cuatro tratamientos (t = 4) y se obtuvo: y1o = 27, y2o = 19 y3o =
15 y4o = 13. Como estn ordenadas en forma decreciente al comparar y1o con y4o
participan 4 medias adyacentes (t=4), pero al comparar y1o con y3o slo participan 3,
entonces t = 3 para esta comparacin, y as sucesivamente.

124

Las pruebas a posteriori, se pueden ordenar segn su potencia en forma


decreciente: SNK, Tukey y Scheff. Sin embargo, en la medida que aumenta su
potencia, tambin aumenta su probabilidad de error de tipo I, por lo que en general, se
recomienda una prueba intermedia (Tukey).
Ejemplo 2.Considerando los datos del ejemplo 1 vamos a realizar las comparaciones
correspondientes. Para cada comparacin se establece la hiptesis H0: i = j vs H1: i
j y se realizan los clculos. Usaremos la prueba de Tukey.
Para comparar A con B:
Q3,15

95.8 94.8
0.149
45

Para comparar A con C:


Q3,15

95.8 81.3
2.16
45

Y para comparar B con C:


Q3,15

94.8 81.3
2.01
45

El valor crtico de Q3,15 es 3.67, por lo que no es posible rechazar H0 en ninguno


de los tres casos.
IX.5.- ANOVA de dos vas: la interaccin
El anlisis de la varianza de dos factores (o vas) es conceptualmente similar. En
este se puede probar en forma independiente el efecto de cada factor sobre la variable
respuesta. El modelo se puede expresar como:
yijk = + i + j + k(ij)
Sin embargo, cuando existen dos factores, existe la posibilidad de que stos
provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el
factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor
2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia

125

de interaccin entre los factores. La variabilidad proveniente de la interaccin ()


puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe:
yijk = + i + j +ij + k(ij)
La interpretacin de la interaccin queda clara en la siguiente figura.

En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los grficos
superiores no existe interaccin, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha slo del segundo
factor (B). En los grficos inferiores si existe interaccin. En el grfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el grfico de la izquierda existe
interaccin que podramos llamar paradojal: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este ltimo caso lo ms probable es que el test
no arroje significacin ni en el factor 1, ni en el factor 2, pero s efecto de interaccin.

126

Ejemplo 3.- Se ha medido una variable fisiolgica x en tres localidades A, B y


C a dos especies W y Z. Obteniendo:
A
3
4
5
4
3
2
3
2
1
2

B
7
8
9
8
7
4
3
4
3
2

C
2
3
1
3
3
1
2
2
2
1

B
7.8
3.2

C
2.4
1.6

Valores promedio:
A
3.8
2.0

W
Z

Se desea saber si existen diferencias en x entre las especies y el efecto de la


localidad sobre sta.
Se realiza ANOVA de dos vas: Localidad y Especie, con interaccin, obteniendo:
F de V
Localidad
Especie
Interaccin
Error
Total

SC
66.1
43.2
19.4
14.8
143.5

Gl
2
1
2
24
29

CM
33.0
43.2
9.7
0.62

F
53.6
70.1
15.7

P
<< 0.001
<< 0.001
<< 0.001

Del anlisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interaccin).
El valor de la probabilidad de error I (p: en negritas los valores significativos
(< 0.05)) en las comparaciones mltiples con prueba de Tukey muestra:

127

{1}
A
A
B
B
C
C

W
Z
W
Z
W
Z

{1}
{2}
{3}
{4}
{5}
{6}

{2}
.015196
x

{3}
.000138
.000138
x

{4}
.828719
.190434
.000138
x

{5}
.088555
.963783
.000138
.599784
x

{6}
.002275
.963783
.000138
.037791
.599784
x

La interpretacin es la siguiente: En la localidad B se encuentran valores ms altos


de x. La especie Z tiende a tener valores ms bajos de x que la especie W. Sin embargo,
esto se manifiesta claramente en las localidades A y especialmente en B donde la
diferencia es muy grande, pero no alcanza a ser significativo en C.
IX.6.- Otros diseos
El anlisis de la varianza no slo es un mtodo de anlisis de la informacin, sino
tambin establece una forma de compatibilizar el anlisis con el diseo del experimento.
As, por ejemplo, para un diseo que considere tres factores y que en uno de ellos tenga
sub-muestras, existe una estadstica adecuada para analizarlo (ANOVA factorial
anidado). A la inversa, conociendo que existe una estadstica para analizar un diseo, se
puede adecuar el experimento a tal diseo, como ocurre por ejemplo con el diseo de
cuadrados latinos.
Al analizar un experimento, es importante usar el modelo adecuado a tal diseo,
identificando adecuadamente las fuentes de variacin. Si stas no son identificadas, la
variabilidad de dichas fuentes ser incorporada a la variabilidad residual (aumenta
CMD) y por tanto, como esta ltima se encuentra en el denominador de la F de
Snedecor, tendr un valor inferior, reduciendo la probabilidad de rechazar Ho, y por
tanto aumentando el error de tipo II. La eficiencia del modelo se puede medir a travs de
E = (CMD sin el modelo)/(CMD con el modelo). Si E = 1, el uso del modelo es
irrelevante.
Diseos factoriales Un diseo es factorial, si tiene ms de 2 vas.
Conceptualmente es igual a los anteriores, pero incorpora cada vez ms posibilidades de
interaccin.
Diseo de bloques aleatorizados Muchas veces un experimento exige que los
tratamientos (T) se repitan en distintas parcelas o bloques (B), por ejemplo el uso de tres
fertilizantes en tres lugares. En este caso los tratamientos se distribuyen aleatoriamente
en cada uno de los lugares, y el efecto del lugar es irrelevante. Un ejemplo de este
diseo se puede resumir en la siguiente tabla:

128

B1
B2
B3

T1
T3
T2

T3
T2
T1

T2
T1
T3

Diseo de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de anlisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estmulos (T):
T1

T2

T3

I1
I2
I3
I4
Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseo es necesario excluir a los individuos de respuesta extraa (out-group)
pues violan un supuesto de este diseo: la simetra compuesta. Esta ltima junto a la
homocedasticidad constituyen el supuesto de esfericidad.
Diseos anidados, encajados o jerrquicos Para entender este modelo conviene
definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad
de muestreo como aquella que constituye una rplica.
En los diseos jerrquicos se consideran sub-niveles dentro de cada tratamiento.
Por ejemplo si estamos estudiando las diferencias en cierta caracterstica de individuos
de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N):

T1
N1

N2

T2
N1

N2

T3
N1

N2

Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son slo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseo anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las rplicas constituyen sub-muestras.

129

Cuadrados latinos y parcelas divididas (split-plot)


Estos son dos diseos especiales que a veces es necesario usar y se pueden
representar en las siguientes tablas.
El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles:
b1
T1
T2
T3

B1
B2
B3

b2
T2
T3
T1

b3
T3
T1
T2

El diseo de parcela dividida corresponde a un diseo de bloques incompleto (no


incorpora todas las combinaciones posibles) en que se mezclan dos tratamientos (T y t) y
un bloque (B):
B1

T1

B2

T3

B3

T2

t1
t2
t1
t2
t1
t2

T3
T2
T1

t1
t2
t1
t2
t1
t2

T2
T1
T3

t1
t2
t1
t2
t1
t2

IX.7.- Alternativas no paramtricas al ANOVA


Afortunadamente la estadstica paramtrica, especialmente el ANOVA es muy
robusto, de tal manera que es posible tolerar algunas violaciones a los supuestos,
especialmente en modelos balanceados (n iguales en cada celda) y con nmero grande
de observaciones. Sin embargo las comparaciones mltiples no son tan robustas, por lo
que a veces es necesario primero usar transformaciones y, si estas no resultan, utilizar
estadstica no paramtrica. Esta en general se restringe a diseos con bajo nmero de
observaciones.
Prueba de Kruskall-Wallis Es la alternativa no-paramtrica de un ANOVA de una
va. En esta, se transforman todos los valores a rangos y luego se calcula el estadgrafo:
2

t R
12
0j
H
3(n 1)

N ( N 1) 1 n j

130

Se puede demostrar que esta prueba es exactamente equivalente a un ANOVA


aplicado sobre los rangos (ANOVA sobre Rangos). Adems si se realiza un ANOVA
sobre rangos, entonces la F obtenida se relaciona con la H a travs de:
F

N t
H
( N 1 H )(t 1)

Es posible realizar pruebas a porteriori, entre ellas la prueba de Dunn y la de


Nemenyi. Escribiremos esta ltima por su simplicidad y usar la misma distribucin que
el estadgrafo de Tukey:
Q , ,t

R0 j R0 k
n(nt )(nt 1)
12

Prueba de Friedman Es la alternativa no paramtrica para el ANOVA en bloques y


el ANOVA de medidas repetidas. En esta se rankea entre los tratamientos dentro de
cada bloque o individuo y despus se calcula el estadgrafo:

t2

12
R02 j 3b(t 1)

bt (t 1) j

Tambin es posible hacer comparaciones mltiples a posteriori. En este caso se


usa:
Q , ,t

R0 j R0 k
b(t )(t 1)
12

Otras alternativas Existen algunas alternativas no paramtricas para una y dos vas
cuando la hiptesis H1 incorpora una tendencia u ordenacin (i.e: H1: t1 <t2 < t3 ). En
este caso se usa para el caso de una va la prueba de Jonckheere y para dos vas la
prueba de Page. Cuando se tiene un diseo ms complejo se realiza un ANOVA sobre
rangos.

131

Ejercicios de anlisis de la varianza

ANLISIS DE VARIANZA (ANOVA) DE 1 VA


1. Se realiz un estudio de diversas especies de pjaros que son de similar naturaleza y
comparten un medio comn. El canto de cada especie tiene un conjunto de rasgos
distintivos que permite reconocerla. Una caracterstica investigada es la duracin del
canto en segundos. Se estudian tres especies: A, B y C. Se obtuvieron los siguientes
datos:
A
1.11
1.23
0.90
0.95
1.00
1.10
1.20
1.30
1.10

B
2.20
1.90
2.00
1.70
1.54
1.88
1.90
2.05
1.70

C
0.50
0.94
0.78
0.38
0.50
0.50
0.68
0.62
0.40

Qu se puede decir respecto a la duracin de los cantos de las distintas especies?


R: Son diferentes; F2,24 = 122.6; p << 0.05.
2. Un grupo de investigadores analizaron 6 muestras provenientes de 5 lagos distintos
para poder determinar la concentracin de rotferos (individuos por mL). Los datos
son presentados en la tabla de abajo. Segn los datos obtenidos, existen diferencias
en la concentracin de coppodos dependiendo de su procedencia?.

Promedio

Lago 1
28.2
33.2
36.4
34.6
29.1
31.0
32.1

Lago 2
39.6
40.8
37.9
37.1
43.6
42.4
40.2

Lago 3
46.3
42.1
43.5
48.8
43.7
40.1
44.1

Lago 4
41.0
44.1
46.4
40.2
38.6
36.3
41.1

Lago 5
56.3
54.1
59.4
62.7
60.0
57.3
58.3

132

Anlisis de varianza de un factor


RESUMEN
Grupos
Lago 1
Lago 2
Lago 3
Lago 4
Lago 5

Cuenta
6
6
6
6
6

Suma
192.5
241.4
264.5
246.6
349.8

Promedio
32.08
40.23
44.08
41.10
58.30

Varianza
10.27
6.40
9.49
13.44
9.22

SC
2193.44
244.13
2437.57

gl
4
25
29

CM
548.36
9.77

F
56.15

ANLISIS DE VARIANZA
Origen de las variaciones
Entre grupos
Dentro de los grupos
Total

P
3.95E-12

FC
2.759

Comparaciones Mltiples (Test de Tukey, = 0.05). Las diferencias significativas se


presenta en negritas.
Comparaciones Diferencia ()
5-1
5-2
5-4
5-3
3-1
3-2
3-4
4-1
4-2
2-1

SE

26.2
18.1
17.2
14.2
12.0
3.9

1.28
1.28
1.28
1.28
1.28
1.28

9.0

1.28

8.1

1.28

Tk
20.55
14.16
13.48
11.13
9.41
3.06
No es necesario
7.05
No es necesario
6.35

Tk crtico

crtica

4.166
4.166
4.166
4.166
4.166
4.166

5.31
5.31
5.31
5.31
5.31
5.31

4.166

5.31

4.166

5.31

3. Se estudi una variable x en tres situaciones A, B y C, obteniendo:


A
2
3
2
4
5

B
6
7
8
7
8

C
1
2
2
3
6

Que puede decir acerca del comportamiento de x en las tres situaciones?


R: Existen diferencias; F2,12 = 14,6; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situacin B.

133

4.- Analice de nuevo el ejercicio anterior, pero con estadstica no-paramtrica.


R: Existen diferencias; KW = 8.57; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situacin B.

134

X.- CORRELACIN Y REGRESIN


X.1.- Correlacin
A menudo en ciencias nos encontramos interesados en la relacin o asociacin
entre dos variables cuantitativas. En este caso, tratndose de dos variables aleatorias X e
Y, sabemos que si son independientes la variacin conjunta o covarianza es cero:
COV(X,Y) = 0. Adems el valor mximo que puede tener la covarianza es
COV(X,Y)max = (V[X]V[Y]).
Aprovechando stas propiedades podemos definir correlacin entre dos variables
X e Y como la covarianza estandarizada:

COV [ X , Y ]
V [ X ] V [Y ]

Naturalmente, un buen estimador de , ser el coeficiente de correlacin (r) de


Pearson:
r

( x x )( y y )
( x x ) ( y y)
i

x y
i

nx y

( xi2 nx 2 )( yi2 ny 2 )

Entonces tanto como su estimador (r) varan entre 1 y 1. Adems si X e Y son


independientes, y su estimador (r) son 0.

135

El coeficiente de correlacin mide el grado de asociacin entre dos variables X e


Y, siendo mxima si r 1 como en la situacin A de la figura, o r -1 como en la
situacin C. La diferencia entre stos ltimos dos valores es que un valor positivo indica
asociacin positiva y un valor negativo, lo contrario, es decir aumentos en la primera
variable implican disminuciones en la segunda. Cuando no existe asociacin, es decir Y
es independiente de X como en la situacin B, r 0.
Es importante decidir si existe asociacin o independencia por lo que se debe
realizar la dcima Ho: = 0 vs. H1: 0. Y en este caso se usa el estadgrafo:
t n2

r n2
1 r2

X.2.- Regresin
Muchas veces en la bsqueda de asociacin entre dos variables X e Y, intentamos
establecer una relacin funcional entre ambas, por ejemplo una lnea recta: y = mx + c, o
una parbola y = ax2 + bx +c o una exponencial y = aebx o una potencial y = axb. En este
caso no slo buscamos la asociacin sino que pre-suponemos una relacin funcional
entre las variables. Este es el objetivo del anlisis de regresin sea este lineal,
cuadrtico, exponencial o potencial. Lo ms habitual es el anlisis de regresin lineal,

136

sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son
reductibles al modelo lineal a travs de logaritmos.
Por ejemplo si a una relacin potencial del tipo Y = aXb le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(ebX), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.
Regresin lineal mnimo cuadrtica
El problema bsico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un
intercepto Bo, entonces tendremos para cada xi un yi = B1xi+Bo que estima el valor real
de yi (ver figura). A la diferencia entre yi e yi: ei = yi-yi la llamamos residuo.
Observamos que la raz de la suma sobre i del residuo elevado al cuadrado: D =
( yi yi' ) 2 tiene la estructura de una distancia y entonces interesa la pregunta: para
que valores de B1 y Bo es mnima D, o, lo que es lo mismo, D2?

Estableciendo las ecuaciones: D/B1= 0 y D/Bo = 0 (ecuaciones normales), se


obtiene:

137

x y / n xy
x /n x

B1

2
i

B0 y B1 x

Y adems:

En trminos estadsticos, lo mencionado es equivalente a plantear el modelo:


yi = o + 1xi + ei, con los supuestos de independencia e igual distribucin de los errores
ei
Entonces, la pendiente B1 y el intercepto Bo, son estimadores de los parmetros
poblacionales 1 = COV(X,Y)/V[X] y o = y - 1x. Estos estimadores son meli.
Adems las varianzas de B1 y Bo se pueden estimar a travs de:
V [ B1 ]

S yx2

(x

x)2

ei2
1
x
2
) donde S yx
y V [ B0 ] S (
n ( xi x ) 2
n2
2
yx

As, es posible probar las hiptesis Ho: * = 0, vs H1: * 0 (donde * representa


a 1 o a o) mediante:

t n2

B*
V [ B* ]

Observamos que es posible relacionar la pendiente y el coeficiente de correlacin,


ya sea en trminos poblacionales (1 y ) o muestrales (B1 y r) a travs de:
1(V[X]/V[Y]) = . Esto implica que a altos valores del coeficiente de correlacin le
corresponden altos valores de la pendiente B1 y a la inversa.
X.3.- Regresin y ANOVA
Observemos el siguiente desarrollo algebraico:

( yi yi' ) 2 ( yi y y yi' ) 2 ( yi y ) 2 ( yi' y ) 2 , lo que ordenado


de otra forma queda:
2
i

( y

y ) 2 ( yi yi' ) 2 ( yi' y ) 2

138

Esto se puede leer de la siguiente forma: La variabilidad total (desde cada yi al


promedio y) es igual a la suma de la variabilidad residual (desde cada yi al
predicho yi) mas la variabilidad debida a la regresin (desde los predichos al
promedio y).
En otras palabras, la variacin total es la suma de la variacin no explicada por
la regresin (residuo) mas la variacin explicada por la regresin.
Como vemos, es posible la particin aditiva de la varianza y entonces establecer
una tabla de ANOVA:
Fuente de SC
Gl
variacin
Modelo
( yi' y) 2 B12 ( xi2 nx 2 ) 1
(Regresin)
Residuo
n-2
(por diferencia)

( y

Total

y ) 2 yi2 ny 2

CM

F1,n-2

SC/gl

CMmodelo/CMresiduo

SC/gl
= Syx2

n-1

Es decir a travs de un ANOVA se puede docimar Ho: 1 = 0 vs H1: 1 0.


Al cuociente entre la suma de cuadrados explicada (regresin) dividida por la
suma de cuadrados totales se le denomina coeficiente de determinacin (R2):
R2

SCregresi n
SCTotal

Este coeficiente representa la proporcin de la variabilidad total que es explicada


por la regresin. Adems R2 = r2, de ah su notacin. Adems al valor Syx = (Syx2) se le
denomina error tpico de la estima y representa la desviacin media de los valores en
torno a la recta de regresin.
Ejemplo 1.Supongamos que se quiere estudiar la relacin entre dos variables X e Y y se tiene
la siguiente tabla:
X
Y

1
2

2
5

3
6

4
7

5
9

6
13

7
15

8
15

9
19

10
20

139

El primer problema es decidir si se har un anlisis de correlacin o uno de


regresin. Esta duda se resuelve pensando si el objetivo del estudio es simplemente la
bsqueda de una asociacin, y en este caso usar slo correlacin, o si buscamos o
presuponemos una relacin lineal que permita algn grado de prediccin del fenmeno y
realizar anlisis de regresin. En este ltimo caso debemos pensar adems si la recta de
regresin que se obtenga tiene sentido, especialmente en el caso de variables discretas,
donde entre punto y punto no existe nada, y por tanto no hay recta.
Supongamos en este caso que la variable es continua, y que presuponemos una
relacin funcional de tipo lineal, por lo que se har un anlisis de regresin. Por razones
prcticas conviene inmediatamente hacer la siguiente tabla:

Total
Promedio

X
1
2
3
4
5
6
7
8
9
10
55
5.5

Y
2
5
6
7
9
13
15
15
19
20
111
11.1

X2
1
4
9
16
25
36
49
64
81
100
385
38.5

Y2
4
25
36
49
81
169
225
225
361
400
1575
157.5

XY
2
10
18
21
45
78
105
120
171
200
770
77.0

A partir de esta tabla se puede calcular directamente la pendiente B1 y el


intercepto B0:
B1

77.0 5.5 11.1


1.93 y B0 11.1 1.93 5.5 0.485
38.5 5.52

As, la recta que mejor representa la relacin entre X e Y es Y 1.93 X 0.485 .


Pero interesa saber si esta pendiente B1 es efectivamente diferente de 0; es decir si
la asociacin que se obtiene en la muestra es realmente inferible a la poblacin.
Entonces estudiaremos las hiptesis H0: = 0 vs 0 mediante el ANOVA. Esto es
enteramente equivalente a realizar una prueba de t para la pendiente. Sin embargo se
prefiere el ANOVA porque aporta mayor informacin como se observa a continuacin.

140

Observamos adems que todos los valores para la tabla de ANOVA ya se encuentran
calculados.
Fuente de
variacin
Modelo
(Regresin)
Residuo
Total

SC

Gl

CM

F1,8

1.932 (385 10 5.52 ) 307.30 1

307.3

69.1

<< 0.01

= 342.9-307.3 = 35.6
1575 10 11.12 342.9

Syx2= 4.45

10-2= 8
10-1= 9

Entonces efectivamente la pendiente es diferente de 0, y la asociacin mediada


por la relacin lineal es real. Adems el coeficiente de determinacin (R 2) es: R2 =
307.3/342.9 = 0.896. Es decir el 89.6 % de la variabilidad de Y es efectivamente
explicada por el modelo lineal, lo que es muy bueno pus la variabilidad residual
representa slo un 10.4%. Si adems queremos el coeficiente de correlacin, este es
simplemente r = (0.896) = 0.947. El error tpico de la estima es Syx = 4.45 = 2.1. Este
ltimo valor nos permite calcular las varianzas y errores estndar de la pendiente e
intercepto.
Por otra parte debemos observar que a partir del valor de F = 69.1 se puede
deducir el valor que habra tenido la t de Student si la hubisemos usado para probar la
misma hiptesis. Esta es simplemente: t = 69.1 = 8.3, y conduce exactamente al mismo
valor de probabilidad de error I (p).
X.4.- Predicciones
Muchas veces el sentido de una regresin es predecir un valor o valores de y para
algn valor o valores de x.
Prediccin de un valor y, para un valor xk (y/xk) En este caso el intervalo de
confianza del nivel (1-) est dado por:
IC1- : y k' t n2 S yx 1

( xk x ) 2
1

n xi2 ( xi ) 2 / n

Prediccin del valor y para xk En este caso el intervalo de confianza est dado
por:

141

IC1- : y t n2 S yx
'
k

( xk x ) 2
1

n xi2 ( xi ) 2 / n

Ejemplo 2.Si en el caso del ejemplo1, interesara calcular a) el valor predicho para x = 12 y b)
el valor promedio de y para x = 15, tendramos:
Para el caso a) el valor predicho para x = 12 sera: y = 1.93(12) + 0.485 = 23.645.
y
su
intervalo
del
95%
de
confianza
sera:
1
(12 5.5) 2
23.645 1.86 2.1 1
23.65 4.96
10 385 (55) 2 / 10
Para el caso b) el valor predicho sera y = 1.93(15) + 0.485 = 29.435, y el
intervalo de confianza para el promedio de los valores de y cuando x = 15 sera:
1
(15 5.5) 2
29.435 1.86 2.1

29.435 10.94
10 385 (55) 2 / 10

Es importante observar que en le medida que xk se aleja del promedio, la precisin


de la prediccin va disminuyendo, o, lo que es equivalente, el intervalo de confianza se
va haciendo ms amplio.
X.4.- Supuestos y alternativas no paramtricas
En algunas ocasiones la variable independiente (x) es fija y se miden muchos
valores de la variable dependiente (y) para cada valor de x. En este caso se habla de
modelo de tipo I. En otras ocasiones la variable x no controla la variable y, y se hace un
muestreo aleatorio de pares (x,y). En este caso se habla de modelo II.
Independiente del modelo, el supuesto bsico de la regresin es la independencia e
idntica distribucin de los errores. Esta se puede probar con el estadgrafo de DurbinWatson. Esto es especialmente relevante cuando las variables independientes son el
tiempo o el espacio y puede existir autocorrelacin (espacial o temporal). La
distribucin esperada de los errores es una Normal, univariada o bivariada, segn sea
modelo I o II.
En caso de no cumplirse los supuestos, se pueden usar otros mtodos, como
anlisis de series temporales en el caso de que la variable independiente sea el tiempo, o

142

mtodo de las semi-medias en otros casos. En el caso de un anlisis de correlacin, se


puede usar el coeficiente de correlacin no-paramtrico de Spearman (rs).
Este simplemente corresponde a un coeficiente de correlacin de Pearson (r)
aplicado sobre las variables previamente transformadas a rangos. Se puede demostrar
que si di es la diferencia entre los rangos de xi e yi: di = xi-yi, entonces:
i n

rs 1

6 d i2
i 1

n n
3

X.5.- Anlisis de la covarianza (ANCOVA)


En el anlisis de la covarianza se tiene un diseo donde la variable respuesta vara
en funcin de otra variable llamada co-variado. Por ejemplo si se mide una variable y
que vara en funcin de x frente a tres niveles de un factor A se tiene la tabla:
Factor
A1
Y

A
A2

A3
X

En este caso es un ANCOVA de una va o factor, con tres tratamientos. La


variable respuesta es Y y el co-variado es X.
El modelo de ANCOVA se puede escribir:

yij i 1 ( xij x ) ij
Se observa que en este modelo se contempla una relacin funcional entre la
variable respuesta y su covariado mediada por un modelo de regresin.
En su expresin original el inters del ACOVA est centrado en el efecto de los
tratamientos y la regresin sobre la variable respuesta Sin embargo a menudo el inters
se centra en la variable respuesta descartando el efecto del covariado y ms
habitualmente, el inters se encuentra en las variaciones de la respuesta funcional, las
pendientes de regresin, frente a los distintos tratamientos (Homogeneidad de
pendientes. En el ANCOVA al igual que en el ANOVA y en la regresin, es posible la
particin de la suma de cuadrado y docimar por separado cada uno de los efectos. En su

143

forma ms simple el ANCOVA consta de dos tratamientos, una variable respuesta y


con su respectivo co-variado. En este caso la homogeneidad de pendientes se puede
probar alternativamente con una t de Student:

11 12

t n1 n 24
2
S yxc
(

1
1

)
2
2
x
x
1i 2i

donde S yxc

SCresiduo 1 SCresiduo 2
n1 n2 4

144

Ejercicios de correlacin y regresin


1. Se realiza un estudio para predecir la estatura final de un individuo a partir de la talla
al nacer obteniendo:
Talla al 36
38
42
44
45
48
50
51
52
53
54
55
56
58
nacer
(cm)
Estatura 1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88
final
(m)

Qu puede decir de la capacidad predictiva de la talla de nacimiento sobre la estatura


final? Que estatura final esperara de un individuo con una talla de 30.53 cm al
nacimiento? Y su intervalo de confianza?
R: Es buena. EF = 1.093 + 0.0133xTN; F1,12 = 65.9, p < 0.05; R2 = 0.833. Se esperara
una EF = 1.5 m; el IC95% = {1.389; 1.611}.
2. Se piensa que los grados de conciencia (GC: del 1 al 10) despus de un TEC estn
relacionados con la edad del paciente accidentado. Se realiza un estudio y se obtiene:
Edad 26
34
45
48
57
62
70
72
76
78
80
87
GC 10
8
10
9
7
10
5
4
4
3
1
2
a) Qu tipo de anlisis corresponde a la pregunta?
b) Plante la hiptesis correspondiente.
c) Utilice estadstica paramtrica y despus no-paramtrica.
d) Que puede decir finalmente de su hiptesis?
R: Correlacin; r = -0.86; t10 = -5.33; p < 0.05; R =-0.89; t10 = -6.26; p < 0.05.
Efectivamente, estn asociados negativamente, a mayor edad, menor grado de
conciencia despus de un TEC.

145

V UNIDAD.- TOPICOS ESPECIALES

146

XI.- BASES DE MUESTREO


XI.1.- Muestreo en poblaciones finitas e infinitas
El muestreo sobre una poblacin puede ser de varios tipos:
i)

ii)

iii)

Muestreo aleatorio simple: consiste en un mtodo que permite que todas


las unidades maestrales tengan la misma probabilidad de ser elegidas.
En general se realiza unidad por unidad y sin reposicin. Muchas veces
para la seleccin de las unidades se utiliza una tabla de nmeros
aleatorios.
Muestreo aleatorio estratificado: se realiza cuando existen estratos
definidos en la poblacin. En este caso el muestreo aleatorio se realiza
sobre cada estrato. El tamao muestral en cada estrato puede ser igual
(asignacin fija), proporcional al tamaos del estrato (asignacin
proporcional) o bien proporcional al tamao del estrato, su varianza en
dicho estrato e inversamente proporcional al costo (asignacin ptima o
de Neyman).
Muestreo por conglomerados: En este caso la unidad de muestreo difiere
de la unidad de anlisis, por ejemplo muestrear cajas de huevos en lugar
de huevos. Es una variante de un muestreo sistemtico, donde todas las
unidades dentro de cada conglomerado son analizadas.

El muestreo se puede realizar en una o en dos etapas (mono o bi-etpico).


Los estimadores habituales usados en el muestreo poblacional pueden clasificarse
bsicamente como estimadores: a) de promedios, donde el parmetro a estimar es un
promedio poblacional, b) de proporciones, donde se estima una proporcin, c) de
razones, donde se estima un cuociente entre variables y d) de regresin. Es importante
notar que una proporcin va entre 0 y 1, pero una razn o tasa no.
En general en mucha de la actividad cientfica el tamao poblacional es
suficientemente grande como para considerarlo infinito. Sin embargo, en ocasiones la
muestra constituye una proporcin significativa de la poblacin, como podran ser cierto
nmero de camas en un hospital o un nmero de planta en un predio agrcola. En este
caso las varianzas de los estimadores maestrales cambian, introducindose un factor de
correccin llamado fraccin de muestreo:
f

n
donde n es el tamao muestral y N el tamao poblacional.
N

147

Por ejemplo cuando se realiza un muestreo aleatorio simple y se estima un


promedio poblacional ( Y ), entonces el promedio muestral y es un estimador insesgado
s2 N n s2
) (1 f ) de manera que ahora el error
de Y , pero su varianza es V [ y ] (
n
N
n
s2
(1 f ) . Naturalmente los intervalos de confianza varan en forma
estndar es Es
n
semejante.

Anlogamente en el caso de una proporcin (p) su varianza es:


V [ p]

pq
(1 f ) y entonces, Es
n 1

pq
(1 f )
n

XI.2.- Tamao muestral, potencia y precisin


El clculo del tamao muestral corresponde a una estimacin previa del tamao
necesario que debe tener una muestra para cumplir ciertos requisitos. Conviene notar
que es slo una estimacin previa y no una frmula exacta y que en general, requiere de
un conocimiento previo de algunas caractersticas de la muestra, por ejemplo la
varianza.
Las frmulas para el clculo del tamao muestral son para usarse a priori, es decir
antes de realizar el experimento. Despus de realizado ste, si se logr rechazar la
hiptesis de nulidad, la pregunta del tamao muestral es irrelevante pues la bondad de la
muestra queda medida a travs de la probabilidad de error de tipo I (p).
Tamao muestral para estimar una proporcin
Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z/2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2

Tamao muestral para estimar un promedio


Si nuestro inters es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el
tamao adecuado es:

148

t12 / 2 s 2 Z 2 / 2 s 2
n

d2
d2

Tamao muestral para comparar una proporcin con otra prefijada (una muestra)
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
n

p0 q0 ( Z * Z ) 2
d2

, donde * es /2 para pruebas de 2 colas y para una cola.

Tamao muestral para comparar un promedio con otro prefijado (una muestra)
En forma anloga al caso anterior el tamao muestral adecuado para realizar una
dcima de este tipo se puede calcular definiendo previamente la precisin (d), el nivel de
significacin () y el error de tipo II () o la potencia de la dcima (K = 1-). Si uno fija
2 cualesquiera de stos parmetros a priori se puede obtener el tercero mediante la
relacin:
s 2 (Z * Z ) 2
n
, donde * es /2 para pruebas de 2 colas y para una cola..
d2

Tamao muestral para comparar proporciones


El tamao muestral, la precisin (d) y el error de tipo II () o la potencia de la
dcima (K = 1-) se pueden obtener mediante la relacin:
n

( P1Q1 P2 Q2 )(Z * Z ) 2
d2

, donde * es /2 para pruebas de 2 colas y para

una cola. En este caso n es el tamao de cada muestra. Si existe un tamao n1 prefijado,
entonces n2 = nn1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2.
Tamao muestral para comparar promedios
El tamao muestral, la precisin (d) y el error de tipo II () o la potencia de la
dcima (K = 1-) se pueden obtener mediante la relacin:

149

2sc2 ( Z * Z ) 2

, donde * es /2 para pruebas de 2 colas y para una cola.


d2
En este caso n es el tamao de cada muestra. Si existe un tamao n 1 prefijado, entonces
n2 = nn1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n 1 = n2.
Tamao muestral para comparar promedios en muestras pareadas
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
n

sd2 ( Z * Z ) 2
d2

, donde * es /2 para pruebas de 2 colas y para una cola..

Tamao muestral para el anlisis de varianza Al igual que en el caso de dos


muestras, es posible relacionar el tamao muestral, la potencia y la precisin. Sin
embargo, en el ANOVA en general es preferible usar una funcin auxiliar que se
relaciona en forma creciente con la potencia K (a mayor, mayor K). Esta funcin se
define como:
nd 2

2ts 2

As para valores dados de n, d y s2 es posible calcular y a partir de sta calcular


la potencia, para lo cual se disponen tablas y grficos (ver Zar, 1996). Por otra parte si se
pre define K () y d, y se tiene una estimacin previa de s 2, entonces es posible
calcular n. En forma anloga, teniendo n, es posible calcular d.
Muchas veces ya hemos realizado el ANOVA y aceptamos la hiptesis de
nulidad, y entonces queremos conocer el error II ( = 1-K), entonces podemos obtener K
considerando

(t 1)(CME CMD)
t CMD

150

XII.- ESTADISTICAS VITALES


XII.1.- Tablas de vida
Las tablas de vida son instrumentos que permiten resumir las caractersticas de
una poblacin de manera fcil y adems permiten extrapolar parmetros de utilidad para
predecir el comportamiento poblacional. Estas son de dos tipos: i) de seguimiento de
cohortes (horizontal) o ii) de estructura de edades en un momento dado (transversal o
vertical).
En estas tablas se incluyen las siguientes variables:
x: representa la edad o estado etario
Nx: nmero de individuos al inicio de la edad x
lx: proporcin de sobrevivientes al inicio de la edad x; l x

Nx
N0

dx: nmero de muertos entre la edad x y x+1; l x N x N x1


qx: probabilidad de morir entre la edad x y x+1; q x

d x (l x l x 1 )

. A veces es til
Nx
lx

definir la probabilidad de supervivencia p x 1 q x


Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx

Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx Lx


x

ex: esperanza de vida a la edad x: ex

Tx
lx

mx: nmero de cras o hijos entre x y x+1

(l x l x 1 )
2

151

Vx: valor reproductivo a la edad x; Este representa el potencial reproductivo de una

lm
hembra de la edad x; Vx x x
lx
x
Parmetros derivados:
Ro: Tasa reproductiva neta o bsica de una poblacin. Esta representa la contribucin en
nmero de cras que deja una hembra de una generacin a la siguiente;

R0 l x mx
0

e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un
individuo de acuerdo a los parmetros poblacionales (rgimen demogrfico) imperantes;
e0 = e0.
G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generacin;
G

yl m
x

R0

En este caso y representa la edad media en el intervalo.

Ejemplo 1.Se tiene la siguiente informacin de un insecto:


Edad (das)
0
1
2
3
4
5
6

Nmero
insectos(Nx)
1000
1000
990
830
510
360
0

de Nmero de huevos
depositados (mx)
0
0
13266
9877
2346
1656
0

152

A partir de esta informacin se puede construir la siguiente tabla de vida:


E Y Nx
0 0.
5
1 1.
5
2 2.
5
3 3.
5
4 4.
5
5 5.
5
6 6.
5

dx

qx

Lx

Tx

ex

mx

lxmx

Vx

1000 1

10

160

0.9
9
0.9
1
0.6
7
0.4
4
0.1
8

990

0.0
1
0.1
6
0.3
9
0.2
9
1.0
0

4.1
9
3.1
9
2.2
1
1.5
4
1.2
1
0.5

1000 1

4.1
9
3.1
9
2.1
9
1.2
9
0.6
1
0.1
8

Xlx
mx
0

830
510
360
0

lx

0.9
9
0.8
3
0.5
1
0.3
6
0

320
150
360

13266 13133 2335


7
9877 8197 1203
7
2346 1196 4685

3283
3
2869
2
5384

1656 596

1656 3278

Ro =

23123 G=

3.03
5

Es decir esta poblacin de insectos es capaz de dejar 23123 nuevos insectos por cada
hembra, cada 3.035 das. Adems cada uno de stos insectos tiene una esperanza de vida
al nacer de 4.19 das.
XII.2.- Comparacin de curvas de supervivencia
Muchas veces en estudios poblacionales y en estudios de supervivencia a
tratamientos mdicos es necesario comparar curvas de supervivencia. Los mtodos para
compararlas son simples, derivados de la distribucin 2.
Una prueba simple es la de Mantel-Haenszel o Logrank. Existe tambin una
variante bastante similar el Logrank de Peto & Peto (ver Pike & Thompson 1986).
La prueba consiste en registrar para cada unidad de tiempo el nmero observado
de muertes (Oi) y retiros (Ci) y calcular a partir de las muestras los valores esperados de
muertes (Ei). Finalmente se usa el estadgrafo:

(Oi Ei ) 2

Ei
1
t

2
t 1

153

Ejemplo 2.Supongamos que se quiere comparar las supervivencias de dos grupos A y B cada
uno de 10 personas iniciales durante 12 das y se obtiene la siguiente tabla:
Tiempo

Muertos en A
(OA)
1
0
0
2
1
0
0
1
2
0
0
0

1
2
3
4
5
6
7
8
9
10
11
12

Muertos en B
(OB)
0
0
0
0
1
1
0
0
0
2
0
0

Retiros en A
(CA)
0
0
1
0
0
0
0
1
0
0
0
0

Retiros en B
(CB)
0
0
0
1
0
0
0
0
0
0
0
0

A partir de esta tabla podemos calcular los valores esperados:


Tiempo

Muertos
en A
(OA)

Muertos
en B
(OB)

Muertos
totales
(m)

Retiros
en A
(CA)

Retiros
en B
(CB)

1
2
3
4
5
6
7
8
9
10
11
12
Total

1
0
0
2
1
0
0
1
2
0
0
0
7

0
0
0
0
1
1
0
0
0
2
0
0
4

1
0
0
2
2
1
0
1
2
2
0
0

0
0
1
0
0
0
0
0
0
0
0
0

0
0
0
1
0
0
0
0
0
0
0
0

Total
individuos
en
observacin
A (nA)
10
9
9
8
6
6
6
6
4
2
2
2

Total
individuos
en
observacin
A (nB)
10
10
10
10
9
8
7
7
7
7
5
5

Total
individuos
(n)

EA
=nA(m/n)

EB =
nB(m/n)

20
19
19
18
15
14
13
13
11
9
7
7

0.5
0
0
0.89
0.8
0.42
0
0.46
0.72
0.44
0
0
4.23

0.5
0
0
1.11
1.2
0.57
0
0.54
1.27
1.56
0
0
6.75

Entonces ahora se puede calcular el valor:


(7 4.23) 2 (4 6.75) 2

2.93 y como el valor crtico es 3.84 y 2.93 < 3.84, no


4.23
6.75
es posible rechazar H0.

12

154

Ejercicios de estadsticas vitales


1.- Se tiene informacin de las poblaciones de 3 insectos A, B y C:
Insecto A
Edad (das)
0
1
2
3
4
5
Insecto B
Edad (das)
0
1
2
3
4
5
Insecto C
Edad (das)
0
1
2
3
4
5

NX
100
79
28
8
4
1

Mx
0
1000
500
100
2
0

Nx
100
79
65
60
50
2

Mx
0
100
500
500
2
0

Nx
100
80
60
40
20
1

Mx
0
0
5000
10
0
0

Grafique Nx vs Edad para los tres insectos. Comente los grficos.


Haga las tablas de vida para cada insecto y compare sus resultados.
Compare las supervivencias con la prueba de Mantel-Haenszel.

155

XIII.- REGRESION LOGISTICA


XIII.1.- Bases
En muchas ocasiones interesa predecir o explicar el comportamiento de una
variable cualitativa (I) a partir de una o varias variables cuantitativas (X). En estos casos
no corresponde un modelo de regresin. El caso ms habitual, y el mas simple, la
variable dependiente (I) es binaria, por ejemplo on-off o presencia-ausencia.
En este caso se podra plantear el modelo probabilstico P( I = 1)= P = + X, sin
embargo la probabilidad vara en forma continua entre 0 y 1, por lo que se prefiere
modelar el logaritmo de la chance o transformacin logito (log-likelihood):
log(

P
)
1 P

De esta manera se plantea el modelo:


log(

P
1
) X P
1 P
1 e ( X )

As es posible ahora hacer una regresin lineal entre X y el logito de P,


determinando los parmetros.
XIII.2.- Pruebas de hiptesis
En la regresin logstica interesa probar si el coeficiente de regresin (la
pendiente) es diferente de 0: H0: = 0 vs H1: 0. Esto se hace mediande el estadgrafo
de Wald (W) que se distribuye como 2 con un grado de libertad:
W (

)2

En este caso, es la estimacin de y S su error estndar.


Un parmetro til en la regresin logstica es R2 (o seudo R2) , que al igual que en
la regresin simple representa la proporcin e la variabilidad de la variable dependiente
que es explicada por el modelo. Esta se calcula como:

156

( m2 2 p)
R
donde m2 es el valor del 2 del modelo, L(0) es el mximo valor del
2 L(0)
logito considerando slo la constante y p es el nmero de parmetros.
2

XIII.3.- La razn de chances (odds ratio)


En el caso dicotmico, puede ser interesante la pregunta acerca de cuanto ms
probable es un evento (I =1), para un X dado, que para otro valor de X (X*). En este
px
1 px
e ( x )
OR

e ( x x*) .
caso
( x *)
p x*
e
1 p x*
Ejemplo 1.Supongamos que interesa predecir el comportamiento de una variable dicotmica
I (I = 1 muerte, I = 0 supervivencia), a partir de un predictor X, continuo y que se tiene
la siguiente informacin:
I 0
X 1

0
2

0
3

0
4

0
5

0
6

0
8

0 0 0 1 1 1 1 1 1 1 1 1 1
12 13 14 11 12 13 14 15 16 17 18 19 20

Al realizar la regresin logstica se obtiene:

0.61
-7.27

0.308
3.99

2
3.92

P
< 0.05

Es decir, el modelo es:


P

1
1 e

7.27 0.61X

Adems R2 = 0.56, es decir un 56% de la variabilidad del logito es explicada por


el modelo.
Si se quiere saber la probabilidad de morir cuando X = 5, esta es:

P( I 1/ X 5)

1
1 e 7.270.615

0.0017

157

Si se quiere saber adems, cuanto ms probable es morir cuando se tiene X = 14


que cuando se tiene X = 5, entonces: OR e0.61(145) 242.25 . En otras palabras con un
aumento desde X = 5 a X = 14 aument en 242.25 veces la chance de morir. O sea ahora
es 242.25x0.0017 = 0.414.

158

XIV.- SERIES DE TIEMPO


XIV.1.- Bases
En muchas ocasiones es necesario estudiar el comportamiento de una variable en
funcin del tiempo. La tendencia natural es graficar la variable X en funcin del tiempo
y realizar un anlisis de regresin, donde t es la variable independiente. Sin embargo en
estos casos se violan dos supuestos bsicos de la regresin, superando la robustez del
mtodo. Por un lado en general se tiene un valor de X para cada t, y mas importante, la
variable X en tiempo t (Xt) no es independiente de Xt-1. En ocasiones lo anterior es
vlido cuando la variable independiente es una posicin espacial (s) y ocurre que X s es
dependiente de Xs1.
En una serie temporal (Xt) o espacial (Xs) se tiene un conjunto discreto {t} (o {s})
que indica el tiempo en que se mide la variable y la variable {X t}. Esta ltima depende
de dos factores: de la misma variable {Xt-1, Xt-2..} (Autoregresin) y de fluctuaciones
o movimientos aleatorios {at, at-1, at-2,}. As en trminos generales se puede
expresar una serie de tiempo como:
p

X t at i ( X t i ) i (at i )

En palabras, una variable actual dependera de la fluctuacin aleatoria actual, de


los valores y fluctuaciones aleatorias anteriores. Este modelo se denomina ARIMA
(Auto regresive integrated moving average).
As, en este tipo de modelo interesa estimar los coeficientes i y i, junto a los
valores de p y q (orden).
XIV.2.- Autocorrelacin y autocorrelacin parcial
Dada una serie de tiempo Xt con n elementos, es posible formar los (n k) pares
{Xt, Xt-k} y definir autocorrelacin, temporal o espacial segn el caso, como la
correlacin entre estos pares:

COV [ X t , X t k ]
V [ X t ]V [ X t k ]

Un estimador natural de k es el coeficiente de correlacin:

159
i nk

rk

(X
i 1

X )( X t k X )

i n

(X
i 1

X)

El grfico de rk en funcin de k, se conoce como correlograma o FAC (funcin de


autocorrelacin).
As como se puede definir la autocorrelacin, es posible definir la autocorrelacin
parcial en forma similar a como se define correlacin parcial (ver mas adelante). Estas
se pueden definir como las autocorrelaciones entre pares de variables (j,k), cuando las
dems estn fijas. Por ejemplo entre Xt y Xt-1 dejando fijas Xt-1, Xt-2,.etc. Su grfico
se llama FACP.
XIV.3.- Algunos modelos
Modelos auto regresivos
Un modelo auto regresivo de orden 1 (AR1) es del tipo:
X t 1 ( X t 1 ) at

En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento
exponencial (directo o alternado segn el signo de 1), que en la FACP slo la primera
autocorrelacin parcial es diferente de 0, y adems 1 = r1. As estudiando la FAC y
FACP es posible calcular los parmetros del modelo.
En un AR2: X t 1 ( X t 1 ) 2 ( X t 2 ) at el decrecimiento de la
FAC es ms lento y en la FACP slo los dos primeros coeficientes son distintos de 0.

1
12
Adems r1
y r2 2
1 2
1 2
Modelos aleatorios (MA)
Los modelos MA se reconocen por el nmero autocorrelaciones diferentes de 0 en
la FAC: si slo una es distinta de 0, es MA1, si son las dos primeras es MA2 etc..
Por ejemplo, en un MA1: X t at 1 (at 1 ) , adems r1

1
1 12

160

UNIDAD VI: INTRODUCCION AL ANALISIS


MULTIVARIADO

161

XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)


XV.- Anlisis multivariado o univariado?
Cuando se tiene un conjunto de variables medidas {Xi} y se tienen hiptesis
acerca de ellas, surge inmediatamente la pregunta: estudio cada una por separado o
todas en conjunto? O, de otra forma si no se encuentran diferencias entre cada una de
las variables, es que dichas diferencias no existen? Por ejemplo, supongamos que se
midieron dos variables X1 y X2 en dos grupos A y B, y que al realizar las pruebas de
hiptesis correspondientes se concluye que X1 es igual en A y en B y que X2 tambin es
igual en A y en B. Significar esto que la respuesta conjunta, o el vector (X1,X2), es
igual en A y en B?

En el grfico observamos que es evidente que los grupos A y B son diferentes, sin
embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prcticamente
iguales. Es decir la evidente diferenciacin de los grupos no es explicada ni por X 1 ni
por X2 en forma aislada, sino por la variacin conjunta de ambas, en este caso
probablemente por una combinacin lineal de X1 y X2 (aX1+bX2). En ciencias
encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da
origen a los fenmenos que coloquialmente llamamos multifactoriales.
Cuando sospechamos que existe una relacin de este tipo donde probablemente
existe interaccin entre las variables medidas, estamos en el terreno del anlisis
multivariado.

162

XV.2.- MANOVA
En su expresin ms simple, un MANOVA consiste en dos grupos a comparar, a
los que se ha medido un conjunto de p variables {Xi} ={X1,X2,Xp}. Se trata
entonces de un MANOVA de una va, con dos tratamientos.
Si recordamos que cuando comparbamos dos promedios en el anlisis
univariado, lo hacamos con un test t de Student, tiene entonces sentido derivar un
estadgrafo semejante para el anlisis multivariado. Por razones prcticas se utiliza su
cuadrado (T2 de Hotelling):
(n 1)[1 ] (n2 1)[ 2 ]
n1n2 [ X 1 X 2 ]T []1 [ X 1 X 2 ]
T
donde [] 1
n1 n2
n1 n2 2
2

En este caso los parntesis [] indican que se trata de matrices, los exponentes T
y -1 corresponden a la matriz traspuesta y la matriz inversa respectivamente, y []
corresponde a la matriz varianza-covarianza. La expresin (DM):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] tiene la estructura de una distancia y se conoce
como distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible
docimar mediante una distribucin F:
Fp ,n1 n 2 p 1

(n1 n2 p 1)T 2
( p(n1 n2 2))

Cuando se quieren comparar ms de dos grupos, las expresiones algebraicas


matriciales son ms complejas, sin embargo, siempre es posible docimar el efecto de los
factores mediante diferentes estadgrafos. Los ms conocidos son la traza de HottellingLowley (To2) y -Wilks, que siguen distribuciones 2.

163

XVI.- REGRESION MULTIPLE


XVI.- Expresin matricial de una regresin
En un anlisis de regresin se tiene un conjunto de pares ordenados {Xi,Yi} que se
pueden expresar en el modelo general:
y 0 1 x , donde representa la fluctuacin aleatoria.

Desarrollando el modelo para cada yi, se obtiene:


y1 0 1 x1
y 2 0 1 x2
.
.
y n 0 1 xn

Esto es equivalente a la expresin matricial:


y1 1 x1
1
y 1 x

2
2
0 2
. 1 . 1 .

y n 1 xn
n

O, en trminos ms simples: [Y ] [ X ] [] []
Con esta notacin, el vector de estimadores de los coeficientes de regresin es
simplemente:
] [ X T X ]1 [ X ]T [Y ]
[

XVI.2.- Regresin mltiple


En el anlisis de regresin mltiple, no se tiene slo una variable independiente (o
predictor), sino que un conjunto {Xi} con p de ellas, por lo que ahora el modelo en
trminos matriciales se escribe:

164

y1 1 x11
y 1 x
12
2
. . .

y n 1 x1n

. x p1 0 1
. x p 2 1 2


. . . .

. x pn p n

Lo que en trminos simples es completamente anlogo al caso de una regresin


univariada, una ecuacin lineal: [Y ] [ X ] [] [] .
Las ecuaciones normales de la regresin se expresan simplemente como:
] [ X ]T [Y ]
[ X T X ] [

Los coeficientes de regresin se calculan igual que antes:


] [ X T X ]1 [ X ]T [Y ]
[

Es importante notar que si [XTX] no es invertible (matriz singular) no es posible


obtener coeficientes de regresin. Esto ocurre cuando las variables predictoras estn
altamente correlacionadas, es decir son colineales. En general cuando las correlaciones
simple entre variables son mayores que 0.8 se dice que son colineales.
La tabla de ANOVA:
Fuente de
variacin
Modelo

Grados de
libertad
P

Error

n-(p+1)

Suma de
cuadrados
][ X T Y ] n[Y ]2
[
]T [ X T Y ]
[Y T Y ] [

Total

n-1

[Y T Y ] n[Y ]2

Cuadrados
medios
SC/gl

Fp,n-p+1
CMmod/CME

SC/gl=Syx2

Del mismo modo que en la regresin simple, R 2

SC mod elo
SCT

Los supuestos son la extensin multivariada de la regresin univariada:


Normalidad multivariante e idntica de los errores, e independencia.
Se puede observar que a pesar de las frmulas aparentemente ms complicadas
todas son enteramente anlogas a las de una regresin simple. Observamos sin embargo,
que ahora hay un intercepto (0) y un conjunto de coeficientes de regresin o

165

pendientes ({i }). Ahora no es una recta de regresin sino un plano o un hiperplano.
Los coeficientes de regresin en este caso deben interpretarse como las pendientes
directoras de dicho plano y son diferentes de las pendientes que se obtendran
realizando regresiones aisladas entre la variable Y y cada una de las {X i}. Las
pendientes obtenidas en un modelo de regresin mltiple corresponden a coeficientes
obtenidos en presencia de las otras variables y son por tanto llamados coeficientes de
regresin parcial. Puede ocurrir en ocasiones que al realizar una regresin entre Y y X1
la pendiente 1 sea positiva y que al realizar la regresin entre Y y {X1,X2} el coeficiente
1 sea drticamente diferente, e incluso negativo. Esto ocurre frecuentemente cuando
parte de la variabilidad de X1 esta explicada por X2 o a la inversa, es decir X1 y X2 se
encuentran correlacionados.
XVI.3.- El aporte de cada variable
En una regresin mltiple la mayora de las veces interesa determinar el aporte de
cada variable y si este tiene significacin. Es decir si la pendiente correspondiente (i) es
igual o diferente a 0.
Afortunadamente la suma de cuadrados del modelo de regresin se puede
descomponer en las contribuciones que provienen de cada variable.
Consideremos el caso de dos predictores X1 y X2. El modelo correspondiente es
Y = 0 + 1X1+ 2X2 + y en este caso la suma de cuadrados del modelo se puede
escribir como: SC(1, 2/ 0), es decir aquella variabilidad explicada por las pendientes
directoras y no por la constante. Si no consideramos la variable X 2 entonces la suma de
cuadrados del modelo sera: SC(1/0) y entonces podemos determinar el aporte de X2
como: SC(2/1,0) = SC(1,2/0) SC(1/0). En forma completamente anloga el
aporte de X1 lo medimos con SC(1/2,0) = SC(1,2/0) SC(2/0). As extendiendo
el razonamiento al caso de p variables, es posible descomponer la suma de cuadrados del
modelo completo en las contribuciones aportadas por cada variable:
SC (1 , 2 ,... p / 0 ) SC (1 / 0 ,., 2 ... p ) SC ( 2 / 0 , 1 ... p ) ....SC ( p / 0 , 2 ... p1 )

La suma de cuadrados del modelo tiene p grados de libertad, aportando cada


variable con un grado de libertad. As cada variable Xi tiene asociada una F1,n-(p+1) (F
parcial) que permite docimar H0: i = 0 vs H1: 0.

166

XVI.4.- Correlacin mltiple, simple y parcial


Cuando se realiza un anlisis de regresin mltiple, es posible obtener el
coeficiente de determinacin (R2). Esto permite definir el coeficiente de correlacin
mltiple como
rM R 2

Adems si se tiene el conjunto ordenado de predictores y la variable dependiente


{Xi,Y}, es posible establecer en la forma habitual la correlacin simple entre cada una
de las variables y ordenarlas en una matriz de correlacin:
1 r12

r13
r23

.
.

.
.

r1 y
r2 y

.
1

Cada uno de los elementos de esta matriz corresponde a una correlacin simple
entre dos variables en ausencia de las dems. Sin embargo al igual que el caso de los
coeficientes de regresin, surge la pregunta si cambiaran las correlaciones cuando se
consideran las dems variables.
Cuando se incluyen las dems variables se puede obtener un coeficiente de
correlacin parcial, que corresponde a una correlacin entre dos variables cuando las
dems permanecen constantes, de esta manera mide la correlacin que le es exclusiva a
las dos variables. Por ejemplo, se podra tener una correlacin simple entre X 1 e Y, r1y =
0.8, y una correlacin simple entre X2 e Y, r2y = 0.9, pero al calcular la correlacin
parcial entre X1 e Y podra ocurrir que fuera r1.y = 0.2. Esto ocurre cuando las variables
X1 y X2 estn correlacionadas y entonces al calcular las correlaciones simples en
realidad se est incorporando el efecto indirecto de la variable no considerada. En el
caso mencionado gran parte de la correlacin entre X1 e Y, estara explicada por el
efecto que produce X2 sobre X1 o la correlacin entre estas.
El clculo de los coeficientes de correlacin parcial es algo engorroso y pasa
primero por obtener la matriz inversa de 1 [bij ] . Las correlaciones parciales se
pueden calcular a partir de esta como:

167

rj .h

b jh
b jj bhh

y en particular rj . y

b jy
b jj byy

XVI.5.- Seleccin de variables


En muchas ocasiones, cuando se realiza un anlisis de regresin mltiple, interesa
obtener un modelo predictivo que slo considere aquellas variables que aportan
significativamente al modelo, o sea con altos F parciales. Para este efecto existen al
menos tres procedimientos: Bacward elimination, Forward selection y Stepwise
selection.
Bacward elimination En este procedimiento se realiza el siguiente algoritmo:
b) Se realiza una regresin incluyendo todas las variables predictoras,
c) Se calculan los F parciales para cada variable, designando como F L
al menor,
d) Si FL es menor que el F crtico para prefijado, sacar la variable
correspondiente, y
e) Volver a a) con las variables que quedan hasta que FL sea mayor
que el crtico.
Forward selection El algoritmo es el siguiente:
a) Se realiza un estudio de correlacin simple entre los predictores y
la variable dependiente,
b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F
parcial es mayor que el crtico se incluye la variable,
c) Calcular los coeficientes de correlacin parcial entre las variables
restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi)
d) Ajustar el modelo, si F parcial mayor que el crtico, queda en el
modelo, y
e) Volver a b) hasta que la variable a incluir no alcance el F crtico.
Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo
algoritmo anterior, pero en cada paso pueden salir variables que ya hayan entrado que,
con la incorporacin de nuevas variables desciendan su F parcial por debajo del crtico.

168

Ejemplo 1.Supongamos que se pretende explicar la conducta de una variable Y a partir de


tres variables independientes X1, X2 y X3, y se tiene la siguiente tabla:

Y
2
4
6
8
10
12
14
16
19
20
22
24
25
28
30
32
34
36
37
40
44

X1
1
2
3
4
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

X2
2
3
4
5
6
7
8
9
10
11
12
14
15
16
17
18
19
19
20
21
22

X3
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1

Si realizamos un anlisis de regresin mltiple obtenemos:


Y = 0.819 + 0.373X1+0.346X2+0.375X3; F3,17 = 1398.5; p << 0.001, con un R2=0.995 y
rM=0.998.
Es decir obtenemos un modelo lineal con un 99.5 % de la variabilidad explicada
por el modelo. Sin embargo si realizamos un procedimiento de bacward selection, se
obtiene:
Y = 0.664 + 2.1X1; F1,19= 4259.6; p << 0.001, con un R2 = 0.995 y r = 0.998.

169

Es decir de las tres variables slo es relevante la X1, obteniendo una variabilidad
explicada prcticamente igual.

XVI.6.- Anlisis de vas (o sendas)


Este anlisis tiene por objetivo descomponer la correlacin entre un predictor (X k)
y una variable dependiente (Y) en los efectos directos sobre ella y los efectos indirectos.
O sea, los provocados a travs o por mediacin de algn otro predictor ({Xi}).
Si en una regresin mltiple estimada: Y = b0 +b1X1 +..bpXp hacemos el cambio
yy
xx
de variables y '
y x'
se obtiene Y = bs1X1+.bspXp, donde bsi
sy
sx
corresponde al coeficiente de regresin parcial estandarizado:
bsi

s xi bi
sy

Despus de algn trabajo algebraico sobre las ecuaciones normales de la regresin


es posible lograr, en los casos bivariado y trivariado las descomposiciones:
bs1 r12bs 2 r1 y
r12bs1 bs 2 r2 y

bs1 r12bs 2 r13bs 3 r1 y

y r12bs1 bs 2 r23bs 3 r2 y
r13bs1 r23bs 2 bs 3 r3 y

A los coeficientes bs se les denomina coeficientes de va. En forma natural, la


descomposicin se puede extender al caso de ms variables.
Si los predictores son independientes entre s, entonces los coeficientes de va
corresponden a las correlaciones simples entre los predictores e Y: bsi riy .
Adems la variabilidad explicada esta dada por el coeficiente de determinacin
R riy2 y por lo tanto la es posible calcular la variabilidad no explicada como
2

rUy2 1 R 2

Cuando existe correlacin entre los predictores, se puede escribir la ecuacin


general:

170

2
si

2 bsibsj rij ruy2 1


i j

El anlisis de vas o sendas es un anlisis muy poderoso ya que permite proponer


y docimar un modelo pre-establecido entre los predictores y la variable dependiente.
Adems combinado con un procedimiento de seleccin se pueden eliminar variables y
en aquellas variables que quedan en el modelo se puede estudiar que proporcin de los
efectos son directos y que proporcin es indirecta.
XVI.7.- Regresin logstica mltiple
La regresin logstica simple se puede extender fcilmente al caso multivariado,
por ejemplo p variables, y al caso de variables cualitativas multiestado, por ejemplo k
estados. En este caso la funcin logstica es de la forma:
1

P( I j )
1 e

( j

i xi )
i

En este caso, se obtienen k funciones que solo difieren en la constante , una para
cada estado.
En algunas ocasiones la funcin logstica se utiliza con un fin heurstico pudiendo
hacer seleccin de variables mediante un procedimiento stepwise. En otras ocasiones,
lo que es muy habitual en anlisis multivariado, se utiliza la funcin logstica con un fin
de clasificacin o discriminacin de grupos o estados, siendo una alternativa al anlisis
discriminante (ver mas adelante). En estos casos, los coeficientes i representan el
peso que tiene cada variable Xi en la discriminacin de los estados o grupos. Adems
en base a las funciones logsticas se establecen valores puntuales que permiten decidir la
pertenencia a uno u otro grupo de un caso a partir de las medidas de las {Xi}. Utilizando
la funcin logstica en forma recursiva sobre los casos que permitieron construirla y los
puntos de discriminacin se puede obtener una tabla de clasificacin:

Observado(+)
Observado(-)
Total

Tabla de
Predicho (+)
A
C
a+c

Clasificacin
Predicho(-)
b
d
b+d

Total
A+b
C+d
N = a+b+c+d

Esta tabla es exactamente igual a las tablas usadas en diagnstico mdico, por lo
que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad,

171

Valores predictivos y Certeza, en este caso no de un examen, sino de la funcin


logstica. Adems es posible realizar un anlisis de concordancia.
Anlisis de concordancia
El anlisis de concordancia permite comparar la certeza de un examen (en este
caso la funcin) con la certeza que podra esperarse por simple azar.
En la tabla observamos que la certeza es C = (a+c)/n. Sin embargo, si calculamos
los valores esperados para las celdas de la diagonal de la tabla en la forma habitual usada
en tablas de contingencia, estos son: (a+c)(a+b)/n y (b+d)(c+d)/n, por lo que por simple
azar podra esperarse una certeza de
(a c)(a b) (b d )(c d )

(a c)(a b) (b d )(c d )
n
n
Cz

n
n2

De esta manera, existe un rango de certeza restringido entre el valor de azar C =


Cz y la certeza mxima C = 1, que podra ser atribuible a la funcin. Entonces tiene
sentido el estadgrafo:

C Cz
1 Cz

Este representa la fraccin de concordancia no azarosa, cuyo valor mximo es 1.


Es posible probar H0: = 0 vs 0 mediante:
z

C z (1 C z )
n

172

Ejemplo 2.Supongamos que despus de un anlisis de regresin logstica se obtuvo la


siguiente tabla de clasificacin:
Tabla de Clasificacin
Predicho (+)
Predicho(-)
Total
Observado(+)
16
2
18
Observado(-)
5
4
9
Total
21
6
27
Entonces C = 20/27 = 0.74. Los valores esperados por azar en la diagonal seran:
21x(18/27) = 14 y 6x(9/27) = 2, por lo que al azar se podra tener una concordancia de
0.74 0.5926
Cz =(14+2)/27 = 0.5926. Entonces:
0.361
1 0.5926
Para ver si esta concordancia es diferente de 0, calculamos:
0.361
3.81, y como 3.81 > 1.96, se rechaza H0 y se concluye
0.5926(1 0.5926)
27
que la capacidad de clasificacin es mayor que la esperada por azar.
z

173

XVII.- ANALISIS DISCRIMINANTE


XVII.1.- Fundamento
Como lo dice su nombre, el objetivo del anlisis discriminante es discriminar
grupos a partir de un conjunto de variables medidas {Xi}. Se intenta responder la
pregunta Cul es la mejor combinacin de variables que permite diferenciar entre dos o
mas grupos previamente conocidos? Es por tanto, un mtodo a posteriori, que necesita
de conocer a que grupo pertenecen las variables medidas.
El caso ms sencillo es aqul en que se tienen dos grupos o poblaciones ( i, i =
1,2), de tamaos ni en los que se estudian un conjunto de p variables {Xj}. En este caso
se busca una funcin (funcin lineal discriminante) que sea una combinacin lineal de
las variables, del tipo:
L 1 X 1 2 X 2 ........ p X p o, en trminos matriciales L [ X ]T []

Se requiere adems que esta funcin tenga una mxima discriminacin.


Si dividimos la variabilidad total (o suma de cuadrados (T)): T ( Lik L ) 2 en
i ,k

sus dos componentes clsicos, la suma de cuadrados dentro de grupo (W, de within) y
la suma de cuadrados entre grupos (B, de between), de manera que T = B + W, se
obtiene:
W ( Lik Li ) 2 y B ni ( Li L ) 2
i ,k

n1n2
( L1 L2 ) 2
n1 n2

A partir de esta descomposicin, ahora es posible definir discriminacin (D) como


el cuociente entre la suma de cuadrados entre y dentro de grupos:
D B /W

El problema se reduce ahora a encontrar los coeficientes { i} que hacen mxima


la discriminacin D. Es decir {i}, tal que: D/i = 0.
Se puede demostrar que esto matemticamente conduce a un problema de valores
(Eigenvalues: i) y vectores propios. La solucin indica que el conjunto de coeficientes
{i} para el caso de dos poblaciones es el vector propio de [D], asociado a su valor
propio ():

174

[] []1 [ X 1 X 2 ] []1 [d ]
Este es un resultado muy til pues por su estructura la matriz de coeficientes ([B]
o {i}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y,
entonces se puede docimar a travs de una F (ver MANOVA):

DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
Este razonamiento se extiende naturalmente al caso de ms poblaciones, por
ejemplo q poblaciones. En este caso se obtienen q-1 funciones discriminantes, a
menudo llamadas ejes cannicos. Cada funcin tiene asociado un valor propio (i) que
da cuenta de la proporcin de discriminacin explicada por dicha funcin, y un vector
propio que contiene los coeficientes {i}.
Se puede probar la capacidad de discriminacin de cada funcin o eje cannico a
pq
}ln(1 j ) que se distribuye siguiendo a 2p+q-2j.
travs de 2j { ni 1
2
i
XVII.2.- Clasificacin
El anlisis discriminante puede ser usado a posteriori como una funcin de
clasificacin en el mismo sentido que la regresin logstica. Por ejemplo para dos
L L2
) que permite decidir si un caso al
poblaciones se puede escoger un punto L* ( 1
2
que se le han medido las p variables {Xi} pertenece a la primera o segunda poblacin.
En forma completamente anloga al caso de la regresin logstica se puede obtener una
tabla de clasificacin, con sus respectivos parmetros y realizar un anlisis de
concordancia.

175

Ejemplo 1.Supongamos que nuestro inters es discriminar dos grupos A y B a partir de tres
variables X1, X2 y X3, y que se tiene la siguiente tabla:
X1
4
5
4
4
5
2
3
3
4
2

A
A
A
A
A
B
B
B
B
B

X2
1
2
1
2
1
2
1
2
1
2

X3
1
2
3
4
5
3
4
5
6
7

Al realizar un anlisis discriminante, se obtiene la funcin:


FD = 1.004X1+0.267X2-0.647X3, con un valor propio = 2.79; con un valor 23 = 5.59,
p = 0.036 y usando el criterio FD = 0, una certeza del 100%.
Es decir la funcin discriminante es excelente (100% de certeza), con una
capacidad de discriminacin significativa (p<0.05). Adems en la funcin pesan
especialmente las variables X1 y X3.
Este mismo problema se puede abordar con regresin logstica mltiple. En este
caso se obtiene:
P( I A)

100%.

1
1 e

( 5.7 10.1 X 1 0.7 X 2 7.6 X 3 )

con un 23 = 13.83, p = 0.0031 y una certeza del

176

XVIII.- ANALISIS DE COMPONENTES PRINCIPALES


XVIII.1.- Fundamentos
A diferencia del anlisis discriminante, cuyo fin es discriminar grupos
previamente conocidos, el anlisis de componentes principales tiene como fin
fundamental buscar combinaciones de variables que expliquen la variabilidad del
fenmeno, reduciendo el nmero de variables. Su fin secundario, aunque muy habitual
es ordenar en base a las nuevas variables obtenidas, un conjunto de poblaciones. En este
caso se debe notar que el mtodo no tiene por objetivo discriminar sino ordenar y que es
a priori, es decir que para construir las nuevas variables no necesita conocer los grupos.
Dado un conjunto de p variables medidas a una o ms poblaciones {X i}, interesa
un conjunto de i variables construidas como combinacin lineal de las {Xi} y que
adems sean ortogonales o independientes entre s. Tales variables son del tipo:
yk vk1 X 1 vk 2 .......vkp ; k 1,2,...p

Realizando la estandarizacin habitual Z i

Xi X
la relacin anterior se puede
si

escribir matricialmente:
[] [V ]T [Z ] , donde la matriz [] corresponde a la matriz de coeficientes {k= yki
estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables
estandarizadas.

Se puede demostrar fcilmente que la esperanza E[] es la matriz nula, y que la


varianza V [] [V ]T []Z [V ] [V ]T [][V ]
Matemticamente la idea es encontrar un conjunto de coeficientes {v ki} tales que
i) la matriz varianza covarianza sea diagonal, es decir k independientes entre s y que
adems ii) la varianza sea mxima. Si adems introducimos la condicin normalizadora
de que iii) los coeficientes {vki} tengan mdulo 1 (vkTvk = 1; o v2k = 1), entonces
introduciendo multiplicadores de Lagrange, se puede demostrar que:

[V []]
0 [ I ] vk 0
vk

177

Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada
valor propio {i} de la matriz de correlacin entre las variables ([ ]). Adems la traza
de [ ] = i = p, y entonces la proporcin de la varianza que explica cada componente
k es k/p. As un componente con un valor propio menor que 1 es con toda seguridad
irrelevante.
Observamos entonces que en el anlisis de componentes principales se maximiza
la variabilidad total y no la discriminacin, y que en la prctica la extraccin de
componentes principales slo consiste en encontrar valores y vectores propios en la
matriz de correlacin.
Cada componente k tiene esperanza 0 y varianza k. Si definimos ahora fk =
k/( k), entonces fk es un componente estandarizado con esperanza 0 y varianza 1.
Entonces la matriz [F] = [fk] se puede escribir:
1/ 1

[F ] 0
0

.
0

.
0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0 1/ p

Con esta ltima estandarizacin la matriz [Fs] se denomina Factor score


coefficients y da informacin de la composicin de cada factor f k estandarizado para
varianza 1.
Por otra parte, es posible establecer la correlacin entre las variables
estandarizadas (Zi) y los componentes estandarizados fk. Esta matriz de correlacin
([FL]) se denomina Factor structure que contiene a los factor loadings:
[ FL ]

1
1
1
1
( Z i Z )( f i f )T Z i f i Z i [ L1 / 2V T Z i ]T VL1 / 2

n
n
n
n

Adems, como V V T L ,

[ FL ] VL1 / 2
Podemos escribir entonces las variables en funcin de los componentes
estandarizados:
[Z ] [ FL ][F ]

178

Esta expresin nos muestra que cada variable se puede expresar como
combinacin lineal de los componentes y los coeficientes o factor loadings muestran el
peso de la variable en dicho componente.
Con esta estandarizacin adems FLk2 representa la proporcin de la variabilidad
de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la
fraccin no explicada 1- FLk2 es la especificidad de la variable.
Cuando se realiza un anlisis de componentes principales, interesa primero saber
si se justifica hacerlo. Esta pregunta se refiere a lo siguiente: si las variables medidas no
estuvieran correlacionadas de partida, entonces no tiene sentido la bsqueda de
componentes ortogonales. A raz de esto Bartlet propuso primero estudiar la matriz de
correlacin y someter a prueba de hiptesis H0: 0 vs H1: 0 . Para esto propuso,
el siguiente estadgrafo:
1
{(n 1) (2 p 5)}ln que se distribuye como 2p(p+1)/2.
6

Adems despus del anlisis importa saber cuantos componentes son relevantes
para dar cuenta de la variabilidad total. Esto tiene una solucin muy prctica y usada:
usar todos los componentes cuyo valor propio es mayor que 1. Otra solucin es
considerar q componentes y someter a prueba si la correlacin residual es o no
diferente de 0: H0: residual 0 vs H1: residual 0 . En este caso se usa el
estadgrafo:
1
2
{(n 1) (2 p 5) q}ln C donde C
6
3

residual
q
p j p q
j (
)

pq
1

En este caso se inicia con q = 1, subiendo progresivamente hasta que la


correlacin residual sea irrelevante, es decir hasta aceptar H0.
Ejemplo 1.Usando la misma tabla del captulo anterior, podramos estar interesados en cuales
son las combinaciones de variables que dan cuenta de la variabilidad de las poblaciones
A y B (no en discriminar). En este caso un anlisis de componentes principales muestra:
CP1 = 0.55X1-0.667X2+0.50X3
CP2 = -0.65X1+0.035X2+0.76X3

179

CP3 = 0.52X1+0.74X2+0.41X3

Componente (Factor
(Factor
(Factor score Valor propio %
score de X1) score de X2) de X3)
()
acumulado
de la
varianza
CP1
0.53
-0.44
-0.40
1.57
52.6
CP2
0.037
-0.69
0.71
0.88
82.18
CP3
-0.4
0.80
0.56
0.53
100.0

Esto indica que slo el primer componente es relevante ( >1). Los factor loadings
son -0.84; 0.69 y 0.63 para X1, X2 y X3 respectivamente, por lo que CP1 est
fundamentalmente asociado a X1. Adems podran usarse los valores de los dos primeros
componentes en cada caso para graficar ambas poblaciones, ordenndolas.

2
1

var5

2
1

-1

-2

-2

-1

0
var4

Grfico de las poblaciones A y B codificadas respectivamente como 1 y 2, en


funcin de los dos primeros componentes principales (Software SATATA 8.0 ).

180

XIX.- CORRELACION CANONICA, ANALISIS DE


CORRESPONDENCIA Y ANALISIS CANONICO DE CORRESPONDENCIA
XIX.1.- Correlacin cannica
Supongamos que en una poblacin se miden un conjunto {Wi} en el que podemos
separar dos tipos de ellas {Xi} e {Yi}, que miden atributos diferentes, por ejemplo
variables ambientales y fisiolgicas, o habilidades verbales y matemticas etc. En
muchas ocasiones interesa estudiar la forma en que se asocian o correlacionan estas
variables. Matemticamente esto consiste en buscar pares de funciones lineales
[Uk ,Vk ], del tipo:
U k ak 1 X 1 .........akp X p
Vk bk 1Y1 ...........bkqYq

tales que la correlacin entre Uk y Vk sea mxima.

Si ordenamos las variables {X1.Xp,Y1..Yp} en una matriz de correlacin, esta


se puede dividir en cuatro sectores, cada uno con una matriz: [A] con las correlaciones
entre las {Xi}; [B] con las correlaciones entre las {Yi}; y [C] con las correlaciones entre
Xi e Yi. De esta manera la matriz se puede escribir:

[ A]
T
[C ]

[C ]
[ B]

El problema de correlacin mxima como ya es habitual se resuelve como un


problema de valores y vectores propios:
[(B 1C T A1C I )V ] [O]

Los valores propios obtenidos (k) corresponden a Rk2, es decir representan la


parte de la determinacin que le corresponde al par {Uk,Vk} . Adems los coeficientes
{bi} de la funcin V corresponden a los vectores propios de la ecuacin caracterstica y
los coeficientes {ai} de la funcin U estn dados por:
ai [ A]1[C ]bi

As mediante este mtodo se obtienen pares de funciones lineales que dan cuenta
de la correlacin entre las variables. Esto permite visualizar como se correlacionan las
configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U1 =
0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un 1=0.6; esto indica que el par

181

U1,V1 determina el 60% de la asociacin y que en U1 son determinantes las variables X1


y X3 y en V1 predomina Y2. Esto sugiere una relacin entre stas.
Se puede probar el nmero de pares de funciones cannicas necesarios para dar
cuenta de la correlacin probando la hiptesis H0: H0: 0 vs H1: 0 mediante:
r
1
2k {n ( p q 1)} ln(1 i ) donde r es el menor entre p y q, y k varia desde 0
2
i 1 k
a r. Es decir se rechaza H0 y se van removiendo los pares hasta que su contribucin a la
correlacin se vuelva irrelevante. Este estadgrafo se distribuye siguiendo a 2(p-k)(q-k).

Ejemplo 1.Si usamos la tabla del ejemplo1 del captulo de regresin mltiple, e intentamos
un anlisis de correlacin cannica considerando Y y X1 como un tipo de variables y X2
y X3 como un segundo tipo, obtenemos un primer par cannico de funciones:
U1 = -0.38Y-0.62X1; V1 = -X1 + 0.0265X2 con un valor propio 1 = 0.993 y un 24 =
87.1; p <<0.001. El segundo par cannico (U2,V2) es irrelevante, con un 2 = 0.006 y un
24 = 0.11; p = 0.7. La correlacin cannica del primer par es R = 0.9965 (1).
XIX.2.- Anlisis de correspondencia
El objetivo de ste anlisis es la bsqueda de asociacin o correspondencia entre
dos o ms conjuntos de variables cualitativas mltiples, por ejemplo {X i} e {Yi}.
Bsicamente consiste en la bsqueda de un conjunto de races y sus eigenvalues que den
cuenta de la asociacin entre estos dos o ms grupos de variables. Cuando se trata de dos
grupos de variables, se analiza la tabla de doble-entrada (contingencia) que contiene las
frecuencias de presentacin de stas. Por ejemplo {Xi} puede ser un conjunto de
especies (Spi), {Yi} puede ser un conjunto de biomas (Bi), lo que conduce a la tabla:

Sp1
Sp2
.
Spp

B1
n11
n21

np1

B2
n12
n22
.
np2

..
.
.
.
.

Bq
n1q
n2q
.
npq

En sta tabla el anlisis obvio para la bsqueda de asociacin es el test de 2 para


tablas de contingencia. Como el valor de este estadgrafo depende de la frecuencia total
(nOO), se ha definido como medida de asociacin, la Inercia (I) que se expresa:

182

nOO

El anlisis permite descomponer la inercia (o asociacin) en un conjunto de


dimensiones (vectores propios) ortogonales que explican esta asociacin. El mximo
nmero de dimensiones extrables corresponde al valor mnimo entre (filas-1) y
(columnas-1).
Ejemplo 2.Supongamos que tenemos 4 especies A, B, C, D distribuidas en 3 ambientes K, L
y M, y que hemos registrado las frecuencias en la siguiente tabla:
K
1
4
5
6

A
B
C
D

L
2
3
6
4

M
4
5
7
3

Si realizamos un anlisis de correspondencia obtenemos una inercia de I = 0.065 y


las primeras races o dimensiones: U1 = (-0.44;-0.027;-0.061; 0.35) y V1 = (0.31; 0.016; 0.28), con un valor propio 1 = 0.06 y R = 0.245. Sin embargo 26 = 3.26, p = 0.77. Es
decir en este caso no existe una asociacin significativa entre las especies y los
ambientes.
Reciprocal averaging
Este mtodo permite una variacin sobre el anlisis anterior. Al igual que en el
caso anterior, se tiene una matriz de datos donde las filas se ordenan segn una variable
(X) o sus niveles, las columnas se ordenan segn otra variable o sus niveles (Y) y las
celdas de la matriz son ocupadas por las frecuencias de presentacin de las
combinaciones o bien cualquier caracterstica de inters, por ejemplo la biomasa de las
especies.

Sp1
Sp2
.
Spp

B1
n11
n21

np1

B2
n12
n22
.
np2

..
.
.
.
.

Bq
n1q
n2q
.
npq

183

Se pueden buscar las races o dimensiones que maximizan la asociacin entre los
pares {Bk,Spk}. Esto se puede hacer por el mtodo de reciprocal averaging. En este
mtodo se calculan iterativamente los promedios ponderados (weighted average)
renormalizados de filas y columnas y hasta lograr la estabilizacin. El vector estable
corresponde a la primera dimensin y tiene asociado un eigenvalue ( k ).Se puede
demostrar que al igual que la correlacin cannica, conduce a pares de funciones
lineales con su valor propio asociado k, que corresponde a k=Rk2. Cada par de
funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par
de funciones, se contina con el anlisis estableciendo la correlacin con la funcin
anterior y trabajando con los residuales.

184

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)


XX.1.- Fundamentos
El objetivo del anlisis de conglomerados es la bsqueda de grupos o una
organizacin jerrquica de ciertas unidades, a partir de un conjunto de variables medidas
en ellas {Xi}. En este sentido por ejemplo, es muy til para agrupar especies animales a
partir de caractersticas morfolgicas. Necesita del conocimiento previo de las unidades
para hacer el anlisis, por lo que ste es a posteriori. Necesita tambin de una medida de
similitud entre las unidades, o bien una medida de distancia entre ellas.
XX.2.- Medidas de similitud y distancia
Las medidas de similitud y distancia entre dos unidades (j y k), cada una
caracterizada por los valores de las variables medidas {Xi}, pueden ser de diferentes
tipos dependiendo de la naturaleza de las variables: medidas de distancia, medidas de
correlacin y medidas de asociacin.
Medidas de distancia
Cuando se usan medidas de distancia, la mxima similitud corresponde a la
mnima distancia, o sea cero.
Si las variables son cualitativas de doble estado (presencia-ausencia: 1 o 0) podra
usarse por ejemplo como medida de distancia la diferencia promedio de caracteres
(Mean carcter difference MCD), que representa la proporcin de diferencia entre dos
unidades.
p

MCD

X
i 1

ij

X ik

Si las variables son cualitativas ordinales de mltiples estados (variables


multiestado) tiene sentido usar la distancia de Manhattan (DM) que acumula las
diferencias de orden de cada variable entre las unidades:
p

DM X ij X ik
i 1

185

Si las variables son cuantitativas o predominantemente cuantitativas se puede usar


la distancia Euclidea (en sentido matemtico) o Taxonmica (D):
D

(X
i 1

ij

X ik )

Tambin en este ltimo caso es posible usar alguna distancia que incorpore la
variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas
polares como la distancia de Nei. Sin embargo, stas se utilizan menos, o tienen uso mas
restringido.
Medidas de correlacin
As como entre dos unidades se puede establecer una distancia, tambin se puede
medir la similitud entre ellas usando el coeficiente de correlacin. En el caso que las
variables sean cuantitativas continuas esta indicado el coeficiente de correlacin de
Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales,
se puede usar el coeficiente de correlacin de Spearman. En este caso la mxima
similitud es 1.
Medidas de asociacin
Cuando se caracterizan unidades es muy habitual usar variables doble-estado o
presencia-ausencia. En este caso se pueden usar medidas de asociacin que permiten
valorar en forma diferencial las coincidencias y desacuerdos. Por ejemplo vale lo
mismo que dos especies tengan una mancha roja (1,1) a que ambas no la tengan (0,0)?
Debemos observar que ambas son coincidencias y que la diferencia media de caracteres
las valora igual, en ambos casos Xij-Xik = 0. Existen muchas medidas de asociacin para
estos casos, cuyo uso depende del problema a estudiar.
Si agrupamos las observaciones en una tabla de 2x2, obtenemos:
UNIDAD
UNIDAD 2

1
0

1
A
C

1
0
B
D

En este caso los nmeros a y d representan las coincidencias y los nmeros b y c


los desacuerdos. A partir de esta tabla existen diferentes medidas:
Apareamiento simple (simple matching): SM

ad
abcd

186

Coeficiente de Jaccard: J

a
abcd

Coeficiente de Roger y Tanimoto: RT

Coeficiente de Dice: CD

ad
a 2b 2c d

2a
2a b c

Coeficiente de Sokal y Sneath: SS

Coeficiente de Hamann: H

2(a d )
2(a d ) b c

(a d ) (b c)
abcd

XX.2.- Mtodos de agrupacin


Los mtodos de agrupacin parten desde la matriz [D] que contiene las distancias
o similitudes entre las unidades a agrupar. Cuando contiene similitudes es preferible
convertirlas a distancia para facilitar el uso del algoritmo. Por ejemplo si el mximo de
similitud es S = 1, se puede usar como distancia D = 1-S.
Todos los mtodos consisten en ir agrupando en grupos o niveles jerrquicos
mayores a aquellos pares de unidades que tienen la menor distancia. Sin embargo, los
mtodos difieren en la ponderacin que se le pueda dar al nmero de elementos que
tenga cada unidad (weighted pair group) o en el algoritmo que se sigue despus de que
se han formado unidades jerrquicas mayores. En este ltimo caso hay que definir las
distancias entre una unidad particular (P) y un grupo jerrquico mayor (distancia DG)
que contiene por ejemplo dos unidades (A y B). Se puede observar en este caso que
existe una distancia PA y una PB y entonces se puede caracterizar la distancia DG como
DA DB
la distancia promedio (Mtodo de la distancia promedio): DG
, como la
2
distancia menor (simple linkage) o la distancia mayor de las dos (complete linkage). Lo
ms habitual es el uso del mtodo UPGMA o mtodo de agrupacin promedio de los
pares no ponderados. Es decir sin ponderacin y distancia promedio.

187

Ejemplo 1.Supongamos que se estudiaron 5 especies obteniendo la siguiente matriz de


distancias:
A
0

A
B
C
D
E

B
1
0

C
0.5
0.4
0

D
3
3
1
0

E
2
2
4
2
0

Escogemos la distancia menor que en este caso es D(BC) = 0.4 y formamos en


primer cluster BC. Para determinar las distancias desde cada especie al grupo BC
usaremos simple linkage (distancia menor). Entonces esta matriz conduce a:
A
0

A
BC
D
E

BC
0.5
0

D
3
1
0

E
2
2
2
0

Nuevamente escogemos la distancia menor D(A-BC) = 0.5 obteniendo el cluster


ABC y calculamos las nuevas distancias:
ABC
0

ABC
D
E

D
1
0

E
2
2
0

Ahora la distancia menor es D(D-(ABC)) = 1, formndose el grupo ABCD. A


continuacin:

ABCD
E

ABCD
0

E
2
0

Entonces E se incorpora al grupo a una distancia 2. Finalmente se puede graficar


como:

188

Si en cambio utilizamos UPGMA, a partir de la primera matriz obtendramos la


siguiente:

A
BC
D
E

A
0

BC
0.75
0

D
3
2
0

E
2
3
2
0

Y a continuacin:

ABC
D
E

ABC
0

D
2.33
0

E
2.67
2
0

Notamos que para calcular las distancias desde una especie a un grupo o cluster
tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia
menor es D(E-(ABC)) = 2. Y llegamos a la matriz:

189

ABCE
D

ABCE
0

Entonces ahora podemos graficar:

D
2.25
0

190

BIBLIOGRAFIA
Azocar MR (1974) Probabilidad Matemtica. Universidad Catlica de Chile, Instituto
de Matemticas (Apunte).
Brown D & Rothery P (1993) Models in Biology: Mathematics, Statistics and
Computing. John Wiley & Sons, New Jork.
Cochran WG (1980) Tcnicas de Muestreo. Compaa editorial Continental SA,
Mexico.
Cramer H (1945) Mtodos Matemticos en Estadstica. Aguilar SA, Madrid.
Cramer (1966) Elementos de la Teora de Probabilidades. Aguilar SA, Madrid.
Feller W (1968) An Introduction To Probability Theory And Its Applications. John
Wiley & Sons, New Jork.
Hair JF, Anderson RE, Tatham RL & Black WC (1999) Anlisis Multivariante .
Prentice Hall, Madrid.
Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.
Manley FJ (1986) Multivariate Statistical Methods, A Primer. Chapmann & Hall,
London.
Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.
Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.
Silva C & Cumsille F (1984) Calculo de Probabilidades. Universidad de Chile, Escuela
de Salud Pblica. (apunte).
Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.
Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.

191

Steel RGD & Torrie JH (1980) Bioestadstica: Principios Y Procedimientos. McGrawHill Latinoamericana SA, Bogot.
Taucher E (1997) Bioestadstica. Editorial Universitaria, Santiago, Chile.
Zar JH (1996) Biostatistical Anlisis. Prentice Hall, New Jersey.

192

ANEXO I.- FORMULAS UTILES


II.- ESTADSTICA DESCRIPTIVA

Frecuencia relativa hi ni / n
i j

Frecuencia acumulada N j ni
i 1

i j

Frecuencia acumulada relativa H j hi


i 1

Promedio x

Promedio si la serie ha sido agrupada y

Mediana Me y ' L1

n y
i

hi yi

cL (n / 2 N L1 )
nL

Percentil de orden p Pp y ' L1

cL (np / 100 N L1 )
nL

xi2
Varianza s x 2
n
2

ni yi2
y 2 hi yi2 y 2
Varianza en una serie agrupada s
n
2

Desviacin estndar s s 2
Coeficiente de Variacin CV s / x
Error estndar (Es): Es s / n

193

III.- PROBABILIDADES
Probabilidad P( A)

casosfavorables
casosposib les

Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai)


Probabilidad Compuesta: P(A B) = P(A) + P(B) P(A B)
Probabilidad de que ocurra al menos un evento: P( Ai)= 1 P( AiC), lo que se
interpreta como P(alguno) = 1 P (ninguno)
Probabilidad condicional P( A / B)

P( A B)
P( B)

Probabilidad conjunta Si A y B son independientes, entonces P(A B) = P(A) P(B)


(teorema de la y)
Probabilidad total P( A) P( A / Bi ) P( Bi )
i

Teorema de Bayes P( Bi / A)

Chance u odds O

P( A / Bi ) P( Bi )
j P( A / B j ) P( B j )

p
1 p

Sensibilidad S P( / E )

a
ab

Especificidad Sp P( / noE )

d
cd

Valor predictivo positivo VPP P( E / )

a
ac

194

Valor predictivo negativo VPN P(noE / )

Certeza diagnstica P(C )

d
bd

ad
n

Razn de verosimilitud (+) LR P( / E ) / P( / noE ) P( / E ) /(1 P( / noE ))

S
1 Sp

Razn de verosimilitud (-) LR (1 S ) / Sp


IC1 [log LR Z / 2

1 1
1
1

]
a d ab cd

Chance a posteriori Op LR Oo
Tasa de evento en el control CER P(evento / control )

a
ac

Tasa de evento en el grupo experimental EER P(evento / ex)

Riesgo relativo RR EER / CER

IC1 [log RR Z / 2

b
bd

1 1
1
1

]
a b ac bd

Reduccin absoluta del riesgo ARR CER EER


Nmero necesario a tratar para un beneficio NNT 1/ ARR
Reduccin relativa del riesgo RRR (CER EER) / CER
Aumento absoluto del riesgo ARA EER CER
Aumento relativo del riesgo RRA ( EER CER) / CER
Nmero necesario de expuestos para un dao NNH 1/ ARA

195

Razn de disparidades de la chance (Odds ratio) OR

IC1 [log OR Z / 2

a / c ad

b / d bc

1 1 1 1
]
a b c d

IV.- VARIABLES ALEATORIAS


Distribucin de Bernoulli E[X] = p, V[X] = pq.
n
Distribucin binomial P( X k ) p k (1 p) nk
k

E[X] = np, V[X] = npq.


N Np Np


n k k

Distribucin Hiergeomtrica P( X k )
N

n

E[X] = np, V[X] = npq(N-n)/(N-1).


Distribucin de Poisson P( X k ) e

k
k!

E[X] = V[X] =
Distribucin exponencial f ( x) e x
E[X] = 1/ y V[X] = 1/2
DISTRIBUCIN NORMAL f ( x) (1/ 2 ) e
E[X] = y V[X] = 2

(1 / 2 )[

]2

V.- ESTIMACIN
Intervalo de confianza para una proporcin P y para la diferencia P1-P2
IC1 [ p Z / 2 pq / n ]

IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p2 q2 / n2 ]

196

Intervalo de confianza para el promedio x y para la diferencia x1-x2


Si se conoce la varianza poblacional IC1 [ x Z / 2 / n ]
Si no se conoce IC1 [ x t (1 / 2) s / n ]
Para la diferencia de promedios
IC1 [( x1 x2 ) t(1 / 2) Es] donde Es

(n1 1) s12 (n2 1) s22


(1/ n1 1/ n2 )
n1 n2 2

Estimadores en Medicina
Proporciones

Diferencia de proporciones

Sensibilidad,
Especificidad,
Valores
predictivos, certeza diagnstica, CER y
EER
Reduccin y aumento absoluto del riesgo:
ARR y ARA

Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los lmites de
confianza para ARR y ARA y se calcula su inverso.
Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR)
Para log RR: IC1 [log RR Z / 2

1 1
1
1

]
a b ac bd

Para log OR: IC1 [log OR Z / 2

1 1 1 1
]
a b c d

Para log LR: IC1 [log LR Z / 2

1 1
1
1

]
a d ab cd

Z 2 / 2 PQ
Tamao muestral para estimar una proporcin n
d2

197

t12 / 2 s 2 Z 2 / 2 s 2

Tamao muestral para estimar un promedio n


d2
d2

Para confianzas del 95% se suele aproximar z2/2 = 4.


VI.- DOCIMASIA O PRUEBA DE HIPTESIS
VALOR

DECISIN

V (H1F)
ERROR I ()
C = 1-

Rechazo Ho
Acepto Ho

Dcimas para una muestra


Dcima para una proporcin (P) Z

Dcima para un promedio t n 1

DE

VERDAD
de
Ho
F (H1V)
K = 1-
ERROR II ()

p p0
p0 q0
n

x 0
s
n

Dcimas para dos muestras


Dos proporciones Z

( p 1 p 2 ) P0
p n p 2 n2
donde p0 1 1
n1 n2
1 1
p0 q0 ( )
n1 n2

Dcimas para dos promedios


Muestras independientes
c) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:
t n n 2
1

x1 x2 0
(n1 1) s12 (n2 1) s22
2

donde sc
n1 n2 2
1
2 1
sc ( )
n1 n2

198

d) si no hay homocedasticidad, entonces usamos:


t gl

x1 x2 0
(

2
1

pero los grados de libertad gl los estimamos mediante

2
2

s
s
)
n1 n2

s12 s22

n n
gl 12 2 2
s12 s22

n1 n2
n1 1 n2 1

Muestras dependientes (pareadas) t n1

Dcima de Homocedasticidad F( n 1), ( n 1)


1

d
sd / n

s M2
2
sm

VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS


La distribucin para tablas de contingencia
2

Prueba exacta de Fisher PF

2
( r 1)( c 1)

P( X x); dondeP( X x)

x N1,1

La distribucin para bondad de ajuste n2 p 1


2

La distribucin para proporciones


2

( o e) 2

e
i, j

2
n 1

n ( p
i

pq

N1, 0 !N 2, 0 ! N 0,1! N 0,1!


N1,1! N1, 2 ! N 2,1! N 2, 2 ! N 0, 0 !

( o e) 2
e

p)

en donde p ni p1 / n
i

199

VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA


Prueba de los signos de Fisher B bi
Prueba de los rangos signados de Wilcoxon T bi Ri
no

Prueba de la suma de rangos de Wilcoxon- Mann-Whitney T1 Ri


1

( B C 1) 2
(B C)2
2
Dcima de McNemar
o 1
(B C)
(B C)
2
1

IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA)


Anlisis de la varianza de 1 va o factor (ANOVA de 1 va).
FV
T (entre)

SC
(Yi 02 / n) Y002 / nt

Gl
t-1

(dentro o yij2 Yi 02 / n
ij
i
error)
TOTAL
yij2 Y002 / nt

CM=SC/gl F
P
F
=
CME/CMD

t(n-1)
nt-1

ij

Transformaciones
Distribucin
Normal
Binomial (proporciones)
Poisson (sucesos raros)
Sin homocedasticidad

(y)
C = constante
y(1-y)
Y
y2
y4

Binomial negativa
Decreciente
Contrastes ortogonales t gle

Lj
CMD ci2 / ni

Transformacin f(y)
Y
arcsen(y)
y
ln(y) o ln(y+1)
1/y o 1/(y+1)
arcsen(y)
y2

200

Prueba de Dunnet t d

yi 0 ycontrol
2CMD / n

L2
Prueba de Scheff Ft 1, gle
(t 1) CMD ci2 / ni
yi 0 y j 0

Prueba de Tukey Qt , gle

(CMD / 2) (

Diseo de bloques aleatorizados


B1
T1
B2
T3
B3
T2
Diseo de medidas repetidas
T1
I1
I2
I3
I4

1 1
)
ni n j

T3
T2
T1

T2
T1
T3

T2

T3

Diseos anidados, encajados o jerrquicos


T1
N1

T2
N1

N2

N2

T3
N1

N2

Cuadrado latino
B1
B2
B3

b1
T1
T2
T3

B2
T2
T3
T1

B3
T3
T1
T2

201

Parcelas divididas (split-plot)


B1
T1
t1
t2
B2
T3
t1
t2
B3
T2
t1
t2

T3

T1
T2
T1
T2
T1
T2

T2
T1

T2

t1
t2
t1
t2
t1
t2

T1
T3

t R
12
0j
3(n 1)
Prueba de Kruskall-Wallis: H

N ( N 1) 1 n j

Relacin entre Kruskall-Wallis y ANOVA sobre rangos F

R0 j R0 k

Comparaciones mltiples de Nemenyi (post- K-W) Q , ,t

Prueba de Friedman t2

N t
H
( N 1 H )(t 1)

n(nt )(nt 1)
12

12
R02 j 3b(t 1)

bt (t 1) j
R0 j R0 k

Comparaciones mltiples post-Friedman Q , ,t

b(t )(t 1)
12

X.- CORRELACIN Y REGRESIN


Coeficiente de correlacin r

( x x )( y y )
( x x ) ( y y)
i

Prueba de Hiptesis t n2

x y
i

1 r2

x y / n xy
x /n x
i

2
i

nx y

( xi2 nx 2 )( yi2 ny 2 )

r n2

Regresin: Pendiente e Intercepto B1

B0 y B1 x

202

Varianzas de la pendiente e intercepto


V [ B1 ]

S yx2

(x

x)2

Pruebas de Hiptesis t n2

ei2
1
x
2
) donde S yx
y V [ B0 ] S (
n ( xi x ) 2
n2
2
yx

B*
V [ B* ]

ANOVA de la regresin
Fuente de SC
Gl
variacin
Modelo
( yi' y) 2 B12 ( xi2 nx 2 ) 1
(Regresin)
Residuo
n-2
(por diferencia)
Total

( y

y ) 2 yi2 ny 2

Coeficiente de determinacin (R2) R 2

CM

F1,n-2

SC/gl

CMmodelo/CMresiduo

SC/gl
= Syx2

n-1
SCregresi n
SCTotal

ei2
S yx2
Error tpico de la estima S yx
n2

Prediccin de un valor y para un valor xk (y/xk)


IC1- : y k' t n2 S yx 1

( xk x ) 2
1

n xi2 ( xi ) 2 / n

Prediccin del valor y para xk


IC1- : y t n2 S yx
'
k

( xk x ) 2
1

n xi2 ( xi ) 2 / n
i n

Correlacin no-paramtrico de Spearman (rs) rs 1

6 d i2
i 1

n n
3

203

ANCOVA
Factor
A1
Y

A
A2

A3

Comparacin de dos pendientes:

11 12

t n1 n 24
2
S yxc
(

1
1

)
x12i x22i

donde S yxc

SCresiduo 1 SCresiduo 2
n1 n2 4

XII.- ESTADISTICAS VITALES


x: representa la edad o estado etario
Nx: nmero de individuos al inicio de la edad x
lx: proporcin de sobrevivientes al inicio de la edad x; l x

Nx
N0

dx: nmero de muertos entre la edad x y x+1; l x N x N x1


qx: probabilidad de morir entre la edad x y x+1; q x

d x (l x l x 1 )

. A veces es til
Nx
lx

definir la probabilidad de supervivencia p x 1 q x


Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx

Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx Lx


x

ex: esperanza de vida a la edad x: ex

Tx
lx

(l x l x 1 )
2

204

mx: nmero de cras o hijos entre x y x+1

Vx: valor reproductivo a la edad x Vx


x

l x mx
lx

Ro: Tasa reproductiva neta o bsica de una poblacin. R0 l x mx


0

e0: Esperanza de vida al nacer. e0 = e0.


G: Tiempo generacional. G

yl m
x

R0

XII.2.- Comparacin de curvas de supervivencia


Prueba de Mantel-Haenszel o Logrank.

(Oi Ei ) 2

Ei
1
t

2
t 1

XIII.- REGRESION LOGISTICA


Modelo: log(

P
1
) X P
1 P
1 e ( X )

Estadgrafo de Wald (W) que se distribuye como 2 con un grado de libertad W (


Seudo coeficiente de determinacin: R 2

( m2 2 p)
2 L(0)

px
1 px
e ( x )
( x*) e ( x x*) .
La razn de chances (odds ratio) OR
p x*
e
1 p x*

)2

205

XIV.- SERIES DE TIEMPO


Modelo ARIMA

X t at i ( X t i ) i (at i )
i nk

Autocorrelacin rk

(X
i 1

X )( X t k X )

i n

(X
i 1

X)

AR1 X t 1 ( X t 1 ) at
AR2: X t 1 ( X t 1 ) 2 ( X t 2 ) at el decrecimiento de la FAC es ms
lento y en la FACP slo los dos primeros coeficientes son distintos de 0.
Adems r1

1
12
r

y 2
2
1 2
1 2

MA1: X t at 1 ( X t 1 ) , adems r1

1
1 12

XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)


T2 de Hotelling:
(n 1)[1 ] (n2 1)[ 2 ]
n1n2 [ X 1 X 2 ]T []1 [ X 1 X 2 ]
T
donde [] 1
n1 n2
n1 n2 2
2

Distancia de Mahalanobis DM [ X 1 X 2 ]T []1 [ X 1 X 2 ]


Dcima Fp ,n1 n 2 p 1

(n1 n2 p 1)T 2
( p(n1 n2 2))

206

XVI.- REGRESION MULTIPLE


y1 1 x1
1
y 1 x

0
2
2

2
Expresin matricial de una regresin

. 1 . 1 .

y n 1 xn
n

O, en trminos ms simples: [Y ] [ X ] [] []
] [ X T X ]1 [ X ]T [Y ]
Estimadores de los coeficientes de regresin [

Regresin mltiple Modelo [Y ] [ X ] [] [] .


] [ X ]T [Y ]
Ecuaciones normales de la regresin: [ X T X ] [
] [ X T X ]1 [ X ]T [Y ]
Coeficientes de regresin [

La tabla de ANOVA:
Fuente
variacin
Modelo

de Grados
libertad
P

Error

n-(p+1)

Total

n-1

R2

de Suma
de
cuadrados
][ X T Y ] n[Y ]2
[
]T [ X T Y ]
[Y T Y ] [

Cuadrados
medios
SC/gl
SC/gl=Syx2

[Y T Y ] n[Y ]2

SC mod elo
SCT

Coeficiente de correlacin mltiple rM R 2


Matriz inversa de correlacin 1 [bij ]
Correlaciones parciales rj .h

b jh
b jj bhh

y en particular rj . y

b jy
b jj byy

Fp,n-p+1
CMmod/CME

207

Bacward elimination En este procedimiento se realiza el siguiente algoritmo:


f) Se realiza una regresin incluyendo todas las variables predictoras,
g) Se calculan los F parciales para cada variable, designando como F L
al menor,
h) Si FL es menor que el F crtico para prefijado, sacar la variable
correspondiente, y
i) Volver a a) con las variables que quedan hasta que FL sea mayor
que el crtico.
Forward selection El algoritmo es el siguiente:
a) Se realiza un estudio de correlacin simple entre los predictores y
la variable dependiente,
b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F
parcial es mayor que el crtico se incluye la variable,
c) Calcular los coeficientes de correlacin parcial entre las variables
restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi)
d) Ajustar el modelo, si F parcial mayor que el crtico, queda en el
modelo, y
e) Volver a b) hasta que la variable a incluir no alcance el F crtico.
Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo algoritmo
anterior, pero en cada paso pueden salir variables que ya hayan entrado que, con la
incorporacin de nuevas variables desciendan su F parcial por debajo del crtico.
Coeficiente de regresin parcial estandarizado o coeficiente de va bsi

Descomposicin de la correlacin

Descomposicin general

2
si

bs1 r12bs 2 r1 y
r12bs1 bs 2 r2 y

s xi bi
sy

bs1 r12bs 2 r13bs 3 r1 y

y r12bs1 bs 2 r23bs 3 r2 y
r13bs1 r23bs 2 bs 3 r3 y

2 bsibsj rij ruy2 1


i j

Regresin logstica mltiple, Modelo P( I j )


1 e

( j

i xi )
i

208

Anlisis de concordancia
(a c)(a b) (b d )(c d )

(a c)(a b) (b d )(c d )
n
n

Certeza azarosa C z
n
n2

Concordancia

C Cz
1 Cz

Prueba de Hiptesis z

C z (1 C z )
n

XVII.- ANALISIS DISCRIMINANTE


Discriminacin D B / W
Coeficientes de la funcin [] []1 [ X 1 X 2 ] []1 [d ]
Distancia de Mahalanobis DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
Prueba de Hiptesis 2j { ni 1
i

pq
}ln(1 j )
2

XVIII.- ANALISIS DE COMPONENTES PRINCIPALES


Maximizacin de la varianza total

[V [ ]]
0 [ I ] vk
vk

L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio
{i} de la matriz de correlacin entre las variables ([ ]). Adems la traza de [ ] = i
= p, y entonces la proporcin de la varianza que explica cada componente k es k/p.
Factor score coefficients
1/ 1 .
0

[F ] 0
.
0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0
0 1/ p

209

Factor loadings [ FL ] VL1 / 2


Variables [Z ] [ FL ][F ]
Comunalidad FLk2
Especificidad 1- FLk2
Dcima de Bartlet: H0: 0 vs H1: 0
1
{(n 1) (2 p 5)}ln que se distribuye como 2p(p+1)/2.
6

Dcima de componentes relevantes H0: residual 0 vs H1: residual 0


1
2
{(n 1) (2 p 5) q}ln C donde C
6
3

residual
q
p j p q
j (
)

pq
1

XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA

[ A]
Matriz de Correlacin T
[C ]

[C ]
[ B]

Problema de valores y vectores propios [(B 1C T A1C I )V ] [O]


Los valores propios obtenidos (k) corresponden a Rk2, es decir representan la parte de la
determinacin que le corresponde al par {Uk,Vk} . Adems los coeficientes {bi} de la
funcin V corresponden a los vectores propios de la ecuacin caracterstica y los
coeficientes {ai} de la funcin U estn dados por: ai [ A]1[C ]bi
Nmero de pares de funciones cannicas necesarias: H0: 0 vs H1: 0
r
1
{n ( p q 1)} ln(1 i ) Este estadgrafo sigue a 2(p-k)(q-k).
2
i 1 k
2
k

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)

210
p

Mean carcter difference MCD

X
i 1

ij

X ik

Distancia de Manhattan DM X ij X ik
i 1

Distancia Euclidea o Taxonmica D

(X
i 1

ij

Apareamiento simple (simple matching): SM

Coeficiente de Jaccard: J

ad
abcd

a
abcd

Coeficiente de Roger y Tanimoto: RT

Coeficiente de Dice: CD

X ik )

ad
a 2b 2c d

2a
2a b c

Coeficiente de Sokal y Sneath: SS

Coeficiente de Hamann: H

2(a d )
2(a d ) b c

(a d ) (b c)
abcd

211

ANEXO II.- TABLAS SIMPLIFICADAS


A.- DISTRIBUCION NORMAL (N(0,1))
rea desde z a ; Valores crticos para 1 cola () ( = 0.05) y dos colas () ( = 0.05)
Z
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.64 ()
1.7
1.8
1.9
1.96 ()
2.0
2.5
3.0

Area
0.5000
0.4602
0.4207
0.3821
0.3446
0.3085
0.2743
0.2420
0.2119
0.1841
0.1587
0.1357
0.1151
0.0968
0.0808
0.0668
0.0548
0.0500
0.0446
0.0359
0.0287
0.0250
0.0228
0.0062
0.0013

212

B.- DISTRIBUCION t DE STUDENT


Valores crticos para una ( = 0.05) y dos colas ( = 0.025)
Grados de libertad
5
6
7
8
9
10
15
20
25
30

= 0.05
2.01
1.94
1.90
1.86
1.83
1.81
1.75
1.72
1.71
1.70
1.64

= 0.025
2.57
2.45
2.36
2.31
2.26
2.23
2.13
2.09
2.06
2.04
1.96

213

C.- DISTRIBUCION 2
Valores crticos para = 0.05
Grados de libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30

Valor crtico
3.84
5.99
7.81
9.49
11.1
12.6
14.1
15.5
16.9
18.3
19.7
21.0
22.4
23.7
25.0
26.3
27.6
28.9
30.1
31.4
37.7
43.8

214

D.- DISTRIBUCION F
Valores crticos para = 0.05
Grados
De
Gr. libertad 1
2
denominador
3
10.13
9.55
4
7.71
6.94
5
6.61
5.79
6
5.99
5.14
7
5.59
4.74
8
5.32
4.46
9
5.12
4.26
10
4.96
4.10
15
4.54
3.68
20
4.35
3.49
25
4.24
3.38
30
4.17
3.32
40
4.08
3.23
50
4.03
3.18
60
4.00
3.15

3.84
2.99

Libertad Del
3
4

Numerador
5
8

10

9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.29
3.10
2.99
2.92
2.84
2.79
2.76
2.60

9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
2.90
2.71
2.60
2.53
2.45
2.40
2.37
2.21

8.78
5.96
4.74
4.06
3.63
3.34
3.13
2.97
2.55
2.35
2.24
2.16
2.07
2.02
1.99
1.83

8.53
5.63
4.36
3.67
3.23
2.93
2.71
2.54
2.07
1.84
1.71
1.62
1.51
1.44
1.39
1.00

9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.06
2.87
2.76
2.69
2.61
2.56
2.52
2.37

8.84
6.04
4.82
4.15
3.73
3.44
3.23
3.07
2.64
2.45
2.34
2.27
2.18
2.13
2.10
1.94

Observacin: Si el nmero de grados de libertad del denominador es mayor que 3, lo que


es lo habitual, entonces cualquier valor calculado de F mayor que 10 permite rechazar
H0 para = 0.05, sin necesidad de mirar ninguna tabla.

215

E.- DISTRIBUCION DEL RANGO STUDENTIZADO: Q


Valores crticos para = 0.05 para diferentes nmeros de tratamientos (t)

Gr. libertad
5
10
15
20

2
3.64
3.15
3.01
2.95
2.77

3
4.60
3.88
3.67
3.58
3.31

T
4
5.22
4.33
4.08
3.96
3.63

5
5.67
4.65
4.37
4.23
3.86

8
6.58
5.30
4.94
4.77
4.29

10
6.99
5.60
5.20
5.01
4.47

216

F.- DISTRIBUCION de WILCOXON (Rangos signados)


Valor crtico para = 0.05, vs n
N
4
5
6
7
8
9
10
15

Valor crtico
10
14
19
24
30
37
44
89

217

G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos)


Valores crticos ( = 0.05) para diferentes valores de n1 y n2

n1 = 3
4
5
6
7
8
9
10

n2=2
10
12
13
15
16
18
20
22

3
15
17
20
23
24
27
29
32

10

24
27
30
33
36
39
42

36
40
43
47
50
54

127

Вам также может понравиться