Академический Документы
Профессиональный Документы
Культура Документы
RPI N:153541
Prologo
Este libro ha sido diseado como un curso de estadstica general de acuerdo a los
programas vigentes en diferentes universidades. Est escrito en una forma general con
ejemplos aplicables a diferentes mbitos. Tiene un nfasis en las bases conceptuales y
metodolgicas de los distintos temas, sin perder el rigor matemtico de sus
fundamentos. En general se evitan las demostraciones matemticas dificultosas que
distraen del objetivo general.
El libro est dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el anlisis de datos es relevante.
La primera unidad corresponde a Estadstica descriptiva, donde se sientan las
bases de la descripcin de la informacin. La segunda unidad corresponde a Estadstica
matemtica, donde se aportan los aspectos ms relevantes de la teora de probabilidades.
Las unidades tres y cuatro son las ms importantes en un curso bsico, donde se
encuentran los principales mtodos usados en inferencia estadstica. Se separan en una
unidad especial el anlisis de varianza y la regresin. Para los lectores poco avezados en
matemticas, se puede pasar directamente desde la unidad 1 a la 3.
La unidad 5 corresponde a una serie de tpicos, habitualmente no tratados en los
cursos bsicos, pero que frecuentemente son usados en diversas reas como las
estadsticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en
el rea industrial, las series temporales y la regresin logstica. En esta unidad los temas
son tratados con menor profundidad, haciendo hincapi en las bases conceptuales, pero
sin perder rigurosidad de tratamiento del tema.
La ltima unidad introduce el anlisis multivariado, ya que cada da se toma
mayor conciencia del origen multicausal de muchos fenmenos, por lo que es necesario
una mayor comprensin y utilizacin de esta metodologa.
Este libro es el resultado de varios aos dictando cursos bsicos de estadstica. El
tratamiento en todos los captulos intenta ser claro pero conciso, sin redundar en largas
explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se
apoyan las explicaciones con ejemplos didcticos aplicables en cualquier disciplina.
ndice general
INTRODUCCIN: CIENCIA Y ESTADISTICA
I UNIDAD: ESTADISTICA DESCRIPTIVA
I.- ESTADSTICA
8
10
11
11
11
14
14
14
16
22
24
III.- PROBABILIDADES
25
25
27
28
29
33
Ejercicios de Probabilidades
41
46
46
50
50
52
54
55
55
55
59
63
66
V.- ESTIMACIN
67
V.1.- Estimadores
V.2.- Estimaciones
V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P2
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2
V.3.- El tamao muestral
V.2.3.- Estimaciones en Medicina
67
69
69
70
71
72
Ejercicios de estimacin
74
76
VI.1.- Bases
VI.2.- Dcimas para una muestra
VI.3.- Dcimas para dos muestras
VI.4.- Supuestos de las dcimas
76
80
82
86
89
93
VII.1.- La distribucin 2
93
98
100
101
103
105
106
112
114
115
115
116
117
121
124
127
129
131
134
X.1.- Correlacin
X.2.- Regresin
X.3.- Regresin y ANOVA
X.4.- Predicciones
X.4.- Supuestos y alternativas no paramtricas
X.5.- Anlisis de Covarianza (ANCOVA)
134
135
137
140
141
142
144
145
146
146
147
150
150
152
154
155
XIII.1.- Bases
XIII.2.- Pruebas de hiptesis
XIII.3.- La razn de chances (odds ratio)
155
155
156
158
XIV.1.- Bases
XIV.2.- Autocorrelacin y autocorrelacin parcial
XIV.3.- Algunos modelos
158
158
159
160
161
161
162
163
163
163
165
166
167
169
170
173
XVII.1.- Fundamento
XVII.2.- Clasificacin
173
174
176
XVIII.1.- Fundamentos
176
180
180
181
184
XX.1.- Fundamentos
XX.2.- Medidas de similitud y distancia
XX.2.- Mtodos de agrupacin
184
184
186
Bibliografa
190
192
211
Para Popper (1979) el mtodo consiste en una confrontacin de los datos con una
hiptesis, pudiendo sta ser solamente rechazada y no probada. As, en el mtodo de
Popper, hipottico-deductivo-refutacionista, existe una hiptesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hiptesis (falsificacin de la
hiptesis).
En el mtodo de Popper convergen la deduccin y la induccin, estando
relacionada la primera con la generacin de hiptesis y la segunda con la refutacin.
Para este segundo proceso, la refutacin, son necesarios mtodos rigurosos y eficientes
que permitan una adecuada toma de decisiones. Aqu es donde es relevante la
metodologa de la inferencia estadstica. Esta, en su base fundamental consiste en
plantear una dicotoma entre la hiptesis de nulidad (Ho) y un alternativa (H 1), de tal
manera que a travs de la repetitividad de resultados experimentales (induccin) en una
muestra, sea posible el rechazo de Ho y por tanto la inferencia de H 1 a la poblacin
completa.
10
11
I.- ESTADSTICA
I.1.- Bases e historia
El trmino estadstica proviene de la palabra estado, y se refiere al origen
histrico de esta disciplina relacionado con la descripcin cuantitativa de asuntos del
estado. Tambin se llam aritmtica poltica. Su objetivo inicial era describir
cuantitativamente diversos hechos de inters. En tiempos de Cesar Augusto el
estadstico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se
edit el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (16201674) y W. Petty (1623-1687) desarrollaron la estadstica vital.
En esta misma poca, en forma independiente naci la rama matemtica de las
probabilidades a raz del inters en el juego de Antoine Gombaud (el caballero de Mer:
1610-1685) y de los matemticos B. Pascal (1623-1662) y P. Fermat (1601-1665).
Posteriormente, J Bernouilli (1654-1705), A. De Moivre (16671754), P.S. Laplace
(1749-1827) y K.F. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades,
combinndola con los datos estadsticos. A. Quetelet (1796-1874) y finalmente F.
Galton (1822-1911) aplicaron la estadstica al anlisis de la variabilidad biolgica.
El desarrollo definitivo de la estadstica, uniendo sus races descriptivas y
matemticas viene con K. Pearson (1857-1936), W.S. Gosset Student (1876-1937), J.
Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962).
Tal vez las figuras mas destacadas que relacionaron la estadstica y la biologa, dando
origen a la biometra, son K. Pearson (fundador de la revista Biometrika) y R.A.
Fisher (Statistical methods for research workers, 1925).
En paralelo, la estadstica matemtica ha sido enriquecida con las contribuciones
de Maxwell, Boltzman y Gills (mecnica estadstica) y por Kolmogorov (probabilidades
axiomticas) y Lebesgue (teora de la medida).
I.2.- Definicin
La estadstica actual se puede definir de muchas formas, por ejemplo conjunto
de mtodos que permiten recolectar presentar y analizar informacin o anlisis
cientfico de datos basados en fenmenos naturales (Sokal & Rholf, 1969). Sin
embargo una definicin til en el contexto de su aplicacin en las ciencias es:
12
ii)
13
14
%
(n1 /n)100
(n2 /n)100
.........
(nk /n)100
100
15
frecuencia relativa hi ni / n
ii)
frecuencia acumulada N j ni
i j
i 1
i j
iii)
En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi.
En el caso de las variables continuas muchas veces es necesario agrupar datos
(series agrupadas) por intervalos llamados intervalos de clase. Estos se anotan como
[yi-1, yi], donde yi-1 representa el lmite inferior del intervalo e yi, el lmite superior.
La amplitud de cada intervalo es ci = yi- yi-1.
Si definimos recorrido o rango de la variable X como la diferencia entre los
valores mximo y mnimo, R = xmax xmin, y se agrupa en k intervalos iguales,
entonces ci = R/k.
En estas tablas de distribucin de frecuencias se define marca de clase como el
valor promedio entre los lmites del intervalo: yi = (yi- yi-1)/2.
La tabla incluye las columnas: yi-1, yi, ci, yi, ni, hi, Ni, y Hi
Histograma y polgono de frecuencias
La tabla de distribucin de frecuencias tiene una expresin grfica natural en el
histograma y el polgono de frecuencias. El histograma de frecuencias corresponde a un
grfico de barra de X vs hi, donde cada barra es un intervalo. El polgono de frecuencias
corresponde a la grfica de yi vs hi.
Ejemplo 1.La variable X con la siguiente tabla de distribucin de frecuencias:
16
yi-1
2
4
6
8
10
12
Yi
4
6
8
10
12
14
yi
3
5
7
9
11
13
ci
2
2
2
2
2
2
ni
20
25
30
10
12
3
hi
0.2
0.25
0.3
0.1
0.12
0.03
Ni
20
45
75
85
97
100
hi
0.2
0.45
0.75
0.85
0.97
1.00
17
Medidas de posicin
La medida de posicin ms usada es el promedio, que podemos definir
preliminarmente como una medida central que se relaciona el valor de una variable con
su frecuencia relativa de presentacin. Corresponde a la media aritmtica y se puede
expresar como:
x
n y
i
hi yi
18
cL (n / 2 N L1 )
nL
cL (np / 100 N L1 )
nL
Es fcil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina
primer, segundo y tercer cuartl (Q1, Q2 y Q3). Del mismo modo se pueden definir los
deciles, por ejemplo P10 es el primer decl.
La tercera medida de inters es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una frmula que en cierta manera hace perder sentido
a la definicin.
Md y ' L1 cL
nL1
nL1 nL1
Observaciones
i)
ii)
19
Medidas de dispersin
Las medidas de dispersin son aquellas que evalan la variabilidad de las
observaciones. La ms importante es la varianza (V(x) o S2) que podemos definir como
la desviacin cuadrtica media de los valores en torno al promedio, es decir:
S2 = (xi-x)2/n
Observamos que (xi-x)2 = (xi2 +x2 2xix) = xi2 +x2 2xix) =
= xi2 +nx2 2nx2 = xi2 -nx 2 , y entonces:
xi2
s x2
n
2
ni yi2
y 2 hi yi2 y 2
En una serie agrupada s
n
2
20
CV s / x
x Md
3( x Me)
y 5
s
s
21
Ejemplo 2.Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posicin:
a) Promedio: y 0.2 3 0.25 5 0.3 7 0.1 9 0.12 11 0.03 13 6.56
b) Intervalo de moda: (6; 8)
c) Mediana: el intervalo que contiene la mediana es aqul que por primera vez
sobrepasa la mitad de la cantidad total de observaciones, es decir 50. En este
caso es el intervalo (6; 8). Entonces yL-1= 6. y la mediana es:
Me = 6 + 2((50-45)/30) = 6.33.
d) Primer cuartl: el intervalo que contiene Q1 es aqul que por primera vez
sobrepasa el 25% de la cantidad total de observaciones, es decir 25. En este
caso es el intervalo (4; 6). Entonces yL-1= 4. y Q1 es:
Q1 = 4 + 2((25-20)/25) = 4.4.
e) Tercer cuartl: en forma anloga al clculo anterior:
Q3 = 8 + 2((75-75)/10) = 8.
Tambin podemos calcular las siguientes medidas de dispersin:
a) Varianza: en este caso lo ms simple es calcular primero hiyi2:
h y
i
2
i
22
02
24
46
68
8 10
10 12
1.b.
Frec.
relativa
acumulada
(Hi)
2
6
18
12
7
3
23
63.6
64.0
65.3
62.8
59.5
R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variacin)
24
25
III.- PROBABILIDADES
III.1.- Experimento Aleatorio, Espacio Muestral
Definiciones Llamaremos experimento determinstico, a aquel que repetido en
las mismas condiciones, da siempre el mismo resultado, en caso contrario lo llamaremos
aleatorio.
Llamaremos espacio muestral () al conjunto de todos los posibles resultados de
un experimento aleatorio. Un punto muestral ser un resultado posible, es decir, un
elemento de omega.
Llamaremos sigma-lgebra en omega a un conjunto - formado por
subconjuntos de que cumple con:
i) Si P (subconjunto de ) , entonces P -.
ii) Si P y Q - entonces P Q -.
iii) Si P y Q - entonces P Q - .
Es decir, - es cerrada bajo complementacin, unin e interseccin. Una -
es el conjunto de todos los subconjuntos de ( ()).
Llamaremos suceso o evento a los elementos de -, o de otra forma, a cualquier
subconjunto de . En este sentido - es el conjunto de los sucesos.
Ejemplo1.Sea el experimento aleatorio tiro un dado Su espacio muestral es = {1, 2, 3,
4, 5, 6} Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6)
= que salga 1 o 2 o 3 o 4 o 5 o 6.
Del ejemplo anterior es evidente que hay sucesos ms posibles o probables
que otros. Es necesario definir entonces probabilidad de un suceso.
Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.
Definicin clsica: Llamaremos probabilidad des suceso A al cuociente entre el
nmero de resultados o casos favorables a A y el nmero de resultados o casos
posibles.
26
P( A)
casosfavorables
casosposib les
nA
n
27
i) P () = 1
ii) P (A) > 0 A -
iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o)
Definicin Al triplete (,-, P) se le denomina Espacio de probabilidades.
28
29
30
P( A B)
P( B)
P( A / Bi ) P( Bi )
j P( A / B j ) P( B j )
31
32
Lesin
heptica
Cirrosis
Hematoma
Esteatosis
Sin lesin
Total
1
12
14
9
3
28
Total
17
25
29
27
98
a)
b)
c)
d)
P(C) = 17/98
P(T2) = 28/98
P(C T2) = P(C/T2) P (T2) = 12/28 28/98= 12/98
P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.
12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son frtiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:
a) Cul es la probabilidad que sea frtil?
b) si fue frtil, cual es la probabilidad de que sea de gallina?
R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una particin de , pues G P Gz =
y G P Gz = . Entonces por teorema de la probabilidad total:
P(F) = P(F/G P (G) + P(F/P) P (P) + P(F/Gz) P (Gz) = 0.868.
b) P(G/F) por teorema de Bayes, es P(G/F) = P(F/G) P(G)/P(F) = 0.168.
13.- Se quiere saber la bondad de la radiografa en el diagnstico de la piometritis en
perros. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis, y se
anotan las radiografas que sugirieron tal diagnstico. Se registraron los siguientes
resultados:
33
Radiografa
(+) para pm
(-) para pm
Total
Animales con pm
Animales sin pm
Total
13
8
21
7
32
39
20
40
60
p
1 p
34
ENFERMO
NO ENFERMO
Total
EXAMEN
+
A
C
a+c
B
D
b+d
Total
a +b
c+d
n = a+b+c+d
En este caso, los falsos positivos seran c y los falsos negativos seran b.
A partir de esta tabla se pueden definir ciertos conceptos:
La Sensibilidad de un examen corresponde a la probabilidad que el examen salga
positivo dado que el paciente est enfermo:
S P( / E )
a
ab
d
cd
a
ac
35
d
bd
ad
n
S
1 Sp
36
20
200
Total
105
210
220
315
Evento
No evento
Total
Control
A
C
A+c
Experimental
B
D
B+d
Total
A+b
C+d
N=a+b+c+d
a
y tasa de evento en el grupo experimental:
ac
37
b
bd
Estas tasas miden los riesgos absolutos de presentar cierto evento en situacin
control y en situacin experimental. De aqu surgen varias medidas tiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicar si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminucin en ste:
RR EER / CER
Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrn beneficiados
con el tratamiento, o de otra manera habra que tratar 100 para beneficiar a uno. En otras
palabras el nmero necesario para beneficiar a uno es:
NNT 1/ ARR
Fallecidos
Vivos
Total
Tratamiento
antiguo (control)
20
90
110
Tratamiento Y
Total
5
100
105
25
190
215
38
Probabilidades en la etiologa
Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar despus cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cncer bronquial); e ii) Estudio de casos y controles que consiste en
la eleccin de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de stos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:
Caso (enfermo)
Expuesto
no expuesto
A
C
a+c
control
enfermo)
B
D
b+d
(no Total
a+b
c+d
n=a+b+c+d
Aunque la tabla sea la misma las medidas tiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se est
expuesto EER = a/(a+b) y cuando no se est expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:
ARA EER CER
El riesgo relativo:
RR EER / CER
En este caso el nmero necesario de expuestos para que haya 1 enfermo es:
NNH 1/ ARA
39
Expuestos a
fertilizantes
No expuestos
Cras con
malformaciones
25
Cras sin
malformaciones
100
Total
16
41
200
300
216
341
125
a / c ad
b / d bc
40
Fumadores
No fumadores
Pacientes
con
Cncer de Vejiga
56
120
176
Controles
normales
26
200
226
Total
82
320
402
En este caso la chance de fumar en pacientes con cncer de vejiga es: 56:120,
mientras que cuando no se tiene este cncer es de 26:200. As la razn de disparidades
es OR = 56x200/(26x120) = 3.59. As si por ejemplo la prevalencia de cncer de vejiga
en fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(10.03)] = 14.3.
41
Ejercicios de Probabilidades
1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral es:
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o ms caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(AB).
R: 3/8; 1/4; 1/8.
2. Calclese la probabilidad de obtener un 1 o un 5 al tirar un dado. Comprubelo
lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa)
con distintos N muestrales (5, 10, 20, 30). Haga lo mismo para obtener la
probabilidad de que salga un nmero par.
R: 2/6.
3. Una urna contiene 4 bolas blancas, 2 rojas y 2 verdes. Cul es la probabilidad de
sacar:
i)
una bola roja de una bola sacada de la urna.
ii)
una bola verde de una bola sacada de la urna.
iii) una bola blanca y una bola roja.
R: 1/4; 1/4; 2/7.
4. En un juego, un combate simulado es resuelto tirando dados. Para determinar si el
ataque de un jugador es exitoso si le salen un * o un al lanzar un dado de 20 caras.
Si el ataque resulta exitoso, se lanza un dado de 8 caras para determinar el dao
causado por el ataque. Supongamos que se necesita un valor mayor o igual a 17 para
atacar exitosamente al oponente.
i)
Sea A el evento ataque exitoso, cul es P(A).
ii)
Sea B el evento causar 5 o ms puntos de dao, cul es P(B).
iii)
Si necesitas 6 o ms puntos de dao para matar a tu oponente, cul es la
probabilidad de matar a tu oponente en un ataque.
R: 1/10; 1/20; 3/160.
5. Una ruleta de casino tiene 37 nmeros, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los nmeros son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i)
obtener un 18 en un solo tiro de ruleta.
ii)
obtener un nmero rojo en un solo tiro.
iii) obtener un 5 o un nmero negro en un solo tiro.
iv) obtener un nmero rojo en el primer tiro y el cero en el segundo tiro.
42
43
ii)
44
+
-
E
731
78
809
NoE
270
1500
1770
Total
1001
1578
2579
R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87;
LR+ = 6; LR-=0.12; Op+=2.7; Op-=0.27.
18. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT), como
alternativa al tratamiento habitual (HT). Se mide la presencia de complicaciones propias
de la enfermedad (evento) en uno y otro grupo, obteniendo:
Complicaciones (%)
HT
9.6
NT
2.8
Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.
19. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos,
algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). Los
resultados se resumen en la siguiente tabla:
F(+)
F(-)
E
58
36
94
NoE
22
44
66
Total
80
80
160
45
20. Se estudia la relacin entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:
F(+)
F(-)
E
58
36
94
NoE
22
44
66
46
p(x)
0.25
0.50
0.25
F(x)
0.25
0.75
1.00
47
48
4.- Un alumno ha dado 100 pruebas de matemticas con los siguientes resultados:
Nota
1
2
3
4
5
6
7
n de veces que la ha
obtenido
1
4
10
40
30
12
3
49
Ejercicios Propuestos
1.- Se dividi el pas en 5 regiones y se analizaron las deposiciones de ganado vacuno
obtenindose la siguiente informacin
Regin
Total de vacas
en la regin
10000
200000
60000
30000
700000
A1
A2
A3
A4
A5
Deposiciones
con parsitos
1240
981
2496
864
1021
Deposiciones sin
parsitos
1867
2008
2608
981
1564
a) Cul es la probabilidad de que una vaca tenga parsitos en la regin A3? R: 0.489
b) Cul es la probabilidad de que una vaca tenga parsitos en el pas b1) si
suponemos que es igualmente probable que venga de cualquier regin? b2) si
suponemos que la probabilidad de que venga de la regin Ai= n vacas en Ai/n total de
vacas R: 0.422 y 0.389 respectivamente.
2.- Se lanza un dado dos veces. Cul es el espacio muestral? Cul es la probabilidad
de obtener 2 nmeros iguales? Cul es la probabilidad de sacar un 1 y un 5? Cul es
la probabilidad de sacar primero un 1 y despus un 5?
R: 1/6; 2/36; 1/36.
3.- En una pieza hay 100 cachorros. Algunos de ellos Beagle y otros Poodle.
Algunos de ellos sanos y otros enfermos.
Beagle
Poodle
Total
Sanos
40
30
70
Enfermos
20
10
30
Total
60
40
100
Si una persona
compra un
perro al azar.
Cul es la
probabilidad de
que sea
Beagle?
Son independientes los sucesos el perro es sano y el perro es Beagle? R: 0.6; no.
50
4.- Se va a realizar una ciruga de esfago a 2 gatos. Se sabe que en esta ciruga muere
el 1%. Cual es la probabilidad de que: a) mueran los 2 gatos b) muera slo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.
5.- Un procedimiento quirrgico slo se puede realizar 3 veces. Si la probabilidad de
que este procedimiento sea exitoso es 0.25. Cul es la probabilidad de salvar al
paciente?
R: 37/64.
6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. Cul es la
probabilidad de tratar un enfermo con M? R: 0.48.
7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la funcin de cuanta y a funcin de
distribucin c) Encontrar E(X) y V[X] R: 7;5.83.
IV.2.- Distribucin de Bernoulli
Si se tiene un experimento con un resultado dicotmico, por ejemplo xito o
fracaso, y la probabilidad de xito es p, entonces la probabilidad de fracaso es q = 1-p.
Este tipo de experimento se conoce como ensayo de Bernoulli. Si creamos la variable
aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un xito, entonces
podemos ver que su funcin de cuanta y su funcin de distribucin son:
X
0
1
P(x)
1-p = q
P
F(x)
1-p = q
1
51
n
P( X k ) p k (1 p) nk
k
Vemos que una vad con distribucin binomial es caracterizada por 2 parmetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribucin binomial consta de n
ensayos fijos e independientes, cada uno dicotmico en su resultado y con una
probabilidad constante (p) de xito.
Como es de esperar E[X] = np, pues es la suma de n ensayos de Bernoulli.
Adems V[X] = npq.
Demostracin La esperanza E[X] = kP(X=k) =
k n
k n
k n
n
n!
(n 1)!
= k p k (1 p) nk k
p k q nk np
p k 1q nk
k!(n k )!
k 0
k 0
k 1 ( k 1)!( n k )!
k
m
haciendo, j k 1, y, m n 1; np p j q m j np( p q) m np
j 0 j
j m
La varianza V[X] = k2 P(X=k) (E[X])2 = (k2 - k + k)P(X=k) (E[X])2 = (k(k1)P(X=k) + kP(X=k) (E[X])2 , lo cual utilizando el mismo juego de sub-ndices
lleva a: n(n-1)p2 + np n2p2 = npq.
Esta distribucin es muy importante en ciencias pues es muy habitual poder
reducir un experimento a una situacin dicotmica, por ejemplo cuando contamos el
nmero de individuos con una caracterstica, si la tiene (xito) o si no la tiene (fracaso).
Sin embargo esta distribucin sigue siendo discreta y tiene el problema que se genera al
calcular nmeros combinatorios con grandes valores de n.
Esta distribucin tiende a ser asimtrica para bajos valores de p y n, pero es
simtrica si p y n son altos.
Ejemplo 5.Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10
individuos, entonces la probabilidad que en stos 10, exactamente 3 lean el diario es:
10
P( X 3) 0.23 0.87 0.2013
3
52
k
k
P( X k )
N
n
Esta variable tiene distribucin hipergeomtrica y E[X] = np y V[X] = npq(Nn)/(N-1). Es fcil darse cuenta que si N es muy grande (tiende a ) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. As si en una vad con distribucin hipergeomtrica,
N , su distribucin se vuelve binomial (B(n,p)). Esto es tambin evidente al
observar que el lmite cuando N de V[X] es npq. Entonces se puede considerar a
la distribucin binomial como una distribucin asinttica para poblaciones infinitas.
Ejemplo 6.Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5, la
probabilidad que en stas 5 haya 2 rojas es:
6 10
3 2
P( X 2)
16
5
53
[k/k!]111e-1 =
[k/k!]e-.
k
k!
Se dice entonces que esta variable tiene distribucin de Poisson. En este caso,
E[X] = V[X] = .
Demostracin
Para la esperanza, se tiene que
k e
k
k!
k 0
k 1
k 1
(k 1)!
e e
Para la varianza,
k
k 0
k!
E[ X ] (k (k 1) k ) e
2
k 0
k
k!
E[ x]2 e 2 e 2
0.03
0.032
0.000437
2!
Si un fenmeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefnicas, la emisin de partculas, accidentes etc... Y
adems la probabilidad de una ocurrencia de ste fenmeno es proporcional al intervalo
(P(una o ms ocurrencias en [t,t+) ) = + o(), donde o() es la probabilidad de que
ocurra ms de uno), entonces el nmero de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribucin de Poisson con parmetro t:
Pk (t ) e
(t ) k
k!
54
32
(3 2) 4
0.134
4!
i)
b
ii)
P(a x b) = f(x) dx
+
a
iii) f(x) dx = 1.
-
Podemos observar que la densidad de probabilidad en un punto es 0, y que slo
tienen sentido las probabilidades de intervalos.
La funcin de distribucin de una vac. Se define como:
x
F(x) = f(x)dx
-
Tanto las funciones como las caractersticas de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+
E[X] = xf(x) dx y V[X] = E[X2]-(E[X])2
-
Una funcin especialmente til en el estudio de las variables aleatorias continuas
es la llamada funcin generatriz de momentos (Mx(t)) definida como:
55
3)
Si X1, X2, Xn son independientes y todas con igual fgm, Mx(t), entonces Y
= X1+X2+.Xn tiene una fgm dada por:
M y (t ) [ M x (t )]n
(1 / 2 )[
]2
56
57
Donde = np y = npq
2
1
e
2npq
/ 2 R / n
, donde
k np
y el trmino R/n tiende a 0 para n
npq
grandes.
As, si n es grande P(k1 X k 2 ) P(1 2 )
1
e x / 2 dx , lo que
2npq
2
Este primer teorema nos dice que la distribucin normal es una distribucin lmite
de una binomial cuando n es grande. En la prctica n > 30 o bien np 5.
Teorema del lmite central (o central del lmite) (expresin general, Laplace
1812, Lyapunov 1901)
Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
j y varianzas 2j, entonces X = Xj es asintticamente normal (N(,)) donde =
j y 2 = 2j .
Demostracin Consideraremos slo el caso ms sencillo, donde las Xj tienen la misma
distribucin. En este caso se puede partir por el siguiente corolario:
Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es
asintticamente normal N(n,n).
58
59
(k ) x k 1 e x dx , k > 0.
0
Basados en esta funcin, se dice que una variable aleatoria continua X, tiene una
distribucin de parmetros r y si su densidad es
f ( x)
( r )
60
61
ltimo trmino tiene distribucin N(0,1) al cuadrado, es decir, 21, entonces ns2/2 tiene
distribucin 2n-1.
Definicin Una variable aleatoria continua tiene distribucin t de Student con k
grados de libertad si su funcin densidad es:
k 1
)
x 2 k21
2
f ( x)
(1 )
k
(k / 2) k
(
f ( x)
n1 n2
) n1n1 / 2 n2n 2 / 2
x n1 / 21
2
(n1 / 2) (n2 / 2)
(n2 n1 x) ( n1 n 2 ) / 2
62
Esta es una distribucin muy til usada en las dcimas de varianza y en el anlisis
de la varianza (ANOVA).
Teorema Si U es 2n1 y V es 2n1, entonces F = (U/n1)/(V/n2) tiene una
distribucin F de Snedecor con n1 y n2 grados de libertad(Fn1,n2). La demostracin
de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de
este libro.
Teorema Si t tiene distribucin tk, entonces t2 tiene distribucin F1,k.
Demostracin Como t = X/(Y/k) tiene una distribucin t de Student con k grados de
libertad (tk) y en ella X tiene distribucin normal N(0,1) y una variable Y tiene una
distribucin 2k entonces t2 es el cuociente entre X2 con distribucin 21 y Y/k con
distribucin 2k. As, por el teorema anterior t2 tiene distribucin Fn1,n2.
Teorema El cuociente de las varianzas de dos muestras S = s 21/s22 tiene
distribucin Fn1-1,n2-1
Demostracin Como en una poblacin dos muestras independientes de tamaos n1 y n2,
Y1= (n1 -1)s12/2 tiene distribucin 2n1-1 y Y2= (n2 -1)s22/2 tiene distribucin 2n2-1,
entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribucin Fn1-1,n2-1.
63
0
0.1
1
0.2
2
0.3
3
0.6
4
0.8
5
0.9
6
1.0
64
7. Se estima que slo uno de cada 50 loros capturados en el sur de Chile para su
utilizacin como animales domsticos sobrevive al cambio. Se capturan 700 pjaros
en un da. Cul es el nmero esperado de sobrevivientes? Cul es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.
8. Qu caractersticas tiene la distribucin normal?
9. Si la variable X tiene distribucin normal con =21 y 2=3. Calcule:
a) P (x<22)
b) P (x<18)
c) P (x>22)
d) P (22<x<24)
e) P (16<x<18)
R: 0.719; 0.0418; 0.281; 0.239; 0.0398.
10.En cierta poblacin de primates, el volumen de la cavidad craneal se distribuye
aproximadamente como una normal con media 1200 cm3 y desviacin estndar
de 140 cm3.
a) Hallar la probabilidad de que un miembro de la poblacin seleccionado al azar
tenga una cavidad craneal superior a 1400 cm3.
b) Hallar P (1000<x<1050)
c) Hallar P (x<1060)
d) Hallar P (x<920)
e) Hallar el punto x0 tal que el 20% de los primates tenga una cavidad craneal ms
pequea que x0.
f) Hallar el punto x0 tal que el 10% de los primates tenga una cavidad craneal
superior que x0.
R: 0.0764; 0.0659; 0.0228; 1081.7; 1379,9.
11.La densidad del suelo se define como la masa de materia slida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las races, la siembra
precipitada y la ventilacin. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribucin normal con =1.5 y =0.2 g/cm3.
a) Cul es la funcin densidad de X? Haga un esbozo de la funcin densidad.
Indique en esa grfica la probabilidad de que X est comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, sta tenga una densidad menor que 0.9 g/cm3. R: 0.0013.
65
66
67
V.- ESTIMACIN
La base fundamental de la inferencia estadstica es la obtencin de una muestra
de la poblacin o universo y, a partir de lo que ocurre en ella, inferir, con una cierta
incertidumbre, la validez de una proposicin en la poblacin completa. La muestra es
entonces un subconjunto del universo. Los elementos de la muestra constituyen las
unidades de anlisis, por ejemplo los individuos de una poblacin. Las unidades de
anlisis no necesariamente coinciden con las llamadas unidades de muestreo. Estas
ltimas son unidades operativas, que por ciertas razones constituyen la unidad obtenida
como muestra. Por ejemplo, un investigador puede estar interesado en los glbulos rojos
(unidad de anlisis) pero muestrea individuos (unidad de muestreo), o bien estar
interesado en caractersticas de los individuos (unidad de anlisis) y muestrear
manzanas o barrios de una ciudad (unidad de muestro)...etc. El marco de muestreo
consiste en el listado de las unidades de muestreo que se van a considerar.
V.1.- Estimadores
En la teora de estimacin se considera la existencia de:
i)
ii)
68
iii)
69
70
Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros
niveles son otros valores que se pueden obtener directamente de la tabla de la
distribucin N(0;1) (Z).
Ejemplo 1.Si al examinar 30 insectos se encontraron 5 parasitados, como p = 5/30 = 0.167 y
q = 1-0.167 = 0.833, se podra afirmar con un 95% de confianza que la proporcin
poblacional de parasitados se encuentra en el intervalo:
IC0.95 [0.167 1.96 0.167 0.833 / 30 ] Es decir entre 0.033 y 0.3 o entre un
3.3 y 30%. Naturalmente, en este caso si quisiera mayor precisin tendra que aumentar
el tamao muestral.
71
Aqu t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razn de
construccin de las tablas t de Student.
Ejemplo 2.Si en una muestra de 49 individuos se tiene una glicemia promedio de 1.042 con
una desviacin estndar de 0.03. Entonces puedo afirmar con un 95% de confianza que
el promedio poblacional de la glicemia se encuentra en:
IC1 [1.042 2 0.03 / 49 ] Es decir entre 1.033 y 1.051.
72
Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z/2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2
Ejemplo 3.Si deseamos estimar una proporcin P, que segn estimaciones previas de otros
autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (
= 0.05) y con una precisin de 10 % , entonces P 0.32; Q 0.68; Z /2 = 1.96 y d =
0.1x0.32 = 0.032. As el tamao muestral necesario es aproximadamente n =
(1.96)2(0.32x0.68)/(0.032)2 = 816.34. O sea alrededor de 817 individuos.
Si nuestro inters es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el
tamao adecuado es:
t12 / 2 s 2 Z 2 / 2 s 2
n
d2
d2
73
Proporciones
Diferencia de proporciones
Sensibilidad,
Especificidad,
Valores
predictivos, certeza diagnstica, CER y
EER
Reduccin y aumento absoluto del riesgo:
ARR y ARA
1 1
1
1
]
a b ac bd
1 1 1 1
]
a b c d
1 1
1
1
]
a d ab cd
74
Ejercicios de estimacin
1. Se tom una muestra que mostr que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. Cul es el intervalo de confianza del
95% si el tamao muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].
2. De 191 nios con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporcin de nios con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].
3. El tamao de la muestra desempea un papel importante en la determinacin de la
longitud de un intervalo de confianza. Considerar dos intervalos de confianza del
95% de basndose en muestras de tamao N1 y N2 extradas de la misma poblacin.
Si N1 es mayor que N2, qu intervalo de confianza tendr mayor precisin?
4. Se dice que el 11.4% de las vinchucas rojas estn infectadas con un parsito. Qu
tamao muestral necesito para re-estimar esta proporcin con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.
5. Se estudi el efecto de una droga sobre el cambio de peso en 12 pacientes dando un
promedio de 0.5 kg y una varianza de 0.4 kg2. Se necesita estimar la media
poblacional con un intervalo de confianza del 95% no mayor que 0.5 kg. Qu
tamao necesito para obtener esto?
R: n = 25.
6. Considerar 200 muestras de tamao 25 extradas de una poblacin con media
desconocida. Suponiendo que las 200 medias muestrales obtenidas se utilizan para
construir 200 intervalos de confianza del 90%. Cuntos de estos intervalos esperara
que no contuvieran a ?
R: 20.
7. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la
prevencin de muerte dada por ataques cardacos en pacientes que ya han sufrido
ataques. En el estudio, 733 pacientes recibieron el medicamento y a 742 se les dio un
placebo. Despus de 8 meses, se hall que de 42 muertes por ataques cardacos, 29 se
produjeron dentro del grupo que recibi el placebo y 13 en el grupo que recibi la
75
droga. Generar un intervalo de confianza del 95% para la diferencia de muertes entre
el grupo que recibi el placebo y el que recibi la droga.
R: [0.0041; 0.0379].
8. Se ha realizado un estudio sobre la tasa de supervivencia de los pjaros adultos en los
trpicos y en las zonas templadas. Inicialmente se marcaron 500 pjaros adultos con
cintas en las patas y se liberaron en una regin lluviosa. Al ao siguiente, se
recapturaron 445 (suponer que aquellos pjaros no capturados fueron consumidos por
depredadores). Un experimento similar en Santiago (una regin templada), dio como
resultado una recuperacin de 252 de los 500 pjaros liberados. Hallar el intervalo de
confianza del 90% de la diferencia en las tasas de supervivencia de un ao para las
dos regiones
R: [0.342; 0.429].
9. Se cree que los jvenes adolescentes que fuman comienzan a hacerlo a una edad ms
temprana que las mujeres adolescentes fumadoras. Segn los siguientes datos, usted
apoyara esta suposicin?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 aos ; 2=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 aos ; 2=4
R: No.
10.Se ha realizado un estudio para comparar la concentracin de plomo en el agua de
dos casas. En una casa se utiliz una soldadura con el 50% de plomo y el 50% de
estao en las tuberas. En la otra casa no utilizaron esta soldadura. Qu podra decir
a una confianza del 95%?
Lugar 1 (con soldadura de plomo): N=25 ; media=25 ; 2=12
Lugar 2 (sin soldadura de plomo):
N=25 ; media=10 ; 2=5
R: Que la concentracin de plomo aumenta entre 13.5 y 16.47.
76
77
Sin embargo, encontrar una regla que permita tomar una decisin adecuada no es
fcil como podemos ver en el siguiente ejemplo.
Supongamos que el peso de un animal A tiene una distribucin normal N(1, 2) y
que se afirma que un animal B pesa ms que el animal A.
Entonces, seguimos el procedimiento habitual y planteamos:
Ho: B A vs. H1: B> A .
Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crtico Co para el promedio muestral xB sobre el cual
rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB /
xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....cmo elegir este
valor crtico?
Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio
poblacional del peso de B (), llamada funcin de potencia de la dcima (K()).
Esperamos que la variable peso del animal B tenga una distribucin normal similar al
ave A, conservando su varianza pero con un promedio poblacional distinto (). As el
peso de B sigue una N(, 2). Ahora bien, la probabilidad de pertenecer a la zona de
rechazo es P(xB > Co). Adems sabemos que si el peso es N(,2) entonces xB es N(,
2/100) = N(,0.2) y entonces P(xB > Co) = P((xB-)/0.2 > (Co-)/0.2) =
= P(Z >(Co-)/0.2) = K() es la funcin de potencia de la dcima. Esta depende del
valor crtico Co.
Probemos con un valor crtico Co = 1, es decir rechazaremos Ho ( y aceptaremos
que B pesa ms que A) si en la muestra xB > 1. La funcin de potencia K() = P(Z>(1)/0.2) depende de , obtenindose para varios valores de ste:
0.7
0.8
0.9
1.0
1.1
1.2
1.3
K()
0.0668
0.1587
0.3085
0.5
0.6915
0.8413
0.9332
Ho
V
V
V
V
F
F
F
78
0.8
0.9
1.0
1.1
1.2
1.3
1.4
Ho
V
V
V
F
F
F
F
K()
0.0228
0.0668
0.1587
0.3085
0.5000
0.6915
0.8413
DECISIN
Rechazo Ho
Acepto Ho
V (H1F)
ERROR I ()
C = 1-
DE
VERDAD
de
Ho
F (H1V)
K = 1-
ERROR II ()
En esta tabla se describen dos tipos de errores estadsticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V)
= 1-K(1).
Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la
dcima, y a , el mximo error de tipo I que se est dispuesto a tolerar, se le denomina
79
Planteamiento de la Hiptesis.
ii)
iii)
iv)
v)
vi)
80
81
p p0
p0 q0
n
Ejemplo 1.La prevalencia histrica de una cierta enfermedad infecciosa es de un 8%. Sin
embargo en una localidad se examinaron 196 personas, de las cuales 25 estaban
infectadas. Habr en esta localidad una mayor prevalencia o slo ser un hecho
fortuito?
Planteamos estadsticamente: Ho: P 0.08 vs. H1: P > 0.08. Trabajaremos con =
0.05 y el problema es de una cola, por lo que el valor crtico de rechazo es Z c = 1.64.
Adems, en la muestra, p = 25/196 = 0.128.
Aplico el estadgrafo Z:
Z
0.128 0.08
0.08 0.92
2.48
196
82
x 0
s
n
83
( p 1 p 2 ) P0
p n p 2 n2
donde p0 1 1
n1 n2
1 1
p0 q0 ( )
n1 n2
84
sin un cierto frmaco, o bien situaciones del tipo antes-despus. En este ltimo caso se
habla de muestras pareadas o dependientes
Muestras independientes
Por razones estadsticas la prueba a usar depende de si las varianzas muestrales se
pueden considerar iguales (homocedasticidad) o bien son diferentes. Una estimacin
razonable para decidir esto es hacer el cuociente s2M/s2m, donde s2M es la varianza mayor
y s2m es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible
docimar directamente la homocedasticidad (ver ms adelante). Las hiptesis para dos
colas son H0:1 - 2= 0 vs H1: 1- 2 0 y al igual que en el caso de las proporciones lo
habitual es que 0 = 0.
a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:
t n n 2
1
x1 x2 0
(n1 1) s12 (n2 1) s22
2
donde sc
n1 n2 2
1
2 1
sc ( )
n1 n2
Ejemplo 4.Se afirma que la especie A pesa ms que la especie B. Entonces se plantean las
hiptesis H0:A B > 0 vs H1: A- B 0 y se toman muestras de A y de B.
Supongamos que en 46 individuos de A el peso promedio fue 36g con una desviacin
estndar de 6g y que en 50 individuos de B el peso promedio fue 33 g con una
desviacin estndar de 5g. As como el cuociente entre las varianzas es 6 2/52 = 1.44, es
decir es menor que 4, usando nuestra regla simple, podemos suponer homocedasticidad.
Adems podemos estimar la varianza comn s2c como:
45 36 49 25
sc2
30.27 . Ahora podemos usar nuestro test:
46 50 2
36 33
t 94
2.67 . Para = 0.05 y una cola, el valor crtico de t es 1.64,
1
1
30.27 ( )
46 50
entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa ms
que B.
Observamos que el valor crtico de t con 94 grados de libertad es 1.64, idntico al
valor crtico para Z en el caso de una cola. Esto no debe extraarnos, pues como hemos
enunciado en un teorema anterior, si el tamao muestral aumenta, la distribucin t se
aproxima a la normal N(0,1) (Z).
85
x1 x2 0
s12 s22
( )
n1 n2
s12 s22
n n
gl 12 2 2
s12 s22
n1 n2
n1 1 n2 1
Ejemplo 5.Usando el mismo caso anterior, pero ahora las desviaciones estndar son: para A
6g y para B 2g. Entonces la razn entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:
36 33
(36 / 46 4 / 50) 2
3.23 y los grados de libertad: gl
54.15 55
(36 / 46) 2 (4 / 50) 2
36 4
( )
46 1
50 1
46 50
Entonces con = 0.05 y una cola el valor crtico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretacin es la misma.
t gl
d
sd / n
86
Ejemplo 6.Se piensa que un frmaco baja la presin arterial. Entonces se estudian 10
individuos, tomndole la presin diastlica antes y despus de la administracin del
frmaco obteniendo:
Individuos
1
2
3
4
5
6
7
8
9
10
Total
Promedio
Desviacin estndar
Antes (x1)
100
95
80
90
98
105
110
100
90
110
978
97.8
9.5
Despus (x2)
95
95
85
80
90
95
95
92
80
93
900
90
6.1
d = x1-x2
5
0
-5
10
8
10
15
8
10
17
78
d =7.8
sd= 6.5
Entonces se pueden plantear las hiptesis de una cola: H0: D 0 vs H1: D > 0, ya que
pensamos que la presin antes debe ser mayor que despus ( 1> 2 , o D = 1- 2 > 0).
7.8
Calculamos el valor del estadgrafo: t9
3.79 . Como, para = 0.05 el valor
6.5 / 10
calculado de t (3.79) es mayor que el valor crtico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el frmaco
baja la presin arterial.
VI.4.- Supuestos de las dcimas
Para que las dcimas tengan real validez, se deben cumplir ciertos supuestos
bsicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dcimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:
i)
ii)
iii)
independencia
normalidad
homocedasticidad
87
s M2
2 , donde SM2 representa la varianza mayor y Sm2 la menor.
sm
Ejemplo 7.Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una
especie de rbol:
Poblacin
Nmero de rboles
Altura promedio
Desviacin estndar
A
46
3.5 m
0.6 m
B
68
4.3 m
1.26 m
88
Planteamos la hiptesis H1 que los rboles de la poblacin B son ms altos que los
de la poblacin A. Entonces, en trminos estadsticos H0:B A vs H1: B > A, por lo
que es una hiptesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hiptesis principal, planteo las hiptesis: Ho: 21 = 22 (homocedasticidad) vs. H1:
21 22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor
crtico de la distribucin F, con 67 grados de libertad en el numerador y 45 grados de
libertad en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la
homocedasticidad (H0) y deber considerar las varianzas como diferentes.
Ahora nos preocupamos de la hiptesis principal y aplicamos el test adecuado:
4.3 3.5
(1.59 / 68 0.36 / 46) 2
4.53 con gl
102.3 103
(1.59 / 68) 2 (0.36 / 46) 2
1.59 0.36
)
68 1
46 1
68
46
Como 4.53 > 1.64 (valor crtico), entonces rechazo H0 y afirmo que efectivamente
los rboles de B son ms altos que los de A.
t gl
89
90
Hormona A
28
30
25
34
35
26
31
32
Hormona B
24
29
28
30
25
19
32
32
Existe efecto diferencial entre las dos hormonas? Use nivel de significacin del 1%.
R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%.
8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
despus de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:
Individuo
1
2
Antes
95
90
Despus
85
85
91
3
4
5
6
7
110
104
80
78
95
94
83
75
91
91
Existirn evidencias para suponer que esta dieta produce una disminucin
significativa del peso? (Use nivel de significacin del 1%).
R: t6 = 3.24; si hay evidencias de reduccin de peso.
10. Se realiz un estudio sobre dos poblaciones de Spalacopus cianus (Cururo)
provenientes de la costa y de la cordillera. Se les midi el largo del pelo a 20
individuos de cada poblacin, resultados que fueron tabulados en la siguiente tabla.
LARGO
[MM]
10-12
12-14
14-16
16-18
18-20
20-22
22-24
DEL PELAJE
fcosta
fcordillera
1
3
6
6
2
1
1
2
5
8
3
2
0
0
Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dcima adecuada).
R: t38 = 1.77; no hay evidencias de diferencias.
11. Mientras paseaba por el parque, un seor se puso a contar el nmero de perros que
eran sacados a pasear por sus dueos. Los siguientes datos corresponden al nmero
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres:
1-1-2-2-2-3-3-3-3-4-4-6-9
Mujeres:
1-1-1-2-2-2-2-2-2-3-35
Suponiendo que los datos son normales, determine si existe diferencia en el nmero
de perros sacados a pasear entre hombres y mujeres
R: t23 = 1.63; p = 0.059.
12. En un anlisis qumico de las aguas del ro Mapocho, se encontr que los valores de
concentracin de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la maana que durante la tarde. La muestra tomada en la maana
92
93
94
Total
marginal
Enfermos
No enfermos
Total
marginal
Gran total
R1
R2
..
Rr
Nr,1
T. marginal N0,1
C2
N1,2
N2,2
Nr,2
N0,2
......
......
.......
.......
........
Ct
N1,t
N2,t
T. marginal
N1,0
N2,0
Nr,t
N0,t
Nr,0
N0,0
Es fcil darse cuenta que si todos los N se comportan en forma homognea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debera ocurrir
que N1,1/ No,1 N1,o/ No,o.
Entonces si la respuesta es homognea los valores esperados para cada celda se
pueden determinar como: ei,j = (Ni,o/No,o)No,j.
Existen dos tipos de diseos experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociacin entre las
95
2
( r 1)( c 1)
( o e) 2
Observaciones importantes
i)
ii)
iii)
iv)
iv)
Ejemplo 1.Supongamos que se desea saber si existe asociacin entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:
96
Con abejas
Sin abejas
Total
Blancas
45
36
81
Rojas
24
83
107
Amarillas
60
40
100
Total
129
159
288
Con
abejas
Sin
abejas
Total
Blancas
45
(esperadas) Rojas
36.3
24
(esperadas) Amarillas
47.9
60
(esperadas) Total
44.8
129
36
44.7
59.1
55.2
81
83
107
40
100
159
288
22
................... 34.7
36.3
44.7
47.9
Con
abejas
Sin
abejas
Total
Blancas
45
(esperadas) Amarillas
47.0
60
(esperadas) Total
58.0
105
36
34
42.0
81
40
100
76
181
97
0.36
47
34
58
42
2
1
Como el valor crtico es ahora 3.84 y 0.36 < 3.84, ahora acepto H0 y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.
Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble
entrada:
FACTOR 2 (+)
FACTOR 2 (-)
TOTAL
FACTOR 1
+
A
C
A+C
B
D
B+D
TOTAL
A+B
C+D
N
A
B
P( X A)
N
A B
98
P( X x); dondeP( X x)
x N1,1
No intoxicados
2
4
Total
10
6
16
10!6!10!6!
0.084
8!2!2!4!16!
99
Intervalo
Frecuencia
observada
n1
n2
.......
N
(yo,y1)
(y1,y2)
..........
Total
n2 p 1
( o e) 2
e
ni
20
25
30
10
12
3
100
Aqu las frecuencias relativas (ni) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribucin
normal. Mediante las tcnicas aprendidas en estadstica descriptiva podemos calcular el
promedio (6.56) y la desviacin estndar (2.74). A continuacin debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo
100
Observado
s
20
25
30
10
12
3
100
Esperados
12.3
24.5
27.8
19.8
8.0
2.0
2
6 2 1
.......... 12.36
12.3
24.5
27.8
Entonces como el valor crtico para tres grados de libertad y = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hiptesis de nulidad. Es decir esta variable
no tiene distribucin normal.
VII.3. El 2 para proporciones
En ocasiones es necesario comparar dos o ms proporciones, lo cul puede
hacerse con una prueba de 2. Ya hemos visto que cuando la hiptesis es de dos colas es
posible comparar 2 proporciones a travs de Z = N(0,1) o bien con un 2. En el caso de
ms de dos proporciones puede usarse:
n
2
n 1
n ( p
i
pq
p)
en donde p ni p1 / n
i
101
VII.4.- La prueba G
Una aproximacin alternativa a la prueba de 2 para bondad de ajuste y tablas de
contingencia es la prueba del logaritmo del cuociente de verosimilitudes (loglikelihood ratio), prueba 2I, o prueba G.
Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f1 xitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si estn en
relacin a:b. Si fuera as la probabilidad de un xito sera p = a/(a+b) y de fracaso q =
b/(a+b). Sin embargo, las proporciones observadas son: p f1 /( f1 f 2 ); q f 2 /( f1 f 2 ) .
Entonces la probabilidad de obtener f1 xitos basados en la hiptesis de nulidad
n
p q
L
p q
f1
f2
f f
L 1 2
f f
1 2
102
8/9
1/9
1/4
22.5
90
0.44
-8.11
lnL=5.48
Entonces G = 2x5.48 = 10.96 y como sigue una distribucin 2, en este caso con 1
grado de libertad, es fcil ver que p << 0.01 y entonces rechazamos H0.
103
Castao
Rubio
Colorn
43
65
16
64
9
16
PELO
Masculino
Femenino
32
55
R: 23 = 8.99; p < 0.05. Existe asociacin entre el color del pelo y el sexo.
2. La Secretara de Estudios de la facultad necesita saber si existe alguna relacin entre
el nivel de desercin de los alumnos de primer ao y el hecho que hayan tomado
determinado curso. Por eso, la secretaria acudi a un estadstico con los datos
presentados en la siguiente tabla, y le pidi que le diera una respuesta. Qu cree que
le respondi a la secretaria?
Se va
Se queda
Toma el curso
37
26
No toma el curso
31
40
Biotipo
Ectomrfico
Mesomrfico
Endomesomrfico
Endomrfico
Total
Cncer
383
416
84
25
908
lcera
983
679
134
43
1839
Control
2892
2625
570
226
6313
Total
4258
3720
788
294
9060
104
Cromosoma EF
Td/Td
St/Td
St/St
Cromosoma CD
St/St
St/B1
B1/B1
22
96
75
8
56
64
0
6
6
105
de Sin
supuestos
de
Distribucin
Ej: Dcima Binomial
Ej:
KolmogorovSmirnov
106
107
Individuos
1
2
3
4
5
6
7
8
9
10
Antes (x1)
100
95
80
90
98
105
110
100
90
110
Despus (x2)
95
95
85
80
90
95
95
92
80
93
Se propone que el frmaco baja la presin, es decir Ho: 0 vs. H1: > 0.
Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo:
Individuos
1
2
3
4
5
6
7
8
9
10
Antes (x1)
100
95
80
90
98
105
110
100
90
110
Despus (x2)
95
95
85
80
90
95
95
92
80
93
D
5
0
-5
10
8
10
15
8
10
17
B
1
0
0
1
1
1
1
1
1
1
108
Ri
5
3
1
2
4
En esta dcima se define el estadgrafo T = biRi.
Este valor se compara con un valor crtico tabulado Tc(,n). Si Ho es del tipo a)
rechazamos Ho si T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos
Ho si T Tc(,n), y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n).
Ejemplo 2.Usaremos el mismo caso anterior. Ahora agregamos la asignacin de rangos a las
diferencias d:
Individuos
1
2
3
4
5
6
7
8
9
10
Antes (x1)
100
95
80
90
98
105
110
100
90
110
Despus (x2)
95
95
85
80
90
95
95
92
80
93
D
5
0
-5
10
8
10
15
8
10
17
Rangos(R)
2.5
1
2.5
7
4.5
7
9
4.5
7
10
B
1
0
0
1
1
1
1
1
1
1
109
T1 Ri
1
Aqu es importante indicar que la suma se realiza sobre aquella muestra de tamao
no que tiene el menor rango promedio.
Este valor se compara con un valor crtico tabulado w(,n1,n2) donde n1 es el
nmero muestral menor (no necesariamente igual a no) y n2 el mayor. Si Ho es del tipo
a) rechazamos Ho si T1 w(,n1,n2) o s T1 no(N+1) - w(,n1,n2), si es del tipo b)
rechazamos Ho si T1 w(,n1,n2), y si es del tipo c) cuando T1 no(N+1) - w(,n1,n2).
En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadgrafos
diferentes, pero despus se demostr que la U de Mann-Whitney era U = T1-no(no+1)/2 y
por tanto ambas dcimas son equivalentes.
Ejemplo 3.Supongamos que se quieren comparar los pesos de dos especies A y B y se
plantea la hiptesis que A pesa ms que B. Se realiza un estudio obteniendo:
110
Especie A (masa: g)
30
28
27
32
29
33
28
Especie B (masa: g)
26
28
30
25
24
22
25
26
28
Planteamos la hiptesis Ho: 0 vs. H1: > 0 y asignamos los rangos:
Especie A (masa: g)
30
28
27
32
29
33
28
Rango
13.5
9.5
7
15
12
16
9.5
Suma de rangos
Rango promedio
82.5
11.8
Especie B (masa: g)
26
28
30
25
24
22
25
26
28
Rango
5.5
9.5
13.5
3.5
2
1
3.5
5.5
9.5
53.5
5.9
ANTES (+)
ANTES (-)
DESPUS (+)
A
C
DESPUS (-)
B
D
111
Como vemos en esta tabla slo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hiptesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para stas celdas se puede
realizar un prueba 21 que despus de algn trabajo algebraico se reduce a:
( B C 1) 2
(B C)2
2
o 1
si se quiere corregir la distorsin provocada por
(B C)
(B C)
aplicar una distribucin continua a una variable discreta.
2
1
Ejemplo 4.Se realiz una campaa antidrogas a un grupo de jvenes obteniendo el siguiente
resultado:
(+) antes
campaa
(-) antes
campaa
de
de
la 2
17
35
37
43
50
112
Y (despus) di
140
143
135
133
162
150
182
bi
Antes
48
25
46
40
43
42
23
30
Despus
40
26
57
30
50
55
25
55
113
En la leche
0.19
0.21
0.21
0.23
0.20
0.22
Indican estos datos, a un nivel =0.05, que el contenido protenico total tiende a ser
menor entre las ratas privadas de la sustancia X en el tero que entre las privadas de ella
en la leche?
R: Si. T1 = 33; p < 0.05.
114
115
2
0.09
3
0.14
5
0.23
10
0.4
116
HUMEDAD
ALTA
BAJA
BAJA
-------------
TEMPERATURA
MEDIA
ALTA
---------------------------
117
T1
y11
y12
....
y1n
TOTALES
Y1o
PROMEDIOS y1o
FACTOR
T2
y21
y22
.....
y2n
Y2o
y2o
.....
.....
.....
......
.......
.....
.....
Tt
yt1
yt2
.....
ytn
Yto
yto
TOTAL
Yoo
yoo
118
FV
T (entre)
SC
(Yi 02 / n) Y002 / nt
Gl
t-1
(dentro o yij2 Yi 02 / n
ij
i
error)
TOTAL
yij2 Y002 / nt
CM=SC/gl F
P
F
=
CME/CMD
t(n-1)
nt-1
ij
Como dato prctico, observamos que para los clculos en una tabla de ANOVA,
se necesitan tres clculos sencillos:
119
(Y
2
i0
/ n)
2
ij
Y002 / nt
i, j
B
100
90
86
97
100
96
C
80
76
82
88
84
78
120
Total (Yi0)
Promedio (yi0)
A
110
100
90
85
90
100
575
95.8
B
100
90
86
97
100
96
569
94.8
C
80
76
82
88
84
78
488
81.3
(Y
2
i0
2
ij
i, j
SC
(Yi 02 / n) Y002 / nt
Gl
t-1 = 2
CM=SC/gl F2,15
P
787/2 =
F
=
i
= 393.5
CME/CMD
=148755-147968 =
= 393.5/45 =
787
= 8.74
2
2
(dentro o yij Yi 0 / n t(n-1) = 675/15 =
ij
i
15
= 45
error)
= 1462 787 = 675
TOTAL
nt-1 = 1462/17 =
ij yij2 Y002 / nt
17
= 86
=149430-147968 =
1462
El valor crtico de F2,15 con = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadstico, a continuacin habra que hacer comparaciones mltiples
a posteriori.
121
Transformaciones
El anlisis de la varianza es un anlisis muy poderoso y que conduce a resultados
confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad
lo que es especialmente vlido para nmeros de replicas iguales en cada tratamiento
(modelos balanceados) y nmeros muestrales grandes. Por esto se dice que el ANOVA
y en general toda la estadstica paramtrica, son robustos. Sin embargo, en ciencias
siempre interesa tener el mnimo de violaciones posibles de los supuestos por lo que a
veces es necesario transformar la variable.
Cuando existe violacin de la normalidad, es til el siguiente teorema: En
cualquier distribucin de una variable aleatoria y tal que su varianza V se puede
expresar como una funcin de la esperanza E: V = (E), entonces existe una
transformacin:
T f ( y)
dy
cuya varianza y esperanza son independientes. El resultado es una
( y )
(y)
C = constante
y(1-y)
Y
y2
y4
Binomial negativa
Decreciente
Transformacin f(y)
Y
arcsen(y)
y
ln(y) o ln(y+1)
1/y o 1/(y+1)
arcsen(y)
y2
122
cij
Lineal
Cuadrtica
Cbica
-1
-1
-1
-1
1
1
1
1
-1
1
-1
1
El estadgrafo adecuado para probar la hiptesis es una t de Student con los grados
de libertad del error (tgle):
t gle
Lj
CMD ci2 / ni
Prueba de Dunnet Muchas veces la idea del diseo es comparar los tratamientos
contra un tratamiento control. En este caso el estadgrafo adecuado es t d(t,gle,) de
Dunnet (existen tablas especiales):
123
td
yi 0 ycontrol
2CMD / n
Comparaciones a posteriori
Existen muchas pruebas para hacer comparaciones mltiples, sin embargo son dos
las ms utilizadas. Ambas estn basadas en la distribucin del rango Studentizado: Q
= (xmax-xmin)/sx.
Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles,
usando la distribucin del rango Studentizado Q1-,t,gle:
Qt , gle
yi 0 y j 0
(CMD / 2) (
1 1
)
ni n j
124
95.8 94.8
0.149
45
95.8 81.3
2.16
45
94.8 81.3
2.01
45
125
En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los grficos
superiores no existe interaccin, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha slo del segundo
factor (B). En los grficos inferiores si existe interaccin. En el grfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el grfico de la izquierda existe
interaccin que podramos llamar paradojal: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este ltimo caso lo ms probable es que el test
no arroje significacin ni en el factor 1, ni en el factor 2, pero s efecto de interaccin.
126
B
7
8
9
8
7
4
3
4
3
2
C
2
3
1
3
3
1
2
2
2
1
B
7.8
3.2
C
2.4
1.6
Valores promedio:
A
3.8
2.0
W
Z
SC
66.1
43.2
19.4
14.8
143.5
Gl
2
1
2
24
29
CM
33.0
43.2
9.7
0.62
F
53.6
70.1
15.7
P
<< 0.001
<< 0.001
<< 0.001
Del anlisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interaccin).
El valor de la probabilidad de error I (p: en negritas los valores significativos
(< 0.05)) en las comparaciones mltiples con prueba de Tukey muestra:
127
{1}
A
A
B
B
C
C
W
Z
W
Z
W
Z
{1}
{2}
{3}
{4}
{5}
{6}
{2}
.015196
x
{3}
.000138
.000138
x
{4}
.828719
.190434
.000138
x
{5}
.088555
.963783
.000138
.599784
x
{6}
.002275
.963783
.000138
.037791
.599784
x
128
B1
B2
B3
T1
T3
T2
T3
T2
T1
T2
T1
T3
Diseo de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de anlisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estmulos (T):
T1
T2
T3
I1
I2
I3
I4
Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseo es necesario excluir a los individuos de respuesta extraa (out-group)
pues violan un supuesto de este diseo: la simetra compuesta. Esta ltima junto a la
homocedasticidad constituyen el supuesto de esfericidad.
Diseos anidados, encajados o jerrquicos Para entender este modelo conviene
definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad
de muestreo como aquella que constituye una rplica.
En los diseos jerrquicos se consideran sub-niveles dentro de cada tratamiento.
Por ejemplo si estamos estudiando las diferencias en cierta caracterstica de individuos
de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N):
T1
N1
N2
T2
N1
N2
T3
N1
N2
Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son slo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseo anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las rplicas constituyen sub-muestras.
129
B1
B2
B3
b2
T2
T3
T1
b3
T3
T1
T2
T1
B2
T3
B3
T2
t1
t2
t1
t2
t1
t2
T3
T2
T1
t1
t2
t1
t2
t1
t2
T2
T1
T3
t1
t2
t1
t2
t1
t2
t R
12
0j
H
3(n 1)
N ( N 1) 1 n j
130
N t
H
( N 1 H )(t 1)
R0 j R0 k
n(nt )(nt 1)
12
t2
12
R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
b(t )(t 1)
12
Otras alternativas Existen algunas alternativas no paramtricas para una y dos vas
cuando la hiptesis H1 incorpora una tendencia u ordenacin (i.e: H1: t1 <t2 < t3 ). En
este caso se usa para el caso de una va la prueba de Jonckheere y para dos vas la
prueba de Page. Cuando se tiene un diseo ms complejo se realiza un ANOVA sobre
rangos.
131
B
2.20
1.90
2.00
1.70
1.54
1.88
1.90
2.05
1.70
C
0.50
0.94
0.78
0.38
0.50
0.50
0.68
0.62
0.40
Promedio
Lago 1
28.2
33.2
36.4
34.6
29.1
31.0
32.1
Lago 2
39.6
40.8
37.9
37.1
43.6
42.4
40.2
Lago 3
46.3
42.1
43.5
48.8
43.7
40.1
44.1
Lago 4
41.0
44.1
46.4
40.2
38.6
36.3
41.1
Lago 5
56.3
54.1
59.4
62.7
60.0
57.3
58.3
132
Cuenta
6
6
6
6
6
Suma
192.5
241.4
264.5
246.6
349.8
Promedio
32.08
40.23
44.08
41.10
58.30
Varianza
10.27
6.40
9.49
13.44
9.22
SC
2193.44
244.13
2437.57
gl
4
25
29
CM
548.36
9.77
F
56.15
ANLISIS DE VARIANZA
Origen de las variaciones
Entre grupos
Dentro de los grupos
Total
P
3.95E-12
FC
2.759
SE
26.2
18.1
17.2
14.2
12.0
3.9
1.28
1.28
1.28
1.28
1.28
1.28
9.0
1.28
8.1
1.28
Tk
20.55
14.16
13.48
11.13
9.41
3.06
No es necesario
7.05
No es necesario
6.35
Tk crtico
crtica
4.166
4.166
4.166
4.166
4.166
4.166
5.31
5.31
5.31
5.31
5.31
5.31
4.166
5.31
4.166
5.31
B
6
7
8
7
8
C
1
2
2
3
6
133
134
COV [ X , Y ]
V [ X ] V [Y ]
( x x )( y y )
( x x ) ( y y)
i
x y
i
nx y
( xi2 nx 2 )( yi2 ny 2 )
135
r n2
1 r2
X.2.- Regresin
Muchas veces en la bsqueda de asociacin entre dos variables X e Y, intentamos
establecer una relacin funcional entre ambas, por ejemplo una lnea recta: y = mx + c, o
una parbola y = ax2 + bx +c o una exponencial y = aebx o una potencial y = axb. En este
caso no slo buscamos la asociacin sino que pre-suponemos una relacin funcional
entre las variables. Este es el objetivo del anlisis de regresin sea este lineal,
cuadrtico, exponencial o potencial. Lo ms habitual es el anlisis de regresin lineal,
136
sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son
reductibles al modelo lineal a travs de logaritmos.
Por ejemplo si a una relacin potencial del tipo Y = aXb le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(ebX), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.
Regresin lineal mnimo cuadrtica
El problema bsico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un
intercepto Bo, entonces tendremos para cada xi un yi = B1xi+Bo que estima el valor real
de yi (ver figura). A la diferencia entre yi e yi: ei = yi-yi la llamamos residuo.
Observamos que la raz de la suma sobre i del residuo elevado al cuadrado: D =
( yi yi' ) 2 tiene la estructura de una distancia y entonces interesa la pregunta: para
que valores de B1 y Bo es mnima D, o, lo que es lo mismo, D2?
137
x y / n xy
x /n x
B1
2
i
B0 y B1 x
Y adems:
S yx2
(x
x)2
ei2
1
x
2
) donde S yx
y V [ B0 ] S (
n ( xi x ) 2
n2
2
yx
t n2
B*
V [ B* ]
( y
y ) 2 ( yi yi' ) 2 ( yi' y ) 2
138
( y
Total
y ) 2 yi2 ny 2
CM
F1,n-2
SC/gl
CMmodelo/CMresiduo
SC/gl
= Syx2
n-1
SCregresi n
SCTotal
1
2
2
5
3
6
4
7
5
9
6
13
7
15
8
15
9
19
10
20
139
Total
Promedio
X
1
2
3
4
5
6
7
8
9
10
55
5.5
Y
2
5
6
7
9
13
15
15
19
20
111
11.1
X2
1
4
9
16
25
36
49
64
81
100
385
38.5
Y2
4
25
36
49
81
169
225
225
361
400
1575
157.5
XY
2
10
18
21
45
78
105
120
171
200
770
77.0
140
Observamos adems que todos los valores para la tabla de ANOVA ya se encuentran
calculados.
Fuente de
variacin
Modelo
(Regresin)
Residuo
Total
SC
Gl
CM
F1,8
307.3
69.1
<< 0.01
= 342.9-307.3 = 35.6
1575 10 11.12 342.9
Syx2= 4.45
10-2= 8
10-1= 9
( xk x ) 2
1
n xi2 ( xi ) 2 / n
Prediccin del valor y para xk En este caso el intervalo de confianza est dado
por:
141
IC1- : y t n2 S yx
'
k
( xk x ) 2
1
n xi2 ( xi ) 2 / n
Ejemplo 2.Si en el caso del ejemplo1, interesara calcular a) el valor predicho para x = 12 y b)
el valor promedio de y para x = 15, tendramos:
Para el caso a) el valor predicho para x = 12 sera: y = 1.93(12) + 0.485 = 23.645.
y
su
intervalo
del
95%
de
confianza
sera:
1
(12 5.5) 2
23.645 1.86 2.1 1
23.65 4.96
10 385 (55) 2 / 10
Para el caso b) el valor predicho sera y = 1.93(15) + 0.485 = 29.435, y el
intervalo de confianza para el promedio de los valores de y cuando x = 15 sera:
1
(15 5.5) 2
29.435 1.86 2.1
29.435 10.94
10 385 (55) 2 / 10
142
rs 1
6 d i2
i 1
n n
3
A
A2
A3
X
yij i 1 ( xij x ) ij
Se observa que en este modelo se contempla una relacin funcional entre la
variable respuesta y su covariado mediada por un modelo de regresin.
En su expresin original el inters del ACOVA est centrado en el efecto de los
tratamientos y la regresin sobre la variable respuesta Sin embargo a menudo el inters
se centra en la variable respuesta descartando el efecto del covariado y ms
habitualmente, el inters se encuentra en las variaciones de la respuesta funcional, las
pendientes de regresin, frente a los distintos tratamientos (Homogeneidad de
pendientes. En el ANCOVA al igual que en el ANOVA y en la regresin, es posible la
particin de la suma de cuadrado y docimar por separado cada uno de los efectos. En su
143
11 12
t n1 n 24
2
S yxc
(
1
1
)
2
2
x
x
1i 2i
donde S yxc
SCresiduo 1 SCresiduo 2
n1 n2 4
144
145
146
ii)
iii)
n
donde n es el tamao muestral y N el tamao poblacional.
N
147
pq
(1 f ) y entonces, Es
n 1
pq
(1 f )
n
148
t12 / 2 s 2 Z 2 / 2 s 2
n
d2
d2
Tamao muestral para comparar una proporcin con otra prefijada (una muestra)
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
n
p0 q0 ( Z * Z ) 2
d2
Tamao muestral para comparar un promedio con otro prefijado (una muestra)
En forma anloga al caso anterior el tamao muestral adecuado para realizar una
dcima de este tipo se puede calcular definiendo previamente la precisin (d), el nivel de
significacin () y el error de tipo II () o la potencia de la dcima (K = 1-). Si uno fija
2 cualesquiera de stos parmetros a priori se puede obtener el tercero mediante la
relacin:
s 2 (Z * Z ) 2
n
, donde * es /2 para pruebas de 2 colas y para una cola..
d2
( P1Q1 P2 Q2 )(Z * Z ) 2
d2
una cola. En este caso n es el tamao de cada muestra. Si existe un tamao n1 prefijado,
entonces n2 = nn1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2.
Tamao muestral para comparar promedios
El tamao muestral, la precisin (d) y el error de tipo II () o la potencia de la
dcima (K = 1-) se pueden obtener mediante la relacin:
149
2sc2 ( Z * Z ) 2
sd2 ( Z * Z ) 2
d2
2ts 2
(t 1)(CME CMD)
t CMD
150
Nx
N0
d x (l x l x 1 )
. A veces es til
Nx
lx
Tx
lx
(l x l x 1 )
2
151
lm
hembra de la edad x; Vx x x
lx
x
Parmetros derivados:
Ro: Tasa reproductiva neta o bsica de una poblacin. Esta representa la contribucin en
nmero de cras que deja una hembra de una generacin a la siguiente;
R0 l x mx
0
e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un
individuo de acuerdo a los parmetros poblacionales (rgimen demogrfico) imperantes;
e0 = e0.
G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generacin;
G
yl m
x
R0
Nmero
insectos(Nx)
1000
1000
990
830
510
360
0
de Nmero de huevos
depositados (mx)
0
0
13266
9877
2346
1656
0
152
dx
qx
Lx
Tx
ex
mx
lxmx
Vx
1000 1
10
160
0.9
9
0.9
1
0.6
7
0.4
4
0.1
8
990
0.0
1
0.1
6
0.3
9
0.2
9
1.0
0
4.1
9
3.1
9
2.2
1
1.5
4
1.2
1
0.5
1000 1
4.1
9
3.1
9
2.1
9
1.2
9
0.6
1
0.1
8
Xlx
mx
0
830
510
360
0
lx
0.9
9
0.8
3
0.5
1
0.3
6
0
320
150
360
3283
3
2869
2
5384
1656 596
1656 3278
Ro =
23123 G=
3.03
5
Es decir esta poblacin de insectos es capaz de dejar 23123 nuevos insectos por cada
hembra, cada 3.035 das. Adems cada uno de stos insectos tiene una esperanza de vida
al nacer de 4.19 das.
XII.2.- Comparacin de curvas de supervivencia
Muchas veces en estudios poblacionales y en estudios de supervivencia a
tratamientos mdicos es necesario comparar curvas de supervivencia. Los mtodos para
compararlas son simples, derivados de la distribucin 2.
Una prueba simple es la de Mantel-Haenszel o Logrank. Existe tambin una
variante bastante similar el Logrank de Peto & Peto (ver Pike & Thompson 1986).
La prueba consiste en registrar para cada unidad de tiempo el nmero observado
de muertes (Oi) y retiros (Ci) y calcular a partir de las muestras los valores esperados de
muertes (Ei). Finalmente se usa el estadgrafo:
(Oi Ei ) 2
Ei
1
t
2
t 1
153
Ejemplo 2.Supongamos que se quiere comparar las supervivencias de dos grupos A y B cada
uno de 10 personas iniciales durante 12 das y se obtiene la siguiente tabla:
Tiempo
Muertos en A
(OA)
1
0
0
2
1
0
0
1
2
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
Muertos en B
(OB)
0
0
0
0
1
1
0
0
0
2
0
0
Retiros en A
(CA)
0
0
1
0
0
0
0
1
0
0
0
0
Retiros en B
(CB)
0
0
0
1
0
0
0
0
0
0
0
0
Muertos
en A
(OA)
Muertos
en B
(OB)
Muertos
totales
(m)
Retiros
en A
(CA)
Retiros
en B
(CB)
1
2
3
4
5
6
7
8
9
10
11
12
Total
1
0
0
2
1
0
0
1
2
0
0
0
7
0
0
0
0
1
1
0
0
0
2
0
0
4
1
0
0
2
2
1
0
1
2
2
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
Total
individuos
en
observacin
A (nA)
10
9
9
8
6
6
6
6
4
2
2
2
Total
individuos
en
observacin
A (nB)
10
10
10
10
9
8
7
7
7
7
5
5
Total
individuos
(n)
EA
=nA(m/n)
EB =
nB(m/n)
20
19
19
18
15
14
13
13
11
9
7
7
0.5
0
0
0.89
0.8
0.42
0
0.46
0.72
0.44
0
0
4.23
0.5
0
0
1.11
1.2
0.57
0
0.54
1.27
1.56
0
0
6.75
12
154
NX
100
79
28
8
4
1
Mx
0
1000
500
100
2
0
Nx
100
79
65
60
50
2
Mx
0
100
500
500
2
0
Nx
100
80
60
40
20
1
Mx
0
0
5000
10
0
0
155
P
)
1 P
P
1
) X P
1 P
1 e ( X )
)2
156
( m2 2 p)
R
donde m2 es el valor del 2 del modelo, L(0) es el mximo valor del
2 L(0)
logito considerando slo la constante y p es el nmero de parmetros.
2
e ( x x*) .
caso
( x *)
p x*
e
1 p x*
Ejemplo 1.Supongamos que interesa predecir el comportamiento de una variable dicotmica
I (I = 1 muerte, I = 0 supervivencia), a partir de un predictor X, continuo y que se tiene
la siguiente informacin:
I 0
X 1
0
2
0
3
0
4
0
5
0
6
0
8
0 0 0 1 1 1 1 1 1 1 1 1 1
12 13 14 11 12 13 14 15 16 17 18 19 20
0.61
-7.27
0.308
3.99
2
3.92
P
< 0.05
1
1 e
7.27 0.61X
P( I 1/ X 5)
1
1 e 7.270.615
0.0017
157
158
X t at i ( X t i ) i (at i )
COV [ X t , X t k ]
V [ X t ]V [ X t k ]
159
i nk
rk
(X
i 1
X )( X t k X )
i n
(X
i 1
X)
En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento
exponencial (directo o alternado segn el signo de 1), que en la FACP slo la primera
autocorrelacin parcial es diferente de 0, y adems 1 = r1. As estudiando la FAC y
FACP es posible calcular los parmetros del modelo.
En un AR2: X t 1 ( X t 1 ) 2 ( X t 2 ) at el decrecimiento de la
FAC es ms lento y en la FACP slo los dos primeros coeficientes son distintos de 0.
1
12
Adems r1
y r2 2
1 2
1 2
Modelos aleatorios (MA)
Los modelos MA se reconocen por el nmero autocorrelaciones diferentes de 0 en
la FAC: si slo una es distinta de 0, es MA1, si son las dos primeras es MA2 etc..
Por ejemplo, en un MA1: X t at 1 (at 1 ) , adems r1
1
1 12
160
161
En el grfico observamos que es evidente que los grupos A y B son diferentes, sin
embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prcticamente
iguales. Es decir la evidente diferenciacin de los grupos no es explicada ni por X 1 ni
por X2 en forma aislada, sino por la variacin conjunta de ambas, en este caso
probablemente por una combinacin lineal de X1 y X2 (aX1+bX2). En ciencias
encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da
origen a los fenmenos que coloquialmente llamamos multifactoriales.
Cuando sospechamos que existe una relacin de este tipo donde probablemente
existe interaccin entre las variables medidas, estamos en el terreno del anlisis
multivariado.
162
XV.2.- MANOVA
En su expresin ms simple, un MANOVA consiste en dos grupos a comparar, a
los que se ha medido un conjunto de p variables {Xi} ={X1,X2,Xp}. Se trata
entonces de un MANOVA de una va, con dos tratamientos.
Si recordamos que cuando comparbamos dos promedios en el anlisis
univariado, lo hacamos con un test t de Student, tiene entonces sentido derivar un
estadgrafo semejante para el anlisis multivariado. Por razones prcticas se utiliza su
cuadrado (T2 de Hotelling):
(n 1)[1 ] (n2 1)[ 2 ]
n1n2 [ X 1 X 2 ]T []1 [ X 1 X 2 ]
T
donde [] 1
n1 n2
n1 n2 2
2
En este caso los parntesis [] indican que se trata de matrices, los exponentes T
y -1 corresponden a la matriz traspuesta y la matriz inversa respectivamente, y []
corresponde a la matriz varianza-covarianza. La expresin (DM):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] tiene la estructura de una distancia y se conoce
como distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible
docimar mediante una distribucin F:
Fp ,n1 n 2 p 1
(n1 n2 p 1)T 2
( p(n1 n2 2))
163
y n 1 xn
n
O, en trminos ms simples: [Y ] [ X ] [] []
Con esta notacin, el vector de estimadores de los coeficientes de regresin es
simplemente:
] [ X T X ]1 [ X ]T [Y ]
[
164
y1 1 x11
y 1 x
12
2
. . .
y n 1 x1n
. x p1 0 1
. x p 2 1 2
. . . .
. x pn p n
Grados de
libertad
P
Error
n-(p+1)
Suma de
cuadrados
][ X T Y ] n[Y ]2
[
]T [ X T Y ]
[Y T Y ] [
Total
n-1
[Y T Y ] n[Y ]2
Cuadrados
medios
SC/gl
Fp,n-p+1
CMmod/CME
SC/gl=Syx2
SC mod elo
SCT
165
pendientes ({i }). Ahora no es una recta de regresin sino un plano o un hiperplano.
Los coeficientes de regresin en este caso deben interpretarse como las pendientes
directoras de dicho plano y son diferentes de las pendientes que se obtendran
realizando regresiones aisladas entre la variable Y y cada una de las {X i}. Las
pendientes obtenidas en un modelo de regresin mltiple corresponden a coeficientes
obtenidos en presencia de las otras variables y son por tanto llamados coeficientes de
regresin parcial. Puede ocurrir en ocasiones que al realizar una regresin entre Y y X1
la pendiente 1 sea positiva y que al realizar la regresin entre Y y {X1,X2} el coeficiente
1 sea drticamente diferente, e incluso negativo. Esto ocurre frecuentemente cuando
parte de la variabilidad de X1 esta explicada por X2 o a la inversa, es decir X1 y X2 se
encuentran correlacionados.
XVI.3.- El aporte de cada variable
En una regresin mltiple la mayora de las veces interesa determinar el aporte de
cada variable y si este tiene significacin. Es decir si la pendiente correspondiente (i) es
igual o diferente a 0.
Afortunadamente la suma de cuadrados del modelo de regresin se puede
descomponer en las contribuciones que provienen de cada variable.
Consideremos el caso de dos predictores X1 y X2. El modelo correspondiente es
Y = 0 + 1X1+ 2X2 + y en este caso la suma de cuadrados del modelo se puede
escribir como: SC(1, 2/ 0), es decir aquella variabilidad explicada por las pendientes
directoras y no por la constante. Si no consideramos la variable X 2 entonces la suma de
cuadrados del modelo sera: SC(1/0) y entonces podemos determinar el aporte de X2
como: SC(2/1,0) = SC(1,2/0) SC(1/0). En forma completamente anloga el
aporte de X1 lo medimos con SC(1/2,0) = SC(1,2/0) SC(2/0). As extendiendo
el razonamiento al caso de p variables, es posible descomponer la suma de cuadrados del
modelo completo en las contribuciones aportadas por cada variable:
SC (1 , 2 ,... p / 0 ) SC (1 / 0 ,., 2 ... p ) SC ( 2 / 0 , 1 ... p ) ....SC ( p / 0 , 2 ... p1 )
166
r13
r23
.
.
.
.
r1 y
r2 y
.
1
Cada uno de los elementos de esta matriz corresponde a una correlacin simple
entre dos variables en ausencia de las dems. Sin embargo al igual que el caso de los
coeficientes de regresin, surge la pregunta si cambiaran las correlaciones cuando se
consideran las dems variables.
Cuando se incluyen las dems variables se puede obtener un coeficiente de
correlacin parcial, que corresponde a una correlacin entre dos variables cuando las
dems permanecen constantes, de esta manera mide la correlacin que le es exclusiva a
las dos variables. Por ejemplo, se podra tener una correlacin simple entre X 1 e Y, r1y =
0.8, y una correlacin simple entre X2 e Y, r2y = 0.9, pero al calcular la correlacin
parcial entre X1 e Y podra ocurrir que fuera r1.y = 0.2. Esto ocurre cuando las variables
X1 y X2 estn correlacionadas y entonces al calcular las correlaciones simples en
realidad se est incorporando el efecto indirecto de la variable no considerada. En el
caso mencionado gran parte de la correlacin entre X1 e Y, estara explicada por el
efecto que produce X2 sobre X1 o la correlacin entre estas.
El clculo de los coeficientes de correlacin parcial es algo engorroso y pasa
primero por obtener la matriz inversa de 1 [bij ] . Las correlaciones parciales se
pueden calcular a partir de esta como:
167
rj .h
b jh
b jj bhh
y en particular rj . y
b jy
b jj byy
168
Y
2
4
6
8
10
12
14
16
19
20
22
24
25
28
30
32
34
36
37
40
44
X1
1
2
3
4
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X2
2
3
4
5
6
7
8
9
10
11
12
14
15
16
17
18
19
19
20
21
22
X3
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
169
Es decir de las tres variables slo es relevante la X1, obteniendo una variabilidad
explicada prcticamente igual.
s xi bi
sy
y r12bs1 bs 2 r23bs 3 r2 y
r13bs1 r23bs 2 bs 3 r3 y
rUy2 1 R 2
170
2
si
P( I j )
1 e
( j
i xi )
i
En este caso, se obtienen k funciones que solo difieren en la constante , una para
cada estado.
En algunas ocasiones la funcin logstica se utiliza con un fin heurstico pudiendo
hacer seleccin de variables mediante un procedimiento stepwise. En otras ocasiones,
lo que es muy habitual en anlisis multivariado, se utiliza la funcin logstica con un fin
de clasificacin o discriminacin de grupos o estados, siendo una alternativa al anlisis
discriminante (ver mas adelante). En estos casos, los coeficientes i representan el
peso que tiene cada variable Xi en la discriminacin de los estados o grupos. Adems
en base a las funciones logsticas se establecen valores puntuales que permiten decidir la
pertenencia a uno u otro grupo de un caso a partir de las medidas de las {Xi}. Utilizando
la funcin logstica en forma recursiva sobre los casos que permitieron construirla y los
puntos de discriminacin se puede obtener una tabla de clasificacin:
Observado(+)
Observado(-)
Total
Tabla de
Predicho (+)
A
C
a+c
Clasificacin
Predicho(-)
b
d
b+d
Total
A+b
C+d
N = a+b+c+d
Esta tabla es exactamente igual a las tablas usadas en diagnstico mdico, por lo
que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad,
171
(a c)(a b) (b d )(c d )
n
n
Cz
n
n2
C Cz
1 Cz
C z (1 C z )
n
172
173
sus dos componentes clsicos, la suma de cuadrados dentro de grupo (W, de within) y
la suma de cuadrados entre grupos (B, de between), de manera que T = B + W, se
obtiene:
W ( Lik Li ) 2 y B ni ( Li L ) 2
i ,k
n1n2
( L1 L2 ) 2
n1 n2
174
[] []1 [ X 1 X 2 ] []1 [d ]
Este es un resultado muy til pues por su estructura la matriz de coeficientes ([B]
o {i}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y,
entonces se puede docimar a travs de una F (ver MANOVA):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
Este razonamiento se extiende naturalmente al caso de ms poblaciones, por
ejemplo q poblaciones. En este caso se obtienen q-1 funciones discriminantes, a
menudo llamadas ejes cannicos. Cada funcin tiene asociado un valor propio (i) que
da cuenta de la proporcin de discriminacin explicada por dicha funcin, y un vector
propio que contiene los coeficientes {i}.
Se puede probar la capacidad de discriminacin de cada funcin o eje cannico a
pq
}ln(1 j ) que se distribuye siguiendo a 2p+q-2j.
travs de 2j { ni 1
2
i
XVII.2.- Clasificacin
El anlisis discriminante puede ser usado a posteriori como una funcin de
clasificacin en el mismo sentido que la regresin logstica. Por ejemplo para dos
L L2
) que permite decidir si un caso al
poblaciones se puede escoger un punto L* ( 1
2
que se le han medido las p variables {Xi} pertenece a la primera o segunda poblacin.
En forma completamente anloga al caso de la regresin logstica se puede obtener una
tabla de clasificacin, con sus respectivos parmetros y realizar un anlisis de
concordancia.
175
Ejemplo 1.Supongamos que nuestro inters es discriminar dos grupos A y B a partir de tres
variables X1, X2 y X3, y que se tiene la siguiente tabla:
X1
4
5
4
4
5
2
3
3
4
2
A
A
A
A
A
B
B
B
B
B
X2
1
2
1
2
1
2
1
2
1
2
X3
1
2
3
4
5
3
4
5
6
7
100%.
1
1 e
176
Xi X
la relacin anterior se puede
si
escribir matricialmente:
[] [V ]T [Z ] , donde la matriz [] corresponde a la matriz de coeficientes {k= yki
estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables
estandarizadas.
[V []]
0 [ I ] vk 0
vk
177
Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada
valor propio {i} de la matriz de correlacin entre las variables ([ ]). Adems la traza
de [ ] = i = p, y entonces la proporcin de la varianza que explica cada componente
k es k/p. As un componente con un valor propio menor que 1 es con toda seguridad
irrelevante.
Observamos entonces que en el anlisis de componentes principales se maximiza
la variabilidad total y no la discriminacin, y que en la prctica la extraccin de
componentes principales slo consiste en encontrar valores y vectores propios en la
matriz de correlacin.
Cada componente k tiene esperanza 0 y varianza k. Si definimos ahora fk =
k/( k), entonces fk es un componente estandarizado con esperanza 0 y varianza 1.
Entonces la matriz [F] = [fk] se puede escribir:
1/ 1
[F ] 0
0
.
0
.
0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0 1/ p
1
1
1
1
( Z i Z )( f i f )T Z i f i Z i [ L1 / 2V T Z i ]T VL1 / 2
n
n
n
n
Adems, como V V T L ,
[ FL ] VL1 / 2
Podemos escribir entonces las variables en funcin de los componentes
estandarizados:
[Z ] [ FL ][F ]
178
Esta expresin nos muestra que cada variable se puede expresar como
combinacin lineal de los componentes y los coeficientes o factor loadings muestran el
peso de la variable en dicho componente.
Con esta estandarizacin adems FLk2 representa la proporcin de la variabilidad
de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la
fraccin no explicada 1- FLk2 es la especificidad de la variable.
Cuando se realiza un anlisis de componentes principales, interesa primero saber
si se justifica hacerlo. Esta pregunta se refiere a lo siguiente: si las variables medidas no
estuvieran correlacionadas de partida, entonces no tiene sentido la bsqueda de
componentes ortogonales. A raz de esto Bartlet propuso primero estudiar la matriz de
correlacin y someter a prueba de hiptesis H0: 0 vs H1: 0 . Para esto propuso,
el siguiente estadgrafo:
1
{(n 1) (2 p 5)}ln que se distribuye como 2p(p+1)/2.
6
Adems despus del anlisis importa saber cuantos componentes son relevantes
para dar cuenta de la variabilidad total. Esto tiene una solucin muy prctica y usada:
usar todos los componentes cuyo valor propio es mayor que 1. Otra solucin es
considerar q componentes y someter a prueba si la correlacin residual es o no
diferente de 0: H0: residual 0 vs H1: residual 0 . En este caso se usa el
estadgrafo:
1
2
{(n 1) (2 p 5) q}ln C donde C
6
3
residual
q
p j p q
j (
)
pq
1
179
CP3 = 0.52X1+0.74X2+0.41X3
Componente (Factor
(Factor
(Factor score Valor propio %
score de X1) score de X2) de X3)
()
acumulado
de la
varianza
CP1
0.53
-0.44
-0.40
1.57
52.6
CP2
0.037
-0.69
0.71
0.88
82.18
CP3
-0.4
0.80
0.56
0.53
100.0
Esto indica que slo el primer componente es relevante ( >1). Los factor loadings
son -0.84; 0.69 y 0.63 para X1, X2 y X3 respectivamente, por lo que CP1 est
fundamentalmente asociado a X1. Adems podran usarse los valores de los dos primeros
componentes en cada caso para graficar ambas poblaciones, ordenndolas.
2
1
var5
2
1
-1
-2
-2
-1
0
var4
180
[ A]
T
[C ]
[C ]
[ B]
As mediante este mtodo se obtienen pares de funciones lineales que dan cuenta
de la correlacin entre las variables. Esto permite visualizar como se correlacionan las
configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U1 =
0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un 1=0.6; esto indica que el par
181
Ejemplo 1.Si usamos la tabla del ejemplo1 del captulo de regresin mltiple, e intentamos
un anlisis de correlacin cannica considerando Y y X1 como un tipo de variables y X2
y X3 como un segundo tipo, obtenemos un primer par cannico de funciones:
U1 = -0.38Y-0.62X1; V1 = -X1 + 0.0265X2 con un valor propio 1 = 0.993 y un 24 =
87.1; p <<0.001. El segundo par cannico (U2,V2) es irrelevante, con un 2 = 0.006 y un
24 = 0.11; p = 0.7. La correlacin cannica del primer par es R = 0.9965 (1).
XIX.2.- Anlisis de correspondencia
El objetivo de ste anlisis es la bsqueda de asociacin o correspondencia entre
dos o ms conjuntos de variables cualitativas mltiples, por ejemplo {X i} e {Yi}.
Bsicamente consiste en la bsqueda de un conjunto de races y sus eigenvalues que den
cuenta de la asociacin entre estos dos o ms grupos de variables. Cuando se trata de dos
grupos de variables, se analiza la tabla de doble-entrada (contingencia) que contiene las
frecuencias de presentacin de stas. Por ejemplo {Xi} puede ser un conjunto de
especies (Spi), {Yi} puede ser un conjunto de biomas (Bi), lo que conduce a la tabla:
Sp1
Sp2
.
Spp
B1
n11
n21
np1
B2
n12
n22
.
np2
..
.
.
.
.
Bq
n1q
n2q
.
npq
182
nOO
A
B
C
D
L
2
3
6
4
M
4
5
7
3
Sp1
Sp2
.
Spp
B1
n11
n21
np1
B2
n12
n22
.
np2
..
.
.
.
.
Bq
n1q
n2q
.
npq
183
Se pueden buscar las races o dimensiones que maximizan la asociacin entre los
pares {Bk,Spk}. Esto se puede hacer por el mtodo de reciprocal averaging. En este
mtodo se calculan iterativamente los promedios ponderados (weighted average)
renormalizados de filas y columnas y hasta lograr la estabilizacin. El vector estable
corresponde a la primera dimensin y tiene asociado un eigenvalue ( k ).Se puede
demostrar que al igual que la correlacin cannica, conduce a pares de funciones
lineales con su valor propio asociado k, que corresponde a k=Rk2. Cada par de
funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par
de funciones, se contina con el anlisis estableciendo la correlacin con la funcin
anterior y trabajando con los residuales.
184
MCD
X
i 1
ij
X ik
DM X ij X ik
i 1
185
(X
i 1
ij
X ik )
Tambin en este ltimo caso es posible usar alguna distancia que incorpore la
variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas
polares como la distancia de Nei. Sin embargo, stas se utilizan menos, o tienen uso mas
restringido.
Medidas de correlacin
As como entre dos unidades se puede establecer una distancia, tambin se puede
medir la similitud entre ellas usando el coeficiente de correlacin. En el caso que las
variables sean cuantitativas continuas esta indicado el coeficiente de correlacin de
Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales,
se puede usar el coeficiente de correlacin de Spearman. En este caso la mxima
similitud es 1.
Medidas de asociacin
Cuando se caracterizan unidades es muy habitual usar variables doble-estado o
presencia-ausencia. En este caso se pueden usar medidas de asociacin que permiten
valorar en forma diferencial las coincidencias y desacuerdos. Por ejemplo vale lo
mismo que dos especies tengan una mancha roja (1,1) a que ambas no la tengan (0,0)?
Debemos observar que ambas son coincidencias y que la diferencia media de caracteres
las valora igual, en ambos casos Xij-Xik = 0. Existen muchas medidas de asociacin para
estos casos, cuyo uso depende del problema a estudiar.
Si agrupamos las observaciones en una tabla de 2x2, obtenemos:
UNIDAD
UNIDAD 2
1
0
1
A
C
1
0
B
D
ad
abcd
186
Coeficiente de Jaccard: J
a
abcd
Coeficiente de Dice: CD
ad
a 2b 2c d
2a
2a b c
Coeficiente de Hamann: H
2(a d )
2(a d ) b c
(a d ) (b c)
abcd
187
A
B
C
D
E
B
1
0
C
0.5
0.4
0
D
3
3
1
0
E
2
2
4
2
0
A
BC
D
E
BC
0.5
0
D
3
1
0
E
2
2
2
0
ABC
D
E
D
1
0
E
2
2
0
ABCD
E
ABCD
0
E
2
0
188
A
BC
D
E
A
0
BC
0.75
0
D
3
2
0
E
2
3
2
0
Y a continuacin:
ABC
D
E
ABC
0
D
2.33
0
E
2.67
2
0
Notamos que para calcular las distancias desde una especie a un grupo o cluster
tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia
menor es D(E-(ABC)) = 2. Y llegamos a la matriz:
189
ABCE
D
ABCE
0
D
2.25
0
190
BIBLIOGRAFIA
Azocar MR (1974) Probabilidad Matemtica. Universidad Catlica de Chile, Instituto
de Matemticas (Apunte).
Brown D & Rothery P (1993) Models in Biology: Mathematics, Statistics and
Computing. John Wiley & Sons, New Jork.
Cochran WG (1980) Tcnicas de Muestreo. Compaa editorial Continental SA,
Mexico.
Cramer H (1945) Mtodos Matemticos en Estadstica. Aguilar SA, Madrid.
Cramer (1966) Elementos de la Teora de Probabilidades. Aguilar SA, Madrid.
Feller W (1968) An Introduction To Probability Theory And Its Applications. John
Wiley & Sons, New Jork.
Hair JF, Anderson RE, Tatham RL & Black WC (1999) Anlisis Multivariante .
Prentice Hall, Madrid.
Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.
Manley FJ (1986) Multivariate Statistical Methods, A Primer. Chapmann & Hall,
London.
Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.
Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.
Silva C & Cumsille F (1984) Calculo de Probabilidades. Universidad de Chile, Escuela
de Salud Pblica. (apunte).
Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.
Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.
191
Steel RGD & Torrie JH (1980) Bioestadstica: Principios Y Procedimientos. McGrawHill Latinoamericana SA, Bogot.
Taucher E (1997) Bioestadstica. Editorial Universitaria, Santiago, Chile.
Zar JH (1996) Biostatistical Anlisis. Prentice Hall, New Jersey.
192
Frecuencia relativa hi ni / n
i j
Frecuencia acumulada N j ni
i 1
i j
Promedio x
Mediana Me y ' L1
n y
i
hi yi
cL (n / 2 N L1 )
nL
cL (np / 100 N L1 )
nL
xi2
Varianza s x 2
n
2
ni yi2
y 2 hi yi2 y 2
Varianza en una serie agrupada s
n
2
Desviacin estndar s s 2
Coeficiente de Variacin CV s / x
Error estndar (Es): Es s / n
193
III.- PROBABILIDADES
Probabilidad P( A)
casosfavorables
casosposib les
P( A B)
P( B)
Teorema de Bayes P( Bi / A)
Chance u odds O
P( A / Bi ) P( Bi )
j P( A / B j ) P( B j )
p
1 p
Sensibilidad S P( / E )
a
ab
Especificidad Sp P( / noE )
d
cd
a
ac
194
d
bd
ad
n
S
1 Sp
1 1
1
1
]
a d ab cd
Chance a posteriori Op LR Oo
Tasa de evento en el control CER P(evento / control )
a
ac
IC1 [log RR Z / 2
b
bd
1 1
1
1
]
a b ac bd
195
IC1 [log OR Z / 2
a / c ad
b / d bc
1 1 1 1
]
a b c d
n k k
Distribucin Hiergeomtrica P( X k )
N
n
k
k!
E[X] = V[X] =
Distribucin exponencial f ( x) e x
E[X] = 1/ y V[X] = 1/2
DISTRIBUCIN NORMAL f ( x) (1/ 2 ) e
E[X] = y V[X] = 2
(1 / 2 )[
]2
V.- ESTIMACIN
Intervalo de confianza para una proporcin P y para la diferencia P1-P2
IC1 [ p Z / 2 pq / n ]
IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p2 q2 / n2 ]
196
Estimadores en Medicina
Proporciones
Diferencia de proporciones
Sensibilidad,
Especificidad,
Valores
predictivos, certeza diagnstica, CER y
EER
Reduccin y aumento absoluto del riesgo:
ARR y ARA
Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los lmites de
confianza para ARR y ARA y se calcula su inverso.
Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR)
Para log RR: IC1 [log RR Z / 2
1 1
1
1
]
a b ac bd
1 1 1 1
]
a b c d
1 1
1
1
]
a d ab cd
Z 2 / 2 PQ
Tamao muestral para estimar una proporcin n
d2
197
t12 / 2 s 2 Z 2 / 2 s 2
DECISIN
V (H1F)
ERROR I ()
C = 1-
Rechazo Ho
Acepto Ho
DE
VERDAD
de
Ho
F (H1V)
K = 1-
ERROR II ()
p p0
p0 q0
n
x 0
s
n
( p 1 p 2 ) P0
p n p 2 n2
donde p0 1 1
n1 n2
1 1
p0 q0 ( )
n1 n2
x1 x2 0
(n1 1) s12 (n2 1) s22
2
donde sc
n1 n2 2
1
2 1
sc ( )
n1 n2
198
x1 x2 0
(
2
1
2
2
s
s
)
n1 n2
s12 s22
n n
gl 12 2 2
s12 s22
n1 n2
n1 1 n2 1
d
sd / n
s M2
2
sm
2
( r 1)( c 1)
P( X x); dondeP( X x)
x N1,1
( o e) 2
e
i, j
2
n 1
n ( p
i
pq
( o e) 2
e
p)
en donde p ni p1 / n
i
199
( B C 1) 2
(B C)2
2
Dcima de McNemar
o 1
(B C)
(B C)
2
1
SC
(Yi 02 / n) Y002 / nt
Gl
t-1
(dentro o yij2 Yi 02 / n
ij
i
error)
TOTAL
yij2 Y002 / nt
CM=SC/gl F
P
F
=
CME/CMD
t(n-1)
nt-1
ij
Transformaciones
Distribucin
Normal
Binomial (proporciones)
Poisson (sucesos raros)
Sin homocedasticidad
(y)
C = constante
y(1-y)
Y
y2
y4
Binomial negativa
Decreciente
Contrastes ortogonales t gle
Lj
CMD ci2 / ni
Transformacin f(y)
Y
arcsen(y)
y
ln(y) o ln(y+1)
1/y o 1/(y+1)
arcsen(y)
y2
200
Prueba de Dunnet t d
yi 0 ycontrol
2CMD / n
L2
Prueba de Scheff Ft 1, gle
(t 1) CMD ci2 / ni
yi 0 y j 0
(CMD / 2) (
1 1
)
ni n j
T3
T2
T1
T2
T1
T3
T2
T3
T2
N1
N2
N2
T3
N1
N2
Cuadrado latino
B1
B2
B3
b1
T1
T2
T3
B2
T2
T3
T1
B3
T3
T1
T2
201
T3
T1
T2
T1
T2
T1
T2
T2
T1
T2
t1
t2
t1
t2
t1
t2
T1
T3
t R
12
0j
3(n 1)
Prueba de Kruskall-Wallis: H
N ( N 1) 1 n j
R0 j R0 k
Prueba de Friedman t2
N t
H
( N 1 H )(t 1)
n(nt )(nt 1)
12
12
R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
b(t )(t 1)
12
( x x )( y y )
( x x ) ( y y)
i
Prueba de Hiptesis t n2
x y
i
1 r2
x y / n xy
x /n x
i
2
i
nx y
( xi2 nx 2 )( yi2 ny 2 )
r n2
B0 y B1 x
202
S yx2
(x
x)2
Pruebas de Hiptesis t n2
ei2
1
x
2
) donde S yx
y V [ B0 ] S (
n ( xi x ) 2
n2
2
yx
B*
V [ B* ]
ANOVA de la regresin
Fuente de SC
Gl
variacin
Modelo
( yi' y) 2 B12 ( xi2 nx 2 ) 1
(Regresin)
Residuo
n-2
(por diferencia)
Total
( y
y ) 2 yi2 ny 2
CM
F1,n-2
SC/gl
CMmodelo/CMresiduo
SC/gl
= Syx2
n-1
SCregresi n
SCTotal
ei2
S yx2
Error tpico de la estima S yx
n2
( xk x ) 2
1
n xi2 ( xi ) 2 / n
( xk x ) 2
1
n xi2 ( xi ) 2 / n
i n
6 d i2
i 1
n n
3
203
ANCOVA
Factor
A1
Y
A
A2
A3
11 12
t n1 n 24
2
S yxc
(
1
1
)
x12i x22i
donde S yxc
SCresiduo 1 SCresiduo 2
n1 n2 4
Nx
N0
d x (l x l x 1 )
. A veces es til
Nx
lx
Tx
lx
(l x l x 1 )
2
204
l x mx
lx
yl m
x
R0
(Oi Ei ) 2
Ei
1
t
2
t 1
P
1
) X P
1 P
1 e ( X )
( m2 2 p)
2 L(0)
px
1 px
e ( x )
( x*) e ( x x*) .
La razn de chances (odds ratio) OR
p x*
e
1 p x*
)2
205
X t at i ( X t i ) i (at i )
i nk
Autocorrelacin rk
(X
i 1
X )( X t k X )
i n
(X
i 1
X)
AR1 X t 1 ( X t 1 ) at
AR2: X t 1 ( X t 1 ) 2 ( X t 2 ) at el decrecimiento de la FAC es ms
lento y en la FACP slo los dos primeros coeficientes son distintos de 0.
Adems r1
1
12
r
y 2
2
1 2
1 2
MA1: X t at 1 ( X t 1 ) , adems r1
1
1 12
(n1 n2 p 1)T 2
( p(n1 n2 2))
206
0
2
2
2
Expresin matricial de una regresin
. 1 . 1 .
y n 1 xn
n
O, en trminos ms simples: [Y ] [ X ] [] []
] [ X T X ]1 [ X ]T [Y ]
Estimadores de los coeficientes de regresin [
La tabla de ANOVA:
Fuente
variacin
Modelo
de Grados
libertad
P
Error
n-(p+1)
Total
n-1
R2
de Suma
de
cuadrados
][ X T Y ] n[Y ]2
[
]T [ X T Y ]
[Y T Y ] [
Cuadrados
medios
SC/gl
SC/gl=Syx2
[Y T Y ] n[Y ]2
SC mod elo
SCT
b jh
b jj bhh
y en particular rj . y
b jy
b jj byy
Fp,n-p+1
CMmod/CME
207
Descomposicin de la correlacin
Descomposicin general
2
si
bs1 r12bs 2 r1 y
r12bs1 bs 2 r2 y
s xi bi
sy
y r12bs1 bs 2 r23bs 3 r2 y
r13bs1 r23bs 2 bs 3 r3 y
( j
i xi )
i
208
Anlisis de concordancia
(a c)(a b) (b d )(c d )
(a c)(a b) (b d )(c d )
n
n
Certeza azarosa C z
n
n2
Concordancia
C Cz
1 Cz
Prueba de Hiptesis z
C z (1 C z )
n
pq
}ln(1 j )
2
[V [ ]]
0 [ I ] vk
vk
L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio
{i} de la matriz de correlacin entre las variables ([ ]). Adems la traza de [ ] = i
= p, y entonces la proporcin de la varianza que explica cada componente k es k/p.
Factor score coefficients
1/ 1 .
0
[F ] 0
.
0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0
0 1/ p
209
residual
q
p j p q
j (
)
pq
1
[ A]
Matriz de Correlacin T
[C ]
[C ]
[ B]
210
p
X
i 1
ij
X ik
Distancia de Manhattan DM X ij X ik
i 1
(X
i 1
ij
Coeficiente de Jaccard: J
ad
abcd
a
abcd
Coeficiente de Dice: CD
X ik )
ad
a 2b 2c d
2a
2a b c
Coeficiente de Hamann: H
2(a d )
2(a d ) b c
(a d ) (b c)
abcd
211
Area
0.5000
0.4602
0.4207
0.3821
0.3446
0.3085
0.2743
0.2420
0.2119
0.1841
0.1587
0.1357
0.1151
0.0968
0.0808
0.0668
0.0548
0.0500
0.0446
0.0359
0.0287
0.0250
0.0228
0.0062
0.0013
212
= 0.05
2.01
1.94
1.90
1.86
1.83
1.81
1.75
1.72
1.71
1.70
1.64
= 0.025
2.57
2.45
2.36
2.31
2.26
2.23
2.13
2.09
2.06
2.04
1.96
213
C.- DISTRIBUCION 2
Valores crticos para = 0.05
Grados de libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
Valor crtico
3.84
5.99
7.81
9.49
11.1
12.6
14.1
15.5
16.9
18.3
19.7
21.0
22.4
23.7
25.0
26.3
27.6
28.9
30.1
31.4
37.7
43.8
214
D.- DISTRIBUCION F
Valores crticos para = 0.05
Grados
De
Gr. libertad 1
2
denominador
3
10.13
9.55
4
7.71
6.94
5
6.61
5.79
6
5.99
5.14
7
5.59
4.74
8
5.32
4.46
9
5.12
4.26
10
4.96
4.10
15
4.54
3.68
20
4.35
3.49
25
4.24
3.38
30
4.17
3.32
40
4.08
3.23
50
4.03
3.18
60
4.00
3.15
3.84
2.99
Libertad Del
3
4
Numerador
5
8
10
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.29
3.10
2.99
2.92
2.84
2.79
2.76
2.60
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
2.90
2.71
2.60
2.53
2.45
2.40
2.37
2.21
8.78
5.96
4.74
4.06
3.63
3.34
3.13
2.97
2.55
2.35
2.24
2.16
2.07
2.02
1.99
1.83
8.53
5.63
4.36
3.67
3.23
2.93
2.71
2.54
2.07
1.84
1.71
1.62
1.51
1.44
1.39
1.00
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.06
2.87
2.76
2.69
2.61
2.56
2.52
2.37
8.84
6.04
4.82
4.15
3.73
3.44
3.23
3.07
2.64
2.45
2.34
2.27
2.18
2.13
2.10
1.94
215
Gr. libertad
5
10
15
20
2
3.64
3.15
3.01
2.95
2.77
3
4.60
3.88
3.67
3.58
3.31
T
4
5.22
4.33
4.08
3.96
3.63
5
5.67
4.65
4.37
4.23
3.86
8
6.58
5.30
4.94
4.77
4.29
10
6.99
5.60
5.20
5.01
4.47
216
Valor crtico
10
14
19
24
30
37
44
89
217
n1 = 3
4
5
6
7
8
9
10
n2=2
10
12
13
15
16
18
20
22
3
15
17
20
23
24
27
29
32
10
24
27
30
33
36
39
42
36
40
43
47
50
54
127