Вы находитесь на странице: 1из 56

Introduccin

La Binomial
Probabilidades Binomiales p = 0,5 e Histograma.
Diferencias en probabilidades Binomial y Normal.
Como Ejemplo un problema de muestreo.
Figura de una Prueba de dos Colas
Intervalos de Confianza para Nmero de Individuos y Proporciones
Experimentos con Muestras Pareadas.
Comparacin de Clases
Tablas de Contingencia 2 2
Manuel Pontigo Alvarad
Tablas de contingencia h x c
Mpontigo@itcr.ac.cr
Pruebas de Porcentajes. Marte 2004
ISBN 978- 9968 9634-3-5
Abrir Hoja Electrnica
Marte 200
3

Introduccin

Desde el primer captulo se ha utilizado una distribucin


estadstica para efectuar pruebas de variables discretas que
hacen mencin a cantidades de individuos, tal como son las
frecuencias observadas de las distribuciones de datos cuando se
agrupan, para percibir su imagen o buscar mecanismos para
describir e inferir adecuadamente la poblacin que se estudia.
Esta distribucin, adems de utilizarse como mecanismo
para evaluar la aproximacin de las frecuencias observadas a
las desarrolladas con una distribucin probabilstica
denominadas frecuencias esperadas. Se utiliza como una
especie de puente que une la estadstica de variables continuas
con la estadstica que trata de distribuciones resultantes de
cualidades.
3

La Distribucin de 2

La distribucin estadstica edintificada con la letra griega chi o


ji est definida por la estructura matemtica
ns 2 x1 x x2 x ... xn x
2 2 2

2
2

En donde el numerador se conoce como Suma de Cuadrados de


una muestra grande expresada, y perfectamente podra
sustituirse por: n
n 1 s 2 xi x 2
i 1

En el numerador sin perder ninguna de sus propiedades. La


principal, la de ser una distribucin de densidad.
4

El Intervalo de Confianza

Por ser una distribucin de densidad y su forma, permite estimar


intervalos de confianza para la desviacin estndar para niveles de
significacin , sea 0,05 0 0,01 que son los usuales o cualesquiera que
sirvan al proyecto. Considerando el intervalo confiable para una chi-
cuadrada cualquiera:
ns 2
Pr 2
( n 1; ) 2 (2n1);(1 )

Ecuacin que se transforma fcilmente en:
s n s n
Pr 2
( n1; )
2
( n1);(1 )

El intervalo de confianza con probabilidad 1 - para la desviacin


estndar.
5

La Aproximacin a la Normal E.
Quiz la caracterstica se deba a que s se toma el lado positivo de la normal
estndar, la ecuacin:

Se distribuye muy aproximadamente como una Normal Estndar


acumulativa cuando el nmero de Chi-cuadradas parciales es mayor a 30. Y
cuando los grados de libertad son = 2

z 2

ATENCIN: La probabilidad desde el valor de 2 hasta infinito es el doble


de la probabilidad de z hasta infinito. Esto es, 2 refleja la probabilidad de
las dos colas en una sola. Por esto:

P( 2 ) 2 P( z )
6

La Binomial.
En otras palabras, la prueba de 2 siempre hace referencia a
una prueba Normal Estndar de dos colas.
P( 2 ) P z P z
2 2

La del extremo inferior y la del extremo superior. Antes de utilizar


esta importante igualdad, se debe aclarar que se va a trabajar con las
variables cualitativas que caracterizan a la Binomial aunque se haya
iniciado con una distribucin para variables continuas como es la
Chi-cuadrada. Recordaremos que la funcin de probabilidad de la
binomial esta definida por:
n
n

F ( x) x n x
q ; i 0,1,...n
p
x 0 x
7
Aproximando a la Binomial con La
Normal Estndar.

Aun cuando La Distribucin Binomial es una herramienta de


deduccin e induccin poderosa, no posee la flexibilidad, los
alcances y sobre todo la simpleza de uso de La Distribucin
Normal Estndar.
La teora estadstica ha desarrollado todo un bagaje cultural y
tecnolgico con estas dos distribuciones pues cubren una gran
cantidad de aspectos relacionados con la aplicacin prctica de
la teora estadstica en el anlisis de poblaciones y en el diseo
de experimentos planificados.
Para iniciar la deduccin del hecho de aproximar una
distribucin discreta mediante una continua, supngase que un
evento ocurre con una proporcin p = 0,5 que se calcularn
para n = 10 sucesos.
8

Probabilidades por Evento.


La probabilidad de que x = 0 individuos de n = 10 seleccionados
al azar posean la caracterstica de inters se calcula mediante:

10
0 10 0 10!
P ( x 0) p q 0,5 0 0,5100 1(0,00098) 0,00098
0 0!10 0 !

La probabilidad de que x = 1 individuos de n = 10 seleccionados


al azar posean la caracterstica de inters:
10
1 10 1 10!
P ( x 1) pq 0,510,5101 10(0,00098) 0,00977
1 1!10 1!
De la misma manera pueden calcularse los eventos restantes
hasta obtener el cuadro que se muestra en la siguiente
diapositiva.
9
El Cuadro de Probabilidades e Histograma.

Tamao muestra 10
Prooprcin inters p = 0,5 Distribucin Binomial para n = 10 y p = 0,5
Proporcin complementaria 0,5
Evento Nmero Probabilidad Propabilidad 0,30
x Combinaiones Binomial Evento
0,25

Probabilidades
0 1 0,00098 0,00098
1 10 0,00098 0,00977 0,20
2 45 0,00098 0,04395
0,15
3 120 0,00098 0,11719
4 210 0,00098 0,20508 0,10
5 252 0,00098 0,24609
0,05
6 210 0,00098 0,20508
7 120 0,00098 0,11719 0,00
8 45 0,00098 0,04395 0 1 2 3 4 5 6 7 8 9 10
9 10 0,00098 0,00977 Eventos posibles de x en 10
10 1 0,00098 0,00098
Sumas 1,00000

Como era de esperarse la suma de las probabilidades individuales de


los eventos x es igual a la unidad. El Grfico representado por barras
muestra una forma muy parecida a la normal. Operando los eventos
como si se tratase de una variable continua se calcula la tabla de
frecuencias para obtener las estadsticas descriptivas.
Tabla de frecuencias y Estadsticos. 10

Evento Frecuencias
pi xi pi xi x 2 Para obtener el promedio y
x o probabilidad
0 0,0010 0,0000 0,0244 la varianza se utiliz la
1 0,0098 0,0098 0,1563 alternativa de multiplicar
2 0,0439 0,0879 0,3955 la probabilidad de cada
3 0,1172 0,3516 0,4688
4 0,2051 0,8203 0,2051 evento por el nmero de
5 0,2461 1,2305 0,0000 aciertos que indica. Como
6 0,2051 1,2305 0,2051 se sabe, el promedio se
7 0,1172 0,8203 0,4688
8 0,0439 0,3516 0,3955
puede obtener mediante:
9 0,0098 0,0879 0,1563
10 0,0010 0,0098 0,0244
= np = 10 0,5 = 5 y la
varianza:
Muestras 10
Promedio 5 2 = npq = 10 0,25 = 2,5
Varianza 2,5 con una = 1,5811.
Desviacin Estndar 1,5811
11

Lmites Estandarizados.
Para poder comparar la distribucin Binomial con la Normal
Estndar es necesario suponer que los eventos ocurren de una
manera continua. Para esto debe considerarse que el lmite
superior de una clase se une al inferior de la siguiente sin
solucin de continuidad. Esto es, de la mitad entre un evento y
otro. -0,5, 0,5, 1,5, 2,5, 3,5 y as sucesivamente hasta el intervalo
10,5.
Despus se obtiene las variables estandarizadas de ambos
lmites, la probabilidad acumulada que determinan en la
distribucin Normal Estndar de manera que la diferencia de
la probabilidad del lmite superior menos la probabilidad del
lmite inferior determinan la probabilidad del intervalo. Los
clculos en la siguiente diapositiva.
12

Probabilidades Esperadas.

Se notan pequeas diferencias entre las probabilidades


puntuales de la Distribucin Binomial y las probabilidades de
los intervalos de la Distribucin Normal Estndar. Veamos
como compensar las.
13

Diferencias de Probabilidades.
En la figura de la derecha se Comparando Distribuciones
Variable z

pueden apreciar las diferencias 0,30


-3,2 -2,5 -1,9 -1,3 -0,6 0,0 0,6 1,3 1,9 2,5 3,2

entre las distribuciones: la 0,25

Probabilidades
binomial est representada por 0,20

las columnas slidas mientras 0,15

0,10
la N. Estndar con los 0,05

rectngulos punteados que 0,00


0 1 2 3 4 5 6 7 8 9 10
representan el rea bajo la Eventos x
Binomial N. Estndar
curva del intervalo.
Por ejemplo la probabilidad que 8 o ms individuos posean la
cualidad, mediante la binomial es: P(8,9,10) = 0,0439 + 0,0098 +
0,0010 = 0,0547. Para aproximar con la N. Estndar considrese la
probabilidad acumulativa hasta el lmite 7,5 que es de 0,9431, por
tanto la probabilidad solicitada es 1 0,9431 = 0,0569 una
aproximacin muy aceptable.
14
Deduciendo las Diferencias: superiores

Pero usualmente se tomar la probabilidad directa al nmero, esto


es 8:
85
z8 1,8974
1,5811
Que determina una probabilidad acumulativa de:
1 8 5
1 1,8974
2 1,5811

P ( z8 )
2


e dz 0,9711

Por tanto la probabilidad estimada es de 1 0,9711 = 0,0289 una


pobre aproximacin. Veamos otro ejemplo considerando la
probabilidad de que se encuentren hasta 4 individuos con la
cualidad. Para la probabilida binomial P(x = 0;1 ;2 ;3 ;4) = 0,0010 +
0,0098 + 0,0437 +0,2051 = 0,3770 o 37,70%. Con la Normal Estndar
tomaremos el lmite 4,5.
15
Deduciendo las Diferencias: inferiores

La probabilidad para el lmite 4,5 es de 0,3779 o 37,79%


tambin una aproximacin muy aceptable. Tomado el valor
neto de 4:
45
z4 -0,6325
1,5811

Que determina una probabilidad acumulativa de:


1 4 5

1 -0,6325
2 1,5811

P( z 4 )
2


e dz 0,2635

Nuevamente se tiene una pobre aproximacin. Tome en cuenta


que nunca se van a tener fracciones de nmeros en la
distribucin binomial, por tanto, el ajuste que se deba hacer
tendr que efectuarse sobre la variable estandarizada.
16

El Ajuste por Continuidad


En general, deber restarse media unidad a cada evento de un
elemento de la distribucin binomial para que su variable
estandarizada pueda aproximarse adecuadamente con la
distribucin Normal Estndar, esto es:
x x 0,5 4 5 0,5
zc 0,3162
s 1,5811

La ecuacin anterior se generaliza como:


1
x np
zc 2
npq
En trminos de nmeros, promedio y varianza de la
Distribucin Binomial.
17
Como ejemplo un problema de muestreo.

En una encuesta a estudiantes del Instituto Tecnolgico se apreci


que las mujeres repiten menos cursos que los hombres. Un grupo de
estudiantes, para su trabajo de final de curso decidi, entre otras
cosas, comprobar esta hiptesis haciendo una encuesta a 328
estudiantes a los que se les preguntaba si haban reprobado algn
curso si era as, se marcaba con 1 en la encuesta y la hoja
electrnica. Los resultados se muestran en el siguiente cuadro.
Perdio No. Perdio Sumas
Hombres 157 64 221
Mujeres 55 52 107
Suma 212 116 328

Interesa la clase de estudiantes que perdieron cursos.


18

La Hiptesis.

La oficina de registro reporta que el 63% de los estudiantes


perdieron algn curso. Entonces, si los hombres y las mujeres
repiten cursos con la misma proporcinla hiptesis se plantea
como:
Ho; PH = PM 0,63, contra Ha; PH = PM > 0,63
Puesto que la proporcin de hombres y mujeres no es la
misma, las pruebas deben efectuarse por separado para
hombres y para mujeres. Si los hombres reprueban igual que
las mujeres, las pruebas deben ser iguales, esto es:
Ho; PH = PM 0,63, contra Ha; PH = PM > 0,63
La Prueba en los Varones. 19

El valor de z calculada para los varones es:


157 0,63 221 0,5
zH 2,4062
221 0,63 0,37
Que determina una probabilidad acumulativa de:
1 1570, 63( 221)

1 2,4062 2 221(0,63)(0,37)
P( z c )
2

e dz 0,9919

Para obtener la probabilidad de la zona de rechazo este valor se


resta de 1: P() = 1 0,9919 =0,0081.
Esto significa, con mucha certeza, que la probabilidad de que la
proporcin con que no pasan cursos los hombres es mayor a 63%.
Por tanto debe rechazarse la hiptesis nula referente a los varones.
La Prueba en las mujeres: 20

Procediendo de manera similar en las mujeres:


55 0,63 107 0,5
zM 2,3848
107 0,63 0,37
Es importante conservar el signo pues la diferencia entre el valor
observado de 55 cursos perdidos observados contra 0,63 107 =
64,41 es negativa y la probabilidad acumulativa que determina es
de: 1 55 0, 63(107 )

1 - 2,3848 2 107(0,63)(0,37)
P ( zc )
2
e dz 0,0085

En la cola del lado izquierdo. Tambin indica una razn poderosa


para asegurar que la proporcin de mujeres que pierden curso es
inferior a 63%. Se acepta la hiptesis nula para las mujeres.
Una Prueba de Dos Colas. 21

Distribuciones para p = 0,63 y n = 10


En ambos casos se ha
-1,96 Valores Estndar +1,96
rechazado la hiptesis nula, sin -4,1 -3,5 -2,8 -2,2 -1,5 -0,9 -0,2 0,5 1,1 1,8 2,4

embargo las implicaciones son 0,30

diferentes. Haciendo un 0,25 z(H)=2,41.

Probabilidades
P(0,0081) < 0,025
0,20 de zona de
diagrama de la distribucin 0,15
z(M)=-2,38. rechazo de Ho.

binomial y normal para 10


P(0,0085) < 0,025
0,10 de zona de
rechazo de Ho.
individuos. Las proporcin con 0,05

que reprueban cursos las 0,00


0 1 2 3 4 5 6 7 8 9 10

mujeres es significativamente Eventos de fallas en 10

inferior a 63% pues el valor z Binomial Normal

Es inferior a 1,96, valor estandarizado que delimita la zona de rechazo en la


cola inferior. Por otro lado, la proporcin de hombres es significativamente
superior a 63% pues el valor de z cae por arriba del 1,96 que delimita la zona
de rechazo de la hiptesis nula en 2,5%. Puesto que puede haber casos que
caigan en cualquiera de los extremos se llaman pruebas de dos colas.
La prueba de en hombres 2 22

La prueba de Chi-Cuadrada opera sobre todas las clases


involucradas en este caso los que pierden cursos y lo que no lo
pierden. (Las diferencias se deben al redondeo ver HE)

2 2 1
x1 np 0,5
2


x2 nq 0,5

2

np nq


157 0,63 221 0,5 2


61 0,37 221 2,1422 3,6475 5,7896
0,63 221 0,37 221

Como se mencion en la diapositiva 6


z 2 5,7896 2,4062
Y las probabilidades como en la diapositiva 7.

P 22 1 0,0161 P z 2,4062 0,00806 P z 2,4062 0,00806 0,0161
La prueba de 2 en las mujeres 23

Se recuerda que las diferencias en probabilidades puede deberse a los


redondeos. Sustituyendo valores en la ecuacin de 2:
2

x 1 np 0,5
2
x nq 0,5
2
2

2 1
np nq


55 0,63 107 0,5 2


52 0,37 107 2,1043 3,5829 5,6872
0,63 107 0,37 107

La probabilidad para este valor es de:


1 1
5, 6872
5,6872 2 1
5, 6872
F (5,6872; 2 - 1) Y0 2 e 2
d 0,0171
0
La raz cuadrada de 2 es el valor de z para ambas colas y las
probabilidades:
1 52 0 , 63(107 ) 1 55 0, 63(107 )

1 - 2,3848 2 107(0,63)( 0,37) 1 2,3848 2 107(0,63)(0,37)
P( zc )
2

e dz 0,0085 P ( zc ) 1
2
e
dz 1 0,99146 0,0085

La probabilidad de 2 es la suma de las probabilidades de las dos colas de


z.

P 22 1 0,0171 P z 2,3848 0,0085 P z 2,3848 0,0085 0,0171
Recomendacin 24

Para aplicar la prueba de 2 debe tenerse la precaucin de valorar si


la prueba de hiptesis involucra valores en ambas colas de una
distribucin normal, caso en el que la probabilidad de chi-cuadrada
considera las probabilidades de la suma de cada una de las colas de la
distribucin normal. Si la prueba es de una sola cola, entonces, la
probabilidad que determina la prueba de chi-cuadrada debe
dividirse por 2 para equipararla a un prueba de z de una sola cola.
Otro punto a tomar en cuenta es el uso de la correccin de Yates o
correccin por continuidad. Usualmente el nivel de confianza es ms
pequeo cuando no se corrige, esto implica disminuir la probabilidad
de cometer error I pero aumenta la probabilidad de cometer error II,
la recomendacin es que lo use siempre que los valores esperados no
sean muy pequeos, caso en que se disturba la prueba. Es
conveniente que valore sus riesgos de cometer errores estadsticos
(vea prueba de hiptesis).
Intervalo de Confianza para individuos 25

Suponga que en el Tecnolgico se inscribieron 5.575 varones y


2.791 mujeres en el semestre. Cuntos alumnos y alumnos que
pierden cursos se esperan con un nivel de confianza de 95%?.
El intervalo de confianza para individuos est definido por:

Pr ( x np) z npq X ( x np) npq 0,95
Para hombres con una proporcin de cursos perdidos de: 0,71

Pr 4.103 1,96 5.775 0,71 0,29 X 4.103 1,96 5.775 0,71 0,29 95%
Pr 4.035 X 4.170 95%

Se espera que entre 4.035 y 4.170 alumnos pierdan algn curso.


5.26 Intervalo de Confianza de proporciones para 26
mujeres.
Ahora se efecta la estimacin usando el intervalo de
confianza para proporciones (y porcentajes):
pq pq
Pr p z P pz 1
n n

La proporcin de alumnas que pierden cursos es de:

0,514 0,486 0,514 0,486


Pr 0,514 1,96 P 0,514 1,96 0,95
2. 791 2 . 791
Pr0,4955 P 0,5326 0,95

Multiplicando Estos porcentajes por el nmero de alumnas


matriculadas se obtiene la estimacin solicitada:
Pr0,4955 2.791 N M 0,5326 2.791 0,95
Pr1.383 N M 1.486 0,95
La Aproximacin a la Binomial 27

Cuando de utiliza la distribucin binomial en la estimacin de


probabilidades se hace referencia a casos muy concretos, en este ejemplo
para un muestra de 10 alumnos: cul es la probabilidad de que menos
del 20% de alumnos no pierdan cursos?
Primero n = 0,2 10 = 2, esto significa que no lo pierda ninguno, que lo
pierda 1 y que los pierdan 2. Por la primera regla de probabilidades sera:
P E P( x 0) P( x 1) P( x 2) 0,000048 0,000819 0,006273 0,007140
Aproximadamente 0,0071 (5.775 + 2.179) = 61 individuos. Se pude
preguntar, la probabilidad de que 8 (80%) o ms pierdan cursos.
P E P( x 8) P( x 9) P( x 10) 0,152876 0,057845 0,009849 0,220571

Aproximadamente 0,220571 (5.775 + 2.179) = 1.889 alumnos. Pero


encontrar por ejemplo el 25% de la poblacin resulta complicado con este
mtodo.
Experimentos con muestras pareadas. 28

En una universidad, para llevar el curso de diseo de


experimentos el alumno debe llevar o haber cumplido un
curso avanzado de clculo . Un grupo de profesores opina que
el requisito no es necesario y decidieron efectuar un
experimento con los alumnos que haban cumplido el primer
curso de clculo. A 112 pares de alumnos de sexo masculino se
les autoriz el curso de estadstica, a la mitad de ellos adems
se les oblig a llevar el segundo curso de clculo sin
enterarlos de la finalidad del cambio en la poltica curricular.
La hiptesis que se va a valorar dice:
La cantidad de alumnos que ganan el curso de estadstica es
igual para aquellos alumnos que llevan el curso de clculo
avanzado como aquellos que no lo llevan.
Los resultados de la experiencia. 29

En cada par de muestras pueden darse los siguientes sucesos: el


que recibe calculo pierda estadstica (0) y el que no recibe clculo
tambin pierda (0); el que recibe clculo pierda (0) el que no lo
recibe gane (1); el que recibe clculo gane (1) el que no lo recibe
pierda (0); que ambos ganen estadstica (1). El resumen de los
eventos se muestra en el siguiente cuadro aledao

Los sucesos en que los dos


alumnos pierden o ganan no
proporcionan informacin til
para valorar la hiptesis.

Por tanto interesa los sucesos en que los grupos cruzados.


Las Clases tiles para la Prueba 30

En el cyadro las clases que interesan a la hiptesis:


Con Clculo Sin Clculo Eventos
Pierde Gana 16
Gana Pierde 35
Suma 51
El promedio de individuos se obtiene dividiendo el total por 2. Esta
cantidad es la esperada, Dicho de otra forma, Si las proporciones
de los grupos que reciben calculo y los que no lo reciben fueran
parecidos. Efectuando la prueba de 2

221
16 - 25,5 0,5
2


35 25,5 0,5
2

6,3529
25,5 25,5

Resta obtener la probabilidad que determina el estadstico.


Las Conclusin mediante la 2 31

1 1
6, 3529
6,3529 2 1
6, 3529
F (6,3529; - 1) Y0 2 e 2
d 0,0117
0

Una probabilidad de 1,17% de que la cantidad de alumnos


que ganan el curso de estadstica recibiendo el curso de
clculo y no recibindolo sean iguales. En otras palabras,
debe rechazarse la hiptesis con un nivel de significacin de
1,17%.
Se va a mostrar la aproximacin de La Normal Estndar
usando el criterio de las variables estandarizadas. Primero
debe entenderse que la proporcin de individuos en uno y
otro grupo debe ser de 0,5 o 50%. Usando esta consideracin,
las pruebas de z se ofrecen en la siguiente diapositiva:
La Conclusin usando el criterio de z. 32

En la comparacin se tienen dos valores de z, uno corresponde a


la cola inferior y otro a la cola superior.
16 51 0,5 0,5 1

16 0 , 5( 51)

z 2,5205 P( zc ) 1 - 2,5205 2 51(0,5)(0,5)

2
e dz 0,0059
51 0,5 0,5

35 51 0,5 0,5 1 2,5205


1

2
35 0 ,5 ( 51)
51(0,5)(0,5)
z 2,5205 P ( zc ) e dz 0,0059
51 0,5 0,5 2

Un valor de z positivo y otro negativo. El primero determina


una probabilidad de menos infinito a -z de 0,0059. El segundo
determina una probabilidad de +z hasta ms infinito de 0,0059.
La suma de ambas es igual a la probabilidad de 2 y se puede
comprobar que z2 = (2,5205)2 = 6,3529 = 21.
Comparacin de clases
33

El ejemplo tpico para este tipo de comparaciones lo constituyen los


experimentos de la gentica mendeliana clsica. Por ejemplo La Ley de la
Transmisin Independiente. Mendel investig la descendencia de hbridos
respecto a varios caracteres alternativos. Poliniz una planta femenina de
semillas lisas y amarillas (AA y BB ambos caracteres dominantes) con
polen de una planta con guisantes rugosos y verdes (aa y bb). La primera
generacin hbrida form semillas lisas y amarillas. Estas semillas los
cruz entre s y la segunda generacin hbrida produjo semillas de 4
clases en las cantidades siguientes: 315 lisas y amarillas, 101 rugosas y
amarillas, 109 lisas y verdes y 32 rugosas y verdes. Segn Mendel, esta
proporcin se deba a la transmisin independiente de las unidades
hereditarias que rigen estos caracteres. Es decir, en la formacin de los
gametos del hbrido contienen A y a; similarmente, contienen B y
b. Cada pareja se transmite de modo independiente de la otra de
manera que el hbrido produce 4 clases de gametos aproximadamente en
igual nmero.
Las Frecuencias Esperadas por Mendel. 34

A a Las cuatro clases de gametos se


unen al azar y forman nueve
B b B b tipos genticos en la segunda
generacin. Con dominancia se
1/4 AB 1/4 Ab 1/4 aB 1/4 ab forman solo cuatro tipos
distintos. Estos se presentan en
las proporciones del cuadro.
Tipos Genticos Frecuencia Fenotipo Relacin
1/16 AABB + 2/16 AABb + 2/16 AaBB + 4/16 AaBb 0,5625 Lisa-Amarilla 9
1/16 Aabb + 2/16 Aabb 0,1875 Lisa-Verde 3
1/16 aaBB + 2/16 aaBb 0,1875 Rugosa-Amarilla 3
1/16 aabb 0,0625 Rugosa-Verde 1

La prueba para este tipo de experimentos consiste en comparar las


frecuencias esperadas con las frecuencias observadas.
Y la hiptesis: Ho; fei ~ (9:3:3:1).
La prueba de 2 para comparar clases. 35

La 2 se calcula para cada una de las clases:

2 4 1
315 312,8 0,5
2


108 104,3 0,5
2


101 104,3 0,5
2


312,8 104,3 104,3


32 - 34,8 0,5 2

0,3293
34,8

1 1
0 , 3293
,3293 4 1
0 , 3293
F (0,3293; 4 - 1) Y0 2 e 2
d 0,9544
0

La probabilidad indica que la similitud entre las frecuencias


observadas y esperadas es de 95,44%. Por tanto, se acepta la
hiptesis de que las frecuencias del cruzamiento siguen la
relacin 9: 3: 3: 1.
Tablas de Contingencia 2 X 2 36

Este tipo de problemas ocurre frecuentemente en proyectos


de investigacin. En muchos experimentos controlados se
pretende comparar dos procedimientos o tratamientos
basndose en resultados obtenidos de muestras
independientes sin que el investigador haya efectuado
apareamientos de unidades. La comparacin de proporciones
de diferentes grupos tambin es muy comn en estudios que
no son tan estrictos como los experimentales, por ejemplo, en
manufacturas se quiere saber la proporcin de artculos
defectuosos provenientes de dos suplidoras del artculo; o en
ingeniera de seguridad automotriz, comparando las
proporciones de daos corporales sufridos en accidentes
automovilsticos por los pasajeros que utilizan cinturn de
seguridad y los que no lo usaron.
Ejemplo del Oculista 37

Una clnica muy famosa de Barcelona Espaa quiere recomendar una


tcnica, ms costosa, para operar cataratas que en apariencia reduce la
opacidad del en el ojo que algunos pacientes presentan despus de la
operacin. Encarga a un profesional que est haciendo su postgrado que
investigue, las ventajas y desventajas de esta tcnica. Con la informacin
que posee la clnica ha encontrado 1.325 expedientes tiles.
Present Opacidad Suma
Tcnicas No Si Tcnica
Nueva Tcnica 395 42 437
Otras Tcnicas 752 136 888
Suma Problema 1147 178 1325
Bajo la hiptesis nula cabra esperar que la proporcin de
individuos que presentan el problema fuera igual. Advirtase que
Ho es equivalente a afirmar que la no presentacin de opacidad es
independiente de la tcnica, es decir, las clasificaciones son
independientes.
Las Proporciones Esperadas 38

El primer paso para la prueba es encontrar las frecuencias esperadas de


cada una de las cuatro clases. Para esto considrese que, s los resultados
no dependen de la alguna condicin, las proporciones marginales contienen
toda la informacin. Se habla de proporciones marginales a las que se
obtienen de dividir los totales para cada clase por el total general. Esto es:
Present Opacidad Suma
Tcnicas No Si Tcnica
Nueva Tcnica 0,3298
Otras Tcnicas 0,6702
Suma Problema 0,8657 0,1343 1,0000

Multiplicando las proporciones marginales correspondientes se


obtienen las proporciones de cada uno de los cuatro eventos;
Present Opacidad Suma
Tcnicas No Si Tcnica
Nueva Tcnica 0,2855 0,0443 0,3298
Otras Tcnicas 0,5802 0,0900 0,6702
Suma Problema 0,8657 0,1343 1,0000
La Ecuacin para obtener las frecuencias esperadas. 39

Multiplicando estas frecuencias por el gran total se obtienen los valores


esperados.
Present Opacidad Suma
Tcnicas No Si Tcnica
Nueva Tcnica 378,3 58,7 437
Otras Tcnicas 768,7 119,3 888
Suma Problema 1.147 178 1.325
Para calcular las frecuencias esperadas en ms simple utilizar los totales
marginales divididos por el gran total:
1
n . n. j ni . n. j
n1. n. j n.. i
xij pi . p. j
n.. n.. 1 n..
n..)
n..
Las cantidades n1. es el total de la hilera 1; n2. es el total de la hilera 2;
n.1 es el total de la columna 1; n.2 es el total de la columna 2 y n.. es el
total general.
La 2 en Tablas de Contingencia 40

La ecuacin de la 2 ya es notoria:

2
h c

x
ij npij 0,5 2
hc

fo
ij feij 0,5 2

( h 1)( c 1)
i 1 npij i 1 feij

La nueva tcnica quirrgica requiere de equipo costoso y un


mtodo de ciruga que alarga el tiempo de operacin, por
esto, es necesario establecer un criterio de al menos 99% de
confianza para la prueba. Por otro lado, debe estarse muy
seguro para recomendar la tcnica como de uso generalizado
a los mdicos.
En este caso, hay suficientes expedientes (informacin) para
asegurar una probabilidad de cometer error II baja y se fija
de una vez la probabilidad del cometer error I en 1%.
La prueba de 2. 41

La prueba se efecta segn lo acostumbrado. Se le recuerda que la


correccin de Yates es opcional pero indispensable en este caso.
2

395 - 378,3 0,5 2


42 - 58,7 0,5 752 - 768,7 0,5 2


2 1 2 1
378,3 58,7 768,7


136 - 119,3 0,5 2

7,7116
119,3

La probabilidad de que las diferencias entre las proporciones de


opalescencia con la tcnica nueva (pA = 0,0443) y las otras (pB = 0,0900) se
deba a efectos fortuitos es de:
1 1
7 , 7116
F 7,7116; 2 - 1 2 - 1 Y0 7,7116
7 , 7116 2-1 2-1
2 e 2
d 0,0055
0

Menos del 1%. En otras palabras, se rechaza la hiptesis:


Ho; pNT = pOT
La reduccin en la opalescencia en lo ojos despus de la operacin de
cataratas depende de la nueva tcnica quirrgica. Por esto, a esta prueba
tambin se le llama Prueba de Independencia de Eventos.
Tablas de Contingencia h c. 42

La prueba de 2 para tablas de contingencia 2 2 se extiende


fcilmente a grupos de h hileras y c columnas. En ecuacin:

2
c

h fo
ij feij 0,5 2

; i 1,2,..., c; j 1,2,..., h
( h 1)( c 1)
i 1 j 1 feij

Es la suma de cada una de las 2 (de cada una de las celdas de


la tabla) valuada en la distribucin de 2 con (h 1)(c 1)
grados de libertad mediante la funcin de distribucin
acumulativa de la HE o de las tablas estadsticas de esta
funcin.
El corrector por continuidad no es obligado, sin embargo,
conveniente, ms, si el nmero de grados de libertad es bajo o
la variable es estrictamente discreta.
Ejemplo de Tabla de contingencia h c 43

Un ejemplo clsico para la prueba de Chi-Cuadrada en tablas de


contingencia h c se refiere a una encuesta para determinar si la
edad de los conductores a partir de los 18 aos, edad en que en
Costa Rica se les otorga licencia de conducir, tiene efecto sobre el
nmero de accidentes de automviles.
Como trabajo de tema a los estudiantes del curso de Estadstica
Bsica se les encarg probar la hiptesis:
El nmero de accidentes es independiente de la edad del conductor
con un nivel de confianza de 0,05.
Los datos provienen de 4.527 registros del historial de conductores
con licencias tipo B1 (vehculos de carga ligera) del Ministerio de
Transportes, Departamento de Trnsito.
Los datos y los Totales Marginales. 44

Los datos de accidentes por edad de los conductores se


muestran en el siguiente cuadro.
Nmero de EDAD DE LOS CONDUCTORES Sumas
Accidentes 18-20 21-30 31-40 41-50 51-60 61-70 N Accidentes
0 295 698 846 826 750 639 4.054
1 23 75 60 51 66 46 321
2 7 31 27 22 15 17 119
ms de 2 1 7 10 6 3 6 33
S. Edades 326 811 943 905 834 708 4.527

Para estimar los valores esperados npij no es necesario calcular las


proporciones marginales pues, tomando los mismos totales por
hilera y columna, y aplicando la siguiente frmula se obtienen las
frecuencias esperadas o individuos esperados. Se ejemplifica para la
celda de la hilera 2 y columna 3.
n2 . n.3 321 943
fe23 n.. p23 66,9
n.. 4.527
Las Frecuencias Esperadas. 45

De la misma manera se calculan las frecuencias esperadas de todas


las celdas. Los resultados en el siguiente cuadro.
Frecuencias Esperadas
Nmero de EDAD DE LOS CONDUCTORES Sumas
Accidentes 18-20 21-30 31-40 41-50 51-60 61-70 N Accidentes
0 291,9 726,3 844,5 810,4 746,9 634,0 4.054,0
1 23,1 57,5 66,9 64,2 59,1 50,2 321,0
2 8,6 21,3 24,8 23,8 21,9 18,6 119,0
ms de 2 2,4 5,9 6,9 6,6 6,1 5,2 33,0
S. Edades 326,0 811,0 943,0 905,0 834,0 708,0 4.527,0

El tercer paso de esta sencilla prueba se consigue calculando las


Chi-Cuadradas para cada celda y sumndolas por hileras y
columnas. Lo usual es sumarlas hacia alguno de los mrgenes y
volverlas a sumar:
295 291,9 0,5 2 639 634,0 0,5
2

2
4 1 6 1 ... 1,4058 ...
291,9 634,0
1 - 2,4 0,5 6 5,2 2,5030 19,2270
...
2,4 5,2
La Valuacin del estadstico 2 46

Finalmente se suman las Chi-Cuadradas del margen para


obtener un estadstico general con el valor de 19,2270.
El resultado de los clculos en el cuadro.
Chi-cuadradas
Nmero de EDAD DE LOS CONDUCTORES Sumas
Accidentes 18-20 21-30 31-40 41-50 51-60 61-70 N Accidentes
0 0,0225 1,0613 0,0013 0,2798 0,0093 0,0316 1,4058
1 0,0064 5,0218 0,6061 2,5022 0,6846 0,2731 9,0942
2 0,1335 3,9543 0,1182 0,0699 1,8819 0,0663 6,2240
ms de 2 0,3232 0,0585 1,0031 0,0014 1,0945 0,0223 2,5030
0,4855 10,0959 1,7286 2,8533 3,6703 0,3933 19,2270
Probabilidad 0,2036

La respuesta de la funcin de la HE es:


1 1
19, 2270
19,2270 41 61
19, 2270
F19, 2270; 41 61 Y0 2 e 2
d
0

DISTR.CHI(19,2270; 3 5) 0,2036
Resultado de la prueba. 47

La prueba indica que no hay evidencias estadsticas para rechazar


que:
El nmero de accidentes es independiente de la edad del conductor .
Recuerde que para considerar la probabilidad significativa debera
ser menor o igual a 0,05. La indicada por la funcin de la HE es de
0,2036 o 20,36% valor que orienta a considerar que las diferencias se
deben al azar. En otras palabras, no hay evidencias para asegurar
que el nmero de accidentes de trnsito depende de la edad del
conductor.
Es Importante hacer ver al estudiante que la prueba no dice nada
sobre las diferencias entre edades. Considerando las dos clases:
entre nmero de accidentes las diferencias parecen evidentes pues la
mayor proporcin corresponde a conductores que no han tenido
accidentes; no as entre edades.
Pruebas de Porcentajes 48

Hay varias alternativas para analizar el comportamiento de las


clases o totales marginales o aun dentro de un grupo. Considrese
la proporcin de accidentes por edad del conductor, esta es la nica
prueba factible pues la inclusin de la clase 18 a 20 con 3 aos de
observaciones modifica el espacio muestral de las otras clases que
es de 10 aos y adems, la ltima es abierta. En este caso, el
anlisis sobre las proporciones para cada edad es el indicado.
EDAD DE LOS CONDUCTORES
N Accidentes 18-20 21-30 31-40 41-50 51-60 61-70 Suma Frec.
0 0 0 0 0 0 0 0
1 23 75 60 51 66 46 321
2 14 62 54 44 30 34 238
3 3 21 30 18 9 18 99
S. Accidentes 40 158 144 113 105 98 658
S. Registros 326 811 943 905 834 708 4.527
Proporcin 0,1227 0,1948 0,1527 0,1249 0,1259 0,1384 0,1454

La pregunta que surge es:


La proporcin de accidentes por edad es igual?
Recordando la aproximacin con la normal. 49

Recurdese que la cantidad:

1
x np
z 2
npq
Es una variable con distribucin Normal Estndar.
Dividiendo por n:
1 1 1
x np p p
n 2 2n
z
1 1 pq
npq
n n n
5.50 La prueba estadstica de DMS (Diferencia 50
Mnima Significativa).
Si se contrastan los valores estandarizados z de dos
proporciones se obtendra una nueva variable estandarizada:
p 1 p 2
z d z1 z 2
1 1
pq
n1 n2
Que puede escribirse como:
1 1
zd pq p1 p2
n1 n2
Si se elige z para un nivel de significacin especfico , el
estadstico se convierte en una prueba llamada Diferencia
Mnima Significativa:
1 1
z pq DMS
n1 n2
La Regla de Decisin en el Contraste. 51

La regla de decisin es:


Si el valor absoluto de la diferencia entre proporciones es mayor o
igual que DMS debe rechazarse la hiptesis nula:
Ho; P1 = P2
La forma alternativa a la prueba es ubicar el punto que define el
valor zd en La Distribucin Normal Estndar:


1 p1 p 2

2 1 1
p q
1 z1 z 2


n1 n2
P( z1 z2 ) e
dz
2

Y decidir segn el valor que indique la probabilidad obtenida, si se ubica


dentro del intervalo de confianza para la prueba se aceptar la hiptesis,
de otro modo se rechazar.
Para el ejemplo se considerar un nivel de significacin de 0,05.
Pruebas de Contrastes Alternados 52

La Diferencia Mnima Significativa para la prueba vara debido a que


vara el nmero de observaciones por contraste, por ejemplo
contrastando la proporcin del grupo 18-20 con la proporcin del grupo
21-30 se obtiene:
1 1
DMS (1820 vs 21-30) 1,96 0,1242 0,04530
326 811
Puesto que el valor absoluto de la diferencia entre proporciones: |0,1227
- 0,1948| = 0,0721 es mayor que 0,0453 deber rechazarse la hiptesis de
que las proporciones son iguales. Usando la prueba alternativa
0,0,1227 - 0,1948
z d z1 z 2 -3,1204 1 0 ,1227 0 ,1948
1 1 1 3,1204
P ( z1 z2 ) dz 0,0009
2 0,0231
0,1242 e
326 811 2

Este valor debe ser inferior a 0,025 para declarar diferencias


significativas y menor a 0,01 para que sea altamente significativa.
Todos los Contrastes 53

Proporciones Observaciones
Contraste 1 2 Diferencia n1 n2 DMS zd Probabilidad Resultado
18-20 vs 21-30 0,1227 0,1948 -0,0721 326 811 0,04530 -3,1204 0,0009 **
18-20 vs 31-40 0,1227 0,1527 -0,0300 326 943 0,04438 -1,3250 0,0926 ns
18-20 vs 41-50 0,1227 0,1249 -0,0022 326 905 0,04462 -0,0950 0,4622 ns
18-20 vs 51-60 0,1227 0,1259 -0,0032 326 834 0,04512 -0,1390 0,4447 ns
18-20 vs 61-70 0,1227 0,1384 -0,0157 326 708 0,04624 -0,6663 0,2526 ns
21-30 vs 31-40 0,1948 0,1527 0,0421 811 943 0,03308 2,4952 0,0063 **
21-30 vs 41-50 0,1948 0,1249 0,0700 811 905 0,03340 4,1051 0,0000 **
21-30 vs 51-60 0,1948 0,1259 0,0689 811 834 0,03407 3,9652 0,0000 **
21-30 vs 61-70 0,1948 0,1384 0,0564 811 708 0,03553 3,1114 0,0009 **
31-40 vs 41-50 0,1527 0,1249 0,0278 943 905 0,03215 1,6976 0,0448 ns
31-40 vs 51-60 0,1527 0,1259 0,0268 943 834 0,03284 1,6000 0,0548 ns
31-40 vs 61-70 0,1527 0,1384 0,0143 943 708 0,03435 0,8151 0,2075 ns
41-50 vs 51-60 0,1249 0,1259 -0,0010 905 834 0,03316 -0,0613 0,4756 ns
41-50 vs 61-70 0,1249 0,1384 -0,0136 905 708 0,03466 -0,7666 0,2217 ns
51-60 vs 61-70 0,1259 0,1384 -0,0125 834 708 0,03530 -0,6951 0,2435 ns
Los conductores entre 21 y 30 aos sufren ms accidentes que los
conductores de otras edades. Los resultados no son contradictorios a la
prueba anterior pues en este caso no se habla de nmero de accidentes que si
toma en cuenta la prueba en tabla de contingencia. Esto es, no hay
interaccin entre edad y nmero de accidentes. En todas las clasificaciones
de accidentes la diferencia se manifiesta.
Resumen 54

Se inici con el estudio la distribucin 2 (chi-cuadrada) que


permite relacionar eventos o nmero de individuos, una
variable eminentemente discreta con La Distribucin Normal
Estndar para variables continuas.
Despus se entr a observar como hay paralelismo entre La
Distribucin Binomial que emula las distribuciones de
cualidades con La Distribucin Normal Estndar que emula
caractersticas cuantitativas, encontrando que la
aproximacin de la normal es convincente.
Si hay pocas observaciones es conveniente hacer una
correccin por continuidad de 0,5 unidades o medio
intervalo de clase.
Conclusin. 55

La distribucin de variables cualitativas y ms


especficamente en su expresin racional como proporciones
o porcentajes puede ser modulada, considerando unas pocas
restricciones fciles de cumplir mediante las herramientas
que proporciona La Distribucin Normal Estndar.

No debe olvidarse, que para ciertas condiciones de


experimentacin, La Distribucin Binomial es la mejor
opcin. Sobre todo, cuando el tema experimentado obliga a
manejar tamaos de muestra muy reducidos, sea por el
costo de la experimentacin o porque implica la destruccin
de material experimental.

En el desarrollo del tema se abrieron muchas alternativas


para el experimentador.
Manuel Pontigo Alvarado:
ITCR, Julio 2005.