Вы находитесь на странице: 1из 12

Universidad de Chile

Facultad de Ciencias Sociales (FACSO)


Departamento de Sociologa

Gua 10: Distribucin normal y


probabilidades
Ayudanta Estadstica I 2014

Equipo de ayudantes:

Ignacio Daz

Carolina Garca

Magdalena Len

Felipe Ruiz

Francisca Torres

Docentes: Paulina Lizama, Giorgio Boccardo

Noviembre de 2014
Contenido
Percentiles y SPSS............................................................................................................................ 2
Distribucin normal, estandarizacin, intervalos y zonas crticas .................................................. 4
Propiedades de la distribucin normal ....................................................................................... 4
Estandarizacin ........................................................................................................................... 4
Intervalos y zonas crticas............................................................................................................ 6
Probabilidades................................................................................................................................. 8
1 propiedad ................................................................................................................................ 8
2 propiedad: La regla de la adicin ............................................................................................ 8
3 propiedad: La regla de la multiplicacin ................................................................................. 9

1
Percentiles y SPSS
Mediana, cuartiles, quintiles, deciles y percentiles son medidas de posicin. Corresponden a cortes
dentro de la distribucin de datos que permiten ubicar datos de referencia, es decir, establecer sub-
segmentos dentro de un grupo mayor.

Para esto podemos usar SPSS:

Abrimos la base de datos que contiene los puntajes PSU a nivel nacional del ao 2012. Vamos a
Analizar  Estadsticos descriptivos  Frecuencias, e incorporamos la variable Puntajes PSU
Lenguaje. Hacemos clic en la opcin Estadsticos y establecemos nuestra configuracin:

En Valores percentiles marcamos: Cuartiles e ingresamos, por ejemplo, los percentiles 85 y 90 (se
escribe el valor y se presiona Aadir). En las Medidas de tendencia central podemos marcar Media,

2
Mediana y Moda; en Dispersin, marcamos Desviacin tpica. Luego hacemos clic en Continuar y
Pegar. Una vez ejecutada la sintaxis, obtenemos los siguientes resultados:

FREQUENCIES VARIABLES=psu_lenguaje
/NTILES=4
/PERCENTILES=85.0 90.0
/STATISTICS=STDDEV MEAN MEDIAN MODE
/ORDER=ANALYSIS.

Estadsticos
Puntajes PSU Lenguaje
Vlidos 3064
N
Perdidos 6
Media 473,14
Mediana 458,00
Moda 424
Desv. tp. 79,240
25 413,00
50 458,00
Percentiles 75 528,00
85 566,00
90 590,00

Cada percentil muestra el valor por debajo del cual se encuentra ese porcentaje de casos. Entonces:

 Bajo los 413 puntos, se encuentra un 25% de los casos.


 Bajo los 458 puntos, se encuentra un 50% de los casos.
 Bajo los 528 puntos, se encuentra un 75% de los casos
 Bajo los 566 puntos, se encuentra un 85% de los casos.
 Bajo los 590 puntos, se encuentra un 90% de los casos.

Para entrar a la Universidad de Chile se requiere ponderar 600 puntos como mnimo. Aqu estamos
observando los puntajes PSU de Lenguaje en qu percentil se encuentran los 600 puntos? Con el
procedimiento a continuacin, podemos aproximar el resultado (la distribucin de los puntajes no
es exactamente normal, por eso lo podemos slo aproximar).

3
Distribucin normal, estandarizacin, intervalos y zonas crticas
Propiedades de la distribucin normal
La curva normal de frecuencia no es una sola curva, sino una clase de curvas que poseen
propiedades matemticas comunes. Cada curva es simtrica respecto a una lnea vertical. La abscisa
del punto de base de la lnea vertical es la media de los datos (cada curva puede tener una media
diferente), la moda y la mediana coinciden con la media de cada distribucin, y las diferentes
anchuras indican que cada una tiene su propia desviacin estndar (figura 1). A pesar de estas
diferencias, todas las curvas normales de frecuencias se caracterizan por su media y su desviacin
estndar. Independientemente del valor de la media y de la desviacin estndar, 68,2% de los datos
quedan dentro de una distancia  de la media, a uno y otro lado de sta (figura 2); 95,4% de los
casos quedan dentro de 2 de la media, y 99,8% de los casos quedan dentro de 3 de la media
(Kline, 2009).

Figura 1

Figura 2

Estandarizacin
Las unidades de desviacin estndar (), ubicadas en el eje de las abscisas de la curva normal,
corresponden a la medida estandarizada del valor que toma un caso en una determinada variable.
Es decir, traducimos el caso a unidades de desviacin estndar o puntajes Z para poder ubicarlo en
la curva normal. El objetivo de la estandarizacin tambin puede ser comparar puntuaciones de dos
sujetos en distintas distribuciones o de un sujeto en distintas variables. La ecuacin que permite
estandarizar o pasar a puntaje Z es:

 
  
 
= =
 
 


4
Ejemplo

La nota de un alumno en Lenguaje es de 5,3. El promedio de su curso es 4,5, con una desviacin
estndar de 0,5. Cul es su posicin respecto de su curso?
  5,3 4,5
= = = 1,33
0,5
El alumno se encuentra a 1,33 de la media. Sin embargo, no sabemos cul es su posicin en la
distribucin de frecuencias, esto podemos saberlo a travs de la tabla de puntajes Z o tabla de
probabilidades de una normal estndar.

Esta tabla nos muestra la probabilidad de que ocurra un determinado evento, considerndolas a
partir de la media (probabilidad 0,50 o 50%) y el puntaje Z calculado (debemos buscar la
probabilidad en la tabla). Las filas corresponden a la unidad y el primer decimal del valor calculado
con la frmula, y las columnas muestran el segundo decimal del valor calculado con la frmula.
Encontrar la probabilidad (o porcentaje bajo la curva) correspondiente al puntaje Z 1,33 del ejemplo,

5
implica que debemos buscar el valor 1,3 en las filas y luego el valor ,03 en las columnas para
componer el 1,33. La probabilidad correspondiente es 0,40824.

Por otra parte, sabemos que la media se encuentra al centro de la distribucin, por lo tanto, es igual
a 0. En la tabla de puntajes Z, podemos observar que 0 corresponde al 50% de la curva normal.
Por lo tanto, nuestro estudiante se encontrara en el 40,82% sobre la media, o en el 90,82% de la
distribucin (50% + 40,82% = 90,82%) o percentil 91.

Si queremos comparar su nota con otra variable, por ejemplo, el promedio de notas del mismo
estudiante en Matemticas, podemos recurrir tambin a la estandarizacin o tipificacin.

El mismo estudiante tiene promedio 5,9 en Matemticas y el promedio de su curso es 5,7, con una
desviacin estndar de 0,9 en qu ramo le ha ido mejor?
  5,9 5,7
= = = 0,22
0,9
Primero, comparando los puntajes Z, observamos que 1,33 es mayor que 0,22, por lo tanto, ha
tenido mejor desempeo en Lenguaje que en Matemticas, considerando la distribucin de
frecuencias. Es distinto si lo vemos en trminos absolutos, puesto que 5,9 (Matemtica) es mayor
que 5,3 (Lenguaje).

Segundo, podemos decir que le ha ido mejor en Lenguaje si observamos su posicin en la


distribucin. Buscamos la probabilidad correspondiente al puntaje Z en la tabla anterior:
corresponde a la interseccin entre 0,2 en las filas y ,02 en las columnas. 0,22 corresponde a
0,08706, es decir, el estudiante se encuentra en el percentil 59 (50% + 8,706% = 58,71%) de la
distribucin.

Intervalos y zonas crticas


Una vez que hemos entendido la lgica de la estandarizacin y la curva normal, podemos pensar en
la construccin de intervalos y la definicin de la zona crtica.

Existen dos tipos de estimacin, la estimacin puntual y la estimacin por intervalo. En el segundo
tipo, necesitamos definir un nivel de precisin que vendr dado por el nivel de error y el nivel de
confianza:

( ) * +,) + ( ) *-


.
= 100%
Si estimamos usando un 95% de confianza, lo que hacemos es plantear que existe un 95% de
probabilidad de que el intervalo incluir el valor real del parmetro y que el nivel de error o nivel de
significacin ser de un 5%.

La idea es hacer estimaciones con alta probabilidad de ocurrencia. Cul es el sentido de estimar
usando un 50% de confianza? Ninguno, pues equivale a lanzar una moneda.

Como hemos visto, la tabla de puntajes Z, contiene todas las probabilidades posibles entre 4 y
4. Por lo tanto, podemos traducir nuestro nivel de confianza (o probabilidad de que un intervalo
de estimacin contenga al valor real del parmetro) a puntajes Z. As, construimos la siguiente tabla
con los niveles de confianza y significacin ms comunes en la investigacin:

6
Nivel de Probabilidad Puntaje Z Nivel de Probabilidad
confianza significacin
90% 0,90 1,28 1,64 10% 0,10
95% 0,95 1,64 1,96 5% 0,05
99% 0,99 2,33 2,58 1% 0,01

La primera columna de puntajes Z es para pruebas de una cola, y la segunda es para pruebas de dos
colas:

Nos centraremos en la prueba de dos colas, puesto que al estimar un intervalo nuestro mnimo o
mximo no estarn preestablecidos. La imagen, entonces, nos adelanta dos conceptos: el de valor
crtico y zona de rechazo o crtica.

La zona crtica corresponde a las partes sombreadas de las curvas de la imagen. Y la zona en blanco,
se llama zona de no rechazo o de aceptacin. Los valores crticos delimitan estas dos zonas. Como
vimos antes, existen probabilidades bajo la curva, por lo tanto, si delimitamos una regin debajo de
sta, podemos decir que existe una determinada probabilidad en esa regin.

Si nuestro nivel de confianza es del 95%, la probabilidad bajo la curva ser de 0,95. El puntaje Z
correspondiente es de 1,96. Por lo tanto definimos una zona delimitada por 1,96 0 1,96, los que
sern nuestros puntos crticos.

Al calcular un intervalo con un 95% de confianza, apostamos a que existe un 95% de probabilidad
de que este intervalo s contenga al parmetro real y slo un 5% de probabilidad de error (que no
lo incluya).

7
As, si estimamos con distintos niveles de confianza, tendremos distintas precisiones de estimacin
y distintas probabilidades de que nuestro intervalo incluya al valor real del parmetro. Si cambia el
nivel de confianza, deben cambiar los valores crticos y sus respectivas probabilidades,
consecuentemente.

Probabilidades
Tres propiedades matemticas de las probabilidades (Blalock, 1986, pgs. 128-159):

1 propiedad
En N pruebas no podemos obtener menos de cero xitos ni ms de N, se sigue que para cualquier
acontecimiento A la probabilidad de que A ocurra [lo que se escribe 1+2)] ha de ser mayor o igual
a cero y menor o igual a 1.

0 1+2) 1
Si 1+2) = 1, el acontecimiento A ocurrir con toda seguridad; si 1+2) = 0, en cambio, entonces no
es posible que A tenga lugar.

2 propiedad: La regla de la adicin


Si los acontecimientos A y B se excluyen mutuamente, la probabilidad de obtener A o B [escrito
1+2 * 4)] es igual a la probabilidad de A ms la probabilidad de B.

1+2 * 4) = 1+2) + 1+4) Si A y B se excluyen mutuamente.

Por exclusin mutua entendemos que A y B no pueden tener lugar simultneamente en el mismo
experimento. Por ejemplo, es imposible obtener a la vez un as y un rey si se toma una sola carta de
una baraja corriente.

En una poblacin compuesta de 100 personas de nivel


socioeconmico alto, 400 de nivel socioeconmico medio y 200 de
nivel socioeconmico bajo, cul es la probabilidad de sacar una
persona del NSE medio o del NSE bajo?

(56  * +400) (56 7


8*+200) 600 6
+ = = = 0,8571 = 85,71%
700 700 700 7
Podemos, adems, sealar que:

1 = 1+2) + 1+4) + 1+9) + + 1+;)


1 1+2) = 1+4) + 1+9) + + 1+;)

8
En el ejemplo:

1 = 1+(56
)*) + 1+(56  *) + 1+(56 7
8*)
1 1+(56
)*) = 1+(56  *) + 1+(56 7
8*)
Si A y B son dos acontecimientos cualesquiera (no necesariamente mutuamente exclusivos),
entonces:

1+2 * 4) = 1+2) + 1+4) 1+2 & 4)


En donde 1+2 & 4) representa la probabilidad de obtener a la vez A y B.

Si no restamos 1+2 & 4), estaremos


sumando a A y a B probabilidades de ocurrir
redundantes.

Supongamos que A es obtener una reina y B


es tener espadas. No son eventos
excluyentes, porque puede aparecer una
reina de espadas. Entonces:

1+2 * 4) = 1+2) + 1+4) 1+2 & 4)


4 13 1 16 4
= + = = = 0,30769 = 30,77%
52 52 52 52 13

3 propiedad: La regla de la multiplicacin


Permite obtener la probabilidad de que dos o ms eventos ocurran conjuntamente. Si A y B son dos
eventos cualesquiera, la probabilidad de que se produzcan ambos es el producto de la probabilidad
de que se produzca uno de ellos por la probabilidad condicional de que se produzca el otro, dado
que el primer evento haya ocurrido.

1+2 & 4) = 1+2)1+4|2) = 1+4)1+2|4)


Los smbolos 1+2|4) y 1+4|2) representan lo que se designa como probabilidades condicionales.
1+2|4) debera leerse como la probabilidad de A, dado que B haya ocurrido. Es decir, la
probabilidad de A puede depender de que B ocurra o no. La probabilidad de A sin que haya ocurrido
B puede ser distinta a la probabilidad de A cuando s ha ocurrido B.

Se dice que dos eventos A y B son estadsticamente independientes si, y slo si, 1+2|4) = 1+2); y
1+4|2) = 1+4). Si la probabilidad de que A ocurra es la misma, independientemente de si B ha
ocurrido o no, y si lo mismo es cierto respecto de B, entonces los dos eventos son independientes
uno de otro. El conocimiento de que uno de los acontecimientos se ha producido no ayuda a
predecir el otro (el hecho se saber que una carta es un as no ayuda a adivinar su color).

1+2 & 4) = 1+2)1+4) (Si A y B son independientes)

9
Por ejemplo, lanzar una moneda ms de una vez (que salga cara la primera vez, no indica nada sobre
lo que puede suceder despus).

Cuando no hay independencia

Carcter Morenas Rubias Pelirrojas Total


Emprendedor 300 600 300 1200
Tmido 600 100 100 800
Total 900 700 400 2000

Cul es la probabilidad de sacar al azar una mujer pelirroja emprendedora?

1+2 & 4) = 1+2)1+4|2) = 1+4)1+2|4)


1+1 )*8
& 6>  *
) = 1+1 )*8
)1+6>  *

* 1 )*8
)
= 1+6>  *
)1+1 )*8

* 6>  *
)
400 300 1200 300
1+2 & 4) = =
2000 400 2000 1200
3
1+2 & 4) = = 0,15 = 15%
20

Con reposicin o sin reposicin

La probabilidad de sacar un as, con dos intentos, se consideran eventos independientes, sin
embargo el resultado cambia, si para el segundo intento volvemos a por la carta en la baraja o si
dejamos fuera la carta del primer intento.

Con reposicin Sin reposicin


A= Tener un as en la 1 A= Tener un as en la 1
B= Tener un as en la 2 B= Tener un as en la 2

4 4 4 4
1+2 & 4) = 1+2)1+4) = 1+2 & 4) = 1+2)1+4) =
52 52 52 51

El N total se redujo en 1 unidad.

10
Tenemos 3 eventos independientes

Blancos No blancos
Actitud Total
Republicanos Demcratas Republicanos Demcratas
A favor del
aumento de
50 100 25 225 400
la asistencia
social
En contra del
350 200 25 25 600
aumento
Total 400 300 50 250 1000

Cul es la probabilidad de sacar un blanco, que sea republicano que est a favor del aumento de la
asistencia social?

1+2) = 4)
*
1+4) = @ >7)
*
1+9) = 2 -
* )
 * )

  
*
)
1+2&4&9) = 1+2)1+4|2)1+9|2&4)
1+2&4&9) = 1+4)
*)1+@ >7)
*
* 4)
*)1+2 -
*
* 4)
* 0 @ >>)
*)

700 400 50 1
1+2&4&9) = = = 0,05 = 5%
1000 700 400 20

11

Вам также может понравиться