Академический Документы
Профессиональный Документы
Культура Документы
Las respuestas de a los cálculos de probabilidad (en este texto) se redondearán y se presentarán con 4 lugares
decimales. Las probabilidades también pueden presentarse como porcentajes multiplicando (p) por 100.
¿Cuál es la probabilidad? Cuestionarse cuántas, del total de veces ocurre una categoría de eventos, cuántas de esas veces
podemos esperar ese resultado, esto se expresa como proporción o porcentaje.
Reglas básicas de la teoría de probabilidad (Todos los cálculos de probabilidades las utilizan)
1) Las probabilidades siempre varían entre 0 y 1. Debido a que son proporciones, su límite inferior es 0 (el evento
no puede ocurrir) y su límite superior es 1.00 (el evento debe ocurrir). Se calculan entre 0.00 y1.00 (0%, 100%).
Si no se encuentra entre estos valores daría un error matemático.
2) Regla de probabilidad 2 (De adición para eventos alternativos). A veces deseamos definir “éxito” como más
que sólo un evento (Ej: Sacar un rey o un as), dos alternativas de “éxito”. Esta regla de adición para eventos
alternativos establece que la probabilidad de eventos alternativos es igual a la suma de las probabilidades de los
eventos individuales.
Truco: Reemplazar la palabra “o” con un signo de adición
+. Posteriormente se utilizará P para representar la
probabilidad de éxito y Q para la de fracaso.
La puntuación Z, indica cuántas desviaciones estándar está alejada una puntuación bruta (X) de la media:
Aproximadamente 68% de los casos en una población normalmente distribuida tienen puntuaciones X dentro de una
distancia de 1 desviación estándar a ambos lados de la media (entre 1 puntuación Z demás y menos 1). Con la tabla
estadística podemos calcular puntuaciones Z y utilizarlas para determinar cualquier área bajo la curva (partición de áreas
bajo la curva normal). Observemos que (p) se utiliza tanto para proporciones, como para probabilidades, ya que las
probabilidades son proporciones del número de veces que se tiene éxito de todas las ocurrencias posibles. Conocer la
probabilidad de éxito para la población en conjunto nos da la probabilidad de éxito para un solo sujeto, por tanto un área
especificada bajo la curva normal proporciona la probabilidad de ocurrencia de cualquier puntuación individual que cae
entre dos valores de puntuaciones cualesquiera.
Esta tabla proporciona lo necesario para calcular con exactitud qué extensión del área está bajo la curva entre dos
puntuaciones cualesquiera a los lados de cualquier puntuación individual. Un área bajo la curva representa una
proporción (p) de la población entre las puntuaciones brutas correspondientes a esta sección de la curva. Estas p se
calculan con cuatro lugares decimales.
A. La columna A de la tabla de la
curva normal indica puntuaciones X, donde
𝑍𝑋 es el número de desviaciones estándar
que una puntuación X se desvía de la
media. La columna A proporciona
puntuaciones positivas (las de la derecha
de la curva normal), sin embargo, como la
curva es simétrica también se puede
utilizar con las puntuaciones Z negativas
(imaginando un – delante del número)
B. La columna B de la tabla de la
curva normal proporciona el área
desde la media hasta la
puntuación Z. Es una puntuación
Z de 1.00 en la columna. Hasta
1SD es un 34%. Debido a que
más menos 1 SD es un 68%.
Problema tipo 2: p [de casos mayores de una puntuación X] Determine la proporción (p) de casos mayores que una
puntuación X específica.
Plan de solución: Traza y marca la curva normal para la variable
X; sombrea el área objetivo (p) desde la puntuación X hacia la cola
en la dirección positiva o “mayor que”; calcula la puntuación Z y
ubica en la columna A; obtén p de la columna C. X: puntuación de
13 o mayor en la escala
Calcula la puntuación Z para X=13, se busca el resultado en la
columna de la tabla de la curva normal y se reporta [de X
≥13]=0.0062, esto se multiplica por 100. Se explica que si se
eligiera un nombre al azar entre los expedientes habría una
probabilidad menor al 1% (0.62%) de que esta persona tuviera una
puntuación igual o mayor de 13.
Problema tipo 3: p [casos entre dos puntuaciones X en lados
distintos de la media].
Determina la proporción de casos entre dos puntuaciones X, una
debajo de la media y la otra arriba de la media.
Plan de solución: Traza y marca la curva normal; sombrea el área
objetivo desde una puntuación X hasta la otra; calcula las
puntuaciones X para las dos puntuaciones X; ubícalas en la tabla de
la curva normal. Obtén las áreas de PA y PB, calcula el área (p),
que será la suma de PA y PB.
Problema tipo 6 p [de casos menores que una puntuación X que es mayor a la media] Determina la proporción (p)
de casos menores que una puntuaciones que una puntuación X especificada que es mayor que la media. Traza la curva,
sombrea el área (p), calcula Z y ubícalo en la columna A de la
curva normal; obtén p de la columna B y suma 0.5000.
Probabilidad de que una destinataria de asistencia
seleccionada al azar tenga una puntuación de 10.5 o menos en
la escala.
Sugerencia de estudio: La tabla de la curva normal
proporciona áreas sólo para un lado de la curva, una curva
normal tiene una mediana igual a la media; por tanto la mitad
(una proporción de 0.5000) de las puntuaciones caen debajo
de la media. Esta ilustración se resuelve trabajando con el área
arriba de la media y luego sumando el área debajo de la
media. Para encontrar la proporción (p) de casis mayores que
una puntuación X especificada que es menor que la media,
trabaje desde el lado izquierdo, calcula el área bajo la
media y luego súmala a 0.5000, que es el área arriba de la
media.
La probabilidad de que una destinataria seleccionada al azar
tenga una puntuación de 10.5 o menor en la escala de
autoestima es mayor que 89%.
Problema tipo 7: encuentra la puntuación X que tiene una (p) especificada [de casos menores que una puntuación
X que es mayor a la media] arriba o debajo de ella. Determina el valor de una puntuación bruta X para la cual un
porcentaje especificado de la muestra o población cae arriba o debajo de ese valor. Plan de solución:
Mientras que los problemas anteriores proporcionaban una puntuación X y requerían un área (p), este problema
proporciona información sobre p y requiere una puntuación X. Traza y marca la curva normal; identifica
aproximadamente y sombrea el área objetivo p, encuentra esta área
en la columna B o en la C de la tabla de la curva normal.
Cualquiera que sea la columna aparentemente apropiada para el
trazo, lee la columna A para obtener la puntuación Z, despeja para
X como sigue:
Capítulo 7
Uso de la teoría de la probabilidad para producir distribuciones muestrales
Introducción: estimación de parámetros
La población es un conjunto grande de personas respecto a quienes queremos conseguir información. Los estadísticos de
una muestra proporcionan estimaciones de los parámetros de la población total.
Estimaciones puntuales
El error de muestreo es la diferencia entre el valor calculado de un estadístico de la muestra y el valor real de un
parámetro de la población que por lo general se desconoce. Una estimación puntual es un estadístico proporcionado sin
indicar un rango de error, en este caso si tomamos una segunda, tercera o cuarta muestra tendremos medias ligeramente
diferentes.
Predicción del error de muestreo
Al descubrir la variabilidad de la muestra (reconociendo que cada estadístico de la muestra difiere ligeramente del
siguiente), permite la comprensión del error de muestreo. Los estadísticos han aprendido sobre el error de muestreo
mediante el muestreo repetido, tomando una muestra y calculando sus estadísticos y luego tomando una segunda
muestra, una tercera, una cuarta y así sucesivamente, de esta forma comprueban que 1) los resultados calculados serán
distintos de una muestra a otra, 2) los cálculos realizados en una muestra son sólo estimaciones. Es decir los estadísticos
de una muestra estarán ligeramente errados de los valores reales de los parámetros de la población.
Se utilizan los símbolos:
Los cinco pasos para calcular un intervalo de confianza de una media poblacional µ𝑋:
1) Enuncia la pregunta de investigación, identifica
el nivel de medición de la variable, enumera los
“daros” y traza un diagrama representado la
población objetivo, el parámetro que se estimará, la
muestra y sus estadísticos.
2) Calcula el error estándar y el término del error
3) Utilizando la fórmula general para intervalos de
confianza calcula el LCI (límite de confianza
inferior), LCS (límite de confianza superior)
4) Proporciona una interpretación de las
averiguaciones en lenguaje común. Y una
utilizando la noción de “confianza en el
procedimiento”
Interpretación apropiada de los intervalos de confianza
Para un intervalo de confianza de la media de 95%, nuestra interpretación estadística inicia: si los mismos
procedimientos muestrales y estadísticos se realizan 100 veces, 95 veces la media poblacional real (µx) estará
comprendida en los intervalos calculados. Como no reunimos los datos para toda la población, no podemos
declarar el valor exacto real de la media poblacional, hay una posibilidad de que el intervalo de confianza
calculado no incluya el parámetro real, en 95% tenemos un 5% de posibilidad de fracaso (nivel de significación
o error esperado).
La figura 8.2 representa la noción de muestrear de manera repetida y calcular intervalos de confianza (mayor a
121). 95 de cada 100 medias muestrales se calcularán dentro de 1.96 errores estándar de la media poblacional
real. Además esta figura sugiere que el
procedimiento estadístico de calcular de manera
repetida intervalos de confianza, resulta en la
media poblacional real cayendo dentro de un
intervalo predecible 95% de las veces (se errará el
parámetro correcto un 5% de las veces)
Figura 8-2
Circunstancias en las que es apropiado calcular un intervalo de confianza de una proporción de la población:
El requerimiento de que el tamaño de la muestra (n),sea lo suficientemente grande tal que (𝑃𝑚𝑒𝑛𝑜𝑟 ) (n) ≥5 es la
única restricción sobre el tamaño de la muestra. La 𝑍𝑎 para un intervalo de confianza de 95% siempre será +-
1.96 y para el intervalo de confianza de 99% será de +-2.58.Un error estándar lo calculamos con base en los
datos muestrales (capítulo 7) y el término del error como sigue:
Para los niveles de confianza de 95% y 99% tradicionales utilizamos las siguientes ecuaciones:
Una distribución muestral de proporciones está normalmente distribuida sólo cuando el valor menor 𝑃𝑠´ y 𝑄𝑠´
por n es mayor o igual que 5. Si (𝑃𝑚𝑒𝑛𝑜𝑟 ) (n) ≤5 lo mejor es aumentar el tamaño de la muestra.
Selección de un tamaño de la muestra para elecciones, encuestas y estudios de investigación
Tamaño de la muestra para un intervalo de confianza de una proporción de la población
¿Qué tamaño de muestra necesito?, esto es un componente importante en el tamaño de un error estándar. En las
ecuaciones del cálculo del error estándar tanto para medias como para proporciones, el tamaño de la muestra (n)
está en el denominador de las ecuaciones. Un tamaño de la muestra grande producirá un error estándar pequeño.
Si no podemos tener una muestra grande, debemos tener una muestra adecuada para el grado de precisión que
deseamos para los resultados reportados. Este grado de precisión depende de los objetivos de la investigación,
tiempo y dinero. Podemos elegir reportar los resultados con un error de más o menos 1%, 3%, 5% etc…, esta
precisión elegida depende del tamaño del término del error de la ecuación del intervalo de confianza. Elección
del tamaño de la muestra para un intervalo de confianza de proporciones, el estándar tradicional es
reportar resultados con una seguridad de 95% y un rango de error de ∓3%. Se elige este tamaño del término del
error, se determina el tamaño de la muestra para
alcanzar este nivel de error, despejando para n en
la ecuación del término del error. El término del
error para un intervalo de confianza de
proporciones se puede desarrollar como sigue:
Despejando para n resulta la ecuación siguiente para calcular el tamaño muestral necesario:
Para despejar n, se deben conocer todos los otros términos en la ecuación o de lo contrario deben estimarse.
Seleccionamos el nivel de confianza, que determina 𝑍𝑎 . Si seleccionaos el nivel de 95%, 𝑍𝑎 =1.96.
Seleccionamos el grado de precisión, qué tan grande queremos que sea el término del error, por ejemplo ±3%
tradicional (±.03). Debemos estimar 𝑃𝑠 y r 𝑄𝑠 Estas se deben establecer con una investigación previa, si no
tenemos estos datos podemos establecer 𝑃𝑠 en .5. Como 𝑄𝑠 = 1-𝑃𝑠` , entonces 𝑄𝑠 también se estimará en 0.5. Con
todos estos términos despejamos el tamaño muestral necesario cuando queremos un error de ±3% en el nivel de
confianza de 95%.
Observamos que es necesario un tamaño
muestral considerable para un 3% de error
reportado en el nivel de confianza de 95%,
por esto algunos se conforman con muestras
más pequeñas, con un mayor error (±5%).
Para que la diferencia sea relevante en este caso las puntuaciones deben estar separadas por más de 7.0%, por el
término del error de 3.5% elegido.
Inferencia estadística:
Esta inferencia implica
sacar conclusiones acerca
de una población con base
en estadísticos de una
muestra (las inferencias
estadísticas deben tomar en
cuenta el error de muestreo)
Los seis pasos de la inferencia estadística para una prueba de medias de una muestra única grande
Prueba de medias para una
muestra única grande (más de 121
casos) que nos permite utilizar la
curva normal. Utilizamos la
prueba de medias de una muestra
única grade cuando se cumple:
Cada prueba de hipótesis tiene un proceso lógico que se compone de seis partes, “los seis pasos de prueba de
hipótesis”
Preparación de la prueba
Primero identificamos y formulamos una pregunta de investigación “un objetivo que se pueda enunciar en
términos de una hipótesis”. Estas
preguntas se formulan para
resolver puntos prácticos o
responder preguntas que surgen a
partir de la teoría. Después
identificamos los “datos”,
incluyendo las variables
implicadas, población, tamaño de
la muestra, parámetros
proporcionados y los estadísticos
proporcionados o calculados.
Organizamos estos elementos en
un diagrama que distinga la
población de la muestra. Figura 9-3
La prueba de hipótesis es para la población y sus parámetros. Los estadísticos de la muestra son sólo
estimaciones de los parámetros de la población, la muestra solamente es una herramienta para hacer inferencias
estadísticas acerca de la población. El paso final es declarar qué prueba estadística se empleará. En este caso
utilizaremos una prueba de medias para una muestra única grande.
Los seis pasos
Paso 1: La hipótesis nula: En una prueba de hipótesis debemos poner nuestras observaciones estadísticas en un
contexto mayor que tome en cuenta el error de muestreo. Debemos encontrar una “hipótesis estadística”, un
enunciado que proporcione un valor numérico y proyecte una distribución muestral alrededor de él. A esta
hipótesis se le denomina hipótesis nula, una hipótesis enunciada de tal manera que sabremos qué resultados
estadísticos ocurrirán en el muestreo repetido si esta hipótesis es cierta. Simbolizamos la hipótesis nula como
𝐻0` . Esta se enuncia como:
La forma de presentación para todas las pruebas de hipótesis. Las hipótesis nulas siempre se relacionan
con parámetros de la población, no con estadísticos de una muestra. La población a la que aplica el parámetro se
escribe como subíndice. No podemos realizar prueba de hipótesis a menos que podamos identificar una
hipótesis nula relacionada con la pregunta de investigación, ¿Existe alguna forma para predecir resultados
muestrales suponiendo ningún efecto, cero efectos o ninguna diferencia? (nula=ninguna, 𝐻0` , H subíndice cero).
Otra forma de darle sentido a la palabra nula, es observar con qué frecuencia probamos una hipótesis
examinando un enunciado que “nulifique” la pregunta de investigación, invirtiendo o negando sus palabras.
Tratamos de desmentir, con frecuencia se determina invirtiendo las palabras de la pregunta de investigación. En
laboratorio se establece una línea base de “ningún efecto” con un grupo control. Para probar una pregunta de
investigación, rechazamos la hipótesis nula. Lo importante de una hipótesis nula es que debe ser una hipótesis
estadística. Es un enunciado que proporciona una distribución muestral, predicciones de resultados estadísticos
como si sacáramos un número infinito de muestras para determinar la naturaleza del error de muestreo. La
distribución muestral proporciona una forma de medición para calcular la probabilidad del estadístico, calculada
para una muestra que en realidad tomamos.
Hipótesis alternativa 𝑯𝑨 : En cada prueba de hipótesis se requiere la hipótesis nula o “sin efecto” a fin de
proyectar resultados muestrales. Debemos decidir con anticipación qué concluiremos si rechazamos la hipótesis
nula. Este enunciado se denomina hipótesis alternativa (𝑯𝑨 ), la hipótesis que aceptaremos si se rechaza la
hipótesis nula. En general, la hipótesis alternativa es la que aborda directamente la pregunta de investigación.
Hipótesis alternativas posibles: Para cualquier prueba de hipótesis, existe una sola hipótesis nula y una sola
hipótesis alternativa. No obstante, hay tres hipótesis alternativas posibles y para distinguirlas utilizamos el
término dirección. Cuando anticipamos una dirección estamos afirmando que tenemos una razón para creer que
la media muestral caerá arriba o debajo de la media hipotética. Empleamos los términos de una cola y de dos
colas para referirnos a las colas en la curva de la distribución muestral. Existen tres hipótesis alternativas
posibles para el ejemplo:
Positiva significa en el
lado superior del CI
medio. Utilizaremos una
curva de distribución
muestral para calcular la
probabilidad de nuestro
resultado muestral. Cuando
predecimos la dirección
positiva calcularemos puntuaciones Z positiva en la cola de la curva a la derecha arriba de la media.
Negativa significa en el
lado inferior del CI
medio. Cuando utilizamos
una curva de distribución
muestral para calcular la
probabilidad de nuestro
resultado muestral
calcularemos puntuaciones
Z negativas en el lado izquierdo o cola izquierda de la curva.
La tercera opción no es
direccional. No propone
por ejemplo que el CI medio
de los atletas sea mayor o
menor, sólo diferente. En el
cálculo de la probabilidad de
los resultados emplearemos
los dos lados o colas de la
curva de la distribución muestral.
Al probar una hipótesis debemos
decidir cuál de estas tres hipótesis
alternativas aplica. Probamos solamente
una de ellas, esta decisión se toma en base
a la teoría o en consideraciones prácticas.
Aunque hay tres hipótesis alternativas
opcionales para cualquier prueba de
hipótesis, debemos elegir sólo una, esta se
elige antes de observar los datos
muestrales. Para establecer la dirección de
una prueba estadística, examinamos la
pregunta de investigación, si hay palabras
que sugieran direccionalidad positiva
(mayor que, aumento, más pesado que,
más largo, ganancia…) se debe realizar
prueba de una cola. Si hay palabras que
sugieran direccionalidad negativa (menor
que, disminuye, más lento, más bajo…) se
realiza prueba de una cola. Si no se estipula dirección utilizamos prueba de dos colas.
Paso 2:
Describe la distribución muestral: Es el segundo paso en una distribución muestral. Para una prueba de
hipótesis la distribución muestral es una descripción de todos los resultados posibles y la probabilidad de cada
resultado cuando 𝐻0` es cierta. La distribución muestral se elabora respecto al parámetro hipotético de la
hipótesis nula. Si es cierto que el CI medio de la población de atletas es igual a100 entonces el muestreo
repetido de esta población y una gráfica de las 𝑋̅ produce una curva
de distribución normal cuando n>121. Por tanto si 𝐻0` es cierta y se
toman muestras repetidas de tamaño 144 de la población de atletas
de preparatoria, las medias muestrales (𝑋̅) estarán centradas en 100,
como una distribución normal con un error estándar. Trazamos la
curva de la distribución muestral.
El paso 1 proporciona un enunciado 𝐻0` que permite predicciones precisas de resultados muestrales. En el paso
2 se hipotetiza que este enunciado es cierto y describe las predicciones muestrales. Se presenta cada resultado
muestral
Paso 3: El nivel de significación
Establecemos un nivel de significación (simbolizado por α). Esto ayuda a determinar si rechazar la hipótesis
nula (𝐻0` ) o fallar en rechazarla. En la prueba de hipótesis, el nivel de significación es la cantidad de
probabilidad crítica que define qué tan inusual debe ser un resultado muestral para rechazar el valor del
parámetro proyectado en 𝐻0` . El nivel de significación se presenta como una probabilidad en una curva de la
distribución muestral. Esto nos permite usar tablas estándar (curva normal) para calcular probabilidades. Es
común establecer un nivel de significancia de α=0.05
Paso 4: Observa la muestra real: calcula los efectos de la prueba, el estadístico de prueba y el valor p:
En este paso observamos la muestra, la media muestral y la comparamos con el valor hipotético de 100 (del
ejemplo). Para determinar la probabilidad de ocurrencia, calculamos una puntuación Z para transformar los
puntos de CI en errores estándar. Llevamos la puntuación Z a la tabla de la curva normal, para obtener la
probabilidad de ocurrencia del resultado muestral. Para calcular Z tomamos a diferencia entre el valor del
estadístico de la muestra y el valor del parámetro proyectado por 𝐻0` ,
esta diferencia se denomina “efecto de la prueba”. Con la hipótesis
de “cabezas huecas” el efecto de la prueba es -1 punto de CI:
Un efecto de prueba es una puntuación de desviación (es la diferencia o distancia entre la media en el centro de
una curva normal y algún punto (puntuación) en el eje horizontal o X. Las puntuaciones de desviación se
expresan en la unidad original de medición de la puntuación bruta. En el ejemplo: Para calcular el efecto de
prueba debemos estandarizar la puntuación –transformarla en unidades estándar de desviación- tal que podamos
utilizar tablas de probabilidad (tabla de distribución normal). Para pruebas de hipótesis, estas puntuaciones
estandarizadas se expresan en unidades de error estándar. Un estadístico de prueba que se empleará en
conjunto con curvas de probabilidad y tablas estadísticas de probabilidad es una fórmula para medir efectos
estadísticos de prueba en unidades de error estándar.