Вы находитесь на странице: 1из 61

Conceptos Básicos

Población. Conjunto de todos los valores


(datos) de una variable observada o medida
en un conjunto de objetos dado (Universo).
Muestra. Subconjunto de datos de una
población.

Parámetro. Número que describe una


característica en una población.
Estadístico. Número que describe una
característica en una muestra.
Plan muestral
La forma en que una muestra se selecciona
recibe el nombre de plan muestral o diseño
experimental y determina la cantidad de
información de la muestra. Este plan permite
medir la confiabilidad o bondad de la
inferencia

Confiabilidad
Cantidad de
Plan muestral o bondad de
información
la inferencia
Condición
necesaria pero no
suficiente para
asegurar la
representatividad de
una nuestra
Azar como La distribución de
elemento apropiado frecuencia de las
para la selección de variables será igual
los elementos de la en la población y en
muestra la muestra

Selección
aleatoria
Muestreo Aleatorio
Cualquiera que sea el método de recolección de
datos, un requisito fundamental en la obtención
de información que pueda ser utilizada en la
inferencia estadística es la aleatoriedad.

La aleatoriedad permite eliminar sesgo en la


información y garantiza la aplicación de la
teoría de probabilidad para evaluar la
precisión con que se efectúa la inferencia
estadística.
El muestreo aleatorio consiste de
procedimientos para seleccionar una muestra
de una población estadística, de tal manera
que la selección de elementos se rige por
leyes de azar.

Al muestreo aleatorio también se le llama


muestreo probabilístico.
MUESTRO

No
Probabilístico
probabilístico
Todos los elementos tienen
Presencia el juicio personal
una probabilidad conocida
del muestrista en la
y distinta de cero de ser
selección de los elementos
parte de una muestra
Muestreos No Probabilísticos

Estudios Pilotos
Estudios Cualitativos
Investigaciones en poblaciones de difícil
registro o localización
Ej. Prostitutas, enfermos de VIH
Muestreos No Probabilísticos

Se realiza un muestreo entre los alumnos que van a clases


de la Materia Metodología, eligiéndolos al azar a la
entrada del salón.

Se utiliza la lista de propietarios de líneas telefónicas para


elegir a aquellos que serán encuestados.

Un investigador toma muestras del carbón extraído de


una mina, tomando al azar trozos de carbón de la
parte superior de cada carro
Muestreo Probabilístico

Requiere
Autoponderado
ponderación

Algunos elementos
Todos los elementos
tienen distinta
tienen la misma
probabilidad de
probabilidad de ser
ser parte de la
parte de la muestra
muestra
Muestreo Probabilístico
1). Muestreo Aleatorio Simple.
En el muestreo aleatorio simple ninguna
restricción se impone en la selección aleatoria
de elementos desde la población a la muestra.
Todos los elementos de la población tienen la
misma posibilidad de pertenecer a la muestra.
Para el muestreo aleatorio simple se
recomienda el uso de una tabla de números
aleatorios o un generador de números
aleatorios por computadora.
Por ejemplo:
supongamos que se desea seleccionar una muestra de
tamaño n = 2 de una población que contiene N = 4 objetos. Si
los cuatro objetos están identificados por los símbolos x1, x2,
x3 y x4, ¿Cuántos pares distintos que podrían
seleccionarse?.
Muestra Observaciones en
la muestra
1 X1 , X2
2 X1 , X3
3 X1 , X4
4 X2 , X3
5 X2 , X4
6 X3 , X4

Si la muestra de n =2 observaciones se selecciona de modo


que cada una de estas seis muestras tenga la misma
probabilidad de selección, dada por 1/6, entonces la muestra
resultante se denomina muestra aleatoria simple o
únicamente muestra aleatoria.
Ejemplo

Una base de datos de computadora en una


empresa urbana de abogados contiene archivos
para N=1000 clientes. La empresa desea
seleccionar n = 5 archivos para revisión.

Tomar como base la tabla 10 de números


aleatorios: Los últimos 4 dígitos a partir de la
columna 5 renglón 2

995 680 849 468 672


No. NOMBRE DROGA
1 AMBROCIO RUIZ IVETH ALCOHOL
2 AVILA RODRIGUEZ ISIDRO MARIHUANA
3 BALDERAS HERNANDEZ CESAR PASTA BASE
4 LOPEZ CASTRO ELISEO COCAÍNA
5 CARMONA SOTO ALEJANDRA ALCOHOL
6 CÓRDOBA OSORIO ELIZABETH MARIHUANA
7 ARMENTA RAMIREZ JOSE DE JESUS EXTASIS
8 CRUZ LOPEZ ALEJANDRO ALCOHOL
9 FLORES BAUTISTA MARIA MARIHUANA
10 HERNANDEZ ALVARADO SOCORRO NEOPRÉN
11 SOLIS CEBALLOS SILVIA MARIHUANA
12 MARTINEZ CRUZ YESENIA ALCOHOL
13 MARTINEZ RAMIREZ NORMA MARIHUANA
14 MENDOZA GARCIA JOSE LUIS ALCOHOL
15 MIRANDA PEREZ JOSE LUIS COCAÍNA
16 OCEGUERA MARTINEZ CECILIA PASTA BASE
17 REYES HERNANDEZ MARTHA EXTASIS
18 ROJAS HERNANDEZ CONCEPCION NEOPRÉN
19 ROMAN ZEDILLO MANUEL RELEVON
20 SALAZAR RUIZ XIMENA HEROÍNA
21 SANCHEZ GALLARDO RAYMUNDO MARIHUANA
22 SOLÍS HERNANDEZ BRIAN ALCOHOL
23 TORRES FARIAS TANIA PASTA BASE
24 TRUJILLO LOPEZ MARIO NEOPRÉN
25 BOJORQUEZ ARREOLA MATILDE COCAÍNA
Elija una muestra aleatoria simple de tamaño n=6 de esta
población.
Use la tabla de números aleatorios:
Por pares, empiece en la fila 2 columna 1 y continúe
seleccionando hacia la derecha.

1 2 3 4 5 6 7 8 9 10

Los números seleccionados


son: 22,25,24,13,4,16
Una química investigadora está sometiendo a prueba
un nuevo método para medir la cantidad de titanio
(Ti) en muestras de mineral. Ella selecciona 10
muestras de mineral del mismo peso para su
experimento. 5 de las muestras se medirán usando
un método estándar y las otras cinco usando el
nuevo método. Use números aleatorios para asignar
las 10 muestras de mineral a los grupos nuevo y
estándar.

¿Estos datos representan una muestra aleatoria


simple de entre la población?
948247817184610

Método nuevo 9, 4, 8, 2, 7

Método estándar 1, 3, 5, 6, 10
2). Muestreo Aleatorio Estratificado.

En el muestreo aleatorio estratificado, la


población primero se divide en grupos (estratos)
y luego de cada estrato se selecciona una muestra
aleatoria simple.

La estratificación se realiza de acuerdo a una o


más características de interés. El tamaño de
muestra de cada estrato usualmente es
proporcional al tamaño del estrato.
2). Muestreo Aleatorio Estratificado.
• Las opiniones de la ciudadanía, acerca de la
construcción de un centro comercial.
• Las votaciones nacionales suelen comprender
alguna forma muestral aleatorio estratificado
con estados como estratos.
Estrato 1 Estrato 2

Población

Muestra
3). Muestreo Aleatorio por Conglomerados
(Clusters)
En el muestreo por conglomerados, los
elementos de la población son agrupados de
acuerdo con la “cercanía” de unos a otros.
Una vez que los grupos (clusters) han sido
formados, se selecciona una muestra aleatoria
simple de grupos.
Todos los elementos en un grupo seleccionado
forman parte de la muestra.
Ejemplo
Centros de salud
Opinión de los médicos
del Sist. Nal. de Salud Estados

Regiones

La principal ventaja del muestreo por conglomerados es su


bajo costo y facilidad de implementación.

Su principal desventaja es la falta de precisión e


independencia en los datos obtenidos.
4). Muestreo Aleatorio Sistemático.
En el muestreo aleatorio sistemático los
elementos son seleccionados de una lista
previamente elaborada con el universo.

El primer paso consiste en seleccionar al


azar un número k de una tabla o generador
de números aleatorios.

Luego, de la lista se seleccionan los


elementos con los números k, 2k, 3k, ... hasta
completar el tamaño de muestra deseado
4). Muestreo Aleatorio Sistemático.
El proceso de selección de este muestreo es:
1. Elaboramos una lista ordenada de los N
individuos de la población, lo que sería el
marco muestral.
2. Dividimos el marco muestral en n
fragmentos, donde n es el tamaño de muestra
que deseamos. El tamaño de estos fragmentos
será
K=N/n
donde K recibe el nombre de intervalo o
coeficiente de elevación.
Intervalo o coeficiente de elevación.
K = N/n
3. Número de inicio: obtenemos un número aleatorio entero A,
menor o igual al intervalo para designar al primer sujeto que
seleccionaremos para la muestra dentro del primer fragmento
de la población.

4. Selección de los n-1 individuos restantes: Seleccionamos los


siguientes individuos a partir del individuo seleccionado
aleatoriamente, mediante una sucesión aritmética,
seleccionando a los individuos del resto de fragmentos en que
hemos dividido la muestra que ocupan la misma posición que el
sujeto inicial. Esto equivale a decir que seleccionaremos los
individuos
A, A + K, A + 2K, A + 3K, ...., A + (n-1)K
• Supongamos que tenemos un marco muestral de 5.000
individuos y deseamos obtener una muestra de 100 de
ellos.
• Dividimos en primer lugar el marco muestral en 100:
k?. Intervalo =K= N/n = fragmentos de 50 individuos
• A continuación seleccionamos un número aleatorio entre
1 y 50, para extraer el primer individuo al azar del
primer fragmento: por ejemplo el 24.
24 524 1024 1524 2024 2524 3024 3524 4024 4524
74 574 1074 1574 2074 2574 3074 3574 4074 4574
124 624 1124 1624 2124 2624 3124 3624 4124 4624
174 674 1174 1674 2174 2674 3174 3674 4174 4674
224 724 1224 1724 2224 2724 3224 3724 4224 4724
274 774 1274 1774 2274 2774 3274 3774 4274 4774
324 824 1324 1824 2324 2824 3324 3824 4324 4824
374 874 1374 1874 2374 2874 3374 3874 4374 4874
424 924 1424 1924 2424 2924 3424 3924 4424 4924
474 974 1474 1974 2474 2974 3474 3974 4474 4974
El muestreo aleatorio sistemático es aplicable
cuando la población estadística se va
generando en el tiempo.

Por ejemplo, clientes en un banco, artículos en


una línea de producción, etc.

Su principal desventaja ocurre cuando los datos


presentan algún comportamiento o patrón
cíclico en el tiempo.
Dos encuestas diferentes se llevaron a cabo para CNN/USA
Today, donde aparecía lo que pensaba la sociedad acerca
del programa espacial de Estados Unidos. Veamos a
continuación una pregunta de cada encuesta, junto con las
respuestas de los estadounidenses encuestados
Exploración espacial
Encuesta Gallup/CNN/USA Today:
“¿Estaría usted a favor o en contra de un nuevo programa espacial de
Estados Unidos para enviar astronautas a la Luna?”, Forma A (N 410, MoE 5)
No tiene
A favor En contra opinión
% % %
15/12/03 53 45 2

“¿Estaría usted a favor o en contra de que el gobierno gaste miles de millones


de dólares para enviar astronautas a la Luna?”, Forma B (N 494, MoE 5)
No tiene
A favor En contra opinión
15/01/04 % % %
31 67 2
Tamaño de la muestra
Número mínimo necesario para estimar el
parámetro poblacional restricciones

• Impuestas por el muestrista


• Error máximo admisible
Subjetivas • Nivel de confianza asociado a
la estimación

• Recursos económicos
• Heterogeneidad de la
Objetivas población
• Procedimientos de análisis
• Tamaño de la población
Tamaño de la muestra
 El principio general que justifica trabajar con muestras es
que resulta más barato, más rápido y más fácil que hacerlo
con poblaciones completas

El número de entrevistados
Éticos
necesarios para contestar
adecuadamente las
preguntas

Económicos Suficiente para detectar


las diferencias si existen
realmente

Científicos Incrementar entrevistados incrementa


proporcionalmente el coste
del estudio
Fórmulas para calcular el tamaño de la
muestra (n).

• Tamaño de la población (N)


• Valor del coeficiente de confianza
(estimación – realidad)
• Valor del error máximo admisible
(normalmente el 5% - Diferencia entre el
estadístico y su parámetro correspondiente)
• Varianza de la población (si se desconoce se
asume = 0.5)
Población finita Población Infinita
Intervalo de confianza
Par de números entre los cuales se estima que estará
cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números
determinan un intervalo, que se calcula a partir de
datos de una muestra, y el valor desconocido es un
parámetro poblacional.
La probabilidad de éxito en la estimación se
representa por 1 - α y se denomina nivel de
confianza.
En estas circunstancias, α es el llamado error
aleatorio o nivel de significación, esto es, una
medida de las posibilidades de fallar en la estimación
mediante tal intervalo.
Un intervalo de confianza es un
rango de valores (calculado de una
muestra) en el cual se encuentra el
verdadero valor del parámetro con
una probabilidad determinada
INTERVALO DE CONFIANZA DE MUESTRA GRANDE (1
a)100%
(Estimador puntual) ± Z/2 x (error estándar del estimador)

Donde Z  /2 es el valor Z con un área a/2 en la cola derecha de una


distribución normal estándar. Esta fórmula genera dos valores; el límite
inferior de confianza (LCL) y el límite superior de confianza (UCL).
Valores de Z comunes para intervalos de confianza

Coeficiente de
 /2 Z/2
confianza (1-)

.90 .10 .05 1.645

.95 .05 .025 1.96

.98 .02 .01 2.33

.99 .01 .005 2.58


INTERVALO DE CONFIANZA
Para estimar ()
Muestra Muestra Muestra Muestra
grande grande pequeña pequeña

σ2 σ2 σ2 σ2

Z Z Z t
Ejemplo:
Para vigilar los contaminantes químicos en alimentos se seleccionó
una muestra aleatoria de 50 adultos hombres. Se encontró que el
promedio de ingesta diaria de productos lácteos fue de 756 gramos
por día, con una desviación estándar de 35 gramos por día. Use
esta información muestral para construir un intervalo de confianza
de 95% para la ingesta diaria media de productos lácteos para
hombres.
n= 50
x= 756
s= 35
z= 95
1.96
756 ± 9.70
LSC 765.70
LIC 746.30
El intervalo de confianza de 95% es de 765.702 a 746.298
Interpretación del intervalo
de confianza
¿Qué significa decir que
estamos “95% ciertos” que el
valor real de la media
poblacional  está dentro de un
intervalo determinado? Si
fuéramos a construir 20 de esos
intervalos, cada uno usando
diferente información muestral.

De los 20 intervalos, podría


esperarse que 95% de ellos
(19), funcionaran como se
planea y contienen  dentro de
sus límites superior e inferior.
Un buen intervalo de confianza tiene dos
características deseables:

1. Es tan angosto como es posible. Cuanto más


angosto sea el intervalo, más exactamente se
habrá localizado el parámetro estimado.
2. Tiene un coeficiente de confianza grande,
cercano a 1. Cuanto mayor sea el coeficiente de
confianza, es más probable que el intervalo
contenga el parámetro estimado.
Construya un intervalo de confianza de 99% para la ingesta
diaria media de productos lácteos para los hombres adultos del
ejemplo anterior
El intervalo de confianza de 99% es de 743.23 a 768.77
Compare los intervalos de confianza del 95% y 99%

Comparación / Conclusión

El ancho aumentado es necesario para


aumentar la confianza.

La única forma de aumentar la confianza sin


aumentar el ancho del intervalo es aumentar el
tamaño muestral, n.
Ejemplo:
El departamento de carnes de una cadena local de supermercados
empaca carne molida usando charolas de dos tamaños: una
diseñada para contener alrededor de 1 libra de carne y otra que
contiene aproximadamente 3 libras. Una muestra aleatoria de 35
paquetes en las charolas más pequeñas para carne produjo
mediciones de peso con un promedio de 1.01 libras y una
desviación estándar de .18 libras.
a. Construya un intervalo de confianza de 99% para el peso
promedio de todos los paquetes vendidos por esta cadena de
supermercados en las charolas de carne más pequeñas.
b. ¿Qué significa la frase “99% de confianza”?.

Con una confianza del 99%, los paquetes vendidos en


charolas de carnes por esta cadena de supermercados está
entre 0.94 y 1.08 libras
Tarea
Ejemplo:
Un vendedor mayorista de partes automotrices necesita una
estimación de la vida media que puede esperar de los
limpiaparabrisas en condiciones normales de manejo. La
administración de la empresa ya ha determinado que la desviación
estándar de la vida útil de la población es de seis meses.
Supongamos que se selecciona una sola muestra aleatoria
de 100 limpiaparabrisas, y obtenemos que la vida media de
estos 100 limpiaparabrisas es de 21 meses. Se pide calcular un
intervalo de confianza del 97% para la vida media de la población
de los limpiaparabrisas
Tarea
Una muestra aleatoria de 130 temperaturas corporales
humanas, tenía una media de 98.25 grados y una desviación
estándar de 0.73 grados.
a. Construya un intervalo de confianza de 94% para la
temperatura corporal promedio de personas sanas.

b. El intervalo de confianza construido en el inciso a)


contiene el valor de 98.6 grados, que es la temperatura
promedio usual citada por médicos y otros especialistas?
Si no es así, ¿qué conclusiones se pueden sacar?
Límites de confianza de una sola cola

El valor z para un límite de confianza de una cola (1 a)100%, z,


localiza un área a en una sola cola de la distribución normal

UN LÍMITE SUPERIOR DE CONFIANZA (1 a)100% (LSC)


(Estimador puntual) + z× (Error estándar del estimador)
Una corporación planea emitir algunos documentos a corto plazo
y espera que el interés que tendrá para pagar no rebasará el
11.5%. Para obtener alguna información acerca de este
problema, la corporación vendió 40 documentos, uno a través de
cada una de las 40 empresas de corretaje de acciones. La media y
desviación estándar para las 40 tasas de interés fueron 10.3% y
.31%, respectivamente. Como la corporación está interesada en
sólo un límite superior en las tasas de interés, encuentre un límite
superior de confianza de 95% para la tasa media de interés que la
corporación tendrá que pagar por los documentos.

n=40
x=10.3
s=3.1 El intervalo de confianza de 95%
z=95 es de 10.38
1.645
10.38
Intervalo de confianza de 95% para el nivel
mínimo de proteína en la dieta.
Se toma una muestra en 100 lotes de
producción y el porcentaje promedio de
proteína resulta ser de 21%. La desviación
estándar de la concentración, medida en las
mismas muestras es de 0.8%.

95%

5%

z=? 0
n=100
x=0.21
s=0.08
z=95
1.645
0.01

Con un 95% de confianza, el promedio “real”


de proteína del concentrado tiene como límite
de confianza inferior un 19.68%.

Lo anterior significa que en un 95% de las veces,


muestreos de prueba para verificar el contenido
de proteína del concentrado darán un promedio
mayor de 19.68%.
Tarea
Se toma una muestra de 55 alumnos de la carrera de informática
en la Facultad de Informática para estimar la calificación media
de los expedientes de los alumnos. Se sabe por otros cursos que
la desviación estándar de las puntuaciones en esa facultad es de
2.01 puntos. Si la media de la muestra fue de 76 ¿Cuál es el
intervalo de confianza al 92%?
Tarea
La editorial Delirio quiere estimar el valor medio de las ventas
por trabajador, para calcularlo obtiene una muestra de 33
vendedores, con media y varianza de 5 y 2 respectivamente.

a. Intervalo de confianza para la venta media por trabajador al


96%
Tarea
Se eligen a 100 individuos para medir el nivel de glucosa en
sangre, obteniéndose una media muestral de 110 mg/cc. Se sabe
que la desviación típica de la población es de 20mg/cc

a. Intervalo de confianza al 90% para el nivel de glucosa en


sangre en la población
b. Error de la estimación
Tarea
El peso (en gramos) de las cajas de cereales de una
determinada marca sigue una distribución normal. Se han
tomado los pesos de las siguientes cajas seleccionadas
aleatoriamente, y los resultados obtenidos han sido:

506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506,
502, 509, 496, 498, 501, 505, 502, 506, 499, 498, 494, 500, 504,
496, 497, 502, 499, 501, 497

a) Obtener los intervalos de confianza de 90%, 95% y 99%


para la media poblacional..
Distribución Muestral.

La distribución de probabilidad de un
estadístico se denomina distribución
muestral.

Error Estándar

El error estándar de un estadístico es la


desviación estándar de la distribución
muestral de ese estadístico.
Distribuciones Muestrales
Distribución de X
Si X1, X2,...Xn es una muestra aleatoria de
tamaño n, tomada de una población arbitraria
con media  y varianza  2 , entonces
Estimador Población finita Población infinita
X  E  X   
Media X  E  X   

 V  X   n  N 1 
2 N n
 V  X   2
2 2
Varianza X
X n

Error   N n
estándar n n N 1
Resultado
Si X1, X2,...Xn es una muestra aleatoria
tomada de una población normal con
media  y varianza 2, entonces
 2 
X ~ N  , 
 n 
X 
Z ~ N  0,1

n
Ejemplo
Una compañía maderera planea cortar 400
árboles de un bosque muy grande con 50 años
de antigüedad. La madera que se extrae de
cada árbol depende en gran medida de su
diámetro.
Suponga que la distribución de los diámetros
en el bosque es normal con una media de 44
pulgadas y una desviación estándar de 4
pulgadas.
También suponga que la selección de 400
árboles es efectivamente aleatoria. Encuentre
la probabilidad de que el diámetro promedio
de los árboles cortados se encuentre entre
43.5 y 44.5.

Solución
σ 4
 X  44 σX    0.20
n 400
P(43.5  X  44.5) 

 43.5  44 44.5  44 
 P Z  
 0.20 0.20 

 P 2.50  Z  2.50

 0.9938  0.0062

 0.9876
Tarea
Sabemos que el tiempo medio de espera en las colas de un centro
de salud es de 15 minutos, con una desviación típica de 5
minutos. Si tomamos al azar a un grupo de 35 personas:

b) ¿Cuál es la probabilidad de que estuvieran entre 12 y 16


minutos?

Вам также может понравиться