Вы находитесь на странице: 1из 20

FACULTAD DE CIENCIAS CONTABLES

Y ADMINISTRATIVAS
ESCUELA PROFESIONAL DE ADMINISTRACION

TEMA : DISTRIBUCIÓN T STUDENT Y CHI CUADRADO

CURSO : ESTADÍSTICA APLICADA

CICLO : VI

DOCENTE : BLAS PEREZ JUAN SANTIADO

GRUPO 1 : CHIRA OLIVOS REYNALDO MANUEL

LOJAS RODRIGUEZ MILAGROS DEL CARMEN

SALAZAR GRANDA OMAR DUVAN

SILVA PEÑA GISELLA

ZARATE INFANTE ARACELLY

TUMBES-PERÚ

2018
Prueba t de Student

En estadística, una prueba t de Student, prueba t-Student, o Test-T es


cualquier prueba en la que el estadístico utilizado tiene una distribución t de
Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada
sigue una distribución normal pero el tamaño muestral es demasiado pequeño
como para que el estadístico en el que está basada la inferencia esté
normalmente distribuido, utilizándose una estimación de la desviación típica en
lugar del valor real. Es utilizado en analisis discriminante.

Cálculos
Las expresiones explícitas que pueden ser utilizadas para obtener varias
pruebas t se dan a continuación. En cada caso, se muestra la fórmula para una
prueba estadística que o bien siga exactamente o aproxime a una distribución t
de Student bajo la hipótesis nula. Además, se dan los apropiados grados de
libertad en cada caso. Cada una de estas estadísticas se pueden utilizar para
llevar a cabo ya sea un prueba de una cola o prueba de dos colas.

Una vez que se ha determinado un valor t, es posible encontrar un valor P


asociado utilizando para ello una tabla de valores de distribución t de Student.
Si el valor P calulado es menor al límite elegido por significancia estadística
(usualmente a niveles de significancia 0,10; 0,05 o 0,01), entonces la hipótesis
nula se rechaza en favor de la hipótesis alternativa.

Prueba t para muestra única


En esta prueba se evalúa la hipótesis nula de que la media de la población
estudiada es igual a un valor especificado μ0, se hace uso del estadístico:

donde es la media muestral, s es la desviación estándar muestral y n es el


tamaño de la muestra. Los grados de libertad utilizados en esta prueba se
corresponden al valor n − 1.

Pendiente de una regresión lineal


Supóngase que se está ajustando el modelo:

donde xi, i = 1, ..., n son conocidos, α y β son desconocidos, y εi es el error


aleatorio en los residuales que se encuentra normalmente distribuido, con un
valor esperado 0 y una varianza desconocida σ2, e Yi, i = 1, ..., n son las
observaciones.

Se desea probar la hipótesis nula de que la pendiente β es igual a algún valor


especificado β0 (a menudo toma el valor 0, en cuyo caso la hipótesis es que x e
y no están relacionados).
sea
Luego

tiene una distribución t con n − 2 grados de libertad si la hipótesis nula es


verdadera. El error estándar de la pendiente:

puede ser reescrito en términos de los residuales:

Luego se encuentra dado por:

Prueba t para dos muestras independientes

Iguales tamaños muestrales, iguales varianzas

Esta prueba se utiliza sólamente cuando:

 Los dos tamaños muestrales (esto es, el número, n, de participantes en


cada grupo) son iguales;
 Se puede asumir que las dos distribuciones poseen la misma varianza.

Las violaciones a estos presupuestos se discuten más abajo.

El estadístico t a probar si las medias son diferentes se puede calcular como


sigue:

Donde

Aquí es la desviación estándar combinada, 1 = grupo uno, 2 = grupo 2.


El denominador de t es el error estándar de la diferencia entre las dos medias.
Por prueba de significancia, los grados de libertad de esta prueba se obtienen
como 2n − 2 donde n es el número de participantes en cada grupo.

Diferentes tamaños muestrales, iguales varianzas

Esta prueba se puede utilizar únicamente si se puede asumir que las dos
distribuciones poseen la misma varianza. (Cuando este presupuesto se viola,
mirar mas abajo). El estadístico t si las medias son diferentes puede ser
calculado como sigue:

Donde

Nótese que las fórmulas de arriba, son generalizaciones del caso que se da
cuando ambas muestras poseen igual tamaño (sustituyendo n por n1 y n2).
es un estimador de la desviación estándar común de ambas muestras:
esto se define así para que su cuadrado sea un estimador sin sesgo de la
varianza comun sea o no la media iguales. En esta fórmula, n = número de
participantes, 1 = grupo uno, 2 = grupo dos. n − 1 es el número de grados de
libertad para cada grupo, y el tamaño muestral total menos dos (esto es,
n1 + n2 − 2) es el número de grados de libertad utilizados para la prueba de
significancia.

Diferentes tamaños muestrales, diferentes varianzas

Esta prueba es también conocida como prueba t de Welch y es utilizada


únicamente cuando se puede asumir que las dos varianzas poblacionales son
diferentes (los tamaños muestrales pueden o no ser iguales) y por lo tanto
deben ser estimadas por separado. El estadístico t a probar cuando las medias
poblacionales son distintas puede ser calculado como sigue:

Donde

Aquí s2 es el estimador sin sesgo de la varianza de las dos muestras, n =


número de participantes, 1 = grupo uno, 2 = grupo dos. Nótese que en este
caso, no es la varianza combinada. Para su utilización en pruebas de
significancia, la distribución de este estadístico es aproximadamente igual a
una distribución t ordinaria con los grados de libertad calculados según:
Esta ecuación es llamada la ecuación Welch–Satterthwaite. Nótese que la
verdadera distribución de este estadístico de hecho depende (ligeramente) de
dos varianzas desconocidas.

Prueba t dependiente para muestras apareadas

Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando
se trata de una única muestra que ha sido evaluada dos veces (muestras
repetidas) o cuando las dos muestras han sido emparejadas o apareadas. Este

es un ejemplo de un test de diferencia apareada.


Para esta ecuación, la diferencia entre todos los pares tiene que ser calculada.
Los pares se han formado ya sea con resultados de una persona antes y
después de la evaluación o entre pares de personas emparejadas en grupos de
significancia (por ejemplo, tomados de la misma familia o grupo de edad: véase
la tabla). La media (XD) y la desviación estándar (sD) de tales diferencias se han
utilizado en la ecuación. La constante μ0 es diferente de cero si se desea
probar si la media de las diferencias es significativamente diferente de μ0. Los
grados de libertad utilizados son n − 1.

Ejemplo de muestras Ejemplo de pares


repetidas emparejados
Test Test Par Nombre Edad Test
Número Nombre
1 2
1 Juan 35 250
1 Miguel 35% 67%
1 Joana 36 340
2 Melanie 50% 46%
2 Jaimito 22 460
3 Melisa 90% 86%
2 Jesica 21 200
4 Michell 78% 91%
Ejercicios T Estudent

Ejemplo 1:

El valor t con = 14 grados de libertad que deja un área de 0.025 a la


izquierda, y por tanto un área de 0.975 a la derecha, es

t0.975=-t0.025 = -2.145

Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es


por esto que se tiene que hacer la resta de . La manera de encontrar el
valor de t es buscar el valor de en el primer renglón de la tabla y luego
buscar los grados de libertad en la primer columna y donde se intercepten
y se obtendrá el valor de t.

Ejemplo 2:

Encuentre la probabilidad de –t0.025 < t < t0.05.

Solución:

Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de 0.025 a
la izquierda, encontramos un área total de 1-0.05-0.025 = 0.925.

P( –t0.025 < t < t0.05) = 0.925


Ejemplo 3:

Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de
tamaño 15 que se selecciona de una distribución normal.

Solución:

Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos


damos cuenta que a este valor le corresponde un área de 0.05 a la izquierda,
por ser negativo el valor. Entonces si se resta 0.05 y 0.045 se tiene un valor de
0.005, que equivale a Luego se busca el valor de 0.005 en el primer
renglón con 14 grados de libertad y se obtiene un valor de t = 2.977, pero como
el valor de está en el extremo izquierdo de la curva entonces la respuesta
es t = -2.977 por lo tanto:

P(-2.977 < t < -1.761) = 0.045

Ejemplo 4:

Un ingeniero químico afirma que el rendimiento medio de la población de cierto


proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar
esta afirmación toma una muestra de 25 lotes cada mes. Si el valor de t
calculado cae entre –t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué
conclusión extraería de una muestra que tiene una media de 518 gramos por
milímetro y una desviación estándar de 40 gramos? Suponga que la
distribución de rendimientos es aproximadamente normal.

Solución:

De la tabla encontramos que t0.05 para 24 grados de libertad es de 1.711. Por


tanto, el fabricante queda satisfecho con esta afirmación si una muestra de 25
lotes rinde un valor t entre –1.711 y 1.711.

Se procede a calcular el valor de t:

Este es un valor muy por arriba de 1.711. Si se desea obtener la probabilidad


de obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se
busca en la tabla y es aproximadamente de 0.02. De aquí que es probable que
el fabricante concluya que el proceso produce un mejor producto del que
piensa.

PRUEBAS CHI-CUADRADA

Como ya se ha visto varias veces, los resultados obtenidos de muestras no


siempre concuerdan exactamente con los resultados teóricos esperados, según
las reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas
conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una
moneda bien hecha, es raro que se obtengan exactamente estos resultados.
Supóngase que en una determinada muestra se observan una serie de
posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . .
., oK, llamadas frecuencias observadas y que, según las reglas de
probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas
frecuencias teóricas o esperadas.

A menudo se desea saber si las frecuencias observadas difieren


significativamente de las frecuencias esperadas. Para el caso en que
solamente son posibles dos sucesos E1 y E2 como, por ejemplo, caras o
cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con los
métodos de las unidades anteriores. En esta unidad se considera el problema
general.

Definición de X2
Una medida de la discrepancia existente entre las frecuencias observadas y
esperadas es suministrada por el estadístico X2, dado por:

donde si el total de frecuencias es N,

Si X2 = 0, las frecuencias observadas y esperadas concuerdan exactamente,


mientras que si X2>0, no coinciden exactamente. A valores mayores de X2,
mayores son las discrepancias entre las frecuencias observadas y esperadas.
Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora
para valores superiores.
El número de grados de libertad está dado por:
=k–1–m
en donde:
K = número de clasificaciones en el problema.
m = número de parámetros estimados a partir de los datos muestrales para
obtener los valores esperados.

Ensayo de Hipótesis
En la práctica, las frecuencias esperadas se calculan de acuerdo con la
hipótesis Ho. Si bajo esta hipótesis el valor calculado de X2 dado es mayor que
algún valor crítico, se deduce que las frecuencias observadas difieren
significativamente de las esperadas y se rechaza Ho al nivel de significación
correspondiente. En caso contrario, no se rechazará. Este procedimiento se
llama ensayo o prueba de chi-cuadrado de la hipótesis.
Debe advertirse que en aquellas circunstancias en que X2 esté muy próxima a
cero debe mirarse con cierto recelo, puesto que es raro que las frecuencias
observadas concuerden demasiado bien con las esperadas. Para examinar
tales situaciones, se puede determinar si el valor calculado de X2 es menor que
las X2 críticas o de tabla (ensayo unilateral izquierdo), en cuyos casos se
decide que la concordancia es bastante buena.

Ejemplos:

1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado


120 veces. Ensayar la hipótesis de que el dado está bien hecho al nivel
de significación del 0.05.
Cara 1 2 3 4 5 6

Frecuencia
25 17 15 23 24 16
Observada
Solución:

Ensayo de Hipótesis:
Ho; Las frecuencias observadas y esperadas son significativamente
iguales
(dado bien hecho)
H1; Las frecuencias observadas y esperadas son diferentes (dado
cargado).
Primero se procede a calcular los valores esperados. Como es bien
sabido por todos la probabilidad de que caiga cualquier número en un
dado no cargado es de 1/6. Como la suma de los valores observados es
de 120, se multiplica este valor por 1/6 dando un resultado de 20 para
cada clasificación.

Cara 1 2 3 4 5 6 Total

Frecuencia
25 17 15 23 24 16 120
Observada

Frecuencia
20 20 20 20 20 20
esperada
Grados de libertad = k-1-m = 6-1-0 = 5
No se tuvo que calcular ningún parámetro para obtener las frecuencias
esperadas.
Regla de decisión:
Si X2R 11.1 no se rechaza Ho.
Si X2R >11.1 se rechaza Ho.
Cálculos:
Justificación y decisión:
Como 5 es menor a 11.1 no se rechaza Ho y se concluye con una

significación de 0.05 que el dado está bien hecho.

Distribución binomial

La distribución binomial es típica de las variables que proceden de un


experimento que cumple las siguientes condiciones:

1) El experimento está compuesto de n pruebas iguales, siendo n un


número natural fijo.

2) Cada prueba resulta en un suceso que cumple las propiedades de la


variable binómica o de Bernouilli, es decir, sólo existen dos posibles
resultados, mutuamente excluyentes, que se denominan generalmente
como éxito y fracaso.

3) La probabilidad del ‚éxito (o del fracaso) es constante en todas las


pruebas. P(éxito) = p ; P(fracaso) = 1 - p = q

4) Las pruebas son estadísticamente independientes,

En estas condiciones, la variable aleatoria X que cuenta el número de ‚éxitos


en las n pruebas se llama variable binomial. Evidentemente, el espacio
muestral estar compuesto por los números enteros del 0 al n. Se suele decir
que una variable binómica cuenta objetos de un tipo determinado en un
muestreo de n elementos con reemplazamiento.
La función de probabilidad de la variable binomial se representa como
b(x,n,p) siendo n el número de pruebas y p la probabilidad del ‚éxito. n y p son
los parámetros de la distribución.
La manera más fácil de calcular de valor de números combinatorios,
como los incluidos en la expresión anterior, es utilizando el triángulo de
Tartaglia

La media y la varianza de la variable binomial se calculan como:


Media = μ = n p
Varianza = σ2 = n p q

Gráficamente el aspecto de la distribución depende de que sea o no


simétrica Por ejemplo, el caso en que n = 4:

Distribución normal o de Gauss

La distribución normal fue definida por De Moivre en 1733 y es la distribución


de mayor importancia en el campo de la estadística.
Una variable es normal cuando se ajusta a la ley de los grandes números, es
decir, cuando sus valores son el resultado de medir reiteradamente una
magnitud sobre la que influyen infinitas causas de efecto infinitesimal.

Las variables normales tienen una función de densidad con forma de campana
a la que se llama campana de Gauss.

Su función de densidad es la siguiente:

Los parámetros de la distribución son la media y la desviación típica, μ y σ,


respectivamente. Como consecuencia, en una variable normal, media y
desviación típica no deben estar correlacionadas en ningún caso (como
desgraciadamente ocurre en la inmensa mayoría de las variables aleatorias
reales que se asemejan a la normal.

La curva normal cumple las siguientes propiedades:

1) El máximo de la curva coincide con la media.


2) Es perfectamente simétrica respecto a la media (g1 = 0).
3) La curva tiene dos puntos de inflexión situados a una desviación típica
de la media. Es convexa entre ambos puntos de inflexión y cóncava en
ambas colas.
4) Sus colas son asintóticas al eje X.

Para calcular probabilidades en intervalos de valores de la variable, habría que


integrar la función de densidad entre los extremos del intervalo. por desgracia
(o por suerte), la función de densidad normal no tiene primitiva, es decir, no se
puede integrar. Por ello la única solución es referirse a tablas de la función de
distribución de la variable (calculadas por integración numérica) Estas tablas
tendrían que ser de triple entrada (μ, σ, valor) y el asunto tendría una
complejidad enorme.

Afortunadamente, cualquier que sea la variable normal, X, se puede establecer


una correspondencia de sus valores con los de otra variable con distribución
normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z.
La equivalencia entre ambas variables se obtiene mediante la ecuación:

La función de distribución de la variable normal tipificada está tabulada y,


simplemente, consultando en las tablas se pueden calcular probabilidades en
cualquier intervalo que nos interese. De forma análoga a lo pasaba con las
variables Poisson, la suma de variables normales independientes es otra
normal.

Histograma de una normal Histograma de una muestra de una


idealizada variable normal
Ejercicios Chi Cuadrado

EJERCICIO 1.-

1.- Un jugador quiere probar que es legal el dado con el que juega. Tiro el dado
120 veces y obtuvo la siguiente distribución de frecuencias de las caras
resultantes.

RESULTADO 1 2 3 4 5 6

FRECUENCIA 15 25 33 17 16 14

a) Enuncie las hipótesis de la prueba y determine las frecuencias


esperadas.
b) Describa la estadística de la prueba
c) Determine la región crítica de la prueba al nivel de significación del 5%.
d) ¿A qué conclusión llega usando el nivel de significación 0,05?
e) Determine la probabilidad P.

1.-

Ho: El dado es legal.


Ha: El dado no es legal.

2.- Es de dos colas.

3.- Nivel de confianza

∝= 95% 𝑎 = 0,05 𝑧 = 11,07

4.- 𝑛 = 120

gl= k-1 gl=6-1 gl=5


5.-

Zona
aceptación

11,07
6.-

Ei 20 20 20 20 20 20

Oi 15 25 33 17 16 14

2
∑(Oi − Ei)2
𝑥 =[ ]
Ei

(15 − 20)2 (25 − 20)2 (33 − 20)2 (17 − 20)2 (16 − 20)2
𝑥 2 (5) = + + + +
20 20 20 20 20
(14 − 20)2
+
20
𝑥 2 (5) = 1.25 + 1.25 + 8.45 + 0.45 + 0.8 + 1.8

𝑥 2 (5) = 14

7.- Se acepta la hipótesis alternativa y se rechaza la hipótesis nula, es decir el


dado del jugador no es legal ya que se encuentra dentro de la zona de rechazo.

EJERCICIO 2.-

2.- El gerente de ventas de una compañía P&C afirma que todos sus
vendedores realizan el mismo número de visitas durante el mismo período de
tiempo. Una muestra aleatoria de 5 registros de los vendedores en una semana
dada reveló el siguiente número de visitas.

Vendedor A B C D E

Número de visitas 23 29 25 23 30

Con el nivel de significación de 0.05, ¿es razonable aceptar la afirmación del


gerente?

1) 𝑯𝟎 : hacen el mismo número de visitas

𝑯𝒂 : hacen menor número de visitas

2) Gráfica: unilateral y cola a la derecha


3) Nivel de significación 0.05

4) Variables cualitativas → chi cuadrado

5) gl = k-1

gl = 5-1 = 4

𝑿𝟐(𝟒) = 9,49

6) 26 26 26 26 26
23 29 25 23 30

(𝟐𝟑−𝟐𝟔)𝟐 (𝟐𝟗−𝟐𝟔)𝟐 (𝟐𝟓−𝟐𝟔)𝟐 (𝟐𝟑−𝟐𝟔)𝟐 (𝟑𝟎−𝟐𝟔)𝟐


𝑿𝟐(𝟒) = + + + +
𝟐𝟔 𝟐𝟔 𝟐𝟔 𝟐𝟔 𝟐𝟔

𝑿𝟐(𝟒) = 0,35 + 0,35 + 0,04 + 0,35 + 0,62

𝑿𝟐(𝟒) = 1.7

7) Acepta la hipótesis nula por que realizan el mismo número de visitas

EJERCICIO 3.-

3.- El gerente de personal de la compañía de “REXA” quiere probar la


hipótesis que hay diferencias significativas de tardanzas de los diferentes días
de la semana. De los registros de asistencia obtuvo la siguiente tabla de
tardanzas de su personal para cada uno de los días de la semana:
DIAS LUNES MARTES MIERCOLES JUEVES VIERNES

TARDANZAS 58 39 75 48 80

¿Se puede aceptar la hipótesis del gerente con un nivel de significación de


0.05?

1.- HO = El número de tardanzas en el mismo cada día

2.- La prueba es unilateral de una cola

3.- Nivel de significancia del ∝=0.05

4.-Utilizamos la prueba del CHI-CUADRADO

5.-

z. rechazo

z. aceptación

9.488

gl=K-1

gl= 5-1

gl=4

x2=9.488
6. - frecuencias esperadas

Xi

58

39

75

48

80

300

̅ =60
𝑿

60 60 60 60 60
58 39 75 48 80

(𝑂𝑖 − 𝐸𝑖)
X2= ∑ = 20.232
𝐸𝑖

7.- Se rechaza la hipótesis nula y se acepta la hipótesis alternativa debido a


que hay tardanzas del personal en cada día de la semana ya que llegan
puntuales a la compañía REXA.
EJERCICIO 4.-

4.- De una muestra de turistas que se hospedan en el hotel “ EL PALMER” se


recogió sus opiniones acerca de los servicios del hotel, resultando los
siguientes datos:

PESIMA MALA REGULAR BUENA MUY BUENA EXCELENTE

TURISTAS 20 25 40 54 56

Pruebe con un nivel de significación del 5%, la hipótesis nula de que no hay
diferencias significativas entre las opciones de los turistas.

1.- HO = no hay diferencias significativas en las opiniones

2.- La prueba es unilateral de una cola

3.- Nivel de significancia del ∝=0.05

4.- Utilizamos la prueba del CHI-CUADRADO

5.-

z. rechazo

z. aceptación

9.488
gl=K-1

gl= 5-1

gl=4

x2=9.488

6. FRECUENCIA ESPERADAS

Xi
20
25
40
54
56
195

̅ =39
𝑿

39 39 39 39 39

20 25 40 54 56

(𝑂𝑖 − 𝐸𝑖)
X2= ∑ = 27.486
𝐸𝑖

7.- La hipótesis nula se rechaza porque, no hay diferencias significativas en las


opiniones de los turistas.

Вам также может понравиться