Академический Документы
Профессиональный Документы
Культура Документы
Distribución t de Student
Parámetros
grados de libertad (real)
Dominio
Media
para , indefinida
para otros valores
Mediana
Moda
Varianza
para , indefinida
para otros valores
Coeficiente de simetría
para
Curtosis
para
Entropía
: función digamma,
: función beta
Índice
[ocultar]
1Caracterización
2Aparición y especificaciones de la distribución t de Student
3Intervalos de confianza derivados de la distribución t de Student
4Historia
5Distribución t de Student no estandarizada
6Referencias
7Enlaces externos
Caracterización[editar]
La distribución t de Student es la distribución de probabilidad del cociente
donde
Z es una variable aleatoria distribuida según una normal típica (de media nula
y varianza 1).
y para
Historia[editar]
La distribución de Student fue descrita en 1908 por William Sealy
Gosset. Gosset trabajaba en una fábrica de cerveza,Guinness,
que prohibía a sus empleados la publicación de artículos
científicos debido a una difusión previa de secretos industriales.
De ahí que Gosset publicase sus resultados bajo
el seudónimo de Student.1
Distribución t de Student no
estandarizada[editar]
La distribución t puede generalizarse a 3 parámetros,
Referencias[editar]
1. Volver arriba↑ Walpole, Roland; Myers, Raymond
y Ye, Keying (2002). Probability and Statistics for
Engineers and Scientists. Pearson Education.
2. ↑ Saltar a:a b Jackman, Simon (2009). Bayesian
Analysis for the Social Sciences. Wiley. p. 507.
Enlaces externos
Prueba t de Student
En estadística, una prueba t de Student, prueba t-Student, o Test-T es
cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si
la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue unadistribución
normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el
que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de
la desviación típica en lugar del valor real. Es utilizado en análisis discriminante.
Índice
[ocultar]
1Historia
2Usos
3Estadísticos T y Z
4Pruebas t para dos muestras apareadas y desapareadas
o 4.1Desapareada
o 4.2Apareada
5Cálculos
o 5.1Prueba t para muestra única
o 5.2Pendiente de una regresión lineal
o 5.3Prueba t para dos muestras independientes
5.3.1Iguales tamaños muestrales, iguales varianzas
5.3.2Diferentes tamaños muestrales, iguales varianzas
5.3.3Diferentes tamaños muestrales, diferentes varianzas
o 5.4Prueba t dependiente para muestras apareadas
6Ejemplos desarrollados
o 6.1Varianzas desiguales
o 6.2Varianzas iguales
7Alternativas a la prueba t para problemas de locación
8Pruebas multivariadas
o 8.1Prueba T 2 monomuestral
o 8.2Prueba T 2 bimuestral
9Implementaciones
10Lecturas adicionales
11Referencias
12Enlaces externos
o 12.1Calculadores en línea
Historia[editar]
El estadístico t fue introducido por William Sealy Gosset en 1908, un químico que
trabajaba para la cervecería Guinness deDublín. Student era su seudónimo de escritor.123
Gosset había sido contratado gracias a la política de Claude Guiness de reclutar a los
mejores graduados de Oxford y Cambridge, y con el objetivo de aplicar los nuevos
avances en bioquímica y estadística al proceso industrial de Guiness.2 Gosset desarrolló el
test t como una forma sencilla de monitorizar la calidad de la famosa cerveza stout. Publicó
su test en la revista inglesa Biometrika en el año 1908, pero fue forzado a utilizar un
seudónimo por su empleador, para mantener en secreto los procesos industriales que se
estaban utilizando en la producción. Aunque de hecho, la identidad de Gosset era
conocida por varios de sus compañeros estadísticos.4
Usos[editar]
Entre los usos más frecuentes de las pruebas t se encuentran:
El test de locación para dos muestras, por el cual se comprueba si las medias de dos
poblaciones distribuidas en forma normal son iguales. Todos estos test son
usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal
nombre sólo debería ser utilizado si las varianzas de las dos poblaciones estudiadas
pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando
esta asunción se deja de lado suelen ser llamados a veces comoPrueba t de Welch.
Estas pruebas suelen ser comúnmente nombradas como pruebas t desapareadas o
de muestras independientes, debido a que tienen su aplicación más típica cuando las
unidades estadísticas que definen a ambas muestras que están siendo comparadas
no se superponen.5
El test de hipótesis nula por el cual se demuestra que la diferencia entre dos
respuestas medidas en las mismas unidades estadísticas es cero. Por ejemplo,
supóngase que se mide el tamaño del tumor de un paciente con cáncer. Si el
tratamiento resulta efectivo, lo esperable sería que el tumor de muchos pacientes
disminuyera de tamaño luego de seguir el tratamiento. Esto con frecuencia es referido
como prueba t de mediciones apareadas o repetidas.56
Estadísticos T y Z[editar]
Cada una de las dos poblaciones que están siendo comparadas sigue una distribución
normal. Esto puede ser demostrado utilizando una prueba de normalidad, tales como
una prueba Shapiro-Wilk o Kolmogórov-Smirnov, o puede ser determinado
gráficamente por medio de un gráfico de cuantiles normales Q-Q plot.
Los datos usados para llevar a cabo la prueba deben ser muestreados
independientemente para cada una de las dos poblaciones que se comparan. Esto en
general no es posible determinarlo a partir de los datos, pero si se conoce que los
datos han sido muestreados de manera dependiente (por ejemplo si fueron
muestreados por grupos), entonces la prueba t clásica que aquí se analiza, puede
conducir a resultados erróneos.
Cálculos[editar]
Las expresiones explícitas que pueden ser utilizadas para obtener varias pruebas t se dan
a continuación. En cada caso, se muestra la fórmula para una prueba estadística que o
bien siga exactamente o aproxime a una distribución t de Student bajo la hipótesis nula.
Además, se dan los apropiados grados de libertad en cada caso. Cada una de estas
estadísticas se pueden utilizar para llevar a cabo ya sea un prueba de una cola o prueba
de dos colas.
Una vez que se ha determinado un valor t, es posible encontrar un valor p asociado
utilizando para ello una tabla de valores de distribución t de Student. Si el valor p calulado
es menor al límite elegido por significancia estadística (usualmente a niveles de
significancia 0,10; 0,05 o 0,01), entonces la hipótesis nula se rechaza en favor de la
hipótesis alternativa.
Prueba t para muestra única[editar]
En esta prueba se evalúa la hipótesis nula de que la media de la población estudiada es
igual a un valor especificado μ0, se hace uso del estadístico:
Luego
los dos tamaños muestrales (esto es, el número, n, de participantes en cada grupo)
son iguales;
se puede asumir que las dos distribuciones poseen la misma varianza.
Las violaciones a estos presupuestos se discuten más abajo.
El estadístico t a probar si las medias son diferentes se puede calcular como sigue:
Donde
,
es la desviación estándar combinada, 1 = grupo uno, 2 = grupo 2. El denominador de t es
el error estándar de la diferencia entre las dos medias.
Por prueba de significancia, los grados de libertad de esta prueba se obtienen como 2n − 2
donde n es el número de participantes en cada grupo.
Diferentes tamaños muestrales, iguales varianzas[editar]
Esta prueba se puede utilizar únicamente si se puede asumir que las dos distribuciones
poseen la misma varianza. (Cuando este presupuesto se viola, mirar más abajo). El
estadístico t si las medias son diferentes puede ser calculado como sigue:
Donde
Nótese que las fórmulas de arriba, son generalizaciones del caso que se da cuando
ambas muestras poseen igual tamaño (sustituyendo n por n1 y n2).
donde
Ejemplos desarrollados[editar]
Sea A1 denotando un grupo obtenido tomando 6 muestras aleatorias a partir de un
grupo mayor:
Estos podrían ser, por ejemplo, los pesos de tornillos elegidos de un montón.
Vamos a llevar a cabo la prueba de hipótesis contando como hipótesis nula de que
la media de las poblaciones de las cuales hemos tomado las muestras son iguales.
La diferencia entre las dos medias de muestras, cada uno denotado por , la cual
aparece en el numerador en todos los enfoques de dos muestras discutidas
anteriormente, es
Pruebas multivariadas[editar]
Una generalización del estadístico t de Student llamada estadístico t cuadrado de
Hotelling, permite la comprobación de hipótesis en múltiples (y a menudo
correlacionadas) mediciones de la misma muestra. Por ejemplo, un investigador puede
presentar un número de sujetos a un test de múltiples escalas de personalidad (p.ej el
de cinco grandes rasgos de personalidad). Debido a que las medidas de este tipo
suelen estar muy correlacionadas, no es aconsejable llevar a cabo varias pruebas
univariadas, ya que esto supondría descuidar la covarianza entre las medidas e inflar
la probabilidad de rechazar falsamente al menos una hipótesis (error de tipo I). En este
caso una única prueba múltiple es preferible para llevar a cabo las pruebas de
hipótesis. El estadístico t de Hosteling sigue una distribución T 2, sin embargo en la
práctica, esta distribución se utiliza muy raramente, y en cambio se suele convertir en
una distribución de tipo F.
Prueba T 2 monomuestral[editar]
Para una prueba multivariable de única muestra, la hipótesis es que el vector medio (
Implementaciones[editar]
La mayoría de los programas tipo hoja de cálculo y paquetes estadísticos de lenguajes
de programación, tales como QtiPlot,OpenOffice.org Calc, LibreOffice
Calc, LISREL, Microsoft
Excel, SAS, SPSS, Stata, DAP, gretl, R, Python ([1]), PSPP,Infostat y Minitab, y
PRISMA6 incluyen implementaciones del test t de Student.
Lecturas adicionales[editar]
Boneau, C. Alan (1960). «The effects of violations of assumptions underlying
the t test». Psychological Bulletin 57 (1): 49-64. doi:10.1037/h0041412.
Edgell, Stephen E., & Noon, Sheila M (1984). «Effect of violation of normality on
the t test of the correlation coefficient».Psychological Bulletin 95 (3): 576-
583. doi:10.1037/0033-2909.95.3.576.
Referencias[editar]
1. Volver arriba↑ Richard Mankiewicz, The Story of Mathematics (Princeton University
Press), p.158.
2. ↑ Saltar a:a b O'Connor, John J.; Robertson, Edmund F., «Prueba t de Student»(en
inglés), MacTutor History of Mathematics archive, Universidad de Saint Andrews.
3. Volver arriba↑ Fisher Box, Joan (1987). «Guinness, Gosset, Fisher, and Small
Samples». Statistical Science 2 (1): 45-52. JSTOR 2245613.doi:10.1214/ss/1177013437.
4. Volver arriba↑ Raju TN (2005). «William Sealy Gosset and William A. Silverman: two
"students" of science». Pediatrics 116(3): 732-5. PMID 16140715.doi:10.1542/peds.2005-1134.
5. ↑ Saltar a:a b Fadem, Barbara (2008). High-Yield Behavioral Science (High-Yield
Series). Hagerstwon, MD: Lippincott Williams & Wilkins. ISBN 0-7817-8258-9.
6. Volver arriba↑ Zimmerman, Donald W. (1997). «A Note on Interpretation of the Paired-
Samples t Test». Journal of Educational and Behavioral Statistics22 (3): 349-
360. JSTOR 1165289.
7. Volver arriba↑ Markowski, Carol A; Markowski, Edward P. (1990). «Conditions for the
Effectiveness of a Preliminary Test of Variance». The American Statistician44 (4): 322-
326. JSTOR 2684360.doi:10.2307/2684360.
8. Volver arriba↑ David, HA; Gunnink, Jason L (1997). «The Paired t Test Under Artificial
Pairing». The American Statistician 51 (1): 9-12.JSTOR 2684684.doi:10.2307/2684684.
9. ↑ Saltar a:a b Sawilowsky S., Blair R. C. (1992). «A more realistic look at the robustness
and type II error properties of the t test to departures from population
normality».Psychological Bulletin 111 (2): 353-360. doi:10.1037/0033-2909.111.2.352.
10. Volver arriba↑ Blair, R. C.; Higgins, J.J. (1980). «A comparison of the power of
Wilcoxon’s rank-sum statistic to that of Student’s t statistic under various nonnormal
distributions.». Journal of Educational Statistics 5 (4): 309-
334.JSTOR 1164905.doi:10.2307/1164905.
11. Volver arriba↑ Fay, MP; Proschan, MA (2010).«Wilcoxon-Mann-Whitney or t-test? On
assumptions for hypothesis tests and multiple interpretations of decision
rules». Statistics Surveys4: 1-39. PMC 2857732.PMID 20414472. doi:10.1214/09-SS051.
12. Volver arriba↑ Sawilowsky S (2005). «Misconceptions leading to choosing the t test
over the Wilcoxon Mann-Whitney U test for shift in location parameter». Journal of
Modern Applied Statistical Methods 4 (2): 598-600.
Enlaces externos[editar]
Wikiversidad alberga proyectos de aprendizaje sobre Prueba t de Student.
Un artículo conceptual sobre el test t de Student
Tabla de distribuciones t de Student
Calculadores en línea[editar]
UNIDAD III
; y , entonces automáticamente
tenemos , así que sólo tres de los cuatro valores
de están libremen te determinamos 3 grados de libertad.
Ejemplo:
t0.975=-t0.025 = -2.145
Si se observa la tabla, el área sombreada de la curva es de la cola
derecha, es por esto que se tiene que hacer la resta de . La
manera de encontrar el valor de t es buscar el valor de en el
primer renglón de la tabla y luego buscar los grados de libertad en la
primer columna y donde se intercepten y se obtendrá el valor
de t.
Ejemplo:
Solución:
Ejemplo:
Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra
aleatoria de tamaño 15 que se selecciona de una distribución normal.
Solución:
Ejemplo:
Solución:
Ejemplos:
Solución:
La media muestral y la desviación estándar para los datos dados
son:
10 y s= 0.283
Solución:
9.8525 y s= 0.0965
En la tabla se encuentra que t0.025=2.093 con 19 grados de libertad, de
aquí, el intervalo de confianza de 95% para es:
Ejemplos:
Solución:
1. Datos:
= 46 kilowatt-hora
s= 11.9 kilowatt-hora
= 42 kilowatt-hora
n = 12
= 0.05
3. Ensayo de hipótesis
Ho; = 46 kilowatt-hora
4. Regla de decisión:
Si tR -1.796 No se rechaza Ho
5. Cálculos:
6. Justificación y decisión:
Si 39.83 No se Rechaza Ho
10.1 7.9
Solución:
1. Datos:
= 10
s = 3.55
= 13.71
n = 22
= 0.05
3. Ensayo de hipótesis
Ho; = 10
H1; > 10
4. Regla de decisión:
5. Cálculos:
6. Justificación y decisión.
Regla de decisión:
Si 11.30 No se rechaza Ho
Solución:
1. Datos:
= 14 libras
s = 1.21 libras
= 14.3 libras
n=8
= 0.05
2. Ensayo de hipótesis
Ho; = 14 libras
H1; 14 libras
3. Regla de Decisión:
4. Cálculos:
5. Justificación y decisión:
12.98 y 15.01
Regla de decisión:
Solución:
1. Datos:
= 1.5 volts.
s= 0.21 volts
= 1.4 volts.
n = 15
= 0.01
2. Ensayo de hipótesis
Ho; = 1.5 volts
3. Regla de decisión:
Si tR -2.624 No se rechaza Ho
5. Cálculos:
6. Justificación y decisión:
Solución:
Solución:
libertad, pero un de ellos no, por eso, cuando se tiene una sola muestra, se hable de n-1
g.l. A medida que se aumenten los g.l. la distribución t, se aproxima a la distribución Z
de la normal. Otra lectura que se puede dar es que los g.l es una medida del número de
observaciones independientes en la muestra, que se usan para estimar la desviación
estándar.
En general, cuando el tamaño de muestra no sea muy pequeño y la simetría no sea alta,
se puede usar para estimar la media poblacional cuando no se conoce la desviación.
En general, las características relevantes del modelo se sintetizan en la siguiente
diapositiva.
TABLA DE LA DISTRIBUCION t - Student
La tabla da áreas 1 - a , para valores menores o iguales a t y n g.l, se construyó con Excel.
1-a
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
Es importante resaltar que al ser una distribución simétrica al tener información sobre
un valor positivo, se obtiene el dato para el mismo valor con signo negativo.
Un hecho de relevancia significativa, es que se utiliza para calcular probabilidades con
respecto al promedio, en estos casos, el divisor al estandarizar los valores se divide
sobre S/ Ö n, término que se conoce como el error estándar de la media y mide la
variabilidad de la media entre muestra y muestra. A mayor tamaño de muestra, menor es
el error estándar de la media.
Por último, se puede afirmar, la distribución t es útil para realizar inferencias acerca de
la media poblacional cuando no se conoce s y la población es normal, independiente del
n, no obstante, aún cuando la distribución sea un tanto sesgada, la t sigue siendo
apropiada, esto se conoce como una distribución robusta, es decir, a cambios moderados
de los supuestos, el modelo sigue siendo valido. Como en el caso de la distribución
normal, ésta distribución también usa valores tabulados, tal como se aprecian en la tabla
precedente, teniendo en cuenta, que a medida que los g.l aumenten los valores tienden a
ser igual a los encontrados en la tabla Z.
Ejemplo 1: Los valores de las matriculas de estudiantes en una universidad privada
tienen un comportamiento aproximadamente normal, donde el promedio es de
2.100.000. Se seleccionan 8 liquidaciones, siendo los valores los siguientes: 1.950.000,
2.100.000, 2.250.000, 1.890.000, 2.250.000, 1.950.000, 2.050.000, 2.350.000.
Determine la probabilidad de que:
· El promedio sea menor de 2.000.000.
· El promedio se encuentre entre 2.000.000 y 2.200.000
· El promedio sea mayor o igual a 2.500.000
Solución manual:
Sea X = Liquidación matriculas.
m = 2.100.000 ; s = ?
=2.098.750 s=168.644.8085 n=8
a) P( <2.000.000)=P( <2.000.000)
P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)
La probabilidad se encuentra entre 0.9 y 0.95, según la tabla T que se encuentra más
adelante, no obstante, al t ser negativo, la probabilidad está entre 0.1 y 0.05, es decir, los
valores complementarios..
Para buscar en la tabla, se tiene en cuenta la fila con 7 g.l y se ubica el 1.677, el cual se encuentra entre
los valores mencionados. De ahí que sea importante utilizar el Excel, que nos permite calcular la
probabilidad exacta.
=DISTR.T(1.677;7;1)= 0.0687
b) P (2.000.000 < < 2.200.000)= P( <2.200.000) ? P( £ 2.000.000).
Luego de tipificar, se tiene:
P(t<3.35) ? P(t<-1.677) = 0.995 ?0.075= 0.92
(1- =DISTR.T(3.35;7;1) - =DISTR.T(1.677;7;1)= ?
(1- 0.006125) ? 0.06872 = 0.9251
Los resultados son similares a los ya presentados. Por la forma de calcular el Excel las probabilidades, se
resta a uno la probabilidad de 3.35, es decir, el programa calcula la cola de la derecha.
c) P( >2.500.000)= P(t> 6.70) = =DISTR.T(6.7;7;1) = 0.00013
Se observa fácil, que el Excel permite calcular las probabilidades de manera más
exactas que las usadas comúnmente (tablas). Esto es importante tenerlo en cuenta, ya
que cuando se tienen poblaciones muy grandes, esas pequeñas diferencias se convierten
en significativas.
Ejemplo 2: Los puntajes de un grupo de estudiantes se comportan normal, con
promedio de 50, sin embargo, no se conoce la desviación. Se tomó una m.a de 9
estudiantes encontrando una varianza de 36 y un promedio de 52. Cuál es la
probabilidad de que el promedio:
· Sea mayor de 54?
· Sea menor que 54?
· Esté comprendido entre 48 y 52 puntos?
Solución manual:
Sea X = Puntaje estudiantes.
m = 50 puntos ; s = ?
=52 s =36 s=6 n=9
2
Como se observa en la tabla, el 2.0 se encuentra entre 1.86 y 2.306, valores que
corresponden a las áreas de 0.95 y 0.975. Realizando una estimación burda, se
promedian los dos valores correspondientes a las áreas. Encontrando que la probabilidad
de que el promedio del puntaje de los estudiantes sea mayor de 54 es muy baja, 0.0375.
c) P( <54)= P(t<(54-50)/(6/3)) = P(t<2) = 0.9625. Por el contrario de lo anterior, es muy
probable que el promedio del puntaje de los estudiantes sea menor de 54, dicha
probabilidad equivale al 0.9625.
d) P(48< >52)=P( <52)-P( <48)=P(t<(52-50)/(6/3))-P(t<(48-50)/(6/3))=
P(t<1)- P(t<-1)= 0.825 ?(1-0.825) = 0.65
La probabilidad es de 0.65. Se aprecia que al ser simétrica la distribución t, se calcula la
probabilidad utilizando el inverso.
Solución Excel:
Los valores de t, estan diseñados para valores mayores, por eso, se le resta la unidad cuando se quiere
calcular un valor hacia la izquierda, situación diferente a la tabla.
Navegación
Página Principal
o Curso actual
Muestreo
Participantes
Tema 2
Disribución T de Students
o Cursos
Año de 2010
La prueba t de Student es una prueba paramétrica, por lo que para que su uso
sea válido se requiere cumplir con las siguientes suposiciones básicas:
Suposiciones básicas para la aplicación de pruebas
parametricas
Variable Dependiente medida por lo menos en un nivel de intervalos.
Asignación aleatoria de los individuos que conforman cada una de las
muestras.
Muestras representativas en términos de número y de composición.
Distribución normal de la variable dependiente en la población bajo
estudio.
Datos
Grupo
2
Grupo 1
10 9 12 14 14
14 15 17 13 20
11 12 10 19 13
22 15 17 13 22
10 10 12 16 17
19 14 15 18 18
23 18
n 15 17
12.6 17.2353
S2 8.5429 10.1912
S 2.9228 3.1924
En primer lugar debemos ver si la relación que aparece entre los valores de
nuestras medias coincide con la predicción que hace la hipótesis alterna o con
la que hace la hipótesis de nulidad.
Como se puede ver, la media de la primera muestra es menor que la media de
la segunda muestra, como lo propone la hipótesis alterna, por lo que
procedemos a medir qué tan grande es la diferencia entre las medias. Como
primer paso obtendremos los intervalos de confianza del 95% para las medias
de ambos grupos:
12.6 17.2353
11.1208 15.7177
IC
14.0792 18.7529
20
20
18
16
14
12
10
Calculo Resultado
Dif -4.6353
EEdif 1.0874
t -4.2627
gl 30
La diferencia entre ambos grupos es significativa con p < 0.001 para una
prueba bilateral, por lo que se puede considerar que el programa instruccional
sí influyó en la habilidad de lectura.