expertos cometen Cometer errores estadsticos es muy fcil. El software estadstico ayuda a eliminar los errores matemticos, pero interpretar correctamente los resultados de un anlisis puede ser incluso ms difcil. Hasta los expertos en estadstica suelen ser vctimas de errores comunes. Los instructores tcnicos de Minitab, todos especialistas en la estadstica, con una amplia experiencia en la industria, compilaron esta lista de errores estadsticos comunes con los que se debe tener mucho cuidado.
1: No distinguir entre significancia
estadstica y prctica Muestras muy grandes permiten detectar diferencias muy pequeas. Pero el hecho de porque exista una diferencia, no significa que sea importante. Corregir una diferencia estadsticamente significativa que no tiene ningn efecto prctico es un desperdicio de tiempo y dinero. Una empresa de alimentos llena 18,000 cajas de cereal por turno, con un peso objetivo de 360 gramos y una desviacin estndar de 2.5 gramos. Un sistema automatizado de medicin pesa cada caja al final de la lnea de llenado. Con esa cantidad de datos, la empresa puede detectar una diferencia de 0.06 gramos en el peso medio de llenado el 90% de las veces. Pero eso equivale a solo uno o dos pedacitos de cereal, lo cual no es suficiente como para prestarle atencin o preocuparse.
El desplazamiento de 0.06 gramos es
estadsticamente significativo, pero no tiene significancia prctica. La recopilacin automtica de datos y las bases de datos de gran tamao hacen que esto sea ms comn, as que considere el efecto prctico de una diferencia estadsticamente significativa. Especificar el tamao de una diferencia significativa cuando calcule el tamao de la muestra para una prueba de hiptesis le ayudar a evitar este error.
2: Malinterpretar los intervalos de
confianza que se superponen Al comparar las medias, con frecuencia examinamos los intervalos de confianza para ver si se superponen. Cuando los intervalos de confianza de 95% para las medias de dos poblaciones independientes no se superponen, habr una diferencia estadsticamente significativa entre las medias. Sin embargo, lo opuesto no es necesariamente cierto. Dos intervalos de confianza de 95% pueden superponerse aun cuando la diferencia entre las medias sea estadsticamente significativa. Para las muestras que se observan en la grfica de intervalo, el valor p de la prueba t de 2 muestras es menor que 0.05, lo que confirma una diferencia estadstica entre las medias; sin embargo, los intervalos se superponen considerablemente. Examine sus grficas, pero tambin el resto de la salida antes de concluir que no existe ninguna diferencia!
Visite www.minitab.com.
4: Rechazar la normalidad sin razn
Muchos mtodos estadsticos se basan en el supuesto de que los datos provengan de una distribucin normal, es decir, que sigan una curva en forma de campana. Las personas suelen crear histogramas para confirmar que sus datos siguen la forma de la curva de campana, pero los histogramas, como el que se muestra a continuacin, pueden ser engaosos. A pesar de que los niveles de confianza se superpongan, la prueba t de 2 muestras encontr una diferencia estadsticamente significativa entre los tratamientos.
3: Presuponer que correlacin =
causalidad Cuando se observa una correlacin, una asociacin lineal entre dos variables, es tentador concluir que un cambio en una variable causa un cambio en la otra. Pero la correlacin no significa que exista una relacin de causa y efecto. Supongamos que estamos analizando datos que muestran una fuerte correlacin entre las ventas de helados y los ndices de homicidios. Cuando las ventas de helados son altas en el verano, el ndice de homicidios es alto. Eso no significa que las ventas de helados causen homicidios. Dado que las ventas de helados y el ndice de homicidios alcanzan su mayor nivel en el verano, los datos ms bien sugieren que ambos se ven afectados por otro factor: el clima.
Extrajimos estas 9 muestras de la distribucin normal, pero
ninguno de los histogramas tiene forma de campana.
Al examinar los mismos datos en una grfica de
probabilidad, es ms fcil ver que siguen la distribucin normal. Cuanto ms cerca estn los puntos de datos de la lnea azul, mejor seguirn la distribucin normal.
Si tiene menos de 50 puntos de datos, una grfica de
probabilidad es una mejor opcin que un histograma para evaluar visualmente la normalidad.
Visite www.minitab.com.
5: Decir que se ha comprobado la
hiptesis nula En una prueba de hiptesis, se plantea una hiptesis nula (H) y una hiptesis alternativa (H). Por lo general, si la prueba tien1 e un valor p menor que 0.05, se dice que los datos apoyan la hiptesis alternativa en el nivel de significacin de 0.05. Pero si el valor p es mayor que 0.05, eso solo indica que no hay suficiente evidencia para rechazar la hiptesis nula. Esa falta de evidencia no demuestra que la hiptesis nula es verdadera. Supongamos que lanzamos una moneda justa 3 veces para probar estas hiptesis:
6. Analizar las variables una a la vez
Usar una sola variable para analizar una situacin compleja es una buena manera de llegar a malas conclusiones. Consideremos esta grfica de dispersin, la cual correlaciona las ventas de una empresa con el nmero de representantes de ventas que utiliza. De alguna manera, esta empresa est vendiendo menos unidades con ms representantes de ventas! Las variables que se pasan por alto pueden sesgar el anlisis, conduciendo a resultados errneos. Adems, si examina las variables de manera individual, no podr ver las interacciones entre ellas, que con frecuencia son ms importantes que cualquier variable por s sola. Para evitar este error, considere todas las variables importantes que afectan sus resultados.
H: Proporcin de caras = 0.40
H: Proporcin de caras 0.40
El valor p de esta prueba ser mayor que 0.05,
por lo que no hay suficiente evidencia para rechazar la hiptesis de que la proporcin de caras es igual a 0.40. Pero se sabe que la proporcin de caras para una moneda justa es realmente 0.50, as que la hiptesis nula (de que la proporcin de caras es igual a 0.40) obviamente no es cierta. Por eso se dice que con tales resultados no puede rechazar la hiptesis nula. Una buena analoga existe en el sistema de justicia penal de Estados Unidos, donde la sentencia cuando un fiscal no logra demostrar que el acusado cometi un delito es No culpable. La falta de evidencia no demuestra que el acusado es inocente, solo que no hubo suficiente evidencia o suficientes datos para demostrar lo contrario.
Pero en este anlisis falta algo crucial: un competidor cerr
mientras se recogan estos datos. Cuando se considera ese factor, la grfica de dispersin tiene sentido.
Visite www.minitab.com.
7: Hacer inferencias sobre una
poblacin que la muestra no representa Con la estadstica, las muestras pequeas nos permiten hacer inferencias sobre poblaciones enteras. Pero evite hacer inferencias sobre una poblacin que la muestra no represente. Por ejemplo: En el anlisis de capacidad, los datos de un solo da se utilizan errneamente para estimar la capacidad de todo el proceso de manufactura. En el muestreo de aceptacin, se seleccionan muestras de una seccin del lote para todo el anlisis.
El peor pecado? No buscar ayuda!
La mayora de los especialistas en estadstica tienen de 4 a 8 aos de educacin en estadstica y por lo menos 10 aos de experiencia en el mundo real; sin embargo, los empleados que cursan programas de capacitacin bsica en estadstica a veces piensan que saldrn como expertos en la materia. Nadie lo sabe todo acerca de la estadstica e incluso los expertos consultan con otras personas cuando se atascan. Si encuentra un problema estadstico que parece ser demasiado difcil, no tenga miedo de pedir ayuda a analistas con ms experiencia!
En un anlisis de fiabilidad, solo se incluyen
las unidades que no pasaron, pero la poblacin es todas las unidades producidas. Para evitar estas situaciones, defina cuidadosamente su poblacin antes del muestreo y tome una muestra que realmente la represente.