Вы находитесь на странице: 1из 3

Homogeneidad de los errores. Datos atpicos.

Un dato atpico (outlier) es un registro mayor o menor de lo esperado que se detecta por tener un residuo que es un valor inusual, muy grande o muy pequeo en relacin con la distribucin asociada a los residuos. Dado que los residuos estandarizados rit son una muestra aleatoria de una distribucin N(0,1), se verifica que aproximadamente un 68% de los rit deben estar entre -1 y 1, y alrededor del 95% entre -2 y 2 y prcticamente todos entre -3 y 3. Por ello, un residuo estandarizado que diste ms de 3 o 4 unidades del 0 (r it>3 ) se correponde, potencialmente, con una observacin atpica. Para chequear la existencia de observaciones atpicas se pueden utilizar diferentes grficos: el histograma de los rit, el diagrama de cajas mltiple de losrit por niveles del factor tratamiento como se observa en la Figura 1. o el diagrama de dispersin de los puntos {i , r it } .

Figura 1. Grfico de cajas mltiple de los residuos estandarizados frente al factor. Contrastes no paramtricos acerca de la hiptesis de no existencia de datos atpicos son los siguientes. Contrastes de valores atpicos Cuando el tamao muestral es moderado (no mayor de 20) y se sospecha la presencia de una nica observacin atpica, un contraste bastante utilizado se basa en calcular el siguiente estadstico que est tabulado: Qn = max = max

Ejemplo 1. El nmero diario de operaciones a corazn abierto en un hospital es una variable aleatoria. Se ha tomado la siguiente muestra de la misma: 12, 7, 8, 3, 2, 5. En base a ella, contrastar la homogeneidad de dicha muestra. Solucin. Dado que n = 6, como mucho habr un dato atpico (quiz el 12), se calcula qn:

El punto crtico, para = 0'05, es 1'89 y se acepta la hiptesis de no existencia de datos atpicos. Si el tamao muestral es medio o grande, o se espera que pueda haber ms de un dato atpico, resulta ms adecuado usar el contraste basado en el coeficiente de apuntamiento muestral. Este coeficiente aumenta notablemente al introducir alguna observacin muestral que provenga de una distribucin de mayor varianza que la del resto de variables de la muestra. Cuando no existen valores atpicos y el tamao muestral es moderado o pequeo, la distribucin de este estadstico est tabulada, en caso contrario, se debe usar la aproximacin por una normal de media cero y varianza 24/n. Si el estadstico es significativamente mayor que el punto crtico de la normal se admitir la presencia valores atpicos. Ejemplo 2. Las cuotas de disco ocupado (en Mbytes) para distintos usuarios de una estacin de trabajo son: 35, 45, 47, 50, 31, 30, 25, 33, 35, 40, 45, 47, 49, 42, 40, 50, 46, 55, 42, 46. Contrastar la hiptesis de que la muestra es homognea. Solucin. Se calcula el CAp = -0'4786 y su estandarizado: CApS = -0'437. Utilizando como distribucin aproximada del coeficiente de curtosis estandarizado la de una N(0,1), el p-valor = 0'67, y se acepta la hiptesis de no existencia de datos atpicos. En ocasiones las observaciones atpicas son fruto de errores concretos en el proceso de recogida de los datos, otras veces, en cambio, delatan ausencia de normalidad, heterocedasticidad o una incorrecta especificacin del modelo. Una vez que se ha identificado la presencia de una observacin atpica, se debe investigar su procedencia y si se concluye que se ha generado por errores en el muestreo se debe eliminar. En otro caso, es conveniente repetir el anlisis estadstico sin la observacin atpica y examinar las nuevas conclusiones. Si dichas conclusiones son semejantes a las obtenidas con ella, la observacin puede mantenerse. Si, por el contrario, las conclusiones se modifican drsticamente, la observacin atpica se denomina influyente. En este punto, el experimentador debe enjuiciar si es posible su aparicin por un error experimental (eliminarlo) o si tal observacin podra volver a aparecer (buscar modelos ms complejos). Ejemplo 3. Se ha realizado un experimento para estudiar el rendimiento de las pilas en funcin del tipo de pila. La Figura 2. muestra la nube de residuos estandarizados que se obtuvo inicialmente con este experimento. En esta figura se observan dos anomalas relativas. Por un lado, la dcima observacin genera un residuo de valor -2'77. Adems, la totalidad de residuos procedentes de los otros tres tipos de pilas se encuentran entre -1 y 1, lo que constituye bastante ms que el 68% esperado.

Un anlisis del origen de la dcima observacin revel un error en el registro. Se haba introducido en el ordenador una duracin de 285 minutos cuando en la hoja de anotaciones figuraba una duracin de 585 minutos. Subsanado el error se repiti el ajuste del modelo y los nuevos residuos estandarizados se muestran en la Figura 3. Ambas anomalas desaparecen ahora. Ya no se detectan observaciones atpicas, los residuos (globalmente) son algo mayores pero la varianza residual es ms pequea.

Figura 2. Diagrama de dispersin de los residuos.

Figura 4.3. Grfico de dispersin una vez que se corrigi el error.

Вам также может понравиться