Вы находитесь на странице: 1из 9

El sesgo estadístico como herramienta de visualización de datos

1
MC. Luis Carlos Corral Alvídrez.

1
lccorral@uach.mx

Universidad Autónoma de Chihuahua

1
Centro Universitario Parral; Calle Jesús Lozoya Solís S/N, Col. Almanceña, C.P. 33820, Hidalgo del Parral,
Chihuahua, México.

Resumen:

El sesgo estadístico comúnmente ha sido utilizado para determinar la diferencia entre un


valor esperado y el parámetro que se estima, su cálculo es útil para visualizar el
alargamiento asintótico de la forma distribucional de un conjunto de datos analizados, así
mismo, puede ser útil, como medio para poder interpretar con prontitud el
comportamiento mayoritario del número de datos observados alrededor de la media,
mediana y moda.
En la actualidad la enorme cantidad de información que puede ser operada desde un
ordenador, genera confusiones al momento de obtener estadísticas descriptivas que se
puedan comprender o visualizar de una forma práctica; en una amplia gama de áreas de
investigación, los datos recabados requieren de un tratamiento que conduzca hacia una
pronta interpretación de sus resultados, y más aún, que éstos sirvan para responder con
prontitud a cuestionamientos para la buena toma de decisiones.
Cuando se manejan bases de datos económicas, sociales, de producción o diferentes
actividades en las que se generen información estadística, poder obtener interpretaciones
más profundas de sus cálculos comúnmente realizados, amplía la visión del analista y el
mayor aprovechamiento de los mismos. Particularmente a lo largo de varios años
analizando datos estadísticos de tesistas universitarios, el presente autor ha constatado la
necesidad de extender el concepto de sesgo estadístico, como fuente de visualización
numérica durante el análisis de sus frecuencias.
Keywords: Sesgo, Coeficiente de Asimetría, Estadísticas descriptivas.

Clasificación JEL: C02, C20, C44


Marco Teórico

En la literatura estadística, el concepto de sesgo o coeficiente de asimetría hace alusión a


una condición simétrica de la forma distribucional de una variable aleatoria, gráficamente
se visualiza como una prolongación asintótica del conjunto de datos, en donde su simetría
puede ilustrarse al trazar una recta perpendicular al eje de las abscisas y sobre el que se
extiende la media de dicha distribución. Si una distribución es simétrica, se contará con el
mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo
número de desviaciones con signo positivo que con signo negativo, (Fig. 1).
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
Eje de Simetría
0.4

0.3
Densidad

0.2

0.1

0.0
-3 -2 -1 0 1 2 3
X Estándar
Desviación

Figura 1. Simetría y sesgo de una función de distribución


Decimos que hay sesgo negativo (asimetría a la izquierda), si la "cola" a la izquierda de la
figura, es más larga que la de la derecha; por el contrario, diremos que hay sesgo positivo
(asimetría a la derecha), si la "cola" a la derecha de la media es más larga que la de la
izquierda, ver Fig. 2. Un ejemplo al respecto son los datos sobre salarios en una
organización, éstos suelen ser asimétricos al observar que muchos empleados de una
empresa ganan relativamente poco, mientras que cada vez menos personas ganan salarios
muy elevados (sesgo positivo); o bien, al observar los costos de un bien inmueble y
encontrar una casa con un valor demasiado bajo al precio normal en el mercado, esta se
considera tener una asimetría a la izquierda (sesgo positivo)

a b
) )

Figura 2 Sesgo negativo (a) y sesgo positivo (b)


Los recursos para análisis estadístico ofrecen conceptos muy semejantes sobre el sesgo; tal
es el caso de Excel (Microsoft Office, 2018), quienes establecen como definición del
Coeficiente de Asimetría o Sesgo lo siguiente: “Devuelve la asimetría de una distribución
con respecto a su media. Otros programas más especializados en el área de estadística,
como SPSS o Minitab (2018), interpretan que a medida que los datos se vuelven más
simétricos, el valor del sesgo se acerca a cero, caso contrario, cuando se alejan de cero.
En términos generales muchos de los autores en estadística definen el concepto de sesgo
haciendo referencia a la asimetría o alargamiento de uno de los extremos de la distribución:
“El sesgo de una distribución es su grado de asimetría o el grado en el que se aleja de la
simetría” (Spiegel y Stephens, 2009); “El sesgo muestra la falta de simetría en un grupo de
observaciones” (Lind, Marshal, y Wathen, 2012); “La asimetría (sesgo) es sensible a valores
atípicos, esto es importante para valores extremos que sean reales” (Winkler y Hays, 1975);
“Los datos están sesgados (asimétricos), cuando una cola de las colas de la distribución se
alarga hacia un extremo” (Montgomery y Runger, 1996). Es decir, los autores describen el
sesgo en función de las observaciones de datos extremos (outlier) que se representan en la
gráfica de la función; sin embargo, habría que revisar las definiciones desde el punto de
vista del extremo, opuesto a donde se observa la asimetría, es decir del lado donde se
encuentra la mayoría de los datos en la distribución, siendo éste el fin del estudio del
presente documento.

Figura 3. Frecuencia de datos en la distribución


Matemáticamente el sesgo se calcula de varias formas, comúnmente la de mayor utilización
es el desarrollado por Karl Pearson, (Pliego, 2007) quien para ello estableció una razón entre
la diferencia de la media y la mediana (o moda) y su desviación, utilizando para ello el
supuesto de la relación empírica (1) existente entre la diferencia de la media y la moda, para
curvas de frecuencias unimodales ligeramente sesgadas (asimétricas), la desventaja es que
sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente
asimétricas de lo cual resulta (2):
Media − moda = 3(media − mediana) ---- (1)
3(𝜇−𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 3(𝜇−𝑀𝑜𝑑𝑎)
𝑠𝑘 = 𝑠𝑘 = ---- (2)
𝑠 𝑠

donde:
Sk = (skewness) sesgo o coeficiente de asimetría
𝑥̅ = Media
s = Desviación estándar del conjunto de datos
Para el caso se concluye con Pearson{\displaystyle \mu }quee que {\displaystyle X}sssi la
distribución es asimétrica o sesgo positivo la media se sitúa por encima de la moda y, por
tanto, {\displaystyle A_{p}>0}Sk>0; y S(k)<0 en caso contrario.
Por otra parte, uno de los modelos matemáticos mayormente utilizados en los softwares
especializados en estadística, es el coeficiente de asimetría de Fisher, definido como la
sumatoria del cociente entre el momento de orden 3 respecto a la media y el cubo de la
desviación típica:
𝑛
𝑛 𝑥𝑖−𝑥̅ 3
∑( )
(𝑛 − 1)(𝑛 − 2) 𝑠
𝑖=1

A manera de ejemplo el anexo A1 muestra tres conjuntos de datos (Spiegel y Stephens,


2009), a los cuales se les titula respectivamente como datos: normales, con sesgo+ y con
sesgo-. Los resultados de su coeficiente de asimetría se muestran dentro de cada
histograma en la figura siguiente:
Sesgo + Simétrica Sesgo -
14
12 14

12
12
10

10
10
8

8
8

6
6 6

4
4 4

2
2 2

0 0 0
15 30 45 60 75 36 48 60 72 84 20 40 60 80 100 120

Figura 4 Sesgo de diferentes datos


De acuerdo con los ejemplos de la figura, el cálculo del coeficiente de asimetría para cada
una son los siguientes: para los datos titulados “Simétrica” su sesgo es cercano a cero (-
0.02), lo que explica simetría de sus valores con la media; caso contrario para los datos
titulados “Sesgo+” y “Sesgo –“, con coeficientes 1.92 y -1.45 respectivamente, muestran
hacia dónde se alarga la figura en alguno de los extremos. Teóricamente como se había
expresado, la mayoría de los análisis sobre el sesgo, se realizan basados en la simetría o

Sesgo - Sesgo +

SESGO SES
Figura 5 El sesgo y la posición de las medidas de tendencia central
asimetría que se observa en el alargamiento de uno de los extremos de la campana, y por
consiguiente el alejamiento de las medidas de tendencia central (Ver Fig. 6).

Puede observarse que la posición de las distintas medidas de tendencia central: media,
mediana y moda, se alinean en orden a la posición donde se observa el sesgo, para el caso
la medida de tendencia central más próxima al sesgo es la media ( 𝑋̅ ), y la más alejada la
moda (Mo). El sesgo está entonces en posición no solo de dar a conocer hacia dónde se
extiende la asíntota de la campana, sino que expresa la concentración mayoritaria de datos
presentes en la parte opuesta al sesgo; por ejemplo, en la gráfica del sesgo positivo, existe
una mayor concentración de valores cargados a izquierda de la media, así mismo ocurre con
los datos con sesgo negativo.

Observaciones y Conclusión

Particularmente existe un ensayo muy interesante, referenciado en el libro de Estadística


para los Negocios y la Economía (Lind, Marshal, y Wathen, 2012), en él se plantea el uso
práctico de este análisis. El artículo fue desarrollado por el paleontólogo y biólogo
evolucionista, Stephen Jay Gould (1985), quien escribió sobre la dispersión y las medidas de
tendencia central, su estudio tiene una enorme relevancia pues lo aplicó a su propia
persona. Gould fue diagnosticado en 1982 con mesotelioma abdominal, un tipo de cáncer
incurable desarrollado por exposición al asbesto; de manera particular, encontró que la
duración promedio de un paciente con este padecimiento era de 8 meses, sin embargo
observó que el rango de mortandad dado en términos de medidas de tendencia central, era
erróneo para su percepción, ya que los médicos veían los promedios y las medianas como
la realidad dura de lo que iba a sucederle; su experiencia profesional le decía que esto no
era así, ya que consideraba que su verdadera realidad era la variabilidad en el tiempo de
vida y no las medidas de tendencia central.
Lo anterior le hizo razonar lo siguiente: “Después de todo, la izquierda de la distribución
contiene un límite inferior irrevocable de cero (ya que el mesotelioma solo se puede
identificar en el momento de la muerte o antes). Por lo tanto, no hay mucho espacio para
la mitad inferior (o izquierda) de la distribución: debe comprimirse entre cero y ocho meses.
Pero la mitad superior (o derecha) puede extenderse durante años y años, incluso si
finalmente nadie sobrevive. La distribución debe estar bien sesgada, y necesitaba saber
cuánto tiempo corría la cola extendida, porque ya había llegado a la conclusión de que mi
perfil favorable me convertía en un buen candidato para esa parte de la curva.” (Gould,
1985). Finalmente, Jay Gould estuvo en lo correcto con su apreciación, su vida se extendió
20 años más del promedio de los 8 meses que le habían pronosticado (figura 6).

0 8 meses 20 años
Figura 6 Análisis de la variación del tiempo de vida para Stephen J. Gould

Su análisis es una aplicación excepcional de la estadística, porque el éxito de poder


prolongar su vida dependió lógicamente, por un lado, de su tratamiento y del estilo de vida
que desarrollaba, y por otro, fue esperanzador haber confiado en el mensaje que las
estadísticas le proporcionaban sobre su futuro, ya que como se lo expresaba su médico, es
la actitud lo que prolonga la vida después de su diagnóstico.

Sin embargo, habría que preguntarse ¿qué ocurre con el otro extremo de la curva?, ¿qué
se podría concluir sobre los pacientes que estaban a la izquierda de la gráfica? Primero y
desgraciadamente, muchos pacientes murieron a los 8 meses o incluso, en menos de lo
pronosticado; y segundo, que estas muertes constituían la mayor proporción de pacientes
diagnosticados con esta enfermedad. Esta conclusión genera la reflexión de que el sesgo
puede ser utilizado, sobre todo en grandes muestras, para determinar en qué extremo de
las medidas de tendencia central se localizan la mayoría de los datos analizados.

Para comprobar dicha afirmación, se analizaron 3 grupos de datos (anexo A1), la figura 7 se
visualizan por color cada conjunto. Para el caso, los datos en gris aparecen con un sesgo de
-1.45, lo cual indica que a la izquierda su media = 74.2, se tienen 22 datos (ver eje x) y a su
derecha 28, es decir hay una mayoría de datos a la derecha de la media. Para los datos en
naranja se tiene un sesgo de 1.92, lo que significa que la mayoría de los 50 datos se
encuentran a la izquierda de la media; y finalmente, los datos en azul con un sesgo de -0.07,
prácticamente cero, se cuenta aproximadamente con la misma cantidad de datos a la
izquierda como a la derecha de su media.

Media = 74.2
104
Sesgo = -1.45
Media = 35.48 102
Media = 63.88 Sesgo = 1.92 97 98
93 95
Sesgo = - 0.07 93
93
87 89 90 90 92 92
83 84 85 85
79 79 80 81 82 82 85
77 77
73 73 73 75 76 76 75
70 70 71 71 72 72
65 66 63 66
58 60 63 55 57
55 58
44 43 46
38 40 40 40 41
35
33 33 34 34 34 34 34 35 35 35 36 38
25 29 29 30 30 30 31 31 86 92
26 26 27 28 28 28 29 29 77 80 80 81 81
10 24 24 25 26 26 26 70 70 70 71 71 71 71 72 72 74 74 75 76
10 22 23 24 64 66 68 69 69 69
58 62 62 63 63 63
19 51 52 52 53 54 54 54 54 55 56 56
43 47 48 48 49
36 42

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

Figura 7 Análisis de 3 grupos de datos relacionando sus medias y su sesgo


Finalmente se puede concluir que para un sesgo positivo la mayoría de los datos se
encontrarán a la izquierda de la media; para un sesgo negativo, la mayoría de los datos se
encontrarán a la derecha de la media; y para un sesgo de cero, los datos se repartirán en la
misma cantidad a la izquierda y derecha de la media.
Bibliografía
Gould, S. (Junio de 1985). https://people.umass.edu. Obtenido de
https://people.umass.edu/biep540w/pdf/Stephen%20Jay%20Gould.pdf

Lind, D., Marshal, W., & Wathen, S. (2012). Estadística aolicada a los negocios y la economía.
México: McGraw Hill.

Microsoft Office. (15 de Julio de 2018). https://support.office.com. Obtenido de


https://support.office.com/es-es/article/coeficiente-asimetria-funci%C3%B3n-coeficiente-
asimetria-bdf49d86-b1ef-4804-a046-28eaea69c9fa

Minitab. (15 de Julio de 2018). https://support.minitab.com/. Obtenido de


https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/how-to/display-descriptive-statistics/interpret-the-results/all-statistics-and-
graphs/#skewness

Montgomery, D., & Runger, G. (1996). Probabilidad y estadística aplicada a la ingeniería. México:
McGraw Hill Interamericana.

Pliego, M. (2007). Introducción a la Estadística Económica y Empresarial. Teoría y Práctica. Madrid:


Thompson Editores.

Spiegel, M., & Stephens, L. (2009). Estadística. México: McGraw Hill Interamericana.

Winkler, R., & Hays, W. (1975). Statistics. USA: HRW.


Anexos

A1. Datos ejemplo


Dato Normal Sesgo + Sesgo - Dato Normal Sesgo + Sesgo -
1 80 31 102 26 74 40 87
2 72 43 55 27 47 24 104
3 69 30 70 28 48 29 75
4 49 30 95 29 71 24 80
5 56 38 73 30 77 27 66
6 43 26 79 31 54 35 93
7 62 29 60 32 70 33 90
8 58 55 73 33 71 75 84
9 52 46 89 34 64 38 73
10 53 26 85 35 36 34 98
11 63 29 72 36 69 85 79
12 92 57 92 37 52 29 35
13 63 34 76 38 71 40 71
14 74 34 93 39 72 41 90
15 42 36 76 40 81 35 71
16 55 40 97 41 75 26 63
17 76 28 10 42 51 34 58
18 71 26 70 43 70 19 82
19 81 66 85 44 54 23 72
20 86 63 25 45 63 28 93
21 54 30 83 46 54 26 44
22 80 33 58 47 48 31 65
23 56 24 10 48 62 25 77
24 69 35 92 49 70 22 81
25 66 34 82 50 68 28 77

Вам также может понравиться