Академический Документы
Профессиональный Документы
Культура Документы
Oscar Diaz
Piensa Estadística.
26-2-2019
Unidad I
Introducción al Análisis Exploratorio de Datos (EDA)
Por Óscar R. Díaz
Resumen—En esta unidad se presentan al estudiante las primeras herramientas que le ayudar án a
desarrollar el pensamiento estadístico, una forma de pensamiento que parte de la existencia de la
variabilidad, trata de entender su estructura y aplica ese entendimiento en el resumen, descripción
y representación de datos en un ambiente de variabilidad e incertidumbre. La primera herramienta
que se proporciona es el Análisis Exploratorio de Datos, una forma de pensar y actuar sobre el aná-
lisis de datos que requiere de cierto enfoque, de cierta perspectiva que se apoya en un conjunto de
herramientas gráficas y de síntesis de datos que tienen como finalidad maximizar lo que se aprend e
de los datos.
I. VARIABILIDAD Y PENSAMIENTO ESTA- piezas que forman el componente, por lo que la longitud
DÍSTICO. de estos tornillos resulta ser una característica de calidad
importante. La empresa ha solicitado lotes de tornillos a los
¿Qué es la variabilidad? proveedores A y B. Al inspeccionar tres tornillos de cada
uno de estos proveedores resultan las siguientes lecturas (en
Figura 1 Figura 2
1 Una consecuencia inevitable del uso de gráficos es la «pérdida» de precisión en la informa- limitante de los métodos gráficos, ya que el objetivo de su uso es hacernos un panorama
general (the big picture) del comportamiento de los datos y para eso no interesan las canti-
ción. Note como en el análisis se habla de cantidades aproximadas (cerca de la mitad, por-
dades exactas sino las tendencias. Por supuesto, es una buena práctica siempre citar la fuente
centaje cercano al 20%, cerca del 40%, un poco más del 10%). Esto en realidad no es una
Nota: todo análisis de este tipo de variables debe de incluir: tenden- para cada una de las categorías. También resulta muy común
cias (el reparto casi igual de los Android y iphone), anomalías (el alto
porcentaje de personas que usan celulares no inteligentes) y toda infor-
construir ambos gráficos en forma horizontal.
mación que ayude al usuario de la información dibujar un panorama com-
pleto del comportamiento de los datos (the big picture).
o proporcionar la tabla de frecuencias en caso de que algún lector desee más detalle en la
información. Por lo general, gastar esfuerzo en calcular las cantidades exactas a partir de un
gráfico es una tarea que se volverá tediosa y de poco aporte para el EDA.
en la columna de frecuencias absolutas. En la tabla 7 se
muestran los resultados obtenidos y el cálculo de las fre-
cuencias relativas. Las marcas de clase son el punto me-
dio de cada una de las clases. Por ejemplo, la marca de
51+59
clase para la primera clase es = 55. Estas marcas
2
de clase suelen emplearse como valores representativos
de su respectiva clase. Por ejemplo, podemos decir que
un valor representativo de los 20 datos comprendidos en
la cuarta clase es 82.
Tabla 6:
Datos para el ejemplo 4
Límites de Clase 𝑓 𝑓𝑟(%) M arca de Clase
Solución: para construir la distribución de frecuencias 51 – 59 2 4 55
seguiremos los siguientes pasos: 60 – 68 5 10 64
69 – 77 11 22 73
1. Encuentre el mayor y el menor de los valores en la serie 78 – 86 20 40 82
de datos. Para nuestro ejemplo estos valores son 99 y 51 87 – 95 10 20 91
96 – 104 2 4 100
respectivamente. Totales 50 100
2. Calcule el Rango de los valores restando el menor valor Tabla 7
del mayor. 𝑅 = 𝑚𝑎𝑥 − 𝑚𝑖𝑛 = 99 − 51 = 48. Distribución de Frecuencias para el ejemplo 4
3. Calcule el número de clases que usará. La cantidad
2𝑘 = 𝑛 se usa a menudo para estimar el número de cla- ¿Qué información nos proporciona una distribución de
ses conociendo el total de datos disponibles. En nuestro frecuencias? Organizar los datos de esta manera nos permite
caso 2𝑘 = 50. Con 𝑘 = 5 obtenemos 32 y con 𝑘 = 6 hacernos una idea general e inmediata del comportamiento
obtenemos 64. Seleccionamos este último valor por es- de las notas de los alumnos. Por ejemplo, la nota más fre-
tar más cerca de 50. Entonces usaremos 6 clases. Se re- cuente está entre 7.8 y 8.6 y un valor representativo de esta
comienda usar entre 5 y 20 clases. nota es 8.2 que es la marca de clase. Hay dos estudiantes
4. Determine el ancho de clases por medio de la ecuación con notas sobresalientes entre 9.6 y 10.0, casi el doble de la
𝑐 = 𝑅⁄𝑘 = 48⁄6 = 8. En este paso, si el resultado no nota que obtuvieron los dos alumnos con menor nota, pero
es un número entero redondee al siguiente entero. Adi- solo representan un 4 % de los estudiantes. Si consideramos
cionalmente, para asegurarnos de que las clases inclu- que 6.0 es la nota requerida para aprobar el examen, pode-
yan a todos los datos este resultado lo aproximaremos mos decir que la mayoría de estudiantes (48) aprobaron el
siempre al entero siguiente, por lo que el ancho de clase examen, lo cual representa un 96 % de aprobados. (Re-
que usaremos será de 9. cuerde que al inicio hemos multiplicado por 10 los datos,
5. Construya el primer intervalo sumando al valor menor por lo que hay que tener en cuenta eso a la hora de obtener
(51) el ancho de clase (9). Entonces, nuestro primer conclusiones).
intervalo irá desde 51 hasta 60. El siguiente de 60 hasta
Representación Gráfica de una Distribución de Frecuen-
69 y así sucesivamente hasta el último intervalo que va
cias.
desde 96 hasta 105.
Para representar gráficamente una distribución de fre-
cuencias usaremos el histograma de frecuencias, un gráfico
muy parecido al gráfico de barras que construimos en la sec-
Sin embargo, debemos acomodar estas clases de la si- ción anterior. La diferencia más importante es que en el his-
guiente manera: restamos 1 del límite superior de la pri- tograma, ambos ejes poseen escala ya que vamos a
mera clase: 60-1=59. Entonces, la primera clase es 51- representar variables cuantitativas.
59, la segunda 60-68 y así sucesivamente.
Iniciamos introduciendo el concepto de limites reales de
clase (los cuales nos permitirán. Estos se obtienen restando
0.5 a los límites inferiores de clase y sumando 0.5 a los su-
periores. Luego marcamos en el eje 𝑥 los límites reales de
clases y levantamos barras con altura proporcionales a las
frecuencias absolutas o relativas. En este caso como se trata
de analizar las notas de los alumnos usaremos las frecuen-
cias absolutas. El histograma se muestra en la figura 8.
6. Finalmente, contamos cuantos de los datos correspon-
den a cada una de los intervalos y anotamos el resultado
resulta evidente porque hay mayor cantidad de barras a
la derecha de 6.0)
En resumen, del histograma podemos obtener la misma
información que de una distribución de frecuencias, pero
«de otra manera». Esta otra manera de hacerlo, por lo gene-
ral, implica la perdida de precisión; es decir, un menor de-
talle de la información, lo cual, como se ha explicado antes,
no es una limitante, sino más bien un componente básico del
pensamiento estadístico: el saber describir a grandes rasgos
y de manera rápida el escenario al que nos transporta una
serie de datos (the big picture).
Características de una Distribución de Datos
Hay un aspecto muy importante que revela el histo-
grama: la forma o perfil de la distribución de los datos, lo
cual nos proporciona un elemento más de análisis para una
serie de datos. En las secciones siguientes veremos que la
forma de la distribución determina el método estadístico
Figura 8 apropiado que debe usarse para analizar los datos. Al des-
cribir la forma de la distribución resulta conveniente apro-
¿Qué información nos proporciona el histograma? Pode-
ximar el histograma por una curva suavizada, tal como en
mos obtener las mismas conclusiones que ya hemos men-
la figura 9.
cionado anteriormente a partir de la distribución de frecuen-
cias, pero «de otra manera». Retomemos las ideas principa-
les y explicaremos como obtenerlas a partir del gráfico:
1. La nota más frecuente está entre 7.8 y 8.6 y un valor
representativo de esta nota es 8.2. En el histograma, esto
se refleja en la barra con mayor altura. No olvide usar
los límites de clase en lugar de los reales (sino diríamos
que la nota más frecuente está entre 7.75 y 8.65, lo cual
sería incorrecto ya que las notas no están reportadas Figura 9: Histograma Suavizado
hasta la centésima)
2. Hay dos estudiantes con notas sobresalientes entre 9.6 Una distribución puede tener muchas formas, pero para
y 10.0, casi el doble de la nota que obtuvieron los dos los propósitos de este curso nos bastarán algunas de ellas y
alumnos con menor nota, pero solo representan un 4 % nos centraremos principalmente en las siguientes caracterís-
de los estudiantes. En el histograma esto se ve en la úl- ticas:
tima barra a la derecha. A menudo, como en este caso, 1. El número de picos o modas: Una distribución de datos
la lectura en el eje 𝑦 resulta un poco difícil a simple puede ser unimodal, si tiene un pico (a), bimodal, si
vista, por lo que establecer esta relación de «casi el do- tiene dos picos (b) y multimodal si tiene más de dos pi-
ble» resulta un tanto difícil. Sin embargo, esto no repre- cos (c). Para el desarrollo de este curso nos centraremos
senta una limitación del gráfico, ya que, como hemos exclusivamente en distribuciones unimodales
mencionado antes, una información tan detallada por lo
general no es necesaria, bastará con decir que hay «muy
pocos estudiantes» con notas sobresalientes. Si usamos
las frecuencias relativas estas comparaciones resultan
más fáciles. En los subsiguiente se recomienda el uso de
las frecuencias relativas para facilitar el análisis.
3. Si consideramos que 6.0 es la nota requerida para apro- Figura 10
bar el examen, podemos decir que la mayoría de estu-
2. La simetría: Un histograma es simétrico si existe una
diantes (48) aprobaron el examen, lo cual representa
línea vertical tal que la porción del histograma a la iz-
un 96 % de aprobados. En el histograma a lo mejor no
quierda de esta línea es similar a la porción que está
logramos tanta precisión, así que esta información po-
a la derecha (a). Si esta línea no existe, entonces el his-
dría quedar como: Si consideramos que 6.0 es la nota
tograma tendrá un sesgo a la derecha (b) o a la izquierda
requerida para aprobar el examen, podemos decir que
(c)
la mayoría de estudiantes aprobaron el examen (lo cual
Uso de Histogramas para Comparar dos Series de Datos.
Si desea comparar dos series de datos, tenga en mente
las siguientes dos recomendaciones:
• Use siempre las frecuencias relativas para construir
el histograma, ya que los grupos que compara po-
Figura 11: Simetría de una Distribución de Datos. drán ser de tamaños diferentes.
• Use las mismas escalas en ambos ejes para hacer
3. La variabilidad: ¿Se agrupan los datos alrededor de su que las comparaciones se vuelvan más fáciles.
valor representativo o se dispersan a lo largo del eje 𝑥?
estas preguntas tienen que ver con la variabilidad de los Ejemplo 5: El artículo «Early Television Exposure and
datos en una distribución, que en el histograma se ve en Subsequent Attention Problems in Children» investiga los
el «ancho» que este tiene. En (a) se muestran dos distri- hábitos televisivos de los niños de EU. Los datos fueron ob-
buciones que tienen el mismo valor central o típico, tenidos en un estudio a nivel nacional. En la tabla 8 se mues-
pero tienen diferente variabilidad (la distribución más tran las frecuencias relativas aproximadas para el número de
«alta» tiene una menor variabilidad). En (b) se muestran horas frente a la TV por día para niños de uno y tres años.
dos distribuciones con diferente variabilidad, y con di- Construya un histograma para cada variable y compare sus
ferente valor central. características más importantes.
Horas frente a la TV por día Un año Tres años
0a2 0.270 0.630
2a4 0.390 0.195
4a6 0.190 0.100
6a8 0.085 0.025
8 a 10 0.030 0.020
10 a 12 0.020 0.015
12 a 14 0.010 0.010
14 a 16 0.005 0.005
Tabla 8
Figura 12: Variabilidad en una Distribución de Datos. Datos para el Ejemplo 5
Con respecto al ejemplo 4, ¿Que nuevas características Solución: Intentar comparar ambas variables a partir de
posee la distribución de notas? Al observar el histograma la tabla resulta un tanto complicado, pero si construimos his-
(figura 13), notamos que es unimodal (por lo general este togramas para ambas variables aparecen las características
será el caso más común, de manera que puede omitirse del que buscamos. En la figura 14 se muestran ambos histogra-
análisis y solo hacer referencia a esta característica si el his- mas. Observe la importancia de usar la misma escala en el
tograma es bimodal o multimodal), además posee un sesgo sistema de ejes coordenados, lo cual nos permite hacer com-
a la izquierda, lo cual indica que la mayoría de puntuaciones paraciones que tengan sentido.
fueron altas.
Análisis: En ambos grupos de edades el tiempo frente a
la TV es pequeño. Para el grupo de un año, un valor repre-
sentativo está entre 2 y 4 horas, y entre 0 y 2 horas para el
grupo de tres años. Ambos histogramas presentan un sesgo
a la derecha, lo cual nos indica que existe un pequeño grupo
de niños que ven mucha TV (entre 14 y 16 horas)
Midiendo el Centro y la Dispersión de una Distribución de En el cálculo de la media se utiliza la siguiente notación:
Datos.
Sean:
Las técnicas aprendidas en las secciones anteriores nos
permiten realizar un análisis visual de los datos, lo cual re- 𝑥: la variable de interés.
sulta ser una excelente técnica para obtener impresiones pre- 𝑛: número de observaciones.
liminares. Un análisis más formal requiere del cálculo de 𝑥1 : la primera observación del conjunto de datos.
números que nos resuman algunas de las características más 𝑥 2: la segunda observación del conjunto de datos.
importantes de la distribución de datos. Nos centraremos en ⋮
dos de estas características: el centro y la variabilidad. El 𝑥 𝑖: la i-ésima observación del conjunto de datos
centro responde a la pregunta ¿dónde está centrada la dis- ⋮
tribución de datos a lo largo de una escala o eje de valores?
𝑥 𝑛: la n-ésima observación del conjunto de datos.
Por su parte, la variabilidad describe cómo es la dispersión
de los datos, es decir si son muy similares entre sí o difieren Entonces la media se calcula de la siguiente manera:
significativamente entre sí. Esto nos lleva a las siguientes
dos definiciones: 𝑥1 + 𝑥 2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥 𝑖
𝑥̅ = =
Definición: Una medida de tendencia central describe 𝑛 𝑛
dónde se ubica la distribución de datos a lo largo de una es- Midiendo el Centro de una Distribución de Datos Aproxi-
cala numérica. Además, nos proporciona información sobre madamente Simétrica.
qué es «típico».
Ejemplo 6: El diámetro, en milímetros, de 50 piezas usa-
Definición: Una medida de dispersión describe qué das para el ensamblaje de un sistema de enfriamiento se
tanta variabilidad existe en una distribución de datos. Ade- muestra en la tabla 9.
más, nos proporciona información sobre qué tanto los valo-
450.97 437.70 433.75 444.96 448.24
res individuales tienden a diferir unos de otros.
432.70 429.83 446.96 449.03 419.53
Caso de una Distribución Aproximadamente Simétrica. 454.81 450.83 470.04 456.21 472.13
442.95 434.90 435.13 454.77 448.28
Cuando una distribución es aproximadamente simétrica, 449.22 466.95 444.55 448.90 445.76
445.41 451.04 449.28 448.74 436.22
la mejor manera de describir el centro es con la media y la 440.49 465.09 445.04 461.53 438.96
mejor manera de medir la dispersión es con la desviación 448.29 437.54 433.59 463.35 469.28
estándar. 458.10 429.22 459.67 461.06 446.88
451.07 473.82 458.59 442.54 455.69
La media aritmética. Matemáticamente, la media arit- Tabla 9.
mética o simplemente media o promedio, es la suma de to- Datos para el ejemplo 6.
dos los valores dividida por el número total de observacio-
nes. Calcule e interprete la medida de tendencia central más
adecuada para los diámetros de las 50 piezas.
Solución: Si aplicamos las técnicas del EDA descritas Midiendo la Variabilidad de una Distribución de Datos.
hasta el momento, necesitamos construir el histograma para
la serie de datos. Esto nos da una representación visual a Al reportar la medida del centro de una distribución de
cerca de la distribución de los diámetros que nos permitirá datos solamente se da una información parcial a cerca del
decidir esta distribución es simétrica o no. El histograma se conjunto de datos. También es importante describir cuánto
muestra en la figura 16. difieren las observaciones unas de otras. Por ejemplo, con-
sidere las tres series de datos siguientes:
A: 50,70,80,60,90,100
B: 75,75,50,75,100,75
C: 75,70,75,80,75,75
Cada serie de datos tiene una media de 75, es decir que
el centro de las tres distribuciones es el mismo, como se
muestra en la figura 18. No habría diferencia alguna entre
las tres distribuciones si las describimos sólo midiendo su
centro.
Noción intuitiva de dispersión.
La dispersión es una característica de un conjunto de da-
tos numéricos, y en general podemos decir que mide la va-
riabilidad respecto a una medida de posición central y que
Figura 16: Distribución de los diámetros para el ejemplo 6 es un indicador de qué tan separados están los datos entre sí.
Como la distribución de los diámetros resulta ser aproxi- En la figura 18 se muestra el diagrama de puntos para las
madamente simétrica, la media es una opción razonable tres series de datos. Este diagrama es una excelente herra-
para describir el centro de la distribución. Entonces el diá- mienta que nos permite visualizar en forma gráfica la varia-
metro promedio es: bilidad y cómo esta se relaciona con la dispersión de las ob-
servaciones (que tan cerca o alejadas están entre sí). A me-
450.97+⋯+455.69 22439.59 dida que nos desplazamos hacia abajo en la gráfica, la va-
𝑥̅ = = = 448.79 milímetros.
50 50 riabilidad de las distribuciones aumenta. En la serie C, los
Interpretación: El valor calculado describe dónde se datos están más cercanos entre sí, por lo que la variabilidad
centra el valor del diámetro de las piezas a lo largo del eje es menor. En la serie B, dos de los datos se han desplazado
𝑥, y lo podemos interpretar como un diámetro típico o re- hacia los extremos, aumentando la distancia entre los datos
presentativo del conjunto de datos, de tal manera que para y por tanto la variabilidad. En la serie A, todos los datos se
describir este conjunto de datos ya no hace falta hacer refe- han reacomodado de modo que la distancia entre ellos ha
rencia a cada uno de ellos, bastará con reportar a un «repre- aumentado, causando la mayor variabilidad de las tres dis-
sentante» de todos ellos: la media. tribuciones.
Figura 18
razón el rango es de poco uso. Estos resultados nos confirman lo que ya antes habíamos
intuido visualmente sobre la variabilidad de cada una de las
Desviaciones con respecto a la media.
series, pero ahora de manera cuantitativa.
La medida de variabilidad más usada se basa en medir
cuánto se desvía cada observación con respecto a la media. Las unidades de la varianza resultan difíciles de interpre-
tar intuitivamente debido a que generan unidades cuadradas.
𝑥 𝑖 − 𝑥̅ Por ejemplo, si los datos representan cantidades de dinero
(en dólares) decimos que la varianza de la serie C es de
Una desviación a partir de la media es positiva, si la co- 10 𝑑ó𝑙𝑎𝑟𝑒𝑠 2 ¿Cómo interpretamos estas unidades de manera
rrespondiente observación es mayor que la media. Y nega- que resulten intuitivas? Una solución es utilizar la desvia-
tiva, si la observación es menor que la media. En general, ción estándar en lugar de la varianza, ya que la raíz cuadrada
cuando una serie de datos tiene una gran variabilidad, las nos regresa a las unidades originales. Así, podemos decir
observaciones tienden a desviarse mucho de la media. Esto que la serie A tiene una desviación estándar de 18.71 dóla-
se reflejará en el cálculo de la desviación con respecto a la res, la B de 15.81 dólares y la C de 3.16 dólares.
media y es por esta razón que las desviaciones con respecto
a la media se pueden combinar para obtener una medida glo- La desviación estándar puede ser interpretada informal-
bal de la variabilidad. mente como «el tamaño de una desviación típica o represen-
tativa» con respecto a la media. Para la serie A, una desvia-
Varianza y Desviación Estándar. ción representativa con respecto a la media es de aproxima-
Cuando la distribución de datos es aproximadamente si- damente 18.71 dólares. Algunas desviaciones están más
métrica, las dos medidas de dispersión más usadas son la cercanas a la media que esta cantidad, y otras más lejanas,
varianza y la desviación estándar. Ambas medidas de varia- pero «en promedio», se desvían 18.71 dólares.
bilidad se basan en las desviaciones con respecto a la media. Media y Desviación Estándar Juntas.
La varianza de una serie de datos, denotada por 𝑠 2, es Ahora podemos describir de una manera más completa
la suma de las desviaciones cuadradas con respecto a la me- una distribución de datos. En general podemos utilizar el si-
dia divididas por 𝑛 − 1. guiente esquema:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅) 2
𝑠2 =
𝑛 −1
La desviación estándar de una serie de datos, denotada
por 𝑠, es la raíz cuadrada positiva de la varianza • ¿La distribución de
Calcule • Haga una
datos es interpretación de los
aproximadamente • Si: use la media y valores obtenidos en
desviación estándar.
∑𝑛 (𝑥 𝑖 − 𝑥̅) 2 simétrica?
• No: use la mediana y
su contexto.
𝑠 = √𝑠 2 = √ 𝑖=1 el IQR
𝑛 −1
Explore Interprete
Ahora estamos en capacidad de cuantificar la variabi-
lidad de las tres series de datos:
Serie A:
(50−75)2+ (70−75)2+ ( 80−75)2 + (60−75)2 + (90−75)2 + (100−75) 2 Figura 19
𝑠𝐴2 =
6−1
Ejemplo 7: Describiendo una distribución aproximada-
(−25)2 + (−5)2+ ( 5)2+ (−15)2+ (15)2 + (25) 2 1750
𝑠𝐴2 = = = 350 mente simétrica.
5 5
• Utilice alguna herramienta tecnológica que le Como el número de datos es impar, la mediana es el dato
permita realizar los cálculos con facilidad. Sin que se ubica en el centro de la lista. Por tanto 𝑥̃ = 11 (Note
Calcule embargo, es importante que pueda realizar los como antes de 11 hay dos datos y después de 11 también
cálculos a mano.
hay dos datos).
∑ (𝑥−𝑥̅)2 1750
𝑠𝐴2 = = = 350 𝑚𝑒𝑠𝑒𝑠 2
𝑛−1 5
Explore
𝑄1 𝑄2 𝑄3
Figura 23
Figura 22
Mitad Inferior: que datos pueden ser considerados como típicos y cuáles
0 0 0 0 0 0 3 4 4 4 5 5 7 7 8 8 8 12 12 13 como atípicos.
4+5 El resumen de Cinco Puntos y Diagramas de Caja.
Q1 = = 4.5
2
La herramienta más usada en el EDA para buscar el mo-
Mitad Superior: delo y el residual es el boxplot o diagrama de caja. Para su
13 13 14 14 16 18 19 19 20 20 21 22 23 26 36 26 37 42 84 331
construcción se necesita del resumen de cinco puntos:
1. La menor de las observaciones (min)
20 + 21
Q3 = = 20.5 2. El primer cuartil (𝑄1 )
2
3. El segundo cuartil (𝑄2 )
4. El tercer cuartil (𝑄3 )
El recorrido intercuartílico se calcula como: 5. La mayor de las observaciones (max)
𝑄 = 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 La construcción del diagrama es relativamente simple,
por ejemplo, considere la serie 89, 47, 164, 296, 30, 215,
Para la serie de daos del ejemplo 8 el IQR tiene un valor
138, 78, 48, 39. El resumen de cinco puntos es:
de 𝑄 = 20.5 − 4.5 = 16.0 y mide la variabilidad de los da-
tos viendo cómo éstos se dispersan en la mitad central de los 𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
datos. Si el valor calculado es pequeño, los valores al centro 30 47 83.5 164 296
de la distribución están muy cercanos entre sí, indicando una
variabilidad pequeña. Un valor grande indicará una disper-
sión mayor. Enfocándose en la mitad central de los datos y 30 39 47 48 78 89 138 164 215 296
no en todos, el recorrido intercuartílico no se ve influen-
ciado por los valores extremos.
𝑄1 = 47 𝑄3 = 164
Mediana y Recorrido Intercuartílico Juntos.
Podemos resumir la distribución del ejemplo 8 de la si- 78 + 89
guiente manera: La mediana para el número de veces que 𝑄2 = = 83.5
2
los alumnos acceden al material es 13. Esto significa que la
mitad de los estudiantes visitó el aula virtual menos de 13
veces y la mitad de los estudiantes visitaron el aula virtual Con esta información y un eje adecuado construimos un
13 o más veces. 25% de los estudiantes visitaron el aula vir- diagrama como el de la figura 24:
tual 4.5 veces o menos y 25% de ellos visitó el aula virtual
20.5 veces o más. Un IQR de 16.0 nos indica que el 50 %
central de accesos de estudiantes al aula, se dispersa en un
intervalo de 16 puntos porcentuales.
La filosofía del Análisis Exploratorio de Datos.
Las técnicas que hemos descrito hasta este momento nos
proporcionan los conocimientos básicos que nos permitirán Figura 24
utilizar la filosofía del EDA: explorar los datos para encon-
Interpretación del diagrama: el diagrama nos muestra
trar patrones inherentes y detectar desviaciones con respecto que la distribución de datos es sesgada a la derecha. Un va-
a estos patrones, con el objetivo de encontrar hechos gene- lor representativo es 83.5 y es notorio que existe mucha va-
ralizables. En este sentido, se investigan dos componentes riabilidad entre los datos.
en los datos: el patrón general (modelo) o tendencia y el re-
sidual. Esto puede ser escrito de la siguiente manera: Con respecto al modelo y residual, el diagrama de caja
tiene la versatilidad de resumir tres diferentes modelos: a)
𝐷𝑎𝑡𝑜𝑠 = 𝑀𝑜𝑑𝑒𝑙𝑜 + 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 La mediana, que marca el punto que divide 50:50 de los da-
Según la expresión anterior, el enfoque exploratorio tos; b) el IQR, representado por el ancho de la caja, que nos
puede ser caracterizado como una búsqueda interactiva de muestra el patrón del 50% central; y c) la caja junto con los
un modelo (o varios modelos) y una explicación del residual bigotes, que nos muestran lo que puede ser considerado
a partir del contexto. En el ejemplo 8, este modelo es la me- como típicos y cuáles como atípicos. Con respecto a los re-
diana, que marca el punto que divide 50:50 el área o podría siduales, el diagrama también puede mostrarnos esos valo-
ser el IQR que representa el patrón del 50% central de los res considerados atípicos en la serie de datos. Por ejemplo,
datos. Los cuartiles 𝑄1 y 𝑄3 son el residual, nos explican para los datos del ejemplo 8 la brecha en el histograma (el
espacio central «en blanco») sugiere la presencia de valores
muy alejados del grueso de los datos. En ese caso construi- Diagramas de Caja para Comparar Series de Datos.
mos el diagrama de caja de la siguiente manera:
Cuando se trata de comparar dos o más series de datos, los
1) Calculamos el resumen de cinco puntos: diagramas de caja resultan de mucha ayuda. En la figura 26
se muestran los diagramas de caja para las dos series de da-
𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥 tos del ejemplo 7
0 4.5 13 20.5 331
conocen como distribuciones marginales ya que aparecen expresaron sentir una «Buena Oportunidad» o estar «Casi
al margen derecho y al final de la tabla respectivamente. seguro» de lograr ambas metas antes de los 28 años.
Escribir las distribuciones marginales en porcentajes re- Relación Entre dos Variables Categóricas: Distribuciones
sulta más ilustrativo que hacerlo con las frecuencias, espe- Condicionales.
cialmente cuando comparamos grupos de diferente tamaño.
Por ejemplo, el porcentaje de encuestados que cree que no Las tablas de doble entrada contienen mucha más infor-
tiene ninguna oportunidad de terminar la carrera universi- mación que las dos distribuciones marginales consideradas
taria y encontrar trabajo antes de los 28 años es por separado. Las distribuciones marginales no nos dicen
nada acerca de la relación entre dos variables. Para describir
𝑇𝑜𝑡𝑎𝑙 𝑁𝑖𝑛𝑔𝑢𝑛𝑎 𝑂𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 194 la relación entre dos variables categóricas podemos proce-
= = 4.0%
𝑇𝑜𝑡𝑎𝑙 4826 der de la siguiente manera:
Si repetimos el mismo procedimiento para el resto de fi- Podemos estudiar la opinión de las mujeres por separado
las obtenemos la distribución marginal para la variable tomando la columna «mujeres» en la tabla 13. El porcentaje
Opinión la cual podemos representar en el gráfico de barras de mujeres que expresaron no tener ninguna oportunidad es:
de la figura 27.
𝑀𝑢𝑗𝑒𝑟𝑒𝑠 sin 𝑛𝑖𝑛𝑔𝑢𝑛𝑎 𝑜𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 96
= = 4.06%
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 2367
Opinión Porcentaje
Ninguna oportunidad 4.02% Repitiendo este cálculo para las cinco opiniones obtene-
Alguna oportunidad, pero probablemente no 14.75% mos la distribución condicional de la variable Opinión para
50-50 de oportunidad 29.34% el grupo de mujeres.
Una buena oportunidad 29.44%
Casi seguro 22.44%
Tabla 14 Opinión Porcentaje
Distribución M arginal para la Variable Opinión. Ninguna oportunidad 4.06%
Alguna oportunidad, pero probablemente no 18.00%
50-50 de oportunidad 29.40%
Una buena oportunidad 28.01%
Casi seguro 20.53%
Tabla 15
Distribución Condicional para la variable Opinión (mujeres)