Вы находитесь на странице: 1из 19

2019

Análisis Exploratorio de Datos.

Oscar Diaz
Piensa Estadística.
26-2-2019
Unidad I
Introducción al Análisis Exploratorio de Datos (EDA)
Por Óscar R. Díaz
Resumen—En esta unidad se presentan al estudiante las primeras herramientas que le ayudar án a
desarrollar el pensamiento estadístico, una forma de pensamiento que parte de la existencia de la
variabilidad, trata de entender su estructura y aplica ese entendimiento en el resumen, descripción
y representación de datos en un ambiente de variabilidad e incertidumbre. La primera herramienta
que se proporciona es el Análisis Exploratorio de Datos, una forma de pensar y actuar sobre el aná-
lisis de datos que requiere de cierto enfoque, de cierta perspectiva que se apoya en un conjunto de
herramientas gráficas y de síntesis de datos que tienen como finalidad maximizar lo que se aprend e
de los datos.

I. VARIABILIDAD Y PENSAMIENTO ESTA- piezas que forman el componente, por lo que la longitud
DÍSTICO. de estos tornillos resulta ser una característica de calidad
importante. La empresa ha solicitado lotes de tornillos a los
¿Qué es la variabilidad? proveedores A y B. Al inspeccionar tres tornillos de cada
uno de estos proveedores resultan las siguientes lecturas (en

L a idea de variabilidad reviste una gran importancia


en la estadística, pues dota a ésta ciencia de su razón
de ser y puede ser abordada, tanto desde la estadística
descriptiva, como de la probabilidad y la inferencia. Lin-
güísticamente, variabilidad es la cualidad del adjetivo varia-
pulgadas)
Proveedor A: 2.03, 1.95, 2.02
Proveedor B: 2.50, 1.80, 1.70
Si solo tomamos en consideración la longitud promedio,
ble, lo que significa que algo es propenso o tendiente a va- no reconoceríamos diferencia entre los tornillos que fabri-
riar o cambiar. can cada uno de los proveedores puesto que:
Resulta imposible imaginarnos nuestra realidad inme- 2.03 + 1.95 + 2.02
diata sin la variabilidad. Usamos alarmas porque la variabi- 𝑥̅𝐴 = = 2.00
3
lidad a la hora de despertarnos podría ponernos en serios
aprietos todas las mañanas. Luego, el tiempo para despla- 2.50 + 1.80 + 1.70
zarnos desde nuestro hogar a la Universidad varía día con 𝑥̅ 𝐵 = = 2.00
3
día, por lo que solemos salir temprano previendo algún re-
traso importante —es decir previendo una variabilidad en Sin otro análisis adicional, no habría diferencia entre ad-
este tiempo. Por lo general la clase no iniciará siempre a la quirir los tornillos del proveedor A o los del B. Sin embargo,
misma hora y quizá ocupe un asiento diferente al que ocupó al hacer una inspección visual de los tornillos notamos que
en la última clase. El tiempo utilizado para regresar a casa los del proveedor A parecen tener longitudes muy similares
por la tarde seguramente tendrá una alta variabilidad que entre sí (figura 1), mientras que los del proveedor B presen-
ronda lo caótico. Esta variabilidad que experimentamos en tan una mayor variabilidad en las longitudes (figura 2).
la vida diaria, también se presenta en el ámbito laboral. Un
ingeniero tendrá que trabajar a diario con la variabilidad ya Si para la empresa que comprará los tornillos la longitud
que la encontrara presente en todos los procesos producti- de los mismos es una característica crítica, el criterio de la
vos. Al hacer un pronóstico de la demanda de energía eléc- longitud promedio no sirve, pero al analizar la variabilidad
trica, al medir el volumen de ventas de un producto durante de la longitud parece un poco más claro que los tornillos del
un período específico o al medir el tiempo de una reacción proveedor A son de mejor calidad que los del proveedor B
química, encontrara variabilidad en las medidas. La variabi- ya que su variabilidad en la longitud es menor.
lidad es la responsable de que dos productos fabricados por
la misma máquina, en el mismo turno, por el mismo opera- En otro escenario, imagine que la empresa A tarda entre
rio y con la misma materia prima sean diferentes entre sí con 11 y 17 días en surtir los pedidos y la empresa B entre 7 y
respecto a algún criterio de calidad. 21 días. Nuevamente ambas empresas tardan en promedio
lo mismo (14 días), pero si le compra a la empresa A tendrá
En resumen, la variabilidad describe una situación en la
menos incertidumbre (menos variabilidad) acerca de
cual las observaciones o las medidas deberían ser las mis-
cuándo van a surtir su pedido.
mas, pero no los son. A medida avancemos en el curso ten-
dremos un concepto más completo de la variabilidad.
En los procesos de fabricación la variabilidad juega un
Ejemplo 1: La variabilidad en acción. Imagine que papel muy importante en la calidad de los productos fabri-
para ensamblar un componente mecánico se requiere del uso cados. Se logra una mejor calidad a través de una variación
de tornillos de una longitud específica para unir las distintas menor, es decir que, si la variabilidad de las características
importantes de un producto disminuye, la calidad del pro-
ducto aumenta.

Figura 1 Figura 2

¿Qué causa la variabilidad?


¿Qué pudo causar que las longitudes de los tornillos del
proveedor B difieran tanto entre sí? o ¿Por qué el proveedor
A tarda menos que el B en entregar un pedido? Una posible
explicación a la primera pregunta tiene que ver con los erro- Figura 3
res humanos. Por ejemplo, un operario inexperto pudo cor-
tar los tornillos y por eso resultaron con las longitudes El Pensamiento Estadístico.
tan diferentes. Otra posible explicación tiene que ver con la Snee (1990) define el pensamiento estadístico como una
máquina que hace los cortes que en ese momento pudo estar filosofía de aprendizaje (cómo adquirimos información) y
desajustada. En general, cualquier proceso puede conce- acción (cómo respondemos a esa información) basada en
birse como un sistema con una serie de entradas y salidas tres principios:
(figura 3). En este sistema se tiene control sobre algunas de
las entradas (temperaturas, cantidades de materia prima, 1. Todo el trabajo ocurre en un sistema de procesos
tiempos, etc.) pero sobre otras no o resulta difícil hacerlo interconectados.
(por ejemplo, factores ambientales o las propiedades de la 2. La variabilidad existe en todos los procesos.
materia prima suministradas por un proveedor). Estas dos 3. Entender y reducir la variabilidad son claves para el
entradas interactúan y producen la salida del sistema, que éxito.
puede ser un producto o un servicio. En ocasiones, el efecto El pensamiento estadístico es la forma en que la infor-
de estas variables sobre las cuales no se tiene control (tam- mación se ve, se procesa y se convierte en información que
bién llamadas variables de ruido o no explicadas) es pe- nos permite aprender de los datos. Pensar en forma estadís-
queño y puede ignorarse, pero en otras su efecto genera una tica implica tomar conciencia de la variabilidad que existe y
variabilidad tan grande con respecto a las características se transmite en los datos, así como de la incertidumbre ori-
deseadas que produce un producto o un servicio defectuoso. ginada por la variabilidad no explicada y tomarla en cuenta
en cada paso de acción para la toma de decisiones.
Un modelo que trata de explicar esta variabilidad es la
metodología de las 6M. Este modelo parte del principio que Uno de los principales objetivos de este curso es desarro-
en todo proceso interactúan Materiales, Maquinas, Mano de llar en el futuro ingeniero el pensamiento estadístico, ya que
obra, Mediciones, Medio ambiente y Métodos (las 6M) y esto le ayudará a visualizar la realidad de otra manera (con
que cada uno de estos elementos aporta algo de la variabili- variabilidad) y dirigir de manera más adecuada sus esfuer-
dad total observada, de modo que si existe un cambio signi- zos de mejora, ya sea a nivel estratégico (creando estrategias
ficativo en el desempeño del proceso, su razón se puede ex- y comunicándolas, usando datos de diversas fuentes para la
plicar por alguna de las 6M (figura 3). Por ejemplo, los ma- toma de decisiones, desarrollando sistemas de medición del
teriales no son completamente idénticos, ni todos los em- proceso) a nivel directivo (desarrollando proyectos estruc-
pleados tienen las mismas habilidades y entrenamientos o turados, fijando metas tomando en cuenta la variabilidad) o
las máquinas pueden desajustarse y desgastarse por el uso a nivel operacional (conoce la variación, identifica oportu-
continuo. nidades de mejora tomando en cuenta la variabilidad).
Entonces, para responder a la pregunta ¿Qué causa la va-
riabilidad? Podemos responder que cada M aporta una parte, II. VARIABLES Y SUS MEDIDAS
no necesariamente igual, de la variabilidad total observada. Para el desarrollo del pensamiento estadístico es necesa-
rio comprender el concepto de variable. Una variable es una
característica o atributo que puede asumir diferentes valo- Escalas de Medición.
res. Por ejemplo, en la tabla 1 se muestran las mediciones
hechas por 12 inspectores de calidad para el diámetro de una Además de clasificarse como cualitativas o cuantitativas,
pieza de acero usando un micrómetro y un vernier. En este las variables pueden ser clasificadas por como son categori-
caso la característica de interés es el diámetro de la pieza. A zadas, contadas o medidas. En 1946 S. S. Steven [1] intro-
pesar de que se está midiendo una sola pieza, las lecturas dujo un esquema muy elaborado para la clasificación de va-
son diferentes para cada uno de los inspectores y más aún, riables, vigente aún en nuestros días, en el cual se definieron
resultan ser diferentes según el tipo de instrumento utilizado las diferentes reglas para la asignación de números, las pro-
(la variabilidad en acción). Decimos entonces que el diáme- piedades matemáticas de las escalas resultantes, y las ope-
tro de la pieza es una variable. raciones estadísticas que pueden aplicarse a las mediciones
hechas en cada escala. Steven propuso que una variable
Inspector Micrómetro Vernier
1 0.150 0.151
puede ser clasificada en una de cuatro escalas: nominal, or-
2 0.151 0.150 dinal, de intervalo y de razón. Desde el punto de vista de las
3 0.151 0.150 propiedades matemáticas y estadísticas, la escala de medi-
4 0.151 0.152
5 0.152 0.151 ción más rudimentaria es la nominal y la más completa la de
6 0.151 0.150 razón.
7 0.151 0.152
8 0.152 0.153 Escala Nominal: En esta categoría la característica o va-
9 0.152 0.150
10 0.153 0.151 riable de interés consiste en clases excluyentes según deter-
11 0.151 0.151 minada propiedad. Además, no existe un orden lógico par-
12 0.151 0.151 ticular para las distintas clasificaciones o categorías que per-
T abla 1 mita, por ejemplo, ordenarlas; es decir que los números en
Mediciones hechas por 12 inspectores
esta escala solo se usan como identificadores o nombres. Por
Clasificación de las Variables. ejemplo, si nuestro estudio incluye la variable género, codi-
ficamos femenino como 1 y masculino como 2. Pero los nú-
Las variables se pueden clasificar como cualitativas meros 1 y 2 representan categorías de datos: son simples
o cuantitativas. En las variables cualitativas (también cono- identificadores de una cualidad que se está midiendo y son
cidas como categóricas) la medición describe un elemento completamente arbitrarios ya que puede usarse F o M o
colocándolo en una categoría o grupo de acuerdo a alguna cualquier otra alternativa para la codificación. A este nivel
característica o atributo. Por ejemplo, si clasificamos per- la operación matemática permitida es el conteo.
sonas de acuerdo al género (masculino o femenino) enton-
ces, la variable género es cualitativa. Otros ejemplos de es- Escala Ordinal: Posee todas las características de la es-
tas variables son la preferencia religiosa, el estado civil, la cala nominal, pero además los datos o mediciones pueden
afiliación política, la etnia, el color de ojos y el tipo de san- ser colocados en categorías que pueden ordenarse de manera
gre. que reflejen diferentes grados o cantidades de la caracterís-
tica bajo estudio. Los números representan una cualidad que
En el caso de las variables cuantitativas, las mediciones se está midiendo, y expresan si una observación tiene más
resultan en valores numéricos que podemos ordenar y reali- de la cualidad medida que otra. Por ejemplo, un estudiante
zar operaciones aritméticas con ellos. Por ejemplo, la varia- de inglés puede ser clasificado como básico, intermedio o
ble edad es numérica y las personas pueden ser ordenadas avanzado, que codificamos con 1, 2 y 3 respectivamente.
de acuerdo a su edad o podemos encontrar una edad prome- En este caso 3 indica que una persona está más avanzada
dio. Otros ejemplos de este tipo de variables son el peso de que un 2 o que un 1. Sin embargo, note como en esta escala
la persona, la altura y la temperatura corporal. Las variables —por la falta de una unidad de medida común— no se pue-
cuantitativas pueden ser clasificadas en dos grupos: discre- den distinguir las diferencias entre las categorías. ¿Es la di-
tas y continuas. las variables discretas pueden asumir valo- ferencia entre básico e intermedio la misma que entre inter-
res como 0, 1, 2, 3, ... y se dice que son contables. Por ejem- medio y avanzado? No se puede saber, hay un cierto orden,
plo, el número de niños de una familia, el número de estu- pero no una cantidad mensurable. Además del conteo, en
diantes en el salón de clase y el número de llamadas que esta categoría se pueden ordenar los datos.
recibe un operador cada día durante un mes. En este Escala de Intervalo: Esta posee todas las características
caso el proceso de medición está asociado a conteos. Las de las dos escalas anteriores, con la propiedad adicional de
variables continuas pueden asumir un numero infinito de va- que las mediciones son generalmente números y la diferen-
lores en un intervalo entre dos valores específicos. Por cia entre un par de ellos da un resultado significativo debido
ejemplo, la temperatura, ya que la variable puede asumir un a la existencia de una unidad de medida común y constante.
infinito número de valores entre dos temperaturas dadas. Una limitante de esta escala es que carece de un punto ini-
Para este tipo de variables el proceso de medición está aso- cial o de referencia natural que indique la ausencia de atri-
ciado a mediciones. buto. Por ejemplo, en el caso de un termómetro cuyas lectu-
ras son medidas en grados Celsius, el cero de esta escala
(0°C) es arbitrariamente fijado al punto al cual el agua se de que puedan proporcionar la información requerida por el
congela (a nivel del mar). En contraste, la ausencia de calor usuario para la toma de decisiones.
(la temperatura a la cual la actividad molecular cesa) es
aproximadamente -273°C. Como consecuencia, no pode- Para asegurarnos que las principales características de
mos afirmar que 0°C indique la ausencia de calor. Esta falta una serie de datos —como patrones, diferencias, tendencias,
de un cero natural impide establecer que un día con 30°C anomalías— sean claramente descritas y resulten fáciles de
sea tres veces más caliente que uno con 10°C, pero sí pode- visualizar, necesitamos de algunos «traductores» que nos
mos decir que la distancia entre 25°C y 30°C es la misma permitan procesar todo este volumen de información de ma-
que la existente entre 20°C y 25°C. Si la temperatura en un nera que tenga un significado menos complejo a una «escala
lugar es de 20°C y en otro de 25°C podemos jerarquizar se- humana». El enfoque conocido como EDA (Exploratory
gún lo frío o caliente que son: el primero es más frío que el Data Analysis) es por hoy la mejor alternativa con la que
segundo ya que la escala fija de medición (1°C) permite de- disponemos. Este enfoque nos permite procesar esta gran
cir que el primer sitio es 5°C más frío que el segundo. En cantidad de datos y «dibujar» una imagen general que nos
esta escala las diferencias y las sumas de datos tienen un permita entender cosas —y por lo tanto aprender— acerca
significado numérico racional, pero no la multiplicación y
de los datos.
división.
Escala de Razón: Esta escala tiene todas las caracterís- El EDA es una manera de pensar –una filosofía de pen-
ticas de la escala de intervalo, pero además, tiene un cero samiento– con respecto al análisis de datos. Esta manera de
natural que indica la ausencia del atributo. Esto tiene como pensar requiere de ciertas técnicas, de ciertas maneras de
consecuencia que —además de las operaciones lógicas de aproximarse a los datos —desde una cierta perspectiva—
ordenación y comparación, las diferencias y las sumas—la durante el análisis. Las técnicas del EDA son apropiadas
división y multiplicación de datos tiene un sentido numérico tanto para datos cualitativos como para cuantitativos y su
racional. Por ejemplo, la cantidad de litros de agua consu- énfasis se centra en usar representaciones visuales que reve-
mido por una persona en un día. Cero litros indica la ausen- len información vital sobre los datos que están siendo exa-
cia de la característica medida (la persona no ha consumido minados. Visualizar es una forma de tratar de empezar a in-
agua ese día). Además, si alguien consume 2 litros de agua, teractuar con la información. Una buena visualización de da-
podemos decir que ha consumido el doble de una persona tos permite descubrir algún tipo de relación, estructura o pa-
que haya consumido 1 litro ese mismo día. Otros ejemplos
trones que serían difíciles de describir a partir de los datos
de este tipo de variables son: la altura de una persona, el
en bruto. En esta primera parte del curso nos centraremos en
diámetro de una pieza, el consumo de combustible de un
automóvil y la presión sanguínea. las diferentes técnicas del EDA que buscan organizar y des-
plegar los datos gráficamente de manera que sean evidentes
En resumen ¿Por qué es importante conocer las escalas algunos valores distintivos de la serie de datos tales como:
de medición? Para entender y usar apropiadamente las dife- valores centrales (aquellos valores que parecen ocupar el
rentes técnicas del análisis estadístico, es necesario identifi- centro de la serie de datos), valores extremos (valores que
car previamente la escala de medición correspondiente, ya parecen estar muy lejos de los valores centrales), conglome-
que cada escala tiene sus propiedades matemáticas, que de-
rados (grupos de datos muy cercanos entre sí), brechas (se-
terminan el análisis estadístico apropiado en cada caso, de
paraciones de magnitud considerable entre conglomerados),
manera que los datos se puedan explorar convenientemente,
organizarlos, resumirlos, presentarlos y aprender de ellos. anomalías (algo que no encaja en un patrón) y la identifica-
La tabla 2 resume las principales características de las esca- ción de patrones globales (The big picture). La aplicación
las de medición. de estas técnicas también determinará en gran parte qué otras
técnicas alternativas de análisis pueden aplicarse posterior-
Escala Operación Matemática permitida Operación Estadística permitida
Nominal Conteo Frecuencia, Moda mente a los datos en estudio.
Ordinal Ordenar Mediana, Rango
Intervalo
Razón
Suma, Resta
Multiplicación, División
Media, Varianza
Coeficiente de Variación
Distribuciones de Frecuencias y Gráficos para Variables
T abla 2 Cualitativas.
Principales Características y Propiedades de las Escalas de Medición.
En esta sección estudiaremos cómo las distribuciones de
III. ANÁLISIS EXPLORATORIO DE DATOS. frecuencia y los gráficos de barra pueden ser usados para
En ingeniería es común trabajar con datos que provienen resumir datos categóricos. Ambas técnicas están íntima-
de mediciones que han sido tomadas bajo condiciones mente ligadas: a partir de una distribución de frecuencias
controladas —para reducir la variabilidad— con el propó- construimos el gráfico de barras.
sito de tomar alguna decisión. Por lo general, la cantidad de Para construir la distribución de frecuencias siga los si-
datos es voluminosa y sin ningún significado a primera guientes pasos:
vista, por lo que se hace necesario procesar los datos a fin
1. Liste las categorías que componen las variables. Re- visualizar la distribución de los datos, es decir cómo se dis-
cuerde que la única operación que puede hacer a este tribuyen los datos a través de las diferentes categorías que
nivel es contar, así que el orden en que se listen las ca- pueden observarse, o comparar visualmente dos o más se-
tegorías es irrelevante, sin embargo, para evitar algún ries de datos según alguna característica de interés. En la
tipo de sesgo se recomienda listarlas alfabéticamente, o figura 4 se muestra el gráfico de barras para el ejemplo 2.
en orden descendente o ascendente de frecuencia.
2. Registre la frecuencia asociada f con cada categoría y,
si lo desea, su correspondiente frecuencia relativa. In-
cluya además el número total de datos, n, al final de la
tabla.
3. No olvide considerar las recomendaciones dadas en la
guía rápida de buenas prácticas para tablas.
En el siguiente ejemplo se muestra cómo construir una dis-
tribución de frecuencias y a partir de ella, el gráfico de ba-
rras.
Ejemplo 2: En el artículo «Nearly Half of American
Adults are Smartphone Owners» (Pew Research Center,
pewresearch.org, March 1, 2012) se examina el tipo de telé-
fono celular preferido por los adultos estadounidenses. Esta
variable es categórica, y por tanto, la única operación mate-
mática que podemos efectuar es contar; de manera que los Figura 4
resultados de la encuesta se pueden resumir a partir del ar-
tículo en una tabla de distribución de frecuencias como se También podemos representar las frecuencias relativas
muestra en la tabla 3. como se muestra en la figura 5

Tipo de Celular Preferido Frecuencia Frecuencia Relativa


Android Smartphone 458 20.33%
iPhone Smartphone 437 19.40%
Blackberry Smartphone 141 6.26%
Celular no inteligente 924 41.01%
No posee teléfono celular 293 13.00%
Total 2253 100%
Tabla 3
Distribución de Frecuencias para el ejemplo 2
Fuente: www.pewinternet.org/wp -content/uploads/sites/9/media/Fi-
les/Reports/2012/Smartphone-ownership-2012.pdf

Por lo general la información en la distribución de fre-


cuencias resulta más ilustrativa si se calculan las frecuencias
relativas de los conteos (también conocidas como propor-
ciones). Por ejemplo, para la categoría Android Smartphone
la frecuencia relativa se calcula como 458⁄2253 = 0.2033
ó 20.33%. De manera similar se calculan las demás frecuen-
cias relativas como se muestra en la tabla 3. La proporción Figura 5
es un resumen estadístico que nos permite hacer compara-
ciones sin hacer referencia al total de observaciones. Así, Análisis: El gráfico muestra que cerca de la mitad (46%)
sabemos que la proporción de adultos que no poseen telé- de los adultos estadounidenses prefieren Smartphones. De
fono celular es del 13.00 %. Si no hacemos uso de la pro- éstos, los basados en sistemas Android y los iPhone son los
porción tendríamos que decir que 293 de un total de 2253 preferidos, con un porcentaje cercano al 20% cada uno, se-
adultos no usan teléfono. guidos por los Blackberry con menos del 10%. Cerca del
40% prefiere usar celulares no inteligentes. Finalmente, un
A partir de la distribución de frecuencias podemos cons-
poco más del 10% no poseen celulares 1 .
truir fácilmente el gráfico de barras, que no es más que una
representación gráfica de esta tabla, que nos permite

1 Una consecuencia inevitable del uso de gráficos es la «pérdida» de precisión en la informa- limitante de los métodos gráficos, ya que el objetivo de su uso es hacernos un panorama
general (the big picture) del comportamiento de los datos y para eso no interesan las canti-
ción. Note como en el análisis se habla de cantidades aproximadas (cerca de la mitad, por-
dades exactas sino las tendencias. Por supuesto, es una buena práctica siempre citar la fuente
centaje cercano al 20%, cerca del 40%, un poco más del 10%). Esto en realidad no es una
Nota: todo análisis de este tipo de variables debe de incluir: tenden- para cada una de las categorías. También resulta muy común
cias (el reparto casi igual de los Android y iphone), anomalías (el alto
porcentaje de personas que usan celulares no inteligentes) y toda infor-
construir ambos gráficos en forma horizontal.
mación que ayude al usuario de la información dibujar un panorama com-
pleto del comportamiento de los datos (the big picture).

Es importante mencionar que no existe un análisis único


para una serie de datos. El objetivo de este apartado es desa-
rrollar en el estudiante la capacidad de describir el panorama
general que él visualiza en los datos, que por supuesto varía
de individuo en individuo y ahí radica su carácter no único.
En este sentido, otra posible interpretación de la figura 5 es
la siguiente: Del gráfico podemos concluir que la mayoría
de adultos prefieren teléfonos celulares no inteligentes. De
los que prefieren teléfonos inteligentes no parece haber una
diferencia significativa entre los que prefieren dispositivos
Android o iPhone pero es evidente que la proporción de los
que prefieren Blackberry es menor que estas dos. Un pe-
queño grupo de adultos (cercano al 10 %) no poseen telé-
fono celular. Figura 6. Diagrama de Barras Comparativo para el Ejemplo 3.

Gráfico de Barras Comparativo


Los gráficos de barras también pueden ser usados para
comparar visualmente dos o más grupos. Esto se logra cons-
truyendo dos o más gráficos de barras usando el mismo par
de ejes horizontal y vertical.
Ejemplo 3: El artículo «The Need to Be Plugged In»
(Associated Press, December 22, 2005) describe una en-
cuesta donde participaron 1006 adultos. La tabla 5 resume
las respuestas sobre qué tan esenciales se consideran algu-
nas tecnologías. Para poder comparar las variables se cons-
truye un gráfico de barras comparativo. En este tipo de grá-
fico usaremos siempre las frecuencias relativas en lugar de
las frecuencias absolutas para construir la escala del eje ver-
tical ya que esto nos permitirá hacer comparaciones que ten- Figura 7: Diagrama de Barras Apilado para el Ejemplo 3
gan sentido, aunque los tamaños de los grupos de estudio
sean diferentes. Análisis: El gráfico sugiere que resulta más difícil pres-
cindir de las computadoras personales y los teléfonos celu-
Respuesta PC Celular DVD lares que de los DVD.
No podría vivir sin 0.46 0.41 0.19
Podría vivir sin 0.28 0.25 0.35
Distribuciones de Frecuencias y Gráficos para Varia-
Definitivamente podría vivir sin 0.26 0.34 0.46
Tabla 5:
bles Cuantitativas.
Datos para el ejemplo 3 En el caso de variables cuantitativas, usaremos las dis-
tribuciones de frecuencias e histogramas para estudiar su
Una alternativa para representar las variables se muestra comportamiento. En el ejemplo 4 se muestra el procedi-
en la figura 6, donde las tecnologías se muestran como las
miento para construir una distribución de frecuencias y el
categorías y en el eje vertical se colocan las proporciones de
histograma.
cada una de las respuestas de la encuesta.
Ejemplo 4: En la tabla 6 se muestran las notas de 50
En la figura 7 se muestra un gráfico de uso muy común alumnos de Probabilidad y Estadística correspondientes a la
en los artículos científicos conocido como diagrama de ba- primera evaluación. Construya una distribución de frecuen-
rras apilado, en el cual las barras se apilan una sobre otra cias para la nota de los estudiantes. (Las notas se han multi-
plicado por 10 por facilidad).

o proporcionar la tabla de frecuencias en caso de que algún lector desee más detalle en la
información. Por lo general, gastar esfuerzo en calcular las cantidades exactas a partir de un
gráfico es una tarea que se volverá tediosa y de poco aporte para el EDA.
en la columna de frecuencias absolutas. En la tabla 7 se
muestran los resultados obtenidos y el cálculo de las fre-
cuencias relativas. Las marcas de clase son el punto me-
dio de cada una de las clases. Por ejemplo, la marca de
51+59
clase para la primera clase es = 55. Estas marcas
2
de clase suelen emplearse como valores representativos
de su respectiva clase. Por ejemplo, podemos decir que
un valor representativo de los 20 datos comprendidos en
la cuarta clase es 82.
Tabla 6:
Datos para el ejemplo 4
Límites de Clase 𝑓 𝑓𝑟(%) M arca de Clase
Solución: para construir la distribución de frecuencias 51 – 59 2 4 55
seguiremos los siguientes pasos: 60 – 68 5 10 64
69 – 77 11 22 73
1. Encuentre el mayor y el menor de los valores en la serie 78 – 86 20 40 82
de datos. Para nuestro ejemplo estos valores son 99 y 51 87 – 95 10 20 91
96 – 104 2 4 100
respectivamente. Totales 50 100
2. Calcule el Rango de los valores restando el menor valor Tabla 7
del mayor. 𝑅 = 𝑚𝑎𝑥 − 𝑚𝑖𝑛 = 99 − 51 = 48. Distribución de Frecuencias para el ejemplo 4
3. Calcule el número de clases que usará. La cantidad
2𝑘 = 𝑛 se usa a menudo para estimar el número de cla- ¿Qué información nos proporciona una distribución de
ses conociendo el total de datos disponibles. En nuestro frecuencias? Organizar los datos de esta manera nos permite
caso 2𝑘 = 50. Con 𝑘 = 5 obtenemos 32 y con 𝑘 = 6 hacernos una idea general e inmediata del comportamiento
obtenemos 64. Seleccionamos este último valor por es- de las notas de los alumnos. Por ejemplo, la nota más fre-
tar más cerca de 50. Entonces usaremos 6 clases. Se re- cuente está entre 7.8 y 8.6 y un valor representativo de esta
comienda usar entre 5 y 20 clases. nota es 8.2 que es la marca de clase. Hay dos estudiantes
4. Determine el ancho de clases por medio de la ecuación con notas sobresalientes entre 9.6 y 10.0, casi el doble de la
𝑐 = 𝑅⁄𝑘 = 48⁄6 = 8. En este paso, si el resultado no nota que obtuvieron los dos alumnos con menor nota, pero
es un número entero redondee al siguiente entero. Adi- solo representan un 4 % de los estudiantes. Si consideramos
cionalmente, para asegurarnos de que las clases inclu- que 6.0 es la nota requerida para aprobar el examen, pode-
yan a todos los datos este resultado lo aproximaremos mos decir que la mayoría de estudiantes (48) aprobaron el
siempre al entero siguiente, por lo que el ancho de clase examen, lo cual representa un 96 % de aprobados. (Re-
que usaremos será de 9. cuerde que al inicio hemos multiplicado por 10 los datos,
5. Construya el primer intervalo sumando al valor menor por lo que hay que tener en cuenta eso a la hora de obtener
(51) el ancho de clase (9). Entonces, nuestro primer conclusiones).
intervalo irá desde 51 hasta 60. El siguiente de 60 hasta
Representación Gráfica de una Distribución de Frecuen-
69 y así sucesivamente hasta el último intervalo que va
cias.
desde 96 hasta 105.
Para representar gráficamente una distribución de fre-
cuencias usaremos el histograma de frecuencias, un gráfico
muy parecido al gráfico de barras que construimos en la sec-
Sin embargo, debemos acomodar estas clases de la si- ción anterior. La diferencia más importante es que en el his-
guiente manera: restamos 1 del límite superior de la pri- tograma, ambos ejes poseen escala ya que vamos a
mera clase: 60-1=59. Entonces, la primera clase es 51- representar variables cuantitativas.
59, la segunda 60-68 y así sucesivamente.
Iniciamos introduciendo el concepto de limites reales de
clase (los cuales nos permitirán. Estos se obtienen restando
0.5 a los límites inferiores de clase y sumando 0.5 a los su-
periores. Luego marcamos en el eje 𝑥 los límites reales de
clases y levantamos barras con altura proporcionales a las
frecuencias absolutas o relativas. En este caso como se trata
de analizar las notas de los alumnos usaremos las frecuen-
cias absolutas. El histograma se muestra en la figura 8.
6. Finalmente, contamos cuantos de los datos correspon-
den a cada una de los intervalos y anotamos el resultado
resulta evidente porque hay mayor cantidad de barras a
la derecha de 6.0)
En resumen, del histograma podemos obtener la misma
información que de una distribución de frecuencias, pero
«de otra manera». Esta otra manera de hacerlo, por lo gene-
ral, implica la perdida de precisión; es decir, un menor de-
talle de la información, lo cual, como se ha explicado antes,
no es una limitante, sino más bien un componente básico del
pensamiento estadístico: el saber describir a grandes rasgos
y de manera rápida el escenario al que nos transporta una
serie de datos (the big picture).
Características de una Distribución de Datos
Hay un aspecto muy importante que revela el histo-
grama: la forma o perfil de la distribución de los datos, lo
cual nos proporciona un elemento más de análisis para una
serie de datos. En las secciones siguientes veremos que la
forma de la distribución determina el método estadístico
Figura 8 apropiado que debe usarse para analizar los datos. Al des-
cribir la forma de la distribución resulta conveniente apro-
¿Qué información nos proporciona el histograma? Pode-
ximar el histograma por una curva suavizada, tal como en
mos obtener las mismas conclusiones que ya hemos men-
la figura 9.
cionado anteriormente a partir de la distribución de frecuen-
cias, pero «de otra manera». Retomemos las ideas principa-
les y explicaremos como obtenerlas a partir del gráfico:
1. La nota más frecuente está entre 7.8 y 8.6 y un valor
representativo de esta nota es 8.2. En el histograma, esto
se refleja en la barra con mayor altura. No olvide usar
los límites de clase en lugar de los reales (sino diríamos
que la nota más frecuente está entre 7.75 y 8.65, lo cual
sería incorrecto ya que las notas no están reportadas Figura 9: Histograma Suavizado
hasta la centésima)
2. Hay dos estudiantes con notas sobresalientes entre 9.6 Una distribución puede tener muchas formas, pero para
y 10.0, casi el doble de la nota que obtuvieron los dos los propósitos de este curso nos bastarán algunas de ellas y
alumnos con menor nota, pero solo representan un 4 % nos centraremos principalmente en las siguientes caracterís-
de los estudiantes. En el histograma esto se ve en la úl- ticas:
tima barra a la derecha. A menudo, como en este caso, 1. El número de picos o modas: Una distribución de datos
la lectura en el eje 𝑦 resulta un poco difícil a simple puede ser unimodal, si tiene un pico (a), bimodal, si
vista, por lo que establecer esta relación de «casi el do- tiene dos picos (b) y multimodal si tiene más de dos pi-
ble» resulta un tanto difícil. Sin embargo, esto no repre- cos (c). Para el desarrollo de este curso nos centraremos
senta una limitación del gráfico, ya que, como hemos exclusivamente en distribuciones unimodales
mencionado antes, una información tan detallada por lo
general no es necesaria, bastará con decir que hay «muy
pocos estudiantes» con notas sobresalientes. Si usamos
las frecuencias relativas estas comparaciones resultan
más fáciles. En los subsiguiente se recomienda el uso de
las frecuencias relativas para facilitar el análisis.
3. Si consideramos que 6.0 es la nota requerida para apro- Figura 10
bar el examen, podemos decir que la mayoría de estu-
2. La simetría: Un histograma es simétrico si existe una
diantes (48) aprobaron el examen, lo cual representa
línea vertical tal que la porción del histograma a la iz-
un 96 % de aprobados. En el histograma a lo mejor no
quierda de esta línea es similar a la porción que está
logramos tanta precisión, así que esta información po-
a la derecha (a). Si esta línea no existe, entonces el his-
dría quedar como: Si consideramos que 6.0 es la nota
tograma tendrá un sesgo a la derecha (b) o a la izquierda
requerida para aprobar el examen, podemos decir que
(c)
la mayoría de estudiantes aprobaron el examen (lo cual
Uso de Histogramas para Comparar dos Series de Datos.
Si desea comparar dos series de datos, tenga en mente
las siguientes dos recomendaciones:
• Use siempre las frecuencias relativas para construir
el histograma, ya que los grupos que compara po-
Figura 11: Simetría de una Distribución de Datos. drán ser de tamaños diferentes.
• Use las mismas escalas en ambos ejes para hacer
3. La variabilidad: ¿Se agrupan los datos alrededor de su que las comparaciones se vuelvan más fáciles.
valor representativo o se dispersan a lo largo del eje 𝑥?
estas preguntas tienen que ver con la variabilidad de los Ejemplo 5: El artículo «Early Television Exposure and
datos en una distribución, que en el histograma se ve en Subsequent Attention Problems in Children» investiga los
el «ancho» que este tiene. En (a) se muestran dos distri- hábitos televisivos de los niños de EU. Los datos fueron ob-
buciones que tienen el mismo valor central o típico, tenidos en un estudio a nivel nacional. En la tabla 8 se mues-
pero tienen diferente variabilidad (la distribución más tran las frecuencias relativas aproximadas para el número de
«alta» tiene una menor variabilidad). En (b) se muestran horas frente a la TV por día para niños de uno y tres años.
dos distribuciones con diferente variabilidad, y con di- Construya un histograma para cada variable y compare sus
ferente valor central. características más importantes.
Horas frente a la TV por día Un año Tres años
0a2 0.270 0.630
2a4 0.390 0.195
4a6 0.190 0.100
6a8 0.085 0.025
8 a 10 0.030 0.020
10 a 12 0.020 0.015
12 a 14 0.010 0.010
14 a 16 0.005 0.005
Tabla 8
Figura 12: Variabilidad en una Distribución de Datos. Datos para el Ejemplo 5

Con respecto al ejemplo 4, ¿Que nuevas características Solución: Intentar comparar ambas variables a partir de
posee la distribución de notas? Al observar el histograma la tabla resulta un tanto complicado, pero si construimos his-
(figura 13), notamos que es unimodal (por lo general este togramas para ambas variables aparecen las características
será el caso más común, de manera que puede omitirse del que buscamos. En la figura 14 se muestran ambos histogra-
análisis y solo hacer referencia a esta característica si el his- mas. Observe la importancia de usar la misma escala en el
tograma es bimodal o multimodal), además posee un sesgo sistema de ejes coordenados, lo cual nos permite hacer com-
a la izquierda, lo cual indica que la mayoría de puntuaciones paraciones que tengan sentido.
fueron altas.
Análisis: En ambos grupos de edades el tiempo frente a
la TV es pequeño. Para el grupo de un año, un valor repre-
sentativo está entre 2 y 4 horas, y entre 0 y 2 horas para el
grupo de tres años. Ambos histogramas presentan un sesgo
a la derecha, lo cual nos indica que existe un pequeño grupo
de niños que ven mucha TV (entre 14 y 16 horas)

Resumen: las ideas principales de esta sección son:


1. En el caso de analizar variables cualitativas usaremos
gráficos de barras para representarlas en forma gráfica.
En este tipo de gráfico el orden en que se listen las ca-
tegorías es irrelevante. Aprenderá a construir este tipo
de gráficos en la Práctica 1.
2. En el caso de analizar variables cuantitativas usaremos
histogramas de frecuencias relativas para representarlas
en forma gráfica. Las características que buscamos re-
saltar son: el valor representativo (el centro) de la dis-
Figura 13. tribución de datos y su simetría o asimetría.
Figura 15: Histograma Comparativo.

Midiendo el Centro y la Dispersión de una Distribución de En el cálculo de la media se utiliza la siguiente notación:
Datos.
Sean:
Las técnicas aprendidas en las secciones anteriores nos
permiten realizar un análisis visual de los datos, lo cual re- 𝑥: la variable de interés.
sulta ser una excelente técnica para obtener impresiones pre- 𝑛: número de observaciones.
liminares. Un análisis más formal requiere del cálculo de 𝑥1 : la primera observación del conjunto de datos.
números que nos resuman algunas de las características más 𝑥 2: la segunda observación del conjunto de datos.
importantes de la distribución de datos. Nos centraremos en ⋮
dos de estas características: el centro y la variabilidad. El 𝑥 𝑖: la i-ésima observación del conjunto de datos
centro responde a la pregunta ¿dónde está centrada la dis- ⋮
tribución de datos a lo largo de una escala o eje de valores?
𝑥 𝑛: la n-ésima observación del conjunto de datos.
Por su parte, la variabilidad describe cómo es la dispersión
de los datos, es decir si son muy similares entre sí o difieren Entonces la media se calcula de la siguiente manera:
significativamente entre sí. Esto nos lleva a las siguientes
dos definiciones: 𝑥1 + 𝑥 2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥 𝑖
𝑥̅ = =
Definición: Una medida de tendencia central describe 𝑛 𝑛
dónde se ubica la distribución de datos a lo largo de una es- Midiendo el Centro de una Distribución de Datos Aproxi-
cala numérica. Además, nos proporciona información sobre madamente Simétrica.
qué es «típico».
Ejemplo 6: El diámetro, en milímetros, de 50 piezas usa-
Definición: Una medida de dispersión describe qué das para el ensamblaje de un sistema de enfriamiento se
tanta variabilidad existe en una distribución de datos. Ade- muestra en la tabla 9.
más, nos proporciona información sobre qué tanto los valo-
450.97 437.70 433.75 444.96 448.24
res individuales tienden a diferir unos de otros.
432.70 429.83 446.96 449.03 419.53
Caso de una Distribución Aproximadamente Simétrica. 454.81 450.83 470.04 456.21 472.13
442.95 434.90 435.13 454.77 448.28
Cuando una distribución es aproximadamente simétrica, 449.22 466.95 444.55 448.90 445.76
445.41 451.04 449.28 448.74 436.22
la mejor manera de describir el centro es con la media y la 440.49 465.09 445.04 461.53 438.96
mejor manera de medir la dispersión es con la desviación 448.29 437.54 433.59 463.35 469.28
estándar. 458.10 429.22 459.67 461.06 446.88
451.07 473.82 458.59 442.54 455.69
La media aritmética. Matemáticamente, la media arit- Tabla 9.
mética o simplemente media o promedio, es la suma de to- Datos para el ejemplo 6.
dos los valores dividida por el número total de observacio-
nes. Calcule e interprete la medida de tendencia central más
adecuada para los diámetros de las 50 piezas.
Solución: Si aplicamos las técnicas del EDA descritas Midiendo la Variabilidad de una Distribución de Datos.
hasta el momento, necesitamos construir el histograma para
la serie de datos. Esto nos da una representación visual a Al reportar la medida del centro de una distribución de
cerca de la distribución de los diámetros que nos permitirá datos solamente se da una información parcial a cerca del
decidir esta distribución es simétrica o no. El histograma se conjunto de datos. También es importante describir cuánto
muestra en la figura 16. difieren las observaciones unas de otras. Por ejemplo, con-
sidere las tres series de datos siguientes:
A: 50,70,80,60,90,100
B: 75,75,50,75,100,75
C: 75,70,75,80,75,75
Cada serie de datos tiene una media de 75, es decir que
el centro de las tres distribuciones es el mismo, como se
muestra en la figura 18. No habría diferencia alguna entre
las tres distribuciones si las describimos sólo midiendo su
centro.
Noción intuitiva de dispersión.
La dispersión es una característica de un conjunto de da-
tos numéricos, y en general podemos decir que mide la va-
riabilidad respecto a una medida de posición central y que
Figura 16: Distribución de los diámetros para el ejemplo 6 es un indicador de qué tan separados están los datos entre sí.
Como la distribución de los diámetros resulta ser aproxi- En la figura 18 se muestra el diagrama de puntos para las
madamente simétrica, la media es una opción razonable tres series de datos. Este diagrama es una excelente herra-
para describir el centro de la distribución. Entonces el diá- mienta que nos permite visualizar en forma gráfica la varia-
metro promedio es: bilidad y cómo esta se relaciona con la dispersión de las ob-
servaciones (que tan cerca o alejadas están entre sí). A me-
450.97+⋯+455.69 22439.59 dida que nos desplazamos hacia abajo en la gráfica, la va-
𝑥̅ = = = 448.79 milímetros.
50 50 riabilidad de las distribuciones aumenta. En la serie C, los
Interpretación: El valor calculado describe dónde se datos están más cercanos entre sí, por lo que la variabilidad
centra el valor del diámetro de las piezas a lo largo del eje es menor. En la serie B, dos de los datos se han desplazado
𝑥, y lo podemos interpretar como un diámetro típico o re- hacia los extremos, aumentando la distancia entre los datos
presentativo del conjunto de datos, de tal manera que para y por tanto la variabilidad. En la serie A, todos los datos se
describir este conjunto de datos ya no hace falta hacer refe- han reacomodado de modo que la distancia entre ellos ha
rencia a cada uno de ellos, bastará con reportar a un «repre- aumentado, causando la mayor variabilidad de las tres dis-
sentante» de todos ellos: la media. tribuciones.

Para comprender cómo la media mide el centro de la dis-


tribución de datos, imagine que podemos recortar el histo-
grama y luego buscamos un punto sobre el eje 𝑥 donde se
equilibre (el centro de gravedad) este punto resultará ser la
media (figura 17).

Figura 18

La pregunta que surge es ¿Cómo podemos cuantificar


esta variabilidad? La medida de variabilidad más simple es
el rango, que se define como la diferencia entre el mayor
Figura 17: Interpretación física de la media
valor y el menor valor:
( 0)2 + ( 0)2+ (−25) 2+ (0)2+ ( 25)2 + (0)2
𝑅 = 𝑚𝑎𝑥 − 𝑚𝑖𝑛. 𝑠𝐵2 = =
1250
= 250
5 5
Si bien esta medida es fácil de calcular, no resulta ser una Serie C:
buena medida de la variabilidad. Por ejemplo, la serie A y
( 75−75)2+ (70−75)2 + (75−75) 2 + (80−75)2 + (75−75) 2 + (75−75) 2
B tienen el mismo rango 𝑅 = 100 − 50 = 50, pero la serie 𝑠𝐶2 =
6−1
A tiene más variabilidad que la serie B. Por esta razón, se
( 0)2+ ( −5)2+ ( 0) 2+ ( 5)2+ (0) 2 + ( 0)2
prefiere medidas de variabilidad que incluyan a todas las 𝑠𝐶2 = =
50
= 10
observaciones (y no sólo los dos valores extremos). Por esta 5 5

razón el rango es de poco uso. Estos resultados nos confirman lo que ya antes habíamos
intuido visualmente sobre la variabilidad de cada una de las
Desviaciones con respecto a la media.
series, pero ahora de manera cuantitativa.
La medida de variabilidad más usada se basa en medir
cuánto se desvía cada observación con respecto a la media. Las unidades de la varianza resultan difíciles de interpre-
tar intuitivamente debido a que generan unidades cuadradas.
𝑥 𝑖 − 𝑥̅ Por ejemplo, si los datos representan cantidades de dinero
(en dólares) decimos que la varianza de la serie C es de
Una desviación a partir de la media es positiva, si la co- 10 𝑑ó𝑙𝑎𝑟𝑒𝑠 2 ¿Cómo interpretamos estas unidades de manera
rrespondiente observación es mayor que la media. Y nega- que resulten intuitivas? Una solución es utilizar la desvia-
tiva, si la observación es menor que la media. En general, ción estándar en lugar de la varianza, ya que la raíz cuadrada
cuando una serie de datos tiene una gran variabilidad, las nos regresa a las unidades originales. Así, podemos decir
observaciones tienden a desviarse mucho de la media. Esto que la serie A tiene una desviación estándar de 18.71 dóla-
se reflejará en el cálculo de la desviación con respecto a la res, la B de 15.81 dólares y la C de 3.16 dólares.
media y es por esta razón que las desviaciones con respecto
a la media se pueden combinar para obtener una medida glo- La desviación estándar puede ser interpretada informal-
bal de la variabilidad. mente como «el tamaño de una desviación típica o represen-
tativa» con respecto a la media. Para la serie A, una desvia-
Varianza y Desviación Estándar. ción representativa con respecto a la media es de aproxima-
Cuando la distribución de datos es aproximadamente si- damente 18.71 dólares. Algunas desviaciones están más
métrica, las dos medidas de dispersión más usadas son la cercanas a la media que esta cantidad, y otras más lejanas,
varianza y la desviación estándar. Ambas medidas de varia- pero «en promedio», se desvían 18.71 dólares.
bilidad se basan en las desviaciones con respecto a la media. Media y Desviación Estándar Juntas.
La varianza de una serie de datos, denotada por 𝑠 2, es Ahora podemos describir de una manera más completa
la suma de las desviaciones cuadradas con respecto a la me- una distribución de datos. En general podemos utilizar el si-
dia divididas por 𝑛 − 1. guiente esquema:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅) 2
𝑠2 =
𝑛 −1
La desviación estándar de una serie de datos, denotada
por 𝑠, es la raíz cuadrada positiva de la varianza • ¿La distribución de
Calcule • Haga una
datos es interpretación de los
aproximadamente • Si: use la media y valores obtenidos en
desviación estándar.
∑𝑛 (𝑥 𝑖 − 𝑥̅) 2 simétrica?
• No: use la mediana y
su contexto.
𝑠 = √𝑠 2 = √ 𝑖=1 el IQR
𝑛 −1
Explore Interprete
Ahora estamos en capacidad de cuantificar la variabi-
lidad de las tres series de datos:
Serie A:
(50−75)2+ (70−75)2+ ( 80−75)2 + (60−75)2 + (90−75)2 + (100−75) 2 Figura 19
𝑠𝐴2 =
6−1
Ejemplo 7: Describiendo una distribución aproximada-
(−25)2 + (−5)2+ ( 5)2+ (−15)2+ (15)2 + (25) 2 1750
𝑠𝐴2 = = = 350 mente simétrica.
5 5

Serie B: Un laboratorio de pruebas desea comparar dos marcas de


pintura para exteriores para determinar el tiempo antes de
(75−75)2 + (75−75) 2+ ( 50−75) 2+ (75−75) 2+ (100−75)2 + (75−7 5)2
𝑠𝐵2 = que se decoloren. Debido a que las marcas tienen agentes
6 −1
químicos diferentes y caros, se probaron únicamente 6
galones de cada una de las marcas. los resultados (en meses) Marca B:
son los siguientes: ∑ 𝑥𝑖 210
𝑥̅ 𝐵 = = = 35.0 𝑚𝑒𝑠𝑒𝑠
𝑛 6
M arca A M arca B
10 35 ∑ ( 𝑥−𝑥̅) 2 250
𝑠𝐵2 = = = 50 𝑚𝑒𝑠𝑒𝑠 2
60 45 𝑛−1 5
50 30
30 35 𝑠𝐵 = √𝑠𝐵2 = √50 = 7.1 𝑚𝑒𝑠𝑒𝑠
40 40
20 25
Tabla 10. Interprete
Datos para el ejemplo 7

¿Cuál de las pinturas es mejor y por qué?


Solución: Si seguimos los tres pasos sugeridos en la fi- En promedio, el tiempo de duración de ambas pinturas para
exteriores parece no tener diferencia. Sin embargo, la desviación
gura 19 tenemos:
estándar para la marca B es menor, indicando una menor variabi-
• Verifique si la distribución de datos es aproxima-
lidad que la marca A, por lo que concluimos que la marca B es
damente simétrica. Si tiene 30 o más datos cons-
Explore truya un histograma. Si tiene menos de 30 datos
mejor que la A.
construya un diagrama de puntos.
Midiendo el Centro de una Distribución de Datos Sesgada.
La distribución de los datos resulta ser aproximadamente
simétrica, como lo muestran la figura 20. Cuando la distribución de los datos es simétrica, la media
no es una buena alternativa para describir el centro. Una me-
jor alternativa es una medida llamada la mediana.
La Mediana
Una vez que los datos han sido ordenados de menor a
mayor, la mediana, simbolizada por 𝑥̃, es el valor que está
en el centro de la lista, dividiéndola en dos partes iguales.
Cuando el número de datos es impar, la mediana será el dato
que se ubica en el centro. Pero si el número de datos es par
la mediana es el promedio de los dos datos centrales.
Por ejemplo, considere las siguientes puntuaciones:

Figura 20 8, 10, 11, 13, 16

• Utilice alguna herramienta tecnológica que le Como el número de datos es impar, la mediana es el dato
permita realizar los cálculos con facilidad. Sin que se ubica en el centro de la lista. Por tanto 𝑥̃ = 11 (Note
Calcule embargo, es importante que pueda realizar los como antes de 11 hay dos datos y después de 11 también
cálculos a mano.
hay dos datos).

Ma rca A (x − x ) ( x − x )2 ma rca B (x − x ) ( x − x )2 Si ahora consideramos la siguiente serie:


10 -25.0 625 35 0.0 0.0 8, 10, 11, 13, 16,17
60 25.0 625 45 10.0 100.0
50 15.0 225 30 -5.0 25.0 Notamos que no hay un dato en el centro sino dos. En
30 11+13
-5.0 25 35 0.0 0.0 este caso 𝑥̃ = = 12. De nuevo, hay tres datos antes de
40 5.0 25 40 5.0 25.0 2
20 -15.0 225 25 -10.0 100.0
la mediana y 3 después de ella.
Totales 210 0.0 1750 210 0.0 250.0 En una distribución de datos, la mediana divide la curva
en dos áreas iguales tal como lo muestra la figura 21
Marca A:
∑ 𝑥𝑖 210
𝑥̅𝐴 = = = 35.0 𝑚𝑒𝑠𝑒𝑠
𝑛 6

∑ (𝑥−𝑥̅)2 1750
𝑠𝐴2 = = = 350 𝑚𝑒𝑠𝑒𝑠 2
𝑛−1 5

𝑠𝐴 = √𝑠𝐴2 = √350 = 18.7 𝑚𝑒𝑠𝑒𝑠 50% de 50% de


Área Área
𝑥̃
Figura 21
La mediana es una medida apropiada de la tendencia cen-
tral si la escala de medición de la variable es al menos ordi- Calcule
nal. No tendría sentido, por ejemplo, decir que el «café
latte» es la bebida preferida mediana. La mediana de la serie de datos resulta ser 𝑥̃ = 13 veces.
La mediana tiene una propiedad muy importante que la hace
particularmente atractiva como medida de tendencia central
Interprete
para cierto tipo de distribuciones. Como es el valor que está
en el centro de la distribución, la mediana depende del nú-
mero de valores por debajo y encima de ella, y no qué tan La mediana de 13 nos indica que la mitad de los estu-
separados estén los datos entre sí. Para ilustrar esta propie- diantes visitaron el aula virtual menos de 13 veces y la mitad
dad consideremos la serie 8,10,11,13,16 pero cambiemos el de los estudiantes la visitaron más de 13 veces.
último dato por 160: Notas:

1. Generalmente, la mitad de los valores son menores que la mediana y la mitad


8,10,11,13,160 son mayores. Nuestro ejemplo no es el caso, debido a que el 13 ocurre 3
veces. Aun así, es común interpretar la mediana como el valor que divide el
A pesar del cambio, la mediana sigue siendo 11, ya que conjunto de datos a la mitad.
la mediana es insensible al cambio en los valores extremos, 2. En este ejemplo, la media 𝑥̅ = 23.10 no resulta ser una medida representa-
una ventaja cuando se desea medir el centro de una distribu- tiva de la serie de datos, ya que sólo 7 datos son mayores que 23.10. Esto se
debe a la presencia de los datos 84 y 331 que impactan grandemente en la
ción que tiene un sesgo evidente. media. Como podemos intuir al ver el histograma de los datos, 13 es un valor
más típico del conjunto de datos que 23.10.
Ejemplo 8: Describiendo una distribución sesgada.
Midiendo la Variabilidad de una Distribución Sesgada
Cuarenta estudiantes de un curso de Probabilidad y Es-
tadística fueron monitoreados para conocer qué tan a me- La variabilidad de una distribución sesgada la medire-
nudo consultan el material puesto en el aula virtual. Los re- mos con una cantidad conocida como el recorrido inter-
sultados (el número de veces que cada alumno accede al ma- cuartílico (IQR), simbolizado por 𝑄 que tiene la ventaja de
terial) fueron los siguientes: que, igual que la mediana, es insensible a cambios en los
valores extremos. Para su cálculo necesitamos definir los
20 22 5 42 36 36 13 0
0 0 8 0 7 0 331 21 cuartiles.
4 12 20 14 14 8 8 0
13 4 13 19 4 5 16 26 Los cuartiles dividen la distribución de datos en cuatro
37 3 23 84 12 18 19 7 partes de más o menos el mismo tamaño, tal como lo mues-
Tabla 12. tra la figura 23. Cada parte se conoce como cuartil
Datos para el ejemplo 8.

Explore

La distribución de datos es sesgada a la derecha, como se


ve en la figura 22.

𝑄1 𝑄2 𝑄3
Figura 23

La primera de estas partes, 𝑄1 , separa el 25% más pe-


queño de los datos del 75% más grande. 𝑄2 separa el 50%
más pequeños de los datos del 50% más grande. Por defini-
ción 𝑄2 = 𝑥̃. 𝑄3 separa el 25% más grande de los datos del
75% más pequeño. Sus valores se calculan dividiendo los 𝑛
datos en una mitad inferior y una mitad superior. Los cuar-
tiles inferior y superior son las medianas de estos dos grupos
respectivamente. Los cálculos se muestran a continuación:

Figura 22
Mitad Inferior: que datos pueden ser considerados como típicos y cuáles
0 0 0 0 0 0 3 4 4 4 5 5 7 7 8 8 8 12 12 13 como atípicos.
4+5 El resumen de Cinco Puntos y Diagramas de Caja.
Q1 = = 4.5
2
La herramienta más usada en el EDA para buscar el mo-
Mitad Superior: delo y el residual es el boxplot o diagrama de caja. Para su
13 13 14 14 16 18 19 19 20 20 21 22 23 26 36 26 37 42 84 331
construcción se necesita del resumen de cinco puntos:
1. La menor de las observaciones (min)
20 + 21
Q3 = = 20.5 2. El primer cuartil (𝑄1 )
2
3. El segundo cuartil (𝑄2 )
4. El tercer cuartil (𝑄3 )
El recorrido intercuartílico se calcula como: 5. La mayor de las observaciones (max)
𝑄 = 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 La construcción del diagrama es relativamente simple,
por ejemplo, considere la serie 89, 47, 164, 296, 30, 215,
Para la serie de daos del ejemplo 8 el IQR tiene un valor
138, 78, 48, 39. El resumen de cinco puntos es:
de 𝑄 = 20.5 − 4.5 = 16.0 y mide la variabilidad de los da-
tos viendo cómo éstos se dispersan en la mitad central de los 𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
datos. Si el valor calculado es pequeño, los valores al centro 30 47 83.5 164 296
de la distribución están muy cercanos entre sí, indicando una
variabilidad pequeña. Un valor grande indicará una disper-
sión mayor. Enfocándose en la mitad central de los datos y 30 39 47 48 78 89 138 164 215 296
no en todos, el recorrido intercuartílico no se ve influen-
ciado por los valores extremos.
𝑄1 = 47 𝑄3 = 164
Mediana y Recorrido Intercuartílico Juntos.
Podemos resumir la distribución del ejemplo 8 de la si- 78 + 89
guiente manera: La mediana para el número de veces que 𝑄2 = = 83.5
2
los alumnos acceden al material es 13. Esto significa que la
mitad de los estudiantes visitó el aula virtual menos de 13
veces y la mitad de los estudiantes visitaron el aula virtual Con esta información y un eje adecuado construimos un
13 o más veces. 25% de los estudiantes visitaron el aula vir- diagrama como el de la figura 24:
tual 4.5 veces o menos y 25% de ellos visitó el aula virtual
20.5 veces o más. Un IQR de 16.0 nos indica que el 50 %
central de accesos de estudiantes al aula, se dispersa en un
intervalo de 16 puntos porcentuales.
La filosofía del Análisis Exploratorio de Datos.
Las técnicas que hemos descrito hasta este momento nos
proporcionan los conocimientos básicos que nos permitirán Figura 24
utilizar la filosofía del EDA: explorar los datos para encon-
Interpretación del diagrama: el diagrama nos muestra
trar patrones inherentes y detectar desviaciones con respecto que la distribución de datos es sesgada a la derecha. Un va-
a estos patrones, con el objetivo de encontrar hechos gene- lor representativo es 83.5 y es notorio que existe mucha va-
ralizables. En este sentido, se investigan dos componentes riabilidad entre los datos.
en los datos: el patrón general (modelo) o tendencia y el re-
sidual. Esto puede ser escrito de la siguiente manera: Con respecto al modelo y residual, el diagrama de caja
tiene la versatilidad de resumir tres diferentes modelos: a)
𝐷𝑎𝑡𝑜𝑠 = 𝑀𝑜𝑑𝑒𝑙𝑜 + 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 La mediana, que marca el punto que divide 50:50 de los da-
Según la expresión anterior, el enfoque exploratorio tos; b) el IQR, representado por el ancho de la caja, que nos
puede ser caracterizado como una búsqueda interactiva de muestra el patrón del 50% central; y c) la caja junto con los
un modelo (o varios modelos) y una explicación del residual bigotes, que nos muestran lo que puede ser considerado
a partir del contexto. En el ejemplo 8, este modelo es la me- como típicos y cuáles como atípicos. Con respecto a los re-
diana, que marca el punto que divide 50:50 el área o podría siduales, el diagrama también puede mostrarnos esos valo-
ser el IQR que representa el patrón del 50% central de los res considerados atípicos en la serie de datos. Por ejemplo,
datos. Los cuartiles 𝑄1 y 𝑄3 son el residual, nos explican para los datos del ejemplo 8 la brecha en el histograma (el
espacio central «en blanco») sugiere la presencia de valores
muy alejados del grueso de los datos. En ese caso construi- Diagramas de Caja para Comparar Series de Datos.
mos el diagrama de caja de la siguiente manera:
Cuando se trata de comparar dos o más series de datos, los
1) Calculamos el resumen de cinco puntos: diagramas de caja resultan de mucha ayuda. En la figura 26
se muestran los diagramas de caja para las dos series de da-
𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥 tos del ejemplo 7
0 4.5 13 20.5 331

2) Verificamos si existen valores atípicos. Estos se definen


como aquellos que se desvían más de 1.5𝑄 a partir del
cuartil uno o del cuartil tres.
< 𝑄1 − 1.5𝑄
𝑈𝑛 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠 𝑎𝑡í𝑝𝑖𝑐𝑜 𝑠𝑖 𝑒𝑠: {
> 𝑄3 + 1.5𝑄
Entonces: 𝑄 = 𝑄3 − 𝑄1 = 20.5 − 4.5 = 16.0
𝑄1 − 1.5𝑄 = 4.5 − 1.5(16.0) = −19.5
𝑄3 + 1.5𝑄 = 20.5 + 1.5(16) = 44.5
Vemos que no hay valores menores que -19.5 por lo
que no hay atípicos en este extremo; pero sí existen va- Figura 26
lores mayores que 44.5 (84 y 331). Si excluimos estos
dos valores de la serie, entonces el nuevo máximo sería De la figura resulta evidente que, aunque ambas distribu-
42, es decir que el resumen de cinco puntos, después ciones tienen el mismo valor central y son simétricas, la va-
de este cambio, seria: riabilidad entre ellas es muy diferente. El menor espacio que
ocupa el boxplot para la marca B es evidencia de su menor
min=0 variabilidad y por lo tanto de su mejor calidad.
𝑄1 = 4.5
𝑄2 = 13 IV. DESCRIBIENDO RELACIONES.
𝑄3 = 20.5
𝑚𝑎𝑥 = 42 En los estudios estadísticos es esencial investigar la rela-
ción entre variables. Cuando entendemos la relación entre
3) Construimos el diagrama con este nuevo máximo y los dos variables, podemos usar el valor de una de ellas y pre-
valores atípicos se marcan como puntos en el diagrama, decir el valor de la otra.
tal como en la figura 25.
Caso de Variables Cualitativas.
Ya hemos aprendido cómo analizar la distribución de
una sola variable categórica por medio de un gráfico de ba-
rras. ¿Qué sucede cuando nuestro conjunto de datos incluye
dos de estas variables? ¿Qué análisis podemos realizar?
¿qué relación existe entre las dos variables? En el ejemplo
9 se muestra cómo analizar el conjunto de variables.
Ejemplo 9: Una encuesta realizada a 4826 personas con
edades comprendidas entre los 19 y 25 años preguntaba:
«¿Cuál cree que son sus oportunidades de terminar una ca-
rrera universitaria y encontrar trabajo antes de los 28
años?». Los resultados obtenidos se muestran en la tabla 13
Un primer paso consiste en analizar las variables de
forma separada. La columna de Total a la derecha de la ta-
Figura 25 bla contiene los totales para cada una de las filas. Estos to-
tales por fila dan la distribución de las opiniones en el grupo
Al análisis hecho anteriormente para esta serie de datos hay
completo de 4826 encuestados: 194 piensan que no tienen
que agregar que existen dos valores atípicos (84 y 331) lo
ninguna oportunidad, 712 piensan que tienen alguna opor-
que indica que hay dos estudiantes que accedieron al mate- tunidad, y así sucesivamente. La distribución de las varia-
rial muchas más veces que el resto. (esto sugiere dar un se-
bles Opinión y Género consideradas de manera separada se
guimiento a estos dos estudiantes para determinar si esta
cantidad de accesos afecta positivamente sus notas).
Género
Opinión Mujeres Hombres Total
Ninguna oportunidad 96 98 194
Alguna oportunidad, pero probablemente no 426 286 712
50-50 de oportunidad 696 720 1416
Una buena oportunidad 663 758 1421
Casi seguro 486 597 1083
Total 2367 2459 4826
Tabla 13
Datos para el Ejemplo 9

conocen como distribuciones marginales ya que aparecen expresaron sentir una «Buena Oportunidad» o estar «Casi
al margen derecho y al final de la tabla respectivamente. seguro» de lograr ambas metas antes de los 28 años.
Escribir las distribuciones marginales en porcentajes re- Relación Entre dos Variables Categóricas: Distribuciones
sulta más ilustrativo que hacerlo con las frecuencias, espe- Condicionales.
cialmente cuando comparamos grupos de diferente tamaño.
Por ejemplo, el porcentaje de encuestados que cree que no Las tablas de doble entrada contienen mucha más infor-
tiene ninguna oportunidad de terminar la carrera universi- mación que las dos distribuciones marginales consideradas
taria y encontrar trabajo antes de los 28 años es por separado. Las distribuciones marginales no nos dicen
nada acerca de la relación entre dos variables. Para describir
𝑇𝑜𝑡𝑎𝑙 𝑁𝑖𝑛𝑔𝑢𝑛𝑎 𝑂𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 194 la relación entre dos variables categóricas podemos proce-
= = 4.0%
𝑇𝑜𝑡𝑎𝑙 4826 der de la siguiente manera:
Si repetimos el mismo procedimiento para el resto de fi- Podemos estudiar la opinión de las mujeres por separado
las obtenemos la distribución marginal para la variable tomando la columna «mujeres» en la tabla 13. El porcentaje
Opinión la cual podemos representar en el gráfico de barras de mujeres que expresaron no tener ninguna oportunidad es:
de la figura 27.
𝑀𝑢𝑗𝑒𝑟𝑒𝑠 sin 𝑛𝑖𝑛𝑔𝑢𝑛𝑎 𝑜𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 96
= = 4.06%
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 2367
Opinión Porcentaje
Ninguna oportunidad 4.02% Repitiendo este cálculo para las cinco opiniones obtene-
Alguna oportunidad, pero probablemente no 14.75% mos la distribución condicional de la variable Opinión para
50-50 de oportunidad 29.34% el grupo de mujeres.
Una buena oportunidad 29.44%
Casi seguro 22.44%
Tabla 14 Opinión Porcentaje
Distribución M arginal para la Variable Opinión. Ninguna oportunidad 4.06%
Alguna oportunidad, pero probablemente no 18.00%
50-50 de oportunidad 29.40%
Una buena oportunidad 28.01%
Casi seguro 20.53%
Tabla 15
Distribución Condicional para la variable Opinión (mujeres)

Usamos el término «condicional» porque la distribución


describe a los participantes en el estudio que satisfacen la
condición de ser mujer. En general, la distribución condi-
cional de una variable describe los valores de la variable en-
tre individuos que tienen un valor específico en otra varia-
ble. También podemos calcular, la distribución condicional
de la variable Opinión para el grupo de hombres (tabla 16).
Opinión Porcentaje
Ninguna oportunidad 3.99%
Alguna oportunidad, pero probablemente no 11.63%
50-50 de oportunidad 29.28%
Figura 27
Una buena oportunidad 30.83%
Casi seguro 24.28%
Análisis: El gráfico de barras muestra la distribución de Tabla 16
opiniones de los encuestados. Muchos encuestados son op- Distribución Condicional para la variable Opinión (hombres)
timistas sobre sus oportunidades de graduarse y obtener un
trabajo. Más del 50% de los que respondieron a la encuesta En una tabla de doble entrada (como la tabla 13) hay dos
conjuntos de distribuciones condicionales: una para las
variables presentadas en columnas y otra para las variables (contra un 28.0% de las mujeres) creen tener una «Buena
representadas en filas. Hasta el momento hemos analizado Oportunidad» o están «Casi Seguros» (24.3% contra 20.5%)
la distribución condicional de la variable Opinión para am- de terminar una carrera universitaria y encontrar trabajo an-
bos géneros. También podemos examinar las cinco distribu- tes de los 28 años.
ciones condicionales de género, una para cada una de las
cinco opiniones analizando por separado las filas en la tabla El gráfico sugiere una asociación entre el Género y Opi-
de doble entrada. Por ejemplo, la distribución condicional nión. El Conocer que un participante es hombre nos ayuda
para la variable género para aquellos que manifestaron tener a predecir su opinión: es más probable que un hombre res-
una buena oportunidad es ponda que tiene una «Buena Oportunidad» o que es «Casi
Seguro» que se graduará y encontrará un trabajo antes de los
663 28 años que una mujer.
Para mujeres: = 46.66%
1421
758
Para hombres: = 53.34%
1421

Esto significa que, de los encuestados que manifestaron


tener una buena oportunidad de graduarse y encontrar un
trabajo, el 46.66% eran mujeres y el 53.34% eran hombres.
¿Cuáles Distribuciones Condicionales Debería Compa-
rar?
Nuestro objetivo hasta el momento ha sido analizar las
relaciones entre Género y Opinión con relación a las expec-
tativas de terminar una carrera universitaria. Iniciamos exa-
minando las distribuciones condicionales de la variable Opi-
nión, tanto para mujeres como para hombres. Posterior-
mente, aunque no se calcularon, se explica que también pue-
den construirse las distribuciones condicionales de Género
para cada una de las cinco opiniones. ¿Cuál de estas dos al-
ternativas nos da la información que buscamos? Piense si el
cambio en una de las variables puede ayudar a explicar cam-
bios en la otra. Por ejem-
plo, podría interesarnos
averiguar si el género in-
fluye en la opinión de los
encuestados. Para visuali-
zar si los datos apoyan
esta idea debemos compa-
rar las distribuciones con-
dicionales de la variable
Opinión para mujeres y
hombres.
Nuestro problema en-
tonces podría formularse
como: basados en los da-
tos de la encuesta, ¿pode-
mos establecer si las opi- Figura 28
niones de las mujeres difieren de las de los
hombres acerca de terminar una carrera
universitaria antes de los 28 años?
Un gráfico de barras como el de la figura 28 puede ser
usado para comparar ambas distribuciones condicionales.
Basados en los datos de la muestra podemos concluir que
los hombres parecen un poco más optimistas sobre su futuro
académico y laboral que las mujeres, ya que un 30.8%

Вам также может понравиться