Вы находитесь на странице: 1из 48

Medidas de Tendencia

Central

Nos indican un valor representativo del grueso de


los datos, de la referencia de los mismos un valor
central.
Ejemplo: con las calificaciones
4,7,5,6,5,4,5,5,5,6,5,4,4,
es claro que (a ojo) estn en torno a cinco, que
podra ser tomado como ndice de tendencia
central.
Veremos primero los 3 ndices de tendencia central
ms comunes (moda, media y mediana).
Despus veremos otros ndices que han sido
propuestos.

Media
aritmtica
Frmula:

Simplemente se trata de sumar todos los valores


y dicha cantidad se divide por el nmero de
valores que tengamos.
Si tenemos los datos: 4,6,5,3,7
La media ser (4+6+5+3+7)/5=4
Nota: se pueden emplear medias
aritmticas ponderadas. Pensemos que hay
2 datos, uno (5) pesa 0,6 y el otro (6) pesa
0,4. Entonces, la media ser (5*0,6+6*0,4)/

Media aritmtica (I)

La media aritmtica de un conjunto de datos es el cociente


entre la suma de todos los datos y el nmero de estos.

Ejemplo: las notas de Juan el ao pasado fueron:


5, 6, 4, 7, 8, 4, 6

Hay 7 datos
que suman 40

La nota media de Juan es:


Nota media =

5 6 4 7 8 4 6 40

5,7
7
7

Media aritmtica (II)

Clculo de la media aritmtica cuando los datos se repiten.


1. Se multiplican los datos por sus frecuencias absolutas
respectivas, y se suman.
2. El resultado se divide por el total de datos.
Ejemplo. Las notas de un grupo de alumnos fueron:
Datos por frecuencias

Media
Total de datos

129
5,1
25

Propiedades de la Media
aritmtica
-La suma de diferencias (de todos los valores)
respecto a la media es siempre 0
-Si sumamos una constante a cada uno de los
valores, la nueva media aritmtica resultante ser
la original ms la constante.
-Si multiplicamos cada uno de los valores por una
constante, la nueva media aritmtica ser la
original por la constante.
-Minimiza la suma de diferencias en trminos
cuadrticos.

Mediana
La Mediana (Mdn o Md) se define como el valor que
tiene la propiedad de que el nmero de observaciones
menores que l es igual al nmero de observaciones
mayores que l.
Por ejemplo, en la secuencia (ordenada) 3,4,5,6,7,8,9
la mediana ser 6

En la secuencia (ordenada) 2,3,4,6,7,9


la mediana ser 5 (la media aritmtica entre los dos
valores centrales; observa que n es par; en el ejemplo
de arriba era impar)

La mediana

La mediana de un conjunto de datos es un valor del mismo,


tal que el nmero de datos menores que l es igual al nmero
de datos mayores que l.
Ejemplo:

Los pesos, en kilogramos, de 7 jugadores de un


equipo de ftbol son: 72, 65, 71, 56, 59, 63, 72

1. Ordenamos los
datos:
2.
El dato que queda en el centro es 65.

Caso:

56, 59, 63, 65, 71, 72, 72

La mediana vale 65.

Si el nmero de datos fuese par, la mediana es la


media aritmtica de los dos valores centrales.

Para el conjunto 56, 57, 59, 63, 65, 71, 72, 72, la mediana es:

63 65
64
2

Propiedades de la mediana
-No utiliza todos los elementos
-Se puede calcular con datos ordinales
-Se ve menos afectada por datos atpicos que la
media aritmtica.
-Minimiza la suma de diferencias en valor absoluto
(recuerda que la media aritmtica minimizaba la
suma de diferencias en trminos cuadrticos)

Ejemplo uso de la mediana


Los 9 empleados de una nueva empresa
viven al lado de la carretera en diferentes
kilmetros:
Nm.
Emp.

Km 1

2 1 2
4

1
5 6

Dado que todos viajan en automvil, y sabiendo que quieres


minimizar el costo en gasolina, en qu lugar pondras la
empresa para minimizar tal costo?

26

La Moda
Se define como Moda (Mo) aquel valor de la
variable al que corresponde la mayor frecuencia.
En el conjunto de datos: 4,5,6,6,3,6,4,5
Mo=6

la

Propiedades:
-No es necesariamente nica (puede haber
varias modas)
-Se puede calcular con datos en escala nominal
-En su clculo no intervienen todos los elementos

La moda

La moda de un conjunto de datos es el dato que ms se repite.


Ejemplo.

Una zapatera ha vendido en una semana los


zapatos que se reflejan en la tabla:
N de calzado
N de personas

38
16

39
21

El nmero de zapato ms
vendido, el dato con mayor
frecuencia absoluta, es el 41.

40
30

41
35

42
29

43
18

44
10

45
7

Lo compran 35 personas

La moda es 41.

Cul elegir?

Media
Mod
Mediana
a

Resistencia y
robustez
Estadsticos resistentes: Son aquellos que no
se ven influidos (o solo ligeramente) por pequeos
cambios en los datos.
Evidentemente, la media es un estadstico muy
poco resistente a cambios en los datos, dado que
se ve influida por todos y cada uno de ellos.
La mediana, en cambio, es un estadstico
altamente resistente.

Estadsticos (Estimadores) robustos


(ESTADSTICA INFERENCIAL): Son aquellos
estadsticos (estimadores) que funcionan bien
para varios tipos distintos de distribuciones
tericas, aunque pueden no ser el mejor
estimador para ningn tipo concreto de
distribucin. Es decir, son el mejor compromiso.

La media no es un estimador robusto.


La mediana es un estimador ms robusto
que la media, si bien hay otros estimadores
ms robustos.

Medidas robustas de tendencia


central
1. Medias Recortadas
Consiste en calcular la media aritmtica sobre un
subconjunto central del conjunto de datos, no
considerndose una determinada proporcin p por
cada extremo. (p se expresa normalmente como
porcentaje).
Por ejemplo, una media recortada al 40% en una
secuencia de 10 datos implica no tener en cuenta ni
los 4 valores menores ni los 4 valores mayores.
Observar que la media recortada al 0% es la media

Medidas robustas de tendencia


central
1. Medias Recortadas (cont)

Calcula la media recortada al 5% de los


siguientes datos:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
El valor debe ser 6.11
Calcula la media recortada al 10% de los datos
anteriores (da 6)

Medidas robustas de tendencia


central
2. Media Winsorizada
Es anlogo a las medias recortadas excepto en que las
puntuaciones eliminadas, ya no lo son sino que se sustituyen por
los valores menor y mayor que quedan para el cmputo de la
media winsorizada.
As, en la media recortada a nivel 2 implicara eliminar las dos
puntuaciones mayores y las 2 menores:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los
mismos
En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y
11 (los dos mayores) se sustituyen por 4 y 8 respectivamente. Es
decir,

Medidas robustas de tendencia


central

3. Otros tipos de media en la que se


recortan datos
En muchas ocasiones lo que se hace es emplear un
valor mnimo y uno mximo ms all del cual se
eliminan los datos que sobrepasen tales valores.
Por ejemplo, en experimentos de tiempo de reaccin
para discriminar palabras/pseudopalabras se
pueden eliminar datos menores de 200 ms y
mayores de 1500 ms. (Menos de 200 ms es
demasiado rpido; ms de 1500 ms es demasiado
lento.)
De esta manera, si todos los datos estn en el rango
200-1500 ms no se elimina ningn dato

Medidas robustas de tendencia


central
4. Trimedia
Es un ndice de tendencia central que consiste en
calcular una media aritmtica ponderada de tres
medidas, la Mediana (con peso doble) y el primer y
tercer cuartil.
Pensemos que en un conjunto de datos, el primer
cuartil es 51, la mediana es 55 y el tercer cuartil es
63. La trimedia es:

Medidas robustas de tendencia


central
5.
Otras medidas robustas
El estimador-M de Huber, el estimador
biponderado de Tukey, el estimador Mredescendente de Hampel y el estimador en onda
de Andrew.
Estos estimadores se diferencian entre s por el tipo
de ponderacin aplicada sobre los datos.
Por ejemplo, en el Estimador-M de Huber
(Estimador M de posicin): Las puntuaciones tpicas
que sean menores que una constante, reciben un
peso de 1. Los casos que tienen los mayores valores
absolutos tienen pesos tanto ms pequeos cuanto
mayor es su distancia respecto a cero. La constante
es 1.339.

3. Variabilidad
En el punto anterior vimos las medidas de tendencia
central (media, mediana, moda). Claramente, para
saber cun representativo es el valor de tal medida de
tendencia central es necesario tener una medida de
variabilidad.
Por ejemplo, alguien puede tener una media de 5 con
los siguientes datos (5, 4, 6, 5, 5) y otro tener una
media de 5 con los datos (10, 0, 5, 9, 1).
Evidentemente el primer sujeto es mucho ms
consistente, muestra menos variabilidad.

Cmo podemos medir la


variabilidad?
n

Una primera estrategia sera emplear la


Xi X
frmula
n
i 1

El problema es que siempre vale cero....

i 1

X 0

Una segunda estrategia es emplear valores


absolutos
n

X
i 1

Esta es la llamada Desviacin Media, lo


problemtico es el uso de valores absolutos.

qu nos queda, pues? Emplear la suma de diferencias al


cuadrado....Es el primer paso para la varianza

Varianza
n

Frmula

s
2

X
i 1

Como veremos en el prximo semestre (Estadstica inferencial), la


varianza es un estimador sesgado de la varianza poblacional; por
ello se prefiere el uso de la cuasivarianza que es igual que la
varianza excepto en que se divide por n-1 ; la cuasivarianza es un
estimador insesgado de la varianza poblacional: 2
n

s%
2

X
i 1

n 1

Desviacin tpica y cuasi


Frmulas
desviacin tpica
2
n

X
i 1

s%

X
i 1

n 1

Una ventaja obvia de la desviacin tpica sobre la varianza es que


la desviacin tpica viene dada en las mismas unidades de medida
que los datos originales (en la varianza las unidades estn al
cuadrado).
Por eso, en estadstica descriptiva se suele dar la media
acompaada de la (cuasi) desviacin tpica, ms que con la (cuasi)
varianza.

Algunas propiedades de la varianza y


desviacin tpica
1. La varianza y la desviacin tpica son valores
esencialmente positivos.
(observa que las diferencias sobre la media estn al
cuadrado)
2. Ni la varianza ni la desviacin tpica se alteran cuando
a los datos se les aade una constante a.

Yi a X i

Entonces, sabemos que

Y a X

Yi a X i
n

s y2

Y Y
i 1

Entonces, sabemos que

(a X ) (a X )
i 1

Y a X
2

X
i 1

X )

Claro est que lo mismo se aplica a la desviacin tpica


y a la cuasi varianza y la cuasi desviacin tpica

sx2

3. Si los datos se multiplican por una constante a


cualquiera, la desviacin tpica queda
multiplicada por el valor absoluto de dicha
constante, y la varianza por el cuadrado de dicha
constante

Y aX

Yi aX i

s y2

Yi Y
i 1

aX i aX

i 1

s y a sx

a2 X i X )
i 1

a 2 s x2

8 cms.

Aqu tenemos 9 rectngulos cuya altura es de 8 centmetros (y todos


tienen la misma base).
Existe alguna variacin respecto de su altura entre estos rectngulos?
Cul es el promedio de la altura de estos rectngulos?
8+8+8+8+8+8+8+8+8
9

72
=8
9

10 cms
6 cms
8 cms.

El quinto rectngulo y el octavo rectngulo en un acto de rebelda


cambiaron su altura. El quinto rectngulo, ahora de color azul, mide 10
centmetros, y el octavo rectngulo, de color amarillo, mide 6
centmetros?
Cul es el nuevo promedio de estos 9 rectngulos?
8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 8
9

72
=8
9

... el mismo promedio! Pero... ha habido variacin?

10 cms
6 cms
8 cms.

El rectngulo azul tiene +2 centmetros sobre el promedio, y el


rectngulo amarillo tiene 2 centmetros bajo el promedio. Los otros
rectngulos tienen cero diferencia respecto del promedio.
Si sumamos estas diferencias de la altura respecto del promedio,
tenemos
0+0+0+0+2+0+02+0 =0

Este valor nos parece indicar que no ha habido


variabilidad! Y sin embargo, ante nuestros ojos,
sabemos que hay variacin!!!!

10 cms
6 cms
8 cms.

Una forma de eliminar los signos menos de aquellas diferencias que


sean negativas, esto es de aquellos mediciones que estn bajo el
promedio, es elevar al cuadrado todas las diferencias, y luego sumar...
02 + 02 + 02 + 02 + 22 + 02 + 02 + ( 2)2 + 02 = 8
Y este resultado repartirlo entre todos los rectngulos, es decir lo
dividimos por el nmero de rectngulos que es 9
02 + 02 + 02 + 02 + 22 + 02 + 02 + ( 2)2 + 02 =
9

8
9

= 0,89

10 cms
6 cms
8 cms.

Se dice entonces que la varianza fue de 0,89


Observemos que las unidades involucradas en el clculo de la varianza
estn al cuadrado. En rigor la varianza es de 0,89 centmetros cuadrados.
De manera que se define

0,89 0,943
La raz cuadrada de la varianza se llama desviacin estndar

10 cms
6 cms
8 cms.

Que la desviacin estndar haya sido de 0,943 significa que en promedio la


altura de los rectngulos variaron (ya sea aumentando, ya sea disminuyendo)
en 0,943 centmetros.
Es claro que esta situacin es en promedio, puesto que sabemos que
los causantes de la variacin fueron los rectngulos quinto y octavo.
Esta variacin hace repartir la culpa a todos los dems rectngulos
que se portaron bien.
La desviacin estndar mide la dispersin de los datos respecto del
promedio

10 cms
8 cms.
8 cms.8 cms.
8 cms.
8 cms.
7 cms.
6 cms
4 cms

Cul es la varianza y la desviacin estndar de las alturas de los rectngulos?


En primer lugar debemos calcular el promedio
8 + 4 + 8 + 8 + 10 + 8 + 7 + 6 + 8
= 7,44
9

Luego debemos calcular la varianza

10 cms
8 cms.

8 cms.

8 cms.

8 cms.

7 cms.

4 cms

0,56

-3,44

0,56

0,56

2,56

0,56 -0,44

8 cms.
6 cms

-1,44
0,56

7,44
Promedio
0,562 + (-3,44)2 + 0,562 + 0,562 + 2,562 + 0,562 + (-0,44)2 + (-1,44)2 + 0,562 22,2224
=
9
9
Este es el valor de la varianza

= 2,469

10 cms
8 cms.

8 cms.

8 cms.

8 cms.

4 cms

7 cms.

8 cms.
6 cms

7,44
Promedio

Si la varianza fue de 2,469, entonces la desviacin estndar es


de...

2, 469 1,57

Lo que significa que, en promedio, los rectngulos se desviaron ms o


menos (ms arriba o ms abajo) en 1,57 centmetros.

Otras medidas de
variabilidad
1. Amplitud total
(AT)

AT X max X min

Es la diferencia entre los valores


extremos

Su ventaja es la sencillez de clculo; el problema es que es


nicamente sensible a los valores extremos (e insensible a los
intermedios).

2. Desviacin
media (DM)

DM

X
i 1

El problema del empleo de la DM es la dificultad que tiene


trabajar con valores absolutos.
La DM es poco frecuente encontrarla en la prctica.

3. Amplitud semi-intercuartil (Q)


Est basada en el primer y tercer cuartil, lo que la hace un
estadstico resistente

Q3 Q1
Q
2

Se emplea relativamente en algunas reas de la psicologa; se


suele emplear cuando la mediana sea el ndice de tendencia
central.

4. Coeficiente de
variacin (CV)

Observa: Escala de razn

Indica el nmero de veces que la desviacin contiene a la media:


cuanto mayor es el CV mayor es la variabilidad y menor la
representatividad de la media.
Al no tener unidades de medida permite la comparacin entre variables
diferentes.

Medidas robustas de variabilidad


1. La MEDA
(Mediana de las diferencias absolutas frente a la mediana)

MEDA mediana X i Md
Ejemplo de clculo: 3,4,4,5,5,6,7,8,9,11

(Md=5.5)

MEDA=1.5
Es la Mediana de 0,5; 0,5; 0,5; 1,5; 1,5; 1,5; 2,5; 2,5; 3,5; 5,5

Medidas robustas de variabilidad

2. La desviacin pseudotpica
Es un ndice de variabilidad que permite estimar la
desviacin tpica (que como sabemos es muy
susceptible a la influencia de puntuaciones atpicas,
como tambin ocurre con la media aritmtica) que
cabra esperar de la muestra si sta perteneciera a
una poblacin en el que la distribucin subyacente
sea la normal.

4. Asimetra
En los dos puntos anteriores hemos visto las
medidas de tendencia central y las medidas de
variabilidad.
Si bien la obtencin de tales medidas es clave
para describir una muestra y efectuar inferencias
sobre la poblacin de origen, es tambin
fundamental saber la forma de una
distribucin para obtener una caracterizacin
adecuada de los datos.

Asimetra
Si bien es fcil tener una idea de si la distribucin es
simtrica o no tras ver la representacin grfica (p.e.,
un histograma o un diagrama de caja y bigotes), es
importante cuantificar la posible asimetra de una
distribucin.
Recordemos que cuando la distribucin de los datos es
simtrica, la media, la mediana y la moda coinciden. (Y
la distribucin tiene la misma forma a la izquierda y la
derecha del centro)
Si bien muchas distribuciones psicolgicas se asume
que tienden a ser simtricas y unimodales, en muchos
casos la distribucin que encontramos es asimtrica

Examen difcil

Asimetra
positiva

Salarios
Tiempos de
Reaccin

Mod
Media
Mediana
a

Asimetra
Examen fcil
negativa
Media

Mediana

Moda

Indices de
asimetra
1. ndice de asimetra de
Pearson

Muy sencillo de calcular. Est basado en la relacin entre la


media y la moda en distribuciones simtricas y asimtricas
(ver diapositiva anterior):

X Mo
As
sx

Si la distribucin es simtrica As ser 0


Si la distribucin es asimtrica positiva, As ser
mayor que 0
Si la distribucin es asimtrica negativa, As ser
menor que 0

Indices de asimetra
2. Indice de asimetra de Fisher
Est basado en la diferencia de los datos sobre la media,
como la varianza, si bien esta vez se elevan los coeficientes
al cubo
n

As

(X
i 1

X)

3
x

Si la distribucin es simtrica As ser 0


Si la distribucin es asimtrica positiva, As ser
mayor que 0
Si la distribucin es asimtrica negativa, As ser
menor que 0

Desventaja: Muy influida por puntuaciones


atpicas-

5. Cmo ver la tendencia, variabilidad y


asimetra en un grfico
Si bien es posible emplear diferentes grficos para evaluar la variabilidad
(y tendencia central, asimetra, etc), es interesante el uso de los
diagramas de caja y bigotes.
La caja viene definida por el primer cuartil y el tercer cuartil, con la
mediana tambin indicada.
Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan,
2004, Brain & Cognition), en el que se examinan ciertas caractersticas
en una tarea de decisin lxica (decidir si un estmulo era palabra o no;
se mide el Tiempo de Reaccin) con un grupo de controles y un grupo
de personas con dao cerebral (afsicos).
Lo que se meda era:
1) un ndice de cun conservador eran las personas en la tarea (boundary
separation)
2) un ndice correspondiente a procesos no-decisionales (non-decision

Cmo ver la variabilidad en un grfico


La Mediana es el trazo grueso
dentro de las cajas (entre los
cuartiles primero y tercero).
Las puntuaciones atpicas
estn presentadas
individualmente (ver que hay
dos tipos de datos atpicos).
Observar que los controles son
claramente diferentes a los
pacientes en boundary
separation y en el nondecision component, mientras
que hay bastante ms
solapamiento en la calidad de
informacin.

Cmo ver la asimetra en un grfico


En el caso del drift rate
(pacientes), la distancia entre
el P75 y P50 es mucho mayor
que entre el P50 y el P25, lo
que sugiere que hay asimetra
positiva.

P25 P50 P75

En el caso del non-decision


component (pacientes), la
distancia entre el P75 y P50 es
mucho menor que entre el P50
y el P25, lo que sugiere que
hay asimetra negativa.

Вам также может понравиться