Вы находитесь на странице: 1из 74

Estadstica Descriptiva

Mario Alfonso Morales Rivera.1


1 Profesor Asociado Universidad de Crdoba

Montera 2010

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

1 / 43

Contenido

Introduccin Representacin grca de datos Datos cualitativos Datos cuantitativos Medidas de tendencia central y dispersin Medidas de tendencia central Medidas de dispersin

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

2 / 43

Introduccin

Contenido

Introduccin Representacin grca de datos Datos cualitativos Datos cuantitativos Medidas de tendencia central y dispersin Medidas de tendencia central Medidas de dispersin

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

3 / 43

Introduccin

Para qu sirve la Estadstica?

La estadstica Tiene que ver con la recopilacin, presentacin, anlis y uso de datos para tomar decisiones y resolver problemas.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

4 / 43

Introduccin

Para qu sirve la Estadstica?

La estadstica Tiene que ver con la recopilacin, presentacin, anlis y uso de datos para tomar decisiones y resolver problemas. La estadstica ayuda a los ingenieros y cientcos a: Disear nuevos productos y sistemas. Perfeccionar los existentes. Disear, desarrollar y mejorar procesos de produccin. Aumentar la calidad de los productos

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

4 / 43

Introduccin

Porqu es necesario estudiar estadstica?


La estadstica surge de la necesidad de describir y comprender la variabilidad

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

5 / 43

Introduccin

Porqu es necesario estudiar estadstica?


La estadstica surge de la necesidad de describir y comprender la variabilidad La variabilidad Es el resultado de cambios en las condiciones bajo las cuales se hacen las observaciones

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

5 / 43

Introduccin

Porqu es necesario estudiar estadstica?


La estadstica surge de la necesidad de describir y comprender la variabilidad La variabilidad Es el resultado de cambios en las condiciones bajo las cuales se hacen las observaciones Diferencias en las propiedades de los materiales, En la forma que trabajan los obreros, Desgaste y desajuste de la maquinarias, Variables no controladas del proceso, Factores ambientales: humedad, temperatura ambiente, radiacin solar. Instrumentos de medicin utilizados. Debido al esquema de muestreo
Mario Morales () Estadstica Descriptiva Marzo de 2010 5 / 43

Introduccin

Estadstica descriptiva

La estadstica descriptiva nos ensea como recolectar, agrupar y presentar datos de una forma tal que los describa fcil y rpidamente.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

6 / 43

Introduccin

Estadstica descriptiva

La estadstica descriptiva nos ensea como recolectar, agrupar y presentar datos de una forma tal que los describa fcil y rpidamente. Otra posible denicin: Nos proporciona herramientas para: Cmo registro y presento mis datos? Presentar grcamente grandes conjuntos de datos. Resumir los datos a un nmero (Estadsticas).

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

6 / 43

Introduccin

Estadstica inferencial
La estadstica inferencial trata del diseo de experimentos o encuestas mediante muestras, para obtener una cantidad determinada de informacin a un costo mnimo, y del uso de esta informacin para hacer inferencias con respecto a una poblacin.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

7 / 43

Introduccin

Estadstica inferencial
La estadstica inferencial trata del diseo de experimentos o encuestas mediante muestras, para obtener una cantidad determinada de informacin a un costo mnimo, y del uso de esta informacin para hacer inferencias con respecto a una poblacin. Otra posible denicin: Ciencia que crea, desarrolla y aplica tcnicas de modo que pueda evaluarse la incertidumbre de inferencias inductivas.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

7 / 43

Introduccin

Estadstica inferencial
La estadstica inferencial trata del diseo de experimentos o encuestas mediante muestras, para obtener una cantidad determinada de informacin a un costo mnimo, y del uso de esta informacin para hacer inferencias con respecto a una poblacin. Otra posible denicin: Ciencia que crea, desarrolla y aplica tcnicas de modo que pueda evaluarse la incertidumbre de inferencias inductivas. La estadstica ayuda al investigador a contestar preguntas como: Qu tcnicas uso para recolectar datos? Qu modelos uso para analizar mis datos? Cmo pruebo determinada hiptesis? Cmo diseo un experimento de tal forma que los datos obtenidos sean susceptibles de analizar con mtodos estadsticos?
Mario Morales () Estadstica Descriptiva Marzo de 2010 7 / 43

Introduccin

Algunas deniciones bsicas (I)


Poblacin Coleccin completa de todas las observaciones de inters para el investigador. Parmetro Medida descriptiva de la poblacin. Muestra Parte (subconjunto) representativa de la poblacin que se selecciona para ser estudiada ya que la poblacin es demasiado grande para estudiarla en su totalidad. Estadstico Valor que describe una muestra y sirve como estimacin de un parmetro de la poblacin correspondiente.
Mario Morales () Estadstica Descriptiva Marzo de 2010 8 / 43

Introduccin

Algunas deniciones bsicas (II)


Variable Caracterstica de la poblacin que se estudia. Clasicacin:
1

Cuantitativas: Pueden expresarse numricamente


Ingresos, Estaturas, Resistencia, Presin, temperatura, masas, pesos. Cantidad de suras en un material.

Cualitativas: Se miden de manera no numrica.


Opinin. Preferencias. Sexo. Estado civil.
Mario Morales () Estadstica Descriptiva Marzo de 2010 9 / 43

Introduccin

Variables cuantitativas

Clasicacin de las variables cuantitativas:


1

Discretas: los valores se limitan a nmeros enteros, por lo general son el resultado de conteos.
Cantidad de hijos de una familia, Numero de defectos de una pieza. Cantidad de suras en un material. Nmero de accidentes en un cruce durante el n de semana. Nmero de pacientes que superan una enfermedad.

Contnuas: puede tomar cualquier valor dentro de un rango numrico.


Temperatura, presin, tiempo. Longitudes, distancias, masas, pesos

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

10 / 43

Representacin grca de datos

Contenido

Introduccin Representacin grca de datos Datos cualitativos Datos cuantitativos Medidas de tendencia central y dispersin Medidas de tendencia central Medidas de dispersin

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

11 / 43

Representacin grca de datos

Datos cualitativos

Barras simples
Ejemplo En una escala de 1 a 4, siendo 4 el mejor, un grupo de consumidores clasica la conciencia social de 50 organizaciones clasicadas como publicas (indicadas con un 1 en los siguientes datos), privadas (indicadas con un 2), o controladas por el gobierno (indicadas con un 3 ) Organizacin 1 2 3 . . . 48 49 50
Mario Morales ()

Tipo 1 2 2 . . . 3 1 2

Clasicacion 1 2 3 . . . 3 2 1
Marzo de 2010 12 / 43

Estadstica Descriptiva

Representacin grca de datos

Datos cualitativos

Tabla de contingencia Tipo 1 2 3 Sum Clasicacin 1 2 3 4 7 5 1 2 3 7 5 4 3 5 4 4 13 17 10 10


15 13

20

17

Sum 15 19 16 50

Frecuencia

10

10

10

Clase 1

Clase 2

Clase 3

Clase 4

Clasificacin

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

13 / 43

Representacin grca de datos

Datos cualitativos

Barras apiladas

20

Publicas Privadas Controladas 15 0 5 10

Clase 1

Clase 2

Clase 3

Clase 4

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

14 / 43

Representacin grca de datos

Datos cualitativos

Barras mltiples

20

Publicas Privadas Controladas 15

Publicas Privadas Controladas 6

10

Clase 1

Clase 2

Clase 3

Clase 4 Clase 1 Clase 2 Clase 3 Clase 4

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

14 / 43

Representacin grca de datos

Datos cualitativos

Diagrama de sectores

Se basa en una proporcionalidad entre la frecuencia y el ngulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ngulo central de 360 El ngulo se determina por i = fi 360 fi

donde fi es la frecuencia de la isima categora.


Mario Morales () Estadstica Descriptiva Marzo de 2010 15 / 43

Representacin grca de datos

Datos cualitativos

Diagrama de sectores
Publicas Privadas Controladas fi 15 19 16 i 108.0 136.8 115.2

Se basa en una proporcionalidad entre la frecuencia y el ngulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ngulo central de 360 El ngulo se determina por i = fi 360 fi

Publicas 30 %

Privadas 38 %

donde fi es la frecuencia de la isima categora.


Mario Morales () Estadstica Descriptiva

Controladas 32 %

Marzo de 2010

15 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de puntos
Un ingeniero agrega un polmero de ltex a un mortero de cemento portland, para determinar el efecto del polmero sobre la resistencia a la tensin ( en kgf /cm2 ). La tabla muestra los datos del mortero modicado (exp1) y del mortero sin modicar (exp2). 1 2 3 4 5 6 7 8 9 10 exp1 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57 exp2 17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

16 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de puntos
Un ingeniero agrega un polmero de ltex a un mortero de cemento portland, para determinar el efecto del polmero sobre la resistencia a la tensin ( en kgf /cm2 ). La tabla muestra los datos del mortero modicado (exp1) y del mortero sin modicar (exp2). 1 2 3 4 5 6 7 8 9 10 exp1 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57 exp2 17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15

Modificado

Sin Modificar

q q

q qq

q q

16.0
Mario Morales ()

16.5

17.0

17.5

18.0

18.5
Marzo de 2010 16 / 43

Estadstica Descriptiva

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


Una nueva aleacin de aluminio litio est siendo evaluada como posible material para la fabricacin de elementos estructurales de aeronaves. Los datos de resistencia a la tensin, en libras por pulgada cuadrada (psi), de 80 muestras se transcriben en la siguiente tabla. 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

17 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


Una nueva aleacin de aluminio litio est siendo evaluada como posible material para la fabricacin de elementos estructurales de aeronaves. Los datos de resistencia a la tensin, en libras por pulgada cuadrada (psi), de 80 muestras se transcriben en la siguiente tabla. 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149

Qu porcentaje de las muestras fallaron por debajo de los 120 psi?


Mario Morales () Estadstica Descriptiva Marzo de 2010 17 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189
Estadstica Descriptiva Marzo de 2010 18 / 43

Mario Morales ()

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189 75 muestras (94 %) resistieron mas de 110 psi.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

18 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189 75 muestras (94 %) resistieron mas de 110 psi. El valor central est en un punto alrededor de 150 y 170 psi.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

18 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189 75 muestras (94 %) resistieron mas de 110 psi. El valor central est en un punto alrededor de 150 y 170 psi. La mediana es un valor entre 160 y 169 psi.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

18 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189 75 muestras (94 %) resistieron mas de 110 psi. El valor central est en un punto alrededor de 150 y 170 psi. La mediana es un valor entre 160 y 169 psi. 8 muestras fallaron por debajo de los 120 psi.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

18 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189 75 muestras (94 %) resistieron mas de 110 psi. El valor central est en un punto alrededor de 150 y 170 psi. La mediana es un valor entre 160 y 169 psi. 8 muestras fallaron por debajo de los 120 psi. Slo 6 muestras resistieron mas de 210 psi.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

18 / 43

Representacin grca de datos

Datos cuantitativos

Diagrama de tallos y hojas


1 2 3 5 8 11 17 25 37 (10) 33 23 16 10 6 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | 6 7 7 15 058 013 133455 12356899 001344678888 0003357789 0112445668 0011346 034699 0178 8 189 75 muestras (94 %) resistieron mas de 110 psi. El valor central est en un punto alrededor de 150 y 170 psi. La mediana es un valor entre 160 y 169 psi. 8 muestras fallaron por debajo de los 120 psi. Slo 6 muestras resistieron mas de 210 psi.

Mario Morales ()

Las resistencias estn distribuidas casi simtricamente alrededor del Estadstica Descriptiva valor central. Marzo de 2010 18 / 43

Representacin grca de datos

Datos cuantitativos

Distribucin de frecuencia e histograma

22

17

14

10

6 4 3 2 2

70

90

110

130

150 Resistencia (psi)

170

190

210

230

250

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

19 / 43

Representacin grca de datos

Datos cuantitativos

Distribucin de frecuencia e histograma

Inf 70 90 110 130 150 170 190 210 230

Sup 90 110 130 150 170 190 210 230 250

MC 80 100 120 140 160 180 200 220 240

2 3 6 14 22 17 10 4 2 80

fri 0.03 0.04 0.07 0.17 0.28 0.21 0.12 0.05 0.03 1.00

Fi 2 5 11 25 47 64 74 78 80

Fri 0.03 0.06 0.14 0.31 0.59 0.80 0.93 0.97 1.00

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

20 / 43

Representacin grca de datos

Datos cuantitativos

Distribucin de frecuencia e histograma

Cantos intervalos de clase?


1 2 3

Depende del nmero de observaciones. Resulta satisfactorio entre 5 y 20 clases. Algunas frmulas empricas:
K n, con n = 80 se tiene 80 = 8, 94 9 K 1 + 3,3 log10 (n) (Frmula de Sturges). Para el ejemplo, 1 + 3,3 log10 (80) = 7, 28 8 K ln(n) para el ejemplo ln(n) = 6, 32 7 ln(2) ln(2)

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

21 / 43

Representacin grca de datos

Datos cuantitativos

Polgono de frecuencias

70

90

110 130 150 170 190 210 230 250 Resistencia (psi)

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

22 / 43

Representacin grca de datos

Datos cuantitativos

Polgono de frecuencias

El polgono es una versin emprica de la funcin de densidad.

70

90

110 130 150 170 190 210 230 250 Resistencia (psi)

70

90

110 130 150 170 190 210 230 250 Resistencia (psi)

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

22 / 43

Representacin grca de datos

Datos cuantitativos

Ojiva

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

70

90

110

130

150

170

190

210

230

250

Resistencia (psi)

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

23 / 43

Medidas de tendencia central y dispersin

Contenido

Introduccin Representacin grca de datos Datos cualitativos Datos cuantitativos Medidas de tendencia central y dispersin Medidas de tendencia central Medidas de dispersin

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

24 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Media aritmtica.
Denicin: La media aritmtica de un conjunto de n observaciones y1 , y2 , y3 yn es igual a la suma de las observaciones dividida por n (el nmero de datos). Se indica con y
n

y1 + y2 + y3 + + yn y= = n 8 5 7 Calcular la media y=
Mario Morales ()

yi
i=1

Ejemplo: Considere las siguientes 15 mediciones 10 6 7 4 8 5 3 7 11 8 6 7

102 8 + 5 + 7 + + 8 + 6 + 7 = = 6,8 15 15
Estadstica Descriptiva Marzo de 2010 25 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Media Aritmtica

10

12

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

26 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana

La mediana de un conjunto de valores y1 , y2 , y3 , , yn es el valor tal que la mitad de las observaciones son menores o iguales que l y la otra mitad es mayor o igual que l. Si y(1) , y(2) , y(n) es una muestra acomodada en orden creciente de magnitud. La mediana se dene como la observacin que ocupa el lugar n+1 si n es impar, o el promedio de las observaciones que 2 ocupan los lugares n y n + 1 2 2 Me = y( n+1 )
y( n ) +y( n +1)
2 2 2

si n es impar si n es par

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

27 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ejemplos)
1

Obtener la mediana de 8, 3, 2, 4, 5, 6, 9.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

28 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ejemplos)
1

Obtener la mediana de 8, 3, 2, 4, 5, 6, 9. En este caso n = 7 es un nmero impar, luego la mediana es la observacin que ocupa el lugar 7+1 = 4 despues de ordenar los 2 datos Posicin 1 2 3 4 5 6 7 Dato 2 3 4 5 6 8 9 Me = 5

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

28 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ejemplos)
1

Obtener la mediana de 8, 3, 2, 4, 5, 6, 9. En este caso n = 7 es un nmero impar, luego la mediana es la observacin que ocupa el lugar 7+1 = 4 despues de ordenar los 2 datos Posicin 1 2 3 4 5 6 7 Dato 2 3 4 5 6 8 9 Me = 5 Obtener la mediana de 9, 2, 7, 11, 14, 6.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

28 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ejemplos)
1

Obtener la mediana de 8, 3, 2, 4, 5, 6, 9. En este caso n = 7 es un nmero impar, luego la mediana es la observacin que ocupa el lugar 7+1 = 4 despues de ordenar los 2 datos Posicin 1 2 3 4 5 6 7 Dato 2 3 4 5 6 8 9 Me = 5 Obtener la mediana de 9, 2, 7, 11, 14, 6. En este caso n = 6 es un nmero par, luego la mediana es el promedio de las 6 observaciones que ocupan los lugares 2 = 3 y 6 + 1 = 4 despues 2 de ordenar los datos Posicin 1 2 3 4 5 6 Dato 2 6 7 9 11 14

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

28 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ejemplos)
1

Obtener la mediana de 8, 3, 2, 4, 5, 6, 9. En este caso n = 7 es un nmero impar, luego la mediana es la observacin que ocupa el lugar 7+1 = 4 despues de ordenar los 2 datos Posicin 1 2 3 4 5 6 7 Dato 2 3 4 5 6 8 9 Me = 5 Obtener la mediana de 9, 2, 7, 11, 14, 6. En este caso n = 6 es un nmero par, luego la mediana es el promedio de las 6 observaciones que ocupan los lugares 2 = 3 y 6 + 1 = 4 despues 2 de ordenar los datos Posicin 1 2 3 4 5 6 Dato 2 6 7 9 11 14 7+9 Me = =8 2
Mario Morales () Estadstica Descriptiva Marzo de 2010 28 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ventaja)

Robusta a valores extremos La mediana tiene la ventaja que los valores extremos no tienen inuencia sobre ella.
1

Suponga las siguientes observaciones: 1, 3, 4, 2, 7, 6 y 8. La media es 4.43, mientras que la mediana es 4. Ambas cantidades proporcionan una medida razonable de la tendencia central de los datos.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

29 / 43

Medidas de tendencia central y dispersin

Medidas de tendencia central

Mediana (ventaja)

Robusta a valores extremos La mediana tiene la ventaja que los valores extremos no tienen inuencia sobre ella.
1

Suponga las siguientes observaciones: 1, 3, 4, 2, 7, 6 y 8. La media es 4.43, mientras que la mediana es 4. Ambas cantidades proporcionan una medida razonable de la tendencia central de los datos. Suponga ahora que los datos son 1, 3, 4, 2, 7, 2450 y 8. La mediana sigue siendo 4, pero la media es 353.57 que no dice mucho respecto a la tendencia central de los datos.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

29 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

La media no es suciente
Considere los siguientes datos: Muestra 1 Muestra 2 130 90 150 128 145 205 158 140 165 165 140 160

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

30 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

La media no es suciente
Considere los siguientes datos: Muestra 1 Muestra 2 130 90 150 128 145 205 158 140 165 165 140 160

Ambas muestras tienen media 148, es decir, X 1 = X 2 = 148.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

30 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

La media no es suciente
Considere los siguientes datos: Muestra 1 Muestra 2 130 90 150 128 145 205 158 140 165 165 140 160

Ambas muestras tienen media 148, es decir, X 1 = X 2 = 148. Son similares los dos conjuntos de datos?

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

30 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

La media no es suciente
Considere los siguientes datos: Muestra 1 Muestra 2 130 90 150 128 145 205 158 140 165 165 140 160

Ambas muestras tienen media 148, es decir, X 1 = X 2 = 148. Son similares los dos conjuntos de datos? La dispersin o variablidad de la muestra 2 el mayor.

Muestra 2

Muestra 1

80

100

120

140 Resistencia

160

180

200

220

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

30 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Medidas de dispersin
Rango Diferencia entre la observacin mas grande y la mas pequea. r = mx(yi ) m i ) a n(y

1 2

Rango de la primera muestra: r1 = 165 130 = 35 Rango de la segunda muestra: r2 = 205 90 = 115

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

31 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Medidas de dispersin
Rango Diferencia entre la observacin mas grande y la mas pequea. r = mx(yi ) m i ) a n(y

1 2

Rango de la primera muestra: r1 = 165 130 = 35 Rango de la segunda muestra: r2 = 205 90 = 115

Ignora la informacin que hay entre el mximo y el mnimo. Muestra 1 Muestra 2 1 1 3 5 5 5 8 5 9 9

r1 = r2 = 8. Se requiere una medida que dependa de todas las observaciones (que use toda la informacin)
Mario Morales () Estadstica Descriptiva Marzo de 2010 31 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Varianza y desviacin estndar

Varianza
n

(yi y)2 n1

S2 =

i=1

Desviacin estndar La desviacin estndar muestral, S, es la raiz cuadrada positiva de la varianza.


n

S = S2 =

(yi y)2 n1

i=1

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

32 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Varianza y desviacin estndar (Ejemplo)


Calcular la varianza y la desviacin estndar de los siguientes datos: 4
1

(Varianza) Para estos datos tenemos que n = 5 y y = 5. s2 = (4 5)2 + (7 5)2 + (3 5)2 + (6 5)2 + (5 5)2 4 (1)2 + 22 + (2)2 + 12 + 02 1+4+4+1+0 10 = = = = 2,5 4 4 4

(Desviacin estndar) S= S2 = 2,5 = 1, 58

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

33 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Varianza (Frmula alternativa) Una frmula alternativa para calcular la varianza es


n 2 yi ny 2

S =

i=1

n1

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

34 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Varianza (Frmula alternativa) Una frmula alternativa para calcular la varianza es


n 2 yi ny 2

S =

i=1

n1

i 1 2 3 4 5 Sumas

yi 4 7 3 6 5 25

2 yi 16 49 9 36 25 135

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

34 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Varianza (Frmula alternativa) Una frmula alternativa para calcular la varianza es


n 2 yi ny 2

S =

i=1

n1

135 5 52 10 = = 2,5 4 4

i 1 2 3 4 5 Sumas

yi 4 7 3 6 5 25

2 yi 16 49 9 36 25 135

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

34 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Desviacin estndar: usos


En nanzas Se usa como medida de riesgo relacionada con varias oportunidades de inversin: Entre mayor sea la desviacin estndar, mayor ser el riesgo. Teorema de Chevysheff Para todo conjunto de datos, por lo menos 1 1 K2 100 %

de las observaciones estn dentro de K desviaciones estndar de la media, donde K > 1 Ejemplo: Si K = 3 entonces para cualquier conjunto de datos, por lo menos (1 1 ) 100 % = 88, 89 % de los datos estn entre X 3 S y 9 X + 3 S.
Mario Morales () Estadstica Descriptiva Marzo de 2010 35 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Percentiles y curtiles
El primer cuartil o cuartil inferior, notado como Q1 , es un valor tal que el 25 % de los datos es menor o igual que l y el restante 75 % es mayor igual que l. El tercer cuartil, notado como Q1 , es un valor que tiene el 75 % de los datos por debajo y l 25 % por encima. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de divisin reciben el nombre de percentiles. Denicin (Percentiles) El 100ksimo percentil 0 < k < 1, denotado por pk , es un valor tal que al menos el 100k % de las observaciones son menores o iguales que l y al menos el 100(1 k) % son mayores o iguales que l. Ntese que Q1 = p0,25 , M e = p0,5 y Q3 = p0,75 .
Mario Morales () Estadstica Descriptiva Marzo de 2010 36 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Percentiles y curtiles
El primer cuartil o cuartil inferior, notado como Q1 , es un valor tal que el 25 % de los datos es menor o igual que l y el restante 75 % es mayor igual que l. El tercer cuartil, notado como Q1 , es un valor que tiene el 75 % de los datos por debajo y l 25 % por encima. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de divisin reciben el nombre de percentiles. Denicin (Percentiles) El 100ksimo percentil 0 < k < 1, denotado por pk , es un valor tal que al menos el 100k % de las observaciones son menores o iguales que l y al menos el 100(1 k) % son mayores o iguales que l. Ntese que Q1 = p0,25 , M e = p0,5 y Q3 = p0,75 .
Mario Morales () Estadstica Descriptiva Marzo de 2010 36 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Percentiles y curtiles
El primer cuartil o cuartil inferior, notado como Q1 , es un valor tal que el 25 % de los datos es menor o igual que l y el restante 75 % es mayor igual que l. El tercer cuartil, notado como Q1 , es un valor que tiene el 75 % de los datos por debajo y l 25 % por encima. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de divisin reciben el nombre de percentiles. Denicin (Percentiles) El 100ksimo percentil 0 < k < 1, denotado por pk , es un valor tal que al menos el 100k % de las observaciones son menores o iguales que l y al menos el 100(1 k) % son mayores o iguales que l. Ntese que Q1 = p0,25 , M e = p0,5 y Q3 = p0,75 .
Mario Morales () Estadstica Descriptiva Marzo de 2010 36 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Percentiles y curtiles
El primer cuartil o cuartil inferior, notado como Q1 , es un valor tal que el 25 % de los datos es menor o igual que l y el restante 75 % es mayor igual que l. El tercer cuartil, notado como Q1 , es un valor que tiene el 75 % de los datos por debajo y l 25 % por encima. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de divisin reciben el nombre de percentiles. Denicin (Percentiles) El 100ksimo percentil 0 < k < 1, denotado por pk , es un valor tal que al menos el 100k % de las observaciones son menores o iguales que l y al menos el 100(1 k) % son mayores o iguales que l. Ntese que Q1 = p0,25 , M e = p0,5 y Q3 = p0,75 .
Mario Morales () Estadstica Descriptiva Marzo de 2010 36 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Calculo de percentiles

Para calcular el percentil 100k % se procede de la siguiente forma.


1 2

Ordene los datos de menor a mayor. Calcule nk, donde n es el nmero de datos
1

Si nk no es entero aproxmelo al entero siguiente y esa es la posicin del percentil 100k %. Si nk es entero, el percentil 100k % se obtiene promediando las observaciones que ocupan los lugares nk y nk + 1.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

37 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Ejemplo La demanda diaria, en kilogramos, de un producto industrial durante 30 das fue: 38 67 28 49 47 a) Los cuartiles. b) El percentil 15. c) El percentil 80. 35 63 25 78 66 76 33 36 48 58 58 69 32 42 44 48 53 61 72 44 59 51 57 52 56

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

38 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

25 38 48 57 66

28 42 49 58 67

32 44 51 58 69

33 44 52 59 72

35 47 53 61 76

36 48 56 63 78

El primer cuartil es el percentil 25, por tanto k = 0,25 y nk = 7,5 que no es entero, por tanto, lo aproximamos al entero siguiente que es 8, luego p0,25 = Q1 = 42. El segundo cuartil es el percentil 50 o la mediana de los datos, en este caso k = 0,5 y nk = 15, el percentil 50 o mediana es el promedio de las observaciones que ocupan los lugares 15 y 16 es decir 51+52 = 51,5 2 El tercer cuartil es el percentil 75, por tanto k = 0,75 y nk = 22,5 , lo aproximamos al entero siguiente que es 23, luego p0,75 = Q3 = 61 ya que esta es la observacin que ocupa el lugar 23 en los datos ordenados.
Mario Morales () Estadstica Descriptiva Marzo de 2010 39 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Continuacin

Para calcular el percentil 15 se tiene nk = 30 0,15 = 4,5 que no es entero y por tanto, p0,15 = 35 que es la observacin que ocupa el lugar 5 en los datos ordenados. Para calcular el percentil 80 se tiene nk = 30 0,8 = 24 que es entero y por tanto, p0,8 = 63+66 = 64,5 ya que 63 y 66 son las 2 observaciones que ocupan los lugares 24 y 25 en los datos ordenados. cmo se interpreta este valor?

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

40 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Boxplot
Facilita la lectura sobre localizacin, variabilidad, simetra y presencia de datos atpicos

2.2

2.3

2.4

2.5

2.6

2.7

2.8

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

41 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

Construccin del BoxPlot

El box plot consiste en una caja y guiones con una linea a travs de la caja que representa la mediana (segundo cuartil Q2 ). El extremo inferior de la caja es el primer cuartil Q1 El extremo superior es el tercer cuartil Q3 . El bigote superior se extiende desde el tercer cuartil hasta la observacin ms grande que es menor o igual que Q3 + 1,5 (Q3 Q1 ). El bigote inferior se extiende hasta la observacin ms pequea que es mayor o igual que Q1 1,5 (Q3 Q1 ). Las observaciones que estn por fuera de estos lmites se clasican como datos atpicos y se ubican en el diagrama.

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

42 / 43

Medidas de tendencia central y dispersin

Medidas de dispersin

TALLER

Mario Morales ()

Estadstica Descriptiva

Marzo de 2010

43 / 43

Вам также может понравиться