Вы находитесь на странице: 1из 72

Tema 1:Estadística Descriptiva.

AES 500

Rodrigo Araya Lozano.

August 15, 2017

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Algún día la estadística será tan necesario para ser un buen y
eficiente ciudadano, como lo es saber leer.
H.G. Wells, historiador y autor inglés.
¿Qué es la Estadística?
Es la ciencia que se ocupa de recolectar, organizar, presentar,
analizar e interpretar datos para ayudar a una toma de decisiones
más efectiva.
¿Quién usa la Estadística?
Los métodos estadísticos son utilizados por mercadólogos,
contadores, analistas de control de calidad, clientes, profesionales
del deporte, administradores de hospitales, educadores, políticos,
físicos.
Especialmente en los negocios y en la economía, la información
obtenida al reunir datos, analizarlos, presentarlos e interpretarlos
proporciona a directivos, administrativos y personas que deben
tomar decisiones una mejor comprensión del negocio o entorno
económico para tomar mejores decisiones con base en mejor
información
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Finanzas: Los analistas financieros emplean una diversidad de
información estadística como guía para sus recomendaciones
de inversión. En el caso de las acciones, el analista revisa
diferentes datos financieros como la relación precio-ganacia y
el rendimiento de los dividendos.
Control de Calidad: El control de calidad es una aplicación
importante de la estadística a la producción. Para vigilar el
resultado de los procesos de producción se usan diversas
gráficas de control de calidad. En particular, para vigilar los
resultados promedios, se emplea la gráfica x-barra.
Economía: Los economistas suelen hacer predicciones acerca
del futuro de la economía o saber aspectos de la misma. Por
ejemplo, para pronosticas las tasas de inflación, empelan
información estadística sobre indicadores como el IPC, la tasa
de desempleo y la utilización de la capacidad de producción.
Estos indicadores estadísticos se usan en modelos
computarizados de pronósticos que predicen la tasa de
inflación.
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
La estadística, se clasifica en:
Estadística Descriptiva: La estadística descriptiva proporciona
herramientas para organizar, simplificar y resumir información
básica a partir de un conjunto de datos. Incluye la tabulación,
representación y descripción de conjuntos de datos. Es la
primera tarea a realizar en el análisis de datos, ya que su
misión es describir los datos, valores obtenidos para cada
variable y sirve de base para otros análisis más avanzados.
Estadística Inferencial: Proporciona métodos para estimar las
características de un grupo total o población, basándose en un
subconjunto obtenido datos de la población . Realiza
inferencias basdas en los datos obtenidos. Utiliza la
estadística descriptiva como el primer paso antes de la
realización de inferencias.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Definiciones básicas

Población: Conjuntos de individuos o elementos que cumplen


ciertas propiedades comunes.
Censo: Colección de datos de cada uno de los miembros de la
población.
Muestra: Subconjunto representativo de la población.
Parámetro: Medición numérica que describe algunas
características de una población.
Estadístico: Medición numérica que describe algunas
características de una muestra.
Unidad Observable: Cualquier elemento que podamos
extraerle información.
Variable: Característica o propiedad asociada a una unidad
observable de la población.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejemplos:
Determine la unidad observable, en las siguientes situaciones:
1 Las relaciones precio-ganancia de 5 valores diferentes acciones
negociadas en la bolsa de New York (NYSE):
0.17 0.21 0.47 0.57 0.60

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Etapas de un estudio estadístico.

Etapas de un estudio estadístico.


Un estudio estadístico se desarrolla en varias etapas:
1 Definir el problema a estudiar, especialmente los objetos de
interés.
2 Tomar una muestra entre los objetos del estudio cuando no se
trate de un censo.
3 Recolectar los datos.
4 A partir de los datos recolectados, resumirlos con el riesgo de
perder información, pero con ello ganar en interpretación.
Esta es la etapa de Estadística Descriptiva.
5 Deducir resultados para la población y tomar decisiones en
base a estos, aceptando ciertos riegos supuestamente
controlados. Esta es etapa corresponde a la Estadística
Inferencial.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Etapas de un estudio estadístico.

fig1.jpg

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Tipos de Variable.

Notación y Clasificación de las Variables.


Notación:
Cuando hablamos de variable,se denotaran con las letras
mayúsculas (X, Y , X1 , X2 , etc.) que puede tomar cualquier valor
de un conjunto determinado, que llamaremos dominio de la
variable. Las variables se clasifican en:
Variables Cualitativas.
Variables Cuantitativas.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Variables Cualitativas.

Las Variables Cualitativas son las que tienen por valores cantidades
no numéricas. Estas variables se clasifican en
Variables Cualitativas Nominales.
Variables Cualitativas Ordinales.
Se dice que la variable cualitativa es Nominal si no existe un
orden preestablecido entre las diferentes categorías de la variable.
Ejemplo:
Estado Civil: soltero, casado ,viudo , separado.
Se dice que la variable cualitativa es Ordinal si existe un orden o
jerarquía de forma implícita.
Ejemplo:
Nivel de Estudios: Enseñanza Básica, Media y Superior.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Variables Cuantitativas.

Las variables Cuantitativas, son las que tienen por valores


cantidades numéricas con las que podemos hacer operaciones
aritméticas. Estas variables se clasifican en:
Variables Cuantitativas Discretas.
Variables Cuantitativas Continuas.
Se dice que la variable cuantitativa es Discreta si siempre se
asocia con valores enteros. En general las variables discretas se
asocian a procesos de conteo.
Ejemplo:
Número de alumnos en la sala.
Se dice que la variable cuantitativa es Continua si los valores
que ella toma forman un subconjunto de la recta real.
Ejemplo:
Peso, Temperatura Ambiental, etc.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejercicios

Identifique las siguientes variables como nominales, ordinales,


discretas o continuas.
a) Una encuesta de electores registrados donde se preguntaba
a que candidato daban su apoyo.
b) El número de computadores en un hogar.
c) Respuestas de servicio de atención al cliente de unaempresa
telefónica clasificadas como 1 = muy satisfecho, 2 = ni
satisfecho ni insatisfecho, 3 = muy insatisfecho.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejercicios

En un estudio sobre los suscriptores de Bussines Week de


Estados Unidos se recogen datos de una muestra de 2861
suscriptores. Cincuenta y nueve por ciento de los encuestados
señalaron tener un ingreso de 75000 o más y cincuenta por
ciento indicaron poseer una tarjeta de crédito American
Express.
a) ¿Cuál es la población de interés en este estudio?.
b) ¿Es el ingreso anual un dato cuantitativo o cualitativo?.
c) ¿Es la posesión de tarjeta de crédito de American Express
una variable cualitativa o cuantitativa?.
d) Describa cualquier inferencia estadística posible para
Bussines Week con base en esta encuesta.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Niveles de Medición.

La recolección de datos requiere alguna de las escalas de


medición siguientes: nominal, ordinal, de intervalo o de razón.
La escala de medición determina la cantidad de información
contenida en el dato e indica la manera más apropiada de resumir
y de analizar estadísticamente los datos.

figmed.jpg
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Análisis descriptivo

El análisis descriptivo, constituye el primer nivel de análisis, y sus


funciones son las de establecer cuál es la forma de distribución de
una, o más variables , cuántas unidades se distribuyen en
categorías naturales o construidas de esas variables, cuál es la
magnitud de ella expresada en forma de una síntesis de valores,
cuál es la dispersión que se da entre las unidades del conjunto, etc.
La estadística descriptiva se encarga de las muestras. Las
muestras provienen de poblaciones, sin embargo, el objetivo de la
estadística descriptiva no son las poblaciones.
La estadística descriptiva no afirma ni niega nada en relación a
las poblaciones de origen, ni sobre los fenómenos generales. Las
distribuciones de datos son el resultado de la recogida de
información en los experimentos. La estadística descriptiva se
encarga de cuantificar características de las variables asociadas a
las muestras.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


La Tabla de Distribución de Frecuencias

Una tabla de distribución de frecuencias es un arreglo tabular o


cuadro resumen que contiene datos, que enumera categorías (o
clases) de valores, junto con frecuencia (repeticiones o conteo) del
número de valores que pertenecen a cada categoría.
Un conjunto de datos estadísticos pueden ser resumidos y
clasificado de acuerdo a ciertos criterios con el fin de obtener
conclusiones válidas.
Para conocer el comportamiento de los datos, es preciso que los
datos previamente, se hayan resumido y organizado en una tabla
de frecuencias, que se construyan las gráficas asociadas a las tablas
de frecuencias y que se estudien las medidas de resumen que se
pueden obtener a partir de tablas las de frecuencia.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


La Tabla de Distribución de Frecuencias

¿Cómo podemos resumir los datos en una tabla de frecuencia?


Para explicar como se resumen los datos, en primer lugar
debemos:
a) Clasificar los datos de acuerdo al tipo de variable.
b) Construir una tabla de frecuencia adecuada al tipo de datos.
Tanto las variables cualitativas como las variables cuantitativas
pueden presentarse en forma resumida y ordenada en una tabla de
frecuencias.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


La Tabla de Distribución de Frecuencias para variables
cualitativas

Ejemplo
Considerando la variable tipo de clientes de la base de datos
Tiendas.txt. A usted se le pide resumir la información en una tabla
de distribución de frecuencias, que le permita a usted elaborar un
perfil de clientes de la tienda. Responda:
a) ¿Qué porcentaje de clientes son del tipo promocional?.
b) ¿Cuantos clientes son del tipo Regular?.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Representación Gráfica.

Hecha la recopilación de los datos, el siguiente paso es la


correcta organización para que brinde información fiel y de utilidad.
De la misma manera que la tabla de distribución de frecuencias ,
las gráficas permiten presentar de manera resumida los datos.
Una gráfica es la representación de datos, generalmente
numéricos, mediante lineas, superficies o simbolos, para ver la
relación que estos tienen entre sí.
Son de gran utilidad debido a que permiten la visualización
rapida de los resultados y son fáciles de entender e interpretar. .
Sin embargo, pese a que son muy utilizadas es necesario tener en
cuenta que las gráficas no son de uso indiscriminado, es decir,
dependiendo de los datos recolectado es el tipo de gráfica que se
va a utilizar.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Gráficos para variables cualitativas.
Los gráficos más utilizados en este tipo de variable son el gráfico
de barras, el gráfico de torta. El gráfico de barras es un conjunto
de rectángulos de ancho arbitrario (pero único) y de altura igual a
la frecuencia absoluta o relativa. A partir del gráfico, responda:

figcuali.jpg

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Se encuestó a 80 trabajadores para conocer si había sufrido
algún accidente laboral y de qué tipo, esta información se
muestra en la siguiente tabla.

Tipo de accidente frecuencia


1 12
2 16
3 4
4 48
Donde 1 = Cabeza; 2 =Tronco;3 =Manos y piernas;
4 =Ninguno.
1 Identique y clasifique la variable en estudio. ¿Cuál es la unidad
muestral?.
2 Construya una tabla de distribución de frecuencias y un
diagrama de barras .
3 ¿Cuál es el accidente más frecuente y a qué porcentaje
corresponde?
4 ¿Cuántos de los accidentes corresponden a cabeza y manos y
piernas?
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Tabla de distribución de frecuencias para variables
cuantitativas.

A fin de fijar ideas comenzaremos con un ejercicio.


Suponga que hemos registrado el consumo mensual de
electricidad, en kw/hr, de 60 hogares del sector socioeconómico C2
en una cierta comuna para un mes determinado.
455 356 435 369 312 416 386 435 394 381 392
385 460 386 418 429 415 426 399 395 376 399
388 412 436 391 402 432 372 416 413 425 364
392 420 399 388 418 379 426 369 389 377 375
440 385 390 403 384 409 398 415 350 396 421
400 399 389 391 425

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Tabla de distribución de frecuencias para variables
cuantitativas.

Pasos para construir una tabla de distribución de frecuencias.


Para construir la tabla de distribución de frecuencias para
variables continuas debemos seguir los siguientes pasos:
1 Identificar la variable de estudio y la unidad de observación.
2 Determinar el número k de clases (valor entero).
3 Obtener la amplitud A.
4 Escribir los intervalos de clase comenzando por el valor
mínimo (ó el valor míminimo menos uno).
5 Contar cuántas observaciones caen en cada clase.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Tabla de distribución de frecuencias para variables
cuantitativas.

La tabla de distribución de frecuencias es:

Intervalos de clase Frecuencia Absoluta


[312 − 334[ 1
[334 − 356[ 1
[356 − 378[ 8
[378 − 400[ 24
[400 − 422[ 14
[422 − 444[ 10
[444 − 466[ 2
Trabajar con cifras absolutas no da una idea clara de la real
dimensión de su magnitud, de aquí, que se acostumbra a agregar a
la tabla de distribución de frecuencias columnas adicionales, cuyos
elementos se definen a continuación.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Tabla de distribución de frecuencias para variables
cuantitativas.

Con estas nuevas columnas las tabla de distribución de frecuencias


anterior queda:

Consumo en Kw/h N◦ Hogares ni fi Ni Fi mi


[312 − 334[ 1
[334 − 356[ 1 0.02 2 0.04 345
[356 − 378[ 8 0.13 10 0.17 367
[378 − 400[ 24 0.4 34 0.57 389
[400 − 422[ 14 0.23 48 0.8 411
[422 − 444[ 10 0.17 58 0.97 433
[444 − 466[ 2 0.03 60 1 455
60 1

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Tabla de distribución de frecuencias para variables
cuantitativas.

De acuerdo a la tabla de distribución de frecuencias anterior,


responda:
1 ¿Cuántos hogares consumen entre [378 − 400[ Kw/h ?.
2 ¿Qué porcentaje de los hogares tienen un consumo menor que
422 Kw/h ?.
3 ¿Cuántos hogares consumen por lo menos de 400 Kw/h?

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Tabla de distribución de frecuencias para variables
cuantitativas discretas.

Cuando se trate de variables cuantitativas discretas, las clases


serán naturales, correspondiendo cada modalidad de la variable a
una clase.
Ejemplo:Un Ingeniero Civil visita 15 condominios en una ciudad y
en cada una registró el número de casas que han sufrido daños
ocasionados por un aluvión el invierno recién pasado. Se obtuvo la
siguiente información:
15 15 18 16 17 18 18 18 17 19 16 17 17 16 19
a) Defina la unidad de observación, la variable de estudio y su
clasificación.
b) Elabore una tabla de distribución de frecuencias adecuada a este
conjunto de datos.
c) ¿Cuántos condominios tienen a lo más 16 casas que han sufrido
daños?
d) ¿Qué porcentaje de condominios tienen por lo menos 17 casas
con daños? Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Gráficos para variables continuas.

Los gráficos más utilizados en este tipo de variable son el


histograma, el polígono de frecuencias y la ojiva.
El histograma es un conjunto de barras rectangulares, de ancho
igual a la amplitud y de altura igual a la frecuencia absoluta o
relativa. Para dibujar el histograma en el eje de las horizontal
ubicamos los límites reales y en el eje de las vertical la frecuencia
absoluta o relativa.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Gráficos para variables continuas.

Para dibujar el polígono de frecuencias ubicamos en el eje de las


horizontal las marcas de clases y en el eje de las vertical la las
frecuencias absolutas, luego mediante trazos rectos se unen dichos
puntos. Esta gráfica se muestra como una curva cerrada, para ello
bajamos un trazo a ambos extremos de la curva. El polígono de
frecuencias se puede dibujar de manera independiente o junto al
histograma.

f2.jpg

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


En un estudio se midieron la emisión de partículas
contaminantes (p.p.m.) de 60 vehículos city car. La
información de este estudio se muestra en la siguiente Tabla
de frecuencia

Intervalos frecuencia
[0, 08 − 0, 13[ 8
[0, 13 − 0, 18[ 25
[0, 18 − 0, 23[ 15
[0, 23 − 0, 28[ 6
[0, 28 − 0, 33[ 6
1 Identique y clasifique la variable en estudio. ¿Cuál es la unidad
muestral?.
2 ¿Qué porcentaje de los autos contaminan por lo menos 0,18
p.p.m?
3 ¿Cuántos autos contaminan menos de 0,28 p.p.m?

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Estadísticos descriptivos o Estadígrafos.

Consideraciones previas:
Una observación cualquiera de un conjunto de datos es descrita
mediante la notación xi , mientras que un conjunto de n
observaciones será descrito por la notación x1 , x2 , . . . , xn . Las
observaciones descritas por estas notaciones corresponden a los
datos en bruto, no siguen ningún orden sino que aparecen tal como
han sido registradas.
Si el conjunto de datos anterior, procedemos a ordenarlo en
forma ascendente entonces usaremos por notación
x(1) , x(2) , . . . , x(n) , donde se cumple que x(1) < x(2) < . . . < x(n) .

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de tendencia central
Las Medidas de tendencia central son medidas que describen el
centro de un conjunto de datos, es decir, medidas de ubicación que
dan la información sobre el lugar hacia donde existe la tendencia
central dentro de un grupo de números. Las tres medidas de
tendencia central más comunes son la media o promedio, la
mediana y la moda.
La media de un conjunto de n observaciones x1 , . . . , xn ,. Se
define la media o promedio, X mediante:
n
X xi
X=
i=1
n

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejemplo:
Se seleccionaron de un proceso de fabricación, aleatoriamente,
20 baterías y se llevó a cabo una prueba para determinar la
duración de éstas. Los siguientes datos representan el tiempo de
duración, en horas, para las 20 baterías:
52.5 58.9 62.3 56.8 62.7 57.3 64.4 53.1 58.9 60.4
52.7 58.7 65.7 59.6 54.9 61.6 49.3 58.1 48.8 63.3
Propiedades:
n
X
1 (xi − x) = 0
i=1
2 La suma de las diferencias de cada uno de los datos con
respecto a su media elevada al cuadrado es mínima.
3 Si xi = c ,entonces X = c
4 Si x1 , . . . , xn es un conjunto de datos con media X y si
yi = a + bxi , ∀i = 1, . . . , n, con a y b constantes, entonces
Y = a + bX

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


La Mediana.
La mediana, M e, se define como aquella observación, en que a
lo más el 50% de los datos esta bajo dicho valor y por lo menos el
otro 50% de los datos esta sobre dicho valor.
Sea x(1) , x(2) , . . . , x(n) , un conjunto de n observaciones
ordenadas en orden creciente, la mediana, M e, se define como
aquel valor que divide al conjunto de datos ordenados en dos
partes iguales.

 x( n+1 ) si n es impar
2
Me = x( n2 ) + x( n2 +1)
 si n es par
2
Ejemplo: Para el ejemplo de las baterías, encuentre la
mediana de los datos.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


La Moda.

Definición:
Sea un conjunto de datos de n observaciones x1 , . . . , xn , . Se
define la moda, M o como aquel valor que más se repite.
Observación:
Si un conjunto de datos tiene una moda, diremos que su
distribución es unimodal, dos modas bimodal y más de dos modas
multimodal.
Ejemplo: Para el ejemplo de las baterías, encuentre la moda de los
datos.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de tendencia central para datos agrupados

La media de un conjunto de datos que se encuentran


agrupados en k clases es: X mediante:
k
X ni m i
X=
i=1
n

donde:
ni es la i-ésima frecuencia absoluta y mi es la i-ésima marca
de clase.
Calcular el promedio para los datos de los
hogares.Interprete.
Si los datos son cuantitativos discretos y se encuentran
agrupados en k clases individuales, entonces
k
X ni xi
X=
i=1
n
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
La Mediana.

Cuando los datos se encuentran agrupados en k clases en una


tabla de distribución de frecuencias y la variable es continua,
la mediana es calculada mediante la expresión:
n

2 − Nj−1 A
M e = lim.infj +
nj

donde:
j es la clase de la mediana y se obtiene observando desde la
primera clase hacia delante, tal que Nj ≥ n2 .
lim.infj : es el límite inferior o frontera inferior de la clase de
la mediana.
nj es la frecuencia absoluta de la clase de la mediana.
Nj−1 es la frecuencia absoluta acumulada de la clase anterior
a la clase de la mediana. A es la amplitud.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


La Moda.

Sea un conjunto de datos de n observaciones x1 , . . . , xn , no


agrupados. Se define la moda, M o como aquel valor que más se
repite.
Si los datos se encuentran agrupados en k clases, la moda será
calculada mediante la expresión:
nj+1
M o = lim.infj + A
nj+1 + nj−1

j : clase modal, obtenido como la clase en donde ocurre la


mayor frecuencia absoluta.
nj : frecuencia absoluta de la clase modal.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Representación gráfica de las medidas de tendencia central.
Gráficamente la media, mediana y moda se ven reflejadas de la
siguiente forma:

f8.jpg

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Comparación entre las medidas de tendencia Central
Promedio:
A) Ventajas:
Fácil de obtener mediante fórmulas algebraícas.
En su cálculo utiliza todos los valores que asume la variable y
por lo mismo es la medida de tendencua central más usada.
B) Desventajas:
Es muy sensible a los valores extremos anormales, en tal caso,
suele usarse la mediana.
C) Uso:
Cuando los datos están distribuidos simétricamente alrededor
de un punto central. La media aritmética corresponde al
centro de gravedad de la distribución.
Cuando se desea la medida de tendencia central que tenga
mayor estabilidad.
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Comparación entre las medidas de tendencia Central

Mediana
A) Ventajas:
No es sensible a los valores extremos anormales, pues su valor
depende del número de datos, pero no de la magnitud de
todos.
B) Desventajas:
No considera todos los datos.
C) Uso:
Cuando se desea el punto medio exacto de la distribución, el
punto del 50%.
Cuando existan datos extremos que afectan marcadamente la
media.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Comparación entre las medidas de tendencia Central

Moda
A) Ventajas:
Es el valor más representativo de un conjunto de datos, por
ello se usa en sondeos de opinión.
Se puede calcular tanto para variables cuantitativos como para
variables cualitativas.
B) Desventajas:
Tiene un uso limitado, pues su cálculo no incorpora a todos
los datos. No usa fórmulas algebraícas
C) Uso:
Cuando todo lo que se desea es una medida de tendencia
central rápida y aproximada. Se usa en sondeos de opinión.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Comparación gráfica entre las medidas de tendencia
Central

Existen otras dos características de los conjuntos de datos que


proporcionan información útil: el sesgo y la curtosis.
Definición:
El Sesgo es una medida de la asimetría de la curva. Las curvas que
representan un conjunto de datos pueden ser simétricas o sesgadas.
Las curvas simétricas tienen una forma tal que una línea vertical
que pase por el punto más alto de la curva, divide al área de ésta
en dos partes iguales.
Si los valores se concentran en un extremo se dice sesgada.
Las medidas de tendencia central, también permiten clasificar a la
distribución de los datos en simétricos o sesgados.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Comparación gráfica entre las medidas de tendencia
Central
1 Distribución Simétrica: Es aquella en que

x = Me = Mo

2 Distribución Asimétrica o Sesgada: Es aquella que no es


simétrica. En este caso, puede darse una de las siguientes
posibilades:
a)Distribución asimétrica positiva o sesgo positivo:

Mo < Me < x

.
b)Distribución asimétrica negativa o sesgo negativo:

Mo > Me > x

.
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
A continuación, se muestran tres distribuciones; la gráfica de la
izquierda muestra una asimétrica positiva o de sesgo positivo; la
gráfica del centro muestra una distribución simétrica y la gráfica de
la izquierda muestra una distribución distribución asimétrica
negativa o de sesgo negativo.

f9.jpg

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de posición relativa.

Motivación.
Entre las varias definiciones que existen de clase media, Solimano
prefiere aquella que aúna a las personas cuyo ingreso las ubica
entre los deciles tercero y noveno de la distribución. De ese modo,
los dos primeros deciles vendrían a definir la pobreza, en tanto que
el décimo representa al 10% más próspero de la población.(La
Tercera, 18 de noviembre de 2007)
¿Qué quiere decir Solimano respecto a la definición pobreza?.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de posición relativa.

Hay medidas de posición relativas, definidas en forma similar a la


mediana y que sirven para describir la localización de un datos
específico en relación con el resto de la muestra, son los
denominados:
1 Quartiles.
2 Deciles.
3 Percentiles.
1 Quartiles: Son números que dividen al conjunto de datos
previamente ordenados en cuatro partes iguales (cada parte
contiene el 25% de los datos). Hay tres quartiles:
Q1 : Es un valor numérico tal que a lo más, el 25% de los
datos es menor que Q1 y a lo sumo el 75% restante tienen
valores mayores o iguales que Q1
Q2 : Corresponde a la mediana.
Q3 : Es un valor numérico tal que a lo más, el 75% de los
datos es menor que Q3 y a lo sumo el 25% restante tienen
valores mayores o iguales
Rodrigo Araya Lozano. queTema
Q31:Estadística Descriptiva.
Medidas de posición relativa.

Deciles: Son múmeros que dividen a un conjunto de datos


ordenados en 10 partes iguales, cada parte contiene el 10% de los
datos. Hay nueve deciles: D1 , . . . , D9 .
Percentiles: Son múmeros que dividen a un conjunto de datos
ordenados en 100 partes iguales, cada parte contiene el 1% de los
datos. Hay 99 deciles P1 , . . . , P99 .
Definición:
El k-ésimo percentil Pk de un conjunto de datos ordenados, es un
valor situado de modo que el k% de las observaciones son inferiores
o iguales a Pk y el (100 − k)% son mayores o iguales a Pk .
Observación:
Tanto los quartiles como los deciles u otras medidas obtenida por
subdivisión es equivalente a un percentil, asi:
Q1 = P25 , D7 = P70 , D5 = Q2 = P50 , etc.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de posición relativa.

Para calcular el k-ésimo percentil Pk de un conjunto de datos no


agrupados se siguen los siguientes pasos: Seax(1) , x(2) , . . . , x(n) , el
conjunto de n observaciones ordenados en orden creciente:
nk
1 Calcule el número 100 .
nk
2 Si 100 es o no entero.
nk
Si 100 es entero entonces obtenga la posición j del percentil
nk
mediante j = 100 y luego obtenga Pk de acuerdo a:

x(j) + x(j+1)
Pk =
2
nk
Si 100 no es entero entonces obtenga la posición j como el
nk
entero siguiente al número j = 100 y luego obtenga Pk de
acuerdo a:
Pk = x(j)

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejemplo:
Se seleccionaron de un proceso de fabricación, aleatoriamente, 20
baterías y se llevó a cabo una prueba para determinar la duración
de estás. Los siguientes datos representan el tiempo de duración,
en horas, para las 20 baterías.
52.5 58.9 62.3 56.8 62.7 57.3 64.4 53.1 58.9 60.4
52.7 58.7 65.7 59.6 54.9 61.6 49.3 58.1 48.8 63.3
Calcule e interprete Q1 , P85 , Q3 .

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de variación o de dispersión.

Las medida de tendencia central vistas anteriormente, solamente


localizan el centro de los datos, sin embargo, estas medidas no nos
dice nada acerca de la disperción de los datos. Un valor pequeño
en una medida de dispersión indica que los datos estan
concentrados alrededor de alguna medida de tendencia central.
Adicionalmente, otra razón para estudiar la dispersión de los datos
es para comparar las dispersión entre dos o más distribuciones.
Los analistas financieros están preocupados por la dispersión de
las ganancias de una empresa que van desde valores muy grandes a
valores negativos. Esto indica un riesgo mayor para los accionistas
y para los acreedores.
De manera similar los expertos en control de calidad, analizan
los niveles de calidad de un producto.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de variación o de dispersión.

Las medidas de mayor uso para medir la variación de un


conjunto de datos son:
1 El rango.
2 La varianza.
La Varianza:
Sea un conjunto de n observaciones x1 , . . . , xn , no agrupadas. Se
define la varianza, S 2 , mediante la expresión:
n
2 1X
S = (xi − x)2
n i=1
n
X x2 i
= − x2
i=1
n

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de variación o de dispersión.

Sea un conjunto de n observaciones agrupadas en k intervalos de


clase. Se define la varianza, S 2 , mediante la expresión:
k
1X
S2 = ni (mi − x)2
n i=1
k
X m2i ni
= − x2
i=1
n

Observe que la varianza es calculada como una suma de las


desviaciones al cuadrado de cada observación respecto de la media,
luego, las unidades de la varianza están elevadas al cuadrado
(pesos al cuadrado, unidades al cuadradro, etc.) lo que hace que
no sean claras o fáciles de interpretar.
Una medida de la variabilidad del conjunto de datos es la
desviación estándar o desviación típica, S, donde
Rodrigo Araya Lozano.
√Tema 1:Estadística Descriptiva.
2
Coeficiente de Variación

Una desventaja de la desviación estándar es que no es adecuada


para comparar dos o más distribuciones y resulta imposible realizar
una comparación directa de dos o más medidas de dispersión, pues
dichas medidas se ven fuertemente afectadas por las unidades de
medidas de los datos. Es por ello, que debemos definir una medida
de variabilidad relativa adimensional llamada coeficiente de
variación y de define como:
S
CV = × 100
x
El coeficiente de variación es muy útil cuando:
1 Los datos están en unidades diferentes.
2 Los datos están en las mismas unidades de medidas, pero los
promedios están muy distantes.
3 Se desea determinar, si los datos son homogéneos o no.
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Coeficiente de Variación

El coeficiente de variación es usado entre otros como una medida


de la representatividad de la media.
Si CV < 50% se dice que la media es representativa como
medida de tendencia central para ese conjunto de datos.
Si CV > 100% entonces decimos que la media no representa
para nada al conjunto de datos.
También el coeficiente de variación es usado como medida de la
homogeneidad de los datos.
Si CV ≤ 35% se dice que los datos son homogéneos.
Si 35% < CV < 70% se dice que los datos son medianamente
heterogéneos.
Si CV ≥ 70% se dice que los datos son severamente
heterogéneos.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejemplo:
Los gastos mensuales de una empresa A tienen una media de 100
000 pesos y una desviación típica de 12 500 pesos. En otra
empresa B la media es 15 000 pesos, y la desviación típica, 2 500
pesos.
¿Los gastos mensuales de la emprese A son homogéneos?.
Justifique
¿La media es una medida representativa de los gastos
mensuales de empresa B?. Justifique

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Actividad 1.

Debido a las mediciones efectuadas en las estaciones


climatológicas e hidrométricas, se cuenta con observaciones de
variables hidrológicas, tales como caudales durante cierto
período de tiempo. A continuación, se muestra un resumen de
los caudales medios de un río de Francia en un periodo de 30
años (los datos han sido ordenados), expresados en metros
cúbicos por segundo (m3/s):
5.1 5.3 5.4 5.4 5.7 6.1 6.1 6.2 6.4 6.6 6.8
6.8 6.9 7.0 7.2 7.2 7.3 7.4 7.5 7.6 7.9 8.0
8.0 8.1 8.5 8.6 8.7 9.1 9.2 9.2
a) Defina la variable de estudio y su clasificación. Escriba la
unidad de observación.
b) Agrupe los datos usando cinco intervalos de clases. Plantee
algunas preguntas y responda.
c) Presentar el gráfico de un histograma y comentar.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Se seleccionaron de un proceso de fabricación, aleatoriamente,
20 baterías y se llevó a cabo una prueba para determinar la
duración de estás. Los siguientes datos representan el tiempo
de duración, en horas, para las 20 baterías.
52.5 58.9 62.3 56.8 62.7 57.3 64.4 53.1 58.9
60.4 52.7 58.7 65.7 59.6 54.9 61.6 49.3 58.1
48.8 63.3
1 Identique y clasifique la variable en estudio. ¿Cuál es la unidad
muestral?.
2 Construya una tabla de distribución de frecuencias.
3 ¿Cuántas baterías duran menos que 59 horas?.
4 ¿Que porcentaje de baterías duran por lo menos 55.6 horas y
menos de 59 horas?.
5 ¿Cuántas baterias duran a lo más 62.4 horas?.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Comparación gráfica entre las medidas de tendencia
Central

Existen otras dos características de los conjuntos de datos que


proporcionan información útil: el sesgo y la curtosis.
Definición:
El Sesgo es una medida de la asimetría de la curva. Las curvas que
representan un conjunto de datos pueden ser simétricas o sesgadas.
Las curvas simétricas tienen una forma tal que una línea vertical
que pase por el punto más alto de la curva, divide al área de ésta
en dos partes iguales.
Si los valores se concentran en un extremo se dice sesgada.
Las medidas de tendencia central, también permiten clasificar a la
distribución de los datos en simétricos o sesgados.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Comparación gráfica entre las medidas de tendencia
Central
1 Distribución Simétrica: Es aquella en que

x = Me = Mo

2 Distribución Asimétrica o Sesgada: Es aquella que no es


simétrica. En este caso, puede darse una de las siguientes
posibilades:
a)Distribución asimétrica positiva o sesgo positivo:

Mo < Me < x

.
b)Distribución asimétrica negativa o sesgo negativo:

Mo > Me > x

.
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
A continuación, se muestran tres distribuciones; la gráfica de la
izquierda muestra una asimétrica positiva o de sesgo positivo; la
gráfica del centro muestra una distribución simétrica y la gráfica de
la izquierda muestra una distribución distribución asimétrica
negativa o de sesgo negativo.

f9.jpg

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de posición relativa.

Motivación.
Entre las varias definiciones que existen de clase media, Solimano
prefiere aquella que aúna a las personas cuyo ingreso las ubica
entre los deciles tercero y noveno de la distribución. De ese modo,
los dos primeros deciles vendrían a definir la pobreza, en tanto que
el décimo representa al 10% más próspero de la población.(La
Tercera, 18 de noviembre de 2007)
¿Qué quiere decir Solimano respecto a la definición pobreza?.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de posición relativa.

Hay medidas de posición relativas, definidas en forma similar a la


mediana y que sirven para describir la localización de un datos
específico en relación con el resto de la muestra, son los
denominados:
1 Quartiles.
2 Deciles.
3 Percentiles.
1 Quartiles: Son números que dividen al conjunto de datos
previamente ordenados en cuatro partes iguales (cada parte
contiene el 25% de los datos). Hay tres quartiles:
Q1 : Es un valor numérico tal que a lo más, el 25% de los
datos es menor que Q1 y a lo sumo el 75% restante tienen
valores mayores o iguales que Q1
Q2 : Corresponde a la mediana.
Q3 : Es un valor numérico tal que a lo más, el 75% de los
datos es menor que Q3 y a lo sumo el 25% restante tienen
valores mayores o iguales
Rodrigo Araya Lozano. queTema
Q31:Estadística Descriptiva.
Medidas de posición relativa.

Deciles: Son múmeros que dividen a un conjunto de datos


ordenados en 10 partes iguales, cada parte contiene el 10% de los
datos. Hay nueve deciles: D1 , . . . , D9 .
Percentiles: Son múmeros que dividen a un conjunto de datos
ordenados en 100 partes iguales, cada parte contiene el 1% de los
datos. Hay 99 deciles P1 , . . . , P99 .
Definición:
El k-ésimo percentil Pk de un conjunto de datos ordenados, es un
valor situado de modo que el k% de las observaciones son inferiores
o iguales a Pk y el (100 − k)% son mayores o iguales a Pk .
Observación:
Tanto los quartiles como los deciles u otras medidas obtenida por
subdivisión es equivalente a un percentil, asi:
Q1 = P25 , D7 = P70 , D5 = Q2 = P50 , etc.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de posición relativa.

Para calcular el k-ésimo percentil Pk de un conjunto de datos no


agrupados se siguen los siguientes pasos: Seax(1) , x(2) , . . . , x(n) , el
conjunto de n observaciones ordenados en orden creciente:
nk
1 Calcule el número 100 .
nk
2 Si 100 es o no entero.
nk
Si 100 es entero entonces obtenga la posición j del percentil
nk
mediante j = 100 y luego obtenga Pk de acuerdo a:

x(j) + x(j+1)
Pk =
2
nk
Si 100 no es entero entonces obtenga la posición j como el
nk
entero siguiente al número j = 100 y luego obtenga Pk de
acuerdo a:
Pk = x(j)

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejemplo:
Se seleccionaron de un proceso de fabricación, aleatoriamente, 20
baterías y se llevó a cabo una prueba para determinar la duración
de estás. Los siguientes datos representan el tiempo de duración,
en horas, para las 20 baterías.
52.5 58.9 62.3 56.8 62.7 57.3 64.4 53.1 58.9 60.4
52.7 58.7 65.7 59.6 54.9 61.6 49.3 58.1 48.8 63.3
Calcule e interprete Q1 , P85 , Q3 .

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de variación o de dispersión.

Las medida de tendencia central vistas anteriormente, solamente


localizan el centro de los datos, sin embargo, estas medidas no nos
dice nada acerca de la disperción de los datos. Un valor pequeño
en una medida de dispersión indica que los datos estan
concentrados alrededor de alguna medida de tendencia central.
Adicionalmente, otra razón para estudiar la dispersión de los datos
es para comparar las dispersión entre dos o más distribuciones.
Los analistas financieros están preocupados por la dispersión de
las ganancias de una empresa que van desde valores muy grandes a
valores negativos. Esto indica un riesgo mayor para los accionistas
y para los acreedores.
De manera similar los expertos en control de calidad, analizan
los niveles de calidad de un producto.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de variación o de dispersión.

Las medidas de mayor uso para medir la variación de un


conjunto de datos son:
1 El rango.
2 La varianza.
La Varianza:
Sea un conjunto de n observaciones x1 , . . . , xn , no agrupadas. Se
define la varianza, S 2 , mediante la expresión:
n
2 1X
S = (xi − x)2
n i=1
n
X x2 i
= − x2
i=1
n

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Medidas de variación o de dispersión.

Sea un conjunto de n observaciones agrupadas en k intervalos de


clase. Se define la varianza, S 2 , mediante la expresión:
k
1X
S2 = ni (mi − x)2
n i=1
k
X m2i ni
= − x2
i=1
n

Observe que la varianza es calculada como una suma de las


desviaciones al cuadrado de cada observación respecto de la media,
luego, las unidades de la varianza están elevadas al cuadrado
(pesos al cuadrado, unidades al cuadradro, etc.) lo que hace que
no sean claras o fáciles de interpretar.
Una medida de la variabilidad del conjunto de datos es la
desviación estándar o desviación típica, S, donde
Rodrigo Araya Lozano.
√Tema 1:Estadística Descriptiva.
2
Coeficiente de Variación

Una desventaja de la desviación estándar es que no es adecuada


para comparar dos o más distribuciones y resulta imposible realizar
una comparación directa de dos o más medidas de dispersión, pues
dichas medidas se ven fuertemente afectadas por las unidades de
medidas de los datos. Es por ello, que debemos definir una medida
de variabilidad relativa adimensional llamada coeficiente de
variación y de define como:
S
CV = × 100
x
El coeficiente de variación es muy útil cuando:
1 Los datos están en unidades diferentes.
2 Los datos están en las mismas unidades de medidas, pero los
promedios están muy distantes.
3 Se desea determinar, si los datos son homogéneos o no.
Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.
Coeficiente de Variación

El coeficiente de variación es usado entre otros como una medida


de la representatividad de la media.
Si CV < 50% se dice que la media es representativa como
medida de tendencia central para ese conjunto de datos.
Si CV > 100% entonces decimos que la media no representa
para nada al conjunto de datos.
También el coeficiente de variación es usado como medida de la
homogeneidad de los datos.
Si CV ≤ 35% se dice que los datos son homogéneos.
Si 35% < CV < 70% se dice que los datos son medianamente
heterogéneos.
Si CV ≥ 70% se dice que los datos son severamente
heterogéneos.

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.


Ejemplo:
Los gastos mensuales de una empresa A tienen una media de 100
000 pesos y una desviación típica de 12 500 pesos. En otra
empresa B la media es 15 000 pesos, y la desviación típica, 2 500
pesos.
¿Los gastos mensuales de la emprese A son homogéneos?.
Justifique
¿La media es una medida representativa de los gastos
mensuales de empresa B?. Justifique

Rodrigo Araya Lozano. Tema 1:Estadística Descriptiva.

Вам также может понравиться