Вы находитесь на странице: 1из 82

1.2 Estadística descriptiva.

1
Representación de los datos de una
muestra.
• La Estadística Descriptiva se encarga de la
obtención, organización, representación y
descripción de los datos.

• La obtención de los datos se logra a través de


las técnicas de muestreo
2
Estadística Descriptiva
Existen básicamente tres técnicas:
- Distribución de Frecuencias
Se agrupan los datos cuando se tiene una cantidad
grande de ellos.
- Gráficas
Sirven para visualizar la forma en la que se agrupan los
datos.
- Medidas numéricas
Los parámetros numéricos son el resumen de los
datos en forma cuantitativa
Cada técnica es una huella de la información que se
estudia.
OJO Las técnicas no son independientes, por el
contrario, deben complementarse.
32 3
Como se podrá observar más adelante, existen
expresiones que permiten trabajar con la totalidad de
los datos de la muestra; al arreglo que utiliza la
totalidad de los datos se le conoce como datos no
agrupados.

4
Construcción Diagrama de Tallo
• Se tiene una muestra aleatoria del consumo
eléctrico en una zona de clase media de la
ciudad

53 5
Utilidad de Diagrama de Tallo
• Permite obtener simultáneamente una
distribución de frecuencias de la variable y su
representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la
derecha (que constituye la hoja) del bloque de
cifras restantes (que formará el tallo).
• Esta representación de los datos es semejante a
la de un histograma pero además de ser fáciles de
elaborar, presentan más información que estos.

6
Construcción Diagrama de Tallo
• Se tiene el diagrama tallo hoja del problema

0 5 6
6 5 0
8 8

9 6 4 4 6 9
3 3
0 0
1 7 9
1 9 7 Ordenar los datos
0 1 4 7
7 0 4 1 de menor a mayor
3 3

1 8 5 2 1 2 5 8

5 3 3 5

2 6 53 2 6 7
Antes de la evolución tecnológica o bien, cuando
los recursos de cómputo son limitados, trabajar
con un número alto de datos resulta
complicado.
Por tal motivo, se conformó un arreglo de datos
basado en intervalos conocido como tabla de
frecuencias. Cuando se utiliza la tabla de
frecuencias se dice que se trabaja con datos
agrupados.

8
Ahora bien, con el avance en los
recursos de cómputo resulta ahora de
lo más sencillo trabajar con datos no
agrupados, lo que evita errores
numéricos y los propios ocasionados
por el agrupamiento de los datos en
las tablas de frecuencia. No obstante,
las tablas de frecuencias son
necesarias para construir las
representaciones gráficas de las
muestras.
9
Intervalos de clase.
Se refiere a los intervalos en los cuales serán
agrupados los n datos obtenidos en el muestreo.

Una tabla de frecuencias se compone de un número


finito de intervalos continuos, todos del mismo
ancho.
Significa en cuántas categorías o subgrupos se
clasificara o agrupara los datos. Para determinar el
número óptimo de intervalos de clase, en los cuales
los datos quedarán distribuidos, se puede utilizar
estas dos formas

10
El número de intervalos es variable y su elección
depende de la experiencia de quién construye la
tabla. No existe consenso por parte de los
autores para determinar el número óptimo de
intervalos, pero en lo general se coincide que no
sean tan pocos que no resulte apropiada la
agrupación de datos ni tantos que la haga poco
práctica.

11
En general, se recomienda que el número de intervalos
no sea ni menor de cinco ni mayor a quince.
• Por otra parte, ciertos autores han establecido algunas
reglas matemáticas para determinar el número de
intervalos. Dos de ellas son:

Ley de Sturges: # intervalos = 1 + 3.322 Log (n) Para


experimentos les sugiero de esta manera por si hacen
una tesis

# intervalos = Para el curso les sugiero esta


forma

En ambos casos, n es el número total de datos.

12
Lo que resulta importante, más que determinar
el número de intervalos, es que estos cumplan
con una serie de características:

• Todos los intervalos deben tener el mismo


ancho.
• Un dato sólo puede pertenecer a un solo
intervalo.
• No debe haber intervalos vacíos.

13
Ejemplo. Los siguientes datos corresponden a
80 mediciones de la longitud de un año de un
chasis. Sus dimensiones son en centímetros.

14
El primer paso para construir los intervalos de
clase consiste en ordenar los datos de menor a
mayor, sin eliminar ninguno de ellos.

15
Rango
Es la diferencia entre el dato mayor y el menor.

Rango = 53.1 – 49.1 = 4.0


No obstante, es posible utilizar como guía las
siguientes expresiones:

Se establecen ocho intervalos. Para que haya


congruencia, se recomienda que el rango contenga
el mismo número de decimales que los datos de
origen.
16
Sugerencia Cálculo de la Amplitud
Para validar si los parámetros que establecimos están bien
calculados, aplicamos las siguientes reglas:
Reglas que deben cumplirse:
• Regla No. 1: No. de Intervalos de clase x Amplitud > Rango
• Regla No. 2: No. de Intervalos de clase x Amplitud - Rango ≤
Amplitud
• Se debe de cumplir las dos reglas ya que de no hacerlo, la
tabla será construida con cierto grado de error.
Sugerencia
• sea n=número de datos y k= número de clases
n k
MENOS DE 50 5A 7
ENTRE 50 A 100 6 A 10
ENTRE 100 A 250 7 A 12
MAS DE 250 10 A 20

53 17
Ancho del intervalo (Amplitud). Se define como:

• Todos los intervalos medirán 0.5 cm de ancho.


• Ahora bien, el primer intervalo puede comenzar
justo en el dato más pequeño o menor.
18
Para motivos de nuestro ejemplo,
comenzaremos en el dato menor.

19
Puede observarse que tanto el dato menor
como el mayor son incluidos en algún intervalo;
sin embargo, se produce un conflicto ya que
algunos datos coinciden con las fronteras
compartidas de los intervalos, lo cual no
satisface la segunda característica de los
intervalos de clase.

20
A este respecto, algunos autores en apego fiel a
la definición de intervalos expresan a los
intervalos de clase en forma de intervalos
abiertos por un extremo y cerrados por el otro.

21
Sin embargo, se puede proceder de dos formas:
1. Iniciar los intervalos un poco antes que el
dato menor, por ejemplo en 49.05. Al establecer
un límite de intervalos con una cifra decimal
más, se minimiza la probabilidad de que algún
dato coincida con alguna frontera. Sin embargo,
el dato mayor quedará excluido del último
intervalo, por lo que se deberá aumentar el
ancho del intervalo.

22
2. Aumentar el ancho de intervalo en una cifra
decimal más que la que contienen los datos, por
ejemplo, 0.55. Debe tomarse en cuenta que en
determinado momento, la suma de los anchos
de intervalo pueden hacer coincidir un dato.
Resulta más conveniente utilizar 0.51

23
Este último arreglo garantiza el cumplimiento de las
tres características de los intervalos de clase
24
Para establecer los Límites Superiores de Clase,
se recomienda seguir la siguiente tabla:

25
Límites Reales de Clase (L.R.I.C. y L.R.S.C.):
También existen límites reales inferiores de clase y
límites reales superiores de clase. En su construcción
se debe considerar la siguiente tabla:

53 26
Marcas de clase
Son los puntos intermedios de cada intervalo de
clase.

27
Frecuencia
Es el número de datos que pertenece a cada
intervalo de clase.
Fi : Frecuencia de la i-ésima clase

Naturalmente, la suma de todas las frecuencias


debe coincidir con el número total de datos (n).
28
Frecuencia Relativa
Se refiere a la frecuencia de cada una de las
clases dividida entre el número total de datos
(n). De aquí se deriva la interpretación
frecuentista de la probabilidad.

Comprobando el axioma de la probabilidad para


variables aleatorias discretas:
29
Frecuencia Acumulada
• Son los datos acumulados desde el primer dato
hasta la i-ésima clase.

• Este concepto coincide con el particular de


Función de Distribución o Función de
Probabilidad Acumulada. Debe destacarse que la
Frecuencia Acumulada de la última clase debe
coincidir con el número total de datos (n).

30
Frecuencia Acumulada Relativa
Es la frecuencia acumulada de la clase i-ésima entre el
numero total de datos (n).

De la misma forma, se comprueba que

ya que la frecuencia relativa de la última clase, debe ser la


unidad.
31
La tabla completa queda de la siguiente forma:

Esta tabla se conoce como Distribución de


Frecuencias. La tabla de distribución de frecuencias
puede usarse para datos cuantitativos y para datos
cualitativos. 32
33
Representación gráfica de la
distribución de frecuencias.
Una forma muy rápida y efectiva de interpretar
la información contenida en una distribución de
frecuencias consiste en graficar sus elementos.

34
Histograma
Es una gráfica de barras o
columnas que se construye en un
sistema coordenado en cuyo eje
horizontal o de abscisas se
detallan los intervalos de clase y
en el eje vertical o de ordenadas
se ubican las frecuencias o las
frecuencias relativas.

35
polígono de frecuencias
Es una línea quebrada que une los
puntos de intersección de la abscisa
que corresponde a la marca de clase
con la ordenada que puede ser la
frecuencia o la frecuencia relativa. El
polígono se cierra con el eje
horizontal al iniciarlo en el límite
inferior del primer intervalo de clase y
concluirlo en el límite superior del
última intervalo de clase.

36
Cuando un polígono se dibuja
sobre un histograma de la misma
distribución, la línea quebrada
une los centros de las bases
superiores de los rectángulos del
histograma.

37
ojivas de frecuencias
• Ojiva: Figura formada por dos
arcos de círculos iguales que se
cortan en uno de los extre-
mos formando punta.
• Son líneas quebradas que se trazan por los
puntos de intersección de las coordenadas
que corresponden a las marcas de clase y sus
respectivas frecuencias acumuladas o
frecuencias acumuladas relativas.
38
20
18
20 16

12
15

10 6
5

2
5 1

0
49 . 10 49. 61 50. 12 50. 63 51 . 14 51 . 65 52. 16 52. 67 53 . 18

Histograma

39
Medidas descriptivas.

Estos índices permiten caracterizar a las


distribuciones de frecuencias para poder hacer
una interpretación acertada de la misma.
40
En lo general, todas estas medidas pueden ser
calculadas para datos no agrupados y para datos
agrupados.

41
Medidas de Tendencia Central
Son aquellas medidas que nos proporcionan un
dato que, con ciertos matices, puede
considerarse representante de los n datos
obtenidos del muestreo.
 Media
 Mediana
 Moda

42
Media
• Tradicionalmente se considera a la media
como un promedio aritmético de n datos. En
realidad es más que esto. La media pretende
representar de la mejor forma a los datos de
los cuales proviene. Esta representación
puede lograrse de varias formas.
Media Aritmética
Media Ponderada
Media Geométrica
43
Media Aritmética
Para datos no agrupados:
donde n es el número
total de datos.

44
Media Aritmética
Para datos agrupados:

Donde:
Fi es la frecuencia de la i-ésima clase
Ti es la marca de clase de la i-ésima
clase
F 'i es la frecuencia relativa de la i-
ésima clase
k representa el total de clases de
la distribución

45
• La media aritmética nunca debe utilizarse por
sí sola, es conveniente acompañarla de alguna
medida de dispersión.

46
Media Ponderada
Corresponde directamente al valor esperado o
esperanza matemática estudiado en
Probabilidad.
• Para calcular la media ponderada de n datos
(datos no agrupados) es necesario contar
todos ellos para establecer cuantos de ellos se
repiten. En la práctica, esto implica
ordenarlos, motivo por el cual no se
acostumbra su cálculo en esta modalidad.

47
• La media ponderada para datos agrupados
coincide con la media aritmética para datos
agrupados

48
Media geométrica

• En la práctica suele obtenerse a través de


logaritmos.

49
50
Media armónica
Es el recíproco de la media aritmética de los
recíprocos de los números

en la práctica se utiliza:

51
52
Mediana
Divide exactamente a la mitad a la muestra.

La mediana será la que quede situada en el


centro de la balanza.

53
Se muestran los dos posibles casos de la
mediana:
• con datos no agrupados, en el primer caso la
muestra está compuesta por un número non
de observaciones. La mediana es el dato que
se encuentra exactamente a la mitad de la
muestra; para que esté equilibrada debe
existir el mismo número de datos de cada
lado.

54
• El segundo caso cuando la muestra está
compuesta por un número par de
observaciones. En este caso, la mediana es el
promedio de los dos valores centrales.

55
Para nuestro caso, n es par e igual a 80. De tal
forma:

56
Para su cálculo como dato agrupado, la mediana
se obtiene determinando cual es la clase que
incluye a la mediana, la cual se distingue porque
tiene una frecuencia acumulada relativa mayor
o igual a 0.5 (50% de los datos).

57
Para obtener una
expresión que permita su
cálculo, a partir de la ojiva
de frecuencias acumuladas
relativas se puede
aproximar su mediana
trazando una línea
horizontal a partir de la
ordenada 0.5 (o 50%) hasta
cortar la gráfica y en dicho
punto localizar el
correspondiente en el eje
de las abscisas.
58
Moda
Es el elemento de la muestra que más se repite.
Una muestra puede tener una o más modas.
Cuando todos los elementos de la muestra son
diferentes, no tiene sentido hablar de ella.

59
Medidas de dispersión
Estas medidas reflejan la separación o
alejamiento de los elementos de una muestra.
Estas medidas deben acompañar a las medidas
de tendencia central, particularmente a la
media, para evitar los efectos que los datos
extremos tienen sobre ellas.

60
La medida de dispersión más sencilla es el
Rango, amplitud o recorrido, que como ya se
mencionó es la diferencia entre el dato mayor y
del menor.

61
Varianza
Tal y como la define la probabilidad, la varianza
de una variable aleatoria es el segundo
momento de la misma con respecto a la media.
Asimismo, se interpreta de la misma forma,
como un promedio de las distancias de cada
dato hacia la media.

62
63
64
65
Desviación estándar
La desviación estándar es la raíz
cuadrada de la varianza:

La desviación estándar también es conocida como


desviación típica o error estándar.

66
Desviación media
Ciertos autores opinan que para obtener el
promedio de las distancias de cada dato con
respecto a la media debe obtenerse el valor
absoluto de la distancia entre ambos puntos y
después obtenerse su promedio. De tal forma, la
desviación media (para datos no agrupados) se
define como:

67
Desviación media

68
69
Medidas de Distribución - Asimetría y
Curtosis
Las medidas de distribución nos permiten
identificar la forma en que se separan o aglomeran
los valores de acuerdo a su representación gráfica.
Estas medidas describen la manera como los datos
tienden a reunirse de acuerdo con la frecuencia con
que se hallen dentro de la información. Su utilidad
radica en la posibilidad de identificar las
características de la distribución sin necesidad de
generar el gráfico. Sus principales medidas son la
Asimetría y la Curtosis.

70
71
72
73
Medidas de Posición
• Los cuartiles se denotan generalmente por
Q1,Q2 y Q3, y el segundo cuartil coincide con la
mediana.
• Los deciles se denotan D1,D2,D3,D4,D5,D6,D7,D8
y D9 y el quinto decil coincide con la mediana
y con el segundo cuartil.
• Los percentiles se denotan P1, P2, P3…, P99. El
percentil 50 coincide con la mediana, con el
segundo cuartil y con el quinto decil.

64 74
Medidas de Posición
Formula

a = Limite superior intervalo


x = Tamaño del intervalo
n = Tamaño de la muestra
Fracción = Cuartil buscado
𝑓 𝑎 = Suma frecuencias hasta el fractil calculado
(f) Fractil = Frecuencia hasta el fractil posterior
64 75
Medidas de posición Cálculo de
Cuartiles Ejemplo 3
• En una muestra de 25 varillas, se obtuvieron las
siguientes medidas
• 13.02, 12.94, 12.99, 13.07, 12.91, 12.93,
13.06,13.04, 13.05, 12.93, 12.97, 12.98, 13.10,
13.06, 12.97, 12.99, 12.90, 13.05,12.98, 13.00,
12.96, 13.01, 12.98, 12.96, 13.03.

• Calcular las medidas de posición en cuartiles

64 76
77
78
79
Medidas de posición Cálculo de
Cuartiles
Paso 1 Escribir la formula
𝐹𝑟𝑎𝑐𝑡𝑖𝑙
𝑛 𝑋 𝐹𝑟𝑎𝑐𝑐𝑖ó𝑛 − 𝑓 𝑎
= 𝑎 + ∆𝑥
𝑓 𝐹𝑟𝑎𝑐𝑡𝑖𝑙

a = Limite superior intervalo


x = Tamaño del intervalo
n = Tamaño de la muestra
Fracción = Cuartil buscado
𝑓 𝑎 = Suma frecuencias hasta el fractil calculado
(f) Fractil = Frecuencia hasta el fractil posterior
64 80
Medidas de posición Cálculo de
Cuartiles Ejemplo 3
Paso 1 Escribir la formula

𝐹𝑟𝑎𝑐𝑡𝑖𝑙
𝑛 𝑋 𝐹𝑟𝑎𝑐𝑐𝑖ó𝑛 − 𝑓 𝑎
= 𝑎 + ∆𝑥
𝑓 𝐹𝑟𝑎𝑐𝑡𝑖𝑙

64 81
• Con videos adicionales se reforzará Asimetría
con el coeficiente de Asimetría.
• Partiendo de una tabla de Frecuencias,
obtener las medidas de Tendencia Central
• Así como tablas incompletas de Distribución
de frecuencia y como completarlas.

82

Вам также может понравиться