Вы находитесь на странице: 1из 14

Estadstica Descriptiva

Conceptos bsicos
Estadstica descriptiva: es considerada como una ciencia que permite analizar series de datos
asignadas a variables, con el propsito de extraer conclusiones sobre su comportamiento.
Dichas variables pueden ser:

Variables cualitativas: son aquellas que hacen referencia a un atributo y, por tanto no son medibles
matemticamente, por ejemplo: el color de los ojos, el largo del cabello, la ciudad de nacimiento,
etc.

Variables cuantitativas: en este grupo se clasifican aquellas que se pueden medir matemticamente, por ejemplo: edad, salario, numero de hijos, etc.

Existen dos grupos dentro de las variables cuantitativas:


Discretas:aquellas que guardan nicamente valores enteros, por ejemplo: nmero de hijos.
Continuas: guardan valores decimales, por ejemplo: una fraccin de tiempo.

Variables unidimensionales:

guardan datos sobre una caracterstica especfica, por ejemplo:


el salario de los empleados de una empresa.

Variables bidimensionales:guardan datos sobre dos caractersticas, por ejemplo: el salario y


el cargo de los empleados de una empresa.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Variables pluridimensionales: guardan datos sobre tres o ms caractersticas,

por ejemplo:

el salario, el cargo y la antigedad de los empleados de una empresa.

Individuo:

se considera como cualquier elemento que aporta informacin sobre el objeto de


estudio. Por ejemplo, en el estudio del color de los ojos de los nios de un colegio, cada nio es un
individuo.

Poblacin: representa el conjunto de individuos (personas, objetos, animales, etc.) que poseen

caractersticas comunes de acuerdo al objeto de estudio. Por ejemplo, en un estudio sobre el valor
de los arrendamientos en una zona determinada de Bogot, la poblacin est representada en el
total de viviendas alquiladas en dicho sector.

Muestra:la forman un subgrupo representativo

de la poblacin, es decir, en el caso del estudio


de las viviendas alquiladas, no es necesario realizar la labor con todas las viviendas, podemos elegir
una cantidad representativa de ellas para obtener resultados ptimos.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Estadstica Descriptiva

Medidas para el anlisis de datos

Para realizar los clculos, utilizaremos los datos recolectados de una muestra de 10 alemanes sobre
su consumo de caf en kg durante el ao 2011.

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

1. Media (

):

es el valor promedio de todos los datos recolectados en una muestra.

Para nuestro ejemplo:

Interpretamos que, en promedio, los alemanes toman 2.8 kg de caf al ao.


De manera general, utilizamos la frmula:

Donde:
n es la cantidad de da tos recolectados y
xi es el valor de cada dato.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

2. Mediana (

): Es elvalorque ocupa ellugar centralde todos losdatoscuando stos estnordenados de menor a mayor.

Si la serie tiene unnmero impar de medidas,lamedianaes lapuntuacin centralde la misma.


2, 3, 4, 4, 5, 5, 5, 6, 6

Me= 5

Si la serie tiene unnmero parde medidas, lamedianaes lamediaentre las dospuntuaciones


centrales. Para nuestro ejemplo: (Recordemos que tenemos 10 datos)
0.5, 1, 1.6, 2, 2.6, 3, 3.5 , 3.8, 5, 5
Me= 2,8

3. Moda (Mo):

Es elvalorque se repite el mayor nmero de veces en una serie de datos.

Para nuestro ejemplo:


5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

La moda Mo = 5.

Si en una serie haydos o varias puntuacionescon lamisma frecuencia,y esa frecuencia es la


mxima, la distribucinesbimodalomultimodal, es decir, tienevarias modas.
1, 1, 1, 2, 3, 4, 4, 5, 5, 5, 7, 8, 8, 9, 9, 9 Mo = 1, 5, 9

4. Desviacin estndar: es la dispersin de los datos con respecto a la media.


Primero, calculamos las desviaciones de cada dato con respecto a la media y lo elevamos al cuadrado para que los negativos no anulen los dems.
Datos: 5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Segundo, realizamos la sumatoria de todos las diferencias:

Por ltimo, dividimos la sumatoria por el nmero de datos y calculamos su raz cuadrada:

Se interpreta que los datos estn alejados en promedio 1.47 kg de la media de consumo de caf.
La formula para la desviacin estndar es:

5. Coeficiente de variacin:

Al igual que la desviacin estndar, sta nos permite conocer


el grado de dispersin de los datos con respecto a la media, pero en este caso se aslan las unidades
del anlisis. Es especialmente til para comparar la variacin de diferentes muestras.
Para calcular el coeficiente de variacin se necesitan los datos de la media y la desviacin estndar.

Se interpreta que la muestra tiene una dispersin del 53%. La formula general est dada por:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Estadstica Descriptiva

Tablas de Frecuencias

ORDENAMIENTO DE DATOS
En los ejemplos anteriores realizamos fcilmente el anlisis debido a que la cantidad de datos era
pequea, pero cuando la cuanta de los datos es ms grande, debemos organizarlos en una tabla que
facilite su tratamiento.
La elaboracin de la tabla vara dependiendo del tipo de variable (cualitativa, cuantitativa discreta
y cuantitativa continua).
Adems, mostraremos dos tipos de grficos que brindan una herramienta visual para la interpretacin.

Estadstica Descriptiva
Tabla de Frecuencias variable cualitativa
Los siguientes datos fueron recolectados a una muestra de 50 alemanes consumidores de caf, acerca
de la procedencia del caf que toman.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Brasil

Indonesia

Vietnam

Brasil

Brasil

Vietnam

Indonesia

Per

Vietnam

Colombia

Colombia

Colombia

Colombia

Colombia

Indonesia

Indonesia

Colombia

Indonesia

Indonesia

Brasil

Per

Colombia

Colombia

Brasil

Vietnam

Vietnam

Per

Indonesia

Vietnam

Colombia

Colombia

Brasil

Brasil

Indonesia

Indonesia

Brasil

Brasil

Vietnam

Brasil

Brasil

Brasil

Brasil

Colombia

Vietnam

Vietnam

Brasil

Vietnam

Indonesia

Indonesia

Colombia

Lo primero que debemos hacer es realizar un listado de los datos sin repeticiones.
Brasil

Colombia

Indonesia

Per

Vietnam

Luego, creamos una tabla donde la primera columna se llame datos y la rellenamos con el listado
anterior.
Creamos una columna llamada frecuencia absoluta y colocamos la repeticiones de cada dato.
Creamos una columna llamada frecuencia relativa en donde insertamos el peso porcentual de la frecuencia de cada dato con respecto al total de la muestra.
Por ejemplo, Brasil aparece 14 veces (frecuencia absoluta) y su peso porcentual (frecuencia relativa) es:

Datos

Frecuencia Adsoluta (fi)

Frecuencia Relativa (hi)

Brasil

14

28%

Vietnam

10

20%

Colombia

12

24%

Indonesia

11

22%

Per

6%

50

100%

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Estadstica Descriptiva

Grficos Tabla de Frecuencias

La primera grfica que podemos utilizar es el histograma de frecuencias, dnde en el eje x se colocan los
datos y en el eje y la frecuencia absoluta de cada dato as:

Histograma de frecuencias sobre la


procedencia del caf de Alemania
16
14
12
10
8
6
4
2
0

Brasil

Vietnam

Colombia

Indonesia

Per

En el diagrama circular, se grafica la frecuencia relativa, de sta manera podemos observar los pesos
porcentuales de los datos, y los calculamos al multiplicar la frecuencia relativa por 360.
Per
6%

Indonesia
22%

Brasil
28%

Vietnam
20%
Colombia
24%

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Estadstica Descriptiva

Tabla de frecuencias variable cuantitativa discreta

Los siguientes datos fueron recolectados de una muestra de 50 alemanes consumidores de caf, sobre la
edad (en aos) en que iniciaron el consumo de caf.
18

21

18

22

15

21

19

24

18

30

15

18

20

19

21

24

20

21

20

22

19

15

18

21

24

19

30

21

20

19

22

21

15

20

18

18

22

24

19

24

19

24

19

18

20

20

19

19

20

21

Lo primero que debemos hacer es realizar un listado ordenado de los datos sin repeticiones.
15

18

19

20

21

22

24

30

Al igual que con la variable cualitativa, creamos las columnas datos, frecuencia absoluta y frecuencia
relativa.
Luego, creamos una columna llamada frecuencia absoluta acumulada, en donde escribimos la suma
de la frecuencia absoluta de ese dato y los menores.
Por ltimo, aadimos una columna que se denomina frecuencia relativa acumulada y en ella consignamos la suma de la frecuencia relativa de ese dato y los menores.
Por ejemplo, la frecuencia absoluta acumulada de 19 aos es:
22 = 4 + 8 + 10
y la frecuencia relativa acumulada es:
44% = 8% + 16% + 20%

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Datos(xi)

Frecuencia Absoluta
(fi)

Frecuencia
Relativa(hi)

Frecuencia Absoluta Frecuencia Relativa


Acumulada (Fi)
Acumulada (Hi)

15

8%

8%

18

16%

12

24%

19

10

20%

22

44%

20

16%

30

60%

21

16%

38

76%

22

42

84%

24

12%

48

96%

30

4%

50

100%

50

100%

Estadstica Descriptiva

Ahora graficamos:

12

Grficos Tabla de Frecuencias

Histograma de frecuencias
sobre la edad inicial para el
consumo de caf

10
8
6
4
2
0

15

18

19

20

21

22

24

30

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Diagrama circular (con la frecuencia relativa de los datos)

24
12%

30 15
4% 8%
18
16%

22
8%
21
16%

19
20%
20
16%

Estadstica Descriptiva

Tabla de frecuencias variable cuantitativa continua

Los siguientes datos fueron recolectados de una muestra de 50 alemanes consumidores de caf, acerca
de la cantidad de caf (en kg) que toman durante un ao.
3,6

4,11

2,8

1,3

3,4

2,5

4,8

0,4

2,2

2,2

1,7

4,1

0,2

2,6

2,9

1,7

3,4

3,4

3,4

2,6

2,8

2,2

3,8

2,86

3,5

2,1

3,1

3,4

4,2

1,6

4,3

4,4

2,9

1,9

2,7

1,7

2,6

3,02

2,8

3,5

2,4

1,9

1,4

3,6

2,6

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

En este caso, realizar un listado de datos independiente no es eficiente, por que puede ser una cantidad muy grande de datos.

Por lo anterior, lo mas aconsejable es colocar los datos en intervalos (cajones) para resumir al mximo el listado en la tabla.

Para calcular la amplitud (tamao) de los intervalos, calculamos el rango de la muestra y lo dividimos
por la cantidad de intervalos que se han definido.

En esta tabla, adicionaremos una columna denominada marca de clase que es el valor medio
del intervalo.
Intervalos

Frecuencia
Absoluta (fi)

Frecuencia
Relativa(hi)

Frecuencia Absoluta Acumulada


(Fi)

Frecuencia Relativa Acumulada (Hi)

Marca de
clase (yi)

0-1

6%

6%

0.5

1.01 - 2

16%

11

22%

1.5

2.01 - 3

18

36%

29

58%

2.5

3.01 - 4

13

26%

42

84%

3.5

4.01 - 5

16%

50

100%

4.5

50

100%

En el intervalo [1.01-2] se encuentran los valores de 1.3, 1.4, 1.6, 1.7, 1.7, 1.7, 1.9, 1.9.

Estadstica Descriptiva

Grficos Tabla de Frecuencias

Ahora graficamos los datos:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

20

Histograma de frecuencias sobre


la cantidad de caf que se
consume al ao

18
16
14
12
10
8
6
4
2
0

0- 1

1.01 - 2

2.01 - 3

3.01 - 4

4.01 - 5

Diagrama circular (con la frecuencia relativa de los datos)

4.01 - 5
16%

0-1
6%
1.01 - 2
16%

3.01 - 4
26%
2.01 - 3
36%

Estadstica Descriptiva
El Muestreo

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

La definicin ms comn es:


El muestreo es una herramienta de investigacin cientfica, cuya funcin bsica es determinar qu
parte de una poblacin debe examinarse, con la finalidad de hacer inferencias sobre dicha poblacin.
La muestra debe lograr una representacin adecuada de la poblacin, en la que se reproduzca de
la mejor manera los rasgos de dicha poblacin que sean importantes para la investigacin. Para que una
muestra sea representativa, y por lo tanto til, debe de reflejar las similitudes y diferencias encontradas
en la poblacin, es decir ejemplificar las caractersticas de sta. (Piccini, 2010)

Tipos de muestreo
Muestreo aleatorio
simple (M.A.S)
Se eligen individuos
de la poblacin de
estudio, de manera
que todos tienes la
misma probabilidad
de aparecer, hasta
alcanzar el tamao
muestral deseado.

Muestreo
sistematico

Muestreo
estratificado

Se tiene una lista de


los individuos de la
poblacin de estuConsiste en estratificar
dio. Si queremos una (o dividir) en un numemuestra de un tamao ro de sub poblaciones
dad, elegimos individo estratos para luego
uos igualmenteespatomar una muestra de
ciados de la list,
cada uno de estos.
donde elprimero ha
sido elegido al azar.

Muestreo por
conglomerados
Consiste en dividir la
poblacin total en un
numero determinado de
subdivisiones relativamente pequeas, luego
se seleccionan al azar
algunoas de estas, para
incluirlas en la muestra
general.

Fuentes consultadas:
http://www.vitutor.com/estadistica/descriptiva/a_1.html
http://www.aulafacil.com/CursoEstadistica/Lecc-1-est.htm
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
http://lorena-mercadeo.blogspot.com/2009/05/estadistica.html

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Вам также может понравиться