Вы находитесь на странице: 1из 33
Análisis de datos 1. DESCRIPCION
Análisis de datos 1. DESCRIPCION

Análisis de datos 1.

DESCRIPCION

La Estadística trata del recuento, la ordenación y clasificación de datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.

Un estudio estadístico consta de las siguientes fases:

Un estudio estadístico consta de las siguientes fases: a) Recogida de datos b) Organización y representación

a) Recogida de datos
b) Organización y representación de datos
c) Análisis descriptivo de datos (y luego análisis inferencial)
d) Obtención de conclusiones

PASO 1: RECOGIDA DE DATOS Planteado el test o encuesta oportuno, una vez elegido el

PASO 1: RECOGIDA DE DATOS

Planteado el test o encuesta oportuno, una vez elegido

el tema al que se quiere hacer el estudio estadístico, y recogidos los datos que correspondan, el primer análisis que realizaremos es el del tipo de variable que pretendemos estudiar (Cualitativa o Cuantitativa;

Discreta o Continua).

en gran medida su posterior

tratamiento.

Esto

condicionará

PASO 2: ORGANIZACIÓN DE

PASO 2: ORGANIZACIÓN DE LOS DATOS Determinado el modo de agrupamiento de las observaciones, procedemos a

LOS DATOS

PASO 2: ORGANIZACIÓN DE LOS DATOS Determinado el modo de agrupamiento de las observaciones, procedemos a

Determinado el modo de agrupamiento de las observaciones, procedemos a su recuento, construyendo la tabla de frecuencias.

Posteriormente podremos visualizar tales frecuencias de forma gráfica con el diagrama estadístico apropiado.

a) TABLA DE FRECUENCIAS (Tabla en APA)

b) GRÁFICOS (Figura en APA): diagrama de barras,

histograma, polígono de frecuencias, diagrama de sectores, pictogramas, pirámides de población, climogramas, etc.

Recuento
Recuento
TABLA DE FRECUENCIAS Tabla de frecuencias es una ordenación en forma de tabla de los

TABLA DE FRECUENCIAS

Tabla de frecuencias es una ordenación en forma de tabla de los datos

estadísticos, asignando a cada dato su frecuencia correspondiente.

Frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por f i . La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

Frecuencia relativa decimal es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.

Se representa por h i .

f

i

h

i

= N

La suma de las frecuencias relativas decimales es igual a 1.

Frecuencia relativa porcentual es la frecuencia relativa

decimal multiplicada por 100. Se puede expresar por % i La suma de las frecuencias relativas porcentuales es 100.

% =100×h

i

i

las frecuencias relativas porcentuales es 100. % =100×h i i suma de las frecuencias correspondientes de

suma de las frecuencias

correspondientes de todos los valores inferiores o iguales al valor considerado.

es

Frecuencias

acumuladas

la

Se representa por:

F i la frecuencia absoluta acumulada H i la frecuencia relativa decimal acumulada %A i la frecuencia relativa porcentual acumulada

Para que tengan sentido los frecuencias acumuladas, los valores de la variable deben estar ordenados.

TABLA DE FRECUENCIAS CON VARIABLE CUANTITATIVA DISCRETA Frecuencia relativa Frecuencia relativa Frecuenci Frecuencia

TABLA DE FRECUENCIAS CON VARIABLE CUANTITATIVA DISCRETA

Frecuencia relativa Frecuencia relativa Frecuenci Frecuencia DATOS a absoluta acumulada Decimal x f % =100×h
Frecuencia relativa
Frecuencia relativa
Frecuenci
Frecuencia
DATOS
a
absoluta
acumulada
Decimal
x
f
% =100×h
Porcentual
absoluta
acumulada
Decimal
Porcentual
i
h i = N
i
i
i
f
F
i
i
H
%A i
i
5
6
6
0,0150
1,5 %
0,0150
1,5 %
6
48
54
0,1200
12 %
0,1350
13,5 %
7
95
149
0,2375
23,75 %
0, 3725
37,25 %

8

105

254

0,2625

26,25 %

0,6350

63,50 %

9

87

341

0,2175

21,75 %

0,8525

85,25 %

10

59

400

0,1475

14,75 %

1

100 %

N = 400

1

100 %

TABLA DE FRECUENCIAS CON VARIABLE CUANTITATIVA CONTINUA   x i f i F i h

TABLA DE FRECUENCIAS CON

VARIABLE CUANTITATIVA CONTINUA

 

x i

f i

F i

h i

H i

%

%A i

[0, 5)

2.5

1

1

0.025

0.025

2.5

2.5

[5, 10)

7.5

1

2

0.025

0.050

2.5

5

[10, 15)

12.5

3

5

0.075

0.125

7.5

12.5

[15, 20)

17.5

3

8

0.075

0.200

7.5

20

[20, 25)

22.5

3

11

0.075

0.2775

7.5

27.5

[25, 30)

27.5

6

17

0.150

0.425

15

42.5

[30, 35)

32.5

7

24

0.175

0.600

17.5

60

[35, 40)

37.5

10

34

0.250

0.850

25

85

[40, 45)

42.5

4

38

0.100

0.950

10

95

[45, 50)

47.5

2

40

0.050

1

5

100

N = 40

1

100

GRAFICAS ESTADISTICAS LAS GRÁFICAS ESTADÍSTICAS PERMITEN VISUALIZAR LA INFORMACIÓN CONTENIDA EN LAS TABLAS DE
GRAFICAS ESTADISTICAS LAS GRÁFICAS ESTADÍSTICAS PERMITEN VISUALIZAR LA INFORMACIÓN CONTENIDA EN LAS TABLAS DE

GRAFICAS ESTADISTICAS

LAS GRÁFICAS ESTADÍSTICAS PERMITEN VISUALIZAR LA INFORMACIÓN CONTENIDA EN LAS TABLAS DE MANERA RÁPIDA Y
LAS GRÁFICAS ESTADÍSTICAS
PERMITEN VISUALIZAR LA
INFORMACIÓN
CONTENIDA EN LAS TABLAS DE
MANERA RÁPIDA Y SENCILLA
DIAGRAMA DE BARRAS
EXISTEN MUCHOS TIPOS DE GRÁFICAS ESTADÍSTICAS, UNAS SE EMPLEAN CON VARIABLES CUANTITATIVAS Y OTRAS CON
EXISTEN MUCHOS TIPOS DE
GRÁFICAS ESTADÍSTICAS,
UNAS SE EMPLEAN CON
VARIABLES CUANTITATIVAS
Y OTRAS CON VARIABLES
CUALITATIVAS

HISTOGRAMA

DE GRÁFICAS ESTADÍSTICAS, UNAS SE EMPLEAN CON VARIABLES CUANTITATIVAS Y OTRAS CON VARIABLES CUALITATIVAS HISTOGRAMA

Diagrama de barras se utiliza para de presentar datos cualitativos o datos cuantitativos de tipo discreto.

Se representan sobre ejes de coordenadas, en el eje de abscisas

se colocan los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas, relativas, porcentajes o frecuencias acumuladas.

Los datos se representan mediante barras de una altura proporcional a la frecuencia.

barras de una altura proporcional a la frecuencia . Grupo sanguíneo f 10 i 9 8

Grupo sanguíneo

f 10 i 9 8 7 6 5 4 3 2 1 0
f
10
i
9
8
7
6
5
4
3
2
1
0

A

B

AB

O

Grupo

sanguíneo

f i

A

6

B

4

AB

1

0

9

N = 20

Histograma se utiliza para presentar datos cuantitativos de tipo continuo. Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los intervalos de los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas, relativas , porcentajes o frecuencias acumuladas. Los datos se representan mediante barras pegadas unas a otras de una altura proporcional a la frecuencia.

unas a otras de una altura proporcional a la frecuencia . Puntuación Marca de f clase
unas a otras de una altura proporcional a la frecuencia . Puntuación Marca de f clase

Puntuación

Marca de

f

clase

x i

 

i

11-17

14

6

18-24

21

4

25-31

28

15

32-38

35

13

39-45

42

1

46-52

49

1

   

N = 40

Polígono de frecuencias se realiza para cualquier tipo de variable. Es el polígono que se

Polígono de frecuencias se realiza para cualquier tipo de variable. Es el polígono que se forma al unir los puntos medios de las barras tanto en histogramas como en diagramas de barras.

Es el polígono que se forma al unir los puntos medios de las barras tanto en
Es el polígono que se forma al unir los puntos medios de las barras tanto en
Es el polígono que se forma al unir los puntos medios de las barras tanto en

Diagrama de sectores es un gráfico donde se suele representar los porcentajes. Cada sector es proporcional al porcentaje que representa. Los grados de cada sector es:

grados=360×h

i

representa. Los grados de cada sector es: grados=360×h i Población de la encuesta por edad 12

Población de la encuesta por edad

12 Años

6% 9% 15% 21% 15% 15% 19%
6%
9%
15%
21%
15%
15%
19%

13 Años

14 Años

15 Años

16 Años

17 Años

18 Años

Pictograma es un gráfico con figuras

Pictograma es un gráfico con figuras
Pictograma es un gráfico con figuras
Pictograma es un gráfico con figuras
Pictograma es un gráfico con figuras

Pirámide de población consiste en dos histogramas, uno para

hombres y otro para mujeres, correspondientes a habitantes de

una misma comunidad más o menos extensa, repartidos por edades. Es útil para estudiar su situación demográfica y buscar explicaciones a situaciones presentes , pasadas y futuras.

explicaciones a situaciones presentes , pasadas y futuras. P i r á m i d e
explicaciones a situaciones presentes , pasadas y futuras. P i r á m i d e

Pirámide de población Perú 1900

i r á m i d e d e p o b l a c i

Pirámide de población Perú 2005

PASO 3: ANALISIS DE DATOS a)Descripción de datos b)Prueba de hipótesis

PASO 3: ANALISIS DE DATOS

a)Descripción de datos

b)Prueba de hipótesis

PASO 3: ANALISIS DE DATOS Para este análisis se utilizan los parámetros estadísticos: a) Medidas

PASO 3: ANALISIS DE DATOS

Para

este

análisis

se

utilizan

los

parámetros

estadísticos:

a) Medidas de centralización MEDIA, MEDIANA y MODA

b) Medidas de dispersión

RECORRIDO, DESVIACIÓN MEDIA,.

c) Medidas de posición PERCENTILES y CUARTILES

Medidas de dispersión

RECORRIDO, DESVIACIÓN MEDIA,.

MEDIA ARITMÉTICA es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos.

dividir el resultado entre el número total de datos . Si los datos vienen agrupados en
dividir el resultado entre el número total de datos . Si los datos vienen agrupados en
dividir el resultado entre el número total de datos . Si los datos vienen agrupados en

Si los datos vienen agrupados en una tabla de frecuencias, la

expresión de la media es:

en una tabla de frecuencias, la expresión de la media es: Evidentemente esta medida sólo se
en una tabla de frecuencias, la expresión de la media es: Evidentemente esta medida sólo se

Evidentemente esta medida sólo se puede hallar para variables cuantitativas.

Ejemplo de cálculo de media:

Si Ud. Conoce el tiempo que le lleva arreglarse por la mañanas, podrá planear mejor su inicio del día y reducir al mínimo cualquier retraso (o adelanto) para llegar a su destino. A lo largo de 10 días hábiles consecutivos, Ud. recaba los tiempos en minutos que le lleva arreglarse que se muestran a continuación.

que le lleva arreglarse que se muestran a continuación. Día 1 2 3 4 5 6

Día

1

2

3

4

5

6

7

8

9

10

Tiempo

39

29

43

52

39

44

40

31

44

35

(min)

= 396

10 = 39.6

Ejemplo de cálculo de media:

En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media

que muestra la tabla. Calcula la puntuación media   x i f i x i ·
 

x

i

f

i

x i · f i

[10, 20)

15

1

15

[20, 30)

25

8

200

[30,40)

35

10

350

[40, 50)

45

9

405

[50, 60)

55

8

440

[60,70)

65

4

260

[70, 80)

75

2

150

   

42

1 820

[50, 60) 55 8 440 [60,70) 65 4 260 [70, 80) 75 2 150    

MODA es el valor que tiene mayor frecuencia absoluta (M o ). Se puede hallar para cualquier tipo de variable, aunque para variables cuantitativas es poco útil.

La moda de los tiempos en minutos que le lleva arreglarse que se muestran a continuación la distribución:

Tiempo

29

31

35

39

39

40

43

44

44

52

(m)

M o = 39, 44

Si en un grupo hay dos o varias puntuaciones con la misma

frecuencia y esa frecuencia es la máxima, la distribución es

bimodal o multimodal, es decir, tiene varias modas.

MEDIANA

es el valor que ocupa el lugar central de

todos los datos cuando éstos están ordenados de menor a mayor (M e )

éstos están ordenados de menor a mayor ( M e ) La mediana se puede hallar

La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana con pocos datos

1.

Ordenamos los datos de menor a mayor.

2.

Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.

3.

Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

29, 31,35,39,39,40,43,44,44,52

Me= 39.5

Cálculo de la mediana para datos agrupados   f i F i [60, 63) 5

Cálculo de la mediana para datos agrupados

 

f

i

F

i

[60, 63)

5

5

[63, 66)

18

23

[66, 69)

42

65

[69, 72)

27

92

[72, 75)

8

100

 

100

 

Se divide N entre dos para ver dónde está el centro

100/2 = 50

Se busca en la columna de F i dónde estaría 50.

Luego

mediano será:

el

valor

o

intervalo

Clase de la mediana: [66, 69)

RELACIÓN ENTRE MEDIA Y MEDIANA a) Si x=M e , la distribución es completamente simétrica

RELACIÓN ENTRE MEDIA Y

MEDIANA

a) Si

x=M

e

, la distribución es completamente simétrica

b)

x

M

Si

los valores de

y

e son próximos, la distribución es

aproximadamente simétrica.

c) Si los valores de

asimétrica

x y

M

e son poco próximos, la distribución es

es aproximadamente simétrica. c) Si los valores de asimétrica x y M e son poco próximos,

ACTIVIDAD 1

a) A partir de las siguientes gráficas realiza la tabla de frecuencias

y calcula MEDIA, MEDIANA y MODA de cada una de las distribuciones.

b) Indica tipo de variable y tipo de gráfico en cada caso.

c) Indica cómo es simétricamente cada una de ellas.

b) Indica tipo de variable y tipo de gráfico en cada caso. c) Indica cómo es
b) Indica tipo de variable y tipo de gráfico en cada caso. c) Indica cómo es

ACTIVIDAD 2

En un restaurant se da a elegir a la clientela entre varios primeros platos. El resultado de las distintas elecciones nos lo da el siguiente gráfico.

a) Indica tipo de variable, y tipo de gráfica.

b) Sabiendo que se le ha preguntado a 240 personas, realiza la tabla de frecuencias y calcula las medidas de centralización que más sentido tengan.

10% 23% 22% 15% 30%
10%
23%
22%
15%
30%

Espaguetisy calcula las medidas de centralización que más sentido tengan. 10% 23% 22% 15% 30% Cocido

Cocidolas medidas de centralización que más sentido tengan. 10% 23% 22% 15% 30% Espaguetis Lentejas Gazpacho

Lentejascalcula las medidas de centralización que más sentido tengan. 10% 23% 22% 15% 30% Espaguetis Cocido

Gazpachocalcula las medidas de centralización que más sentido tengan. 10% 23% 22% 15% 30% Espaguetis Cocido

Paellalas medidas de centralización que más sentido tengan. 10% 23% 22% 15% 30% Espaguetis Cocido Lentejas

Medidas de dispersión

RECORRIDO O RANGO, VARIANZA, DESVIACIÓN TIPICA

dispersión RECORRIDO O RANGO, VARIANZA, DESVIACIÓN TIPICA Recorrido es la diferencia entre los valores extremos, es

Recorrido es la diferencia entre los valores extremos, es decir, entre el mayor valor y el menor

RECORRIDO = Valor mayor - Menor valor

Medidas de dispersión RECORRIDO O RANGO, VARIANZA, DESVIACIÓN TIPICA
Medidas de dispersión
RECORRIDO O RANGO, VARIANZA, DESVIACIÓN TIPICA

VARIANZA

Es la suma de las diferencias con respecto a la media elevada al cuadrado

y dividida por el tamaño de la muestra menos 1.

al cuadrado y dividida por el tamaño de la muestra menos 1. DESVIACION ESTANDAR Es la

DESVIACION ESTANDAR Es la raíz cuadrada de la suma de los cuadrados de las diferencias con respecto a la media dividida por el tamaño de la muestra menos 1.

de la suma de los cuadrados de las diferencias con respecto a la media dividida por
Medidas de dispersión RECORRIDO O RANGO, VARIANZA, DESVIACIÓN TIPICA Xi - X Xi - X
Medidas de dispersión
RECORRIDO O RANGO, VARIANZA, DESVIACIÓN TIPICA
Xi - X
Xi - X
Tiempo X
29
-10.6
112.36
31
-8.6
73.96
35
-4.6
21.16
39
-0.6
0.36
39
-0.6
0.36
40
0.4
0.16
43
3.4
11.56
44
4.4
19.36
44
4.4
19.36
52
12.4
153.76
Media
39.6
Varianza
45.82
Desviacion tipica
6.77

Los tiempos necesarios para arreglarse varia en 6.77 minutos de la media de 39.6; es decir varia entre 32.83 y 46.37 minutos. La varianza esta en minutos cuadrados.

Taller: Edad de los doctorandos
Taller: Edad de los doctorandos

Elabore una tabla de frecuencia y

calcule la media aritmética, mediana,

moda, varianza y desviación típica de las edades de los estudiantes del IX

semestre de la FAE UNCP. Interprete los resultados.

Ejemplo: Variable Calidad de servicio
Ejemplo: Variable Calidad de servicio

Moda: 3.05

Media: 3.14

Mediana: 3.16

Desviación estándar: 0.62

Punto más alto observado (máximo): 5

Punto más baja observada (mínimo): 1

Rango: 4

CALIDAD

PUNTAJE

EXCELENTE

5

BUENA

4

REGULAR

3

DEFICIENTE

2

MUY DEFICIENTE

1

Figura 6: Calidad de servicio en la administración académica de la UNCP

Media (3. 14)

Moda (305)

1

2

3

4

5

académica de la UNCP Media (3. 14) Moda (305) 1 2 3 4 5 Rango (4)

Rango (4)

Desviación

estándar

(promedio de

desviación)

5 Rango (4) Desviación estándar (promedio de desviación) 0.62 La calidad de los servicios administrativos en

0.62

La calidad de los servicios administrativos en la UNCP es regular. La categoría que más se repitió fue 3.05. Cincuenta por ciento de los sujetos está por encima del valor 3.16 y el restante cincuenta por ciento se sujeta por debajo de este valor (mediana) en promedio los sujetos se ubican en 3.14 (favorable). Asimismo se desvían de 3.14, en promedio, 0.62 unidades de escala. Hay usuarios que calificaron la calidad como muy deficiente y otros como excelente.

Contacto:

Espinozaisac@yahoo.es Cel: 964913378

RPM: #961650207

http://www.youtube.com/watch?v=g4TFaDVwQvA&feature=related