Вы находитесь на странице: 1из 99
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “ANTENOR ORREGO ESPINOZA” ESTADÍSTICA CON SPSS Ing. ALEJANDRO

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO

“ANTENOR ORREGO ESPINOZA”

SUPERIOR TECNOLÓGICO PÚBLICO “ANTENOR ORREGO ESPINOZA” ESTADÍSTICA CON SPSS Ing. ALEJANDRO CALLAÑAUPA SULCA 2018

ESTADÍSTICA CON SPSS

Ing. ALEJANDRO CALLAÑAUPA SULCA

2018

ESTADÍSTICA CON SPSS

2018,

Autor: Ing. Alejandro Callañaupa Sulca

Esta publicación no puede ser reproducida, ni en todo o en parte, ni registrada en o transmitida por un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea mecánico, fotoquímico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso previo del autor

fotocopia o cualquier otro, sin el permiso previo del autor Es una marca registrada. Este es

Es una marca registrada.

Este es un material educativo sólo para uso interno del Instituto de Educación Superior Tecnológico Público “Antenor Orrego Espinoza”

ESTADÍSTICA CON SPSS

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “ANTENOR ORREGO ESPINOZA” I: CONCEPTOS BÁSICOS Ing. ALEJANDRO

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO

“ANTENOR ORREGO ESPINOZA”

I:

CONCEPTOS

BÁSICOS

Ing. ALEJANDRO CALLAÑAUPA SULCA

I. CONCEPTOS BÁSICOS:

INTRODUCCIÓN:

Estadística, es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. Los datos son generalmente imperfectos en el sentido que aun cuando posean información útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan extraer información a partir de los datos observados para comprender mejor las situaciones que los mismos representan. Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar más allá del hecho que la teoría matemática que las sustentan puede ser muy compleja. Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos. Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto las características sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las áreas del conocimiento.

Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una investigación, desde el comienzo hasta el final. Existe el convencimiento de que la estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la elección del método de análisis para un problema, se basa tanto en el tipo de datos disponibles como en la forma en que fueron recolectados. ¿Por qué estudiar estadística? Porque los datos estadísticos y las conclusiones obtenidas aplicando metodología estadística ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadística invade cada vez más cualquier investigación relativa a salud pública. Este crecimiento, probablemente relacionado con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodología estadística haya sido correctamente utilizada, o peor aún, que sea válida. ¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos en un trabajo científico o en un informe técnico?

Porque las conclusiones pueden ser incorrectas.

Porque no todos los lectores están en condiciones de detectar el error, y

esto genera un importante “ruido” en la bibliografía científica (Aunque este argumento tiende a sobredimensionar la importancia de un paper, existe considerable evidencia que los lectores sin formación metodológica tienden a aceptar como válidas las conclusiones de los trabajos publicados, en especial si se encuentran publicados en revistas prestigiosas).

El estudio de la Estadística y el modo de pensamiento que se genera a partir del mismo, capacita a la persona para evaluar objetiva y efectivamente si la información que recibe (vía tablas, gráficos, porcentajes, tasas, etc.) es relevante y adecuada. Por supuesto, la interpretación de cualquier problema requiere, no sólo de conocimientos metodológicos sino también, de un profundo conocimiento del tema. Aun cuando una persona no esté interesada en especializarse en estadística, un entrenamiento básico en el tema permite una mejor comprensión de la información cuantitativa.

1.1

DEFINICIÓN DE ESTADÍSTICA.- “Es una ciencia que proporciona un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar e

interpretar el comportamiento de los “datos” con respecto a una característica materia de estudio o investigación”.

1.2 DIVISIÓN DE LA ESTADÍSTICA:

a) Estadística Descriptiva.- Es el conjunto de métodos que implican la recolección, presentación y caracterización de un conjunto de datos a fin de describir en forma apropiada las diversas características de éstas. Es decir, un estudio estadístico se considera “descriptivo” cuando sólo se analiza y describe los datos. Ejemplo:

Un gerente de personal desea conocer las aptitudes de cinco secretarias que trabajan en una dependencia particular de una compañía. Se aplica una prueba de aptitudes a las cinco secretarias y las calificaciones son: 85, 90, 93, 82 y 95 puntos. Supongamos que la medida estadística que emplea el gerente de personal es la aptitud promedio ó media aritmética, la cual

es la suma de los valores observados dividida entre el número de observaciones. Entonces, la calificación promedio es:

85

90 93 82 95
90
93
82
95

5

445

5

la calificación promedio es: 85 90 93 82 95 5 445 5 89 puntos El resultado

89 puntos

El resultado se limita a los datos obtenidos, en este caso particular y no implica ninguna generalización acerca de las aptitudes de las secretarias de otras oficinas de la misma compañía. Es decir, el gerente está usando estadística para describir aptitudes de las secretarias de esa oficina. Este método es de naturaleza descriptiva, debido a que el promedio condensa y describe la información obtenida. b) Estadística Inferencial.- Es el conjunto de métodos o técnicas que posibilitan la generalización o toma de las decisiones en base a una información parcial obtenida mediante técnicas descriptivas. Ejemplo:

Suponga ahora en el ejemplo anterior, que el gerente de personal desea conocer la aptitud promedio de todas las secretarias de la compañía, pero carece de tiempo o de los recursos para aplicar una prueba de aptitud a todas ellas. Entonces decide usar la aptitud promedio de las cinco secretarias para estimar la aptitud promedio de todas las secretarias de la compañía. El proceso de estimar esta aptitud promedio global será un problema de Inferencia estadística.

1.3 APLICACIONES DE LA ESTADÍSTICA:

La Estadística proporciona un conjunto de métodos aplicables en todas las áreas científicas donde se acumulan, se analizan y se interpretan datos. Resulta, pues muy difícil nombrar áreas donde no se aplica. Citaremos aquí brevemente algunos campos en los cuales los métodos estadísticos juegan un papel principal, como: Salud y Medicina, Biología, Economía, Administración, Contabilidad, Ingeniería, etc. y en la Investigación Científica. a) En Salud y Medicina.- Las estadísticas de salud incluyen toda información numérica relacionada de modo directo con los problemas de salud, concebidos en una escala social. Podemos citar muchos ejemplos que muestran lo necesario que son las estadísticas de salud, lado a lado con los métodos para su análisis e interpretación para fomentar y desarrollar una política sanitaria adecuada. Las siguientes interrogantes y muchas más, que encuentran respuesta en las estadísticas de salud especializada llamada “Bioestadística”, son una muestra de ellos:

Estadística con SPSS

Pag. N° 7

Ing. Alejandro Callañaupa Sulca

¿Cuál es la causa más importante de muerte en ésta región: el cáncer?, la tuberculosis?, los accidentes de tránsito?.

¿A qué edad resulta más alta la mortalidad y por cuál enfermedad?.

¿En qué zona, determinado tipo de enfermedad presenta una incidencia mucho más elevada que la incidencia promedio?

¿Qué condiciones prevalecen en esas zonas?.

¿Existen algunas áreas específicas ó algunas épocas en que se registran preferentes brotes de alguna enfermedad?.

Algunos usos principales de las estadísticas de la salud son las siguientes:

Describir el nivel de salud de una comunidad.

Diagnosticar las enfermedades de una comunidad.

Encontrar soluciones a los problemas de salud.

Determinar prioridad para los programas de salud, etc.

Finalmente, el proceso científico en medicina, que tiene lugar (como en

todas las ciencias) como resultado de la investigación, encuentra también en la ciencia Estadística un instrumento de incalculable valor.

b) En Economía.- La Estadística constituye uno de los pilares d la aplicación de la teoría económica. Se utiliza en la descripción e fenómenos económicos, en la estimación de las relaciones económicas, en la verificación de las teorías económicas y en la predicción y previsión de las variables económicas.

c) En Biología.- La estadística se puede utilizar para estimar el tamaño real de la población de una especie animal particular, la propagación de bacterias, en mejorar la raza de los animales.

d) En el desarrollo de la Investigación.-El desarrollo del conocimiento en la ciencia, se caracteriza porque su ejecución se lleva a cabo según un método: ”El método científico”. La aplicación de este método es lo que diferencia al conocimiento científico del conocimiento ordinario.

1.4 POBLACIÓN Y MUESTRA:

a) Población.-. total de sujetos o unidades de análisis de interés en el estudio. Según Moya se define como “la colección de todos los individuos, objetos u observaciones que poseen al menos una característica común”. EJEMPLOS:

a) Las edades de los estudiantes del Perú.

b) Los pesos de los melones de una cosecha de la Cooperativa Agraria “Los melones”.

b) Muestra.- total de sujetos o unidades de análisis de interés en el estudio. .Es cualquier subconjunto de los sujetos o unidades de análisis de la población, en el cual se recolectarán los datos. Según Moya se define como “una parte o un subconjunto representativo de la población”. Y al proceso de obtener la muestra se llama muestreo.

1.5 TIPOS DE DATOS O VARIABLES

En este capítulo presentaremos los distintos tipos de datos o variables que podemos encontrar en una investigación y comentaremos algunas estrategias para el manejo de datos con una computadora.

Características de los conjuntos de datos:

En lo que sigue denominaremos:

de los conjuntos de datos: En lo que sigue denominaremos: UNIDAD DE ANÁLISIS O DE OBSERVACIÓN.

UNIDAD DE ANÁLISIS O DE OBSERVACIÓN. - Al objeto bajo estudio. El mismo puede ser una persona, una familia, un país, una región, una institución o en general, cualquier objeto.

VARIABLE.- A cualquier característica de la unidad de observación que interese registrar, la que en

VARIABLE.- A cualquier característica de la unidad de observación que interese registrar, la que en el momento de ser registrada puede ser transformada en un número. VALOR DE UNA VARIABLE, OBSERVACIÓN o MEDICIÓN.- Al número que describe a la característica de interés en una unidad de observación particular. CASO o REGISTRO.- Al conjunto de mediciones realizadas sobre una unidad de observación. Consideremos el siguiente ejemplo:

unidad de observación. Consideremos el siguiente ejemplo: Caso Sexo Lugar Nacimiento PAS 1 F J1
unidad de observación. Consideremos el siguiente ejemplo: Caso Sexo Lugar Nacimiento PAS 1 F J1

Caso

Sexo

Lugar Nacimiento

PAS

1

F

J1

110

2

M

J2

120

3

M

J2

136

OBSERVACIÓN

2 M J2 28 120 REGISTRO o CASO VARIABLE Sexo, lugar nacimiento, edad, presión arterial sistólica son variables que describen a una persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que estas variables toman para esta persona. Cuando se diseña una investigación, se intenta estudiar de qué modo una o más variables (variables independientes) afectan a una o más variables de interés (variables dependientes). Por ejemplo en un experimento, el investigador impone a los sujetos condiciones (variable independiente) y estudia el efecto de la misma sobre una característica del sujeto (aparición de una cierta característica, modificación de una condición, etc.). Un paso importante al comenzar a manejar un conjunto de datos es identificar cuántas variables se han registrado y cómo fueron registradas esas variables, lo que permitirá definir la estrategia de análisis. En el ejemplo anterior algunas de las variables son números y otras son letras que indican categorías. A continuación se presenta una clasificación de los distintos tipos de datos que podemos encontrar. Debe notarse que distintos autores usan distintos criterios para clasificar datos por lo que presentaremos aquí un criterio que resulta útil desde el punto de vista de seleccionar el método de análisis estadístico más apropiado para los mismos. Liliana Orellana Marzo 2001, 5

TIPOS DE DATOS:

DATOS CATEGÓRICOS O CUALITATIVOS Las variables categóricas resultan de registrar la presencia de un atributo.

Las categorías de una variable cualitativa deben ser definidas claramente durante la etapa de diseño de la investigación y deben ser mutuamente excluyentes y exhaustivas. Esto significa que cada unidad de observación debe ser clasificada sin ambigüedad en una y solo una de las categorías posibles y que existe una categoría para clasificar a todo individuo. En este sentido, es importante contemplar todas las posibilidades cuando se construyen variables categóricas, incluyendo una categoría tal como No sabe / No

contesta, o No registrado u Otras, que asegura que todos los individuos observados serán clasificados con el criterio que define la variable.

Los datos categóricos se clasifican en dicotómicos, nominales y ordinales.

Dos categorías (DICOTÓMICOS) El individuo o la unidad de observación puede ser asignada a solo una de dos categorías.

En general, se trata de presencia - ausencia del atributo y es ventajoso asignar código 0 a la ausencia y 1 a la presencia.

Ejemplos:

1) varón mujer 2) embarazada - no embarazada 3) fumador - no fumador 4) hipertenso normotenso Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categorías, mientras

que 3) y 4) son simplificaciones de categorías más complejas. En 3) no está claro donde se asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte para armar una variable categórica a partir de una variable numérica.

Más de dos categorías CATEGORÍAS NOMINALES No existe orden obvio entre las categorías. Ejemplos: país de origen, estado civil, diagnóstico. CATEGORÍAS ORDINALES Existe un orden natural entre las categorías. Ejemplos:

1) Tabaquismo: No fuma / ex-fumador / fuma 10 cigarrillos diarios / fuma > 10 cigarrillos diarios

2) Severidad de la patología: Ausente / leve / moderado / severo. Aún cuando los datos ordinales puedan ser codificados como números como en el caso de estadios de cáncer de mama de I a IV, no podemos decir que una paciente en el estadio IV

a) Variable Cualitativa:Nominal y Ordinal.- Se llama así, cuando la variable está

asociada a una característica cualitativa. Es decir, son variables cuyos valores son cualidades que presenta la población. Ejemplo:

La variable “Profesión” puede adoptar las modalidades: Ingeniero, Médico, Biólogo, Economista, etc. Las Variables Cualitativas se clasifican en: Nominales y Ordinales. a.1) Variable Cualitativa Nominal.- Son aquellas que establecen la distinción de los elementos en las categorías sin implicar orden entre ellas. Ejemplo:

1. Clasificar a un grupo de individuos por sexo:

Masculino Femenino

2. Por Estado civil:

Soltero

Casado

Viudo

Etc.

a.2) Variable Cualitativa Ordinal.- Son aquellas que agrupan a los objetos, individuos, en categorías ordenadas, para establecer relaciones comparativas. Es decir, son susceptibles de ordenación pero no de medición cuantitativas. Ejemplo:

1. Clasificar a un grupo de personas por su hábito de fumar. Se procede así:

No fumadores Fumadores leves Fumadores moderados Fumadores severos.

2. Clasificar a un grupo de individuos por su grado de instrucción. Se procede como sigue:

Analfabeto

Primaria

Secundaria

Superior.

b) Variable Cuantitativa: Discreta y Continua .- Se llama así, cuando la variable

está asociada a una característica cuantitativa. Es decir, éstas surgen cuando se puede establecer cuánto ó en qué cantidad se posee una determinada característica.

Ejemplos:

Son variables cuantitativas:

Ingreso por familia Longitud Tiempo Número de accidentes de tránsito Peso. Etc.

Las variables cuantitativas se clasifican en discretas y contínuas. b.1) Variable Cuantitativa Discreta.- Son aquellas que surgen por el procedimiento de conteo. Es decir, las variables cuantitativas discretas suelen tomar valores enteros. Ejemplo:

Número de hijos por familia. Número de estudiantes por aula en el IESTPAOE. Número de habitantes por distrito. Etc. b.2) Variable Cuantitativa Contínua.- Son aquellas que surgen cuando se mide alguna característica. Ejemplo:

El peso La estatura. El Sueldo familiar.

1.6 CÁLCULO DEL TAMAÑO DE LA MUESTRA

Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:

Donde:

de la muestra suele utilizarse la siguiente fórmula: Donde: n = el tamaño de la muestra.

n = el tamaño de la muestra.

N = tamaño de la población.

Desviación estándar de la población que, generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5.

Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si

no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale a 2,58, valor que queda a criterio del investigador.

e = Límite aceptable de error muestral que, generalmente cuando no se tiene

su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor

que queda a criterio del encuestador. La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la estimación del intervalo de confianza para la media, la cual es:

del intervalo de confianza para la media, la cual es: De donde el error es: De
del intervalo de confianza para la media, la cual es: De donde el error es: De

De donde el error es:

confianza para la media, la cual es: De donde el error es: De esta fórmula del

De esta fórmula del error de la estimación del intervalo de confianza para la media se despeja la n, para lo cual se sigue el siguiente proceso:

Elevando al cuadrado a ambos miembros de la fórmula se obtiene:

al cuadrado a ambos miembros de la fórmula se obtiene: Multiplicando fracciones: Eliminando denominadores:

Multiplicando fracciones:

de la fórmula se obtiene: Multiplicando fracciones: Eliminando denominadores: Eliminando paréntesis:

Eliminando denominadores:

obtiene: Multiplicando fracciones: Eliminando denominadores: Eliminando paréntesis: Transponiendo n a la izquierda:

Eliminando paréntesis:

Eliminando denominadores: Eliminando paréntesis: Transponiendo n a la izquierda: Factor común de n:

Transponiendo n a la izquierda:

Eliminando paréntesis: Transponiendo n a la izquierda: Factor común de n: Despejando n: Ordenando se obtiene

Factor común de n:

Despejando n:

n a la izquierda: Factor común de n: Despejando n: Ordenando se obtiene la fórmula para

Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:

EJEMPLOS ILUSTRATIVOS 1) Calcular el tamaño de la muestra de una población de 500 elementos

EJEMPLOS ILUSTRATIVOS 1) Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 95% Solución:

Realizando el gráfico que representa el 95% de confianza se obtiene:

el gráfico que representa el 95% de confianza se obtiene: Se tiene N=500, para el 95%

Se tiene N=500, para el 95% de confianza Z = 1,96, y como no se tiene los demás valores se tomará , y e = 0,05. Reemplazando valores de la fórmula se tiene:

, y e = 0,05. Reemplazando valores de la fórmula se tiene: Los cálculos en Excel
, y e = 0,05. Reemplazando valores de la fórmula se tiene: Los cálculos en Excel

Los cálculos en Excel se muestran en la siguiente figura:

Los cálculos en Excel se muestran en la siguiente figura: Estadística con SPSS Pag. N° 13

2) Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 99% Solución:

Realizando el gráfico que representa el 99% de confianza se obtiene:

2

el gráfico que representa el 99% de confianza se obtiene: 2 Se tiene N=500, para el

Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás

valores se tomará , y e = 0,05. Reemplazando valores en la fórmula se obtiene:

y e = 0,05. Reemplazando valores en la fórmula se obtiene: Los cálculos en Excel se
y e = 0,05. Reemplazando valores en la fórmula se obtiene: Los cálculos en Excel se
y e = 0,05. Reemplazando valores en la fórmula se obtiene: Los cálculos en Excel se

Los cálculos en Excel se muestran en la siguiente figura:

Los cálculos en Excel se muestran en la siguiente figura: PRÁCTICA GRUPAL N° 01 1) Proponga

PRÁCTICA GRUPAL N° 01 1) Proponga 3 ejemplos de población, muestra y elemento. 2) Calcule el tamaño de la muestra para una población de 500 con un error de muestreo del 5% y nivel de confianza del 95%.

Respuesta: 217 3) Calcule el tamaño de la muestra para una población de 500 con un error de muestreo del 5% y nivel de confianza del 99%.

Respuesta: 285

4) Calcule el tamaño de la muestra para una población de 500 con un error de muestreo del 9% y nivel de confianza del 95%.

Respuesta: 96 5) Calcule el tamaño de la muestra para una población de 500 con un error de muestreo del 9% y nivel de confianza del 99%.

Respuesta: 145

1.7 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

a) PARA VARIABLES CUALITATIVAS O CUANTITATIVAS DISCRETAS:

Se explicará en el aula de clases.

b) PARA VARIABLES CUANTITATIVAS CONTINUAS:

Para la construcción de la tabla de frecuencias, se deben seguir los siguientes pasos:

1°) Amplitud del recorrido ®.- Es la longitud del recorrido del conjunto de datos. O sea:

R X X max min
R X
X
max
min

………………………………. ( 01)

Donde:

X min = es el valor mínimo de las observaciones. X max = es el valor máximo de las observaciones

2°) Número de clases (m).- Se determina según la Regla de Sturges:

m

1
1
m 1 3.3log( n )

3.3log( n)

………………………(02)

Siendo:

log = logaritmo decimal.

n = el tamaño de la muestra.

m = es el número de clases, que debe ser un número entero.

3°) Amplitud, Ancho o Longitud de los intervalos de clase©.-En lo posible es conveniente que los intervalos de clase sean de igual amplitud, la cual está dado por:

……………………………(03)de clase sean de igual amplitud, la cual está dado por: El ancho de clase debe

El ancho de clase debe tener la misma cantidad de decimales que los datos originales

4°) Determinar la marca de clase (Y i ):

( L L ) Y i s i 2
(
L
L
)
Y
i
s
i
2

………………(04)

5°) Determinar los límites reales de clase:

Cálculo del Límite Superior de la última clase:

L s (max)

L s (max) X min ( c m )

X

min

L s (max) X min ( c m )

(

c m

)

…………………………(05)

Exceso ( E ) L X s (max) max
Exceso ( E ) L X s (max) max

Exceso( E ) L X

s (max)

max

………………(06)

Este exceso debe prorratearse entre los valores de los límites reales inferior y superior:

E L i X min 2 E L X s max 2 L L c
E
L i X
min
2
E
L
X
s
max
2
L
L
c
s
i

……………………………………………………………………(07)

…………………………………………………………………… (08)

………………………………………………………………(09)

6°) Cálculo de las frecuencias absolutas:

a) La Frecuencia Absoluta (f i ) de un valor X i es el número de veces que el valor está en el conjunto (X 1 , X 2 , …, X n ), resultante del conteo. La suma de las frecuencias absolutas de todos los elementos diferentes del

conjunto debe ser el número total de sujetos n. Si el conjunto tiene k números (o categorías) diferentes, entonces:

k n f i i 1
k
n
f
i
i
1

…………………………………… (10)

b) La Frecuencia Absoluta Acumulada (Fi) es la suma de las frecuencias absolutas de los valores menores o iguales a Xi; es decir:

F i =f 1 +f 2 + … +f i

O también:

i F f i i i 1
i
F
f
i
i
i
1

…………………… (11)

F F f i i 1 i
F F
f
i
i
1
i

……………….(12)

7°) Cálculo de las frecuencias relativas:

a) La Frecuencia Relativa (h i ) de un valor X i , es la proporción de valores iguales a X i en el conjunto de datos (X 1 , X 2 , … , X n ). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el número total de elementos n:

……………………(13) 3)

número total de elementos n: ……………………(1 3) La Frecuencia Relativa son valores entre 0 y 1:
número total de elementos n: ……………………(1 3) La Frecuencia Relativa son valores entre 0 y 1:

La Frecuencia Relativa son valores entre 0 y 1: 0 h i 1 La suma de las frecuencias relativas de todos los sujetos es 1. Supongamos que en el conjunto tenemos k números (o categorías) diferentes, entonces:

k h h h h 1 i 1 2 k i 1
k
h
h
h
h
1
i
1
2
k
i
1

……………………………………………………(14) 4)

b) La Frecuencia Relativa Acumulada(H i ) de un valor X i es la proporción de valores iguales o menores a X i en el conjunto de datos (X 1 , X 2 , … , X n ). De hecho, la frecuencia relativa acumulada de un elemento es la suma de las frecuencias relativas de los elementos menores o iguales a él, es decir:

H

i

h h h 1 2 i
h
h
h
1
2
i
i H h i i i 1
i
H
h
i
i
i
1

………………………………………………………(15)

También se calcula así:

F H i i n
F
H
i
i
n

O así:

…………………………………………………………(16)

H H h i i 1 i
H H
h
i
i
1
i

……………………………………………………(17)

c) La Frecuencia Relativa Porcentual (h i %) se calcula según la siguiente ecuación:

h % 100h i i
h %
100h
i
i

…………………………………… (18)

h % 100% i
h %
100%
i

…………………………… (19)

d)

La

siguiente ecuación:

Frecuencia

Relativa

Porcentual

H

i

%

H 1 % h % i i
H
1 %
h
%
i
i

…………………………(20)

Acumulada

(Hi%).-

Se

También se puede calcular así:

H % 100 H i i
H
%
100
H
i
i

………………….………(21)

calcula

según

la

8°) Confeccionar la tabla de distribución de frecuencias:

Se procederá a explicar el procedimiento con el siguiente ejemplo.

EJEMPLO N° 1:

Se han registrado 50 0bservaciones referentes a los pesos de 50 lingotes de acero producidos por SIDERPERÚ, la muestra fue obtenida de la producción semanal y las unidades están dadas en kg.

94.3

93.0

95.5

95.3

92.4

94.4

92.8

93.2

93.6

95.5

92.9

93.6

95.7

93.8

94.8

93.9

92.7

91.6

93.6

93.7

94.2

95.7

94.7

94.3

92.7

94.5

96.2

95.4

93.7

|91.9

94.7

92.7

95.0

93.0

92.9

93.7

92.7

93.3

94.6

96.4

94.1

93.7

94.2

93.7

94.0

93.9

93.6

94.6

92.3

94.4

Construir la tabla de distribución de frecuencias e interprete lo valores: f 2 , f 4 , F 1 , h 4 y h 6 %

Solución del Ejemplo N° 1:

, F 1 , h 4 y h 6 % Solución del Ejemplo N° 1: R

R X

max

X, h 4 y h 6 % Solución del Ejemplo N° 1: R X max min

min

4 y h 6 % Solución del Ejemplo N° 1: R X max X min 96.4

96.4

91.6y h 6 % Solución del Ejemplo N° 1: R X max X min 96.4 4.8

4.86 % Solución del Ejemplo N° 1: R X max X min 96.4 91.6 // m

//

m

C

1
1
del Ejemplo N° 1: R X max X min 96.4 91.6 4.8 // m C 1

3.3log( n)

1
1
N° 1: R X max X min 96.4 91.6 4.8 // m C 1 3.3log( n

3.3log(50)

R

max X min 96.4 91.6 4.8 // m C 1 3.3log( n ) 1 3.3log(50) R
max X min 96.4 91.6 4.8 // m C 1 3.3log( n ) 1 3.3log(50) R

4.8

m 7

96.4 91.6 4.8 // m C 1 3.3log( n ) 1 3.3log(50) R 4.8 m 7

0.69

91.6 4.8 // m C 1 3.3log( n ) 1 3.3log(50) R 4.8 m 7 0.69

0.7

//

1
1
// m C 1 3.3log( n ) 1 3.3log(50) R 4.8 m 7 0.69 0.7 //

3.3(1.6990)

L s (max)

3.3log(50) R 4.8 m 7 0.69 0.7 // 1 3.3(1.6990) L s (max) X min (

X

min

R 4.8 m 7 0.69 0.7 // 1 3.3(1.6990) L s (max) X min ( c

(

c m

)

91.64.8 m 7 0.69 0.7 // 1 3.3(1.6990) L s (max) X min ( c m

7 0.69 0.7 // 1 3.3(1.6990) L s (max) X min ( c m ) 91.6

0.7(7)

0.7 // 1 3.3(1.6990) L s (max) X min ( c m ) 91.6 0.7(7) 96.5

96.5

Exceso E L X

s (max)

(

)

X min ( c m ) 91.6 0.7(7) 96.5 Exceso E L X s (max) (
X min ( c m ) 91.6 0.7(7) 96.5 Exceso E L X s (max) (

max

96.5X min ( c m ) 91.6 0.7(7) 96.5 Exceso E L X s (max) (

( c m ) 91.6 0.7(7) 96.5 Exceso E L X s (max) ( ) max

96.4

m ) 91.6 0.7(7) 96.5 Exceso E L X s (max) ( ) max 96.5 96.4

0.1

91.6 0.7(7) 96.5 Exceso E L X s (max) ( ) max 96.5 96.4 0.1 L

L i X

L

X

96.5 Exceso E L X s (max) ( ) max 96.5 96.4 0.1 L i X

s

min

max

E L X s (max) ( ) max 96.5 96.4 0.1 L i X L X
E L X s (max) ( ) max 96.5 96.4 0.1 L i X L X

2

E

L X s (max) ( ) max 96.5 96.4 0.1 L i X L X s
L X s (max) ( ) max 96.5 96.4 0.1 L i X L X s

0.1

91.6

( ) max 96.5 96.4 0.1 L i X L X s min max 2 E

2 2

E

2

96.4

96.4 0.1 L i X L X s min max 2 E 0.1 91.6 2 2

0.1

96.4 0.1 L i X L X s min max 2 E 0.1 91.6 2 2

91.55

L i X L X s min max 2 E 0.1 91.6 2 2 E 2

96.45

91.6i X L X s min max 2 E 0.1 91.6 2 2 E 2 96.4

96.5L X s min max 2 E 0.1 91.6 2 2 E 2 96.4 0.1 91.55

//

//

2 E 0.1 91.6 2 2 E 2 96.4 0.1 91.55 96.45 91.6 96.5 // //

6.6066

0.1 91.6 2 2 E 2 96.4 0.1 91.55 96.45 91.6 96.5 // // 6.6066 7

7 //

Construcción de la tabla de frecuencias:

m

L

i

L

s

Y

i

Conteo

f

i

F

i

h

i

H

i

h

i %

H

i %

1

91.6

92.3

92.0

||

2

2

0.0400

0.0400

4%

4%

2

92.3

93.0

92.7

|||||

||||

9

11

0.1800

0.2200

18%

22%

3

93.0

93.7

93.4

|||||

|||

8

19

0.1600

0.3800

16%

38%

4

93.7

94.4

94.1

||||| ||||| ||||

14

33

0.2800

0.6600

28%

66%

5

94.4

95.1

94.8

||||| ||||

9

42

0.1800

0.8400

18%

84%

6

95.1

95.8

95.5

||||| |

6

48

0.1200

0.9600

12%

96%

7

95.8

96.5

96.2

||

2

50

0.0400

1.0000

4%

100%

Σ=

-----

-----

-----

-----

50

---

1.0000

-----

100%

-----

Donde:

f i = Frecuencia absoluta de un valor Xi, es el número de veces que el valor está en el

conjunto (X 1 , X 2 , …

, X n ).

F i = Frecuencia absoluta acumulada

INTERPRETACIÓN DE LOS VALORES:

f 2 = 9 significa que hay 9 lingotes de acero que pesan 92.3 kg. o más, pero menos de

93.0 kg.

f 4 = 14 significa que hay 14 lingotes de acero que pesan 93.7 kg. o más, pero menos de

94.4 kg.

F 1 = 2 significa que hay 2 lingotes de acero que pesan menos de 92.3 kg.

h 4 = 0.2800 significa que es la proporción de lingotes de acero que pesan 93.7 kg. o más pero menos de 94.4 kg.

h 6 % = 12 % es el porcentaje de lingotes de acero que pesan 95.1 kg. o más, pero menos de 95.8 kg.

SET DE PROBLEMAS N° 01:

PROBLEMA N° 1:

En los últimos 30 días se tomaron los siguientes datos que representan la duración en años de tres bombas de combustible similares:

2.0

3.0

0.3

3.3

1.3

0.4

0.2

6.0

5.5

6.5

0.2

2.3

1.5

4.0

5.9

1.8

4.7

0.7

4.5

0.3

1.5

0.5

2.5

5.0

1.0

6.0

5.6

6.0

1.2

0.2

Construya la tabla de distribución de frecuencias.

PROBLEMA N° 2:

El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca se registró de la siguiente manera:

1.09

1.92

2.31

1.79

2.28

1.74

1.47

1.97

0.85

1.24

1.58

2.03

1.70

2.17

2.55

2.11

1.86

1.90

1.68

1.51

1.64

0.72

1.69

1.85

1.82

1.79

2.46

1.88

2.08

1.67

1.37

1.93

1.40

1.64

2.09

1.75

1.63

2.37

1.75

1.69

Construya la tabla de distribución de frecuencias.

1.8 DIAGRAMA DE TALLO Y HOJAS:

Un procedimiento semi-gráfico (tabular y gráfico) de presentar la información para datos cuantitativos, que es especialmente útil cuando el número total de

observaciones es pequeño (menor que 50), es el diagrama de tallo y hojas de TUKEY. Los principios básicos para construirlo son:

a. Redondear los datos a dos o tres cifras significativas, expresándolos en unidades convenientes.

b. Disponerlos en una tabla con dos columnas separadas por una línea como sigue:

b.1. Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de las decenas, que forman el tallo, y a la derecha las unidades que serán las hojas. Por ejemplo 85 se escribe:

Tallo Hoja 8 5
Tallo
Hoja
8
5

b.2. Para datos con tres dígitos el tallo estará formado por los dígitos de las centenas y decenas, que se escribirán a la izquierda, separados de las unidades que serán las hojas. Por ejemplo, 329 e escribirá:

Tallo Hoja 32 9
Tallo
Hoja
32
9

c. Cada tallo define una clase, y se escribe sólo una vez. El número de “hojas” representa la frecuencia de dicha clase, que se ubica en una tercera columna Del diagrama. EJEMPLO N° 01:

Los siguientes datos representan la longitud en cm. de 16 camarones de un criadero:

11.367; 12.543; 11.382; 12.441; 14.313; 15.212; 13.301; 11.300; 17.806; 12.711; 13.456; 16.142; 12.622; 13.421; 14.697; 13.165 Construir un diagrama de tallo y hojas. SOLUCIÓN:

1. Los datos redondeados expresados en mm. son :

114; 125; 114; 124; 143; 152; 133; 113; 178; 127; 135; 161; 126; 134;147; 132

2. Siguiendo el proceso indicado en b.2 se construye la tabla N° 01 siguiente:

Tabla N° 01: Diagrama de Tallo y Hojas de la longitud de los camarones

Tallos

Hojas

Frecuencia

11

443

3

12

5476

4

13

3542

4

14

37

2

15

2

1

16

1

1

17

8

1

EJEMPLO N° 02:

Los siguientes datos representan la vida en segundos de 50 moscas de frutas a las que se somete a un nuevo insecticida en un experimento controlado de laboratorio:

17

20

10

9

23

13

12

9

18

24

12

14

6

9

13

6

7

10

13

7

16

18

8

13

3

32

9

7

10

11

13

7

18

7

10

4

27

19

16

8

7

10

5

14

15

10

9

6

7

15

Construya un diagrama de tallo y hojas para las vidas de las moscas de fruta.

SOLUCIÓN:

De acuerdo con b.1 y c, se construye la tabla N° 02 siguiente:

Tallos

Hojas

Frecuencia

0

9696778397774875967

19

1

70329824303683013809604505

26

2

0347

4

3

2

1

El diagrama de tallo y hojas de la tabla contienen sólo 4 tallos, y en consecuencia no proporciona una imagen adecuada de la distribución. Para subsanar este problema, se requiere aumentar de tallos del diagrama. Una forma simple de lograrlo es anotar dos veces cada uno de los valores de los tallos en el lado izquierdo de la línea vertical y después registrar las hojas |, 1, 2, 3 y 4 frente del lado apropiado del tallo donde aparece por primera vez; y las hojas 5, 6, 7, 8, y 9 frente de este mismo valor del tallo donde aparece por segunda vez. Este diagrama modificado de doble tallo y hojas se ilustra en la siguiente tabla, donde los tallos que corresponden a las hojas 0, 1, 2, 3 y 4 se han distinguido por el símbolo * y los tallos correspondientes a las hojas 5, 6, 7, 8 y 9 por el símbolo •. Así, por ejemplo, el primer valor observado 17 tiene el tallo 1• y la hoja 7; el segundo valor observado 20, tiene el tallo 2* y hoja 0, etc. Tabla N° 02: Diagrama de doble tallo y hojas de la vida de las moscas

Tallos

Hojas

Frecuencia

0*

34

2

0•

96967789777875967

17

1*

0322430330130040

16

1•

7986889655

10

2*

034

3

2•

7

1

3*

2

1

1.8.1. Ventajas y desventajas de los Diagramas de Tallo y Hojas:

1. Los diagramas de tallos y hojas conservan los datos originales, por lo que es fácil identificar algún dato particular si lo quisiéramos.

2. Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalle en el resto de los datos.

3. Permiten percibir características de los datos que a veces los intervalos cubren.

4. No necesita algún gráfico adicional para percibir la forma de la distribución. Desventajas:

No es una representación práctica para volúmenes grandes de datos.

PRÁCTICA GRUPAL N° 02:

Problema:

En los últimos 30 días se tomaron los siguientes datos que representan la duración en años de tres bombas de combustible similares:

2.0

3.0

0.3

3.3

1.3

0.4

0.2

6.0

5.5

6.5

0.2

2.3

1.5

4.0

5.9

1.8

4.7

0.7

4.5

0.3

1.5

0.5

2.5

5.0

1.0

6.0

5.6

6.0

1.2

0.2

a. Construya un diagrama de tallo y hojas para las duraciones de las bombas de

combustible.

b. Construya una tabla de distribución de frecuencias.

SET DE PROBLEMAS N° 02 Problema:

El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca se registró de la siguiente manera:

1.09

1.92

2.31

1.79

2.28

1.74

1.47

1.97

0.85

1.24

1.58

2.03

1.70

2.17

2.55

2.11

1.86

1.90

1.68

1.51

1.64

0.72

1.69

1.85

1.82

1.79

2.46

1.88

2.08

1.67

1.37

1.93

1.40

1.64

2.09

1.75

1.63

2.37

1.75

1.69

a. Construya un diagrama de tallo y hojas para los datos.

b. Construya la tabla de distribución de frecuencias.

1.9 CUADROS ESTADÍSTICOS

Un cuadro estadístico es un arreglo ordenado, de filas y columnas de los datos o series estadísticas, por tanto tiene dos entradas (podrían considerarse incluso con más de dos). En ellas pueden representarse características cualitativas, cuantitativas o una combinación de ambas. Se puede también considerar variables discretas, continuas o de ambos tipos. La finalidad es ofrecer información resumida de fácil lectura, comparación e interpretación. Según su objetivo, las líneas (horizontales) y columnas (verticales) de un cuadro se deben organizar de modo que pongan en evidencia los aspectos que interesa mostrar y resalten las comparaciones que se desean hacer notar. La tabla de distribución de frecuencias es un caso especial de un cuadro estadístico.

a) Partes de un cuadro estadístico:

1. Número.- Es el código de identificación del cuadro. Este número se escribe a continuación de la palabra “Cuadro”. Por ejemplo Cuadro N° 2.5, indica el quinto cuadro del capítulo dos.

2. Título.- Es la indicación que preside a la tabla y es colocada en la parte superior de la misma. El título debe reunir las condiciones siguientes:

a. Ser completo: Un título completo debe indicar claramente cuál es el contenido del cuadro estadístico. Debe responder a las preguntas: Qué, Cómo, Dónde y Cuándo. Qué: A qué se refiere la tabla que se estudia. Cuál es el universo que se investiga. Cómo: Cómo se estudia, de acuerdo a cuáles características se clasifican los individuos u objetos estudiados. Las variables ubicadas en las filas se identifican con la proposición “según” y las de la columna con la proposición “por”. Cuándo: Momento o período de tiempo a que se refiere el estudio. Dónde: Lugar a que se refiere la información.

b. Ser conciso: .El título debe ser breve, lo más conciso posible, aunque no debe sacrificarse la claridad a la concisión.

EJEMPLO: En el cuadro 1.1, indicar si su título es completo. En efecto: el título :

Perú: Distribución de las Mujeres de 15 a 49 años por área urbana, rural y región natural, según estado conyugal. Vemos que es completo, ya que responde a las preguntas: qué, cómo, dónde y cuándo. Qué : Distribución de mujeres de 15 a 49 años. Cómo : Por área urbana, rural y región natural, según estado conyugal. Cuándo : En 1986 Dónde : En el Perú.

Cuadro N° 1.1 PERÚ: DISTRIBUCIÓN DE LAS MUJERES DE 15 A 49 AÑOS POR ÁREA URBANA, RURAL Y REGIÓN NATURAL, SEGÚN ESTADO CONYUGAL: 1986

 

ESTADO

TOTAL

ÁREA

 

REGIÓN NATURAL

 

CONYUGAL

URBANA

RURAL

AML 1/

RESTO

SIERRA

SELVA

DE

COSTA

TOTAL

4999

3406

1593

1591

1331

1561

516

SOLTERA

1760

1335

425

660

481

473

147

CASADA

2004

1335

668

640

495

676

193

CONVIVIENTE

895

491

405

185

266

304

138

VIUDA

70

34

35

13

9

37

10

DIVORCIADA

20

20

0

14

3

5

0

SEPARADA

250

191

60

79

77

66

28

1/ Área Metropolitana de Lima.

 

Fuente: Instituto Nacional de Estadística e Informática.- Encuesta Nacional Demográfica y de Salud Familiar (ENDES).

3. Cuadro Propiamente Dicho: Es la parte del cuadro que contiene la información y consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus elementos esenciales son: encabezamiento de las columnas, columna principal o matriz y cuerpo. Encabezamiento: Es la primera fila del cuadro, en el se explica las categorías, y el objeto de cada una de las columnas, es decir indica la naturaleza de los datos inscritos en cada celda que se hallan debajo. Deben ser breves y explícitos. Por ejemplo en el cuadro N° 1.1 el encabezamiento es: el área, urbana y rural y la región natural subdividida en AML, resto de costa, sierra y selva. Columna Principal o Matriz: Es aquella en que se anotan las categorías o las diferentes clases de la escala de clasificación utilizada. Por ejemplo, en el cuadro N° 1.1, la columna principal está constituida por el estado conyugal:

soltera, casada, …, separada. Cuerpo: Es el conjunto de celdas o casillas, que son las intersecciones de filas y columnas, donde están anotados los datos numéricos (ver cuadro N° 1.1)

4. Notas Explicativas o Calce: Contiene habitualmente la fuente de los datos

representados y cualquier nota aclaratoria sobre el contenido del cuadro. Fuente: Es la indicación al pie del cuadro que sirve para nombrar la entidad responsable de donde se obtuvieron los datos (ver cuadro N° 1.1).

b) Elaboración de un cuadro estadístico:

No es fácil la elaboración de un cuadro estadístico. Se deben plantear cuidadosamente su tamaño, las columnas y la distribución de la información por orden de importancia, que, por lo general, no es el orden alfabético. Es necesario ser cuidadoso en la elección de las columnas y sus encabezamientos ya que en ellas se pondrán en evidencia relaciones que interesa destacar. Otro aspecto importante es la elección de las unidades de medida de las magnitudes; después del título se debe indicar si se trabaja con cientos, miles ó millones. La buena elección de las unidades beneficia la claridad y el tamaño del cuadro. Para destacar cierto tipo de proporcionalidad, en lugar del tanto por uno se usa el inverso uno por tantos.

c) Errores en la presentación de cuadros:

Entre los principales errores que se cometen al confeccionar un cuadro estadístico se encuentran:

1.

Disposición incorrecta de datos. Es cuando no se clasifican todos los objetos o individuos de acuerdo a las escalas establecidas.

2. Títulos y encabezamientos incompletos e inadecuados.

3. Cuadros que representan solamente porcentajes. Esto es un error. Cuanto menos es el número de casos, menor valor tendrá el porcentaje.

4. Cuadro sobrecargado. Es cuando se intenta mostrar muchos datos a la vez, resultando confusos e inadecuados. Es preferible varios cuadros separados.

d) Pasos a seguir al leer un cuadro estadístico:

1. Leer cuidadosamente el título. Es necesario para comprender perfectamente a qué se refiere el cuadro.

2. Leer las notas explicativas. Permiten a menudo una mejor comprensión de todo el cuadro en su conjunto.

3. Averiguar las unidades de medidas utilizadas.

4. Fijarse en el total, promedios o porcentaje general del grupo.

5. Relacionar el total o el promedio general del grupo con cada una de las variables que se estudian.

6. Relacionar entre sí los promedios o porcentajes de las variables que se estudian.

Práctica grupal N° 03:

Set de problemas N° 03

1.10 REPRESENTACIÓN GRÁFICA

Definición.- Un gráfico es la representación de un fenómeno estadístico por medio de figuras geométricas (puntos, líneas, rectángulos, paralelepípedos, etc.), cuyas dimensiones son proporcionales a la magnitud de los datos representados. Su objetivo principal es la representación de los datos de forma gráfica, que permita de un solo golpe de vista darse cuenta del conjunto de elementos presentados y de evidenciar sus variaciones y características. El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo complementa. a). Ventajas y Desventajas del Gráfico:

El gráfico tiene la ventaja sobre el cuadro o tabla, de permitir apreciar más rápidamente los datos y abarcar todo su conjunto. 1) El gráfico no puede representar tantos grupos de datos o clases como una tabla. 2) En los cuadros o tablas pueden darse valores exactos, mientras que en los gráficos muchas veces solo valores aproximados. b). Partes de un gráfico:

Al igual que en los cuadros estadísticos, en los gráficos se considera las siguientes partes:

c) El título

d) El gráfico propiamente dicho.

e) Las notas explicativas

Sobre el título y las notas explicativas no es necesario redundar, pues vale todo lo expresado con relación a los cuadros estadísticos.

c). Tipos de Gráficos:

Pueden ser:

1) Diagrama de Barras: sencillas, dobles, múltiples, proporcionales. 2) Gráficas de Sectores o Pastel. 3) Diagrama de Frecuencias. 4) Histograma de Frecuencias.

5)

Polígono de Frecuencias Absolutas y Relativas.

6)

Polígono de Frecuencias Acumuladas u Ojivas.

7)

Gráfico de Líneas.

c.1). Gráfico de barras:

Es aquel en la cual el fenómeno que se estudia queda representado por una serie de rectángulos, barras o paralelepípedos, los cuales pueden dibujarse horizontal o verticalmente. Este gráfico se utiliza para representar variable de tipo cualitativo o cuantitativo discreto. Recomendaciones para su construcción:

1. Todas las barras, rectángulos o paralelepípedos deben tener el mismo grosor.

2. El espacio entre las barras deben ser de la misma magnitud. No debe ser inferior que la mitad de una barra, ni mayor que el ancho de la misma.

3. Las barras, por estética deben ordenarse de mayor a menor cuando se pueda.

4. La escala de la frecuencia debe empezar por cero.

5. Deben dibujarse a buen criterio, líneas de fondo en la gráfica; ellas facilitan la lectura de los valores.

6. No se debe recargar las barras.

EJEMPLO N° 01

Cuadro N° 01: Matrícula en el Sistema de la Educación Peruana según niveles y modalidades: 1979-1980

Niveles y Modalidades

Niveles y Modalidades Educación Inicial Educación Básica Regular Educación Secundaria Educación No Universitaria

Educación Inicial

Educación Básica Regular

Educación Secundaria

Educación No Universitaria

Educación Universitaria

Matrícula en el Sistema de la Educación Peruana

Matrícula en el Sistema de la Educación Peruana

1979

207,637

3‟115,974

1‟094,269

19,416

235,186

1980

220,966

3‟144,446

1‟134,581

26,519

249,769

Fuente: Oficina Sectorial de estadística Ministerio de Educación del Perú.

a) Construir el gráfico de barras sencillas, para el año 1980.

Matrícula en el Sistema de la Educación Peruana según Niveles y Modalidades: Año 1980

3500000 3000000 2500000 2000000 1500000 1000000 500000 0 Educación Inicial Educación Básica Educación
3500000
3000000
2500000
2000000
1500000
1000000
500000
0
Educación Inicial
Educación Básica
Educación
Educación No
Educación
Regular
Secundaria
Universitaria
Universitaria
Matrículas

Niveles y Modalidades

b) Construir el gráfico de barras dobles para los años 1979 y 1980.

Matrícula en el Sistema de la Educación Peruana según Niveles y Modalidades: Años 1979-1980

Año 1979 Año 1980 3500000 3000000 2500000 2000000 1500000 1000000 500000 0 Educación Inicial Educación
Año 1979
Año 1980
3500000
3000000
2500000
2000000
1500000
1000000
500000
0
Educación Inicial
Educación Básica
Educación
Educación No
Educación
Regular
Secundaria
Universitaria
Universitaria
Matrícula

Niveles y Modalidades

c) Construir el gráfico de barras múltiples.

Matrícula en el Sistema de la Educación Peruana por Niveles

y Modalidades: 1979-1980

14000000 12000000 10000000 8000000 6000000 4000000 2000000 0 Educación Educación Educación Educación No
14000000
12000000
10000000
8000000
6000000
4000000
2000000
0
Educación
Educación
Educación
Educación No
Educación
Inicial
Básica Regular
Secundaria
Universitaria
Universitaria
NMatrícula

Nivels y Modalidades

TotalInicial Básica Regular Secundaria Universitaria Universitaria NMatrícula Nivels y Modalidades Año 1980 Año 1979

Año 1980Inicial Básica Regular Secundaria Universitaria Universitaria NMatrícula Nivels y Modalidades Total Año 1979

Año 1979Inicial Básica Regular Secundaria Universitaria Universitaria NMatrícula Nivels y Modalidades Total Año 1980

c.2). Gráficos de sectores o pastel:

Este sistema de representación es de la misma naturaleza que el gráfico de barras. Se utiliza para representar datos cualitativos o cuantitativos discretos. Su uso más frecuente es con fines comparativos.

Para construir el gráfico de sector, se utiliza una circunferencia, cuyo círculo se divide en sectores tales que sus medidas angulares centrales y, por tanto la superficie del sector circular sean proporcionales a las magnitudes de los valores de la variable que representan. Al total le corresponde el círculo completo, es decir los 360° de la circunferencia y por una regla de tres simple se encontrará el número de grados que le corresponde a cada parte:

f x 360 h x i 360 i i
f x 360 h x
i
360
i
i

n

Donde:

α i = ángulo central del sector o clase i (°), en lo posible debe ser redondeado a cero decimales.

f i = Frecuencia absoluta del sector o clase i. n=tamaño total de la muestra. h i = Frecuencia Relativa del sector o clase i.

EJEMPLO N° 02:

Cuadro N° 02: Matrícula en el Sistema de la Educación Peruana según niveles y modalidades: 1980

Niveles y Modalidades

Año 1980

h

 

ángulo

   

i

Educación Inicial

220,966

 

0.0463

16.65°

Educación Básica Regular

3,144,446

 

0.6583

237.00°

Educación Secundaria

1,134,581

 

0.2375

85.52°

Educación No Universitaria

26,519

 

0.0056

2.00°

Educación Universitaria

249,769

0.0523

18.83°

TOTAL =

4,776,281

1.0000

360°

Matrícula en el sistema de

Educación

la Educación Peruana: 1980

Educación No Universitaria Universitaria Educación Inicial

0%

5%

5%

Educación Básica Regular 66%
Educación Básica
Regular
66%

Educación Secundaria

24%

Educación InicialEducación Básica Regular 66% Educación Secundaria 24% Educación No Universitaria Educación Básica Regular

Educación No UniversitariaRegular 66% Educación Secundaria 24% Educación Inicial Educación Básica Regular Educación Universitaria

Educación Básica RegularEducación Secundaria 24% Educación Inicial Educación No Universitaria Educación Universitaria Educación Secundaria

Educación UniversitariaSecundaria 24% Educación Inicial Educación No Universitaria Educación Básica Regular Educación Secundaria

Educación Inicial Educación No Universitaria Educación Básica Regular Educación Universitaria Educación Secundaria

Educación Secundaria

c.3). Histograma de frecuencias:

Se usa para representar gráficamente las distribuciones de frecuencias absolutas o relativas de datos cuantitativos continuos agrupados en clases. El fenómeno estudiado queda representado por una serie de rectángulos semejantes a los del diagrama de barras; sin embargo las barras del histograma se colocan sólo verticalmente y debe ir uno al lado de las otras sin que haya un espacio que las separe. La base de cada rectángulo es la amplitud de la clase de la variable correspondiente. Estos gráficos reciben el nombre de histograma de frecuencias (absolutas o relativas).

Se construye como sigue:

1. Se lleva sobre un eje horizontal los límites de los intervalos de clase.

2. Sobre cada intervalo de clase se levantan rectángulos que tengan como área exactamente la frecuencia absoluta (o relativa).correspondiente.

3. Cuando los intervalos de clase son de igual amplitud como se ha venido considerando en los ejemplos anteriores, las alturas de los rectángulos serán proporcionales a las frecuencias absolutas (o relativas).

4. En este caso se acostumbra tomar las alturas numéricamente iguales a dichas frecuencias. Esto es equivalente a poner c=una unidad.

EJEMPLO N° 03:

Dada la Tabla de distribución de frecuencias de los pesos de 50 lingotes de acero:

       

Frec.

     

Intervalos

Marca

Frec.

Abs.

Frec.

Frec. Rel.

de clase

de clase

Abs.

Acum.

Relat

Acum.

                         

Alfa-

m

Li

Ls

Yi

fi

Fi

hi

Hi

Clasificación

fi

Fi

hi

Hi

i

1

91.5

92.5

92.0

4

4

0.0800

0.0800

Ligeros

4

4

0.08

0.08

29

2

92.5

93.5

93.0

11

15

0.2200

0.3000

         

3

93.5

94.5

94.0

20

35

0.4000

0.7000

Medianos

31

35

0.62

0.7

223

4

94.5

95.5

95.0

9

44

0.1800

0.8800

         

5

95.5

96.5

96.0

6

50

0.1200

1.0000

Pesados

15

50

0.3

1

108

     

TOTAL=

50

 

1

   

50

 

1

 

360

 

Li

fi

 

Li

hi

 

91.5

4

91.5

0.0800

4

11

0.08

0.2200

11

20

0.22

0.4000

20

9

0.4

0.1800

9

6

0.18

0.1200

Graficar:

a) Barras simples por clasificación de pesos.

b) Sectores o pastel para clasificación de pesos

c) Histograma de frecuencias absolutas.

d) Polígono de frecuencias relativas

e) Ojiva “menor que” de Frecuencias Relativas Acumuladas.

SOLUCIÓN:

a)

b) Estadística con SPSS Pag. N° 31 Ing. Alejandro Callañaupa Sulca

b)

b) Estadística con SPSS Pag. N° 31 Ing. Alejandro Callañaupa Sulca

c)

c) d) e) Estadística con SPSS Pag. N° 32 Ing. Alejandro Callañaupa Sulca

d)

c) d) e) Estadística con SPSS Pag. N° 32 Ing. Alejandro Callañaupa Sulca

e)

Práctica Grupal. N° 04 El profesor lo planteará en el aula de clases. Set de

Práctica Grupal. N° 04 El profesor lo planteará en el aula de clases.

Set de Problemas N° 04 El profesor lo planteará en el aula de clases.

Práctica Calificada El profesor lo planteará en el aula de clases.

Examen Parcial El profesor lo planteará en el aula de clases.

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “ANTENOR ORREGO ESPINOZA” II: ESTADÍGRAFOS DE POSICIÓN Ing.

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “ANTENOR ORREGO ESPINOZA”

II:

ESTADÍGRAFOS DE POSICIÓN

Ing. ALEJANDRO CALLAÑAUPA SULCA

II.

ESTADIGRAFOS DE POSICION:

Son aquellos que describen la posición que ocupa la distribución de frecuencia respecto a un valor de la variable. Se distinguen dos tipos: los estadígrafos de tendencia central y los de localización. Los Estadígrafos de Tendencia Central deben su nombre al hecho de que sus valores tienden a ocupar posiciones centrales o intermedios entre el menor y mayor valor del conjunto de datos, a partir de la cual se calculan estos estadígrafos; es decir, brindan de alguna forma, información sobre el centro de la distribución. Los más importantes y muy usados son:

La media aritmética o simplemente media La media aritmética ponderada la media geométrica. la media armónica. la media cuadrática. la mediana. Los Estadígrafos de Localización señalan la localización de los valores más frecuentes o de valores extremos. Los más usados son:

más frecuentes o de valores extremos. Los más usados son: La moda. Los Cuartiles. Etc. 2.1.

La moda.

Los Cuartiles.

Etc.

2.1. LA MEDIA ARITMÉTICA.- Es la medida de tendencia central más conocida, familiar a todos nosotros, y de mayor uso (usted mismo lo habrá empleado alguna vez), también fácil de calcular, ya sea de datos no tabulados como de datos tabulados. Cuando se habla de ”media”, en la práctica se entiende “media aritmética”; y en ese sentido hablaremos de: salario medio, número medio de accidentes, rendimiento medio de un trabajador, etc. Para datos sin tabular.- La media aritmética o simplemente media (o promedio) de una muestra x 1 , x 2 , x 3 , …, x n de tamaño n de una variable o característica x, se denota por X” o “M(x)” y se define como la suma de todos los valores observados en la muestra, dividida por el número total de observaciones n. Es decir:

X

x x x M x ( ) 1 2 n
x
x
x
M x
(
)
1
2
n

n

…………….(1)

Usando la notación de sumatoria, la media aritmética se expresa:

X

n X i M x ( ) i 1
n
X
i
M x
(
)
i 1

n

……………….(2)

Ejemplo N 1:

Una persona que trabaja en forma independiente gana un mes S/. 200.00, otro mes S/. 600.00 y otro S/. 400.00.¿Cuánto gana en promedio mensual?.

Solución:

En este caso x1 = 200; x2 = 600; x3 = 400 y n=3

Aplicando la ecuación (1):

X

X ( M x ) x x 2 n 1 n 200 600 400 x 1200

(

M x

)

x x 2 n
x
x
2
n

1

n

200

600X ( M x ) x x 2 n 1 n 200 400 x 1200 3

X ( M x ) x x 2 n 1 n 200 600 400 x 1200

400

X ( M x ) x x 2 n 1 n 200 600 400 x 1200

x

X ( M x ) x x 2 n 1 n 200 600 400 x 1200

1200

3

3

X ( M x ) x x 2 n 1 n 200 600 400 x 1200

400.00

El promedio mensual que gana es S/. 400.00

Para datos tabulados.- Si los datos han sido clasificados en m clases en una tabla de frecuencias con marca de clase yi y frecuencia absoluta fi, i=1,2,3,…,m, la media aritmética de estos datos está definida por:

y f . y f . y f . Y M ( y ) 1
y f
.
y f
.
y f
.
Y M ( y )
1
2
2
m
1
m
n

Empleando la notación de sumatoria la media aritmética de datos agrupados(tabulados) se escribe:

X

n X f . i i M x ( ) i 1
n
X f
.
i
i
M x
(
)
i 1

n

……………………(3)

Note que la expresión anterior se escribe también así:

X

n X f . i i m m f i i 1 Xi X h
n
X f
.
i
i
m
m
f i
i
1
Xi
X h
.
i
i
n
n
i
1
i
1

Es decir, la media aritmética, en el caso de datos tabulados, se escribe en forma equivalente como:

X

n X h . i i M x ( ) i 1
n
X h
.
i
i
M x
(
)
i 1

n

………………….(4)

Ejemplo Nº 2:

Calcular la media aritmética de los datos agrupados en la tabla siguiente, distribución de frecuencias, número de hijos por familia:

Número de hijos

Conteo

Frecuencias absolutas

X

i

f

i

0

/

1

1

//////

6

2

/////

5

3

///

3

4

/

1

Totales

 

16

Aplicando la fórmula de la definición, el número medio es:

X

i

f

i

X

i f i

0

1

0

1

6

6

2

5

10

3

3

9

4

1

4

Total

16

29

X

n X f . i i M x ( ) i 1
n
X f
.
i
i
M x
(
)
i
1

n

29 ( ) 1.81
29
(
)
1.81

16

X M x

a) Ventajas y Desventajas de la Media Aritmética:

Ventajas:

La media aritmética, como un solo número que representa todo un conjunto de datos, tiene ventajas importantes:

1. Es un conjunto familiar a la mayoría de las personas e intuitivamente claro.

2. Es una medida que puede ser calculada y es única. Ya que cada conjunto de datos tiene una y solo una media.

3. En el cálculo de la media, es tomada en cuenta cada observación del conjunto de datos.

4. La media es una medida digna de confianza, por que se determina con mayor certeza que otras características de un conjunto de datos.

Desventajas:

Como cualquier medida estadística, la media aritmética tiene sus desventajas de las cuales se debe estar consciente:

1. La media aritmética puede verse afectado por valores extremos que no son representativos del resto de las observaciones. Por ello, cuando se está utilizando esta medida de un análisis, vale la pena advertir la representatividad de los valores extremos y la influencia que estos tienen sobre el resultado.

2. El cálculo de la media aritmética es tedioso porque se usan todas las observaciones en los cálculos ( a menos, por supuesto que se use el método corto de datos agrupados para aproximar la media).

3. No se puede calcular la media aritmética para un conjunto de datos que tiene intervalos de clases abiertos en los extremos. Por ejemplo, suponga que un conjunto de datos han sido arreglados en la distribución de frecuencias que se muestra en la tabla siguiente. No se puede calcular un valor para la media de estos datos, por que no se puede calcular el punto medio de la clase abierta.

Clases

35-40

40-45

45-50

50-55

55 a más

Frecuencia

5

12

14

6

4

Ejemplo Nº 3:

Supongamos que los haberes de los trabajadores de una pequeña empresa es como sigue:

Cargo

Número de trabajadores

Haberes en soles/mes

Gerente General Administrador Contador Empleado Obrero Calificado Obrero Semicalificado

1

560

1

520

1

480

3

160

c/u

5

150

c/u

3

140

c/u

Determinar el haber promedio mensual (por trabajador) de la empresa.

a. ¿Será representativo este haber promedio del conjunto de trabajadores?.

b. ¿Cuál sería un procedimiento adecuado para un análisis de los datos?.

Solución:

a. El haber promedio mensual es:

de los datos?. Solución: a. El haber promedio mensual es: ( Y M y ) 1

(

Y M y

)

Solución: a. El haber promedio mensual es: ( Y M y ) 1 560 x 1

1 560

x

a. El haber promedio mensual es: ( Y M y ) 1 560 x 1 520

1 520

x

a. El haber promedio mensual es: ( Y M y ) 1 560 x 1 520

1 480

x

haber promedio mensual es: ( Y M y ) 1 560 x 1 520 x 1

3 160

x

mensual es: ( Y M y ) 1 560 x 1 520 x 1 480 x

5 150

x

es: ( Y M y ) 1 560 x 1 520 x 1 480 x 3

3 140

x

1

1 1 3 5 3
1
1
3
5
3
x 1 520 x 1 480 x 3 160 x 5 150 x 3 140 x

3210

14

x 1 480 x 3 160 x 5 150 x 3 140 x 1 1 1

229.3

b. No es representativo, porque hay solo 3 personas con sueldo alto que hacen crecer el promedio.

c. Un procedimiento adecuado podría ser estratificar previamente los datos originales en dos categorías: los de la plana administrativa. Gerente General, Administrador y Contador, y los de mando medio: empleado, obrero calificado y obrero semicalificado. Luego realizar los cálculos de medias aritméticas en forma separada para cada grupo.

2.2.

LA MEDIA ARITMÉTICA PONDERADA.- El promedio ponderado permite calcular un promedio que toma en cuenta la importancia o el peso que tiene cada valor sobre el total. De aquí en tal caso la denominación de media aritmética ponderada. Teóricamente, todas las medias son ponderadas. Si no se dan pesos específicos a todos y cada uno de los valores de la serie, se asume que cada observación tiene el mismo peso y se asigna implícitamente un peso de 1, y se les llama a menudo media aritmética simple o media aritmética no ponderada, donde “no ponderada” significa en realidad “igualmente ponderada”. Para datos agrupados en clases, como hemos visto, las frecuencias de clase puede ser considerada como una serie de pesos para los distintos puntos medios (o marca de clase) en el cálculo de la media aritmética.

Ejemplo 1 :la Compañía de la tabla siguiente que emplea tres tipos de obreros no calificados, semicalificados y calificados; para elaborar dos productos. Supongamos que la compañía desea conocer el costo promedio de mano de obra por día para cada producto.

Tipos de Obreros

Salario por día Xi (en S/)

Días de trabajo por unidad de producto.

Producto

Producto

A

B

No calificados Semicalificados Calificados

3.00

2

4

6.00

3

3

9.00

5

5

Observe que ésta no es una tabla de distribución de frecuencias.

El promedio aritmético simple de los salarios será:

X

n X i i 1
n
X
i
i
1

3.00

simple de los salarios será: X n X i i 1 3.00 6.00 9.00 n 3

6.00

simple de los salarios será: X n X i i 1 3.00 6.00 9.00 n 3

9.00

simple de los salarios será: X n X i i 1 3.00 6.00 9.00 n 3

n 3

/.6.00/de los salarios será: X n X i i 1 3.00 6.00 9.00 n 3 día

día

Usando este promedio, se puede calcular el costo por mano de obra de una unidad del producto A, de la siguiente manera:

S / 6.00(2

3 5) S /.6.00(10) S /.60.00
3
5)
S /.6.00(10)
S /.60.00

Y para una unidad del producto B será:

S /.6.00(4

3 5) S /.6.00(12) S /.72.00
3
5)
S /.6.00(12)
S /.72.00

Pero estos resultados son incorrectos. Para ser correctos deben tener en cuenta que se emplean diferentes tipos de obreros. <el resultado correcto se puede determinar de dos formas:

PRIMERA FORMA: Para el producto A, el costo total del salario por unidad es:

S

/.3.00 x 2

S /.6.00 x3 S /.9.00 x5 S /.69.00
S /.6.00 x3
S /.9.00 x5
S /.69.00

Y como hay 2+3+5=10 días de trabajo, el costo promedio del salario es:.

S /.69.00

10

pordíade trabajo, el costo promedio del salario es:. S /.69.00 10 Para el producto B, el

Para el producto B, el costo total del salario por unidad es:

S

/.3.00 x 4

S /.6.00 x3 S /.9.00 x5 S /.75.00
S /.6.00 x3
S /.9.00 x5
S /.75.00

y como hay 4+3+5= 12 días de trabajo, el costo promedio del salario es:

S /.75.00

12

por díade trabajo, el costo promedio del salario es: S /.75.00 12 SEGUNDA FORMA : Es tomar

SEGUNDA FORMA:Es tomar el promedio ponderado del costo de los tres tipos de salarios. Para esto, se pondera el salario por día para cada tipo por la proporción del salario total requerido para producir el producto. Para el Producto A: una unidad requiere 10 días de trabajo. Los obreros no calificados utilizan 2/10 de este tiempo. Los semicalificados utilizan 3/10 de este tiempo y los calificados 5/10 de este tiempo. Utilizando estas fracciones como las ponderaciones o pesos, entonces en un día de trabajo para el producto A cuesta un promedio de:

2

10

x S /.3.00

3 5 x S /.6.00 x S /.9.00 S /.6.90
3
5
x S
/.6.00
x S
/.9.00
S
/.6.90

10

10

por día

Análogamente, la unidad del producto B requiere de 12 días de trabajo, de las cuales 4/12 son utilizados por el obrero no calificado, 3/12 por el obrero semicalificado y 5/12 por el obrero calificado. Usando estas fracciones como ponderación, un día de trabajo para el producto B cuesta un promedio de:

4

12

x S /.3.00

3 5 x S /.6.00 x S /.9.00 S /.6.25/ día
3
5
x S
/.6.00
x S
/.9.00
S
/.6.25/
día

12

12

Los promedios ponderados dan valores correctos para el costo promedio del salario por día de los dos productos por que toman en cuenta el hecho de que se emplean diferentes cantidades de cada tipo de trabajo en los productos. En símbolos, la fórmula para calcular el promedio ponderado es:

n X W i i i 1 X n W i i 1
n
X W
i
i
i 1
X
n
W
i
i
1

Donde:

………………………………………………….(5)

X = símbolo para la media aritmética.

Xi = valores de las observaciones individuales.

Wi = peso asignado a cada observación.

Aplicando la ecuación (5) al producto A , en el ejemplo del costo del salario, se tiene:

n X W i i (2/10)3.00 (3/10)6.00 (5/10)9.00 6.90 i 1 X S /.6.90/ día
n
X W
i
i
(2/10)3.00
(3/10)6.00
(5/10)9.00
6.90
i 1
X
S
/.6.90/
día
n
2/10
3/10
5/10
1
W
i
i
1

Ejemplo 2: Se compraron 40 kgs. De carne a 2 soles por kg., 20 kgs a 2.50 soles por kg. y 20 kgs 3 soles por kg. Determinar el precio promedio por kg.de carne Solución:

1. La variable cuyo promedio queremos calcular es el precio por kg. de algodón, entonces, se lleva los datos a una tabla.

2. Luego, el precio promedio es:

Precio por kg. X i (S/. /kg.)

Cantidad de kgs. f i (T.M)

X

i f i

3

80

240

2.5

100

250

4

50

200

Total

n = 230

690

n X f i i 690 X i 1 S /.3 por kg . n
n
X f
i
i
690
X
i 1
S
/.3
por kg
.
n 230

2.3. LA MEDIA GEOMETRICA:

a) Para Datos No Agrupados.- La media geométrica simple “Mg” ó “

n

observaciones x 1 , x 2 , …, x n positivas, está dada por la raíz enésima del producto de los n valores observados, es decir:

X

G

de