You are on page 1of 51

Análisis de datos

Términos estadísticos
 Unidad elemental: es aquello  Muestra: es un subconjunto
que posee la característica de la población.
que se desea estudiar. Puede  Se prefiere trabajar con una
ser un persona, animal, muestra debido al tiempo y el
objeto, etc. costo que se incurre al
 Población: es el conjunto de trabajar con la población.
todas las unidades  L a muestra debe ser
elementales. Puede ser representativa.
conocida o desconocida
Muestras aleatorias Muestras no aleatorias

 Son aquellas cuyos elementos  Son aquellas cuyos elementos


son elegidos usando algún son elegidos mediante criterios
criterio probabilístico, es decir, no probabilísticos, por tanto,
todos los elementos de la existen elementos de la
población que no tienen
población tienen alguna
posibilidad alguna se ser
posibilidad de ser elegidos. elegidos.

Variable: es toda característica que se desea estudiar en la


población o muestra
Observación o dato: es el valor registrado que resulta de la
apreciación de una variable
Variable cualitativa
Nominal Ordinal o Jerárquica
 Son aquellas cuyos valores o  Son aquellas cuyas categorías
resultados pueden ser posibles deben ser
organizados y presentados en
cualquier orden. presentadas en un orden
 Simplemente determina a que
definido.
categoría pertenece la unidad  Ejemplo: grado de
elemental instrucción, rango militar,
 Ejemplos: color de preferencia, nivel de satisfacción, cargo
género, lugar de nacimiento, administrativo, etc.
etc.
Variable cuantitativa
Discreta Continua
 Son aquellas que tienen un  Son aquellas que tiene un
numero finito o infinito numero infinito no
numerable de valores posibles numerable de valores
 Son el resultado de conteos posibles.
 Ejemplo: cantidad de  Son el resultado de medición
accidentes en una empresa, a través de un instrumento.
numero de hijos, etc.  Ejemplo: peso neto de un
articulo, estatura de una
persona, etc.
 Parámetro: Es un indicador  Estadístico o estimador
que resume la información  Es un indicador que resume la
contenida en las información en las
observaciones de la observaciones de la muestra.
población.  Toma valores diferentes de
 Es un único valor y muestra en muestra.
generalmente desconocido.
Ejercicio
 Clasifica las siguientes variables del cuestionario
Tabla de frecuencias
 La tabla de frecuencias nos muestra los datos ordenados según las
categorías de la variable. El orden en la presentación depende si la
variable es cualitativa nominal o jerárquica.
 Las frecuencias absolutas se refiere al numero de veces que se
repite cada categoría.
 Las frecuencias relativas se obtienen al dividir las frecuencias
absolutas entre el número total de respuestas (tamaño de muestra
o población). Para obtener los porcentajes se multiplica por 100.
Presentación gráfica
 Las representaciones graficas se usan para dar una visión
general de los resultados. Permiten revelar tendencias,
variaciones y relaciones que en los cuadros pueden no ser tan
evidentes.
 L a finalidad de los gráficos es resaltar los resultados mas
importantes de un conjunto de datos.
Gráfico de barras
 Se construye un sistema de ejes XY.
 En el eje vertical se toma una escala para representar la
frecuencia absoluta o relativa.
 En el eje horizontal se colocan las respuestas obtenidas.
 El ancho de cada barra es el mismo.
 La altitud de cada barra es igual a la magnitud de su frecuencia.
 Es conveniente asignar un titulo apropiado al grafico y etiquetas a
los ejes que permitan entender mejor la información.
Gráfico Circular
 El tamaño de cada sector es proporcional a la frecuencia de cada
categoría. Para ello se asignan ángulos para cada categoría.
 Para el cálculo del Angulo para cada categoría se multiplica
Ai=360*(hi).Luego se construye a partir de un ángulo de
referencia usualmente son a 0º o 90º.
 Etiquetar los sectores obtenidos.
Sector asociado al centro de trabajo
 La empresa STAT S.A. llevo a cabo un estudio sobre el
empleo de los habitantes de una región. Entre las inquietudes
que motivaron el estudio es el interés de conocer que
sectores generan mayor empleo. Para ello se eligieron al azar
a 200 personas a las cuales se les preguntó, sobre el sector
económico que se dedica la institución para la cual trabajan.
Distribución de frecuencias
Frecuencias Frecuencias
Frecuencias absolutas Frecuencia relativas
Sectores
absolutas acumuladas s relativas acumuladas
(fi) (Fi) (hi) (Hi)
Agricultura 73 73 0,365 0,365
Comercio 35 108 0,175 0,54
Educación 54 162 0,27 0,81
industria 26 188 0,13 0,94
Turismo 12 200 0,06 1
Total 200 1
Distribución del empleo por
sectores económicos
Series Series
Series 1,
1, Interpretación
1, Agricu
Indust
Turis Del total de personas
ria, ltura,
Agricultura encuestadas,73 se dedican al
mo, 73,
26, Comercio
Series
sector dela Agricultura.
12, 36%
13%
Series 1,
Educación
6% Industria
Del total de personas
1, Come encuestadas, 54 se dedican al
Turismo
Educa rcio,
sector de Educación.
ción, 35, Del total de personas
54, 18% encuestadas, 12 se dedican
27% al sector del Turismo.

Fuente STAT S.A.


Series1,
Distribución del empleo por sectores económicos
Agricultura,
36.5%
Series1,
Educación,
27.0%

Series1,
Comercio,
17.5%
Series1,
Industria, 13.0%

Series1, Turismo,
6.0%

Sector económico

Fuente STAT S.A.


Grafico de varas o bastones
 Cuando se tienen datos cuantitativos discretos cuyo numero
de resultados posibles no es grande (no es mayor a 15), la
información puede ser clasificada y presentada directamente
sin perdida de la identidad a través de tabla de frecuencias
Caso de aplicación
 En un estudio socioeconómico se contabilizó el número de
trabajadores eventuales que tienen las empresas comerciales de
una región de la ciudad de Trujillo. Mediante una muestra de 40
empresas se encontraron los siguientes resultados

4 8 10 6 5 7 8 10 5 8
10 7 6 8 10 9 7 7 8 5
6 9 9 4 7 7 9 8 6 5
8 8 7 7 5 8 9 6 7 9
Distribución del número de trabajadores eventuales
Número de Frecuencias Frecuencia
trabajadores absoluta relativas Porcentaje
eventuales (fi) (hi)
4 2 0,05 5
5 5 0,125 12,5
6 5 0,125 12,5
7 9 0,225 22,5
8 9 0,225 22,5
9 6 0,15 15
10 4 0,1 10
Total 40 1 100

Las frecuencias absolutas son el resultado de un proceso de


conteo de las respuestas obtenidas en las 40 empresas.
Tabulación de datos
 Establecerse el número de intervalos
 Regla de Sturges : K=1+3,3 log(n);
 n= Número de observaciones
 Valor redondeado
• Determinar el Rango Amplitud
 A=Xmax - Xmin
• Determinar el tamaño de cada intervalo de clase
 TIC=A/k
 Redondeo por exceso
 Generar los límites de los intervalos.
El primer límite inferior es igual al valor mínimo.

Cada uno de los intervalos se considera cerrado a la izquierda y


abierto a la derecha.

Esta regla no aplica al ultimo intervalo.


 Determinar las frecuencias absolutas, es decir, el número de
observaciones que está dentro de cada intervalo. A partir de ello
se calculan las frecuencias relativas y los porcentajes.
 Lo anterior trae como consecuencia la pérdida de identidad de
los datos ya que solamente se sabe cuantos datos hay dentro de
cada intervalo. Por ello, se trabaje con un valor que representa al
intervalo, denominado marca de clase.
Ejemplo
 Se presentan los valores de la inflación anual durante el año
de 1996 de un total de 50 ciudades de una región del país.

8,2 10,2 13,1 8,5 10,2 10,3 9,4 11,2 11,4 13,3
12,8 9,1 9,8 11,6 11,8 11,2 11,4 10,6 9,7 13,9
10,5 10,7 12,1 8,4 15,1 11 12,8 12,2 11,8 11,7
9,3 8,2 13,6 10,1 9 9,7 10,3 9,5 14,8 9,5
12,7 12,8 11,7 14,4 10,5 13,8 9,6 12,5 10,1 15,5
 El número de intervalos de clase a utilizar
 n=50; k=1+3,3*log(50) =6,6066=7
• La amplitud de los datos
 A=Xmax - Xmin=15,5-8,2=7,3
• El tamaño de intervalo de clase (TIC)
 TIC=A/k=7,3/7=1,04286=1,1
 (redondeo por exceso, ala décima superior considerando que los
datos tienen un decimal significativo)
Intervalo Marca Frecuencia Frecuencia %
de clase de Absoluta Relativa
clase (fi) (hi)

[ 8,2-9,3 > 8,75 6 0,12 12


[ 9,3-10,4 > 8,85 14 0,28 28
[ 10,4-11,5 > 10,95 9 0,18 18
[ 11,5-12,6 > 12,05 8 0,16 16
[ 12,6-13,7 > 13,15 7 0,14 14
[ 13,7-14,8 > 14,25 3 0,06 6
[ 14,8-15,9 ] 15,35 3 0,06 6
Total 50 1 100
Fuente STAT S.A.
Polígono de frecuencias relativas

Fuente STAT S.A.


Ojivas (Polígono de frecuencia absoluta
acumulada)

Fuente STAT S.A.


Medidas de tendencia central
La media aritmética
 La media o promedio aritmético se define como la suma de todas
las observaciones dividida entre el número de observaciones.
Propiedades de la media aritmética
 La media aritmética es el centro de gravedad o punto de
equilibrio de un conjunto de datos.
 Esta influenciado por la presencia de valores extremos.
 La suma de las desviaciones de las observaciones respecto al
promedio aritmético es igual a cero.
 Algunas notas de cierto alumno son:
9,11,10,13,12

 Dos notas adicionales fueron 5 y 3

 Pero en realidad fue un error; las notas eran 17 y 19


Propiedad

Xi
1 9-11 -2
2 11-11 0
3 10-11 -1
4 13-11 2
5 12-11 1
Suma 0
 Si a cada observación se le suma una constante, el promedio
aritmético de las nuevas observaciones será igual al promedio
aritmético original mas la constante.
 Si a cada observación se le multiplica por una constante, el
promedio aritmético de las nuevas observaciones será igual al
promedio aritmético original multiplicado por la constante.
 En general se cumple
 ¿Qué sucede con el promedio si a las 5 primeras notas se le sube
un punto?
 Datos originales: 9,11,10,13,12 ;
 Datos transformados: 10,12,11,14,13

 ¿Y si se eleva el 10% a cada nota?


 Datos originales: 9,11,10,13,12 ;
 Datos transformados: 9.9, 12.1,11, 14.3,13.2
La mediana
 La mediana de un conjunto de observaciones ordenadas de
acuerdo con su magnitud, es el valor de la observación que ocupa
la posición central de dicho conjunto.
 La mediana poblacional se simboliza como Me
 La mediana muestral se simboliza como me
 Calcule la mediana para las 5 primeras notas 9,11,10,13,12
 Los datos ordenados son: 9,10,11,12,13
 Como n es impar ;(n+1)/2=3
 Si una nota adicional 14 ¿Cuál es el nuevo valor de la mediana?
 Datos:9,10,11,12,13,14
 Como n es par :
Propiedades de la mediana
 La mediana divide a un conjunto de observaciones en dos
partes iguales.
 El 50% de los valores son menores a la mediana.
 El 50% de los valores son mayores o iguales a la mediana.
 La mediana es influenciada por el número de observaciones y
no por los valores de las observaciones
La moda
 La moda de un conjunto de observaciones se define como el
valor o categoría que ocurre con mayor frecuencia.
 La moda poblacional se simboliza cono Mo
 La moda muestral se define como mo
Propiedades de la moda
 Puede existir más de una moda o puede no existir
 No se ve afectada por valores extremos
 Se aplica a variables cualitativas como a cuantitativas.
 La moda es una medida de tendencia inestable y es difícil de
estimar.
Medidas de dispersión o variabilidad
 Son las medidas que indican el grado de variación o alejamiento
de los datos a su respectiva media aritmética.
 Mientras menor es el grado de variación, los datos presentarán
mayor uniformidad, entonces se dice que los datos tienen poca
variabilidad, poca dispersión o que los datos son homogéneos.
 Un grado de variación cero indicará que todos los datos son
iguales.
Comparación de notas
 Dos estudiantes de Certus se encuentran al final del semestre
y comparan sus calificaciones de 5 cursos. El primero obtuvo
13,14,15,16,17; mientras que el segundo, 10,12,15,18,20.
 Al final del ciclo ¿Podemos decir que ambos tuvieron el
mismo rendimiento académico?
El Rango o Amplitud
 El rango se define como la diferencia entre el valor máximo y
el valor mínimo.

 El problema de esta medida es que solo utiliza dos datos,


dejando de lado, las observaciones intermedias.
Ejemplo
 Para las calificaciones de los estudiantes calcule el Rango
respectivo.
 Primer estudiante: 13,14,15,16,17
 Segundo estudiante: 10,12,15,18,20.
La varianza y desviación estándar
Para la población Para la muestra
 Varianza poblacional  Varianza muestral

 Desviación Estándar  Desviación estándar


poblacional muestral
 Para las calificaciones de los estudiantes calcule la varianza y
desviación estándar respectiva.
 Primer estudiante: 13,14,15,16,17
 Segundo estudiante: 10,12,15,18,20.
Propiedades de la varianza poblacional
 Si a cada observación se le suma una constante, la varianza de las
nuevas observaciones será igual a la varianza original.
 ¿Qué sucede con la variabilidad de los datos si se suben 2 puntos
a las calificaciones del primer estudiante?
 Si a cada observación se le multiplica por una constante, la
varianza de las nuevas observaciones será igual a la varianza
original multiplicado por la constante elevada al cuadrado.
 ¿Qué sucede con la variabilidad de las calificaciones del primer
estudiante si se aumenta el 10% de sus calificaciones?
En general

 ¿Qué sucede con la variabilidad de las calificaciones del primer


estudiante si se aumenta el 5% de sus calificaciones y se le otorga
1.5 adicionales?
El coeficiente de variación
 Coeficiente de variabilidad ¿Cuando se utiliza?
poblacional  Para comparar la variabilidad
de dos o más conjuntos de
datos que poseen diferentes
promedios.
 Coeficiente de variabilidad
 Para comparar la variabilidad
muestral
de dos o más conjuntos de
datos que poseen magnitudes
diferentes .
Cuando se trabaja con datos económicos se
puede utilizar la siguiente escala

cv Grado de Variabilidad
0≤cv≤10 Datos muy homogéneos
Datos regularmente
10≤cv≤15
homogéneos
Datos regularmente
15≤cv≤20
variables
20≤cv≤25 Datos variables
cv≥25 Datos muy variables