Вы находитесь на странице: 1из 73

Análisis de Datos

Definiciones

Estadística:
Definiciones

Estadística

"La estadística estudia el comportamiento de los fenómenos llamados de


colectivo. Está caracterizada por una información acerca de un colectivo o
universo, lo que constituye su objeto material; un modo propio de razonamiento,
el método estadístico, lo que constituye su objeto formal y unas previsiones de
cara al futuro, lo que implica un ambiente de incertidumbre, que constituyen su
objeto o causa final." (Cabriá, 1994).

"Ciencia que recoge, organiza, presenta, analiza e interpreta datos con el fin de
propiciar la toma de decisiones más eficaz".
Definiciones

Tipos de Estadística

Descriptiva Inferencial

A B
Definiciones

Tipos de Estadística

Descriptiva Inferencial

Consiste sobre todo en la Se deriva de muestras, de


presentación de datos en forma de observaciones hechas sólo acerca de
tablas y gráficas. Esta comprende una parte de un conjunto numeroso
cualquier actividad relacionada con de elementos y esto implica que su
los datos y está diseñada para análisis requiere de generalizaciones
resumir o describir los mismos sin que van más allá de los datos. La
factores pertinentes adicionales; esto Estadística Inferencial investiga o
es, sin intentar inferir nada que vaya analiza una población partiendo de
más allá de los datos, como tales. una muestra tomada.
Datos vs Información

Dato FN FNA

12011979 12/01/1979 12/01/1979


Preguntas
25042001 25/04/2001 25/04/2001
¿Quién es el mayor?
¿Quién es el menor?
28081963 28/08/1963 28/08/1963
¿Cuál es la edad promedio?
¿Cuántos nacieron el mismo año?
15031971 15/01/1971 15/01/1971
¿Son correctos y consistentes?
11122009 11/12/2009 11/12/2009

19101975 19/10/1975 19/10/1975

23111973 23/11/1973 23/11/1973


Conceptos Básicos
de Inferencia Estadística

x2 Mecanismos de
x1
x1
selección x3
x3
x5
x2
x4
. . . xN
Muestra Aleatoria
Población
Estimador
Parámetro
Población
El conjunto de todos los elementos de interés, esta definición no es exclusiva de
seres humanos. Una población debe definirse claramente en el tiempo y en el
espacio.
Muestra
Porción o parte de la población de interés. Un subconjunto de
la población.
Ejemplo: Cuando se prepara sopa para 100 personas, la olla es mucho más grande
que la utilizada para preparar sopa para 5 personas, sin embargo si deseamos
estimar si la sopa tiene sal, con una sola cucharada es suficiente para darse
cuenta si tiene sal o no. Observe que el tamaño de la población no influyo en el
tamaño de la muestra.

Elementos necesarios para seleccionar una muestra:


• Costo
• Tiempo
• Medición que destruye el elemento
• Facilidad de consecución de la información
• Es más útil tomar una muestra que una población por la
homogeneidad de la variable, cuando hacer fácilmente a toda
una población.
Muestra Aleatoria
Se considera aleatoria siempre y cuando cada observación,
medición o individuo de la población tenga la misma
probabilidad de ser seleccionado.
Parámetro

Es una cantidad numérica calculada sobre una


población
x2 Mecanismos de
x1
x1
selección x3
x3
x5
x2
x4
. . . xN
Muestra Aleatoria
Población
Estimador
Parámetro
Estimador o Estadístico

Es una cantidad numérica calculada sobre una muestra

x2 Mecanismos de
x1
x1
selección x3
x3
x5
x2
x4
. . . xN
Muestra Aleatoria
Población
Estimador
Parámetro
Variable

Es la característica de la muestra o población que se


está estudiando. Los datos son el producto de su
medición sobre los elementos o sujetos de estudio.

1. La edad

2. Color de ojos

3. Nombre de bebidas favoritas

4. Sexo

5. Ingresos
Variable

Tipo de variables

Cualitativa Cuantitativa

Discreta Continua
Variables

• Variables Cualitativas o Atributos: Este tipo de variables


representan una cualidad o atributo que clasifica a cada caso en una
de varias categorías. Pueden ser dicotómicas o politómicas.
(ejemplos: el género, profesión, estado civil, etc.).

• Variables Cuantitativas (por ejemplo la edad, la altura, el


peso, etc.).
Variables
A su vez las variables cuantitativas se puede dividir en dos
subclases:

• Cuantitativas discretas. Aquellas a las que se les puede


asociar un número entero, es decir, aquellas que por su
naturaleza no admiten un fraccionamiento de la unidad, por
ejemplo número de hermanos, páginas de un libro, etc.

• Cuantitativas continuas: Aquellas que no se pueden expresar


mediante un número entero, es decir, aquellas que por su
naturaleza admiten que entre dos valores de la variable pueda
tomar cualquier valor intermedio, por ejemplo peso, estaturas,
medidas de longitud, etc.

168.4 168.8
168 169
Variables

Escalas de medición
de variables

Nominal Ordinal Intervalo Razón


• Se utilizan nombres para establecer categorías de una variable.

• Para distinguir las categorías se utilizan letras, símbolos e incluso


números los cuales únicamente designan una relación de equivalencia.

• Las técnicas estadísticas que se pueden utilizar con variables de escala


nominal son la moda y las frecuencias.
Ejemplo 1.
Estrato socioeconómico:
Estrato (1)
Esta escala permite además de Estrato (2)
clasificar generar un orden, es decir, Estrato (3)
establecer una secuencia lógica que Estrato (4)
mide la intensidad del atributo o el Existe una diferencia entre
ordenamiento jerárquico del mismo los estratos.
• Esta escala mide las variables de manera numérica.
• Permite clasificar (nominal) y ordenar (ordinal) y los intervalos son iguales
• Es posible conocer las distancias numéricas o grados que separan unas de
otras.

Ejemplo: La temperatura; una persona que en un examen de matemáticas que


obtiene una puntuación de cero no significa que carezca de conocimientos; Nivel
de aceite en el motor de un automóvil medido con una vara graduada; fechas;
coordenadas; puntos kilométricos.
Esta escala posee las propiedades anteriores como clasificar,
ordenar y los intervalos son iguales. Existe el cero absoluto o
verdadero”, si un objeto que se está midiendo tiene el valor
cero, ese objeto no posee la propiedad o atributo que se está
midiendo.
En esta escala las propiedades aritméticas de multiplicación y división adquieren
significado.

Por ejemplo el ingreso por ventas: Una medida de cero indica que no se ha vendido
nada, ayer vendí el doble que hoy, el ingreso por ventas se divide entre el personal.
Ejercicio
 ¿Cuál es la población bajo estudio?

 ¿Cuál es el elemento de interés?

 ¿La anterior información corresponde a una población o a una muestra?

 ¿Qué característica debe ser observada en los elementos de interés?

Coca Cola desea analizar la rapidez con que sus maquinas etiquetan las
botellas de jugos del Valle. Para esto deciden hacer el seguimiento al número
de botellas etiquetadas por día, tomando aleatoriamente 100 días durante un
año de producción de las maquinas.
Ejercicio

• ¿Cuáles variables son cualitativas y cuales son


cuantitativas?

• ¿Qué tipo de medición son las variables?


Ejercicio

• Estrato:Es el estrato socioeconómico de acuerdo a la ubicación de la vivienda,


determinado por la oficina de planeación municipal ( Estrato 1 a Estrato 6).

• No de personas por hogar: No de personas que habitan la vivienda.

• Consumo mensual en KW-h: Corresponde al consumo realizado en el mes


anterior.

• Cocina con Gas: Si o No ( si la vivienda tiene estufa de gas natural o propano


y lo utiliza para cocinar ) o no posee.

• No de Electrodomésticos en el hogar: No de electrodomésticos que tiene la


vivienda: lavadoras, neveras equipos de sonido entre otros.
Ejercicio
• Genero de la persona que responde la encuesta de satisfacción.
• Grado de satisfacción de los clientes ante el servicio de mantenimiento
de un taller mecánico

• Ingreso (en Miles de $) de los trabajadores de un taller mecánico


• Tiempo de respuesta a los pedidos telefónicos en un restaurante
• Técnicas de mezclado de un tipo de cemento por lote en la Cementera.
• Cantidad de corriente en microamperios por cada medición en un
cinescopio

• Temperatura de cocción de la meladura en un proceso de producción de


azúcar.
Organización de los datos
Una distribución de frecuencias: es un arreglo de los datos que
permite expresar la frecuencia de ocurrencias de las
observaciones en cada una de las clases, mostrando el patrón de
la distribución de manera más significativa.

Ordenar

¿Para qué se
construyen las Agrupar
tablas de
frecuencias ?

Resumir
Ejemplo
Las estaturas (en centímetros) de los socios de un club juvenil
son las siguientes

128 138 143 128 128 INTERVALOS fi


[126 -130) 8
128 128 148 141 144
[130 -134) 2
129 141 134 146 132 [134 -138) 5
132 136 144 136 144 [138 -142) 4
129 144 141 148 129 [142 -146) 7
[146 -150)
134 146 134 143 143 4
30
Tabla de frecuencia

INTERVALOS fi Fi fri FRi


[126 -130) 8 8 0,27 0,27
[130 -134) 5 13 0,17 0,43
[134 -138) 3 16 0,10 0,53
[138 -142) 3 19 0,10 0,63
[142 -146) 9 28 0,30 0,93
[146 -150) 2 30 0,07 1,00
30 1
Organización de los datos
1. Definir los intervalos de clase:

Para definir la cantidad de intervalos de clase (k), se puede


usar:
• La regla de Sturges: k = 1 + 3.3log(n)
• k = n
• 2k > n

En nuestro ejemplo el número de intervalos es:


K = 1 + 3.3 log30 = 1+3.3(1.477121255) = 1+ 4.874500141
= 5.874500141.
Organización de los datos
2. Calcular la amplitud del intervalo.
• El rango: Valor máximo – Valor mínimo

En nuestro ejemplo el es igual: Rango=148-128=20

• K=?

Amplitud que denominaremos con la letra a = Rango/K

20
En nuestro ejemplo a  3.333
6
Ejemplo
3. Calculo del límite inferior :

(k )(a )  Rango
Li  Valormínim o 
2
Nuestro ejemplo será:

(6)(4)  20
Li  128   128  2  126
2
Tabla de frecuencia

Número de intervalos INTERVALOS


1 [126 -130)
2 [130 -134)
3 [134 -138)
4 [138 -142)
5 [142 -146)
6 [146 -150)
Organización de los datos
Construcción de la tabla de frecuencia:
• Punto medio o Marca de clase= (Li+Ls)/2
• Frecuencia absoluta de la clase (fi)
• Frecuencia acumulada de la clase (Fi)
• Frecuencia relativa de la clase (fri): fri = fi/n
• Frecuencia relativa acumulada de la clase (FRi)
Clase/ Pto.
fi Fi fri FRi
Intervalo Medio
Tabla de frecuencia

INTERVALOS fi Fi fri FRi


[126 -130) 8 8 8/30 8/30
[130 -134) 5 13 5/30 13/30
[134 -138) 3 16 3/30 16/30
[138 -142) 3 19 3/30 19/30
[142 -146) 9 28 9/30 28/30
[146 -150) 2 30 2/30 30/30
30 1
Representación gráfica de los datos
Los gráficos permiten visualizar en forma global y rápida
el comportamiento de los datos.

• Para datos cuantitativos agrupados en clases,


comúnmente se utilizan tres gráficos:
• Histogramas.
• Polígono de frecuencias.
• Ojiva o Polígono de frecuencias acumuladas
Representación gráfica de los datos

Histograma
Representación gráfica de los datos

Histograma y Polígono de Frecuencias


Representación gráfica de los datos

Ojiva
Concepto de distribución

Fuente: DICCIONARIO DE LA LENGUA ESPAÑOLA - Vigésima segunda edición – Real Academia Española
Función empírica de distribución
acumulativa

Función empírica de densidad

Frecuencia relativa ( fri )


f i* 
Amplitud int ervalo ( a )
Función empírica de distribución
acumulativa

Función empírica de densidad


Histograma
0.30
0.27

0.25 0.23

0.20
0.17

0.15 0.13 0.13


fri

0.10
0.07

0.05

0.00
[126 -130) [130 -134) [134 -138) [138 -142) [142 -146) [146 -150)
Función empírica de distribución
acumulativa
Función empírica de distribución acumulativa

0 para x  Lo
 *   
F ( x)   F( Li1 )  f i ( x  Li ) para Li x  Li i  1, 2...k

1 para x  Lk
Ejercicio en clase del uso de la función
empírica de distribución acumulativa
Tabla de frecuencia de las estaturas (en centímetros) de los socios de un club
juvenil.

Marca de
Intervalo (k=6) clase fi Fi fri Fri
[126 -130) 128 8 8 0,27 0,27
[130 -134) 132 2 10 0,07 0,33
[134 -138) 136 5 15 0,17 0,50
[138 -142) 140 4 19 0,13 0,63
[142 -146) 144 7 26 0,23 0,87
[146 -150) 148 4 30 0,13 1,00
Total 30 1,00
Ejercicio en calse del uso de la función
empírica de distribución acumulativa
1. ¿Qué porcentaje de jóvenes tienen estaturas menores a 141 cm?

2. ¿ Qué porcentaje de jóvenes tienen estaturas mayores a 141 cm?

3. ¿Qué porcentaje jóvenes tienen estaturas entre 133 y 141 cm?

4. ¿ A partir de qué valor el 70% de los jóvenes tienen estaturas menor a él?

5. ¿ A partir de qué valor el 35% de los jóvenes tienen estaturas mayores a él?
Otras representaciones gráficas de
los datos
Los gráficos permiten visualizar en forma global y rápida
el comportamiento de los datos.

• Para datos cualitativos se usan:


• Curvas
• Barras
• Sectores
Otras representaciones gráficas de
los datos
Categorías de Afiliación
Barras 60% 55%

39%
40%
140 Medios de Comunicación
120 20%
120
102 6%
100
0%
80 A B C
62
60

40
Barras
22
20
5 6
0
Volantes Perifoneo Cajeros Amigos Radio Otro
Otras representaciones gráficas de
los datos
3,200,000 430,000

410,000
2,960,423
3,000,000
2,870,585 2,874,762 390,000

2,800,000 2,753,208 370,000


Miles de $

Clientes
350,000
2,600,000
330,000

2,400,000 310,000

290,000
2,200,000
270,000
302,446 346,306 392,571 408,288
2,000,000 250,000
2006 2007 2008 2009

Años

CLIENTES ventas
Otras representaciones gráficas de
los datos
Sectores, torta o circular PAC,
100,
11%

POS,
823,
89%
Medidas de tendencia central
Corresponden a valores que generalmente se ubican en la parte
central de un conjunto de datos.

Forma como los datos pueden condensarse en un solo valor


central alrededor del cual todos los datos muéstrales se
distribuyen.

Las medidas de tendencia central más importantes son:


• Media Aritmética
• Mediana.
• Moda.
Media Aritmética
• Es la suma de todas las observaciones dividida entre el número total
de observaciones.

• Expresada de forma más intuitiva, podemos decir que la media


aritmética es la cantidad total de la variable distribuida a partes
iguales entre cada observación.

• Por ejemplo, si en una habitación hay tres personas, la media de


dinero que tienen en sus bolsillos sería el resultado de tomar todo el
dinero de los tres y dividirlo a partes iguales entre cada uno de
ellos. Es decir, la media es una forma de resumir la información de
una distribución (dinero en el bolsillo) suponiendo que cada
observación (persona) tendría la misma cantidad de la variable.
Cálculo de la media aritmética

• Para datos no agrupados:


n

x
i 1
i
X
n
• Para datos agrupados:
k

m f
i 1
i i
X
n

Donde: mi: punto medio de la clase i


fi: frecuencia absoluta de la clase i
k: cantidad de clases
Introducción a las propiedades
de la Media Aritmética
Desviación:
La desviación nos indica una separación o alejamiento de un dato con respecto a
un cierto número de referencia.

Si tenemos que:

A = Valor de referencia
Xi = Cualquier dato
di = (Xi – A) la desviación
Introducción a las propiedades
de la Media Aritmética
Ejemplo:
Sobre la edades de un grupo particular.
Xi A = 50 Xi A = Media
Valor de Valor de la Valor de Valor de la
Diferencia Datos referencia diferencia Diferencia Datos referencia diferencia
d1 64 50 14 d1 64 54 10
d2 65 50 15 d2 65 54 11
d3 53 50 3 d3 53 54 -1
d4 49 50 -1 d4 49 54 -5
d5 46 50 -4 d5 46 54 -8
d6 52 50 2 d6 52 54 -2
d7 43 50 -7 d7 43 54 -11
d8 55 50 5 d8 55 54 1
d9 20 50 -30 d9 20 54 -34
d10 93 50 43 d10 93 54 39
Suma 40 Suma 0
Propiedades de la Media
Aritmética
Propiedades:

• La suma de las desviaciones de los datos con respecto


a la media aritmética siempre es igual a cero.

• Si a cada uno de los datos se le suma (o resta) una


cantidad “A”, la nueva media aritmética será igual a la
media más o menos el valor de A.
Propiedades de la Media
Aritmética
Propiedades:

• Si todos los datos son iguales a “C” una constante, la


media es igual a la constante.

• Si todas las observaciones xi se multiplican por una


constante “C”, la nueva media resulta multiplicado por
la misma constante.
Propiedades de la Media
Aritmética
El tiempo que demoran 10 personas para ser atendidos
en una oficina de servicio al cliente en minutos es:

12, 15, 10, 9, 13, 20, 28, 17, 7, 23

¿cuál es el tiempo promedio que tomaron las 10


personas para ser atendidas?

Si el tiempo según protocolos de la Superintendencia


Bancaria se debe expresar en horas. Recalcule la
media para ser atendidas las 10 personas.
Propiedades de la Media
Aritmética
Propiedades:

• Propiedad 5

• Propiedad 6
Trabajo en clase 1
Una compañía constructora resuelve estudiar en un concreto su resistencia a la
comprensión, con el objeto de hacer un control de calidad. Para ello se tomaron
10 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en
kg/cm2 de presión obtenidos al cabo de 28 días de curado fueron: 295, 282,
221, 240, 328, 191, 275, 253, 259, 206

a. ¿Cuál es el promedio muestral de resistencia de los cilindros de concreto?

b. Si se entera que el equipo de medición de resistencia tiene un error


sistemático, en el sentido que muestra una lectura superior en 5kg/cm2 al
verdadero valor, entonces calcule nuevamente la media aritmética.

c. Si el error sistemático consistiera en amplificar el valor real en un 10%.


Recalcule la media real.

d. Si se aumentan la muestra con 5 cilindros más que se prueban con los


siguientes resultados: 232, 256, 287, 228, 295. Calcule la nueva media.
Propiedades, ventajas y desventajas de la
media

Ventajas:
• Emplea en su cálculo toda la información disponible.

• Se expresa en las mismas unidades que la variable en


estudio.

• Es el centro de gravedad de toda la distribución,


representando a todos los valores observados.

• Es un valor único.
Ventajas y desventajas de la media

Ventajas:

• Se trata de un concepto familiar para la mayoría de


las personas.

• Es útil para llevar a cabo procedimientos estadísticos


como la comparación de medias de varios conjuntos
de datos.
Ventajas y desventajas de la media

Desventajas:
• Se ve adversamente afectada por valores extremos,
perdiendo representatividad.

• No se puede calcular para datos cualitativos.


Mediana

• Es el valor que ocupa la posición central de un


conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente.

• Divide al conjunto de datos en dos partes iguales.


Cálculo de la mediana
• Para datos no agrupados:

• Si n es impar: posición donde se ubica la mediana


es igual a (n+1)/2.

• Si n es par: (n+1)/2 no es entero, por lo tanto la


mediana será igual al promedio de las dos
posiciones centrales.
Mediana – Ejemplo

Los siguientes datos corresponden a las edades de 14


personas seleccionadas al azar, entre cierta clase de
empleados de la población objetivo de un estudio.

25 38 29 42 39 54 23
33 45 45 26 34 30 31

Localizar la mediana.
Mediana – Ejemplo (cont.)

Paso 1: Ordenar los valores del mínimo valor al máximo

Dato 23 25 26 29 30 31 33
Posición 1 2 3 4 5 6 7
7.5
Dato 34 38 39 42 45 45 54

Posición 8 9 10 11 12 13 14

Mediana
Mediana – Ejemplo (cont.)
Mediana
Paso 1: Ordenar los valores del mínimo valor al máximo

Dato 23 25 26 29 30 31 33
Posición 1 2 3 4 5 6 7

Dato 34 38 39 42 45 45

Posición 8 9 10 11 12 13
Cálculo de la mediana

• Datos agrupados: Clase mediana es la que contiene a la


observación que ocupa la posición n/2.

0 para x  Lo

F ( x)   F( Li1 )  f i* ( x  Li 1 ) para Li 1  x  Li i  1, 2...m

1 para x  Lm

Función empírica de distribución acumulativa


Ventajas y desventajas de la mediana

Ventajas:
• Fácil de calcular si el número de observaciones no es muy
grande.
• No se ve influenciada por valores extremos, ya que solo influyen
los valores centrales.
• Fácil de entender.
• Se puede calcular para cualquier tipos de datos cuantitativos.
• Es la medida de tendencia central más representativa en el caso
de variables que solo admiten la escala ordinal.
Ventajas y desventajas de la mediana

Desventajas:

• No utiliza en su “cálculo” toda la información disponible.

• No pondera cada valor por el número de veces que se ha


repetido.

• Hay que ordenar los datos antes de determinarla.


Moda
• Observación o clase que tiene la mayor frecuencia en
un conjunto de observaciones.

• Un conjunto de datos puede ser unimodal, bimodal o


multimodal.

• Es la única medida de tendencia central que se puede


determinar para datos de tipo cualitativo.

• Por ejemplo, en la muestra: 2, 3, 1, 1, 1, 4, 3, 1, 5, 1,


5, 2, ¿Cuál es la moda?
Ventajas y desventajas de la moda

Ventajas:

• No requiere cálculos.

• Puede usarse para datos tanto cuantitativos como


cualitativos.

• Fácil de interpretar.

• No se ve influenciada por valores extremos.


Ventajas y desventajas de la moda

Desventajas:

• Para conjuntos pequeños de datos su valor no tiene casi utilidad,


si es que de hecho existe. Solo tiene significado en el caso de
una gran cantidad de datos.

• No utiliza toda la información disponible.

• No siempre existe, si los datos no se repiten.

• Difícil de interpretar si los datos tiene 3 o más modas.


Relación entre la media, la mediana y la
moda

Cuando los datos son sesgados es mejor emplear la Md

Вам также может понравиться