Академический Документы
Профессиональный Документы
Культура Документы
Fuentes de Datos
F u e n te s d e D a to s
P r im a r ia s
E x p e r im e n t o s
O b s e rv a c i n
S e c u n d a r ia s
C ensos
E n c u e s ta s
Tipos de Datos
D a to s
C a t e g r ic o s
O r d in a le s
C u a n t it a t iv o s
N o m in a le s
Definiciones
Una variable categrica indica a qu grupo o a
qu categora pertenece una observacin. Todo lo
que podemos hacer es calcular la proporcin de
datos que entra en cada categora.
Una variable cuantitativa toma valores
numricos sobre los cuales podemos realizar
operaciones aritmticas. Las variables cuantitativas
pueden ser discretas o contnuas.
4
Ejemplos
Datos cuantitativos
Datos categricos
Edad -- ingreso
ingreso
Edad
Persona Casado/no
Casado/no casado
casado
Persona
55
55
42
42
75000
75000
68000
68000
..
..
.. de
Aumento
de.. peso
peso
Aumento
+10
+10
+5
+5
..
..
11
22
33
..
..
sisi
no
no
no
no
..
Profesor
..
Profesor
11
22
33
..
..
Rango
Rango
Visitante
Visitante
Full Time
Time
Full
Asistente
Asistente
..
..
5
Variable continua
3 ...
0 1/16 1/4
1/2
Estadstica Descriptiva
Abarca la agrupacin, resmen y presentacin de
los datos para permitir su interpretacin y poder
tomar decisiones basadas en dicha interpretacin.
La estadstica descriptiva utiliza
Tcnicas grficas
Medidas de descripcin numricas
Variables Categricas
Pie chart
Grfico de barras
Variables cuantitativas
Las variables cuantitativas contnuas toman un
nmero considerable de valores.
Su representacin grfica resulta ms clara si se
agrupan los valores prximos de la variable.
El grfico ms comn de la distribucin de una
variable cuantitativa contnua es un histograma.
9
160
2 00
1 60
120
1 20
80
40
0
0
80
40
0
0
10
12
( x1 x 2 ... x n )
x
n
De forma compacta:
1
x
n
x
i 1
13
6
i1 x i
4.5
14
1
4
2
7
3
2
16 empleados
16
i 1 x i
16
1.5
16
16
15
La mediana
La mediana (Me) es el valor central de un
histograma.
Para hallar la mediana de una distribucin
debemos:
1. Ordenar las observaciones en orden ascendente.
16
La mediana
Ejemplo:
Los salarios de siete empleados fueron
los siguientes (en 1000s) :
28, 60, 26, 32, 30, 26, 29.
Cul es la mediana?
26,26,28,29,29.530,31,
32,60
,30,31,32,60
26,26,28,29,
17
El modo
El modo es el valor que ocurre con mayor frecuencia
en un grupo de observaciones.
El modo
Cuando la muestra
es grande, los datos
se agrupan en intervalos
y obtenemos el
Intervalo modal
18
El modo
Ejemplo
El gerente de una tienda de ropa posee la siguiente
informacin sobre el talle de los pantalones que se
vendieron ayer:
31, 34, 36, 33, 28, 34, 30, 34, 32, 40.
El modo es 34
19
Media y Mediana
La media es sensible a observaciones extremas .
La mediana solo es sensible a cambios en su entorno que la
cruzan. Por ello, se dice que la mediana es un estimador robusto
de la tendencia central.
La media y la mediana de una distribucin simtrica se
encuentran muy cerca. Si la distribucin es exactamente simtrica,
la media y la mediana coinciden.
Si la distribucin es asimtrica, la media queda desplazada hacia
la cola ms larga del histograma de la distribucin.
20
Distribuciones simtricas y
asimtricas
Una distribucin es simtrica si el lado derecho e
izquierdo del histograma con respecto a la mediana son
aproximadamente iguales.
Un distribucin es asimtrica hacia la derecha si el
lado derecho del histograma se extiende sobre un mayor
nmero de valores (intervalos) que el lado izquierdo.
Una distribucin es asimtrica hacia la izquierda si el
lado izquierdo del histograma se extiende sobre un
mayor nmero de valores (intervalos) que el lado
derecho.
21
10
11 12
23
10
11 12
24
45
50
Edad
55
60
65
25
Modo
Media
Mediana
Media Modo
Mediana 26
Medidas de dispersin
Caracterizar una distribucin solamente a travs de una medida
central no es apropiado.
Las distribuciones del ingreso de dos regiones con el mismo
ingreso medio por hogar son muy distintas si una de ellas tiene
extremos de pobreza y de riqueza, mientras que la otra tiene poca
variacin de ingresos entre familias.
Estamos interesados en la dispersin o variabilidad de los
ingresos, adems de estarlo en sus centros.
27
Medidas de dispersin
Ejemplo de dos conjuntos de datos con igual media
Medidas de dispersin
Rango
Una manera de medir la dispersin es calcular el
recorrido de la distribucin emprica, es decir, la
diferencia entre las observaciones mxima y mnima.
Su mayor ventaja es que se puede calcular
facilmente, sin embargo, no brinda informacin sobre
la dispersin existente entre ambos valores extremos.
29
Medidas de dispersin
El rango depende slo de las observaciones
mxima y mnima, que podran ser observaciones
atpicas.
Podramos mejorar nuestra descripcin de la
dispersin fijndonos, por ejemplo, tambin en la
dispersin del 50% de los valores centrales de
nuestros datos.
Un conjunto de estadsticos de utilidad son los
cuartiles de una distribucin.
30
Cuartiles
Para calcular los cuartiles de una distribucin debemos:
1. Ordenar las observaciones en orden creciente y localizar la
mediana.
2. El primer cuartil Q1 es la mediana de las observaciones
situadas a la izquierda de la mediana de la distribucin.
3. El tercer cuartil Q3 es la mediana de las observaciones
situadas a la derecha de la mediana de la distribucin.
31
Cuartiles
Los cuartiles son medidas de tendencia no central de una
distribucin.
Dividen los datos ordenados en 4 cuartos iguales:
25%
25%
Q1
25%
Q2
25%
Q3
Percentiles
Los percentiles son otro conjunto de medidas de tendencia no
central de una distribucin.
Dividen los datos ordenados en 100 partes iguales.
El percentil 25 es el primer cuartil ...
Ejemplo
Supongamos que el 78% de los resultados de la PSU es menor o igual a 600
puntos. Entonces, 600 es el percentil 78 de la distribucin.
200
22%
600
800
33
Percentiles
Percentiles frecuentemente utilizados
Primer decil = percentil 10
Primer cuartil, Q1,
= percentil 25
Segundo cuartil,Q2, = percentil 50
Tercer cuartil, Q3,
= percentil 75
Noveno decil = percentil 90
Ejemplo
Encontrar los cuartiles del siguiente conjunto de datos:
7, 8, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8
34
Percentiles
Solucin
Primero, ordenar las observaciones
15 observaciones
35
Diagrama de caja
Los cinco nmeros resmen de una distribucin
son representados grficamente por un diagrama
de caja.
L - Observacin mxima
Q3 - Tercer cuartil
Q2 - Mediana
Q1 - Primer cuartil
S - Observacin mnima
36
Diagrama de caja
Los lados inferior y superior de la caja van del
primer al tercer cuartil. Por tanto, la altura de la
caja es la amplitud del 50% de los datos centrales.
El segmento del interior de la caja indica la
mediana. Los extremos de los segmentos
perpendiculares a los lados superior e inferior
indican, respectivamente, los valores mximo y
mnimo de la distribucin.
S
Q1
Q2
Q3
37
Diagrama de caja
38
( x1 x ) ( x 2 x ) ... ( x n x )
s
n 1
2
De forma compacta:
1
2
s
(x i x)
n 1
2
39
La varianza
9 10 = -1
11 10 = +1
8 10 = -2
12 10 = +2
Suma = 0
A
8
9 10 11 12
B
4
10
13
16
4 -10 = - 6
16 -10 = +6
7- 10 = -3
13 -10 = +3
Suma = 0
40
La varianza
Calculemos la suma de las desviaciones al cuadrado para ambas
poblaciones:
2
2
2
2
2
(
8
10
)
(
9
10
)
(
10
10
)
(
11
10
)
(
12
10
)
2A
2
5
2
2
2
2
2
(
4
10
)
(
7
10
)
(
10
10
)
(
13
10
)
(
16
10
)
B2
18
5
Por qu la varianza esta definida
como un promedio de desviaciones
al cuadrado y no como su simple suma?
41
La varianza
Calculemos la suma de las desviaciones cuadradas para ambas
poblaciones
B es mas dispersa alrededor
de su media que A. Sin embargo,
la suma no muestra eso.
Es por ello que se usa el promedio
B
1
2 3
5
A2 = SumA/N = 10/5 = 2
5 veces
B2 = SumB/N = 8/2 = 4
42
Ejemplo:
1
2
s
(
x
x
)
i
n 1
43
Grados de libertad
Por qu calculamos la varianza dividiendo por n - 1, en
lugar de dividir por n?
Como la suma de las desviaciones es 0, la ltima
desviacin es una combinacin lineal de las n - 1
desviaciones restantes.
Por lo tanto, no estamos calculando el promedio de n
nmeros independientes (los desvos). Solo n -1 de las
desviaciones al cuadrado pueden variar libremente y por
ello, promediamos la suma de los desvos al cuadrado
dividiendo por n -1.
Al numero n -1 se lo denomina grados de libertad de la
varianza o de la desviacin tpica.
44
46
Coeficiente de variacin
El coeficiente de variacin es una medida de dispersin
relativa.
Muestra la dispersin de una distribucin en relacin a su
media.
Se utiliza para comparar distintas distribuciones.
Su frmula es:
CV
Curva de densidad
Una curva de densidad describe el aspecto general de
una distribucin.
El rea por debajo de la curva, entre cualquier
intervalo de valores, es la proporcin de todas las
observaciones que estn situadas en dicho intervalo.
El rea total bajo una curva de densidad es 1.
48
Distribuciones normales
Todas las distribuciones normales tienen la misma forma
general.
La curva de densidad de una distribucin normal se
describe por su media y su desvo standard .
La media se sita en el centro de la curva simtrica, en el
mismo lugar que la mediana.
Si se cambia sin cambiar se provoca un
desplazamiento de la curva de densidad a lo largo del eje
de las abscisas sin que cambie su dispersin.
La desviacin tpica controla la dispersin de la curva
normal.
49
Distribuciones normales
La curva con mayor desvo standard es la curva que presenta mayor
dispersin.
La desviacin tpica es la medida natural de la dispersin de una
distribucin normal. La forma de una curva normal no solo queda
completamente determinada por y , sino que adems es posible
situar a simple vista en la curva.
Cuando nos alejamos de , en cualquier direccin, la curva pasa de
descender rpidamente a descender suavemente.
Estos puntos de inflexin estn situados a una distancia de .
50
Distribuciones normales
51
Coeficiente de asimetra
El coeficiente de asimetra es una medida de asimetra de
una distribucin.
Su frmula es:
3
n
n
xi x
CA
(n 1)(n 2) i 1
Concentracin: Kurtosis
La kurtosis es una medida de la concentracin de la distribucin
en torno a su media.
Su frmula es:
4
n(n 1)
xi x
3(n 1)
K
(n 1)(n 2)(n 3) i 1
(n 2)(n 3)
n
54
(x i x )( yi y )
N
(x i x)(yi y)
Covarianza muestral cov(X, Y)
n -1
55
Medidas de asociacin:
Correlacin
Coeficiente de correlacion poblacional Coeficiente de correlacion muestral
cov( X , Y )
COV ( X , Y )
r
x y
sx s y
56
Coeficiente de Correlacin
o r =
COV(X,Y)>0
COV(X,Y)=0
-1
COV(X,Y)<0
57
Medidas de asociacin
Ejemplo
Busque la covarianza y el coeficiente de correlacin
para medir como los gastos de marketing y los niveles
de ventas se relacionan.
Marketing
1
3
5
4
2
5
3
2
Ventas
30
40
40
50
35
50
35
25
60
Ventas
n es
e
,
e
t
n
ame
Intuitiv
50
40
n
i
s
r
e
p
e dis
d
o
c
i
f
e gr a
star
e
n
e
rec
a
p
s
adas
e
l
n
b
o
i
a
i
c
r
a
la
Las v mente re
va
Gastos de marketing
positi
30
20
10
0
0
58
xy
x2
y2
1
2
3
4
5
6
7
8
1
3
5
4
2
5
3
2
30
40
40
50
35
50
35
25
30
120
200
200
70
250
105
50
1
9
25
16
4
25
9
4
900
1600
1600
2500
1225
2500
1225
625
Suma
25
305 1025
93
Mes
ni1 ( x i x )( y i y )
n 1
1 n
ni1 x i ni1 y i
i1 x i y i
n 1
n
1
25 305
1025
10.268
8
12175 7
2
n
2
x
23
2
2
i1
xi
93
sx
1.554
n 1
n 7
8
s x 1.554 1.458
De igual forma, sy = 8.839
cov( X , Y )
10.268
.797
sx sy
1.458 8.839
59
Medidas de asociacin
Interpretacin
La covarianza (10.2679) indica que los gastos de
marketing y los niveles de ventas estn positivamente
relacionados
El coeficiente de correlacin (.797) indica que hay una
relacin lineal positiva fuerte entre los gastos de
marketing y los niveles de ventas.
60
61
62
Total
Ingreso anual
Menos de 20,000
20,000 - 40,000
ms de 40,000
50
200
100
200
100
25
125
350
50
375
650
175
Total
350
325
525
1200
63
65
67
Oij E ij 2
r = nmero de categoras
E ij en las filas
i 1 jde
1 la variable
c = nmero de categoras de la variable en las columnas
Oij = nmero observado en entrada ij
Eij = nmero esperado en la entrada ij
68
69
70
71
72
73
75
V = (2/(r c)*N)1/2
76