Вы находитесь на странице: 1из 16

Tipos de variables

1
Tipos de variables
Recordando lo mencionado:
Medicin
2
Cualitativas: Indican cualidad (rojo/verde, casado/soltero).
- Dicotmicas: dos valores.
- Politpicas: varios valores
- Ordinal: orden intervalos no siempre regulares. (l/m/h)
Cuantitativas: numrica que indica cantidad.
- Discreta: nmero de hijos 1, 2, 3, etc
- Continua: peso 62.5, 70.1, 53.6, etc
Dependencia
Dependientes: Toman su valor como funcin de otras cantidades.
Independientes: No depende de otro valor, el investigador puede fijarlas
arbitrariamente. Ej: reactivo adicionado.
Influencia
Intervinientes
Moderadoras
En general, son aquellas que pueden cambiar el
escenario o efecto de las variables. Ejemplo: Azucar
diaria requerida: si diabtico / no diabtico.
Descripcin de series de datos
3
Descripcin de series de datos
Recordando lo mencionado:
De la serie de datos
podemos definir:
4
Tendencia central (valor esperado)
Dispersin (distancia al centro)
Distribucin (forma en que se ubican los datos)
Descripcin de series de datos
Supongamos una serie de datos:
5
Podramos ordenarlos de menor a mayor:
Datos 5,4 2,9 5,1 4,2 5,4 4,7 7,9 4,8 7,6 3,2
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9
Del ordenamiento vemos que los datos se encuentran entre 2,9 y 7,9. Entonces ya sabemos el
mnimo, el mximo y el rango (max-min). Para el caso, 2,9, 7,9 y 5,0 respectivamente .
Ubicndolos en un eje, tendremos una idea de cmo estn distribuidos:
A primera vista podemos decir que los datos
estn centrados en algo como 4,9 y que la
mayora est entre 4 y 6.
x
2 3 4 5 6 7 8
x x x x x x x x
Descripcin de series de datos
6
Podramos ordenarlos de menor a mayor:
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9
En un sentido formal, las maneras ms tpicas de definir el centro de los datos son:
Media: el promedio aritmtico de toda la serie: 5,12.
Mediana: El dato que se encuentra justo al centro de los datos ordenados: 4,95.
Moda: El dato que ms se repite: 5,4.
De la misma forma, la dispersin puede ser calculada segn:
Varianza: diferencia cuadrtica media.
Desviacin estndar (tpica o esperada).
Rango inter cuartil.
Descripcin de series de datos
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7 8 9 10 11
D
a
t
o
Tiempo
Datos en el tiempo
Demos un vistazo a los datos a travs del tiempo:
Datos 5,4 2,9 5,1 4,2 5,4 4,7 7,9 4,8 7,6 3,2
Es razonable considerar una medida de la dispersin de los puntos respecto al centro calculada
segn:
El problema surge cuando, al haber valores positivos y negativos , la
distancia promedio tiene a anularse y acercarse a cero. Lo cual no
representa.

Podemos trabajar las distancias como valores absolutos :

Pero es una funcin compuesta:
(computacionalmente costosa)
x i i
x d =
x i i
x d =

s
>
= =
x i i x
x i x i
x i i
x x
x x
x d

Descripcin de series de datos


Alternativamente podemos trabajar con los cuadrados de las distancias:

Lo que al promediar, llamamos distancia cuadrtica media
(o simplemente promedio de los cuadrados).

Al promedio de las distancias al cuadrado se le conoce como varianza,


(si se cuenta con pocos datos, la divisin es por n-1 en vez de n)


Notaremos que si los datos estn, por ejemplo, en metros [m], la varianza est en [m
2
] .
Definimos a la desviacin estndar (tpica o esperada) como la raz de la varianza.


(si se cuenta con pocos datos, la divisin es por n-1 en vez de n)


La desviacin estndar si tiene las mismas unidades del conjunto de datos, y es una medida de
cual es la distancia estndar (tpica o esperada) a la que se encuentra un dato del centro de la
serie.
( )
2
2
x i i
x d =
( )
n
x
x i
x


=
2
2

o
( )
n
x
x i
x x


= =
2
2

o o
Descripcin de series de datos
El rango inter cuartil (o IQR), se define como el lugar donde habitan el 50% de los datos
centrales. Supongamos el siguiente set de datos ordenados:
En general un percentil se define como el porcentaje de observaciones que caen bajo una
observacin. Por ejemplo, un decil se refiere al 10%, cuartil al 25% y quintil al 20%.

Entonces, para calcular el IQR debemos primero definir los 4 cuartiles de la serie. El primer
cuartil (o percentil 25) es el dato bajo el cual est el 25% de las observaciones. El segundo cuartil
o (percentil 50) es el dato bajo el que caen el 50% de las observaciones, etc
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9 8,2 8,5
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9 8,2 8,5
Q1 Q2 Q3 Q4
IQR
Quedando: Min: 2,9 Q1: 4,45 Mediana: 5,25 Q3: 7,75 Max: 8,5. IQR=7,75 - 4,45= 3,3.
El IQR es Q3 menos el Q1. Es decir, el
75%-25% de los datos centrales.
P 25 P 75 max mediana min
Grficas de series de datos
Recordemos la representacin de los datos con cruces en el eje:
10
Aquella representacin podra ser til, pero qu pasa si aumenta la cantidad de datos?
Ciertamente los datos se hacen indistinguibles. Alternativamente podemos ir poniendo las
cruces en columna:
x
2 3 4 5 6 7 8
x x
x
x
x
x
x
x
x
Notemos que se han agrupado los datos en
ciertos rangos (entre 2 y 3, entre 3 y 4, etc).
Aquellos rangos se denominan clases.
x
2 3 4 5 6 7 8
x x x x x x x x
Podemos definir el eje Y como la cantidad de observaciones en cada clase, a aquel nmero de
veces le llamamos frecuencia.

Al grfico de frecuencia de las clases se le conoce como histograma, y suele ser un grfico de
barras.
Grficas de series de datos
Distribucin de frecuencia:
Frecuencia
(veces)
Clase
Frecuencia
Relativa

fi= ni/N
0 -
1 -
Suele ser un intervalo.
P.e.: entre 10 y 20
11
Grficas de series de datos
Distribucin de frecuencia:
Frecuencia
(veces)
Clase
Nmero de clases:
Pocas: se pierde informacin.
Muchas: clases de 1 elemento.
ptimo: ~raz(N datos).
Marca de clase: el valor central de la clase
Mximo: idem.

Mnimo: idem.
12
Grficas de series de datos
Frecuencia acumulada:
13
F
r
e
c
u
e
n
c
i
a

Clase
F
r
e
c
u
e
n
c
i
a

Clase
F
r
e
c
u
e
n
c
i
a

Clase
F
r
e
c
u
e
n
c
i
a

Clase
Grficos de datos: tipos de histogramas

Cuatro momentos de la media:
- Tendencia central: media, moda, mediana.
- Dispersin: desviacin estndar, varianza, rango inter cuartil.
- Sesgo: positivo, negativo.
- Curtosis: similitud a una normal.
14
Uniforme Normal
Sesgado a
la izquierda
Sesgado a
la derecha
Boxplot
15
Grficos de datos: Boxplot.

Una forma alternativa de representar los datos es a travs de un grfico de cajas o Boxplot.
Recordemos el set de datos y los cuartiles analizados:
16
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9 8,2 8,5
Q1 Q2 Q3 Q4
IQR
P 25 P 75 max mediana min
Una forma alternativa de representar los datos es a travs de un grfico de cajas o Boxplot.
Recordemos el set de datos y los cuartiles analizados:
Q1
Q2
Q3
Q4
P 25
P 75
max
mediana
min Q0

Вам также может понравиться