Вы находитесь на странице: 1из 80

Estadstica

Descriptiva para
variables
continuas

Tpicos a tratar

Identificacin de variables continuas


Medidas de tendencia central y dispersin
Presentaciones grficas
Estimacin puntual e intervalos de
confianza
Manejo de valores fuera de rango

Que buscamos?
Obtener un sabor de los datos
continuos
Aprender de los datos continuos a travs
de una visualizacin grfica
Examinar la calidad de los datos

Los observables
En la naturaleza existen los
observables aquellas propiedades que
pueden ser percibidas por los sentidos o
instrumentos especializados.
Observables fsicos
Cuantificables (medibles)

Observables no-fsicos
No pueden ser cuantificados (an)

Medicin
Cuantificar = Medir
Medir = Comparar con un patrn
El patrn define la unidad de medida
adoptada por un instrumento de medicin

Observables fsicos
Observables fsicos: (magnitudes fsicas)

Temperatura
Peso
Talla
Edad
Estado civil
Sexo
Color

Observables No-fsicos
La belleza de una obra de arte
El amor
La inteligencia?

Variables versus Constantes


Depende del contexto !
La edad de una persona es una constante en un instante dado, pero es una
variable dentro de una poblacin.
La edad media es una constante para la poblacin
La desviacin estndar de la edad es una constante de la poblacin

Generalmente las constantes van a ser parmetros de


una poblacin, que no conocemos y que deseamos
estimar
Edad media, talla media, prevalencia de TB en el Per, incidencia de dengue en
el Per,

Las variables son cambiantes


La edad de cualquier individuo en una poblacin
El tiempo desde el ingreso a UCI hasta que un paciente es dado
de alta

Tipos de variables:
Discretas, categricas
Ordinal: severidad de un clico
Nominal: sexo
Dicotmica: si o no, ausencia o presencia

Continuas: Temperatura, frecuencia


cardaca,

Las variables continuas


El carcter continuo de una variable lo da
la naturaleza intrnseca del observable
fsico y es independiente de la manera
cmo se mida (i.e. del instrumento
utilizado) de la manera cmo se reporte
la medicin

Efecto de la manera cmo se


mide una variable
Imaginemos que medimos la induracin del
PPD en varios pacientes, y para ello utilizamos
una regla milimetrada. Las dimensiones
medidas para diferentes personas fueron:
5mm, 12mm, 9mm, 32mm, 21mm
Aparentemente estamos frente a una variable
discreta, aunque en realidad la induracin
(longitud) es y debe tratarse de manera
continua.

Efecto de la manera cmo se


reporta una variable
Imaginemos que medimos la duracin de la
permanencia en UCI de pacientes en un
hospital. Los tiempos medidos para diferentes
pacientes fueron:
15das, 2das, 9das, 12das, 31das
Aparentemente estamos frente a una variable
discreta, aunque en realidad el tiempo es y debe
tratarse de manera continua.

Rigurosamente hablando
Por ltimo, nada es continuo cuando se
alcanza los lmites moleculares!! El
principio de incertidumbre de Heisenberg
De manera prctica, todo depende de la
escala en que trabajemos

Comandos usados en STATA


para identificar el tipo de
variable:
Codebook
Inspect

ATENCION !
STATA puede identificar un tipo de
variable de manera erronea !
Debemos apoyarnos en la ciencia, en
nuestro conocimiento previo de la variable
con que estamos trabajando.

Recordemos las caractersticas de una variable


continua con distribucin normal
Figure 10.10

Comando summarize (su)

Distribucin de frecuencias
Una lista exhaustiva y mutuamente
excluyente de categorias (cualitativas o
cuantitativas) con una tabulacin (en
valores absolutos o porcentajes) de
cuntas observaciones en los datos se
encuentran en cada categora.

De variables continuas a variables categricas


Raw Score
64
63
61
59
56
52
51
38
36
34
31
29
27
25
24
21
17
15
6
3

Frequency
2
1
2
2
2
1
2
4
3
5
5
5
5
1
2
2
2
1
2
1
n= 50

Raw Scores
(Intervalsof Five)
6064
5559
5054
4549
4044
3539
3034
2529
2024
1519
1014
59
04

Frequency
5
4
3
0
0
7
10
11
4
3
0
2
1
n = 50

Representacin grfica de una


tabulacin bivariada

Comando histogram

Estadsticas de resumen:
El conjunto de agregados numricos de una
distribucin de frecuencias las que
resumen una caracterstica especfica de
un conjunto de datos.

Estadsticas de resumen importantes


Medidas de resumen
de una muestra
Tendencia Central
Media

Mediana

Percentil

Variacin

Moda

Rango
Varianza

Coeficiente
de Variacin

Desviacin Estandar

Medidas de Variacin
Variacin

Varianza
Rango

Desviacin Estandar

Varianza de
la poblacin
Varianza
de la
muestra

Rango Intercuartil

Desviacin
estandar de
la poblacin
Desviacin
estandar
de la
muestra

Coeficiente
de variacin

S
CV
100%
X

Las medidas de resumen a utilizar


dependen del tipo de variable a
explorar !
DATOS CATEGRICOS

Comandos usados en STATA para


obtener estadsticas de resumen
Summarize (variables numricas)
Tabstat

Summarize varlist, detail

tabstat varlist, stats( options )

Ejemplo

by / bysort y Tabstat

Usando menues en STATA 8

Estimacin puntual e intervalos


de confianza
Los parmetros de una poblacin tienen
un valor fijo, (es un nmero exacto)
Usualmente estos parmetros no se
conocen, por que es complicado medir a
toda la poblacin
Ante esto, los parmetros se estiman a
partir de una muestra de la poblacin.
La estimacin puede ser puntual o en un
intervalo de confianza

Estimacin puntual de la MEDIA

Poblacin

Muestra

Estimacin puntual de la
VARIANZA
Poblacin

Muestra

Efectos del muestreo en la


estimacin de un parmetro

Es mejor estimar el intervalo de


confianza de un parmetro antes
que su estimacin puntual
El intervalo de confianza es una variable
aleatoria
El 95% Intervalo de Confianza, es un
intervalo que tiene un 95% de
probabilidad de cubrir el verdadero valor
del parmetro estimado

Comandos en STATA para los


Intervalos de Confianza: ci

Intervalos de confianza de
variables normales

Std.Err. = Std.Dev / sqrt(N)

Ci varlist, level( )

Intervalos de confianza de
proporciones

Usando los menues de STATA 8

Exploracin grfica
Una manera visual y muy intuitiva de
tener una imagen clara de los datos.
Mtodo muy usado para presentar
resultados.
Un solo grfico puede contener una
densidad muy alta de informacin
Sujeta a interpretaciones subjetivas y
problemas de ilusin

Desviaciones Estandar para Ninos y Adultos en


Equipos de Basketball
Figure 10.8

66

Representacin grfica de una


tabulacin bivariada

Comparando Desviaciones Estandard


Data A
11 12

13

14

15

16

17

18

19

20 21

Mean = 15.5
s = 3.338

20 21

Mean = 15.5
s = .9258

20 21

Mean = 15.5
s = 4.57

Data B
11 12

13

14

15

16

17

18

19

Data C
11 12

13

14

15

16

17

18

19

Dos bases de datos hipotticas Es importante tener una


imagen visual de la distribucin de la variable
La media provee una buena
representacin de los valores
en la base de datos.

Al incrementar datos
la distribucin cambia..

La media ya NO provee ahora una


buena informacin de los datos como
suceda anterioremente

Datos de baja variabilidad

Datos con alta variabilidad

Perfil de la distribucin
(skewness coefficient)
Describe cmo los Datos estn
Distribudos

Caracterizacin del perfil de la


distribucin:
Simtrica o sesgada

Perfil de la distribucin
Describe cmo los Datos estn
Caracterizacin del perfil de la
distribucin:
Simtrica o sesgada

-0.5 <0 < 0.5


Simtrica

Media = Mediana = Moda

Distribudos

Perfil de la distribucin
Describe cmo los Datos estn
Caracterizacin del perfil de la
distribucin:
Simtrica o sesgada

< -1

Sesgada izquierda
Mean Median Mode

-0.5 <0 < 0.5


Simtrica

Mean = Median = Mode

Distribudos

Perfil de la distribucin
Describe cmo los Datos estn
Caracterizacin del perfil de la
distribucin:

Distribudos

Simtrica o sesgada

< -1

Sesgada izquierda
Media Mediana Moda

-0.5 <0 < 0.5


Simtrica

Media= Mediana =Moda

>1
Sesgada derecha
Moda MedianaMedia

Veamos la base de malaria y


comprobemos el perfil de EDAD.

El comando histogram en STATA

Histogram inf_edad, bin(12) kdensity

Box Plot (Grfico de cajas)

Se muestra grficamente los datos


utilizando 5 nmeros (estadsticas de
resumen)
X Mnimo Q1 Mediana Q3
XMximo

10

12

Relacin entre el perfil de la


distribucin y el Box Plot
Sesgada izquierda
Q1 Mediana Q3

Simtrica
Q1

Mediana Q3

Sesgada derecha
Q1 Mediana Q3

El comando Graph en STATA

.01

Density

.02

.03

graph box inf_edad

20

40
Edad del paciente

60

80

Box plot

Los grficos box-plot permiten


realizar comparaciones

Grficos tallo y hoja


comando stem de STATA

Scatter-plots y Ejemplos de Relaciones


No-lineales

Representacin grfica y problemas


ticos
Last year, 25 percent of our sales dollar
was profits. Depending on whether we
present it to our stockholders or the
unions, we dont want to give it the same
emphasis.

Ganancias
25%

Thats easy. For our stockholders, well


show it in our annual report as a coin in
perspective and take the 25 percent profits
from the front
Whereas for the union, well show it from
the back where it wont look anywhere as
impressive.

Ganancias
25%

Ganancias
25%

Representacin grfica y problemas


ticos
Oops, we certainly dont want to
advertise that sharp increase in
administrative costs, it may raise
questions by our stockholders.

Labor
Costs

Administrative
Costs

No sweat. Well switch the two


components around. This way, by placing
the administrative costs at the top, it
doesnt look so damning. As a matter of
fact, it looks like its going down.

Administrative
Costs

Labor
Costs

Representacin grfica y problemas


ticos
100

Now, if you could only show this


declining sales picture as going
up, all my problems would be
solved.

75
50
25

87

88

89

90

91

92

100

Sure thing; no problem. A bit of


perspective here, a bit of foreshortening there, and now the
line looks like its going up.

75
50
25

87

88

89

90

91

92

Manejo de datos fuera de rango


(outliers)
Los Outliers son valores que se consideran No
Pertenecen al conjunto de datos.
Razones para darse:

1.
Errores de medicin

2.
Resultados atpicos
La recomendacin es corregir los errores (si es
posible) y remover las observaciones atpicas.
PERO! Y si as es la ciencia ?! Mejor hacer doble
anlisis: con y sin outliers

Anlisis de OUTLIERS:
Datos Simtricos
Valores que se exceden en 3 DS de la media

outlier
region

outlier
region

X -3s

X + 3s

Anlisis de OUTLIERS:
Datos sesgados:
Valores que se exceden de 3 rangos intercuartiles
por debajo del primer cuartil Q1 o por encima del
tercer cuartil (Q3) (percentiles 25 y 75
respectivamente)
Sesgada izquierda

Sesgada Positiva

outlier
region

Q1 3(Q3 Q1)

outlier
region

Q1

Q3

Q1

Q3

Q3 + 3(Q3 Q1)

Tratamientos TB MDR
Beginning of
treatment

1st month of
treatment
P++

P++

+
P-+

+
P-+

P +-

P +P--

3rd month of
treatment
P++

P-+

P +P--

2nd month of
treatment

P--

Probabilidad de Conversin en Bk
y Cultivo durante el tratamiento
Estandarizado

Proporcin acumulada de casos Bk


y cultivo negativos a lo largo del
tratamiento dentro de los que
fueron positivos

Вам также может понравиться