Академический Документы
Профессиональный Документы
Культура Документы
Estadstica Descriptiva
Describir datos con tablas y grficas
(variables cuantitativas y categricas)
Descripcin numrica del centro,
variabilidad, de posicin (variables
cuantitativas)
Descripcin bivariada (en prctica, la mayora
de los estudios tienen varias variables)
1. Tablas y Grficas
Distribucin de frecuencias: listas de posibles
valores para una variable, junto con el nmero
de observaciones en cada valor
Ejemplo: Encuesta a estudiantes (n = 60)
www.stat.ufl.edu/~aa/social/data.html
political ideology medida como variable
ordinal donde 1 = very liberal, 4 = moderate, 7
= very conservative
Formas de histogramas
Forma de campana (coeficiente intelectual, promedio
escolar, ideologa poltica en EU)
Asimtrica a la derecha (ingreso annual, nmero de
arrestos)
Asimtrica a la izquierda (calificaciones en un examen fcil)
Bimodales (opiniones polarizadas)
Ejemplo: GSS datos sobre sexo antes del matrimonio en Ej.
3.73: always wrong, almost always wrong, wrong only
sometimes, not wrong at all
casos por categora 238, 79, 157, 409
Hojas
6
37
235899
011346778999
00111233568889
02238
2. Descripciones numricas
Denote y una variable cuantitativa, con
observaciones y1 , y2 , y3 , , yn
a. Descripcin del centro
Mediana: medicin del centro de una muestra
ordenada
Media:
y1 y2 ... yn yi
y
n
n
Ejemplo
Ejemplo: Emisiones de dixido de carbono anuales per capita
(toneladas mtricas) para n=8 ms grandes naciones en
tamao de poblacin
Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia
1.4, Pakistan 0.7, Russia 9.9, U.S. 20.1
Muestra ordenada:
Mediana =
Media y =
Ejemplo
Ejemplo: Emisiones de dixido de carbono anuales per capita
(toneladas mtricas) para n=8 ms grandes naciones en
tamao de poblacin
Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia
1.4, Pakistan 0.7, Russia 9.9, U.S. 20.1
Muestra ordenada: 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1
Mediana =
Media y =
Ejemplo
Ejemplo: Emisiones de dixido de carbono anuales per capita
(toneladas mtricas) para n=8 ms grandes naciones en
tamao de poblacin
Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia
1.4, Pakistan 0.7, Russia 9.9, U.S. 20.1
Muestra ordenada: 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1
Mediana = (1.4 + 1.8)/2 = 1.6
Media y = (0.3 + 0.7 + 1.2 + + 20.1)/8 = 4.7
Ejemplos
Equipo de bisbol NY Yankees en 2006
Media del salario = $7.0 millones
Mediana del salario = $2.9 millones
Cmo es posible? Direccin de la asimetra?
b. Descripcin de variabilidad
Rango: Diferencia entre las observaciones ms
grandes y ms pequeas
(pero puede ser muy sensible a outliers, poco
sensible a la forma)
yi y
La varianza de n observaciones es
( yi y ) ( y1 y ) ... ( yn y )
s
n 1
n 1
2
5)
(3
5)
...
(4
5)
24
2
s
3.0
9 1
8
s 3.0 1.7
Ejemplos
Ejemplo: SAT con media = 500, s = 100
(dibuja una imagen que resuma los datos)
c. Medidas de posicin
pth percentil: p por ciento de observaciones
abajo, (100 p)% arriba
p = 50: mediana
p = 25: primer cuartil (lower quartile, LQ)
p = 75: tercer cuartil (upper cuartile, UQ)
Descripcin bivariada
Por lo general queremos estudiar las asociaciones entre dos
o ms variables (por ejemplo, cmo el nmero de amigos
cercanos depende del gnero, ingreso, educacin, edad,
situacin laboral, zona rural/urbana, religiosidad, )
Variable respuesta: la variable del resultado
Variable explicativa: define grupos a comparar
Ejemplo: nmero de amigos cercanos es una variable
respuesta mientras que gnero, ingreso, son variables
explicativas
Respuesta = variable dependiente
Explicativa = variable independiente
Resumiendo asociaciones
Var. categricas: mostrar datos usando tablas cruzadas
Happiness
Very Pretty Not too
--------------------272
294
49
454
835
131
185
527
208
--------------------911
1656
388
Total
615
1420
920
2955
Income
Above
Average
Below
Happiness
Very
Pretty
Not too
---------------------------272(44%) 294(48%)
49( 8%)
454(32%) 835(59%) 131( 9%)
185(20%) 527(57%) 208(23%)
----------------------------
Total
615
1420
920
Grficas de dispersin
Grficas de dispersin (para variables cuantitativas)
muestran la variable respuesta en el eje vertical , la
variable explicativa en el eje horizontal
Ejemplo: Tabla 9.13 (p. 294) muestra datos de la ONU
para algunas naciones sobre muchas variables,
incluyendo fertilidad (nacimientos por mujer), uso de
anticonceptivos, alfabetizacin, actividad econmica
de las mujeres, producto interno bruto per cpita (PIB),
uso del telfono celular, emisiones de CO2
Datos disponibles en
http://www.stat.ufl.edu/~aa/social/data.html
Ejemplo
Encuesta en Alachua County, Florida sobre predictores de salud
mental
(datos de n = 40 en p. 327 del libro de texto en
www.stat.ufl.edu/~aa/social/data.html)
Anlisis de regresin
Anlisis de regresin genera una lnea para predecir y
usando x
Ejemplo: y = discapacidad mental
x = eventos personales
y estimada = 23.3 + 0.09 x
p. ej., cuando x = 9, y estimada =
cuando x = 100, y estimada =
Anlisis de regresin
Anlisis de regresin genera una lnea para predecir y
usando x
Ejemplo: y = discapacidad mental
x = eventos personales
y estimada = 23.3 + 0.09 x
p. ej., cuando x = 9, y estimada = 23.3
cuando x = 100, y estimada = 23.3 + 0.09(100) = 32.3
Cul es la correlacin?
Cul es la ecuacin de regresin estimada?
Estadsticas muestrales /
parmetros poblacionales
Distinguimos entre valores de muestras (estadsticas) y
valores de poblaciones (parmetros)
Comnmente estadsticas se denotan con letras
romanas, parmetros con letras griegas:
Media poblacional =
Desviacin estndar poblacional =
Proporcin poblacional =