Estadistica Descriptiva

Nada en esta maravillosa vida es 100% seguro.
En
todo lo que hacemos, siempre estamos estimando los
chances de resultados exitosos: en los negocios, en la
medicina, en el clima y principalmente en los juegos
de azar.
Así el estudio de las leyes formales de lo aleatorio es
la Probabilidad
Estadística es la ciencia,
pura y aplicada, de creación,
desarrollo y de aplicación de
técnicas tales que la
incertidumbre de la
inferencia inductiva pueda
ser evaluada
Tomar decisiones es una gran
responsabilidad.
responsabilidad
Para tomar decisiones se requiere

INFORMACIÓN disponible,
disponible
esperanzadamente confiable y útil.
útil
Generalmente se necesita una porción

de la base de datos o muestra para
revelar un patrón lógico o realizar un
análisis estadístico.
Estadística
Población Muestra
Probabilidad
Objetivo de la Estadística Descriptiva
Conocer la información que se tiene

para poder identificar e interpretar
aspectos relevantes de una muestra.
Utilizar esta información para obtener
resultados, planear o hacer inferencia
acerca de la población bajo estudio.
estudio
Los datos son la materia prima del estadístico. Usa
los números para interpretar la realidad.
Todos los problemas estadísticos involucran o la
recolecta, la descripción y el análisis de los datos, o
pensar cómo recolectar, describir y hacer el análisis
de los datos.
7 8 2
3 5 12
3
7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2
1 5 7
4 89 4
0
5 6
8
4
3
6
2
3
Población
In
fe
re
nc
ión
ia
pc
cr i
es
D
Muestra
Transformación Análisis
Sumarización Estimación
Ilustración Hipótesis
Tengo un 98% de probabilidad
de hacer algo que tenga sentido
con estos números.
7 8 2
3 5 12
3
7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2
1
89 7
5
4 4
0
6
5
8
4 6
3
2
3
El conjunto de datos que describen un
fenómeno (nuestro objetivo) constituyen lo
que se llama Población
Una Muestra es un subconjunto de la

población sobre la cual vamos a realizar
las medidas sobre una o mas
características de interés
muestreo ...
¿Por qué muestreamos?
- Poblaciones muy grandes

- Respuesta rápida
- Destrucción de la muestra
muestreo ...
Una característica importante de una

muestra es que sea Representativa
de la población de interés.
Cualquiera que sea nuestro objetivo:

describir a la población, analizar o
pronosticar el comportamiento de la
población, la muestra, al ser
representativa, será Confiable
- Cada unidad tiene la misma
oportunidad de ser elegida
Muestreo Aleatorio
- La selección de una unidad
no tiene influencia sobre la
elección de otra unidad
muestreo ...
muestreo ...
Muestreo Estratificado
- Divide a la población en
grupos homogéneos Muestreo por
Conglomerado
- Se extrae una muestra
aleatoria simple de cada
grupo o estrato - Divide a la población en
grupos
-Se extrae una muestra
aleatoria simple de los grupos
-Se muestrean todos los
elementos del grupo
seleccionado
muestreo ...
Muestreo Sistemático
- Se elige aleatoriamente a
una unidad
- A partir de ésta se selecciona
cada k-ésima unidad que se
encuentra después de la
elegida
Muestreo
Oportunista
-Se muestrean los n primeros

elementos que se presentan
Un parámetro es una medida numérica de
un aspecto de la población 
Una estadística es una medida numérica de
~
un aspecto de la muestra X, S, n, X
Una estadística consiste de un conjunto de
mediciones de dicha característica que varía
de una observación (unidad experimental)
experimental a
otra, y a estas mediciones las llamaremos
variable
No todas las variables son numéricas
entonces podemos clasificarlas de acuerdo a
su tipo en:
Cualitativas:
Cualitativas Son variables que denotan una
cualidad o atributo y solo pueden ser
clasificadas en categorías o clases
mutuamente excluyentes y exhaustivas
Cuantitativas:
Cuantitativas Son aquellas variables que se
obtuvieron de un proceso de conteo
(discretas) o medición (contínuas)
Clasificación de las variables
Cualitativas de acuerdo a su escala de
medición:
Nominal:
Nominal Son clasificadas en categorías, sin
importar el orden. No tiene sentido hacer
operaciones aritméticas con ellas (género, grupo
sanguíneo, Fuma (si/no))
Ordinal:
Ordinal Las categorías se pueden arreglar en
orden, pero las distancias entre las clases no son
iguales (intensidad del dolor, escolaridad, nivel
socioeconómico)
Clasificación de las variables
Cuantitativas de acuerdo a su escala de
medición:
Intervalo:
Intervalo Son medidas en las que las distancias
entre los valores es significativa pero no existe un
cero absoluto (el cero no es ausencia de atributo) . No
tiene sentido hacer cociente o producto (temperatura,
usos horarios)
Razón:
Razón Las proporciones y razones tienen sentido
al determinar cuánto mas tiene una unidad que otra de
alguna característica. (peso, ingreso, rendimiento)
El análisis de cada variable se hace de
acuerdo a su escala de medición
Podemos
hacer
diagramas,
tablas y
resúmenes
numéricos
de los datos
recopilados
¿Cómo presentar los datos?
La frecuencia absoluta f i para una clase

particular es el número de observaciones
que caen en cada clase.
La frecuencia relativa o porcentaje para

una clase particular es su frecuencia
absoluta entre el número total de
observaciones
fi
pi 
n
Esta frecuencia ayuda a sumarizar en forma
ordenada la información contenida en la
muestra tanto en tablas como en gráficas.
Histograma
género frecuencia porcentaje 0.75
0 19 0.63 0.50
Frecuencia
1 11 0.37 0.25
Total 30 1 0.00
M F
Género
tabla de distribución de
frecuencias
diagrama de barras
Si las variables son cuantitativas discretas las
tablas de frecuencias se realizan con la creación
de diferentes clases en base a los datos que
toma la variable.
edad frecuenci a porcentaje

Histograma de Frecuencias para Edad
38 3 0.10
39 3 0.10
40 6 0.20 7
41 1 0.03 6
42 3 0.10 5
4
Frecuencia
43 2 0.07
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03 Edad
Total 30 1.00
Si las variables son cuantitativas continuas
las tablas de frecuencias se realizan con la
creación de intervalos numéricos que formarán
las diferentes clases.
tie m p o fr e c u e n c ia p o r c e n ta je
H is t o gHistograma
ra m a
9331- 9931 1 0 .0 3
9 9 3 1 -1 0 5 3 1 1 0 .0 3 0.30
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0 .2 5
0 .2 0
Frecuencia
0.20
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0
0 .1 5
F r e c u e n c ia
1 1 7 3 1 -1 2 3 3 1 5 0 .1 7 0 .1 0 0.10
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0 .0 5 0.00
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 .0 0 9631 10231 10831 11431 12031 12631 13231 13831
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 Tiem po
T o ta l 30 1 .0 0
1
31
31
31
31
31
31
93
53
11
17
23
29
35
41
-9
-1 0
1 -1
1 -1
1 -1
1 -1
1 -1
1 -1
31
31
53
13
73
33
93
53
93
99
10
11
11
12
12
13
T ie m p o
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas ¿qué
uso tienen?
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
9631 1 0.03 3 0 .0 3 3 a) 0.167
H is t o g r a m a
10231 1 0.03 3 0 .0 6 7
10831 3 0.10 0 0 .1 6 7
11431 6 0.20 0 0 .3 6 7
c) 46.7%
F r e c u e n c ia
12031 5 0.16 7 0 .5 3 3
12631 5 0.16 7 0 .7 0 0 e) 12,031 seg
13231 6 0.20 0 0 .9 0 0
13831 3 0.10 0 1 .0 0 0
T o ta l 30 1 .0 0
9631 10231 10831 11431 12031 12631 132
a) ¿qué frecuencia de individuos tuvieron un tiempo menor T ieam p o

11,431 seg?
b) ¿qué porcentaje de individuos tuvieron un tiempo mayor o igual
a 12,631 seg?
c) ¿qué tiempo máximo es el que al menos el 50% de las personas
tuvieron?
Otros diagramas de utilidad:
3 38 0 0 0 -se usa con pocos valores

6 39 0 0 0
12 40 0 0 0 0 0 0
13 41 0 -los datos están ordenados
(3) 42 0 0 0
14 43 0 0 -encontramos fácilmente
12 44 0 0 0 0 mínimo y máximo
8 45 0 0 0
5 46 0 0 0 0 -encontramos fácilmente los
1 47 porcentiles
1 48
1 49 0
-da una visión gráfica de la
distribución de los datos
diagrama de tallo y hojas
para la variable edad 38|0
= 38.0
:
. . : . : . :
: : : . : : : : : .
+---------+---------+---------+---------+---------+-------Edad
38.0 40.0 42.0 44.0 46.0 48.0
Diagrama de puntos. Útil para cuando tenemos

pocos datos discretos
Polígono de Frecuencias Ojiva
Polígono de Frecuencia Ojiva
8 1.00
6 0.75
Porcentaje Acumulado
Frecuencia
4 0.50
2 0.25
0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000
Tiempo Tiempo
Métodos Numéricos
(válidos solo para datos cuantitativos)
Si pudiéramos escoger entre dos números que nos

ayuden a construir una imagen mental burda de la
distribución de un bonche de datos ¿Cuáles
escogeríamos?
-un número que esté

localizado cerca del centro
de la distribución 9
3 9
3
91 3 39 1 3 3 3 9
4
15 9
9 9 33 3 2 1 5 3
4 4
951 10 3 73195 51 3 8 9
4
1 8
7
7 5 21 5 8 73 2 512 5 5 8
4
0 8
-un número que mida la
0 9 3
4 4
31 5 58 1 0 7 71 5 5
7
3 10 10 85 838 30 0 7 5523 2 8 8
7
8 7 2 52 5
5 4
7
1 9 3 1 31 85 373588
0 4 8
7
07 3 2
5
7
6
83 2 4 82
5
dispersión de la
0
1 3 18 0 997 5 8 3 430 4 3 3
6 06
5 5
4 7 5
7
6
1 7 8 4
6
9 4 2
0
3
5
6
48 9 1 5 3 18 97 97 5 8 3 4 3 08
8 2
06
7
5
0
4 04
6 06
3
4 8 9 7 5
5
6
5 8 9 8 4 0
8 2
23
07
6
3
distribución
8
7
7 448 9 5 5 658 977 8 3 2 5 4
8 2
6
72
7
63
0
3
4 53 4 0
2
3
2
7 54 6 48 9 7 2
8 2
263
7
3
5 6 7
37
7 4 3 2 5
72
2
6 6
6
3
5
4 654
2
3
2
7 7 3 2
2
6
6
3
4
2
6
Medidas de Tendencia Central
Son números que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polígono de Frecuencia
8
6
Frecuencia
0
9000 10000 11000 12000 13000 14000
Tiempo
Medidas de Dispersión
Son números que indican qué tan separados están los
datos entre si: rango, desviación estándar, rango
intercuartil
Medidas de tendencia central
media X  1
n 
n
i 1
xi
en el caso en que los datos estén agrupados:
 fi 
X a   i 1 mi  
k
 n
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
H is t o g r a m a
9631 1 0 .0 3 0 .0 3 X a  9631(0.03)  10231(0.03) 
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7 10831( 0.10)   13831( 0.10)
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3 F r e c u e n c ia
 12,187
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1
9631 10231 10831 11431 12031 12631 13231
T ie m p o
medidas de tendencia central ...
mediana
n  1 y se observa
se localiza el valor central l X  
~
el valor que toma 2
3 38 0 0 0
6 39 0 0 0
12 40 0 0 0 0 0 0
30  1
13
(3)
41
42
0
0 0 0 l X  
~  15.5
14 43 0 0 2
12 44 0 0 0 0
8 45 0 0 0
el valor que toma la
5 46 0 0 0 0 variable es 42.0 años
1 47
1 48
1 49 0
para datos agrupados se estima como
X~ a  A  0.5pmPm1  B  A
donde A y B son los límites inferior y superior de la clase que

contiene a la mediana, Pm-1 es la frecuencia acumulada hasta la
clase anterior a la que contien la mediana y pm es la frecuencia
relativa de la clase que contiene a la mediana
ti e m p o fr e c . p o rc . F rec A cu m
9331- 9931 1 0 .0 3 3 0 .0 3 3 ~ H is t o g r a m a
X a  11731  0.50.1670.367
 600
9 9 3 1 -1 0 5 3 1 1 0 .0 3 3 0 .0 6 7
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0 0 .1 6 7 0 .2 5 0
F re c u e n c ia
0 .2 0 0
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0 0 .3 6 7
0 .1 5 0
1 1 7 3 1 -1 2 3 3 1 5 0 .1 6 7 0 .5 3 3 0 .1 0 0
1 2 3 3 1 -1 2 9 3 1 5 0 .1 6 7 0 .7 0 0 0 .0 5 0
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 0 .9 0 0 0 .0 0 0
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 0 1 .0 0 0
1
31
1
1
13
73
33
93
53
93
05
T o ta l 30 1
11
11
12
12
13
-9
-1
1-
1-
1-
1-
1-
31
31
53
33
13
73
93
93
99
5
10
11
11
12
12
13
T ie m p o
moda
es el valor con la frecuencia mas alta.
La distribución puede ser unimodar, multimodal
cuando los datos están agrupados

podemos hablar de una clase modal o
estimar la moda:
Mo  A   d1
d1  d 2   B  A
donde A y B son los límites inferior y superior
de la clase modal, d1= fmo – fmo-1 y d2= fmo – fmo+1
Medidas de Dispersión
rango se define como la diferencia entre el valor
máximo y el mínimo:
Rango = max - min
Es una medida sensible a valores extremos y no es muy
informativa ya que es insensible a datos intermedios
amplitud intercuartílica es la distancia entre

el porcentil 75 y el porcentil 25:
AI = P75 - P25
Nos da una idea de la distancia entre los valores que

determinan el 50% de los datos centrales
medidas de dispersión...
Varianza es una variación promedio alrededor de

la media, definida como
 X n
i  X
2
S2  i 1
n 1
un problema de la varianza es que tiene las unidades al
cuadrado y su interpretación no es fácil, por lo que usamos
su raiz: desviación estándar
 X  X 2
n
i
S i 1
n 1
es sensible a valores extremos.
Si los datos están agrupados en k intervalos, la varianza se
estima como:
 fi  mi  X a 
k 2
S 2
 i 1 para nuestro ejemplo ¿qué valor toma S a2 ?
a
n 1
Hay algunas formas de poner juntos a la desviación

estándar y a la media muestrales
Coeficiente de Variación: es una medida de

variación relativa y expresa la desviación estándar
como un porcentaje de la media aritmética. Se
obtiene como
S
CV  x100
X
por su falta de dimensiones es muy útil para
comparar variación entre diferentes poblaciones,
que a simple vista serían difíciles de comparar.
Creación de Intervalos:
Intervalos
con S y X se pueden formar intervalos de la forma
X kS y obtener el número de
observaciones que caen dentro de ese intervalo.
Si nuestra distribución muestral tiene una forma mas o menos
simétrica y acampanada podemos usar la regla empírica:
alrededor del 69% de las observaciones cae dentro de una
desviación estándar de la media
alrededor del 95% de las observaciones cae dentro de dos
desviaciones estándar de la media
alrededor del 97.7% de las observaciones cae dentro de tres
desviaciones estándar de la media
Monóxido de Carbono en 25
el humo de los cigarros 20
15
Frecuencia
Intervalos 10
alrededor 5
de la media
0
1 3 5 7 9 11 13 15 17 19 21
n = 372 s s
X = 11.66 2s 2s
s = 4.089 3s 3s
X
X s (7.57 , 15.75) 264 obs. 70.96%
X 2s (3.48 , 19.84) 353 obs. 94.89%
X 3s (-0.61 , 23.93) 372 obs. 100.00%

Medidas de Posición Relativa
Son medidas descriptivas que localizan la
posición de una medición en relación a otras
mediciones.
Una medida que expresa esta posición en
términos de un porcentaje es llamado
porcentil
El porcentil de orden α (Pα ) es el valor de la

variable por debajo del cual se encuentra una
frecuencia acumulada α.
medidas de posición relativa...
El porcetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones
El porcetil 70, es decir,

P70 = 0.525 deja a su
izquierda el 70% de las
observaciones
El diagrama de tallo y hojas, nos ayuda a

localizarlos rápidamente
3 38 0 0 0 -los datos se ordenan de menor a
6 39 0 0 0 mayor
12 40 0 0 0 0 0 0
-se encuentra la localización de los
13 41 0
(3) 42 0 0 0 porcentiles:
14 43 0 0   
l ( P )    (n )
12 44 0 0 0 0  100 
8 45 0 0 0
5 46 0 0 0 0 -se lee el valor de dicha observación
1 47
-si la localización es fraccionaria se
1 48
1 49 0
toma el promedio del valor en la
localización anterior y posterior
los porcentiles no
necesariamente son
números observados
l(Q1) = (25/100)31 = 7.75

1 9 6
3 10 2 3  Q1 = P25 = 11.05
6 10 6 7 9
11 11 0 1 3 3 3 l(Q3) = (75/100)31 = 23.25
(5) 11 7 7 8 8 8
14 12 0 0 1 2 3  Q3 = P75 = 12.65
9 12 6 6 9 9
5 13 0 2 3 3 4 l(Q2) = (50/100)31 = 15.5
 Q2 = P50 = 11.8
Los cuartiles Q1 y Q3 son muy útiles para

construir lo que llamamos diagrama de
caja y brazos.
Diagrama de Caja y Brazos
Nos permite ver la distribución de los datos, el
máximo, el mínimo, la localización de los
Cuartiles, y la dispersión por cuartiles. Nos
permitirá ver si existe un sesgo así como
puntos extremos.
25000
20000
Tiempo
15000
10000
Análisis Exploratorio de Datos
Para hacer estadística diferente a la descriptiva,

podemos usar todas las técnicas hasta ahora
aprendidas y hacer algún análisis comparativo o
asociativo.
El problema de comparación consiste en

contrastar las distribuciones de frecuencia de
una variable de interés para dos o mas
subpoblaciones basándose en los datos de la
muestra.
En el problema de comparación surgen
algunas preguntas:
¿Hay alguna diferencia en las distribuciones

poblacionales?
¿Cuál es la naturaleza de esas diferencias?
¿Qué tan grandes son esas diferencias?
El análisis exploratorio nos ayudará a darnos una

idea de las respuestas a estas preguntas
comparación...
La comparación de las distribuciones de

frecuencia entre subpoblaciones cuando la
variable de interés es cualitativa se hace con
una tabla de contingencias o tabulación
cruzada
Hábitos de tabaquismo
Nunca ha Dejó de Fuma

Género Total
fumado fumar actualmente
Masculino 154 25 185 364
Femenino 127 11 38 176
Total 281 36 223 540
las frecuencias pueden ser realtivas o absolutas y nos dan una idea de
qué tan frecuente se presentan simultáneamente ambos atributos en
una población
comparación...
El objetivo de la comparación es ver si una

característica determinada varía relativo a
alguna subclase, por lo que se calculan las
frecuencias relativas condicionales fij / fi
ó pij / pi (de ésta manera compensamos por
diferencias de tamaños) ...
Hábitos de tabaquismo (%)

Género Total
Masculino 28.5 4.6 34.3 67.4
Femenino 23.5 2.1 7.0 32.6
Total 52.0 6.7 41.3 100

comparación...
... y calculamos las frecuencias relativas

condicionadas a género
Hábitos de tabaquismo condicionadas a género (%)

Género Total
Masculino 42.3 6.8 50.9 100
Femenino 72.1 6.5 21.5 100
Total 52.0 6.7 41.3 100
Hábito de Tabaquismo por Género
¿el hábito de
80.0
tabaquismo
60.0
Frecuencia
difiere si se es
40.0
hombre o
20.0
0.0
Nunca ha fumado Dejó de fumar Fuma actualmente mujer?
Masculino Femenino
comparación...
Si la variable a analizar es discreta se puede

tratar como si fuera cualitativa.
Edad en años condicionada a género (%)

Género 39 40 41 42 Total
Masculino 10.53 21.05 42.11 26.32 100
Femenino 36.36 18.18 18.18 27.27 100
Total 20.00 20.00 33.33 26.67 100
Distribución de Edad por Género

45.00 ¿hay alguna
diferencia entre
30.00
géneros con
Masculino
15.00 Femenino respecto a la
0.00
edad?
39
40
41 42
comparación...
En el caso de que la variable a analizar sea

contínua podemos estar interesados en
comparar tanto la localización como la
dispersión entre las distribuciones de
frecuencia de las subpoblaciones. Una
manera de hacerlo es por medio de un
diagrama esquemático
Tiempos por Género

¿Quién tiene
30000
tiempos más
altos?
Orden llegada
20000
¿quién tiene
10000
mayor
0 dispersión?
F M
Género
Muchas veces es importante saber si una
variable influye sobre el comportaminto de otra
variable. Con ello estudiamos el problema de
asociación.
asociación
Ambas Variables Ordinales

El uso de la tabla de contingencia y su
correspondiente diagrama de barras es de gran
utilidad para asociar variables cualitativas en
escala ordinal.
Ésta tabla se presenta con las frecuencias
relativas condicionadas a las clases de una de
las variables
Posición respecto al horario de verano
Desacuerdo Indiferente Acuerdo Total
Bajo 23.90 49.02 27.07 100.00
Nivel
Medio 47.02 31.93 21.05 100.00
Socioeconómico
Alto 20.69 36.21 43.10 100.00
Posición respecto al horario de verano
60.00
¿A mayor nivel
45.00
socioeconómico,
30.00 mayor aceptación?
15.00
0.00
Bajo Medio Alto
Desacuerdo Indiferente Acuerdo
asociación ...
asociación ...
Una Variable Ordinal y otra Cuantitativa

Una manera de evidenciar la posible asociación
entre las variables es a través del diagrama
esquemático.
Éste diagrama nos da una idea de cómo

dependen la variable cuantitativa, no solo en
localización sino también en dispersión con
respecto al aumento o disminución en escala de
la variable cualitativa ordinal.
asociación ...
Grado Escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377 500
192 467
400
Habilidad de Lenguaje
297 388
300
200
¿Qué nos dice 100
este diagrama 0
Maternal Kinder I Kinder II
esquemático?
asociación...
Ambas Variables Cuantitativas

Para este caso el diagrama de dispersión es muy
usado para asociar variables cuantitativas.
Consiste en graficar parejas de valores ( xi , yi )
correapondientes a un solo individuo, sobre un
plano cartesiano.
Una medida de asociación que complementa este
diagrama es el coeficiente de correlación (medida
de relación lineal entre las variables) obtenido
como
 X  X  Yi  Y  /( n  1)
n
i 1 i S xy
r ( x, y )  
 i1  X i  X  /(n  1)  i1  Yi  Y  /(n  1) SxS y
n 2 n 2
asociación ...
100
80
90 70
80 60
50
70
40
60
30
50 20
40 10
0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r = 0.99 r = - 0.7
100 330
90 280
80
230
70
60 180
50 130
40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200
r = 0.8 r = 0.1
¿Se puede decir que si r es cero, las variables son independientes?

asociación ...
Edad versus Tiempo
75
60
45
Edad
30
15
0
0 10000 20000 30000 40000
Tiempo
¿Existe alguna relación lineal

r = 0.130 entre el tiempo que tomó
correr el maratón y la edad de
los participantes? ¿Confirma
el valor de r esta relación?

Estadistica Descriptiva

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadistica Descriptiva

Загружено:

Авторское право:

Доступные форматы

Nada en esta maravillosa vida es 100% seguro.

Para tomar decisiones se requiere

Generalmente se necesita una porción

Conocer la información que se tiene

Una Muestra es un subconjunto de la

¿Por qué muestreamos?

- Poblaciones muy grandes

Una característica importante de una

Cualquiera que sea nuestro objetivo:

-Se muestrean los n primeros

La frecuencia absoluta f i para una clase

La frecuencia relativa o porcentaje para

edad frecuenci a porcentaje

a) ¿qué frecuencia de individuos tuvieron un tiempo menor T ieam p o

3 38 0 0 0 -se usa con pocos valores

Diagrama de puntos. Útil para cuando tenemos

Polígono de Frecuencias Ojiva

Polígono de Frecuencia Ojiva

Si pudiéramos escoger entre dos números que nos

-un número que esté

en el caso en que los datos estén agrupados:

para datos agrupados se estima como

donde A y B son los límites inferior y superior de la clase que

cuando los datos están agrupados

amplitud intercuartílica es la distancia entre

Nos da una idea de la distancia entre los valores que

Varianza es una variación promedio alrededor de

Hay algunas formas de poner juntos a la desviación

Coeficiente de Variación: es una medida de

el humo de los cigarros 20

X s (7.57 , 15.75) 264 obs. 70.96%

X 2s (3.48 , 19.84) 353 obs. 94.89%

X 3s (-0.61 , 23.93) 372 obs. 100.00%

El porcentil de orden α (Pα ) es el valor de la

El porcetil 70, es decir,

El diagrama de tallo y hojas, nos ayuda a

l(Q1) = (25/100)31 = 7.75

Los cuartiles Q1 y Q3 son muy útiles para

Para hacer estadística diferente a la descriptiva,

El problema de comparación consiste en

¿Hay alguna diferencia en las distribuciones

El análisis exploratorio nos ayudará a darnos una

La comparación de las distribuciones de

Nunca ha Dejó de Fuma

Femenino 127 11 38 176

Total 281 36 223 540

El objetivo de la comparación es ver si una

Hábitos de tabaquismo (%)

Nunca ha Dejó de Fuma

Femenino 23.5 2.1 7.0 32.6

Total 52.0 6.7 41.3 100

... y calculamos las frecuencias relativas

Nunca ha Dejó de Fuma

Femenino 72.1 6.5 21.5 100

Total 52.0 6.7 41.3 100

Hábito de Tabaquismo por Género

Si la variable a analizar es discreta se puede

Edad en años condicionada a género (%)

Distribución de Edad por Género

En el caso de que la variable a analizar sea

Tiempos por Género

Ambas Variables Ordinales

Posición respecto al horario de verano