Вы находитесь на странице: 1из 16

H. Alvarado L.

Retamal

Estadstica Descriptiva

ESTADISTICA DESCRIPTIVA
La estadstica descriptiva es un procedimiento estadstico en el cual podemos recolectar,
organizar, resumir, analizar y presentar datos relativos a un conjunto de observaciones y
que nos permiten extraer conclusiones vlidas y efectuar decisiones basadas en dichos
anlisis. Los pasos en el diseo de tratamiento de datos consideran:
La definicin de objetivos y poblacin de estudio, bsqueda de la informacin disponible
(listado de condiciones y medios), elaboracin de instrumentos de medicin, definir las
variables y el diseo de muestreo, recoleccin de los datos, procesamiento estadstico de los
datos: tablas, grficos, medidas estadsticas, e interpretacin de los resultados y redaccin
del informe del estudio.
El objetivo de la estadstica descriptiva en una variable es analizar y sintetizar la
informacin contenida en los datos estadsticos mediante:
Tablas (distribuciones de frecuencias absolutas y relativas)
Grficos (de Barra, de sectores circulares, Histograma, Box plot,...)
Resmenes numricos (ndices de posicin y de dispersin).
Conceptos bsicos asociados son los siguientes:
Poblacin: Conjuntos de individuos o elementos que cumplen ciertas propiedades
comunes.
Censo: Coleccin de datos de cada uno de los miembros de la poblacin.
Muestra: Subconjunto representativo de la poblacin.
Parmetro: Medicin numrica que describe algunas caractersticas de una poblacin.
Estadstico: Medicin numrica que describe algunas caractersticas de una muestra.
Unidad Observable: Cualquier elemento que podamos extraerle informacin.
Variable: Caracterstica o propiedad asociada a una unidad observable de la poblacin.
Tipos de Variables
Variables Cualitativas o Categricas: Son las que presentan una caracterstica observada de
un atributo o cualidad, y tienen por valores cantidades no numricas. Se clasifican en
ordinal (el orden de las categoras es importante, ej: nivel de estudios, rendimiento
acadmico,..) y nominal (los nombre o etiquetas de la categora no denota jerarqua, ej:
color de ojos, religin,..). Para variables cualitativas se pueden elaborar tablas de
distribucin de frecuencias en categoras con frecuencias absolutas y relativas, aadiendo
grficos de barras y circular.
Variables Cuantitativas: Son las que tienen por valores cantidades numricas a cada
caracterstica de una unidad de observacin. Se clasifican en discretas (si los valores es un
conjunto finito o infinito numerable, ej: nmero de fallas de una mquina, cantidad de sillas
en el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real,
ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se
pueden elaborar tablas de distribucin de frecuencias para datos agrupados en intervalos de
clase; complementadas con representaciones grficas de histograma, box plot, polgono de
frecuencias, entre otros, y la utilizacin de las medidas de tendencia central, de posicin y
de dispersin.

H. Alvarado L. Retamal

Estadstica Descriptiva

Escala de Medicin: Son cuatro los niveles de medicin: nominal, ordinal, de intervalo y
de razn. El nivel de medicin de intervalo se parece al nivel ordinal, pero con la propiedad
adicional de que la diferencia entre los valores de datos cualesquiera tiene un significado y
las razones no tienen un significado. Sin embargo, los datos en este nivel no tienen un
punto de partida inherente (natural) desde cero (donde nada de la cantidad est presente).
El nivel de medicin de razn tiene las mismas propiedades de las escalas de intervalos,
pero las razones, diferencias si tienen sentido. Tiene un punto de partida o cero inherente
(donde cero indica que nada de la cantidad est presente)
Distribucin de frecuencias
Una vez definida la variable de inters es necesario clasificar y ordenar los elementos de la
poblacin. As, una distribucin de frecuencias lista valores de datos u observaciones, ya
sea de manera individual o por grupos de intervalos, junto con sus frecuencias
correspondientes.
Primero a cada valor de la variable se le identifica por xi siendo el i-simo resultado
perteneciendo a una clase. Los resultados agrupados en cada una de estas clases se
resumen en una tabla de frecuencias, la cual contiene la siguiente informacin:

ni
fi
Ni
Fi

: Frecuencia absoluta de la clase i (nmero de elementos de cada clase).


: Frecuencia relativa (cuociente entre frec. absoluta y N total de la poblacin)
: Frecuencia acumulada (suma de las frec. absolutas de la clase i y las anteriores)
: Frecuencia acumulada relativa (cuociente entre N i y N ).
n

Se cumple que la

ni = N ; fi =
i =1

ni
;
N

f
i =1

=1

Debe tener presente en las variables Cuantitativas que si el nmero de datos poblacionales
distintos entre s es grande podemos obtener un gran nmero de clases con frecuencia
absoluta igual a 1 que estadsticamente no resulta relevante; en tal situacin podemos
agrupar las clases en intervalos. Se recomienda entre 5 y 20 intervalos de clase o utilizar la
regla de Sturge. Los elementos que conforman la elaboracin de la distribucin de
frecuencias por intervalos son los siguientes:

RX

: Recorrido de la variable X (diferencia entre el mayor y la menor observacin)


Clases : Son subintervalos, generalmente de igual longitud, del conjunto de datos.
Lmites: Inferior y superior de un intervalo i son los extremos del intervalo.
ai
: Amplitud del intervalo i (longitud del intervalo i).
Si los k intervalos de clase tienen la misma longitud entonces ai = R X k
Con k= 1 + 3.3 log N ( Regla de Sturge).
Como criterio para facilitar la interpretacin, la amplitud debe presentarse con la misma
cantidad de decimales que los datos originales, por tanto sta debe aproximarse hacia arriba
de acuerdo a la naturaleza de los datos.

H. Alvarado L. Retamal

Estadstica Descriptiva

mi

: Marca de clase del intervalo i (punto medio del intervalo i), en clculos
estadsticos es considerada como el valor ms representativo de las clases.
Fronteras: Es el punto medio entre el lmite superior de la clase de un intervalo y el lmite
inferior del intervalo siguiente.

Ejemplo 1: Tabulacin de 40 datos de valores distintos


Variable:
Contenidos
de
nicotina, en miligramos, de
cigarrillos de la marca pucho
Tipo: var. cuantitativa continua

Pasos para construir una Frmulas:


distribucin de frecuencias en
intervalos de clase:
R = X mx. - X mn. = 2.55 0.72 = 1.83
Recorrido de la variable
Nmero K de clases :
(entre 5 y 20) .
Regla de Sturge
Amplitud A del intervalo

K = 1 + 3.3 * log N.
Como N = 40, entonces K = 1 + 3.3* log 40 = 6.286
6.3 clases. As, deberamos tener 6 7 clases.
A=

R
1.83
=
= 0.305 0.31
K
6

Elegir el extremo inferior de la


Dado que el valor mnimo es 0.72, el extremo debe ser
primera clase
0.72 o menos; se considerar 0.72.
Establecer la frontera inferior
Recordando que la frontera se expresan con una cifra
de la primera clase
decimal ms, se considerar 0.715.
La frontera superior de la
FS = FI + A = 0.715 + 0.31 = 1.025
primera clase se obtiene
En consecuencia, el lmite aparente superior del primer
sumando la amplitud de la
intervalo de clase es 1.02.
clase 0.31, a la frontera inferior

Lmite
0.72 1.02
1.03 1.33
1.34 1.64
1.65 1.95
1.96 2.26
2.27 2.57

Tabla de Distribucin de Frecuencias


Fronteras
fi
ni
mi N i
Fi
0.715 1.025
1.025 1.335
1.335 1.645
1.645 1.955
1.955 2.265
2.265 2.575

2
2
8
17
6
5
N = 40

0.05
0.05
0.20
0.425
0.15
0.125
1

0.87
1.18
1.49
1.80
2.11
2.42

2
4
12
29
35
40

0.05
0.10
0.30
0.725
0.875
1

ni mi
1.74
2.36
11.92
30.6
12.66
12.1
71.38

n i mi2
1.5138
2.7848
17.7608
55.08
26.7126
29.282
133.134

H. Alvarado L. Retamal

Estadstica Descriptiva

En resumen, para construir tablas de distribucin de frecuencias para variables continuas


debemos seguir los siguientes pasos:
1. Identificar la variable de estudio y la unidad de observacin.
2. Determinar el nmeros de clases ( K)
3. Obtener la amplitud (A)
4. Escribir los intervalos de clases comenzando por el valor mnimo.
5. Contar cuantas observaciones pertenecen en cada clase ( ni )

Ejercicio 1: Un Ingeniero Civil visita 15 condominios en una ciudad y en cada una registr
el nmero de casas que han sufrido daos ocasionados por un aluvin el invierno recin
pasado. Se obtuvo la siguiente informacin:
15
17
a)
b)
c)
d)
e)
f)

15
19

18
16

16
17

17
17

18
16

18
19

18

Defina la unidad de observacin, la variable de estudio y su clasificacin.


Elabore una tabla de distribucin de frecuencias adecuada a este conjunto de datos.
Cuntos condominios tienen a lo ms 16 casas que han sufrido daos?
Qu proporcin de condominios tienen por lo menos 17 casas con daos?
Qu proporcin de condominios tienen 18 casas que han sufrido daos?
Obtenga un grfico adecuado para sus datos e intrprete.

Representaciones grficas de las distribuciones de frecuencias


La representacin grfica permite visualizar el comportamiento de un conjunto de datos,
como tambin conocer caractersticas especiales de la distribucin a la cual pertenecen. La
utilizacin adecuada de un grfico, al igual que la distribucin de frecuencias, depende del
tipo de variable. En los siguientes captulos mostraremos la utilidad de los grficos para la
obtencin de un modelo probabilstico al cual se pueden ajustar los datos.
25
Nalumnos

Grfico de Barra
Es usado en observaciones cualitativas o
cuantitativas discretas. Sobre cada clase se
levanta una barra de altura igual a la
frecuencia de la clase.
Eje horizontal: se representan las clases
Eje vertical: las frecuencias absolutas
ni ( f i )

20
15
10
5
0
51

52

53

Unidad Acadm ica

54

H. Alvarado L. Retamal

Estadstica Descriptiva

X =

360 ni
N

8
1a5
6

5 a 15

15 a 33
33 a 50

50 a 60
0

60 a 72

EDAD

N alumnos

25
20
15
10
5
0
1

Npersonas

Histograma
Se utiliza en variables cuantitativas cuyas
observaciones han sido divididas en intervalos
de clases. Consiste en un conjunto de
rectngulos cada uno de los cuales representa
un intervalo de agrupacin o clase. Sus bases
son iguales a la amplitud del intervalo y la
altura se determinan de manera que su rea
sea proporcional a la frecuencia de cada clase.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frecuencias absolutas
Polgono de Frecuencias
El tipo de representacin es un grfico de
lnea. Se construye uniendo con segmentos de
recta los puntos medios (marca de clase) de
los intervalos adyacentes. Se utiliza para
determinar la forma que sigue la distribucin
de frecuencias de las observaciones con el
propsito de ajustarle alguna
funcin
probabilstica determinada.
Eje horizontal: marcas de clases mi
Eje vertical: frecuencias absolutas
Ojiva
Es un polgono de frecuencias acumulativas,
comienza en cero y termina en 100%. Es un
polgono que parte de la frontera inferior del
primer intervalo de clase y en cada frontera
superior va indicando su frecuencia
acumulada.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frec. acumuladas N i ( Fi )
Grfico Circular
Permite representar las frecuencias absolutas
o frecuencias relativas porcentuales en un
crculo. Se debe determinar la cantidad de
grados del crculo correspondiente a cada
frecuencia absoluta mediante la proporcin

4
Notas

30
25
20
15
10
5
0
1

15

33

50

60

Edades

N alum nos por U. A.


51
3%

52
5%

54
54%

Grfico de Tallo y Hoja


Es un procedimiento semi-grfico para Edades de un grupo de 31 personas
variables cuantitativas. Los dgitos se separan
en dos partes, el Tallo que corresponde a un
cierto nmero de dgitos de una clase
contados de izquierda a derecha, y la Hoja que

53
38%

H. Alvarado L. Retamal

Estadstica Descriptiva

define la frecuencia absoluta de la clase y


corresponde al siguiente dgito desechando los
restantes, si existen. La representacin de los
datos se realiza usando una columna para los
tallos, ordenados en forma ascendente y sin
repetir y otra para las correspondientes hojas.
Grfico Box Plot
Un grfico de cajas con patillas muestra las
posiciones relativas de los cuartiles, porcin
central y valores extremos de una distribucin
de frecuencias. Esta grfica encierra el rango
intercuartil q3 q1 de los datos en una caja
que tiene la mediana dibujada dentro.
Adems, podemos identificar el tipo de
asimetra de una distribucin de frecuencias.
Ser simtrica si la posicin de la mediana se
encuentra en la mitad de la caja y las antenas
tienen la misma distribucin.

Tallo
0
1
2
3
5
6
7

Hoja
45
0013
257799
011146899
11367
006
11
Box & Whisker Plot

7,5

6,5

5,5

4,5

3,5

2,5

1,5
NOTAS

Max = 6,500000
Min = 2,000000
75% = 5,000000
25% = 3,500000
Median value:
Med = 4,750000

Medidas Estadsticas
En una distribucin descriptiva de una poblacin o muestra, es necesario recurrir a ciertos
valores numricos que permiten cuantificar ciertas caractersticas de la distribucin. Estas
son llamadas Medidas estadsticas o Estadgrafos, y dentro de las ms comunes se
encuentran las medidas de posicin o de tendencia central.

Medidas de Tendencia Central


Permite determinar un valor caracterstico de una distribucin de frecuencias ubicado hacia
el centro de la distribucin. Estas medidas son las siguientes:
Media Aritmtica : es un promedio, se denota por : x , y se calcula segn la forma de la
distribucin de frecuencia.
N

xi

i =1

i) Para N datos Individuales x1 , x2 ,....., x N se tiene x =

ii) Para datos agrupados en k clases individuales con frecuencias absolutas respectivas
k

xi ni

i =1

n1 , n2 ,....., nk , entonces

x=

H. Alvarado L. Retamal

Estadstica Descriptiva

iii) Para datos agrupados en intervalos de clase: Sea m1 , m2 ,....., mk las marcas de clase y

n1 , n2 ,....., nk las frecuencias absolutas de una distribucin de frecuencias, entonces


k

mi ni

i =1

x=

Propiedades de la Media Aritmtica

i) A la diferencia xi - x

se le llama desviacin del i-simo dato con respecto de la


N

media aritmtica. Se cumple que:

(x
i =1

x) = 0.

ii) Si cada valor xi se multiplica por una constante c y se calcula la media aritmtica de
estos nuevos valores el resultado es igual al producto de la constante por la media
aritmtica de los datos originales, es decir, cx = c x .
iii) Si cada valor xi se le suma o resta una constante c y se calcula la media aritmtica de
estos nuevos valores el resultado es igual al promedio original ms o menos la constante c,
es decir, x c = x c.

La Mediana: La media aritmtica no resulta ser adecuado cuando existe una concentracin
de valores en algunos de los extremos. En este caso es preferible utilizar la mediana como
estadgrafo de posicin, este valor divide a la distribucin de frecuencia en dos partes
iguales cada una conteniendo el 50% de los datos. Se denota por Me.
Geomtricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical
que divide un histograma en dos partes de reas similares.
i) Para datos individuales los datos son ordenados en forma creciente o decreciente.
Si el nmero de datos N es impar, la mediana corresponde al valor que ocupa el centro de la
ordenacin. Si el nmero de datos N es par, la mediana corresponde a la media aritmtica
de los dos valores que ocupan el centro de la ordenacin. Es decir, la mediana de un
conjunto de nmeros ordenados en magnitud X (1) X (2 ) ...... X ( N ) es o el valor central
X (N +1)

Me = X N + X N
2
+1

si N es impar

( )

si N es par

ii) Para datos en intervalos de clases: Primero se debe identificar el intervalo donde se
encuentra y enseguida aproximar el valor de la mediana a este intervalo llamado Intervalo
Mediano cuya frecuencia acumulada supere o sea igual al cuociente N/2. La mediana se
obtiene despus de la siguiente expresin.
Me = FI i +

FI i

Frontera inferior del intervalo mediano

N i 1
2
A

ni

H. Alvarado L. Retamal

Estadstica Descriptiva

N i 1 Frecuencia absoluta acumulada de la clase anterior al intervalo mediano


Frecuencia absoluta del intervalo mediano
Amplitud del intervalo

ni
A

La Moda: Para datos aislados, la moda es el valor (o valores) que tiene la mayor
frecuencia relativa en una muestra extrada de cierta poblacin. Se utiliza cuando la
distribucin de frecuencias presenta una alta inestabilidad; existen agrupaciones de datos en
ciertas clases. Se define como el valor ms comn o ms frecuente de todo el conjunto de
datos. Es posible que una poblacin tenga dos o ms modas. En esos casos se suelen llamar
distribuciones bimodales o multimodales.

ni +1

A
n +n

i 1 i +1

Para datos agrupados en intervalos de clases: Mo = FI i +

ni 1 : Frecuencia absoluta de la clase anterior al intervalo modal.


ni +1 : Frecuencia absoluta de la clase posterior al intervalo modal.
Las medidas de tendencia central nos proporcionan una idea de la forma de la distribucin.
Una distribucin de datos est sesgada si no es simtrica y se extiende ms hacia un lado
que hacia el otro. Una distribucin de datos es simtrica si la mitad izquierda de su
histograma es aproximadamente una imagen en espejo de su mitad derecha.
a) Sesgada a la izquierda (sesgo negativo): La media y la mediana estn a la izquierda de la
moda.
b) Simtrica (sesgo cero): La media, la moda y la mediana son iguales.
c) Sesgada a la derecha (sesgo positivo): La media y la Me estn a la derecha de la Mo.

Medidas de Dispersin
La media aritmtica es la ms representativa como medida de tendencia central en
distribuciones simtrica, sin embargo no es suficiente si queremos comparar dos
distribuciones. Las medidas estadsticas de variabilidad cuantifican la dispersin de los
datos en torno al centro de los datos. Mide cun esparcidos se encuentran stos o qu tan
heterogneos son. Las ms usuales son: el recorrido, el rango intercuartlico, la varianza,
desviacin estndar y el coeficiente de variacin.
Varianza: es la de mayor utilidad en aplicaciones estadsticas y se define segn la
agrupacin de los datos.
V ( X ) = (x i x ) / N
2

i)

Para datos individuales:

ii)

Para datos agrupados en clases individuales:

V ( X ) = (xi x ) ni / N
2

iii)

Para datos en intervalos de clases:

mi 2 ni

V ( X ) = (mi x ) ni / N = i =1
2

Nota: Tambin utilizaremos la cuasi varianza que se diferencia en el denominador por n-1.

H. Alvarado L. Retamal

Estadstica Descriptiva

Desviacin estndar: se define como la raz cuadrada positiva de la varianza (desviacin


promedio de los datos originales con respecto a su media aritmtica).
Si la distribucin de frecuencias tiene forma de campana, o aproximadamente esta forma, se cumple
la siguiente propiedad de la desviacin estndar y la media aritmtica:
*
*
*

x
x 2
x 3

contiene aproximadamente el 68% de las observaciones.

el 95%

el 100%

Coeficiente de Variacin: entrega el grado o % de variabilidad de los datos y se utiliza


para comparar dos distribuciones en que pueden tener distinta unidad de medida.

C.V . =
Regla emprica, si el C.V. 35%
heterogneo.

100%

el conjunto es homogneo, en caso contrario se dice

Coeficiente de Sesgo: Se entiende por sesgo el grado de asimetra o falta de simetra de


una distribucin de frecuencias.
Si el coef. sesgo es + entonces el sesgo de la distribucin es positivo.
Si el coef. sesgo es - entonces el sesgo de la distribucin es negativo.
Si el coef. sesgo es cero, entonces la distribucin es simtrica.
[X i X ] 3
N

i =1

Para datos individuales, el coeficiente de sesgo

(mi X )

Para datos agrupados, el coeficiente de sesgo

i =1

; donde 3 =

[ V (X ) ]

ni

N 3

Curtosis: Mide el grado de apuntamiento de una distribucin de frecuencias en relacin a


una distribucin simtrica. Para una distribucin simtrica se cumple que el coeficiente de
curtosis es igual a 3. Luego K = Coeficiente de curtosis 3. Se pueden presentar los
siguientes casos:
Si K > 0, entonces la distribucin es leptocrtica ( tiene un pico alto)
Si K < 0, entonces la distribucin es platicrtica (est aplastada)
Si K = 0, entonces la distribucin es mesocrtica (tiene distribucin de campana).
[X i X ] 4
N

Para datos individuales, el Coeficiente de curtosis es

i =1

(mi X )

Para datos agrupados, el Coeficiente de curtosis es

i =1

; donde 4 = [V ( X )]2

ni

N 4

Medidas de Posicin relativa


Cuantiles: Particionan el rea bajo el polgono de frecuencias en ms de dos partes, siendo
los usuales en cuatro, diez y cien partes.

H. Alvarado L. Retamal

Estadstica Descriptiva

Cuartiles: divide la distribucin de frecuencias en 4 partes,


Qi : es el punto tal que el 25 i % de las observaciones son a este valor. i = 1,2, 3.
Deciles: divide la distribucin de frecuencias en 10 partes iguales,
Di : es el punto tal que el 10 i % de las observaciones es a este valor. i = 1 a 9
Percentiles: divide la distribucin de frecuencias en 100 partes iguales, donde:
Pi : Es el punto tal que el i % de las observaciones es a este valor. i = 1 a 99.
Observe que: Q1 = P25 ; Q2 = Me = P50 = D5 ; Q3 = P75
Procedimiento para determinar el valor del k-simo percentil (datos no agrupados):
1) Ordenar los N datos en forma ascendente
2) Calcular i = N k pregunte si es entero o no. Si es entero obtenga la posicin i del
100

percentil mediante i =

N k
100

y luego obtenga Pk de acuerdo a Pk =

X (i ) + X (i + 1)
2

Si no es entero obtenga la posicin i como el entero siguiente al nmero

N k
100

y obtenga Pk

como Pk = X (i ) , es el k-simo percentil. Para datos agrupados el cuantil es


C = FI i +

x % N N i 1

ni

Ejercicio 2: Del ejemplo 1, si se utiliza la tabla de frecuencias anterior compruebe los


siguientes resultados:
X = 1.7845
2 = 0.1439
Me = 1.79088
Mo = 1.7779
Q1 = 1.5675
Q3 = 2.0067
CV = 21.25%, la dispersin es pequea = 0.3794 se puede afirmar que el conjunto de
datos originales es homogneo.
Coeficiente de sesgo = -0.3138 < 0, la distribucin presenta un leve sesgo negativo.
Coeficiente de curtosis = 3.1478
K = 0.147855 > 0, la distribucin es leptocrtica.
El intervalo [1.0257, 2.5433] contiene el 95% de las observaciones.
Interprete estos resultados y dibuje grficos adecuados.

ESTADISTICA DESCRIPTIVA BIVARIADA


El propsito es estudiar el comportamiento de dos variables en forma simultnea, por
ejemplo el estudio del rendimiento de una reaccin qumica y la temperatura a la cual tiene
lugar. El anlisis estadstico consiste en describir su comportamiento como tambin poder
ajustarle alguna funcin matemtica, si se prueba estadsticamente que existe algn grado
de dependencia entre las variables.

H. Alvarado L. Retamal

Estadstica Descriptiva

Supongamos que existen N pares de la forma ( xi , y i ).

Adems, consideremos r clases

(o intervalos) X i de la variable X y s clases (o intervalos) Y j de la variable Y.


Denotemos por nij al nmero de observaciones (o frec. absoluta) que pertenecen a la clase:

X i - Y j y su frecuencia relativa se define por f ij = nij / N


r s

Se cumple que

n i j

=N

i j

r s

f i j
i

=1

donde,

nij es la frecuencia absoluta para los individuos que representan la modalidad conjunta xi
de X e yj de Y.
fij es la frecuencia relativa para los individuos que representan la modalidad conjunta xi de
X e yj de Y.
Las frecuencias absolutas (o relativas) se resumen en una tabla de frecuencias
bidimensional llamada tambin Tabla de Contingencia o tabla de doble entrada. En total
hay r s clases.
Y

Y1 Y2

Yj

Ys

Totales

_______________________________________________
X1
n11 n12
n1s
n1

X2

n21

Xi

Xr

nr1

nij

nis

ni

nrj

nrs

nr

_______________________________________________
n j
n s
N
Totales n1
s

ni = nij
j =1

n j = nij
i =1

Las distribuciones marginales corresponden a las distribuciones de frecuencias de cada una


de las variables por separado ignorando el efecto de la otra variable.
ni ( x) y
n j ( y )
De todos los elementos, podemos estar interesados en un conjunto ms pequeo. Las
distribuciones condicionales consisten en determinar la distribucin de frecuencias de una
de las variables condicionada a un valor fijo o intervalo. Notacin X / Y = y; Y / X = x
La distribucin de frecuencias relativas condicionadas son:
nij
nij
fi/j =
y f j/i =
n j
ni
Un concepto de inters en estadstica es la Covarianza o variabilidad conjunta de dos
r s

variables y se define por:

Cov (x,y) = X Y X Y donde

xi y j nij
X Y =

i j

H. Alvarado L. Retamal

Estadstica Descriptiva

Observacin:
a) Si las variables son independientes entre s la covarianza es cero. El inverso no siempre
se cumple.
b) Si la Covarianza es distinto de cero entonces las variables son dependientes.
c) Si la Covarianza es positiva la dependencia es directa, es decir el aumento o
disminucin en una variable provoca el mismo efecto en la otra variable.
d) Si la Covarianza es negativa la dependencia es inversa
Un problema de la covarianza es que depende de las unidades de medida por lo que no
logramos cuantificar el grado de relacin lineal entre dos variables. Una medida
adimensional del grado de relacin lineal entre las variables X e Y es el Coeficiente de
correlacin de Pearson dada por:

r=

Cov ( X , Y )

[V ( X )V (Y )]1

El Coeficiente de correlacin mide la intensidad de una relacin lineal entre dos variables.
En general podemos decir: (para interpretar)
r=0
no hay correlacin lineal (no estn relacionadas linealmente)
0 < rXY 0.5
existe correlacin lineal dbil

0.5 < rXY 0.8

hay correlacin lineal aceptable

0.8 < rXY < 1

existe correlacin lineal fuerte (altamente correlacionadas)

rXY = 1

correlacin lineal perfecta.

Grfica de datos para diferentes valores de r :

H. Alvarado L. Retamal

Estadstica Descriptiva

Ejemplo 2: La siguiente distribucin de frecuencias muestra el nmero de sectores de una


determinada comuna segn: su superficie X (en km 2 ) y la cantidad de residuos slidos Y
(en toneladas), evacuados mensualmente por los recolectores.
X
0,8
1,3
1,8
2,3
2,8

Y
1,3
1,8
2,3
2,8
3,3

300 - 350
2
0
3
0
0

350 - 400
1
2
2
1
0

400 - 450
1
1
0
1
2

450 - 500
0
0
1
1
2

a) Construya un histograma de frecuencias para la cantidad de residuos slidos evacuados


mensualmente.
b) Para la distribucin de frecuencias de los sectores, segn superficie, calcule la media
aritmtica de la distribucin condicional de X / 350 Y 400 e interprete su resultado.
c) Calcule la superficie (rea) promedio, a travs de la mediana, de los sectores en que la
cantidad de residuos slidos evacuados mensualmente flucta entre 350 y 450 toneladas.
d) La Municipalidad de dicha comuna decide aumentar la dotacin de recolectores de
basura de modo que, en cada sector se incremente en un 3% la cantidad de residuos slidos
evacuados. Calcule la varianza de la cantidad de residuos evacuados despus del aumento
de la dotacin de recolectores.
Solucin:
a)
Histograma
7,000

No sectores de la comuna

6,000

5,000

4,000

3,000

2,000

1,000

0,000
<= 300

(300|350]

(350|400]

(400|450]

(450|500]

> 500

Cantidad de residuos slidos

b)
X

ni

mi

0.8 1.3
1.3 1.8
1.8 2.3
2.3 2.8
2.8 3.3

1
2
2
1
0

1.05
1.55
2.05
2.55
3.05

X = ( X / 350 < Y < 400 ) =


Interprete Usted:

mi ni 10.8
=
= 1 .8
N
6

H. Alvarado L. Retamal

Estadstica Descriptiva

c) N i N
X

Ni

ni

0.8 1.3
1.3 1.8
1.8 2.3
2.3 2.8
2.8 3.3

2
3
2
2
2

= 5 .5

5 .5 5
2
M e = 1 .8 +
0,5 = 1,925 km
2

2
5
7
9
11

11

Y
300 350
350 400
400 450
450 500

mi

ni

325
375
425
475

5
6
5
4

d) V (Y ) =

3177500
(395) 2 = 2,850
20

se pide
V (1,03Y ) = (1,03) V (Y ) = 3,0236 ton 2
2

20

Ejercicio 3: Cul es la relacin entre la cantidad gastada por semana en alimentos y el


tamao de una familia?, Las familias grandes gastan ms en alimentos? Una muestra de 10
familias en el rea de Oregon revel los siguientes tamaos de familia e importe en dinero
gastado en alimento, en cierto perodo.
Tamao de familia
Gastos en alimentos US$

3
99

6
104

5
151

6
129

6
142

3
111

4
74

4
91

5
3
119 91

a) Construir una tabla de doble entrada. Considere la variable cantidad gastada en alimentos
dividida en tres intervalos de clases.
b) Interprete los valores de n21 , f12 , n. 2 y n3.
c) Calcular e interpretar el coeficiente de variacin de gastos en alimentos.
d) Obtener la distribucin condicional de los gastos en alimentos dado que el tamao
familiar lo componen cuatro personas.
e) Calcular e interpretar el promedio de los gastos en alimentos dado que el tamao
familiar lo componen cinco personas.
f) Determinar la varianza del tamao familiar dada la cantidad gastada en alimentos.
g) Determine si existe relacin entre la cantidad gastada por semana en alimentos y el
tamao de una familia.

H. Alvarado L. Retamal

Estadstica Descriptiva

REGRESIN LINEAL SIMPLE

El anlisis de regresin consiste en mtodos grficos y analticos que permiten determinar


la mejor funcin que puede ser ajustada a un conjunto de variables. El modelo contiene dos
tipos de elementos: los parmetros o constantes que son desconocidas y hay que estimarlas
en base a los datos, y las variables. Las variables se pueden dividir en variables predictoras
(independientes) y variables respuesta (dependiente).
Con el propsito de decidir grficamente el tipo de relacin funcional entre X e Y se dibuja
un Diagrama de Dispersin de pares ( xi , yi ) en un plano cartesiano.
Supongamos que la relacin entre una variable predictora X y una variable respuesta Y
puede ser descrita por el siguiente modelo lineal:
Y = 0 + 1 X +
Se pretende encontrar la mejor recta de regresin que es posible ajustar a los datos
muestrales. Para ello debemos determinar los mejores valores de los parmetros mediante
el mtodo de mnimos cuadrados, obteniendo:

1 =

Cov( X , Y )

2X

xy x y
N
xi2 x 2
N

Esto da origen a la recta ajustada (o estimada)


Para ( xi , yi ) obtendremos el par estimado

0 = y 1 x

Y = 0+ 1 X


xi , y ,
i

donde

y i = 0 + 1 xi

; i = 1, n

Ejercicio 4. Se desea determinar si existe relacin lineal entre el tiempo utilizado en


ensamblar cierta unidad de una maquinaria y el tiempo de reemplazo de esta unidad en la
maquinaria. Se consider un grupo de 8 de esta mquina y se obtuvieron los siguientes
datos:
Tiempo Utilizado en ensamblar (hrs)
2,1 2,0 2,8 2,6 2,1 2,5 2,7 2,4
Tiempo transcurrido hasta el reemplazo (aos) 3,5 3,2 5,2 4,3 3,3 3,8 3,0 3,8

a)
b)
c)
d)
e)
f)
g)

Reconozca variable dependiente e independiente.


Dibuje el diagrama de dispersin. Qu observa?
Realice un ajuste de regresin va mnimos cuadrados.
Interprete los coeficientes de regresin estimados.
Calcule una medida de asociacin y calidad del ajuste.
Estime el tiempo medio de reemplazo para una maquinaria ensamblada en 2,53 hrs.
Qu tiempo de garanta ofrecera Ud. Como gerente de la Industria?

Estadstica Descriptiva

H. Alvarado L. Retamal

Ejercicio 5. Se ha comprobado que las aleaciones amorfas tienen una excelente resistencia
a la corrosin. Se inform de la resistividad de una aleacin amorfa de hierro, boro y silicio
despus de la cristalizacin. Se reconocieron cinco especimenes de la aleacin a 700 C,
cada uno durante un intervalo de tiempo distinto. Despus se midi el potencial de
pasivacin- una medida de la resistividad de la aleacin cristalizada para cada espcimen:
Tiempo de recocido Potencial de pasivacin
x, minutos
y, mV
10
-408
20
-400
45
-392
90
-379
120
-385
a) Construya un diagrama de dispersin para los datos.
b) Suponiendo que la mejor forma de describir la relacin entre las variables es con
una lnea recta, utilice el mtodo de mnimos cuadrados para estimar la ordenada al
origen y la pendiente de la lnea.
c) Segn la lnea de mnimos cuadrados, cul es el potencial de pasivacin esperado
y, cuando el tiempo de recocido es de x = 30 minutos?
d) Verifique que la suma de los errores es cero.
e) Mediante planilla excel obtenga el modelo ajustado y los valores de los errores.