Вы находитесь на странице: 1из 15

Universidad Técnica Federico Santa María

Universidad Técnica Federico Santa María


Departamento de Informática
ILI-280

Capítulo 2
Análisis de datos (Bivariados
(Bivariados))
Estadística Computacional
I Semestre 2006
Parte II

Profesores:
Carlos Valle (cvalle@inf.utfsm.cl)
Página: www.inf.utfsm.cl/~cvalle

Estadística Bivariada

 Supongamos que se toma una muestra de tamaño n


de una población y que se desea estudiar, dos
características de un mismo objeto .

 Sean estas características X e Y. Siguiendo los


procedimientos habituales, la Muestra se divide en
 r clases Ai para la variable X
 s clases Bj para la variables Y
 Existirán elementos que pertenecerán simultánea-
mente a AiBj. Los datos los podemos ordenar en
una tabla o matriz llamada Tabla de Contingencia

Profesor C.Valle 2

1
Universidad Técnica Federico Santa María

Tabla de Contingencia

Y B1 B2 ..... Bj ..... Bs Total


X
A1 n11 n12 ..... n1j ..... n1s n1
A2 n21 n22 ..... n2j ..... n2s n2

Ai ni1 ni2 ..... nij ..... nis n i

Ar nr1 nr2 ..... nrj ..... nrs nr


Total n1 n2 ..... nj ..... ns n 

Profesor C.Valle
n  _
=n 3

Tabla de Contingencia

Y B1 B2 ..... Bj ..... Bs Total


X
A1 f11 f12 ..... f1j ..... f1s f1
A2 f21 f22 ..... f2j ..... f2s f2

Ai fi1 fi2 ..... fij ..... fis f i

Ar fr1 fr2 ..... frj ..... frs fr


Total f1 f2 ..... fj ..... fs f 

Profesor C.Valle
f  =_ 1 4

2
Universidad Técnica Federico Santa María

Tabla de Contingencia

nij = Frecuencia Absoluta de la clase conjunta AiBj.


(Valor observado en la celda (i,j) de la Tabla de Contingencia)
r s
fij = nij Frecuencia Relativa
 ∑∑ f =1
n “conjunta” de la clase ij
conjunta correspondiente a i =1 j =1
la intersección de Ai y Bj.

ni• = ∑ nij
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r
(Independiente de la clases Bj a la que estén asociadas
Suma de los valores de la fila i-ésima )
j =1
r
n• j = ∑ nij Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s
(Independiente de las clases Ai a la que estén asociadas.
i =1 Suma de los valores de la columna j-ésima)
Profesor C.Valle 5

Frecuencias Marginales

Dado el experimento anterior, cuando sólo interesa conocer la


frecuencia de ocurrencia de cada una de las variables por separado
se habla de Frecuencia Marginal de la variable X o Y

Frecuencia (relativa) “marginal” de la variable X,


Conjunto de valores pertenecientes a la clase Ai,
considerándola independientemente de la clase Bj

Frecuencia (relativa) “marginal” de la variable Y,


Conjunto de valores pertenecientes a la clase Bj,
considerándola independientemente de la clase Ai

Profesor C.Valle 6

3
Universidad Técnica Federico Santa María

Estadística Bivariada

Notación: Sean

fij := frecuencia relativa conjunta AiBj = fr(xi,yj)

fi =
i ∑fj
ij = frec relativa marginal = ∑ f (x , y ) = f (x )
j
r i j r i

f j=
i ∑fi
ij = frec. relativa marginal = ∑ f (x , y ) = f ( y )
i
r i j r j

fij fr ( xi , y j )
fi/j = = frec. relativa condicional=fr ( xi / yj) =
f• j fr ( y j )
Profesor C.Valle 7

Tabla de Contingencia

Para frecuencias
s
relativas , i = 1,....,r se tiene:
f i • = ∑ f ij (Suma de los valores de la fila i-ésima
j =1 de la tabla de frecuencias conjuntas)
r
f • j = ∑ f ij (Suma de los valores de la columna j-ésima
i =1 de la tabla de frecuencias conjuntas)

Además se verifica que:

n n• j fij n
fi• = i• f• j = fi/j = = ij
n•• n•• f• j n• j
Profesor C.Valle 8

4
Universidad Técnica Federico Santa María

Tabla de Contingencia

Ejemplo
Una tela se clasifica en tres categorías A, B y C según cantidad y
severidad de pequeñas imperfecciones. La empresa tiene 5
telares, en un mes dado de producción se registraron los
siguientes datos.

# piezas de tela en la clasificación


Telar A B C Marginal
1 185 16 12 213
2 190 24 21 235
3 170 35 16 221
4 158 22 7 187
5 185 22 15 222
Marginal 888 119 71 1078
Profesor C.Valle 9

Frecuencia Condicional

• Cuando se “pregunta” por la frecuencia relativa de una de las variables,


digamos X, restringida a los elementos observados de la clase Bj según
Y; esto es, estudiar el comportamiento de una variable dado un valor fijo
de la otra. Se obtiene la frecuencia relativa condicional

fij nij Frecuencia (relativa) de la variable X en la


clase conjunta AiBj, “dado” que sólo nos
fi/j = =n interesa respecto a lo observado en la clase Bj
f• j •j de la variable Y; para i = 1, 2, .., r

Constituye la distribución de frecuencia relativa


f ,f ,f
1/j 2/j 3/j, ... , f r/j
condicional de la variable X dada la clase Bj de
la variable Y.
Nótese que se trabaja “condicionado” sobre un
tamaño de muestra “reducido” al número de
observaciones de la clase Bj dada

Profesor C.Valle 10

5
Universidad Técnica Federico Santa María

Independencia Estadística

Se dice que X es independiente de Y si las frecuencias


condicionales de X/Y son todas iguales; es decir, no
dependen de la clase condicionante, esto es
= .... =
A
f i/1 = f i/2 = f i/3 f i/s = f i•
i = 1, 2, 3, ... , r

n n n n n + n + n +.... + n n
i1
n• 1 = n• 2 = n• 3
i2 i3
=.... = n• S
is
 n• 1+ n• 2 + n• 3 +.... + n•iss = n ••i•
i1 i2 i3
= f i•

Luego  fi/j = fi• similarmente  j/i f = f• j


fij
Como  fi/j =  ij f = fi/j × f•j  fij = fi• × f• j
f• j
Profesor C.Valle 11

Estadística Bivariada

Notación:

Análogamente, se tiene:

fj/i = fij = frecuencia condicional = f


fr ( xi , y j )
r ( y j / xi ) =
fi• fr ( xi )
Independencia Estadística

X e Y son variables estadísticamente independientes ssi:


fr ( y j / xi ) = fr ( y j ) ó fr ( xi / y y ) = fr ( xi )
fi/j = fi• ó fj/i = f• j
Profesor C.Valle 12

6
Universidad Técnica Federico Santa María

Estadística Bivariada

Independencia Estadística

como fij = fj/i × fi• ⇒ fij = f• j × fi•

Asociación de Variables
1
Datos no agrupados Cov (x,y) =
n
∑ ( xi − x)( yi − y)
Datos agrupados : Cov(x,y) = ∑ fi ( xi − x)( yi − y )
Coeficiente de Correlación = r = Cov (x,y)
Sx Sy
Profesor C.Valle 13

Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías
2 20 15 10 45
3 12 7 5 24
4 4 10 2 16
5 - 5 10 15
Marginal 36 37 27 100
Obtener :
Distribuciones marginales
Distribuciones condicionales (4 averías), Media
y Varianza condicional
Profesor C.Valle 14

7
Universidad Técnica Federico Santa María

Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías
2 0,20 0,15 0,10 0,45
3 0,12 0,07 0,05 0,24
4 0,04 0,10 0,02 0,16
5 0 0,05 0,10 0,15
Marginal 0,36 0,37 0,27 1,00
fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5

Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2


+1//8(160-137,5)2 =
Profesor C.Valle 15

Modelo Estadístico (Lineal)


y = β 0 + β1x + ε
x , y son variables independiente y dependiente
respectivamente. Además ε una variable estadística
que representa el error.
Los parámetros β0 y β1 pueden ser estimados a
partir de los datos {(xi , yi)}i=1,...,n mediante método de
mínimos cuadrados.
Sea ; ei = yi − yˆ i = yi − βˆ 0 − βˆ1 xi
Entonces
Profesor C.Valle 16

8
Universidad Técnica Federico Santa María

n n
min ∑ ei = min ∑ ( yi − β 0 − β1 xi ) 2
2
β 0 β1 β 0 β1
i =1 i =1
n
SC E = ∑ ei
2

i =1

SC xy
β̂1 = βˆ 0 = y − βˆ1 x
SC x
n n
SC x = ∑ ( xi − x ) 2
SC xy = ∑ ( xi − x )( yi − y )
i =1 i =1
n
VNE = ∑ ei
2

=1
Profesor iC.Valle 17

Curvas de Regresión
t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 17
20 40 26 14 8
20 12

V(t) 25 40 46 29 12 6 17

Sea xt = sen t yt = V(t)

Luego y(t) = a + b xt + εt

min Q( a, b) = min ∑ ( yt − a − bxt ) 2


a ,b a ,b
t
Profesor C.Valle 18

9
Universidad Técnica Federico Santa María

cov( x, y )
aˆ = y − bˆ x = 25,3 bˆ = 2
= 20
Sx
2
S y = 1276 ∑( y t − yˆ t ) 2 = 22,45

% de Ajuste del Modelo =

∑ eˆ
2
t
1− 2
= 0,98 ∗100% = 98%
Sy

Profesor C.Valle 19

Transformaciones

Sea yi = h ( xi ) con i = 1,...,n


1. Lineales yi = axi + b
y = ax + b
Sy = a Sx
2. No lineales yi = h( xi )
1
y = h(x) + 2 h”(x) SX2
Sy2≈ Sx2 [ h’ (x)]]2
En particular 1
h(x) = ln x y = ln x - 2 ( Sx2 / x2 )
Sy2 ≈ ( Sx2 / x2 ) = CV 2
Profesor C.Valle 20

10
Universidad Técnica Federico Santa María

Universidad Técnica Federico Santa María


Departamento de Informática
ILI-280

Análisis de una Bivariada


como muestra estratificada

Análisis de una muestra estratificada

E1 m
E2 n1 V
1 ∑n
h =1
h =n
n2 V2 X1
Em nh
nm ph =
X2 Vm n
Xm m- estratos

Supongamos que la variable admite una clasificación


en k
- clases, representadas por X1, X2,.....Xk.

Profesor C.Valle 22

11
Universidad Técnica Federico Santa María

Análisis de una muestra estratificada

nih = Cantidad de individuos de la submuestra del


estrato “h” que pertenece a Ci.

k k
n
fih = ih
nh ∑f
i =1
ih =1 ∑n
i =1
ih = nh

k k
X h = ∑ fih X i Vh = ∑ fih ( X i − X h ) 2
i =1 i =1
m
fi = ∑ phfih
h =1
Profesor C.Valle 23

Análisis de una muestra estratificada

Entonces: m
X = ∑ ph X n
h =1

m m
VT = ∑ phVh + ∑ ph ( X h − X ) 2
h =1 h =1

VT = Vint ra + Vint er

Profesor C.Valle 24

12
Universidad Técnica Federico Santa María

Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50
pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos.
Al cabo de un cierto tiempo se pesan los 350 pollos,
encontrándose que algunos están muertos y los vivos pesan
entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos
muertos se supondrán de peso cero, y el cero actuará como
centro del supuesto intervalo. Los otros intervalos serán
[1,00 ; 1,50]] [1,50 ; 2,00]] [2,00 ; 2,50]].

Centros Frecuencias Absolutas Calcular


(1) (2) (3)
X h , Vh , X , VT
0 5 10 10
1,25 10 20 30 Vint er , Vint ra
1,75 30 150 50
Note que existen 3
2,25 5 20 10 estratos y 4 clases
Profesor C.Valle 25

Análisis Muestra Estratificada

Frecuencia
Relativa
Histograma Apilado por Peso
0,7

0,6

0,5
Criadero 1
0,4
Criadero 2
0,3 Criadero 3
0,2

0,1

0 Peso

0 1,25 1,75 2,25

1,00 1,50 2,00 2,50


Profesor C.Valle 26

13
Universidad Técnica Federico Santa María

Análisis Muestra Estratificada


Frecuencia
Relativa
Histograma por Estrato y por Peso
0,5

0,4

0,3 Criadero 1
Criadero 2
0,2 Criadero 3

0,1

Peso
0
0 1,25 1,75 2,25

1,00 1,50 2,00 2,50


Profesor C.Valle 27

Estrato (1) P1=1/7

Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2

0 0,1 0 -1,525 2,325 0,2325 X1=1,525


1,25 0,2 0,250 -0,275 0,0756 0,0151
1,75 0,6 1,050 0,225 0,0501 0,0304 V1=0,331
2,25 0,1 0,225 0,725 0,525 0,0526

Estrato (2) P2=4/7

fi2 fi2X1 Xi-X2 ( )2 fi2( )2

0 0,05 0 -1,662 2,76 0,138 X2=1,662


1,25 0,10 0,125 -0,412 0,17 0,017
1,75 0,75 1,312 0,088 0, 01 0,006 V2=0,195
2,25 0,10 0,225 0,588 0,35 0,035

Estrato (3) P3=2/7

fi3 fi3X1 Xi-X3 ( )2 fi3( )2

0 0,10 0 -1,475 2,17 0,218 X3=1,475


1,25 0,30 0,375 -0,225 0,05 0,015
1,75 0,50 0,875 0,275 0, 08 0,039
2,25 0,10 0,225 0,775
Profesor C.Valle
0,60 0,060
V3=0,331 28

14
Universidad Técnica Federico Santa María

Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2


Xh Vh
(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00058
(2) 4/7 1,662 0,195 0,950 0,111 0,073 0,005 0,00305
(3) 2/7 1,475 0,331 0,421 0,095 -0,114 0,013 0,00371
1,589 0,253 0,0073

Profesor C.Valle 29

Resultados

Se ha obtenido, entonces:
 Media Total
 X = 1,589
 Varianza promedio dentro de los estratos
 Vintra= 0,253
 Varianza entre estratos
 Vinter= 0,0073
 Varianza Total
 VT= 0,2606

Profesor C.Valle 30

15

Вам также может понравиться