Вы находитесь на странице: 1из 40

1

TALLER
ANALISIS MULTIVARIABLES
Y APLICACIONES
Dr. Filiberto Mata Pérez
Consultor Intercade

INDICE
Diap.

1. Introducción................................................................................................. 3
2. Estadísticas de las Variables....................................................................... 5
3. Regresión Lineal aplicaciones y análisis en Minería ................................... 24
4. Regresión Múltiple aplicaciones y análisis en Minería................................... 49
5 Matriz de Correlaciones................................................................................ 65
6. Clúster Análisis ……………………………….. ………..……........................ 74
7. Correlación entre las variables Mineralógicas ……................................... 84
8. Relación Tonelaje-Ley .............................................................................. 93
9 Correlación entre otras Variables …….…………………………………… 100
10 . Variables Mineralógicas vs Consumo de Acido……………..… 120
11. Variables Mineralógicas vs Recuperación ...................................... 146

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
2
3

1. INTRODUCCION

Dr. Filiberto Mata Pérez - Consultor Intercade

ANALISIS MULTIVARIADO

El análisis multivariado en el área de las ciencias de la tierra


se utiliza como una respuesta de simplificación a las
relaciones que se presentan, a través de los estudios
univariados o bien bivariados. En ellos se presentan
relaciones o correlaciones de variables; el poder correlacionar
más de dos variables y a su vez representarlas por un método
matemático es la razón de su éxito.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
3
5

2. ESTADISTICAS
DE LAS VARIABLES

Dr. Filiberto Mata Pérez - Consultor Intercade

ESTADISTICA

La estadística es todo aquello que tiene que ver con la


recopilación, análisis, uso de datos para tomar decisiones y
resolución de problemas (científicos, administrativos o de
ingeniería) dado su gran aporte en el área de calidad.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
4
7

ESTADISTICA

La estadística se divide en dos grupos principales:

La estadística descriptiva: es aquella que se ocupa de los


métodos organizacionales y de resumir la información.

La estadística inferencial: son todos los métodos


utilizados para describir y modelar una variabilidad
poblacional, mediante los datos arrojados por la muestra.

Dr. Filiberto Mata Pérez - Consultor Intercade

POBLACION
En estadística se denomina población a todas las personas
u objetos que componen un gran grupo.
Con frecuencia en la práctica estamos interesados en
extraer conclusiones válidas con respecto a un grupo grande
de personas u objetos. Sin embargo es difícil o casi
imposible analizar a toda la amplitud de este gran grupo.
MUESTRA
Una muestra es una pequeña parte de la población o el
universo o un subconjunto de observaciones de la misma.
Su importancia radica en que sirve para estudiar a toda una
población o universo.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
5
9

Muestra Población

xxx
xx x
xxx xx
xxx xx x
xxx xxx
xxx xxx
xxx
xx

Dr. Filiberto Mata Pérez - Consultor Intercade

10

En la estadística se conocen dos tipos de variables


principalmente las cuantitativas y las cualitativas en
ingeniería como en otras ramas de la ciencia se
aplican las dos.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
6
11

Dr. Filiberto Mata Pérez - Consultor Intercade

12

La estadística descriptiva que es la primer parte de


este curso aplica las mediciones de tendencia central
como de dispersión respectivamente, de las cuales la
media, media geométrica, media armónica, mediana,
moda, cuartiles, deciles, percentiles, pertenecen a las
primeras y el rango, la varianza, la desviación
estándar, la asimetría, curtósis, nos representan las
segundas.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
7
13

Es importante mencionar que por la cantidad de


datos que se manejan en minería y geología se
utilizan las ecuaciones para datos agrupados en
tablas de frecuencias y que en la literatura existen
dos tipos de diferentes de aplicaciones para datos
agrupados y no agrupados.

Las ecuaciones a continuación por lo tanto son para


datos agrupados:

Dr. Filiberto Mata Pérez - Consultor Intercade

14

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
8
15

Dr. Filiberto Mata Pérez - Consultor Intercade

16

23 18 22 17 17 21 21 20
28 19 26 23 21 26
28 25 23 27 17
23 21 25 23 18 29 27 25
24 25
25 20 22 17 23 25 23 21
25 23 23 25 21 24 24 29
25 30 25
28 18 26
28 23 23 22 19 25 21 24
27
26 20 23 27 21 28 21 21
25 19
29 30 27 29 25 27 28 31

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
9
17

CLASES frecuencia xi xi*Fi %f Frc. Acum %fr.acum


17 19 11 18 198 0.10 11 0.10
19.01 21 14 20 280 0.13 25 0.22
21.01 23 20 22 440 0.18 45 0.40
23.01 25 34 24 816 0.30 79 0.71
25.01 27 16 26 416 0.14 9 0.85
27.01 29 13 28 364 0.12 108 0.96
29.01 31 4 30 120 0.04 112 1.00
112 112 2634 1.00
Valor Max.= 31 Valor Min= 17 Rango= 14
Número de datos 112
Suma de N 2711 Intervalo de Clase= 2.1

Regla de Sturges= 6.8

media de datos agrupados Xmed.= 23.518


media de muestra 24.2053571

Dr. Filiberto Mata Pérez - Consultor Intercade

18

35 34

30

25
20
20
14 16
15 11
10 13

5
0 4
1 2
3
4 5
6
7

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
10
19

1.20

1.00

0.80

0.60

0.40

0.20

0.00
1 2 3 4 5 6 7

Dr. Filiberto Mata Pérez - Consultor Intercade

20

n
* fi
2
2 i
Varianza = = n
fi

n
2
i
2
fi
Desviación estándar = = n
fi

n
i
3
fi
3er. Momento = m 3 = n
fi

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
11
21

n
* fi
4
i
m4 = n
fi

3
n
* fi
2 2
3 i
n
fi

m3
Coeficiente de Sesgo = 3

m4
Coeficiente de Curtósis = 4

Dr. Filiberto Mata Pérez - Consultor Intercade

22

CLASES

17 19 11 18 -5.52 30.45 334.91 -168.00 -1848.01 10197.05


19.01 21 14 20 -3.52 12.38 136.13 -43.53 -478.88 1684.63
21.01 23 20 22 -1.52 2.30 25.34 -3.50 -38.47 58.39

23.01 25 34 24 0.48 0.23 2.56 0.11 1.23 0.59


25.01 27 16 26 2.48 6.16 67.77 15.29 168.22 417.54

27.01 29 13 28 4.48 20.09 220.99 90.04 990.49 4439.51


29.01 31 4 30 6.48 42.02 462.20 272.37 2996.05 19420.80

112 168 124.90 1790.63 36218.52

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
12
23

CLASES

17 19 11 18 -5.52 30.45 334.91 -168.00 -1848.01 10197.05


19.01 21 14 20 -3.52 12.38 136.13 -43.53 -478.88 1684.63
21.01 23 20 22 -1.52 2.30 25.34 -3.50 -38.47 58.39
23.01 25 34 24 0.48 0.23 2.56 0.11 1.23 0.59
25.01 27 16 26 2.48 6.16 67.77 15.29 168.22 417.54

27.01 29 13 28 4.48 20.09 220.99 90.04 990.49 4439.51


29.01 31 4 30 6.48 42.02 462.20 272.37 2996.05 19420.80

112 168 124.90 1790.63 36218.52

m3= 15.99
m4= 323.38
Varianza= 11.16
desviación stándar 3.34
Coef.Sesgo= 0.000779337
Coef.Curtósis= 2.596560665

Dr. Filiberto Mata Pérez - Consultor Intercade

24

3. REGRESION LINEAL
APLICACIONES Y ANALISIS
EN MINERIA

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
13
25

PROBABILIDAD

Del latín probabiltas, la probabilidad es la cualidad de


probable (que puede suceder o que resulta verosímil). Se
encarga de medir la frecuencia con la que se obtiene un
resultado en un proceso aleatorio.

Dr. Filiberto Mata Pérez - Consultor Intercade

26

Se conoce como teoría de la probabilidad a aquella que


modela los fenómenos aleatorios (es decir, que no ofrecen un
resultado único o previsible bajo condiciones determinadas).
El lanzamiento de un dado es un fenómeno aleatorio, ya que
puede arrojar diferentes resultados más allá de que se realice
en las mismas condiciones

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
14
27

La regresión lineal no es parte de la estadística forma parte


de la probabilidad, en conjunto con muchas otras
herramientas. Como también forman parte de está la
regresión lineal múltiple y el Análisis Multivariado, para todo
estas mediciones estadísticas y probabilísticas existen una
gran cantidad de software especializado en el mercado,
más sin embargo todas se pueden realizar en una hoja de
calculo como Excel.

Dr. Filiberto Mata Pérez - Consultor Intercade

28

La Regresión Lineal simple como su nombre lo indica


esta representada por modelo de regresión o ecuación
lineal que es el siguiente:

y= 0 + 1 *x+

En el cual β0 es la ordenada al origen y β1 es la


pendiente x la variable independiente y Є el error cuya
esperanza es igual a cero E( ε ) = 0 una consecuencia
de este supuesto es que la media o esperanza de y
esta representada por:

E(y) = 0 + 1 *x+

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
15
29

Los parámetros β0 y β1 no se conocen por lo cual se


tienen que estimar a partir de los datos de la muestra y
serán sustituidos por b0 y b1 obteniendo la ecuación de
regresión lineal:

y = b0 + b 1 x
n
i =1x i yi ( in=1 x i n
i =1 y i ( n
b1 = 2
n
n 2 i =x i
i =1 x n

b0 = y - b1 x

Dr. Filiberto Mata Pérez - Consultor Intercade

30

Xi Yi XiYi Xi^2

2 58 116 4 -12 -72 144 5184 864 3364


6 105 630 36 -8 -25 64 625 200 11025
8 88 704 64 -6 -42 36 1764 252 7744
8 118 944 64 -6 -12 36 144 72 13924
12 117 1404 144 -2 -13 4 169 26 13689
16 137 2192 256 2 7 4 49 14 18769
20 157 3140 400 6 27 36 729 162 24649
20 169 3380 400 6 39 36 1521 234 28561
22 149 3278 484 8 19 64 361 152 22201
26 202 5252 676 12 72 144 5184 864 40804

140 1300 21040 2528 0 568 15730 2840

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
16
31

Xmed= 14 Sx^2= 63.11 VarX

Ymed= 130 Sy^2= 1747.78 VarY

Sx= 7.94 Desv. Estdr X


Suma Xi = 140
Sy= 41.81 Desv. Estdr Y
Suma Yi = 1300
Sxy= 315.56 Coovarianza XY
Suma XiYi= 21040

Suma Xi^2= 2528

b1 = (SumaXiYi-(SumaXi*SumaYi)/n)/(SumaXi^2-(suma Xi)^2/n)= 5

b1 = Ymed-b1Xmed

Ecuación de regresión Lineal simple= y = 60 + 5x

Rxy = 0.950122955 Coeficiente de Pearson

Dr. Filiberto Mata Pérez - Consultor Intercade

32

Yi(est.)=60+5Xi Yi-Yestim (Yi-Yestim)^2 Yest-Ymed (Yest-Ymed)^2

70 -12 144 -60 3600


90 15 225 -40 1600
100 -12 144 -30 900
100 18 324 -30 900
120 -3 9 -10 100
140 -3 9 10 100
160 -3 9 30 900
160 9 81 30 900
170 -21 441 40 1600
190 12 144 60 3600

SEE= 1530 14200

(SST)Suma Total de Cuadrados

(SSR)Suma de Cuadrados debida a la Regresión = 14200

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
17
33

Regresión Lineal Intercade


250

200 y = 5x + 60
R2 = 0.9027

150

100

50

0
0 5 10 15 20 25 30

Dr. Filiberto Mata Pérez - Consultor Intercade

34

Estadísticas descriptivas: X, Y

Media del
Conteo Error
Variable total N N* CumN Porcentaje CumPct Media estándar Desv.Est.
X 10 10 0 10 100 100 14.00 2.51 7.94
Y 10 10 0 10 100 100 130.0 13.2 41.8

Suma de
Variable Varianza Suma cuadrados Mínimo Q1 Mediana Q3 Máximo
X 63.11 140.00 2528.00 2.00 7.50 14.00 20.50 26.00
Y 1747.8 1300.0 184730.0 58.0 100.8 127.5 160.0 202.0

N para
Variable Rango IQR Modo moda Sesgo Kurtosis MSSD
X 24.00 13.00 8, 20 2 -0.00 -1.33 4.89
Y 144.0 59.3 * 0 -0.01 -0.03 419.6

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
18
35

Gráfica de línea ajustada


Y = 60.00 + 5.000 X
250 Regresión
IC de 95%
PI de 95%

200 S 13.8293
R-cuad. 90.3%
R-cuad.(ajustado) 89.1%

150
Y

100

50

0 5 10 15 20 25
X

Dr. Filiberto Mata Pérez - Consultor Intercade

36

Gráfica de probabilidad normal


(la respuesta es Y)
99

95

90

80
Porcentaje

70
60
50
40
30
20

10

1
-30 -20 -10 0 10 20 30
Residuo

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
19
37

El análisis de la regresión lineal se efectúe a través del


estudio de la investigación y estudio de saber si la relación
establecida a través de la ecuación lineal es o no
significativa. Para realizar este análisis basamos en Ics
siguientes supuestos á cerca del erros.

1.- El termino de error ε es una variable aleatoria con


media esperanza igual cero.

2.- La varianza σ 2 de ε representada por σ 2 es igual a y es


la misma para todos los valores de X

3- Los valores de son independientes

4- El término de error, ε , es una variable aleatoria de


distribución normal.

Dr. Filiberto Mata Pérez - Consultor Intercade

38

Recordemos que las desviaciones de los valores de Y respecto


a la línea de regresión estimada se llaman residuales, y su suma
es SEE que es una medida de la variabilidad de las
observaciones reales respecto a la línea regresión. El error
cuadrado medio MSE es el estimado de σ 2 y es igual a SEE
dividido en los grados de libertad, que para SEE son n-2.

SSE
2
S = MSE = n-2

SEE
S = MSE = n-2

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
20
39

Prueba t
El objetivo de la prueba t es el poder establecer si la
relación entre X, Y es significativa para esto se
utilizaran los datos de la muestra para probar la
siguiente Hipótesis:

H0 : β 1 = 0
Ha : β1 ≠ 0

Si se rechaza H0: β1= 0 la conclusión será Ha:β1 ≠ 0


y que hay una relación estadísticamente significativa
entre las dos variables. si no se puede rechazar H0 :
β1 = 0 no tenemos relación significativa.

Dr. Filiberto Mata Pérez - Consultor Intercade

40

Gráfica de línea ajustada


Y = 60.00 + 5.000 X
250 Regresión
IC de 95%
PI de 95%

200 S 13.8293
R-cuad. 90.3%
R-cuad.(ajustado) 89.1%

150
Y

100

50

0 5 10 15 20 25
X

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
21
41

Las propiedades de la distribución muestral de b1 son:

E(b1) = β1 b1 estimador insesgado β1

b1 =
2
n
i=1 X
2 ( n
i=1 X i (

Distribución normal

Las propiedades de la distribución muestra de b1 son:

E (b1) =β1 b1 estimador insesgado β1

Dr. Filiberto Mata Pérez - Consultor Intercade

42

Para nuestro ejemplo:


1530
s 2 = MSE = = 191.25
8

s= 191.25 = 13.829

13.829
b2 = = 0.5803
(140) 2
2528
10

La prueba t se basa en : b1 - 1 pero como si es


b1
b1
cierta la hipótesis H0: β1 = 0 entonces t =
b1

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
22
43

Por lo anterior:

Prueba t:

H0: β1 = 0
Hα : β1 ≠ 0

Estadístico de prueba:
b1 5
t= = 0.5803
= 8.62
b1
Regla de Rechazo:
Rechazar H 0 si t < - t 2 o si t > - t 2
por lo tanto con 99% de probabilidad es decir
α= 0.01 con una distribución de n - 2 = 8 de acuerdo de la
Distribución t de Student t005 = 3.355

Y como 8.62 > 3.355 se rechaza H0 : β1= 0 y se tiene como


conclusión que la relación es significativa.

Dr. Filiberto Mata Pérez - Consultor Intercade

44

Análisis de regresión: Y vs. X

La ecuación de regresión es:

Y = 60.0 + 5.00 X

Coef.
Predictor Coef de EE T P
Constante 60.000 9.226 6.50 0.000
X 5.0000 0.5803 8.62 0.000

S = 13.8293 R-cuad. = 90.3% R-cuad.(ajustado) = 89.1%

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
23
45

Análisis de regresión: Y vs. X

La ecuación de regresión es
Y = 60.00 + 5.000 X

S = 13.8293 R-cuad. = 90.3% R-cuad.(ajustado) = 89.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 14200 14200.0 74.25 0.000
Error 8 1530 191.2
Total 9 15730

Dr. Filiberto Mata Pérez - Consultor Intercade

46

El estimado del intervalo de confianza para cada regresión


se calcula por medio de:
2
1 (x p - x (
s yp = s2
n
+ n 2
n 2 i=1 x i
i=1 X i n

2
1 (x p - x (
s yp = s
n
+ n 2
n 2 i=1 x i
i=1 X i n

Para nosotros si tomamos un punto de valor xp = 10


entonces yp =60+ 5(10)=10

Y el valor de S yp =4.95 si vamos a la distribución t de


student con 95% o sea
t
2 con 8 grados de libertad es yp + t 2 *Syp osea 110 + 2.306(4.95)

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
24
47

Gráfica de línea ajustada


Y = 60.00 + 5.000 X
250 Regresión
IC de 95%
PI de 95%

200 S 13.8293
R-cuad. 90.3%
R-cuad.(ajustado) 89.1%

150
Y

100

50

0 5 10 15 20 25
X

Dr. Filiberto Mata Pérez - Consultor Intercade

48

Algunas advertencias sobre la interpretación de las


pruebas de hipótesis:

Si se tiene una conclusión de que la relación entre la


variable x , y la variable y es significativa . Esto nos permite
concluir que existe una relación causa efecto entre x y y y
solo se puede llegar a este tipo de conclusión si se tiene
algún tipo de justificación teórica .

Dada una relación significativa podemos confiar en ele uso


de la regresión para predicción dentro de los limites de los
valores observados en la muestra. Para nuestro ejemplo
estos limites serán entre 2 y 26

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
25
49

4. REGRESION LINEAL
MULTIPLE APLICACIONES
Y ANALISIS EN MINERIA

Dr. Filiberto Mata Pérez - Consultor Intercade

50

Modelo de regresión múltiple es el análisis es el análisis o


estudio de un variables dependiente con dos o más
variables independientes.

La ecuación de la regresión múltiple y su modelo es el


mismo que se utiliza en la regresión múltiple:

y = β0 + β1 x1 + β2 x2 + β3 x3 + ….. βp xp + Є

En el modelo de regresión múltiples β0 , β1 , β2 son los


parámetros y ε es una variable aleatoria con media cero o
valor esperado de y representado por:

E(y) = β0 + β1 x1 + β2 x2 + β3 x3 + …….. + βp xp +

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
26
51

SEE es la suma de cuadrados debida al error y


esta dado por:
n

(yi - yi) 2
1
Si sabemos que:

y = b0 + b1 x1 + b2 x2 + b3x3 + ...... + bpxp

Al sustituir en la sumatoria anterior


n

(yi - b0 - b1x1) - b2x2-b3x3 ....... -bpxp)2


1

Dr. Filiberto Mata Pérez - Consultor Intercade

52

Si lo colocamos en forma adecuada:

n k 2
yi - 0 - j xi j
i=1

A partir de ella y al minimizar esta diferencia

n k
L
0 1 k
= -2 yi - 0 - j xi j = 0
i=1 j =1

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
27
53

Con las siguientes ecuaciones normales

n n n n

n 0 + 1 x i1 + 2 x i2 k x ik yi
i=1 i=1 i=1 i=1

n n n n n

0 x i1 1 x2 i1 2 x i1 x i2 k x i1 x ik x i1 yi
i=1 i=1 i=1 i=1 i=1

n n n n n

0 x ik 1 x ik x i1 2 x ik x i2 k x2 ik x ik yi
i=1 i=1 i=1 i=1 i=1

Dr. Filiberto Mata Pérez - Consultor Intercade

54

n n n n
n + n
i=1 X i1 + i=1 X i2 + ........ + i=1 X ik = i=1 yi 0 i=1 yi
...
...

...

...
...

...

...

n n n n n X i1 y i
i=1 X i1 + 2
i=1 X i1 + i=1 X i1 X i1 + ........ + i=1
X ik X ik = i=1 X i1 yi 1 n
i=1
...

...

...

...
...

...

...

...

n n n n n
i=1 X ik + i=1 X ik X i1 + i=1 X ik X i1 + ........ + 2
i=1 X ik = i=1 X ik yi k
n
i=1 X ik yi

Como un ejemplo se realizara el proceso con dos variables


independientes

n
SEE = (y i - b 0 - b1 x1i - b2 x2i ) = 0
i=1

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
28
55

Para poder minimizar la diferencia de cuadrados es


necesario obtener la derivada parcial de la ecuación
anterior por lo tanto:

SEE
-2 (y i - b 0 - b1 x1i - b2 x2i ) = 0
b0

SEE
-2x 1 i (y i - b 0 - b1 x1i - b 2 x2i ) = 0
b1

SEE
-2x 2 i (y i - b 0 - b1 x1i - b 2 x2i )
b2

Dr. Filiberto Mata Pérez - Consultor Intercade

56

yi + b0 + b1 x1i b 2 x 2i = 0

Si se despeja y i al lado derecho de la ecuación y como


b 0 = nb 0

yi = b0 + b1 x1i b2 x2i

x1i b0 + (x 2 1i )b1 + x1i x2i b2 = x1i yi

x 2i b0 + x1i x21 b 1 + x2i 2 b2 = x2i yi

Este conjunto de ecuaciones se conocen como las ecuaciones


normales .
Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
29
57

El numero de ecuaciones normales esta en función del


numero de variables independientes ya que si existen p
variables el numero de ecuaciones seria p+1 variables así
que para 4 variables se tendrá un conjunto de 5 ecuaciones
y así sucesivamente.

Por lo tanto para la solución de un sistema así se recurre al


algebra lineal con resolución de ecuaciones utilizando
matrices ya sea por la inversa o la disjunta .

Dr. Filiberto Mata Pérez - Consultor Intercade

58

A continuación presentamos un ejemplo que a sido tratado


con Minitab

y x(1) x(2)
9.3 100 4
4.8 50 3
8.9 100 4
6.5 100 2
4.2 50 2
6.2 80 2
7.4 75 3
6 65 4
7.6 90 3
6.1 90 2

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
30
59
La ecuación de regresión es
(y) = - 0.869 + 0.0611 (x1)+ 0.923(x2)

Predictor Coef Coef. de EE T P VIF


Constante -0.8687 0.9515 -0.91 0.392
(x1) 0.061135 0.009888 6.18 0.000 1.027
(x2) 0.9234 0.2211 4.18 0.004 1.027

S = 0.573142 R-cuad. = 90.4% R-cuad.(ajustado) = 87.6%

PRESS = 4.59839 R-cuad.(pred) = 80.76%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 21.601 10.800 32.88 0.000
Error residual 7 2.299 0.328
Falta de ajuste 6 2.219 0.370 4.62 0.342
Error puro 1 0.080 0.080
Total 9 23.900
Dr. Filiberto Mata Pérez - Consultor Intercade

60

En la regresión simple se interpreta que b1 es la


pendiente de la ecuación de la regresión y b0 es
la ordenada al origen de dicha ecuación.

En la regresión lineal múltiple se modifica esto


ya que se presentan diferentes coeficientes
como b1, b2 etc … En este caso b1 representa
una variación cuando las otras variables
independientes permanecen constantes

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
31
61

el coeficiente de determinación múltiple que fue calculado


como:
SST = SSR + SSE
SSR 21.601
Donde R2 = en nuestro ejemplo: R2 = = 0.904
SST 23.900

Este sería de acuerdo a la regresión lineal simple. Más sin


embargo la mayoría de las veces para regresión múltiple
se ajusta de acuerdo al número de variables de la
siguiente forma:
n-1
R α2 = 1 - (1 - R2)
n-p-1
P = Cantidad de variables y n= número de datos de estudio

Dr. Filiberto Mata Pérez - Consultor Intercade

62

10 - 1
Así que : R  2 = 1-(1-0.904) = 088
10 - 2 - 1

Como podemos observar en el calculo que


tenemos de Minitab.
La ecuación de regresión es:
(y) = - 0.869 + 0.0611 (x1)+ 0.923(x2)

Predictor Coef Coef. de EE T P VIF


Constante -0.8687 0.9515 -0.91 0.392
(x1) 0.061135 0.009888 6.18 0.000 1.027
(x2) 0.9234 0.2211 4.18 0.004 1.027

S = 0.573142 R-cuad. = 90.4% R-cuad.(ajustado) = 87.6%

PRESS = 4.59839 R-cuad.(pred) = 80.76%

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
32
63

Para las pruebas de significancia en la regresión


múltiple se utilizan tanto la prueba de hipótesis con F o
con t.

En el caso de la prueba Fisher (F) se aplica el mismo


criterio que con t se examina la posibilidad de que
β 0=0 si se rechaza está hipótesis entonces la relación
establecida por la ecuación es significativa y por lo
tanto se puede utilizar como probable está relación.

SSE
MSE =
n-p-1

Dr. Filiberto Mata Pérez - Consultor Intercade

64

MSR
F= se rechaza si H0 si F > Fα con p grados de
MSE
libertad en el numerador y n-p-1 en el denominador por
lo que: 10.8
F= = 32.88
0.328
Estos datos se pueden observar en la tabla de varianza
de Minitab

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 21.601 10.800 32.88 0.000
Error residual 7 2.299 0.328
Falta de ajuste 6 2.219 0.370 4.62 0.342
Error puro 1 0.080 0.080
Total 9 23.900

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
33
65

5.MATRIZ
DE CORRELACION

Dr. Filiberto Mata Pérez - Consultor Intercade

66

La matriz de correlación esta presente en varias técnicas


del análisis multivariante; en la Regresión Lineal múltiple,
En el Análisis de Componentes Principales. En el análisis
Factorial y en la matriz de Correlación Canónica.

Por lo que es una de la técnicas Probabilísticas que es


utilizada a su vez por otros métodos de trabajo dentro del
análisis Multivariable o multivariante.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
34
67

Algunas de estas técnicas ya se han tomado en cuenta aquí


como lo es la regresión lineal múltiple.

Más sin embargo es necesario e importante hacer mención


que para realizar aplicaciones con la matriz de correlación o
cualquier técnica de análisis multivariante se requiere
forzosamente efectuar los estadísticos descriptivos(media,
moda, mediana, sesgo, curtósis, desviación estándar).

Dr. Filiberto Mata Pérez - Consultor Intercade

68

Así como los gráficos de normalidad de datos antes de realizar


un análisis más complejo.
Estadísticos
Gold Lead Tin Mercury Antimony Zinc Silver
N Válidos 203 203 203 203 203 203 203
Perdidos 0 0 0 0 0 0 0
Media 100818 .100477 .100472 .100291 .100620 .100537 .099456
a a a a a a
Mediana 100600 .101400 .100533 .100200 .100475 .100167 .099980 a
b
Moda .0989 .0950 b .0903 b .0984 b .0994 b .1021 b .0994 b
Desv. típ .0096136 .0114675 .0102320 .0100694 .0096779 .0091259 .0093126
Varianza 000 000 000 000 000 000 000
Asimetría .080 -.211 .133 .173 -.109 -113 -075
Error típ. de asimetría .171 .171 .171 .171 .171 .171 .171
Curtosis .090 .-203 .052 .261 -.210 -.040 -.108
Error típ. de curtosis .340 .340 .340 .340 .340 .340 .340
Rango .0520 .0644 .0568 .0529 .0497 .0483 .0476
Mínimo .0769 .0666 .0751 .0696 .0745 .0772 .0749
Máximo .1289 .1310 .1319 .1225 .1242 .1255 .1225
Suma 20.4661 20.3968 20.3958 20.3590 20.4258 20.4091 20.1895
Percentiles 25 .094100 c .091575 c .093350 c .093425 c .094350 c .094525 c .092125 c
50 .100600 .101400 .100533 .100200 .100475 .100167 .099980
75 .106550 .108763 .106075 .107825 .107510 .106550 .105350
a. Calculado a partir de los datos agrupados.
b. Existen varias modas. Se mostrará el menor de los valores
c. Los percentiles se calcularán a partir de los datos agrupados

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
35
69

0.13
O
191
5 En los gráficos de caja la caja esta
0.12
definida por el segundo y tercer
cuartil. Mientras que los bigotes por le
0.11
primero y el cuarto. Este tipo de
0.10
gráficos también es útil para detectar
valores atípicos.
0.09

0.08

0.07 4

Gold

En los gráficos Q-Q normal

Normal esperado
representa los datos de la
variable frente a los datos 0

esperados si la distribución fuera


normal. Si los puntos están -2

cerca de la diagonal podemos


decir que la distribución es 0.08 0.10 0.12 0.14

normal.

Dr. Filiberto Mata Pérez - Consultor Intercade

70

Pruebas de normalidad

Kolmogorov-Smirnov a Shapiro-Wilk
Estadístico gl S ig . Estadístico gl S ig.
Gold .035 203 .200* .995 203 .708
Silver .049 203 .200* .995 203 .748
Tin .047 203 .200* .994 203 .654
Antimony .037 203 .200* .994 203 .567
Lead .048 203 .200* .990 203 .197
Zinc .034 203 .200* .996 203 .868
Mercury .037 203 .200* .993 203 .393

*. Este es un límite inferior de las significación veradera.


a. Corrección de la significación de Lilliefors

Para evaluar la normalidad se pueden utilizar las pruebas los teste


de Kolmogrov-Smirov cuya Hipótesis Nula H0 es que la distribución
de la variable seleccionada de una distribución normal.

Por ejemplo si el valor de Significancia en la tabla como es el caso


0.20 y lo que como el calculo se realizo con el 95% de probabilidad
entonces 0.20>0.05 donde 0.05% es lo que fuera. La hipótesis se
acepta. Es decir es una distribución normal.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
36
71

Pruebas de normalidad

Kolmogorov-Smirnov a Shapiro-Wilk
Estadístico gl S ig. Estadístico gl S ig.
Gold .035 203 .200* .995 203 .708
Silver .049 203 .200* .995 203 .748
Tin .047 203 .200* .994 203 .654
Antimony .037 203 .200* .994 203 .567
Lead .048 203 .200* .990 203 .197
Zinc .034 203 .200* .996 203 .868
Mercury .037 203 .200* .993 203 .393

*. Este es un límite inferior de las significación veradera.


a. Corrección de la significación de Lilliefors

Por lo tanto el test de K-S podemos establecer los siguiente:

Si el valor de Sig. (p-valor) es > a 0.5 entonces H0 (Hipótesis nula)


tenemos que es una distribución normal.

Si el valor de Sig. (p-valor) es < a 0.5 entonces H0 (Hipótesis nula)


tenemos que es una distribución normal.

Dr. Filiberto Mata Pérez - Consultor Intercade

72

Por lo general el siguiente problema que nos planteamos es


el poder establecer si una muestra pertenece a una población
especifica o también si dos poblaciones son del mismo tipo o
evento.

Para ello se utilizan las pruebas de Hipótesis Student (t) y


(F)Fisher que también ya utilizamos en los temas
anteriores(regresión lineal simple y múltiple) y en este caso la
prueba t se utiliza para comparar las dos medias de las
poblaciones y el test F en compara la varianza (Conocido
también como test de Levene).

Primero aplicaremos el test de varianzas y en caso de que


esta no sean significativamente distintas entonces
aplicaremos después el de las medias

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
37
73

MATRIZ DE CORRELACION
Correlaciones
Gold Silver Lead Zinc Tin Mercury Antimony
Gold Correlación de Pearson 1 -.051 .065 -.056 .034 -.062 -.114
Sig. (bilateral) .466 .360 .428 -629 .383 .104
N
203 203 203 203 203 203 203
Silver Correlación de Pearson -.051 1 1.44 -.002 -.025 .093 .078
Sig. (bilateral) .466 .040 .979 .727 .186 .269
N
203 203 203 203 203 203 203
Lead Correlación de Pearson .065 .144 1 .057 .116 -.072 -.179
Sig. (bilateral) .360 .040 .415 .100 .305 .011
N 203 203 203 203 203 203 203
Zinc Correlación de Pearson -.056 -.002 .057 1 .016 -.196 .58
Sig. (bilateral) -.056 .979 .415 .824 .005 .411
N
203 203 203 203 203 203 203
Tin Correlación de Pearson .034 -.025 .116 .016 1 -.044 -.016
Sig. (bilateral) .629 .727 .100 .824 .536 .820
N
.203 203 203 203 203 203 203
Mercury Correlación de Pearson -.062 .093 -.072 -.196 -.044 1 .038
Sig. (bilateral) .383 .186 .305 .005 .536 .590
N
.203 203 203 203 203 203 203
Antimony Correlación de Pearson -.114 -.078 -.179 .058 -.016 .038 1
Sig. (bilateral) .104 .269 .011 .411 .820 .590
N
203 203 203 203 203 203 203
* La correlación es significante al nivel 0,05 (bilateral).
** La correlación es significativa al nivel 0,01 (bilateral).

Dr. Filiberto Mata Pérez - Consultor Intercade

74

6. CLUSTER ANALISIS

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
38
75

CLUSTER ANALISIS DEFINICION

El análisis de Clúster es una técnica del análisis multivalente o


multivariado que nos permite agrupar a los individuos de una
población en conglomerados de forma tal que los individuos
son más parecidos entre sí.

Dr. Filiberto Mata Pérez - Consultor Intercade

76

CLUSTER ANALISIS OBJETIVO

El análisis de Clúster es la denominación de un grupo de


Técnicas multivalentes cuyo principal propósito es el de
agrupar objetos basándose en las características que
poseen. El análisis de Clúster clasifica objetos de tal forma
que cada objeto es muy parecido a los que hay en el
conglomerado con respecto a un criterio de selección.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
39
77

CLUSTER ANALISIS OBJETIVO

Definir las estructuras de los datos colocando las


observaciones más parecidas en grupos . Para llevar a
efecto esta tarea daremos respuesta a tres preguntas
principales:

1.- ¿Cómo medir la similitud?


2.- ¿Cómo formar los conglomerados?
3.-¿Cuántos grupos formamos?

Dr. Filiberto Mata Pérez - Consultor Intercade

78

Medición de la similitud:

La similitud es medida con la distancia en línea recta o


euclidiana entre cada observación .

Formación de conglomerados:

Para la formación de conglomerados existen varias reglas


más sin embargo la más común es por Procedimiento
jerárquico. La cual es una regla simple que consiste en
identificar las dos observaciones más
parecidas(cercanas)que no están en el mismo conglomerado
y combinar éstas.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING
40
79

Matriz de distancias
Archivo matricial de entrada
Caso Gold Silver Lead Zinc Tin Mercury Antimony
Gold 1.000 -.051 .065 -.056 .034 -.062 -.114
Silver -.051 1.000 .144 -.002 -.025 .093 -.078
Lead .065 .144 1.000 .057 .116 -.072 -.179
Zinc -.056 -.002 .057 1.000 .016 -.196 .058
Tin .034 -.025 .116 .016 1.000 -.044 -.016
Mercury -.062 .093 -.072 -.196 -.044 1.000 .038
Antimony -.114 -.078 -.179 .058 -.016 .038 1.000

Dr. Filiberto Mata Pérez - Consultor Intercade

80

El método jerárquico es un método aglomerativo dado que


los conglomerados se forman por la combinación de los
conglomerados existentes.

El proceso jerárquico de aglomeración puede ser


representado gráficamente de varias formas por medio de
Agrupación de Nido. O bien por el Dendrograma que es una
representación arborescente.

Dr. Filiberto Mata Pérez - Consultor Intercade

INTERCADE www.intercade.org
CONSULTANCY & TRAINING

Вам также может понравиться