Академический Документы
Профессиональный Документы
Культура Документы
Atividade 4
Anlise Discriminante;
Anlise de Clusters e
Escalonamento Multidimensional.
Questo 2
1. ENQUADRAMENTO
Escalonamento multidimensional (MDS) uma tcnica de anlise exploratria de dados com o objetivo de
reduzir os dados recolhidos em conjuntos manipulveis de informao a partir dos quais inferncias possam
ser feitas ou concluses possam ser tiradas, condensando grandes quantidades de dados num mapa espacial
relativamente simples que retransmite importantes relaes da maneira mais econmica [1].
O MDS fornece uma representao visual das diferenas (ou semelhanas) entre objetos, casos ou, mais am-
plamente, observaes, ou seja, a tcnica tenta encontrar estrutura nos dados, ao transformar um conjunto de
medidas de dissemelhana, em distncias atribudas a localizaes especficas numa configurao espacial.
MDS pode modelar relaes no lineares entre as variveis, pode manipular dados nominais ou ordinais e no
exige a normalidade multivariada. Os dados utilizados no MDS podem ser diretos ou indiretos, os dados di-
retos, tambm designados como em bruto ou crus, so obtidos com tcnicas como as escalas de Likert.
Os dados so organizados em matrizes retangulares em que as linhas so designadas como stimuli (estmulos)
e as colunas atributos.
2
= ( )
=1
Subsequentemente, uma funo de stress mede o ajuste entre as proximidades do input e as distncias do
output definida. Um processo iterativo tenta encontrar aproximaes sucessivas soluo e executado
at que a funo de stress tenha sido minimizada.
Quando se executa uma anlise MDS com software de estatstica como o SPSS ou SAS, o nmero de dimen-
ses a extrair do mapa espacial deve ser pr especificado. Assim, se o trabalho de natureza exploratria, o
investigador deve ter formulado hipteses, em relao ao nmero de dimenses esperadas, a partir dos dados.
2
( )
= = 2
Os valores da funo de stress podem variar entre zero e um. Quanto menor o valor da funo de stress, melhor
o modelo representa os dados. Embora no exista qualquer regra rgida sobre o valor de stress aceitvel,
Kruskal [2] indica que um valor de 0.1 excelente e um valor 0.15 no tolervel. J Marco [3] sugere
um critrio menos exigente recorrendo a uma proposta inicial de Kruskal em 1964. O stress diferente de zero
indica que algumas ou todas, as distncias no mapa so, em certa medida, distores dos dados de entrada.
Outras ferramentas de diagnstico para avaliar a adequao do modelo MDS so o ndice de correlao qua-
drtico, R2, que indica a proporo da varincia dos dados de entrada explicada pelo modelo e os diagramas
de Shepard que so diagramas de disperso com as proximidades no eixo dos X e as distncias no eixo dos Y.
O objetivo primrio do analista deve ser o de obter o melhor ajuste com o menor nmero de dimenses pos-
svel. Dito isto, embora espremendo os dados de entrada num espao bidimensional permita "legibilidade"
pode ser um muito pobre, distorcendo significativamente a representao dos dados [4]. O cuidado com este
aspeto deve sempre presente na mente do analista quando executa uma anlise MDS. O screeplot (que traa
um grfico dos valores da funo de stress contra o nmero de dimenses) pode auxiliara a ultrapassar este
problema.
2. OBJETIVO DO TRABALHO
O objetivo deste trabalho realizar uma anlise dos dados utilizando o Escalonamento Multidimensional
(MDS - Multidimensional Scaling).
3. OS DADOS DO PROBLEMA
Os dados do problema so constitudos pelas mdias das avaliaes que 90 estudantes fizeram a 18 caraters-
ticas de 21 pases. Os dados esto registados numa base de dados de SPSS (.sav) que apresenta 21 stimulus e
19 atributos. Os atributos esto identificados na tabela.
Tabela 1 - Atributos dos dados
Varivel Descrio
Country Valores 1 a 21: representando 21 pases
A1 Aligned with U.S.A.
A2 Collect.-Individualistic
A3 Peaceful
A4 Individual Rights
A5 I Like
A6 Good
A7 Similar to Ideal
A8 Full of Opportunity
A9 Stable
A10 People Satisfied
A11 Internally United
A12 Influential Culture
A13 Educated People
A14 Rich
A15 Industrialized
A16 Powerful
A17 On Way Up
A18 Large
4. REALIZAO DA ANLIS E
No faz qualquer sentido estudar a distncia entre Individual Rights e Full of Opportunity, no entanto
estes so dois atributos na matriz de dados. J faz sentido estudar a distncia entre UK e Congo, mas estes
so stimulus. A matriz de dados no adequada anlise pretendida, necessrio alter-la.
Para isso utiliza-se no SPSS o comando transpor (Data/Transpose) e cria-se uma nova base de dados em que
as categorias so os stimulus e os pases os atributos. Adicionalmente as etiquetas dos atributos foram alteradas
para passarem a identificar nominalmente os pases.
Estando na posse do output a anlise em SPSS o primeiro passo decidir o nmero de dimenses a reter.
Isso ser feito atravs da validao do valor de stress-I face ao critrio de Kruskal. Os valores de stress-I so;
O nmero de dimenses escolhido para reter trs dimenses. Para este nmero de dimenses os dados a reter
so apresentados no ponto seguinte.
4. 2. Resultados obtidos
A primeira parte do output resume as iteraes e os valores de stress-S em cada passo da iterao. Esta inter-
rompe-se de acordo com o definido no submenu Options quando a reduo inferior a 0.001.
Quando a ierao se interrompe calculada a medida de stress-I e a medida de disperso RSQ. O valor de
stress-I muito baixo 0.09252 e o valor de RSQ alto 0.96625. A soluo boa quando o valor de stress-I
baixo e o de RSQ alto, a soluo encontrada muito boa. Uma imagem do output apresentada em seguida.
O extrato seguinte do output apresenta as coordenadas dos pases (objetos) nas trs dimenses retidas, o mapa
percetual e na pgina seguinte o grfico de distncia-dissemelhana.
O agrupamento dos objetos em funo das suas semelhanas/dissemelhanas faz-se naturalmente por obser-
vao do mapa percetual.
Caso tivssemos retido apenas uma dimenso o mapa percetual (que est no anexo) exibe claramente 2 agru-
pamentos. Caso tivssemos retido duas dimenses, o mapa percetual (que tambm est no anexo) exibe cla-
ramente 3 grupos e alguns pases isolados.
No entanto retivemos 3 dimenses e do mapa percetual a 3 dimenses, na pgina anterior, s conseguimos
afirmar que a USSR est afastada dos outros pases, os USA e a CHN possivelmente tambm e o restante est
tudo amontoado sem se entender onde. De facto, o mapa tridimensional produzido pelo SPSS pouco infor-
mativo e promove a confuso. Uma das consequncias o aumento da sub reteno de dimenses por impos-
sibilidade de interpretao.
Para obviar este problema recorreu-se a uma aplicao grfica tridimensional de onde se extraram as vistas
que se apresentam em seguida. Os pases so representados por esferas que esto cromaticamente referencia-
das aos agrupamentos. A dimenso 3 corresponde ao eixo vertical.
Os 9 agrupamentos constitudos so:
Grupo Rosa = {FRA, FRG, JAP, UK} Grupo Verde = {GRE, ESP, MEX, ETH}
Grupo Ciano = {IND, INDO, BRZ, CNG} Grupo Laranja = {CUB, POL, YUG, EGPT}
Grupo Azul = {USA} Grupo Vermelho = {USSR}
Grupo Amarelo = {CHN} Grupo Negro = {ISR}
Grupo Castanho = {SOUT}
Deve notar-se que a vista de topo corresponde ao mapa percetual quando se retm 2 dimenses e s por si
oculta informao relevante, confirmando o anteriormente referido.
Os pases mais prximos so (MEX, ESP) com distncia = 0.36.
Os pases mais afastados so (CNG, USA) com distncia = 4.49.
4. 4. Concluses
pases mais semelhantes so os Estados Unidos Mexicanos e o Reino de Espanha enquanto os pases mais
dissimilares so a Repblica de Congo e os Estados Unidos da Amrica. As semelhanas encontradas formam
4 grupos distintos de 4 pases cada, existindo ainda cinco pases sem semelhante no conjunto analisado.
Os pases sem semelhante so os EUA, a USSR, a China, Israel e a frica do Sul(?). So de facto pases com
caratersticas de identidade muito especficas o que explica o isolamento. O grupo Rosa engloba 4 pases
desenvolvidos da linha da frente, o grupo Verde engloba pases desenvolvidos de segunda linha embora
a incluso da Etipia neste grupo seja estranha data de hoje, o grupo laranja engloba pases com desenvol-
vimento e histria, mas de alinhamento geoestratgico com a URSS, o grupo Ciano engloba pases em desen-
volvimento com alinhamento NATO.
B IBLIOGRAF IA.
[1] M. E. Mugavin, Multidimensional scaling: A brief review, Nursing Research, vol. 57, p. 6468, 2008.
[2] M. W. Joseph B. Kruskal, Multidimensional Scaling, Sage University papers, 1978.
[3] J. Marco, Anlise Estatstica com o SPSS Statistics, Pro Pinheiro: ReportNumber, 2014.
[4] N. Jaworska e A. ChupetlovskaAnastas, A Review of Multidimensional Scaling (MDS) A Review of
Multidimensional Scaling (MDS), Tutorials in Quantitative Methods for Psychology, vol. 5, pp. 1-10,
2009.
ANEXO.
Proximities
Notes
Output Created 09-DEC-2015 00:31:35
Comments
[DataSet3] C:\Users\josef_000\Desktop\ADMA\Dados_Atividade4_Q2_T_FC.sav
ALSCAL
/MATRIX=IN('C:\Users\josef_000\AppData\Local\Temp\spss4652\spssalsc.tmp')
/LEVEL=RATIO
/CONDITION=MATRIX
/MODEL=EUCLID
/CRITERIA=CONVERGE(0.001) STRESSMIN(0.005) ITER(30) CUTOFF(0) DIMENS(1,3)
/PLOT=DEFAULT
/PRINT=DATA HEADER.
Alscal
Notes
Output Created 09-DEC-2015 00:31:36
Comments
Weight <none>
Split File <none>
N of Rows in Working Data 18
File
Syntax ALSCAL
/MATRIX=IN(\spssalsc.tmp')
/LEVEL=RATIO
/CONDITION=MATRIX
/MODEL=EUCLID
/CRITERIA=CONVERGE(0.001) STRESS-
MIN(0.005) ITER(30) CUTOFF(0) DI-
MENS(1,3)
/PLOT=DEFAULT
/PRINT=DATA HEADER.
Resources Processor Time 00:00:00.92
Elapsed Time 00:00:01.10
Data Options-
Model Options-
Model . . . . . . . . . . . Euclid
Maximum Dimensionality . . . . . 3
Minimum Dimensionality . . . . . 1
Negative Weights . . . . . . . Not Permitted
Output Options-
Algorithmic Options-
Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . .00100
Minimum S-stress . . . . . . . .00500
Missing Data Estimated by . . . . Ulbounds
1 2 3 4 5 6 7 8 9 10
1 .000
2 7.966 .000
3 6.615 4.298 .000
4 7.792 5.032 4.051 .000
5 10.926 7.122 6.355 6.433 .000
6 7.106 4.264 2.632 4.812 5.855 .000
7 13.375 12.382 10.517 8.581 11.132 11.652 .000
8 14.079 12.035 11.815 8.972 10.338 11.769 7.802 .000
9 13.444 11.335 10.737 8.187 9.950 10.968 5.972 3.450 .000
10 12.556 12.207 10.919 8.611 11.025 10.993 7.126 5.495 4.772 .000
11 12.171 10.357 9.738 7.532 9.018 9.421 7.913 4.428 3.545 3.365
12 14.856 12.628 12.033 10.000 10.299 11.688 8.619 5.089 4.145 4.774
13 13.621 13.389 12.542 9.950 12.330 12.385 8.924 6.356 5.514 3.833
14 14.808 14.061 12.739 10.288 11.403 12.890 6.554 4.938 4.409 4.011
15 16.721 16.179 14.931 12.361 13.604 15.197 7.560 6.105 5.962 5.595
16 14.640 13.558 12.492 10.088 10.161 12.332 7.888 6.069 5.572 6.239
17 15.537 16.254 14.252 12.352 13.206 14.116 10.036 11.250 10.335 9.574
18 16.651 14.244 13.325 11.276 9.833 12.797 9.310 7.441 7.393 8.663
19 13.506 10.313 9.494 7.736 7.590 8.805 8.627 7.299 6.139 6.864
20 13.950 11.016 9.864 8.301 8.163 9.444 7.769 8.179 6.615 7.779
21 11.685 11.873 9.524 9.416 10.316 9.320 11.367 13.724 12.394 12.208
11 12 13 14 15 16 17 18 19 20
11 .000
12 3.273 .000
13 4.603 5.748 .000
14 5.080 4.375 5.324 .000
15 7.077 6.024 6.373 2.488 .000
16 5.967 5.538 6.514 3.969 5.463 .000
17 10.423 10.695 9.023 8.460 9.504 6.793 .000
18 7.736 6.505 9.314 6.278 7.664 4.317 8.304 .000
19 5.173 5.434 7.727 7.063 9.186 6.391 9.407 5.675 .000
20 6.546 6.733 8.661 7.453 9.453 6.262 8.462 5.358 2.640 .000
21 11.838 13.387 12.608 12.930 14.891 11.162 8.603 11.693 9.609 8.433
21
21 .000
1 .13545
2 .10082 .03462
3 .09888 .00195
4 .09886 .00002
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = .09252 RSQ = .96625
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2 3
Number Name
1 2 3 4 5 6 7 8 9 10
1 .000
2 2.096 .000
3 1.741 1.131 .000
4 2.051 1.324 1.066 .000
5 2.876 1.874 1.673 1.693 .000
6 1.870 1.122 .693 1.267 1.541 .000
7 3.520 3.259 2.768 2.258 2.930 3.067 .000
8 3.706 3.167 3.110 2.361 2.721 3.097 2.053 .000
9 3.538 2.983 2.826 2.155 2.619 2.887 1.572 .908 .000
10 3.305 3.213 2.874 2.266 2.902 2.893 1.875 1.446 1.256 .000
11 3.203 2.726 2.563 1.982 2.374 2.479 2.083 1.165 .933 .886
12 3.910 3.323 3.167 2.632 2.710 3.076 2.268 1.339 1.091 1.256
13 3.585 3.524 3.301 2.619 3.245 3.260 2.349 1.673 1.451 1.009
14 3.897 3.701 3.353 2.708 3.001 3.393 1.725 1.300 1.160 1.056
15 4.401 4.258 3.930 3.253 3.580 4.000 1.990 1.607 1.569 1.472
16 3.853 3.568 3.288 2.655 2.674 3.246 2.076 1.597 1.467 1.642
17 4.089 4.278 3.751 3.251 3.476 3.715 2.641 2.961 2.720 2.520
18 4.382 3.749 3.507 2.968 2.588 3.368 2.450 1.958 1.946 2.280
19 3.554 2.714 2.499 2.036 1.998 2.317 2.270 1.921 1.616 1.807
20 3.671 2.899 2.596 2.185 2.148 2.485 2.045 2.153 1.741 2.047
21 3.075 3.125 2.507 2.478 2.715 2.453 2.992 3.612 3.262 3.213
11 12 13 14 15 16 17 18 19 20
11 .000
12 .861 .000
13 1.212 1.513 .000
14 1.337 1.151 1.401 .000
15 1.863 1.585 1.677 .655 .000
16 1.570 1.458 1.714 1.044 1.438 .000
17 2.743 2.815 2.375 2.227 2.501 1.788 .000
18 2.036 1.712 2.451 1.652 2.017 1.136 2.185 .000
19 1.361 1.430 2.034 1.859 2.418 1.682 2.476 1.493 .000
20 1.723 1.772 2.280 1.961 2.488 1.648 2.227 1.410 .695 .000
21 3.116 3.523 3.318 3.403 3.919 2.938 2.264 3.077 2.529 2.220
21
21 .000
1 .23298
2 .19560 .03738
3 .19447 .00113
4 .19446 .00001
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = .19364 RSQ = .88635
1 2 3 4 5 6 7 8 9 10
1 .000
2 1.739 .000
3 1.445 .939 .000
4 1.701 1.099 .885 .000
5 2.386 1.555 1.388 1.405 .000
6 1.552 .931 .575 1.051 1.279 .000
7 2.921 2.704 2.297 1.874 2.431 2.545 .000
8 3.075 2.628 2.580 1.959 2.258 2.570 1.704 .000
11 12 13 14 15 16 17 18 19 20
11 .000
12 .715 .000
13 1.005 1.255 .000
14 1.109 .955 1.163 .000
15 1.545 1.316 1.392 .543 .000
16 1.303 1.209 1.422 .867 1.193 .000
17 2.276 2.335 1.970 1.848 2.075 1.483 .000
18 1.689 1.420 2.034 1.371 1.674 .943 1.813 .000
19 1.130 1.187 1.687 1.542 2.006 1.396 2.054 1.239 .000
20 1.429 1.470 1.891 1.627 2.064 1.367 1.848 1.170 .577 .000
21 2.585 2.923 2.753 2.824 3.252 2.437 1.879 2.553 2.098 1.842
21
21 .000
Iteration history for the 1 dimensional solution (in squared distances)
1 .41070
2 .36576 .04495
3 .36512 .00064
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = .38083 RSQ = .74746
Stimulus Coordinates
Dimension
Stimulus Stimulus 1
Number Name
1 USA -1.7994
2 UK -1.5553
3 FRD -1.3549
4 FRA -.9334
5 ISR -1.1004
6 JAP -1.3458
7 SOUT .5346
8 GRCE .6877
9 ESP .4987
10 BRZ .5385
11 MEX .2386
12 ETH .7459
13 IND .8141
14 INDON .8847
15 CNG 1.2913
16 EGPT .7721
17 CHN 1.1860
18 CUB .9545
19 YUG .0812
20 POL .1454
21 USSR -1.2841
1 2 3 4 5 6 7 8 9 10
1 .000
2 1.282 .000
3 1.064 .692 .000
4 1.254 .810 .652 .000
5 1.758 1.146 1.023 1.035 .000
6 1.143 .686 .424 .774 .942 .000
7 2.152 1.992 1.692 1.381 1.791 1.875 .000
8 2.266 1.937 1.901 1.444 1.664 1.894 1.255 .000
9 2.163 1.824 1.728 1.317 1.601 1.765 .961 .555 .000
10 2.021 1.964 1.757 1.386 1.774 1.769 1.147 .884 .768 .000
11 1.959 1.667 1.567 1.212 1.451 1.516 1.273 .713 .571 .541
12 2.391 2.032 1.936 1.609 1.657 1.881 1.387 .819 .667 .768
13 2.192 2.155 2.018 1.601 1.984 1.993 1.436 1.023 .887 .617
14 2.383 2.263 2.050 1.656 1.835 2.074 1.055 .795 .710 .645
15 2.691 2.604 2.403 1.989 2.189 2.445 1.217 .982 .959 .900
16 2.356 2.182 2.010 1.623 1.635 1.985 1.269 .977 .897 1.004
17 2.500 2.616 2.293 1.988 2.125 2.272 1.615 1.810 1.663 1.541
18 2.679 2.292 2.144 1.815 1.582 2.059 1.498 1.197 1.190 1.394
19 2.173 1.659 1.528 1.245 1.221 1.417 1.388 1.174 .988 1.105
20 2.245 1.773 1.587 1.336 1.314 1.520 1.250 1.316 1.064 1.252
21 1.880 1.911 1.533 1.515 1.660 1.500 1.829 2.208 1.994 1.964
11 12 13 14 15 16 17 18 19 20
11 .000
12 .527 .000
13 .741 .925 .000
14 .818 .704 .857 .000
15 1.139 .969 1.025 .400 .000
16 .960 .891 1.048 .639 .879 .000
17 1.677 1.721 1.452 1.361 1.529 1.093 .000
18 1.245 1.047 1.499 1.010 1.233 .695 1.336 .000
19 .832 .874 1.243 1.137 1.478 1.028 1.514 .913 .000
20 1.053 1.084 1.394 1.199 1.521 1.008 1.362 .862 .425 .000
21 1.905 2.154 2.029 2.081 2.396 1.796 1.384 1.882 1.546 1.357
21
21 .000
ERASE FILE='C:\Users\josef_000\AppData\Local\Temp\spss4652\spssalsc.tmp'.