Вы находитесь на странице: 1из 3

DIVULGAO UMA INTRODUO ANLISE EXPLORATRIA DE DADOS MULTIVARIADOS Jos Machado Moita Neto e Graziella Ciaramella Moita Departamento

o de Qumica - Universidade Federal do Piau - 64.049-550 - Teresina - PI Recebido em 19/3/97; aceito em 10/10/97

AN INTRODUCTION ANALYSIS EXPLORATORY MULTIVARIATE DATE. The modern technological ability to handle large amounts of information confronts the chemist with the necessity to re-evaluate the statistical tools he routinely uses. Multivariate statistics furnishes theoretical bases for analyzing systems involving large numbers of variables. The mathematical calculations required for these systems are no longer an obstacle due to the existence of statistical packages that furnish multivariate analysis options. Here basic concepts of two multivariate statistical techniques, principal component and hierarchical cluster analysis that have received broad acceptance for treating chemical data are discussed. Keywords: cluster analysis; principal component analysis; dendrogram.

INTRODUO A extrao de informaes dos resultados de um experimento qumico envolve a anlise de grande nmero de variveis. Muitas vezes, um pequeno nmero destas variveis contm as informaes qumicas mais relevantes, enquanto que a maioria das variveis adiciona pouco ou nada interpretao dos resultados em termos qumicos. A deciso sobre quais variveis so importantes feita, geralmente, com base na intuio qumica ou na experincia, ou seja, baseado em critrios que so mais subjetivos que objetivos. A reduo de variveis atravs de critrios objetivos, permitindo a construo de grficos bidimensionais contendo maior informao estatstica, pode ser conseguida atravs da anlise de componentes principais. Tambm possvel construir agrupamentos entre as amostras de acordo com suas similaridades, utilizando todas as variveis disponveis, e represent-los de maneira bidimensional atravs de um dendrograma. A anlise de componentes principais e de agrupamento hierrquico so tcnicas de estatstica multivariada complementares que tm grande aceitao na anlise de dados qumicos. Antes de apresentar as duas tcnicas necessrio discutir alguns termos e conceitos bsicos: A MATRIZ DE DADOS Os dados consistem em n medidas de diferentes propriedades (variveis) executadas sobre m amostras (objetos), de modo que a matriz de dados D formada por mxn elementos (m linhas correspondentes as amostras e n colunas correspondentes as variveis).

PADRONIZAO E ESCALONAMENTO A finalidade da padronizao e escalonamento dos dados originais expressar cada observao em termos de variaes inerentes ao sistema (autoescalonamento). Para exemplificar a importncia deste pr-tratamento da matriz de dados, vejamos o comportamento de algumas variveis que podem ser medidas para o leo de soja refinado1: propriedade densidade relativa ndice de refrao ndice de saponificao ndice de iodo intervalo 0,919 1,466 189 120 0,925 1,470 195 143

A amplitude da densidade 0,006 enquanto que a do o ndice de iodo de 23. Uma diferena de densidade 0,003 entre duas amostras de leo de soja corresponde a uma variao de 50% em relao a amplitude. Uma variao do ndice de iodo desta mesma ordem de grandeza desprezvel (~0,01%). Alm disso, o valor numrico entre as variveis diferem acentuadamente de modo que a comparao direta entre variveis levaria a uma ponderao maior das variveis com maior valor numrico (p. ex.: ndices de iodo e saponificao). Uma maneira de resolver estes problemas, mantendo a informao estatstica dos dados, realizar uma transformao sobre o conjunto original dos dados de modo que cada varivel apresente mdia zero e varincia igual a um (autoescalonamento). Esta transformao (z transformation) expressa cada observao como o nmero de desvios padres da mdia:

O exemplo mostrado acima (autoescalonamento) apenas uma das vrias opes de transformaes sobre o conjunto de dados que podem ser feitas. A j-sima varivel representada por um vetor coluna. O i-simo objeto, ou seja, uma amostra qualquer, representado por um vetor linha chamado vetor resposta e pode ser descrito como um ponto no espao n-dimensional. MEDIDAS DE SIMILARIDADE Cada objeto representado por um ponto no espao n-dimensional e, portanto, pode ser agrupado com outros que estejam prximos e mais se assemelham a ele. Dois critrios de melhor
467

QUMICA NOVA, 21(4) (1998)

associao podem ser utilizados2: Covarincia e Correlao

vs de agrupamento hierrquico (Hierarchical Analysis ou Cluster Analysis). ANLISE DE COMPONENTES PRINCIPAIS

Partindo da matriz de dados D (mxn), obtm-se a matriz de covarincia C, onde seus elementos so dados por:

ckl grande e positivo quando, para a maior parte das amostras, os valores das variveis k e l desviam da mdia na mesma direo. Portanto, a covarincia de duas variveis uma medida de sua associao. Para cada elemento da matriz de covarincia pode ser calculado o coeficiente de correlao, consequentemente a matriz de covarincia pode ser transformada numa matriz de correlao R, onde seus elementos so dados por: onde sk e s1 so os desvios padres das variveis K e 1 Os valores de rkl so uma covarincia padronizada entre -1 e +1. Medidas de distncias Na anlise de agrupamentos (cluster analysis) a similaridade entre duas amostras pode ser expressa como uma funo da distncia entre os dois pontos representativos destas amostras no espao n-dimensional. A maneira mais usual de calcular a distncia entre dois pontos a e b no espao n-dimensional conhecida por distncia euclidiana (xab) e dada por:

Existem outras maneiras de calcular distncias, como a distncia de Mahalanobis, que no discutiremos aqui. ANLISE DE AGRUPAMENTO HIERRQUICO A tcnica de agrupamento hierrquico interliga as amostras por suas associaes, produzindo um dendrograma onde as amostras semelhantes, segundo as variveis escolhidas, so agrupadas entre si. A suposio bsica de sua interpretao esta: quanto menor a distncia entre os pontos, maior a semelhana entre as amostras. Os dendrogramas so especialmente teis na visualizao de semelhanas entre amostras ou objetos representados por pontos em espao com dimenso maior do que trs, onde a representao de grficos convencionais no possvel. Existem muitas maneiras de procurar agrupamentos no espao n-dimensional. A maneira matematicamente mais simples consiste em agrupar os pares de pontos que esto mais prximos, usando a distncia euclidiana, e substitu-los por um novo ponto localizado na metade da distncia entre eles. Este procedimento, quando repetido at que todos os pontos sejam agrupado em um s ponto, leva a construo do dendrograma, onde, no eixo horizontal so colocadas as amostras e, no eixo vertical, o ndice de similaridade, sij, entre os pontos i e j, calculado segundo a seguinte expresso:

A anlise de componentes principais consiste essencialmente em reescrever as coordenadas das amostras em outro sistema de eixo mais conveniente para a anlise dos dados. Em outras palavras, as n-variveis originais geram, atravs de suas combinaes lineares, n-componentes principais, cuja principal caracterstica, alm da ortogonalidade, que so obtidos em ordem decrescente de mxima varincia, ou seja, a componente principal 1 detm mais informao estatstica que a componente principal 2, que por sua vez tem mais informao estatstica que a componente principal 3 e assim por diante. Este mtodo permite a reduo da dimensionalidade dos pontos representativos das amostras pois, embora a informao estatstica presente nas n-variveis originais seja a mesma dos ncomponentes principais, comum obter em apenas 2 ou 3 das primeiras componentes principais mais que 90% desta informao. O grfico da componente principal 1 versus a componente principal 2 fornece uma janela privilegiada (estatisticamente) para observao dos pontos no espao n-dimensional. A anlise de componentes principais tambm pode ser usada para julgar a importncia das prprias variveis originais escolhidas, ou seja, as variveis originais com maior peso (loadings) na combinao linear dos primeiros componentes principais so as mais importantes do ponto de vista estatstico. Portanto, a tarefa do qumico que trabalha com estatstica multivariada, consiste em interpretar a distribuio dos pontos no grfico de componentes principais e identificar as variveis originais com maior peso na combinao linear das componentes principais mais importantes. Existem pacotes computacionais de estatstica que fazem todas as operaes necessrias obteno de componentes principais e agrupamento hierrquico, inclusive o tratamento prvio de padronizao e escalonamento dos dados, como o caso do SPSS, SYSTAT, PIROUETTE, etc. No SPSS (Statistical Package for the Social Sciences), a opo de componentes principais aparece no menu atravs de uma de suas finalidades: a reduo de dados. As componentes principais tambm podem ser obtido como um dos mtodos da anlise de fatores (Factor Analysis). O procedimento matemtico para obteno de componentes principais pode ser facilmente seguido por aqueles que tm conhecimento de lgebra matricial e encontrado em diversos textos3,4, inclusive em portugus e dirigido para qumicos5. APLICAO Para ilustrar a aplicao destas tcnicas de estatstica multivariada utilizamos uma tabela de composio de alimentos 6 que traz os teores de calorias, glicdios, protenas, lipdios, clcio, fsforo e ferro para 20 frutas. Neste caso, portanto, a matriz de dados representada por 7 variveis e 20 amostras. O dendrograma e os componentes principais foram obtidas no SPSS. A figura 1 mostra o dendrograma relativo a similaridade das frutas segundo as variveis escolhidas. As maiores similaridades so encontradas entre abacaxi e anans, laranja pra e tangerina e entre laranja Bahia, limo verde e limo doce. A similaridade entre os abacates, entre as mangas, entre as bananas e entre a ata e a condessa tambm era esperada devido a proximidade botnica. A ma vermelha mais prxima de abacaxi e anans do que da ma branca, isto deve ter ocorrido por que a composio das mas diferem acentuadamente em fsforo e ferro. O grupo dos abacates diferem dos demais devido ao alto teor de lipdios e calorias. O grupo das bananas se distingue pelo seu alto teor de glicdios. A figura 2 est mostrando o grfico da componente principal 1 versus a componente principal 2. Neste grfico se distinQUMICA NOVA, 21(4) (1998)

onde dij a distncia entre os pontos i e j e dmx a distncia mxima entre qualquer par de pontos. Os dendrogramas, portanto, consistem em diagramas que representam a similaridade entre pares de amostras (ou grupos de amostras) numa escala que vai de um (identidade) a zero (nenhuma similaridade). Os dendrogramas so construdos diretamente por todos os programas estatsticos que fazem classificao dos dados atra468

ndice de similaridade Objetos


frutas Num 0 0,2 0,4 0,6 0,8 1

abacaxi anans ma vermelha ma branca manga rosa manga espada laranja Bahia limo verde limo doce laranja pera Tangerina Lima Ata condessa banana d'gua banana ma banana da terra abacate comum abacate guatemala abacate roxo

4 5 12 11 9 10 14 17 18 13 15 16 19 20 6 8 7 1 3 2

+
0

+
0,2

+
0,4

+
0,6

+
0,8

+
1

Figura 1. Dendrograma obtido da anlise de agrupamento hierrquico utilizando as sete variveis: calorias, glicdios, protenas, lipdios, clcio, fsforo e ferro.

As facilidades computacionais de obteno de dendrogramas e de grficos de componentes principais possibilitam uma utilizao mais corriqueira destes mtodos no ensino e pesquisa em Qumica, contudo algumas observaes finais so pertinentes: a) a identificao de agrupamento pode ser feita por diversos algoritmos que podem produzir resultados diferentes entre si; b) as variveis escolhidas para a identificao dos grupos tem grande importncia na interpretao do resultado final; c) os grficos da componente principal 1 versus componente principal 2 mostra a melhor janela para a observao dos dados, porm a componente principal 3 pode trazer informaes estatstica relevantes para entendimento do sistema em estudo; O conhecimento do sistema importante na anlise estatstica multivariada, portanto a interpretao destes resultados uma tarefa dos qumicos. AGRADECIMENTOS Agradecemos ao professor Bencio de Barros Neto da Universidade Federal de Pernambuco e a professora Ieda S. Scarminio da Universidade Estadual de Londrina pelas sugestes apresentadas ao texto de divulgao sobre anlise multivariada para os alunos do curso de estatstica aplicada qumica da UFPI, que posteriormente originou este artigo de divulgao. REFERNCIAS 1. Codex Alimentarius Commision. Codex Standards for Edible Soya Bean Oil. Roma, FAO/WHO 1992. V. 8, p 912 (Codex Stan 20-1981). 2. Auf der Heyder, T. P. E.; J. Chem. Educ. 1990, 67, 461. 3. Kowalski, B. R.; (Ed.) Chemometrics: Mathematical and Statistics in Chemistry. NATO ASI series. Srie C; vol. 138. D. Riedel Publishing Company, Dordrecht, 1984. 4. Malinowski, E. R.; e Howery, D. G.; Factor Analysis in Chemistry. John Wiley & Sons, Inc. New York, 1980. 5. Bruns, R. E. e Faigle, J. F. G.; Qum. Nova 1985, 8, 84. 6. Franco, G.; Tabela de Composio Qumica de Alimentos. 9 a edio. Livraria Atheneu Editora, Rio de Janeiro 1992.

gue facilmente o grupo das bananas e dos abacates. A razo disso pode ser observada nos pesos das componentes principais: na primeira componente os maiores pesos esto em calorias (0,94) e lipdios (0,85), na segunda componente os maiores pesos esto nos glicdios (0,93) e nos lipdios (-0,48). CONCLUSO
3
BT

Bananas
BM BA

Componente principal 2

1
AT

ME

MR MR

CD

AXLB AN LM MV LD LM LG LP AR

abacates AG AC

-1

-1

Componente principal 1

Figura 2. Grfico da componente principal 1 versus componente principal 2. Abacate comum (AC), abacate roxo (AR), abacate guatemala (AG), abacaxi (AX), anans (AN), banana dgua (BA), banana da terra (BT), banana ma (BM), manga rosa (MR), manga espada (ME), maa branca (MB), ma vermelha (MV), laranja pra (LP), laranja Bahia (LB), Tangerina (TG), Lima (LM), limo verde (LV), limo doce (LD), Ata (AT), condessa (CD),

QUMICA NOVA, 21(4) (1998)

469

Вам также может понравиться