Вы находитесь на странице: 1из 9

1.2.

ANALIZA N COMPONENTE PRINCIPALE (ACP)

53

natural
a a variabilelor suplimentare. Alte criterii de aproximare
pot , totusi,
P 2
utile. n locul metodei celor mai mici p
atrate min
ei (norma "L
2 ") se
P
poate utiliza, de exemplu, metoda celor mai mici valori absolute min f jei jg
(norma "L1 ") care induce distanta city-block (pentru contributii la acest
punct de vedere se recomand
a, printre altele, [18] ).
ntr-un spirit putin diferit, [45] enunta un algoritm pentru a aproxima
(n sensul celor mai mici p
atrate, adic
a n L2 ) o matrice de distante de tip Lp
cu o matrice de disimilaritate dat
a.
Pentru a studia anumite tabele de contingenta, n speta tabele
P p de schimb,
p 2
[19] propun utilizarea distantei lui Hellinger : d2 (x; y) =
xi
yi
(analiza vectoriala sferica ).
n ne, f
ar
a a schimba nici metrica nici criteriul de aproximare, se pot
aproxima alte suprafete dect hiperplanele. Astfel, n cazul analizei n componente principale normate care este, n spatiul Rn ; analiza punctelor situate
pe o sfer
a, [25] propune aproximarea unei hipersfere.

1.2.7

Exemplu

Descrierea datelor
n scopul studiului relatiilor dintre 10 tipuri de activit
ati umane si al
clasic
arii acestora, s-au cules date privind obiceiurile zilnice a 28 de grupuri de
indivizi de ambele sexe. Valorile din tabelul A.1. (Anex
a) reprezint
a num
arul
de ore din 100 de zile alocat pentru un anume tip de activitate. Datele vor
analizate utiliznd tehnica analizei n componente principale.
Pentru acest set de date se identic
a:
variabilele active:
WRK = carier
a
TRSP = transport
HH = activit
ati casnice
CHD = copii
SHP = cump
ar
aturi
CARE = ngrijire personal
a
MEAL = hran
a
variabilele suplimentare:
SLP = odihn
a
TV = televizor
LSR = distractie

54 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE


variabilele pentru desemnarea indivizilor activi:

GEN

indivizii: sunt reprezentati prin liniile tabelului si se grupeaz


a, n functie
de sex, n indivizi activi si indivizi suplimentari. Vom alege de aceast
a
dat
a indivizii de gen feminin ca ind activi. Denumirile indivizilor au
urm
atoarea semnicatie:

prima liter
a

a doua liter
a

a treia liter
a

E=angajat
U=neangajat
M=c
as
atorit
S=nec
as
atorit

M=b
arbat
W=femeie

U=USA
W=Vest
E=Est
Y=Iugoslavia

Dintre elemente prezentate mai sus doar variabilele si indivizii activi


particip
a efectiv la determinarea axelor principale, n timp ce variabilele si indivizii suplimentari intervin doar n momentul interpret
arii (vezi subcapitolul
1.2.3).

Efectuarea analizei
si interpretarea rezultatelor
Aplicarea metodei de analiz
a n componente principale n cadrul programului STATISTICA presupune parcurgerea mai multor pasi.
Pentru nceput se selecteaz
a din bara de meniu tipul de analiz
a utilizat
- Statistics, Multivariate Exporatory Techniques, Principal Components and
Classication Analysis.
n fereastra de dialog ap
arut
a (g. 1.2.8.) butonul Variables permite
selectarea variabilelor active, suplimentare, de identicare a indivizilor activi
si de etichetare, conform specicatiilor de mai sus. Se opteaz
a pentru analiza
bazat
a pe corelatii (analiza pe tabelul centrat redus) si pentru lucrul cu estimatorul nedeplasat al dispersiei, SS=(N 1). Valorile lips
a din tabelul de date se
trateaz
a prin metoda Mean Substitution (nlocuirea cu media corespunz
atoare
variabilei respective).

1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP)

55

fig. 1.2.8. Fereastra de pornire


Dup
a ap
asarea butonului OK este activat
a o nou
a fereastr
a de dialog
(g. 1.2.9) care ofer
a informatii cu privire la contextul de lucru (elemente
active si suplimentare, valori proprii) si permite nceperea efectiv
a a analizei.

fig. 1.2.9. Fereastra de rezultate


Patru submeniuri sunt disponibile:
Submeniul Quick - nglobeaz
a cele mai importante optiuni din submeniurile Variables si Cases.
Submeniul Variables - ofer
a informatii, sub form
a grac
a sau tabelar
a,
despre variabile, vectori proprii si valori proprii.

56 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE


Submeniul Cases - ofer
a informatii, sub form
a grac
a sau tabelar
a, despre indivizi.

Submeniul Descriptives - permite calculul unor indicatori statistici de


baz
a, a matricilor de corelatie si covarianta, precum si realizarea unor
grace simple.

Calculul parametrilor descriptivi elementari (Descriptives, Summary descriptives) ofer


a o imagine de ansamblu (tabelul 1.2.6). Valorile medii (Mean)
si abaterile standard (Std. Dev.) vor servi la centrarea si reducerea datelor
si nu vor mai interveni direct n cele ce urmeaz
a. Este important
a observarea
mediilor si dispersiilor att n cazul variabilelor active ct si n cazul celor
suplimentare, aceast
a etap
a ind util
a n depistarea de eventuale modele si
determinarea unor tehnici suplimentare de analiz
a.

tabelul 1.2.6. Medii Si dispersii

Matricea de corelatie (tabelul 1.2.7.) furnizeaz


a coecientii ce descriu
asocierea liniar
a ntre variabile. De exemplu, cariera (WRK) pare a n
strns
a relatie direct
a cu transportul (TRSP), avnd un coecient de corelatie
de 0,77, dar puternic negativ corelat
a (-0,82) cu activit
atile casnice (HH).
Lectura acestei matrici ofer
a o prim
a idee asupra leg
aturilor dintre variabile
iar analiza n componente principale va permite obtinerea unei sinteze a acestor
relatii.

1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP)

57

tabelul 1.2.7. CorelaT ii

Urm
atorul pas n cadrul ACP este determinarea dimensiunii spatiului de
proiectie, unde relatiile dintre variabile vor mai usor de observat. Pentru
aceasta examin
am valorile proprii rezultate n urma diagonaliz
arii matricei
corelatiilor dintre variabilele active. Tabelul 1.2.8., obtinut din submeniul
Variables, Eigenvalues, contine valorile proprii ordonate descresc
ator, indic
a
procentul de inertie explicat
a de factorul asociat ec
arei valori proprii precum
si procentul cumulat de inertie explicat
a.
tabelul 1.2.8. Valori proprii

Regula cotului, ilustrat


a grac prin diagrama Screeplot (g 1.2.10.) din
submeniul Variables, indic
a drept ecient
a folosirea n interpretare a maxim
cinci dimensiuni (vezi subcapitolul 1.2.3), iar criteriul lui Kaiser consider
a suciente doar dou
a: n cazul ACP normate se retin componentele principale
corespunz
atoare valorilor proprii superioare lui unu. Examinnd tabelul valorilor proprii se observ
a c
a primele 2 dimensiuni ofer
a o calitate a reprezent
arii
n noul spatiu de 80.95%, valoare considerat
a sucient
a. Prin urmare, planul
de proiectie va planul factorial principal. Valoarea 2 se completeaz
a n caseta
Number of factors din fereastra de rezultate.

58 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

fig. 1.2.10. Screeplot


Conform descrierii din introducerea capitolului, rolul analizei n componente principale este de a ilustra relatiile dintre variabile si de a evidentia
grup
ari de indivizi n functie de aceste relatii. n cazul de fata se pune ntrebarea dac
a exist
a vreo leg
atur
a ntre cele zece tipuri de activit
ati si, n
acest caz, ce structur
a ntre indivizi induce aceast
a leg
atur
a. Pentru aceasta
s
a examin
am tabelul 1.2.9. ce contine:

coordonatele proiectiilor variabilelor pe cei doi factori principali (Variables, Factor coordinates of variables).
contributiile variabilelor la inertia factorilor (Variables, Contributions).
Cu ct un punct este mai dep
artat de origine cu att are o contributie
mai ridicat
a. Evident, nu se pot calcula contributii n cazul elementelor
suplimentare deoarece acestea nu particip
a efectiv la analiz
a.
cosinusurile p
atrate, ce dau calitatea reprezent
arii variabilelor pe ecare
factor (Variables, Communalities). Cu ct cosinusurile p
atrate sunt mai
apropiate de 1 cu att proiectiile punctelor sunt mai aproape de pozitiile
acestora n spatiul initial, deci informatia este mai bine conservat
a n
noul spatiu.

1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP)

59

tabelul 1.2.9. Coordonate, contribuT ii, cosinusuri pA trate

fig. 1.2.11. Cercul de corelaT ie


Pentru c
a analiza a fost realizat
a plecnd de la matricea de corelatii,
deci de la datele centrat reduse, coordonatele din tabelul 1.2.9 reprezint
a coecientii de corelatie dintre variabile si cei doi factori principali. Asadar, primul
factor, corespunz
ator valorii proprii 3:97, este puternic corelat pe de o parte
cu variabilele WRK si TRSP - corelatii negative, si pe de alt
a parte cu HH
si CHD - corelatii pozitive. n plus, valorile coordonatelor pentru aceste variabile sunt foarte apropiate de -1 (-0.94, -0.85), respectiv +1 (0.91, 0.77) si
cosinusurile p
atrate au valori ridicate (0.88, 0.72, 0.83, 0.60). Putem spune
asadar c
a primul factor principal opune activit
atile specice lucrului n afara
casei (munc
a si transport) celor casnice (cresterea copiilor si ngrijirea casei).
n mod similar, al doilea factor este evident legat de activit
ati specice stilului de viata al omului modern si organizat: cump
ar
aturile (SHP) si ngrijirea

60 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE


personal
a (CARE). Reprezentarea grac
a a coordonatelor n cadrul cercului
de corelatie (g. 1.2.11.) este disponibil
a n submeniul Variables, Plot var.
factor coordinates, 2D, si ofer
a o mai bun
a imagine asupra relatiilor din planul
variabilelor.
Variable contributions ilustreaz
a contributia ec
arei variabile initiale la
dispersia factoruilui respectiv. Valorile din tabelul 1.2.9 conrm
a faptul c
a
timpul petrecut la servici (WRK) si timpul petrecut acas
a (HH) explic
a mpreun
a 43% din dispersia factorului 1 iar timpul petrecut la cump
araturi (SHP)
si timpul petrecut pentru ngrijirea personal
a (CARE) explic
a mpreun
a 77%
din dispersia factorului 2.
Variabilele suplimentare ilustrnd timpul liber (SLP, TV, LSR) sunt
legate de activit
atile casnice (g. 1.2.11.).
n ceea ce priveste indivizii, sugestiv
a este imaginea proiectiei n planul
factorial (g. 1.2.12.). Pentru a obtine acest grac, din submeniul Cases
se alege optiunea No names/numbers si se apas
a butonul Plot cases factor
coordinates, 2D.

fig. 1.2.12. Planul indivizilor


Gracul obtinut a fost construit plecnd de la indivizii activi (de gen
feminin), cei suplimentari (de gen masculin) ind proiectati ulterior. Este
interesant
a gruparea celor dou
a tipuri de indivizi, conform c
areia b
arbatii sunt
situati la jum
atatea stng
a a primei axe (au deci coordonate negative pe primul
factor). Avnd n vedere interpretarea primului factor, pentru care munca si
transportul aveau coordonate negative semnicative si contributii ridicate, se
poate spune c
a b
arbatii care au participat la acest studiu acord
a cea mai mare
parte a timpului carierei. Tot n gura 1.2.12. se evidentiaz
a dou
a grup
ari
n cadrul indivizilor de sex feminin, situate la dreapta si la stnga primei

1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP)

61

axe principale: (A) femeile care isi petrec majoritatea timpului n cas
a si (B)
femeile care si petrec majoritatea timpului n exterior. Pentru o interpretare
mai detaliat
a se opteaz
a pentru reprezentarea punctelor nsotite de etichete
(optiunea Case Names din submeniul Cases).

fig. 1.2.13. Plotarea indivizilor etichetaT i


Avem acum mai multe informatii despre compozitia grupurilor (A) si (B):
conform gurii 1.2.13. rezult
a c
a femeile care si petrec majoritatea timpului
n cas
a sunt e c
as
atorite (prima liter
a din codicare este M), e neangajate
(prima liter
a din codicare este U), iar femeile c
as
atorite (S) sau/si angajate
(E) si petrec majoritatea timpului n exterior.
Se remarc
a n mod deosebit patru tipologii:
(1) femeia "medie" - a c
arei reprezentare n gura 1.2.13. este situat
a la
cea mai mic
a distanta fata de centrul de greutate al norului de puncteindivid. Aceasta este c
as
atorit
a iar apropierea de grupul (B) indic
a
faptul c
a este mai degrab
a o femeie activ
a dect casnic
a.
(2) femeia "casnica" - provenind din grupul (A) este neangajat
a, preocupat
a
ndeosebi de menaj si de cresterea copiilor.
(3) femeia "cumparatoare" - n bugetul de timp al acestei categorii, cump
ar
aturile (SHP) ocup
a un loc important. Grupul ese ilustrat exclusiv de
femei din USA.
(4) femeia "narcisista" - provenind din grupul (B), acord
a majoritatea timpului ngrijirii personale. Acest grup este ilustrat exclusiv de femei din
USA si este alc
atuit din femei care lucreaz
a si femei singure.

Вам также может понравиться

  • L04 Acs
    L04 Acs
    Документ16 страниц
    L04 Acs
    serban6gabi
    Оценок пока нет
  • L08 Clas Ierarh
    L08 Clas Ierarh
    Документ13 страниц
    L08 Clas Ierarh
    serban6gabi
    Оценок пока нет
  • L07 K-Means
    L07 K-Means
    Документ9 страниц
    L07 K-Means
    serban6gabi
    Оценок пока нет
  • L03 Acp
    L03 Acp
    Документ10 страниц
    L03 Acp
    serban6gabi
    Оценок пока нет
  • L01 Acp
    L01 Acp
    Документ15 страниц
    L01 Acp
    Vlad Radu
    Оценок пока нет
  • L02 Acp
    L02 Acp
    Документ13 страниц
    L02 Acp
    serban6gabi
    Оценок пока нет
  • Exemplu ACS
    Exemplu ACS
    Документ8 страниц
    Exemplu ACS
    serban6gabi
    Оценок пока нет
  • Exemplu Clas Ierarh
    Exemplu Clas Ierarh
    Документ5 страниц
    Exemplu Clas Ierarh
    serban6gabi
    Оценок пока нет
  • Exemplu K Means
    Exemplu K Means
    Документ6 страниц
    Exemplu K Means
    serban6gabi
    Оценок пока нет
  • Temperaturi Pe Glob
    Temperaturi Pe Glob
    Документ1 страница
    Temperaturi Pe Glob
    sorin61
    Оценок пока нет
  • Exemplu ACM
    Exemplu ACM
    Документ7 страниц
    Exemplu ACM
    serban6gabi
    Оценок пока нет
  • 7 - Sistemul de Management Al Firmei
    7 - Sistemul de Management Al Firmei
    Документ16 страниц
    7 - Sistemul de Management Al Firmei
    wwbzacoxx5833
    Оценок пока нет
  • Sociologie - Romaneasca - Moderna - Constantin Schifirnet
    Sociologie - Romaneasca - Moderna - Constantin Schifirnet
    Документ260 страниц
    Sociologie - Romaneasca - Moderna - Constantin Schifirnet
    Valentina Lica
    Оценок пока нет