Вы находитесь на странице: 1из 19

Metode cantitative avansate de cercetare sociala

Analiza factoriala
Bibliografie: Culic 2004, Capitolul 4
George H. Dunteman. 1989. Principal Components Analysis. Newbury Park, Ca.: Sage Publications. Jae-On Kim, Charles W. Mueller. 1978a. Introduction to Factor Analysis. What It Is and How to Do It. Newbury Park, Ca.: Sage Publications. Jae-On Kim, Charles W. Mueller. 1978b. Factor Analysis. Statistical Methods and Practical Issues. Newbury Park, Ca.: Sage Publications. J. Scott Long. 1983. Confirmatory Factor Analysis. Newbury Park, Ca.: Sage Publications.

Exemple de probleme si intrebari la care putem raspunde aplicind asupra datelor o analiza factoriala Conform Transparency International (2010), Romania se claseaza pe ultimul loc in Uniunea Europeana (la egalitate cu Bulgaria si Grecia) in privinta perceptiei coruptiei, cu un scor de 3.8, pe o scala de la 0 la 10, unde 10 inseamna foarte curat, iar 0 foarte corupt. Cum este perceputa coruptia in Rominia de catre populatie? Cum se structureaza aceasta? Care sunt dimensiunile latente care o organizeaza? [E.g. coruptie la nivel inalt, coruptie la nivelul micilor functionari, coruptie la nivel societal]

Cum putem analiza urmatorul set de date despre increderea oamenilor in institutii si organizatii care le ordoneaza viata? Ce ne spun datele despre conceptul de incredere? Cum se structureaza increderea populatiei in institutii?
Ct ncredere avei n PG1 Biseric PG2 Preedinie PG3 Guvern PG4 Parlament PG5 Justiie PG6 Armat PG7 Poliie PG8 Primria localitii * PG9 Partide politice PG10 Sindicate PG11 Bnci PG12 SRI PG13 Mass media PG14 nvmnt Foarte mult 4 4 4 4 4 4 4 4 4 4 4 4 4 4 Mult 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Puin Foarte Deloc puin 2 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 2 2 2 2 2 1 1 1 1 1 1 0 0 0 0 0 0 N 8 8 8 8 8 8 8 8 8 8 8 8 8 8 NR 9 9 9 9 9 9 9 9 9 9 9 9 9 9

(cont.) Bateriile de itemi prin care se masoara diferite abilitati mentale reflecta, in realitate, un singur factor, ce este desemnat a fi inteligenta generala? Respectiv: Este, inteligenta, un concept unidimensional? Sau, mai degraba, inteligenta are mai multe dimensiuni latente? Partidele contemporane pot fi reprezentate pe o singura axa a liberalismului? Sau aceasta notiune are mai multe dimensiuni latente, cum ar fi liberalismul economic si liberalismul social?

O definitie a analizei factoriale Analiza factoriala se refera la un set de tehnici statistice, prin care un set substantial de date, ce descriu un concept, fenomen sau fapt social, (valorile indivizilor pentru variabile observate, manifeste) sunt reduse la un numar de dimensiuni latente, neobservabile in mod direct, care il structureaza.
Sumarizare si reducere a datelor; reducere a dimensionalitatii datelor; identificarea structurii latente a datelor (a conceptului sau fenomenului investigat); --modele de intercorelatii intre variabile; grupuri de variabile puternic corelate intre ele; reducerea setului de variabile la citiva factori latenti. Acesti factori latenti nu sunt observabili, sunt dedusi; este un efort de creativitate, posibila insa datorita cunoasterii, sa ii identificam si intelegem.

Logica analizei factoriale Puncte critice la care trebuie sa raspundem intr-o analiza factoriala: - care dintre variabilele observate (itemi) indica aceeasi dimensiune latenta (acelasi factor)? > variabilele care compun aceeasi dimensiune latenta trebuie sa fie puternic corelate intre ele; - care este intensitatea asocierii dintre factorul latent i fiecare variabil observat care ii corespunde? -> identificarea si denumirea factorilor; - care este relatia dintre factorii lateni? Sunt acestia independenti, sau sunt corelati?

Figura 1: Modelul general al analizei factoriale, cu m variabile observate, n factori comuni ortogonali.

X1 F1 X2 F2 ... Fn Xm X3 ...

U1 U2 U3 ...

Um
F1 b11 b21 bm1 F2 b12 b22 bm2 ... ... ... ... Fn b1n b2n bmn

X1 = b11 F1 + b12 F2 + ... + b1n Fn + d1 U1 X2 = b21 F1 + b22 F2 + ... + b2n Fn + d2 U2 ... Xm = bm1 F1 + bm2 F2 + ... + bmn Fn + dm Um

X1 X2 ... Xm

Putem observa o corelaie puternic ntre ncrederea n guvern (X1) i ncrederea n parlament (X2), coeficientul de corelaie al lui Pearson r(X1, X2)=0.846. Presupoziia noastr: b11 F1 X2 b21 d2 U2 X1 d1 U1

Analiza factorial poate fi asimilata cu realizarea unei regresii a variabilei observate (variabila dependent) asupra unui factor latent =variabila independent, explicativ, pe care nu o putem ns msura direct i astfel trebuie s o construim, s o extragem din datele pe care le avem. X1= b11 * F1 + d1 * U1 X2= b21 * F1 + d2 * U2 Prima cifr indic variabila A doua cifr indic factorul n afar de factorul comun (F1), fiecare variabila prezinta o parte de unicitate, data de un determinant unic (U1 respectiv U2). Acestia sunt independeni i necorelai cu factorii. Adica: r(U1, U2)=0 r(U1, F1)=0, r(U2, F1)=0

1.

Cum poate fi exprimat variana lui X1 (ncrederea n guvern)?

X1= b11 * F1 + d1 * U1

b11 se numete saturaia lui F1 pentru X1 (factor loading sau pattern loading) i este interpretat ca un coeficient de regresie standardizat BETA

Var(X1) = b112 * Var(F1) + d12 * Var(U1) + 2 b11 *d1 * Cov(F1,U1) Var (X1) = b211 * Var(F1) + d21* Var(U1) iar daca standardizam variabilele (le transformam liniar astfel incit media lor sa fie 0 si varianta lor sa fie 1) Var (X1) = b211 + d21 Partea de varian a lui X1 explicat de F1, numit comunalitate Partea de varian care se datoreaz determinantului unic

2. Care este corelaia dintre variabil msurat i factorul latent? Cov(F1,X1) = [ (F1i media(F1))*(X1i media (X1)) ] / N Cov(F1,X1) = b11 Var(F1) + d1 Cov(F1,U1) Cov(F1,X1) = b11 Var(F1) adica, pentru variabile standardizate: Cov(F1,X1) = r(F1,X1) = b11

3. Cum poate fi exprimat corelaia observat dintre X1 i X2 pe baza corelaiilor lor cu factorul F1?

X1= b11 * F1 + d1 * U1 X2= b21 * F1 + d2 * U2


Cov(X1,X2) = [ (X1i media(X1))*(X2i media(X2) ) ] / N Cov(X1,X2) = b11 b21*Var(F1) +b11 d1*Cov(F1,U2) + b21 d1*Cov(F1,U1) + d1 d2*Cov(U1,U2) Cov(X1,X2) = b11 b21*Var(F1) adica, pt. variabile standardizate: r(X1, X2) = b11*b21

! n analiza factorial, factorii sunt extrai astfel nct corelaiile re-construite dintre variabile pe baza corelaiilor lor cu factorii lateni s se apropie ct mai mult de corelaiile observate. Corelaiile observate sunt prezentate n matricea corelaiilor bivariate (corelaiile dintre variabile luate dou cte dou).
SPSS calculeaz suma diferenelor ptratice dintre corelaiile observate i cele obinute (construite) pe baza modelului factorial i se obine astfel o msur similar cu HI-ptrat. Aceasta testeaz adecvarea modelului factorial (the goodness of fit of the model). n practic este de preferat un model factorial mai simplu, chiar dac acesta este mai puin adecvat (exist diferene semnificative ntre matricea corelaiilor reconstruite i matricea corelaiilor observate).

Ce presupoziii putem face despre factorii lateni?


Corelaia dintre X1 i X2 se datoreaz n ntregime factorilor lateni:

r(X1,X2) =

Cov (X1,X2)

X X
1

I. Doi factori independeni F1 X1 X2 X3 F2 X4 X5 U1 U2 U3 U4 U5

X1 i X2 sunt standardizate, deci:

media (X1) = media (X2)=0, iar X1 =X2=1. (Pentru demonstraii, vezi manualul: pp. 86-94)

X1=b11*F1 + b12*F2+ d1U1 X2=b21*F1 + b22*F2+ d1U1

n general: r(X1,X2) = b11* b21 + b12* b22 + b11* b22 * r(F1,F2) + b21* b12 * r(F1,F2)
Dac factorii sunt independeni r(F1,F2) =0, atunci r(X1,X2) =b11*b21+b12*b22 iar r(X1,F1)

= b11

respectiv r(X1,F2) =b12

Var (X1) = b211+b212 + d21

II. Doi factori corelai (modele factoriale oblice): X1 F1 X2 U2 U1 r (X1, F1) = b11 + b12 * r(F1,F2) r (X1, F2) = b12 + b21 * r(F1,F2)
Efect direct al lui F2 Efect indirect, mediat de F1

F2

X3

U3

Corelaiile dintre factori i variabile sunt prezentate n matricea structur (Structure Matrix) din SPSS output.

Var (X1) = b112 + b122 + b11 * b12 * 2 r(F1, F2) + d12 Comunalitatea lui X1 (partea din varian explicat de factori) Ceea ce rmne ne-explicat de factori din variana lui x1 (contributia determinantului unic)

b11 este saturaia lui F1 (factor loading F1) iar b12 este saturaia lui F2 (factor loading F2). Aceste saturaii sunt prezentate n matricea saturaiilor factoriale (Factor Matrix sau Factor Loadings Matrix) din SPSS output. Dac noi alegem un model n care factorii sunt independeni, atunci corelaiile dintre factori i variabile se reduc la efectele directe, deci sunt identice cu saturaiile (factor loadings).

Urmnd acelai procedeu de descompunere a varianelor i covarianelor, se arat c, n modelul factorial general cu m variabile observate i n factori, saturatiile sunt echivalente corelaiilor dintre factori i variabile, dac factorii sunt ortogonali doi cte doi (sunt independeni doi cte doi). bij = r(Xi,Fj) pentru i = 1, ..., m, j = 1, ..., n

Comunalitatea unei variabile observate, adic acea parte din variana sa pe care o mparte cu factorii comuni, notat cu h2, este egal cu suma ptratelor saturaiilor factorilor, iar unicitatea sa este egal cu 1 - h2. Avem deci comunalitatea variabilei Xi, hi2 = bi12 + bi22 + ... + bin2 pentru i = 1, ..., m

Corelaia rezultat ntre oricare dou variabile observate, r(Xi,Xj), atunci cnd factorii sunt ortogonali, va fi egal cu suma produselor dintre saturaiile corespunztoare factorilor comuni: r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn pentru i, k = 1, ..., m

Ajuni aici putem spune ceea ce deja am sugerat n aceast seciune prin modelele i conceptele introduse. Prin analiza factorial dorim s descoperim structura latent a unui un set de date, alctuit din m variabile observate X1, X2, ..., Xm, folosind matricea de corelaii dintre ele. Pn acum ne-am folosit de cteva exemple care presupuneau c modelul factorial este cunoscut (era specificat numrul de factori comuni, complexitatea factorial a fiecrei variabile observate, ortogonalitatea sau oblicitatea factorilor), i c este o coresponden perfect ntre matricea de saturaii factoriale i matricea de covariane (corelaii) dintre variabile. Dac saturaiile factoriale sunt cunoscute, atunci putem deriva n mod univoc corelaiile dintre variabile.
n realitate ns, situaia practic n care suntem este una pe dos: dorim s obinem structura factorial (matricea saturaiilor, complexitatea factorial a variabilelor, gradul de determinare factorial a fiecrei variabile, relaia dintre factori n termeni de ortogonalitate sau oblicitate) pornind de la corelaiile (covarianele) cunoscute dintre variabilele observate.

Modele factoriale i structuri de covarian


Modelul general despre care am vorbit pn acum, n care m variabile observate sunt determinate de n factori, este unul particular, n sensul condiiilor impuse asupra lui: factorii sunt ortogonali, variabilele de unicitate U1, U2, ..., Um sunt independente dou cte dou i fiecare dintre ele este independent de oricare dintre factorii F1, F2, ..., Fn. Dar forma lui ne indic nc cteva concepte necesare pentru nelegerea logicii acestei tehnici. Primul dintre acestea este cel de complexitate factorial a unei variabile, i se refer la numrul de factori care au saturaii nenule pentru variabila respectiv. Pentru modelul general, complexitatea factorial a unei variabile Xi este dat de numrul de saturaii factoriale bi1, bi2, ..., bin semnificativ diferite de zero, adic de numrul de factori care determin variabila respectiv.

Figura 4: Model factorial cu 5 variabile observate, 2 factori comuni ortogonali, i matricea factorial asociat. X1 F1 X2 F2 X3 X4 X5 U3 U4 U5 U2 U1

X1 X2 X3 X4 X5

F1 b11 b21 b31 b41 b51

F2 b12 b22 b32 b42 b52

Figura 5: Model factorial cu 5 variabile observate, 2 factori comuni ortogonali, i matricea factorial asociat. X1 F1 X2 F2 X3 X4 X5 F1 b11 b21 b31 0 0 F2 0 0 b32 b42 b52 U3 U4 U5 U2 U1

X1 X2 X3 X4 X5

Al doilea concept ce trebuie neles este cel de grad de determinare factorial a variabilelor. Acesta ne va spune n ce msur variabilele observate sunt determinate de factorul comun. Una din msurile gradului de determinare factorial este proporia de varian explicat de factorii comuni. Indexul de mai jos msoar media proporiei varianei variabilelor observate explicat de factorii comuni (suma varianei comune a fiecrei variabile explicat de factorii comuni, mprit la numrul de variabile).

( hi2) / m

3. Gradul de determinare a modelului: Principalele tipuri de nedeterminare

1. Aceeai structur de covarian, saturaii diferite. 2. Aceeai structur de covarian, numr variabil de factori. 3. Aceeai structur de covarian, mai multe tipuri de structuri cauzale.

- Nedeterminrile de tipul al treilea sunt rezolvate practic prin apelul la principiul adecvrii modelului empiric la modelul teoretic. Principiul simplitii poate ajuta la rezolvarea celorlalte dou tipuri de nedeterminare. Criteriul recomandat prin acest principiu este cel al simplitii reprezentrii. Principiul afirm c este preferabil s avem un model ct mai simplu pentru descrierea realitii, c o structur mai simpl este mai profitabil dect una mai complex.

Вам также может понравиться