Вы находитесь на странице: 1из 21

Examen la disciplina Statistic social i analiza datelor a as

Problema 1. Distributia punctajelor (variabila X) obtinute la un test de vericare a cunostintelor pe un eantion simplu aleator este urmtoarea: s a Punctaje Numr de a persoane [30, 40) [40, 50) [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) 3 3 12 21 42 30 9

a) Precizati tipul variabilei i scala ei de msur. s a a b) Determinati i interpretati indicatorii tendintei centrale (media, mediana, modu s lul). c) Determinati i interpretati indicatorii de dispersie (amplitudinea, abaterea medie s de la medie, varianta i abaterea standard) s d) Intocmiti gracul distributiei de frecvente. e) Precizati forma distributiei, calculnd i un indicator de oblicitate. a s f) Apreciati la nivelul de semnicatie de 5% dac eantionul provine dintr-o populatie a s cu o medie de 76.00 puncte. Solutii a) Tipul variabilei este cantitativ, i scala ei de msur este cea de interval. a s a a b) Indicatorii tendintei centrale (media, mediana, modulul). Mai ai, alegem vari nt abila X s e mijlocul ecrui interval (vezi tabelul 1). a a Media. Media se calculeaza ponderat, folosind variabila X (vezi Tabelul 1):
7

Xi ni x=
i=1 7

= ni

8820 = 73, 5 . 120

i=1

Tabelul 1: Caracteristica X Nr. Punctaje Numr de a Crt. [ai , bi ) persoane (ni ) 1. [30, 40) 3 2. [40, 50) 3 3. [50, 60) 12 4. [60, 70) 21 5. [70, 80) 42 6. [80, 90) 30 7. [90, 100) 9 Total 120

i media. s Xi Xi ni 35 45 55 65 75 85 95 105 135 660 1365 3150 2550 855 8820

Modul. anume acceptii, modul este valoarea din mijlocul intervalului modal. InIn tervalul modal este [70, 80), pentru c are cea mai mare frecvent, 42. Atunci a a valoarea modal este punctajul 75. a Pentru a mai precii, valoarea modal se calculeaz cu formula: s a a M0 = ai + l ni ni1 , unde (ni ni1 ) + (ni ni+1 ) (1)

ai l ni ni1 ni+1

= = = = =

limita inferioar a intervalului modal [ai , bi ) a lungimea intervalelor (egal) a frecventa corespunztoare intervalului modal a frecventa corespunztoare intervalului anterior celui modal a frecventa corespunztoare intervalului posterior celui modal a

Intervalul modal este [70, 80), limita lui inferioar ai = 70, iar valorile celelalte a sunt: d = 10, ni = 42, ni1 = 21 i ni+1 = 30. Atunci s M0 = 70 + 10 21 42 21 = 70 + 10 = 76.3636 . (42 21) + (42 30) 33

Valoarea modal e mai degrab punctajul 76, dect punctajul 75. a a a Mediana. Pentru a determina mediana, folosim formula Me = aj + d LocMe F cMe 1 , unde nj (2)

aj l LocMe F ci1 ni

= = = = =

limita inferioar a intervalului median [aj , bj ) a lungimea intervalelor (egal) a pozitia medianei frecventa cumulat a intervalului anterior celui median a frecventa normal corespunztoare intervalului median a a 2

Tabelul 2: Frecventele normale i relative. s Nr. Punctaje Numr de a Xi Xi ni F ci Crt. [ai , bi ) persoane (ni ) 1. [30, 40) 3 35 105 3 2. [40, 50) 3 45 135 6 3. [50, 60) 12 55 660 18 4. [60, 70) 21 65 1365 39 5. [70, 80) 42 75 3150 81 6. [80, 90) 30 85 2550 111 7. [90, 100) 9 95 855 120 Total 120 8820 Mai adugm o coloan cu frecventele cumulate la Tabelul 1: a a a Pozitia medianei este data de 120 + 1 N +1 = = 60.5 . 2 2 Intervalul median este [70, 80), pentru c 60.5 se a a a ntre 39 (frecventa cumu lat pn la intervalul [60, 70)), inclusiv, i 81 (frecventa intervalului [70, 80)). a a a s Prin urmare, LocMe = 60.5, ni = 42, F cMe 1 = 39, aj = 70 i l = 10. Atunci s Me = 70 + 10 21.5 60.5 39 = 70 + 10 = 75.119 . 42 42

Observm c relatia a a ntre ele este respectat cu valoarea modal de 76: a a x = 73.5 < Me = 75.119 < M0 = 76.3636 , ce ar indica c vrful curbei este a a ndreptat spre dreapta. c) Indicatorii de dispersie (amplitudinea, abaterea medie de la medie, varianta i s abaterea standard). Amplitudinea. Plaja de valori se intinde intre punctajele 30 si 100, prin urmare: A = 100 30 = 70 . Abaterea medie. Adugm la Tabelul 1 trei coloane cu abaterile individuale, valoarea lor aba a solut i ponderile: as

Nr. Crt. 1. 2. 3. 4. 5. 6. 7.

Punctaje [ai , bi ) [30, 40) [40, 50) [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) Total

Tabelul 3: Calculul abaterii medii. Numr de a Xi Xi ni Xi x |Xi x| |Xi x| ni persoane (ni ) 3 35 105 38.5 38.5 115.5 3 45 135 28.5 28.5 85.5 12 55 660 18.5 18.5 222 21 65 1365 8.5 8.5 178.5 42 75 3150 1.5 1.5 63 30 85 2550 11.5 11.5 345 9 95 855 21.5 21.5 193.5 120 8820 1203
7

| Xi x | ni Atunci Am =
i=1 7

= ni

1203 10.025 . 120

i=1

Varianta. Pentru a calcula varianta, adugm la Tabelul 1 trei coloane cu abaterile a a individuale i ptratele lor, apoi ponderea lor: s a Tabelul Numr de a persoane (ni ) 3 3 12 21 42 30 9 120 4: Calculul abaterii medii. Xi Xi ni Xi x (Xi x)2 35 45 55 65 75 85 95 105 135 660 1365 3150 2550 855 8820
7 i=1 7

Nr. Crt. 1. 2. 3. 4. 5. 6. 7.

Punctaje [ai , bi ) [30, 40) [40, 50) [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) Total

(Xi x)2 ni 4446.75 2436.75 4107 1517.25 94.5 3967.5 4160.25 20730

38.5 28.5 18.5 8.5 1.5 11.5 21.5

1482.25 812.25 342.25 72.25 2.25 132.25 462.25

(Xi x)2 ni = ni
i=1

Atunci, varianta este s2 =

20730 172.75 . 120

Abaterea standard. Abaterea standard este rdcina ptrat a variantei: s = a a a a 13.143439 . d) Gracul distributiei de frecvente este o histogram. a Vrful curbei este a ndreptat spre dreapta. 4

s2 =

172.75

e) Un indicator de oblicitate propus de Pearson este Oblicitatea = 73.5 76.3636 x M0 = = 0.217873 , s 13.143439

adic este alungit spre stnga. a a a f) Gracul distributiei (am pus i valorile x = 73.5, x+ s, x + 2s, etc.) este prezentat s Figura 1. n

34.07

47.21

60.36

73.5

86.64

99.79

112.93

Figura 1: Forma normal a distributiei a Gracul scorurilor z (i de decizie) este prezentat Figura 2. s n

Zona de respingere 0.025 Zona de acceptare

Zona de respingere 0.025

1.96

1.96

Figura 2: Curba normal standardizat a a

Vrem s apreciem la nivelul de semnicatie de 5% dac eantionul provine dintr-o a a s populatie cu o medie de 76.00 puncte. Calculm scorul z al mediei x = 73.5 in a distributia de esantionare: z= x s 73.5 76 = 2.08363 . = 13.143439 n 120

Aceast valoare cade zona de respingere (vezi Figura 3). Prin urmare, eantionul a n s nostru nu provine dintr-o populatie cu o medie de 76.00 puncte (cu un nivel de semnicatie = 0.05).

Zona de respingere 0.025 Zona de acceptare

Zona de respingere 0.025

2.08

1.96

1.96

Figura 3: Scorul z = 2.08363

Problema 2. tabelul de mai jos, se prezint repartitia bidimensional a 250 de persoane ce In a a formeaza un esantion simplu aleator dupa caracteristicile A = Nationalitate, i s B = Interesul pentru problemele de politic intern a a

A. Nationalitatea Romn a a Maghiar a Alt nationalitate a

B. Interesul pentru problemele de politic intern a a Mare Moderat Mic 60 35 30 15 25 10 15 20 40

a. Precizati tipul caracteristicilor i scala lor de msur. (0.10 puncte) s a a b. Cu ajutorul procentelor, evidentiati existenta (sau lipsa) asocierii caracteristicilor de mai sus. Justicati. (2.70 puncte) c. Calculati cel putin 2 coecienti de asociere de natur diferit. (3.90 puncte) a a 6

d. Testati semnicatia asocierii celor dou caracteristici, la nivelul de semnicatie a = 0.05. (2.30 puncte) Solutii a. Caracteristica A este de tip nominal. Caracteristica B este de tip nominal, dar poate considerat de tip ordinal dac exist o preferint pentru interesul mare a a a a in politic. a b. Prezentm tabelele cu frecvente. Mai ai, adugm coloana cu totalul corea nt a a spunztor caracteristicii A, i linia cu totalul corezpunztor caracteristicii B: a s a Tabelul 5: Caracteristicile cu totalul pe linii i coloane. s B. Interesul pentru problemele de politic intern a a A. Nationalitatea Mare Moderat Mic Total Romn a a 60 35 30 125 Maghiar a 15 25 10 50 Alt nationalitate a 15 20 40 75 Total 90 80 80 250 Prezentm tabelele cu frecvente relative la caracteristica A (Tabelul 6), respectiv a caracteristica B (Tabelul 7). Tabelul 6: Frecvente relative la caracteristica A. B. Interesul pentru problemele de politic intern a a A. Nationalitatea Mare Moderat Mic Total Romn a a 0,48 0,28 0,24 1 Maghiar a 0,30 0,50 0,20 1 Alt nationalitate a 0,20 0,27 0,53 1 Total 0,36 0,32 0,32 1

Din analiza Tabelului 6, de exemplu, observm c interesul mare pentru politic a a a are 36%, i predomin. De asemenea, observm c romnii au interes mai mare s a a a a pentru politic, maghiarii interes moderat, iar alte nationaliti au un interes a at mai degrab mic politica intern. Exist o legtur statistic a n a a a a a ntre cele dou a caracteristici.

Tabelul 7: Frecvente relative la caracteristica B. B. Interesul pentru problemele de politic intern a a A. Nationalitatea Mare Moderat Mic Total Romn a a 0,67 0,44 0,38 0,50 Maghiar a 0,17 0,31 0,13 0,20 Alt nationalitate a 0,17 0,25 0,50 0,30 Total 1 1 1 1 Tabelul 8: Frecventele teoretice. B. Interesul pentru problemele de politic intern a a A. Nationalitatea Mare Moderat Mic Total Romn a a 45 40 40 125 Maghiar a 18 16 16 50 Alt nationalitate a 27 24 24 75 Total 90 80 80 250 c. Calculm valoarea 2 . Pentru aceasta, construim tabelul frecventelor teoretice a (aleatoare) corespunztoare celor din Tabelul 5: a Atunci, valoarea 2 este 2 = (60 45)2 (35 40)2 (30 40)2 (15 18)2 (25 16)2 + + + + + 45 40 40 18 16

(10 16)2 (15 27)2 (20 24)2 (40 24)2 + + + = + 16 27 24 24 9 81 36 144 16 256 225 25 100 + + + + + + + + = 32, 6042 . = 45 40 40 18 16 16 27 24 24 Coecientul de asociere este: = Valoarea lui este: = 32, 6042 = 0, 361132 . 250 2 . n (3)

Putem calcula acum Coecientul de contingent al lui Pearson: a C= 8 2 . n + 2 (4)

Valoarea lui C este C= 32, 6042 = 0, 339662 . 250 + 32, 6042

Coecientul de asociere al lui Cramer V este: V = 2 , s = min(s, t) (dimensiunile tabelului) n(s 1) 32, 6042 = 0, 2085 . 250(3 1) (5)

Valoarea lui V este: V =

S calculm acum Coecientul lui Goodman i Kruskal . a a s Considerm caracteristica A ca ind variabila independent. Atunci a a B = suma frecventelor maxime pe linii frecventa maxim pe linia totalurilor a . n frecventa maxim pe linia totalurilor a (6) Valoarea lui B este B = (60 + 25 + 40) 90 = 0, 21875 . 250 90

Considerm caracteristica B ca ind variabila independent. Atunci a a suma frecventelor maxime pe col. frecventa maxim pe col. totalurilor a . n frecventa maxim pe coloana totalurilor a (7) Valoarea lui A este A = A = (60 + 35 + 40) 125 = 0, 08 . 250 125

Observm c exist o asociere a a a ntre A spre B, i nici o asociere dinspre B s nspre A. S calculm Coecientul lui Goodman si Kruskal . Considerm caracteristica A a a a ca ind variabila independent. Atunci, notm cu R suma reuitelor cu privire la a a s clasele lui B: 1 R= n
t j=1 2 kj

(8)

Intrnd interiorul tabelului, pe liniile sale (adic la clasele lui A), vom proceda a n a identic i vom avea: s 9

- reuite pe linia ai: R1 = s nt

1 k1

t j=1 t j=1 t j=1

2 k1j ;

1 - reuite pe linia a 2-a: R2 = s k2 1 - reuite pe linia a 3-a: R3 = s k3

2 k2j ;

2 k3j ;

Dup parcurgerea tuturor liniilor, numrul global de reuite este notat cu R . a a s Coecientul este: R R . (9) = nR cazul nostru, In R= Coecientii Ri sunt: R1 = R2 = R3 602 + 352 + 302 = 45, 80 125 152 + 252 + 102 = 19 50 902 + 802 + 802 = 83, 6 . 250

152 + 202 + 402 = 29, 67 = 75

Coecientul R este R1 + R2 + R3 = 94.47 . Atunci coecientul este = 94.47 83, 6 = 0, 0653245 . 250 83, 6

d. Folosim Testul 2 de comparare (asociere). a a a Valoarea lui 2 calculat este 2 = 32.6042 . O comparm aceast valoare cu calc 2 2 2 valoarea critic critic = g.l. ; 1 obtinut din tabelul lui , pentru (s 1)(t1) a a grade de libertate ((s, t) sunt dimensiunile tabelului de date, la noi 33), i pentru s pragul de ncredere dorit ( = 0, 05). Interpretarea testului se face felul urmtor. Ipoteza cercetrii este, evident, c n a a a datele noastre sunt asociate: H0 : datele nu sunt asociate H1 : datele sunt asociate Atunci, Dac 2 < 2 a calc g.l. nu sunt asociate.
; 1 ,

(10)

atunci riscul respingerii lui H0 este prea mare; datele

10

Dac 2 2 ; 1 , atunci putem respinge ipoteza de nul H0 , i acceptm a calc s a g.l. ipoteza de cercetare H1 ; datele sunt asociate. La noi, g.l. = (3 1)(3 1) = 4. Citind Tabelul lui 2 , gsim 2 ; 0,95 = 0, 711. a 4 Pentru c 2 = 32, 6042 > 2 ; 0,95 = 0, 711, ipoteza de nul este respins, i a calc a s 4 datele sunt asociate. Problema 3. Intr-un sondaj preelectoral, pe un eantion simplu aleator de 1225 persoane, un partid s politic a obtinut 19.5% din intentiile de vot. a. S se determine cu nivelul de a ncredere 95% intervalul care se gsete proportia n a s respectiv populatie. (4 puncte) a n b. Dac la alegerile precedente partidul a obtinut 16.5% din voturi, se poate vorbi a de un ctig electoral pn momentul anchetei? (5 puncte) as a a n Solutii a. Calculm mai ai valoarea dispersiei, i a deviatiei standard. Variabila este a nt s alternativ, cu p = 19.5% = 0.195: a 2 = p (1 p) = 0.195 (1 0.195) = 0.156975 , = 0.156975 = 0.355478 . Deci 0, 355478 = 0, 0101565 = 1, 016% . e= = n 1225

Nivelului de probabilitate P = 95% corespunde o eroare maxim de 2e. Prin i a urmare, intervalul cutat este: a (p 2e, p + 2e) = (19, 5 1, 016 , 19, 5 + 1, 016) = (18, 484 , 20, 516) . Intervalul care se gsete proportia respectiv populatie este n a s a n ntre 18, 48% i 20, 52%, cu nivelul de s ncredere 95%. b. Fie b o medie sau o proportie obtinut pe un eantion i a o mrime de aceeai a s s a s natur, calculat la nivel de populatie (sau o mrime x, standard, un punct de a a a a reper). Dac e este eroarea standard a variabilei, atunci se construiete mrimea a s a z dup formula: a | ab | . (11) z= e Calculm mai ai valoarea dispersiei, i a deviatiei standard. Variabila este a nt s alternativ, cu p = 19.5% = 0.195: a 2 = p (1 p) = 0.195 (1 0.195) = 0.156975 , = 0.156975 = 0.355478 . 11

Deci

0.355478 e= = = 0.0101565 = 1.016% . n 1225

La alegerile precedente partidul a obtinut a = 16.5% din voturi. Atunci z= | 16.5 19.5 | = 2.95377 . 1.016

Valoarea noastr depete valoarea critic zcritic = 1.96 (corespunztoare lui a as s a a = 0.05), deci diferenta este semnicativ la nivelul de probabilitate 95%. a

Problema 4. Un psihoziolog administreaz unui grup de 10 indivizi dou teste de timpi de reactie a a relativi la o alegere: o alegere vizual, cealalt auditiv. Pentru ecare subiect obtine a a a un timp de reactie mediu pentru ecare situatie. Se ntreab dac exist o legtur. a a a a a Nu prezentm datele aici, ci analiza cu SPSS. Folosind diagramele artate cu SPSS, a a rspundeti la a ntrebrile (a) - (i). a

Figura 4: Media i deviatia standard s

Figura 5: Coecientii de corelatie

12

Figura 6: Coecientul R

Figura 7: Analiza ANOVA

Figura 8: Analiza coecientilor dreptei de regresie a. Care este variabila dependent i care este variabila independent? (1 punct) as a b. Ct la sut explic modelul de regresie liniar din variatia lui Y ? Argumentati. a a a a (1 punct) c. Scrieti ecuatia dreptei de regresie cu coecientii nestandardizati i cu coecientii s standardizati. (1 punct) d. Calculati media ptratelor datorate regresiei i valoarea lui F analiza de variant. a s n a Exist diferente semnicative ceea ce privete indexul socioeconomic al subiectilor a n s functie de educatia acestora? (2 puncte) n e. Interpretati panta dreptei de regresie. (1 punct) f. ce punct taie dreapta de regresie axa Oy? (1 punct) In g. Calculati coecientul de corelatie dintre cele dou variabile. Interpretati coe a cientul de corelatie. (1 punct) 13

h. Coecientii dreptei de regresie sunt semnicativ diferiti de 0? Argumentati. (1 punct) i. Care va timpul de reactie al unui subiect la alegerea vizual dac timpul de a a reactie la alegerea auditiv este x = 33? (1 punct) a Solutii a. Citind din tabelel de mai sus, variabila dependent este a X = Timpii de reactie alegerea vizual , n a iar variabila independent este a X = Timpii de reactie alegerea auditiv . n a a a a b. Mrimea r 2 , numit coecient de determinare, ne ofer o informatie complet a asupra calitii estimrii valorilor lui y prin cele calculate cu ajutorul dreptei de at a regresie, estimare exprimat termeni relativi: a n r 2 = 0.3402777777777778 0.3403 . x explic 34.03% din varianta lui y, pe cnd 1 r 2 65.97% din varianta lui y a a rmne neexplicat. a a a c. Ecuatia dreptei de regresie cu coecientii nestandardizati: a = 8.3333 , b = 0.5833 y = 8.3333 + 0.5833 x . Ecuatia dreptei de regresie cu coecientii standardizati: a = 0 , b = 0.5833 = r y = 0 + 0.5833 x y = 0.5833 x . Numerele din sectiunea Standardized Coecients sunt calculate pentru scorurile s n a a a xi i yi ce au fost convertite scoruri standard. Notm c nu exist o interceptie a axei Oy (a = 0), i c panta dreptei de regresie este egal cu coecientul de s a a corelatie al lui Pearson (r = 0.5833). d. Media ptratelor datorate regresiei (din tabelul 7): 12, care se a mparte varianta n ce poate explicat de variabila independent (Regression: 4.083) i varianta ce a a s nu este explicat de variabila independent (Residual: 7.917). a a Valoarea lui F analiza de variant (din tabelul 7): F = 4.126. Statistica F este n a Mean Square (Regression) artit la Mean Square (Residual): mp a 4.083/0.990 = 4.126 . Aceast valoare este comparat cu un nivel de semnicatie ales testarea a a n ipotezei de nul: toti coecientii modelului de regresie sunt 0. 14

e. Panta dreptei de regresie este b = 0.5833. La ecare cretere cu o unitate a s variabilei x, variabila y crete cu b = 0.5833 uniti. s at f. Punctul in care dreapta de regresie taie axa Oy este (8.3333, 0). (a = 8.3333) g. Calculm coecientul de corelatie pe baza coecientilor dreptei de regresie: a b=r sx 1.1547 sy = 0.5833 , r=b = 0.5833 sx sy 1.1547

care coincide cu valoarea din Figura 6.

Tabelul 9: Interpretarea coecientului de corelatie (Davis apud Kotrlik i Williams, 2003) s Coecientul de corelatie Descriptor 0.70 Asociere foarte puternic a 0.50 0.69 Asociere substantial a 0.30 0.49 Asociere moderat a 0.10 0.29 Asociere sczut a a 0.01 0.09 Asociere neglijabil a

Tabelul 10: Interpretarea coecientului de corelatie (Hopkins, 2000) Coecientul de corelatie Descriptor 0.0 0.1 Foarte mic, neglijabil, nesubstantial 0.1 0.3 Mic, minor 0.3 0.5 Moderat, mediu 0.5 0.7 Mare, ridicat, major 0.7 0.9 Foarte mare, foarte ridicat 0.9 1.0 Aproape perfect, descrie relatia dintre dou variabile practic indistincte a Conform Tabelelor 9 si 10, avem o asociere substantial a ntre variabilele x si y. Pentru c r are semnul pozitiv, asocierea e direct. a a h. Valoarea lui F analiza de variant (din tabelul 7): F = 4.126. Statistica F este n a Mean Square (Regression) artit la Mean Square (Residual): mp a 4.083/0.990 = 4.126 . Aceast valoare este comparat cu un nivel de semnicatie ales testarea a a n ipotezei de nul: toti coecientii modelului de regresie sunt 0. Semnicatia lui F este 0.077 care este mai mare decat = 0.05. Coecientii dreptei de regresie sunt semnicativ diferiti de 0. 15

i. Timpul de reactie al unui subiect la alegerea vizual dac timpul de reactie la a a alegerea auditiv este x = 33, se calculeaz cu ajutorul dreptei de regresie: a a yi = 8.3333 + 0.5833 33 = 27.5822 .

Problema 5. Se consider urmtoarele perechi de observatii: a a xi yi 34 18 15 6 46 80 62 19 29 15 30 21 8 14 45 62 86 15 27 28

a. Trasati diagrama de dispersie pentru aceste perechi. Exist o relatie liniar a a ntre cele dou variabile? (1 punct) a b. Calculati media, mediana i abaterile standard pentru cele dou perechi de observatii. s a (1 punct) c. Determinati pentru aceste observatii dreapta de regresie a lui y functie de x. n (1 punct) d. Interpretati coecientii dreptei de regresie. (1 punct) e. Care este valoarea estimat a lui y cnd x = 18? (1 punct) a a f. Care este abaterea dintre valoarea observat i cea estimat a lui y cnd x = 18? as a a Cum se numete aceast abatere? (1 punct) s a g. Trasati dreapta de regresie. ce punct va tia dreapta de regresie dreapta Oy? In a (1 punct) h. Calculati coecientul de corelatie pe baza coecientilor dreptei de regresie i s interpretati-l. (1 punct) i. Care este calitatea estimrii valorilor lui y prin cele calculate cu ajutorul dreptei a de regresie? (1 punct) j. S presupunem c eantionul nostru este alctuit din 900 de subiecti pentru care a a s a s-au cules date despre variabilele x i y, iar media i abaterea standard ale acestor s s variabile sunt cele calculate la punctul (b). Calculati intervalul care se vor aa n populatie cu o probabilitate de 95% cele dou medii. (1 punct) n a Solutii a. Trasm diagrama de dispersie pentru aceste perechi: a Observm c exist o dependent liniar a a a a a ntre cele dou variabile. a b. Media, mediana i abaterile standard pentru cele dou perechi de observatii: s a

16

y
30

25

20

15

10

10

20

30

40

50

60

70

80

Figura 9: Diagrama de dispersie Variabila x. Media: x= 481 34 + 18 + 46 + 80 + 62 + 19 + 29 + 45 + 62 + 86 = = 48.1 . 10 10

Mediana: ordonm mai ai datele. a nt 18, 19, 29, 34, 45, 46, 62, 62, 80, 86 11 n+1 = = 5.5, adic a ntre valorile 45 i s Mediana este situat la pozitia a 2 2 46: 45 + 46 = 45.5 . Me = 2 Abaterea standard: formm mai ai irul abaterilor individuale. a nt s 18 48.1, 19 48.1, 29 48.1, 34 48.1, 45 48.1, 46 48.1, 62 48.1, 62 48.1, 80 48.1, 86 48.1 adic a 30.1, 29.1, 19.1, 14.1, 3.1, 2.1, 13.9, 13.9, 31.9, 37.9 Ridicm valorile la ptrat, i le a a s nsumm: a 906.01, 846.81, 364.81, 198.81, 9.61, 4.41, 193.21, 193.21, 1017.61, 1436.41,
10 i=1

(xi x)2 = 5170.9

17

Atunci, abaterea standard este


10 i=1

(xi x)2 10 =

sx = Variabila y. Media: x=

5170.9 = 22.7396 . 10

15 + 6 + 15 + 30 + 21 + 8 + 14 + 15 + 27 + 28 179 = = 17.9 . 10 10

Mediana: ordonm mai ai datele. a nt 6, 8, 14, 15, 15, 15, 21, 27, 28, 30 11 n+1 = = 5.5, adic a ntre valorile 15 i s Mediana este situat la pozitia a 2 2 15: 15 + 15 Me = = 15 . 2 Abaterea standard: formm mai ai irul abaterilor individuale. a nt s 6 17.9, 8 17.9, 14 17.9, 15 17.9, 15 17.9, 15 17.9, 21 17.9, 27 17.9, 28 17.9, 30 17.9 adic a 11.9, 9.9, 3.9, 2.9, 2.9, 2.9, 3.1, 9.1, 10.1, 12.1 Ridicm valorile la ptrat, i le a a s nsumm: a 141.61, 98.01, 15.21, 8.41, 8.41, 8.41, 9.61, 82.81, 102.01, 146.41,
10 i=1

(yi y)2 = 62.09

Atunci, abaterea standard este


10 i=1

(yi y)2 10 =

sy =

62.09 = 7.87972 . 10

18

c. Coecientii dreaptei de regresie a lui y functie de x, yi = a + b xi , se determin n a prin relatiile: n n na + b xi = yi a


n i=1 n

xi + b
i=1 n i=1

x2 = i
n

i=1 n i=1

xi yi
n

Avem urmtoarele: n = 10, a


n i=1

xi = 481,
i=1

yi = 179,
i=1

x2 = 28307, i

i s
i=1

xi yi = 10325. Atunci 10a + 481b = 179 481a + 28307b = 10325 10a + 481b = 179/ 48.1 481a + 28307b = 10325 481a + 23136.1b = 8609.9 481a + 28307b = 10325 0 + 5170.9b = 1715.1

Atunci, b =

1715.1 = 0.331683. Mai mult, 5170.9 179 481 0.331683 = 1.94605 . 10

10a + 481b = 179 a =

Solutiile sunt a = 1.94604, b = 0.331683. Dreapta de regresie este yi = 1.94604 + 0.331683 xi . d. Coecientii dreptei de regresie ne spun urmtoarele. La ecare cretere cu o a s unitate a variabilei x, variabila y crete cu b = 0.331683 uniti. Atunci cnd s at a variabila x este nul, valoarea variabilei y este a = 1.94604. a e. Valoarea estimat a lui y cnd x = 18 este: a a y = 1.94604 + 0.331683 18 = 7.91633 8 . f. Abaterea dintre valoarea observat i cea estimat a lui y cnd x = 18 este: as a a yi yi = 7.91633 6 = 1.91633 . Aceast abatere se numete eroare de estimare sau reziduu de estimare. a s 19

y
35 30 25 20 15 10 5

yi

1.94604

0.33168 xi

10

20

30

40

50

60

70

80

90

Figura 10: Diagrama de dispersie i dreapta de dispersie s g. Desenm dreapta de regresie. a Dreapta de regresie taie axa Oy punctul a = 1.94604. n h. Calculm coecientul de corelatie pe baza coecientilor dreptei de regresie: a b=r sx 22.7396 sy = 0.957184 . r=b = 0.331683 sx sy 7.87972

Conform Tabelelor 9 si 10, avem o asociere foarte puternic a ntre variabilele x si y. Pentru c r are semnul pozitiv, asocierea e direct. a a i. Mrimea r 2 ne ofer o informatie complet asupra calitii estimrii valorilor lui y a a a at a prin cele calculate cu ajutorul dreptei de regresie, estimare exprimat termeni a n relativi: r 2 = 0.9571842 = 0.916201 . x explic 91.62% din varianta lui y, pe cnd 1 r 2 8.38% din varianta lui y a a rmne neexplicat. a a a j. S presupunem c eantionul nostru este alctuit din n = 900 de subiecti, pentru a a s a care s-au cules date despre variabilele x i y, iar media i abaterea standard ale s s acestor variabile sunt cele calculate la punctul (b): x = 48.1 , sx = 22.7396 , y = 17.9 , sy = 7.8797 . Valoarea critic a lui z corespunztoare pragului de a a ncredere de 95% este zcritic = 1.96. Calculm mai ai intervalul care se va aa populatie cu o probabilitate de a nt n n 95% media x : x zcritic sx < x < x + zcritic sx 22.7396 22.7396 < x < 48.1 + 1.96 48.1 1.96 900 900 20

46.6143 < x < 49.5857 Calculm acum intervalul care se va aa populatie cu o probabilitate de 95% a n n media y. y zcritic sy < y < y + zcritic sy 7.8797 7.8797 < x < 17.9 + 1.96 17.9 1.96 900 900 17.3852 < x < 18.4148 .

21

Вам также может понравиться