Вы находитесь на странице: 1из 35

Universit Ren Descartes UFR Biomdicale, 45 rue des Saints-Pre, 75 006 Paris

LMD Sciences de la Vie et de la Sant M1 de Sant Publique Spcialit Biostatistique

M1 BIOSTATISTIQUE I

Bases : Probabilits, Estimation et Tests.

Exercices et problmes
C. Huber

Semaines 1 et 2

Probabilits, probabilits conditionnelles, indpendance, formule de Bayes. Fonction de rpartition, esprance et variance d'une variable alatoire relle.

Rappels de cours :
Dfinition d'une probabilit conditionnelle La probabilit de B tant suppose diffrente de 0, on appelle probabilit de A conditionn par B, que l'on note P(A/B), le rapport : P(AB) _________ P(A/B) = . P(B) On peut donc crire : P(AB) = P(A/B) P(B) = P(B/A) P(A) . Formule de Bayes Cette formule, aussi appele "thorme de la probabilit des causes", conditionnement. P(B/A) ___________________________ P(A/B) = P(A) . P(B/A) P(A) + P(B/Ac) P(Ac) Elle est valable ds que P(B) est diffrent de 0. Dfinition de l'Indpendance On dit que A et B sont indpendants si (1) P(AB) = P(A) P(B) C'est quivalent (2) et (3) : (2) (3) P(A/B) = P(A) P(B/A) = P(B) permet de renverser un

Dfinition de la Fonction de rpartition F d'une variable alatoire relle X en un point x C'est la probabilit pour qu'e cette variable alatoire X soit infrieure ou gale x : F(x) = P(X x) On la note souvent f.r. . Dfinition de l'Esprance L'esprance, ou moyenne, d'une variable alatoire relle X est note E(X) ou EX . Si X est discrte et vaut xj avec la probabilit pj, pour j variant de 1 k, alors k E(X ) = pj xj j =1

M1_TD_sem_1_2.doc

1/4

C. Huber

2 Si X est continue et admet f comme densit de probabilit


EX = + x f(x) dx -

Changement d'origine et d'unit E (aX + b) = a E(X ) + b .

Variance Var (X ) = E [ (X-EX)2] = E(X2) - (EX)2 Ecart-type (X) =

Var ( X )

Changement d'origine et d'unit Var (aX + b) = a2 Var X Variable centre rduite associe X : X* : X* = X - EX _______ (X) Alors : E(X* ) = 0 et Var (X* ) = 1. Dfinition d'un chantillon : Soit X1, X2, ..., Xn des variables indpendantes et de mme loi . On dit que (X1,..., Xn ) est un chantillon de taille n ou un n - chantillon de la variable X1 . X + ... + X n Xn = 1 n est appele moyenne de l'chantillon. ou moyenne empirique. Si E(X1) = et var(X1) = 2 , alors

n E(Xn) = 1 E (Xi) = n i=1


Var (Xi) = Var (Xn) = 1 2 n n i=1
n 2

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @@@

Exercices
1. Chasse au canard Trois chasseurs tirent sur un canard. Chacun a la probabilit 1/3 de l'atteindre et ils sont indpendants. Quelle est la probabilit que le canard soit atteint ? 2. Pari

M1_TD_sem_1_2.doc

2/4

C. Huber

3 Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire (N). Les 2/3 des billes sont rouges, le reste noir. La moiti des billes rouges sont en bois, ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la couleur. Que faites vous? 3 Amricanisme Les Anglais et les Amricains orthographient le mot rigueur , respectivement rigour et rigor. Un homme ayant pris une chambre dans un htel parisien a crit ce mot sur un bout de papier. Une lettre est prise au hasard dans ce mot, c''est une voyelle. Or 40% des anglophones de l'htel sont des Anglais et 60% des Amricains. Quelle est la probabilit que l'auteur du mot soit anglais ? 4. Alcootest : Un laboratoire a mis au point un alcootest et dcide d'en vrifier la crdibilit . Les rsultats obtenus sont les suivants : 2% des personnes contrles par la police sont effectivement en tat d'brit. 95 fois sur 100 l'alcootest s'est rvl positif alors que la personne tait rellement en tat d'brit. 5 fois sur 100, l'alcootest s'est rvl positif, alors que la personne n'tait pas en tat d'brit. a) Quelle est la probabilit que l'alcootest donne une indication correcte ? b) Quelle est la probabilit qu'une personne soit rellement en tat d'brit lorsque l'alcootest est positif ? 5. Au caf Cinq filles et cinq garons s'assoient le long du comptoir d'un caf sur les dix tabourets situs cte cte. On suppose qu'ils se placent au hasard. Quelle est la probabilit qu'ils se trouvent ainsi placs : a) toutes les filles cte cte ? b)parfaitement alterns ? On distinguera deux cas : 1) Un comptoir en long (ou formant ventuellement un coin). 2) Un comptoir circulaire. 6. Esprance et esprance conditionnelle On lance deux ds quilibrs. Quelle est l'esprance (autrement dit la moyenne) de la somme des deux nombres montrs par les deux ds ? Quelle est la fonction de rpartition correspondante ? Mmes questions sachant que l'un au moins des deux ds montre un 6. Cette deuxime esprance est appele une esprance conditionnelle; de mme, cette deuxime f.r. est appele fonction de rpartition conditionnelle. Facultatifs : 7. Enqute On a utilis la mthode suivante pour estimer le nombre des personnes de plus de 50 ans dans une ville dont la population s'lve 100 000 mes. Elle consiste, pour l'exprimentateur, enregistrer le pourcentage des gens de plus de 50 ans, lors de ses dplacements dans la rue. L'exprience s'tend sur quelques jours. Discuter cette mthode. Vous parat elle convenable ? A titre d'indication, on notera p la vraie proportion des gens de plus de 50 ans dans cette ville, q1 la proportion du temps qu'une personne de 50 ans ou plus passe dans la rue et q2 le mme paramtre pour les moins de 50 ans. Quelle est la grandeur que la mthode employe estime en ralit ? Cette estimation convient elle pour p ? D'autres lments pourraient ils entrer en jeu ? 8. Particules (BOLTZMAN , BOSE-EINSTEIN et FERMI-DIRAC ) I On considre n particules identiques supposs discernables en physique classique. C'est dire qu'on peut les numroter, puis, au moins en principe, suivre la trajectoire de chacune d'elles. Supposons que les particules puissent tre rparties entre k tats physiques distincts, le nombre de particules dans chacun des tats pouvant tre quelconque. C'est l'hypothse de la statistique de Boltzman. a) Combien y a-til de rpartitions possibles ? b) Combien y a-t-il de rpartitions possibles telles qu'il yait n1 particules dans l'tat 1, n2 particules dans l'tat 2, .., nk particules dans l'tat k ? II En mcanique quantique, les particules sont indiscernables. C'est la statistique de Bose-Einstein. Reprendre alors les questions prcdentes.

M1_TD_sem_1_2.doc

3/4

C. Huber

4 III On suppose maintenant que k n et qu'il ne peut pas y avoir plus d'une particule dans chacun des tats. C'est la statistique de Fermi-Dirac. Reprendre les questions dans ces conditions. (On commencera par supposer les particules distinguables, puis indistinguables). c) En supposant les particules rparties 'au hasard 'dans les k tats, dire, dans chacune des conditions prcdentes si les diffrentes rpartitions possibles sont quiprobables.

M1_TD_sem_1_2.doc

4/4

C. Huber

Semaines 3 et 4

Lois de probabilit usuelles pour une variable alatoire relle.

Rappels de cours :
1 - Lois normales N (, 2): Dfinition : loi normale rduite N(0,1) Z suit la loi normale N(0,1), ou loi normale rduite, si elle a pour densit

1 e , 2 La fonction de rpartition correspondante sera note : z ( z) = P(Z z) = ( t) dt

( z) =

z 2

z IR .

Loi normale quelconque N (, 2) : Si X suit la loi normale N(,2) , ce qu'on note X ~ N(,2), X se comporte comme + Z : P(X x) = P( + Z x) = P(Z (x-)/ ) = [(x) / ]

Proprit :
X et Y indpendantes X ~ N(, 2) Y ~ N(', '2) 2 - Lois de Poisson () Dfinition X suit la loi de Poisson de paramtre > 0, note (), si k P (X = k) = e - __ k! X + Y ~ N (+', 2 + '2)

k = 0, 1, 2,... paramtre > 0

( 0! = 1 par dfinition). Moyenne et variance


E (X) = Var (X) = .

proprit
X et Y indpendantes X ~ () X+Y ~ (+)

Y ~ () 3 - Lois binomiales B (n,p)

On a un n chantillon X1,X2,..,Xn dont chaque lment suit la loi de Bernoulli de paramtre p (0p1) , note b(p) :

M1_TD_sem_3_4.doc

1/4

C. Huber

1 avec la probabilit p , Xi = 0 avec la probabilit q = 1 - p . Sn est la statistique qui reprsente la somme des "succs" : Sn = X1 + X2 + .. + Xn
pj qn-j

n! _______ P (Sn = j ) = j! (n- j) !

j = 0,1,2,....n .

Esprance et variance :
ESn = np , Var (Sn) = npq . Approximation normale des lois binomiales Lorsque n tend vers l'infini , Sn se comporte comme une variable normale de moyenne sa moyenne np et de variance sa variance npq : P(Sn k) P(np + npq Z k) o Z ~ N(0,1). En pratique, on admet l'approximation ds que np et nq sont 5.
Approximation normale d'une somme Plus gnralement, si Sn est la somme de n v.a. indpendantes Xi de mme loi , de moyenne et d'carttype , lorsque n tend vers l'infini , Sn se comporte comme une variable normale de moyenne sa moyenne n et de variance sa variance n2

P(Sn k) P( n + n Z k) En pratique, si Xi a une loi continue, on admet que l'approximation est valable ds que n 30.

Approximation de Poisson des lois binomiales Si Sn est une variable binomiale B(n,p) telle que p soit petit et n grand, la loi de Sn ne dpend (presque plus) que du produit np, ce qui fait que la loi de Sn est pratiquement la mme que l'on ait fait 10 observations d'un phnomne de probabilit 1/10 (np = 1) ou 100 observations d'un phnomne de probabilit 1/100 (np = 1 aussi) Plus prcisment, si n tend vers l'infini et np reste constant, ce qui revient ce que p tende vers 0 quand n crot, on a l'approximation de Poisson suivante pour la loi binomiale :

P(Sn = k)

(np)k --------k!

e-np

En pratique on utilisera la rgle suivante : Pourvu que p 0,1 et 1 np < 10 on remplacera la loi binomiale B(n,p) par la loi ci-dessus qu'on appelle la loi de Poisson de paramtre np. Quelle approximation choisir ? Lorsque np est compris entre 5 et 10, on a droit aux deux approximations, normale et de Poisson, mais bien sr, celle de Poisson est d'autant meilleure, et donc prfrable, que p est plus proche de 0.

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

M1_TD_sem_3_4.doc

2/4

C. Huber

Exercices
1. Capacit respiratoire La quantit d'air (en litres) rejete par un sujet sain lors d'une expiration force, est une variable alatoire X qui est suppose normale N( = 1,65, 2 = 0,5). La capacit respiratoire d'un sujet est mesure par la quantit d'air Y rejete lors de deux expirations forces successives espaces de 2 minutes. On suppose que les deux rsultats sont indpendants. Quelle est la loi de Y? Quelle est la probabilit que la capacit respiratoire d'un sujet sain dpasse 4 litres? 2. Accidents Le nombre d'accidents touchant un individu lors d'une anne donne est une variable alatoire de Poisson d'esprance l . On suppose que cette esprance varie en fonction des personnes et qu'elle vaut 2 pour 60% de la population et 3 pour les 40% restants. On choisit une personne au hasard. Quelle est la probabilit qu'au cours d'une anne elle n'ait aucun accident ? qu'elle en ait 3 ? Quelle est la probabilit conditionnelle qu'elle ait trois accidents une anne, sachant qu'elle n'en a pas eu l'anne prcdente ? 3. Footballeurs La capacit respiratoire de sujets normaux, de sexe masculin, gs de 20 30 ans est suppose obir une loi normale de moyenne 3,5 litres et de variance 1. On tire au hasard dans la population des joueurs de football gs de 20 30 ans, 100 sujets dont on mesure la capacit respiratoire. Onze d'entre eux ont une capacit respiratoire qui dpasse 4,64 l. Si on considre que la capacit respiratoire de ces joueurs obit la loi prcdente, quelle tait la probabilit que 11 de ces joueurs ou davantage aient une capacit respiratoire suprieure 4,64 litres ? 4. Tolrance l'aspirine Des tudes ont t faites sur des mdicaments contenant de l'aspirine pour essayer de rduire l'intolrance observe chez certaines personnes. Le but de l'exprimentation dcrite est de dcider s'il faut ou non remplacer le mdicament habituel A par un nouveau B. Le mdicament A a une probabilit connue d'intolrance, gale 0,20. On administre B un chantillon de 64 sujets et on observe une proportion po d'incidents. Quelle est la loi de nPo si B provoque le mme taux d'incidents que A ? Pouvez vous en donner une approximation ? En dduire la loi de Po, sa moyenne et sa variance. Exercices facultatifs : 5. Loi de Pascal (ou binomiale ngative) B-(k,p) On suppose que X est une variable de Bernoulli b(p), de probabilit de succs p et que l'on fait N observations indpendantes X1, ..., XN jusqu' ce que l'on ait obtenu exactement k succs. Le nombre d'observations ncessaires N est alatoire et a pour loi de probabilit la loi de Pascal (ou binomiale ngative) de paramtres p [0 ; 1] et k entier, note B-(k,p). Ce type de modle est celui que l'on emploie par exemple en exprimentation biologique lorsqu'on tudie l'apparition ou non de certains troubles sur des cobayes soumis des conditions particulires : on fait des observations jusqu' ce que l'on observe un certain nombre, fix l'avance d'animaux prsentant ces troubles. 1) Quelles sont les valeurs possibles de N ? Calculer P(N = n), pour n entier positif. 2) Calculer l'esprance de N. On rappelle que

1+

t
i =1

k + j

j 1 = (1 t) k +1

3) Lorsque p est trs petit, et pour viter que la valeur de N ne soit trop grande et donc l'exprience trop longue et trop coteuse, on se limite en gnral l'observation du premier succs, c'est dire k = 1. Que vaut dans ce cas la loi de N ? son esprance ? sa variance ?
6. Loi hypergomtrique H (N,M,n)

M1_TD_sem_3_4.doc

3/4

C. Huber

Le personnel d'une entreprise soumis un risque professionnel comprend N personnes parmi lesquelles M sont atteintes d'une certaine maladie. On a dcid d'observer n personnes prises au hasard parmi les N. Parmi elles, m sont atteintes. On dit que m est la ralisation d'une v.a.r. X dont la loi est appele la loi hypergomtrique H(N,M,n). Calculer la probabilit p(m,,n) = P(X = m). (On pourra montrer que M N-M N n-m si max (0,M+n - N) m min ( M , n ) p ( m , ,n ) = N n et 0 sinon).

M1_TD_sem_3_4.doc

4/4

C. Huber

Semaine 5

Couple de variables alatoires. Rgression.

Rappels de cours :
Esprance d'une somme E(aX+bY) = a EX + b EY . En particulier, E (X+Y) Dfinition de la covariance de X et Y : cov (X,Y) = E [(X - EX) (Y - EY)] = E(XY) - EX . EY . Dfinition du coefficient de corrlation (X,Y)
(X , Y ) = cov (X , Y ) (X ) (Y )

= EX + EY et

E(aX) = a EX .

Variance d'une somme Var (X + Y) = VarX + VarY + 2 E [ (X - EX) (Y - EY)] = VarX + VarY + 2 cov(X,Y) Var(aX) Si X et Y sont indpendantes : = a2 VarX

cov (X,Y) = 0 et donc Var(X+Y) = VarX + VarY .

Mais si Cov (X, Y) = 0, X et Y ne sont pas forcment indpendantes. Par contre, pour des variables normales, indpendance et covariance nulle sont quivalents. Droite de rgression On cherche la droite y = ax + b la "plus proche" de Y au sens des moindres carrs : E [(Y - (aX + b))2] minimum On trouve cov (X,Y) y - EY = __________ (x - EX) 2 (X) qui peut aussi s'crire :

y E (Y ) x E( X ) = ( X , Y ) ( X) (Y )

M1_TD_sem_5.doc

1/3

C. Huber

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices
1. Datation par le carbone 14 Le carbone radioactif 14C est produit dans l'atmosphre par l'effet des rayons cosmiques sur l'azote atmosphrique. Il est oxyd en 14C02 et absorb sous cette forme par les organismes vivants qui, par suite, contiennent un certain pourcentage de carbone radioactif par rapport aux carbone 12C et 13C qui sont stables. On suppose que, lorqu'un organisme meurt, ses changes avec l'atmosphre cessent et que la radioactivit due au carbone 14C dcrot suivant une loi exponentielle : (*) A = Ao e- t tant une constante positive, t tant le temps exprim en annes et A tant la radioactivit exprime en nombre de dsintgrations par minute et par gramme de carbone. Un talonnage de la mthode a t ralis par l'analyse de troncs de trs vieux arbres, des Squoias gants et des pins aristaca. Par un prlvement effectu sur le tronc, on peut obtenir son ge t, en annes en comptant le nombre des anneaux de croissance et sa radioactivit A en mesurant le nombre de dsintgrations. On a ainsi obtenu : t A 500 14.5 1000 13.5 2000 12.0 3000 10.8 4000 9.9 5000 8.9 6300 8.0

La relation (*) entre t et A ne peut pas tre vrifie exactement par toue les couples de valeurs ainsi mesures, mais elle l'est en principe aux erreurs de mesure alatoires prs. Comment proposez vous d'valuer les constantes Ao et ? (On pourra penser faire une rgression de ln(A) sur t).

2. Taux d'alcool Une tude du taux d'alcool dans le sang, exprim en milligrammes par litre, au cours de l'autopsie de victimes d'accidents de la circulation a consist faire un prlvement dans la jambe (x) et dans le coeur (y). Les rsultats ont t les suivants : Cas 1 2 3 4 5 6 7 8 9 10 x 27 28 35 39 44 54 65 68 72 75 y 39 31 36 50 44 49 70 84 80 82 Cas 11 x y 12 84 78 13 84 91 14 83 83 15 96 98 16 138 139 17 149 155 18 150 143 19 153 154 20 176 182

180 185

Cas 21 22 23 24 25 26 27 28 29 30 x 180 187 205 230 249 250 265 265 272 286 y 187 195 208 228 249 256 269 277 290 502 Quelle est la droite de rgression de y par rapport x ? et celle de x par rapport y ? Laquelle de ces deux droites vous parat prsenter le plus d'intrt ? Analyser les rsidus correspondants. On pourra calculer la droite de rgression de y par rapport x en tant tour tour chacun des trente sujets et prvoir, pour celui-ci y connaissant x. Les prvisions ainsi obtenues sont elles bonnes ? Cette mthode, appele le jacknife, permet de se rendre compte de la qualit de la rgression.

3. Affections respiratoires L'une des mesures qui sont faites lors de l'investigation des affections respiratoires est celle du volume expiratoire moyen par seconde, appel Vems. Sur 8 sujets tirs au sort parmi la population saine d'ge compris entre 30 et 35 ans, on a mesur la taille, T,. en mtres et le Vems, V, en litres par seconde, et obtenu les rsultats suivants : Sujet 1 2 3 4 5 6 7 8 T 1,85 1,72 1,51 1,62 1,60 1,80 1,75 1,68

M1_TD_sem_5.doc

2/3

C. Huber

3 V 4,5 3,6 2,7 3,1 3,6 4,4 4,3 3,8 Tracer la fonction de rpartition empirique du Vems, et tracer la droite de rgression observe de V par rapport T. Un neuvime sujet survient qui mesure 1,70 m. Quel Vems peut on prvoir pour lui ? En fait son Vems est de 4 litres. Quelle erreur a-t-on commise ?

M1_TD_sem_5.doc

3/3

C. Huber

Semaine 6

Estimation. Estimation ponctuelle et par intervalle de confiance.

Rappels de cours :
1 Estimation ponctuelle : Estimateur d'un paramtre t : c'est une fonction des observations (alatoire par consquent) qui est une valuation de t. Il est sans biais si sa moyenne est gale t quel que soit t, et convergent (ou consistant) s'il tend vers t quand le nombre des observations tend vers l'infini. Si le paramtre t est la moyenne ou la variance d'une variable X, on a des estimateurs trs simples : la moyenne empirique (observe) et la variance (presque) empirique : Estimateur sans biais de :
X =

X
i =1

n En particulier l'estimateur d'une proportion p, qui est la moyenne d'une variable de Bernoulli b(p), est la proportion observe note po. Estimateur sans biais de 2 :

S2 =

(X
i =1

X) 2

n-1

Dans les autres cas, on utilise une mthode trs gnrale appele le "maximum de vraisemblance": On crit la probabilit des observations comme fonction du (ou des) paramtre(s) t et on estime t par la (ou les) valeur (s) qui rend(ent) maximum cette probabilit. 2 Estimation par intervalle de confiance : La confiance est la probabilit avec laquelle l'intervalle couvre la vraie valeur du paramtre. On veut que cette probabilit soit proche de 1. On la note 1 - , avec petit. En gnral est de l'ordre de 0,05 ou moindre. Pour une proportion p : proportion observe po plus ou moins un terme qui dpend de la confiance 1 - que l'on veut pouvoir accorder l'intervalle
p1 ; p2 = p0 p 0 q0 n z 1- / 2 ; p0 + p 0 q0 n z 1- / 2

M1_TD_sem 6.doc

1/3

C. Huber

Dans cette expression, z1 - est le 1 - quantile de la loi N(0,1) : P(Z z1 - ) = 1 - La confiance est la probabilit avec laquelle l'intervalle couvre la vraie valeur de p. De mme pour une moyenne : s s 1 ; 2 = ; xn z 1 /2 xn + z 1 /2
n
n
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices
1.Gaz nocif Dans l'atmosphre, le taux d'un gaz nocif, pour un volume donn, suit une loi normale d'esprance et de variance 2 . On effectue n prlvements conduisant aux valeurs x1, x2, ..., xn. a) On sait que 2 = 100, mais on ne connat pas . Sur n = 10 prlvements, on a trouv une valeur moyenne de 48. Donner un intervalle de confiance pour 95 %. Mme question avec un coefficient de confiance de 99% . b) On ne connat pas 2 en fait mais on a fait cette fois 50 prlvements et observ une moyenne gale 51 et une variance empirique S2 gale 100. Rpondre aux mmes questions. c) Sous les mmes conditions qu'en b), rpondre aux mmes questions lorsqu'on a observ 200 prlvements au lieu de 50, sans faire de calcul. 2. Fonction de rpartition empirique Si Fn est la fonction de rpartition empirique associe un n-chantillon d'une v.a.r. X de f.r. F, montrer que Fn(x) est, pour tout x, un estimateur sans biais de F(x). Quelle est la variance de cet estimateur ? Est il consistant? 3. Fabricant de tissu Un fabricant de tissu essaye une nouvelle machine. Il fabrique des chantillons de 10 mtres et compte le nombre de dfauts par chantillon. Ayant examin n = 126 chantillons, il a trouv les rsultats suivants : Nombre de dfauts : j 0 1 2 3 4 Nombre d'chantillons : nj 44 49 24 7 2

a) Quel modle suggrez vous pour reprsenter ce phnomne ? (On pourra calculer la moyenne et la variance empiriques). b) Donner l'estimateur du maximum de vraisemblance de la moyenne. c) Donner un intervalle 99% de confiance pour cette moyenne.

4. Rhumatismes inflammatoires On distingue deux grandes classes de rhumatismes selon qu'ils sont inflammatoires (RI) ou non. Sur un groupe de 220 malades atteints de rhumatismes, on en a observ 167 RI . A quelles conditions la proportion po de RI observe peut elle tre considre comme un bon estimateur de la proportion p de RI dans la population gnrale ?. On supposera que ces conditions ont t effectivement remplies. Donner alors un intervalle de confiance au risque 1% pour p. A partir d'une raction srodiagnostique, on effectue un dosage du facteur immunoconglutinine. C'est une variable alatoire note X chez les RI et X' chez les autres (car X' peut avoir une loi de probabilit diffrente de celle de X). On rsume les rsultats obtenus ainsi : x = 420 ; x2 = 1 400 ; x' = 104 ; x'2 = 292 . Donner un intervalle de confiance de coefficient de confiance 0,03 pour = EX et pour ' = EX'. A votre

M1_TD_sem 6.doc

2/3

C. Huber

3 avis, est il probable que le facteur dos ait la mme loi chez les patients atteints de RI et chez les autres?

M1_TD_sem 6.doc

3/3

C. Huber

Semaines 7 et 8

Tests d'ajustement.

Rappel de cours : F0 tant une loi compltement spcifie, et (X1,..Xn) un n-chantillon, de loi F, on se demande si H0 : F + F0 H1 : F F0 Si X est une variable discrte (ou discrtise), on peut employer un test du chi deux, et si la variable est continue, un test de Kolmogorov-Smirnov

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices
1.Gaz nocif Dans l'atmosphre, le taux d'un gaz nocif, pour un volume donn, suit une loi normale d'esprance et de variance 2 . On effectue n prlvements conduisant aux valeurs x1, x2, ..., xn. a) On sait que 2 = 100, mais on ne connat pas . Sur n = 10 prlvements, on a trouv une valeur moyenne de 48. Peut on admettre que la loi de ce taux est normale N(50,100) au risque 5% ? Peut on conclure, avec un risque de 5% que est infrieure 50 , qui est le seuil tolrable admis ? Peut on donner cette conclusion au risque 1% ? et au risque 10% ? b) On ne connat pas 2 en fait mais on a fait cette fois 50 prlvements et observ une moyenne gale 48 et une variance empirique S2 gale 100. Rpondre aux mmes questions. c) Sous les mmes conditions qu'en b), rpondre aux mmes questions lorsqu'on a observ 200 prlvements au lieu de 50. Peut on obtenir ce rsultat sans faire de nouveaux calculs ? 2. Fonction de rpartition empirique Si Fn est la fonction de rpartition empirique associe un n-chantillon d'une v.a.r. X de f.r. F, montrer que Fn(x) est, pour tout x, un estimateur sans biais de F(x). Quelle est la variance de cet estimateur ? Est il consistant ?

3. Fabricant de tissu Un fabricant de tissu essaye une nouvelle machine. Il fabrique des chantillons de 10 mtres et compte le nombre de dfauts par chantillon. Ayant examin n = 126 chantillons, il a trouv les rsultats suivants : Nombre de dfauts : j 0 1 2 Nombre d'chantillons : nj 44 49 24

M1_TD_sem 7.doc

1/2

C. Huber

2 3 7 4 2 Peut on considrer que la loi du nombre de dfauts pour 10 mtres de tissu est une loi de Poisson de paramtre gal 1 ? Effectuer un test et conclure. 4. Rhumatismes inflammatoires On distingue deux grandes classes de rhumatismes selon qu'ils sont inflammatoires (RI) ou non. Sur un groupe de 220 malades atteints de rhumatismes, on en a observ 167 RI . On sait que, dans la population gnrale, les trois quarts des rhumatismes sont de type RI. Peut on considrer qu'il en est de mme dans la population d'o a t tir cet chantillon ? Avec quel risque ? A partir d'une raction srodiagnostique, on effectue un dosage du facteur immunoconglutinine. C'est une variable alatoire note X chez les RI et X' chez les autres (car X' peut avoir une loi de probabilit diffrente de celle de X). On rsume les rsultats obtenus ainsi : x = 420 ; x2 = 1 400 ; x' = 104 ; x'2 = 292 . Sachant que XC et X' suivent une loi normale, pPeut on considrer que X et X' suivent la mme loi ?

M1_TD_sem 7.doc

2/2

C. Huber

Semaine 8

Tests d'ajustement.

Rappels de cours
On fait un test d'ajustement lorsqu'on se demande si la loi d'une variable X est une loi donne par avance. Ce sont donc des tests de comparaison une loi thorique. Test de Kolmogorov-Smirnov pour un chantillon: Il est valable pour n'importe quelle variable relle X. La loi thorique est donne par sa fonction de rpartition Fo : Ho : P(X x ) = Fo(x) Statistique du test D = sup | Fn- Fo | D est le maximum de la valeur absolue de la diffrence entre la fonction de rpartition Fo thorique, sur laquelle on veut faire l'ajustement, et la fonction de rpartition observe Fn . Test du chi2 d'ajustement: Il est valable pour une variable X ayant un nombre fini r de modalits, notes 1, 2, .... r: Ho : P(X = 1) = pl , P(X = 2) = p2 , .... P(X = r) = pr valeurs thoriques donnes E2= (Ni - n pi) 2 npi

E2 est l'cart relatif entre les effectifs observs Ni et les effectifs moyens npi attendus sous Ho. E2 suit (approximativement) une loi du chi 2 (r - 1) degrs de libert (ddl) pourvu que les effectifs attendus soient suprieurs ou gaux 5.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @

Exercices 1. souriceaux On dispose d'un lot de 500 souriceaux, et on se demande si ce lot est bien standard au point de vue de la taille. En effet, la loi de la taille adulte de ce type de souris, leves dans des conditions normales est connue. C'est en principe une loi normale de moyenne 10 et de variance 0,09 si la taille est mesure en centimtres. a) Pouvez vous donner un intervalle qui contienne la taille adulte d'une souris standard avec une probabilit de 95% ? b) Un chantillon de 6 sujets, tirs au hasard dans ce lot, atteint la taille suivante l'ge adulte 12,4 13,0 9,8 10,5 14,2 11,9

Peut on considrer que ce lot est bien standard ? 2. Calories et mortalit infantile Le tableau suivant donne, pour plusieurs pays, le nombre moyen de calories absorbes par personne et par jour ainsi que le taux de mortalit infantile : Pour chaque pays, x dsigne le nombre de calories par personne et par jour, pour mille, et y le taux de mortalit, pour 1000. Pays par jour x Argentina 2,730 Australia 3,300 Austria 2,990 Belgium 3,000 Burma 2,080 Canada 3,070 Ceylon 1,920 Chile 2,240 Columbia 1,860 Cuba 2,610 Deninark 3,420 Egypt 2,450 France 2,880 Germany 2,960 Greece 2,600 pourl,000 Pays x Iceland 3,160 India 1,970 Ireland 3,390 Italy 2,510 Japan 2,180 New Zealand Norway 3,160 Netheriands Poland 2,710 Sweden 3,210 Switzerland 3,110 U.K. 3,100 U.S.A. 3,150 Uruguay 2,380 par jourpour 1000 y 42.4 161.6 69.6 102,7 60.6 3,260 32.2 40.5 3,010 37.4 139.4 43.3 45.3 55.3 53.2 94.1

y 98.8 39.1 87.4 83,1 202.1 67.4 182.8 240.8 155.6 116.8 64.2 162.9 66.1 63.3 113.4

Peut-on considrer que chacune des deux variables X et Y, a une distribution normale ? (On identifiera, pour tester ces hypothses, l'esprance et la variance de X et de Y leurs estimateurs usuels respectifs).

Semaines 9 et 10

Mise en vidence de liaisons. Tests d'homognit ou d'indpendance.

Rappels de cours : A Tests d'homognit pour deux chantillons d'une variable continue :
Etant donns deux chantillons, on fait un test d'homognit lorsqu'on veut savoir si on peut considrer les deux chantillons comme provenant d'une mme population : c'est l'hypothse Ho . Test de Wilcoxon : C'est un test d'homognit trs puissant pour comparer deux chantillons d'une variable continue. On ordonne les deux chantillons dans leur ensemble, on remplace chaque observation par son rang et on note W la somme des rangs de l'un des deux chantillons. C'est une valeur numrique wo .Sous l'hypothse Ho , W a une loi qu'on peut calculer. Si P(W wo) (ou P(W wo suivant l'alternative laquelle on s'intresse) est trs petit (< 0,05 en gnral) on rejette Ho. On peut soit calculer directement la loi de W, soit la lire dans une table. Test de la mdiane : Si les deux chantillons proviennent de la mme population, ils ont en particulier, la mme mdiane : On les ordonne dans leur ensemble, on calcule la mdiane globale et on regarde comment ils se situent par rapport elle, ce qui donne un tableau de 4 nombres. Ce test n'est pas trs puissant et n'est utilis que lors d'une flagrante diffrence entre les deux chantillons. Test de comparaison de moyennes : En particulier, si les deux chantillons proviennent de la mme population, ils ont aussi la mme moyenne. En gnral, on ne connat pas la loi de la moyenne, mais si n est assez grand, cette loi est presque normale et on peut donc utiliser cette approximation :

B Tests d'indpendance pour un couple de variables :


Etant donn un chantillon d'un couple de variables, (X,Y), on fait un test d'indpendance lorsqu'on veut savoir si on peut considrer les deux variables comme indpendantes : c'est l'hypothse Ho . Test du chi deux : valable pour un tableau de contingence croisant deux variables ayant toutes les deux un nombre fini de modalits : Sous l'hypothse Ho d'indpendance de X et Y : P (X = i, Y = j) = P (X = i) . P (Y = j) soit pij = pi . p.j On fonde le test sur la statistique

(N N N / N) ij N Ni. /. j N i. . j

qui suit une loi proche de celle du 2 (r - 1) (k -1) degrs de libert, pourvu que les dnominateurs ni. p.j soient tous suprieurs 5 (si ce n'est pas le cas, on regroupe plusieurs classes).

M1_TD_sem_9_10.doc

1/2

C. Huber

2 Test de Spearman : valable pour un couple de variables continues dont on veut savoir si elles sont lies. On ordonne sparment les X entre eux et les Y entre eux et chaque sujet i a un rang Ri en X et un rang Si en Y. Dans le cas o X et Y sont indpendantes, le coefficient de corrlation de (R,S), appel coefficient de corrlation de Spearman , est proche de 0 et a une loi de probabilit qui ne dpend que du nombre n des observations. Cette loi est tabule pour les petites valeurs de n, et on utilise une approximation normale pour les grandes. @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices
1. Fume de papier cigarette et cancer du poumon Une exprience a t mene dans le but de mettre en vidence un ventuel effet de la fume de papier cigarette sur la gnse du cancer du poumon. Au cours de cette exprience, 74 souris ont t utilises, dont 36 ont servi de contrle. Les 38 souris exprimentales ont t places dans la cage exprimentale et les 36 souris de contrle dans la cage de contrle de la machine fumer. La machine produisait la fume de 108 papiers cigarette par jour, six jours par semaine et cela pendant un an. A la fin de l'exprience, les animaux furent sacrifis. Il y avait 13 tumeurs parmi les souris exprimentales et 11 parmi les tmoins. L'auteur conclut : "Il existe une trs lgre prpondrance du nombre des tumeurs chez les souris exprimentales par rapport aux souris tmoins, et cette prpondrancen'est pas significative si l'on en fait une analyse statistique ...Les rsultats de cette exprience indiquent que le papier cigarette a peu ou pas d'effet sur la gnration de cancer du poumon chez les souris albinos". a) Faire l'analyse statistique approprie pour vrifier la premire de ces deux conclusions. b) Etes-vous d'accord avec la deuxime conclusion de l'auteur ?

2. Calories et mortalit infantile (suite) On reprend les donnes sur la mortalit infantile et les calories. a) Tracer dans un plan x0y le diagramme reprsentatif de ces pays. Le rsultat obtenu suggre-t-il l'existence d'une liaison entre les deux variables considres ? Effectuer un test et conclure. b) pouvez-vous, des rsultats prcdents, dduire qu'un apport important de calories peut rduire la mortalit infantile ?

3. Souris infectes par des larves On s'intresse l'effet d'une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis. 16 souris ont t infectes par un mme nombre de larves de Trichinella et ensuite rparties au hasard entre deux groupes. Le premier groupe de 8 souris a reu du cambendazole, raison de 10 mg par kilo, 60 heures aprs l'infection. Les 8 autres souris n'ont pas reu de traitement. Au bout d'une semaine, toutes les souris ont t sacrifies et le nombre suivant de vers adultes ont t retrouvs dans les intestins : Souris non traites 514 Souris traites 441 556 472 629,5 493 6311 535 6813 577 7114 608 7515 7916 629,5 6712

Que peut-on conclure au sujet d'une ventuelle efficacit du cambendazole, dos 10 mg / kg, pour le traitement des infections des souris par la Trichinella Spiralis ? (en indice : les rangs). 4. Souriceaux (suite) On se demande s'il existe une relation entre la longueur de la queue et celle du corps d'un souriceau lev dans des conditions normales d'clairement. On tire au sort huit souris adultes leves dans des conditions d'clairement normal, et on mesure pour chacune d'elles, le corps et la queue, obtenant ainsi les rsultats suivants : Longueur du corps 11,6 12,4 10,9 11,2 12,1 11,8 13,1 12,5 Longueur de la queue 10,4 10,1 9,7 9,9 10,8 11,0 12,1 11,7 Peut on considrer, au vu de ces donnes, que la queue est d'autant plus longue que la souris est plus grande ? On proposera un test et on justifiera la conclusion obtenue.

M1_TD_sem_9_10.doc

2/2

C. Huber

Semaines 11 et 12

Tests de comparaison de k chantillons.

Rappels de cours :
Deux cas peuvent se produire selon que les chantillons sont lis ou non. A Echantillons indpendants. Test de la mdiane gnralise : Valable pour k chantillons indpendants d'une variable continue, pas ncessairement de la mme taille. Chacun des k chantillons est partag en deux effectifs par cette mdiane commune : ceux qui sont au-dessus et ceux qui sont au-dessous. Ces deux effectifs devraient tre du mme ordre. On est donc amen faire un test du chi 2 avec probabilit thorique 1/2. Test de Kruskal-Wallis : Valable pour k chantillons indpendants d'une variable continue, pas ncessairement de la mme taille. On ordonne toutes les valeurs dans leur ensemble ( n en tout) et on remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n pour la plus grande. A chacun des k chantillons, on fait ensuite correspondre son score obtenu comme la somme des rangs des observations qui le composent : soit Rj ce score. La statistique de Kruskal-Wallis est ainsi dfinie :
k Rj 12 KW = j 3(n + 1) n(n + 1) j =1 n

Cette statistique suit peu prs une loi du chi 2 k-1 ddl. B Echantillons lis. Test de Cochran: Valable pour k chantillons binaires lis. Contrairement ce qui se passe pour Kruskal-Wallis ou la mdiane gnralise, les k chantillons ont cette fois tous la mme taille, la liaison entre eux tant par exemple due ce que les observations sont faites sur un mme sujet et on a n sujets. Les donnes tant ranges dans n lignes et k colonnes, la statistique de Cochran est

Q=

k(k - 1) (G j G) 2
j =1

k Li
i =1

L
i=1

o les Li sont les totaux de lignes, Gj. les totaux de colonnes et G la moyenne des Gj. :Q ~ chi2(k-1)ddl .

M1_TD_sem_11_12.doc

1/4

C. Huber

Test de Friedman : Valable pour k chantillons lis d'une variable ordinale. Comme pour Cochran, on a un tableau rectangulaire n lignes et k colonnes. En supposant que les k modalits comparer apparaissent en colonne, l'intrieur de chaque ligne du tableau, on ordonne les valeurs par ordre croissant et on remplace chacune d'elles par son rang. On compte ensuite les scores de chaque colonne : Ri est la somme des lments de la colonne i. La statistique de Friedman vaut alors : k 12 Ri2 3n(k + 1) Fr 2 = nk (k + 1) i =1

Cette statistique a une loi approximativement chi 2 k-1 degrs de libert.


@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices 1.Vote Lors de sondages prlectoraux, on a demand 15 personnes quel serait leur vote au deuxime tour au cas o l'actuel favori F serait oppos l'un ou l'autre des autres candidats possibles : A, B ou C. Leur rponse est ainsi code : 1 s'ils votent pour F, 0 dans le cas contraire. Les rsultats sont les suivants. Candidat oppos au favori A B C 1 3 4 5 7 8 9 10 11 12 13 14 15 0 0 0 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 0 1 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 0 1

Peut on dire que le vote pour ou contre F dpend du candidat auquel F est oppos? 2.Bureaux paysagers Dans des bureaux paysagers d'une grande tour de la Dfense, on se demande si la couleur des parois, murs et petites cloisons de sparation, joue un rle sur le niveau sonore. Dans ce but, on fait l'exprience suivante : 7 couleurs diffrentes sont choisies pour les murs et cloisons, bleu ple, cladon, rouge vif, bleu fonc, vert fonc, jaune vif et finalemeet elles nt fond blanc pois rouges ( faible densit de pois) . Les bureaux sont organiss et occups de la mme faon sur tous les points except la tonalit gnrale du dcor. Les niveaux sonores mesurs dans chacun des bureaux (10 bleu clair, 8 cladon, etc..) sont les suivants :

M1_TD_sem_11_12.doc

2/4

C. Huber

bleu cl. vert cl. 1 2 3 4 5 6 7 8 9 10 11 38.5 40.5 42.5 42.8 38.7 38.8 43.6 35.5 42.2 38.5 40.2 39.0 44.0 37.6 38.1 45.6 41.2 36.9

rouge v. 54.2 49.8 64.8 57.2 57.9 59.4 60.3 60.9 59.9 61.1 56.9

bleu f. 48.9 47.7 51.2 52.7 56.3 50.3 51.1 49.3 45.8 50.2

vert f. 50.3 49.1 51.4 57.4 46.5 47.3 50.7 60.3 59.2

jaune v. 62.7 66.2 57.0 59.8 57.7 63.5 58.7

pois 43.0 39.6 41.6 38.6 46.1

Tester l'hypothse qu'il n'y a aucune influence de la couleur des cloisons sur le niveau sonore des bureaux. Ces donnes suggrent elles une interprtation conduisant une conclusion pratique ? 3.Publicit Dans le but de mieux vendre un magazine, quatre diffrents types de publicit sont tests sur des kioques de diffrents quartiers. Le premier type consiste placer devant le kioque une affiche publicitaire contenant une illustration provocante, les trois autres consistent offrir un cadeau d'accompagnement : un poster, une disquette, ou un CD rom. On a cinq quartiers diffrents, nots Qi , pour i = 1 5. L'augmentation des ventes est la suivante : Quartiers I Affiche poster 18 disquette CD 27 38 21 23 II 59 31 50 48 III 44 8 40 42 IV 13 80 12 14 V 103 95 98

4.Acuit auditive Pour tester une ventuelle dpendance de l'acuit auditive par rapport au degr d'clairement, on mesure cette acuit par un score de 0 100 sur 10 sujets soumis des clairements dcroissants. On obtient les rsultats suivants : Niveau d'Eclairement 1 1 2 3 4 5 6 75 42 78 55 56 53 0.5 69 63 57 79 60 75 0.25 70 73 73 64 81 84 0 98 99 70 74 66 91

M1_TD_sem_11_12.doc

3/4

C. Huber

7 8 9 10

40 73 51 55

50 79 85 55

94 85 72 79

66 76 73 90

Y a-t-il ou non une influence du niveau d'clairement sur l'acuit auditive ?

M1_TD_sem_11_12.doc

4/4

C. Huber

Semaines 13 et 14

Problmes de rvision

1. Dnombrement de globules rouges Le rsultat d'un dnombrement de globules rouges sur les 500 cases d'un hmatimtre est donn ci-dessous : X = i le nombre de globules d'une case 0 1 2 3 4 5 6 45 7 22 8 9 9 1 10 1 N 500

ni = nombre de cases 13 41 90 112 100 66 ayant i globules On donne x2 = ni i2 = 8 114 . I-

1) Calculer la moyenne observe m du nombre X de globules par case et la variance observe s2 de X. 2) Construire l'intervalle de confiance 5 % de , la moyenne thorique. 3) Si l'on suppose que X suit une loi de Poisson de paramtre , calculer 0 l'estimation de par le maximum de vraisemblance. Comparer avec le rsultat du 1). 4) (ne ncessite pas d'avoir rsolu le 3)). Quel estimateur peut-on donner de ? Quelles sont les proprits de cet estimateur ? II 1) Si l'on admet que pour un sujet sain = 4. Formuler compltement le test permettant de savoir, au risque , si les rsultats obtenus peuvent provenir d'un sujet sain. 2) On dcide de rejeter l'hypothse = 4 si la moyenne observe m [m1, m2] o m1 et m2 sont dfinies par Prob [m (m1, m2) | = 4] = 5 % Quelles sont vos conclusions ? 3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que = 4, la rpartition thorique moyenne du nombre de globules est donne par

M1_TD_sem_13_14.doc

1/10

C. Huber

X=i ri

0 9,1

3 97,7

8 14,9

9 6,6

10 2,7

11 1,4

36,6 73,3

97,7 78,1 52,1 29,8

o ri est le nombre (moyen) de cases ayant i globules. Peut-on admettre au risque de 5 % que les rsultats observs initialement sont ceux d'un sujet sain ? 4) Comparez aux rsultats du II - 2) et commentez. III - Pour confirmer les rsultats de la numration globulaire obtenue pour ce sujet on recommence l'exprience une semaine aprs. Pour ce deuxime prlvement on ne compte que le nombre de cases sans globules. On obtient alors les rsultats suivants : X 1er prlvement 2me prlvement 0 13 19 21 487 481 Nbre total de cases 500 500

La proportion de cases vides est-elle la mme pour ces deux prlvements ? 2. Dlai d'apparition d'une maladie On suppose que le dlai X d'apparition d'une maladie aprs la mise en contact avec un milieu polluant est une variable alatoire dont la loi admet la densit f (x) = a.exp (-ax) si x 0 =0 si x < 0 1) Quelle est la fonction de rpartition F (x) de cette variable au point x ? 2) Calculer EX et Var (X). 3) Sur n sujets indpendants, on a mesur le dlai d'apparition de la maladie, obtenant un dlai moyen d'apparition M = (X1 + ... +Xn) / n. Que valent l'esprance EM et la variance V(M) de M ? 4) Sur n = 100 sujets, on a observ un dlai moyen d'apparition de 21 jours avec un cart type empirique de 5 jours. peut on en dduire un intervalle de confiance au risque 3 % pour le paramtre inconnu a ? 5) Reprendre le problme en supposant cette fois que la loi de X est la loi uniforme sur le segment [0 a]

M1_TD_sem_13_14.doc

2/10

C. Huber

3. Diabte infantile Une revue mdicale a rcemment publi le tableau ci-dessous la suite d'une enqute sur le diabte infantile. Les 269 patients examins ont t tirs au hasard de la population Pde diabtiques ainsi dfinie : d'une part il fallait que le diabte se soit dclar chez le sujet avant qu'il n'ait atteint l'ge de 15 ans, d'autre part que la dure d'volution de la maladie, c'est dire le temps coul entre la date d'apparition du diabte et la date de l'enqute, soit suprieure 15 ans. Sur les 269 sujets observs, 115 sont des hommes et 154 des femmes. Dure Nombre de d'volution cas 15 < t 20 20 < t 25 t > 25 TOTAL 173 58 38 269 Rtinopathies R1 45 17 12 74 R2 15 12 7 34 R3 7 3 3 13

67 32 22 121

Les patients, comme on le voit sur le tableau, ont t rpartis en 3 classessuivant que la dure t d'volution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dpasse 25 ans. Certains sujets sont atteints de rtinopathie (maladie de la rtine), d'autres pas. Ceux qui en sont atteints ont t rpartis en trois catgories : R1, R2 et R3 d'aprs la gravit de la rtinopathie : R1 si l'atteinte est lgre, R2 si elle est moyenne et R3 si elle est forte. a) - Tester, au seuil de signification de 2 %, l'hypothse selon laquelle la population P tudie est compose d'autant d'hommes que de femmes. Pour quelles valeurs du seuil de signification accepterait on cette hypothse ? b) - Donner une estimation par un intervalle de confiance 5 % de la proportion des malades atteints de rtinopathie dans chacune des classes de dure d'volution. Peut-on considrer que ce pourcentage croit significativement en mme temps que la dure d'volution, au seuil de 5 % ? c) - Parmi les sujets atteints de rtinopathie, la gravit de la rtinopathie dpend elle de la dure d'volution du diabte ? d) - 18 des patients figurant dans l'enqute prsentent de l'hypertension artrielle (note H.T.A.). On a test sur eux un nouveau mdicament destin faire baisser la tension, et obtenu au bout de 40 jours de traitement les rsultats suivants :

Numro du patient Diffrence de tension

10

11

12 -8

13

14

15

16

17

18

+1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9

-18 -5

-22 -21 -15 -11

Peut-on considrer que ce traitement est efficace ? (On pourra pour cela tester au seuil de 5% l'hypothse H0 selon laquelle le traitement n'a aucun effet). 4. Capacit respiratoire et pollution atmosphrique Lors d'une tude destine mettre en vidence d'ventuelles relations entre les affections respiratoires et la pollution atmosphrique, on a obtenu les rsultats suivants dans
M1_TD_sem_13_14.doc 3/10 C. Huber

des quartiers bien dfinis de quatre grandes villes franaises (*) :


Concentration en SO2 (UG / M3) Bordeaux B1 B2 B3 B4 Lyon L1 L2 L3 L4 88 100 56 94 60 105 120 48 32 34 13 42 37 69 47 26, 2 27, 3 29, 3 26, 8 31, 5 31, 2 29, 2 28, 4 28, 2 30, 2 27, 7 26, 6 25, 9 28, 7 26, 1 Prvalence des symptomes respiratoires

Marseille M1 M2 M3 M4 Toulouse T1 T2 T3

1) Peut on considrer que les deux villes de Bordeaux et de Lyon sont comparables en ce qui concerne la pollution par le dioxyde de soufre ? 2) Ce tableau de donnes permet-il de conclure l'existenced'une liaison entre la prvalence des symptomes respiratoires et la concentration en dioxyde de soufre ? (Comme il serait trop long de dcrire le protocole de l'enqute qui a permis de recueillir ces donnes, on pourra supposer vrifies les hypothses qui permettent d'effectuer un test) 3) Le volume expiratoire moyen en une seconde, appel Vems, est une quantit qui dpend de la taille et de l ge.Les mesures faites sur 8 individusadultes ont donn les rsultats suivants
Individu Age (an) Taille (m) Vems (1 / s) 1 2 3 4 5 6 7 8 30 32 35 36 37 31 36 33 1. 85 1. 72 1. 51 1. 62 1. 6 1. 80 1. 75 1. 68 4. 5 3. 6 2. 7 3. 1 3. 6 4. 4 4. 3 3. 8

Un modle de rgression linaire a t propos pour la liaison entre le Vems et la taille, illustr par la figure suivante :

M1_TD_sem_13_14.doc

4/10

C. Huber

V.e.m.s. en litres/seconde

30-39 ans

40-49 ans

50-59 ans 3.0

2.5

2.0 1.5 1.7 1.8 1.9 Taille en mtres

4) L'chantillon des 8 personnes interroges parait-il tre conforme ce modle, c'est dire Vi = a . Ti + b + Zi o V est la variable qui dsigne le Vems, T la taille, et Z une variable Normale N (0; 0, 06) et i est l'indice dsignant l'individu. 5) En fait, les 4 premires personnes ont t tires au hasard d'une population soumise une pollution atmosphrique significativement plus importante que les 4 autres. Ces donnes vous permettent-elles de conclure l'existence d'une liaison entre la pollution atmosphrique et le Vems ? 6)Trois rgions sont classes suivant la teneur de l'air en poussires, par ordre croissant (I, II, III), et on extrait dans chacune de ces rgions un chantillon d'individus dont on mesure le Vems; les valeurs du Vems sont subdivises en quatre classes notes 1, 2, 3, 4 (1 correspond un Vems trs bas, 2 un Vems bas, 3 un normal,4 un suprieur la normale) :
Rgion Vems 1 2 3 4 I 12 54 124 10 II 23 73 102 7 III 42 67 85 8

Peut-on considrer qu'il existe une liaison significative entre la teneur de l'air en poussires et le V.e.m.s. ? (*) D'aprs : Enqute du groupe coopratif PAARC, Bull. europ. Physiopath.respiratoire, 1980, 16,745 767;1982,18, 87-99; 101 -116

5. Papillons
M1_TD_sem_13_14.doc 5/10 C. Huber

On tudie une varit de papillons qui se prsentent sous l'une des trois couleurs suivantes : jaune, orange ou noir (1). I. On a remarqu que dans les rgions au climat rigoureux les papillons noirs semblaient tre, en proportion, plus nombreux que dans les rgions dont le climat est doux. On a donc observ deux chantillons de ces papillons, l'un de 360 et l'autre de 180 papillons sous l'un et l'autre climats, et obtenu les rsultats suivants :
papillons rgion climat doux climat rude noirs 42 39 oranges 164 73 jaunes 154 68 Total 360 180

a) Tester, au niveau d = 2 %, l'hypothse H0 selon laquelle la rpartition des papillons entre les trois couleurs est indpendante de la rigueur du climat. b) Quelle autre hypothse H'0 auriez-vous pu choisir de tester dans le but de vrifier si effectivement les papillons noirs taient proportionnellement plus nombreux dans les rgions froides ? Indiquez les grandes lignes de la rsoluton de ce nouveau problme de test de votre choix. II. Les trois couleurs possibles jaune, orange et noir, correspondent respectivement aux trois gnotypes aa Aa AA. Or les deux varits allles A et a du gne de coloration sont rparties, dans la population des papillons, dans les proportions respectives et 1 - , o est un paramtre inconnu, strictement compris entre 0 et 1. De plus les croisements sont supposs avoir lieu au hasard. (Autrement dit pour former un papillon de gnotype donn, tout se passe comme si l'on effectuait deux tirages avec remise dans une urne contenant une proportion de A et 1 - de a). a) Quelles sont, en fonction de , les probabilits p1, p2 et p3, pour qu'un papillon soit respectivement noir, orange ou jaune ? b) On tire au hasard n papillons et on dsigne respectivement par X1, X2 et X3 le nombre de ceux qui sont de gnotype AA Aa et aa. On considre les vnements suivants :
E1 = {X1 = n1} ; E2 = {X2 = n2} ; E3 = {X3 = n3} E12 = {X1 = n1, X2 = n2} = E1 E2 E123 = {X1 = n1, X2 = n2, X3 = n3} = E12 E3 = E1 P(E1) , P(E2 / E1) , P(E12) , P(E3 / E12). E2 E3

Calculer, en fonction de p1, p2 et p3, les probabilits suivantes : En dduire P(E123). Voyez-vous une autre faon, plus directe, de calculer P(E123) ? Exprimer P(E123) en fonction de .(2) c) Sur un chantillon de n papillons dont n1 sont noirs, n2 oranges et n3 jaunes, on cherche estimer la valeur de . Donner, en fonction de n1, n2 et n3, l'estimateur du maximum de vraisemblance de .

Application numrique : On se limite aux rgions dont le climat est doux, et on utilise les donnes figurant dans
M1_TD_sem_13_14.doc 6/10 C. Huber

la premire ligne du tableau de la question I. III Une thorie conduit donner la valeur 1 / 3. a) Tester l'hypothse H0 : ( = 1 / 3) au seuil de 10 %, en ce qui concerne les papillons qui vivent dans les rgions dont le climat est doux. A partir de quel seuil aurait-on rejet H0 ? (Utiliser les donnes de la 1re ligne du tableau I). b) On s'est aperu que l'excdent de papillons noirs dans les rgions au climat rude, est d au fait que les papillons jaunes et oranges semblent y survivre moins bien. Pour vrifier l'exactitude de cette remarque, on compare, dans ces rgions, les dures de vie des papillons noirs et des autres. On fait 100 observations indpendantes sur la diffrence D entre la dure de vie d'un papillon noir et d'un papillon d'une autre couleur, comparables en tous points (autre que la couleur) et situs dans les mmes conditions de vie. Ces 100observations (di) i = 1, ..., 100, mesures en jours, ont pour moyenne empirique m = di / 100 = 10 jours , et s2 = (di - m ) 2 / 100 = 16 pour variance empirique. Tester au seuil de 5 % l'hypothse H0 : la dure de vie de cette espce de papillons est indpendante de leur couleur, noir ou non, dans les rgions au climat rigoureux. c) On s'aperoit, aprs coup, que les mesures de la diffrence D entre les dures de vie ont t fausses par l'appariement de telle sorte que l'chantillon de taille 100 (en fait 200observations) n'est pas reprsentatif. Comme on n'a plus ni le temps, ni les moyens de recommencer l'exprience sous une forme comparable, on mesure les dures de vie de 10 papillons noirs et de 10 papillons d'une autre couleur, tirs au hasard et on obtient : Papillons noirs Autres 14 8 10 17 11 9 12 10 13 12 12 11 9 16 14 7 18 8 17 13

Peut on conclure ? (1) Les parties I, II et III sont indpendantes (sauf en ce qui concerne la question III a) qui ncessite le rsultat de la question II a)).

M1_TD_sem_13_14.doc

7/10

C. Huber

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @@@@@@@ PROBLEMES.

I. Marqueurs de la mucoviscidose Il s'agit de savoir si une protine qui fixe le calcium est perturbe lorsque le sujet est atteint de mucoviscidose. Pour mettre en vidence une ventuelle diffrence, on utilise un complexe radioactif qui provoque sur la protine l'apparition de taches noires qu'on mesure au densitomtre aprs dpt sur une plaque de plastique. Sur chacune de ces plaques, on a trois protines : une normale T , une appartenant un sujet faiblement atteint de mucoviscidose L et une appartenant un sujet gravement atteint de mucoviscidose G. Chaque plaque a ses caractristiques et il est impossible de rgler le temps de pause pour qu'il soit toujours le mme, aussi y a-t-il une influence de la plaque sur le rsultat des mesures par le densitomtre. Les rsultats obtenus sont les suivants : Protines N L G Plaque 1 32 38 46 Plaque 2 41 43 42 Plaque 3 23 28 31 Plaque 4 18 24 27 Plaque 5 56 60 64 Plaque 6 43 45 49

Peut on considrer que cette protine est un marqueur de la mucoviscidose ? (Autrement dit, les trois chantillons lis correspondant N, L et G peuvent ils tre considrs comme provenant d'une mme population ?).

II Longvit des nmatodes Dans le cadre de l'tude du vieillissement, le professeur Thomas Johnson a tudi, l'universit du Colorado, la dure de vie des nmatodes. La dure de vie de ces petits vers, qui deviennent adultes en trois jours, est d'une vingtaine de jours en l'absence de toute intervention. Or un gne G1 a t identifi comme tant potentiellement un "gne du vieillissement". Deux chantillons de nmatodes ont t constitus : l'un n'a subi aucune intervention, et sur l'autre, on a dsactiv le gne G1. On a ainsi obtenu les rsultats suivants, o les mesures Xi concernent le premier chantillon et les mesures Yi le second : Sujet X Y 12 23 25 3 19 24 4 21 30 5 20 35 6 18 40 22 39

Ces mesures permettent elles de confirmer l'hypothse que G1 pourrait tre effectivement

un gne du

vieillissement ?

M1_TD_sem_13_14.doc

8/10

C. Huber

III Rgime basses calories Toujours dans le cadre de l'tude du vieillissement, une exprience a t mene avec des souris de laboratoire qui l'on impose un rgime plus ou moins riche en calories. A chaque souris traite correspond une dose D de calories ingre chaque jour et une dure de vie X. Comme un rgime pauvre en calories, avec cependant une dose normale de protines et de vitamines, est suppos augmenter la dure de vie, la dose est mesure en multiples d'une dose standard et la dure de vie en mois. Les observations ont t les suivantes : Sujet 1 2 3 4 5 6 7 D 1,4 1,2 1 0,8 0,6 0,4 0,2 X 26 30 28 35 38 41 39 Peut on considrer qu'il y a une liaison entre la longvit et la dose de calories absorbe ? Justifier le test employ, donner son degr de signification, et commenter le rsultat. IV. Stage A l'issue d'un stage dans une entreprise, pour slectionner les candidats qui auront un emploi dfinitif, on leur fait passer un test qui comporte dix questions. Ces dix questions sont supposes prsenter la mme difficult, c'est dire que, pour chaque candidat, la probabilit de russite est en principe la mme pour chacune des questions. Pour chaque candidat, 1 dsigne la russite et 0 l'chec. L'preuve a donn les rsultats suivants : n du candidat 1 2 3 4 5 6 7 8 1 1 1 1 0 1 0 1 0 1 1 0 1 1 0 1 1 0 1 0 1 1 0 1 Rponses aux questions 0 0 1 1 1 1 0 0 1 0 1 1 0 1 0 1 0 0 1 1 0 1 0 1 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0

1) Peut on considrer que les dix questions sont de mme difficult ? 2)En fait, les cinq premires questions ont t poses par une mme personne et les cinq dernires par une autre. Pourriez vous interprter le rsultat obtenu en 1) l'aide d'un autre test ? V Autoritarisme et conformisme Dans le cadre d'une tude sociologique, on essaye d'tablir, grce une enqute auprs d'tudiants dans une universit, s'il existe un lien entre le conformisme et l'autoritarisme. Pour cela on pose un certain nombre de questions sur les comportements considrs comme prfrables dans telle ou telle situation, et on obtient, pour chaque tudiant un score de 'conformisme', selon l'chelle de Smith et un score d'autoritarisme, selon l'chelle de Durand. Les rsultats obtenus sur 1es 12 tudiants de l'enqute ont t les suivants :
M1_TD_sem_13_14.doc 9/10 C. Huber

10

Etudiant 1 2 3 4 5 6 7 8 9 10 11 12

Score de conformisme 42 46 39 37 65 88 86 56 62 92 54 81

Score d'autoritarisme 82 98 87 40 116 113 111 83 85 126 106 117

Quelle conclusion pouvez vous en tirer ? VI Dure de survie Trois nouveaux traitements, nots A, B et C sont mis en comptition pour rallonger la dure de survie de patients atteints de sida avr. L'essai thrapeutique a lieu dans six centres hospitaliers de la communaut europenne. Un protocole a t tabli pour harmoniser les conditions de l'hospitalisation entre les trois centres mais il reste cependant des caractristiques de chacun des centres, telles que par exemple le recrutement des patients, qui ne peuvent pas tre rendues identiques pour l'ensemble des six. Les observations concernent la dure de survie cumule de 10 patients dans chaque centre. Exprimes en nombre de mois, ces observations ont t les suivantes : Traitements A B C Centre 1 302 310 402 Centre 2 401 413 420 Centre 3 231 283 317 Centre 4 182 241 280 Centre 5 553 610 645 Centre 6 403 451 497

Pouvez vous faire un test de comparaison de ces trois traitements, en tenant compte de l'influence possible de chacun des centres hospitaliers ?

M1_TD_sem_13_14.doc

10/10

C. Huber

Вам также может понравиться